JP7487331B2

JP7487331B2 - 没入型メディアをストリーミングする方法、並びにそのコンピュータシステム、及びコンピュータプログラム

Info

Publication number: JP7487331B2
Application number: JP2022559389A
Authority: JP
Inventors: アリアンヌ・ハインズ; ステファン・ヴェンガー
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-12-17
Filing date: 2021-09-01
Publication date: 2024-05-20
Anticipated expiration: 2041-09-01
Also published as: EP4085397A1; US11943271B2; WO2022132248A1; EP4085397B1; US20240179203A1; JP2023519610A; KR20220115608A; US20220201055A1; EP4085397A4; CN115280336A

Description

［関連出願の相互参照］
本願は、米国特許商標庁に（２０２０年１２月１７日に）出願された米国仮特許出願第６３／１２７０３６号と（２０２１年８月２０日に）出願された米国特許出願第１７／４０７８１６号の優先権を主張し、その全ての内容は、参照により本明細書に組み込まれるものとする。
［技術分野］
本開示は、一般的に、データ処理の分野に関し、より具体的には、ビデオコーディングに関する。

「没入型メディア」とは、一般的に、人間の感覚系（視覚、聴覚、体性感覚、嗅覚、場合によっては味覚）のいずれか又は全てを刺激して、メディアの体験に物理的に存在するユーザの認知を作成するか又は強化するメディア、つまり、「レガシーメディア」として知られる、時限２次元（２Ｄ）ビデオ及び対応する音声のために既存の商用ネットワーク上で配信されるもの以外のものを指す。没入型メディアとレガシーメディアはいずれも、時限又は非時限として特徴付けることができる。

時限メディアとは、時間に従って構造化されて提示されるメディアを指す。例としては、映画特集、ニュースレポート、エピソードコンテンツが挙げられ、これらは全て、期間に従って編成されている。レガシービデオと音声は、一般的に時限メディアと見なされる。

非時限メディアとは、時間ではなく、論理的、空間的及び／又は時間的な関係によって構造化されたメディアである。例としては、ユーザがゲームデバイスによって作成された体験を制御できるビデオゲームが挙げられる。非時限メディアのもう１つの例は、カメラによって撮影された静止画像写真である。非時限メディアは、例えば、ビデオゲームシーンの連続繰り返し音声又はビデオセグメントに時限メディアを組み込んでもない。逆に、時限メディアは、例えば、背景として固定された静止画像を有するビデオなどの非時限メディアを組み込んでもない。

没入型メディア対応のデバイスとは、没入型メディアにアクセス、解釈及び提示する機能を備えたデバイスを指す。このようなメディアとデバイスは、メディアの量とフォーマット、及びこのようなメディアを大規模に配信するために必要なネットワークリソースの数と種類、つまり、ネットワーク上でレガシービデオ及び音声メディアの配信と同等の配信を実現するために必要なネットワークリソースの数と種類の点で異種である。これに対して、ラップトップディスプレイ、テレビ、モバイルハンドセットディスプレイなどのレガシーデバイスは、全て長方形のディスプレイ画面で構成されており、２Ｄ長方形のビデオ又は静止画像を主要なメディアフォーマットとして使用するため、能力の点で同種である。

実施形態は、没入型メディアをストリーミングする方法、システム及びコンピュータ可読媒体に関する。一態様では、没入型メディアをストリーミングする方法が提供される。該方法は、第１の２次元フォーマット又は第１の３次元フォーマットでコンテンツを取り込むステップであって、前記フォーマットがニューラルネットワークを参照するステップを含んでもよい。参照した前記ニューラルネットワークに基づいて、取り込んだ前記コンテンツを第２の２次元フォーマット又は第２の３次元フォーマットに変換する。テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラーライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ又は高密度ライトフィールドディスプレイなどのクライアントエンドポイントに変換したコンテンツをストリーミングする。

別の態様では、没入型メディアをストリーミングするコンピュータシステムが提供される。コンピュータシステムは、１つ以上のプロセッサと、１つ以上のコンピュータ可読メモリと、１つ以上のコンピュータ可読有形記憶デバイスと、１つ以上のプロセッサのうちの少なくとも１つが１つ以上のメモリのうちの少なくとも１つを介して実行する、１つ以上の記憶デバイスのうちの少なくとも１つに記憶されたプログラム命令と、を含んでもよいため、方法を実行することができる。該方法は、第１の２次元フォーマット又は第１の３次元フォーマットでコンテンツを取り込むステップであって、前記フォーマットがニューラルネットワークを参照するステップを含んでもよい。参照した前記ニューラルネットワークに基づいて、取り込んだ前記コンテンツを第２の２次元フォーマット又は第２の３次元フォーマットに変換する。テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラーライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ又は高密度ライトフィールドディスプレイなどのクライアントエンドポイントに変換したコンテンツをストリーミングする。

さらに別の態様では、没入型メディアをストリーミングするコンピュータ可読媒体が提供される。コンピュータ可読媒体は、１つ以上のコンピュータ可読記憶デバイスと、プロセッサが実行することができる、１つ以上の有形記憶デバイスのうちの少なくとも１つに記憶されたプログラム命令とを含んでもよい。プログラム命令は、プロセッサによって実行可能であり、該プロセッサは、第１の２次元フォーマット又は第１の３次元フォーマットでコンテンツを取り込むステップであって、前記フォーマットがニューラルネットワークを参照するステップをそれに応じて含んでもよい方法を実行する。参照した前記ニューラルネットワークに基づいて、取り込んだ前記コンテンツを第２の２次元フォーマット又は第２の３次元フォーマットに変換する。テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラーライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ又は高密度ライトフィールドディスプレイなどのクライアントエンドポイントに変換したコンテンツをストリーミングする。

これら及び他の目的、特徴及び利点は、添付の図面に関連して読まれるべき、例示的な実施形態の以下の詳細な説明から明らかになるであろう。図は、当業者が詳細な説明と併せて本発明を理解することを容易にするためのものであるため、図面の様々な特徴は、縮尺どおりではない。

時限レガシーメディア配信のエンドツーエンドプロセスの概略図である。時限レガシーメディアのストリーミングに使用される標準メディアフォーマットの概略図である。時限没入型メディアの表現及びストリーミングのためのデータモデルの実施形態の概略図である。非時限没入型メディアの表現及びストリーミングのためのデータモデルの実施形態の概略図である。自然のシーンをキャプチャして、異種クライアントエンドポイントにサービスを提供するネットワークの取り込みフォーマットとして使用できる表現に変換するプロセスの概略図である。３Ｄモデリングツールとフォーマットを使用して、異種クライアントエンドポイントにサービスを提供するネットワークの取り込みフォーマットとして使用できる合成シーンの表現を作成するプロセスの概略図である。コンピュータシステムの系統図である。複数の異種クライアントエンドポイントにサービスを提供するネットワークの概略図である。例えば、特定の没入型メディアのクライアントエンドポイントによる消費のためにメディアを適応させるネットワークのプロセスの前に、メディア取り込みフォーマットで表される特定のメディアに関する適応情報を提供するネットワークの概略図である。ソースメディアを取り込みフォーマットから特定のクライアントエンドポイントに適した特定のフォーマットに変換するメディアレンダーコンバータからなるメディア適応プロセスの系統図である。適応したソースメディアを表現及びストリーミングに適したデータモデルにフォーマットするネットワークの概略図である。図１１のデータモデルをネットワークプロトコルパケットのペイロードにフラグメント化するメディアストリーミングプロセスの系統図である。取り込みフォーマットの特定の没入型メディアを、特定の没入型メディアクライアントエンドポイントのストリーミング可能で適切な配信フォーマットに適応させるネットワークのシーケンス図である。没入型及びレガシーコンテンツフォーマットの両方、すなわち、２Ｄビデオフォーマットのみ、又は没入型及び２Ｄビデオフォーマットの両方からなる、図１０の取り込みメディアフォーマット及び資産１００２の概略図である。コード化ビデオストリームとともにニューラルネットワークモデル情報の伝送を示す。入力没入型メディア及び資産とともにニューラルネットワークモデル情報の伝送を示す。

特許請求される構造及び方法の詳細な実施形態は、本明細書に開示されている。しかしながら、開示された実施形態は、様々な形態で具体化され得る特許請求される構造及び方法を例示するに過ぎないことが理解できる。しかしながら、それらの構造及び方法は、多くの異なる形態で具体化されてもよく、本明細書に記載の例示的な実施形態に限定されると解釈されるべきではない。むしろ、これらの例示的な実施形態は、本開示が徹底的かつ完全であり、当業者に本発明の範囲を完全に伝えるように提供される。説明では、周知の特徴及び技術の詳細は、提示された実施形態を不必要に曖昧にしないように省略されてもよい。

実施形態は、一般的に、データ処理の分野に関し、より具体的には、ビデオコーディングに関する。本明細書で説明される技術は、ネットワークが１つ以上の（通常は少数の）ビューを含むメディアの２Ｄビデオソースを取り込み、２Ｄメディアのソースを１つ以上のストリーミング可能な「配信フォーマット」に適応させて、フォーマットされたメディアを様々なクライアントエンドポイントに実際に配信する前に、様々な異種クライアントエンドポイントデバイス、それらの様々な特徴及び能力、並びにクライアントエンドポイントに使用されるアプリケーションの要件に対応するために、２Ｄコード化ビデオストリームがシーン固有のニューラルネットワークモデルをシグナリングすることを可能にする。ネットワークモデルは、ＳＥＩ構造化フィールドを使用して、コード化ビットストリームのシーン固有のコード化ビデオストリームに直接的に埋め込まれてもよく、或いは、ＳＥＩは、配信ネットワークの他の場所に記憶されているが、ニューラルネットワークプロセスがアクセスできる特定のモデルの使用をシグナリングしてもよい。２Ｄメディアソースを様々なストリーミング可能な配信フォーマットに再フォーマットする機能により、ネットワークが様々な能力と利用可能な計算リソースを備えた様々なクライアントエンドポイントにサービスを同時に提供でき、商用ネットワークでのホログラフィック及びライトフィールドディスプレイなどの新しい没入型クライアントエンドポイントのサポートが可能になる。さらに、シーン固有のニューラルネットワークモデルに基づいてシーン固有の２Ｄメディアソースを適応させる機能により、最終的な視覚品質を向上させる。２Ｄメディアソースを適応させるこのような機能は、利用可能な没入型メディアソースがない場合、及びクライアントが２Ｄメディアに基づく配信フォーマットをサポートできない場合に特に重要である。このシナリオでは、ニューラルネットワークベースのアプローチは、特定のシーン内のオブジェクト又は特定のシーンのコンテキストに一般的に類似している事前分布で訓練されたシーン固有のニューラルネットワークモデルを保持することにより、２Ｄメディア内に存在する特定のシーンでより最適に使用することができる。これにより、特定のシーンに関する深度ベースの情報を推論するネットワークの機能が向上し、２Ｄメディアをターゲットクライアントエンドポイントに適したシーン固有のボリュームフォーマットに適応させることができる。

前述のように、「没入型メディア」とは、一般的に、人間の感覚系（視覚、聴覚、体性感覚、嗅覚、場合によっては味覚）のいずれか又は全てを刺激して、メディアの体験に物理的に存在するユーザの認知を作成するか又は強化するメディア、つまり、「レガシーメディア」として知られる、時限２次元（２Ｄ）ビデオ及び対応する音声のために既存の商用ネットワーク上で配信されるもの以外のものを指す。没入型メディアとレガシーメディアはいずれも、時限又は非時限として特徴付けることができる。
時限メディアとは、時間に従って構造化されて提示されるメディアを指す。例としては、映画特集、ニュースレポート、エピソードコンテンツが挙げられ、これらは全て、期間に従って編成されている。レガシービデオと音声は、一般的に時限メディアと見なされる。
非時限メディアとは、時間ではなく、論理的、空間的及び／又は時間的な関係によって構造化されたメディアである。例としては、ユーザがゲームデバイスによって作成された体験を制御できるビデオゲームが挙げられる。非時限メディアのもう１つの例は、カメラによって撮影された静止画像写真である。非時限メディアは、例えば、ビデオゲームシーンの連続繰り返し音声又はビデオセグメントに時限メディアを組み込んでもない。逆に、時限メディアは、例えば、背景として固定された静止画像を有するビデオなどの非時限メディアを組み込んでもない。

ネットワーク上の任意のメディアの配信は、メディアを入力又はネットワーク「取り込み」フォーマットから最終的な配信フォーマットに再フォーマットするメディア配信システムとアーキテクチャを使用してもよく、該配信フォーマットは、ターゲットクライアントデバイス及びそのアプリケーションに適するだけでなく、ネットワークを介したストリーミングに役立つ。メディアの「ストリーミング」とは、広義には、メディアの時間的又は空間的構造のいずれか又は両方に従って論理的に編成及び順序付けされた、連続した小さなサイズの「チャンク」でネットワークを介して配信できるようにするための、ソースメディアのフラグメント化とパケット化を指す。このような配信アーキテクチャ及びシステムでは、メディアは、圧縮又は階層化プロセスを受けることにより、最も顕著なメディア情報のみが最初にクライアントに配信されてもよい。場合によっては、クライアントは、同じメディア部分のいずれかをエンドユーザに提示する前に、メディアの一部の重要なメディア情報を全て受信しなければならない。

ターゲットクライアントエンドポイントの能力に一致するように入力メディアを再フォーマットするプロセスは、再フォーマットされている特定のメディアのいくつかの事前知識をカプセル化する可能性のあるネットワークモデルを使用するニューラルネットワークプロセスを使用してもよい。例えば、特定のモデルは、屋外の公園のシーン（木、植物、草、及び公園のシーンでよく見られるその他のオブジェクトを備える）を認識するように調整されてもよいのに対し、別の特定のモデルは、屋内の夕食のシーン（夕食のテーブル、調理器具、テーブルに座っている人などを備える）を認識するように調整されてもよい。当業者は、特定のコンテキストからのオブジェクト、例えば、公園のシーンのオブジェクトを認識するように調整されたネットワークモデルと、特定のシーンのコンテンツに一致するように調整されたネットワークモデルを備えたニューラルネットワークプロセスとが、それほど調整されていないネットワークモデルの場合よりも優れた視覚的結果を生み出すことを認識するであろう。したがって、ターゲットクライアントエンドポイントの能力に一致するように入力メディアを再フォーマットすることをタスクとするニューラルネットワークプロセスにシーン固有のネットワークモデルを提供するという利点がある。

ニューラルネットワークモデルを２Ｄメディアの特定のシーンに関連付けるメカニズムは、ネットワークモデルを任意に圧縮し、Ｈ．２６４、Ｈ．２６５及びＨ．２６６ビデオ圧縮フォーマットのコード化ビデオストリームにメタデータを添付するために一般的に使用される補足強化情報（ＳＥＩ）構造化フィールドを使用して、視覚的シーンの２Ｄコード化ビットストリームに直接挿入することにより実現することができる。コード化ビデオビットストリームの一部のコンテキスト内に特定のニューラルネットワークモデルを含むＳＥＩメッセージの存在は、ネットワークモデルが、モデルが埋め込まれているビットストリームの一部内のビデオコンテンツを解釈し適応させるために使用されることを示すために使用されてもよい。或いは、ＳＥＩメッセージを使用して、ネットワークモデルの識別子により、実際のモデル自体がない場合にどのニューラルネットワークモデルを使用できるかをシグナリングすることができる。

没入型メディアに適切なニューラルネットワークを関連付けるメカニズムは、使用する適切なニューラルネットワークモデルを参照する没入型メディア自体によって実現されてもよい。この参照は、ネットワークモデル及びそのパラメータをオブジェクトごとに、シーンごとに、又はそれらの組み合わせによって直接的に埋め込むことによって実現されてもよい。或いは、メディア内に１つ以上のニューラルネットワークモデルを埋め込むのではなく、メディアオブジェクト又はシーンが識別子によって特定のニューラルネットワークモデルを参照してもよい。

クライアントエンドポイントへのストリーミング用のメディアの適応のために適切なニューラルネットワークを参照するためのさらに別の代替メカニズムは、特定のクライアントエンドポイント自体が、使用する適応プロセスに少なくとも１つのニューラルネットワークモデルと対応するパラメータを提供することである。そのようなメカニズムは、適応プロセスとの通信においてニューラルネットワークモデルを提供するクライアントによって、例えば、クライアントがそれ自体をネットワークに接続するときに実施されてもよい。
ビデオをターゲットクライアントエンドポイントに適応させた後、ネットワーク内の適応プロセスは、結果に圧縮アルゴリズムを適用することを選択してもよい。さらに、圧縮アルゴリズムは、任意に、適応されたビデオ信号を、視覚信号の最も顕著な部分から最も顕著でない部分に対応する層に分離してもよい。

圧縮及び階層化プロセスの例は、最初に焦点を合っていない画像全体が基本的な形状と色のみで提示されるように、つまり、画像走査全体の低次ＤＣＴ係数から、画像を層に分離した後に、画像に焦点を合わせるように、つまり画像走査の高次ＤＣＴ係数から、詳細の追加層に分離するＪＰＥＧ標準のプログレッシブフォーマット（ＩＳＯ／ＩＥＣ１０９１８パート１）である。

メディアをより小さな部分に分割し、それらを連続するネットワークプロトコルパケットのペイロード部分に編成し、これらのプロトコルパケットを配信するプロセスは、メディアの「ストリーミング」と呼ばれるのに対し、様々な異種アプリケーションの１つを操作する様々な異種クライアントエンドポイントの１つでの提示に適したフォーマットにメディアを変換するプロセスは、メディアの「適応」として知られている。

定義
シーングラフとは、グラフィカルシーンの論理的及び多くの場合（必ずしもそうではない）空間的な表現を配置する、ベクトルベースのグラフィック編集アプリケーションと最新のコンピュータゲームによって一般的に使用される一般的なデータ構造であり、グラフ構造内のノードと頂点の集合でもある。

ノードとは、視覚、聴覚、触覚、嗅覚、味覚、又は関連する処理情報の論理的、空間的又は時間的表現に関連する情報で構成されるシーングラフの基本要素であり、各ノードには、最大で１つの出力エッジ、０個以上の入力エッジ、及び少なくとも１つのエッジ（入力又は出力のいずれか）が接続されている必要がある。
ベース層とは、通常、資産のレンダリングに必要な計算リソース若しくは時間、又はネットワークを介して資産を送信する時間を最小化するように作成される資産の名目上の表現である。

強化層とは、資産のベース層表現に適用されると、ベース層を拡張して、ベース層でサポートされていない特徴又は能力を含むための一組の情報である。
属性とは、ノードの特定の特性又は特徴を標準的な形態又はより複雑な形態（例えば、別のノードに関して）で説明するために使用される、ノードに関連付けられたメタデータである。

コンテナとは、シーングラフとシーンのレンダリングに必要な全てのメディアリソースとを含む、全ての自然のシーン、全ての合成のシーン、又は合成と自然のシーンの組み合わせを表す情報を記憶し交換するためのシリアル化されたフォーマットである。

シリアル化とは、データ構造又はオブジェクトの状態を、（例えば、ファイル又はメモリバッファに）記憶するか又は（例えば、ネットワーク接続リンクを介して）送信した後に（例えば、別のコンピュータ環境で）再構築できるフォーマットに変換するプロセスである。得られた一連のビットがシリアル化フォーマットに従って再読み取りされると、元のオブジェクトの意味的に同一のクローンを作成するために使用することができる。

レンダラーとは、音響物理学、光物理学、視覚認知、音声認知、数学、ソフトウェア開発に関連する分野の選択的な組み合わせに基づいて、入力シーングラフと資産コンテナが与えられると、ターゲットデバイスでの提示に適するか、又はシーングラフのレンダリングターゲットノードの属性で指定された所望の特性に準拠する、通常は視覚的及び／又は音声信号を送信する（通常はソフトウェアベースの）アプリケーション又はプロセスである。視覚ベースのメディア資産の場合、レンダラーは、ターゲットディスプレイに適するか、又は中間資産としての記憶（例えば、別のコンテナに再パッケージ化され、つまり、グラフィックスパイプラインの一連のレンダリングプロセスに使用される）に適する視覚信号を送信してもよく、音声ベースのメディア資産の場合、レンダラーは、マルチチャネルスピーカ及び／又はバイノーラルヘッドホンでの提示、又は別の（出力）コンテナへの再パッケージ化のために音声信号を送信してもよい。レンダラーの一般的な例としては、Ｕｎｉｔｙ、Ｕｎｒｅａｌが挙げられる。

評価とは、出力を抽象から具体的な結果に変更する結果（例えば、ウェブページのドキュメントオブジェクトモデルの評価と同様）を生成することである。

スクリプト言語とは、実行時にレンダラーにより実行されて、空間的及び時間的なオブジェクトトポロジ（物理的な力、制約、ＩＫ、変形、衝突を含む）のレンダリング及び評価と、エネルギーの伝播及び転送（光、音）とに影響を与える、シーングラフノードに加えられた動的入力と可変状態の変更を処理できるインタプリタ型プログラミング言語である。

シェーダーとは、元々シェーディング（画像内での適切なレベルの明、暗、色の生成）に使用されるが、現在はコンピュータグラフィックスの特殊効果の様々な分野に様々な特殊機能を実行したり、シェーディングとは関係のないビデオの後処理を行ったり、グラフィックスとはまったく関係のない機能を実行したりするコンピュータプログラムの一種である。

パストレーシングとは、シーンの照明が現実に忠実になるように、３次元シーンをレンダリングするコンピュータグラフィックスの方法である。
時限メディアとは、例えば、特定の時計に応じた開始時間と終了時間などの時間で順序付けられたメディアである。

非時限メディアとは、例えば、ユーザが実行したアクションに従って実現される双方向体験のように、空間的、論理的又は時間的な関係によって編成されたメディアである。
ニューラルネットワークモデルとは、元の信号によって明示的に提供されなかった視覚信号の新しいビューの補間を含む、改善された視覚出力に到達するために視覚信号に適用される明確に定義された数学操作で使用される重み（つまり、数値）を定義するパラメータとテンソル（例えば、行列）の集合である。

没入型メディアは、没入型メディア対応デバイスによって人間に提示されると、より現実的で、自然界での体験に対する人間の理解と一致する方法で、つまり、レガシーデバイスによって提示されるレガシーメディアで達成されたであろう刺激以外の刺激で、視覚、音、味覚、触覚、聴覚の５つの感覚のいずれかを刺激する１つ以上のタイプのメディアと見なすことができる。このコンテキストでは、「レガシーメディア」という用語は、２次元（２Ｄ）視覚メディア、静止画フレーム又は動画フレーム、及び／又はユーザとの相互作用機能が一時停止、再生、早送り、又は巻き戻しに制限されている対応する音声を指し、「レガシーデバイス」とは、能力がレガシーメディアのみへの提示に制限されているテレビ、ラップトップ、ディスプレイ及びモバイルデバイスを指す。消費者向けのアプリケーションシナリオでは、没入型メディアの提示デバイス（つまり、没入型メディア対応デバイス）は、物理的な世界に対する人間の理解と相互作用をより密に近づける提示を作成できるために、没入型メディアによって具体化される特定の情報を活用する能力、つまり、レガシーデバイスがこれを行う能力以外の能力を特に備えた消費者向けのハードウェアデバイスである。レガシーデバイスは、レガシーメディアのみを提示する機能が制約されるのに対し、没入型メディアデバイスも同様に制約されない。

過去１０年間で、ヘッドマウントディスプレイ、拡張現実メガネ、ハンドヘルドコントローラ、触覚グローブ、及びゲーム機を含む多くの没入型メディア対応デバイスは、消費者市場に導入されている。同様に、ホログラフィックディスプレイとその他の形式のボリュームディスプレイは、今後１０年以内に登場する準備ができている。これらのデバイスの即時又は差し迫った可用性にもかかわらず、商用ネットワークを介して没入型メディアを配信するコヒーレントエンドツーエンドのエコシステムは、いくつかの理由で実現しなかった。

これらの理由の１つは、商用ネットワーク上での現在の大規模なメディアの配信に関連する１）～２）という２つの主要な使用ケースに対処できる没入型メディアの単一の標準表現がないことであり、１）実写イベントのリアルタイム配信、つまり、コンテンツが作成されてリアルタイム又はほぼリアルタイムにクライアントエンドポイントに配信されること、２）コンテンツをリアルタイムに配信する必要がない非リアルタイム配信、つまり、コンテンツが物理的にキャプチャされるか又は作成されること。それぞれ、これらの２つの使用ケースを、現在存在する「放送」及び「オンデマンド」の配信フォーマットと同等に比較してもよい。

リアルタイム配信の場合、コンテンツは、１つ以上のカメラによってキャプチャされるか、コンピュータ生成技術を使用して作成することができる。カメラによってキャプチャされたコンテンツは、本明細書では「自然」コンテンツと呼ばれ、コンピュータ生成技術を使用して作成されたコンテンツは、本明細書では「合成」コンテンツと呼ばれる。合成コンテンツを表すメディアフォーマットは、３Ｄモデリング、視覚効果、ＣＡＤ／ＣＡＭ業界で使用されるフォーマットであり得、メッシュ、テクスチャ、ポイントクラウド、構造化ボリューム、アモルファスボリューム（例えば、火、煙、霧用）、シェーダー、手続き的に生成された形状、材料、照明、仮想カメラ定義、アニメーションなどのオブジェクトフォーマットとツールを含むことができる。合成コンテンツがコンピュータによって生成されるが、合成メディアフォーマットは、自然コンテンツと合成コンテンツの両方に使用できる。しかしながら、自然コンテンツを合成メディアフォーマット（例えば、合成表現）に変換するプロセスは、時間と計算集約的プロセスであり得るため、リアルタイムのアプリケーションと使用ケースに対して非現実的である場合がある。

自然コンテンツをリアルタイムに配信する場合、カメラによってキャプチャされたコンテンツをラスターフォーマットで配信でき、これは、多くのレガシーディスプレイデバイスが同様にラスターフォーマットを表示するように設計されるため、レガシーディスプレイデバイスに適する。つまり、レガシーディスプレイがラスターフォーマットを均一に表示するように設計されるため、ラスターフォーマットの配信は、ラスターフォーマットのみを表示できるディスプレイに最適である。

しかしながら、没入型メディア対応ディスプレイは、必ずしもラスターベースのフォーマットの表示に制限されるわけではない。さらに、いくつかの没入型メディア対応ディスプレイは、ラスターベースのフォーマットのみで使用可能なメディアを提示することができない。ラスターベースのフォーマット以外のフォーマットに基づいて没入型体験を作成するように最適化されたディスプレイの可用性は、没入型メディアの配信のためのコヒーレントエンドツーエンドのエコシステムがまだないもう１つの重要な理由である。
複数の異なる没入型メディアデバイスにコヒーレント配信システムを作成する際のさらに別の問題は、現在及び新しい没入型メディア対応デバイス自体が大幅に異なる可能性があることである。例えば、いくつかの没入型メディアデバイス、例えばヘッドマウントディスプレイは、一度に１人のユーザのみが使用するように明示的に設計される。他の没入型メディアデバイスは、複数のユーザが同時に使用できるように設計され、例えば、「ＬｏｏｋｉｎｇＧｌａｓｓＦａｃｔｏｒｙ８Ｋディスプレイ」（以下、「レンチキュラーライトフィールドディスプレイ」と呼ばれる）は、最大１２人のユーザが同時に見ることができるコンテンツを表示でき、ここで、各ユーザは、表示されているコンテンツの独自の視点（つまり、ビュー）を体験している。

コヒーレント配信システムの開発をさらに複雑にしているのは、各ディスプレイが生成できる独自のビューの数が大幅に異なる可能性があることである。多くの場合、レガシーディスプレイは、コンテンツの単一のビューのみを作成することができる。一方、レンチキュラーライトフィールドディスプレイは、複数のユーザをサポートでき、各ユーザが同じ視覚的シーンの独自のビューを体験できる同じシーンの複数のビューの作成を実現するために、レンチキュラーライトフィールドディスプレイは、ディスプレイへの入力として同じシーンの４５個の独自のビューが必要な特定のボリューム視錐台を作成する。これは、同じシーンの４５個のわずかに異なる独自のラスター表現をキャプチャして、１つの特定のディスプレイ、つまりその視錐台に固有のフォーマットでディスプレイに配信する必要があることを意味する。これに対して、レガシーディスプレイの視錐台は単一の２次元平面に制限されているため、ディスプレイを同時に体験する視聴者の数に関係なく、ディスプレイの視錐台を介してコンテンツの複数の視聴視点を提示することができない。

一般的に、没入型メディアディスプレイは、視錐台の寸法及び体積と、同時にサポートされる視聴者の数と、点ベース、光線ベース、又は波ベースの技術であり得る視錐台を埋めるために使用される光学技術と、視錐台を占める光の単位（点、光線、又は波のいずれか）の密度と、計算能力の可用性と、計算のタイプ（ＣＰＵ又はＧＰＵ）と、電源（電池又はワイヤー）のソース及び可用性と、ローカル記憶又はキャッシュの量と、クラウドベースの計算及び記憶などの補助リソースへのアクセスとの全てのディスプレイの特性に応じて大幅に異なる場合がある。これらの特性は、没入型メディアディスプレイの異種性に寄与し、該没入型メディアディスプレイの不均一性は、レガシーディスプレイの同種性とは対照的に、レガシータイプとイマーシブタイプの両方のディスプレイを含む全てのディスプレイをサポートできる単一の配信システムの開発を複雑にする。

開示された主題は、単一のネットワークのコンテキスト内でクライアントエンドポイントとしてレガシーメディアディスプレイと没入型メディアディスプレイの両方をサポートできるネットワークベースのメディア配信システムの開発に対処する。具体的には、入力没入型メディアソースを、クライアントエンドポイントデバイスで現在実行されているアプリケーションを含むクライアントエンドポイントデバイスの特定の特性に適したフォーマットに適応させるメカニズムをここに示す。入力没入型メディアソースを適応させるこのようなメカニズムは、入力没入型メディアの特性を、クライアントデバイスで実行されているアプリケーションを含むターゲットエンドポイントクライアントデバイスの特性と調和することと、入力没入型メディアをターゲットエンドポイントとそのアプリケーションに適したフォーマットに適応させることと、を含む。さらに、適応プロセスは、新規のビューなどの入力メディアからの追加のビューを補間してクライアントエンドポイントによって必要とされる追加のビューを作成することを含んでもよい。このような補間は、ニューラルネットワークプロセスを利用して実行されてもよい。

なお、開示された主題の残りの部分は、一般性を失うことなく、入力没入型メディアソースを特定のエンドポイントクライアントデバイスに適応させるプロセスが、特定のクライアントエンドポイントデバイスで実行されている特定のアプリケーションと同じ入力没入型メディアソースを適応させるプロセスと同じであるか又は類似することを前提とする。つまり、入力メディアソースをエンドポイントデバイスの特性に適応させる問題は、特定の入力メディアソースを特定のアプリケーションの特性に適応させる問題と同じ複雑さを有する。

レガシーメディアによってサポートされるレガシーデバイスは、レガシーメディアの標準ベースの表現を生成するレガシーメディアコンテンツプロバイダーのエコシステム、及びレガシーデバイスを標準のレガシーコンテンツのソースに接続するためのネットワークインフラストラクチャを提供する商用ネットワークサービスプロバイダーによって同様にサポートされるため、消費者による幅広い採用を達成する。ネットワークを介してレガシーメディアを配信する役割に加えて、商用ネットワークサービスプロバイダーは、コンテンツ配信ネットワーク（ＣＤＮ）上のレガシーコンテンツへのアクセスとレガシークライアントデバイスとのペアリングを容易にする場合もある。適切な形態のコンテンツへのアクセスとペアリングすると、レガシークライアントデバイスは、エンドユーザに提示するためにコンテンツサーバからデバイスにレガシーコンテンツを要求するか又は「プル」することができる。それにもかかわらず、ネットワークサーバが適切なメディアを適切なクライアントに「プッシュ」するアーキテクチャは、アーキテクチャ全体と解決法の設計に追加の複雑さをもたらすことなく、同様に関連性がある。

様々な実施形態に係る方法、装置（システム）、及びコンピュータ可読媒体のフローチャート図及び／又はブロック図を参照して、態様を本明細書で説明する。フローチャート図及び／又はブロック図の各ブロック、及びフローチャート図及び／又はブロック図のブロックの組み合わせは、コンピュータ可読プログラム命令によって実施できることが理解されるであろう。

以下に説明する例示的な実施形態は、ビデオ、音声、幾何学的（３Ｄ）オブジェクト、触覚、関連するメタデータ、又はクライアントデバイスの他のコンテンツを含むメディアを配信するシステム及びネットワークのアーキテクチャ、構造及び構成要素に関する。特定の実施形態は、メディアコンテンツを異種の没入型及びインタラクティブ型クライアントデバイスに配信する指向システム、構造、及びアーキテクチャである。

図１は、時限レガシーメディア配信のエンドツーエンドプロセスの例である。図１では、時限視聴覚コンテンツは、１０１Ａでカメラ又はマイクロフォンによってキャプチャされるか、又は１０１Ｂでコンピュータによって生成され、準備モジュール１０３に入力される２Ｄ画像及び関連する音声のシーケンス１０２を作成している。１０３の出力は、編集されたコンテンツ（例えば、言語翻訳、字幕、その他の編集機能を含むポストプロダクション用）であり、コンバータモジュール１０４によって、例えば、オンデマンドメディアの場合、標準メザニンフォーマットに変換する準備ができているマスターフォーマットと呼ばれるか、又は、例えば、ライブイベントの場合、標準貢献フォーマットと呼ばれる。メディアは、商用ネットワークサービスプロバイダーによって「取り込まれ」、適応モジュール１０５は、メディアを、標準配信フォーマットにパッケージ化された様々なビットレート、時間分解能（フレームレート）、又は空間分解能（フレームサイズ）にパッケージ化する。得られた適応は、コンテンツ配信ネットワーク１０６に記憶され、様々なクライアント１０８がコンテンツ配信ネットワーク１０６からプル要求１０７を行い、メディアをフェッチしてエンドユーザに提示する。マスターフォーマットは、１０１Ａ又は１０１Ｂの両方からのメディアのハイブリッドで構成されてもよく、フォーマット１０１Ａは、例えば、ライブスポーツイベントから取得されるメディアからリアルタイムに取得されてもよいことに注意することが重要である。さらに、クライアント１０８は、クライアントの構成及び／又は現在のネットワーク状態に最も適した特定の適応１０７を選択する責任があるが、ネットワークサーバ（図１には示されていない）が適切なコンテンツを決定した後にクライアント１０８に「プッシュ」することも同様に可能である。

図２は、ビデオ、音声、サポートメタデータ（字幕に使用されるような時限テキストを含む）などの、レガシー時限メディアの配信に使用される標準メディアフォーマットの例である。図１の項目１０６に記載されるように、メディアは、標準ベースの配信フォーマットでＣＤＮ２０１に記憶される。標準ベースのフォーマットは、クロックに対応する開始時間と終了時間を持つ時限期間２０３を含む複数の部分で構成されたＭＰＤ２０２として示される。各期間２０３は、１つ以上の適応セット２０４を指す。各適応セット２０４は、一般的に、ビデオ、音声又は時限テキストなどの単一のタイプのメディアに使用される。任意の所与の期間２０３について、複数の適応セット２０４が提供されてもよく、例えば、ビデオ用の１つの適応セットと、様々な言語への翻訳に使用されるような音声用の複数の適応セットとが提供されてもよい。各適応セット２０４は、メディアのフレーム解像度（ビデオの場合）、フレームレート、及びビットレートに関する情報を提供する１つ以上の表現２０５を指す。複数の表現２０５を使用して、例えば、超高解像度、高解像度、又は標準解像度のビデオのそれぞれに対する表現２０５へのアクセスを提供してもよい。各表現２０５は、１つ以上のセグメントファイル２０６を指し、ここで、メディアは、実際には、クライアントによるフェッチ（図１の１０８として示されている）又はネットワークメディアサーバ（図１には示されていない）による（「プッシュベースの」アーキテクチャにおける）配信のために記憶される。

図３は、時限異種没入型メディアのストリーミング可能なフォーマットの表現例である。図４は、非時限異種没入型メディアのストリーミング可能なフォーマットの表現例である。両方の図は、いずれもシーンを指し、図３は、時限メディアのシーン３０１を指し、図４は、非時限メディアのシーン４０１を指す。両方の場合について、シーンは、様々なシーン表現又はシーン説明によって具体化することができる。

例えば、いくつかの没入型メディア設計では、シーンは、シーングラフによって、多平面画像（ＭＰＩ）として、又は多球面画像（ＭＳＩ）として具体化されてもよい。ＭＰＩとＭＳＩの両方の技術は、自然コンテンツ、つまり１台以上のカメラで同時にキャプチャされた現実世界の画像に表示にとらわれないシーン表現を作成することを支援する技術の例である。一方、シーングラフ技術は、自然画像とコンピュータ生成画像の両方を合成表現の形態で表現するために使用されてもよいが、このような表現は、コンテンツが１つ以上のカメラによって自然のシーンとしてキャプチャされる場合に、作成するために特に計算集約的である。つまり、十分かつ適切な数のビューを補間するために後で使用できる合成表現を作成してターゲット没入型クライアントディスプレイの視錐台を埋めるために、自然にキャプチャされたコンテンツのシーングラフ表現は、作成に時間及び計算集約的であり、写真測量、深層学習、又はその両方の技術による自然画像の複雑な分析が要求される。結果として、そのような合成表現は、リアルタイム配信を必要とする使用ケースを検討するために実際にリアルタイムに作成することができないため、現在、自然コンテンツを表現する候補として検討されることは非現実的である。それにもかかわらず、現在、コンピュータ生成画像の最良の候補表現は、コンピュータ生成画像が３Ｄモデリングプロセスとツールを使用して作成されるため、合成モデルでシーングラフを使用することである。

自然コンテンツとコンピュータ生成コンテンツの両方の最適な表現におけるこのような二分法は、自然にキャプチャされたコンテンツの最適な取り込みフォーマットが、コンピュータ生成コンテンツ又はリアルタイム配信アプリケーションに不可欠ではない自然コンテンツの最適な取り込みフォーマットとは異なることを示唆する。したがって、開示された主題は、コンテンツが自然に作成されたかコンピュータによって作成されたかにかかわらず、視覚的没入型メディアの複数の取り込みフォーマットをサポートするのに十分に堅固であることを目標とする。

以下は、コンピュータ生成技術を使用して作成された視覚的没入型メディア、又は深層学習若しくは写真測量技術を使用して自然シーンの対応する合成表現を作成する、つまりリアルタイム配信アプリケーションに不可欠ではない、自然にキャプチャされたコンテンツを表すのに適したフォーマットとしてシーングラフを具体化する技術の例である。
１．ＯＴＯＹによるＯＲＢＸ（登録商標）
ＯＴＯＹによるＯＲＢＸは、光線追跡可能、レガシー（フレームベース）、ボリューム及びその他のタイプの合成又はベクトルベースの視覚フォーマットを含む、時限又は非時限の任意のタイプの視覚メディアをサポートできるいくつかのシーングラフ技術の１つである。ＯＲＢＸは、メッシュ、ポイントクラウド及びテクスチャの自由に利用可能な及び／又はオープンソースフォーマットのネイティブサポートを提供するため、他のシーングラフとは異なる。ＯＲＢＸは、シーングラフで動作する複数のベンダー技術間の交換を容易にすることを目的として意図的に設計されたシーングラフである。さらに、ＯＲＢＸは、豊富な材料システム、オープンシェーディング言語のサポート、堅固なカメラシステム及びＬｕａスクリプトのサポートを提供する。ＯＲＢＸも、没入型デジタル体験連盟（ＩＤＥＡ）によってロイヤリティフリー条項でライセンスのために公開された没入型技術メディアフォーマットの基礎である。メディアのリアルタイム配信のコンテキストでは、自然のシーンのＯＲＢＸ表現を作成し配信する機能は、カメラでキャプチャされたデータの複雑な分析と同じデータの合成表現への合成を実行するための計算リソースの可用性の関数である。今日まで、リアルタイム配信のための十分な計算の可用性は、現実的ではないが、それでも不可能ではない。

２．ピクサーによる万能シーン記述
ピクサーによる万能シーン記述（ＵＳＤ）は、ＶＦＸ及び専門コンテンツ制作コミュニティで一般的であるもう１つの有名で成熟したシーングラフである。ＵＳＤは、開発者がＮｖｉｄｉａのＧＰＵを使用して３Ｄモデルを作成及びレンダリングするためのツールセットであるＮｖｉｄｉａのＯｍｎｉｖｅｒｓｅプラットフォームに統合される。ＵＳＤのサブセットは、ＡｐｐｌｅとＰｉｘａｒによってＵＳＤＺとして公開された。ＵＳＤＺは、ＡｐｐｌｅのＡＲＫｉｔによってサポートされている。

３．ＫｈｒｏｎｏｓによるｇｌＴＦ２．０
ｇｌＴＦ２．０は、Ｋｈｒｏｎｏｓ３Ｄグループによって作成された「グラフィックス言語伝送フォーマット」仕様の最新バージョンである。このフォーマットは、「ｐｎｇ」及び「ｊｐｅｇ」の画像フォーマットを含む、シーン内の静的な（非時限）オブジェクトを一般的にサポートできる単純なシーングラフフォーマットをサポートする。ｇｌＴＦ２．０は、ｇｌＴＦプリミティブを使用して記述された基本的な形状、つまり幾何学的オブジェクトの移動、回転、拡大縮小のサポートを含む、単純なアニメーションをサポートする。ｇｌＴＦ２．０は、時限メディアをサポートしないため、ビデオも音声もサポートしない。
没入型視覚メディアのシーン表現のためのこれらの既知の設計は、例のみとして提供され、入力没入型メディアソースをクライアントエンドポイントデバイスの特定の特性に適したフォーマットに適応させるプロセスを指定する機能において開示された主題を制限するものではない。

さらに、上記いずれか又は全ての例示的なメディア表現は、錐台の特定の寸法に基づいて特定のディスプレイの視錐台を埋めるために特定のビューの選択を可能にするか又は容易にするニューラルネットワークモデルを訓練し作成するために、深層学習技術を現在使用するか又は使用してもよい。特定のディスプレイの視錐台のために選択されたビューは、シーン表現で明示的に提供される既存のビューから、つまりＭＳＩ若しくはＭＰＩ技術から補間されてもよく、特定の仮想カメラの位置、フィルタ若しくはレンダリングエンジンの仮想カメラの説明に基づいてこれらのレンダリングエンジンから直接レンダリングされてもよい。

したがって、開示された主題は、（例えば、１台以上のカメラで）自然にキャプチャされたか又はコンピュータ生成技術を使用して作成されたメディアのリアルタイム又は「オンデマンド」（例えば、非リアルタイム）配信の両方の要件を十分に満たすことができる、比較的小さいがよく知られている一組の没入型メディア取り込みフォーマットがあると考えるのに十分堅固である。

モバイルネットワーク用の５Ｇ及び固定ネットワーク用の光ファイバケーブルなどの先進的なネットワーク技術が導入されると、ニューラルネットワークモデル又はネットワークベースのレンダリングエンジンのいずれかを使用した没入型メディア取り込みフォーマットからのビューの補間は、さらに容易になる。つまり、このような先進的なネットワークインフラストラクチャが、ますます大量の視覚情報の転送と配信をサポートできるため、これらの先進的なネットワーク技術は、商用ネットワークの容量及び能力を向上させる。マルチアクセスエッジコンピューティング（ＭＥＣ）、ソフトウェア定義ネットワーク（ＳＤＮ）、ネットワーク機能仮想化（ＮＦＶ）などのネットワークインフラストラクチャ管理技術により、商用ネットワークサービスプロバイダーは、それらのネットワークインフラストラクチャを柔軟に配置して、あるネットワークリソースに対する需要の変化に適応し、例えば、ネットワークスループット、ネットワーク速度、ラウンドトリップ遅延及び計算リソースに対する需要の動的な増加又は減少に応答する。さらに、異種クライアントエンドポイント用の潜在的異種視覚メディアフォーマットを備えた様々な没入型メディアアプリケーションをサポートするために、動的ネットワーク要件に適応するこの固有の機能は、同様に、没入型メディア取り込みフォーマットを適切な配信フォーマットに適応させるネットワークの機能を容易にする。

没入型メディアアプリケーション自体にも、ゲームの状態でリアルタイムの更新に応答するために有意に低いネットワーク遅延を必要とするゲームアプリケーションと、ネットワークのアップリンク部分とダウンリンク部分の両方に対称的なスループット要件があるテレプレゼンスアプリケーションと、データを消費しているクライアントエンドポイントディスプレイのタイプに応じて、ダウンリンクリソースに対する需要が増加する可能性のある受動的視聴アプリケーションとを含むネットワークリソースに対する様々な要件がある場合がある。一般的に、消費者向けのアプリケーションは、記憶、計算及び電力に関する様々なオンボードクライアント能力と、特定のメディア表現に対する様々な要件とを備えた様々なクライアントエンドポイントによってサポートされる。

したがって、開示された主題は、十分に装備されたネットワーク、すなわち、最新のネットワークのいくつか又は全ての特性を使用するネットワークが、その中で指定される特徴に従って、複数のレガシー及び没入型メディア対応デバイスを同時にサポートすることを可能にし、該特徴は、以下の１～７のとおりである。

１．メディア配信のリアルタイムと「オンデマンド」の両方の使用ケースにとって現実的なメディア取り込みフォーマットを活用する柔軟性を提供する。
２．レガシー及び没入型メディア対応のクライアントエンドポイントの両方のために、自然コンテンツとコンピュータ生成コンテンツの両方をサポートする柔軟性を提供する。
３．時限メディアと非時限メディアの両方をサポートする。
４．クライアントエンドポイントの特徴及び能力と、アプリケーションの要件とに基づいて、ソースメディアの取り込みフォーマットを適切な配信フォーマットに動的に適応させるプロセスを提供する。
５．配信フォーマットがＩＰベースのネットワークを介してストリーミング可能であることを確保する。
６．ネットワークが、レガシーデバイスと没入型メディア対応デバイスの両方を含んでもよい複数の異種クライアントエンドポイントに同時にサービスを提供することを可能にする。
７．シーンの境界に沿った配信メディアの編成を容易にする例示的なメディア表現フレームワークを提供する。
開示された主題によって可能になる改善されたエンドツーエンドの実施形態は、以下のように図３～１６の詳細な説明に記載された処理及び構成要素に従って達成される。

図３及び図４はいずれも、特定のクライアントエンドポイントの能力に一致するように取り込みソースフォーマットから適応された単一の例示的な包括的配信フォーマットを使用する。上記のように、図３に示されるメディアは、時限的であり、図４に示されるメディアは、非時限的である。特定の包括的フォーマットは、その構造が十分に堅固であり、各層がメディアの提示に寄与する顕著な情報の量に基づいて各属性が積層され得る多種多様なメディア属性に適応する。なお、このような積層プロセスは、プログレッシブＪＰＥＧ及びＩＳＯ／ＩＥＣ１４４９６－１０（拡張可能なアドバンスドビデオコーディング）で指定されるような拡張可能なビデオアーキテクチャで実証されるように、現在の最先端技術では既によく知られている技術である。

１．包括的メディアフォーマットに従ってストリーミングされるメディアは、レガシー視覚及び音声メディアに限定されず、機械と相互作用して人間の視覚、聴覚、味覚、触覚及び嗅覚を刺激する信号を生成できる任意のタイプのメディア情報を含んでもよい。
２．包括的メディアフォーマットに従ってストリーミングされるメディアは、時限メディア、非時限メディア、又は両方の組み合わせであり得る。
３．包括的メディアフォーマットは、ベース層と強化層アーキテクチャを使用してメディアオブジェクトの積層表現を可能にすることにより、さらにストリーミング可能である。一例では、個別のベース層と強化層は、各シーンのメディアオブジェクトにマルチ解像度又はマルチテセレーション分析技術を適用することによって計算される。これは、ＩＳＯ／ＩＥＣ１０９１８－１（ＪＰＥＧ）及びＩＳＯ／ＩＥＣ１５４４４－１（ＪＰＥＧ２０００）で指定されているプログレッシブレンダリングされた画像フォーマットに類似するが、ラスターベースの視覚フォーマットに限定されない。例示的な実施形態では、幾何学的オブジェクトのプログレッシブ表現は、ウェーブレット分析を使用して計算されたオブジェクトのマルチ解像度表現であり得る。
メディアフォーマットの積層表現の別の例では、強化層は、ベース層によって表される視覚オブジェクトの表面の材料特性を改善するなど、様々な属性をベース層に適用する。さらに別の例では、属性は、表面を滑らかなテクスチャから多孔質のテクスチャに変更するか、又はつや消しの表面から光沢のある表面に変更するなど、ベース層オブジェクトの表面のテクスチャを改善することができる。
積層表現のさらに別の例では、シーン内の１つ以上の視覚オブジェクトの表面は、ランバーシアンから光線追跡可能に変更されてもよい。
積層表現のさらに別の例では、ネットワークはベース層表現をクライアントに配信することにより、クライアントは、追加の強化層の送信を待っている間に、シーンの名目上の提示を作成して、ベース表現の解像度又はその他の特性を改善してもよい。

４．強化層の属性又は改善情報の解像度は、現在の既存のＭＰＥＧビデオ及びＪＰＥＧ画像標準のように、ベース層のオブジェクトの解像度と明示的に結合されない。
５．包括的メディアフォーマットは、提示デバイス又はマシンによって提示するか又は作動できる任意のタイプの情報メディアをサポートすることにより、異種クライアントエンドポイントへの異種メディアフォーマットのサポートを可能にする。メディアフォーマットを配信するネットワークの一実施形態では、まず、ネットワークは、クライアントエンドポイントを問い合わせてクライアントの能力を決定し、次に、クライアントがメディア表現を有意義に取り込むことができない場合、ネットワークは、クライアントによってサポートされていない属性の層を削除するか、メディアを現在のフォーマットからクライアントエンドポイントに適したフォーマットに適応させる。そのような適応の一例では、ネットワークは、ネットワークベースのメディア処理プロトコルを使用することによって、ボリューム視覚メディア資産を同じ視覚資産の２Ｄ表現に変換するであろう。そのような適応の別の例では、ネットワークは、ニューラルネットワークプロセスを使用して、メディアを適切なフォーマットに再フォーマットするか、又は任意に、クライアントエンドポイントによって必要とされるビューを合成することができる。

６．完全又は部分的に完全な没入型体験（ライブストリーミングイベント、ゲーム又はオンデマンド資産の再生）のマニフェストは、提示を作成するためにレンダリング及びゲームエンジンが現在取り込むことができる最小限の情報であるシーンによって編成される。マニフェストは、クライアントが要求する没入型体験全体に対してレンダリングされる個々のシーンのリストを含む。各シーンに関連付けられているのは、シーン形状のストリーミング可能なバージョンに対応する、シーン内の幾何学的オブジェクトの１つ以上の表現である。シーン表現の一実施形態は、シーンの幾何学的オブジェクトの低解像度バージョンを指す。同じシーンの別の実施形態は、同じシーンの幾何学的オブジェクトに追加の詳細を追加するか、又はテッセレーションを増加させるための、シーンの低解像度表現のための強化層を指す。上記のように、各シーンは、シーンの幾何学的オブジェクトの詳細を漸進的方式で増加させるための複数の強化層を有してもよい。

７．シーン内で参照されるメディアオブジェクトの各層は、ネットワーク内でリソースにアクセスできるアドレスを指し示すトークン（例えば、ＵＲＩ）に関連付けられる。このようなリソースは、コンテンツがクライアントによってフェッチされてもよいＣＤＮに類似する。
８．幾何学的オブジェクトの表現のトークンは、ネットワーク内の位置又はクライアント内の位置を指し示してもよい。つまり、クライアントは、そのリソースがネットワークベースのメディア処理のためにネットワークに利用可能であることをネットワークにシグナリングしてもよい。

図３は、時限メディアの包括的メディアフォーマットの実施形態を次のように説明する。時限シーンマニフェストは、シーン情報３０１のリストを含む。シーン３０１は、処理情報とシーン３０１を構成するメディア資産のタイプを個別に説明する構成要素３０２のリストを指す。構成要素３０２は、ベース層３０４及び属性強化層３０５をさらに指す資産３０３を指す。

図４は、非時限メディアの包括的メディアフォーマットの実施形態を次のように説明する。シーン情報４０１は、時計による開始時間と終了時間に関連付けられる。シーン情報４０１は、処理情報とシーン４０１を構成するメディア資産のタイプを個別に説明する構成要素４０２のリストを指す。構成要素４０２は、ベース層４０４及び属性強化層４０５をさらに指す資産４０３（例えば、視覚、音声及び触覚資産）を指す。さらに、シーン４０１は、非時限メディア用の他のシーン４０１を指す。シーン４０１も時限メディアシーンを指す。

図５は、自然コンテンツから取り込みフォーマットを合成するプロセス５００の実施形態を示す。カメラユニット５０１は、単一のカメラレンズを使用して、人のシーンをキャプチャする。カメラユニット５０２は、リング状のオブジェクトの周りに５つのカメラレンズを取り付けることによって、５つの発散視野を有するシーンをキャプチャする。５０２における配置は、ＶＲアプリケーションのために全方向性コンテンツをキャプチャするために一般的に使用される例示的な配置である。カメラユニット５０３は、球体の内径部分に７つのカメラレンズを取り付けることにより、７つの収束視野を有するシーンをキャプチャする。配置５０３は、ライトフィールド又はホログラフィック没入型ディスプレイのためにライトフィールドをキャプチャするために一般的に使用される例示的な配置である。自然画像コンテンツ５０９は、合成モジュール５０４への入力として提供され、該合成モジュール５０４は、任意に、訓練画像５０６の集合を使用するニューラルネットワーク訓練モジュール５０５を使用して、任意のキャプチャニューラルネットワークモデル５０８を生成してもよい。訓練プロセス５０５の代わりに一般的に使用される別のプロセスは、写真測量である。モデル５０８が図５に示されるプロセス５００の間に作成される場合、モデル５０８は、自然コンテンツのための取り込みフォーマット５０７の資産の１つになる。取り込みフォーマット５０７の例示的な実施形態は、ＭＰＩ及びＭＳＩを含む。

図６は、合成メディア、例えば、コンピュータ生成画像の取り込みフォーマットを作成するためのプロセス６００の実施形態を示す。ＬＩＤＡＲカメラ６０１は、シーンのポイントクラウド６０２をキャプチャする。合成コンテンツを作成するためのＣＧＩツール、３Ｄモデリングツール又は別のアニメーションプロセスは、ネットワークを介してＣＧＩ資産６０４を作成するためにコンピュータ６０３に使用される。センサを備えたモーションキャプチャスーツ６０５Ａは、アクター６０５のモーションのデジタル記録をキャプチャしてアニメーション化されたモーションキャプチャデータ６０６を生成するためにアクター６０５に装着される。データ６０２、６０４及び６０６は、合成モジュール６０７への入力として提供され、該合成モジュール６０７は、同様に、任意にニューラルネットワーク及び訓練データを使用して、ニューラルネットワークモデル（図６には示されていない）を作成してもよい。

上記異種没入型メディアを表現しストリーミングする技術は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実施され、１つ以上のコンピュータ可読媒体に物理的に記憶することができる。例えば、図７は、開示された主題の特定の実施形態を実施することに適したコンピュータシステム７００を示す。

コンピュータソフトウェアは、コンピュータ中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）などによって、アセンブリ、コンパイル、リンクの対象となり得る任意の適切な機械コード若しくはコンピュータ言語、又は同様のメカニズムを使用してコード化されて、直接的に実行できるか又は解釈、マイクロコード実行などを介して実行できる命令を備えるコードを作成することができる。

命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータ又はその構成要素で実行することができる。

コンピュータシステム７００について、図７に示される構成要素は、本質的に例示的なものであり、本開示の実施形態を実施するコンピュータソフトウェアの使用又は機能範囲に関する限定を示唆することを意図するものではない。構成要素の構成は、コンピュータシステム７００の例示的な実施形態で示される構成要素のうちのいずれか１つ又は組み合わせに関する任意の依存性又は必要性を有するとして解釈されるべきではない。

コンピュータシステム７００は、特定のヒューマンインタフェース入力デバイスを含んでもよい。このようなヒューマンインタフェース入力デバイスは、例えば触覚入力（キーストローク、スワイプ、データグローブの動きなど）、音声入力（音声、拍手など）、視覚入力（ジェスチャーなど）、嗅覚入力（図示せず）を通じて、１人以上の人間ユーザによる入力に応答することができる。ヒューマンインタフェースデバイスは、音声（スピーチ、音楽、周囲音など）、画像（スキャンされた画像、静止画像カメラから取得した写真画像など）、ビデオ（２次元ビデオ、立体ビデオを含む３次元ビデオなど）などの、人間による意識的な入力に必ずしも直接的に関連しない特定のメディアを取り込むために使用することもできる。

入力ヒューマンインタフェースデバイスは、キーボード７０１、マウス７０２、トラックパッド７０３、タッチスクリーン７１０、データグローブ（図示せず）、ジョイスティック７０５、マイクロフォン７０６、スキャナ７０７、カメラ７０８のうちの１つ以上（それぞれ１つのみが図示されている）を含んでもよい。

コンピュータシステム７００はまた、特定のヒューマンインタフェース出力デバイスを含んでもよい。このようなヒューマンインタフェース出力デバイスは、例えば触覚出力、音、光、及び匂い／味を通じて、１人以上の人間ユーザの感覚を刺激することができる。このようなヒューマンインタフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン７１０、データグローブ（図示せず）、又はジョイスティック７０５による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスであってもよい）、音声出力デバイス（スピーカ７０９、ヘッドホン（図示せず）など）、視覚出力デバイス（それぞれタッチスクリーン入力能力、触覚フィードバック能力の有無にかかわらず、一部が、ステレオグラフィック出力、仮想現実眼鏡（図示せず）、ホログラフィックディスプレイ及びスモークタンク（図示せず）などの手段を介して、２次元の視覚出力又は３次元以上の出力を出力できる、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン７１０など）、及びプリンタ（図示せず）を含んでもよい。

コンピュータシステム７００はまた、ヒューマンアクセス可能な記憶デバイスと、それらに関連するメディア、例えば、ＣＤ／ＤＶＤを有するＣＤ／ＤＶＤＲＯＭ／ＲＷ７２０若しくは同様なメディア７２１、サムドライブ７２２、及びリムーバブルハードドライブ若しくはソリッドステートドライブ７２３を含む光メディア、テープやフロッピーディスク（図示せず）などのレガシー磁気メディア、セキュリティドングル（図示せず）などの専用ＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスなどとを含み得る。

当業者はまた、本明細書に開示された主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送メディア、搬送波、又は他の一時的な信号を含まないことを理解すべきである。

コンピュータシステム７００はまた、１つ以上の通信ネットワークへのインタフェースを含むことができる。ネットワークは、例えば、無線、有線、光ネットワークであり得る。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両用及び産業用、リアルタイム、遅延耐性ネットワークなどであり得る。ネットワークの例は、イーサネット及び無線ＬＡＮなどのローカルエリアネットワークと、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワークと、ケーブルＴＶ、衛星ＴＶ及び地上波放送ＴＶを含むＴＶ有線又は無線ワイドエリアデジタルネットワークと、ＣＡＮＢｕｓを含む車両用及び産業用ネットワークと、を含む。特定のネットワークは、一般的に、特定の汎用データポート又は周辺バス７４９（例えば、コンピュータシステム７００のＵＳＢポートなど）に接続された外部ネットワークインタフェースアダプターを必要とする。他のネットワークは、一般的に、以下で説明するようにシステムバスに接続することにより、コンピュータシステム７００のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインタフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム７００は、他のエンティティと通信することができる。このような通信は、例えば、ローカル又はワイドエリアデジタルネットワークを使用して、他のコンピュータシステムに対して、単方向の受信のみ（例えば、放送ＴＶ）、単方向の送信のみ（例えば、ＣＡＮｂｕｓから特定のＣＡＮｂｕｓデバイスへ）、又は双方向であってもよい。上記のように、特定のプロトコルとプロトコルスタックをこれらのネットワークとネットワークインタフェースの各々に使用することができる。

前述のヒューマンインタフェースデバイス、人間がアクセス可能な記憶デバイス、及びネットワークインタフェースは、コンピュータシステム７００のコア７４０に接続することができる。

コア７４０は、１つ以上の中央処理装置（ＣＰＵ）７４１、グラフィックス処理装置（ＧＰＵ）７４２、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）７４３の形態の専用プログラマブル処理装置、及び特定のタスクのためのハードウェアアクセラレータ７４４などを含むことができる。これらのデバイスは、リードオンリメモリ（ＲＯＭ）７４５、ランダムアクセスメモリ７４６、及びユーザがアクセスできない内部ハードドライブ、ＳＳＤなどの内部大容量ストレージ７４７と共に、システムバス７４８を介して接続されてもよい。いくつかのコンピュータシステムでは、システムバス７４８は、１つ以上の物理プラグの形態でアクセス可能であり、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にする。周辺デバイスは、コアのシステムバス７４８に直接的に接続されてもよく、周辺バス７４９を介して接続されてもよい。周辺バスのアーキテクチャには、ＰＣＩ、ＵＳＢなどを含む。

ＣＰＵ７４１、ＧＰＵ７４２、ＦＰＧＡ７４３及びアクセラレータ７４４は、組み合わせて、前述のコンピュータコードを構成できる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ７４５又はＲＡＭ７４６に記憶することができる。過渡的なデータは、ＲＡＭ７４６に記憶することもできるが、恒久的なデータは、例えば内部大容量ストレージ７４７に記憶することができる。ＣＰＵ７４１、ＧＰＵ７４２、大容量ストレージ７４７、ＲＯＭ７４５、ＲＡＭ７４６などのうちの１つ以上に密接に関連付けることができるキャッシュメモリを使用して、任意のメモリデバイスに対する高速記憶及び検索を可能にすることができる。

コンピュータ可読媒体には、様々なコンピュータ実施動作を実行するためのコンピュータコードを有することができる。メディア及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであってもよく、コンピュータソフトウェア分野の当業者によく知られている利用可能な種類のものであってもよい。

限定ではなく、あくまでも一例として、アーキテクチャ７００、具体的にはコア７４０を有するコンピュータシステムは、プロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が１つ以上の有形のコンピュータ可読媒体に具体化されたソフトウェアを実行した結果として機能を提供することができる。このようなコンピュータ可読媒体は、以上で紹介したようにユーザがアクセス可能な大容量ストレージと、コア内部大容量ストレージ７４７又はＲＯＭ７４５などの非一時的な性質を有するコア７４０の特定のストレージとに関連付けられたメディアであり得る。本開示の様々な実施形態を実施するソフトウェアは、そのようなデバイスに記憶され、コア７４０によって実行することができる。コンピュータ可読媒体は、特定の需要に応じて、１つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア７４０、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ７４６に記憶されたデータ構造を定義するステップと、ソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を変更するステップとを含む、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。さらに、又は代替として、コンピュータシステムは、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに又はソフトウェアと共に動作することができる回路（例えば、アクセラレータ７４４）に配線されるか又は他の方法で具体化されたロジックの結果として機能を提供することができる。ソフトウェアへの参照は、必要に応じて、ロジックを含むことができ、その逆も同様である。コンピュータ可読媒体への参照は、必要に応じて、実行のためのソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行のためのロジックを具体化する回路、又はその両方を含むことができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを含む。

図８は、クライアントエンドポイントとして様々なレガシー及び異種没入型メディア対応ディスプレイをサポートする例示的なネットワークメディア配信システム８００を示す。コンテンツ取得モジュール８０１は、図６又は図５の例示的な実施形態を使用して、メディアをキャプチャするか又は作成する。取り込みフォーマットは、コンテンツ準備モジュール８０２で作成され、次に、送信モジュール８０３を使用して、ネットワークメディア配信システム内の１つ以上のクライアントエンドポイント８０４に送信される。ゲートウェイは、顧客宅内機器にサービスを提供して、ネットワークの様々なクライアントエンドポイントへのネットワークアクセスを提供してもよい。セットトップボックスは、顧客宅内機器としてもサービスを提供して、ネットワークサービスプロバイダーによる集約コンテンツへのアクセスを提供してもよい。無線復調器は、（例えば、モバイルハンドセット及びディスプレイの場合と同様の）モバイルデバイスのモバイルネットワークアクセスポイントとして機能してもよい。１つ以上の実施形態では、レガシー２Ｄテレビは、ゲートウェイ、セットトップボックス又はＷｉＦｉルーターに直接接続されてもよい。レガシー２Ｄディスプレイを備えたラップトップコンピュータは、ＷｉＦｉルーターに接続されたクライアントエンドポイントであってもよい。ヘッドマウント２Ｄ（ラスターベース）ディスプレイもルーターに接続されてもよい。レンチキュラーライトフィールドディスプレイは、ゲートウェイに対するものであってもよい。ディスプレイは、ローカル計算ＧＰＵ、記憶デバイス、及び光線ベースのレンチキュラー光学技術を使用して複数のビューを作成する視覚提示ユニットで構成されてもよい。ホログラフィックディスプレイは、セットトップボックスに接続されてもよく、ローカル計算ＣＰＵ、ＧＰＵ、記憶デバイス、及びフレスナルパターンの波ベースのホログラフィック視覚化ユニットを含んでもよい。拡張現実ヘッドセットは、無線復調器に接続されてもよく、ＧＰＵ、記憶デバイス、電池、及びボリューム視覚提示構成要素を含んでもよい。高密度ライトフィールドディスプレイは、ＷｉＦｉルーターに接続されてもよく、複数のＧＰＵ、ＣＰＵ、記憶デバイス、目追跡装置、カメラ、及び高密度光線ベースのライトフィールドパネルを含んでもよい。

図９は、図８に先に示したように、レガシー及び異種没入型メディア対応ディスプレイにサービスを提供することができる没入型メディア配信モジュール９００の実施形態を示す。コンテンツは、モジュール９０１で作成されるか又は取得され、モジュール９０１は、それぞれ図５と図６で自然コンテンツとＣＧＩコンテンツのためにさらに具体化される。次に、コンテンツは、ネットワーク取り込みフォーマット作成モジュール９０２を使用して取り込みフォーマットに変換される。モジュール９０２は、同様に、それぞれ図５と図６で自然コンテンツとＣＧＩコンテンツのためにさらに具体化される。取り込みメディアフォーマットは、ネットワークに送信され、記憶デバイス９０３に記憶される。任意に、記憶デバイスは、没入型メディアコンテンツプロデューサーのネットワークに常駐し、９０３を二等分する破線で示されるように、没入型メディアネットワーク配信モジュール（番号なし）によってリモートでアクセスしてもよい。クライアント及びアプリケーションの特定の情報は、任意に、代替の「クラウド」ネットワークに任意にリモートで存在し得るリモート記憶デバイス９０４で利用可能である。

図９に示されるように、クライアントインタフェースモジュール９０５は、情報の主要なソース及びシンクとして機能して、配信ネットワークの主要なタスクを実行してもよい。この特定の実施形態では、モジュール９０５は、ネットワークの他の構成要素と統合されたフォーマットで実施されてもよい。それにもかかわらず、図９のモジュール９０５によって示されるタスクは、開示された主題の本質的な要素を形成する。

モジュール９０５は、クライアント９０８の特徴及び属性に関する情報を受信し、さらに、９０８で現在実行されているアプリケーションに関する要件を収集する。この情報は、デバイス９０４から取得されてもよいか、又は代替の実施形態では、クライアント９０８に直接的に問い合わせることによって取得されてもよい。クライアント９０８に直接的に問い合わせる場合、双方向プロトコル（図９には示されていない）が存在し、動作可能であると想定され、その結果、クライアントは、インタフェースモジュール９０５と直接通信してもよい。

インタフェースモジュール９０５はまた、図１０に記載されるメディア適応及びフラグメント化モジュール９１０を開始し、それと通信する。取り込みメディアがモジュール９１０によって適応されフラグメント化されると、メディアは、任意に、配信記憶デバイス９０９のために準備されたメディアとして示される中間記憶デバイスに転送される。配信メディアが準備されてデバイス９０９に記憶されると、インタフェースモジュール９０５は、没入型クライアント９０８がそのネットワークインタフェース９０８Ｂを介して「プル」要求を介して配信メディア及び対応する記述情報９０６を受信するか、又はクライアント９０８自体が記憶デバイス９０９からメディア９０６の「プル」要求を開始し得ることを確保する。没入型クライアント９０８は、任意に、ＧＰＵ（又は図示されないＣＰＵ）９０８Ｃを使用してもよい。メディアの配信フォーマットは、クライアント９０８の記憶デバイス又は記憶キャッシュ９０８Ｄに記憶される。最後に、クライアント９０８は、その視覚化構成要素９０８Ａを介してメディアを視覚的に提示する。

没入型メディアをクライアント９０８にストリーミングするプロセス全体では、インタフェースモジュール９０５は、クライアント進行状況及び状態フィードバックチャネル９０７を介してクライアントの進行状況の状態を監視する。

図１０は、取り込みソースメディアがクライアント９０８の要件に一致するように適切に適応され得るメディア適応プロセスの特定の実施形態を示す。メディア適応モジュール１００１は、取り込みメディアをクライアント９０８の適切な配信フォーマットに適応させることを容易にする複数の構成要素で構成される。これらの構成要素は、例示的なものと見なされるべきである。図１０では、適応モジュール１００１は、入力ネットワーク状態１００５を受信して、ネットワーク上の現在のトラフィック負荷、属性及び特徴の説明を含むクライアント９０８の情報、アプリケーションの特徴、説明及び現在の状態、及びクライアントニューラルネットワークモデル（利用可能な場合）を追跡して、クライアントの錐台の形状を、取り込み可能な没入型メディアの補間能力にマッピングするのに役立つ。適応モジュール１００１は、適応された出力が、作成されるときに、クライアント適応メディア記憶デバイス１００６に記憶されることを確保する。

適応モジュール１００１は、レンダラー１００１Ｂ又はニューラルネットワークプロセッサ１００１Ｃを使用して、特定の取り込みソースメディアを、クライアントに適したフォーマットに適応する。ニューラルネットワークプロセッサ１００１Ｃは、ニューラルネットワークモデル１００１Ａを使用する。そのようなニューラルネットワークプロセッサ１００１Ｃの例としては、ＭＰＩ及びＭＳＩで説明されるようなディープビューニューラルネットワークモデル生成装置が挙げられる。メディアが２Ｄフォーマットであるが、クライアントが３Ｄフォーマットである必要がある場合、ニューラルネットワークプロセッサ１００１Ｃは、２Ｄビデオ信号から高度に相関した画像を使用して、ビデオに描かれたシーンのボリューム表現を導出するプロセスを呼び出すことができる。このようなプロセスの例は、カリフォルニア大学バークレー校で開発された１つ又はいくつかの画像からのニューラル放射輝度フィールドであってもよい。適切なレンダラー１００１Ｂの例は、適応モジュール１００１と直接相互作用するように修正される、ＯＴＯＹオクタンレンダラー（図示せず）の修正バージョンであってもよい。適応モジュール１００１は、取り込みメディアのフォーマット及びクライアント９０８が必要とするフォーマットに関してこれらのツールの必要性に応じて、任意にメディアコンプレッサ１００１Ｄ及びメディアデコンプレッサ１００１Ｅを使用してもよい。

図１１は、現在クライアント適応メディア記憶デバイス１１０２にある図１０からのメディア適応モジュール１１０１から適応メディアを最終的に変換する適応メディアパッケージングモジュール１１０３を示す。パッケージングモジュール１１０３は、モジュール１１０１からの適応メディアを堅固な配信フォーマット、例えば、図３又は図４に示される例示的なフォーマットにフォーマットする。マニフェスト情報１１０４Ａは、クライアント９０８に、受信を期待できるシーンデータのリストを提供し、また、視覚資産及び対応するメタデータ、ならびに音声資産及び対応するメタデータのリストを提供する。

図１２は、適応メディア１２０１をクライアント９０８へのストリーミングに適した個々のパケット１２０３に「フラグメント化」するパケタイザーモジュール１２０２を示す。
シーケンス図１３００の図１３に示される構成要素及び通信は、以下のように説明される。クライアントエンドポイント１３０１は、ネットワーク配信インタフェース１３０２へのメディア要求１３０８を開始する。要求１３０８は、ＵＲＮ又は他の標準的な命名法によって、クライアントによって要求されたメディアを識別するための情報を含む。ネットワーク配信インタフェース１３０２は、プロファイル要求１３０９で要求１３０８に応答し、プロファイル要求１３０９は、クライアント１３０１がその現在利用可能なリソースに関する情報（計算、記憶、電池充電率及びクライアントの現在の動作状態を特徴付ける他の情報を含む）を提供することを要求する。プロファイル要求１３０９はまた、クライアントが、ニューラルネットワーク推論のためにネットワークにより使用できる１つ以上のニューラルネットワークモデルを提供し、このようなモデルがクライアントで利用可能な場合、クライアントの提示システムの特徴に一致するように正しいメディアビューを抽出するか又は補間することを要求する。クライアント１３０１からインタフェース１３０２への応答１３１１は、クライアントトークン、アプリケーショントークン及び１つ以上のニューラルネットワークモデルトークン（そのようなニューラルネットワークモデルトークンがクライアントで利用可能である場合）を提供する。次に、インタフェース１３０２は、クライアント１３０１にセッションＩＤトークン１３１１を提供する。次に、インタフェース１３０２は、要求１３０８で識別されたメディアのＵＲＮ又は標準命名法名を含む取り込みメディア要求１３１２を用いて取り込みメディアサーバ１３０３を要求する。サーバ１３０３は、取り込みメディアトークンを含む応答１３１３で要求１３１２に応答する。次に、インタフェース１３０２は、呼び出し１３１４における応答１３１３からのメディアトークンをクライアント１３０１に提供する。次に、インタフェース１３０２は、適応インタフェース１３０４に取り込みメディアトークン、クライアントトークン、アプリケーショントークン及びニューラルネットワークモデルトークンを提供することによって、１３０８において要求されたメディアの適応プロセスを開始する。インタフェース１３０４は、取り込みメディア資産へのアクセスを要求するために、呼び出し１３１６でサーバ１３０３に取り込みメディアトークンを提供することによって取り込みメディアへのアクセスを要求する。サーバ１３０３は、インタフェース１３０４への応答１３１７において、取り込みメディアアクセストークンを用いて要求１３１６に応答する。次に、インタフェース１３０４は、メディア適応モジュール１３０５が、１３１３で作成されたセッションＩＤトークンに対応するクライアント、アプリケーション及びニューラルネットワーク推論モデルのために、取り込みメディアアクセストークンに位置する取り込みメディアを適応させることを要求する。インタフェース１３０４からモジュール１３０５への要求１３１８は、必要なトークン及びセッションＩＤを含む。モジュール１３０５は、更新１３１９において、適応されたメディアアクセストークン及びセッションＩＤをインタフェース１３０２に提供する。インタフェース１３０２は、インタフェース呼び出し１３２０において、適応されたメディアアクセストークン及びセッションＩＤをパッケージングモジュール１３０６に提供する。パッケージングモジュール１３０６は、応答１３２１において、パッケージ化メディアアクセストークン及びセッションＩＤを備えたインタフェース１３０２に応答１３２１を提供する。モジュール１３０６は、応答１３２２において、パッケージ化資産、ＵＲＮ、及びセッションＩＤのためのパッケージ化メディアアクセストークンをパッケージ化メディアサーバ１３０７に提供する。クライアント１３０１は、要求１３２３を実行して、メッセージ１３２１で受信されたパッケージ化メディアアクセストークンに対応するメディア資産のストリーミングを開始する。クライアント１３０１は、他の要求を実行し、メッセージ１３２４においてインタフェース１３０２に状態更新を提供する。

図１４は、３Ｄフォーマット１４０１及び２Ｄフォーマット１４０２の没入型メディア及び資産の２つの部分から任意に構成される、図１０の取り込みメディアフォーマット及び資産１００２を示す。２Ｄフォーマット１４０２は、単一のビューを含むコード化ビデオストリーム、例えば、ＩＳＯ／ＩＥＣ１４４９６Ｐａｒｔ１０先進的ビデオコーディングであってもよく、複数のビューを含むコード化ビデオストリーム、例えば、ＩＳＯ／ＩＥＣ１４４９６Ｐａｒｔ１０のマルチビュー圧縮修正であってもよい。

図１５は、コード化ビデオストリームとともにニューラルネットワークモデル情報の伝送を示す。この図では、コード化ビデオストリーム１５０１は、１つ以上のＳＥＩメッセージ１５０１Ａによって直接保持されるニューラルネットワークモデル及び対応するパラメータを含む。一方、コード化ビデオストリーム１５０２では、１つ以上のＳＥＩメッセージは、ニューラルネットワークモデル及びそれに対応するパラメータの識別子を保持する。１５０２のシナリオでは、ニューラルネットワークモデル及びパラメータは、コード化ビデオストリームの外部、例えば、図１０の１００１Ａに記憶される。

図１６は、３Ｄフォーマットでの取り込まれた没入型メディア資産１６０１（元々は図１４の項目１４０１として示される）におけるニューラルネットワークモデル情報の伝送を示す。メディア１６０１は、１６０２として示されるシーン１～Ｎを指す。各シーン１６０２は、形状１６０３及び処理パラメータ１６０４を指す。形状１６０３は、ニューラルネットワークモデルへの参照１６０３Ａを含んでもよい。処理パラメータ１６０４はまた、ニューラルネットワークモデルへの参照１６０４Ａを含んでもよい。１６０４Ａ及び１６０３Ａの両方は、シーンと共に直接記憶されたネットワークモデルを指してもよく、取り込まれたメディアの外部に存在するニューラルネットワークモデル、例えば、図１０の１００１Ａに記憶されたネットワークモデルを指す識別子を指してもよい。
いくつかの実施形態は、任意の可能な技術的詳細レベルの統合におけるシステム、方法及び／又はコンピュータ可読媒体に関する。コンピュータ可読媒体は、プロセッサに動作を実行させるコンピュータ可読プログラム命令をその上に有するコンピュータ可読非一時的記憶媒体を含んでもよい。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるために命令を保持し記憶することができる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス又は前述の任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラム可能リードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、パンチカード又はそこに記録された命令を有する溝内の隆起構造などの機械的に符号化されたデバイス、及び前述の任意の適切な組み合わせを含む。コンピュータ可読記憶媒体は、本明細書で使用される場合、それ自体が、無線波若しくは他の自由に伝搬する電磁波、導波路若しくは他の伝送メディアを通って伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又は電線を通して送信される電気信号などの一時的な信号であると解釈されるべきではない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスにダウンロードすることができ、或いはネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワークを介して、外部コンピュータ又は外部記憶デバイスにダウンロードすることができる。ネットワークは、銅送信ケーブル、光送信ファイバ、無線送信、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを含んでもよい。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体内に記憶するために、コンピュータ可読プログラム命令を転送する。

動作を実施するためのコンピュータ可読プログラムコード／命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、又はＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語若しくは類似のプログラミング言語などの手続型プログラミング言語を含む１つ以上のプログラミング言語の任意の組み合わせで書かれたソースコード若しくはオブジェクトコードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで、部分的にユーザのコンピュータでスタンドアロンのソフトウェアパッケージとして、部分的にユーザのコンピュータで、部分的にリモートコンピュータで、又は完全にリモートコンピュータ若しくはサーバで実行されてもよい。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、或いは、接続は、（例えば、インターネットサービスプロバイダーを使用してインターネットを介して）外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラム可能論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラム可能論理アレイ（ＰＬＡ）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用して電子回路をカスタマイズすることによって、コンピュータ可読プログラム命令を実行して、態様又は動作を実行してもよい。

これらのコンピュータ可読プログラム命令は、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び／又はブロック図又はブロックで特定された機能／行為を実施するための手段を生成するように、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに提供されて機械を製造してもよい。これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、フローチャート及び／又はブロック図又はブロックにおいて指定される機能／動作の態様を実施する命令を含む製造品を含むように、コンピュータ、プログラム可能データ処理装置及び／又は他のデバイスに特定の方法で機能するように指示することができるコンピュータ可読記憶媒体内に記憶されてもよい。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能装置、又は他のデバイスで動作する命令が、フローチャート及び／又はブロック図又はブロックにおいて指定される機能／動作を実施するように、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイスにロードされ、コンピュータ、他のプログラム可能装置、又は他のデバイスで一連の動作ステップを実行してコンピュータ実施プロセスを生成してもよい。

図面のフローチャート及びブロック図は、様々な実施形態によるシステム、方法及びコンピュータ可読媒体の可能な実施のアーキテクチャ、機能及び動作を示す。この点で、フローチャート又はブロック図の各ブロックは、指定された論理機能を実行する１つ以上の実行可能命令を含むモジュール、セグメント又は命令の部分を表してもよい。方法、コンピュータシステム及びコンピュータ可読媒体は、図面に示されているものよりも追加のブロック、より少ないブロック、異なるブロック又は異なる配置のブロックを含んでもよい。いくつかの代替的な実施では、ブロックに示されている機能は、図面に示されている順序とは異なる順序で生じる場合がある。例えば、連続して示された２つのブロックは、実際には、同時に又は実質的に同時に実行される場合があり、或いはそれらのブロックは、関連する機能に応じて、逆順で実行される場合もある。ブロック図及び／又はフローチャート図の各ブロック、或いはブロック図及び／又はフローチャート図のブロックの組み合わせは、指定された機能若しくは動作を実行するか又は専用ハードウェア及びコンピュータ命令の組み合わせを実施する専用ハードウェアベースのシステムによって実施することができることにも留意されたい。

本明細書において説明されるシステム及び／又は方法は、異なる形のハードウェア、ファームウェア、又はハードウェアとソフトウェアとの組み合わせにおいて実現されてもよいことが明らかになる。これらのシステム及び／又は方法を実現するために使用される実際の特定化された制御ハードウェア又はソフトウェアコードは、実施を限定するものではない。したがって、本明細書において、システム及び／又は方法の動作及び挙動は、特定のソフトウェアコードを参照せずに説明された。本明細書の説明に基づいてシステム及び／又は方法を実現するようにソフトウェア及びハードウェアを設計できることが理解される。

本明細書で使用される要素、行為又は命令は、明示的に記載されない限り、重要又は本質的なものであると解釈されるべきではない。また、本明細書において使用されるように、「１つ」及び「一の」という冠詞は、１つ以上の項目を含むことが意図されるものであり、「１つ以上」と交換可能に使用され得る。さらに、本明細書において使用されるように、「セット」という用語は、１つ以上の項目（例えば、関連項目、非関連項目、関連及び非関連項目の組み合わせ等）を含むことが意図されるものであり、「１つ以上」と交換可能に使用され得る。１つの項目のみが意図されるときは、「１つ」という用語又は類似の言葉が使用される。また、本明細書において使用されるように、「有する」、「含有する」又は「有している」などの用語は、オープンエンド用語であることが意図される。さらに、「基づく」という語句は、明示的に別様に述べられていない限り、「少なくとも部分的に基づく」ことを意味することが意図される。

様々な態様及び実施形態の説明は、例示の目的で提示されているが、網羅的であること、又は開示された実施形態に限定されることを意図するものではない。特徴の組み合わせが特許請求の範囲に記載され、及び／又は明細書に開示されているが、これらの組み合わせは、可能な実施形態の開示を限定することを意図したものではない。実際には、これらの特徴の多くは、特許請求の範囲に具体的に記載されておらず、及び／又は、明細書中に具体的に開示されていない手法で組み合わせることができる。以下に挙げられる各従属請求項は、１つの請求項のみに直接従属する可能性があるが、可能な実施形態の開示は、請求項の組におけるあらゆる他の請求項と組み合わせた各従属請求項を含む。多くの修正及び変形は、記載された実施形態の範囲から逸脱することなく、当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見られる技術に対する実際の適用又は技術的改善を最もよく説明するため、又は他の当業者が本明細書に開示される実施形態を理解できるようにするために選択された。

１０１Ａカメラ又はマイクロフォン
１０１Ｂコンピュータ
１０２２Ｄ画像及び関連する音声のシーケンス
１０３準備モジュール
１０４コンバータモジュール
１０５適応モジュール
１０６コンテンツ配信ネットワーク
１０７プル要求
１０８クライアント
２０２ＭＰＤ
２０３時限期間
２０４適応セット
２０５表現
２０６セグメントファイル
３０１シーン情報
３０２構成要素
３０３資産
３０４ベース層
３０５属性強化層
４０１シーン情報
４０２構成要素
４０３資産
４０４ベース層
４０５属性強化層
５００プロセス
５０１カメラユニット
５０２カメラユニット
５０３カメラユニット
５０４合成モジュール
５０５訓練プロセス
５０５ニューラルネットワーク訓練モジュール
５０６訓練画像
５０７取り込みフォーマット
５０８キャプチャニューラルネットワークモデル
５０９自然画像コンテンツ
６００プロセス
６０１ＬＩＤＡＲカメラ
６０２ポイントクラウドデータ
６０３コンピュータ
６０４ＣＧＩ資産
６０５アクター
６０５Ａモーションキャプチャスーツ
６０６モーションキャプチャデータ
６０７合成モジュール
６０８合成メディアの取り込みフォーマット
７００コンピュータシステム
７００アーキテクチャ
７０１キーボード
７０２マウス
７０３トラックパッド
７０５ジョイスティック
７０６マイクロフォン
７０７スキャナ
７０８カメラ
７０９スピーカ
７１０タッチスクリーン
７２０ＣＤ／ＤＶＤＲＯＭ／ＲＷ
７２１メディア
７２２サムドライブ
７２３ソリッドステートドライブ
７４０コア
７４１中央処理装置（ＣＰＵ）
７４２グラフィックス処理装置（ＧＰＵ）
７４３フィールドプログラマブルゲートアレイ（ＦＰＧＡ）
７４４ハードウェアアクセラレータ
７４５リードオンリメモリ（ＲＯＭ）
７４６ランダムアクセスメモリ
７４７大容量ストレージ
７４８システムバス
７４９周辺バス
８００ネットワークメディア配信システム
８０１コンテンツ取得モジュール
８０２コンテンツ準備モジュール
８０３送信モジュール
８０４クライアントエンドポイント
９００没入型メディア配信モジュール
９０１モジュール
９０１コンテンツ取得/作成モジュール
９０２ネットワーク取り込みフォーマット作成モジュール
９０３取り込み記憶デバイス
９０４リモート記憶デバイス
９０５モジュール
９０５クライアントインタフェースモジュール
９０６メディア及び記述情報
９０７クライアント進行状況及び状態フィードバックチャネル
９０８没入型クライアント
９０８Ａ視覚化構成要素
９０８Ｂネットワークインタフェース
９０８Ｄ記憶キャッシュ
９０９配信記憶デバイス
９１０メディア適応及びフラグメント化モジュール
１００１適応モジュール
１００１Ａニューラルネットワークモデル
１００１Ｂレンダラー
１００１Ｃニューラルネットワークプロセッサ
１００１Ｄメディアコンプレッサ
１００１Ｅメディアデコンプレッサ
１００２資産
１００５入力ネットワーク状態
１００６クライアント適応メディア記憶デバイス
１１０１メディア適応モジュール
１１０２現在クライアント適応メディア記憶デバイス
１１０３適応メディアパッケージングモジュール
１１０４Ａマニフェスト情報
１２０１適応メディア
１２０２パケタイザーモジュール
１２０３パケット
１２０４クライアントエンドポイント
１３００シーケンス図
１３０１クライアントエンドポイント
１３０２ネットワーク配信インタフェース
１３０３取り込みメディアサーバ
１３０４適応インタフェース
１３０５メディア適応モジュール
１３０６パッケージングモジュール
１３０７パッケージ化メディアサーバ
１４０１３Ｄ没入型メディア及び資産
１４０２２Ｄ没入型メディア及び資産
１５０１コード化ビデオストリーム
１５０１ＡＳＥＩメッセージ
１５０２コード化ビデオストリーム
１５０２ＡＳＥＩメッセージ
１６０１３Ｄ没入型メディア及び資産
１６０２シーン
１６０３形状
１６０３Ａ参照
１６０４処理パラメータ
１６０４Ａ参照

Claims

プロセッサが実行することができる、没入型メディアをストリーミングする方法であって、
クライアントエンドポイントの特性を示す情報を取得するステップと、第１の２次元フォーマット又は第１の３次元フォーマットでコンテンツを取り込むステップであって、前記第１の２次元フォーマット又は前記第１の３次元フォーマットがニューラルネットワークを参照するステップと、
参照した前記ニューラルネットワークに基づいて、取り込んだ前記コンテンツを前記クライアントエンドポイントの前記特性に適した第２の２次元フォーマット又は第２の３次元フォーマットに変換するステップと、
変換した前記コンテンツを前記クライアントエンドポイントにストリーミングするステップと、を含み、
前記ニューラルネットワークは、コード化ビデオストリームと共にストリーミングされる前記ニューラルネットワークのモデルの位置を識別するメタデータによって、またはコード化ビデオストリームと共にストリーミングされる前記コンテンツを説明するメタデータに対応するユニバーサルリソース識別子によって、前記クライアントエンドポイントに参照される、
方法。
前記コンテンツから深度情報を推論することに基づいて、前記クライアントエンドポイントに関連付けられたシーン固有のボリュームフォーマットに前記コンテンツを適応させるステップをさらに含む、請求項１に記載の方法。
前記ニューラルネットワークは、前記コンテンツ内のオブジェクトに対応する事前分布に基づいて、前記コンテンツを取り込む前に訓練される、請求項１に記載の方法。
１つ以上の前記クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラーライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ及び高密度ライトフィールドディスプレイのうちの１つ以上を含む、請求項１に記載の方法。
没入型メディアをストリーミングするコンピュータシステムであって、
コンピュータプログラムコードを記憶するように構成された１つ以上のコンピュータ可読非一時記憶媒体と、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって指示されるように動作するように構成された１つ以上のコンピュータプロセッサと、を含み、前記コンピュータプログラムコードは、
前記１つ以上のコンピュータプロセッサに、クライアントエンドポイントの特性を示す情報を取得させるように構成された取得コードと、
前記１つ以上のコンピュータプロセッサに、第１の２次元フォーマット又は第１の３次元フォーマットでコンテンツを取り込ませるように構成された取り込みコードであって、前記第１の２次元フォーマット又は前記第１の３次元フォーマットがニューラルネットワークを参照する取り込みコードと、
前記１つ以上のコンピュータプロセッサに、参照した前記ニューラルネットワークに基づいて、取り込んだ前記コンテンツを前記クライアントエンドポイントの前記特性に適した第２の２次元フォーマット又は第２の３次元フォーマットに変換させるように構成された変換コードと、
前記１つ以上のコンピュータプロセッサに、変換した前記コンテンツを前記クライアントエンドポイントにストリーミングさせるように構成されたストリーミングコードと、を含み、
前記ニューラルネットワークは、コード化ビデオストリームと共にストリーミングされる前記ニューラルネットワークのモデルの位置を識別するメタデータによって、またはコード化ビデオストリームと共にストリーミングされる前記コンテンツを説明するメタデータに対応するユニバーサルリソース識別子によって、前記クライアントエンドポイントに参照される、
コンピュータシステム。
前記コンテンツから深度情報を推論することに基づいて、前記クライアントエンドポイントに関連付けられたシーン固有のボリュームフォーマットに前記コンテンツを適応させることをさらに含む、請求項５に記載のコンピュータシステム。
前記ニューラルネットワークは、前記コンテンツ内のオブジェクトに対応する事前分布に基づいて、前記コンテンツを取り込む前に訓練される、請求項５に記載のコンピュータシステム。
１つ以上の前記クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラーライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ及び高密度ライトフィールドディスプレイのうちの１つ以上を含む、請求項５に記載のコンピュータシステム。
没入型メディアをストリーミングするコンピュータプログラムであって、前記コンピュータプログラムは、１つ以上のコンピュータプロセッサに、
クライアントエンドポイントの特性を示す情報を取得させるように構成され、
第１の２次元フォーマット又は第１の３次元フォーマットでコンテンツを取り込ませるステップであって、前記第１の２次元フォーマットまたは前記第１の３次元フォーマットがニューラルネットワークを参照するステップを実行するように構成され、
変換コードが、前記１つ以上のコンピュータプロセッサに、参照した前記ニューラルネットワークに基づいて、取り込んだ前記コンテンツを前記クライアントエンドポイントの前記特性に適した第２の２次元フォーマット又は第２の３次元フォーマットに変換させるように構成され、
ストリーミングコードが、前記１つ以上のコンピュータプロセッサに、変換した前記コンテンツを前記クライアントエンドポイントにストリーミングさせるように構成され、
前記ニューラルネットワークは、コード化ビデオストリームと共にストリーミングされる前記ニューラルネットワークのモデルの位置を識別するメタデータによって、またはコード化ビデオストリームと共にストリーミングされる前記コンテンツを説明するメタデータに対応するユニバーサルリソース識別子によって、前記クライアントエンドポイントに参照される、
コンピュータプログラム。
前記コンテンツから深度情報を推論することに基づいて、前記クライアントエンドポイントに関連付けられたシーン固有のボリュームフォーマットに前記コンテンツを適応させることをさらに含む、請求項９に記載のコンピュータプログラム。
前記ニューラルネットワークは、前記コンテンツ内のオブジェクトに対応する事前分布に基づいて、前記コンテンツを取り込む前に訓練される、請求項９に記載のコンピュータプログラム。