JP7447293B2

JP7447293B2 - 異種クライアントエンドポイントへのストリーミングのための２ｄビデオの適応のためのニューラルネットワークモデルの参照

Info

Publication number: JP7447293B2
Application number: JP2022551722A
Authority: JP
Inventors: アリアンヌ・ハインズ; ステファン・ヴェンガー
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-12-16
Filing date: 2021-09-01
Publication date: 2024-03-11
Anticipated expiration: 2041-09-01
Also published as: US20230319328A1; WO2022132249A1; US20220191561A1; CN114981822A; JP2023516305A; KR20220113772A; EP4070249A4; US11736748B2; EP4070249A1

Description

関連出願への相互参照
本願は、米国特許商標庁へ、２０２０年１２月１６日に出願された米国仮特許出願第６３／１２６，１８８号、及び２０２１年８月２０日に出願された米国特許出願第１７／４０７，７１１号に基づく優先権を主張し、その内容を全て参照により本明細書に組み込むものとする。

本開示は、一般に、データ処理の分野に関し、より具体的には、ビデオコーディングに関する。

「イマーシブメディア」とは、一般に、任意又はすべての人間の感覚系（視覚、聴覚、体性感覚、嗅覚、及び場合によっては味覚）を刺激して、ユーザがメディアの体験に物理的に存在するという認識を創出又は強化するメディア、即ち、「レガシーメディア」として知られているタイムド２次元（２Ｄ）ビデオ及び対応するオーディオについて既存の商用ネットワーク上で配信されるものを超えるメディアをいう。イマーシブメディアとレガシーメディアの両方は、タイムド又はアンタイムドのいずれかとして特徴付けることができる。

タイムドメディアとは、時間に従って構造化され提示されるメディアを指す。例としては、いずれも期間別に編成されている映画の特集、ニュースレポート、エピソードコンテンツなどがある。従来のビデオとオーディオは、一般にタイムドメディアと見なされる。

アンタイムドメディアは、時間によって構造化されておらず、むしろ、論理的、空間的、及び／又は時間的関係によって構造化されているメディアである。例としては、ユーザがゲームデバイスによって作り出される経験を制御するビデオゲームがある。アンタイムドメディアの他の例は、カメラで捕捉された静止画像の写真である。アンタイムドメディアは、例えば、ビデオゲーム用のシーンの連続的にループされたオーディオ又はビデオセグメントにおいて、タイムドメディアを組み込むことができる。逆に、タイムドメディアは、例えば、固定された静止画像を背景とするビデオなど、アンタイムドメディアを組み込むことができる。

イマーシブメディア対応デバイスは、イマーシブメディアにアクセスし、それを解釈し、提示する能力を備えたデバイスを指してもよい。このようなメディア及びデバイスは、メディアの量及びフォーマット、ならびにこのようなメディアを大規模に配信するために、即ち、ネットワーク上で従来のビデオ及びオーディオメディアと同等の配信を達成するために必要なネットワーク資源の数及び種類の面で異種である。これに対して、ラップトップディスプレイ、テレビ、及び携帯電話機ディスプレイなどのレガシーデバイスは、これらのデバイスのすべてが長方形のディスプレイスクリーンで構成され、主要なメディアフォーマットとして２Ｄの長方形のビデオ又は静止画像を消費するため、その能力において均質である。

イマーシブメディアをストリーミングするための方法、システム、及びコンピュータ読取可能な媒体が提供される。

本開示の一態様によれば、プロセッサによって実行可能な、イマーシブメディアをストリーミングする方法は、２次元フォーマットのコンテンツを取り込むステップであって、前記２次元フォーマットは、少なくとも１つのニューラルネットワークを参照する、ステップと、取り込まれた前記コンテンツを、参照された前記少なくとも１つのニューラルネットワークに基づいて３次元フォーマットに変換するステップと、変換された前記コンテンツをクライアントエンドポイントにストリーミングするステップと、を含む。

前記少なくとも１つのニューラルネットワークは、取り込まれた前記コンテンツに含まれるシーンに対応するシーン固有のニューラルネットワークを含んでもよい。

取り込まれた前記コンテンツを変換する前記ステップは、前記シーン固有のニューラルネットワークを使用して、前記シーンに関する深度情報を推定するステップと、取り込まれた前記コンテンツを、前記シーンに関連付けられたシーン固有のボリュメトリックフォーマットに適応させるステップと、を含んでもよい。

前記少なくとも１つのニューラルネットワークは、前記シーン内のオブジェクトに対応する先験に基づいてトレーニングされてもよい。

前記少なくとも１つのニューラルネットワークは、取り込まれた前記コンテンツに対応するコーディングされたビデオビットストリームに含まれる補足エンハンスメント情報（ＳＥＩ）メッセージにおいて参照されてもよい。

前記少なくとも１つのニューラルネットワークに対応するニューラルネットワークモデル及び少なくとも１つのパラメータは、前記ＳＥＩメッセージに直接埋め込まれてもよい。

前記少なくとも１つのニューラルネットワークに対応するニューラルネットワークモデルの位置は、前記ＳＥＩメッセージでシグナリングされてもよい。

前記クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラーライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ、及び高密度ライトフィールドディスプレイのうち１つ又は複数を含んでもよい。

本開示の一態様によれば、イマーシブメディアをストリーミングするためのデバイスは、プログラムコードを記憶するように構成される少なくとも１つのメモリと、前記プログラムコードを読み取り、前記プログラムコードによって指示される通りに動作するように構成される少なくとも１つのプロセッサと、を備え、前記プログラムコードは、前記少なくとも１つのプロセッサに、２次元フォーマットのコンテンツを取り込ませるように構成される取り込みコードであって、前記２次元フォーマットは、少なくとも１つのニューラルネットワークを参照する、取り込みコードと、前記少なくとも１つのプロセッサに、取り込まれた前記コンテンツを、参照された前記少なくとも１つのニューラルネットワークに基づいて３次元フォーマットに変換させるように構成される変換コードと、前記少なくとも１つのプロセッサに、変換された前記コンテンツをクライアントエンドポイントにストリーミングさせるように構成されるストリーミングコードと、を含む。

前記変換コードは、前記少なくとも１つのプロセッサに、前記シーン固有のニューラルネットワークを使用して、前記シーンに関する深度情報を推定させるように構成される推定コードと、前記少なくとも１つのプロセッサに、取り込まれた前記コンテンツを、前記シーンに関連付けられたシーン固有のボリュメトリックフォーマットに適応させるように構成される適応コードと、を含んでもよい。

本開示の一態様によれば、命令を記憶する非一時的なコンピュータ読取可能な媒体であって、前記命令は、イマーシブメディアをストリーミングするためのデバイスの少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、２次元フォーマットのコンテンツを取り込むステップであって、前記２次元フォーマットは、少なくとも１つのニューラルネットワークを参照する、ステップと、取り込まれた前記コンテンツを、参照された前記少なくとも１つのニューラルネットワークに基づいて３次元フォーマットに変換するステップと、変換された前記コンテンツをクライアントエンドポイントにストリーミングするステップと、を行わせる１つ又は複数の命令を含む、非一時的なコンピュータ読取可能な記憶媒体を提供する。

前記１つ又は複数の命令は、前記少なくとも１つのプロセッサに、前記シーン固有のニューラルネットワークを使用して、前記シーンに関する深度情報を推定するステップと、取り込まれた前記コンテンツを、前記シーンに関連付けられたシーン固有のボリュメトリックフォーマットに適応させるステップと、をさらに行わせてもよい。

これら及び他の目的、特徴及び利点は、添付の図面に関連して読み取られる例示的な実施形態の以下の詳細な説明から明らかになるであろう。図示は、詳細な説明と併せて当業者の理解を容易にするためのものであるため、図面の様々な特徴は、縮尺通りではない。

タイムドレガシーメディア配信のエンドツーエンドプロセスを示す概略図である。タイムドレガシーメディアのストリーミングに使用される標準メディアフォーマットを示す概略図である。タイムドイマーシブメディアの表現及びストリーミングのためのデータモデルの一実施形態を示す概略図である。アンタイムドイマーシブメディアの表現及びストリーミングのためのデータモデルの一実施形態を示す概略図である。自然シーンを捕捉し、異種クライアントエンドポイントにサービスを提供するネットワークのための取り込みフォーマットとして使用することができる表現に変換するプロセスを示す概略図である。３Ｄモデリングツール及びフォーマットを使用して、異種クライアントエンドポイントにサービスを提供するネットワークのための取り込みフォーマットとして使用することができる合成シーンの表現を作成するプロセスを示す概略図である。コンピュータシステムのシステム図である。複数の異種クライアントエンドポイントにサービスを提供するネットワークを示す概略図である。例えば、特定のイマーシブメディアクライアントエンドポイントによる消費のためにメディアを適応させるネットワークのプロセスの前に、メディア取り込みフォーマットで表される特定のメディアに関する適応情報を提供するネットワークを示す概略図である。ソースメディアをその取り込みフォーマットから特定のクライアントエンドポイントに適した特定のフォーマットに変換するメディアレンダコンバータからなるメディア適応プロセスのシステム図である。適応されたソースメディアを表現及びストリーミングに適したデータモデルにフォーマットするネットワークを示す概略図である。図１２のデータモデルをネットワークプロトコルパケットのペイロードに断片化するメディアストリーミングプロセスのシステム図である。取り込みフォーマットの特定のイマーシブメディアを、特定のイマーシブメディアクライアントエンドポイントのためのストリーミング可能かつ適切な配信フォーマットに適応させるネットワークのシーケンス図である。イマーシブ及びレガシーコンテンツフォーマットの両方、即ち２Ｄビデオフォーマットのみ、又はイマーシブ及び２Ｄビデオフォーマットの両方からなる図１０の取り込みメディアフォーマット及びアセット１００２を示す概略図である。コーディングされたビデオストリームと共にニューラルネットワークモデル情報の搬送を示している。

特許請求の範囲に記載された構造及び方法の詳細な実施形態が本明細書に開示されているが、開示された実施形態は、様々な形態で具体化され得る特許請求の範囲に記載された構造及び方法の単なる例示であることが理解され得る。しかしながら、それらの構造及び方法は、多くの異なる形態で具現化されてもよく、本明細書に記載される例示的な実施形態に限定されると解釈されるべきではない。むしろ、これらの例示的な実施形態は、本開示が徹底的かつ完全であり、当業者に範囲を完全に伝えるように提供される。説明において、提示された実施形態を不必要に不明瞭にすることを避けるために、周知の特徴及び技術の詳細が省略される場合がある。

実施形態は、一般に、データ処理の分野に関し、より具体的には、ビデオコーディングに関する。本明細書で説明される技術は、ネットワークが、１つ又は複数の（通常は少数の）ビューを含むメディアの２Ｄビデオソースを取り込むために、そして、フォーマットされたメディアを多様なクライアントエンドポイントに実際に配信する前に、多様な異種クライアントエンドポイントデバイス、それらの異なる特徴及び能力、ならびにクライアントエンドポイントで使用されているアプリケーションの要件に対応するように、２Ｄメディアのソースを１つ又は複数のストリーミング可能な「配信フォーマット」に適応させるために、２Ｄコーディングされたビデオストリームがシーン固有のニューラルネットワークモデルをシグナリングするのを可能にする。ネットワークモデルは、ＳＥＩ構造化フィールドによって、コーディングされたビットストリームのシーン固有のコーディングされたビデオストリームに直接埋め込まれてもよく、あるいは、ＳＥＩは、配信ネットワーク上の他の場所に記憶されているが、ニューラルネットワークプロセスがアクセス可能な特定のモデルの使用をシグナリングしてもよい。２Ｄメディアソースを多様なストリーミング可能な配信フォーマットに再フォーマットする能力は、ネットワークが、様々な能力を有する多様なクライアントエンドポイント及び利用可能な計算資源に同時にサービスを提供することを可能にし、商用ネットワークにおけるホログラフィック及びライトフィールドディスプレイなどの新興のイマーシブクライアントエンドポイントのサポートを可能にする。さらに、シーン固有のニューラルネットワークモデルに基づいてシーン固有の２Ｄメディアソースを適応させる能力は、最終的なビジュアル品質を向上させる。このような２Ｄメディアソースを適応させる能力は、利用可能なイマーシブメディアソースがない場合、及び、クライアントが２Ｄメディアに基づく配信フォーマットをサポートできない場合に特に重要である。このシナリオでは、ニューラルネットワークベースのアプローチは、特定のシーン内のオブジェクト又は特定のシーンの文脈に一般的に類似した先験でトレーニングされたシーン固有のニューラルネットワークモデルを搬送することによって、２Ｄメディア内に存在する特定のシーンでより最適に使用することができる。これにより、特定のシーンに関する深度ベースの情報を推定するネットワークの能力が向上し、２Ｄメディアを、ターゲットクライアントエンドポイントに適したシーン固有のボリュメトリックフォーマットに適応させることができるようになる。

前述のように、「イマーシブメディア」とは、一般に、任意又はすべての人間の感覚系（視覚、聴覚、体性感覚、嗅覚、及び場合によっては味覚）を刺激して、ユーザがメディアの体験に物理的に存在するという認識を創出又は強化するメディア、即ち、「レガシーメディア」として知られているタイムド２次元（２Ｄ）ビデオ及び対応するオーディオについて既存の商用ネットワーク上で配信されるものを超えるメディアをいう。イマーシブメディアとレガシーメディアの両方は、タイムド又はアンタイムドのいずれかとして特徴付けられることができる。

タイムドメディアとは、時間に従って構造化され提示されるメディアを指す。例としては、いずれも期間別に編成されている映画の特集、ニュースレポート、エピソードコンテンツなどがある。従来のビデオ及びオーディオは、一般に、タイムドメディアと見なされる。

イマーシブメディア対応デバイスは、イマーシブメディアにアクセスし、それを解釈し、提示する能力を備えたデバイスを指してもよい。このようなメディア及びデバイスは、メディアの量及びフォーマット、ならびにこのようなメディアを大規模に配信するために、即ち、ネットワーク上でレガシービデオ及びオーディオメディアと同等の配信を達成するために必要なネットワーク資源の数及び種類の面で異種である。これに対して、ラップトップディスプレイ、テレビ、及び携帯電話機ディスプレイなどのレガシーデバイスは、これらのデバイスのすべてが長方形のディスプレイスクリーンで構成され、主要なメディアフォーマットとして２Ｄの長方形のビデオ又は静止画像を消費するため、その能力において均質である。

ネットワーク上でのあらゆるメディアの配信は、メディアを入力又はネットワーク「取り込み」フォーマットから、その配信フォーマットが、ターゲットとなるクライアントデバイス及びそのアプリケーションに適しているだけでなく、ネットワーク上でストリーミングされることにも貢献する最終的な配信フォーマットに再フォーマットする、メディア配布システム及びアーキテクチャを採用し得る。メディアの「ストリーミング」とは、広義には、メディアの時間的又は空間的構造のいずれか又は両方に従って論理的に編成され順序付けられた、連続した小さいサイズの「チャンク」でネットワーク上で配布されることができるように、ソースメディアを断片化しパケット化することを指す。このような配信アーキテクチャ及びシステムにおいて、メディアは、最も顕著なメディア情報のみがクライアントに最初に配布されるように、圧縮又はレイヤ化プロセスを受けることができる。場合によっては、クライアントは、同じメディア部分のいずれかをエンドユーザに提示することができる前に、メディアの一部分の顕著なメディア情報のすべてを受信しなければならない。

ターゲットクライアントエンドポイントの能力に一致するように入力メディアを再フォーマットするプロセスは、再フォーマットされる特定のメディアのいくつかの事前知識をカプセル化し得るネットワークモデルを取るニューラルネットワークプロセスを採用し得る。例えば、特定のモデルは、（木、植物、草、及び公園のシーンに共通の他のオブジェクトを有する）屋外の公園シーンを認識するようにチューニングされてもよく、一方、別の特定のモデルは、（ディナーテーブル、食器、テーブルに座る人などを有する）屋内のディナーシーンを認識するようにチューニングされてもよい。当業者には明らかなように、特定の文脈からのオブジェクト、例えば、公園シーンのオブジェクトを認識するようにチューニングされたネットワークモデルは、特定のシーンのコンテンツに一致するようにチューニングされたネットワークモデルを備えるニューラルネットワークプロセスが、そうチューニングされていないネットワークモデルよりも優れたビジュアル結果を生み出す、と認識する。したがって、ターゲットクライアントエンドポイントの能力に一致するように入力メディアを再フォーマットすることを任務とするニューラルネットワークプロセスに、シーン固有のネットワークモデルを提供する利点がある。

ニューラルネットワークモデルを特定のシーンに関連付けるメカニズムは、任意選択でネットワークモデルを圧縮し、Ｈ．２６４、Ｈ．２６５、及びＨ．２６６ビデオ圧縮フォーマットのコーディングされたビデオストリームにメタデータを添付するために一般的に使用される補足エンハンスメント情報（ＳＥＩ）構造化フィールドによってビジュアルシーン用のコーディングされたビットストリームに直接挿入し得ることによって達成されてもよい。コーディングされたビデオビットストリームの一部分の文脈内に特定のニューラルネットワークモデルを含むＳＥＩメッセージが存在することは、ネットワークモデルが、ビットストリームの、モデルが埋め込まれた部分内のビデオコンテンツを解釈し適応させるために使用されることを示すために使用されてもよい。あるいはまた、ＳＥＩメッセージは、ネットワークモデルの識別子によって、実際のモデル自体がない場合にどのニューラルネットワークモデルを使用することができるかをシグナリングするために使用されてもよい。

ターゲットクライアントエンドポイントへのビデオの適応に続いて、ネットワーク内の適応プロセスは、次に、その結果に圧縮アルゴリズムを適用することを選択してもよい。さらに、圧縮アルゴリズムは、任意選択で、適応されたビデオ信号を、ビジュアル信号の最も顕著な部分から最も顕著でない部分に対応するレイヤに分離してもよい。

圧縮及びレイヤ化プロセスの例は、画像を、画像全体を最初に元々焦点が合っていない基本形状及び色のみで、即ち画像スキャン全体の低次ＤＣＴ係数から提示するレイヤ（画像に焦点を合わせる、即ち画像スキャンの高次ＤＣＴ係数からの詳細の追加のレイヤが続く）に分離するＪＰＥＧ規格（ＩＳＯ／ＩＥＣ１０９１８Ｐａｒｔ１）のプログレッシブフォーマットがある。

メディアをより小さな部分に分解し、それらを連続するネットワークプロトコルパケットのペイロード部分に編成し、これらのプロトコルパケットを配信するプロセスは、メディアの「ストリーミング」と呼ばれ、一方、メディアを、多様な異種アプリケーションの１つを操作している多様な異種クライアントエンドポイントの１つでの提示に適したフォーマットに変換するプロセスは、メディアの「適応」として知られている。

定義

シーングラフ：グラフィカルシーンの論理的及び多くの場合（必ずしもそうではないが）空間的表現を配置するもので、ベクトルベースのグラフィックス編集アプリケーション及び現代のコンピュータゲームによって一般的に使用される汎用のデータ構造。グラフ構造におけるノードと頂点のコレクション。

ノード：視覚、聴覚、触覚、嗅覚、味覚、又は関連する処理情報の論理的又は空間的又は時間的表現に関連する情報からなるシーングラフの基本要素。各ノードは、最大１つの出力エッジ、０又はより多くの入力エッジ、及びそれに接続する少なくとも１つのエッジ（入力又は出力のいずれか）を有するものとする。

ベースレイヤ：通常、アセットのレンダリングに必要な計算資源又は時間、あるいはネットワーク上でアセットを伝送する時間を最小化するように定式化される、アセットの名目上の表現。

エンハンスメントレイヤ：アセットのベースレイヤ表現に適用されたとき、ベースレイヤでサポートされていない特徴又は能力を含むようにベースレイヤを補強する情報のセット。

属性：ノードの特定の特性又は特徴を、標準の形式又はより複雑な形式で（例えば、別のノードの観点から）記述するために使用される、ノードに関連付けられたメタデータ。

コンテナ：シーングラフとシーンのレンダリングに必要なすべてのメディア資源を含む、すべての自然、すべての合成、又は合成と自然のシーンの混合を表すための情報を記憶し交換するためのシリアル化フォーマット。

シリアライズ：データ構造又はオブジェクト状態を、（例えば、ファイル又はメモリバッファに）記憶されるか、又は（例えば、ネットワーク接続リンクを介して）送信されて、後で（おそらく異なるコンピュータ環境で）再構築されることができるフォーマットに変換するプロセス。得られた一連のビットがシリアライズフォーマットに従って再読み込みされると、元のオブジェクトの意味的に同一のクローンを作成するために使用されることができる。

レンダラ：音響物理学、光物理学、視覚認知、聴覚認知、数学、及びソフトウェア開発に関連する分野の選択的混合に基づく（通常はソフトウェアベースの）アプリケーション又はプロセスであって、入力シーングラフ及びアセットコンテナが与えられると、ターゲットデバイスでの提示に適した、又はシーングラフ内のレンダーターゲットノードの属性によって指定されている所望のプロパティに適合する、典型的にはビジュアル信号及び／又はオーディオ信号を放つものである。ビジュアルベースのメディアアセットの場合、レンダラは、ターゲットとなるディスプレイに適した、又は中間アセットとしてのストレージのための、ビジュアル信号を放ち得る（例えば、別のコンテナに再パッケージ化し、即ち、グラフィックスパイプラインの一連のレンダリングプロセスで使用する）。オーディオベースのメディアアセットの場合、レンダラは、マルチチャンネルラウドスピーカー及び／又は両耳ヘッドフォンでの提示のための、又は別の（出力）コンテナに再パッケージ化するための、オーディオ信号を放ち得る。レンダラの一般的な例は、Ｕｎｉｔｙ、Ｕｎｒｅａｌを含む。

評価：出力を抽象的なものから具体的な結果へと移行させる結果（例えば、ウェブページのドキュメントオブジェクトモデルの評価に類似したもの）を生成する。

スクリプト言語：空間的及び時間的オブジェクトトポロジ（物理的な力、制約、ＩＫ、変形、衝突を含む）のレンダリングと評価、及びエネルギーの伝播と輸送（光、音）に影響を与えるシーングラフノードに加えられた動的入力及び可変状態の変更を処理するために、レンダラがランタイム時に実行できる解釈型プログラミング言語である。

シェーダ：元々はシェーディング（画像内の適切なレベルの明暗や色の生成）に使用されたコンピュータプログラムの一種であるが、現在はコンピュータグラフィックスの特殊効果の様々な分野で多様な特殊機能を実行したり、シェーディングとは無関係のビデオ後処理、又はグラフィックスとは全く無関係の機能を行ったりするものである。

パストレーシング：シーンの照明が現実に忠実であるように、３次元シーンをレンダリングするコンピュータグラフィックス方法。

タイムドメディア：時間順に並べられたメディア。例えば、特定の時計に従った開始時刻と終了時刻を持つもの。

アンタイムドメディア：空間的、論理的、又は時間的関係によって編成されたメディア。例えば、ユーザによって行われる行動に従って実現されるインタラクティブな経験のように。

ニューラルネットモデル：元の信号によって明示的に提供されなかったビジュアル信号の新しいビューの補間を含み得る改善されたビジュアル出力に到達するためにビジュアル信号に適用される明確に定義された数学的演算で使用される重み（即ち、数値）を定義するパラメータとテンソル（例えば、行列）のコレクション。

イマーシブメディアは、イマーシブメディア対応デバイスによって人間に提示されるとき、視覚、嗅覚、味覚、触覚、及び聴覚の五感のいずれかを、より現実的で、自然界での経験に対する人間の理解と合致する方法で刺激する、即ち、レガシーデバイスによって提示されるレガシーメディアで達成されたであろう刺激を超える、１又は複数の種類のメディアとして見なされることができる。この文脈では、「レガシーメディア」という用語は、静止画又は動画フレームのいずれかの２次元（２Ｄ）ビジュアルメディア、及び／又は、ユーザのインタラクション能力が一時停止、再生、早送り、又は巻き戻しに制限されている対応するオーディオを指す。「レガシーデバイス」とは、その能力がレガシーメディアのみの提示に制限されているテレビ、ラップトップ、ディスプレイ、及びモバイルデバイスを指す。消費者向けのアプリケーションシナリオでは、イマーシブメディアの提示デバイス（即ち、イマーシブメディア対応デバイス）は、そのデバイスが、物理世界に対する人間の理解及びインタラクションにより近い提示を作成できる、即ち、それを行うレガシーデバイスの能力を超えて、そのような提示を作成できるように、イマーシブメディアによって具現化される特定の情報を活用する能力を特に備えた消費者向けのハードウェアデバイスである。レガシーデバイスは、レガシーメディアのみを提示する能力に制約があるが、イマーシブメディアデバイスは同様の制約を受けない。

過去１０年間に、ヘッドマウントディスプレイ、拡張現実メガネ、ハンドヘルドコントローラ、触覚グローブ、及びゲームコンソールなど、多くのイマーシブメディア対応デバイスが消費者市場に導入されてきた。同様に、ホログラフィックディスプレイやその他の形態のボリュメトリックディスプレイも、今後１０年以内に登場する予定である。これらのデバイスの即時又は差し迫った利用可能性にもかかわらず、商用ネットワーク上でのイマーシブメディアの配信のための首尾一貫したエンドツーエンドのエコシステムは、いくつかの理由で実現できなかった。

それらの理由の１つは、商用ネットワーク上での大規模なメディアの現在の配信に関連する次の２つの主要なユースケースに対処できるイマーシブメディアの単一の標準表現が欠如することである。１）実写イベントのためのリアルタイム配信、即ち、コンテンツがリアルタイム又はほぼリアルタイムで作成され、クライアントエンドポイントに配信される場合、及び２）非リアルタイム配信、即ち、コンテンツをリアルタイムで配信する必要がない場合、即ち、コンテンツが物理的に捕捉又は作成されているとき。これら２つのユースケースは、それぞれ、今日存在するような配信の「ブロードキャスト」及び「オンデマンド」のフォーマットと比較可能に比較することができる。

リアルタイム配信の場合、コンテンツは、１つ又は複数のカメラで捕捉されるか、又はコンピュータ生成技術を使用して作成されることができる。カメラで捕捉されたコンテンツは、本明細書では「自然」コンテンツと呼ばれ、コンピュータ生成技術を使用して作成されたコンテンツは、本明細書では「合成」コンテンツと呼ばれる。合成コンテンツを表すメディアフォーマットは、３Ｄモデリング、視覚効果、及びＣＡＤ／ＣＡＭ業界で使用されているフォーマットであり、メッシュ、テクスチャ、点群、構造化ボリューム、アモルファスボリューム（例えば、火、煙、及び霧用）、シェーダ、手続き的に生成されたジオメトリ、マテリアル、照明、仮想カメラ定義及びアニメーションなどのオブジェクトフォーマットとツールを含むことができる。合成コンテンツはコンピュータで生成されるが、合成メディアフォーマットは、自然コンテンツと合成コンテンツの両方に使用されることができるが、自然コンテンツを合成メディアフォーマットに（例えば、合成表現に）変換するプロセスは、時間及び計算量の多いプロセスであり、したがって、リアルタイムアプリケーション及びユースケースにとって実用的でない可能性がある。

自然コンテンツのリアルタイム配信の場合、カメラで捕捉されたコンテンツは、かかるデバイスの多くが同様にラスターフォーマットを表示するように設計されているので、レガシーディスプレイデバイスに好適であるラスターフォーマットで配信することができる。つまり、レガシーディスプレイがラスターフォーマットを表示するように均質に設計されていることを考えると、ラスターフォーマットの配信は、したがって、ラスターフォーマットのみを表示することができるディスプレイに最適に適している。

しかしながら、イマーシブメディア対応ディスプレイは、必ずしもラスターベースのフォーマットの表示に制約されるわけではない。さらに、イマーシブメディア対応ディスプレイの中には、ラスターベースのフォーマットでのみ利用可能なメディアを提示できないものもある。ラスターベースのフォーマット以外のフォーマットに基づいてイマーシブ体験を作り出すために最適化されたディスプレイが利用可能であることは、イマーシブメディアの配信のための首尾一貫したエンドツーエンドのエコシステムがまだ存在しないもう１つの重要な理由である。

複数の異なるイマーシブメディアデバイスのための首尾一貫した配信システムを作成することに関するさらに別の問題は、現在及び新興のイマーシブメディア対応デバイス自体が著しく変化し得るということである。例えば、いくつかのイマーシブメディアデバイスは、例えばヘッドマウントディスプレイのように、一度に１人のユーザのみが使用するように明示的に設計されている。他のイマーシブメディアデバイスは、複数のユーザが同時に使用できるように設計されており、例えば、「ＬｏｏｋｉｎｇＧｌａｓｓＦａｃｔｏｒｙ８Ｋディスプレイ」（以降、「レンチキュラーライトフィールドディスプレイ」と呼ぶ）は、最大１２人のユーザが同時に見ることができるコンテンツを表示でき、各ユーザは表示されているコンテンツの独自の視点（即ち、ビュー）を体験している。

首尾一貫した配信システムの開発をさらに複雑にするのは、各ディスプレイが作り出すことができる固有の視点、即ちビューの数が大きく変わり得るということである。ほとんどの場合、レガシーディスプレイは、コンテンツの単一の視点のみを作成することができる。一方、レンチキュラーライトフィールドディスプレイは、複数のユーザをサポートし、各ユーザが同じビジュアルシーンの独自の視点を体験することができる。同じシーンの複数のビューのこの作成を実現するために、レンチキュラーライトフィールドディスプレイは、４５個の独自の視点又はビューがディスプレイへの入力として必要とされる特定のボリュメトリックビューフラスタムを作成する。これは、同じシーンの４５個のわずかに異なる独自のラスター表現が捕捉され、この１つの特定のディスプレイ、即ちそのビューフラストラムに固有のフォーマットでディスプレイに配信される必要があることを意味する。対照的に、レガシーディスプレイのビューフラスタムは、単一の２次元平面に制限されているため、ディスプレイを体験している同時視聴者の数にかかわらず、ディスプレイのビューフラスタムを介してコンテンツの複数の視聴視点を提示する方法はない。

一般に、イマーシブメディアディスプレイは、すべてのディスプレイの以下の特性に従って著しく変化し得る。即ち、ビューフラスタムの寸法及び体積、同時にサポートされる視聴者の数、点ベース、光線ベース、又は波ベースの技術であり得るビューフラスタムを埋めるために使用される光学技術、ビューフラスタムを占める光単位（点、光線、又は波のいずれか）の密度、計算能力の利用可能性及び計算の種類（ＣＰＵ又はＧＰＵ）、電源の源及び利用可能性（バッテリー又はワイヤ）、ローカルストレージ又はキャッシュの量、クラウドベースの計算及び記憶などの補助資源へのアクセスなどである。これらの特性は、レガシーディスプレイの均質性とは対照的に、レガシー及びイマーシブの両方のディスプレイを含むそれらすべてをサポートできる単一の配信システムの開発を複雑にしている、イマーシブメディアディスプレイの異種性に寄与する。

開示された主題は、単一のネットワークの文脈内でクライアントエンドポイントとしてレガシー及びイマーシブメディアディスプレイの両方をサポートできる、ネットワークベースのメディア配信システムの開発に取り組むものである。具体的には、入力イマーシブメディアソースを、そのクライアントエンドポイントデバイス上で現在実行されているアプリケーションを含むクライアントエンドポイントデバイスの特定の特性に適したフォーマットに適応させるメカニズムが、本明細書で提示される。入力イマーシブメディアソースを適応させるそのようなメカニズムは、入力イマーシブメディアの特性を、クライアントデバイス上で実行されているアプリケーションを含むターゲットエンドポイントクライアントデバイスの特性と調和させ、その後、入力イマーシブメディアをターゲットエンドポイント及びそのアプリケーションに適した形式に適応させることを含む。

さらに、適応プロセスは、クライアントエンドポイントによって要求される追加のビューを作成するために、入力メディアから追加のビュー、例えば新規のビューを補間することを含んでもよい。そのような補間は、ニューラルネットワークプロセスの助けを借りて実行されてもよい。

なお、開示された主題の残りの部分は、入力イマーシブメディアソースを特定のエンドポイントクライアントデバイスに適応させるプロセスが、同じ入力イマーシブメディアソースを特定のクライアントエンドポイント装置上で実行されている特定のアプリケーションに適応させるプロセスと同じであるか、又は類似していると、一般性を損なうことなく仮定する。つまり、入力メディアソースをエンドポイントデバイスの特性に適応させる問題は、特定の入力メディアソースを特定のアプリケーションの特性に適応させる問題と同じ複雑さである。

レガシーメディアによってサポートされるレガシーデバイスは、レガシーメディアの標準ベースの表現を生成するレガシーメディアコンテンツプロバイダと、レガシーデバイスを標準レガシーコンテンツのソースに接続するためのネットワークインフラを提供する商用ネットワークサービスプロバイダとのエコシステムによって同様にサポートされているので、幅広い消費者の採用を達成している。ネットワーク上でレガシーメディアを配信する役割に加えて、商用ネットワークサービスプロバイダは、レガシークライアントデバイスとコンテンツ配信ネットワーク（ＣＤＮ）上のレガシーコンテンツへのアクセスとのペアリングを促進することもできる。適切な形式のコンテンツへのアクセスとペアリングされると、レガシークライアントデバイスは、エンドユーザへの提示のために、コンテンツサーバからデバイスにレガシーコンテンツを要求する、即ち「プル」することができる。それにもかかわらず、ネットワークサーバが適切なメディアを適切なクライアントに「プッシュ」するアーキテクチャは、全体のアーキテクチャ及びソリューション設計に追加の複雑さをもたらすことなく、同様に関連性がある。

態様については、様々な実施形態による方法、装置（システム）、及びコンピュータ読取可能な媒体のフローチャート図及び／又はブロック図を参照して本明細書で説明される。フローチャート図及び／又はブロック図の各ブロック、並びにフローチャート図及び／又はブロック図のブロックの組み合わせは、コンピュータ読取可能なプログラム命令によって実装できることが理解されよう。

以下に説明する例示的な実施形態は、ビデオ、オーディオ、幾何学的（３Ｄ）オブジェクト、触覚、関連するメタデータ、又はクライアントデバイスの他のコンテンツを含むメディアを配信するシステム及びネットワークのアーキテクチャ、構造及びコンポーネントに関する。特定の実施形態は、異種イマーシブ及びインタラクティブなクライアントデバイスにメディアコンテンツを配信するためのシステム、構造、及びアーキテクチャを指向する。

図１は、タイムドレガシーメディア配信のエンドツーエンドプロセスの一例を示す図である。図１において、タイムドオーディオビジュアルコンテンツは、１０１Ａにおいてカメラ又はマイクロフォンによって捕捉されるか、又は１０１Ｂにおいてコンピュータによって生成され、準備モジュール１０３に入力される２Ｄ画像及び関連するオーディオのシーケンス１０２が作成される。１０３の出力は、コンバータモジュール１０４によって、例えばオンデマンドメディア用の標準メザニンフォーマット、又は例えばライブイベント用の標準コントリビューションフォーマットに変換する準備ができているマスターフォーマットと呼ばれる編集済みコンテンツ（例えば、言語翻訳、字幕、他の編集機能を含むポストプロダクション用）である。メディアは、商用ネットワークサービスプロバイダによって「取り込まれ」、適応モジュール１０５は、メディアを、標準配信フォーマットにパッケージ化される様々なビットレート、時間解像度（フレームレート）、又は空間解像度（フレームサイズ）にパッケージ化する。得られた適応は、様々なクライアント１０８が、メディアをフェッチしてエンドユーザに提示するためのプル要求１０７を行うコンテンツ配信ネットワーク１０６に記憶される。マスターフォーマットは、１０１Ａ又は１０１Ｂの両方からのメディアのハイブリッドで構成されてもよく、フォーマット１０１Ａは、例えば、ライブスポーツイベントから得られるメディアなど、リアルタイムで得られてもよいことに留意することが重要である。さらに、クライアント１０８は、クライアントの構成及び／又は現在のネットワーク条件に最も適した特定の適応１０７を選択する責任を負うが、ネットワークサーバ（図１には示されていない）が適切なコンテンツを決定し、その後クライアント１０８に「プッシュ」し得ることも同様に可能である。

図２は、例えば、ビデオ、オーディオなどのレガシータイムドメディアの配信及びメタデータ（字幕に使用されるようなタイムドテキストを含む）のサポートに使用される標準メディアフォーマットの一例である。図１のアイテム１０６で述べたように、メディアは、ＣＤＮ２０１上に標準ベースの配信フォーマットで記憶される。標準ベースのフォーマットは、クロックに対応する開始時刻と終了時刻を持つタイムド期間２０３を包含する複数のセクションで構成されるＭＰＤ２０２として示される。各期間２０３は、１つ又は複数の適応セット２０４を指す。各適応セット２０４は、一般に、単一の種類のメディア、例えば、ビデオ、オーディオ、又はタイムドテキストに使用される。与えられた任意の期間２０３について、複数の適応セット２０４が提供され得、例えば、ビデオについて１つ、様々な言語への翻訳に使用されるようなオーディオについて複数が提供され得る。各適応セット２０４は、メディアのフレーム解像度（ビデオの場合）、フレームレート、及びビットレートに関する情報を提供する１つ又は複数の表現２０５を指す。複数の表現２０５は、例えば、超高精細度、高精細度、又は標準精細度ビデオのそれぞれについての表現２０５へのアクセスを提供するために使用されてもよい。各表現２０５は、クライアントによるフェッチ（図１では１０８として示されている）のために、又はネットワークメディアサーバ（図１では示されていない）による配信（「プッシュベース」アーキテクチャにおいて）のためにメディアが実際に記憶される１つ又は複数のセグメントファイル２０６を指す。

図３は、タイミングがとられる異種イマーシブメディアのためのストリーミング可能なフォーマットの例示的な表現である。図４は、タイミングがとられていない異種イマーシブメディアのためのストリーミング可能なフォーマットの例示的な表現である。どちらの図もシーンを指し、図３は、タイムドメディアのためのシーン３０１であり、図４は、アンタイムドメディアのためのシーン４０１であり。どちらの場合も、シーンは、様々なシーン表現、又はシーン記述によって具現化され得る。

例えば、いくつかのイマーシブメディア設計において、シーンは、シーングラフによって、又はマルチプレーン画像（ＭＰＩ）として、又はマルチ球体画像（ＭＳＩ）として具現化され得る。ＭＰＩとＭＳＩ技術は、自然コンテンツ、即ち１つ又は複数のカメラから同時に捕捉された実世界の画像に対して、表示に依存しないシーン表現の作成を支援する技術の一例である。一方、シーングラフ技術は、自然画像とコンピュータで生成された画像の両方を合成表現の形式で表現するために採用することができるが、そのような表現は、コンテンツが１つ又は複数のカメラによって自然シーンとして捕捉される場合、作成に特に計算集約的である。つまり、自然に捕捉されたコンテンツのシーングラフ表現は、作成に時間と計算の両方で集約的であり、後で、ターゲットイマーシブクライアントディスプレイのビューフラスタムを埋めるのに十分かつ適切な数のビューを補間するために使用できる合成表現を作成するために、写真測量又は深層学習の技術又はその両方を用いて自然画像を複雑に分析することを必要とする。その結果、このような合成表現は、リアルタイム配信を必要とするユースケースを検討するためにリアルタイムで作成することが現実的にできないので、自然コンテンツを表現するための候補として検討することは、現在のところ不可能である。それにもかかわらず、現時点では、コンピュータ生成画像は３Ｄモデリングプロセス及びツールを使用して作成されるため、コンピュータ生成画像のための最良の候補表現は、合成モデルによるシーングラフの使用を採用することである。

自然コンテンツとコンピュータ生成コンテンツの両方の最適な表現におけるこのような二律背反は、自然に捕捉されたコンテンツに対する最適な取り込みフォーマットが、コンピュータ生成コンテンツに対する、又はリアルタイム配信アプリケーションに不可欠ではない自然コンテンツに対する最適な取り込みフォーマットと異なることを示唆している。したがって、開示された主題は、視覚的に没入するメディアのための複数の取り込みフォーマットを、それらが自然に作成されるかコンピュータによって作成されるかにかかわらず、サポートするのに十分ロバストであることを目標とする。

以下は、コンピュータによって生成された技術を使用して作成されるビジュアルイマーシブメディア、又は深層学習もしくは写真測量技術が自然シーンの対応する合成表現を作成するために採用される、即ちリアルタイム配信アプリケーションに不可欠ではない自然に捕捉されたコンテンツを表現するために適したフォーマットとして、シーングラフを具現化する例示的な技術である。

１．ＯＴＯＹによるＯＲＢＸ（登録商標）

ＯＴＯＹによるＯＲＢＸは、レイトレーサブル、レガシー（フレームベース）、ボリュメトリック、及び他の種類の合成又はベクトルベースのビジュアルフォーマットを含む、タイムド又はアンタイムドのあらゆる種類のビジュアルメディアをサポートできる、いくつかのシーングラフ技術の１つである。ＯＲＢＸは、メッシュ、点群、及びテクスチャのための自由に利用可能なフォーマット及び／又はオープンソースのフォーマットをネイティブにサポートするため、他のシーングラフと比較してユニークである。ＯＲＢＸは、シーングラフ上で動作する複数のベンダーの技術間の相互交流を促進することを目的として意図的に設計されたシーングラフである。さらに、ＯＲＢＸは、豊富なマテリアルシステム、ＯｐｅｎＳｈａｄｅｒＬａｎｇｕａｇｅのサポート、ロバストなカメラシステム、ＬｕａＳｃｒｉｐｔｓのサポートを提供する。ＯＲＢＸは、ＩｍｍｅｒｓｉｖｅＤｉｇｉｔａｌＥｘｐｅｒｉｅｎｃｅｓＡｌｌｉａｎｃｅ（ＩＤＥＡ）によってロイヤリティフリーの条項の下でライセンスされるＩｍｍｅｒｓｉｖｅＴｅｃｈｎｏｌｏｇｉｅｓＭｅｄｉａＦｏｒｍａｔの基盤でもある。メディアのリアルタイム配信の文脈では、自然シーンのＯＲＢＸ表現を作成し配信する能力は、カメラで捕捉されたデータの複雑な解析と、同じデータの合成表現への合成を行う計算資源の利用可能性の関数である。これまではリアルタイム配信のための十分な計算の利用可能性は、現実的ではないが、それでも不可能ではない。

２．ＰｉｘａｒによるＵｎｉｖｅｒｓａｌＳｃｅｎｅＤｅｓｃｒｉｐｔｉｏｎ

ＰｉｘａｒによるＵｎｉｖｅｒｓａｌＳｃｅｎｅＤｅｓｃｒｉｐｔｉｏｎ（ＵＳＤ）は、ＶＦＸ及びプロのコンテンツ制作コミュニティで人気のある、もう１つのよく知られた成熟したシーングラフである。ＵＳＤは、ＮｖｉｄｉａのＧＰＵを用いた３Ｄモデル作成及びレンダリングのための開発者向けのツールのセットであるＮｖｉｄｉａのＯｍｎｉｖｅｒｓｅプラットフォームに統合されている。ＵＳＤのサブセットは、Ａｐｐｌｅ及びＰｉｘａｒによってＵＳＤＺとして公開された。ＵＳＤＺは、ＡｐｐｌｅのＡＲＫｉｔによってサポートされている。

３．ＫｈｒｏｎｏｓによるｇｌＴＦ２．０

ｇｌＴＦ２．０は、Ｋｈｒｏｎｏｓ３ＤＧｒｏｕｐによって書かれた「ＧｒａｐｈｉｃｓＬａｎｇｕａｇｅＴｒａｎｓｍｉｓｓｉｏｎＦｏｒｍａｔ」仕様の最新バージョンである。このフォーマットは、「ｐｎｇ」と「ｊｐｅｇ」画像フォーマットなど、シーン内の静的（アンタイムド）オブジェクトを一般的にサポートできる簡単なシーングラフフォーマットをサポートする。ｇｌＴＦ２．０は、ｇｌＴＦプリミティブを使用して記述された基本的な形状、即ち幾何学的オブジェクトの、並進、回転、及びスケーリングのサポートを含む、簡単なアニメーションをサポートしている。ｇｌＴＦ２．０はタイムドメディアをサポートしないため、ビデオもオーディオもサポートしない。

イマーシブビジュアルメディアのシーン表現に関するこれらの既知の設計は、例としてのみ提供され、入力されたイマーシブメディアソースをクライアントエンドポイントデバイスの特定の特性に適したフォーマットに適応させるプロセスを指定する能力において、開示される主題を制限するものではない。

さらに、上記の例示的なメディア表現のいずれか又はすべては、フラスタムの特定の寸法に基づいて特定のディスプレイのビューフラスタムを埋めるための、特定のビューの選択を可能にする又は促進するニューラルネットワークモデルをトレーニングして作成するように、深層学習技術を現在採用しているか、採用する可能性がある。特定のディスプレイのビューフラスタムのために選択されるビューは、シーン表現において明示的に提供される既存のビュー、例えば、ＭＳＩ又はＭＰＩ技術から補間されてもよいし、特定の仮想カメラの位置、フィルタ、又はレンダリングエンジンに対する仮想カメラの記述に基づいてこれらのレンダリングエンジンから直接レンダリングされてもよい。

従って、開示された主題は、自然に（例えば、１つ又は複数のカメラで）捕捉されるか、又はコンピュータ生成技術を使用して作成されるメディアのリアルタイム又は「オンデマンド」（例えば、非リアルタイム）配信の両方の要件を十分に満たすことができる、比較的小さいがよく知られたイマーシブメディア取り込みフォーマットのセットが存在すると考えるのに十分ロバストなものである。

モバイルネットワークでは５Ｇ、固定ネットワークでは光ファイバケーブルといった高度なネットワーク技術の展開により、ニューラルネットワークモデル又はネットワークベースのレンダリングエンジンのいずれかを使用したイマーシブメディア取り込みフォーマットからのビューの補間は、さらに容易になる。つまり、これらの高度なネットワーク技術は、商用ネットワークの容量と能力を向上させ、これは、このような高度なネットワークインフラが、ますます大量のビジュアル情報の伝送と配信をサポートできるようになるためである。マルチアクセスエッジコンピューティング（ＭＥＣ）、ソフトウェア定義ネットワーク（ＳＤＮ）、及びネットワーク機能仮想化（ＮＦＶ）などのネットワークインフラ管理技術により、商用ネットワークサービスプロバイダは、特定のネットワーク資源に対する需要の変化、例えば、ネットワークスループット、ネットワーク速度、往復遅延、及び計算資源に対する需要の動的増減に適応するようにネットワークインフラを柔軟に構成できるようになる。さらに、この動的なネットワーク要件に適応する固有の能力は、同様に、異種クライアントエンドポイントのための潜在的に異種のビジュアルメディアフォーマットを有する様々なイマーシブメディアアプリケーションをサポートするために、イマーシブメディア取り込みフォーマットを適切な配信フォーマットに適応させるネットワークの能力を促進する。

イマーシブメディアアプリケーション自体も、ゲームの状態でのリアルタイムの更新に応答するために著しく低いネットワーク遅延を必要とするゲームアプリケーション、ネットワークの上りリンク及び下りリンク部分の両方に対して対称的なスループット要件を持つテレプレゼンスアプリケーション、及び、データを消費するクライアントエンドポイントディスプレイの種類に応じて下りリンク資源に対する需要が増加する場合があるパッシブビューイングアプリケーションなど、ネットワーク資源に対して様々な要件を有する場合がある。一般に、任意の消費者向けアプリケーションは、記憶、計算、及び電力に関する様々なオンボードクライアント能力、及び同様に特定のメディア表現に関する様々な要件を持つ多様なクライアントエンドポイントによってサポートされ得る。

従って、開示された主題は、十分に装備されたネットワーク、即ち、最新のネットワークの特性の一部又は全部を採用するネットワークが、以下のものの中で指定された特徴に従って、複数のレガシー及びイマーシブメディア対応デバイスを同時にサポートすることを可能にする。

１．メディアの配信のためのリアルタイム及び「オンデマンド」ユースケースの両方にとって実用的なメディア取り込み形式を活用するための柔軟性を提供する。

２．レガシー及びイマーシブメディア対応クライアントエンドポイントの両方に対して、自然及びコンピュータ生成コンテンツの両方をサポートする柔軟性を提供する。

３．タイムドメディアとアンタイムドメディアの両方をサポートする。

４．クライアントエンドポイントの特徴及び能力に基づいて、並びにアプリケーションの要件に基づいて、ソースメディア取り込みフォーマットを適切な配信フォーマットに動的に適応させるためのプロセスを提供する。

５．配信フォーマットが、ＩＰベースのネットワーク上でストリーミング可能であることを保証する。

６．ネットワークが、レガシー及びイマーシブメディア対応デバイスの両方を含み得る複数の異種クライアントエンドポイントに同時にサービスを提供することを可能にする。

７．シーン境界に沿った配信メディアの編成を容易にする例示的なメディア表現フレームワークを提供する。

開示された主題によって可能になる改善のエンドツーエンドの実施形態の一例は、以下のように図３から図１４の詳細な説明を記載した処理及びコンポーネントに従って達成される。

図３及び図４は両方とも、特定のクライアントエンドポイントの能力に一致するように取り込みソースフォーマットから適応された単一の例示的な包含配信フォーマットを採用する。上述したように、図３に示されるメディアはタイムドであり、図４に示されるメディアはアンタイムドである。特定の包含フォーマットは、その構造において、各レイヤがメディアの提示に寄与する顕著な情報の量に基づいて各々がレイヤ化され得る多種多様なメディア属性に対応するのに十分ロバストである。なお、このようなレイヤ化プロセスは、プログレッシブＪＰＥＧ、及び、ＩＳＯ／ＩＥＣ１４４９６－１０（スケーラブルアドバンスドビデオコーディング（ＳｃａｌａｂｌｅＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ））で指定されているようなスケーラブルビデオアーキテクチャで実証されているように、現在の最先端技術では既によく知られている技術である。

１．包含するメディアフォーマットに従ってストリーミングされるメディアは、レガシービジュアルメディア及びオーディオメディアに限定されず、視覚、聴覚、味覚、触覚、及び嗅覚に対する人間の感覚を刺激するためにマシンとインタラクションを行う信号を生成することができる任意の種類のメディア情報を含み得る。

２．包含メディアフォーマットに従ってストリーミングされるメディアは、タイムドメディア又はアンタイムドメディアの両方、あるいは両方の混合物であることができる。

３．包含メディアフォーマットは、さらに、ベースレイヤ及びエンハンスメントレイヤアーキテクチャを使用してメディアオブジェクトのレイヤ表現を有効にすることによって、ストリーミング可能である。一実施例では、別個のベースレイヤ及びエンハンスメントレイヤは、各シーンにおけるメディアオブジェクトに多重解像度又はマルチテッセレーション分析技術を適用することによって計算される。これは、ＩＳＯ／ＩＥＣ１０９１８－１（ＪＰＥＧ）、及びＩＳＯ／ＩＥＣ１５４４４－１（ＪＰＥＧ２０００）に規定されるプログレッシブレンダリング画像フォーマットに類似しているが、ラスターベースのビジュアルフォーマットに限定されるものではない。例示的な実施形態では、幾何学的オブジェクトのためのプログレッシブ表現は、ウェーブレット分析を使用して計算されたオブジェクトの多重解像度表現であり得る。

メディアフォーマットのレイヤ表現の別の例では、エンハンスメントレイヤは、ベースレイヤによって表現されるビジュアルオブジェクトの表面のマテリアルプロパティをリファインするなど、ベースレイヤに異なる属性を適用する。さらに別の例では、属性は、表面を滑らかなものから多孔質なものに変える、又はつや消しの表面から光沢のある表面に変えるなど、ベースレイヤオブジェクトの表面のテクスチャをリファインしてもよい。

レイヤ表現のさらに別の例では、シーンにおける１つ又は複数のビジュアルオブジェクトの表面は、ランバートリアンであることから光線追跡可能であることに変更されてもよい。

レイヤ表現のさらに別の例では、ネットワークは、クライアントが基本表現の解像度又は他の特性を洗練するための追加のエンハンスメントレイヤの伝送を待つ間、クライアントがシーンの名目上の提示を作成できるように、ベースレイヤ表現をクライアントに配信する。

４．エンハンスメントレイヤにおける属性又はリファイニング情報の解像度は、既存のＭＰＥＧビデオ及びＪＰＥＧ画像標準のように、ベースレイヤにおけるオブジェクトの解像度と明示的に結合されない。

５．包含メディアフォーマットは、提示デバイス又はマシンによって提示又は作動させることができる任意の種類の情報メディアをサポートし、それによって、異種クライアントエンドポイントに対する異種メディアフォーマットのサポートを可能にする。メディアフォーマットを配信するネットワークの一実施形態では、ネットワークは、最初にクライアントエンドポイントに問い合わせてクライアントの能力を決定し、クライアントがメディア表現を有意義に取り込むことができない場合、ネットワークは、クライアントがサポートしない属性のレイヤを除去するか、又はメディアをその現在のフォーマットからクライアントエンドポイントに適したフォーマットにトランスコードする。このようなトランスコードの一例では、ネットワークは、ネットワークベースのメディア処理プロトコルを使用して、ボリュメトリックビジュアルメディアアセットを、同じビジュアルアセットの２Ｄ表現に変換する。

６．完全又は部分的に完全なイマーシブ体験（ライブストリーミングイベント、ゲーム、又はオンデマンドアセットの再生）のマニフェストは、レンダリング及びゲームエンジンが提示を作成するために現在取り込むことができる最小限の情報量であるシーンによって編成される。マニフェストは、クライアントが要求したイマーシブ体験の全体に対してレンダリングされる個々のシーンのリストを含む。各シーンに関連付けられるのは、シーンジオメトリのストリーミング可能なバージョンに対応する、シーン内の幾何学的オブジェクトの１つ又は複数の表現である。シーン表現の一実施形態は、そのシーンの幾何学的オブジェクトの低解像度バージョンである。同じシーンの別の実施形態は、同じシーンの幾何学的オブジェクトに追加の詳細を追加するか、又はテッセレーションを増加させるための、シーンの低解像度表現のためのエンハンスメントレイヤである。上述したように、各シーンは、シーンの幾何学的オブジェクトの詳細を漸進的に増加させるために、１つを超えたエンハンスメントレイヤを有することができる。

７．シーン内で参照されるメディアオブジェクトの各レイヤは、ネットワーク内で資源がアクセスできるアドレスを指すトークン（例えば、ＵＲＩ）と関連付けられている。そのような資源は、コンテンツがクライアントによってフェッチされ得るＣＤＮに類似している。

８．幾何学的オブジェクトの表現のためのトークンは、ネットワーク内の位置又はクライアント内の位置を指してもよい。即ち、クライアントは、その資源がネットワークベースのメディア処理のためにネットワークで利用可能であることをネットワークにシグナリングしてもよい。

図３は、タイムドメディアのための包含メディアフォーマットの一実施形態を以下のように説明する。タイムドシーンマニフェストは、シーン情報３０１のリストを含む。シーン３０１は、シーン３０１を構成する処理情報及びメディアアセットの種類を個別に記述するコンポーネント３０２のリストを指す。コンポーネント３０２は、ベースレイヤ３０４と属性エンハンスメントレイヤ３０５をさらに指すアセット３０３を指す。

図４は、アンタイムドメディアのための包含メディアフォーマットの一実施形態を以下のように説明する。シーン情報４０１は、クロックに従った開始及び終了デュレーションと関連付けられていない。シーン情報４０１は、シーン４０１を構成する処理情報及びメディアアセットの種類を個別に記述するコンポーネント４０２のリストを指す。コンポーネント４０２は、ベースレイヤ４０４及び属性エンハンスメントレイヤ４０５をさらに指すアセット４０３（例えば、視覚、音声、及び触覚アセット）を指す。さらに、シーン４０１は、アンタイムドメディア用の他のシーン４０１を指す。また、シーン４０１は、タイムドメディアシーンも指す。

図５は、自然コンテンツから取り込みフォーマットを合成するプロセス５００の一実施形態を示す。カメラユニット５０１は、単一のカメラレンズを使用して、人物のシーンを捕捉する。カメラユニット５０２は、リング状のオブジェクトの周囲に５つのカメラレンズを装着することで、５つの発散する視野を持つシーンを捕捉する。５０２の配置は、ＶＲアプリケーションの全方位コンテンツを捕捉するために一般的に使用される例示的な配置である。カメラユニット５０３は、球体の内径部分に７つのカメラレンズを装着することで、７つの収束する視野を持つシーンを捕捉する。配置５０３は、ライトフィールド又はホログラフィックイマーシブディスプレイのためのライトフィールドを捕捉するために一般的に使用される例示的な配置である。自然画像コンテンツ５０９は、トレーニング画像５０６のコレクションを使用して任意選択の捕捉ニューラルネットワークモデル５０８を生成するニューラルネットワークトレーニングモジュール５０５を任意選択で採用し得る合成モジュール５０４への入力として提供される。トレーニングプロセス５０５の代わりに一般的に使用される別のプロセスは、写真測量である。モデル５０８が図５に示されたプロセス５００中に作成される場合、モデル５０８は、自然コンテンツのための取り込みフォーマット５０７のアセットの１つとなる。取り込みフォーマット５０７の例示的な実施形態は、ＭＰＩ及びＭＳＩを含む。

図６は、合成メディア、例えばコンピュータ生成画像の取り込みフォーマットを作成するためのプロセス６００の一実施形態を示す。ＬＩＤＡＲカメラ６０１は、シーンのポイントクラウド６０２を捕捉する。合成コンテンツを作成するためのＣＧＩツール、３Ｄモデリングツール、又は別のアニメーションプロセスは、ネットワーク上でＣＧＩアセット６０４を作成するためにコンピュータ６０３で採用される。センサ６０５Ａを有する動き捕捉スーツは、アクター６０５の動きのデジタル記録を捕捉して、アニメーション化されたＭｏＣａｐデータ６０６を生成するために、アクター６０５に装着される。データ６０２、６０４、及び６０６は、ニューラルネットワークモデル（図６に示されていない）を作成するために同様に任意選択でニューラルネットワーク及びトレーニングデータを使用してもよい合成モジュール６０７への入力として提供される。

上述した異種イマーシブメディアを表現しストリーミングするための技術は、コンピュータ読取可能な命令を使用するコンピュータソフトウェアとして実装され、１つ又は複数のコンピュータ読取可能な媒体に物理的に記憶されることができる。例えば、図７は、開示された主題の特定の実施形態を実装するのに適したコンピュータシステム７００を示す。

コンピュータソフトウェアは、コンピュータ中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）などによって直接、又は解釈、マイクロコード実行などを通じて実行され得る命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、又は同様のメカニズムに従うことができる任意の適切な機械コード又はコンピュータ言語を使用してコーディングされることができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々な種類のコンピュータ又はそのコンポーネント上で実行することができる。

コンピュータシステム７００について図７に示されたコンポーネントは、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能性に関するいかなる制限も示唆することを意図していない。また、コンポーネントの構成は、コンピュータシステム７００の例示的な実施形態では示されたコンポーネントの任意の１つ又は組み合わせに関連する任意の依存性又は要件を有すると解釈されるべきではない。

コンピュータシステム７００は、特定のヒューマンインタフェース入力デバイスを含んでもよい。このようなヒューマンインタフェース入力デバイスは、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、オーディオ入力（声、拍手など）、視覚入力（ジェスチャーなど）、嗅覚入力（図示せず）などを介して１人以上の人間ユーザによる入力に応答してもよい。また、ヒューマンインタフェースデバイスは、オーディオ（音声、音楽、環境音など）、画像（スキャン画像、静止画カメラから得られた写真画像など）、ビデオ（２次元ビデオ、立体ビデオを含む３次元ビデオなど）など、必ずしも人間の意識的入力に直接関係しない特定のメディアを捕捉するために使用されることができる。

入力ヒューマンインタフェースデバイスは、キーボード７０１、マウス７０２、トラックパッド７０３、タッチスクリーン７１０、データグローブ（図示せず）、ジョイスティック７０５、マイク７０６、スキャナ７０７、及びカメラ７０８のうち１つ又は複数（それぞれ１つのみ示されている）を含んでもよい。

コンピュータシステム７００は、また、特定のヒューマンインタフェース出力デバイスを含んでもよい。このようなヒューマンインタフェース出力デバイスは、例えば、触覚出力、音、光、及び匂い／味を通じて、１人以上の人間ユーザの感覚を刺激するものであってもよい。このようなヒューマンインタフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン７１０、データグローブ（図示せず）、又はジョイスティック７０５による触覚フィードバックなどであるが、入力デバイスとして機能しない触覚フィードバックデバイスも存在し得る）、オーディオ出力デバイス（スピーカー７０９、ヘッドフォン（図示せず）など）、視覚出力デバイス（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン７１０（それぞれタッチスクリーン入力能力を有するか有しないか、それぞれ触覚フィードバック能力を有するか有しないか）（そのうちのいくつかは、ステレオグラフィックス出力などの手段によって２次元視覚出力又は３次元を超えた出力を出力することができる）、仮想現実メガネ（図示せず）、ホログラムディスプレイ及びスモークタンク（図示せず））、ならびにプリンタ（図示せず）を含んでもよい。

コンピュータシステム７００は、また、ＣＤ／ＤＶＤ付きのＣＤ／ＤＶＤＲＯＭ／ＲＷ７２０又は類似した媒体を含む光学媒体７２１、サムドライブ７２２、リムーバブルハードドライブ又はソリッドステートドライブ７２３、テープ及びフロッピーディスク等のレガシー磁気媒体（図示せず）、セキュリティドングル等の専用ＲＯＭ／ＡＳＩＣ／ＰＬＤベースデバイス（図示せず）など、人間がアクセス可能な記憶デバイス及びそれらの関連媒体を含むことも可能である。

当業者は、現在開示されている主題に関連して使用される「コンピュータ読取可能な媒体」という用語は、伝送媒体、搬送波、又は他の一時的な信号を包含しないことも理解すべきである。

コンピュータシステム７００は、また、１つ又は複数の通信ネットワークへのインタフェースを含むことができる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークは、さらに、ローカル、広域、メトロポリタン、車両及び産業、リアルタイム、遅延耐性などであり得る。ネットワークの例としては、イーサネット、無線ＬＡＮ、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワークなどのローカルエリアネットワーク、ケーブルテレビ、衛星テレビ、地上波放送テレビなどを含むテレビ有線又は無線広域デジタルネットワーク、ＣＡＮＢｕｓなどを含む車両用及び産業用、などが挙げられる。特定のネットワークは、一般に、特定の汎用データポート又は周辺バス（７４９）（例えば、コンピュータシステム７００のＵＳＢポートなど）に取り付けられた外部ネットワークインタフェースアダプタを必要とし、その他は、後述するようにシステムバス（例えば、ＰＣコンピュータシステムへのイーサネットインタフェース、又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェースなど）への取り付けによってコンピュータシステム７００のコアに一般に統合される。これらのネットワークのいずれかを使用して、コンピュータシステム７００は、他のエンティティと通信することができる。このような通信は、単方向、受信のみ（例えば、放送テレビ）、単方向送信のみ（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、又は双方向、例えばローカル又は広域デジタルネットワークを使用して他のコンピュータシステムへ、であることが可能である。特定のプロトコル及びプロトコルスタックは、上述したように、それらのネットワーク及びネットワークインタフェースの各々で使用されることができる。

前述のヒューマンインタフェースデバイス、人間がアクセス可能な記憶デバイス、及びネットワークインタフェースは、コンピュータシステム７００のコア７４０に取り付け可能である。

コア７４０は、１つ又は複数の中央処理装置（ＣＰＵ）７４１、グラフィックス処理装置（ＧＰＵ）７４２、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）７４３の形態の専用プログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ７４４等を含むことができる。これらのデバイスは、リードオンリーメモリ（ＲＯＭ）７４５、ランダムアクセスメモリ７４６、ユーザがアクセスできない内部ハードディスク、ＳＳＤなどの内部大容量ストレージ７４７とともに、システムバス７４８を介して接続されてもよい。いくつかのコンピュータシステムでは、システムバス７４８は、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にするために、１つ又は複数の物理プラグの形態でアクセス可能である。周辺機器は、コアのシステムバス７４８に直接、又は周辺バス７４９を介して取り付けられることができる。周辺バスのアーキテクチャは、ＰＣＩ、ＵＳＢなどを含む。

ＣＰＵ７４１、ＧＰＵ７４２、ＦＰＧＡ７４３、及びアクセラレータ７４４は、組み合わせて、前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ７４５又はＲＡＭ７４６に記憶されることができる。過渡的なデータもＲＡＭ７４６に記憶されることができ、一方、永久的なデータは、例えば、内部大容量ストレージ７４７に記憶されることができる。１つ又は複数のＣＰＵ７４１、ＧＰＵ７４２、大容量ストレージ７４７、ＲＯＭ７４５、ＲＡＭ７４６などと密接に関連付けられることができるキャッシュメモリの使用によって、いずれかのメモリデバイスへの高速な記憶及び検索を可能にすることができる。

コンピュータ読取可能な媒体は、様々なコンピュータ実装操作を実行するためのコンピュータコードをその上に持つことができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであってもよいし、コンピュータソフトウェア分野の技術に精通する者によく知られ利用可能な種類のものであってもよい。

一例として、限定ではなく、アーキテクチャ７００を有するコンピュータシステム、特にコア７４０は、プロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が１つ又は複数の有形コンピュータ読取可能な媒体で具現化されたソフトウェアを実行する結果として、機能性を提供することができる。このようなコンピュータ読取可能な媒体は、上記で紹介したようなユーザがアクセス可能な大容量ストレージに関連付けられる媒体、ならびにコア内部大容量ストレージ７４７又はＲＯＭ７４５などの非一時的な性質であるコア７４０の特定のストレージとすることができる。本開示の様々な実施形態を実装するソフトウェアは、このようなデバイスに記憶され、コア７４０によって実行され得る。コンピュータ読取可能な媒体は、特別な必要性に従って、１つ又は複数のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア７４０、特にその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ７４６に記憶されたデータ構造の定義、及びソフトウェアによって定義されたプロセスに従ってかかるデータ構造の変更を含む、本明細書に記載された特別なプロセス又は特別なプロセスの特別な部分を実行させることができる。加えて、又は代替として、コンピュータシステムは、ソフトウェアの代わりに又はソフトウェアと共に動作して、本明細書に記載された特別なプロセス又は特別なプロセスの特別な部分を実行することができる回路（例えば、アクセラレータ７４４）にハードワイヤード又はその他の方法で具現化されたロジックの結果として機能性を提供できる。ソフトウェアへの言及は、適切な場合、ロジックを包含することができ、その逆もまた同様である。コンピュータ読取可能な媒体への言及は、適切な場合、実行のためのソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行のためのロジックを具現化する回路、又はその両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。

図８は、クライアントエンドポイントとして多様なレガシー及び異種イマーシブメディア対応ディスプレイをサポートする例示的なネットワークメディア配信システム８００を示す。コンテンツ取得モジュール８０１は、図６又は図５の例示的な実施形態を使用してメディアを捕捉又は作成する。取り込みフォーマットは、コンテンツ準備モジュール８０２において作成され、その後、伝送モジュール８０３を用いて、ネットワークメディア配信システムにおける１つ又は複数のクライアントエンドポイント８０４に伝送される。ゲートウェイは、ネットワークの様々なクライアントエンドポイントへのネットワークアクセスを提供するためのカスタム構内設備にサービスを提供し得る。セットトップボックスも、ネットワークサービスプロバイダによる集約コンテンツへのアクセスを提供するためのカスタム構内設備として機能してもよい。無線復調器は、（例えば、モバイルハンドセット及びディスプレイの場合と同様に）モバイルデバイスのモバイルネットワークアクセスポイントとして機能してもよい。１つ又は複数の実施形態では、レガシー２Ｄテレビは、ゲートウェイ、セットトップボックス、又はＷｉ－Ｆｉルータに直接接続されてもよい。レガシー２Ｄディスプレイを有するコンピュータラップトップは、Ｗｉ－Ｆｉルータに接続されたクライアントエンドポイントであってもよい。ヘッドマウント型２Ｄ（ラスターベース）ディスプレイもルータに接続されてもよい。レンチキュラーライトフィールドディスプレイは、ゲートウェイに接続されてもよい。ディスプレイは、ローカルコンピューティングＧＰＵ、記憶デバイス、及び光線ベースのレンチキュラー光学技術を使用して複数のビューを作成するビジュアル提示ユニットで構成される場合がある。ホログラフィックディスプレイは、セットトップボックスに接続されてもよく、ローカルコンピューティングＣＰＵ、ＧＰＵ、記憶デバイス、及びフレネルパターンの波ベースのホログラフィック可視化ユニットを含んでもよい。拡張現実ヘッドセットは、無線復調器に接続されてもよく、ＧＰＵ、記憶デバイス、バッテリ、及びボリュメトリックビジュアル提示コンポーネントを含んでもよい。高密度ライトフィールドディスプレイは、Ｗｉ－Ｆｉルータに接続されてもよく、複数のＧＰＵ、ＣＰＵ、及び記憶デバイス、アイトラッキングデバイス、カメラ、及び高密度光線ベースのライトフィールドパネルを含んでもよい。

図９は、先に図８に示されたように、レガシー及び異種イマーシブメディア対応ディスプレイにサービスを提供することができるイマーシブメディア配信モジュール９００の一実施形態を示す。コンテンツは、自然コンテンツ及びＣＧＩコンテンツそれぞれについて図５及び図６にさらに具現化されているモジュール９０１において作成又は取得される。モジュール９０１は、次に、ネットワーク取り込みフォーマット作成モジュール９０２を使用して、取り込みフォーマットに変換される。モジュール９０２は、同様に、自然コンテンツ及びＣＧＩコンテンツそれぞれについて図５及び図６にさらに具現化される。取り込みメディアフォーマットは、ネットワークに伝送され、記憶デバイス９０３に記憶される。任意選択で、記憶デバイスは、イマーシブメディアコンテンツ製作者のネットワークに常駐し、９０３を二等分する破線によって示されるようにイマーシブメディアネットワーク配信モジュール（番号なし）によってリモートでアクセスされ得る。クライアント及びアプリケーション固有の情報は、任意選択で、代替の「クラウド」ネットワークにリモートで存在し得るリモート記憶デバイス９０４で利用可能である。

図９に示されるように、クライアントインタフェースモジュール９０５は、配信ネットワークの主要なタスクを実行するための情報の主要なソース及びシンクとして機能する。この特定の実施形態では、モジュール９０５は、ネットワークの他のコンポーネントと統一された形式で実装されてもよい。それにもかかわらず、図９のモジュール９０５によって示されたタスクは、開示された主題の本質的な要素を形成する。

モジュール９０５は、クライアント９０８の特徴及び属性に関する情報を受信し、さらに、９０８上で現在稼働しているアプリケーションに関する要件を収集する。この情報は、デバイス９０４から得られてもよく、又は、代替の実施形態では、クライアント９０８に直接問い合わせることによっても得られる。クライアント９０８へ直接問い合わせる場合、クライアントがインタフェースモジュール９０５と直接通信できるように、双方向プロトコル（図９には示されていない）が存在し、動作可能であると仮定される。

インタフェースモジュール９０５は、また、図１０で説明されるメディア適応及び断片化モジュール９１０を開始し、それと通信する。取り込みメディアがモジュール９１０によって適応及び断片化されると、メディアは、任意選択で、配信記憶デバイス９０９のために準備されたメディアとして示されたインターメディア記憶デバイスに転送されてもよい。配信メディアがデバイス９０９に準備され記憶されると、インタフェースモジュール９０５は、そのネットワークインタフェース９０８Ｂを介して、イマーシブクライアント９０８が、配信メディア及び対応する記述情報９０６を「プッシュ」要求によって受信するか、又はクライアント９０８自身が記憶デバイス９０９からのメディア９０６の「プル」要求を開始することができるようにする。イマーシブクライアント９０８は、任意選択でＧＰＵ（又は示されていないＣＰＵ）９０８Ｃを採用してもよい。メディアの配信フォーマットは、クライアント９０８の記憶デバイス又は記憶キャッシュ９０８Ｄに記憶される。最後に、クライアント９０８は、その可視化コンポーネント９０８Ａを介してメディアを視覚的に提示する。

クライアント９０８にイマーシブメディアをストリーミングするプロセス全体を通して、インタフェースモジュール９０５は、クライアント進捗及びステータスフィードバックチャンネル９０７を介して、クライアントの進捗のステータスを監視する。

図１０は、取り込まれたソースメディアがクライアント９０８の要件に適合するように適切に適応され得るように、メディア適応プロセスの特定の実施形態を示す。メディア適応モジュール１００１は、クライアント９０８のための適切な配信フォーマットへの取り込みメディアの適応を促進する複数のコンポーネントで構成される。これらのコンポーネントは、例示的なものと見なされるべきである。図１０において、適応モジュール１００１は、ネットワーク上の現在のトラフィック負荷を追跡するための入力ネットワークステータス１００５、属性及び特徴の説明、アプリケーションの特徴及び説明ならびにアプリケーションの現在のステータスを含むクライアント９０８の情報、及びクライアントのフラスタムのジオメトリを取り込みイマーシブメディアの補間能力にマッピングするのを助けるためのクライアントニューラルネットワークモデル（利用可能な場合）を受信する。適応モジュール１００１は、適応された出力が、それが作成されるときに、クライアント適応メディア記憶デバイス１００６に記憶されることを保証する。

適応モジュール１００１は、レンダラ１００１Ｂ又はニューラルネットワークプロセッサ１００１Ｃを採用して、特定の取り込みソースメディアをクライアントに適したフォーマットに適応させる。ニューラルネットワークプロセッサ１００１Ｃは、１００１Ａにおけるニューラルネットワークモデルを使用する。このようなニューラルネットワークプロセッサ１００１Ｃの例としては、ＭＰＩ及びＭＳＩで説明したようなディープビューニューラルネットワークモデル生成器がある。メディアが２Ｄフォーマットであるが、クライアントが３Ｄフォーマットを有する必要がある場合、ニューラルネットワークプロセッサ１００１Ｃは、２Ｄビデオ信号から高相関画像を使用して、ビデオに示されたシーンのボリュメトリック表現を導出するプロセスを呼び出すことができる。このようなプロセスの例は、カリフォルニア大学バークレー校で開発された「ＮｅｕｒａｌＲａｄｉａｎｃｅＦｉｅｌｄｓｆｒｏｍＯｎｅｏｒＦｅｗＩｍａｇｅｓ」プロセスであり得る。好適なレンダラ１００１Ｂの例は、適応モジュール１００１と直接インタラクションを行うように修正されるであろうＯＴＯＹＯｃｔａｎｅレンダラ（示されていない）の修正版であり得る。適応モジュール１００１は、取り込みメディアのフォーマット及びクライアント９０８によって要求されるフォーマットに関して、これらのツールの必要性に応じて、メディア圧縮器１００１Ｄ及びメディア圧縮解除器１００１Ｅを任意選択で採用してもよい。

図１１は、現在、クライアント適応メディア記憶デバイス１１０２上に常駐する図１０からのメディア適応モジュール１１０１からの適応メディアを最終的に変換する適応メディアパッケージ化モジュール１１０３を示している。パッケージ化モジュール１１０３は、モジュール１１０１からの適応メディアを、例えば、図３又は図４に示される例示的なフォーマットなど、ロバストな配信フォーマットにフォーマットする。マニフェスト情報１１０４Ａは、クライアント９０８に、それが受信することを期待できるシーンデータのリストを提供し、また、ビジュアルアセット及び対応するメタデータ、ならびにオーディオアセット及び対応するメタデータのリストを提供する。

図１２は、適応メディア１２０１をクライアント９０８へのストリーミングに適した個々のパケット１２０３に「断片化」するパケタイザーモジュール１２０２を示している。

シーケンス図１３００について図１３に示されるコンポーネント及び通信を以下に説明する。クライアントエンドポイント１３０１は、ネットワーク配信インタフェース１３０２に対してメディア要求１３０８を開始する。要求１３０８は、ＵＲＮ又は他の標準命名法によって、クライアントによって要求されるメディアを識別するための情報を含む。ネットワーク配信インタフェース１３０２は、クライアント１３０１が現在利用可能な資源に関する情報（計算、記憶、バッテリ充電パーセント、及びクライアントの現在の動作状態を特徴付ける他の情報を含む）を提供するよう要求するプロファイル要求１３０９で、要求１３０８に応答する。プロファイル要求１３０９は、また、クライアントの提示システムの特徴に一致する正しいメディアビューを抽出又は補間するためのニューラルネットワーク推定にネットワークが使用できる１つ又は複数のニューラルネットワークモデルを、そのようなモデルがクライアントで利用可能であれば、提供するように要求する。クライアント１３０１からインタフェース１３０２への応答１３１１は、クライアントトークン、アプリケーショントークン、及び１つ又は複数のニューラルネットワークモデルトークン（そのようなニューラルネットワークモデルトークンがクライアントで利用可能である場合）を提供する。次に、インタフェース１３０２は、クライアント１３０１にセッションＩＤトークン１３１１を提供する。次に、インタフェース１３０２は、要求１３０８で識別されたメディアのＵＲＮ又は標準命名法を含む取り込みメディア要求１３１２で、取り込みメディアサーバ１３０３に要求する。サーバ１３０３は、要求１３１２に対して、取り込みメディアトークンを含む応答１３１３で応答する。次に、インタフェース１３０２は、クライアント１３０１へのコール１３１４において、応答１３１３からのメディアトークンを提供する。次に、インタフェース１３０２は、適応インタフェース１３０４に取り込みメディアトークン、クライアントトークン、アプリケーショントークン、及びニューラルネットワークモデルトークンを提供することによって、１３０８において要求されたメディアに対する適応プロセスを開始させる。インタフェース１３０４は、インジェストメディアアセットへのアクセスを要求するために、コール１３１６にてサーバ１３０３に取り込みメディアトークンを提供して、取り込みメディアへのアクセスを要求する。サーバ１３０３は、インタフェース１３０４への応答１３１７において、取り込みメディアアクセストークンで要求１３１６に応答する。次に、インタフェース１３０４は、メディア適応モジュール１３０５が、１３１３で作成されたセッションＩＤトークンに対応するクライアント、アプリケーション、及びニューラルネットワーク推定モデルに対して、取り込みメディアアクセストークンに位置する取り込みメディアを適応するよう要求する。インタフェース１３０４からモジュール１３０５への要求１３１８は、必要なトークン及びセッションＩＤを含む。モジュール１３０５は、更新１３１９において、適応メディアアクセストークン及びセッションＩＤをインタフェース１３０２に提供する。インタフェース１３０２は、インタフェースコール１３２０において、適応メディアアクセストークン及びセッションＩＤをパッケージ化モジュール１３０６に提供する。パッケージ化モジュール１３０６は、応答１３２１において、パッケージ化メディアアクセストークン及びセッションＩＤをインタフェース１３０２に提供する。モジュール１３０６は、応答１３２２において、パッケージ化アセット、ＵＲＮ、及びセッションＩＤのパッケージ化メディアアクセストークンをパッケージ化メディアサーバ１３０７に提供する。クライアント１３０１は、要求１３２３を実行して、メッセージ１３２１で受信されたパッケージ化メディアアクセストークンに対応するメディアアセットのストリーミングを開始する。クライアント１３０１は、他の要求を実行し、メッセージ１３２４でステータス更新をインタフェース１３０２に提供する。

図１４は、図１０の取り込みメディアフォーマット及びアセット１００２を、任意選択で、３Ｄフォーマット１４０１でのイマーシブメディア及びアセットと、２Ｄフォーマット１４０２でのイマーシブメディア及びアセットと、の２つの部分から構成され得るものとして示している。２Ｄフォーマット１４０２は、例えばＩＳＯ／ＩＥＣ１４４９６Ｐａｒｔ１０ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇなどの単一ビューコーディングされたビデオストリームであってもよいし、例えばＩＳＯ／ＩＥＣ１４４９６Ｐａｒｔ１０に対するＭｕｌｔｉ－ｖｉｅｗＣｏｍｐｒｅｓｓｉｏｎＡｍｅｎｄｍｅｎｔなどの複数のビューを含むコーディングされたビデオストリームであってもよい。

図１５は、コーディングされたビデオストリームと共にニューラルネットワークモデル情報の搬送を示している。この図において、コーディングされたビットストリーム１５０１は、コーディングされたビデオストリーム１５０１Ｂと共に、１つ又は複数のＳＥＩメッセージ１５０１Ａによって直接搬送されるニューラルネットワークモデル及び対応するパラメータを含む。一方、１つ又は複数のＳＥＩメッセージ１５０２Ａ及びコーディングされたビデオストリーム１５０２Ｂを含むコーディングされたビットストリーム１５０２では、１つ又は複数のＳＥＩメッセージ１５０２Ａは、ニューラルネットワークモデル及びその対応するパラメータに対する識別子を搬送してもよい。コーディングされたビットストリーム１５０２のシナリオでは、ニューラルネットワークモデル及びパラメータは、例えば、図１０の１００１Ａにおいて、コーディングされたビデオストリームの外部に記憶されてもよい。

いくつかの実施形態は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、及び／又はコンピュータ読取可能な媒体に関するものであってもよい。コンピュータ読取可能な媒体は、プロセッサに動作を実行させるためのコンピュータ読取可能なプログラム命令をその上に有するコンピュータ読取可能な非一時的な記憶媒体（又はメディア）を含んでもよい。

コンピュータ読取可能な記憶媒体は、命令実行デバイスによって使用されるための命令を保持し記憶することができる有形のデバイスとすることができる。コンピュータ読取可能な記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、又は前述の任意の適切な組合せであってもよいが、これらに限定されない。コンピュータ読取可能な記憶媒体のより具体的な例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、パンチカード又は命令が記録されている溝内の隆起構造などの機械的にエンコードされたデバイス、及び前記の任意の適切な組合せが含まれる。本明細書で使用されるコンピュータ読取可能な記憶媒体は、電波又は他の自由に伝播する電磁波、導波管又は他の伝送媒体を介して伝播する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを介して伝送される電気信号などの一時的な信号自体であると解釈されるものではない。

本明細書に記載されたコンピュータ読取可能なプログラム命令は、コンピュータ読取可能な記憶媒体からそれぞれの計算／処理デバイスに、或いは、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は、無線ネットワークなどのネットワークを介して外部コンピュータ又は外部記憶デバイスにダウンロードされることができ。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又は、エッジサーバを含み得る。各計算／処理デバイス内のネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ読取可能なプログラム命令を受信し、それぞれの計算／処理デバイス内のコンピュータ読取可能な記憶媒体への記憶のために、コンピュータ読取可能なプログラム命令を転送する。

動作を実行するためのコンピュータ読取可能なプログラムコード／命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、或いは、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、「Ｃ」プログラミング言語又は類似のプログラミング言語などの手続き型プログラミング言語など１つ又は複数のプログラミング言語の任意の組合せで書かれたソースコード又はオブジェクトコードであり得る。コンピュータ読取可能なプログラム命令は、スタンドアロンソフトウェアパッケージとして、ユーザのコンピュータ上で完全に実行したり、ユーザのコンピュータ上で部分的に実行したりしてもよいし、ユーザのコンピュータ上で部分的に、リモートコンピュータ上で部分的に実行したり、リモートコンピュータ又はサーバ上で完全に実行したりしてもよい。後者の場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、或いは、外部コンピュータに（例えば、インターネットサービスプロバイダを使用したインターネットを介して）接続されてもよい。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブル論理アレイ（ＰＬＡ）を含む電子回路は、態様又は動作を実行するために、コンピュータ読取可能なプログラム命令の状態情報を利用することで、電子回路を個人化し、コンピュータ読取可能なプログラム命令を実行してもよい。

これらのコンピュータ読取可能なプログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供されて、マシンを製造してもよく、その結果、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び／又はブロック図のブロックに指定された機能／動作を実装するための手段を作成するようにする。これらのコンピュータ読取可能なプログラム命令は、また、コンピュータ、プログラマブルデータ処理装置、及び／又は、他のデバイスに特定の方法で機能するように指示することができるコンピュータ読取可能な記憶媒体に記憶されてもよく、その結果、その中に記憶された命令を有するコンピュータ読取可能な記憶媒体が、フローチャート及び／又はブロック図のブロックに指定された機能／動作の態様を実装する命令を含む製造品を含むようにする。

コンピュータ読取可能なプログラム命令は、また、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、又は他のデバイス上で一連の動作ステップを実行させて、コンピュータ実装プロセスを生成してもよく、その結果、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行する命令が、フローチャート及び／又はブロック図のブロックに指定された機能／動作を実装するようにする。

図中のフローチャート及びブロック図は、様々な実施形態によるシステム、方法、及びコンピュータ読取可能な媒体の可能な実装のアーキテクチャ、機能性、及び操作を示している。この点に関して、フローチャート又はブロック図の各ブロックは、指定された論理機能を実装するための１つ又は複数の実行可能な命令を含む、命令のモジュール、セグメント、又は部分を表すことができる。この方法、コンピュータシステム、及びコンピュータ読取可能な媒体は、図に示されるものよりも追加のブロック、より少ないブロック、異なるブロック、又は異なる配置のブロックを含んでもよい。いくつかの代替的な実施態様では、ブロックに記された機能は、図に記された順序とは異なる場合がある。例えば、連続して示された２つのブロックは、実際には、同時又は実質的に同時に実行されてもよく、又はこれらのブロックは、関係する機能性に応じて、時には逆の順序で実行されてもよい。なお、また、ブロック図及び／又はフローチャート図の各ブロック、及び、ブロック図及び／又はフローチャート図のブロックの組合せは、指定された機能又は動作を実行する、又は専用ハードウェアとコンピュータ命令の組合せを実行する専用ハードウェアベースのシステムによって実装できる。

本明細書で説明されるシステム及び／又は方法は、異なる形態のハードウェア、ファームウェア、又はハードウェアとソフトウェアの組合せで実装され得ることは明らかであろう。これらのシステム及び／又は方法を実装するために使用される実際の専用制御ハードウェア又はソフトウェアコードは、実装を限定するものではない。したがって、システム及び／又は方法の操作及び行動は、特定のソフトウェアコードを参照することなく本明細書で説明されており、ソフトウェア及びハードウェアは、本明細書での説明に基づいてシステム及び／又は方法を実装するように設計され得ることが理解される。

本明細書で使用されるいかなる要素、動作、又は命令も、重要又は必須であると明示的に記述されない限り、重要又は必須であると解釈されるべきではない。また、本明細書で使用されるように、冠詞「ａ」及び「ａｎ」は、１つ又は複数のアイテムを含むことを意図しており、「１つ又は複数」と互換的に使用される場合がある。さらに、本明細書で使用されるように、用語「セット」は、１つ又は複数のアイテム（例えば、関連アイテム、非関連アイテム、関連アイテムと非関連アイテムの組合せなど）を含むことを意図しており、「１つ又は複数」と互換的に使用する場合がある。１つのアイテムのみが意図される場合、「１つ」という用語又は類似の言語が使用される。また、本明細書で使用されるように、用語「有する」、「持っている」、「持つ」などは、オープンエンド用語であることが意図される。さらに、「・・・に基づく」という文は、特に明記されていない限り、「少なくとも部分的に、・・・に基づく」ことを意味することが意図される。

例示の目的で、様々な態様及び実施形態の説明が提示されてきたが、網羅的であること、又は開示された実施形態に限定されることを意図するものではない。特徴の組合せが特許請求の範囲に記載され、及び／又は、明細書に開示されているとしても、これらの組合せは、可能な実装の開示を制限することを意図していない。実際には、これらの特徴の多くは、特許請求の範囲に具体的に記載されていない、及び／又は、本明細書に開示されていない方法で組み合わされてもよい。以下に記載される各従属請求項は、１つの請求項のみに直接依存することができるが、可能な実装の開示は、請求項セット内の他のすべての請求項との組合せにおける各従属請求項を含む。多くの修正及び変形が、説明された実施形態の範囲から逸脱することなく、当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実用化又は技術的改良を最もよく説明するために、或いは当業者が本明細書に開示された実施形態を理解することを可能にするために選択される。

１００タイムドレガシーメディア配信のエンドツーエンドプロセス
１０１Ａカメラ又はマイクロフォン
１０１Ｂコンピュータ
１０２２Ｄ画像及び関連するオーディオのシーケンス
１０３準備モジュール
１０４コンバータモジュール
１０５適応モジュール
１０６コンテンツ配信ネットワーク（ＣＤＮ）
１０７Ａ，１０７Ｂ，１０７Ｃプル要求
１０８Ａ，１０８Ｂ，１０８Ｃクライアント
２００タイムドレガシーメディアのストリーミングに使用される標準メディアフォーマット
２０１Ａ，２０１Ｂ，２０１ＣＣＤＮ
２０２ＭＰＤ
２０３Ａ，２０３Ｂタイムド期間
２０４Ａ，２０４Ｂ，２０４Ｃ適応セット
２０５表現
２０６セグメントファイル
３００タイミングがとられる異種イマーシブメディアのためのストリーミング可能なフォーマット
３０１シーン
３０２コンポーネント
３０３アセット
３０４ベースレイヤ
３０５属性エンハンスメントレイヤ
４００タイミングがとられていない異種イマーシブメディアのためのストリーミング可能なフォーマット
４０１シーン
４０２コンポーネント
４０３アセット
４０４ベースレイヤ
４０５属性エンハンスメントレイヤ
５００自然コンテンツから取り込みフォーマットを合成するプロセス
５０１，５０２，５０３カメラユニット
５０４合成モジュール
５０５ニューラルネットワークトレーニングモジュール
５０６トレーニング画像
５０７取り込みフォーマット及びメディアアセット
５０８捕捉ニューラルネットワークモデル
５０９自然画像コンテンツ、自然画像データ
６００コンピュータ生成画像の取り込みフォーマットを作成するためのプロセス
６０１ＬＩＤＡＲカメラ
６０２ポイントクラウドデータ
６０３コンピュータ
６０４ＣＧＩアセット
６０５アクター
６０６動き捕捉（ＭｏＣａｐ）データ
６０７合成モジュール
６０８合成メディア取り込みフォーマット
７００コンピュータシステム
７０１キーボード
７０２マウス
７０３トラックパッド
７０５ジョイスティック
７０６マイク
７０７スキャナ
７０８カメラ
７０９スピーカー
７１０スクリーン、タッチスクリーン
７２０ＣＤ／ＤＶＤＲＯＭ／ＲＷ
７２１光学媒体
７２２サムドライブ
７２３リムーバブルハードドライブ又はソリッドステートドライブ
７４０コア
７４１中央処理装置（ＣＰＵ）
７４２グラフィックス処理装置（ＧＰＵ）
７４３フィールドプログラマブルゲートアレイ（ＦＰＧＡ）
７４４ハードウェアアクセラレータ
７４５リードオンリーメモリ（ＲＯＭ）
７４６ランダムアクセスメモリ（ＲＡＭ）
７４７内部大容量ストレージ
７４８システムバス
７４９周辺バス
７５５ネットワーク
７７０グラフィックスアダプタ
７７４ネットワークインタフェース
８００ネットワークメディア配信システム
８０１コンテンツ取得モジュール
８０２コンテンツ準備モジュール
８０３伝送モジュール
８０４クライアントエンドポイント
９００イマーシブメディア配信モジュール
９０１コンテンツ取得／作成モジュール
９０２ネットワーク取り込みフォーマット作成モジュール
９０３取り込みメディア記憶デバイス
９０４リモート記憶デバイス
９０５クライアントインタフェースモジュール
９０６配信メディア及び対応する記述情報
９０７クライアント進捗及びステータスフィードバックチャンネル
９０８イマーシブクライアント
９０９配信記憶デバイス
９１０メディア適応及び断片化モジュール
１０００メディア適応プロセス
１００１メディア適応モジュール
１００１Ａニューラルネットワークモデル
１００１Ｂレンダラ
１００１Ｃニューラルネットワークプロセッサ
１００１Ｄメディア圧縮器、圧縮エンコーダ
１００１Ｅメディア圧縮解除器、圧縮デコーダ
１００２取り込みメディアフォーマット及びアセット
１００３クライアントインタフェースモジュール
１００５入力ネットワークステータス
１００６クライアント適応メディア記憶デバイス
１１００変換プロセス
１１０１メディア適応モジュール
１１０２クライアント適応メディア記憶デバイス
１１０３適応メディアパッケージ化モジュール
１１０４マニフェスト情報
１２００断片化プロセス
１２０１適応メディア
１２０２パケタイザーモジュール
１２０３パケット
１２０４クライアントエンドポイント
１３００シーケンス図
１３０１クライアントエンドポイント
１３０２ネットワーク配信インタフェース
１３０３取り込みメディアサーバ
１３０４適応インタフェース
１３０５メディア適応モジュール
１３０６パッケージ化モジュール
１３０７パッケージ化メディアサーバ
１４００取り込みメディアフォーマット及びアセット
１４０１３Ｄフォーマットでのイマーシブメディア及びアセット
１４０２２Ｄフォーマットでのイマーシブメディア及びアセット
１５００ニューラルネットワークモデル情報の搬送
１５０１コーディングされたビットストリーム
１５０１Ａ補足エンハンスメント情報（ＳＥＩ）メッセージ
１５０１Ｂコーディングされたビデオストリーム
１５０２コーディングされたビットストリーム
１５０２ＡＳＥＩメッセージ
１５０２Ｂコーディングされたビデオストリーム

Claims

プロセッサによって実行可能な、イマーシブメディアをストリーミングする方法であって、
２次元フォーマットのコンテンツを取り込むステップであって、前記コンテンツは第１のシーンと第２のシーンとを含み、前記２次元フォーマットは、前記第１のシーンに固有の第１のニューラルネットワークと、前記第２のシーンに固有の、前記第１のニューラルネットワークとは異なる、第２のニューラルネットワークとを参照する、ステップと、
取り込まれた前記コンテンツを、参照された前記第１のニューラルネットワークと前記第２のニューラルネットワークとに基づいて３次元フォーマットに変換するステップと、
変換された前記コンテンツをクライアントエンドポイントにストリーミングするステップと、を含み、
前記第１のニューラルネットワークは第１の補足エンハンスメント情報（ＳＥＩ）メッセージにおいて参照され、前記第２のニューラルネットワークは第２のＳＥＩメッセージにおいて参照され、前記第１のＳＥＩメッセージは、前記第１のシーンに固有のコーディングされたビデオビットストリームに含まれ、前記第２のＳＥＩメッセージは、前記第２のシーンに固有のコーディングされたビデオビットストリームに含まれる、方法。
取り込まれた前記コンテンツを変換する前記ステップは、
前記第１のシーンに固有の前記第１のニューラルネットワークを使用して、前記第１のシーンに関する第１の深度情報を推定するステップと、
前記第２のシーンに固有の前記第２のニューラルネットワークを使用して、前記第２のシーンに関する第２の深度情報を推定するステップと、
取り込まれた前記コンテンツを、前記第１のシーンに関連付けられた第１のボリュメトリックフォーマットと前記第２のシーンに関連付けられた第２のボリュメトリックフォーマットとに適応させるステップと、を含む、請求項１に記載の方法。
前記第１のニューラルネットワークは、前記第１のシーン内のオブジェクトに対応する先験に基づいてトレーニングされる、請求項１に記載の方法。
前記第１のニューラルネットワークに対応するニューラルネットワークモデル及び少なくとも１つのパラメータは、前記第１のＳＥＩメッセージに直接埋め込まれる、請求項１に記載の方法。
前記第１のニューラルネットワークに対応するニューラルネットワークモデルの位置は、前記第１のＳＥＩメッセージでシグナリングされる、請求項１に記載の方法。
前記クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラーライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ、及び高密度ライトフィールドディスプレイのうち１つ又は複数を含む、請求項１に記載の方法。
イマーシブメディアをストリーミングするためのデバイスであって、
プログラムコードを記憶するように構成される少なくとも１つのメモリと、
前記プログラムコードを読み取り、前記プログラムコードによって指示される通りに動作するように構成される少なくとも１つのプロセッサと、を備え、
前記プログラムコードは、
前記少なくとも１つのプロセッサに、請求項１乃至６のうちのいずれか一項に記載の方法を実行させるように構成される、デバイス。
コンピュータに、請求項１乃至６のうちのいずれか一項に記載の方法を実行させるように構成されるコンピュータプログラム。