JP7472298B2

JP7472298B2 - 没入型メディアの設置、及び没入型メディアから異種クライアントエンドポイントへの配信

Info

Publication number: JP7472298B2
Application number: JP2022549773A
Authority: JP
Inventors: ハインズ，アリアンヌ; ウェンガー，スティーブン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-12-04
Filing date: 2021-09-01
Publication date: 2024-04-22
Anticipated expiration: 2041-09-01
Also published as: US11570227B2; US20220182432A1; EP4058909A4; EP4058909A1; KR20220110784A; WO2022119612A1; CN115428416A; JP2023518676A

Description

［関連出願の相互参照］
本出願は、米国特許商標庁の米国仮特許出願第６３／１２１,６１７号（２０２０年１２月４日出願）及び米国特許商標庁の米国特許出願第１７／４０８,９３３号（２０２１年８月２３日出願）の優先権を主張し、そのすべての内容は参照により本明細書に組み込まれる。

［技術分野］
本開示は、全体として、データプロセス分野に関し、より具体的に、ビデオコーディングに関する。

「没入型メディア」とは、一般に、人間の感覚システム（視覚、聴覚、体性感覚、嗅覚及び可能な味覚）のいずれか又はすべてを刺激して、ユーザーがメディアエクスペリエンスに実際に存在する知覚を作成又は強化することを指し、つまり、従来の商用ネットワークを介してタイムドの２次元（ｔｗｏ－ｄｉｍｅｎｓｉｏｎ、２Ｄ）ビデオ及び相応するオーディオに配信するコンテンツ（「レガシーメディア」と呼ばれる）を超えたものである。没入型メディア及びレガシーメディアの両方はタイムド又はアンタイムドとして特徴づけられることができる。

タイムドメディアとは、時間に従って構造化及びプレゼンテーションされるメディアを指す。例として、映画の特集、ニュースレポート、エピソードコンテンツを含み、これらはすべて期間に従って編成される。レガシービデオ及びオーディオは、一般的に、タイムドメディアと見なされる。

アンタイムドメディアは、時間ではなく、ロジック、空間及び／又は時間関係に従って構造化されるメディアである。例として、ユーザーがゲームデバイスにより作成されるエクスペリエンスを制御するビデオゲームを含む。アンタイムドメディアの別の例として、カメラで撮影した静止画像写真である。アンタイムドメディアは、タイムドメディアを、例えばビデオゲームシーンの連続的に循環されるオーディオ又はビデオセグメントに合併することができる。逆に、タイムドメディアはアンタイムドメディア、例えば、固定静止画像を背景とするビデオを合併することができる。

没入型メディア機能を有するデバイスとは、没入型メディアにアクセス、解釈及びプレゼンテーションする機能を有するデバイスを指す。このようなメディア及びデバイスは、メディアの数とフォーマット、及びこのようなメディアを大規模に配信し、即ち、従来のネットワークを介したビデオ及びオーディオメディアの配信と同等の配信を実現するために必要なネットワークリソースの数及びタイプという点で、異種である。これに対して、例えば、ラップトップディスプレイ、テレビ及び携帯電話ディスプレイなどのレガシーデバイスは、それらの機能の点で、同種であり、なぜならば、これらのすべてのデバイスはいずれも長方形のディスプレイから構成され、２Ｄ長方形のビデオ又は静止画像を主なメディアフォーマットとして使用するからである。

実施形態は没入型メディアをストリーミングするための方法、システム及びコンピュータ可読媒体に関する。１つの態様によれば、没入型メディアをストリーミングするための方法を提供する。当該方法は、１つ又は複数のトークンの伝送に基づいて、メディアコンテンツに関連付けられるクライアントの特性に対応する情報を受信するステップを含み得る。１つ又は複数のトークンを使用して、パッケージングプロセスをメディアコンテンツに関連付ける。関連付けられたパッケージングプロセスに基づいて、クライアントの特性に応じて、メディアコンテンツを適合化する。

別の態様によれば、没入型メディアをストリーミングするためのコンピュータシステムを提供する。当該コンピュータシステムは、１つ又は複数のプロセッサー、１つ又は複数のコンピュータ可読メモリ、１つ又は複数のコンピュータ可読有形記憶デバイス、及び１つ又は複数の記憶デバイスのうちの少なくとも１つに記憶されたプログラム命令を含み、前記プログラム命令が、１つ又は複数のプロセッサーのうちの少なくとも１つに、１つ又は複数のメモリのうちの少なくとも１つメモリを介して実行させることで、コンピュータシステムは方法を実行することができる。当該方法は、１つ又は複数のトークンの伝送に基づいて、メディアコンテンツに関連付けられるクライアントの特性に対応する情報を受信するステップを含み得る。１つ又は複数のトークンを使用して、パッケージングプロセスをメディアコンテンツに関連付ける。関連付けられたパッケージングプロセスに基づいて、クライアントの特性に応じて、メディアコンテンツを適合化する。

別の態様によれば、没入型メディアをストリーミングするためのコンピュータ可読媒体を提供する。当該コンピュータ可読媒体は、１つ又は複数のコンピュータ可読記憶デバイス、及び１つ又は複数の有形記憶デバイスのうちの少なくとも１つに記憶されたプログラム命令を含み、前記プログラム命令はプロセッサーにより実行されることができる。プログラム命令は、１つの方法を実行するためのプロセッサーにより実行されることができ、当該方法は、相応して、１つ又は複数のトークンの伝送に基づいて、メディアコンテンツに関連付けられるクライアントの特性に対応する情報を受信するステップを含み得る。１つ又は複数のトークンを使用して、パッケージングプロセスをメディアコンテンツに関連付ける。関連付けられたパッケージングプロセスに基づいて、クライアントの特性に応じて、メディアコンテンツを適合化する。

上記及び他の目的、特徴及び利点は、添付の図面に関連して読まれる例示的な実施形態の以下の詳細な説明から明らかになる。図面は詳細な説明に関連して当業者の理解を容易にすることを明確にするためのものであるので、図面の様々な特徴は縮尺通りではない。

タイムドレガシーメディア配信のエンドツーエンドプロセスの概略図である。

タイムドレガシーメディアのストリーミングに使用される標準メディアフォーマットの概略図である。

タイムド没入型メディアのプレゼンテーション及びストリーミングのためのデータモデルの実施形態の概略図である。

アンタイムド没入型メディアのプレゼンテーション及びストリーミングのためのデータモデルの実施形態の概略図である。

自然シーンをキャプチャし、自然シーンを、異種クライアントエンドポイントにサービスを提供するネットワークの摂取フォーマット（ｉｎｇｅｓｔｆｏｒｍａｔ）として使用できるプレゼンテーションに変換するプロセスの概略図である。

３Ｄモデリングツール及びフォーマットを使用して、異種クライアントエンドポイントにサービスを提供するネットワークの摂取フォーマットとして使用できる合成シーンのプレゼンテーションを作成するプロセスの概略図である。

コンピュータシステムのシステム図である。

複数の異種クライアントエンドポイントにサービスを提供するネットワークの概略図である。

例えば、ネットワークが特定の没入型メディアクライアントエンドポイントによる使用のためにメディアを適合化するプロセスの前に、摂取メディアフォーマットで表される特定のメディアに関する適合化情報を提供する概略図である。

ソースメディアをその摂取フォーマットから、特定のクライアントエンドポイントに適する特定のフォーマットへ変換するメディアレンダリングコンバータを含む、メディア適合化プロセスのシステム図である。

ネットワークが、適合化されたソースメディアを、表現及びストリーミングに適するデータモデルにフォーマットする概略図である。

図１１のデータモデルを、ネットワークプロトコルパケットのペイロードに断片化（fragment）するメディアストリーミングプロセスのシステム図である。

ネットワークが、摂取フォーマットの特定の没入型メディアを、特定の没入型メディアクライアントエンドポイントのためのストリーミング可能で適切な配信フォーマットに適合化させるシーケンス図である。

特許請求に係る構造及び方法の詳細な実施形態をここに開示する。しかしながら、開示された実施形態は、様々な形態で実施可能な特許請求に係る構造及び方法の単なる例示であると理解され得る。しかしながら、これらの構造及び方法は、多くの異なる形態で実施され、本明細書に記載の例示的な実施形態に限定されると解釈すべきではない。むしろ、これらの例示的な実施形態は、本開示が完璧かつ完全であり、当業者にその範囲を完全に伝えるように提供される。本説明では、本実施形態を不必要に曖昧にすることを回避するため、周知の特徴及び技術は省略されてもよい。

実施形態は、全体として、データプロセス分野に関し、より具体的に、ビデオコーディングに関する。本明細書に記載の技術によれば、ネットワークはメディアのソースを摂取（ｉｎｇｅｓｔ）し、且つフォーマットされたメディアを実際に様々なクライアントエンドポイントに配信する前に、メディアのソースを１つ又は複数のストリーミング可能な「配信フォーマット」に適合化することで、様々な異種クライアントエンドポイントデバイス、これらの異なる特徴、機能、及びクライアントエンドポイントで使用されるアプリケーションの要求に適することができる。メディアソースを様々なストリーミング可能な配信フォーマットに再フォーマットするという機能によって、ネットワークは、様々な機能及び利用可能なコンピューティングリソースを有する様々なクライアントエンドポイントにサービスを同時に提供できるとともに、新しい没入型クライアントエンドポイント、例えば、商用ネットワークにおけるホログラフィックディスプレイ及びライトフィールドディスプレイをサポートできる。異種クライアントエンドポイントデバイスの機能に合わせるようにメディアを適合化する機能は、エンドポイントクライアントで運行する様々なアプリケーションの要求、又はネットワークの現在の機能に合わせるようにメディアを適合化する機能に拡張してもよい。このようなメディアを適応的にストリーミングする機能は、様々なユースケースに没入型メディアを配信することで、その後、様々な異種のエンドポイントでプレゼンテーションすることができるようにするために不可欠である。また、デバイスエンドポイントは、それらの機能及び特徴の点で異種であるため、異種のエンドポイントをサポートすることで、エコシステムの発展に寄与し、異なるユースケースに対して最適化される様々なクライアントエンドポイントをサポートする。

以上のように、「没入型メディア」とは、一般に、人間の感覚システム（視覚、聴覚、体性感覚、嗅覚及び可能な味覚）のいずれか又はすべてを刺激して、ユーザーがメディアエクスペリエンスに実際に存在する知覚を作成又は強化することを指し、つまり、従来の商用ネットワークを介してタイムドの２次元（ｔｗｏ－ｄｉｍｅｎｓｉｏｎ、２Ｄ）ビデオ及び相応するオーディオに配信するコンテンツ（「レガシーメディア」と呼ばれる）を超えたものである。没入型メディア及びレガシーメディアの両方はタイムド又はアンタイムドとして特徴づけられることができる。

タイムドメディアとは、時間に従って構造化及びプレゼンテーションされるメディアを指す。例として、映画の特集、ニュースレポート、エピソードコンテンツを含み、これらは全部で期間に従って編成される。レガシービデオ及びオーディオは、一般的に、タイムドメディアと見なされる。

ネットワークを介したメディアの配信では、いずれもメディアを入力又はネットワーク「摂取」フォーマットから、最終的な配信フォーマットに再フォーマットするメディア伝送システム及びアーキテクチャを採用でき、当該配信フォーマットはターゲットクライアントデバイス及びそのアプリケーションだけでなく、ネットワークを介してストリーミングを行うことに有利である。メディアの「ストリーミング」は、広義的に、ソースメディアの断片化及びパケット化を指し、ソースメディアがネットワークを介して連続する小さい「チャンク」で伝送されるようにし、これらの「ブロック」はメディアの時間的又は空間的構造のいずれか又は両方に従って論理的に編成及び順序付けされる。このような配信アーキテクチャ及びシステムにおいて、メディアは、圧縮又は階層化プロセスを経て、最も顕著なメディア情報のみが最初にクライアントに配信される場合がある。いくつかの場合、クライアントは、任意の同じメディア部分を端末ユーザーにプレゼンテーションできる前、メディアのいくつかの部分のすべての著しいメディア情報を受信しなければならない。

圧縮及び階層化プロセスの例は、ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ、ＪＰＥＧ）標準の（ＩＳＯ（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ、ＩＳＯ）／ＩＥＣ（ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ、ＩＥＣ）１０９１８パート１）のプログレッシブフォーマットであり、画像を複数の層に分割し、画像全体は、まず、最初焦点がずれた基本的な形状及び色のみ、即ち、画像走査全体のからの低次ＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍａｔｉｏｎ、ＤＣＴ）係数をプレゼンテーションし、そして、画像に焦点を合わせる追加の詳細層、即ち、画像走査からの高次ＤＣＴ係数をプレゼンテーションする。

メディアを小さな部分に分割し、小さな部分を連続するネットワークプロトコルパケットのペイロード部分に編成し、これらのプロトコルパケットを配信するプロセスは、メディアの「ストリーミング」と呼ばれ、メディアを、様々な異種アプリケーションの１つを実行する様々な異種クライアントエンドポイントの１つでプレゼンテーションされるフォーマットに変換するプロセスは、メディアの「適合化」と呼ばれる。

定義

シーングラフ：ベクターベースのグラフィック編集アプリケーションや最新のコンピューターゲームで一般的に使用される一般的なデータ構造であり、グラフィックシーンのロジックプレゼンテーションを配列し、一般的（しかし、必ずではない）に、空間表現（ｓｐａｔｉａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を配列し、グラフィック構造におけるノードと頂点のセットである。

ノード：シーングラフの基本的な要素であり、視覚、オーディオ、触覚、嗅覚、味覚のロジック又は空間、或いは時間表現に関連する情報、若しくは関連するプロセス情報を含み、各ノードは１つの出力エッジ、ゼロ又は複数の入力エッジ、及び当該ノードに接続される少なくとも１つのエッジ（入力又は出力）を有する必要がある。

基本層：アセットの公称表現（ｎｏｍｉｎａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎ）であり、一般的に、アセットのレンダリングに必要なコンピューティングリソースや時間、又はネットワークを介してアセットを伝送する時間を最小化するように作成される。

強化層：１組の情報であり、アセットの基本層表現に応用すると、基本層でサポートされて特徴又は機能を含むように基本層を強化する情報のセットを含む。

属性：ノードに関連付けられたメタデータであり、標準的な形式又はより複雑な形式で（例えば、別のノードに基づいて）、当該ノードの特定の特性又は特徴を記述するために用いられる。

コンテナ：シリアル化されたフォーマットであり、シーングラフ、シーンのレンダリングに必要なメディアリソースにおけるすべてのメディアリソースを含むすべての自然シーン、すべての合成シーン又は合成シーンと自然シーンの混合を表すように、情報を記憶及び交換するために用いられる。

シリアル化：データ構造又はオブジェクト状態を、記憶（例えば、ファイル又はメモリバッファなど）又は伝送（例えば、ネットワーク接続リンク経由）され、その後、再構成され得る（異なるコンピュータ環境にある可能性がある）フォーマットに変換するプロセスである。シリアル化フォーマットに基づいて、取得したビットシーケンスを再び読み取る場合、当該シリアル化フォーマットは、オリジナルオブジェクトの意味的に同じなクローンを作成するために使用できる。

レンダラー：（一般的に、ソフトウェアによる）アプリケーション又はプロセスであり、音響物理学、光物理学、視覚認知、聴覚認知、数学、及びソフトウェア開発に関連する分野の選択的な組み合わせに基づいて、入力シーングラフ及びアセットコンテナを与えた場合、当該アプリケーション又はプロセスは、ターゲットデバイスでプレゼンテーションされるのに適した、又はシーングラフにおけるレンダリングターゲットノードの属性で指定される所望の性質に合った、視覚信号及び／又はオーディオ信号を送信する。視覚によるメディアアセットに対して、レンダラーは、ターゲットディスプレイに適した、又は中間アセット（例えば、別のコンテナに再パッケージングされ、即ち、グラフィックスパイプラインにおける一連のレンダリングプロセスで使用される）としての記憶に適した視覚信号を送信でき、オーディオによるメディアアセットに対して、レンダラーは、マルチチャンネルスピーカ及び／又はバイノーラルヘッドフォン（ｂｉｎａｕｒａｌｉｚｅｄｈｅａｄｐｈｏｎｅ）でプレゼンテーションされるため、又は別の（出力）コンテナに再パッケージングされるために、オーディオ信号を送信できる。レンダラーの一般的な例はＵｎｉｔｙ、Ｕｎｒｅａｌを含む。

評価：出力を抽象から具体な結果に移動させる１つの結果（例えば、ウェブページのドキュメントオブジェクトモデルの評価と同様）を生成する。

スクリプト言語：解釈されたプログラミング言語であり、レンダラーによってランタイムに実行され、動的入力、及びシーングラフノードに対する可変状態変更を処理し、これらの変更は、空間及び時間オブジェクトトポロジ（物理力、約束、ＩＫ、変形、衝突を含む）のレンダリング、評価、エネルギー伝搬及び伝送（光、音）に影響する。

シェーダー：コンピュータプログラムの一種であり、元々シェーディング（画像内で、適切なレベルの光、暗さ及び色を生成する）に用いられていたが、現在は、コンピュータグラフィックの特殊効果の各分野で、様々な専門機能を実行したり、又はシェーディングと関係がないビデオ後処理、或いはグラフィックとまったく関係がない機能を行ったりする。

パストレーシング（Ｐａｔｈｔｒａｃｉｎｇ）：シーンの照明が現実に忠実であるように、３次元シーンをレンダリングするコンピュータグラフィック方法である。

タイムドメディア：時間に従ってソートされるメディアであり、例えば、特定のクロックによる開始時間及び終了時間を有する。

アンタイムドメディア：空間、ロジック又は時間関係に従って編成されるメディアであり、例えば、ユーザーが採用する動作に従って実現されるインタラクティブなエクスペリエンスにあるようである。

没入型メディアは、１つ又は複数のタイプのメディアと見なされてもよく、没入型メディア機能を有するデバイスによって人間にプレゼンテーションされる場合、当該メディアは、より迫真的で、且つ自然界でのエクスペリエンスに対する人間の理解に合うように、即ち、レガシーデバイスによりプレゼンテーションされるレガシーメディアを使用して他の方式で実現される刺激を超える刺激が、視覚、音声、味覚、触覚及び聴覚の５つの感覚のいずれかを刺激する。当該明細書において、「レガシーメディア」という用語は、２次元（２Ｄ）視覚メディア（静止ピクチャフレーム又は運動ピクチャフレーム）、及び／又はユーザーのインタラクション機能が一時停止、再生、早送り又は早戻しに限定される相応するオーディオを指し、「レガシーデバイス」とは、その機能が、レガシーメディアのみをプレゼンテーションできるように限定されるテレビ、ラップトップ、ディスプレイ及びモバイルデバイスを指す。消費者向けのアプリケーションシーンにおいて、没入型メディアに使用されるプレゼンテーションデバイス（即ち、没入型メディア機能を有するデバイス）は、消費者向けのハードウェアデバイスであり、没入型メディアにより体現される特定の情報を使用して、当該デバイスは、特に、物理的な世界に対する人間の理解と、物理的な世界とのインタラクションにより近いプレゼンテーションを作成できる機能が配置され、即ち、レガシーデバイスの機能を超える。レガシーデバイスの機能は、レガシーメディアのみをプレゼンテーションできるように限定され、没入型メディアデバイスも同様に制限されていない。

過去１０年間、ヘッドマウントディスプレイ、拡張現実メガネ、ハンドヘルドコントローラー、触覚グローブ及びゲームコンソールを含め、没入型メディア機能を有する多くのデバイスが既に消費市場に導入されている。同様に、ホログラフィックディスプレイ及び他の形態の体積ディスプレイも、次の１０年内で登場する予定がある。これらのデバイスはすぐに利用可能、又はもうすぐ利用可能であるが、ある原因で、商用ネットワークを介して没入型メディアを配信するための連続するエンドツーエンドエコシステムは実現されていない。

これらの原因の１つは、没入型メディアに対して、現在、商用ネットワークを介してメディアを大規模に配信する、以下の２つの主なユースケースを解決するできる単一の標準表現の欠如である：１）実写（ｌｉｖｅａｃｔｉｏｎ）イベントのリアルタイム配信、即ち、コンテンツを作成し、コンテンツをクライアントエンドポイントにリアルタイム又はほぼリアルタイムで配信する場合、２）非リアルタイム配信、即ち、コンテンツが物理的にキャプチャ又は作成されるときに、コンテンツをリアルタイムで配信する必要がない場合。当該２つのユースケースを、現在存在する「ブロードキャスト」及び「オンデマンド」の配信フォーマットとそれぞれ比較してもよい。

リアルタイム配信について、コンテンツは１つ又は複数のカメラによりキャプチャされてもよいし、又はコンピュータ生成技術を使用して作成されてもよい。カメラによりキャプチャされるコンテンツは、本明細書において「自然」コンテンツと呼ばれ、コンピュータ生成技術を使用して作成されるコンテンツは、本明細書において「合成」コンテンツと呼ばれる。合成コンテンツを表すためのメディアフォーマットは、３Ｄモデリング、視覚効果及びＣＡＤ（ＣｏｍｐｕｔｅｒＡｉｄｅｄＤｅｓｉｇｎ、ＣＡＤ）／ＣＡＭ（ＣｏｍｐｕｔｅｒＡｉｄｅｄＭａｎｕｆａｃｔｕｒｉｎｇ、ＣＡＭ）業界で使用されるフォーマットであってもよく、オブジェクトフォーマット及びツール、例えばグリッド、テクスチャ、点群、構造化体積、アモルファス体積（例えば、火、煙及び霧に用いられる）、シェーダー、プログラムから生成されるジオメトリ、マテリアル、照明、仮想カメラ定義及びアニメーションを含む。合成コンテンツはコンピュータによって生成されるが、合成メディアフォーマットは自然コンテンツ及び合成コンテンツの両方に適用されることができ、ただし、自然コンテンツを合成メディアフォーマットに変換する（例えば、合成表現に変換する）プロセスは、時間と計算量の多いプロセスである可能性があるため、リアルタイムアプリケーション及びユースケースにとって、非現実的であるかもしれない。

自然コンテンツのリアルタイム配信について、カメラによりキャプチャされるコンテンツはラスターフォーマットで配信されてもよく、レガシーディスプレイデバイスに適している。なぜならば、このようなデバイスの多くは同様に、ラスターフォーマットを表示するように設計されるからである。つまり、レガシーディスプレイは同様にラスターフォーマットを表示するように設計されるため、ラスターフォーマットの配信は、ラスターフォーマットのみを表示できるディスプレイに最適である。

ところが、没入型メディア機能を有するディスプレイは、必ずしもラスターフォーマットによるディスプレイに限定されるわけではない。また、没入型メディア機能を有するいくつかのディスプレイは、ラスターフォーマットのみに基づいて利用可能なメディアをプレゼンテーションできない。最適化されることで、ラスターフォーマット以外のフォーマットによる没入型エクスペリエンスを作成するディスプレイの利用可能性は、没入型メディア配信のための連続するエンドツーエンドエコシステムがまだ存在しないもう１つの重要な理由である。

複数の異なる没入型メディアデバイスに対して、連続する配信システムを作成する別の問題は、没入型メディア機能を有する現在及び新しいデバイス自体は、著しく変化する可能性があることである。例えば、いくつかの没入型メディアデバイスは、一度に１人のユーザーのみが使用するように明示的に設計され、例えばヘッドマウントディスプレイである。他の没入型メディアデバイスは、１人以上のユーザーが同時に使用するように設計され、例えば、「ＬｏｏｋｉｎｇＧｌａｓｓＦａｃｔｏｒｙ８Ｋディスプレイ」（以下、「レンチキュラーライトフィールドディスプレイ（ｌｅｎｔｉｃｕｌａｒｌｉｇｈｔｆｉｅｌｄｄｉｓｐｌａｙ）」と呼ばれる）は、最大１２人のユーザーが同時に見るコンテンツを表示でき、各ユーザーは、表示されているコンテンツに対する独特の視点（即ち、ビュー）を体験している。

連続する配信システムの開発をより複雑にするのは、各ディスプレイが生成できる独特のビューの数が大幅に変化する可能性があることである。ほとんどの場合、レガシーディスプレイは単一のコンテンツビューのみを作成できる。ただし、レンチキュラーライトフィールドディスプレイは複数のユーザーをサポートでき、各ユーザーは同じ視覚シーンの独特のビューを体験する。同一のシーンに対する複数のビューの作成を完成させるために、レンチキュラーライトフィールドディスプレイは特定の体積視錐台を作成し、ディスプレイの入力として、同一のシーンの４５個の独特ビューが必要である。これは、同一のシーンの４５個のわずかに異なる独特のラスター表現をキャプチャし、当該特定のディスプレイに固有のフォーマット（即ち、その視錐台）で、ディスプレイに配信する必要があることを意味する。これに対して、レガシーディスプレイの視錐台は単一の２次元平面に限定されるため、当該ディスプレイを同時に体験する視聴者の数にも関わらず、ディスプレイの視錐台を介して１つ以上のコンテンツのパースペクティブをプレゼンテーションすることができない。

一般的に、没入型メディアディスプレイはすべてのディスプレイの以下の特性に応じて大幅に変化する可能性がある、即ち、視錐台のサイズ、体積、同時にサポートする視聴者の数、視錐台を充填するための光学技術であって、点、射線又は波による技術、視錐台を占める光の単位（点、射線又は波）の密度、コンピューティング機能の利用可能性、コンピューティングタイプ（ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）又はＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ））、電力のソース、利用可能性（バッテリ又はワイヤ）、ロカールストレージ又はキャッシュの数、及び補助リソース、例えば、クラウドベースのコンピューティングやストレージへのアクセスである。これらの特性は没入型メディアディスプレイの異種性を招致し、レガシーディスプレイの同種性に比べると、没入型メディアディスプレイの異種性は、レガシータイプのディスプレイ及び没入型タイプのディスプレイの両方を含むすべてをサポートできる単一の配信システムの開発を複雑にする。

開示されたテーマは、ネットワークによるメディア配信システムの開発を解決し、当該システムは単一のネットワークのコンテキスト内でクライアントエンドポイントとしてのレガシーメディアディスプレイ及び没入型メディアディスプレイの両方をサポートできる。具体的に、本明細書では、入力される没入型メディアソースを、クライアントエンドポイントデバイス（現在、当該クライアントエンドポイントデバイスで実行されているアプリケーションを含む）の特定の特性に適するフォーマットに適合化させるメカニズムを提案する。このような適合化して入力される没入型メディアソースのメカニズムは、入力される没入型メディアの特性を、ターゲットエンドポイントクライアントデバイス（クライアントデバイスで実行されるアプリケーションを含む）の特性と調整し、次に、入力される没入型メディアを、ターゲットエンドポイント及びそのアプリケーションに適するフォーマットに適合化させる。また、適合化プロセスは、入力されるメディアから付加ビュー、例えば新規のビューを補間することで、クライアントエンドポイントに必要な付加ビューを作成する。このような補間は、ニューラルネットワークプロセスの協力で実行され得る。

ここで、一般性を失うことなく、開示されたテーマの残りの部分は、入力される没入型メディアソースを特定のエンドポイントクライアントデバイスに適応させるプロセスと、同様に入力される没入型メディアソースを特定のクライアントエンドポイントデバイスで実行される特定のアプリケーションに適応させるプロセスとが同様又は類似することを前提としていることに留意されたい。つまり、入力されるメディアソースをエンドポイントデバイスの特性に適合化させるという問題は、入力される特定のメディアソースを特定のアプリケーションの特性に適合化させるという問題と、同様な複雑さを有する。

レガシーメディアによりサポートされるレガシーデバイスは、幅広い消費者の応用を既に実現している。なぜならば、同様に、レガシーメディアコンテンツプロバイダ及び商用ネットワークサービスプロバイダのエコシステムにサポートされるからである。レガシーメディアコンテンツプロバイダは、レガシーメディアの標準に基づく表現を生成し、商用ネットワークサービスプロバイダは、レガシーデバイスを標準のレガシーコンテンツのソースに接続するために、ネットワークインフラストラクチャーを提供する。ネットワークを介してレガシーメディアを配信する役割に加えて、商用ネットワークサービスプロバイダは、さらに、レガシークライアントデバイスと、コンテンツ配信ネットワーク（ＣｏｎｔｅｎｔＤｉｓｔｒｉｂｕｔｉｏｎＮｅｔｗｏｒｋ、ＣＤＮ）での従来のコンテンツへのアクセスとのペアリングを容易にする。適切な形式のコンテンツへのアクセスとペアリングすると、レガシークライアントデバイスは、端末ユーザーにプレゼンテーションするために、コンテンツサーバからデバイスに対してレガシーコンテンツをリクエスト又は「プル」できる。ただし、ネットワークサーバは適切なメディアを、適切なクライアントに「プッシュ」するアーキテクチャは、アーキテクチャ全体及び解決策設計に追加の複雑さをもたらすことなく、同様に関連する。

本明細書は、様々な実施形態による方法、装置（システム）及びコンピュータ可読媒体のフローチャート及び／又はブロック図を参照して、各態様を説明する。ここで、コンピュータ可読プログラム命令によって、フローチャート及び／又はブロック図における各ブロック、並びにフローチャート及び／又はブロック図におけるブロックの組み合わせを実現できることを理解すべきである。

以下に説明する例示的な実施形態は、メディアを配信するためのシステム、ネットワークのアーキテクチャ、構成及びコンポーネントに関し、前記メディアはビデオ、オーディオ、幾何学（３Ｄ）オブジェクト、触覚、関連するメタデータ、又はクライアントデバイスに使用される他のコンテンツを含む。具体的な実施形態は、メディアコンテンツを異種没入型及びインタラクティブなクライアントデバイスに配信するための指向性システム、構成及びアーキテクチャである。

図１はタイムドレガシーメディア配信のエンドツーエンドプロセスの例である。図１において、タイムド視聴コンテンツは１０１Ａのカメラ又はマイクによりキャプチャされるか、又は１０１Ｂのコンピュータによって生成され、準備モジュール１０３に入力される２Ｄ画像、及び関連するオーディオのシーケンス１０２を作成する。１０３の出力はマスターフォーマット（ＭａｓｔｅｒＦｏｒｍａｔ）と呼ばれる、編集されたコンテンツ（例えば、言語翻訳、字幕、他の編集機能を含むポストプロダクションに用いられる）であり、当該マスターフォーマットは、コンバータモジュール１０４により標準メザニンフォーマット（ＭｅｚｚａｎｉｎｅＦｏｒｍａｔ）（例えば、オンデマンドメディア用）に変換され、又は標準コントリビューションフォーマット（ＣｏｎｔｒｉｂｕｔｉｏｎＦｏｒｍａｔ）（例えば、ライブイベント用）とするように準備する。メディアは、商用ネットワークサービスプロバイダにより「摂取さられ（ｉｎｇｅｓｔ）」、適合化モジュール１０５はメディアを様々なビットレート、時間解像度（フレームレート）又は空間解像度（フレームサイズ）にパッケージングし、これらのビットレート、時間解像度（フレームレート）又は空間解像度（フレームサイズ）は、標準配信フォーマット（ＤｉｓｔｒｉｂｕｔｉｏｎＦｏｒｍａｔ）にパッケージングされる。取得した適合化は、コンテンツ配信ネットワーク１０６に記憶され、各クライアント１０８はコンテンツ配信ネットワーク１０６からプルリクエスト１０７を行って、メディアを取得し端末ユーザーにプレゼンテーションする。マスターフォーマットは、１０１Ａ又は１０１Ｂからのメディアの混合を含み得、フォーマット１０１Ａはリアルタイムに取得可能であり、例えば、スポーツの生中継から得られるメディアであることに留意することが重要である。また、クライアント１０８は、同様に、クライアントに最適な配置及び／又は現在のネットワーク条件に最適な特定の適合化１０７を選択することを担当するが、ネットワークサーバ（図１において図示せず）は適切なコンテンツを決定し、その後、クライアント１０８に「プッシュ」する可能性がある。

図２はレガシータイムドメディア、例えばビデオ、オーディオ及びメタデータをサポートする（例えば、字幕用のタイムドテキスト）標準メディアフォーマットを配信するための例である。図１の項目１０６に示すように、メディアは、標準に基づく配信フォーマットでＣＤＮ２０１に記憶される。標準に基づくフォーマットはＭＰＤ（Ｍｉｃｒｏｓｏｆｔ（登録商標）ＰｒｏｊｅｃｔＤａｔａｂａｓｅ、ＭＰＤ）２０２として示され、クロックの開始時間及び終了時間に対応するタイムド期間２０３を有する複数の部分を含む。各期間２０３は１つ又は複数の適合化セット２０４に関する。各適合化セット２０４は、一般的に、単一タイプのメディア、例えばビデオ、オーディオ又はタイムドテキストに用いられる。任意の所定期間２０３について、複数の適合化セット２０４を提供し得、例えば、１つはビデオに用いられ、複数はオーディオに用いられ、例えば、各種言語への翻訳に用いられる。各適合化セット２０４は１つ又は複数の表現２０５に関し、メディアのフレーム解像度（ビデオについて）、フレームレート及びビットレートに関する情報を提供する。複数の表現２０５は、例えば、それぞれ超高解像度ビデオ、高解像度ビデオ又は標準解像度ビデオの表現２０５へのアクセスを提供するために使用され得る。各表現２０５は１つ又は複数のセグメントファイル２０６を参照し、メディアは、クライアント（図１の１０８に示すように）による取得、又はネットワークメディアサーバ（図１において、図示せず）による配信のために（「プッシュ」に基づくアーキテクチャ）、実際にセグメントファイル２０６に記憶される。

図３は、タイムドの異種没入型メディアに使用されるストリーミング可能なフォーマットの表現例である。図４は、アンタイムドの異種没入型メディアに使用されるストリーミング可能なフォーマットの表現例である。２つの図面はいずれもシーンに関し、図３はタイムドメディアのシーン３０１に関し、図４はアンタイムドメディアのシーン４０１に関する。どちらの場合も、シーンは様々なシーンで表現又はシーン記述により体現されることができる。

例えば、一部の没入型メディア設計において、シーンはシーングラフにより、又はマルチプレーン画像（Ｍｕｌｔｉ－ＰｌａｎｅＩｍａｇｅ、ＭＰＩ）、或いは多球面画像（Ｍｕｌｔｉ－ＳｐｈｅｒｉｃａｌＩｍａｇｅ、ＭＳＩ）として体現され得る。ＭＰＩ技術及びＭＳＩ技術の両方は、自然コンテンツ（即ち、１つ又は複数のカメラから同時にキャプチャされる現実世界の画像）に対して、表示に関係がないシーン表現を作成するための技術例である。一方、シーングラフ技術は、自然画像及びコンピュータによって生成された画像の両方を合成表現の形式で表現するために使用できるが、コンテンツは１つ又は複数のカメラによって自然シーンとしてキャプチャされた場合、このような表現を作成するために、コンピュータ集約型を特に必要とする。つまり、自然にキャプチャされたコンテンツのシーングラフ表現の作成は、時間がかかる上に、コンピュータ集約型であるため、写真測量又は深層学習、或いは両方をともに有する技術を使用して自然画像を複雑に分析することで、合成表現を作成し、これらの表現はその後、補間が十分且つ十分な数を有するビューに使用されて、ターゲット没入型クライアントディスプレイの視錐台を充填する。従って、現在、このような合成表現を、自然コンテンツを表現する候補とすることは非現実的である。なぜならば、リアルタイムの配布を必要とするユースケースを考慮するために、実際にリアルタイムで作成することができない。ただし、現在、コンピュータによって生成された画像の最適な候補表現は、合成モデルを有するシーングラフを使用する。なぜならば、コンピュータによって生成された画像は、３Ｄモデリングプロセス及びツールを使用して作成されるからである。

自然コンテンツ及びコンピュータによって生成されたコンテンツの両方の最適な表現におけるこの二分法は、自然にキャプチャされるコンテンツの最適な摂取フォーマットが、コンピュータによって生成されたコンテンツ、又はリアルタイム配信アプリケーションに不可欠ではない自然コンテンツの最適な摂取フォーマットと異なることを示す。従って、開示されたテーマは、十分にロバストであり、自然に作成されるかコンピュータにより作成されるかに関わらず、視覚没入型メディアに使用される様々な摂取フォーマットをサポートすることを目標とする。

以下は、シーングラフを下記フォーマットとして体現する例示的な技術であり、当該フォーマットは、コンピュータ生成技術で作成される視覚没入型メディア、又は深層学習又は写真測量技術で自然シーンの相応する合成表現を作成する自然キャプチャコンテンツを表現するのに適し、つまり、リアルタイム配信アプリケーションに必須ではない。

１. ＯＴＯＹのＯＲＢＸ（登録商標）

ＯＴＯＹのＯＲＢＸはシーングラフ技術の一種であり、任意のタイプのタイムド又はアンタイムドの視覚メディアをサポートでき、光線追跡可能な視覚フォーマット、レガシーの（フレームに基づく）視覚フォーマット、体積の視覚フォーマット及び他のタイプの合成、又はベクトルに基づく視覚フォーマットを含む。ＯＲＢＸは他のシーングラフと異なる。なぜならば、ＯＲＢＸは、メッシュ、点群及びテクスチャの自由に利用できるフォーマット及び／又はオープンソースフォーマットのためのネイティブサポート（ｎａｔｉｖｅｓｕｐｐｏｒｔ）を提供するからである。ＯＲＢＸは、様々なシーングラフ製造業者技術の間の交換を容易にすることを目的とするシーングラフに設計される。また、ＯＲＢＸは豊かなマテリアルシステム、オープン型シェーダー言語（ｏｐｅｎｓｈａｄｅｒｌａｎｇｕａｇｅ）のサポート、ロバストのカメラシステム、及びＬｕａスクリプトのサポートを提供する。ＯＲＢＸは、没入型デジタルエクスペリエンスアライアンス（ＩｍｍｅｒｓｉｖｅＤｉｇｉｔａｌＥｘｐｅｒｉｅｎｃｅｓＡｌｌｉａｎｃｅ、ＩＤＥＡ）が、ロイヤリティフリー条項での許可に対して発布した没入型技術メディアフォーマットの基礎でもある。メディアのリアルタイム配信のコンテキストにおいて、自然シーンのＯＲＢＸ表現を作成及び配信する機能は、コンピューティングリソースの利用可能性に依存し、カメラによりキャプチャされたデータを複雑に分析し、同じなデータを合成表現に合成する。これまで、リアルタイム配信に十分なコンピューティングの利用可能性は非現実的であるが、それでも不可能ではない。

２. Ｐｉｘａｒ（登録商標）のユニバーサルシーンディスクリプション

Ｐｉｘａｒのユニバーサルシーンディスクリプション（ＵｎｉｖｅｒｓａｌＳｃｅｎｅＤｅｓｃｒｉｐｔｉｏｎ、ＵＳＤ）は、ＶＦＸ及び専門コンテンツ制作コミュニティで人気のある、もう１つの有名で成熟したシーングラフである。ＵＳＤはＮｖｉｄｉａのＯｍｎｉｖｅｒｓｅプラットフォームに統合され、Ｏｍｎｉｖｅｒｓｅプラットフォームは、開発者がＮｖｉｄｉａのＧＰＵを使用して３Ｄモデルの作成及びレンダリングを行うためのツールセットである。ＵＳＤのサブセットは、Ａｐｐｌｅ（登録商標）及びＰｉｘａｒによってＵＳＤＺとして公開された。ＵＳＤＺはＡｐｐｌｅのＡＲＫｉｔによりサポートされる。

３. Ｋｈｒｏｎｏｓ（登録商標）のｇｌＴＦ２.０

ｇｌＴＦ２.０は、Ｋｈｒｏｎｏｓ３ＤＧｒｏｕｐにより作成される「グラフィック言語トランスミッションフォーマット（ＧｒａｐｈｉｃｓＬａｎｇｕａｇｅＴｒａｎｓｍｉｓｓｉｏｎＦｏｒｍａｔ）」仕様の最新バージョンである。当該フォーマットは簡単なシーングラフフォーマットをサポートし、当該簡単なシーングラフフォーマットは一般的に、シーンにおける静的（アンタイムド）オブジェクトをサポートし、「ｐｎｇ」及び「ｊｐｅｇ」画像フォーマットを含む。ｇｌＴＦ２.０は簡単なアニメーションをサポートし、ｇｌＴＦプリミティブを使用して記述された基本的な形状（即ち、幾何学オブジェクト）の移動、回転及びスケールをサポートする。ｇｌＴＦ２.０はタイムドメディアをサポートしないため、ビデオ及びサポートオーディオもサポートしない。

没入型視覚メディアのシーン表現に使用されるこれらの既知の設計は、単なる例として提供され、開示されたテーマは、入力される没入型メディアソースをクライアントエンドポイントデバイスの特定の特性に適するフォーマットに適合化させるプロセスの機能に限定されていない。

また、上記のメディア表現の例のいずれか又はすべては、深層学習技術を現在採用するか、又は採用する可能性があり、ニューラルネットワークモデルを訓練及び作成し、当該ニューラルネットワークモデルは、錐台の特定のサイズに基づいて特定のビューを選択して、特定のディスプレイの視錐台を充填することを可能にするか又は容易にする。特定のディスプレイの視錐台に対して選択されるビューは、シーン表現から明らかに提供される既存のビュー、例えば、ＭＳＩ又はＭＰＩ技術で補間され、又は特定の仮想カメラ位置、フィルタ、或いはレンダリングエンジンの仮想カメラの記述に基づいて、これらのレンダリングエンジンによって直接的にレンダリングされてもよい。

従って、開示されたテーマは、小さいが公知である没入型摂取メディアフォーマットのセットが存在することを考慮すると、十分にロバストであり、当該フォーマットは、リアルタイム又は「オンデマンド」（例えば、非リアルタイム）にメディアを配信するという要求を十分に満たし、前記メディアは自然にキャプチャされ（例えば、１つ又は複数のカメラを使用する）、又はコンピュータ生成技術によって作成される。

先進のネットワーク技術、例えばモバイルネットワーク用の５Ｇ、及び固定ネットワーク用の光ファイバケーブルが配置されるにつれて、ニューラルネットワークモデル又はネットワークによるレンダリングエンジンの使用による、没入型メディア摂取フォーマットからのビューの補間はさらに容易にされる。つまり、これらの先進のネットワーク技術は商用ネットワークの容量及び機能を増やす。なぜならば、これらの先進のネットワークインフラストラクチャーは、ますます多くの視覚情報の輸送及び伝送をサポートできるからである。ネットワークインフラストラクチャー管理技術、例えばマルチアクセスエッジコンピューティング（Ｍｕｌｔｉ－ａｃｃｅｓｓＥｄｇｅＣｏｍｐｕｔｉｎｇ、ＭＥＣ）、ソフトウェア定義ネットワーク（ＳｏｆｔｗａｒｅＤｅｆｉｎｅｄＮｅｔｗｏｒｋｓ、ＳＤＮ）及びネットワーク機能仮想化（ＮｅｔｗｏｒｋＦｕｎｃｔｉｏｎｓＶｉｒｔｕａｌｉｚａｔｉｏｎ、ＮＦＶ）は、商用ネットワークサービスプロバイダが、そのネットワークインフラストラクチャーを柔軟に配置でき、いくつかのネットワークリソースのニーズ面での変化に適応し、例えば、ネットワークスループット、ネットワーク速度、ラウンドトリップ遅延及びコンピューティングリソースのニーズの動的な増加又は減少に応答する。また、このような動的なネットワーク要求に適合化する固有の機能は同様に、ネットワークが没入型メディア摂取フォーマットを、適切な配信フォーマットに適合化させて、様々な没入型メディアアプリケーションをサポートする機能を容易にし、これらの没入型メディアアプリケーションは、異種クライアントエンドポイントに使用される潜在的な異種視覚メディアフォーマットを有する。

没入型メディアアプリケーション自体は、ネットワークリソースに対して異なる要求を有してもよく、前記没入型メディアアプリケーションは、著しく低いネットワーク遅延でゲーム状態中のリアルタイムな更新に応答するゲームアプリケーション、ネットワークのアップリンク部分及びダウンリンク部分の両方に対して対称的なスループット要求を有するテレプレゼンスアプリケーション、及びデータを消費しているクライアントエンドポイントディスプレイのタイプに基づいて、ダウンリンクリソースに対するニーズを増やしたパッシブビューイングアプリケーションを含む。一般的に、消費者向けの任意のアプリケーションは、様々なクライアントエンドポイントによりサポートされてもよく、これらのクライアントエンドポイントは、ストレージ、コンピューティング及び電力供給のための様々なオンボードクライアント機能を備え、且つ、同様に、特定のメディア表現に対する様々な要求を備える。

従って、開示されたテーマは、十分に装備されたネットワーク、即ち、最新のネットワークの一部又はすべての特性を採用するネットワークが、その中に指定された特徴に基づいて、複数のレガシーデバイス、及び没入型メディア機能を有するデバイスを同時にサポートできる。

１.リアルタイムユースケース及び「オンデマンド」ユースケースの両方に適するメディア摂取フォーマットを使用して、メディアを配信する柔軟性を提供する。

２.レガシークライアントエンドポイント及び没入型メディア機能を有するクライアントエンドポイントの両方に対する自然コンテンツ及びコンピュータ生成コンテンツの両方をサポートする柔軟性を提供する。

３.タイムドメディア及びアンタイムドメディアをサポートする。

４.クライアントエンドポイントの特徴及び機能、並びにアプリケーションの要求に基づいて、ソースメディア摂取フォーマットを適切な配信フォーマットに動的に適合化させるプロセスを提供する。

５.配信フォーマットがＩＰベースのネットワークでストリーミングできることを確保する。

６. ネットワークは複数の異種クライアントエンドポイントに同時にサービスを提供でき、前記クライアントエンドポイントはレガシーデバイス、及び没入型メディア機能を有するデバイスを含む。

７. シーン境界に沿ったメディアの編成及び配信に寄与する例示的なメディア表現フレームを提供する。

開示されたテーマによって実現された、改善のエンドツーエンドの実施形態は、以下に記載の図３～図１３の詳しい説明に記載のプロセス及び構成要素で実現される。

図３及び図４はいずれも単一の例示的なエンコンパス配信フォーマットを採用し、当該フォーマットは摂取ソースフォーマットから、特定のクライアントエンドポイントの機能に合わせるように適合化された。上述のように、図３に示されるメディアはタイムドであり、図４に示されるメディアはアンタイムドである。特定のエンコンパスフォーマット（ｅｎｃｏｍｐａｓｓｉｎｇｆｏｒｍａｔ）の構成は十分にロバストであるため、大量のメディア属性に対応でき、各属性はいずれも、各層がメディア表現に寄与する著しい情報量に基づいて階層化を行う。このような階層化プロセスは、プログレッシブＪＰＥＧ及びスケーラブルビデオアーキテクチャ、例えばＩＳＯ／ＩＥＣ１４４９６－１０（ＳｃａｌａｂｌｅＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）で指定されるように、現在の最先端技術では既によく知られている手法であることに留意されたい。

１.エンコンパスメディアフォーマットに基づいてストリーミングを行うメディアは、レガシーの視覚及びオーディオメディアに限定されず、マシンとインタラクションを行って人間の視覚、聴覚、味覚、触覚及び嗅覚を刺激する信号を生成できる任意のタイプのメディア情報を含む。

２. エンコンパスメディアフォーマットに基づいてストリーミングを行うメディアは、タイムドメディア又はアンタイムドメディア、又は両方の混合であってもよい。

３. 基本層及び強化層アーキテクチャを使用してメディアオブジェクトに対する階層化表現を実現することで、さらに、エンコンパスメディアフォーマットのストリーミングを可能にする。１つの例示において、各シーンにおけるメディアオブジェクトに対して多重解像度技術又は多細分化分析技術を使用して、分離した基本層及び強化層を計算する。ＩＳＯ／ＩＥＣ１０９１８－１（ＪＰＥＧ）及びＩＳＯ／ＩＥＣ１５４４４－１（ＪＰＥＧ２０００）で指定されているプログレッシブレンダリングする画像フォーマットに類似するが、ラスターによる視覚フォーマットに限定されない。例示的な実施形態において、幾何学オブジェクトのプログレッシブ表現は、ウェーブレット分析を使用して計算されたオブジェクトの多重解像度表現であり得る。

メディアフォーマットの階層化表現の別の例示において、強化層は異なる属性を基本層に適用し、例えば、基本層によって表される視覚オブジェクトの表面のマテリアル性質を細分化する。別の例示において、属性は基本層オブジェクトの表面のテクスチャを細分化でき、例えば、表面を滑らかなテクスチャから多孔質テクスチャに変更したり、つや消しの表面から光沢のある表面に変更したりできる。

階層化表現の別の例示において、シーンにおける１つ又は複数の視覚オブジェクトの表面は、ランバート（Ｌａｍｂｅｒｔｉａｎ）表面から光線追跡可能な表面に変更してもよい。

階層化表現の別の例示において、ネットワークはクライアントに基本層表現を配信し、クライアントがシーンの公称プレゼンテーション（ｎｏｍｉｎａｌｐｒｅｓｅｎｔａｔｉｏｎ）を作成するとともに、基本表現の解像度又は他の特性を細分化（ｒｅｆｉｎｅ）するように追加の強化層の伝送を待つことができるようにする。

４. 強化層における属性又は細分化情報の解像度は、従来のＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ、ＭＰＥＧ）ビデオ標準及びＪＰＥＧ画像標準のように、基本層におけるオブジェクトの解像度と明示的に結合されていない。

５. エンコンパスメディアフォーマットは、プレゼンテーションデバイス又はマシンでプレゼンテーション又は駆動される任意のタイプの情報メディアをサポートすることで、異種クライアントエンドポイントへの異種メディアフォーマットのサポートを実現する。メディアフォーマットを配信するネットワークの１つの実施形態において、ネットワークはまず、クライアントエンドポイントをクエリしてクライアントの機能を決定し、クライアントがメディア表現を有意義に摂取できないと、ネットワークは、クライアントによりサポートされない属性の層を除去するか、又はメディアを現在フォーマットからクライアントエンドポイントに適するフォーマットに適合化させる。このような適合化の１つの例において、ネットワークは、ネットワークベースのメディアプロセスプロトコルを使用して体積視覚メディアアセットを同じな視覚アセットの２Ｄ表現に変換する。

６. 完全又は部分的に完全な没入型エクスペリエンス（ライブストリーミングイベント、ゲーム又はオンデマンドアセットの再生）に対するマニフェストはシーンにより編成され、当該マニフェストは、レンダリング及びゲームエンジンがプレゼンテーションを作成するために現在摂取できる最小限の情報である。マニフェストは、クライアントがリクエストする没入型エクスペリエンス全体に対してレンダリングされる各シーンのリストを含む。各シーンに関連付けられたのは、シーン幾何学形状のストリーミング可能なバージョンに対応するシーン内の幾何学オブジェクトの１つ又は複数の表現である。シーン表現の１つの実施形態は、当該シーンの幾何学オブジェクトの低解像度バージョンを指す。同一のシーンの別の実施形態は、同じシーンの幾何学オブジェクトに付加的な細部を追加するか、又はテセレーション（ｔｅｓｓｅｌｌａｔｉｏｎ）を増加させるべきシーンの低解像度表現のための強化層を指す。以上のように、各シーンは、１つ以上の強化層を具備することで、シーンの幾何学オブジェクトの詳細をプログレッシブに増加させる。

７.シーン内に引用されるメディアオブジェクトの各層はトークン（例えば、ＵＲＩ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｎｔｉｆｉｅｒ、ＵＲＩ））に関連付けられ、当該トークンは、ネットワーク内のアクセス可能なリソースのアドレスを指す。これらのリソースはＣＤＮのリソースに類似し、コンテンツはクライアントから取得される。

８. 幾何学オブジェクトの表現のためのトークンは、ネットワーク内の位置、又はクライアント内の位置を指す。つまり、クライアントは、そのリソースがネットワークベースのメディア処理のためにネットワークに利用可能であることを通知するように、ネットワークに信号を送信することができる。

図３は、タイムドメディアに使用されるエンコンパスメディアフォーマットの実施形態を示す。タイムドシーンマニフェストは、シーン情報のリスト３０１を含む。シーン３０１はコンポーネント３０２のリストを参照し、コンポーネント３０２はシーン３０１を含むメディアアセットのプロセス情報及びタイプをそれぞれ記述する。コンポーネント３０２はアセット３０３に関し、アセット３０３はさらに基本層３０４及び属性強化層３０５に関する。

図４は、アンタイムドメディアに使用されるエンコンパスメディアフォーマットの実施形態を示す。シーン情報４０１は、クロックによる開始及び終了持続時間に関連付けられていない。シーン情報４０１はコンポーネント４０２のリストに関し、コンポーネント４０２は、シーン４０１を含むメディアアセットのプロセス情報及びタイプをそれぞれ記述する。コンポーネント４０２はアセット４０３（例えば、視覚、オーディオ及び触覚アセット）に関し、アセット４０３はさらに基本層４０４及び属性強化層４０５に関する。また、シーン４０１は、アンタイムドメディアに使用される他のシーン４０１に関する。シーン４０１はさらにタイムドメディアシーンに関する。

図５は、自然コンテンツから摂取フォーマットを合成するプロセス５００の実施形態を示す。カメラユニット５０１は単一のカメラレンズを使用して人間のシーンをキャプチャする。カメラユニット５０２は環状のオブジェクトの周りに５つのカメラレンズを搭載することで、５つの発散する視野を有するシーンをキャプチャする。５０２における配置は、一般的に、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ、ＶＲ）アプリケーションに対して、全方向コンテンツをキャプチャする例示的な配置である。カメラユニット５０３は球の内径部分に７つのカメラレンズを搭載することで、７つの収束する視野を有するシーンをキャプチャする。配置５０３は一般的に、ライトフィールドディスプレイ又はホログラフィック没入型ディスプレイに対して、ライトフィールド（ｌｉｇｈｔｆｉｅｌｄ）をキャプチャする例示的な配置である。自然画像データ５０９は入力として、合成モジュール５０４に提供され、合成モジュール５０４は、オプションで、ニューラルネットワーク訓練モジュール５０５を採用して、訓練画像５０６のセットを使用して、選択可能なキャプチャニューラルネットワークモデル５０８を生成する。ニューラルネットワーク訓練モジュール５０５のプロセスの代わりとして一般的に使用される別のプロセスは、写真測量である。モデル５０８は、図５に示されるプロセス５００の間に作成されると、モデル５０８は、自然コンテンツに使用される摂取フォーマット５０７のアセットのうちの１つになる。摂取フォーマット５０７の例示的な実施形態はＭＰＩ及びＭＳＩを含む。

図６は、合成メディア、例えばコンピュータによって生成された画像に対して、摂取フォーマットを作成するプロセス６００の実施形態を示す。ライダーカメラ６０１はシーンの点群６０２をキャプチャする。コンピュータ６０３上でＣＧＩ（Ｃｏｍｐｕｔｅｒ－ＧｅｎｅｒａｔｅｄＩｍａｇｅｒｙ、ＣＧＩ）ツール、３Ｄモデリングツール又は他のアニメーションプロセスを採用して合成コンテンツを作成することで、ネットワークを介して６０４ＣＧＩアセットを作成する。センサーを有するモーションキャプチャスーツ６０５Ａは役者６０５に装着され、役者６０５のモーションのデジタル記録をキャプチャし、アニメーションのモーションキャプチャ（ＭｏｔｉｏｎＣａｐｔｕｒｅ、ＭｏＣａｐ）データ６０６を生成する。データ６０２、６０４及び６０６は入力として、合成モジュール６０７に提供され、合成モジュール６０７は同様にオプションで、ニューラルネットワーク及び訓練データを使用してニューラルネットワークモデルを作成できる。

上記の異種没入型メディアを表現及びストリーミングするための技術は、コンピュータ可読命令を使用して、１つ以上のコンピュータ可読媒体に物理的に記憶されるコンピュータソフトウェアとして実現され得る。例えば、図７は、開示された主題の特定の実施形態を実現するのに適したコンピュータシステム７００を示す。

コンピュータソフトウェアは、いずれかの適切な機械コード又はコンピュータ言語を使用してコーディングされてもよく、当該機械コード又はコンピュータ言語は、命令を含むコードを生成するために、アセンブリ、コンパイル、リンクなどのメカニズムを受けてもよく、当該命令は、コンピュータ中央処理装置（ＣＰＵ, ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、グラフィクス処理ユニット（ＧＰＵ, ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等によって、直接的に或いはインタープリタ、マイクロコード実行等を通じて実行されてもよい。

上記の命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットのデバイス等を含む様々なタイプのコンピュータ又はその構成要素上で実行されてもよい。

図７により示されるコンピュータシステム７００に使用される構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能に関する如何なる限定も示唆することを意図するものではない。また、構成要素の構成も、コンピュータシステム７００の例示的な実施形態に示される構成要素のいずれか１つ又は組み合わせに関する如何なる依存性又は要件も有するものとして解釈されるべきではない。

コンピュータシステム７００は、特定のヒューマンインタフェース入力デバイスを含んでもよい。このようなヒューマンインタフェース入力デバイスは、例えば、触覚入力（例えば、キーストローク、スワイプ、データグローブの動き等）、オーディオ入力（例えば、音声、拍手等）、視覚入力（ジェスチャ等）、嗅覚入力（図示せず）を通じて、１人以上の人間のユーザーによる入力に応答してもよい。また、ヒューマンインタフェースデバイスは、オーディオ（例えば、音声、音楽、周辺音）、画像（例えば、スキャン画像、静止画カメラから取得された写真画像等）、ビデオ（例えば、２次元ビデオ、立体ピクチャを含む３次元ビデオ等）のような、人間による意識的入力に必ずしも直接関連しない特定のメディアをキャプチャするために使用されてもよい。

入力ヒューマンインタフェースデバイスは、キーボード７０１、マウス７０２、トラックパッド７０３、タッチスクリーン７１０、データグローブ（図示せず）、ジョイスティック７０５、マイクロフォン７０６、スキャナ７０７及びカメラ７０８のうちの１つ又は複数（それぞれの１つだけが図示されている）を含み得る。

コンピュータシステム７００は、特定のヒューマンインタフェース出力デバイスを含んでもよい。このようなヒューマンインタフェース出力デバイスは、例えば、触覚出力、音、光及び嗅覚／味覚を通じて、１人以上の人間のユーザーの感覚を刺激してもよい。このようなヒューマンインタフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン７１０、データグローブ（図示せず）又はジョイスティック７０５による触覚フィードバック、ただし、入力デバイスとして機能しない触覚フィードバックデバイスが存在してもよい）、オーディオ出力デバイス（例えば、スピーカ７０９、ヘッドフォン（図示せず）等）、視覚出力デバイス（ＣＲＴスクリーン、ＬＤＣスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン７１０など、それぞれがタッチスクリーン入力機能を有しても有さなくてもよく、それぞれが触覚フィードバック機能を有しても有さなくてもよく、いくつかがステレオグラフィック出力のように２次元視覚出力又は３次元以上の出力を出力可能であり、仮想現実メガネ（図示せず）、ホログラフィックディスプレイ及びスモークタンク（図示せず）、プリンタ（図示せず）を含んでもよい。

コンピュータシステム７００は、人間がアクセス可能な記憶デバイス、及び関連する媒体をさらに含み、例えば、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ、ＣＤ）／ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ、ＤＶＤ）などの媒体７２１を有するＣＤ／ＤＶＤＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）／ＲＷ７２０の光媒体、サムドライブ７２２、リムーバブルハードドライブ又はソリッドステートドライブ７２３、レガシーの磁気媒体（例えば、磁気テープ及びフレキシブルディスク（図示せず））、専用ＲＯＭ／ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）／ＰＬＤ（ＰｒｏｇｒａｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ、ＰＬＤ）によるデバイス（例えば、セキュリティドングル（図示せず））などを含む。

また、当業者は、ここに開示されたテーマに関連して使用される用語「コンピュータ可読媒体」が伝送媒体、搬送波又は他の非一時的な信号を含まないことを理解すべきである。

コンピュータシステム７００は、１つ又は複数の通信ネットワークへのインタフェースをさらに含んでもよい。ネットワークは、例えば、無線、有線、光学であってもよい。ネットワークはローカル、広域、メトロポリタン、車両及び産業、リアルタイム、遅延耐性などであってもよい。ネットワークの例は、ローカルネットワーク、例えばイーサネット（登録商標）、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ＬＡＮ）、セルラーネットワーク（ＧＳＭ（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎ）（登録商標）、３Ｇ（ＴｈｉｒｄＧｅｎｅｒａｔｉｏｎ、３Ｇ）、４Ｇ（ＦｏｕｒｔｈＧｅｎｅｒａｔｉｏｎ、４Ｇ）、５Ｇ（ＦｉｆｔｈＧｅｎｅｒａｔｉｏｎ、５Ｇ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ、ＬＴＥ）などを含む）、ＴＶ有線又は無線広域デジタルネットワーク（ケーブルＴＶ、衛星ＴＶ及び地上放送ＴＶを含む）、車両及び産業（ＣＡＮＢｕｓを含む）などを含む。いくつかのネットワークは一般的に、特定の汎用データポート又は周辺バス（７４９）に取り付けられる外部ネットワークインタフェースアダプタ（例えば、コンピュータシステム７００のＵＳＢポート）を必要とし、他のネットワークは、一般的に、以下に説明するシステムバス（例えば、ＰＣコンピュータシステムへのイーサネットインタフェース又はスマートフォンコンピュータシステムへのセルラネットワークインタフェース）に取り付けられることによって、コンピュータシステム７００のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム７００は、他のエンティティと通信することができる。このような通信は、一方向の受信のみ（例えば、放送ＴＶ）、一方向の送信のみ（例えば、特定のＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、或いは双方向（例えば、ローカル又は広域デジタルネットワークを使用する他のコンピュータシステムへ）であってもよい。特定のプロトコル及びプロトコルスタックは、上記のようなネットワーク及びネットワークインタフェースのそれぞれにおいて使用されてもよい。

上記のヒューマンインタフェースデバイス、人間がアクセス可能な記憶デバイス及びネットワークインタフェースは、コンピュータシステム７００のコア７４０に取り付けられてもよい。

コア７４０は、１つ以上の中央処理装置（ＣＰＵ）７４１、グラフィクス処理ユニット（ＧＰＵ）７４２、フィールドプログラマブルゲートアレイ（ＦＰＧＡ, ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｅａ）７４３の形式の特殊なプログラム可能処理ユニット、特定のタスク用のハードウェアアクセラレータ７４４等を含んでもよい。これらのデバイスは、読み取り専用メモリ（ＲＯＭ）７４５、ランダムアクセスメモリ７４６、内部大容量記憶装置７４７（例えば、内部のユーザーアクセス不可能なハードドライブ、ＳＳＤ等）とともに、システムバス７４８を通じて接続されてもよい。いくつかのコンピュータシステムでは、システムバス７４８は、更なるＣＰＵ、ＧＰＵ等による拡張を可能にするために、１つ以上の物理プラグの形式でアクセス可能でもよい。周辺デバイスは、コアのシステムバス７４８に直接取り付けられてもよく、或いは、周辺バス７４９を通じて取り付けられてもよい。周辺バスのアーキテクチャは、ＰＣＩ、ＵＳＢ等を含む。

ＣＰＵ７４１、ＧＰＵ７４２、ＦＰＧＡ７４３及びアクセラレータ７４４は特定の命令を実行してもよく、当該特定の命令は、組み合わせによって上記のコンピュータコードを構成してもよい。当該コンピュータコードは、ＲＯＭ７４５又はＲＡＭ７４６に記憶されてもよい。また、一時的なデータは、ＲＡＭ７４６に記憶されてもよいが、永続的なデータは、例えば、内部大容量記憶装置７４７に記憶されてもよい。１つ以上のＣＰＵ７４１、ＧＰＵ７４２、大容量記憶装置７４７、ＲＯＭ７４５、ＲＡＭ７４６等と密接に関連し得るキャッシュメモリを使用することによって、メモリデバイスのいずれかへの高速記憶及び検索が可能になってもよい。

コンピュータ可読媒体は、様々なコンピュータが実現可能な操作を実行するためのコンピュータコードを有する。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築される媒体及びコンピュータコードであってもよく、又は媒体及びコンピュータコードは、コンピュータソフトウェア分野の当業者にとって公知且つ利用可能なタイプであってもよい。

限定ではなく例示として、アーキテクチャを有するコンピュータシステム７００、特にコア７４０は、プロセッサー（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が１つ又は複数の有形コンピュータ可読媒体に具現されたソフトウェアを実行することで、機能を提供する。このようなコンピュータ可読媒体は、以下の項目に関連付けられた媒体であってもよく、即ち、上記で紹介したユーザーがアクセス可能な大容量記憶デバイス、及びコア７４０の非一時的な性質を有するいくつかの記憶デバイス、例えばコア内部大容量記憶デバイス７４７又はＲＯＭ７４５である。本開示を実現する様々な実施形態のソフトウェアは、このようなデバイスに記憶され、コア７４０により実行される。特定の必要性に基づいて、コンピュータ可読媒体は、１つ又は複数のメモリデバイス又はチップを含み得る。ソフトウェアは、コア７４０、特にその中のプロセッサー（ＣＰＵ、ＧＰＵ、ＦＰＧＡ等を含む）に、本明細書で説明された、ＲＡＭ７４６に記憶されるデータ構造を限定し、及びソフトウェアにより限定されるプロセスに基づいてこのようなデータ構造を修正するステップを含む、特定のプロセス又は特定のプロセスの特定の部分を実行させる。さらに或いは代替として、コンピュータシステムは、回路（例えば、アクセラレータ７４４）に配線されたロジック又は他の方法で具現されたロジックの結果として、機能を提供してもよく、当該回路は、本明細書に記載の特定の処理又は特定の処理の特定の部分を実行するために、ソフトウェアの代わりに或いはソフトウェアとともに動作してもよい。ソフトウェアへの参照は、ロジックを含み、必要に応じて、その逆も可能である。コンピュータ可読媒体への参照は、必要に応じて、実行用のソフトウェアを記憶する回路（例えば、集積回路ＩＣ）、実行用のロジックを具現する回路又はこれらの双方を含んでもよい。本開示は、ハードウェア及びソフトウェアのいずれかの適切な組み合わせを含む。

図８は、クライアントエンドポイントである様々なレガシーのディスプレイ及び没入型メディア機能を有する異種のディスプレイをサポートする例示的なネットワークメディア配信システム８００を示す。コンテンツ取得モジュール８０１は、図６又は図５の例示的な実施形態を用いて、メディアをキャプチャ又は作成する。摂取フォーマットはコンテンツ準備モジュール８０２で作成され、伝送モジュール８０３によってネットワークメディア配信システムにおける１つ又は複数のクライアントエンドポイント８０４に伝送される。ゲートウェイは、ネットワークの様々なクライアントエンドポイントへのネットワークアクセスを提供するために、カスタマ構内設備（ｃｕｓｔｏｍｅｒｐｒｅｍｉｓｅｅｑｕｉｐｍｅｎｔ）にサービスを提供する。セットトップボックスはカスタマ構内設備として機能することもでき、これによって、ネットワークサービスプロバイダより集約コンテンツへのアクセスを提供する。無線復調器はモバイルデバイスのモバイルネットワークアクセスポイントとして機能することができる（例えば、携帯電話及びディスプレイと同様）。１つ又は複数の実施形態において、レガシーの２Ｄテレビはゲートウェイ、無線復調器又はＷｉＦｉルータに直接接続される。レガシーの２Ｄディスプレイを有するノートパソコンは、ＷｉＦｉルータに接続されるクライアントエンドポイントであってもよい。ヘッドマウント２Ｄ（ラスターによる）ディスプレイもルータに接続されてもよい。レンチキュラー（Ｌｅｎｔｉｃｕｌａｒ）ライトフィールドディスプレイはゲートウェイであってもよい。ディスプレイはローカルコンピューティングＧＰＵ、記憶デバイス、及び射線による（ｒａｙ－ｂａｓｅｄ）レンチキュラー光学技術を使用して複数のビューを作成する視覚プレゼンテーションユニットを含み得る。ホログラフィックディスプレイはセットトップボックスに接続されるとともに、ローカルコンピューティングＣＰＵ、ＧＰＵ、記憶デバイス及びフレネル（Ｆｒｅｓｎａｌ）パターン、ウェーブベースのホログラフィック可視化ユニットを含む。拡張現実ヘッドセットは無線復調器に接続され、ＧＰＵ、記憶デバイス、バッテリ及び体積視覚プレゼンテーションコンポーネントを含んでもよい。密集（ｄｅｎｓｅ）ライトフィールドディスプレイはＷｉＦｉルータに接続され、複数のＧＰＵ、ＣＰＵ及び記憶デバイス、眼追跡デバイス、カメラ、及び密集射線によるライトフィールドパネルを含んでもよい。

図９は、図８に示されたレガシーのディスプレイ、及び没入型メディア機能を有する異種のディスプレイにサービスを提供する没入型メディア配信モジュール９００の実施形態を示す。モジュール９０１においてコンテンツを作成又は取得し、モジュール９０１は、それぞれ自然コンテンツ及びＣＧＩコンテンツに対する図５及び図６において、さらに体現される。ネットワーク摂取フォーマット作成モジュール９０２を使用してコンテンツ９０１を摂取フォーマットに変換する。モジュール９０２は同様に、それぞれ自然コンテンツ及びＣＧＩコンテンツに対する図５及び図６においてさらに体現される。摂取メディアフォーマットをネットワークに伝送し、記憶デバイス９０３に記憶する。オプションで、記憶デバイスは、没入型メディアコンテンツプロデューサのネットワークに常駐し、９０３を等分する点線で示されるように、没入型メディアネットワーク配信モジュール（番号付けず）によってリモートでアクセスされる。オプションで、クライアント及びアプリケーション固有の情報はリモート記憶デバイス９０４で利用可能であり、オプションで、当該リモート記憶デバイス９０４は代替の「クラウド」ネットワークにリモートで存在してもよい。

図９に示すように、クライアントインタフェースモジュール９０５は情報の主なソース、及びシンク（ｓｉｎｋ）として機能し、配信ネットワークの主なタスクを実行する。当該特定の実施形態において、モジュール９０５はネットワークの他のコンポーネントとともに、統合されたフォーマットで実現される。ただし、図９のモジュール９０５によって示されるタスクは開示されたテーマの必要な要素を形成する。

モジュール９０５は、クライアント９０８の特徴及び属性に関する情報を受信し、さらに、９０８で現在実行されているアプリケーションに関するリクエストを収集する。当該情報はデバイス９０４から取得され得、又は代替の実施形態において、当該情報はクライアント９０８を直接的にクエリすることで取得され得る。クライアント９０８への直接クエリの場合、双方向プロトコル（図９において図示せず）が存在し、当該双方向プロトコルは操作可能であると仮定し、クライアントはインタフェースモジュール９０５と直接通信できるようにする。

インタフェースモジュール９０５はさらに、図９に記載されているメディア適合化及び断片化モジュール９１０を開始し、通信する。摂取メディアがモジュール９１０によって適合化及び断片化される場合、オプションで、メディアは、デバイス９０９の配信記憶のために準備されたメディアとして示される中間メディア記憶デバイスに伝送される。配信メディアが準備され、デバイス９０９に記憶された場合、インタフェースモジュール９０５は没入型クライアント９０８がそのネットワークインタフェース９０８Ｂ、又は「プッシュ」を介して、配信メディア及び相応する記述情報９０６を受信するか、又はクライアント９０８自体は記憶デバイス９０９からメディア９０６に対する「プル」リクエストを開始できることを確実にする。オプションで、没入型クライアント９０８はＧＰＵ（又は図示されていないＣＰＵ）９０８Ｃを採用してもよい。メディアの配信フォーマットはクライアント９０８の記憶デバイス又は記憶キャッシュ９０８Ｄに記憶される。最後、クライアント９０８はその可視化コンポーネント９０８Ａを介してメディアを可視的にプレゼンテーションする。

没入型メディアをクライアント９０８にストリーミングするプロセス全体において、インタフェースモジュール９０５はクライアント進行状況及び状態フィードバックチャンネル９０７を介して、クライアントの進行状況の状態を監視する。

図１０はメディア適合化プロセスの特定の実施形態を示し、摂取されたソースメディアは、クライアント９０８のリクエストに合うように適切に適合化される。メディア適合化モジュール１００１は複数のコンポーネントを含み、当該コンポーネントは、摂取メディアを、クライアント９０８に対する適切な配信フォーマットに適合化することに寄与する。これらのコンポーネントは例示と見なされるべきである。図１０において、適合化モジュール１００１は入力ネットワーク状態１００５を受信し、ネットワークでの現在のトラフィック負荷を追跡し、クライアント９０８の情報は属性、特徴の説明、アプリケーションの特徴、説明、アプリケーションの現在状態、クライアントニューラルネットワークモデル（利用可能であれば）を含み、クライアントの錐台の幾何学形状を、没入型摂取メディアの補間機能にマッピングするのに役立つ。適合化モジュール１００１は、適合化された出力が、作成の際、クライアントに適合化されるメディア記憶デバイス１００６に記憶されることを確実にする。

適合化モジュール１００１はレンダラー１００１Ｂ又はプロセッサー１００１Ｃを使用して、特定の摂取ソースメディアを、クライアントに適するフォーマットに適合化させる。プロセッサー１００１Ｃは１００１Ａのニューラルネットワークモデルを使用する。このようなプロセッサー１００１Ｃの例は、ＭＰＩ及びＭＳＩで説明されたＤｅｅｐｖｉｅｗニューラルネットワークモデルジェネレータを含む。適切なレンダラー１００１Ｂの例はＯＴＯＹＯｃｔａｎｅレンダラーの修正バージョンであってもよく、当該レンダラーは、直接的に適合化モジュール１００１とインタラクションを行うように修正される。オプションで、適合化モジュール１００１は圧縮エンコーダ１００１Ｄ及び圧縮デコーダ１００１Ｅを採用し、摂取メディアのフォーマット及びクライアント９０８の必要なフォーマットに関して、これらのツールの必要性に依存する。

図１１は、図１０のクライアントに適合化されるメディア記憶デバイス１１０２に常駐している、メディア適合化モジュール１１０１からの適合化メディアを最終的に変換するパッケージングモジュール１１０３を示す。パッケージングモジュール１１０３はモジュール１１０１からの適合化メディアを、ロバストの配信フォーマットに、例えば、図３又は図４に示される例示のフォーマットにフォーマットする。マニフェスト情報１１０４Ａはクライアント９０８に、受信が期待できるシーンデータのリストを提供し、さらに、視覚アセット及び相応するメタデータ、並びにオーディオアセット及び相応するメタデータのリストを提供する。

図１２は、パケタイザ（Ｐａｃｋｅｔｉｚｅｒ）モジュール１２０２を示し、パケタイザモジュール１２０２は、適合化メディア１２０１を、クライアント９０８へのストリーミングに適する個々のパケット１２０３に「断片化」する。

図１３に示されるシーケンス図１３００のコンポーネント及び通信は以下のように説明される、即ち、クライアントエンドポイント１３０１はネットワーク配信インタフェース１３０２に対してメディアリクエスト１３０８を開始する。リクエスト１３０８は、ＵＲＮ（ＵｎｉｑｕｅＲｅｓｏｕｒｃｅＮａｍｅ、ＵＲＮ）又は他の標準命名法で、クライアントによってリクエストされるメディアを認識する情報を含む。ネットワーク配信インタフェース１３０２はプロファイルリクエスト１３０９を使用してリクエスト１３０８に応答し、プロファイルリクエスト１３０９は、現在利用可能なリソースに関する情報（コンピューティング、記憶、バッテリ充電率、及びクライアントの現在操作状態を表すための他の情報を含む）を提供するように、クライアント１３０１にリクエストする。プロファイルリクエスト１３０９はさらに、１つ又は複数のニューラルネットワークモデルを提供するように、クライアントにリクエストし、ネットワークは前記ニューラルネットワークモデルを使用してニューラルネットワーク推論を行うことで、正確なメディアビューを摂取又は補間し、クライアントプレゼンテーションシステムの特徴に合わせる（このようなモデルがクライアントで利用可能であれば）。クライアント１３０１からインタフェース１３０２への応答１３１１はクライアントトークン、アプリケーショントークン及び１つ又は複数のニューラルネットワークモデルトークン（このようなニューラルネットワークモデルトークンがクライアントで利用可能であれば）を提供する。そして、インタフェース１３０２はクライアント１３０１にセッションＩＤトークン１３１１を提供する。インタフェース１３０２は摂取メディアリクエスト１３１２で摂取メディアサーバ１３０３にリクエストし、摂取メディアリクエスト１３１２は、リクエスト１３０８で認識されたメディアのＵＲＮ又は標準命名法名称を含む。サーバ１３０３は摂取メディアトークンを含む応答１３１３をリクエスト１３１２に返信する。インタフェース１３０２は呼び出し１３１４で応答１３１３からのメディアトークンをクライアント１３０１に提供する。インタフェース１３０２は適合化インタフェース１３０４に摂取メディアトークン、クライアントトークン、アプリケーショントークン及びニューラルネットワークモデルトークンを提供することで、１３０８でリクエストされるメディアの適合化プロセスを開始する。インタフェース１３０４は呼び出し１３１６でサーバ１３０３に摂取メディアトークンを提供することで、摂取メディアアセットへのアクセスをリクエストし、これによって、摂取メディアへのアクセスをリクエストする。サーバ１３０３は、インタフェース１３０４に対する応答１３１７において、摂取メディアアクセストークンで呼び出し１３１６に応答する。インタフェース１３０４は、摂取メディアアクセストークンにある摂取メディア適合化を、１３１３で作成されたセッションＩＤトークンに対応するクライアント、アプリケーション及びニューラルネットワーク推論モデルに適用させるように、メディア適合化モジュール１３０５にリクエストする。インタフェース１３０４からモジュール１３０５へのリクエスト１３１８は、必要なトークン及びセッションＩＤを含む。モジュール１３０５は更新１３１９において、インタフェース１３０２に、適合化されたメディアアクセストークン及びセッションＩＤを提供する。インタフェース１３０２はインタフェース呼び出し１３２０において、パッケージングモジュール１３０６に、適合化されたメディアアクセストークン及びセッションＩＤを提供する。パッケージングモジュール１３０６は応答１３２１において、パッケージングメディアアクセストークン及びセッションＩＤで、インタフェース１３０２に応答１３２１を提供する。モジュール１３０６は応答１３２２において、パッケージングメディアサーバ１３０７に、セッションＩＤ用のパッケージングメディアアクセストークン、ＵＲＮ及びパッケージングアセットを提供する。クライアント１３０１は、応答１３２１で受信されたパッケージングメディアアクセストークンに対応するメディアアセットのストリーミングを開始するために、リクエスト１３２３を実行する。クライアント１３０１は他のリクエストを実行し、メッセージ１３２４においてインタフェース１３０２に状態更新を提供する。

いくつかの実施形態は、任意の可能な技術詳細レベルの統合のシステム、方法及び／又はコンピュータ可読媒体に関し得る。コンピュータ可読媒体は、プロセッサーに動作を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読非一時的記憶媒体（又は複数の媒体）を含む。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用される命令を保持及び記憶できる有形のデバイスでもよい。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス又はこれらのいずれかの適切な組み合わせでもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、パンチカードのような機械的に符号化されたデバイス、又は記録された命令を有する溝にある隆起構造、及びこれらのいずれか適切な組み合わせを含む。本明細書で使用されるコンピュータ可読記憶媒体は、電波又は他の自由伝搬電磁波、導波管又は他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを通じて伝送される電気信号のような、それ自体で一時的な信号であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング／処理デバイスにダウンロードされてもよく、或いは、ネットワーク（例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク及び／又は無線ネットワーク）を介して外部コンピュータ又は外部記憶デバイスにダウンロードされてもよい。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを含んでもよい。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、各コンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。

動作を実行するためのコンピュータ可読プログラムコード／命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ, ｉｎｓｔｒｕｃｔｉｏｎ－ｓｅｔ－ａｒｃｈｉｔｅｃｔｕｒｅ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路システム用の構成データ、又はＳｍａｌｌｔａｌｋ、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語のような手続き型プログラミング言語を含む、１つ以上のプログラミング言語のうちいずれかの組み合わせで記述されたソースコード又はオブジェクトコードでもよい。コンピュータ可読プログラム命令は、ユーザーのコンピュータ上で完全に、スタンドアローンソフトウェアパッケージとしてユーザーのコンピュータ上で部分的に、ユーザーのコンピュータ上で部分的に且つリモートコンピュータ上で部分的に、或いはリモートコンピュータ又はサーバ上で完全に実行されてもよい。リモートコンピュータ又はサーバ上で完全に実行される場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含むいずれかのタイプのネットワークを通じてユーザーのコンピュータに接続されてもよく、或いは、外部コンピュータに接続されてもよい（例えば、インターネットサービスプロバイダのインターネットの使用による）。いくつかの実施形態では、例えば、プログラム可能論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又はプログラマブルロジックアレイ（ＰＬＡ, ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙ）を含む電子回路システムは、コンピュータ可読プログラム命令の状態情報を利用してコンピュータ可読プログラム命令を実行し電子回路をパーソナライズすることで、各態様又は動作を実行してもよい。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラム可能データ処理装置のプロセッサーに提供され、コンピュータのプロセッサー又は他のプログラム可能データ処理装置を介して実行される命令が、フローチャート及び／又はブロック図のブロックに指定された機能／動作を実装するための手段を生成するように、機械を生成してもよい。また、これらのコンピュータ可読プログラム命令は、コンピュータ、プログラム可能データ処理装置及び／又は他のデバイスに対して特定の方式で機能するように命令できるコンピュータ可読記憶媒体に記憶されてもよく、それにより、記憶された命令を有するコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図に指定された機能／動作の態様を実施する命令を含む製造物を含む。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能データ処理装置又は他のデバイスにロードされ、コンピュータ、他のプログラム可能装置又は他のデバイスに一連の動作ステップを実行させ、コンピュータ実装プロセスを生成させてもよく、それにより、コンピュータ、他のプログラム可能装置又は他のデバイスで実行される命令が、フローチャート及び／又はブロック図のブロックに指定された機能／動作を実施する。

図面におけるフローチャート及びブロック図は、様々な実施形態によるシステム、方法及びコンピュータ可読媒体の可能な実装のアーキテクチャ、機能及び動作を示す。この点に関し、フローチャート又はブロック図の各ブロックは、特定の論理機能を実装するための１つ以上の実行可能命令を含む、モジュール、セグメント又は命令の一部を表してもよい。方法、コンピュータシステム及びコンピュータ可読媒体は、図面に示すものよりも多くのブロック、少ないブロック、異なるブロック又は異なる配置のブロックを含んでもよい。いくつかの別の実装では、ブロックに記載の機能は、図面に記載の順序から外れてもよい。例えば、連続して示される２つのブロックは、実際には、同時又は実質的に同時に実行されてもよく、或いは、関する機能に応じて、ブロックが場合によっては逆の順序で実行されてもよい。また、ブロック図及び／又はフローチャートの各ブロック、及びブロック図及び／又はフローチャートのブロックの組み合わせは、特定の機能又は動作を実行する専用のハードウェアベースのシステム、又は専用のハードウェアとコンピュータ命令との組み合わせによって実装されてもよい点に留意されたい。

本明細書に記載のシステム及び／又は方法は、異なる形式のハードウェア、ファームウェア、又はハードウェアとソフトウェアとの組み合わせで実装されてもよいことが明らかである。これらのシステム及び／又は方法を実装するために使用される実際の専用制御ハードウェア又はソフトウェアコードは、実装を限定するものではない。従って、システム及び／又は方法の動作及び挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェア及びハードウェアは、本明細書の記載に基づいてシステム及び／又は方法を実施するように設計されてもよいことが理解される。

本明細書で使用される如何なる要素、動作又は命令も、明示的に記載されない限り、重要又は必須であると解釈されるべきではない。また、本明細書で使用される単数形は、１つ以上の項目を含むことを意図しており、「１つ以上」と互換的に使用されてもよい。さらに、本明細書で使用される「セット」という用語は、１つ以上の項目（例えば、関連項目、非関連項目、関連項目と非関連項目との組み合わせ等）を含むことを意図しており、「１つ以上」と互換的に使用されてもよい。１つの項目のみが意図される場合、「１つ」という用語又は同様の言語が使用される。また、本明細書で使用される「持つ」「ある」、「有する」という用語等は、オープンエンドの用語であることを意図する。さらに、「基づく」という用語は、特に明記しない限り、「少なくとも部分的に基づく」を意味することを意図する。

様々な態様及び実施形態の説明が例示の目的で提示されているが、網羅的であること又は開示された実施形態に限定されることを意図するものではない。特徴の組み合わせが特許請求の範囲に記載されている及び／又は明細書に開示されているとしても、これらの組み合わせは、可能な実装の開示を限定することを意図するものではない。実際に、これらの特徴の多くは、特許請求の範囲に具体的に記載されていない方法及び／又は明細書に開示されていない方法で組み合わされてもよい。以下に記載の各従属項は、１つの請求項のみに直接従属することがあるが、可能な実装の開示は、請求項のセットの中の他のすべての請求項と組み合わせた各従属項を含む。多くの変更及び変形は、説明した実施形態の範囲から逸脱することなく当業者には明らかになる。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実際の適用又は技術的な改良を最もよく説明するために、或いは、当業者が本明細書に開示される実施形態を理解することを可能にするために選択されている。

Claims

プロセッサーによって実行可能な没入型メディアのストリーミングを開始する方法であって、
１つ又は複数のトークンの伝送に基づいて、メディアコンテンツに関連付けられるクライアントの特性に対応する情報を受信するステップと、
前記１つ又は複数のトークンを使用して、パッケージングプロセスを前記メディアコンテンツに関連付けるステップであって、前記１つ又は複数のトークンは、前記クライアント、アプリケーション又はニューラルネットワークモデルに関連付けられる、ステップと、
関連付けられたパッケージングプロセスに基づいて、前記１つ又は複数のトークンのうちのトークンに応じて、前記メディアコンテンツを適合化するステップと、
を含み、前記クライアントの前記特性に対応する前記情報は、前記クライアントが前記プロセッサーに関連付けられるメディア適合化プロセスと直接又は間接的にネゴシエートすることに基づいて受信され、当該方法は、
前記メディア適合化プロセスに関連付けられるニューラルネットワークモデルを作成及び訓練するステップ
をさらに含む、方法。
前記１つ又は複数のトークンは、クライアントトークン、アプリケーショントークン、及びニューラルネットワークトークンのうちの少なくとも１つを含み、前記クライアントトークンは、前記クライアントの特性に関する情報を含み、前記ニューラルネットワークトークンは、適合化プロセスを容易にする前記ニューラルネットワークモデルに関する情報を含み、前記アプリケーショントークンは、前記クライアントで動作する前記アプリケーションの特性に関する情報を含む、
請求項１に記載の方法。
前記クライアントが前記パッケージングプロセスを通じてパッケージングメディアサーバからのメディアストリーミングを開始することに基づいて、前記メディアコンテンツを適合化する、
請求項１に記載の方法。
前記メディアコンテンツを前記クライアントにストリーミングするステップをさらに含む、
請求項１に記載の方法。
前記メディアコンテンツは没入型メディアを含む、
請求項１に記載の方法。
没入型メディアをストリーミングするためのコンピュータシステムであって、
コンピュータプログラムコードを記憶するように構成される１つ又は複数のコンピュータ可読非一時的記憶媒体と、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって指示されるように動作するように構成される１つ又は複数のコンピュータプロセッサーと、
を含み、前記コンピュータプログラムコードは、
前記１つ又は複数のコンピュータプロセッサーに、１つ又は複数のトークンの伝送に基づいて、メディアコンテンツに関連付けられるクライアントの特性に対応する情報を受信させるように構成される受信コードと、
前記１つ又は複数のコンピュータプロセッサーに、前記１つ又は複数のトークンを使用して、パッケージングプロセスを、前記メディアコンテンツに関連付けさせるように構成される関連付けコードであって、前記１つ又は複数のトークンは、前記クライアント、アプリケーション又はニューラルネットワークモデルに関連付けられる、関連付けコードと、
前記１つ又は複数のコンピュータプロセッサーに、関連付けられたパッケージングプロセスに基づいて、前記１つ又は複数のトークンのうちのトークンに応じて、前記メディアコンテンツを適合化させるように構成される適合化コードと、
を含み、前記クライアントの前記特性に対応する前記情報は、前記クライアントが前記１つ又は複数のコンピュータプロセッサーに関連付けられるメディア適合化プロセスと直接又は間接的にネゴシエートすることに基づいて受信され、
前記１つ又は複数のコンピュータプロセッサーに、前記メディア適合化プロセスに関連付けられたニューラルネットワークモデルを作成及び訓練させるように構成される、相応する作成及び訓練コード
をさらに含む、コンピュータシステム。
前記１つ又は複数のトークンは、クライアントトークン、アプリケーショントークン、及びニューラルネットワークトークンのうちの少なくとも１つを含み、前記クライアントトークンは、前記クライアントの特性に関する情報を含み、前記ニューラルネットワークトークンは、適合化プロセスを容易にする前記ニューラルネットワークモデルに関する情報を含み、前記アプリケーショントークンは、前記クライアントで動作する前記アプリケーションの特性に関する情報を含む、
請求項６に記載のコンピュータシステム。
前記クライアントが前記パッケージングプロセスを通じてパッケージングメディアサーバからのメディアストリーミングを開始することに基づいて、前記メディアコンテンツを適合化する、
請求項６に記載のコンピュータシステム。
前記１つ又は複数のコンピュータプロセッサーに、前記メディアコンテンツを前記クライアントにストリーミングさせるように構成されるストリーミングコードをさらに含む、
請求項６に記載のコンピュータシステム。
前記メディアコンテンツは没入型メディアを含む、
請求項６に記載のコンピュータシステム。
１つ又は複数のコンピュータプロセッサーに、請求項１乃至５のいずれか一項に記載の方法を実行させる、コンピュータプログラム。