JP2022553965A

JP2022553965A - ビデオコンテンツを表示するための方法、コンピュータシステム、およびコンピュータプログラム

Info

Publication number: JP2022553965A
Application number: JP2022523682A
Authority: JP
Inventors: アリアンヌ・ハインズ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-06-12
Filing date: 2021-05-05
Publication date: 2022-12-27
Anticipated expiration: 2041-05-05
Also published as: EP4018673A1; KR20220068241A; CN114450966A; EP4018673A4; WO2021252102A1; US20210392386A1; JP7392136B2

Abstract

ビデオコンテンツを表示するための方法、コンピュータシステム、およびコンピュータ可読媒体が提供される。複数のオブジェクトのリアルタイムレンダリングを可能にするためにプレゼンテーションエンジンへのインタフェースが作成され、それによって、複数のオブジェクトは複数のシーングラフを介して論理的に一緒に編成され、複数のシーングラフにはメディア交換フォーマットが編成される。複数のシーングラフのジオメトリ情報は、リプレゼンテーションエンジンへのインタフェースを介して更新される。複数のオブジェクトは、メディア交換フォーマットを使用して複数のシーングラフの中から各シーングラフ内のヘテロジニアスの視覚幾何学的オブジェクトの多重解像度または多重モザイク化に基づいてストリーミングされる。

Description

関連出願の相互参照
本出願は、2020年6月12日に出願された米国仮出願第63／038，591号「DATA MODEL FOR REPRESENTATION AND STREAMING OF HETEROGENEOUS IMMERSIVE MEDIA」に基づく優先権を主張する、2021年4月15日に出願された米国特許出願第17／231，513号「DATA MODEL FOR REPRESENTATION AND STREAMING OF HETEROGENEOUS IMMERSIVE MEDIA」に対する優先権の利益を主張し、その全体は参照により本明細書に組み込まれる。

本開示は、一般に没入型メディアに関し、特に、ヘテロジニアス没入型メディアを表現およびストリーミングするためのデータモデルおよびシステムに関する実施形態を説明する。

「没入型メディア」は、一般に、任意または全ての人間の感覚系（視覚、聴覚、体性感覚、嗅覚、および場合によっては味覚）を刺激して、ユーザがメディアのエクスペリエンスにおいて物理的に存在する知覚、すなわち、タイムド2次元（2D）ビデオおよび対応するオーディオのための既存の商用ネットワーク上に配信されているものを超えることを作り出すかまたは強調するメディアを指す。没入型メディアは、タイムド型または非タイムド型のいずれかである。タイムドメディアは、時間に従って構造化され提示されるメディアを指す。例としては、映画の特集、ニュース報道、エピソードコンテンツが挙げられ、これらは全て、時間の期間に従って編成される。従来のビデオおよびオーディオは、一般にタイムドメディアであると考えられる。非タイムドメディアは、時間によって構造化されるのではなく、むしろ、論理的、空間的および／または時間的関係によって構造化されたメディアである。一例としては、ユーザがゲームデバイスによって作成されたエクスペリエンスを制御するビデオゲームが挙げられる。非タイムドメディアは、例えば、ビデオゲームのシーンの連続的にループされたオーディオもしくはビデオセグメントに、タイムドメディアを組み込んでもよい。没入型メディア対応デバイスは、没入型メディアからの没入型メディア情報にアクセスし、解釈し、当該情報をユーザに提示する能力を備えたデバイスを指す。このようなメディアおよびデバイスは、没入情報を表すために必要なデータの量およびフォーマット、ならびにこのようなメディア情報を大規模に配信する、すなわち、従来のビデオおよびオーディオメディアと同等の配信を実現するために必要なネットワークリソースの数および種類の観点からヘテロジニアスである。

本明細書に記載の技術は、商用ネットワークを介してヘテロジニアス没入型メディアを表現し、かつストリーミングするための統合データモデルを作成することを可能にして、ホログラフィックディスプレイおよびXRヘッドセットを含むヘテロジニアス・エンド・ポイントにサービスを提供する。このようなメディアをストリーミングする能力は、様々なヘテロジニアス・エンド・ポイントにおけるその後のプレゼンテーションのために、ライブイベント、例えばスポーツ、コンサート、ニュース、ユーザ生成コンテンツ、および配信ゲームを取り込むメディアのリアルタイム配信を可能にするには不可欠である。

実施形態は、ビデオコンテンツを表示するための方法、システム、およびコンピュータ可読媒体に関する。一態様によれば、ビデオコンテンツを表示するための方法が提供される。本方法は、プレゼンテーションエンジンへのインタフェースを作成して複数のオブジェクトのリアルタイムレンダリングを可能にするステップを含んでもよく、それによって、複数のオブジェクトは複数のシーングラフを介して論理的に一緒に編成され、複数のシーングラフにはメディア交換フォーマットが編成される。複数のシーングラフのジオメトリ情報は、リプレゼンテーションエンジンへのインタフェースを介して更新される。複数のオブジェクトは、メディア交換フォーマットを使用して複数のシーングラフの中から各シーングラフ内のヘテロジニアスの視覚幾何学的オブジェクトの多重解像度（multi-resolution）または多重モザイク化（multi-tesselation）に基づいてストリーミングされる。

別の態様によれば、ビデオコンテンツを表示するためのコンピュータシステムが提供される。コンピュータシステムは、1つまたは複数のプロセッサと、1つまたは複数のコンピュータ可読メモリと、1つまたは複数のコンピュータ可読有形記憶装置と、1つまたは複数のメモリのうちの少なくとも1つを介して1つまたは複数のプロセッサのうちの少なくとも1つによって実行するために1つまたは複数の記憶装置のうちの少なくとも1つに記憶されたプログラム命令とを含んでもよく、それによってコンピュータシステムは方法を実行することが可能になる。本方法は、プレゼンテーションエンジンへのインタフェースを作成して複数のオブジェクトのリアルタイムレンダリングを可能にするステップを含んでもよく、それによって、複数のオブジェクトは複数のシーングラフを介して論理的に一緒に編成され、複数のシーングラフにはメディア交換フォーマットが編成される。複数のシーングラフのジオメトリ情報は、リプレゼンテーションエンジンへのインタフェースを介して更新される。複数のオブジェクトは、メディア交換フォーマットを使用して複数のシーングラフの中から各シーングラフ内のヘテロジニアスの視覚幾何学的オブジェクトの多重解像度または多重モザイク化に基づいてストリーミングされる。

さらに別の態様によれば、ビデオコンテンツを表示するためのコンピュータ可読媒体が提供される。コンピュータ可読媒体は、1つまたは複数のコンピュータ可読記憶装置と、1つまたは複数の有形記憶装置のうちの少なくとも1つに記憶されたプログラム命令とを含んでもよく、プログラム命令はプロセッサによって実行可能である。プログラム命令は、プレゼンテーションエンジンへのインタフェースを作成して複数のオブジェクトのリアルタイムレンダリングを可能にするステップを適切に含んでもよい方法を行うためのプロセッサによって実行可能であり、それによって、複数のオブジェクトは複数のシーングラフを介して論理的に一緒に編成され、複数のシーングラフにはメディア交換フォーマットが編成される。複数のシーングラフのジオメトリ情報は、リプレゼンテーションエンジンへのインタフェースを介して更新される。複数のオブジェクトは、メディア交換フォーマットを使用して複数のシーングラフの中から各シーングラフ内のヘテロジニアスの視覚幾何学的オブジェクトの多重解像度または多重モザイク化に基づいてストリーミングされる。

これらおよび他の目的、特徴および利点は、添付の図面に関連して読まれるべき例示的な実施形態の以下の詳細な説明から明らかになるであろう。図面の様々な特徴は、当業者が詳細な説明と併せて理解するのを容易にするために、例示を明確にするものであるため、縮尺通りではない。

タイムドレガシーメディア配信のエンドツーエンドプロセスの概略図である。タイムドレガシーメディアのストリーミングに使用される標準メディアフォーマットの概略図である。タイムド没入型メディアのリプレゼンテーションおよびストリーミングのためのデータモデルの一実施形態の概略図である。非タイムド没入型メディアのリプレゼンテーションおよびストリーミングのためのデータモデルの一実施形態の概略図である。非タイムド没入型メディアのリプレゼンテーションおよびストリーミングのためのデータモデルの一実施形態のシステム図である。

特許請求される構造および方法の詳細な実施形態が本明細書に開示されているが、開示された実施形態は、様々な形態で具体化され得る特許請求された構造および方法の単なる例示であることが理解されよう。しかし、これらの構造および方法は、多くの異なる形態で具体化されてもよく、本明細書に記載の例示的な実施形態に限定されると解釈されるべきではない。むしろ、これらの例示的な実施形態は、本開示が詳細かつ完全であり、当業者にその範囲を十分に伝えるように提供される。本明細書では、提示された実施形態を不必要に不明瞭にすることを避けるために、周知の特徴および技術の詳細は省略される場合がある。

没入型メディアは、没入型メディア対応デバイスによって人間に提示される場合、より現実的で、自然界内のエクスペリエンスについての人間の理解と一致する、すなわち、そうでなければレガシーデバイスによって提示されるレガシーメディアで作成されたはずのものの域を超える方法で、視覚、音感覚、味覚、触覚、および聴覚の五感のいずれかを刺激する1つまたは複数の種類のメディアと見なすことができる。これに関連して、「レガシーメディア」という用語は、ユーザの対話する能力が一時停止、再生、早送りまたは巻き戻しに限定される、静止画フレームまたは動画フレームのいずれかである2次元（2D）視覚メディア、および／または対応するオーディオを指し、「レガシーデバイス」は、レガシーメディアのプレゼンテーションに対してその能力が制限されたテレビ、ラップトップ、ディスプレイおよびモバイルデバイスを指す。消費者向けアプリケーションのシナリオでは、没入型メディア（すなわち、没入型メディア対応デバイス）用のプレゼンテーションデバイスは、デバイスが、物質的世界の人間の理解および物質的世界との対話をより密接に近づける、すなわち、そうするためのレガシーデバイスの能力を超えるプレゼンテーションを作成することができるように、没入型メディアによって具体化される特定の情報を活用する能力を特に備えた消費者向けハードウェアデバイスである。

過去10年間に、ヘッドマウントディスプレイ、拡張現実メガネ、ハンドヘルドコントローラ、触覚グローブ、およびゲーム機を含む多くの没入型メディア対応ハードウェアデバイスが消費者市場に導入されてきた。同様に、ホログラフィックディスプレイおよび他の形態の立体ディスプレイは、今後10年以内に出現する可能性がある。これらのデバイスの即時的または予想される可用性にもかかわらず、没入型メディアの配信のためのコヒーレントなエンドツーエンドのエコシステムは、いくつかの理由で実現することができなかった。それらの理由の1つは、商用ネットワークを介したヘテロジニアスのエンドポイントのクライアントへのヘテロジニアスのメディアフォーマットのストリーミングを可能にする没入型メディアの標準的なリプレゼンテーションの欠如である。したがって、商用ネットワークを介した没入型メディアのストリーミングに標準的なリプレゼンテーションを使用して、出現済みかまたは出現すると予想される没入型メディア対応デバイスなどのヘテロジニアス・エンド・ポイントを駆動することが有利であり得る。

レガシーメディアによってサポートされるレガシーデバイスは、レガシーメディアの標準ベースのリプレゼンテーションを生成するレガシーメディアコンテンツプロバイダ、およびレガシーデバイスを標準的なレガシーコンテンツのソースに接続するためのネットワークインフラストラクチャを提供する商用ネットワークサービスプロバイダのエコシステムによって同様にサポートされるので、広範な消費者による導入が達成されていることがよく理解される。ネットワークを介してレガシーメディアを配信する役割の域を超えて、商用ネットワークサービスプロバイダはまた、レガシークライアントデバイスとコンテンツ配信ネットワーク（CDN）上のレガシーコンテンツへのアクセスとのペアリングを容易にする。適切な形態のコンテンツへのアクセスとペアリングされると、レガシークライアントデバイスは、エンドユーザへのプレゼンテーションのためにコンテンツサーバからデバイスにレガシーコンテンツを要求するかまたは「プル」することができる。

様々な実施形態による方法、装置（システム）およびコンピュータ可読媒体のフローチャート図および／またはブロック図を参照して、態様を本明細書で説明する。フローチャート図および／またはブロック図の各ブロック、ならびにフローチャート図および／またはブロック図のブロックの組合せは、コンピュータ可読プログラム命令によって実施され得ることが理解されよう。

図1は、タイムドレガシーメディア配信のエンドツーエンドプロセスの例示的な図である。図1では、タイムドオーディオビジュアルコンテンツは、101Aのカメラまたはマイクによって取り込まれるか、または101Bのコンピュータによって生成され、準備モジュール103に入力される2D画像および関連付けられたオーディオのシーケンス102を生成する。準備モジュール103の出力は、例えばオンデマンドメディア用の標準メザニンフォーマットに、または例えばライブイベント用の標準コントリビューションフォーマットとして、コンバータモジュール104によって変換される準備ができているマスタフォーマットと呼ばれる編集されたコンテンツ（例えば、言語翻訳、字幕、他の編集機能を含むポストプロダクション用）である。メディアは、商用ネットワークサービスプロバイダによって「取り込まれ」、アダプテーションモジュール105は、メディアを、標準配信フォーマットにパッケージ化される様々なビットレート、時間分解能（フレームレート）または空間分解能（フレームサイズ）にパッケージ化する。結果として得られるアダプテーションは、コンテンツ配信ネットワーク106上に記憶され、そこから様々なクライアント108A～108Cが、メディアを取り込んでエンドユーザに提示するように、1つまたは複数のメディアアダプテーション107A～107Cに対してプル要求を行う。マスタフォーマットは、101Aまたは101Bの両方のメディアの複合から構成されてもよく、フォーマット101Aは、例えばライブスポーツイベントから取得されるメディアなど、リアルタイムで取得されてもよいことに留意することが重要である。さらに、クライアント108A～108Cは、クライアントの構成および／または現在のネットワーク条件に最適な特定のメディアアダプテーション107A～107Cを選択する役割を担う。

図2は、レガシータイムドメディア、例えばビデオ、オーディオおよび（字幕に使用されるようなタイムドテキストを含む）サポートメタデータの配信に使用される標準メディアフォーマットの例である。図1の項目106に記載されているように、メディアは、CDN201A～201C上に標準ベースの配信フォーマットで記憶される。標準ベースのフォーマットはMPD202として示されており、これは、クロックに対応する開始時間および終了時間を含むタイムド期間（例えば、期間203A、203B）を包含する複数のセクションからなる。期間203A、203Bの各期間は、1つまたは複数のアダプテーションセット204A～204Cを参照する。アダプテーションセット204A～204Cの各々は、一般に、単一の種類のメディア、例えばビデオ、オーディオまたはタイムドテキストに使用される。所与の期間203A、203Bのいずれについても、例えばビデオ用に1つ、および様々な言語への翻訳に使用されるようなオーディオ用に複数など、複数のアダプテーションセット204A～204Cが提供されてもよい。アダプテーションセット204A～204Cの各々は、メディアのフレーム解像度（ビデオ用）、フレームレートおよびビットレートに関する情報を提供する1つまたは複数のリプレゼンテーション205を参照する。複数のリプレゼンテーション205を使用して、様々なメディアへのアクセスが提供されてもよい。例えば、それぞれ超高解像度、高解像度または標準解像度のビデオ用のリプレゼンテーション205である。各リプレゼンテーション205は、（図1の108として示す）クライアントによる取込みのためにメディアが実際に記憶される1つまたは複数のセグメントファイル206を参照する。

図3は、タイムド型のヘテロジニアス没入型メディアのためのストリーミング可能フォーマットの例示である。図4は、非タイムド型のヘテロジニアス没入型メディアのためのストリーミング可能フォーマットの例示的なリプレゼンテーションである。両方の図はシーンに関しており、図3はタイムドメディアのシーン301に関し、図4は非タイムドメディアのシーン401に関する。どちらの場合も、シーンはシーングラフによって具体化されてもよい。

様々な種類の没入型メディアに適したフォーマットとして、シーングラフを直接的または間接的にサポートするいくつかの技術が提案されている。

1．OTOY社のORBX（登録商標）
OTOY社のORBXは、光線追跡可能、レガシー（フレームベース）、立体および他の種類の、合成またはベクトルベースの視覚フォーマットを含むタイムドまたは非タイムドの任意の種類の視覚メディアをサポートすることができるいくつかのシーングラフ技術のうちの1つである。ORBXは、メッシュ、ポイントクラウドおよびテクスチャ用の自由に利用可能な、および／またはオープンソースフォーマットをネイティブにサポートするので、他のシーングラフとは異なる。ORBXは、シーングラフ上で動作する複数のベンダ技術にわたる交換を容易にすることを目的として意図的に設計されたシーングラフである。さらに、ORBXは、豊富な素材システム、オープンシェーダ言語のサポート、堅牢なカメラシステム、およびLuaスクリプトのサポートを提供する。ORBXは、イマーシブ・デジタル・エクスペリエンス・アライアンス（Immersive Digital Experiences Alliance）によって著作権使用料無料のライセンスを対象として公開された没入型技術メディアフォーマットの基礎でもある。

2．Pixar社のユニバーサルシーン記述
Pixar社のユニバーサルシーン記述（USD、Universal Scene Description）は、VFXおよび専門のコンテンツ制作業界で人気のある別の周知の成熟したシーングラフである。USDは、Nvidia社のGPUを用いた3Dモデル作成およびレンダリングのための開発者向けツールのセットであるNvidia社のOmniverseプラットフォームに統合されている。USDのサブセットは、USDZとしてApple社およびPixar社によって公開された。USDZは、Apple社のARKitによってサポートされている。

3．Khronos社のglTF 2．0
glTF 2．0は、Khronos社の3Dグループによって書かれた「グラフィックス言語伝送フォーマット」仕様の最新バージョンである。このフォーマットは、「png」および「jpeg」画像フォーマットを含む、一般にシーン内の静的（非タイムド）オブジェクトをサポートすることができる単純なシーングラフフォーマットをサポートする。glTF 2．0は、単純なアニメーションをサポートし、glTFプリミティブを使用して記述された基本形状、すなわち幾何学的オブジェクトの並進、回転およびスケーリングをサポートする。glTF 2．0はタイムドメディアをサポートしておらず、したがって、ビデオもオーディオもサポートしていない。

4．UnityエンジンおよびUnrealエンジン
UnityエンジンおよびUnrealエンジンはどちらも、レンダリング用のORBXおよびUSDを含む豊富なシーングラフをサポートし、ゲームアプリケーションをサポートすることもできる。UnityおよびUnrealはどちらもゲームエンジンの例である。いずれも、光線追跡可能メディアのパス追跡を実行することもでき、例えば光の物理的に正しい挙動をモデル化することができる。

5．高度ネットワーキング技術
ネットワーク機能仮想化およびMECはそれぞれETSIによって開発された標準であり、ソフトウェア定義ネットワーク（SDN）はIEEEによって標準化された技術領域である。ネットワークベースのメディア処理（Network－Based Media Processing）は、MPEGによって開発された最近完成した標準の名称でもある。これらの標準の各々は、特に商用ネットワークにわたる大規模なメディアの配信および処理のために、商用ネットワークリソースの分散型の柔軟で動的な構成および適応を集合的に可能にする特徴に寄与する。

6．CableLabs
CableLabsの提案には、「ネットワークベースのメディア処理のためのシステムおよび方法」が記載されている。この提案は、ネットワーク内のエンドポイントのクライアントの種類に「依存しない」ものである「統合」メディア交換フォーマットを記載している。本明細書に記載のネットワークベースのメディア処理は、MPEGによって規定されているネットワークベースのメディア処理と同一ではない。CableLabsの提案では、ネットワークは、最終的にメディアを特定の種類のエンドポイントのクライアントデバイスに「結合」する特定のフォーマットへの交換フォーマットにおけるメディアの処理および変換を可能にする分離型の制御プレーンおよびデータプレーンを採用する。MPEG標準では、制御プレーンとデータプレーンとの区別はない。CableLabsの提案では、メディア交換フォーマットのメディアは「ディスプレイに依存しない」として特徴付けられ、結果として得られる変換メディア、すなわちCableLabsのネットワークベースのメディア処理は「ディスプレイ固有」として特徴付けられる。しかし、CableLabsの仕様は、メディアをストリーミングするためのメカニズムを提案しておらず、メディアフォーマットの編成、基礎となる幾何学的フォーマットの圧縮、エンドポイントのクライアントの機能的能力のリプレゼンテーション、エンドポイントのクライアントのアプリケーション要件のリプレゼンテーション、またはクライアントとネットワークサービスプロバイダとの間のサービスレベル合意に対応する機能のリプレゼンテーションに関するいかなる情報も提供していない。さらに、CableLabsの仕様は、没入型メディアが視覚フォーマットまたはオーディオフォーマット以外のメディアで構成されることを考慮していない。

7．動画専門家集団（Moving Picture Experts Group）
ISO／IEC JTC 1／SC 29／WG 11の動画専門家集団（MPEG）は、glTFのタイムドMPEGメディアのサポートを可能にするために、glTF 2．0に対する拡張を開発している。glTFは静的リソースのレンダリングに現在使用されているため、glTFを拡張するMPEGの努力は、glTFが広く展開されている既存のアプリケーションまたはエコシステムに必然的に適合しない。同様に、タイムドメディアの現在のエコシステムは、タイムドメディアの配信にシーングラフを使用しない。MPEGがタイムド没入型メディアのサポートのためにシーングラフの使用を検討しているという事実は、MPEGが独立した立体オブジェクトの編成のためのシーングラフの重要性を認識しているが、現在の設計では、MPEGはシーングラフおよびグラフによって参照される個々のオブジェクトをISOベースメディアファイルフォーマットのファイルにパッケージ化することを計画していることを示している。これは、データ階層に関して、シーングラフコンテナはMPEGメディアおよび非MPEGメディアの両方のためのコンテナラッパーであるべきであり、したがって、（論理データ階層に関して）MPEGメディアと同じレベルに配置されるべきではないため、特に限定的である。

MPEG－Iは、MPEGによって現在開発中の標準のスイートである。MPEG 130の時点で、スイートは「パート」として知られている14個の個別の仕様からなる。このスイートのパート14は、MPEGメディアおよび非MPEGメディアの両方をサポートすることができるデータ構造を作成するためのMPEGによる最初の試みである。パート14の最新版は、「MPEGメディア用シーン記述」と題するN19070としてMPEG 130から入手可能である。シーン記述の要件は、N18339にある。

Qualcommは、M53364でMPEG 130に提出した提案において、JSONパッチプロトコルを使用してシーングラフを更新する設計を提案した。MPEGメディアはシーングラフに適用されているので、この提案は、MPEGメディアではないメディアに対するシーングラフの更新をサポートしていない。すなわち、M53364の提案は、MPEGメディアに関連する更新に対してのみ機能し、（例えば、MPEG標準に基づく）タイムドメディアまたは（MPEG標準に基づかない）非タイムドメディアに対するシーングラフの更新をサポートしない。

図1に戻って参照すると、図1のクライアント108 A～108Cの各々は、異なるフォームファクタ、例えば固定ディスプレイ、モバイルディスプレイ、ラップトップディスプレイ、ヘッドマウントディスプレイによって具体化されているという事実にもかかわらず、これらの様々なフォームファクタの各々は、その構成において極めてホモジニアスのメディアを消費する。すなわち、メディアアダプテーション107の各々は、タイムド2Dビデオおよび対応するオーディオの配信のためのレガシー標準圧縮方式に従って圧縮およびフォーマットが行われた2Dビデオおよび対応するオーディオ信号で基本的に構成される。ビデオに一般的に使用される圧縮方式は、ISO／IEC動画専門家集団（MPEG）、アライアンス・フォー・オープン・メディア（Alliance for Open Media、AOM）、または米国映画テレビ技術者協会（Society of Motion Pictures and Television Engineers、SMPTE）によって開発されたデジュア標準を含む。一般的に使用されるオーディオの圧縮方式は、MPEG、SMPTE、ETSIによって開発されたデジュア標準、およびDolby社、DTS社（現在はXperi社が所有している）によって開発されたデファクト標準を含む。MPEG、SMPTEおよびAOMのフォーマットを含むビデオのために広く使用されている圧縮フォーマット間では、圧縮ビデオビットストリームはまた、個々のピクチャフレーム内に存在する空間的冗長性、および個々のピクチャフレーム間に存在する時間的冗長性を排除するための共通のアーキテクチャおよび比較的共通のツールのセットを利用して、ホモジニアスである。同様に、オーディオフォーマット間には、共通のアーキテクチャおよび共通のツールセットも存在する。

オーディオビジュアル圧縮フォーマットのこのホモジニアス性およびクライアントのエンドポイントのホモジニアス性の結果、それらのリプレゼンテーションにおいて必ずしも同じビジュアルアーキテクチャおよびオーディオアーキテクチャを利用しないヘテロジニアス没入型メディアフォーマットの商業的配信の参入について大きな障壁が形成される。この問題は、既存のインターネットのリソースおよび容量の大部分を現在消費する視覚情報の伝送であるため、特に視覚情報では明らかとなる。

しかし、モバイルネットワーク用の5G、および固定ネットワーク用の光ファイバケーブルなどの高度なネットワーク技術が展開されると、このような高度なネットワークインフラストラクチャが、視覚情報量がますます大きくなる伝送および配信をサポートすることができるため、商用ネットワークの容量および能力も同様に向上する。さらに、マルチアクセスエッジコンピューティング（MEC）、ソフトウェア定義ネットワーク（SDN）、およびネットワーク機能仮想化（NFV）などのネットワークインフラストラクチャ管理技術は、商用ネットワークサービスプロバイダが、特定のネットワークリソースに対する需要の変化に適応するように、例えばネットワークスループット、ネットワーク速度、往復遅延および計算リソースに対する需要の動的な増減に応答するように、それらのネットワークインフラストラクチャを柔軟に構成することを可能にする。さらに、動的ネットワーク要件に適応するこの固有の能力は、同様に、ネットワークがヘテロジニアスのクライアントのエンドポイントのための潜在的にヘテロジニアスの視覚メディアフォーマットを含む様々な没入型メディアアプリケーションをサポートする能力を促進する。

没入型メディアアプリケーション自体はまた、ゲームの状態でリアルタイム更新に応答するために著しく低いネットワーク待ち時間を必要とするゲームアプリケーション、ネットワークのアップリンク部分およびダウンリンク部分の両方に対して対称的なスループット要件を有するテレプレゼンスアプリケーション、およびデータを消費しているクライアントのエンドポイントのディスプレイの種類に応じてダウンリンクリソースに対する需要が増加する可能性のある受動的閲覧アプリケーションを含む、ネットワークリソースに対する様々な要件を有してもよい。一般に、任意の消費者向けアプリケーションは、記憶、計算および電力のための様々なオンボードクライアント機能、ならびに特定のメディアリプレゼンテーションのための同じく様々な要件を含む様々なクライアントのエンドポイントによってサポートされてもよい。

例えば、クライアントのエンドポイントとして機能する固定ホログラフィックディスプレイは、ホログラフィックフォーマットで表される視覚情報へのアクセスを必要とするが、クライアントのエンドポイントとして機能する仮想現実ヘッドマウントディスプレイは、立体視全方向フォーマットで表される視覚情報へのアクセスを必要とする。同様に、拡張現実ディスプレイは、個々の立体オブジェクトとして表される視覚情報へのアクセスを必要とする。

現在、商用ネットワークを介したメディアの大規模なストリーミングおよび配信は、レガシー2Dメディアフォーマットにおいて圧縮され、かつ表現されたメディアに限定されている。この制限は、没入型消費者エンドポイント装置の展開および同様に没入型アプリケーションの展開を、レガシー2D視覚メディアフォーマットを活用して、2Dフォーマットの技術によって制約される没入型エクスペリエンスを作り出すことができるものに制限する。光量を表す視覚情報へのアクセスを必要とする光照射野ディスプレイ（ホログラフィックディスプレイとしても知られる）などのエンドポイントのクライアントをサポートすることができない。同様に、光線追跡可能であるかまたは写実的な視覚情報へのアクセスを必要とするいかなるエンドポイントのクライアントもサポートすることができない。

多種多様なネットワーク条件およびアプリケーション要件を動的にサポートし適合させる高度なネットワーク技術の出現にもかかわらず、消費者向けの没入型メディア対応デバイスが利用可能であるにもかかわらず、ヘテロジニアス没入型メディア対応デバイスのセットへのヘテロジニアス没入型メディアの広範な配信のためのコヒーレントなエコシステムは存在しない。このようなコヒーレントなエコシステムのための必須の構成要素は、まだ定義されていない。これらの要素は、レガシーメディアのために現在存在するものとほぼ同様のコヒーレントなエコシステムの開発を容易にする統合メディアフォーマットと結合された統合アーキテクチャを含む。レガシー2D情報、個々の立体オブジェクト情報、立体シーン情報、光線追跡可能な視覚情報、タイムドもしくは非タイムドメディア、またはこれらの視覚フォーマットのそれぞれのいくつかの組合せを含むヘテロジニアスのメディアフォーマットへのアクセスを必要とする対話型アプリケーションおよびヘテロジニアスのエンドポイントのクライアントのサポートのために、商用ネットワークを介してストリーミングすることができることを実証するこのような統合アーキテクチャおよびデータモデルは、没入型メディアに関して今日存在する参入の障壁を超えるために不可欠である。

本出願の実施形態は、ヘテロジニアスのメディアフレームワーク、および商用ネットワークを介した展開に適した受動的かつ対話型のメディアエクスペリエンスの両方をサポートするためのヘテロジニアスのエンドポイントのクライアントデバイスへヘテロジニアスのメディアをストリーミングするための対応するメディアリプレゼンテーションを記載している。基礎となるネットワークインフラストラクチャは、その上に本発明を展開してもよく、任意には、MECベースまたはCDNベースのネットワークであってもよい。

本記載では、以下を用いて以前の没入型メディア技術を拡張する。

1．包括的メディアフォーマットに従ってストリーミングされるメディアは、レガシー視覚メディアおよびオーディオメディアに限定されず、機械と対話して人間の視覚、音感覚、味覚、触覚および嗅覚を刺激する信号を生成することが可能な任意の種類のメディア情報を含んでもよい。

2．包括的メディアフォーマットは、クライアントが例えばオブジェクトのベース層リプレゼンテーションにおいて最小限の量の情報のみを受信することを可能にするマニフェストおよび階層化リプレゼンテーションを可能にすることによって、明らかにストリーミング可能であり、その結果、クライアントは、例えばオブジェクトの強調層において単純化リプレゼンテーションを改良する追加の情報を受信する前に、シーンの単純化リプレゼンテーションを生成することができる。

3．包括的メディアフォーマットに従ってストリーミングされるメディアは、タイムドメディアまたは非タイムドメディア、または両方の組合せであってもよい。

4．包括的メディアフォーマットは、ベース層および強調層アーキテクチャを使用することによってメディアオブジェクトの階層化リプレゼンテーションを可能にすることによってさらにストリーミング可能である。一例では、別々のベース層および強調層は、各シーン内のメディアオブジェクトについての多重解像度または多重モザイク化の分析技術の適用によって計算される。これは、ISO／IEC 10918－1（JPEG）およびISO／IEC 15444－1（JPEG 2000）で指定されたプログレッシブレンダリング画像フォーマットに類似しているが、ラスタベースの視覚フォーマットに限定されない。例示的な実施形態では、幾何学的オブジェクトのプログレッシブリプレゼンテーションは、ウェーブレット解析を使用して計算されたオブジェクトの多重解像度リプレゼンテーションとすることができる。

メディアフォーマットの階層化リプレゼンテーションの別の例では、強調層は、ベース層によって表される視覚オブジェクトの表面の材料特性を改良するなど、ベース層に異なる属性を適用する。さらに別の例では、属性は、表面を滑らかなテクスチャから多孔質のテクスチャに、またはつや消しの表面から光沢のある表面に変更するなど、ベース層オブジェクトの表面のテクスチャを改良することができる。

階層化リプレゼンテーションのさらに別の例では、シーン内の1つまたは複数の視覚オブジェクトの表面は、ランバート面から光線追跡可能な表面に変更されてもよい。

階層化リプレゼンテーションのさらに別の例では、ネットワークはベース層リプレゼンテーションをクライアントに配信し、その結果、クライアントは、ベースリプレゼンテーションの解像度または他の特性を改良するために追加の強調層の送信を待機している間にクライアントがシーンの公称リプレゼンテーションを作成してもよい。

5．強調層内の属性または改良情報の解像度は、既存のMPEGビデオおよびJPEG画像標準における現在のように、ベース層内のオブジェクトの解像度と明示的に結合されていない。

6．包括的メディアフォーマットは、プレゼンテーションデバイスまたは機械によって提示または作動され得る任意の種類の情報メディアをサポートし、それによってヘテロジニアスのクライアントのエンドポイントへのヘテロジニアスのメディアフォーマットのサポートを可能にする。メディアフォーマットを配信するネットワークの一実施形態では、ネットワークは、最初にクライアントの能力を判定するためにクライアントのエンドポイントに問い合わせ、クライアントがメディアリプレゼンテーションを有意に取り込むことができない場合、ネットワークは、クライアントによってサポートされていない属性の層を除去するか、またはメディアをその現在のフォーマットからクライアントのエンドポイントに適したフォーマットにトランスコードする。このようなトランスコーディングの一例では、ネットワークは、ネットワークベースのメディア処理プロトコルを使用することによって、立体的視覚メディアアセットを同じ視覚アセットの2Dリプレゼンテーションに変換する。

7．完全もしくは部分的に完全な没入型エクスペリエンス（ライブストリーミングイベント、ゲーム、またはオンデマンドアセットの再生）のためのマニフェストは、プレゼンテーションを作成するためにレンダリングおよびゲームエンジンが現在取り込み得る最小量の情報であるシーンによって編成される。マニフェストは、クライアントによって要求された没入エクスペリエンスの全体がレンダリングされる個々のシーンのリストを含む。各シーンには、シーンジオメトリのストリーミング可能なバージョンに対応するシーン内の幾何学的オブジェクトの1つまたは複数のリプレゼンテーションが関連付けられている。シーンリプレゼンテーションの一実施形態は、シーンの幾何学的オブジェクトの低解像度バージョンに関する。同じシーンの別の実施形態は、同じシーンの幾何学的オブジェクトにさらなる詳細を追加するか、またはモザイク化を増加させるための、シーンの低解像度リプレゼンテーションのための強調層に関する。上述したように、各シーンは、シーンの幾何学的オブジェクトの詳細を漸進的に増加させるために、2つ以上の強調層を有してもよい。

8．シーン内で参照されるメディアオブジェクトの各層は、リソースがネットワーク内でアクセスされ得る場所のアドレスを指すトークン（例えば、URI）に関連付けられる。このようなリソースは、コンテンツがクライアントによって取り込まれてもよいCDNに類似している。

9．幾何学的オブジェクトのリプレゼンテーションのためのトークンは、ネットワーク内の位置またはクライアント内の位置を指してもよい。すなわち、クライアントは、そのリソースがネットワークベースのメディア処理のためにネットワークに利用可能であることをネットワークにシグナリングしてもよい。

図3は、以下のようなタイムドメディアのための包括的メディアフォーマットの一実施形態を説明している。タイムドシーンマニフェストは、一または複数のシーン301に対応する情報のリストを含む。シーン301は、シーン301を構成する処理情報およびメディアアセットの種類を別々に記述するコンポーネント302のリストを参照する。コンポーネント302は、ベース層304、ならびに解像度、時間および素材の強調層などの属性強調層305をさらに参照する、視覚、聴覚、触覚および嗅覚アセットなどのアセット303を参照する。

図4は、以下のような非タイムドメディアのための包括的メディアフォーマットの一実施形態を説明している。シーン情報401には、クロックに応じた開始時間および終了時間が関連付けられていない。シーン情報401は、シーン401を構成する処理情報およびメディアアセットの種類を別々に記述するコンポーネント402のリストを参照する。コンポーネント402は、ベース層404および属性強調層405をさらに参照するアセット403を参照する。さらに、シーン401は非タイムドメディア用の他のシーンを指す。シーン401はまた、タイムドメディアシーンを指す。

上述のヘテロジニアス没入型メディアを表現し、かつストリーミングするための技術は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実施することができ、1つまたは複数のコンピュータ可読媒体に物理的に記憶することができる。例えば、図5は、開示された主題の特定の実施形態を実施するのに適したコンピュータシステム500を示している。

コンピュータソフトウェアは、コンピュータ中央処理ユニット（CPU）、グラフィックス処理ユニット（GPU）などにより、直接、または翻訳、マイクロコードの実行などを介して実行することができる命令を含むコードを作成するためにアセンブリ、コンパイル、リンク、または同様の機構の対象となり得る任意の適切な機械コードまたはコンピュータ言語を使用して、コード化することができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、IoTデバイスなどを含む様々な種類のコンピュータまたはその構成要素上で実行することができる。

コンピュータシステム500について図5に示す構成要素は、本質的に例示的なものであり、本開示の実施形態を実施するコンピュータソフトウェアの使用範囲または機能に関する制限を示唆することを意図するものではない。構成要素の構成もまた、コンピュータシステム500の例示的な実施形態に示す構成要素のいずれか1つまたは組合せに関する依存性または要件を有すると解釈されるべきではない。

コンピュータシステム500は、特定のヒューマンインタフェース入力デバイスを含んでもよい。このようなヒューマンインタフェース入力デバイスは、例えば触覚入力（キーストローク、スワイプ、データグローブの動きなど）、オーディオ入力（声、拍手など）、視覚入力（ジェスチャなど）、嗅覚入力（図示せず）を介した1人以上の人間のユーザによる入力に応答してもよい。ヒューマンインタフェースデバイスは、オーディオ（例えば音声、音楽、周囲音）、画像（例えば走査画像、静止画像カメラから取得した写真画像）、ビデオ（例えば2次元映像、立体映像を含む3次元映像）など、必ずしも人間による意識的な入力に直接関連しない特定の媒体を取り込むために使用することができる。

入力ヒューマンインタフェース装置は、キーボード501、マウス502、トラックパッド503、タッチスクリーン510、データグローブ（図示せず）、ジョイスティック505、マイク506、スキャナ507、カメラ508のうちの1つまたは複数（それぞれ1つのみを図示）を含んでもよい。

コンピュータシステム500はまた、特定のヒューマンインタフェース出力デバイスを含んでもよい。このようなヒューマンインタフェース出力デバイスは、例えば、触覚、音感覚、光感覚および嗅覚／味覚によって1人または複数の人間のユーザの感覚を刺激してもよい。このようなヒューマンインタフェース出力装置は、触覚出力装置（例えば、タッチスクリーン510、データグローブ（図示せず）またはジョイスティック505による触覚フィードバックを含んでもよいが、入力装置として機能しない触覚フィードバック装置もあり得る）、オーディオ出力装置（スピーカ509、ヘッドホン（図示せず）など）、視覚出力装置（CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン510などであって、各々がタッチスクリーン入力機能の有無に関わらず、各々が触覚フィードバック機能の有無に関わらず、それらの一部は、ステレオグラフィック出力、仮想現実メガネ（図示せず）、ホログラフィックディスプレイおよび発煙タンク（図示せず）などの手段を通じて2次元視覚出力または3次元以上の出力が可能であり得る）およびプリンタ（図示せず）を含んでもよい。

コンピュータシステム500はまた、CD／DVDなどの媒体521を含むCD／DVD ROM／RW520を含む光学媒体、サムドライブ522、リムーバブルハードドライブまたはソリッドステートドライブ523、テープおよびフロッピーディスクなどのレガシー磁気媒体（図示せず）、ならびにセキュリティドングルなどの専用ROM／ASIC／PLDベースのデバイス（図示せず）など、人間がアクセス可能な記憶デバイスおよびそれらの関連媒体を含んでもよい。

当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波または他の一時的信号を包含しないことを理解すべきである。

コンピュータシステム500はまた、1つ以上の通信ネットワークへのインタフェースを含んでもよい。ネットワークは、例えば無線、有線、光通信のものであってもよい。ネットワークはさらに、ローカル、広域、メトロポリタン、車両および産業、リアルタイム、遅延耐性などにすることができる。ネットワークの例は、イーサネット、無線LANなどのローカルエリアネットワーク、GSM、3G、4G、5GおよびLTEなどを含むセルラネットワーク、ケーブルテレビ、衛星テレビおよび地上波放送テレビを含むテレビ有線または無線広域デジタルネットワーク、ならびにCANBusを含む車両および産業用のネットワークなどを含む。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス（549）（例えば、コンピュータシステム500のUSBポートなど）に取り付けられた外部ネットワークインタフェースアダプタを必要とし、他のものは、一般に、以下に説明するようにシステムバスへの取付けによってコンピュータシステム500のコアに統合される（例えば、PCコンピュータシステムへのイーサネットインタフェースまたはスマートフォンコンピュータシステムへのセルラネットワークインタフェースなど）。これらのネットワークのいずれかを使用して、コンピュータシステム500は他のエンティティと通信することができる。このような通信は、例えば、ローカルエリアデジタルネットワークまたは広域デジタルネットワークを使用して、他のコンピュータシステムに対して、単方向で受信のみ（例えば、放送テレビ）、単方向で送信のみ（例えば、特定のCANbusデバイスへのCANbus）、または双方向の通信とすることができる。特定のプロトコルおよびプロトコルスタックを、上述したように、それらのネットワークおよびネットワークインタフェースの各々で使用することができる。

前述のヒューマンインタフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインタフェースを、コンピュータシステム500のコア540に取り付けることができる。

コア540は、1つ以上の中央処理装置（CPU）541、グラフィック処理装置（GPU）542、フィールドプログラマブルゲートエリア（FPGA）543の形態の専用プログラマブル処理装置、および特定のタスク用のハードウェアアクセラレータ544などを含むことができる。これらのデバイスは、読み取り専用メモリ（ROM）545、ランダムアクセスメモリ546、ユーザがアクセスできない内蔵ハードドライブやSSDなどの内部大容量記憶装置547と共に、システムバス548を介して接続されてもよい。一部のコンピュータシステムでは、システムバス548は、追加のCPUおよびGPUなどによる拡張を可能にするために、1つまたは複数の物理プラグの形態でアクセスすることができる。周辺デバイスを、コアのシステムバス548に直接取り付けることができ、または周辺バス549を介して取り付けることもできる。周辺バスのアーキテクチャは、PCI、USBなどを含む。

CPU541、GPU542、FPGA543およびアクセラレータ544は、組み合わせて、前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードを、ROM545またはRAM546に記憶することができる。一時データもまた、RAM546に記憶することができる一方で、永久データは、例えば内部大容量記憶装置547に記憶することができる。任意のメモリデバイスへの高速記憶および検索は、1つまたは複数のCPU541、GPU542、大容量記憶装置547、ROM545およびRAM546などに密接に関連付けることができるキャッシュメモリの使用によって可能にすることができる。

コンピュータ可読媒体は、様々なコンピュータ実装動作を行うためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計され、かつ構築されたものとすることができ、またはコンピュータソフトウェア技術の当業者に、良く知られた利用可能な種類のものとすることができる。

一例として、限定するものではないが、アーキテクチャを有するコンピュータシステム500、具体的にはコア540は、1つまたは複数の有形のコンピュータ可読媒体で具体化されたソフトウェアを実行するプロセッサ（CPU、GPU、FPGA、アクセラレータなどを含む）の結果としての機能を提供することができる。このようなコンピュータ可読媒体は、上述のようなユーザがアクセス可能な大容量記憶装置、およびコア内部の大容量記憶装置547またはROM545などの非一時的な性質のコア540の特定の記憶装置に関連付けられる媒体とすることができる。本開示の様々な実施形態を実施するソフトウェアは、このようなデバイスに記憶することができ、コア540によって実行することができる。コンピュータ可読媒体は、特定の必要性に応じて、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア540、具体的にはその中のプロセッサ（CPU、GPU、FPGAなどを含む）に、RAM546に記憶されたデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を修正することとを含む、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。追加的または代替的に、コンピュータシステムは、ソフトウェアの代わりに、またはソフトウェアと共に動作し、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行することができる、回路内で配線または他の方法で具体化された論理（例えば、アクセラレータ544）の結果としての機能を提供することができる。ソフトウェアへの言及は論理を包含することができ、必要に応じてその逆も可能である。コンピュータ可読媒体への言及は、必要に応じて、実行のためにソフトウェアを記憶する回路（集積回路（IC）など）、実行のための論理を具体化する回路、またはその両方を包含することができる。本開示は、ハードウェアとソフトウェアとの任意の適切な組合せを包含する。

定義
シーングラフ：ベクトルベースのグラフィックス編集アプリケーションおよび最新のコンピュータゲームによって通常使用される一般的なデータ構造であって、グラフィックシーンの論理的かつ多くの場合（必ずしもそうとは限らないが）空間的なリプレゼンテーションを配置する。グラフ構造におけるノードおよび頂点の集合。

ノード：視覚、聴覚、触覚、嗅覚、味覚または関連する処理情報の論理的、空間的または時間的なリプレゼンテーションに関連する情報で構成されるシーングラフの基本要素。各ノードは、最大で1つの出力エッジ、0以上の入力エッジ、およびそれに接続された少なくとも1つのエッジ（入力または出力のいずれか）を有するものとする。

ベース層：通常、アセットをレンダリングするのに必要な計算リソースもしくは時間、またはネットワークを介してアセットを送信する時間を最小限に抑えるように定式化された、アセットの公称リプレゼンテーション。

強調層：アセットのベース層リプレゼンテーションに適用される場合に、ベース層でサポートされていない機能または能力を含むようにベース層を拡張する情報のセット。

属性：基準形式またはより複雑な形式（例えば、別のノードに関して）のいずれかでそのノードの特定の特性または特徴を記述するために使用されるノードに関連付けられたメタデータ。

コンテナ：シーングラフおよびシーンのレンダリングに必要な全てのメディアリソースを含む全ての自然シーン、全ての合成シーン、または合成シーンと自然シーンとの組合せを表すための情報を記憶し、かつ交換するための直列化フォーマット。

シリアライゼーション：データ構造またはオブジェクト状態を、記憶（例えば、ファイルバッファまたはメモリバッファ）するかまたは送信（例えば、ネットワーク接続リンクを介して）し、後で（場合によっては異なるコンピュータ環境で）再構築することができるフォーマットに変換するプロセス。結果として得られた一連のビットが直列化フォーマットに従って再読み取りされると、それを使用して、元のオブジェクトの意味的に同一のクローンを作成することができる。

レンダラ：音響物理学、光物理学、視覚的知覚、聴覚的知覚、数学およびソフトウェア開発に関連する分野の選択的な組合せに基づく（通常はソフトウェアベースの）アプリケーションまたはプロセスであり、入力シーングラフおよびアセットコンテナが与えられると、対象デバイス上でのプレゼンテーションに適した、またはシーングラフ内のレンダリング対象ノードの属性によって指定される所望の特性に適合した、典型的な視覚信号および／またはオーディオ信号を発する。視覚ベースのメディアアセットの場合、レンダラは、対象ディスプレイに適した、または（例えば、別のコンテナに再パッケージ化され、すなわちグラフィックパイプラインの一連のレンダリングプロセスで使用される）中間アセットとしての記憶に適した視覚信号を発してもよく、オーディオベースのメディアアセットの場合、レンダラは、マルチチャネルラウドスピーカおよび／またはバイノーラル化されたヘッドホンでのプレゼンテーションのために、または別の（出力）コンテナに再パッケージ化するために、オーディオ信号を発してもよい。レンダラの一般的な例には、Unity、Unrealが含まれる。

評価：出力を要約から具体的な結果に移動させる結果（例えば、ウェブページのためのドキュメント・オブジェクト・モデルの評価と同様）を生成する。

スクリプト言語：空間および時間オブジェクトトポロジ（物理的な力、制約、IK、変形、衝突を含む）、ならびにエネルギー伝搬および伝送（光、音）のレンダリングおよび評価に影響を及ぼす、シーングラフノードに対して行われる動的入力および可変状態変更を処理するために、実行時にレンダラによって実行することができる解釈されたプログラミング言語。

シェーダ：シェーディング（画像内の適切なレベルの光、暗さおよび色の生成）に元々使用されていたが、現在はコンピュータグラフィックス特殊効果の様々な分野で様々な特殊な機能を実行するか、シェーディングとは無関係のビデオ後処理を行うか、またはグラフィックスとは無関係の機能さえ実行するコンピュータプログラムの種類。

パス追跡：シーンの照明が現実に忠実になるように3次元シーンをレンダリングするコンピュータグラフィックス方法。

タイムドメディア：時間によって順序付けられるメディアであって、例えば、特定のクロックに従って開始時間および終了時間を含む。

非タイムドメディア：例えば、ユーザが行った動作に従って実現される対話型エクスペリエンスのように、空間的、論理的または時間的な関係によって編成されたメディアである。

いくつかの実施形態は、任意の可能な技術的詳細レベルの統合におけるシステム、方法および／またはコンピュータ可読媒体に関してもよい。コンピュータ可読媒体は、プロセッサに動作を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読非一時的記憶媒体（複数可）を含んでもよい。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持し、かつ記憶することができる有形のデバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、またはこれらの任意の適切な組合せであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例を非網羅的に挙げると、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（RAM）、読み取り専用メモリ（ROM）、消去可能なプログラム可能読み取り専用メモリ（EPROMまたはフラッシュメモリ）、スタティックランダムアクセスメモリ（SRAM）、ポータブルコンパクトディスク読み取り専用メモリ（CD－ROM）、デジタル多用途ディスク（DVD）、メモリスティック、フロッピーディスク、命令が記録されたパンチカードまたは溝内の隆起構造などの機械的に符号化されたデバイス、ならびにこれらの任意の適切な組合せが挙げられる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体（例えば、光ファイバケーブルを通過する光パルス）を伝搬する電磁波、またはワイヤを介して伝送される電気信号などの一時的な信号自体であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークを介して外部コンピュータもしくは外部記憶装置を介してそれぞれのコンピューティング／処理デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータおよび／またはエッジサーバを含んでもよい。各コンピューティング／処理デバイス内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。

動作を実行するためのコンピュータ可読プログラムコード／命令は、アセンブラ命令、命令セットアーキテクチャ（ISA）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、あるいはSmalltalk、C＋＋などのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは同様のプログラミング言語などの手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで記述されたソースコードまたはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上で、部分的にリモートコンピュータ上で、または完全にリモートコンピュータもしくはサーバ上で実行してもよい。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（LAN）または広域ネットワーク（WAN）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてもよく、または外部コンピュータに（例えば、インターネットサービスプロバイダを使用してインターネットを介して）接続されてもよい。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（FPGA）、またはプログラマブル論理アレイ（PLA）を含む電子回路は、態様または動作を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をカスタマイズすることによってコンピュータ可読プログラム命令を実行することができる。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されて、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートおよび／またはブロック図の1つまたは複数のブロックで指定された機能／動作を実施するための手段を作成するように、機械を製造してもよい。これらのコンピュータ可読プログラム命令はまた、記憶された命令を有するコンピュータ可読記憶媒体が、フローチャートおよび／またはブロック図の1つまたは複数のブロックで指定された機能／動作の態様を実施する命令を含む製品を含むように、コンピュータ、プログラム可能なデータ処理装置、および／または他のデバイスに特定の方法で機能するように指示することができるコンピュータ可読記憶媒体に記憶されてもよい。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラム可能な装置、または他のデバイス上で実行される命令が、フローチャートおよび／またはブロック図の1つまたは複数のブロックで指定された機能／動作を実施するように、一連の動作ステップをコンピュータ、他のプログラム可能な装置、または他のデバイス上で実行させて、コンピュータ実装プロセスを生成してもよい。

図のフローチャートおよびブロック図は、様々な実施形態によるシステム、方法、およびコンピュータ可読媒体の可能な実施態様のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表してもよい。方法、コンピュータシステムおよびコンピュータ可読媒体は、図に示すものと比べて、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。いくつかの代替的な実施態様では、ブロックに記載された機能は、図に記載された順序とは異なる順序で行われてもよい。例えば、連続して示される2つのブロックは、実際には、同時にまたは実質的に同時に実行されてもよく、またはブロックは、関連する機能に応じて、時には逆の順序で実行されてもよい。また、ブロック図および／またはフローチャート図の各ブロック、ならびにブロック図および／またはフローチャート図のブロックの組合せは、指定された機能または動作を実行するか、専用ハードウェアとコンピュータ命令との組合せを実行する、専用ハードウェアベースのシステムによって実施されてもよいことにも留意されたい。

本明細書に記載のシステムおよび／または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組合せの異なる形態で実施されてもよいことは明らかであろう。これらのシステムおよび／または方法を実施するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実施態様を限定するものではない。したがって、システムおよび／または方法の動作および挙動は、特定のソフトウェアコードに言及することなく本明細書に記載されており、ソフトウェアおよびハードウェアは、本明細書の記載に基づいてシステムおよび／または方法を実施するように設計されてもよいことが理解される。

本明細書で使用される要素、動作または命令は、そのように明示的に記載されていない限り、重要または必須であると解釈されるべきではない。また、本明細書で使用される場合、冠詞「a」および「an」は、1つまたは複数の項目を含むことを意図しており、「1つまたは複数」と交換可能に使用されてもよい。さらに、本明細書で使用される場合、「セット」という用語は、1つまたは複数の項目（例えば、関連項目、無関係な項目、関連項目と無関係な項目との組合せなど）を含むことを意図しており、「1つまたは複数」と互換的に使用されてもよい。1つの項目のみが意図される場合、「1つ」という用語または同様の用語が使用される。また、本明細書で使用される場合、「有する（has）」、「有する（have）」、「有する（having）」などの用語は、制約のない用語であることを意図している。さらに、「に基づいて」という語句は、特に明記しない限り、「少なくとも部分的に、基づいて」を意味することを意図している。

様々な態様および実施形態の説明を例示の目的で提示してきたが、網羅的であること、または開示された実施形態に限定されることを意図するものではない。特徴の組合せが特許請求の範囲に記載され、および／または本明細書に開示されているが、これらの組合せは、可能な実施態様の開示を限定することを意図するものではない。実際、これらの特徴の多くは、特許請求の範囲に具体的に記載されていない方法、および／または明細書に開示されていない方法で組み合わされてもよい。以下に列挙される各従属請求項は1つの請求項のみに直接従属してもよいが、可能な実施態様の開示は、各従属請求項を請求項セット内の他の全ての請求項と組み合わせて含む。記載された実施形態の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の用途または市場で見られる技術に対する技術的改善を最良に説明するために、または当業者が本明細書に開示する実施形態を理解することを可能にするために選択された。

101A カメラまたはマイク
101B コンピュータ
102 シーケンス
103 準備モジュール
104 コンバータモジュール
105 アダプテーションモジュール
106 コンテンツ配信ネットワーク
107A～107C メディアアダプテーション
108A～108C クライアント
201A～201C CDN
202 MPD
203A、203B 期間
204A～204C アダプテーションセット
205 リプレゼンテーション
206 セグメントファイル
301、401 シーン
302、402 コンポーネント
303、403 アセット
304、404 ベース層
305、405 属性強調層
401 シーン情報、シーン
500 コンピュータシステム
501 キーボード
502 マウス
503 トラックパッド
505 ジョイスティック
506 マイク
507 スキャナ
508 カメラ
510 タッチスクリーン
520 CD／DVD ROM／RW
521 媒体
522 サムドライブ
523 リムーバブルハードドライブまたはソリッドステートドライブ
540 コア
541 中央処理装置（CPU）
542 グラフィック処理装置（GPU）
543 フィールドプログラマブルゲートエリア（FPGA）
544 ハードウェアアクセラレータ
545 ROM
546 RAM
547 内部大容量記憶装置
549 周辺バス
549 周辺バス

Claims

プロセッサによって実行可能な、ビデオコンテンツを表示する方法であって、
複数のオブジェクトのリアルタイムレンダリングを可能にするためにプレゼンテーションエンジンへのインタフェースを作成するステップであって、前記複数のオブジェクトは複数のシーングラフを介して論理的に一緒に編成され、前記複数のシーングラフにはメディア交換フォーマットが編成される、ステップと、
リプレゼンテーションエンジンへのインタフェースを介して前記複数のシーングラフのジオメトリ情報を更新するステップと、
前記複数のオブジェクトを、前記メディア交換フォーマットを使用して前記複数のシーングラフの中から各シーングラフ内のヘテロジニアスの視覚幾何学的オブジェクトの多重解像度または多重モザイク化に基づいてストリーミングするステップと
を含む、方法。
前記メディア交換フォーマットは、
複数の聴覚、触覚、嗅覚および味覚のオブジェクトの各々のシーングラフ情報をさらに含み、前記シーングラフ情報は、前記複数の視覚幾何学的オブジェクトとの論理的関係、空間的関係および時間的関係のうちの1つまたは複数を確立する、請求項1に記載の方法。
特定のシーングラフのジオメトリ情報を更新するステップをさらに含み、
更新する前記ステップは、前記特定のシーングラフの多重解像度リプレゼンテーションにおいて前記複数のオブジェクトの解像度を上げることを含む、請求項2に記載の方法。
前記リプレゼンテーションエンジンへの前記インタフェースを介して前記シーングラフ内の前記複数のオブジェクトと対話するステップ
をさらに含む、請求項2に記載の方法。
前記リプレゼンテーションエンジンへの前記インタフェースを介してカメラの位置を更新するステップ
をさらに含む、請求項2に記載の方法。
シーングラフ内に没入型メディアのリプレゼンテーションを作成するステップであって、前記シーングラフは、没入型メディアの個々の形態とヘテロジニアスの形態との間の論理的、空間的、および時間的関係を作成し、前記リプレゼンテーションは、視覚、聴覚、触覚、味覚および臭覚を含む人間の感覚系のうちの1つまたは複数との対話または刺激を行うことができるメディアを含む、ステップ
をさらに含む、請求項1に記載の方法。
シーングラフ内のシーン内で参照される各幾何学的オブジェクトを、ネットワーク内でリソースがアクセス可能なアドレスを指すトークンと関連付けるステップ
をさらに含む、請求項1に記載の方法。
前記トークンは汎用リソース識別子（URI）を含む、請求項7に記載の方法。
前記リソースのコンテンツは、前記URIを介してアクセスすることによってクライアントによって取り込まれる、請求項8に記載の方法。
前記トークンは、（1）前記ネットワーク内の位置、および（2）前記クライアント内の位置のうちの1つを指す、請求項7に記載の方法。
前記クライアントは、そのリソースがネットワークベースのメディア処理のために前記ネットワークに利用可能であることに応答して、前記ネットワークにシグナリングする、請求項10に記載の方法。
前記ネットワークまたは前記クライアント内に存在するストリーミング可能な幾何学的オブジェクトのためのネットワーク提供リプレゼンテーションを作成するステップをさらに含み、前記ネットワーク提供リプレゼンテーションは複数のシーン境界にわたって持続する、
請求項1に記載の方法。
前記ネットワークによって管理される前記クライアント上に存在する前記ストリーミング可能な幾何学的オブジェクトに応答して、前記ネットワークは、前記ストリーミング可能な幾何学的オブジェクトの持続性および可用性を管理する、請求項12に記載の方法。
ネットワークAPIおよびクライアントAPIのセットを使用してOpenXRアプリケーション・プログラミング・インタフェース（API）をカプセル化するステップと、
ユーザからの対話を取り込むステップと、
前記カプセル化されたOpenXR APIを使用して取り込まれた前記ユーザからの前記対話に応答するステップと
をさらに含む、請求項1に記載の方法。
前記対話は、前記ユーザの頭の動き、およびグローブとの触覚対話のうちの一方を含む、請求項14に記載の方法。
前記クライアントが前記シーングラフを受信する前に、ネットワーク・メディア・リソース・マネージャによって、ネットワーク内の特定の位置にあるシーングラフ内の幾何学的オブジェクトの特定のリプレゼンテーションの可用性を維持するステップであって、前記シーングラフは前記幾何学的オブジェクトの前記特定のリプレゼンテーションを参照する、ステップ
をさらに含む、請求項1に記載の方法。
前記ネットワーク・メディア・リソース・マネージャによって、前記ネットワークに接続された前記クライアントによって消費された前記幾何学的オブジェクトのリプレゼンテーションへの1つまたは複数の参照を維持するステップ
をさらに含む、請求項16に記載の方法。
特定のメディアリソースと関連付けられた複数の参照の全てが削除されたと判定するステップと、
前記特定のメディアリソースに関連付けられた前記複数の参照の全てが削除されたという判定に応答して、前記ネットワーク・メディア・リソース・マネージャによってキャッシュリソースをクリアするステップと
をさらに含む、請求項17に記載の方法。
ビデオコンテンツを表示するためのコンピュータシステムであって、前記コンピュータシステムは、
コンピュータプログラムコードを記憶するように構成された1つまたは複数のコンピュータ可読非一時的記憶媒体と、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって命令に従って動作するように構成された1つまたは複数のコンピュータプロセッサと
を備え、前記コンピュータプログラムコードは、
前記1つまたは複数のコンピュータプロセッサに、複数のオブジェクトのリアルタイムレンダリングを可能にするプレゼンテーションエンジンへのインタフェースを作成させるように構成されたコードを作成するステップであって、前記複数のオブジェクトは複数のシーングラフを介して論理的に一緒に編成され、前記複数のシーングラフにはメディア交換フォーマットが編成される、ステップと、
前記1つまたは複数のコンピュータプロセッサに、リプレゼンテーションエンジンへのインタフェースを介して前記複数のシーングラフのジオメトリ情報を更新させるように構成されたコードを更新するステップと、
前記1つまたは複数のコンピュータプロセッサに、前記複数のオブジェクトを、前記メディア交換フォーマットを使用して前記複数のシーングラフの中から各シーングラフ内のヘテロジニアスの視覚幾何学的オブジェクトの多重解像度または多重モザイク化に基づいてストリーミングさせるように構成されたコードをストリーミングするステップと
を含む、コンピュータシステム。
ビデオコンテンツを表示するためのコンピュータプログラムを記憶した非一時的コンピュータ可読媒体であって、前記コンピュータプログラムは、1つまたは複数のコンピュータプロセッサに、
複数のオブジェクトのリアルタイムレンダリングを可能にするためにプレゼンテーションエンジンへのインタフェースを作成するステップであって、前記複数のオブジェクトは複数のシーングラフを介して論理的に一緒に編成され、前記複数のシーングラフにはメディア交換フォーマットが編成される、ステップと、
リプレゼンテーションエンジンへのインタフェースを介して前記複数のシーングラフのジオメトリ情報を更新するステップと、
前記複数のオブジェクトを、前記メディア交換フォーマットを使用して前記複数のシーングラフの中から各シーングラフ内のヘテロジニアスの視覚幾何学的オブジェクトの多重解像度または多重モザイク化に基づいてストリーミングするステップと
を行わせる、非一時的コンピュータ可読媒体。