JP2023544383A - 制御及びデータプレーンチャネルを使用した双方向プレゼンテーションデータストリーム - Google Patents

制御及びデータプレーンチャネルを使用した双方向プレゼンテーションデータストリーム Download PDF

Info

Publication number
JP2023544383A
JP2023544383A JP2023520279A JP2023520279A JP2023544383A JP 2023544383 A JP2023544383 A JP 2023544383A JP 2023520279 A JP2023520279 A JP 2023520279A JP 2023520279 A JP2023520279 A JP 2023520279A JP 2023544383 A JP2023544383 A JP 2023544383A
Authority
JP
Japan
Prior art keywords
media
client device
client
messages
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023520279A
Other languages
English (en)
Inventor
ヒンズ,アリアンヌ
ウェンジャー,ステファン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023544383A publication Critical patent/JP2023544383A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/633Control signals issued by server directed to the network components or client
    • H04N21/6332Control signals issued by server directed to the network components or client directed to client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/637Control signals issued by the client directed to the server or network components
    • H04N21/6377Control signals issued by the client directed to the server or network components directed to server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/64322IP
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6582Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8586Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本開示の態様は、メディア処理のための方法及び装置を提供する。いくつかの実施例において、装置は処理回路を含む。処理回路は、第1トランスポートプロトコルを使用する制御プレーンチャネルの上で、サーバデバイスと、複数の制御メッセージを交換できる。複数の制御メッセージは、イマーシブメディア配信のための双方向プロトコルの制御プレーンに属する。処理回路は、サーバデバイスから、第2トランスポートプロトコルを使用する第1データプレーンチャネルの上で、第1の複数のデータメッセージを受信する。第1の複数のデータメッセージは、双方向プロトコルのデータプレーンに属し、イマーシブメディアコンテンツを搬送する。処理回路は、第1の複数のデータメッセージによって搬送されるイマーシブメディアコンテンツを提示する。

Description

参照による援用
本出願は、2022年6月28日に出願された米国特許出願第17/851,838号 「BIDIRECTIONAL PRESENTATION DATASTREAM USING CONTROL AND DATA PLANE CHANNELS」 に基づく優先権の利益を主張するものであり、同出願は、2021年6月30日に出願された米国仮出願第63/217,049号 「INTELLIGENT BIDIRECTIONAL PRESENTATION DATASTREAM USING CONTROL AND DATA PLANE CHANNELS」 に基づく優先権の利益を主張するものである。先の出願の開示は、その全体が参照により本明細書に組み込まれる。
技術分野
本開示は、概してメディア処理及び配信に関連する実施形態について説明する。
本明細書で提供される背景説明は、本開示のコンテキストを全般的に提示するためのものである。現在挙げられている発明者の研究は、その研究がこの背景部分に記載されている範囲において、また、出願時に他の点では先行技術として適格でないかもしれない説明の側面において、本開示に対する先行技術として明示的にも黙示的にも認められていない。
イマーシブメディアとは、概して、時間指定された2次元(2D)ビデオ及び対応するオーディオのために既存の商用ネットワーク上に配信されるものを超えて、メディアの経験の中に物理的に存在するユーザーの知覚を作成又は強化するために、任意又はすべての人間の感覚システム(視覚、聴覚、体性感覚、嗅覚、及びおそらく味覚)を刺激するメディアを指し、これは「レガシーメディア」として知られている。イマーシブメディアとレガシーメディアはどちらも、時間指定又は非時間指定のいずれかとして特徴付けられる。
タイムドメディア又は時間指定メディア(Timed media)とは、時間に応じて構造化され提示されるメディアを指す。例えば、ムービーフィーチャ、ニュースレポート、エピソードコンテンツなどがあり、いずれも時間に応じて編成されています。レガシービデオ及びオーディオは、概してタイムドメディアと見なされる。
アンタイムドメディア又は非時間指定メディア(Untimed media)とは、時間によって構造化されていないが、論理的、空間的、及び/又は時間的な関係によって構造化されているメディアのことである。例えば、ユーザーがゲームデバイスによって作成された経験の制御を有するビデオゲームを含む。アンタイムドメディアの別の例は、カメラによって撮影された静止画像写真である。アンタイムドメディアは、例えば、ビデオゲームのシーンの連続的にループされたオーディオ又はビデオセグメントに、タイムドメディアを組み込み得る。逆に、タイムドメディアは、例えば、固定静止画像を背景にしたビデオなどのアンタイムドメディアを組み込み得る。
イマーシブメディア対応デバイスは、イマーシブメディアにアクセスし、解釈し、提示する機能を備えたデバイスを指し得る。かかるメディア及びデバイスは、メディアの量と形式、及び、かかるメディアを大規模に配布するために必要な、つまり、ネットワーク上でレガシービデオ及びオーディオメディアと同等の配布を実現するために、必要なネットワークリソースの数及び種類に関して、異質なものである。対照的に、ラップトップのディスプレイ、テレビ及びモバイルハンドセットディスプレイなどのレガシーデバイスは、これらのデバイスのすべてが長方形のディスプレイ画面で構成されており、主要なメディア形式として2Dの長方形のビデオ又は静止画像を消費するため、その機能に関して均質なものである。
本開示の態様は、メディア処理のための方法及び装置を提供する。いくつかの実施例において、装置は処理回路を含む。処理回路は、第1トランスポートプロトコルを使用する制御プレーンチャネルの上で、サーバデバイスと、複数の制御メッセージを交換できる。複数の制御メッセージは、イマーシブメディア配信のための双方向プロトコルの制御プレーンに属する。処理回路は、サーバデバイスから、第2トランスポートプロトコルを使用する第1データプレーンチャネルの上で、第1の複数のデータメッセージを受信する。第1の複数のデータメッセージは、双方向プロトコルのデータプレーンに属し、イマーシブメディアコンテンツを搬送する。処理回路は、第1の複数のデータメッセージによって搬送されるイマーシブメディアコンテンツを提示する。
いくつかの実施例において、第1トランスポートプロトコルは、トランスミッション制御プロトコル(TCP)であり、第2トランスポートプロトコルは、ユーザーデータグラムプロトコル(UDP)である。
いくつかの実施例において、第1トランスポートプロトコルは、コネクションベースのトランスポートプロトコルであり、第2トランスポートプロトコルは、コネクションレスのトランスポートプロトコルである。
いくつかの実施形態では、処理回路は、制御プレーンチャネルの上で交換される複数の制御メッセージにしたがって、サーバデバイスを有する前記第1データプレーンチャネルを設定する。
いくつかの実施例において、処理回路は、装置の1つ以上の特定の特性を、制御プレーンチャネルの上でサーバデバイスに提供する。1つ以上の特定の特性は:装置の計算リソース; 装置のストレージリソース; 装置でのネットワークサービスプロバイダのサービスレベルの契約; イマーシブアプリケーション要件; 装置の種類;装置のモデル;装置のニューラルネットワークモデル;のうちの少なくとも1つを含む。
いくつかの実施例において、処理回路は、第2トランスポートプロトコルを使用する第2データプレーンチャネルの上で、第2の複数のデータメッセージをサーバデバイスに送信する。第2の複数のデータメッセージは、装置におけるニューラルネットワークモデルのレイヤ情報及び装置によってレンダリングされたメディアコンテンツのうちの少なくとも1つを搬送する。
いくつかの実施形態では、装置は、第1クライアントデバイスであり、複数の制御メッセージは、サーバデバイスが第2のクライアントデバイスとイマーシブメディアコンテンツを共有できるようにする。実施例において、処理回路は、サーバデバイスからの要求に応じて、制御プレーンチャネルを介して、不変のストレージにキャッシュされたアセットのユニフォームリソース識別子(URI)と、共有可能なアセットの種類とのリストを提供する。他の実施例において、処理回路は、サーバデバイスからの要求に応じて、制御プレーンチャネルを介して、第1クライアントデバイスによってアクセス可能である各アセットのステータスアップデートを提供する。他の実施例において、処理回路は、サーバデバイスからの要求に応じて、制御プレーンチャネルを介して、特定のアセットタイプの現在ステータスと、特定のサーバ割り当て識別子及び特定のアセットユニフォームリソース識別子(URI)のうちの1つと、を提供する。
本開示の態様はまた、コンピュータによって実行されると、メディア処理のための方法をコンピュータに実行させる命令を格納する非一時的コンピュータ可読媒体を提供する。
開示された主題のさらなる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。
図1は、一実施例におけるタイムドメディア配信のエンドツーエンドプロセスを示す図である。 図2は、一実施例におけるタイムドメディアのストリーミングに使用される標準的なメディアフォーマットを示す図である。 図3は、いくつかの実施例における時間指定イマーシブメディアの表現及びストリーミングのためのデータモデルを示す図である。 図4は、いくつかの実施例における非時間指定イマーシブの表現及びストリーミングのためのデータモデルの線図である。 図5は、自然なシーンをキャプチャし、いくつかの実施例における異種クライアントのエンドポイントを提供するネットワークの取り込みフォーマットとして使用できる表現に変換するプロセスを示す図である。 図6は、いくつかの実施例における異種クライアントのエンドポイントを提供するネットワークの取り込みフォーマットとして使用できる合成シーンの表現を作成するために、3次元(3D)モデリングツール及びフォーマットを使用するプロセスを示す図である。 図7は、いくつかの実施例において、複数の異種クライアントエンドポイントを提供するネットワークを示す図である。 図8は、いくつかの実施例において、特定のイマーシブメディアクライアントエンドポイントによる消費のためにメディアを適応するネットワークのプロセスの前に、メディア取り込みフォーマットで表される特定のメディアに関する適応情報を提供するネットワークを示す図である。 図9は、いくつかの実施例において、ソースメディアを取り込みフォーマットから特定のクライアントエンドポイントに適した特定のフォーマットに変換するメディアレンダリング変換を含むメディア適応プロセスのシステム図を示す図である。 図10は、いくつかの実施例において、適応されたソースメディアを表現及びストリーミングに適したデータモデルにフォーマットするネットワークを示す図である。 図11は、いくつかの実施例において、図11のデータモデルをネットワークプロトコルパケットのペイロードに分解するメディアストリーミングプロセスのシステムを示す図である。 図12は、いくつかの実施例において、特定のイマーシブメディアクライアントのエンドポイントに対して、取り込みフォーマットの特定のイマーシブメディアを、ストリーミング可能で適切な配信フォーマットに適応させるネットワークのシーケンスを示す図である。 図13は、いくつかの実施例における取り込みメディアフォーマットの図である。 図14は、いくつかの実施例において、コード化されたビデオストリームとともにニューラルネットワークモデル情報の搬送を示す図である。 図15は、いくつかの実施例において、入力イマーシブメディア及びアセットとともにニューラルネットワークモデル情報の搬送を示す図である。 図16Aは、いくつかの実施例において、イマーシブメディア配信のための双方向プロトコルを使用して、サーバ側からクライアント側に送信されるメッセージの図を示す。 図16Bは、いくつかの実施例において、イマーシブメディア配信のための双方向プロトコルを使用して、サーバ側からクライアント側に送信されるメッセージの図を示す。 図16Cは、いくつかの実施例において、イマーシブメディア配信のための双方向プロトコルを使用して、クライアント側からサーバ側に送信されるメッセージの図を示します。 図17Aは、いくつかの実施例において、サーバ側からクライアント側に送信されるメッセージの定義を示す図である。 図17Bは、いくつかの実施例において、サーバ側からクライアント側に送信されるメッセージの定義を示す図である。 図17Cは、いくつかの実施例において、サーバ側からクライアント側に送信されるメッセージの定義を示す図である。 図17Dは、いくつかの実施例において、サーバ側からクライアント側に送信されるメッセージの定義を示す図である。 図17Eは、いくつかの実施例において、サーバ側からクライアント側に送信されるメッセージの定義を示す図である。 図17Fは、いくつかの実施例において、サーバ側からクライアント側に送信されるメッセージの定義を示す図である。 図17Gは、いくつかの実施例において、サーバ側からクライアント側に送信されるメッセージの定義を示す図である。 図18は、いくつかの実施例において、クライアント側からサーバ側に送信されるメッセージの定義を示す図である。 図19Aは、別個の制御プレーンチャネル及びデータプレーンチャネル上で双方向プレゼンテーションデータストリームを示す図である。 図19Bは、別個の制御プレーンチャネル及びデータプレーンチャネル上で双方向プレゼンテーションデータストリームを示す図である。 図19Cは、別個の制御プレーンチャネル及びデータプレーンチャネル上で双方向プレゼンテーションデータストリームを示す図である。 図19Dは、別個の制御プレーンチャネル及びデータプレーンチャネル上で双方向プレゼンテーションデータストリームを示す図である。 図19Eは、別個の制御プレーンチャネル及びデータプレーンチャネル上で双方向プレゼンテーションデータストリームを示す図である。 図20は、いくつかの実施例において、イマーシブメディアの配信のために、別個の制御プレーンチャネル及びデータプレーンチャネル上で双方向プロトコルを使用するメディアシステムを示す図である。 図21は、本開示のいくつかの実施形態によるプロセスの概概説するフローチャートを示す図である。 図22は、本開示のいくつかの実施形態による、他のプロセスを概説するフローチャートを示す図である。 図23は、一実施形態によるコンピュータシステムを概略的に示す図である。
本開示の態様は、別個のデータプレーンチャネルと制御プレーンチャネルの上で双方向プレゼンテーションデータストリームのための技術を提供する。本開示は、一般に、ビデオ、オーディオ、幾何学的(3D)オブジェクト、触覚、関連するメタデータ、又はクライアントプレゼンテーションデバイスのためのその他のコンテンツを含むメディアを配布するシステム及びネットワークのためのアーキテクチャ、構造及びコンポーネントに関連する実施形態について説明する。いくつかの実施形態は、異種のイマーシブ及びインタラクティブなクライアントプレゼンテーションデバイスにメディアコンテンツを配布するためのシステム、構造、及びアーキテクチャに向けられている。
イマーシブメディアとは、一般に、メディアの経験野中に物理的に存在するユーザーの知覚を作成又は強化するために、任意又はすべての人間の感覚システム(視覚、聴覚、体性感覚、嗅覚、そしておそらく味覚)を刺激するメディアを指し、つまり、「レガシーメディア」として知られる、時間指定された2次元(2D)ビデオ及び対応するオーディオのために既存の商用ネットワーク上で配布されるものを超えている。イマーシブメディアとレガシーメディアはどちらも、時間指定されたメディア又は時間指定されていないメディアとして特徴付けられる。
タイムドメディアは、時間にしたがって構造化され提示されるメディアを指す。例えば、動画フィーチャ、ニュースレポート、エピソードコンテンツなどが含まれ、いずれも時間にしたがって編成されている。レガシービデオ及びオーディオは、概してタイムドメディアと見なされる。
アンタイムドメディア又は非時間指定メディアとは、時間によって構造化されていないメディアのことであるが、論理的、空間的及び/又は時間的な関係によって構造化されている。例えば、ユーザーがゲームデバイスによって作成された経験を制御できるビデオゲームが含まれる。アンタイムドメディアの別の例として、カメラによって撮影された静止画像写真があります。アンタイムドメディアは、例えば、ビデオゲームのためのシーンの連続的にループされたオーディオ又はビデオセグメントにタイムドメディアを組み込み得る。逆に、タイムドメディアは、例えば、固定静止画像を背景にしたビデオなどのアンタイムドメディアを組み込み得る。
イマーシブメディア対応デバイスは、イマーシブメディアにアクセスし、解釈し、提示する機能を備えたデバイスを指し得る。かかるメディア及びデバイスは、メディアの量と形式、及び、かかるメディアを大規模に配布するために必要な、つまり、ネットワーク上でレガシービデオ及びオーディオメディアと同等の配布を実現するために、必要なネットワークリソースの数及び種類に関して、異質なものである。対照的に、ラップトップのディスプレイ、テレビ、移動式ハンドセットのディスプレイ等のレガシーバイスは、これらのデバイスのすべてが長方形のディスプレイ画面で構成されており、主要なメディア形式として2 Dの長方形のビデオ又は静止画像を消費するため、その機能は均質なものである。同様に、レガシーデバイスにおいてサポートされるオーディオフォーマット数は、比較的少数のセットに限られている。
ネットワーク上の任意のメディアの配信では、メディア配信システムとアーキテクチャを採用することができ、メディアを入力又はネットワーク取り込み形式から最終的な配信形式に再フォーマットし、その配信形式は、対象のクライアントデバイスとそのアプリケーションに適しているだけでなく、ネットワーク上でストリーミングされるのにも適している。メディアのストリーミングとは、広くは、メディアの時間的又は空間的構造のいずれか又は両方に従って論理的に編成及びシーケンスされた、連続した小さいサイズの「チャンク」で、メディアをネットワーク上で配信できるように、ソースメディアを細分化(fragmenting)及びパケット化することを指す。このような配信アーキテクチャ及びシステムでは、最も顕著なメディア情報のみが最初にクライアントに配信されるように、メディアが圧縮又は階レイヤ化プロセスを受ける場合がある。場合によっては、クライアントがエンドユーザーに同じメディア部分のいずれかを提示できる前に、クライアントがメディアの一部のための顕著なメディア情報を全て受信することがある。
ターゲットクライアントエンドポイントの能力に適合する(to match the capabilitie)ように入力メディアを再フォーマットするプロセスでは、再フォーマット注の特定のメディアの事前知識をカプセル化し得るネットワークモデルを使用するニューラルネットワークプロセスを採用することがある。例えば、特定のモデルは、屋外の公園のシーン(公園のシーンに共通する木、植物、草、その他のオブジェクトを有する)を認識するように、チューニングされることがあるが、別の特定のモデルは、屋内のディナーシーン(ディナーテーブル、給仕用具、テーブルに座っている人などを有する)を認識するようにチューニングされることもある。いくつかの実施例では、ネットワークモデルを特定のコンテキストからのオブジェクト、例えば、公園シーンのオブジェクトを認識するようにチューニングでき、特定のシーンのコンテンツに一致するようにチューニングされたネットワークモデルを備えるニューラルネットワークプロセスは、そのようにチューニングされていないネットワークモデルよりも優れた視覚的結果を生成できる。したがって、ターゲットクライアントエンドポイントの能力に適合するように入力メディアを再フォーマットすることをタスクとするニューラルネットワークプロセスに、シーン固有のネットワークモデル(scene-specific network models)を提供する利点がある。
2次元(2D)メディアの特定のシーンにニューラルネットワークモデルを関連付けるメカニズムは、例えば、ネットワークモデルを圧縮し、圧縮したネットワークモデルを、例えば、H.264、H.265、及びH.266ビデオ圧縮フォーマットでコード化されたビデオストリームにメタデータを添付するために一般的に使用される補足強化情報(SEI)構造化フィールドを使用して、視覚シーンの2Dコード化ビットストリームに直接挿入することによって実現できる。コード化されたビデオビットストリームの一部のコンテキスト内の特定のニューラルネットワークモデルを含むSEIメッセージが存在することは、ネットワークモデルが、モデルが埋め込まれているビットストリームの部分内のビデオコンテンツを解釈し、適応させるために使用されるべきことを示すために使用され得る。いくつかの実施例では、SEIメッセージは、実際のモデル自体が存在しない場合に、ネットワークモデルのための識別子によって、どのニューラルネットワークモデルが使用されるかをシグナリングするために使用され得る。
イマーシブメディアに適切なニューラルネットワークを関連付けるメカニズムは、使用すべき適切なニューラルネットワークモデルを参照するイマーシブメディア自体によって達成されることがある。この参照は、ネットワークモデルとそのパラメータを、オブジェクトベース又はシーン毎ベースによって、或いはそれらの何らかの組み合わせによって、オブジェクトに直接埋め込むことによって達成されることがあるる。いくつかの実施例では、メディア内に1つ以上のニューラルネットワークモデルを埋め込むのではなく、メディアオブジェクト又はシーンが識別子によって特定のニューラルネットワークモデルを参照することがある
他のいくつかの例では、クライアントエンドポイントへのストリーミングのためのメディアを適応するために適切なニューラルネットワークを参照するメカニズムは、特定のクライアントエンドポイント自体が、使用すべき適応プロセスに少なくとも1つのニューラルネットワークモデルと対応するパラメータを提供することである。かかるメカニズムは、例えば、クライアントが自身をネットワークに接続するときに、クライアントが適応プロセスと通信して(1つ以上の)ニューラルネットワークモデルを提供することによって実装することができる。
ターゲットクライアントエンドポイントへのビデオの適応に続いて、ネットワーク内の適応プロセスは、結果に圧縮アルゴリズムを適用することを選択することがある。さらに、圧縮アルゴリズムは、いくつかの例では、適応されたビデオ信号を、視覚信号の最も顕著な部分から最も顕著でない部分に対応する(correspond to the most salient to the least salient portions)レイヤに分離する場合がある。
いくつかの実施例では、JPEG標準のプログレッシブフォーマット(ISO/IEC 10918 Part 1)などの圧縮及びレイヤ 化プロセスは、画像を、全体画像を基本的な会場及び色のみで表示させ、はじめは焦点の外にあるレイヤに、即ち、全体画像スキャンのための、より下位のDCT係数から、分離し、その後、画像が焦点内に来るようにする、追加の詳細のレイヤに、即ち、全体画像スキャンのための、より下位のDCT係数から、分離することができる。
メディアを小さな部分に分割し、連続するネットワークプロトコルパケットのペイロード部分に編成し、これらのプロトコルパケットを配布するプロセスは、メディアのストリーミングと称されるが、さまざまな異種アプリケーションの1つを動作させているさまざまな異種クライアントエンドポイントの1つでのプレゼンテーションに適したフォーマットにメディアを変換するプロセスは、メディアのアダプティングと称される。
本開示で使用されるいくつかの用語の定義は、以下の段落で提供される。
シーングラフ:ベクターベースのグラフィックス編集アプリケーションや最新のコンピュータゲームによって一般に使用される汎用データ構造であり、グラフィカルなシーン;グラフ構造内のノード及び頂点の集合、の論理的、かつ多くの場合(必須ではない)空間的表現をアレンジする。
ノード:視覚、音声、触覚、嗅覚、味覚、又は関連する処理情報の論理的又は空間的又は時間的表現に関連する情報で構成されるシーングラフの基本要素;各ノードは、最大で1つの出力エッジ、0以上の入力エッジ、及びそれに接続された少なくとも1つのエッジ(入力又は出力のいずれか)を有するものとする。
ベースレイヤ:通常、アセットのレンダリングに必要な計算リソース又は時間、又はネットワーク上でアセットを伝送する時間を最小化するように定式化された、名目上のアセットの表現(a nominal representation of an asset)。
拡張レイヤ:アセットのベースレイヤ表現に適用すると、ベースレイヤでサポートされていない特徴又は能力を含むようにベースレイヤを強化する情報のセット。
属性:ノードに関連付けられたメタデータであって、そのノードの特定の特性又は特徴を標準的又はより複雑なフォーマット(例えば、他のノードに関して)で記述するために使用される。
コンテナ:シーングラフ及びシーンのレンダリングに必要なすべてのメディアリソースを含む、すべての自然、すべての合成、又は合成と自然の混合シーンを表すための情報を格納及び交換するためのシリアル化されたフォーマット。
シリアル化:データ構造又はオブジェクトの状態を、例えば、ファイル又はメモリバッファ内に)格納又は(例えば、ネットワーク接続リンクを介して)伝送し、後に(おそらく別のコンピュータ環境で)再構築できるフォーマットに変換するプロセス。結果の一連のビットがシリアル化フォーマットに従って再読み込みされるときに、元のオブジェクトの意味的に同一のクローンを作成するために使用できる。
レンダラー(Renderer):音響物理学、光物理学、視覚認識、音声認識、数学、及びソフトウェア開発に関連する分野の選択的な混合に基づく(通常はソフトウェアベースの)アプリケーション又はプロセスであって、入力シーングラフとアセットコンテナが与えられると、ターゲットデバイスでのプレゼンテーションに適した、又はシーングラフ内のレンダーターゲットノードの属性によって指定された所望のプロパティに準拠した、通常は視覚及び/又は音声信号を発する。視覚ベースのメディアアセットの場合、レンダラーは、ターゲットディスプレイに適した、又は中間アセット(例えば、別のコンテナに再パッケージされる、すなわちグラフィックスパイプラインの一連のレンダリングプロセスで使用される)としてのストレージに適した視覚信号を発することができ;オーディオベースのメディアアセットの場合、レンダラーは、マルチチャネルラウドスピーカー及び/又はバイノーラル化ヘッドフォンでのプレゼンテーション用、又は別の(出力)コンテナへの再パッケージ用にオーディオ信号を発し得る。普及しているレンダラーの例は、Unity、Unrealなどを含む。
評価:出力を抽象的な結果から具体的な結果に移行させる結果(例えば、Webページのためのドキュメントオブジェクトモデルの評価に類似)を生成する。
スクリプト言語:実行時にレンダラーによって実行され、シーングラフノードに対して行われた動的入力と変数状態の変更を処理できるインタープリター型プログラミング言語であって、これは、空間的及び時間的なオブジェクトトポロジ(物理的な力、制約、IK、変形、衝突を含む)のレンダリングと評価、及びエネルギ伝播と伝送(光、音)に影響する。
シェイダー(Shader):もともとはシェーディング(画像内の適切なレベルの光、暗さ、色の生成)に使用されていたが、現在ではコンピュータグラフィックス特別効果のさまざまな分野でさまざまな特殊機能を実行するか、又はシェーディングとは関係のないビデオの後処理を行うか、又は、グラフィックとはまったく関係のない機能さえも実行するコンピュータプログラムの一種。
パストレーシング:シーンの照明が現実に忠実であるように3次元のシーンをレンダリングするコンピュータグラフィックス方法。
タイムドメディア:時間によって順序付けられたメディア;例えば、特定のクロックに従った開始時刻と終了時刻を有する。
アンタイムドメディア:空間的、論理的又は時間的な関係によって編成されたメディア;例えば、(1以上の)ユーザーが取る行動に従って実現されるインタラクティブな体験として。
ニューラルネットワークモデル:元の信号によって明示的に提供されなかった視覚信号のための新しいビューの補間を含み得る改善された視覚出力に到達するために、視覚信号に適用される十分に定義された数学的演算で使用される重み付け(即ち数値)を定義するパラメータ及びテンソル(例えば行列)の集合。
開示のいくつかの態様によれば、イマーシブメディアは、イマーシブメディア対応デバイスによって人間に提示されたときに、より現実的で、自然界内の経験の人間の理解と整合する方法で、視覚、聴覚、味覚、触覚、聴覚の五感のいずれかを刺激する1つ以上のタイプのメディアと見なすことができ、即ち;レガシーデバイスによって提示されたレガシーメディアで達成された以上の刺激。このコンテキストでは、レガシーメディアという用語は、2次元(2D)ビジュアルメディア、静止画又は動画のいずれかの画像フレーム、及び/又はユーザーの相互作用機能が一時停止、再生、早送り、又は巻き戻しに制限されている対応するオーディオを指す。レガシーデバイスとは、その能力がレガシーメディアのみの表示に制限されている、テレビ、ラップトップ、ディスプレイ、及びモバイルデバイスを指し得る。
一部の消費者向けアプリケーションシナリオでは、イマーシブメディア(即ち、イマーシブメディア対応デバイス)用のプレゼンテーションデバイスは、特に、イマーシブメディアによって具体化された特定の情報を活用する能力を備えた消費者向けハードウェアデバイスであり、したがって、デバイスは、物理的な世界に対する人間の理解及び相互作用により近いプレゼンテーションを作成することができ、つまり、それを行うためのレガシーデバイスの能力を超える。レガシーデバイスは、レガシーメディアのみを表示するように性能に制約があるのに対して、イマーシブメディアデバイスは同様に制約されない。
この10年間で、ヘッドマウントディスプレイ、拡張現実メガネ、ハンドヘルドコントローラ、触覚グローブ、ゲームコンソールなど、多数のイマーシブメディア対応デバイスが消費者市場に導入されている。同様に、ホログラフィックディスプレイやその他のフォーマットのボリュームディスプレイも、今後10年以内に登場する準備ができている。これらのデバイスが即時に又は切迫して利用可能になるにもかかわらず、商用ネットワーク上のイマーシブメディアの配信のための一貫したエンドツーエンドのエコシステムは、いくつかの理由で実現できていない。
これらの理由の 1 つは、商用ネットワーク上での大規模なメディアの現在の配信に関連する2つの主要なユースケースに対応できるイマーシブメディアの単一の標準表現がないことである。
1) ライブアクションイベントのためのリアルタイム配信、すなわち、コンテンツが作成され、クライアントのエンドポイントにリアルタイム又は略リアルタイムで配信される場合と、
2) リアルタイムでコンテンツを配信する必要がない、非リアルタイム配信、すなわち、コンテンツが物理的にキャプチャ又は作成されている場合。
これらの2つのユースケースは、それぞれ、現在存在する配信のブロードキャストフォーマット及びオンデマンドフォーマットと比較できる可能性がある。
リアルタイム配信では、コンテンツを1つ以上のカメラでキャプチャすること、又は、コンピュータ生成技術を使用して作成することができる。いくつかの実施例では、(1つ以上の)カメラによってキャプチャされたコンテンツはここでは自然コンテンツと称され、コンピュータ生成技術を使用して作成されたコンテンツはここでは合成コンテンツ(synthetic content)と称される。合成コンテンツを表すメディアフォーマットは、3 Dモデリング、視覚効果、CAD/CAM業界で使用されるフォーマットであり得、メッシュ、テクスチャ、ポイントクラウド、構造化ボリューム、アモルファスボリューム(例えば、火、煙、霧の場合)、シェーダー、手続き的に生成されたジオメトリ、マテリアル、ライティング、仮想カメラ定義、アニメーションなどのオブジェクトフォーマット及びツールを含むことができる。合成コンテンツはコンピュータによって生成されるが、合成メディアフォーマットは自然コンテンツ及び合成コンテンツの両方に使用できる。しかしながら、自然コンテンツを合成メディアフォーマット(例えば、合成表現に)に変換するプロセスは時間と計算量のかかるプロセスであり得るため、リアルタイムのアプリケーションやユースケースでは実用的ではない場合があり得る。
自然コンテンツのリアルタイム配信では、カメラでキャプチャされたコンテンツをラスターフォーマットで配信でき、これは、レガシーディスプレイデバイスに適している。このようなデバイスの多くは同様にラスターフォーマットを表示するように設計されているからである。つまり、レガシーディスプレイがラスターフォーマットを表示するように均質に設計されていることを考えると、ラスターフォーマットの配信はラスターフォーマットのみを表示できるディスプレイに最適です。
ただし、イマーシブメディア対応ディスプレイは、ラスターベースのフォーマットの表示に制約される必要はない。さらに、一部のイマーシブメディア対応ディスプレイでは、ラスターベースのフォーマットでのみ利用可能なメディアを表示できない。ラスターベースのフォーマット以外のフォーマットに基づいてイマーシブ体験を作成するように最適化されたディスプレイが利用可能であることも、イマーシブメディアの配信に一貫したエンドツーエンドのエコシステムがまだ存在しない重要な理由の1つです。
複数の異なるイマーシブメディアデバイスのための一貫した配信システムを作成することに関するさらに別の問題は、現在のイマーシブメディア対応デバイスと新進のイマーシブメディア対応デバイス自体が大きく異なり得ることである。例えば、一部のイマーシブメディアデバイスは、一度に1人のユーザーのみが使用するように明示的に設計されている。例えばヘッドマウントディスプレイなど。他のいくつかのイマーシブメディアデバイスは、複数のユーザーが同時に使用できるように設計されている。例えば、「Looking Glass Factory 8K ディスプレイ」(以降、「レンチキュラーライトフィールドディスプレイ」と称する)は、最大12人のユーザーが同時に見ることができるコンテンツを表示でき、各ユーザーが、表示されているコンテンツの独自の視点(ビュー)を体験している。
一貫した配信システムの開発をさらに複雑にしているのは、各ディスプレイが生成できる固有のビューの数が大きく異なり得ることである。ほとんどの場合、レガシーディスプレイで作成できるコンテンツのビューは1つだけである。一方、レンチキュラーライトフィールドディスプレイでは、各ユーザーが同じ視覚シーンのユニークビュー(unique views)を体験することで、複数のユーザーをサポートできる。このような同一シーンの複数のビューの作成を実現するために、レンチキュラーライトフィールドディスプレイでは、ディスプレイへの入力として同一シーンの45のユニークビューが必要とされる特定の立体視フラスタム(a specific volumetric viewing frustum)が作成されます。これは、同一シーンのわずかに異なる45のユニークスター表現をキャプチャし、この1つの特定のディスプレイ、つまり、ビューフラスタム、に固有のフォーマットでディスプレイに配信する必要があることを意味する。これとは対照的に、レガシーディスプレイのビューフラスタムは単一の二次元平面に制限されており、従って、そのディスプレイを経験している同時視聴者の数に関係なく、ディスプレイの視野台を介してコンテンツの複数の視野を表示する方法はない。
一般に、イマーシブメディアディスプレイは、全てのディスプレイの以下の特徴性によって顕著に異なり得る:ビューフラスタムの寸法と体積、同時にサポートされる視聴者の数、点ベース、光線ベース、波ベースの技術であり得る、ビューフラスタムを埋めるために使用される光学技術、ビューフラスタムを占有する光ユニット(点、光線、波のいずれか)の密度、コンピューティングパワーとコンピューティングの種類(CPU又はGPU)の可用性、電源及びパワーの可用性(バッテリ又は配線)、ローカルストレージ又はキャッシュの量、クラウドベースのコンピューティング及びストレージなどの補助リソースへのアクセス。これらの特性は、イマーシブメディアディスプレイの異質性に寄与しており、レガシーディスプレイの均質性とは対照的に、レガシーディスプレイとイマーシブディスプレイの両方を含む全てのディスプレイをサポートできる単一の配信システムの開発を複雑にしている。
開示された主題は、単一のネットワークのコンテキスト内でクライアントエンドポイントとしてレガシーディスプレイ及びイマーシブメディアディスプレイの両方をサポートできるネットワークベースのメディア配信システムの開発を対象にする。具体的には、入力イマーシブメディアソースを、そのクライアントエンドポイントデバイス上で現在実行されているアプリケーションを含む、クライアントエンドポイントデバイスの特定の特性に適したフォーマットに適応させるメカニズムがここに提示される。かかる、入力イマーシブメディアソースを適応させるメカニズムは、入力イマーシブメディアの特性を、クライアントデバイス上で実行されているアプリケーションを含むターゲットエンドポイントクライアントデバイスの特性と調和させること(reconciling)と、その後、入力イマーシブメディアをターゲットエンドポイントとそのアプリケーションに適したフォーマットに適応させることと、を含む。さらに、適応プロセスは、クライアントエンドポイントによって必要とされる追加のビューを作成するために、入力メディアから追加のビュー、例えば新規のビューを補間することを含み得る。かかる補間は、ニューラルネットワークプロセスの支援を受けて実行され得る。
開示された主題の残りの部分は、一般性を失うことなく、入力イマーシブメディアソースを特定のエンドポイントクライアントデバイスに適応させるプロセスが、特定のクライアントエンドポイントデバイス上で実行されている特定のアプリケーションに同一の入力イマーシブメディアソースを適応させるプロセスと同じか、又は類似していることを前提としていることに留意されたい。つまり、入力メディアソースをエンドポイントデバイスの特性に適応させる問題は、特定の入力メディアソースを特定のアプリケーションの特性に適応させる問題と同じ複雑さである。
レガシーメディアによってサポートされるレガシーデバイスは、消費者に広く普及している。レガシーメディアの標準ベースの表現を生成するレガシーメディアコンテンツプロバイダ、及び、レガシーデバイスを標準レガシーコンテンツのソースに接続するためのネットワークインフラストラクチャを提供する商用ネットワークサービスプロバイダのエコシステムによって同様にサポートされる。ネットワーク上でレガシーメディアを配信する役割を超えて、商用ネットワークサービスプロバイダは、コンテンツ配信ネットワーク(CDN:content distribution networks)上のレガシーコンテンツにアクセスするためのレガシークライアントデバイスのペアリングを容易にすることもできる。一旦適切な形式のコンテンツへのアクセスとペアリングされると、レガシークライアントデバイスは、コンテンツサーバーからデバイスにレガシーコンテンツを要求し又はプルして、エンドユーザーに表示することができる。それにもかかわらず、ネットワークサーバーが適切なメディアを適切なクライアントにプッシュするアーキテクチャは、全体的なアーキテクチャとソリューション設計に追加の複雑さを生じさせることなく、同様に関連性がある。
開示のいくつかの態様によると、異種クライアントをサポートするメディア配信ネットワークは、入力メディアフォーマットから特定のターゲットフォーマットに適応されたアセットの一部が、類似のディスプレイターゲット(クライアントデバイス)のセットにわたって再利用され得るという事実を活用できる。たとえば、一旦ターゲットディスプレイに適したフォーマットに変換された一部のアセットは、類似の適応要件を有する多数のかかるディスプレイにわたって(across a number of such displays)再利用され得る。いくつかの実施例では、メディア配信ネットワークはキャッシュメカニズムを採用して、適応されたアセットを比較的不変の(relatively immutable)ストレージに格納できる。
開示の態様によると、イマーシブメディアは、シーングラフ、シーン記述とも称される、によって記述される「シーン」に編成され得る。シーングラフの範囲は、プレゼンテーションの一部である特定の設定を構成するビジュアル、オーディオ、及びその他のフォーマットのイマーシブアセットを記述することであり、例えば、プレゼンテーションの一部である建物内の特定の場所で行われるイベント (映画など)及び俳優を記述する。1つのプレゼンテーションを構成するすべてのシーンのリストは、シーンのマニフェストに定式化できる。
いくつかの実施例では、かかるコンテンツを配信する必要がある前に準備されたコンテンツについて、プレゼンテーション全体に使用されるであろう全てのアセットと、プレゼンテーション内のさまざまなシーンにわたって各アセットが使用される頻度を識別する 「素材表(bill of materials)」を作成できる。メディア配信ネットワークは、特定のプレゼンテーションのためのアセット要件を満足するために使用できるキャッシュされたリソースの存在を認識するように実装されることができる。
開示のいくつかの態様は、メディア配信ネットワーク(たとえば、メディア配信ネットワークをクライアントデバイスとインタフェースする、メディア配信ネットワーク内のサーバデバイス)とクライアントデバイス間で使用できる双方向プロトコルを提供できる。いくつかの実施例では、双方向プロトコルは、イマーシブメディアを配信するメディア配信ネットワークで使用できる。双方向プロトコルは、さまざまなフォーマットのアセットタイプを必要とするさまざまな多様なクライアントデバイスをサポートできる。いくつかの実施例では、双方向プロトコルは、以前に特定のクライアントデバイスによる使用に適応されたアセットの再利用を可能する。
本開示では、一般性を失うことなく、入力イマーシブメディアソースを特定のエンドポイントクライアントデバイスに適合させるプロセスは、特定のエンドポイントクライアントデバイスで実行されている特定のアプリケーションに同じ入力イマーシブメディアソースを適合させるプロセスと同じか、又は類似していることに留意されたい。入力メディアソースをエンドポイントデバイスの特性に適合させる技術は、入力メディアソースを特定のアプリケーションの特性に適合させる技術とほぼ同じである可能性がある。
開示の態様によると、レガシーメディアによってサポートされているレガシーデバイスは、レガシーメディアの標準ベースの表現を生成するレガシーメディアコンテンツプロバイダと、レガシーデバイスを標準レガシーコンテンツのソースに接続するためのネットワークインフラを提供する商用ネットワークサービスプロバイダとのエコシステムによって同様にサポートされているため、広範な消費者の採用を達成している。ネットワーク上でレガシーメディアを配信する役割を超えて、商用ネットワークサービスプロバイダは、コンテンツ配信ネットワーク(CDN:content distribution networks)上のレガシーコンテンツにアクセスするためのレガシークライアントデバイスのペアリングを容易にすることもできる。一旦適切な形式のコンテンツへのアクセスとペアリングされると、レガシークライアントデバイスは、コンテンツサーバーからデバイスにレガシーコンテンツを要求し又はプルして、エンドユーザーに表示することができる。それにもかかわらず、メディア配信ネットワークは、ネットワークサーバーが適切なクライアントに適切なメディアを「プッシュ」するアーキテクチャを利用し得る。
開示のいくつかの態様は、メディア配信ネットワークをクライアントデバイスとインタフェースするためのインターフェイスデバイス(サーバデバイスとも称される) を含むメディア配信ネットワークを提供する。サーバデバイスは、クライアントデバイスとの通信に双方向通信プロトコル(双方向プロトコルとも称される)を採用することができ、クライアントデバイスのユニーク性、又はクライアントデバイス上で実行されているアプリケーションから発生する要件に適合するようにメディアを適応させることを容易にすることができる。また、サーバデバイスは双方向プロトコルを使用して、全体的に新たに適応されたアセット、又は以前に適応されてキャッシュされたアセットを特定のクライアントデバイスにストリーミングすることもできる。いくつかの実施例では、サーバデバイスは双方向プロトコルを使用して、クライアントデバイスがサーバデバイスから特定の支援を要求する機能をサポートできる。例えば、クライアントデバイスがアセットを提示する準備として、アセットのレンダリングを支援する。
ここでは、さまざまな実施形態による法、装置(システム)、及びコンピュータが読み取り可能な媒体のフローチャート図及び/又はブロック図を参照して、態様を記載する。フローチャート図及び/又はブロック図の各ブロック、及びフローチャート図及び/又はブロック図のブロックの組み合わせは、コンピュータが読み取り可能なプログラム命令によって実装できることが理解されるであろう。
本開示は、一般に、ビデオ、オーディオ、幾何学的(3D)オブジェクト、触覚、関連するメタデータ、又はクライアントデバイスのためのその他のコンテンツを含むメディアを配布するシステム及びネットワークのためのアーキテクチャ、構造及びコンポーネントに関連する実施形態について説明する。特定の実施形態は、異種のイマーシブ及びインタラクティブなクライアントデバイスにメディアコンテンツを配信するための指向システム、構造、及びアーキテクチャである。
図1は、タイムドレガシーメディア配信のエンドツーエンドプロセス(100)の図を示している。図1では、タイムド視聴覚コンテンツは、カメラ又はマイク(101A)によってキャプチャされるか、コンピュータ(101B)によって生成され、準備モジュール(103)に入力される2D画像及び関連する音声のシーケンス(102)を作成する。準備モジュール(103)の出力は、(例えば、言語翻訳、字幕、その他の編集機能を含むポストプロダクションのための)編集されたコンテンツであり、コンバータモジュール(104)により、例えばライブイベントの場合は、標準コントリビューションフォーマット(a standard contribution format)と称されるか、又は、例えばオンデマンドメディアの場合は、標準メザニンフォーマット(a standard Mezzanine format)に変換する準備ができているマスターフォーマットと称される。一実施例では、メディアは商用ネットワークサービスプロバイダによって取り込まれ、適応モジュール(105)は標準配信フォーマットにパッケージ化されたさまざまなビットレート、時間的解像度(フレームレート)、又は空間解像度(フレームサイズ)にメディアをパッケージ化する。結果として得られる適応はコンテンツ配信ネットワーク(CDN)(106)上に格納され、そこからさまざまなクライアント (108 A)-(108C)がプルリクエスト(107A)-(107C)を行い、メディアをフェッチしてエンドユーザーに提示する。マスターフォーマットは(101A)又は(101B)の両方のメディアのハイブリッドで構成され得、(101A)のフォーマットはリアルタイムで取得され得る、例えばライブスポーツイベントから取得される、ことに留意することが重要である。さらに、クライアント(108A)-(108C)は、クライアントの構成及び/又は現在のネットワーク条件に最適な特定の適応を選択する責任があるが、ネットワークサーバ(図1には示されていない)が適切なコンテンツを決定し、その後クライアント(108A)-(108C)にプッシュすることも同様に可能である。
図2は、いくつかの実施例において、レガシータイムドメディア、例えばビデオ、オーディオ、及びサポートメタデータ(字幕に使用されるようなタイムドテキストを含む)の配信に使用される標準メディアフォーマット(200)の図を示す。図1のCDN(106)で示されているように、メディアは、図2のCDN(201A)-(201C)などのCDN上に標準ベースの配信フォーマットで格納される。標準ベースのフォーマットはMPD(202)として示されており、期間(203A)及び期間(203B)などの期間を含む複数のセクションで構成され、開始時刻と終了時刻がクロックに対応する。実施例では、各期間(例えば(203A)(203B))は、1つ以上の適応セット(204A)-(204F)に関連する(refers to)。(204A)-(204F)の各適応セットは、一般に、ビデオ、オーディオ、又はタイムドテキストなど、単一の種類のメディアに使用される。いくつかの実施例では、任意の所与の期間(例えば(203A))に対して、複数の適応セット(例えば (204A)-(204C))が提供され得る。例えば、ビデオ用に1つ、さまざまな言語への翻訳に使用されるなどのオーディオ用に複数が提供される。(204A)-(204F) の各適応セットは、メディアのフレーム解像度(ビデオ用)、フレームレート、及びビットレートに関する情報を提供する1つ以上の表現(205)に関連する。複数の表現(205)を使用して、たとえば、超高精細、高精細、又は標準精細のビデオのそれぞれの表現(205)へのアクセスを提供できる。各表現(205)は、((108A)-(108C)として図1に示されるような)クライアントによるフェッチ用、又はネットワークメディアサーバー(図1には示されていない)による配信用(プッシュベースのアーキテクチャ)にメディアが実際に格納されている1つ以上のセグメントファイル(206)に関連する。
図3は、実施例において、タイムドである又は時間が設定されている異種のイマーシブメディアのためのストリーミング可能なフォーマット(300)の表現を示す。図4は、実施例において、アンタイムドである又は時間が設定されていない異種のイマーシブメディアのためのストリーミング可能なフォーマット(400)の表現を示す。図3の場合、図3はタイムドメディアのシーン(301)を示している。図4の場合、図4はアンタイムドメディアのシーン(401)を示している。どちらの場合も、シーンはさまざまなシーン表現、又はシーン記述によって実装され得る。
例えば、いくつかのイマーシブメディア設計では、シーンはシーングラフ、又はマルチプレーンイメージ(MPI)、又はマルチスフィアイメージ(MSI)として実装され得る。MPIとMSIの両方の技術は、自然なコンテンツ、つまり1つ以上のカメラから同時にキャプチャされた現実世界のイメージのためのディスプレイを選ばないシーン表現の作成を支援する技術の例である。
一方、シーングラフ技術は、合成表現の形で自然なイメージとコンピュータ生成されたイメージの両方を表すために使用され得るが、かかる表現は、コンテンツが1つ以上のカメラによって自然なシーンとしてキャプチャされる場合のために作成するのに特に計算集約的である。つまり、自然にキャプチャされたコンテンツのシーングラフ表現は、作成に時間と計算集約的であり、ターゲットイマーシブクライアントディスプレイのビューフラスタムを埋めるのに十分かつ適切な数のビューを補間するためにその後使用できる合成表現を作成するために、写真測量又はディープラーニング或いはその両方の技術を使用して自然なイメージの複雑な分析を必要とする。その結果、かかる合成表現は、リアルタイムの配信を必要とするユースケースを考慮するためにリアルタイムで実際に作成することはできないため、現在、自然なコンテンツを表す候補として検討することは実用的ではない。いくつかの実施例では、コンピュータ生成画像は3Dモデリングプロセス及びツールを使用して作成されるため、コンピュータ生成画像のための最適な候補表現は、合成モデルを有するシーングラフの使用を採用することである。
自然なコンテンツとコンピュータで生成されたコンテンツの両方の最適な表現におけるかかる二分法は、自然にキャプチャされたコンテンツのための最適な取り込みフォーマットが、コンピュータで生成されたコンテンツ又はリアルタイム配信アプリケーションのために不可欠ではない自然なコンテンツの最適な取り込みフォーマットとは異なることを示唆する。したがって、開示された主題は、自然に作成されたかコンピュータによって作成されたかにかかわらず、視覚的に没入できるメディアの複数の取り込みフォーマットをサポートするのに十分なロバスト性を目標としている。
以下は、コンピュータ生成技術を使用して作成された視覚的イマーシブメディア、又は、ディープラーニング若しくは写真測量技術を使用して自然シーンの対応する合成表現を作成する自然にキャプチャされたコンテンツを表すのに適したフォーマットとしてシーングラフを具体化する技術の例である。 つまり、リアルタイム配信アプリケーションには必須ではない。
1.OTOYによるORBX(登録商標)
OTOYによるORBXは、レイトレーサブル、レガシー(フレームベース)、ボリューム、その他の種類の合成又はベクトルベースの視覚フォーマットを含む、タイムド又はアンタイムドの任意の種類の視覚メディアをサポートできるいくつかのシーングラフ技術の1つである。一態様によれば、ORBXは、メッシュ、ポイントクラウド、及びテクスチャに対して自由に利用できるフォーマット及び/又はオープンソースフォーマットに対してネイティブなサポートを提供しているため、ORBXは他のシーングラフからユニークである。ORBXは、シーングラフ上で動作する複数のベンダー技術にわたって交換を容易にすることを目的として意図的に設計されたシーングラフである。さらに、ORBXは豊富なマテリアルシステム、オープンシェーダー言語に対するサポート、ロバストなカメラシステム、Luaスクリプトに対するサポートを提供する。ORBXは、イマーシブデジタル体験アライアンス(IDEA:the immersive digital experiences alliance)によってロイヤリティフリーの条件でライセンス公開されているイマーシブ技術メディアフォーマットの基礎でもある。メディアのリアルタイム配信のコンテキストでは、自然なシーンのORBX表現を作成して配信できる能力は、カメラでキャプチャされたデータの複雑な分析を実行し、同じデータを合成表現内へ合成するための計算リソースの可用性の機能である。現在のところ、リアルタイム配信に十分なコンピューティングを利用することは現実的ではないが、不可能ではない。
2.Pixarによるユニバーサルシーンデスクリプション
ピクサーによるユニバーサルシーンデスクリプション(USD)は、視覚効果(VFX)及び専門的なコンテンツ制作コミュニティで使用できる別のシーングラフです。USDは、NVIDIAのGPUを使用した3Dモデルの作成及びレンダリングのための開発者向けツールセットであるNVIDIAのOmniverseプラットフォームに統合されている。USDのサブセットは、Apple及びPixarによってUSDZとして公開された。USDZはAppleのARKitによってサポートされている。
3.Khronosによる glTF2.0
glTF 2.0はKhronos 3 D Groupによって書かれたグラフィックス言語伝送フォーマット仕様の最新バージョンである。このフォーマットは、一般的にシーン内の静的な(アンタイムド)オブジェクト(「png」や「jpeg」イメージフォーマットなど)をサポートできる単純なシーングラフフォーマットをサポートする。glTF 2.0は、glTFプリミティブを使用して記述された基本的な形状、つまり幾何学的なオブジェクトの移動、回転、スケールに対するサポートを含む単純なアニメーションをサポートする。glTF 2.0はタイムドメディアをサポートしていないため、ビデオやオーディオをサポートしていない。
イマーシブ視覚メディアの上記のシーン表現は、例としてのみ提供されており、入力イマーシブメディアソースをクライアントのエンドポイントデバイスの特定の特性に適したフォーマットに適応させるプロセスを指定する能力において、開示される主題を制限しないことに留意されたい。
さらに、上記の例のメディア表現のいずれか又は全ては、現在ディープラーニング技術を採用しているか、又は採用することができ、フラスタムの特定の寸法に基づいて特定のディスプレイのビューフラスタムを満たす特定のビューの選択を可能又は容易にするニューラルネットワークモデルをトレーニング及び作成する。特定のディスプレイのビューフラスタムに対して選択されたビューは、シーン表現で明示的に提供されている既存のビュー (例えば、MSI又はMPI技術から)から補間され得、例えば、これらのレンダエンジンの特定の仮想カメラの位置、フィルター、又は仮想カメラの記述に基づいてレンダエンジンから直接レンダリングされ得る。
したがって、開示された主題は、自然にキャプチャされたメディア(例:1台以上のカメラで)又はコンピュータ生成技術を使用して作成されたメディアのリアルタイム又は 「オンデマンド」 (例:非リアルタイム)配信の両方の要件を満たすのに十分な、比較的小さいがよく知られている一連のイマーシブメディア取り込みフォーマットがあることを考慮するのに十分なロバスト性を備えている。
ニューラルネットワークモデル又はネットワークベースのレンダリングエンジンのいずれかを使用して、イマーシブメディア取り込みフォーマットからのビューの補間は、モバイルネットワーク用の5Gや固定ネットワーク用の光ファイバーケーブルなどの高度なネットワーク技術が展開されるにつれて、さらに容易になる。つまり、このような高度なネットワークインフラは、ますます大量の視覚情報の伝送と配信をサポートできるため、これらの高度なネットワーク技術は商用ネットワークの容量と能力を向上させる。マルチアクセスエッジコンピューティング(MEC)、ソフトウェア定義ネットワーク(SDN)、ネットワーク機能仮想化(NFV)などのネットワークインフラストラクチャ管理技術により、商用ネットワークサービスプロバイダは、例えば、ネットワークスループット、ネットワークスピード、ラウンドトリップ遅延、及びコンピューティングリソースに対する需要の動的な増減に応答して、特定のネットワークリソースに対する需要の変化に適応するように、ネットワークインフラストラクチャを柔軟に構成できる。さらに、動的なネットワーク要件に適応するこの固有の能力は、異種のクライアントエンドポイントのための潜在的に異種の視覚メディアフォーマットを持つさまざまなイマーシブメディアアプリケーションをサポートするために、イマーシブメディア取り込みフォーマットを適切な配信フォーマットに適応させるネットワークの能力を促進する。
イマーシブメディアアプリケーション自体も、ゲームの状態でリアルタイムの更新に応答するために大幅に低いネットワークレイテンシを必要とするゲームアプリケーション、ネットワークのアップリンクとダウンリンクの両方の部分に対して対称的なスループット要件を持つテレプレゼンスアプリケーション、及び、データを消費しているクライアントエンドポイントディスプレイの種類に応じてダウンリンクリソースの需要が増加する可能性があるパッシブビューイングアプリケーション、を含むネットワークリソースに対するさまざまな要件を有し得る。一般に、消費者向けアプリケーションは、ストレージ、コンピューティング、及び電力に対するさまざまなオンボードクライアント機能を備えたさまざまなクライアントエンドポイントによってサポートされ得、同様に特定のメディア表現に対するさまざまな要件によってサポートされ得る。
したがって、開示された主題は、十分に装備されたネットワーク、つまり、最新のネットワークの特性の一部又は全てを採用したネットワークが、その中で指定された特徴に従って、複数のレガシー及びイマーシブメディア対応デバイスを同時にサポートすることを可能にする。
1.メディアの配信のためのリアルタイムとオンデマンドの両方のユースケースに実用的なメディア取り込みフォーマットを活用するフレキシビリティを提供する。
2.レガシー及びイマーシブメディア対応のクライアントエンドポイントの両方で、自然なコンテンツ及びコンピュータで生成されたコンテンツの両方をサポートするフレキシビリティを提供する。
3.タイムドメディア及びアンタイムドメディアの両方をサポートする。
4.クライアントのエンドポイントの特徴及び機能に基づいて、及びアプリケーションの要件に基づいて、ソースメディアの取り込みフォーマットを適切な配信フォーマットに動的に適応させるプロセスを提供する。
5.配信フォーマットがIPベースのネットワーク上でストリーミング可能であることを確認する。
6.ネットワークが、レガシーメディア及びイマーシブメディア対応デバイスの両方を含む可能性のある複数の異種クライアントエンドポイントに同時にサービスを提供できるようにする。
7.シーン境界に沿った配信メディアの編成を容易にする模範的なメディア表現フレームワークを提供する。
開示された主題によって可能になる改善のエンドツーエンドの実施例は、図3から図15の詳細な説明に記載された処理とコンポーネントに従って達成される。
図3及び図4はそれぞれ、特定のクライアントエンドポイントの機能に適合するように、取り込みソースフォーマットから適応させることができる例示的な包括的配信フォーマットを採用している。以上のように、図3に示すメディアはタイムドであり、図4に示すメディアはアンタイムドである。特定の包括的フォーマットは、その構造において十分にロバストであり、各レイヤがメディアのプレゼンテーションに寄与する顕著な情報の量に基づいてそれぞれが階レイヤ化され得る様々なメディア属性に対応する。階レイヤ化プロセスは、例えばプログレッシブJPEG及びスケーラブルビデオアーキテクチャ(例えば、ISO/IEC 14496-10 Scalable Advanced Video Codingで規定されている)に適用できることに留意されたい。
一態様によれば、包括的なメディアフォーマットに従ってストリーミングされるメディアは、レガシー視覚及び音声メディアに限定されず、視覚、音、味覚、触覚、及び嗅覚に対して人間の感覚を刺激するために機械と相互作用する信号を生成することができる任意の種類のメディア情報を含み得る。
別の態様によると、包括的なメディアフォーマットに従ってストリーミングされるメディアは、タイムドメディア又はアンタイムドメディアの両方、又は両方の混合であることができる。
別の態様によると、包括的なメディアフォーマットは、ベースレイヤ とエンハンスメントレイヤ アーキテクチャを使用してメディアオブジェクトのレイヤ 化された表現を可能にすることによって、さらにストリーミング可能である。1つの実施例では、別個のベースレイヤ及びエンハンスメントレイヤは、各シーンのメディアオブジェクトに対するマルチ解像度又はマルチテッセレーション分析技術の適用によって計算される。これは、ISO/IEC 10918-1 (JPEG) 及びISO/IEC 15444-1 (JPEG 2000) で指定されているプログレッシブレンダリングイメージフォーマットに似ているが、ラスターベースのビジュアルフォーマットに限定されない。実施例では、幾何学的オブジェクトのプログレッシブ表現は、ウェーブレット解析を使用して計算されたオブジェクトのマルチ解像度表現である可能性がある。
メディアフォーマットのレイヤ 化された表現の別の実施例では、エンハンスメントレイヤ は、ベースレイヤ によって表される視覚オブジェクトの表面の素材特性を改善する(refining)など、異なる属性をベースレイヤ に適用する。さらに別の実施例では、属性は、表面を滑らかなテクスチャから多孔質テクスチャに変更し、又は、マットな表面から光沢のある表面に変更したりするなど、基本レイヤオブジェクトの表面のテクスチャを洗練させることができます。
レイヤ化された表現のさらに別の実施例では、シーン内の1つ以上の視覚オブジェクトの表面を、ランバーシアンからレイ トレース可能に変更することができる。
レイヤ 化された表現のさらに別の例では、ネットワークはクライアントにベースレイヤ 表現を配信し、クライアントがベース表現の解像度又はその他の特性を改善するために追加のエンハンスメントレイヤ の送信を待機している間に、クライアントがシーンの名目上のプレゼンテーション(a nominal presentation)を作成できるようにする。
別の態様によると、エンハンスメントレイヤ の属性又は改善情報の解像度は、既存のMPEGビデオ及びJPEGイメージ標準で現在行われているように、ベースレイヤ のオブジェクトの解像度と明示的に結合されていない。
別の態様によれば、包括的なメディアフォーマットは、プレゼンテーションデバイス又はマシンによって提示又は動作させることができる任意の種類の情報メディアをサポートし、それによって異種クライアントのエンドポイントに対する異種メディアフォーマットのサポートを可能にする。メディアフォーマットを配信するネットワークの一実施形態では、ネットワークは最初にクライアントエンドポイントに照会してクライアントの能力を判断し、クライアントがメディア表現を意味のある形で取り込むことができない場合、ネットワークはクライアントによってサポートされていない属性のレイヤを削除するか、又はメディアを現在のフォーマットからクライアントエンドポイントに適したフォーマットに適応させる。かかる適応の一実施例では、ネットワークは、ネットワークベースのメディア処理プロトコルを使用することにより、ボリューメトリックな視覚メディアアセットを同じ視覚アセットの2D表現に変換する。かかる適応の別の実施例では、ネットワークは、ニューラルネットワークプロセスを採用して、メディアを適切な形式に再フォーマットし、又は、オプションでクライアントエンドポイントが必要とするビューを合成する。
別の態様によれば、完全に又は部分的に完全なイマーシブ体験(ライブストリーミングイベント、ゲーム、又はオンデマンドアセットの再生)に対するマニフェストは、レンダリング及びゲームエンジンがプレゼンテーションを作成するために現在取り込むことができる最小限の情報量であるシーンによって編成される。マニフェストは、クライアントによって要求された没入体験全体に対してレンダリングされる個々のシーンのリストを含む。各シーンには、シーンジオメトリのストリーミング可能なバージョンに対応するシーン内のジオメトリックオブジェクトの1つ以上の表現が関連付けられている。シーン表現の1つの実施形態は、シーンに対するジオメトリックオブジェクトの低解像度バージョンに関連する。同じシーンの別の実施形態は、シーンの低解像度表現のエンハンスメントレイヤ に関連し、同じシーンのジオメトリックオブジェクトに追加の詳細を追加し、テッセレーションを増加させる。前述のように、各シーンは複数のエンハンスメントレイヤを有し、シーンのジオメトリオブジェクトの詳細をプログレッシブ方式で増加させることができる。
別の態様によると、シーン内で参照されるメディアオブジェクトの各レイヤ は、ネットワーク内でリソースにアクセスできる場所のアドレスを指すトークン(例:URI)に関連付けられる。かかるリソースは、クライアントがコンテンツを取得できるCDNに似ている。
別の態様によると、幾何学的オブジェクトの表現のためのトークンは、ネットワーク内の場所又はクライアント内の場所を指し得る。すなわち、クライアントは、そのリソースがネットワークベースのメディア処理のためにネットワークで利用可能であることをネットワークにシグナリングすることができる。
図3は、いくつかの実施例において、タイムドメディアのための包括的なメディアフォーマットの実施形態を示す。いくつかの実施例では、タイムドシーンマニフェストはシーン(シーン情報とも称される)(301)を含む。シーン(301)は、シーン(301)を含む処理情報及びメディアアセットの種類を個別に記述するコンポーネント(302)のリストに関連する。コンポーネント(302)は、ベースレイヤ(304)と属性強化レイヤ(305)をさらに参照するアセット(303)に関連する。
図4は、いくつかの実施例において、アンタイムドメディアのための包括的なメディアフォーマットの実施形態を示す。アンタイムドシーンマニフェストは、シーン(401)を含む。シーン(シーン情報とも称される)(401)は、クロックによる開始期間と終了期間とは関連付けられていない。シーン(401)は、処理情報と、シーン(401)を有するメディアアセットのタイプと、を個別に記述するコンポーネント(402)のリストに関連する。コンポーネント(402)は、ベースレイヤ(404)と属性強化レイヤ(405)とをさらに参照するアセット(403)(例:視覚、音声、触覚アセット)に関連する。さらに、シーン(401)は、アンタイムドメディア用の他のシーン(411)に関連する。シーン(401)は、いくつかの実施例では、タイムドメディアシーン(407)に関連し得る。
図5は、自然なコンテンツから取り込みフォーマットを合成するプロセス (500) の図を示す。プロセス (500) は、コンテンツキャプチャのための第一サブプロセスと、自然画像のための取り込みフォーマット合成の第二サブプロセスと、を含む。
図5の実施例では、最初のサブプロセスにおいて、カメラユニットを使用して自然画像コンテンツ(509)をキャプチャできる。例えば、カメラユニット(501)は、単一のカメラレンズを使用して人物のシーンをキャプチャできます。カメラユニット(502)は、リング状のオブジェクトの周囲に5つのカメラレンズを装着することで、5つの視野が分岐するシーンをキャプチャできる。(502)の装置は、VRアプリケーションに対する全方位コンテンツをキャプチャするための例示的な装置である。カメラユニット(503)は、球体の内径部分に7つのカメラレンズを装着することによって、7つの収束する視野を有するシーンをキャプチャする。(503)の装置は、光フィールド又はホログラフィックイマーシブディスプレイ用の光フィールドをキャプチャするための例示的な装置である。
図5の例では、2番目のサブプロセスで、自然な画像コンテンツ(509)が合成されます。例えば、自然な画像コンテンツ(509)は、例えば、キャプチャニューラルネットワークモデル(508)を生成するために、トレーニング画像のコレクション(506)を使用してニューラルネットワークトレーニングモジュール(505)を採用することができる合成モジュール(504) への入力として提供されます。トレーニングプロセスの代わりに一般的に使用される別のプロセスは、写真測量です。モデル(508)が図5に示されているプロセス(500)の間に作成された場合、モデル(508)は自然コンテンツの取り込みフォーマット(507)のアセットの一つになる。取り込みフォーマット(507)の例示的な実施形態には、MPI及びMSIが含まれる。
図6は、合成メディア(608)、例えばコンピュータ生成画像のための取り込みフォーマットを作成するプロセス(600)の図を示す。図6の実施例では、LIDARカメラ(601)がシーンの点群(602)をキャプチャする。合成コンテンツを作成するためのコンピュータ生成画像 (CGI)ツール、3Dモデリングツール、又は別のアニメーションプロセスは、ネットワーク経由で (604)CGIアセットを作成するためにコンピュータ(603)で使用される。センサー付きモーションキャプチャスーツ(605A)をアクター(605)が着用して、アクター (605) の動きのデジタル記録をキャプチャし、アニメーションモーションキャプチャ(MoCap)データ(606)を生成する。データ(602)、(604)、及び(606)は、合成モジュール(607) への入力として提供され、同様に、ニューラルネットワークとトレーニングデータを使用してニューラルネットワークモデル(図6には示されていない)を作成することもできる。
図7は、いくつかの実施例において、クライアントエンドポイントとして、さまざまなレガシーメディア及び異種のイマーシブメディア対応ディスプレイをサポートするネットワークメディア配信システム(700)を示す。図7の実施例では、コンテンツ取得モジュール(701)は、図6又は図5の例示的の実施形態を使用してメディアをキャプチャ又は作成する。取り込みフォーマットは、コンテンツ準備モジュール(702)で作成され、その後、伝送モジュール(703)を使用してネットワークメディア配信システム内の1つ以上のクライアントエンドポイントに伝送される。ゲートウェイ(704)は、ネットワークに対するさまざまなクライアントエンドポイントへのネットワークアクセスを提供するために、顧客構内機器(customer premise equipment)にサービスを提供し得る。セットトップボックス(705)は、ネットワークサービスプロバイダによって集約されたコンテンツへのアクセスを提供するために、顧客構内機器としても機能し得る。無線復調器(706)は、モバイルデバイス(例えば、携帯電話やディスプレイ(713)のように)のためのモバイルネットワークアクセスポイントとして機能し得る。1つ以上の実施形態では、レガシー2Dテレビ(707)は、ゲートウェイ(704)、セットトップボックス(705)、又はWiFiルーター(708)に直接接続し得る。レガシー2Dディスプレイ(709)を備えるコンピュータラップトップは、WiFiルーター(708)に接続されたクライアントエンドポイントであり得る。ヘッドマウント2D(ラスターベース)ディスプレイ(710)は、ルーター(708)にも接続し得る。レンチキュラーライトフィールドディスプレイ(711)は、ゲートウェイ(704)に接続し得る。ディスプレイ(711)は、ローカルコンピューティングGPU(711A)、ストレージデバイス(711B)、及び光線ベースのレンチキュラー光学技術を使用して複数のビューを作成するビジュアルプレゼンテーションユニット(711C)で構成され得る。ホログラフィックディスプレイ(712)は、セットトップボックス(705)に接続され得、ローカルコンピューティングCPU(712A)、GPU(712B)、ストレージデバイス (712C)、及びFresnalパターンのウェーブベースのホログラフィック視覚化ユニット(712D)を含み得る。拡張現実ヘッドセット(714)は、無線復調器(706)に接続され得、GPU(714A)、ストレージデバイス(714B)、バッテリー(714C)、及びボリュームメトリック視覚プレゼンテーションコンポーネント(714D)を含む場合がありますみ得る。高密度ライトフィールドディスプレイ(715)は、WiFiルーター(708)に接続し得、複数のGPU(715A)、CPU(715B)、及びストレージデバイス(715C);アイトラッキングデバイス(715D);カメラ(715E);及び高密度の光線ベースのライトフィールドパネル(715F)を含み得る。
図8は、以前に図7に示したようなレガシーメディア及び異種のイマーシブメディア対応ディスプレイに対応できるイマーシブメディア配信モジュール(800)の図を示す。コンテンツはモジュール(801)で作成又は取得され、これは図5及び図6にそれぞれ自然コンテンツ及びCGIコンテンツとして表現されている。その後、コンテンツはネットワーク取り込みフォーマット作成モジュール(802)を使用して取り込みフォーマットに変換される。モジュール(802)のいくつかの実施例は、図5及び図6に、それぞれ自然コンテンツとCGIコンテンツのために表現されている。取り込みメディアフォーマットはネットワークに送信され、ストレージデバイス(803)に保存される。他のいくつかの実施例では、ストレージデバイスはイマーシブメディアコンテンツプロデューサのネットワークに存在し、二分する点線で示されるように、イマーシブメディアネットワーク配信モジュール(800)によってリモートでアクセスされ得る。クライアント及びアプリケーション固有の情報は、いくつかの実施例では、リモートストレージデバイス(804)上で利用可能であり、実施例ではオプションで代替クラウドネットワークにリモートで存在し得る。
図8に示すように、クライアントインタフェースモジュール(805)(例えば、いくつかの例ではサーバデバイスと呼ばれる)は、配信ネットワークの主要なタスクを実行するための情報の主要なソース及びシンクとして機能する。この特定の実施形態では、クライアントインタフェースモジュール(805)は、ネットワークの他のコンポーネントと統一されたフォーマットで実装することができる。それにもかかわらず、図8のクライアントインタフェースモジュール(805)によって示されるタスクは、いくつかの例において、開示された主題の要素を形成する。クライアントインタフェースモジュール(805)は、クライアントデバイスの特性に従ってメディアの全ての処理と配信を容易にするために、クライアントデバイスとの通信に双方向プロトコルをさらに採用することができる。さらに、双方向プロトコルは、異なる配信チャネル、すなわち、制御プレーンチャネルとデータプレーンチャネルにわたって実装することができる。
開示のいくつかの態様によると、クライアントインタフェースモジュール(805)は、クライアントデバイスの特性に従ってメディア(例えば、イマーシブメディア)の処理と配信を容易にするために、クライアントデバイスとの通信に双方向プロトコルをさらに採用することができる。
クライアントインタフェースモジュール(805)は、図8のクライアント(808)(クライアントデバイス(808)とも称される)などのクライアントデバイスの特徴と属性に関する情報を受信し、さらにクライアント(808)上で現在実行されているアプリケーションに関する要件を収集する。この情報は、デバイス(804)から取得することも、別の実施形態では、クライアント(808)に直接照会することによって取得することもできる。いくつかの例では、双方向プロトコルを使用して、クライアントインタフェースモジュール(805)とクライアント(808)の間の直接通信を可能にする。例えば、クライアントインタフェースモジュール(805)は、クライアント (808) に直接クエリを送信できる。双方向プロトコルのメッセージの例は、図16A-C、図17A-G及び図18を参照して提供される。
クライアントインタフェースモジュール(805)も開始し、図9で説明するメディア適応及びフラグメンテーションモジュール(810)と通信する。取り込みメディアはモジュール(810)によって適応及び断片化されるため、メディアは、いくつかの実施例では、配信ストレージデバイス(809)用に準備されたメディアとして示されるインターメディアストレージデバイスに転送される。配信メディアがデバイス(809)に準備及び格納されると、クライアントインタフェースモジュール(805)は、イマーシブクライアント(808)が、そのネットワークインタフェース(808B)を介して、プッシュ要求を通じて配信メディア及び対応する記述情報(806)を受信するか、クライアント(808)自体がストレージデバイス(809)からメディア(806)のプル要求を開始し得る。イマーシブクライアント(808)は、いくつかの実施例では、GPU(又は表示されていないCPU)(808C)を採用し得る。メディアの配信フォーマットは、クライアント(808)のストレージデバイス又はストレージキャッシュ(808D)に保存される。最終的に、イマーシブクライアント(808)は、その視覚化コンポーネント(808A)を介してメディアを視覚的に提示する。
イマーシブメディアをイマーシブクライアント(808)にストリーミングするプロセス全体を通して、クライアントインタフェースモジュール(805)は、クライアントの進行状況とステータスフィードバックチャネル(807)を介してクライアントの進行状況のステータスを監視できる。
図9は、いくつかの実施例において、メディア適応プロセスの図を示し、したがって、取り込まれたソースメディアがイマーシブクライアント(808)の要件に適合するように適切に適応される。メディア適応モジュール(901)は、イマーシブクライアント(808)のための適切な配信フォーマットへの取り込みメディアの適応を容易にする複数のコンポーネントを備える。図9では、メディア適応モジュール(901)は、ネットワーク上の現在のトラフィック負荷を追跡するために入力ネットワークステータス(905)を受信する。イマーシブクライアント(808)情報には、属性と特徴の記述、アプリケーションの特徴と記述、及びアプリケーションの現在のステータス、及び、クライアントのフラスタムのジオメトリを取り込みイマーシブメディアの補間機能にマッピングするのに役立つクライアントニューラルネットワークモデルを含むことができる。メディア適応モジュール(901)は、適応された出力が作成されたときに、クライアント適応型メディアストレージデバイス(906)に格納されることを保証する。
いくつかの実施例では、メディア適応モジュール(901)は、レンダラー(901B)又はニューラルネットワークプロセッサ(901C)を採用して、特定の取り込み元メディアをクライアントに適したフォーマットに適応させる。一実施例では、メディア適応モジュール(901)は、クライアント情報(904)を、例えばサーバデバイスなどのクライアントインタフェースモジュール(903)から受信する。クライアント情報(904)は、クライアント記述と現在ステータスを含み、アプリケーション記述と現在ステータスを含み、及びクライアントニューラルネットワークモデルを含むことができる。ニューラルネットワークプロセッサ(901C)は、ニューラルネットワークモデル(901A)を使用する。かかるニューラルネットワークプロセッサ(901C)の例は、MPI及びMSIで記述されているように、DeepViewニューラルネットワークモデル生成器を含む。いくつかの実施例では、メディアは2 Dフォーマットであるが、クライアントは3Dフォーマットを必要とし、その後、ニューラルネットワークプロセッサ(901C)は、2Dビデオ信号から高度に相関されたイメージを使用するプロセスを呼び出して、ビデオに描写されたシーンのボリューム表現を派生させることができる。このようなプロセスの例としては、カリフォルニア大学バークレー校で開発された1つ又はいくつかの画像プロセスからのNeRF(the neural radiance fields)が考えられる。適切なレンダラー(901B)の例としては、メディア適応モジュール(901)と直接相互作用するように変更されるOTOY Octaneレンダラー(図示せず) の変更バージョンがあり得る。メディア適応モジュール(901)は、いくつかの例では、取り込みメディアのフォーマットとイマーシブクライアント(808)が必要とするフォーマットとに関して、これらのツールの必要性に応じて、メディアコンプレッサー(901D)とメディアデコンプレッサー(901E)を採用し得る。
図10は、いくつかの実施例において、クライアント適応メディアストレージデバイス(1002)上に現在存在するメディア適応モジュール(1001)(例えば、図9のメディア適応モジュール(901)に対応する)から適応メディアを最終的に変換する適応メディアパッケージングプロセスを示す。例えば、メディアパッキングモジュール(1003)は、メディア適応モジュール(1001)から適応メディアを、例えば図3又は図4に示されている例示的なフォーマットであるロバストな配信フォーマット(1004)にフォーマットする。マニフェスト情報(1004A)は、クライアント(808) が受信することを期待できるシーンデータのリストをイマーシブクライアント(808) に提供し、視覚アセット及び対応するメタデータ、及び音声アセット及び対応するメタデータのリストも提供する。
図11は、いくつかのじっし例におけるフラグメンテーションプロセスを示す。図11の例では、パケタイザ(1102)は、ネットワーク上のクライアントエンドポイント(1104)として示されるイマーシブクライアント(808)へのストリーミングに適した個々のパケット(1103) にさまざまな適応メディア(1101)をフラグメント化する。
図12は、いくつかの実施例において、特定のイマーシブメディアクライアントのエンドポイントに対して、取り込みフォーマットの特定のイマーシブメディアを、ストリーミング可能で適切な配信フォーマットに適応させるネットワークのシーケンスを示す図である。
図12に示すコンポーネントと通信は、次のように説明される:クライアント (1201) (いくつかの実施例ではクライアントエンドポイントとも称される) は、ネットワーク配信インタフェース(1202)へのメディア要求(1208)を開始する。メディア要求(1208)には、URN又はその他の標準的な命名法のいずれかによって、クライアント(1201)によって要求されたメディアを識別するための情報が含まれる。ネットワーク配信インタフェース(1202)、クライアント(1201)が現在使用可能なリソース(計算、ストレージ、充電されたバッテリーの割合、及びクライアントの現在の動作ステータスを特徴づけるその他の情報を含む)に関する情報を提供することを要求するプロファイル要求(1209)でメディア要求(1208)に応答する。プロファイル要求(1209)はまた、クライアントでそのようなモデルが使用可能な場合、クライアントのプレゼンテーションシステムの特徴に適合する正しいメディアビューを抽出又は補間するために、ニューラルネットワーク推論のためにネットワークで使用できる1つ以上のニューラルネットワークモデルをクライアントが提供することを要求する。クライアント(1201)からネットワーク配信インタフェース(1202)への応答(1210)は、クライアントトークン、アプリケーショントークン、及び1つ以上のニューラルネットワークモデルトークン(かかるニューラルネットワークモデルトークンがクライアントで使用可能な場合)を提供する。ネットワーク配信インタフェース(1202)は、その後クライアント(1201)にセッションIDトークン(1211)を提供する。その後、ネットワーク配信インタフェース(1202)は、要求(1208)で識別されたメディアのためのURN又は標準的な命名法の名前を含む、取り込みメディア要求(1212)で取り込みメディアサーバ(1203)を要求する。取り込みメディアサーバ(1203)は、取り込みメディアトークンを含む応答(1213)で要求(1212)に応答する。次に、ネットワーク分散インタフェース(1202)は、コール(1214)の応答(1213)からクライアント(1201)にメディアトークンを提供する。その後、ネットワーク配信インタフェース(1202)は、取り込みメディアトークン、クライアントトークン、アプリケーショントークン、及びニューラルネットワークモデルトークン(1215)を適応インタフェース(1204)に提供することによって、メディア要求(1208)の適応プロセスを開始する。適応インターフェース(1204)は、取り込みメディアアセットへのアクセスを要求するための呼び出し(1216)で取り込みメディアサーバ(1203)に取り込みメディアトークンを提供することによって、取り込みメディアへのアクセスを要求する。取り込みメディアサーバ(1203)は、適応インタフェース(1204)への応答(1217)に応じて、取り込みメディアアクセストークンで要求(1216)に応答する。適応インタフェース(1204)は、メディア適応モジュール(1205)が、(1213)で作成されたセッションIDトークンに対応する、クライアント、アプリケーション、及びニューラルネットワーク推論モデルのために、取り込みメディアアクセストークンに位置する取り込みメディアを適応させるように要求する。適応インタフェース(1204)からメディア適応モジュール(1205)への要求(1218)には、必要なトークン及びセッションIDが含まれる。メディア適応モジュール(1205)は、ネットワーク配信インタフェース(1202)に適応型メディアアクセストークン及びセッションIDを更新(1219)で提供する。ネットワーク配信インタフェース(1202)は、パッケージモジュール(1206)に適応型メディアアクセストークンとセッションIDをインタフェースコール(1220)で提供する。パッケージモジュール(1206)は、応答メッセージ(1221)でパッケージ化されたメディアアクセストークン及びセッションIDを使用して、ネットワーク配信インタフェース(1302)への応答(1221)を提供する。パッケージモジュール(1206)は、応答(1222)でパッケージ化されたアセット、URN、及びセッションIDのパッケージ化されたメディアアクセストークンをパッケージ化されたメディアサーバ(1207)に提供する。クライアント(1201)は要求(1223)を実行して、応答メッセージ(1221)で受信したパッケージ化されたメディアアクセストークンに対応するメディアアセットのストリーミングを開始する。クライアント(1201) は他の要求を実行し、メッセージ(1224)のステータス更新をネットワーク配信インタフェース (1202)に提供する。
図13は、いくつかの実施例では、3Dフォーマット(1301)及び2Dフォーマット(1302)のイマーシブメディア及びアセットの2つの部分で構成される、図9の取り込みメディアフォーマット及びアセット(902)を示す。2Dフォーマット(1302)は、例えば、ISO/IEC 14496 Part 10 Advanced Video Codingのように、シングルビューでコード化されたビデオストリームでも、例えば、ISO/IEC 14496 Part 10のマルチビュー圧縮修正版のように、複数のビューを含むコード化されたビデオストリームでもあり得る。
図14は、コード化されたビデオストリームに沿ったニューラルネットワークモデル情報の搬送を示す図である。図14において、コード化ビデオストリーム(1401)は、ニューラルネットワークモデルと、一つ以上のSEIメッセージ(1401A)及び符号化ビデオストリーム(1401B)によって直接運ばれる対応するパラメータを含む。一方、コード化ビデオストリーム(1402)では、1つ以上のSEIメッセージは、ニューラルネットワークモデルとその対応するパラメータ(1402A)及びコード化ビデオビットストリーム(1402B)の識別子を搬送する。(1402)のシナリオでは、ニューラルネットワークモデル及びパラメータは、例えば図9の(901A)のように、コード化ビデオストリームの外部に格納される。
図15は、取り込まれたイマーシブメディア及びアセット3Dフォーマット(1501)(図13の3Dフォーマット(1301)のイマーシブメディア及びアセットに対応する)でのニューラルネットワークモデル情報の搬送を示す。取り込まれたイマーシブメディア及びアセットの3Dフォーマット(1501)は、1502)として表されたシーン1からNを参照する。各シーン(1502)は、ジオメトリ(1503)及び処理パラメータ(1504)を参照する。ジオメトリ(1503)は、ニューラルネットワークモデルへの参照(1503A)を含み得る。処理パラメータ(1504)は、ニューラルネットワークモデルへの参照(1504A)を含み得る。(1504A)及び(1503A)の両方は、シーンと共に直接格納されているネットワークモデル、又は取り込まれたメディアの外部に存在するニューラルネットワークモデルを参照する識別子、例えば、図9の901A)に格納されているネットワークモデルを参照することができる。
本開示の様々なモジュールは、個々のデバイスであることも、デバイス内のコンポーネントであることもできることに留意されたい。いくつかの実施例では、モジュールは個々のデバイスであり、他のデバイスと結合することができる。いくつかの実施例では、モジュールは処理回路であり、他の処理回路と相互接続することができる。いくつかの実施例では、モジュールはソフトウェア命令モジュールであり、1つ以上のプロセッサで実行できる。
開示のいくつかの態様は、メディア配信ネットワークのクライアントインタフェース(サーバデバイスとも称される)がクライアントプレゼンテーションエンドポイント(つまり、クライアントデバイスとも称される)と直接通信できるようにする双方向メッセージを有する双方向プロトコルを提供する。いくつかの実施例では、双方向プロトコルはトランスポートレイヤ上のネットワークレイヤで実装できる。いくつかの実施例では、双方向プロトコルを使用して、サーバデバイスはクライアント固有の特性とクライアントデバイスのサポートされている機能に関する情報を取得できる。いくつかの実施例では、双方向プロトコルを使用して、サーバデバイスは、クライアントデバイスへのメディアの適応と配信のためのユニークなセッションと動作コンテキストを確立することによって、クライアントデバイスへのメディアの配信を管理できる。いくつかの実施例では、双方向プロトコルを使用して、サーバデバイスは、特定のメディアの表示において、例えばコンピューティング又はストレージなどのために、クライアントデバイスのリソースを補完するためにクライアントデバイスがネットワークに依存する必要があれば又は必要な場合に、セッション中の状況に応答できる。いくつかの実施例では、双方向プロトコルは、クライアントデバイスの機能に適合するように、入力メディアの適応プロセスでサーバデバイスをアシストできる。いくつかの実施例では、双方向プロトコルは、例えばスタジオ又はクライアントデバイスのコンテンツクリエータによってそのような再利用が許可されれば又は許可される場合、複数のクライアントデバイスにわたるプレゼンテーションのための特定のメディアアセットの効率的な再利用を可能にする。いくつかの実施例では、双方向プロトコルを使用して、サーバデバイスは、ネットワークオペレータ(ワイヤレスサービスプロバイダー、ワイヤレスキャリア、モバイルネットワークキャリアとも称される)とクライアントデバイスと間の既存のサービスレベル契約に従って、クライアントデバイスのメディアのほぼリアルタイムのプレゼンテーションを容易にすることができる。いくつかの実施例では、双方向プロトコルを使用して、サーバデバイスは、アプリケーション、例えば相互作用ゲーム対線形パッシブ視覚経験、の要件に従って、クライアントデバイスによるメディアのほぼリアルタイムの表示を容易にすることができる。
開示の一態様によると、双方向プロトコルは、クライアントデバイスと直接通信するサーバデバイスの双方向プレゼンテーションデータストリームを形成するために使用される。双方向プレゼンテーションデータストリームには、入力メディアをクライアントデバイスに適した配信フォーマットにタイムリーに適応させ、適応されたメディアをプレゼンテーション用にクライアントデバイスにストリーミングすることを容易にするために、サーバデバイスとクライアントデバイスの間で交換される一連のメッセージが含まれる。
双方向プロトコルは、さまざまなフォーマットのアセットタイプを必要とするさまざまな多様なクライアントデバイスをサポートし、特定のクライアントによる使用に以前に適応されたアセットを再利用できる、メディア配信ネットワークを構築するために使用できる。
図16A-16Cは、いくつかの実施例では、サーバデバイス(例えば、図8にクライアントインタフェースモジュール(805)として示されている)とクライアントデバイスと(例えば、図8にイマーシブクライアント(808)として示されている。)の間で交換できるメッセージのリストを提供する。いくつかの実施例では、メッセージのリストは、サーバデバイスから発信されクライアントデバイスに送信されるメッセージ及び情報(806)を含むことができ、クライアントデバイスから発生し、サーバデバイスに送信されるフィードバック及びステータス(807)を含むことができる。
図16A-16Bは、サーバデバイスからクライアントデバイスに送信されるメッセージ(番号が1から20のメッセージ)の最初のグループを示し、図16Cは、いくつかの実施形態に従ってクライアントデバイスからサーバデバイスに送信されるメッセージ(21から31でナンバリングされたメッセージ)の第2グループを示す。
図17A-17Gは、いくつかの実施例のメッセージの第1グループのための意味情報の表を示す。図18は、いくつかの実施例のメッセージの第2グループのための意味情報の表を示す。
図16A-16C、図17A-17G及び図18のメッセージが図示されていることに留意されたい。双方向プロトコルのメッセージを変更及び/又は省略することができる。追加のメッセージを追加することができる。
一部の実装では、メディア配信ネットワークは、双方向プロトコルによって定義されたメッセージを使用して、イマーシブメディアコンテンツなどのメディアの適応とストリーミングを容易にすることができる。いくつかの実施例では、双方向プロトコルは、実行するアクションをシグナリングする特定のメッセージを含むことができる。例えば、特定のメッセージにより、クライアントデバイスがその処理特性をサーバデバイスに送信するようにすることができ、その結果、クライアントデバイスの処理特性を受信すると、サーバデバイスには、取り込まれたメディアをクライアントデバイスに適したフォーマットに有意義に適応させるのに十分な情報が備わっている。別の実施例では、サーバデバイスとクライアントデバイスとの間でメッセージを交換して、クライアントデバイスのエンドユーザが体験したいプレゼンテーションのためのシーンのマニフェストをサーバデバイスが送信できるようにすることができる。例えば、かかるマニフェストを受信すると、クライアントデバイスは、第1シーン、第2シーンなどのための各アセットを要求することを含む、プレゼンテーションの作成準備に必要なステップを開始できる。サーバデバイスは、メディアソースからアセットをクライアントに直接送信するか、近くのデータベースからアセットをフェッチするようにクライアントに通知することにより、アセットの各要求に応答できる。メッセージ要求に応答して、クライアントデバイス又はサーバデバイスは、メッセージ内の要求が正常に実行されたことを示す肯定応答、またはエラーが発生したことを示す否定応答で応答することができる。
開示のいくつかの態様は、双方向プロトコルの実装を容易にする技術を提供する。例えば、双方向プロトコルのメッセージは、制御メッセージ及びデータメッセージの2つのカテゴリに分けられる。いくつかの実施例では、データメッセージは配信用のメディアデータが含み、制御メッセージはデータメッセージを配信するための制御情報が含む。例えば、制御メッセージは、データメッセージの配信を準備するためのセットアップ情報、データメッセージの配信中の処理情報、データメッセージの配信後の情報の確認などを含むことができる。
さらに、制御メッセージ及びデータメッセージを配信するために、別々の通信技術が使用される。例えば、高速配信を可能にする第1通信技術を使用してデータメッセージを配信し、信頼性の高い配信を保証する第2の通信技術を使用して制御メッセージを配信できる。例えば、ユーザーデータグラムプロトコル(UDP)などの低遅延のネットワークトランスポートプロトコルを使用してデータメッセージを配信し、伝送制御プロトコル(TCP)などのより信頼性の高い接続ベースネットワークトランスポートプロトコルを使用して制御メッセージを配信できます。TCPは、順序、信頼性、整合性を保証できる。UDPは、オーバーヘッドとレイテンシを削減し、大量のデータユニットを送信できる。
いくつかの実施例では、制御メッセージは制御プレーンを形成し、制御プレーンチャネルは、制御メッセージの配信のためのメディア配信ネットワークアーキテクチャの統合コンポーネントに関連する。実施例では、制御プレーンチャネルは、制御メッセージを配信するためにTCPプロトコルに従って設定できる。さらに、データメッセージはデータプレーンを形成し、データプレーンチャネルは、データメッセージの配信のためのメディア配信ネットワークアーキテクチャの統合コンポーネントに関連する。実施例では、データプレーンチャネルは、データメッセージを配信するためにUDPに従って設定できる。
この方法では、メディアデータをより少ないレイテンシでデータプレーンチャネル上で送信することができ、設定情報、監視情報、及びデータプレーンチャネル上の送信を支援するステータス通知などの制御情報は、制御プレーンチャネル上で送信することができ、データメッセージの送信を成功させるか、又はデータプレーンチャネル上の送信のエラーを検出してデータプレーンチャネル上で再送信をトリガーすることができる。
開示の態様によると、別々の制御プレーンチャネルとデータプレーンチャネルを使用した双方向通信を使用して、さまざまなフォーマットのアセットタイプを必要とするさまざまな多様なクライアントデバイスをサポートでき、特定のクライアントデバイスでの使用に以前に適応されたアセットを再利用できるメディア配信ネットワークを構築することができる。制御プレーンチャネルとデータプレーンチャネル上での双方向通信の分離により、いくつかの例では、よりロバストで効率的なメディア配信ネットワークを実装することができ、データメッセージは、遅延が少なくても信頼性の低いトランスポートレイヤ上で伝送され、一方、制御メッセージは、メッセージの配信が遅い、より信頼性の高いトランスポートレイヤ上で伝送される。
図19Aは、本開示のいくつかの実施形態によるメディアシステム(1900)のブロック図を示す。メディアシステム(1900)は、サーバ装置(1901)とクライアント装置(1906)を含む。いくつかの例では、サーバデバイス(1901)はメディア配信ネットワーク(例:クライアントインタフェースモジュール(805))におけるクライアントインタフェースモジュールとも称される。図19Aの例では、サーバデバイス(1901)とクライアントデバイス(1906)との間の双方向通信のために、通信チャネル(1902)、(1903)、(1904)、(1905)を設定することができる。いくつかの実施例では、通信チャネルは物理的な伝送媒体を指することも、電気通信やコンピュータネットワークにおける多重化された媒体上の論理的な接続を指することもできる。
具体的には、通信チャネル(1902)は、サーバデバイス(1901)からクライアントデバイス(1906)に制御メッセージを配信するように構成される。図19Bは、通信チャネル (1902)によって配信できる、図16A-16Cにおける双方向プロトコルからの制御メッセージのリストを示す。
通信チャネル(1903)は、制御メッセージをクライアントデバイス(1906)からサーバデバイス(1901)に配信するように設定される。図19Cは、通信チャネル(1903)によって配信できる、図16A-16Cにおける双方向プロトコルからの制御メッセージのリストを示す。
いくつかの実施例では、通信チャネル(1902)及び通信チャネル(1903)は双方向の制御プレーンチャネルであることができる。図19Bと図19Cの制御メッセージは、双方向プロトコルの制御プレーンを形成する。
通信チャネル(1904)は、サーバデバイス(1901)からクライアントデバイス(1906)にデータメッセージを配信するように構成される。図19Dは、通信チャネル(1904)によって配信できる、図16A-16Cにおける双方向プロトコルからの制御メッセージのリストを示す。
通信チャネル(1905)は、データメッセージをクライアントデバイス(1906)からサーバデバイス(1901)に配信するように設定される。図19Eは、通信チャネル(1905) によって配信できる、図16A-16Cにおける双方向プロトコルからの制御メッセージのリストを示す。
いくつかの実施例では、通信チャネル(1904)は単方向のデータプレーンチャネルであり、通信チャネル(1905)は単方向の別のデータプレーンチャネルである。図19D及び図19Eのデータメッセージは、双方向プロトコルのデータプレーンを形成する。
図19B-19Eのメッセージが説明のためのものであることに留意されたい。通信チャネル(1902)-(1905)のメッセージを変更及び/又は省略することができる。追加のメッセージは、追加されることができる。
図20は、いくつかの実施例において、双方向プロトコルの使用を説明するためのメディアシステム(2000)のブロック図を示す。いくつかの実施例では、双方向プロトコルは、図16A-16C、図17A-17G及び図18のメッセージを含むことができる。メッセージは、図19A-19Eに従って制御プレーン及びデータプレーンに分けることができる。
メディアシステム(2000)は、イマーシブメディアアプリケーション、拡張現実(AR)アプリケーション、仮想現実アプリケーション、ビデオゲームアプリケーション、スポーツゲームアニメーションアプリケーション、テレビ会議及びテレプレゼンスアプリケーション、メディアストリーミングアプリケーションなど、様々な用途のアプリケーションで使用することができる。
メディアシステム(2000)は、サーバデバイス(2010)と、図20に示すクライアントデバイス(2060A)、(2060B)、(2060C)など、ネットワーク(図示せず)によって接続できる複数のメディアクライアントデバイスとを含む。一実施例では、サーバデバイス(2010)は、イマーシブメディアコーディング機能を備える1つ以上のデバイスを含むことができる。一実施例では、サーバデバイス(2010)は、デスクトップコンピュータ、ラップトップコンピュータ、サーバコンピュータ、タブレットコンピュータなどの単一のコンピューティングデバイスを含む。別の例では、サーバデバイス(2010)は、(1つ以上の)データセンター、(1つ以上の)サーバファームなどを含む。サーバデバイス(2010)は、イマーシブコンテンツ、ビデオコンテンツ、オーディオコンテンツなどの入力メディアコンテンツを受信することができる。クライアントデバイス(例エバクライアントデバイス(2060A)、(2060B)、(2060C))は、それぞれ、メディアアプリケーションのためのメディアプレゼンテーション機能を備えた1つ以上のデバイスを含む。一実施例では、メディアクライアントデバイスは、デスクトップコンピュータ、ラップトップコンピュータ、サーバコンピュータ、タブレットコンピュータ、ヘッドマウントディスプレイ(HMD)デバイス、レンチキュラライトフィールドディスプレイなどのプレゼンテーションデバイスを含むことができる。メディアクライアントデバイスは、いくつかの実施例では、適切なメディア提示フォーマットに従ってメディアを提示することができる。
サーバデバイス(2010)は、任意の適切な技術を使用して実装することができる。図20の例では、サーバデバイス(2010)は、一緒に結合された処理回路(2030)とインタフェース回路(2011)をを含む。
処理回路(2030)は、1つ以上の中央処理ユニット(CPU)、1つ以上のグラフィックス処理ユニット(GPU)、特定用途向け集積回路など、任意の適切な処理回路を含むことができる。図20の例では、処理回路(2030)は、双方向プロトコルに従ってメッセージを形成するように構成され、双方向プロトコルに従ってメッセージを解釈することができる。さらに、処理回路(2030)は、メディアコンテンツを搬送するメディアストリームを生成することができる。いくつかの実施例では、メディアストリームは、サーバデバイス(2010)とメディアクライアントデバイスとの間で交換されるメッセージに基づいて適応させることができる。
インタフェース回路(2011)は、サーバデバイス(2010)とネットワークをインタフェースすることができる。インタフェース回路(2011)は、ネットワークから信号を受信する受信部分と、ネットワークに信号を送信する送信部分を含めることができる。例えば、インタフェース回路(2011)は、ネットワークを介して、クライアントデバイス(2060A)、クライアントデバイス(2060B)、クライアントデバイス(2060C)などの他のデバイスにメッセージを搬送する信号を送信することができる。インタフェース回路(2011)は、クライアントデバイス(2060A)、(2060B)、(2060C)などのメディアクライアントデバイスからメッセージを搬送する信号を受信できる。
ネットワークは、イーサネット接続、光ファイバ接続、WiFi接続、セルラーネットワーク接続などの有線及び/又は無線接続を介して、サーバデバイス(2010)及びクライアントデバイス(例:クライアントデバイス(2060A)、(2060B)、(2060C))と適切に結合される。
クライアントデバイス(例:クライアントデバイス(2060A)、(2060B)、(2060 C))は、メディアプレゼンテーション用と双方向プロトコルを使用した双方向通信用にそれぞれ構成される。
クライアントデバイス(2060A)、(2060B)、(2060B)などのメディアクライアントデバイスは、任意の適切なテクノロジーを使用して実装できる。図20の実施例では、クライアントデバイス(2060A)と(2060B)が示されるが、これは、ユーザーAやユーザーBなど、それぞれのユーザーによって使用できるユーザー機器としてイヤホンを備えるヘッドマウントディスプレイ(HMD)に限定されない。クライアントデバイス(2060C)が示されるが、これは、最大複数のユーザーが同時に表示できるコンテンツを表示できるレンチキュラーライトフィールドディスプレイに限定されず、各ユーザーは表示されているコンテンツの独自の視点(すなわち、ビュー)を体験している。
図20では、クライアントデバイス(2060A)は、インタフェース回路(2061A)と、図20に示すように一緒に結合された処理回路(2070A)を含む。クライアントデバイス(2060B)は、インタフェース回路(2061B)と、図20に示すように一緒に結合された処理回路(2070B)を含む。クライアントデバイス(2060C)は、インタフェース回路(2061C)と、図20に示すように一緒に結合された処理回路(2070C)を含む。
インタフェース回路(2061A)は、クライアントデバイス(2060A)とネットワークをインタフェースすることができる。インタフェース回路(2061A)は、ネットワークからの信号を受信する受信部と、ネットワークに信号を送信する送信部を含むことができる。例えば、インタフェース回路(2061A)は、サーバデバイス(2010)からメッセージを搬送する信号を受信し、サーバデバイス(2010)にメッセージを搬送する信号を送信することができる。
処理回路 (2070)は、CPU、GPU、特定用途向け集積回路などの適切な処理回路を含むことができる。処理回路(2070A)は、メディアデコーダ、レンダリングなどのさまざまなコンポーネントを含むように構成することができる。
同様に、インタフェース回路(2061B)は、クライアントデバイス(2060B)とネットワークをインタフェースすることができる。インタフェース回路(2061B)は、ネットワークからの信号を受信する受信部と、ネットワークに信号を送信する送信部を含むことができる。例えば、インタフェース回路(2061B)は、サーバデバイス(2010)からメッセージを搬送する信号を受信し、サーバデバイス(2010)にメッセージを搬送する信号を送信することができる。
処理回路 (2070 B) は、CPU、GPU、特定用途向け集積回路などの適切な処理回路を含むことができる。処理回路 (2070 B) は、メディアデコーダ、レンダリングなどのさまざまなコンポーネントを含むように構成することができる。
同様に、インタフェース回路(2061C)は、クライアントデバイス(2060C)とネットワークをインタフェースすることができる。インタフェース回路(2061C)は、ネットワークからの信号を受信する受信部と、ネットワークに信号を送信する送信部を含むことができる。例えば、インタフェース回路(2061C)は、サーバデバイス(2010)からメッセージを搬送する信号を受信し、サーバデバイス(2010)にメッセージを搬送する信号を送信することができる。
処理回路 (2070 C) は、CPU、GPU、特定用途向け集積回路などの適切な処理回路を含むことができる。処理回路 (2070 C) は、メディアデコーダ、レンダリングなどのさまざまなコンポーネントを含むように構成することができる。
開示の一態様によれば、サーバデバイス(2010)とクライアントデバイス(2060A)とは、その間で制御メッセージを交換(送受信)するための制御プレーンチャネル(2001)を設定することができ;サーバデバイス(2010)とクライアントデバイス(2060B)とは、その間で制御メッセージを交換するための制御プレーンチャネル(2003)を設定することができ;サーバデバイス(2010)とクライアントデバイス(2060C)とは、その間で制御メッセージを交換するための制御プレーンチャネル(2005)を設定することができる。一実施例では、制御プレーンチャネル(2001)、(2003)、(2005)はTCPを使用でき、制御メッセージの双方向伝送を行うことができる。
いくつかの実施例では、チャネルプレーンチャネル(2001)、(2003)、(2005)交換される制御メッセージに基づいて、データプレーンチャネルをメディアシステム(2000)に設定することができる。一実施例では、制御プレーンチャネル(2001)上で交換される制御メッセージに基づいて、サーバデバイス(2010)とクライアントデバイス(2060A)との間にデータプレーンチャネル(2002)を設定することができ;制御プレーンチャネル(2003)上で交換される制御メッセージに基づいて、サーバデバイス(2010)とクライアントデバイス(2060B)との間にデータプレーンチャネル(2004)を設定することができ;制御プレーンチャネル(2005)の上で交換される制御メッセージに基づいて、サーバデバイス(2010)とクライアントデバイス(2060C)との間にデータプレーンチャネル(2006)を設定することができる。一実施例では、データプレーンチャネル(2002)、(2004)、(2006)はUDPを使用でき、データメッセージの単方向送信を実行できる。
いくつかの実施例では、制御プレーンチャネル(2001)、(2003)、(2005)を使用して、サーバデバイス(2010)は、クライアントデバイス(2060A)、(2060B)、(2060C)のクライアント固有の特性とサポートされている特徴に関する情報を取得できまる。一実施例では、サーバデバイス(2010)は、制御チャネルプレーン(2001)、(2003)、(2005)を介してそれぞれのメディアクライアントデバイスから情報を要求するために、クライアントデバイス(2060A)、(2060B)、(2060C)へのそれぞれのメッセージを生成できる。この情報は、メディアクライアントデバイスのコンピューティングリソース、メディアクライアントデバイスのストレージリソース、メディアクライアントデバイスのネットワークサービスプロバイダとのサービスレベル契約、メディアクライアントデバイスのイマーシブアプリケーション要件、メディアクライアントデバイスの種類、メディアクライアントデバイスのモデル、クライアントデバイスのニューラルネットワークモデルが含まれるが、これらに限定されない。クライアントデバイス(2060A)、(2060B)、及び(2060C)は、制御プレーンチャネル(2001)、(2003)、及び(2005)を介して、サーバデバイス(2010)から受信したメッセージに応答して、要求された情報を提供できる。いくつかの実施例では、クライアントデバイス(2060A)、(2060B)、(2060Cは、要求されることなく、クライアント固有の特性とサポートされる機能を自発的に提供できる。
いくつかの実施例では、制御プレーンチャネル(2001)、(2003)、(2005)上で交換される制御メッセージを使用して、サーバデバイス(2010)は、メディアクライアントデバイスへのメディアの適応と配信のためのユニークなセッション及び動作コンテキストを確立することによって、メディアクライアントデバイスへのメディアの配信を管理できる。いくつかの実施例では、制御プレーンチャネル(2001)、(2003)、(2005)上で交換される制御メッセージは、メディアクライアントデバイスの機能に適合するように入力メディアの適応プロセスでメディアサーバデバイス(2010を支援できる。
例えば、サーバデバイス(2010)は、制御プレーンチャネル(2001)上で交換される制御メッセージに基づいて、クライアントデバイス(2060A)との第1のユニークなセッション(例えば、データプレーンチャネル(2002))を確立できる。サーバデバイス(2010)は、クライアントデバイス(2060A)の機能に適合するように入力メディアから適応された第1メディアストリームを生成できる。データプレーンチャネル(2002)は、第1メディアストリームをクライアントデバイス(2060A)に提供できる。
サーバデバイス(2010)は、制御プレーンチャネル(2003)上で交換される制御メッセージに基づいて、クライアントデバイス(2060B)との第2のユニークなセッション(例えば、データプレーンチャネル(2004))を確立できる。サーバデバイス(2010)は、クライアントデバイス(2060B)の機能に適合するように入力メディアから適応された第2メディアストリームを生成できる。データプレーンチャネル(2004)は、クライアントデバイス(2060B)に第2メディアストリームを提供できる。
サーバデバイス(2010)は、制御プレーンチャネル(2005)上で交換される制御メッセージに基づいて、クライアントデバイス(2060C)との第2のユニークなセッション(例えば、データプレーンチャネル(2006))を確立できる。サーバデバイス(2010)は、クライアントデバイス(2060C)の機能に適合するように入力メディアから適応された第3メディアストリームを生成できる。データプレーンチャネル(2006)は、クライアントデバイス(2060C)に第3メディアストリームを提供できる。
いくつかの実施例では、制御プレーンチャネルを使用して、サーバデバイス(2010)は、特定のメディアの表示において、メディアクライアントデバイスがクライアントデバイスのリソース 、例えばコンピューティングやストレージなど)、を補完するためにネットワークに依存する必要があれば、又は必要な場合に、セッション中の状況に応答できる。一実施例では、クライアントデバイス(2060B)は、制御プレーンチャネル(2003)を介して、クライアントデバイス(2060B)がコンピューティングリソース、例えば、レンダリングのための計算リソース、を補完するためにネットワークに依存する必要があることをサーバデバイス(2010)に通知する。サーバデバイス(2010)は、クライアントデバイス(2060B)に補完コンピューティングリソースを提供することを決定できる。例えば、サーバデバイス(2010)は、クライアントデバイス(2020B)のためにメディアデータに対して計算量の多いメディア処理を実行することができる。
いくつかの実施例では、制御プレーンチャネルを使用すると、スタジオ又はクライアントデバイスなどのコンテンツクリエータによって、かかる再利用が許可されている場合に、複数のクライアントデバイスにわたってプレゼンテーション用の特定のメディアアセットを効率的に再利用できる。一実施例では、サーバデバイス(2010)は、クライアントデバイス(2060A)のメディアアセットをクライアントデバイス(2060B)に再利用するかどうかを決定できる。例えば、サーバデバイス(2010)は、制御プレーンチャネル(2001)を介してクライアントデバイス (2060A)からキャッシュ(例えば、ストレージ(2099))にレンダリングされたメディアアセットの情報を取得し、制御プレーンチャネル(2003)を介してクライアントデバイス(2060B)に情報を提供できる。その後、クライアントデバイス(2060B)は、その情報に従ってレンダリングされたメディアアセットのキャッシュにアクセスできる。ストレージ(2099)は、クライアントデバイス(2060A)の内部コンポーネントにすることも、クライアントデバイス(2060A)の外部コンポーネントにすることもできる。
別の実施例では、サーバデバイス(2010)は、レンダリングされたメディアアセットをサーバデバイス(2010)に返送するようクライアントデバイス(2060A)に要求し、その後、サーバデバイス(2010)は受信したメディアアセットをクライアントデバイス(2060B)に提供できる。一実施例では、制御プレーンチャネル(2001)を介して、別のデータプレーンチャネル(2007)が、レンダリングされたメディアアセットをクライアントデバイス(2060A)からサーバデバイス(2010)に返送するように設定される。
図21は、本開示の一実施形態によるプロセス(2100)の概略を示すフローチャートを示す。プロセス(2100)は、サーバデバイス(2010)などのサーバデバイスで使用できる。さまざまな実施形態では、プロセス(2100)は、サーバデバイス(2010)の処理回路(2030)などの処理回路によって実行される。いくつかの実施形態では、プロセス(2100)はソフトウェア命令で実装されるため、処理回路がソフトウェア命令を実行するとき、処理回路はプロセス(2100)を実行する。プロセスは(S2101)から始まり、(S2110)に進む。
(S2110)において、サーバデバイスは、第1トランスポートプロトコルを使用する制御プレーンチャネルの上で、クライアントデバイスとと、複数の制御メッセージを交換する。複数の制御メッセージは、イマーシブメディア配信のための双方向プロトコルの制御プレーンに属する。イマーシブメディア配信のための双方向プロトコルは、一例では、オープンシステム相互接続 (OSI) モデルにおけるアプリケーションレイヤ、プレゼンテーションレイヤなどのトランスポートレイヤの上のネットワークレイヤで実装することができる。
(S 2120)で、サーバデバイスは、第2トランスポートプロトコルを使用する第1データプレーンチャネルを介して、第1の複数のデータメッセージをクライアントデバイスに送信する。第1の複数のデータメッセージは、双方向プロトコルのデータプレーンに属し、3Dグラフィックデータなどの少なくともイマーシブなメディアコンテンツを伝送する。
いくつかの実施例では、第1トランスポートプロトコルは伝送制御プロトコル (TCP) であり、第2トランスポートプロトコルはユーザーデータグラムプロトコル (UDP) である。
いくつかの実施例では、第1トランスポートプロトコルはコネクションベースのトランスポートプロトコルであり、双方向であることができる。第2トランスポートプロトコルはコネクションレスの(connectionless)トランスポートプロトコルであり、単方向であることができる。
いくつかの実施例では、サーバデバイスは、制御プレーンチャネルを介して交換される複数の制御メッセージに従って、クライアントデバイスと第1データプレーンチャネルを設定することができる。
いくつかの実施例では、サーバデバイスは、制御プレーンチャネルを介してクライアントデバイスの1つ以上の特定の特性を受信することができ、1つ以上の特定の特性に従って、第1の複数のデータメッセージで搬送されるメディアストリームを適応させることができる。いくつかの実施例では、1つ以上の特定の特性は、クライアントデバイスのコンピューティングリソース、クライアントデバイスのストレージリソース、クライアントデバイスでのネットワークサービスプロバイダのサービスレベル契約、イマーシブアプリケーション要件、クライアントデバイスのタイプ、クライアントデバイスのモデル、及びクライアントデバイスでのニューラルネットワークモデルのうちの少なくとも1つを含むことができる。
いくつかの実施例では、サーバデバイスは、第2トランスポートプロトコルを使用する第2データプレーンチャネルの上で、クライアントデバイスから第2の複数のデータメッセージを受信することができる。第2の複数のデータメッセージは、クライアントデバイスにおけるニューラルネットワークモデルのレイヤ情報及びクライアントデバイスによってレンダリングされたメディアコンテンツのうちの少なくとも1つを搬送する。実施例において、サーバデバイスは、クライアントデバイスによってレンダリングされたメディアコンテンツを別のクライアントデバイスに送信することができる。
いくつかの実施形態では、クライアントデバイスは第1クライアントデバイスであり、複数の制御メッセージは、サーバデバイスが第2クライアントデバイスとイマーシブメディアコンテンツを共有することを可能にする。一実施例では、サーバデバイスは、サーバデバイスからの要求に応じて、第1クライアントデバイスから制御プレーンチャネルを介して不変ストレージにキャッシュされるアセットの共有可能なユニフォームリソース識別子(URI)であるタイプのアセットのリストを受信することができる。別の実施例では、サーバデバイスは、サーバデバイスからの要求に応じて、制御プレーンチャネルを介して第1クライアントデバイスからアクセス可能な各アセットのステータス更新を受信することができる。別の実施例では、サーバデバイスは、サーバデバイスからの要求に応じて、特定のアセットタイプの現在の状態、及び第1のクライアントデバイスから制御プレーンチャネルを介して特定のサーバ割り当て識別子及び特定のアセットユニフォームリソース識別子 (URI)のうちのいずれかを受信することができる。サーバデバイスは、サーバデバイスと第2クライアントデバイスとの間の制御プレーンチャネルを介して第2クライアントデバイスに制御メッセージを提供することができ、制御メッセージによって、第2のクライアントデバイスが、キャッシュされたアセットなどの第1クライアントデバイスのイマーシブメディアコンテンツにアクセスできるようにすることができる。
その後、プロセスは(S2199)に進み、終了する。
方法(2100)は、適切に適合されていることができる。プロセス(2100)のステップは、修正及び/又は省略することができる。(1つ以上の)追加ステップは、加えられることができる。実施のいかなる適切な順序も、用いられることができる。
図22は、本開示の一実施形態によるプロセス(2200)の概略を示すフローチャートを示す。プロセス(2200)は、クライアントデバイス(2060A)、クライアントデバイス(2060B)、クライアントデバイス(2060C)などのクライアントデバイスで使用できる。さまざまな実施形態では、プロセス(2200)は、処理回路(2070A)、処理回路(2070B)、処理回路(2070C)などの処理回路によって実行される。いくつかの実施形態では、プロセス(2200)はソフトウェア命令で実装されるため、処理回路がソフトウェア命令を実行するとき、処理回路はプロセス(2200)を実行する。プロセスは(S2201)から始まり、(S2210)に進む。
(S 2210) において、クライアントデバイスは、第1トランスポートプロトコルを使用する制御プレーンチャネル上で、複数の制御メッセージをサーバデバイスと交換する。複数の制御メッセージは、イマーシブメディア配信のための双方向プロトコルの制御プレーンに属する。イマーシブメディア配信のための双方向プロトコルは、一実施例では、オープンシステム相互接続(OSI)モデルにおけるアプリケーションレイヤ、プレゼンテーションレイヤなどのトランスポートレイヤの上のネットワークレイヤで実装することができる。
(S2220)において、クライアントデバイスは、サーバデバイスから、第2のトランスポートプロトコルを使用する第1データプレーンチャネル上で、第1の複数のデータメッセージを受信する。第1の複数のデータメッセージは、双方向プロトコルのデータプレーンに属し、少なくともイマーシブなメディアコンテンツを搬送する。
(S2230)において、クライアントデバイスは、第1の複数のデータメッセージによって搬送されるイマーシブなメディアコンテンツを提示することができる。
いくつかの実施例では、第1トランスポートプロトコルは、トランスミッション制御プロトコル(TCP)であり、第2トランスポートプロトコルは、ユーザーデータグラムプロトコル(UDP)である。
いくつかの実施例では、第1トランスポートプロトコルは、コネクションベースのトランスポートプロトコルであり、双方向であり、第2トランスポートプロトコルは、コネクションレスのトランスポートプロトコルあり、単方向である。
いくつかの実施例では、クライアントデバイスは、制御プレーンチャネルの上で交換される複数の制御メッセージにしたがって、サーバデバイスを有する第1データプレーンチャネルを設定する。
いくつかの実施例では、クライアントデバイスは、制御プレーンチャネル上で、クライアントデバイスの1つ以上の特定の特性をサーバデバイスに提供する。1つ以上の特定の特性は、クライアントデバイスのコンピューティングリソース、クライアントデバイスのストレージリソース、クライアントデバイスでのネットワークサービスプロバイダのサービスレベル契約、イマーシブアプリケーション要件、クライアントデバイスのタイプ、クライアントデバイスのモデル、及びクライアントデバイスでのニューラルネットワークモデルの少なくとも1つを含む。
いくつかの実施例では、クライアントデバイスは、第2トランスポートプロトコルを使用する第2のデータプレーンチャネルを介して、第2の複数のデータメッセージをサーバデバイスに伝送できる。第2の複数のデータメッセージは、クライアントデバイスのニューラルネットワークモデルのレイヤ 情報の少なくとも1つ、又はクライアントデバイスによってレンダリングされたメディアコンテンツを搬送する。
いくつかの実施例では、クライアントデバイスは第1クライアントデバイスであり、複数の制御メッセージは、サーバデバイスが第2クライアントデバイスとイマーシブメディアコンテンツを共有することを可能にする。一実施例では、第1のクライアントデバイスは、サーバデバイスからの要求に応じて、制御プレーンチャネルを介して不変ストレージにキャッシュされるアセットの共有可能なユニフォームリソース識別子(URI)であるアセットの種類のリストを提供する。別の実施例では、第1クライアントデバイスは、サーバデバイスからの要求に応じて、制御プレーンチャネルを介して第1クライアントデバイスからアクセス可能な各アセットのステータス更新を提供する。別の実施例では、第1クライアントデバイスは、サーバデバイスからの要求に応じて、特定のアセットタイプの現在の状態、及び特定のサーバ割り当て識別子と特定のアセットユニフォームリソース識別子 (URI) のいずれかを、制御プレーンチャネルを介して提供する。サーバデバイスは、第1クライアントデバイスから受信した情報を使用して、第2クライアントデバイスを制御し、キャッシュされたアセットなどのイマーシブメディアコンテンツにアクセスできる。
その後、プロセスは(S2299)に進み、終了する。
方法(2200)は、適切に適合されることができる。プロセス(2200)の(1つ以上の)ステップは、変更及び/又は省略することができる。(1つ以上の)追加ステップは、加えられることができる。実施のいかなる適切な順序も、用いられることができる。
上記の技術は、コンピュータ可読命令を用いたコンピュータソフトウェアとして行うことができて、物理的に一つ以上のコンピュータ可読媒体に格納されることができる。例えば、図23は、開示された主題の特定の実施形態を実施するのに適しているコンピュータシステム(2300)を示す。
コンピュータソフトウェアは、アセンブリ、コンパイル、リンク、又は類似のメカニズムの対象となり得る任意の適切な機械コード若しくはコンピュータ言語を使用してコーディングされることができ、直接実行されることができるか、又は、1つ以上のコンピュータ中央処理装置(CPU)、グラフィックス処理装置(GPU)等による、実施、マイクロコード実行等を介して実行されることができる命令を含むコードを作成する。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、物品のインターネット等を含む種々のタイプのコンピュータ又はその構成要素上で実行されることができる。
コンピュータシステム(2300)のための図23に示されるコンポーネントは、例示的な性質のものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能性に関する制限を示唆することを意図するものではない。また、コンポーネントの構成は、コンピュータシステム(2300)の例示的な実施形態に示されるコンポーネントのいずれか1つ又は組み合わせに関連する依存性又は要件を有すると解釈されるべきではない。
コンピュータシステム(2300)は、特定のヒューマンインタフェース入力デバイスを含み得る。このようなヒューマンインタフェース入力デバイスは、例えば、触覚入力(例えば、キーストローク、スイッピング、データグローブの動き)、音声入力(例えば、音声、拍手)、視覚入力(例えば、ジェスチャ)、嗅覚入力(図示せず)を介して、一人又は複数の人間ユーザーによる入力に応答し得る。また、ヒューマンインタフェースデバイスは、オーディオ(例えば、音声、音楽、周囲の音声)、画像(例えば、走査画像、静止画像カメラから得られる写真画像)、ビデオ(例えば、2次元ビデオ、立体画像を含む3次元ビデオ)等の、人間による意識的入力に必ずしも直接関係しない特定の媒体を捕捉するために用いられ得る。
入力ヒューマンインタフェースデバイスは、キーボード(2301)、マウス(2302)、トラックパッド(2303)、タッチスクリーン(2310)、データグローブ(図示せず)、ジョイスティック(2305)、マイクロホン(2306)、スキャナ(2307)、カメラ(2308)の1つ以上を含み得る。
コンピュータシステム(2300)はまた、特定のヒューマンインタフェース出力デバイスを含み得る。かかるヒューマンインタフェース出力デバイスは、例えば、触覚出力、音、光、及び嗅覚/味覚を通して、1人又は複数の人間ユーザーの感覚を刺激し得る。かかるヒューマンインタフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン(2310)、データグローブ(図示せず)、又はジョイスティック(2305)による触覚フィードバックであることもできるが、入力デバイスとして働かない触覚フィードバックデバイスであることもできる)と、オーディオ出力デバイス(例えば、スピーカー(2309)、ヘッドフォン(図示せず))と、視覚出力デバイス(例えば、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン(2310)であり、各々が触覚フィードバック能力を有するか又は有さず、各々が触覚フィードバック能力を有するか又は有さず、そのうちのいくつかは、仮想現実眼鏡(図示せず)、ホログラフィックディスプレイ及びスモークタンク(図示せず)等の立体出力のような手段を介して2次元視出力又は3次元以上の出力を可能にし得るものと、プリンタ(図示せず)と、を含み得る。
コンピュータシステム(2300)はまた、人間がアクセス可能な記憶デバイスと、それらのアクセス可能な媒体とを含むことができ、媒体は、例えば、CD/DVD等の媒体(2321)によるCD/DVD ROM/RWを含む光学媒体ドライブ(2320)、USBメモリ(2322)、着脱可能ヘッドドライブ又はソリッドステートドライブ(2323)、テープ、フロッピーディスク(図示せず)等の従来の磁気媒体、セキュリティドングル等の特殊化されたROM/ASIC/PLDベースデバイス等である。
当業者はまた、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語は、伝送媒体、搬送波、又は他の一時的な信号を包含しないことを理解されたい。
コンピュータシステム(2300)はまた、1つ以上の通信ネットワーク(2355)へのインタフェース(2354)を含むことができる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークは、さらに、ローカル、広域、大都市、車両及び工業、リアルタイム、遅延耐性等であり得る。ネットワークの例としては、イーサネット、無線LAN、GSM、3G、4G、5G、LTE等を含むセルラーネットワーク、ケーブルTV、衛星TV、及び地上放送TV、CANBusを含む産業用及び車両用を含む。特定のネットワークは、一般に、特定の汎用データポート又はペリフェラルバス(2349)(たとえば、コンピュータシステム(2300)のUSBポート)に接続された外部ネットワークインターフェイスアダプタを必要とする;他には、一般に、以下に説明するようにシステムバス(たとえば、PCコンピュータシステムへのイーサネットインターフェイス又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェース)に接続することによってコンピュータシステム(2300)のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム(2300)は、他のエンティティと通信することができる。かかる通信は、単指向性通信、受信のみ(例えば、放送テレビ)通信、単指向性送信専用(例えば、特定のCANバスデバイスへのCANバス)通信、又は、例えばローカル又は広域デジタルネットワークを使用する他のコンピュータシステムへの、双方向通信であることができる。特定のプロトコル及びプロトコルスタックは、上述のように、それらのネットワーク及びネットワークインタフェースの各々で使用されることができる。
前述のヒューマンインタフェースデバイス、人間がアクセス可能な記憶デバイス、及びネットワークインタフェースは、コンピュータシステム(2300)のコア(2340)に接続されることができる。
コア(2340)は、1つ以上の中央処理デバイス(CPU)(2341)、グラフィックス処理デバイス(GPU)(2342)、フィールドプログラマブルゲートエリア(FPGA)(2343)の形態の特殊なプログラマブル処理デバイス、特定のタスクのためのハードウェアアクセラレータ(2344)、グラフィックアダプタ(2350)等を含むことができる。これらのデバイスは、読出し専用メモリ(ROM)2345)、ランダムアクセスメモリ(2346)、内部大容量記憶デバイス、例えば内部非ユーザーアクセス可能ハードドライブ、SSD等(2347)と共に、システムバス(2348)を介して接続され得る。いくつかのコンピュータシステムでは、システムバス(2348)は、追加のCPU、GPU等による拡張を可能にするために、1つ又は複数の物理プラグの形態でアクセス可能である。周辺デバイスは、コアのシステムバス(2348)に直接接続するか、又は周辺バス(2349)を介して接続することができる。実施例において、スクリーン(2310)は、グラフィックスアダプタ(2350)に接続されることができる。周辺バスのアーキテクチャは、PCI、USB等を含む。
CPU(2341)、GPU(2342)、FPGA(2343)、及びアクセラレータ(2344)は、組み合わされて、上述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ROM(2345)又はRAM(2346)に格納されることができる。移行データは、RAM(2346)に格納されることもできるが、永久データは例えば内部大容量記憶デバイス(2347)に格納されことができる。1つ以上のCPU(2341)、GPU(2342)、大容量記憶デバイス(2347)、ROM(2345)、RAM(2346)等と密接に関連付けることができるキャッシュメモリを使用することによって、メモリデバイスのいずれかへの高速記憶及び検索を可能にすることができる。
コンピュータ可読媒体は、各種のコンピュータ実施動作(computer-implemented operations)を実行するためにその上のコンピュータコードを有することができる。メディア及びコンピュータコードは特別に設計されたそれらであることができて、本開示のために作成されることができる、又は、それらはよく公知で、コンピュータソフトウェア技術の技術を有するそれらが利用できる種類でありえる。
一例として、限定するものではなく、アーキテクチャ(2300)、具体的にはコア(2340)を有するコンピュータシステムは、1つ以上の有形のコンピュータ可読媒体に具現化されたソフトウェアを実行するプロセッサ(CPU、GPU、FPGA、アクセラレータ等を含む)の結果として機能性を提供することができる。かかるコンピュータ可読媒体は、コア-内部大容量記憶デバイス(2347)又はROM(2345)等の一時的でない性質のコア(2340)の特定の記憶デバイスと同様に、上述のようにユーザーがアクセス可能な大容量記憶デバイスに関連する媒体であってもよい。本開示の様々な実施形態を実装するソフトウェアは、かかるデバイスに記憶され、コア(2340)によって実行され得る。コンピュータ読取可能媒体は、特定のニーズに応じて、1つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア(2340)及びその中の具体的にプロセッサ(CPU、GPU、FPGA等を含む)に、RAM(2346)に記憶されたデータ構造を定義し、ソフトウェアによって定義されたプロセスにしたがって、かかるデータ構造を変更することを含む、本明細書に記載された特定のプロセス又は特定の部分を実行させることができる。付加的に又は代替的に、コンピュータシステムは、回路(例えば、アクセラレータ(2344))内に配線された、又は他の方法で具現化されたロジックの結果として、機能性を提供することができ、これは、本明細書に記載される特定のプロセス又は特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりに、又はソフトウェアと共に動作することができる。ソフトウェアへの言及は、論理を含み、また、必要に応じて、その逆も可能である。コンピュータ読取り可能媒体への参照は、実行のためのソフトウェアを記憶する(集積回路(IC)等の)回路、実行のためのロジックを具体化する回路、又は適切な場合にはその両方を含むことができる。
本開示は、ハードウェア及びソフトウェアの任意の適切な組み合わせを包含する。
本開示はいくつかの例示的な実施形態を説明しているが、本発明の範囲内に入る、変更、置換、及び様々な均等物が存在する。したがって、当業者は、本明細書に明示的に示されていないか又は記載されていないが、本発明の原理を実施し、したがってその概念及び範囲内にある多数のシステム及び方法を創造することができることが理解されよう。

Claims (12)

  1. クライアントデバイスでのメディアストリーミングの方法であって、
    第1トランスポートプロトコルを使用する制御プレーンチャネルの上で、サーバデバイスと、複数の制御メッセージを交換するステップであって、前記複数の制御メッセージは、イマーシブメディア配信のための双方向プロトコルの制御プレーンに属する、ステップと、
    前記サーバデバイスから、第2トランスポートプロトコルを使用する第1データプレーンチャネルの上で、第1の複数のデータメッセージを受信するステップであって、前記第1の複数のデータメッセージは、前記双方向プロトコルのデータプレーンに属する、ステップと、
    前記第1の複数のデータメッセージによって搬送されるイマーシブメディアコンテンツを提示するステップと、
    を含む、方法。
  2. 前記第1トランスポートプロトコルは、トランスミッション制御プロトコル(TCP)であり、前記第2トランスポートプロトコルは、ユーザーデータグラムプロトコル(UDP)である、
    請求項1記載の方法。
  3. 前記第1トランスポートプロトコルは、コネクションベースのトランスポートプロトコルであり、前記第2トランスポートプロトコルは、コネクションレスのトランスポートプロトコルである、
    請求項1記載の方法。
  4. 前記方法はさらに、
    前記制御プレーンチャネルの上で交換される前記複数の制御メッセージにしたがって、前記サーバデバイスを有する前記第1データプレーンチャネルを設定するステップ、を含む、
    請求項1記載の方法。
  5. 前記方法はさらに、
    前記クライアントデバイスの1つ以上の特定の特性を、前記制御プレーンチャネルの上で前記サーバデバイスに提供するステップであって、
    前記1つ以上の特定の特性は:
    前記クライアントデバイスの計算リソース;
    前記クライアントデバイスのストレージリソース;
    前記クライアントデバイスでのネットワークサービスプロバイダのサービスレベルの契約;
    イマーシブアプリケーション要件;
    前記クライアントデバイスの種類;
    前記クライアントデバイスのモデル;
    前記クライアントデバイスのニューラルネットワークモデル;
    のうちの少なくとも1つを含む、ステップを含む、
    請求項1記載の方法。
  6. 前記方法はさらに、
    前記第2トランスポートプロトコルを使用する第2データプレーンチャネルの上で、第2の複数のデータメッセージを前記サーバデバイスに送信するステップであって、
    前記第2の複数のデータメッセージは:
    前記クライアントデバイスにおけるニューラルネットワークモデルのレイヤ情報;
    前記クライアントデバイスによってレンダリングされたメディアコンテンツ;
    のうちの少なくとも1つを搬送する、ステップを含む、
    請求項1記載の方法。
  7. 前記クライアントデバイスは第1クライアントデバイスであり、
    前記複数の制御メッセージは、前記サーバデバイスが第2クライアントデバイスと前記イマーシブメディアコンテンツを共有できるようにする、
    請求項1記載の方法。
  8. 前記複数の制御メッセージを交換するステップは、
    サーバデバイスからの要求に応じて、前記制御プレーンチャネルを介して、不変のストレージにキャッシュされたアセットのユニフォームリソース識別子(URI)と、共有可能なアセットの種類とのリストを提供するステップを含む、
    請求項7記載の方法。
  9. 前記複数の制御メッセージを交換するステップは、前記サーバデバイスからの要求に応じて、前記制御プレーンチャネルを介して、前記第1クライアントデバイスによってアクセス可能である各アセットのステータスアップデートを提供するステップと含む、
    請求項7記載の方法。
  10. 前記複数の制御メッセージを交換するステップは、前記サーバデバイスからの要求に応じて、制御プレーンチャネルを介して、特定のアセットタイプの現在ステータスと、特定のサーバ割り当て識別子及び特定のアセットユニフォームリソース識別子(URI)のうちの1つと、を提供するステップを含む、
    請求項7記載の方法。
  11. サーバでのメディアストリーミングの方法であって、
    第1トランスポートプロトコルを使用する制御プレーンチャネルの上で、クライアントデバイスと、複数の制御メッセージを交換するステップであって、前記複数の制御メッセージは、イマーシブメディア配信のための双方向プロトコルの制御プレーンに属する、ステップと、
    前記クライアントデバイスに、第2トランスポートプロトコルを使用する第1データプレーンチャネルの上で、第1の複数のデータメッセージを送信するステップであって、前記第1の複数のデータメッセージは、前記双方向プロトコルのデータプレーンに属する、ステップと、
    を含む、方法。
  12. メディアストリーミングのための装置であって、
    請求項1乃至11いずれか1項記載の方法を実行するように構成された処理回路を備える、
    装置。
JP2023520279A 2021-06-30 2022-06-30 制御及びデータプレーンチャネルを使用した双方向プレゼンテーションデータストリーム Pending JP2023544383A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163217049P 2021-06-30 2021-06-30
US63/217,049 2021-06-30
US17/851,838 2022-06-28
US17/851,838 US20230007361A1 (en) 2021-06-30 2022-06-28 Bidirectional presentation datastream using control and data plane channels
PCT/US2022/073296 WO2023279051A1 (en) 2021-06-30 2022-06-30 Bidirectional presentation datastream using control and data plane channels

Publications (1)

Publication Number Publication Date
JP2023544383A true JP2023544383A (ja) 2023-10-23

Family

ID=84693005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023520279A Pending JP2023544383A (ja) 2021-06-30 2022-06-30 制御及びデータプレーンチャネルを使用した双方向プレゼンテーションデータストリーム

Country Status (5)

Country Link
US (1) US20230007361A1 (ja)
EP (1) EP4169179A4 (ja)
JP (1) JP2023544383A (ja)
KR (1) KR20230118181A (ja)
WO (1) WO2023279051A1 (ja)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4209838A (en) * 1976-12-20 1980-06-24 Sperry Rand Corporation Asynchronous bidirectional interface with priority bus monitoring among contending controllers and echo from a terminator
WO2005004432A1 (de) * 2003-07-03 2005-01-13 Siemens Aktiengesellschaft Verfahren zur steuerung von datenverbindungen
US11277598B2 (en) 2009-07-14 2022-03-15 Cable Television Laboratories, Inc. Systems and methods for network-based media processing
WO2012051539A2 (en) * 2010-10-14 2012-04-19 Cyandia, Inc. Methods, apparatus, and systems for presenting television programming and related information
US8755342B2 (en) * 2011-10-05 2014-06-17 Cisco Technology, Inc. System and method for dynamic bearer selection for immersive video collaboration in mobile wireless networks
US9462089B1 (en) * 2013-03-15 2016-10-04 Kaazing Corporation Communication channels
US10250673B1 (en) * 2014-03-14 2019-04-02 Amazon Technologies, Inc. Storage workload management using redirected messages
US9648073B2 (en) * 2014-04-10 2017-05-09 Qualcomm Incorporated Streaming control for real-time transport protocol
US11064003B2 (en) * 2016-03-07 2021-07-13 Lg Electronics Inc. Method and apparatus for receiving streaming via transport protocol in wireless communication system
US10020025B2 (en) * 2016-07-22 2018-07-10 Zeality Inc. Methods and systems for customizing immersive media content
US10148356B2 (en) * 2016-09-16 2018-12-04 International Business Machines Corporation Data transfer over bi-directional links leveraging counter-propagating back channel for low-latency responses
US10735825B1 (en) * 2019-02-07 2020-08-04 Disney Enterprises, Inc. Coordination of media content delivery to multiple media players
US11516152B2 (en) * 2019-09-28 2022-11-29 Tencent America LLC First-in first-out function for segmented data stream processing
US11637929B2 (en) * 2020-12-02 2023-04-25 Avaya Management L.P. Efficient media establishment for WebRTC call center agents

Also Published As

Publication number Publication date
CN116235429A8 (zh) 2024-05-17
EP4169179A1 (en) 2023-04-26
EP4169179A4 (en) 2023-12-13
US20230007361A1 (en) 2023-01-05
CN116235429A (zh) 2023-06-06
KR20230118181A (ko) 2023-08-10
WO2023279051A1 (en) 2023-01-05

Similar Documents

Publication Publication Date Title
US20230319328A1 (en) Reference of neural network model for adaptation of 2d video for streaming to heterogeneous client end-points
US20240292041A1 (en) Adaptation of 2d video for streaming to heterogenous client end-points
US20240179203A1 (en) Reference of neural network model by immersive media for adaptation of media for streaming to heterogenous client end-points
US11570227B2 (en) Set up and distribution of immersive media to heterogenous client end-points
US12058193B2 (en) Bidirectional presentation datastream
US20230007361A1 (en) Bidirectional presentation datastream using control and data plane channels

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240618