JP7448677B2 - 没入型メディアをストリーミングする方法、並びにそのデバイス、及びコンピュータプログラム - Google Patents

没入型メディアをストリーミングする方法、並びにそのデバイス、及びコンピュータプログラム Download PDF

Info

Publication number
JP7448677B2
JP7448677B2 JP2022552225A JP2022552225A JP7448677B2 JP 7448677 B2 JP7448677 B2 JP 7448677B2 JP 2022552225 A JP2022552225 A JP 2022552225A JP 2022552225 A JP2022552225 A JP 2022552225A JP 7448677 B2 JP7448677 B2 JP 7448677B2
Authority
JP
Japan
Prior art keywords
media
neural network
client
content
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022552225A
Other languages
English (en)
Other versions
JP2023516971A (ja
Inventor
アリアンヌ・ハインズ
ステファン・ヴェンガー
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023516971A publication Critical patent/JP2023516971A/ja
Application granted granted Critical
Publication of JP7448677B2 publication Critical patent/JP7448677B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/158Switching image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/302Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays
    • H04N13/31Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays using parallax barriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)

Description

関連出願への相互参照
本出願は、米国特許商標庁に2020年12月8日に出願された米国仮特許出願第63/122,769号及び2021年8月19日に出願された米国特許出願第17/406,268号の優先権を主張し、それらの全体は、参照によりその全体が本明細書に組み込まれる。
本開示は、一般に、データ処理の分野に関し、より具体的にはビデオコーディングに関する。
「没入型メディア」とは、一般に、人間の感覚システム(視覚、聴覚、体性感覚、嗅覚、場合によっては味覚)のいずれか又はすべてを刺激して、メディアの体験に物理的に存在するユーザの知覚を生み出す又は強化するメディアを指し、即ち、「レガシーメディア」として知られている、時限2次元(2D)ビデオ及び対応するオーディオのために既存の商用ネットワーク上で配布されるものを超えている。没入型メディアとレガシーメディアは両方とも、時限又は時限なしのいずれかとして特徴付けることができる。
時限メディアとは、時間に従って構造化及び提示されるメディアを指す。例としては、映画の特集、ニュースレポート、エピソードコンテンツなどが挙げられ、これらはすべて期間に従って編成される。レガシービデオ及びオーディオは、一般的に時限メディアと見なされる。
時限なしメディアは、時間ではなく、むしろ論理的、空間的、及び/又は時間的関係によって構造化されたメディアである。一例としては、ユーザがゲーム装置が作り出す体験を制御できるビデオゲームが挙げられる。時限なしメディアの別の例は、カメラで撮影した静止画像写真である。時限なしメディアは、例えば、ビデオゲームのシーンの連続的にループするオーディオ又はビデオセグメントに時限メディアを組み込むことができる。逆に、時限メディアは、時限なしメディア、例えば、固定された静止画像を背景として有するビデオを組み込むことができる。
没入型メディア対応デバイスとは、没入型メディアにアクセス、解釈、及び提示する機能を備えたデバイスを指す場合がある。そのようなメディア及びデバイスは、メディアの量及びフォーマット、並びにそのようなメディアを大規模に配布するために、即ち、ネットワークを介してレガシービデオ及びオーディオメディアと同等の配布を達成するために必要なネットワークリソースの数及びタイプに関して異種である。対照的に、ラップトップディスプレイ、テレビ、携帯電話ディスプレイなどのレガシーデバイスは、これらのデバイスがすべて長方形のディスプレイ画面で構成され、2D長方形のビデオ又は静止画像を主要なメディアフォーマットとして使用するため、機能が同質である。
没入型メディアをストリーミングするための方法、システム、及びコンピュータ可読媒体を提供する。
本開示の一態様によれば、プロセッサが実行可能な没入型メディアをストリーミングする方法は、コンテンツを2次元フォーマットで取り込むステップと、ニューラルネットワークに基づいて取り込んだコンテンツを3次元フォーマットに変換するステップと、変換したコンテンツをクライアントエンドポイントにストリーミングするステップとを含む。
取り込んだコンテンツを変換するステップは、ニューラルネットワークによって、取り込んだコンテンツに含まれた相関画像に基づいて取り込んだコンテンツに描かれたシーンの立体表現を導出するステップを含むことができる。
2次元フォーマットは、単一ビュー2次元フォーマットであり得る。
2次元フォーマットは、マルチビュー2次元フォーマットであり得る。
取り込んだコンテンツは、中央処理装置及びグラフィック処理装置のうちの少なくとも1つを含む適応処理ユニットを使用して変換されてもよい。
ニューラルネットワークは、適応処理ユニットに含まれたメモリに記憶された複数のニューラルネットワークモデルの中から適応処理ユニットによって選択されたニューラルネットワークモデルに対応し得る。
クライアントエンドポイントは、2次元フォーマットをサポートすることができない可能性がある。
クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ、及び高密度ライトフィールドディスプレイのうちの少なくとも1つを含むことができる。
本開示の一態様によれば、没入型メディアをストリーミングするためのデバイスは、プログラムコードを記憶するように構成された少なくとも1つのメモリと、プログラムコードを読み取り、プログラムコードによって指示されたとおりに動作するように構成された少なくとも1つのプロセッサとを含み、プログラムコードは、少なくとも1つのプロセッサに、コンテンツを2次元フォーマットで取り込ませるように構成された取り込みコードと、少なくとも1つのプロセッサに、ニューラルネットワークに基づいて取り込んだコンテンツを3次元フォーマットに変換させるように構成された変換コードと、少なくとも1つのプロセッサに、変換したコンテンツをクライアントエンドポイントにストリーミングさせるように構成されたストリーミングコードとを含む。
変換コードは、少なくとも1つのプロセッサに、ニューラルネットワークによって、取り込んだコンテンツに含まれた相関画像に基づいて取り込んだコンテンツに描かれたシーンの立体表現を導出させるように構成された導出コードを含むことができる。
2次元フォーマットは、単一ビュー2次元フォーマットであり得る。
2次元フォーマットは、マルチビュー2次元フォーマットであり得る。
取り込んだコンテンツは、デバイスに含まれた適応処理ユニットを使用して変換されてもよく、適応処理ユニットは、中央処理装置及びグラフィック処理装置のうちの少なくとも1つを含む。
ニューラルネットワークは、少なくとも1つのメモリに記憶された複数のニューラルネットワークモデルの中から適応処理ユニットによって選択されたニューラルネットワークモデルに対応し得る。
クライアントエンドポイントは、2次元フォーマットをサポートすることができない可能性がある。
クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ、及び高密度ライトフィールドディスプレイのうちの少なくとも1つを含むことができる。
本開示の一態様によれば、非一時的なコンピュータ可読媒体は命令を記憶し、命令は、没入型メディアをストリーミングするためのデバイスの少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに、コンテンツを2次元フォーマットで取り込ませ、ニューラルネットワークに基づいて取り込んだコンテンツを3次元フォーマットに変換させ、変換したコンテンツをクライアントエンドポイントにストリーミングさせるように構成された1つ又は複数の命令を含む。
命令は更に、少なくとも1つのプロセッサに、ニューラルネットワークによって、取り込んだコンテンツに含まれた相関画像に基づいて取り込んだコンテンツに描かれたシーンの立体表現を導出させることができる。
2次元フォーマットは、単一ビュー2次元フォーマットであり得る。
2次元フォーマットは、マルチビュー2次元フォーマットであり得る。
これら及び他の目的、特徴及び利点は、添付の図面に関連して読まれるべき例示的な実施形態の以下の詳細な説明から明らかになるであろう。図示が、明確にするために、詳細な説明と併せて当業者の理解を容易にするためのものであるため、図面の様々な特徴は、縮尺通りではない。図面は以下のとおりである。
時限レガシーメディア配布のエンドツーエンドプロセスの概略図である。 時限レガシーメディアのストリーミングに使用される標準メディアフォーマットの概略図である。 時限没入型メディアの表現及びストリーミングのためのデータモデルの一実施形態の概略図である。 時限なし没入型メディアの表現及びストリーミングのためのデータモデルの一実施形態の概略図である。 ナチュラルシーンをキャプチャし、それを、異種クライアントエンドポイントにサービスを提供するネットワークの取り込みフォーマットとして使用できる表現に変換するプロセスの概略図である。 3Dモデリングツール及びフォーマットを使用して、異種クライアントエンドポイントにサービスを提供するネットワークの取り込みフォーマットとして使用できる合成シーンの表現を作成するプロセスの概略図である。 コンピュータシステムのシステム図である。 複数の異種クライアントエンドポイントにサービスを提供するネットワークの概略図である。 例えば、特定の没入型メディアクライアントエンドポイントによる使用のためにメディアを適応させるネットワークのプロセスの前に、メディア取り込みフォーマットで表される特定のメディアに関する適応情報を提供するネットワークの概略図である。 ソースメディアをその取り込みフォーマットから特定のクライアントエンドポイントに適した特定のフォーマットに変換するメディアレンダリングコンバータからなるメディア適応プロセスのシステム図である。 適応ソースメディアを表現及びストリーミングに適したデータモデルにフォーマットするネットワークの概略図である。 図12のデータモデルをネットワークプロトコルパケットのペイロードに断片化するメディアストリーミングプロセスのシステム図である。 取り込みフォーマットの特定の没入型メディアを、特定の没入型メディアクライアントエンドポイント用のストリーミング可能且つ適切な配布フォーマットに適応させるネットワークのシーケンス図である。 没入型及びレガシーコンテンツフォーマットの両方、即ち、2Dビデオフォーマットのみ、又は没入型及び2Dビデオフォーマットの両方からなる図10の取り込みメディアフォーマット及びアセット1002の概略図である。
特許請求された構造及び方法の詳細な実施形態は本明細書に開示されているが、開示された実施形態は、様々な形態で具体化され得る特許請求された構造及び方法の単なる例示であることが理解され得る。しかしながら、これらの構造及び方法は、多くの異なる形態で具体化されてもよく、また本明細書に記載の例示的な実施形態に限定されると解釈されるべきではない。むしろ、これらの例示的な実施形態は、本開示が徹底的且つ完全であり、その範囲を当業者に完全に伝えるように提供される。説明では、提示された実施形態を不必要に曖昧にすることを回避するために、周知の特徴及び技術の詳細を省略してもよい。
実施形態は、一般に、データ処理の分野に関し、より具体的には、ビデオコーディングに関する。本明細書に記載の技術により、ネットワークは、フォーマットされたメディアを実際に様々なクライアントエンドポイントに配布する前に、1つ又は複数の(通常は少数の)ビューを含むメディアの2Dビデオソースを取り込み、2Dメディアのソースを1つ又は複数のストリーミング可能な「配布フォーマット」に適応させて、様々な異種クライアントエンドポイントデバイス、それらの異なる特徴と機能、及びクライアントエンドポイントで使用されるアプリケーションの要件に対応することができる。2Dメディアソースを様々なストリーミング可能な配布フォーマットに再フォーマットする機能により、ネットワークは、様々な機能と利用可能な計算リソースを備えた様々なクライアントエンドポイントに同時にサービスを提供することができ、また、商用ネットワークでのホログラフィックディスプレイ及びライトフィールドディスプレイなどの新たな没入型クライアントエンドポイントのサポートが可能になる。2Dメディアソースを適応させるこのような機能は、利用可能な没入型メディアソースがない場合、及びクライアントが2Dメディアに基づく配布フォーマットをサポートできない場合に特に重要である。このシナリオでは、ニューラルネットワークベースのアプローチを使用して、2Dメディアからターゲットクライアントエンドポイントに適した立体フォーマットへの適応を実行する。
前述したように、「没入型メディア」とは、一般に、人間の感覚システム(視覚、聴覚、体性感覚、嗅覚、場合によっては味覚)のいずれか又はすべてを刺激して、メディアの体験に物理的に存在するユーザの知覚を生み出す又は強化するメディアを指し、即ち、「レガシーメディア」として知られている、時限2次元(2D)ビデオ及び対応するオーディオのために既存の商用ネットワーク上で配布されるものを超えている。没入型メディアとレガシーメディアは両方とも、時限又は時限なしのいずれかとして特徴付けることができる。
時限メディアとは、時間に従って構造化及び提示されるメディアを指す。例としては、映画の特集、ニュースレポート、エピソードコンテンツなどが挙げられ、これらはすべて期間に従って編成される。レガシービデオ及びオーディオは、一般的に時限メディアと見なされる。
時限なしメディアは、時間ではなく、むしろ論理的、空間的、及び/又は時間的関係によって構造化されたメディアである。一例として、ユーザがゲーム装置が作り出す体験を制御できるビデオゲームが挙げられる。時限なしメディアの別の例は、カメラで撮影した静止画像写真である。時限なしメディアは、例えば、ビデオゲームのシーンの連続的にループするオーディオ又はビデオセグメントに時限メディアを組み込むことができる。逆に、時限メディアは、時限なしメディア、例えば、固定された静止画像を背景として有するビデオを組み込むことができる。
没入型メディア対応デバイスとは、没入型メディアにアクセス、解釈、及び提示する機能を備えたデバイスを指す場合がある。そのようなメディア及びデバイスは、メディアの量及びフォーマット、並びにそのようなメディアを大規模に配布するために、即ち、ネットワークを介してレガシービデオ及びオーディオメディアと同等の配布を達成するために必要なネットワークリソースの数及びタイプに関して異種である。対照的に、ラップトップディスプレイ、テレビ、携帯電話ディスプレイなどのレガシーデバイスは、これらのデバイスがすべて長方形のディスプレイ画面で構成され、2D長方形のビデオ又は静止画像を主要なメディアフォーマットとして使用するため、機能が同質である。
ネットワークを介した任意のメディアの配布では、メディアを入力又はネットワーク「取り込み」フォーマットから最終的な配布フォーマットに再フォーマットするメディア配信システム及びアーキテクチャを使用することができ、その配布フォーマットは、ターゲットクライアントデバイスとそのアプリケーションに適しているだけでなく、ネットワークを介したストリーミングにも役立つ。メディアの「ストリーミング」とは、広義には、ソースメディアの断片化及びパケット化を指し、それによって、ソースメディアは、メディアの時間的又は空間的構造のいずれか又は両方に従って論理的に編成され、順序付けされた連続する小さなサイズの「チャンク」でネットワークを介して配信することができる。そのような配布アーキテクチャ及びシステムでは、最も重要なメディア情報のみが最初にクライアントに配信されるように、メディアは圧縮又は階層化プロセスを受けてもよい。場合によっては、クライアントが同じメディア部分のいずれかをエンドユーザに提示する前に、クライアントはメディアの一部に関する重要なメディア情報をすべて受信しなければならない。
圧縮及び階層化プロセスの一例は、JPEG規格(ISO/IEC 10918 Part1)のプログレッシブフォーマットであり、これは、画像をレイヤに分割し、これにより、最初は焦点が合っていない基本的な形状と色のみで、即ち画像スキャン全体の低次DCT係数から画像全体が最初に提示され、次に、追加の詳細レイヤに分割し、即ち画像スキャンの高次DCT係数から、画像に焦点を合わせる。
メディアをより小さな部分に分割し、それらを連続するネットワークプロトコルパケットのペイロード部分に編成し、これらのプロトコルパケットを配布するプロセスは、メディアの「ストリーミング」と呼ばれ、一方、メディアを、様々な異種アプリケーションの1つを動作させる様々な異種クライアントエンドポイントの1つでのプレゼンテーションに適したフォーマットに変換するプロセスは、メディアの「適応」として知られている。
定義
シーングラフ:ベクトルベースのグラフィック編集アプリケーションと最新のコンピュータゲームで一般的に使用される一般的なデータ構造であり、グラフィカルシーンの論理的及び多くの場合(必ずしもそうではない)空間表現を配置する。グラフ構造内のノードと頂点の集合である。
ノード:視覚、聴覚、触覚、嗅覚、味覚、又は関連する処理情報の論理的又は空間的又は時間的表現に関連する情報で構成されるシーングラフの基本要素である。各ノードは、最大で1つの出力エッジ、0個以上の入力エッジ、及びそれに接続された少なくとも1つのエッジ(入力又は出力のいずれか)を有する必要がある。
ベースレイヤ:アセットの公称表現であり、通常、アセットをレンダリングするために必要な計算リソースや時間、又はネットワーク経由でアセットを送信する時間を最小限に抑えるために作成される。
拡張レイヤ:情報のセットであり、アセットのベースレイヤ表現に適用されると、ベースレイヤを拡張して、ベースレイヤでサポートされていない特徴又は機能を含める。
属性:ノードに関連付けられたメタデータであり、そのノードの特定の特性又は特徴を、標準形式又はより複雑な形式(例えば、別のノードに関して)のいずれかで記述するために使用される。
コンテナ:すべてのナチュラルシーン、すべての合成シーン、又は合成シーンとナチュラルシーンの混合を表すために情報を記憶及び交換するためのシリアル化されたフォーマットであり、シーングラフ及びシーンのレンダリングに必要なすべてのメディアリソースを含む。
シリアル化:データ構造又はオブジェクト状態を、記憶(例えば、ファイル又はメモリバッファに)又は送信(例えば、ネットワーク接続リンクを介して)して後で(おそらく別のコンピュータで)再構成できるフォーマットに変換するプロセスである。得られた一連のビットがシリアル化フォーマットに従って再読み取りされると、シリアル化は、元のオブジェクトの意味的に同一のクローンを作成するために使用できる。
レンダラ:音響物理学、光物理学、視知覚、聴知覚、数学、及びソフトウェア開発に関連する分野の選択的な組み合わせに基づく(通常はソフトウェアベースの)アプリケーション又はプロセスであり、入力シーングラフ及びアセットコンテナが与えられると、ターゲットデバイスでのプレゼンテーションに適した、又はシーングラフ内のレンダリングターゲットノードの属性によって指定された望ましいプロパティに適合する、通常は視覚及び/又は音声信号を発信する。視覚ベースのメディアアセットの場合、レンダラは、ターゲットディスプレイに適した、又は中間アセットとして記憶するのに適した視覚信号を発信することができ(例えば、別のコンテナに再パッケージされ、即ちグラフィックスパイプラインにおける一連のレンダリングプロセスで使用される)。オーディオベースのメディアアセットの場合、レンダラは、マルチチャネルスピーカ及び/又はバイノーラルヘッドフォンでのプレゼンテーション用、又は別の(出力)コンテナへの再パッケージ用の音声信号を発信することができる。レンダラの一般的な例としては、Unity、Unrealが挙げられる。
評価:出力を抽象的な結果から具体的な結果に移動させる結果を生成する(例えば、Webページのドキュメントオブジェクトモデルの評価と同様)。
スクリプト言語:実行時にレンダラが実行して、シーングラフノードに対して行われた動的入力及び変数状態の変更を処理できるインタプリタ型プログラミング言語であり、これは、空間的及び時間的オブジェクトトポロジ(物理的な力、制約、IK、変形、衝突を含む)のレンダリング及び評価、及びエネルギーの伝播と輸送(光、音)に影響を与える。
シェーダ:元々はシェーディング(画像内に適切なレベルの明暗、色を生成する)に使用されていたコンピュータプログラムの一種であるが、現在はコンピュータグラフィックス特殊効果の様々な分野で様々な特殊機能を実行したり、シェーディングとは関係のないビデオ後処理を行ったり、グラフィックスとはまったく関係のない機能を実行したりする。
パストレーシング:シーンの照明が現実に忠実であるように3次元シーンをレンダリングするコンピュータグラフィックス方法である。
時限メディア:例えば、特定の時計に従った開始時間及び終了時間を有する、時間で順序付けられたメディアである。
時限なしメディア:例えば、ユーザがとる行動に従って実現されるインタラクティブな体験のように、空間的、論理的、又は時間的な関係によって編成されたメディアである。
没入型メディアは、没入型メディア対応デバイスによって人間に提示されると、視覚、聴覚、味覚、触覚、覚の5つの感覚のいずれかを、より現実的で、自然界での体験に対する人間の理解と一致する方法で刺激する1つ又は複数のタイプのメディアと見なすことができ、即ち、レガシーデバイスによって提示されたレガシーメディアで他の方法で達成されたであろう刺激を超えている。この文脈において、「レガシーメディア」という用語は、静止画又は動画フレームのいずれかの2次元(2D)視覚メディア、及び/又は対応するオーディオを指し、ユーザが対話する能力が一時停止、再生、早送り、又は巻き戻しに制限される。「レガシーデバイス」とは、機能が、レガシーメディアのみの提示に制限されているテレビ、ラップトップ、ディスプレイ、及びモバイルデバイスを指す。消費者向けのアプリケーションシナリオでは、没入型メディアのプレゼンテーションデバイス(即ち、没入型メディア対応デバイス)は、没入型メディアによって具体化される特定の情報を活用する能力を特に備えた消費者向けハードウェアデバイスであり、それによって、デバイスは、物理的世界に対する人間の理解及び物理的世界との相互作用により厳密に近接するプレゼンテーションを作成することができ、即ち、レガシーデバイスがそれを行うための能力を超えている。レガシーデバイスは、その能力がレガシーメディアのみを提示することに制限され、没入型メディアデバイスは同じように制限されない。
過去10年間、ヘッドマウントディスプレイ、拡張現実メガネ、ハンドヘルドコントローラ、触覚グローブ、ゲームコンソールなど、多くの没入型メディア対応デバイスが消費者市場に導入されてきた。同様に、ホログラフィックディスプレイやその他の形式の立体ディスプレイは、今後10年以内に登場する態勢が整っている。これらのデバイスがすぐに又は間もなく利用可能であるにもかかわらず、商用ネットワークを介して没入型メディアを配布するためのコヒーレントエンドツーエンドエコシステムは、いくつかの理由で実現できなかった。
これらの理由の1つは、商業ネットワークを介した現在の大規模なメディアの配布に関連する2つの主要なユースケースに対処できる没入型メディアの単一の標準表現がないことであり、2つの主要なユースケースは、1)実写イベントのリアルタイム配布、即ち、コンテンツが作成され、リアルタイム又はほぼリアルタイムでクライアントエンドポイントに配布される場合、及び2)非リアルタイム配布、即ち、コンテンツが物理的にキャプチャ又は作成されるため、コンテンツをリアルタイムで配布する必要がない場合である。それぞれ、これらの2つのユースケースは、現在存在する「ブロードキャスト」及び「オンデマンド」の配布フォーマットと比較可能である。
リアルタイム配布の場合、コンテンツは、1つ又は複数のカメラによってキャプチャされ得るか、又はコンピュータ生成技術を使用して作成され得る。カメラによってキャプチャされたコンテンツは、本明細書では「ナチュラル」コンテンツと呼ばれ、一方、コンピュータ生成技術を使用して作成されたコンテンツは、本明細書では「合成」コンテンツと呼ばれる。合成コンテンツを表現するメディアフォーマットは、3Dモデリング、視覚効果、CAD/CAM業界で使用されるフォーマットであってもよく、メッシュ、テクスチャ、点群、構造化ボリューム、アモルファスボリューム(例えば、火、煙、及び霧)、シェーダ、手続き型生成ジオメトリ、マテリアル、照明、仮想カメラ定義、及びアニメーションなどのオブジェクトフォーマット及びツールを含むことができる。合成コンテンツはコンピュータで生成され、合成メディアフォーマットは、ナチュラルコンテンツ及び合成コンテンツの両方に使用することができるが、ナチュラルコンテンツを合成メディアフォーマット(例えば、合成表現)に変換するプロセスは、時間と計算量の多いプロセスである可能性があり、したがって、リアルタイムアプリケーション及びユースケースには実用的でない可能性がある。
ナチュラルコンテンツのリアルタイム配布の場合、カメラでキャプチャされたコンテンツは、ラスタフォーマットで配布することができ、ラスタフォーマットは、レガシーディスプレイデバイスの多くが同様にラスタフォーマットを表示するように設計されているため、そのようなデバイスに適している。即ち、レガシーディスプレイが、ラスタフォーマットを表示するために一様に設計されていることを考えると、ラスタフォーマットの配布は、したがって、ラスタフォーマットのみを表示することができるディスプレイに最適である。
しかしながら、没入型メディア対応ディスプレイは、必ずしもラスタベースのフォーマットの表示に制限されるわけではない。更に、一部の没入型メディア対応ディスプレイは、ラスタベースのフォーマットでのみ利用可能なメディアを提示することができない。ラスタベースのフォーマット以外のフォーマットに基づいて没入型体験を作り出すように最適化されたディスプレイが利用可能であることは、没入型メディアを配布するためのコヒーレントエンドツーエンドエコシステムがまだ存在しないもう1つの重要な理由である。
複数の異なる没入型メディアデバイス用のコヒーレント配布システムを作成することに関する更に別の問題は、現在及び新しい没入型メディア対応デバイス自体が大幅に異なる可能性があることである。例えば、一部の没入型メディアデバイス、例えばヘッドマウントディスプレイは、一度に1人のユーザのみが使用するように明示的に設計されている。他の没入型メディアデバイスは、複数のユーザが同時に使用できるように設計されており、例えば、「Looking Glass Factory 8Kディスプレイ」(以降、「レンチキュラライトフィールドディスプレイ」と呼ぶ)は、最大12人が同時に視聴できるコンテンツを表示することができ、各ユーザは、表示されているコンテンツの独自の視点(即ち、ビュー)を体験している。
コヒーレント配布システムの開発を更に複雑にしているのは、各ディスプレイが生成できる独特の視点の数が大幅に異なる可能性があることである。ほとんどの場合、レガシーディスプレイは、コンテンツの単一の視点のみを作り出すことができる。一方、レンチキュラライトフィールドディスプレイは、複数のユーザをサポートすることができ、各ユーザは同じ視覚シーンの独自の視点を体験する。同じシーンの複数のビューのこの作成を実現するために、レンチキュラライトフィールドディスプレイは、ディスプレイへの入力として同じシーンの45個の独特の視点又は「ビュー」が必要とされる特定の立体視錐台を作成する。これは、同じシーンの45個のわずかに異なる独特のラスター表現をキャプチャして、この1つの特定のディスプレイ、即ち、その視錐台に固有のフォーマットでディスプレイに配布する必要があることを意味する。対照的に、レガシーディスプレイの視錐台は、単一の2次元平面に制限されているため、ディスプレイを体験している同時視聴者の数に関係なく、ディスプレイの視錐台を介してコンテンツの複数の視聴視点を提示する方法はない。
一般に、没入型メディアディスプレイは、すべてのディスプレイの特性、即ち、視錐台の寸法及び体積、同時にサポートされる視聴者の数、視錐台を埋めるために使用される点ベース、光線ベース又は波ベースであり得る光学技術、視錐台を占める光の単位(点、光線、又は波のいずれか)の密度、計算能力の可用性と計算の種類(CPU又はGPU)、電力(バッテリ又はワイヤ)の供給源と可用性、ローカルストレージ又はキャッシュの量、及びクラウドベースの計算及びストレージなどの補助リソースへのアクセスに応じて大幅に異なる可能性がある。これらの特性は、没入型メディアディスプレイの異種性に寄与し、異種性は、レガシーディスプレイの同種性とは対照的に、レガシーディスプレイ及び没入型ディスプレイの両方を含むすべてをサポートできる単一の配布システムの開発を複雑にする。
開示された主題は、単一のネットワークの環境内でクライアントエンドポイントとしてレガシーメディアディスプレイと没入型メディアディスプレイの両方をサポートできるネットワークベースのメディア配布システムの開発に対処する。具体的には、入力没入型メディアソースを、クライアントエンドポイントデバイス上で現在実行されているアプリケーションを含むそのクライアントエンドポイントデバイスの特定の特性に適したフォーマットに適応させるメカニズムを本明細書に示す。入力没入型メディアソースを適応させるこのようなメカニズムは、入力没入型メディアの特性を、クライアントデバイス上で実行されているアプリケーションを含むターゲットエンドポイントクライアントデバイスの特性と一致させ、次に入力没入型メディアをターゲットエンドポイント及びそのアプリケーションに適したフォーマットに適応させることを含む。
開示される主題の残りの部分は、一般性を失うことなく、入力没入型メディアソースを特定のエンドポイントクライアントデバイスに適応させるプロセスが、同じ入力没入型メディアソースを特定のクライアントエンドポイントデバイス上で実行されている特定のアプリケーションに適応させるプロセスと同じであるか、又は類似していると仮定することに留意されたい。即ち、入力メディアソースをエンドポイントデバイスの特性に適応させる課題は、特定の入力メディアソースを特定のアプリケーションの特性に適応させる課題と同じ複雑さである。
レガシーメディアによってサポートされるレガシーデバイスは、レガシーメディアの標準ベースの表現を生成するレガシーメディアコンテンツプロバイダのエコシステムと、レガシーデバイスを標準のレガシーコンテンツのソースに接続するためのネットワークインフラストラクチャを提供する商用ネットワークサービスプロバイダとによって同様にサポートされるため、消費者に広く採用されている。ネットワークを介してレガシーメディアを配布する役割に加えて、商用ネットワークサービスプロバイダは、レガシークライアントデバイスとコンテンツ配布ネットワーク(content distribution network、CND)上のレガシーコンテンツへのアクセスとのペアリングを容易にすることもできる。適切なフォーマットのコンテンツへのアクセスとペアになると、レガシークライアントデバイスは、コンテンツサーバからデバイスにレガシーコンテンツを要求又は「プル」して、エンドユーザに提示することができる。それにもかかわらず、ネットワークサーバが適切なメディアを適切なクライアントに「プッシュ」するアーキテクチャは、アーキテクチャ全体とソリューション設計に追加の複雑さをもたらすことなく、同様に関連性がある。
本明細書では、様々な実施形態による方法、装置(システム)、及びコンピュータ可読媒体のフローチャート図及び/又はブロック図を参照して、態様を説明する。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はロック図におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
以下に説明する例示的な実施形態は、ビデオ、オーディオ、幾何学的(3D)オブジェクト、触覚、関連するメタデータ、又はクライアントデバイスの他のコンテンツを含むメディアを配布するシステム及びネットワークのアーキテクチャ、構造、及び構成要素に関する。特定の実施形態は、メディアコンテンツを異種没入型及び対話型クライアントデバイスに配布するための指向性システム、構造、及びアーキテクチャである。
図1は、時限レガシーメディア配布のエンドツーエンドプロセスの例示的な図である。図1では、時限視聴覚コンテンツは、101Aでカメラ又はマイクロフォンによってキャプチャされ、又は101Bでコンピュータによって生成され、準備モジュール103に入力される2D画像及び関連するオーディオのシーケンス102を作成する。103の出力は、編集されたコンテンツ(例えば、言語翻訳、字幕、他の編集機能を含むポストプロダクション用)であり、これは、コンバータモジュール104によって、例えばオンデマンドメディア用の標準メザニンフォーマット、又は例えばライブイベント用の標準コントリビューションフォーマットに変換する準備ができているマスターフォーマットと呼ばれる。メディアは、商用ネットワークサービスプロバイダによって「取り込まれ」、適応モジュール105は、メディアを、様々なビットレート、時間解像度(フレームレート)、又は空間解像度(フレームサイズ)にパッケージ化し、それらが標準配布フォーマットにパッケージ化される。結果として得られる適応は、コンテンツ配布ネットワーク106に記憶され、そこから様々なクライアント108がプル要求107を行い、メディアを取得してエンドユーザに提示する。マスターフォーマットは、101A又は101Bの両方からのメディアのハイブリッドで構成されてもよく、フォーマット101Aは、例えばライブスポーツイベントから取得されたメディアなど、リアルタイムで取得される場合があることに留意することが重要である。更に、クライアント108は、クライアントの構成及び/又は現在のネットワーク状況に最も適した特定の適応107を選択する役割を果たすが、ネットワークサーバ(図1には示されていない)が、適切なコンテンツを決定し、その後クライアント108に「プッシュ」することも同様に可能である。
図2は、レガシー時限メディア、例えば、ビデオ、オーディオ、及びサポートメタデータ(字幕に使用されるような時限テキストを含む)の配布に使用される標準メディアフォーマットの一例である。図1の項目106に述べたように、メディアは、標準ベースの配布フォーマットでCDN201に記憶される。標準ベースのフォーマットは、MPD202として示されており、これは、クロックに対応する開始時間及び終了時間を有する時限期間203を包む複数のセクションで構成される。各期間203は、1つ又は複数の適応セット204を参照する。各適応セット204は、一般に、単一タイプのメディア、例えばビデオ、オーディオ、又は時限テキストに使用される。任意の所与の期間203について、複数の適応セット204が提供されてもよく、例えば、ビデオ用に1つ、及び様々な言語への翻訳に使用されるようなオーディオ用に複数が提供されてもよい。各適応セット204は、メディアのフレーム解像度(ビデオの場合)、フレームレート、及びビットレートに関する情報を提供する1つ又は複数の表現205を参照する。複数の表現205を使用して、例えば、超高精細、高精細度、又は標準精細度ビデオのそれぞれの表現205へのアクセスを提供することができる。各表現205は、1つ又は複数のセグメントファイル206を参照し、ここで、メディアは、クライアントによるフェッチ(図1の108として示される)のために、又はネットワークメディアサーバ(図1に示されていない)による(「プッシュベース」のアーキテクチャにおける)配布のために実際に記憶される。
図3は、時限付きの異種没入型メディア用のストリーミング可能なフォーマットの例示的な表現である。図4は、時限なしの異種没入型メディア用のストリーミング可能なフォーマットの例示的な表現である。両方の図はシーンを参照し、図3は、時限メディアのシーン301を参照し、図4は、時限なしメディアのシーン401を参照する。どちらの場合も、シーンは様々なシーン表現又はシーン記述によって具体化されてもよい。
例えば、一部の没入型メディア設計では、シーンはシーングラフによって、又はマルチプレーン画像(Multi-Plane Image、MPI)として、又は多球面画像(Multi-Spherical Image、MSI)として具体化されてもよい。MPI及びMSI技術はいずれも、ナチュラルコンテンツ、即ち、1台又は複数のカメラから同時にキャプチャされた現実世界の画像のためのディスプレイに依存しないシーン表現の作成を支援する技術の例である。一方、シーングラフ技術は、ナチュラル画像とコンピュータ生成画像の両方を合成表現の形式で表現するために使用できるが、コンテンツが1台又は複数のカメラによってナチュラルシーンとしてキャプチャされる場合に、そのような表現の作成は特に計算集約的である。即ち、自然にキャプチャされたコンテンツのシーングラフ表現を作成するのに時間と計算量の両方がかかり、合成表現を作成するために、写真測量又は深層学習又はその両方の技術を用いたナチュラル画像の複雑な分析が必要であり、合成表現は、その後、ターゲット没入型クライアントディスプレイの視錐台を埋めるのに十分且つ適切な数のビューを補間するために使用できる。その結果、そのような合成表現は、リアルタイム配布を必要とするユースケースを考慮して実際にリアルタイムで作成することができないため、現在、ナチュラルコンテンツを表現するための候補として考慮することは現実的ではない。それにもかかわらず、現在、コンピュータ生成画像が3Dモデリングプロセス及びツールを使用して作成されるため、コンピュータ生成画像の最良の候補表現は、合成モデルとシーングラフを使用することである。
ナチュラルコンテンツとコンピュータ生成コンテンツの両方の最適な表現におけるそのような二分法は、自然にキャプチャされたコンテンツの最適な取り込みフォーマットが、コンピュータ生成コンテンツ又はリアルタイム配布アプリケーションに不可欠ではないナチュラルコンテンツの最適な取り込みフォーマットとは異なることを示唆している。したがって、開示された主題は、視覚没入型メディアが自然に作成されたかコンピュータによって作成されたかにかかわらず、視覚没入型メディアの複数の取り込みフォーマットをサポートするのに十分に堅牢であることを目標としている。
以下は、コンピュータ生成技術を使用して作成された視覚没入型メディア、又はナチュラルシーンの対応する合成表現を作成するために深層学習又は写真測量技術が使用される、即ちリアルタイム配布アプリケーションには不可欠ではない自然にキャプチャされたコンテンツを表現するのに適したフォーマットとしてシーングラフを具体化する例示的な技術である。
1.OTOYによるORBX(登録商標)
OTOYによるORBXは、光線追跡可能、レガシー(フレームベース)、立体、及びその他のタイプの合成又はベクトルベースの視覚フォーマットを含めて、時限又は時限なしのあらゆるタイプの視覚メディアをサポートできるいくつかのシーングラフ技術の1つである。ORBXは、メッシュ、点群、及びテクスチャの自由に利用可能なフォーマット及び/又はオープンソースフォーマットをネイティブにサポートしているため、他のシーングラフとは異なる。ORBXは、シーングラフで動作する複数のベンダー技術間の交換を促進することを目的として意図的に設計されたシーングラフである。更に、ORBXは、豊富なマテリアルシステム、オープンシェーダ言語のサポート、堅牢なカメラシステム、及びLuaスクリプトのサポートを提供する。ORBXはまた、没入型デジタル体験同盟(Immersive Digital Experiences Alliance、IDEA)がロイヤルティフリーの条項の下でライセンスを取得するために公開した没入型技術メディアフォーマットの基盤でもある。メディアのリアルタイム配布の環境では、ナチュラルシーンのORBX表現を作成して配布する機能は、カメラでキャプチャされたデータの複雑な分析を実行し、同じデータを合成表現に合成するための計算リソースの利用可能性の関数である。現在まで、リアルタイム配布に十分な計算を利用できることは現実的ではないが、それでも不可能ではない。
2.Pixarによるユニバーサルシーン記述
Pixarによるユニバーサルシーン記述(Universal Scene Description、USD)は、VFX及びプロのコンテンツ制作コミュニティで人気のあるもう1つのよく知られた成熟したシーングラフである。USDは、NvidiaのGPUを使用した3Dモデルの作成及びレンダリングのための開発者向けのツールセットであるNvidiaのOmniverseプラットフォームに統合されている。USDのサブセットは、Apple及びPixarによってUSDZとして公開された。USDZはAppleのARKitによってサポートされている。
3.KhronosによるglTF2.0
glTF2.0は、Khronos 3D Groupによって作成されたGraphics Language Transmission Format(グラフィック言語伝送フォーマット)」仕様の最新バージョンである。このフォーマットは、「png」及び「jpeg」画像フォーマットを含めて、一般的にシーン内の静的(時限なし)オブジェクトをサポートできる単純なシーングラフフォーマットをサポートする。glTF2.0は、glTFプリミティブを使用して記述された基本的な形状、即ち幾何学的オブジェクトの平行移動、回転、拡大縮小のサポートを含めて、単純なアニメーションをサポートする。glTF2.0は、時限メディアをサポートしていないため、ビデオもオーディオもサポートしていない。
没入型視覚メディアのシーン表現用のこれらの既知の設計は、単に例とし提供され、入力没入型メディアソースをクライアントエンドポイントデバイスの特定の特性に適したフォーマットに適応させるプロセスを指定する能力において開示された主題を限定しない。
更に、上記の例示的なメディア表現のいずれか又はすべては、ニューラルネットワークモデルをトレーニング及び作成するために、現在深層学習を使用しているか、又は使用する可能性があり、ニューラルネットワークモデルは、錐台の特定の寸法に基づいて特定のディスプレイの視錐台を埋めるために特定のビューの選択を可能にするか又は容易にする。特定のディスプレイの視錐台用に選択されたビューは、例えば、MSI又はMPI技術から、シーン表現において明示的に提供された既存のビューから補間されてもよく、又はこれらは、特定の仮想カメラの位置、フィルタ、又はレンダリングエンジン用の仮想カメラの記述に基づいて、これらのレンダリングエンジンから直接レンダリングされてもよい。
したがって、開示された主題は、比較的小さいがよく知られている没入型メディア取り込みフォーマットのセットが存在すると考えるのに十分に堅牢であり、没入型メディア取り込みフォーマットのセットは、自然に(例えば、1つ又は複数のカメラで)キャプチャされるか、又はコンピュータ生成技術を使用して作成されたメディアのリアルタイム配布又は「オンデマンド」(例えば、非リアルタイム)配布の両方の要件を十分に満たすことができる。
ニューラルネットワークモデル又はネットワークベースのレンダリングエンジンのいずれかを使用して没入型メディア取り込みフォーマットからのビューを補間することは、モバイルネットワーク用の5Gや固定ネットワーク用の光ファイバケーブルなどの高度なネットワーク技術が展開されるにつれて、更に容易になる。即ち、このような高度なネットワークインフラストラクチャがますます大量の視覚情報の転送及び配信をサポートできるため、これらの高度なネットワーク技術は、商業ネットワークの容量及び機能を向上させる。マルチアクセスエッジコンピューティング(Multi-access Edge Computing、MEC)、ソフトウェア定義ネットワーク(Software Defined Network、SDN)及びネットワーク機能仮想化(Network Functions Virtualization、NFV)などのネットワークインフラストラクチャ管理技術により、商用ネットワークサービスプロバイダは、ネットワークインフラストラクチャを柔軟に構成して、特定のネットワークリソースに対する需要の変化に適応させることができ、例えば、ネットワークスループット、ネットワーク速度、ラウンドトリップ遅延、及び計算リソースに対する需要の動的な増加又は減少に対応できる。更に、動的ネットワーク要件に適応するこの固有の機能は同様に、異種クライアントエンドポイント用の異種の可能性のある視覚メディアフォーマットを有する様々な没入型メディアアプリケーションをサポートするために、ネットワークが、没入型メディア取り込みフォーマットを適切な配布フォーマットに適応させる能力を促進する。
没入型メディアアプリケーション自体も、ネットワークリソースに対する様々な要件を有する可能性があり、ネットワークリソースには、ゲームの状態でリアルタイム更新に応答するために大幅に低いネットワーク遅延を必要とするゲームアプリケーション、ネットワークのアップリンク部分とダウンリンク部分の両方に対して対称的なスループット要件を有するテレプレゼンスアプリケーション、及びデータを使用しているクライアントエンドポイントディスプレイのタイプに応じてダウンリンクリソースに対する需要が増加している可能性があるパッシブ視聴アプリケーションが含まれる。一般に、任意の消費者向けアプリケーションは、ストレージ、計算、及び電力用の様々なオンボードクライアント機能、及び同様に特定のメディア表現に対する様々な要件を有する様々なクライアントエンドポイントによってサポートされ得る。
したがって、開示された主題は、十分に装備されたネットワーク、即ち、最新のネットワークの特性の一部又はすべてを使用するネットワークが、その中で指定されている機能に従って、複数のレガシーメディア及び没入型メディア対応デバイスを同時にサポートすることを可能にする。
1.メディア配布のリアルタイム及び「オンデマンド」ユースケースの両方に実用的なメディア取り込みフォーマットを活用する柔軟性を提供する。
2.レガシーメディア及び没入型メディア対応クライアントエンドポイントの両方について、ナチュラルコンテンツ及びコンピュータ生成コンテンツの両方をサポートする柔軟性を提供する。
3.時限メディア及び時限なしメディアの両方をサポートする。
4.クライアントエンドポイントの特徴及び機能に基づいて、及びアプリケーションの要件に基づいて、ソースメディア取り込みフォーマットを適切な配布フォーマットに動的に適応させるためのプロセスを提供する。
5.配布フォーマットがIPベースのネットワークを介してストリーミング可能であることを保証する。
6.ネットワークが、レガシーメディア及び没入型メディア対応デバイスの両方を含み得る複数の異種クライアントエンドポイントに同時にサービスを提供できるようにする。
7.シーン境界に沿った配布メディアの編成を容易にする例示的なメディア表現フレームワークを提供する。
開示された主題によって可能になるエンドツーエンド実施形態の改善の一例は、以下のように図3~図14の詳細な説明に記載された処理及び構成要素に従って達成される。
図3及び図4は両方とも、特定のクライアントエンドポイントの機能に一致するように取り込みソースフォーマットから適応した単一の例示的な包括的配布フォーマットを使用する。上記のように、図3に示されているメディアは時限付きであり、図4に示されているメディアは時限なしである。特定の包括的フォーマットは、多種多様なメディア属性を収容するのにその構造が十分に堅牢であり、各属性は、各レイヤがメディアのプレゼンテーションに寄与する重要な情報の量に基づいてレイヤ化することができる。このようなレイヤ化プロセスは、プログレッシブJPEG、及びISO/IEC 14496‐10(スケーラブルな高度なビデオコーディング)で指定されているようなスケーラブルなビデオアーキテクチャで実証されているように、現在の最先端技術では既によく知られている技術であることに留意されたい。
1.包括的メディアフォーマットに従ってストリーミングされるメディアは、レガシー視覚メディア及びオーディオメディアに限定されず、機械と相互作用して人間の視覚、聴覚、味覚、触覚、嗅覚を刺激する信号を生成できるあらゆる種類のメディア情報を含み得る。
2.包括的メディアフォーマットに従ってストリーミングされるメディアは、時限メディア又は時限なしメディア、あるいは両方の混合物であり得る。
3.包括的メディアフォーマットは、ベースレイヤと拡張レイヤアーキテクチャを使用してメディアオブジェクトのレイヤ化表現を可能にすることにより、更にストリーミング可能である。一例では、別個のベースレイヤと拡張レイヤは、各シーンのメディアオブジェクトに多重解像度分析又はマルチテッセレーション分析手法を適用することによって計算される。これは、ISO/IEC 10918‐1(JPEG)及びISO/IEC 15444‐1(JPEG2000)で指定されているプログレッシブレンダリング画像フォーマットに類似しているが、ラスタベースの視覚フォーマットに限定されない。例示的な実施形態では、幾何学的オブジェクトのプログレッシブ表現は、ウェーブレット分析を使用して計算されたオブジェクトの多重解像度表現であり得る。
メディアフォーマットのレイヤ化表現の別の例では、拡張レイヤは、ベースレイヤによって表される視覚オブジェクトの表面のマテリアルプロパティを洗練するなど、ベースレイヤに異なる属性を適用する。更に別の例では、属性は、表面を滑らかなテクスチャから多孔質のテクスチャに、又はつや消しの表面から光沢のある表面に変化させるなど、ベースレイヤオブジェクトの表面のテクスチャを洗練することができる。
レイヤ化表現の更に別の例では、シーン内の1つ又は複数の視覚オブジェクトの表面を、ランバート表面から光線追跡可能表面に変更することができる。
レイヤ化表現の更に別の例では、ネットワークはベースレイヤ表現をクライアントに配布し、それによって、クライアントは、追加の拡張レイヤの送信を待っている間にシーンの公称プレゼンテーションを作成して、ベース表現の解像度又は他の特性を洗練することができる。
4.拡張レイヤにおける属性又は洗練情報の解像度は、現在の既存のMEPGビデオ及びJPEG画像規格の場合のように、ベースレイヤにおけるオブジェクトの解像度と明示的に結合されていない。
5.包括的メディアフォーマットは、プレゼンテーションデバイス又はマシンによって提示又は作動できるあらゆるタイプの情報メディアをサポートし、それによって異種クライアントエンドポイントに対する異種メディアフォーマットのサポートを可能にする。メディアフォーマットを配布するネットワークの一実施形態では、ネットワークは、最初にクライアントエンドポイントに問い合わせてクライアントの機能を決定し、クライアントがメディア表現を意味のある形で取り込むことができない場合、ネットワークはクライアントによってサポートされていない属性のレイヤを削除するか、又はメディアを現在のフォーマットからクライアントエンドポイントに適したフォーマットにトランスコードする。そのようなトランスコーディングの一例では、ネットワークは、ネットワークベースのメディア処理プロトコルを使用して、立体視覚メディアアセットを同じ視覚アセットの2D表現に変換する。
6.完全又は部分的に完全な没入型体験(ライブストリーミングイベント、ゲーム、又はオンデマンドアセットの再生)のマニフェストは、シーンによって編成され、シーンは、レンダリング及びゲームエンジンがプレゼンテーションを作成するために現在取り込むことができる最小量の情報である。マニフェストには、クライアントが要求する没入型体験全体に対してレンダリングされる個々のシーンのリストが含まれている。各シーンには、シーンジオメトリのストリーミング可能なバージョンに対応する、シーン内の幾何学的オブジェクの1つ又は複数の表現が関連付けられている。シーン表現の一実施形態は、シーンの幾何学的オブジェクトの低解像度バージョンを参照する。同じシーンの別の実施形態は、シーンの低解像度表現用の拡張レイヤを参照して、同じシーンの幾何学的オブジェクトに追加の詳細を追加するか、又はテッセレーションを増加させる。上記のように、各シーンは、シーンの幾何学的オブジェクトの詳細を漸進的に増加させるために、複数の拡張レイヤを有することができる。
7.シーン内で参照されるメディアオブジェクトの各レイヤは、ネットワーク内でリソースにアクセスできる位置のアドレスを指すトークン(例えば、URI)に関連付けられている。このようなリソースは、CDNのコンテンツに類似しており、そのコンテンツはクライアントによってフェッチされ得る。
8.幾何学的オブジェクトの表現用のトークンは、ネットワーク内の位置又はクライアント内の位置を指すことができる。即ち、クライアントは、そのリソースがネットワークベースのメディア処理のためにネットワークに利用可能であることをネットワークに信号で通知することができる。
図3は、時限メディア用の包括的メディアフォーマットの一実施形態を以下のように説明する。時限シーンマニフェストは、シーン情報301のリストを含む。シーン301は、処理情報とシーン301を構成するメディアアセットのタイプを個別に説明する構成要素302のリストを参照する。構成要素302はアセット303を参照し、アセット303は更にベースレイヤ304及び属性拡張レイヤ305を参照する。
図4は、時限なしメディア用の包括的メディアフォーマットの一実施形態を以下のように説明する。シーン情報401は、時計による開始時間及び終了時間に関連付けられていない。シーン情報401は、処理情報とシーン401を構成するメディアアセットのタイプを個別に説明する構成要素402のリストを参照する。構成要素402はアセット403(例えば、視覚、音声、及び触覚アセット)を参照し、アセット403は更にベースレイヤ404及び属性拡張レイヤ405を参照する。更に、シーン401は、時限なしメディア用の他のシーン401を参照する。シーン401は、時限メディアシーンも参照する。
図5は、ナチュラルコンテンツから取り込みフォーマットを合成するためのプロセス500の一実施形態を示す。カメラユニット501は、単一のカメラレンズを使用して、人のシーンをキャプチャする。カメラユニット502は、リング状の物体の周りに5つのカメラレンズを取り付けることによって、5つの発散視野を有するシーンをキャプチャする。502の配置は、VRアプリケーション用の全方向性コンテンツをキャプチャするために一般的に使用される例示的な配置である。カメラユニット503は、球体の内径部分に7つのカメラレンズを取り付けることにより、7つの収束視野を有するシーンをキャプチャする。カメラユニット503における配置は、ライトフィールド又はホログラフィック没入型ディスプレイ用のライトフィールドをキャプチャするために一般的に使用される例示的な配置である。ナチュラル画像コンテンツ509は、合成モジュール504への入力として提供され、合成モジュール504は、任意選択で、トレーニング画像506の集合を使用するニューラルネットワークトレーニングモジュール505を用いて、オプションのキャプチャニューラルネットワークモデル508を生成することができる。トレーニングプロセス505の代わりに一般的に使用される別のプロセスは写真測量である。モデル508が図5に示されるプロセス500の間に作成される場合、モデル508は、ナチュラルコンテンツ用の取り込みフォーマット507におけるアセットの1つになる。取り込みフォーマット507の例示的な実施形態は、MPI及びMSIを含む。
図6は、合成媒体、例えば、コンピュータ生成画像用の取り込みフォーマットを作成するためのプロセス600の一実施形態を示す。LIDARカメラ601は、シーンの点群602をキャプチャする。CGIツール、3Dモデリングツール、又は合成コンテンツを作成するための別のアニメーションプロセスは、コンピュータ603上で使用され、ネットワークを介してCGIアセット604を作成する。センサ605Aを備えたモーションキャプチャスーツは、アクター605に着用されて、アクター605の動きのデジタル記録をキャプチャしてアニメーション化されたモーションキャプチャデータ606を生成する。データ602、604、及び606は、合成モジュール607への入力として提供され、合成モジュール607は、同様に、任意選択でニューラルネットワーク及びトレーニングデータを使用して、ニューラルネットワークモデルを作成することができる(図6には示されていない)。
上記の異種没入型メディアを表現及びストリーミングするための技術は、コンピュータ可読命令を使用し、且つ1つ又は複数のコンピュータ可読媒体に物理的に記憶されたコンピュータソフトウェアとして実装することができる。例えば、図7は、開示された主題の特定の実施形態を実装するのに適したコンピュータシステム700を示す。
コンピュータソフトウェアは、任意の適切な機械コード又はコンピュータ言語を使用してコード化することができ、これらの機械コード又はコンピュータ言語は、アセンブリ、コンパイル、リンク、又は同様のメカニズムを受けて、コンピュータ中央処理装置(central processing unit、CPU)、グラフィック処理装置(Graphics Processing Unit、GPU)などによって直接、又は解釈、マイクロコード実行などを通じて実行できる命令を含むコードを作成することができる。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置などを含めて、様々なタイプのコンピュータ又はその構成要素上で実行することができる。
コンピュータシステム700について図7に示されている構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能に関するいかなる限定も示唆することを意図するものではない。また、構成要素の構成は、コンピュータシステム700の例示的な実施形態に示されている構成要素のいずれか1つ又は組み合わせに関連する依存性又は要件を有すると解釈されるべきではない。
コンピュータシステム700は、特定のヒューマンインターフェース入力デバイスを含むことができる。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなど)、音声入力(声、拍手など)、視覚入力(ジェスチャーなど)、嗅覚入力(図示せず)を介して、1人以上の人間ユーザによる入力に応答することができる。ヒューマンインターフェースデバイスはまた、オーディオ(音声、音楽、周囲音など)、画像(走査画像、静止画像カメラから取得した写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)など、必ずしも人間による意識的な入力に直接関連しない特定のメディアをキャプチャするために使用することができる。
入力ヒューマンインターフェースデバイスは、キーボード701、マウス702、トラックパッド703、タッチスクリーン710、データグローブ(図示せず)、ジョイスティック705、マイクロフォン706、スキャナ707、及びカメラ708のうちの1つ又は複数を含むことができる(それぞれのうちの1つのみを示す)。
コンピュータシステム700はまた、特定のヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、及び匂い/味覚を通じて、1人以上の人間ユーザの感覚を刺激することができる。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン710、データグローブ(図示せず)、又はジョイスティック705による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る)、音声出力デバイス(スピーカ709、ヘッドフォン(図示せず)など)、視覚出力デバイス(それぞれがタッチスクリーン入力機能を有しても有しなくてもよく、それぞれが触覚フィードバック機能を有しても有しなくてもよく、一部がステレオグラフィック出力などの手段を介して2次元視覚出力又は3次元以上の出力を出力することができるCRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン710、仮想現実メガネ(図示せず)、ホログラフィックディスプレイ及びスモークタンク(図示せず)など)、及びプリンタ(図示せず)を含むことができる。
コンピュータシステム700はまた、人間がアクセス可能な記憶装置、及びCD/DVD付きのCD/DVD ROM/RW720を含む光学媒体又は同様の媒体721、サムドライブ722、リムーバブルハードドライブ又はソリッドステートドライブ723、テープ及びフロッピーディスクなどのレガシー磁気媒体(図示せず)、セキュリティドングルなどの特殊なROM/ASIC/PLDベースのデバイス(図示せず)などの関連する媒体を含むことができる。
当業者はまた、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、又は他の一時的な信号を包含しないことを理解すべきである。
コンピュータシステム700はまた、1つ又は複数の通信ネットワークへのインターフェースを含むことができる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークは更に、ローカル、広域、メトロポリタン、自動車及び産業用、リアルタイム、遅延耐性などであり得る。ネットワークの例としては、イーサネット、無線LANなどのローカルエリアネットワーク、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、地上波放送TVを含むTV有線又は無線広域デジタルネットワーク、CANBusを含む自動車及び産業用ネットワークなどが挙げられる。特定のネットワークでは一般に、特定の汎用データポート又は周辺バス749(例えば、コンピュータシステム700のUSBポートなど)に接続された外部ネットワークインターフェースアダプタが必要であり、他のネットワークは、一般に、以下に説明されるように、システムバスに接続することによってコンピュータシステム700のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム700は他のエンティティと通信することができる。そのような通信は、例えば、ローカル又は広域デジタルネットワークを使用する他のコンピュータシステムへの一方向、受信のみ(例えば、放送TV)、一方向送信のみ(例えば、特定のCANbusデバイスへのCANbus)、又は双方向であり得る。上記のように、特定のプロトコル及びプロトコルスタックは、これらのネットワーク及びネットワークインターフェースのそれぞれで使用することができる。
前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶装置、及びネットワークインターフェースは、コンピュータシステム700のコア740に接続することができる。
コア740は、1つ又は複数の中央処理装置(CPU)741、グラフィック処理装置(GPU)742、フィールドプログラマブルゲートエリア(Field Programmable Gate Area、FPGA)の形態の特殊なプログラマブル処理ユニット743、特定のタスク用のハードウェアアクセラレータ744などを含むことができる。これらのデバイスは、読み取り専用メモリ(Read-only memory、ROM)745、ランダムアクセスメモリ746、ユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量記憶装置747と共に、システムバス748を介して接続されてもよい。一部のコンピュータシステムでは、システムバス748は、追加のCPU、GPUなどによる拡張を可能にするために、1つ又は複数の物理プラグの形態でアクセス可能である。周辺機器は、コアのシステムバス748に直接接続することも、周辺バス749を介して接続することもできる。周辺バスのアーキテクチャには、PCI、USBなどが含まれる。
CPU741、GPU742、FPGA743、及びアクセラレータ744は、特定の命令を実行することができ、これらの命令は、組み合わせて前述のコンピュータコードを構成することができる。そのコンピュータコードは、ROM745又はRAM746に記憶することができる。移行データはRAM746に記憶することもできるが、永続データは、例えば内部大容量記憶装置747に記憶することができる。1つ又は複数のCPU741、GPU742、大容量記憶装置747、ROM745、RAM746などと密接に関連付けることができるキャッシュメモリを使用することで、任意のメモリデバイスへの高速記憶及び検索を可能にすることができる。
コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであってもよく、又はそれらは、コンピュータソフトウェア技術の当業者によく知られ、利用可能な種類のものであってもよい。
限定ではなく、一例として、アーキテクチャ、具体的にはコア740を有するコンピュータシステム700は、プロセッサ(CPU、GPU、FPGA、アクセラレータなどを含む)が1つ又は複数の有形のコンピュータ可読媒体に具体化されたソフトウェアを実行する結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上記で紹介したユーザがアクセス可能な大容量記憶装置に関連付けられた媒体、及びコア内部大容量記憶装置747又はROM745などの非一時的な性質を有するコア740の特定の記憶装置であり得る。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア740によって実行され得る。コンピュータ可読媒体は、特定の必要に応じて、1つ又は複数のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア740、特にその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM746に記憶されたデータ構造を定義すること、及びソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含めて、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。更に又は代替として、コンピュータシステムは、ソフトウェアの代わりに又はソフトウェアと共に動作して本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行することができる回路(例えば、アクセラレータ744)に配線され、又は他の方法で具体化された論理の結果として機能を提供することができる。ソフトウェアへの言及は、論理を包含することができ、必要に応じてその逆も同様である。コンピュータ可読媒体への言及は、実行用のソフトウェアを記憶する回路(集積回路(IC)など)、実行用の論理を具体化する回路、又は必要に応じてその両方を包含することができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組み合わせを包含する。
図8は、クライアントエンドポイントとして様々なレガシー及び異種没入型メディア対応ディスプレイをサポートする例示的なネットワークメディア配布システム800を示す。コンテンツ取得モジュール801は、図6又は図5の例示的な実施形態を使用して、メディアをキャプチャ又は作成する。取り込みフォーマットは、コンテンツ準備モジュール802で作成され、次に、送信モジュール803を使用してネットワークメディア配布システム内の1つ又は複数のクライアントエンドポイント804に送信される。ゲートウェイは、ネットワークの様々なクライアントエンドポイントへのネットワークアクセスを提供するために、顧客宅内機器にサービスを提供することができる。セットトップボックスは、ネットワークサービスプロバイダによって集約されたコンテンツへのアクセスを提供するために顧客宅内機器としても機能することができる。無線復調器は、(例えば、携帯電話及びディスプレイと同様に)、モバイルデバイスのモバイルネットワークアクセスポイントとして機能することができる。1つ又は複数の実施形態では、レガシー2Dテレビは、ゲートウェイ、セットトップボックス、又はWiFiルータに直接接続されてもよい。レガシー2Dディスプレイを備えたラップトップコンピュータは、WiFiルータに接続されたクライアントエンドポイントであり得る。ヘッドマウント2D(ラスタベース)ディスプレイもルータに接続されてもよい。レンチキュラライトフィールドディスプレイはゲートウェイに対するものであり得る。ディスプレイは、ローカル計算GPU、記憶装置、及び光線ベースのレンチキュラ光学技術を使用して複数のビューを作成する視覚プレゼンテーションユニットで構成されてもよい。ホログラフィックディスプレイは、セットトップボックスに接続さてもよく、またローカル計算CPU、GPU、記憶装置、及びフレスナルパターンの波ベースのホログラフィック視覚化ユニットを含むことができる。拡張現実ヘッドセットは、無線復調器に接続されてもよく、またGPU、記憶装置、バッテリ、及び立体視覚プレゼンテーション構成要素を含むことができる。高密度ライトフィールドディスプレイは、WiFiルータに接続されてもよく、また複数のGPU、CPU、及び記憶装置と、アイトラッキングデバイスと、カメラと、高密度光線ベースライトフィールドパネルとを含むことができる。
図9は、図8に先に示したように、レガシー及び異種没入型メディア対応ディスプレイにサービスを提供することができる没入型メディア配布モジュール900の一実施形態を示す。コンテンツはモジュール901で作成又は取得され、モジュール901は、ナチュラルコンテンツとCGIコンテンツについて図5と図6において更に具体化される。次に、コンテンツ901は、ネットワーク取り込みフォーマット作成モジュール902を使用して取り込みフォーマットに変換される。モジュール902は、同様に、ナチュラルコンテンツ及びCGIコンテンツについて、それぞれ図5及び図6において更に具体化される。取り込みメディアフォーマットはネットワークに送信され、記憶装置903に記憶される。任意選択で、記憶装置は、没入型メディアコンテンツプロデューサのネットワーク内に存在することができ、903を二等分する破線によって示されるように、没入型メディアネットワーク配布モジュール(番号なし)によってリモートにアクセスされ得る。クライアント及びアプリケーション固有の情報は、任意選択でリモート記憶装置904上で利用可能であり、リモート記憶装置904は任意選択で、代替の「クラウド」ネットワークにリモートに存在することができる。
図9に示されるように、クライアントインターフェースモジュール905は、情報の一次ソース及びシンクとして機能して、配布ネットワークの主要なタスクを実行する。この特定の実施形態では、モジュール905は、ネットワークの他の構成要素と統合された形式で実装され得る。それにもかかわらず、図9のモジュール905によって示されるタスクは、開示された主題の本質的な要素を形成する。
モジュール905は、クライアント908の機能及び属性に関する情報を受信し、更に、908上で現在実行されているアプリケーションに関する要件を収集する。この情報は、デバイス904から取得することができ、又は代替の実施形態では、クライアント908に直接問い合わせることによって取得することができる。クライアント908に直接問い合わせる場合、クライアントがインターフェースモジュール905と直接通信することができるように、双方向プロトコル(図9には示されていない)が存在し、且つ動作可能であると仮定される。
インターフェースモジュール905はまた、開始して図10に記載されているメディア適応及び断片化モジュール910と通信する。取り込みメディアがモジュール910によって適応され、断片化されると、メディアは、任意選択で、配布用に準備されたメディアの記憶装置909として示されるインターメディア記憶装置に転送される。配布メディアが準備されてデバイス909に記憶されると、インターフェースモジュール905は、没入型クライアント908が、そのネットワークインターフェース908Bを介して、「プッシュ」要求を通じて配布メディア及び対応する記述情報906を受信するか、又はクライアント908自体が記憶装置909からメディア906の「プル」要求を開始することができることを保証する。没入型クライアント908は、任意選択で、GPU(又は図示されていないCPU)908Cを使用することができる。メディアの配布フォーマットは、クライアント908の記憶装置又はストレージキャッシュ908Dに記憶される。最後に、クライアント908は、その視覚化構成要素908Aを介してメディアを視覚的に提示する。
没入型メディアをクライアント908にストリーミングするプロセス全体を通して、インターフェースモジュール905は、クライアント進捗及びステータスフィードバックチャネル907を介してクライアントの進捗状況を監視する。
図10は、取り込まれたソースメディアがクライアント908の要件に適合するように適切に適応され得るように、メディア適応プロセスの特定の実施形態を示す。メディア適応モジュール1001は、取り込みメディアをクライアント908用の適切な配布フォーマットに適応させることを容易にする複数の構成要素で構成される。これらの構成要素は、例示的なものと見なされるべきである。図10では、適応モジュール1001は、入力ネットワークステータス1005を受信して、ネットワーク上の現在のトラフィック負荷を追跡し、クライアント908情報は、属性及び機能の記述、アプリケーション機能及び記述、アプリケーションの現在のステータス、並びにクライアントの錐台のジオメトリを取り込み没入型メディアの補間機能にマッピングするのに役立つクライアントニューラルネットワークモデル(利用可能な場合)を含む。適応モジュール1001は、適応された出力が作成されると、クライアント適応メディア記憶装置1006に記憶されることを保証する。
適応モジュール1001は、レンダラ1001B又はニューラルネットワークプロセッサ1001Cを使用して、特定の取り込みソースメディアをクライアントに適したフォーマットに適応させる。ニューラルネットワークプロセッサ1001Cは、ニューラルネットワークモデル1001Aを使用する。そのようなニューラルネットワークプロセッサ1001Cの例としては、MPI及びMSIで説明されているようなディープビューニューラルネットワークモデル生成器が挙げられる。メディアが2Dフォーマットであるが、クライアントが3Dフォーマットを有しなければならない場合、ニューラルネットワークプロセッサ1001Cは、2Dビデオ信号から相関性の高い画像を使用して、ビデオに描かれているシーンの立体表現を導出するプロセスを呼び出すことができる。そのようなプロセスの一例は、カリフォルニア大学バークレー校で開発された1枚又は数枚の画像からのニューラルラディアンスフィールド(Neural Radiance Fields from One or Few Images)プロセスである。適切なレンダラ1001Bの一例は、適応モジュール1001と直接相互作用するように修正されるOTOY Octaneレンダラ(図示せず)の修正バージョンであり得る。適応モジュール1001は、取り込みメディアのフォーマット及びクライアント908が必要とするフォーマットに関して、これらのツールの必要性に応じて、任意選択でメディアコンプレッサ1001D及びメディアデコンプレッサ1001Eを使用することができる。
図11は、適応メディアパッケージングモジュール1103を示し、このモジュールは、クライアント適応メディア記憶装置1102上に現在存在する図10のメディア適応モジュール1101からの適応メディアを最終的に変換する。パッケージングモジュール1103は、モジュール1101からの適応メディアを堅牢な配布フォーマット、例えば、図3又は図4に示される例示的なフォーマットにフォーマットする。マニフェスト情報1104Aは、クライアント908に、受信が期待できるシーンデータのリストを提供し、また、視覚アセット及び対応するメタデータ、並びにオーディオアセット及び対応するメタデータのリストを提供する。
図12は、適応媒体1201をクライアント908へのストリーミングに適した個々のパケット1203に「断片化」するパケタイザモジュール1202を示す。
シーケンス図1300について図13に示される構成要素及び通信を、以下のように説明する。クライアントエンドポイント1301は、ネットワーク配布インターフェース1302へのメディア要求1308を開始する。要求1308は、URN又は他の標準的な命名法のいずれかによって、クライアントによって要求されたメディアを識別するための情報を含む。ネットワーク配布インターフェース1302は、プロファイル要求1309で要求1308に応答し、プロファイル要求1309は、クライアント1301がその現在利用可能なリソースに関する情報(計算、ストレージ、バッテリ充電率、及びクライアントの現在の動作状態を特徴付ける他の情報を含む)を提供することを要求する。プロファイル要求1309はまた、クライアントが1つ又は複数のニューラルネットワークモデルを提供することを要求し、クライアントでそのようなモデルが利用可能な場合、これらのモデルをニューラルネットワーク推論のためにネットワークによって使用して、クライアントのプレゼンテーションシステムの特徴に一致するように正しいメディアビューを抽出又は補間することができる。クライアント1301からインターフェース1302への応答1310は、クライアントトークン、アプリケーショントークン、及び1つ又は複数のニューラルネットワークモデルトークン(そのようなニューラルネットワークモデルトークンがクライアントで利用可能である場合)を提供する。次に、インターフェース1302は、クライアント1301にセッションIDトークン1311を提供する。次に、インターフェース1302は、取り込みメディア要求1312で取り込みメディアサーバ1303を要求し、取り込みメディア要求1312は、要求1308で識別されたメディアのURN又は標準名称を含む。サーバ1303は、取り込みメディアトークンを含む応答1313で要求1312に応答する。次に、インターフェース1302は、呼び出し1314において応答1313からのメディアトークンをクライアント1301に提供する。次に、インターフェース1302は、適応インターフェース1304に取り込みメディアトークン、クライアントトークン、アプリケーショントークン、及びニューラルネットワークモデルトークンを提供することによって、1308において要求されたメディアの適応プロセスを開始する。インターフェース1304は、呼び出し1316でサーバ1303に取り込みメディアトークンを提供して取り込みメディアアセットへのアクセスを要求することによって、取り込みメディアへのアクセスを要求する。サーバ1303は、インターフェース1304への応答1317において、取り込みメディアアクセストークンを用いて要求1316に応答する。次に、インターフェース1304は、メディア適応モジュール1305が、1313で作成されたセッションIDトークンに対応するクライアント、アプリケーション、及びニューラルネットワーク推論モデルのために取り込みメディアアクセストークンに位置する取り込みメディアを適応させることを要求する。インターフェース1304からモジュール1305への要求1318には、必要なトークン及びセッションIDが含まれている。モジュール1305は、更新1319において、インターフェース1302に適応されたメディアアクセストークン及びセッションIDを提供する。インターフェース1302は、インターフェース呼び出し1320において、適応されたメディアアクセストークン及びセッションIDをパッケージングモジュール1306に提供する。パッケージングモジュール1306は、応答1321において、インターフェース1302にパッケージ化されたメディアアクセストークン及びセッションIDを有する応答1321を提供する。モジュール1306は、応答1322において、パッケージ化されたアセット、URN、及びセッションID用のパッケージ化されたメディアアクセストークンをパッケージ化メディアサーバ1307に提供する。クライアント1301は、要求1323を実行して、メッセージ1321で受信されたパッケージ化されたメディアアクセストークンに対応するメディアアセットのストリーミングを開始する。クライアント1301は、他の要求を実行し、メッセージ1324でステータス更新をインターフェース1302に提供する。
図14は、図10の取り込みメディアフォーマット及びアセット1002を、任意選択で2つの部分、即ち3Dフォーマット1401及び2Dフォーマット1402の没入型メディア及びアセット1002からなるものとして示す。2Dフォーマット1402は、ISO/IEC 14496 Part10の高度なビデオコーディングなどの単一ビューコード化ビデオストリームであってもよく、又は、ISO/IEC 14496 Part10のマルチビュー圧縮修正など、複数のビューを含むコード化ビデオストリームであってもよい。
一部の実施形態は、統合の任意の可能な技術的詳細レベルでのシステム、方法、及び/又はコンピュータ可読媒体に関し得る。コンピュータ可読媒体は、プロセッサに動作を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読非一時的な記憶媒体(又は複数の媒体)を含むことができる。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持及び記憶することができる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置、又は前述の任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(erasable programmable read-only memory、EPROM、又はフラッシュメモリ)、スタティックランダムアクセスメモリ(static random access memory、SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(compact disc read-only memory、CD‐ROM)、デジタル多用途ディスク(digital versatile disk、DVD)、メモリースティック、フロッピーディスク、パンチカード又は命令が記録された溝内の隆起構造などの機械的にエンコードされたデバイス、及び前述の任意の適切な組み合わせが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、それ自体が、電波若しくは他の自由に伝播する電磁波、導波路若しくは他の伝送媒体(例えば、光ファイバケーブルを通過する光パルス)を通って伝播する電磁波、又はワイヤを介して送信される電気信号などの一時的な信号として解釈されるべきではない。
本明細書に記載のコンピュータ可読プログラム命令は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク及び/又は無線ネットワークを介して、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理装置に、又は外部コンピュータ若しくは外部記憶装置にダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバを含むことができる。各コンピューティング/処理装置内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理装置内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
動作を実行するためのコンピュータ可読プログラムコード/命令は、アセンブラ命令、命令セットアーキテクチャ(instruction-set-architecture、ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、又はSmalltalk、C++などのオブジェクト指向プログラミング言語及び「C」プログラミング言語若しくは同様のプログラミング言語などの手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで書かれたソースコード若しくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上で、部分的にリモートコンピュータ上で、又は完全にリモートコンピュータ若しくはサーバ上で実行されてもよい。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(local area network、LAN)又は広域ネットワーク(wide area network、WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、又は(例えば、インターネットサービスプロバイダを使用するインターネットを介して)外部コンピュータに接続されてもよい。一部の実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラマブル論理アレイ(programmable logic array、PLA)を含む電子回路は、態様又は動作を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行することができる。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供して、マシンを生成することができ、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令は、フローチャート及び/又はブロック図のブロック若しくは複数のブロックで指定された機能/動作を実装するための手段を作成する。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラマブルデータ処理装置、及び/又は他のデバイスに特定の方法で機能するように指示することができるコンピュータ可読記憶媒体に記憶されてもよく、それにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図のブロック若しくは複数のブロックで指定された機能/動作の態様を実装する命令を含む製品を含む。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、又は他のデバイス上で一連の動作ステップを実行させて、コンピュータ実装プロセスを生成することができ、それにより、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令は、フローチャート及び/又はブロック図のブロック若しくは複数のブロックで指定された機能/動作を実装する。
図中のフローチャート及びブロック図は、様々な実施形態によるシステム、方法、及びコンピュータ可読媒体の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、モジュール、セグメント、又は命令の一部を表すことができ、命令は、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む。この方法、コンピュータシステム、及びコンピュータ可読媒体は、図に示されているものよりも追加のブロック、より少ないブロック、異なるブロック、又は異なる配置のブロックを含み得る。一部の代替的な実装では、ブロックに示されている機能は、図に示されている順序とは異なる場合がある。例えば、連続して示される2つのブロックは、実際には、同時に又は実質的に同時に実行される場合があり、又はブロックは、関連する機能に応じて、逆の順序で実行される場合もある。ブロック図及び/又はフローチャート図の各ブロック、並びにブロック図及び/又はフローチャート図におけるブロックの組み合わせは、指定された機能又は動作を実行し、又は専用ハードウェア及びコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムによって実装できることにも留意されたい。
本明細書に記載のシステム及び/又は方法は、異なる形態のハードウェア、ファームウェア、又はハードウェア及びソフトウェアの組み合わせで実装され得ることが明らかであろう。これらのシステム及び/又は方法を実装するために使用される実際の特殊な制御ハードウェア又はソフトウェアコードは、実装を限定するものではない。したがって、システム及び/又は方法の動作及び挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェア及びハードウェアは、本明細書の説明に基づいてシステム及び/又は方法を実装するように設計され得ることが理解される。
本明細書で使用されている要素、動作、又は命令は、明示的に記載されていない限り、重要又は不可欠であると解釈されるべきではない。また、本明細書で使用される場合、冠詞「a」及び「an」は、1つ又は複数のアイテムを含むことを意図しており、「1つ又は複数」と交換可能に使用することができる。更に、本明細書で使用される場合、「セット」という用語は、1つ又は複数のアイテム(例えば、関連アイテム、非関連アイテム、関連アイテムと非関連アイテムの組み合わせなど)を含むことを意図しており、「1つ又は複数」と交換可能に使用することができる。1つのアイテムのみが意図されている場合、用語「1つ」又は類似の言語が使用される。また、本明細書で使用される場合、「有する(has)」、「有する(have)」、「有する(having)」などの用語は、制限のない用語であることが意図されている。更に、「~に基づく」という句は、特に明記されていない限り、「少なくとも部分的に~に基づく」を意味することを意図している。
様々な態様及び実施形態の説明は、例示の目的で提示されているが、網羅的であること、又は開示された実施形態に限定されることを意図するものではない。特徴の組み合わせが特許請求の範囲に記載され、及び/又は明細書に開示されているとしても、これらの組み合わせは、可能な実装の開示を限定することを意図していない。実際、これらの特徴の多くは、特許請求の範囲に具体的に記載されていない、及び/又は明細書に開示されていない方法で組み合わせることができる。以下に記載されている各従属請求項は、1つの請求項のみに直接従属することができるが、可能な実装の開示は、各従属請求項を、請求項セット内の他のすべての請求項と組み合わせて含む。記載された実施形態の範囲から逸脱することなく、当業者には多くの修正及び変形が明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の適用又は市場で見られる技術に対する技術的改善を最もよく説明するため、又は当業者が本明細書に開示された実施形態を理解できるようにするために選択された。

Claims (15)

  1. プロセッサが実行可能な没入型メディアをストリーミングする方法であって、
    コンテンツを2次元フォーマットで取り込むステップと、
    クライアントエンドポイントから、要求されるメディアを識別するための情報を含む第1の要求を受信するステップと、
    前記第1の要求に応答して、前記クライアントエンドポイントの利用可能なリソースに関する情報を提供するよう前記クライアントエンドポイントに要求する第2の要求を送信するステップと、
    前記第2の要求に応答して前記クライアントエンドポイントから提供される少なくともニューラルネットワークモデルトークンを受信するステップと、
    前記ニューラルネットワークモデルトークンが指すニューラルネットワークに基づいて取り込んだ前記コンテンツを前記クライアントエンドポイントに適した3次元フォーマットに適応させるステップと、
    適応させた前記コンテンツを前記クライアントエンドポイントにストリーミングするステップと、を含む方法。
  2. 取り込んだ前記コンテンツを適応させる前記ステップは、ニューラルネットワークによって、取り込んだ前記コンテンツに含まれた相関画像に基づいて取り込んだ前記コンテンツに描かれたシーンの立体表現を導出するステップを含む、請求項1に記載の方法。
  3. 前記2次元フォーマットは、単一ビュー2次元フォーマットである、請求項1に記載の方法。
  4. 前記2次元フォーマットは、マルチビュー2次元フォーマットである、請求項1に記載の方法。
  5. 取り込んだ前記コンテンツは、中央処理装置及びグラフィック処理装置のうちの少なくとも1つを含む適応処理ユニットを使用して適応される、請求項1に記載の方法。
  6. 前記ニューラルネットワークは、前記適応処理ユニットに含まれたメモリに記憶された複数のニューラルネットワークモデルの中から前記適応処理ユニットによって選択されたニューラルネットワークモデルに対応する、請求項5に記載の方法。
  7. 前記クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ、及び高密度ライトフィールドディスプレイのうちの少なくとも1つを含む、請求項1に記載の方法。
  8. 没入型メディアをストリーミングするためのデバイスであって、
    プログラムコードを記憶するように構成された少なくとも1つのメモリと、
    前記プログラムコードを読み取り、前記プログラムコードによって指示されたとおりに動作するように構成された少なくとも1つのプロセッサとを備え、前記プログラムコードは、
    前記少なくとも1つのプロセッサに、コンテンツを2次元フォーマットで取り込ませるように構成された取り込みコードと、
    前記少なくとも1つのプロセッサに、クライアントエンドポイントから、要求されるメディアを識別するための情報を含む第1の要求を受信させる第1受信コードと、
    前記少なくとも1つのプロセッサに、前記第1の要求に応答して、前記クライアントエンドポイントの利用可能なリソースに関する情報を提供するよう前記クライアントエンドポイントに要求する第2の要求を送信させる、送信コードと、
    前記少なくとも1つのプロセッサに、前記第2の要求に応答して前記クライアントエンドポイントから提供される少なくともニューラルネットワークモデルトークンを受信させる、第2受信コードと、
    前記少なくとも1つのプロセッサに、前記ニューラルネットワークモデルトークンが指すニューラルネットワークに基づいて取り込んだ前記コンテンツを前記クライアントエンドポイントに適した3次元フォーマットに適応させるように構成された適応コードと、
    前記少なくとも1つのプロセッサに、適応させた前記コンテンツを前記クライアントエンドポイントにストリーミングさせるように構成されたストリーミングコードと、を含む、デバイス。
  9. 前記適応コードは、前記少なくとも1つのプロセッサに、ニューラルネットワークによって、取り込んだ前記コンテンツに含まれた相関画像に基づいて取り込んだ前記コンテンツに描かれたシーンの立体表現を導出させるように構成された導出コードを含む、請求項に記載のデバイス。
  10. 前記2次元フォーマットは、単一ビュー2次元フォーマットである、請求項に記載のデバイス。
  11. 前記2次元フォーマットは、マルチビュー2次元フォーマットである、請求項に記載のデバイス。
  12. 取り込んだ前記コンテンツは、前記デバイスに含まれた適応処理ユニットを使用して適応され、前記適応処理ユニットは、中央処理装置及びグラフィック処理装置のうちの少なくとも1つを含む、請求項に記載のデバイス。
  13. 前記ニューラルネットワークは、前記少なくとも1つのメモリに記憶された複数のニューラルネットワークモデルの中から前記適応処理ユニットによって選択されたニューラルネットワークモデルに対応する、請求項12に記載のデバイス。
  14. 前記クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ、及び高密度ライトフィールドディスプレイのうちの少なくとも1つを含む、請求項に記載のデバイス。
  15. コンピュータプログラムであって、
    少なくとも1つのプロセッサに、請求項1~のいずれかに記載の方法を実行させる、コンピュータプログラム。
JP2022552225A 2020-12-08 2021-08-24 没入型メディアをストリーミングする方法、並びにそのデバイス、及びコンピュータプログラム Active JP7448677B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063122769P 2020-12-08 2020-12-08
US63/122,769 2020-12-08
US17/406,268 US12003792B2 (en) 2020-12-08 2021-08-19 Adaptation of 2D video for streaming to heterogenous client end-points
US17/406,268 2021-08-19
PCT/US2021/047284 WO2022125154A1 (en) 2020-12-08 2021-08-24 Adaptation of 2d video for streaming to heterogenous client end-points

Publications (2)

Publication Number Publication Date
JP2023516971A JP2023516971A (ja) 2023-04-21
JP7448677B2 true JP7448677B2 (ja) 2024-03-12

Family

ID=81848449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022552225A Active JP7448677B2 (ja) 2020-12-08 2021-08-24 没入型メディアをストリーミングする方法、並びにそのデバイス、及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US12003792B2 (ja)
EP (1) EP4085567A4 (ja)
JP (1) JP7448677B2 (ja)
KR (2) KR20230155615A (ja)
CN (1) CN115136595A (ja)
WO (1) WO2022125154A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024034646A1 (ja) * 2022-08-12 2024-02-15 ソニーグループ株式会社 データ配信システム、データ配信方法、データ処理装置及びデータ処理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013501475A (ja) 2009-08-06 2013-01-10 クゥアルコム・インコーポレイテッド 3次元入力フォーマットに従ってビデオデータを変換すること
JP2013509104A (ja) 2009-10-23 2013-03-07 クゥアルコム・インコーポレイテッド 2dビデオデータの3dビデオデータへの変換のための深度マップ生成技法
JP2013513319A (ja) 2009-12-04 2013-04-18 クゥアルコム・インコーポレイテッド 移動体メディアサーバ
US20190026956A1 (en) 2012-02-24 2019-01-24 Matterport, Inc. Employing three-dimensional (3d) data predicted from two-dimensional (2d) images using neural networks for 3d modeling applications and other applications
WO2020013454A1 (ko) 2018-07-13 2020-01-16 엘지전자 주식회사 동적 뷰포인트의 좌표계에 대한 메타데이터를 송수신하는 방법 및 장치
US20200134911A1 (en) 2018-10-29 2020-04-30 Verizon Patent And Licensing Inc. Methods and Systems for Performing 3D Simulation Based on a 2D Video Image
US20200380779A1 (en) 2020-08-20 2020-12-03 Intel Corporation Embedding complex 3d objects into an augmented reality scene using image segmentation

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69826298T2 (de) * 1998-12-29 2005-11-17 International Business Machines Corp. Verfahren und Vorrichtung zur Klassifikation von Netzwerkeinheiten in virtuellen LANs
US20080204873A1 (en) * 2007-02-23 2008-08-28 Strategic Patent Acquisitions Llc Techniques for three dimensional displays
KR101141020B1 (ko) 2009-08-04 2012-05-02 에스케이플래닛 주식회사 고속영상 인제스팅 오류 검출 방법 및 시스템
US9918110B2 (en) 2013-12-13 2018-03-13 Fieldcast Llc Point of view multimedia platform
US11461936B2 (en) 2015-03-17 2022-10-04 Raytrx, Llc Wearable image manipulation and control system with micro-displays and augmentation of vision and sensing in augmented reality glasses
US10089788B2 (en) * 2016-05-25 2018-10-02 Google Llc Light-field viewpoint and pixel culling for a head mounted display device
US10638124B2 (en) 2017-04-10 2020-04-28 Intel Corporation Using dynamic vision sensors for motion detection in head mounted displays
WO2019117866A1 (en) 2017-12-12 2019-06-20 Google Llc Bitrate optimizations for immersive multimedia streaming
CN112784621B (zh) * 2019-10-22 2024-06-18 华为技术有限公司 图像显示方法及设备
CN111753948B (zh) * 2020-06-23 2022-11-01 展讯通信(上海)有限公司 模型处理方法及相关设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013501475A (ja) 2009-08-06 2013-01-10 クゥアルコム・インコーポレイテッド 3次元入力フォーマットに従ってビデオデータを変換すること
JP2013509104A (ja) 2009-10-23 2013-03-07 クゥアルコム・インコーポレイテッド 2dビデオデータの3dビデオデータへの変換のための深度マップ生成技法
JP2013513319A (ja) 2009-12-04 2013-04-18 クゥアルコム・インコーポレイテッド 移動体メディアサーバ
US20190026956A1 (en) 2012-02-24 2019-01-24 Matterport, Inc. Employing three-dimensional (3d) data predicted from two-dimensional (2d) images using neural networks for 3d modeling applications and other applications
WO2020013454A1 (ko) 2018-07-13 2020-01-16 엘지전자 주식회사 동적 뷰포인트의 좌표계에 대한 메타데이터를 송수신하는 방법 및 장치
US20200134911A1 (en) 2018-10-29 2020-04-30 Verizon Patent And Licensing Inc. Methods and Systems for Performing 3D Simulation Based on a 2D Video Image
US20200380779A1 (en) 2020-08-20 2020-12-03 Intel Corporation Embedding complex 3d objects into an augmented reality scene using image segmentation

Also Published As

Publication number Publication date
US12003792B2 (en) 2024-06-04
KR102598603B1 (ko) 2023-11-03
KR20220110787A (ko) 2022-08-09
CN115136595A (zh) 2022-09-30
EP4085567A1 (en) 2022-11-09
EP4085567A4 (en) 2023-04-26
US20220182597A1 (en) 2022-06-09
WO2022125154A1 (en) 2022-06-16
JP2023516971A (ja) 2023-04-21
KR20230155615A (ko) 2023-11-10

Similar Documents

Publication Publication Date Title
JP7392136B2 (ja) ビデオコンテンツを表示するための方法、コンピュータシステム、およびコンピュータプログラム
US20230319328A1 (en) Reference of neural network model for adaptation of 2d video for streaming to heterogeneous client end-points
JP7448677B2 (ja) 没入型メディアをストリーミングする方法、並びにそのデバイス、及びコンピュータプログラム
JP7472298B2 (ja) 没入型メディアの設置、及び没入型メディアから異種クライアントエンドポイントへの配信
JP7487331B2 (ja) 没入型メディアをストリーミングする方法、並びにそのコンピュータシステム、及びコンピュータプログラム
KR102674577B1 (ko) 이종 클라이언트 엔드 포인트들로 스트리밍하기 위한 미디어의 적응을 위한 몰입형 미디어에 의한 뉴럴 네트워크 모델의 참조
US20230007067A1 (en) Bidirectional presentation datastream
JP2023544383A (ja) 制御及びデータプレーンチャネルを使用した双方向プレゼンテーションデータストリーム
JP2024510165A (ja) 資産フォーマットの転換のための即時メディアデータ複雑性アナライザ

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220829

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240229

R150 Certificate of patent or registration of utility model

Ref document number: 7448677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150