JP2023531579A - ボリュメトリックメディア処理方法および装置 - Google Patents

ボリュメトリックメディア処理方法および装置 Download PDF

Info

Publication number
JP2023531579A
JP2023531579A JP2022546012A JP2022546012A JP2023531579A JP 2023531579 A JP2023531579 A JP 2023531579A JP 2022546012 A JP2022546012 A JP 2022546012A JP 2022546012 A JP2022546012 A JP 2022546012A JP 2023531579 A JP2023531579 A JP 2023531579A
Authority
JP
Japan
Prior art keywords
volumetric media
media
atlas
volumetric
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022546012A
Other languages
English (en)
Other versions
JP7467647B2 (ja
Inventor
チェン フアン,
ヤシアン バイ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of JP2023531579A publication Critical patent/JP2023531579A/ja
Application granted granted Critical
Publication of JP7467647B2 publication Critical patent/JP7467647B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2362Generation or processing of Service Information [SI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

ボリュメトリックメディアデータを処理する方法、システム、および装置が、説明される。ボリュメトリックメディアの一例示的方法は、メディアプレゼンテーション記述(MPD)ファイルから、ボリュメトリックメディアの事前選択に対応する1つ以上の事前選択要素を決定することと、1つ以上の事前選択要素を使用して、ボリュメトリックメディアの1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとにアクセスすることと、ボリュメトリックメディアを1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとから、再構築することとである。

Description

本特許文書は、ボリュメトリックメディア(volumetric media)処理および伝送技術を対象とする。
ビデオエンコーディングは、圧縮されたビットストリーム表現にエンコードするために圧縮ツールを使用し、圧縮されたビットストリーム表現は、2次元ビデオフレームを記憶するために、またはネットワークを経由してトランスポートするためにより効率的である。エンコードするために2次元ビデオフレームを使用する従来的ビデオコーディング技法は、時として、3次元視覚的場面の視覚的情報の表現に関して非効率的である。
本特許文書は、とりわけ、視覚的ボリュメトリックメディアに関連する視覚的情報を搬送する、デジタルビデオをエンコードおよびデコードするための技法を説明する。
一例示的側面において、視覚的ボリュメトリックデータ処理の方法が、開示される。方法は、メディアプレゼンテーション記述(MPD)ファイルから、ボリュメトリックメディアの事前選択に対応する1つ以上の事前選択要素を決定することと、1つ以上の事前選択要素を使用して、ボリュメトリックメディアの1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとにアクセスすることと、ボリュメトリックメディアを1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとから、再構築することとを含む。
別の例示的側面において、視覚的ボリュメトリックデータを備えているビットストリームを生成する方法が、開示される。方法は、3次元場面から、3次元場面を表す1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとを備えているボリュメトリックメディアを生成することと、メディアプレゼンテーション記述(MPD)ファイルに、ボリュメトリックメディアの事前選択を示す1つ以上の事前選択要素を含むこととを含むこととを含む。ここで、1つ以上の事前選択要素は、3次元場面に関連付けられた1つ以上のアトラスデータコンポーネントと、ビデオエンコードされたコンポーネントとへのアクセスを提供する。
別の例示的側面において、上記の説明される方法のうちの1つ以上を実装するための装置が、開示される。装置は、説明されるエンコーディングまたはデコーディング方法を実装するように構成されたプロセッサを含み得る。
さらに別の例示的側面において、コンピュータプログラム記憶媒体が、開示される。コンピュータプログラム記憶媒体は、その上に記憶されたコードを含む。コードは、プロセッサによって実行されると、説明される方法をプロセッサに実装させる。
これらおよび他の側面が、本書に説明される。
図1Aは、ボリュメトリックメディア処理の例示的方法のフローチャートである。
図1Bは、ボリュメトリックメディア処理の例示的方法のフローチャートである。
図2A-2Cは、ビットストリームを解析するための例示的プロセスに関するフローチャートの例を示す。 図2A-2Cは、ビットストリームを解析するための例示的プロセスに関するフローチャートの例を示す。 図2A-2Cは、ビットストリームを解析するための例示的プロセスに関するフローチャートの例を示す。
図3-6は、ボリュメトリックメディア伝送のための種々の例示的DASH構成を示す。 図3-6は、ボリュメトリックメディア伝送のための種々の例示的DASH構成を示す。 図3-6は、ボリュメトリックメディア伝送のための種々の例示的DASH構成を示す。 図3-6は、ボリュメトリックメディア伝送のための種々の例示的DASH構成を示す。
図7は、ボリュメトリックメディアを事前選択するための事前選択要素の使用に関するフローチャートの例を示す。
図8は、エンコーダ装置の例のブロック図である。
図9は、デコーダ装置の例のブロック図である。
図10は、ビデオシステムの例を示す。
図11は、本書で開示される技法を実装するために使用されるハードウェアプラットフォームのブロック図である。
節の見出しは、読み取り可能な性を改良するためのみに本書で使用され、各節内の開示される実施形態および技法の範囲をその節のみに限定しない。ある特徴は、H.264/AVC、H.265/HEVC、およびMPEG-DASH等の動画専門家集団(MPEG)規格の例を使用して説明される。しかしながら、開示される技法の適用性は、これらの規格のみに限定されない。
本書では、種々の構文要素が、点群データ処理のための異なる節において開示される。しかしながら、同じ名称を用いた構文要素は、別様に記載されない限り、異なる節において使用されるものと同じフォーマットおよび構文を有するであろうことを理解されたい。さらに、異なる見出し下で説明される異なる構文要素および構造は、種々の実施形態で一緒に組み合わせられ得る。加えて、特定の構造が、例として説明されるが、構文構造の種々のエントリの順序は、本書に別様に記載されない限り、変更され得ることを理解されたい。
従来的に、画像およびビデオ等のデジタル視覚的メディアの捕捉、処理、記憶、およびプレゼンテーションは、視覚的場面の2次元フレームベースの捕捉を使用する。近年では、3D捕捉およびレンダリング技術における進歩は、仮想/拡張/複合現実(VR/AR/MR)コンテンツにおける革新の新たな波を引き起こしており、拡張現実(XR)サービスおよびアプリケーションとしても知られる。
例えば、点群は、そのようなアプリケーションのためのメイン表現の1つとして生じている。点群フレームは、個々の3次元(3D)点の組から成る。各点は、3D位置(例えば、空間属性)を有することに加え、いくつかの他の属性(色、反射度、面法線等)にも関連付けられ得る。点群は、点群フレームの一続きから成る。点の数、それらの位置、およびそれらの属性は、フレーム毎に変動し得る。視覚的ボリュメトリックデータの別の例は、その中で実または仮想3D場面が、複数の実または仮想カメラによって捕捉される、マルチビュービデオコンテンツである。そのような表現は、大量のデータを要求し、それは、記憶および伝送の観点からコストがかかり得る。
種々の産業規格は、3D視覚的場面の捕捉、搬送、およびプレゼンテーションに関連する問題点に対処し始めており、動画専門家集団(MPEG)が、MPEG-I規格化プロジェクト下で没入型メディアのコード化された表現を開発している。成果の1つとして、視覚的ボリュメトリックビデオベースのコーディング(V3C)規格は、2D平面上に3D情報を投影することによって、3D視覚的情報をエンコードするように、従来的2次元(2D)フレームベースのビデオエンコーディングツールを活用し、それは、ビデオベースの点群圧縮(V-PCC)およびMPEG没入型ビデオ(MIV)等の開発下で、他のMPEG-Iボリュメトリックコーデックによって再使用されることが予期される。
ビデオベースの点群圧縮(V-PCC)は、点群視覚的情報のボリュメトリックエンコーディングを表し、AVC、HEVC等のMPEGビデオコーデックを利用することによって、点群データの効率的捕捉、圧縮、再構築、およびレンダリングを可能にする。コード化された点群シーケンス(CPCS)を含むV-PCCビットストリームが、シーケンスパラメータ組(SPS)データ、アトラス情報ビットストリーム、2Dビデオエンコード占有率マップビットストリーム、2Dビデオエンコード幾何学形状ビットストリーム、およびゼロ以上の2Dビデオエンコード属性ビットストリームを搬送するVPCCユニットで構成される。各V-PCCユニットは、V-PCCユニットヘッダを有し、それは、V-PCCユニットのタイプと、V-PCCユニットペイロードとを説明する。占有率、幾何学形状、および属性V-PCCユニットのペイロードは、ビデオデータユニット(例えば、高効率ビデオコーディングネットワーク抽象化層、または高効率ビデオコーディングネットワーク抽象化層HEVC NALユニット)に対応し、ビデオデータユニットは、対応するビデオデコーダによってデコードされることができるであろう。
MPEGは、その中で実または仮想3-D場面が、複数の実または仮想カメラによって捕捉される、マルチビュービデオコンテンツの圧縮をサポートするために、国際規格(ISO/IEC23090-12)、すなわち、MPEG没入型ビデオ(MIV)を開発している。MIVコンテンツは、6自由度(6DoF)を伴う視認位置および向きの限定された範囲内での3次元(3D)場面の再生のためのサポートを提供する。
入力データフォーマットおよびレンダリングにおける差異にもかかわらず、23090-5ビデオベースの点群圧縮(V-PCC)と23090-12MPEG没入型ビデオ(MIV)とは、エンコードされたドメインにおいて情報表すために同じコアツールを共有する(すなわち、3D空間データの2Dパッチマップへの分割、2Dアトラスフレームとしてエンコードされる)。したがって、V-PCCおよびMIVコンテンツの両方を搬送するために、ベースビットストリーム構文として共通V3C基本的ビットストリームを使用することが有益であろう。
コード化されたV3Cシーケンス(CVS)を含むV3Cビットストリームが、V3Cユニットから構成され得、V3Cユニットは、V3Cパラメータ組(VPS)データ、コード化されたアトラスビットストリーム、2Dビデオエンコード占有率マップビットストリーム、2Dビデオエンコード幾何学形状ビットストリーム、およびゼロ以上の2Dビデオエンコード属性ビットストリームを搬送する。
一般に、開示される技法に基づく実施形態は、ボリュメトリックメディア処理のために使用され得る。いくつかの実施形態において、ビデオコード化されたコンポーネントの記憶のための既存のツールを再利用する技術的解決策が、視覚的ボリュメトリックメディア(V-PCCデータおよびMIVコンテンツ等)の表現を可能にするために、従来的2Dビデオフォーマットと適合性があるファイルに提供される。
いくつかの実施形態において、視覚的ボリュメトリックビデオベースのコーディング(V3C)データは、ISO/IEC14496-12ISO(規格化のための国際機関)ベースメディアファイルフォーマット(ISOBMFF)に基づいて、ファイル内に記憶される。
MP4ファイル等のISOBMFFに準拠する、V3Cデータ記憶は、ボックスと呼ばれる階層データ構造で構成され、それらの各々は、タイプおよび長さを有する。別のボックスを含むボックスが、コンテナボックスと呼ばれるであろう。ISOBMFFに基づくV3Cデータの記憶は、ファイルタイプおよび適合性情報を含む、ある「ftyp」タイプのボックスを有するであろう。ある単一の「MOOV」タイプのボックス(動画ボックス)が存在し得、それは、そのサブボックスがファイルのための全てのメタデータ情報を含むコンテナボックスである。ISOBMFFファイルのメディアデータは、「mdat」タイプのメディアボックス(メディアデータボックス)に含まれ、それも、コンテナボックスであり、他のファイルを参照し得る。
いくつかの実施形態において、V3Cデータは、単純なISOBMFFカプセル化の場合、単一トラックとしてカプセル化されることができるであろう。V3Cビットストリームサンプルは、1つ以上のV3Cユニットを含み、それらは、同じプレゼンテーション時間(すなわち、1つのV3Cアクセスユニット)に属する。V3CユニットヘッダおよびV3Cペイロードデータ構造は、さらなる処理なしで、ビットストリームに保持されることができる。
いくつかの実施形態において、異なるV3Cサブストリーム(例えば、1つ以上のコード化されたアトラスサブストリーム、幾何学形状、占有率マップ、および属性の2Dビデオのエンコーディングサブストリーム)は、ISOBMFFコンテナファイル内で個々のトラックとしてカプセル化されるであろう。
V3Cデータのマルチトラックカプセル化は、V3Cビットストリームがマルチトラック宣言によって表されることを要求する(すなわち、V-PCC基本的ストリームにおけるV3Cユニットは、それらのタイプに基づいて、ISOBMFFコンテナファイル内の個々のトラックにマッピングされる)。マルチトラックカプセル化V3CデータISOBMFFコンテナにおける2つのタイプのトラックが存在する:V3Cトラック、およびV3Cコンポーネントトラック。
V3Cトラックは、V3Cビットストリームのアトラスデータを搬送する、ボリュメトリック視覚的トラックを表し、それは、パッチ情報と、シーケンスパラメータ組とを含む。ビデオコード化されたV3Cコンポーネントトラックは、V3Cビットストリームの占有率マップ、幾何学形状、または属性コンポーネントビデオビットストリームのいずれかのための2Dビデオエンコードデータを搬送するビデオトラックを表す。このレイアウトに基づいて、V3C ISOBMFFコンテナは、以下を含み得る:
-V3Cトラック:V3Cトラックは、V3Cパラメータ組と、アトラスサブビットストリームパラメータ組と、アトラスサブビットストリームNALユニットを搬送するサンプルとを含む。V3Cトラックは、ビデオ圧縮V3Cユニットのペイロードを搬送するビデオエンコードされたV3Cトラックへのトラック参照も含む。
-制限されるビデオスキームトラック:サンプルが、占有率マップデータのためのビデオコード化された基本的ストリームのアクセスユニットを含む。
-1つ以上の制限されるビデオスキームトラック:サンプルが、幾何学形状データのためのビデオコード化された基本的ストリームのアクセスユニットを含む。
-ゼロ以上の制限されるビデオスキームトラック:サンプルが、属性データのためのビデオコード化された基本的ストリームのアクセスユニットを含む。
従来的メディアコンテンツと異なり、V3Cデータとして規定されるボリュメトリックメディアは、アトラス、占有率マップ、幾何学形状、または属性を含むいくつかのV3Cコンポーネントで構成される。異なるV3Cコンポーネントは、V3Cデータを再構築およびレンダリングするために、集合的に読み出され、デコードされる必要がある。
他方で、V3Cデータとしてコード化されたボリュメトリックメディアは、ユーザに6自由度(6-DoF)没入型メディア体験を提供することができる。任意の所与の時間では、ボリュメトリックメディアの一部のみが、ユーザのビュー位置、向き等に応じて、可視であろう。多くのアプリケーションに関して、ボリュメトリックメディアデータ全体が、送達、デコーディング、およびレンダリングされる必要はない。
一般に、開示される技法に基づく実施形態は、ボリュメトリックメディア処理のために使用され得る。いくつかの実施形態において、ボリュメトリックメディアに属するV3Cコンポーネントの構成およびストリーミングのための技術的解決策は、HTTPを経由した動的適応ストリーミング(DASH)およびHTTPライブストリーミング(HLS)等の適応ビットレートストリーミング技術に基づいて、ボリュメトリックメディア伝送をサポートするために提供される。
図1Aは、ボリュメトリックメディア処理のための例示的方法100のフローチャートを描写する。方法100は、デコーダ装置によって実装され得、デコーダ装置は、ボリュメトリックメディアビットストリームをデコードし、それからボリュメトリック場面を再構築する。方法100は、102において、メディアプレゼンテーション記述(MPD)ファイルから、ボリュメトリックメディアの事前選択に対応する1つ以上の事前選択要素を決定することを含む。方法100は、104において、1つ以上の事前選択要素を使用して、ボリュメトリックメディアの1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとにアクセスすることを含む。方法100は、106において、1つ以上のアトラスデータコンポーネントのデコーディングの結果と、関連付けられたビデオエンコードされたコンポーネントのデコーディングの結果とを使用して、ボリュメトリックメディアを再構築することを含む。本書は、方法100の追加の詳細と、ボリュメトリックメディアビットストリームのフォーマットとを提供する。
図1Bは、ボリュメトリックメディアをエンコードするための例示的方法150に関するフローチャートを描写する。方法は、本書に説明されるエンコーダ装置によって実装され得る。方法150は、3D場面を本書に説明されるビットストリームフォーマットに準拠するビットストリーム表現に変換するために使用され得る。方法150は、3次元場面から、3次元場面を表す1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとを備えているボリュメトリックメディアを生成すること(152)を含む。アトラスデータコンポーネントおよびビデオエンコードされたコンポーネントの配置の種々の実施形態は、本書に開示される。方法150は、メディアプレゼンテーション記述(MPD)ファイル内にボリュメトリックメディアの事前選択を示す1つ以上の事前選択要素を含むこと(154)をさらに含み、1つ以上の事前選択要素は、3次元場面に関連付けられた1つ以上のアトラスデータコンポーネントと、ビデオエンコードされたコンポーネントとへのアクセスを提供し得る。本願に開示される種々の実施形態は、MPDファイルおよびボリュメトリックメディアビットストリームのフォーマットに関する。事前選択は、一緒にバンドリングされ、デコーダにおいて一緒に消費されることが予期される、メディアコンポーネントの論理的集団を表し得る。
ボリュメトリックメディアの一部(例えば、3D場面内の1つ以上のアトラス)を部分的にアクセスおよびデコードするために、いくつかの実施形態において、技術的解決策が、V3Cビットストリームのマルチトラックカプセル化をサポートするために提供され、V3Cビットストリームの各アトラスは、別個のトラックにおいてカプセル化される。
(V3Cトラックサンプルエントリ)
サンプルエントリタイプ:「v3c1」、「v3cg」、「v3cb」、「v3a1」、または「v3ag」
コンテナ: SampleDescriptionBox
必須: 「v3c1」または「v3cg」または「v3cb」サンプルエントリが、必須である
数量: 1つ以上のサンプルエントリが、存在し得る
V3Cトラックは、「v3c1」、「v3cg」、「v3cb」、「v3a1」、または「v3ag」のサンプルエントリタイプを用いて、VolumetricVisualSampleEntryを拡張するV3CSampleEntryを使用するものとする。
V3Cビットストリームが単一アトラスを含むとき、サンプルエントリ「v3c1」または「v3cg」を伴うV3Cトラックが、使用されるものとする。V3Cビットストリームが複数のアトラスを含むとき、各アトラスビットストリームは、別個のV3Cトラック内にカプセル化されるものとする。それらのトラックのうちの1つは、サンプルエントリタイプ「v3cb」を使用するものとする一方、他のトラックは、サンプルエントリタイプ「v3a1」、または「v3ag」を使用するものとする。
V3Cトラックサンプルエントリが、V3CConfigurationBoxと、V3CUnitHeaderBoxとを含むものとする。
(構文)
class V3CConfigurationBox extends Box(’v3cC’) {
V3CDecoderConfigurationRecord() VPCCConfig;

aligned(8) class V3CSampleEntry() extends VolumetricVisualSampleEntry (’v3c1’) {
V3CConfigurationBox config;
V3CUnitHeaderBox unit_header;
(意味論)
V3CConfigurationBoxは、V3Cデコーダの構成および初期化のためのV3Cビットストリームのデコーディング特有情報を提供する。V3CConfigurationBoxは、V3CビットストリームのV3Cパラメータ組を含むものとし、V3Cデータの全てのV3Cトラックに関して共通の非ACLNALユニットのみを含むであろう。
V3CUnitHeaderBoxは、V3CトラックのV3CデータのためのV3Cユニットヘッダを含む。
ボリュメトリックメディアの一部、例えば、3D場面内の1つ以上のタイルに部分的にアクセスし、それをデコードするために、別の実施形態において、技術的解決策が、V3Cビットストリームのマルチトラックカプセル化をサポートするために提供され、あるアトラスに属する1つ以上のタイルが、別個のアトラスタイルトラックとしてカプセル化される。
(V3Cアトラスタイルトラックサンプルエントリ)
サンプルエントリタイプ: 「v3t1」
コンテナ: SampleDescriptionBox
必須: はい
数量: 1つ以上のサンプルエントリが、存在し得る
アトラスタイルトラックが、「v3t1」のサンプルエントリタイプを用いてVolumetricVisualSampleEntryを拡張するAtlasTileSampleEntryを使用するものとする。
アトラスタイルトラックが、同じアトラスに属するACL NALユニットのみを含むものとする。アトラスタイルトラックは、少なくとも1つのタイルのACL NALユニットを含むものとする。
(構文)
aligned(8) class AtlasTileSampleEntry() extends VolumetricVisualSampleEntry (’v3t1’) {
unsigned int(8) configurationVersion = 1;
unsigned int(2) lengthSizeMinusOne;
unsigned int(6) reserved = 0;
unsigned int(16) num_tiles;
for(i=0; i < num_tiles; i++){
unsigned int(16) tile_id;

(意味論)
num_tiles:このトラックに含まれるタイルの数
tile_idが、このトラックに存在するタイルのタイルアドレスを規定する。
ボリュメトリックメディアのプレゼンテーションのためのボリュメトリックメディアコンポーネントファイルに正しくアクセスするために、一実施形態において、DASHクライアント等のユーザの端末のストリーミングメディアクライアント(ソフトウェアおよび/またはハードウェア)が、マニフェスト(例えば、ボリュメトリックメディアのプレゼンテーションのためのメディアプレゼンテーション記述(MPD)ファイル)を受信する。
図1Aに示されるように、102において、方法100は、ボリュメトリックメディアの事前選択のための1つ以上のPreSelection要素を含むMPDファイルによって促進される。
1つ以上のPreSelection要素の各々は、ボリュメトリックメディアを識別するV3C記述子を含み得る。V3C記述子は、ボリュメトリックメディアのアトラスデータコンポーネントの識別をさらに備え得る。V3C記述子は、ボリュメトリックメディアのアトラスデータコンポーネントに属する全てのタイルのためのタイルアドレスをさらに備え得る。
「urn:mpeg:mpegI:v3c:2020:vpc」に等しい@schemeIdUri属性を伴うSupplementalPropertyが、V3C記述子と称される。最大で1つのV3C記述子が、V3CメディアのメインAdaptationSetのための適合組レベルにおいて存在する。
V3Cコンテンツの本質として、アトラスデータV3Cコンポーネントは、V3Cデータアクセスのエントリ点としての機能を果たす。V3C記述子は、任意のフレキシブルなV3Cデータアクセス(単一アトラスアクセス、マルチアトラスアクセス、およびタイルアクセスを含む)をサポートするために、AdaptationSetによって表されるアトラスデータV3Cコンポーネントを説明することが可能であるものとする。
まず第1に、複数のバージョンの同じボリュメトリックメディアをサポートするために、V3C記述子が、@vId属性を含むものとする。
同じボリュメトリックメディアの同じアトラスサブストリームの複数のバージョンの各々が別個のAdaptationSetを有する場合に関して、V3C記述子が、@atlas_id属性を含むものとする。同じアトラスの同じタイルの複数のバージョンの各々が別個のAdaptationSetを有する場合に関して、V3C記述子は、@tile_addresses属性を含むものとする。
そのようなV3C記述子を伴うAdaptationSetは、任意のサンプルエントリタイプを伴うアトラスデータV3Cコンポーネントに適応する(すなわち、任意のアトラスサブストリームが、V3CトラックまたはV3Cアトラスタイルトラックによって搬送される)。
1つ以上のPreSelection要素の各々は、ボリュメトリックメディアのためのアトラスデータコンポーネントおよび関連付けられたビデオエンコードされたコンポーネントを事前選択する、属性を含み得る。
例えば、MPDにおけるボリュメトリックメディアのPreSelectionは、@preselectionComponents属性に関するidリストを伴う事前選択要素を使用し、idリストは、ボリュメトリックメディアのためのメインAdaptationSetのidに続いて、ビデオエンコードされたコンポーネントに対応するAdaptationSetのidを含む。
V3Cデータのマルチトラックカプセル化の場合、0x3Fに等しいvuh_atlas_idを伴うアトラス情報に関する特別AdaptationSetが、DASHマニフェスト(MPD)においてV3CコンテンツのメインAdaptationSetとしての役割を果たし得る。2つ以上のコード化されたアトラスサブストリームが、V3Cビットストリームに存在し、各アトラスサブストリームが、別個のアトラストラックとしてカプセル化される場合、各アトラストラックは、別個のAdaptationSetを使用して、シグナリングされ得る。
V3Cデータのマルチトラックカプセル化の場合、1つのアトラスに属する1つ以上のタイルが、別個のアトラスタイルトラックとしてカプセル化される場合、各アトラスタイルトラックは、別個のAdaptationSetを使用して、DASHマニフェスト(MPD)ファイルにおいてシグナリングされ得る。
V3Cビットストリームが複数のアトラスを含むとき、各アトラスビットストリームは、別個のV3Cトラックにカプセル化され得る。特別アトラスV3Cトラック(すなわち、0x3Fに等しいatlas_id)が、全ての他のV3Cトラックに関するV3Cパラメータ組を記憶しているので、この空間アトラスデータV3Cコンポーネントを表すAdaptationSetは、マルチアトラスを伴うV3Cコンテンツの任意のアクセスのために、常時、読み出されるべきである。他方で、この特別アトラスV3Cトラックが任意のACL NALユニットを含まず、任意の特定のビデオエンコードされたV3Cトラックに対応しないので、この空間アトラスデータV3Cコンポーネントを表すAdaptationSetは、任意のPreSelection要素によって選択されるべきではない。
アトラスサブビットストリームが複数のタイルを含むとき、同じアトラスに属する1つ以上のタイルは、別個のアトラスタイルトラックにカプセル化され得る。アトラスV3Cトラックが、全てのアトラスタイルトラックに関する同じatlas_idに関連付けられたアトラスサブビットストリームパラメータ組を記憶しているので、このアトラスデータV3Cコンポーネントを表すAdaptationSetは、マルチタイルを伴うアトラスの任意のアクセスのために、常時、読み出されるべきである。「v3t1」トラックが、存在するとき、アトラスV3Cトラックは、任意のACL NALユニットを含まず、任意の特定のビデオエンコードされたV3Cトラックに対応せず、この場合、アトラスデータV3Cコンポーネントを表すAdaptationSetは、任意のPreSelection要素によって選択されるべきではない。
複数のアトラスを伴うV3Cコンテンツの事前選択の場合、アトラスデータV3Cコンポーネントを表すメインAdaptationSetは、任意のPreSelection要素によって選択されるべきではない。
V3Cコンテンツの1つ以上のタイルの事前選択の場合、1つ以上のタイルが属しているアトラスのアトラスデータV3Cコンポーネントを表すAdaptationSetは、任意のPreSelection要素によって選択されるべきではない。
V3Cコンポーネントビデオトラックは、制限されたビデオとしてファイルにおいて表され得、それは、例えば、少なくとも、2Dビデオエンコード占有率マップトラック、2Dビデオエンコード幾何学形状トラック、およびゼロ以上の2Dビデオエンコード属性トラックを含む。
V3Cデータのマルチトラックカプセル化の場合、各V3Cコンポーネントは、別個のAdaptationSetとして、DASHマニフェスト(MPD)ファイルにおいて表されるであろう。幾何学形状または属性コンポーネントが、複数のマップを有する場合、各マップは、別個のAdaptationSetを使用して、シグナリングされ得る。
AdaptationSetにおいてV3Cコンポーネントのタイプを識別するために、V3Cコンポーネント記述子が、使用され得る。V3Cコンポーネントが、「urn:mpeg:mpegI:v3c:2020:component」に等しい@schemeIdUri属性を伴うEssentialProperty記述子である。
適合組レベルでは、あるV3Cコンポーネント記述子が、適合組のRepresentationに存在する各V3Cコンポーネントのためにシグナリングされ得る。
V3Cコンポーネント記述子の@value属性は、存在しないこともある。V3CComponent記述子は、表に規定されるように、要素および属性のうちの1つ以上を含み得る。
図1Aに示されるように、104では、DASHクライアントは、1つ以上のPreSelection要素を使用して、ボリュメトリックメディアの事前選択に対応するボリュメトリックメディアコンポーネントにアクセスし得る。
図2A-2Cは、ボリュメトリックメディアにアクセスするための例示的方法200を描写する。
V3Cコンテンツのアトラスベースの部分的アクセスの場合、1つ以上のPreSelection要素を使用してV3C事前選択によってシグナリングされるアトラスデータV3Cコンポーネントと、関連付けられたビデオエンコードされたV3Cコンポーネントとの他に、エントリアトラスまたはメインアトラスデータV3Cコンポーネントを表すAdaptationSetが、同時に読み出されるべきである。
エントリアトラスは、全ての他のV3Cトラックに関するV3Cパラメータ組を記憶するビットストリームのフォーマット(すなわち、0x3Fに等しいatlas_id)に従って定義される特別アトラスV3Cトラックを表し得る。エントリアトラスは、事前に指定されるid、例えば、0x3Fに等しいatlas_idを有し得る。この空間アトラスデータV3Cコンポーネントを表すAdaptationSetは、最初に、マルチアトラス表現を伴うV3Cコンテンツの任意のアクセスのために読み出され得る。
V3Cコンテンツのタイルベースの部分的アクセスの場合、1つ以上のPreSelection要素を使用してV3C事前選択によってシグナリングされるアトラスデータV3Cコンポーネントと、関連付けられたビデオエンコードされたV3Cコンポーネントとの他に、1つ以上のタイルが属しているアトラスのアトラスデータV3Cコンポーネントを表すAdaptationSetが、同時に読み出されるべきである。
図2Aに示されるように、202において、1つ以上のPreSelection要素(構文構造)は、上で説明されるように位置を特定され得、ボリュメトリックデータの事前選択を示す。204において、ビットストリームのフォーマットがボリュメトリックデータへのマルチアトラスアクセスを含むか、単一アトラスアクセスを含むかをチェックするように、決定が、実施され得る。
図2Bに示されるように、ビットストリームがマルチアトラスアクセスのために構成されている場合、206において、ボリュメトリックデータの部分的または完全アクセスが、利用可能であるかどうかに関する決定が、行われる。完全アクセスが、可能である場合、208において、続くV3Cコンポーネントのためのボリュメトリックメディアファイルが、全てのアトラス、全てのこれらのアトラスに属する全てのタイル(存在する場合)、全ての関連付けられたビデオエンコードされたV3Cコンポーネントを含むボリュメトリックメディア全体のデコーディングおよび再構築のためにアクセスされる必要がある。
代替として、206において、部分的アクセスが、決定される場合、次いで、210において、アクセスが、アトラスベースであるか、タイルベースであるかに関する決定が、行われる。アクセスが、タイルベースである場合、212において、続くV3Cコンポーネントのためのボリュメトリックメディアファイルは、特定のタイプのアトラス(例えば、0x3Fに等しいatlas_id)、事前選択されたタイルが属しているアトラス、事前選択されたタイルおよび全ての関連付けられたビデオエンコードされたV3Cコンポーネントを含むボリュメトリックメディアの1つ以上のタイルのデコーディングおよび再構築のためにアクセスされる必要がある。
代替として、214において、続くV3Cコンポーネントのためのボリュメトリックメディアファイルは、特定のタイプのアトラス(例えば、0x3Fに等しいatlas_id)、事前選択された1つ以上のアトラス、1つ以上のアトラスに属する全てのタイル、存在する場合、全ての関連付けられたビデオエンコードされたV3Cコンポーネントを含むボリュメトリックメディアの1つ以上のアトラスのデコーディングおよび再構築のためにアクセスされる必要がある。
図2Cに示されるように、単一アトラスアクセスが204において決定される場合、ボリュメトリックデータが、場面生成のために完全にアクセスされるべきか、部分的にアクセスされるべきかに関する決定が、220において行われる。ボリュメトリックデータが完全にアクセスされるべきである場合、次いで、222において、アトラス、全てのタイル(該当する場合)、全ての関連付けられたビデオエンコードされたV3Cコンポーネントのためのボリュメトリックメディアファイルが、再構築および場面生成のためにアクセスされる。代替として、224において、部分的アクセスが、事前選択されたタイルが属しているアトラス、事前選択されたタイル、および再構築および場面生成のための対応するビデオデータに行われる。
図1Aに示されるように、106において、ボリュメトリックメディアは、1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとを使用して、再構築され得る。例えば、1つ以上のアトラスデータコンポーネントのデコーディングの結果が、関連付けられたビデオエンコードされたコンポーネントのデコーディングの結果とともに、使用され得る。
例えば、再構築プロセスは、以下のうちの1つ以上を使用し得る。いくつかの実施形態において、3D場面は、その中で2D場面がいくつかの2Dビデオ画像またはビューとしてエンコードされ得るコーディング技術を使用して、エンコードされ得る。3D場面は、時として、パッチと呼ばれるビューの集合として表され得る。集合は、1つ以上のパッチを含むアトラスとして編成され得、コンテンツの対応するテクスチャおよび/または深度情報を有し得る。視覚的情報を表す種々のコンポーネントは、エンコーダ側およびデコーダ側の両方で既知の事前に定義されたフォーマットを使用して、フォーマット化され得る。例えば、V3Cサブビットストリームコンポーネントが、視覚的コンポーネントを表すために使用され得る。視覚的コンポーネントは、前述のアトラス、アトラスに対応する2Dアレイを表す占有率マップを含み、各サンプル位置に関して、視覚的情報を含む対応するパッチの識別が、示される。ビットストリームフォーマットは、幾何学形状、または特定のタイプの属性(デコードされたとき、ボリュメトリックメディアの再構築を可能にするボリュメトリックメディアの表現に関連付けられている)を含むことをさらに規定し得る。
3D場面の再構築中、デコーダが、以下の動作を実施し得る:
-ビットストリームを解析し、アトラスパラメータおよびカメラパラメータリストを取り出す。
-アトラスパラメータリストとデコードされた深度アトラスとに従って発生させられたパッチIDを用いて、占有率マップの位置を特定し、デコードする。
視認者(視点)の位置および向きが規定されているかどうかをチェックする。
テクスチャおよび深度アトラスをデコードし、ビデオをデコードし、テクスチャおよび深度アトラスを適用する。
ビットストリームにおけるパラメータと視認位置および向きとに従って一緒に混合することによって、デコードされた情報から3D場面を合成する。
本書は、MPDファイルまたはボリュメトリックメディアファイルのフォーマットの種々の実施形態を提供し、それらは、3Dコンテンツをエンコードするための3Dコンテンツエンコーダによって、または、エンコードされたビットストリームから3Dコンテンツをデコーディングおよび再構築するための3Dコンテンツデコーダによって、使用されることができる。
視覚的ボリュメトリックメディアの効率的プロセスを可能にするために、一実施形態において、技術的解決策が、3D空間内のボリュメトリックメディアの1つのアトラスに属するV3Cコンポーネントの送達をサポートするために提供される。
図3は、MPEG-DASH MPDファイル内のボリュメトリックメディアの1つのアトラスに属するV3Cコンポーネントをグループ化するための例示的DASH構成を図示する。
本実施形態において、V3Cシーケンスは、単一のアトラスデータV3Cコンポーネントと、占有率、幾何学形状、および属性の関連付けられたビデオコード化されたコンポーネントとから成る。
アトラスサブビットストリームを含むV3Cトラックは、メインAdaptationSetによってシグナリングされる。メインAdaptationSetは、ボリュメトリックメディアの識別子に設定される@vId属性を伴うV3C記述子を有する。ボリュメトリックメディア内に1つのみのアトラスが存在するので、@atlas_idは、V3C記述子に存在しない。
ビデオコード化された占有率、幾何学形状、および属性コンポーネントの各々は、別個のコンポーネントAdaptationSetによってシグナリングされる。占有率、幾何学形状、および属性コンポーネントの各コンポーネントAdaptationSetは、対応する値に設定される@component_type属性を伴うVPCCComponent記述子を含む。
メインAdaptationSet内で搬送されるアトラスデータコンポーネントと、それぞれのコンポーネントAdaptationSet内で搬送される関連付けられたビデオエンコードされたコンポーネントとは、MPDにおいてPreSelection要素を使用して、ボリュメトリックメディアの事前選択のために一緒にグループ化される。図3に示されるように、PreSelection要素の@preselectionComponents属性は、「1 2 3 4」として、idリストを含む。PreSelection要素は、ボリュメトリックメディアを識別するように、@vId属性を含むV3C記述子を含む。
視覚的ボリュメトリックメディアの効率的プロセスを可能にするために、別の実施形態において、技術的解決策が、ボリュメトリックメディアの1つのアトラスに属する別個のタイルのためのV3Cコンポーネントの部分的アクセスおよび送達をサポートするために、提供される。
図4は、MPEG-DASH MPDファイル内のボリュメトリックメディアの1つのアトラスに属する別個のタイルに関するV3Cコンポーネントをグループ化するための例示的DASH構成を図示する。
本実施形態において、V3Cシーケンスは、単一のアトラスに関するアトラスデータV3Cコンポーネントと、アトラスに属するタイルに関する1つ以上のアトラスデータV3Cコンポーネントと、占有率、幾何学形状、および属性の関連付けられたビデオコード化されたコンポーネントとから成る。
アトラスサブビットストリームを含むV3Cトラックは、メインAdaptationSetによってシグナリングされる。タイルサブビットストリームを含むアトラスタイルトラックの各々は、別個のAdaptationSetによってシグナリングされる。メインAdaptationSetと、タイルAdaptationSetの各々とは、ボリュメトリックメディアの識別子に設定される@vId属性を伴うV3C記述子を有する。タイルAdaptationSetの各々は、全てのタイルのためのタイルアドレスの値に設定される@tile_addresses属性を伴うV3C記述子を有する。ボリュメトリックメディア内に1つのみのアトラスが存在するので、@atlas_idは、V3C記述子に存在しない。
タイルAdaptationSet内で搬送されるアトラスデータコンポーネントと、それぞれのコンポーネントAdaptationSet内で搬送される関連付けられたビデオエンコードされたコンポーネントとは、MPDにおいて1つ以上のPreSelection要素を使用して、ボリュメトリックメディアの1つ以上のタイルの事前選択のために一緒にグループ化される。
図4に示されるように、例えば、1つのそのようなPreSelection要素の@preselectionComponents属性は、「2 5 6 7」として、idリストを含む。PreSelection要素は、ボリュメトリックメディアを識別するように、@vId属性を含むV3C記述子を含む。
視覚的ボリュメトリックメディアの効率的プロセスを可能にするために、別の実施形態において、技術的解決策が、ボリュメトリックメディアの2つ以上のアトラスに属するV3Cコンポーネントの部分的アクセスおよび送達をサポートするために提供される。
図5は、MPEG-DASH MPDファイル内のボリュメトリックメディアの2つ以上のアトラスに属するV3Cコンポーネントをグループ化するための例示的DASH構成を図示する。
本実施形態において、V3Cシーケンスは、複数のアトラスのための2つ以上のアトラスデータV3Cコンポーネントと、占有率、幾何学形状、および属性の関連付けられたビデオコード化されたコンポーネントとから成る。
特別アトラス(例えば、0x3Fに等しいatlas_id)のためのアトラスサブビットストリームを含むV3Cトラックは、メインAdaptationSetによってシグナリングされる。他のアトラスのためのアトラスサブビットストリームを含む他のV3Cトラックは、別個のAdaptationSetによってシグナリングされる。メインAdaptationSetと、他のAdaptationSetの各々とは、ボリュメトリックメディアの識別子に設定される@vId属性を伴うV3C記述子を有する。ボリュメトリックメディア内に2つ以上のアトラスが存在するので、@atlas_idは、それぞれのアトラスデータコンポーネントの識別子をシグナリングするために、V3C記述子に存在する。
それぞれのアトラスAdaptationSet内で搬送されるアトラスデータコンポーネントと、それぞれのコンポーネントAdaptationSet内で搬送される関連付けられたビデオエンコードされたコンポーネントとは、MPDにおいて1つ以上のPreSelection要素を使用して、ボリュメトリックメディアのPreSelectionの1つ以上のアトラスのために一緒にグループ化される。
図5に示されるように、例えば、1つのそのようなPreSelection要素の@preselectionComponents属性は、「2 5 6 7」として、idリストを含む。PreSelection要素は、ボリュメトリックメディアを識別するように、@vId属性を含むV3C記述子を含む。
視覚的ボリュメトリックメディアの効率的プロセスを可能にするために、別の実施形態において、技術的解決策が、ボリュメトリックメディアの2つ以上のアトラスの別個のタイルに属するV3Cコンポーネントの部分的アクセスおよび送達をサポートするために提供される。
図6は、MPEG-DASH MPDファイル内のボリュメトリックメディアの2つ以上のアトラスの別個のタイルに属するV3Cコンポーネントをグループ化するための例示的DASH構成を図示する。
本実施形態において、V3Cシーケンスは、複数のアトラスのための2つ以上のアトラスデータV3Cコンポーネントと、1つ以上のアトラスに属するタイルのための1つ以上のアトラスデータV3Cコンポーネントと、占有率、幾何学形状、および属性の関連付けられたビデオコード化されたコンポーネントとから成る。
特別アトラス(すなわち、0x3Fに等しいatlas_id)のためのアトラスサブビットストリームを含むV3Cトラックは、メインAdaptationSetによってシグナリングされる。他のアトラスのためのアトラスサブビットストリームを含む他のV3Cトラックは、別個のAdaptationSetによってシグナリングされる。タイルサブビットストリームを含むアトラスタイルトラックは、別個のAdaptationSetによってシグナリングされる。メインAdaptationSetと、アトラスAdaptationSetの各々と、タイルAdaptationSetの各々とは、ボリュメトリックメディアの識別子に設定される@vId属性を伴うV3C記述子を有する。ボリュメトリックメディア内に2つ以上のアトラスが存在するので、@atlas_idは、それぞれのアトラスデータコンポーネントの識別子をシグナリングするために、V3C記述子に存在する。タイルAdaptationSetの各々は、全てのタイルのためのタイルアドレスの値に設定される@tile_addresses属性を伴うV3C記述子を有する。
それぞれのアトラスAdaptationSetおよびタイルAdaptationSet内で搬送されるアトラスデータコンポーネントと、それぞれのコンポーネントAdaptationSet内で搬送される関連付けられたビデオエンコードされたコンポーネントとは、MPDにおいて1つ以上のPreSelection要素を使用して、ボリュメトリックメディアの1つ以上のアトラスから、1つ以上のタイルの事前選択のために一緒にグループ化される。図6に示されるように、例えば、1つのそのようなPreSelection要素の@preselectionComponents属性は、「6 8 9 10」として、idリストを含む。PreSelection要素は、ボリュメトリックメディアを識別するように、@vId属性を含むV3C記述子を含む。
DASHにおけるボリュメトリックメディアの部分的アクセスおよび送達をサポートするために、PreSelection要素およびV3Cコンテンツ関連記述子を使用する事前選択機構の使用量の使用は、以下のように説明される。
図7は、ボリュメトリックメディアの事前選択のための例示的プロセスフローを描写する。
図7に示されるように、複数のバージョンの同じボリュメトリックメディアが、利用可能であるとき、V3CまたはV3Cタイル記述子の@vId値が、ボリュメトリックメディアを識別するために使用される。DASHクライアントは、V3C記述子または読み出されるべきボリュメトリックメディアと同じ@vId値を伴うV3Cタイル記述子を含む全てのPreSelection要素をチェックするためにMPDファイルを解析するべきである。
そのようなPreSelection要素が存在しない場合、ボリュメトリックメディアは、現在のMPDファイルにおいて利用可能ではない。そのようなPreSelection要素が存在する場合、ボリュメトリックメディアは、現在のMPDファイルにおいて利用可能である。
そのようなPreSelection要素の@tag値が、1つの特定の値、例えば、タグ=「0」に等しい場合、PreSelection要素は、マルチアトラスを用いたボリュメトリックメディアの事前選択を示すために、V3C記述子を含むべきである。PreSelection要素の@preselectionComponents属性は、特別アトラス(0x3Fに等しいatlas_id)のためのメインAdaptationSetのidに続いて、ボリュメトリックメディアの他のアトラスの各々に対応するAdaptationSetsのidを含む。
そのようなPreSelection要素の@tag値が、別の特定の値、例えば、タグ=「1」に等しいとき、PreSelection要素は、複数のタイルを伴うアトラスの事前選択を示すために、V3C記述子を含むべきである。PreSelection要素の@PreSelectionコンポーネント属性は、単一アトラスを伴うボリュメトリックメディアの事前選択の場合、複数のタイルが属しているアトラスのためのAdaptationSetのidが、ボリュメトリックメディアのためのメインAdaptationSetのidに続いて、各アトラスタイルトラックに対応するAdaptationSetのidであることを含む。
そのようなPreSelection要素の@tag値が、別の特定の値、例えば、タグ=「2」に等しい場合、かつPreSelection要素が、V3C記述子を含む場合、それは、アトラスおよびその関連付けられたビデオエンコードされたV3Cコンポーネントの事前選択を示す。PreSelection要素の@preselectionComponents属性は、アトラスのためのAdaptationSetのidを含み、それは、単一のアトラスを伴うボリュメトリックメディアの事前選択の場合、ボリュメトリックメディアのためのメインAdaptationSetのid、および、それに続くビデオエンコードされたV3Cコンポーネントに対応するAdaptationSetのidである。
そのようなPreSelection要素の@tag値が、別の特定の値、例えば、タグ=「2」に等しい場合、かつPreSelection要素が、V3Cタイル記述子を含む場合、アトラスタイルトラックおよびその関連付けられたビデオエンコードされたV3Cコンポーネントの事前選択を示す。PreSelection要素の@preselectionComponents属性は、アトラスタイルトラックのためのAdaptationSetのidと、それに続くビデオエンコードされたV3Cコンポーネントに対応するAdaptationSetsのidを含む。
(エンコーダ、デコーダ、およびシステム実装の例)
図8は、少なくとも例示的例ビデオエンコーダまたはピクチャエンコーダまたはボリュメトリックメディアエンコーダを含む第1の例示的デバイスを図示する略図である。
入手ユニット1001は、ビデオおよびピクチャを捕捉する。入手ユニット1001は、自然場面のビデオまたはピクチャを撮影するために、1つ以上のカメラを装備し得る。随意に、入手ユニット1001は、深度ビデオまたは深度ピクチャを得るためのカメラを用いて実装され得る。随意に、入手ユニット1001は、赤外線カメラのコンポーネントを含み得る。随意に、入手ユニット1001は、遠隔感知カメラで構成され得る。入手ユニット1001は、放射線を使用してオブジェクトを走査することによってビデオまたはピクチャを生成する装置またはデバイスでもあり得る。
随意に、入手ユニット1001は、例えば、自動ホワイトバランス、自動焦点化、自動露光、バックライト補償、鮮明化、雑音除去、スティッチング、アップサンプリング/ダウンサンプリング、フレームレート変換、仮想ビュー合成等、前処理をビデオまたはピクチャに対して実施し得る。
入手ユニット1001は、ビデオまたはピクチャを別のデバイスまたは処理ユニットからも受信し得る。例えば、入手ユニット1001は、トランスコーダ内のコンポーネントユニットであることができる。トランスコーダは、1つ以上のデコードされた(または部分的にデコードされた)ピクチャを入手ユニット1001にフィードする。別の例は、入手ユニット1001は、そのデバイスへのデータリンクを介して、ビデオまたはピクチャを別のデバイスから得ることである。
入手ユニット1001がビデオおよびピクチャに加え、他のメディア情報、例えば、オーディオ信号を捕捉するために使用され得ることに留意されたい。入手ユニット1001は、人工情報、例えば、キャラクタ、テキスト、コンピュータ生成ビデオまたはピクチャ等も受信し得る。
エンコーダ1002は、例示的エンコーダの実装である。エンコーダ1002の入力は、入手ユニット1001によって出力されたビデオまたはピクチャである。エンコーダ1002は、ビデオまたはピクチャをエンコードし、生成されたビデオまたはピクチャビットストリームを出力する。
記憶装置/送信ユニット1003は、ビデオまたはピクチャビットストリームをエンコーダ1002から受信し、システム層処理をビットストリームに対して実施する。例えば、記憶装置/送信ユニット1003は、トランスポート規格およびメディアファイルフォーマット、例えば、例えば、MPEG-2TS、ISOBMFF、DASH、MMT等に従って、ビットストリームをカプセル化する。記憶装置/送信ユニット1003は、第1の例示的デバイスのメモリまたはディスク内へのカプセル化後に取得されるトランスポートストリームまたはメディアファイルを記憶する、または有線または無線ネットワークを介して、トランスポートストリームまたはメディアファイルを送信する。
エンコーダ1002からのビデオまたはピクチャビットストリームに加え、記憶装置/送信ユニット1003の入力がオーディオ、テキスト、画像、グラフィック等も含み得ることに留意されたい。記憶装置/送信ユニット1003は、そのような異なるタイプのメディアビットストリームをカプセル化することによって、トランスポートまたはメディアファイルを生成する。
本実施形態に説明される第1の例示的デバイスは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、メディアサーバ、ポータブルモバイル端末、デジタルカメラ、ブロードキャストデバイス、CDN(コンテンツ配信ネットワーク)デバイス、監視カメラ、ビデオ会議デバイス等内でビデオ(またはピクチャ)ビットストリームを生成または処理することが可能なデバイスであることができる。
図9は、少なくとも例示的ビデオデコーダまたはピクチャデコーダまたはボリュメトリックメディアデコーダを含む第2の例示的デバイスを図示する略図である。
受信ユニット1101は、ビットストリームを有線または無線ネットワークから取得することによって、電子デバイス内のメモリまたはディスクを読み取ることによって、またはデータリンクを介して、他のデバイスからのデータをフェッチすることによって、ビデオまたはピクチャビットストリームを受信する。
受信ユニット1101の入力は、ビデオまたはピクチャビットストリームを含む、トランスポートストリームまたはメディアファイルも含み得る。受信ユニット1101は、トランスポートまたはメディアファイルフォーマットの仕様に従って、ビデオまたはピクチャビットストリームをトランスポートストリームまたはメディアファイルから抽出する。
受信ユニット1101は、ビデオまたはピクチャビットストリームを出力し、デコーダ1102に渡す。ビデオまたはピクチャビットストリームに加え、受信ユニット1101の出力がオーディオビットストリーム、キャラクタ、テキスト、画像、グラフィック等も含み得ることに留意されたい。受信ユニット1101は、出力を第2の例示的デバイス内の対応する処理ユニットに渡す。例えば、受信ユニット1101は、出力オーディオビットストリームをこのデバイス内のオーディオデコーダに渡す。
デコーダ1102は、例示的デコーダの実装である。エンコーダ1102の入力は、受信ユニット1101によって出力されたビデオまたはピクチャビットストリームである。デコーダ1102は、ビデオまたはピクチャビットストリームをデコードし、デコードされたビデオまたはピクチャを出力する。
レンダリングユニット1103は、デコードされたビデオまたはピクチャをデコーダ1102から受信する。レンダリングユニット1103は、デコードされたビデオまたはピクチャを視認者に提示する。レンダリングユニット1103は、第2の例示的デバイスのコンポーネント、例えば、画面であり得る。レンダリングユニット1103は、第2の例示的デバイス、例えば、プロジェクタ、モニタ、TVセット等へのデータリンクを伴う第2の例示的デバイスと別個のデバイスでもあり得る。随意に、レンダリングユニット1103は、例えば、自動ホワイトバランス、自動焦点化、自動露光、バックライト補償、鮮明化、雑音除去、スティッチング、アップサンプリング/ダウンサンプリング、フレームレート変換、仮想ビュー合成等、それを視認者に提示する前に、後処理をデコードされたビデオまたはピクチャに対して実施する。
デコードされたビデオまたはピクチャに加え、レンダリングユニット1103の入力は、第2の例示的デバイスの1つ以上のユニットからの他のメディアデータ、例えば、オーディオ、キャラクタ、テキスト、画像、グラフィック等であることができることに留意されたい。レンダリングユニット1103の入力は、人工データ、例えば、遠隔教育アプリケーションにおいて注意を引くためにスライド上にローカル教師によって描かれるラインおよびマークも含み得る。レンダリングユニット1103は、異なるタイプのメディアをともに構成し、次いで、構成物を視認者に提示する。
本実施形態に説明される第2の例示的デバイスは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、セットトップボックス、TVセット、HMD、モニタ、メディアサーバ、ポータブルモバイル端末、デジタルカメラ、ブロードキャストデバイス、CDN(コンテンツ配信ネットワーク)デバイス、監視ビデオ会議デバイス等内でビデオ(またはピクチャ)ビットストリームをデコーディングまたは処理することが可能なデバイスであることができる。
図10は、図8における第1の例示的デバイスと、図9における第2の例示的デバイスとを含む、電子システムを図示する略図である。
サービスデバイス1201は、図8における第1の例示的デバイスである。
記憶媒体/トランスポートネットワーク1202は、デバイスまたは電子システムの内部メモリリソース、データリンクを介してアクセス可能な外部メモリリソース、有線および/または無線ネットワークから成るデータ伝送ネットワークを含み得る。記憶媒体/トランスポートネットワーク1202は、サービスデバイス1201内の記憶/送信ユニット1203のための記憶リソースまたはデータ伝送ネットワークを提供する。
宛先デバイス1203は、図9における第2の例示的デバイスである。宛先デバイス1203内の受信ユニット1201は、ビデオまたはピクチャビットストリーム、ビデオまたはピクチャビットストリームを含むトランスポートストリーム、またはビデオまたはピクチャビットストリームを含むメディアファイルを記憶媒体/トランスポートネットワーク1202から受信する。
本実施形態に説明される電子システムは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、IPTVシステム、OTTシステム、インターネット上のマルチメディアシステム、デジタルTVブロードキャストシステム、ビデオ監視システム、ポータブルモバイル端末、デジタルカメラ、ビデオ会議システム等内でビデオ(またはピクチャ)ビットストリームを生成、記憶、またはトランスポート、およびデコードすることが可能なデバイスまたはシステムであることができる。
図11は、本書に説明されるエンコーダ側またはデコーダ側技法を実装するために使用され得る例示的装置1400を示す。装置1400は、エンコーダ側またはデコーダ側技法または両方を実施するように構成され得るプロセッサ1402を含む。装置1400は、プロセッサ実行可能命令を記憶するためのメモリ、ビデオビットストリームおよび/またはディスプレイデータを記憶するためのメモリ(図示せず)も含み得る。装置1400は、変換回路、算術コーディング/デコーディング回路、ルックアップ表ベースのデータコーディング技法等、ビデオ処理回路網(図示せず)を含み得る。ビデオ処理回路網は、部分的に、プロセッサ内に、および/または部分的に、グラフィックプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)等の他の専用回路網内に含まれ得る。
ビデオをエンコードおよびデコードする技術に関して本書に説明される技術的問題は、好ましくは、以下の解決策のうちの1つ以上を組み込むことによって、いくつかの実施形態によって解決され得る。
1.ボリュメトリックメディア処理の方法(例えば、図1Aに示される方法100)であって、方法は、メディアプレゼンテーション記述(MPD)ファイルから、ボリュメトリックメディアの事前選択に対応する1つ以上の事前選択要素を決定すること(102)と、1つ以上の事前選択要素を使用して、ボリュメトリックメディアの1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとにアクセスすること(104)と、ボリュメトリックメディアを1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとから再構築すること(106)とを含む。
2.1つ以上の事前選択要素の各々は、ボリュメトリックメディアを識別する記述子と、ボリュメトリックメディアのアトラスデータコンポーネントおよび関連付けられたビデオエンコードされたコンポーネントを事前選択する属性とを含む、解決策1に記載の方法。
3.ボリュメトリックメディアを識別する記述子は、ボリュメトリックメディアのアトラスデータコンポーネントの識別を含む、解決策2に記載の方法。
4.ボリュメトリックメディアを識別する記述子は、ボリュメトリックメディアのアトラスデータコンポーネントに属しているタイルのための1つ以上のタイルアドレスを含む、解決策2に記載の方法。
5.ボリュメトリックメディアの1つ以上のアトラスのアクセスを示すボリュメトリックメディアの事前選択に起因して、方法は、1つ以上のアトラスの1つ以上のアトラスデータコンポーネントと、全ての関連付けられたビデオエンコードされたコンポーネントとにアクセスすることをさらに含む、解決策1に記載の方法。
6.ボリュメトリックメディアの1つ以上のタイルのアクセスを示すボリュメトリックメディアの事前選択に起因して、方法は、1つ以上のタイルが属する1つ以上のアトラスの1つ以上のアトラスデータコンポーネントと、1つ以上のタイルの1つ以上のアトラスデータコンポーネントと、全ての関連付けられたビデオエンコードされたコンポーネントとにアクセスすることをさらに含む、解決策1に記載の方法。
7.ボリュメトリックメディアの事前選択が複数のアトラスを伴うボリュメトリックメディアのアクセスを示す場合、ボリュメトリックメディアのメインアトラスのアトラスデータコンポーネントにアクセスする、解決策1、5、または6に記載の方法。
8.アトラスデータコンポーネントは、ボリュメトリックメディアのアトラスデータを搬送し、ビデオエンコードされたコンポーネントは、占有率マップ、幾何学形状、またはボリュメトリックメディアの属性コンポーネントビデオビットストリームのいずれかのための2Dビデオエンコードデータを搬送する、解決策1-7のいずれかに記載の方法。
9.ボリュメトリックメディアエンコーディングの方法(例えば、図1Bを備えている方法150)であって、方法は、3次元場面から、3次元場面を表す1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとを備えているボリュメトリックメディアを生成すること(152)と、メディアプレゼンテーション記述(MPD)ファイルに、ボリュメトリックメディアの事前選択を示す1つ以上の事前選択要素を含むこと(154)とを含み、1つ以上の事前選択要素は、3次元場面に関連付けられた1つ以上のアトラスデータコンポーネントと、ビデオエンコードされたコンポーネントとへのアクセスを提供する、方法。
10.1つ以上の事前選択要素の各々は、ボリュメトリックメディアを識別する記述子と、ボリュメトリックメディアのアトラスデータコンポーネントおよび関連付けられたビデオエンコードされたコンポーネントを事前選択する属性とを含む、解決策9に記載の方法。
11.ボリュメトリックメディアを識別する記述子は、ボリュメトリックメディアのアトラスデータコンポーネントの識別を含む、解決策8に記載の方法。
12.ボリュメトリックメディアを識別する記述子は、ボリュメトリックメディアのアトラスデータコンポーネントに属しているタイルのための1つ以上のタイルアドレスを含む、解決策8に記載の方法。
13.ボリュメトリックメディアの1つ以上のアトラスのアクセスを示すボリュメトリックメディアの事前選択に起因して、方法は、1つ以上のアトラスの1つ以上のアトラスデータコンポーネントと、全ての関連付けられたビデオエンコードされたコンポーネントとへのアクセスを構成することをさらに含む、解決策9に記載の方法。
14.ボリュメトリックメディアの1つ以上のタイルのアクセスを示すボリュメトリックメディアの事前選択に起因して、方法は、1つ以上のタイルが属する1つ以上のアトラスの1つ以上のアトラスデータコンポーネントと、1つ以上のタイルの1つ以上のアトラスデータコンポーネントと、全ての関連付けられたビデオエンコードされたコンポーネントとへのアクセスを構成することを含む、解決策9に記載の方法。
15.ボリュメトリックメディアの事前選択が複数のアトラスを伴うボリュメトリックメディアのアクセスを示す場合、ボリュメトリックメディアのメインアトラスのアトラスデータコンポーネントを構成する、解決策9、13または14に記載の方法。
16.解決策1-15のうちの1つ以上のものにおいて説明される方法を実装するように構成されたプロセッサを備えているボリュメトリックメディアを処理するための装置。
17.コードを記憶しているコンピュータ読み取り可能な媒体を備えているコンピュータプログラム製品であって、コードは、プロセッサによって実行されると、解決策1-15のうちの1つ以上のものにおいて説明される方法をプロセッサに実装させる。
本書に説明される、開示されるおよび他の実施形態、モジュール、および機能動作が、デジタル電子回路で、または本書に開示される構造およびそれらの構造均等物を含む、コンピュータソフトウェア、ファームウェア、またはハードウェアで、またはそれらのうちの1つ以上のものの組み合わせで、実装されることができる。開示されるおよび他の実施形態は、1つ以上のコンピュータプログラム製品、すなわち、データ処理装置による実行のために、またはその動作を制御するために、コンピュータ読み取り可能な媒体上でエンコードされるコンピュータプログラム命令の1つ以上のモジュールとして、実装されることができる。コンピュータ読み取り可能な媒体は、機械読み取り可能な記憶デバイス、機械読み取り可能な記憶基板、メモリデバイス、機械読み取り可能な伝搬信号を生じさせる組成物、または1つ以上のそれらの組み合わせであり得る。用語「データ処理装置」は、一例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含む、データを処理するための全ての装置、デバイス、および機械を包含する。本装置は、ハードウェアに加えて、当該コンピュータプログラムのための実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つ以上のそれらの組み合わせを構成するコードを含むことができる。伝搬信号は、人工的に発生させられる信号、例えば、好適な受信機装置に伝送するために情報をエンコードするように発生させられる、機械で発生させられる電気、光学、または電磁信号である。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても公知である)が、コンパイラ型またはインタープリタ型言語を含む任意の形態のプログラミング言語で書かれることができ、独立型プログラムとして、またはコンピューティング環境内の使用のために好適なモジュール、コンポーネント、サブルーチン、または他のユニットとしてを含む任意の形態で展開されることができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応するわけではない。プログラムは、他のプログラムまたはデータを保持するファイル(例えば、マークアップ言語文書内に記憶された1つ以上のスクリプト)の一部内に、当該プログラム専用の単一のファイル内に、または複数の協調ファイル(例えば、1つ以上のモジュール、サブプログラム、またはコードの一部を記憶するファイル)内に記憶されることができる。コンピュータプログラムは、1つのコンピュータ上で、または1つの地点に位置し、または複数の地点を横断して分散され、通信ネットワークによって相互接続される複数のコンピュータ上で、実行されるように展開されることができる。
本書に説明されるプロセスおよび論理フローは、入力データに作用し、出力を発生させることによって機能を実施するように、1つ以上のコンピュータプログラムを実行する、1つ以上のプログラマブルプロセッサによって、実施されることができる。プロセスおよび論理フローはまた、特殊用途論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって、実施されることもでき、装置も、それとして実装されることができる。
コンピュータプログラムの実行のために好適なプロセッサは、一例として、汎用および特殊用途マイクロプロセッサの両方、および任意の種類のデジタルコンピュータのいずれか1つ以上のプロセッサを含む。概して、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリまたは両方から、命令およびデータを受信するであろう。コンピュータの不可欠な要素は、命令を実施するためのプロセッサ、および命令およびデータを記憶するための1つ以上のメモリデバイスである。概して、コンピュータはまた、データを記憶するための1つ以上の大容量記憶デバイス、例えば、磁気、磁気光学ディスク、または光ディスクを含む、またはそこからデータを受信する、またはそこにデータを転送する、または両方を行うように、動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するために好適なコンピュータ読み取り可能な媒体は、一例として、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、磁気光学ディスク、およびCD-ROMおよびDVD-ROMディスクを含む、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、特殊用途論理回路によって補完される、またはそれに組み込まれることができる。
本特許文書は、多くの詳細を含むが、これらは、任意の発明または請求され得るものの範囲への限定としてではなく、むしろ、特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態との関連で本特許文書に説明されるある特徴も、単一の実施形態において組み合わせて実装されることができる。逆に、単一の実施形態との関連で説明される種々の特徴も、複数の実施形態において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つ以上の特徴は、ある場合、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。
同様に、動作は、特定の順序で図面に描写され得るが、それは、望ましい結果を達成するために、そのような動作が示される特定の順序で、または連続的順序で実施されること、または全ての図示される動作が実施されることを要求するものとして理解されるべきではない。さらに、本特許文書に説明される実施形態における種々のシステムコンポーネントの分離は、全ての実施形態においてそのような分離を要求するものとして理解されるべきではない。
いくつかの実装および例のみが、説明され、他の実装、向上、および変形例も、本特許文書に説明および図示されるものに基づいて成されることができる。
これらおよび他の側面が、本書に説明される。
本発明は、例えば、以下を提供する。
(項目1)
ボリュメトリックメディア処理の方法であって、前記方法は、
メディアプレゼンテーション記述(MPD)ファイルから、ボリュメトリックメディアの事前選択に対応する1つ以上の事前選択要素を決定することと、
前記1つ以上の事前選択要素を使用して、前記ボリュメトリックメディアの1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとにアクセスすることと、
前記1つ以上のアトラスデータコンポーネントと、前記関連付けられたビデオエンコードされたコンポーネントとから、前記ボリュメトリックメディアを再構築することと
を含む、方法。
(項目2)
前記1つ以上の事前選択要素の各々は、前記ボリュメトリックメディアを識別する記述子と、前記ボリュメトリックメディアのアトラスデータコンポーネントおよび前記関連付けられたビデオエンコードされたコンポーネントを事前選択する属性とを含む、項目1に記載の方法。
(項目3)
前記ボリュメトリックメディアを識別する前記記述子は、前記ボリュメトリックメディアの前記アトラスデータコンポーネントの識別を含む、項目2に記載の方法。
(項目4)
前記ボリュメトリックメディアを識別する前記記述子は、前記ボリュメトリックメディアの前記アトラスデータコンポーネントに属しているタイルのための1つ以上のタイルアドレスを含む、項目2に記載の方法。
(項目5)
前記ボリュメトリックメディアの1つ以上のアトラスのアクセスを示す前記ボリュメトリックメディアの前記事前選択に起因して、前記方法は、
前記1つ以上のアトラスの前記1つ以上のアトラスデータコンポーネントと、全ての関連付けられたビデオエンコードされたコンポーネントとにアクセスすることをさらに含む、項目1に記載の方法。
(項目6)
前記ボリュメトリックメディアの1つ以上のタイルのアクセスを示す前記ボリュメトリックメディアの前記事前選択に起因して、前記方法は、
前記1つ以上のタイルが属している前記1つ以上のアトラスの前記1つ以上のアトラスデータコンポーネントと、前記1つ以上のタイルの前記1つ以上のアトラスデータコンポーネントと、全ての関連付けられたビデオエンコードされたコンポーネントとにアクセスすることをさらに含む、項目1に記載の方法。
(項目7)
前記ボリュメトリックメディアの前記事前選択が複数のアトラスを伴う前記ボリュメトリックメディアのアクセスを示す場合、
前記ボリュメトリックメディアのエントリアトラスの前記アトラスデータコンポーネントにアクセスする、項目1、5、または6に記載の方法。
(項目8)
前記アトラスデータコンポーネントは、前記ボリュメトリックメディアの前記アトラスデータを搬送し、前記ビデオエンコードされたコンポーネントは、前記ボリュメトリックメディアの占有率マップ、幾何学形状、または属性コンポーネントビデオビットストリームのいずれかのための2Dビデオエンコードデータを搬送する、項目1-7のいずれかに記載の方法。
(項目9)
ボリュメトリックメディアエンコーディングの方法であって、前記方法は、
3次元場面から、前記3次元場面を表す1つ以上のアトラスデータコンポーネントと、
関連付けられたビデオエンコードされたコンポーネントとを備えているボリュメトリックメディアを生成することと、
メディアプレゼンテーション記述(MPD)ファイルに、前記ボリュメトリックメディアの事前選択を示す1つ以上の事前選択要素を含むことと
を含み、
前記1つ以上の事前選択要素は、前記3次元場面に関連付けられた1つ以上のアトラスデータコンポーネントと、前記ビデオエンコードされたコンポーネントとへのアクセスを提供する、方法。
(項目10)
前記1つ以上の事前選択要素の各々は、前記ボリュメトリックメディアを識別する記述子と、前記ボリュメトリックメディアのアトラスデータコンポーネントおよび関連付けられたビデオエンコードされたコンポーネントを事前選択する属性とを含む、項目9に記載の方法。
(項目11)
前記ボリュメトリックメディアを識別する前記記述子は、前記ボリュメトリックメディアの前記アトラスデータコンポーネントの識別を含む、項目8に記載の方法。
(項目12)
前記ボリュメトリックメディアを識別する前記記述子は、前記ボリュメトリックメディアの前記アトラスデータコンポーネントに属しているタイルのための1つ以上のタイルアドレスを含む、項目8に記載の方法。
(項目13)
前記ボリュメトリックメディアの1つ以上のアトラスのアクセスを示す前記ボリュメトリックメディアの前記事前選択に起因して、前記方法は、
前記1つ以上のアトラスの前記1つ以上のアトラスデータコンポーネントと、全ての関連付けられたビデオエンコードされたコンポーネントとへのアクセスを構成することをさらに含む、項目9に記載の方法。
(項目14)
前記ボリュメトリックメディアの1つ以上のタイルのアクセスを示す前記ボリュメトリックメディアの前記事前選択に起因して、前記方法は、
前記1つ以上のタイルが属している前記1つ以上のアトラスの前記1つ以上のアトラスデータコンポーネントと、前記1つ以上のタイルの前記1つ以上のアトラスデータコンポーネントと、全ての関連付けられたビデオエンコードされたコンポーネントとへのアクセスを構成することを含む、項目9に記載の方法。
(項目15)
前記ボリュメトリックメディアの前記事前選択が複数のアトラスを伴う前記ボリュメトリックメディアのアクセスを示す場合、
前記ボリュメトリックメディアのエントリアトラスの前記アトラスデータコンポーネントを構成する、項目9、13、または14に記載の方法。
(項目16)
項目1-15のうちの1つ以上において説明される方法を実装するように構成されたプロセッサを備えているボリュメトリックメディアを処理するための装置。
(項目17)
コード記憶しているコンピュータ読み取り可能な媒体を備えているコンピュータプログラム製品であって、前記コードは、プロセッサによって実行されると、項目1-15のうちの1つ以上において説明される方法を前記プロセッサに実装させる、コンピュータプログラム製品。

Claims (17)

  1. ボリュメトリックメディア処理の方法であって、前記方法は、
    メディアプレゼンテーション記述(MPD)ファイルから、ボリュメトリックメディアの事前選択に対応する1つ以上の事前選択要素を決定することと、
    前記1つ以上の事前選択要素を使用して、前記ボリュメトリックメディアの1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとにアクセスすることと、
    前記1つ以上のアトラスデータコンポーネントと、前記関連付けられたビデオエンコードされたコンポーネントとから、前記ボリュメトリックメディアを再構築することと
    を含む、方法。
  2. 前記1つ以上の事前選択要素の各々は、前記ボリュメトリックメディアを識別する記述子と、前記ボリュメトリックメディアのアトラスデータコンポーネントおよび前記関連付けられたビデオエンコードされたコンポーネントを事前選択する属性とを含む、請求項1に記載の方法。
  3. 前記ボリュメトリックメディアを識別する前記記述子は、前記ボリュメトリックメディアの前記アトラスデータコンポーネントの識別を含む、請求項2に記載の方法。
  4. 前記ボリュメトリックメディアを識別する前記記述子は、前記ボリュメトリックメディアの前記アトラスデータコンポーネントに属しているタイルのための1つ以上のタイルアドレスを含む、請求項2に記載の方法。
  5. 前記ボリュメトリックメディアの1つ以上のアトラスのアクセスを示す前記ボリュメトリックメディアの前記事前選択に起因して、前記方法は、
    前記1つ以上のアトラスの前記1つ以上のアトラスデータコンポーネントと、全ての関連付けられたビデオエンコードされたコンポーネントとにアクセスすることをさらに含む、請求項1に記載の方法。
  6. 前記ボリュメトリックメディアの1つ以上のタイルのアクセスを示す前記ボリュメトリックメディアの前記事前選択に起因して、前記方法は、
    前記1つ以上のタイルが属している前記1つ以上のアトラスの前記1つ以上のアトラスデータコンポーネントと、前記1つ以上のタイルの前記1つ以上のアトラスデータコンポーネントと、全ての関連付けられたビデオエンコードされたコンポーネントとにアクセスすることをさらに含む、請求項1に記載の方法。
  7. 前記ボリュメトリックメディアの前記事前選択が複数のアトラスを伴う前記ボリュメトリックメディアのアクセスを示す場合、
    前記ボリュメトリックメディアのエントリアトラスの前記アトラスデータコンポーネントにアクセスする、請求項1、5、または6に記載の方法。
  8. 前記アトラスデータコンポーネントは、前記ボリュメトリックメディアの前記アトラスデータを搬送し、前記ビデオエンコードされたコンポーネントは、前記ボリュメトリックメディアの占有率マップ、幾何学形状、または属性コンポーネントビデオビットストリームのいずれかのための2Dビデオエンコードデータを搬送する、請求項1-7のいずれかに記載の方法。
  9. ボリュメトリックメディアエンコーディングの方法であって、前記方法は、
    3次元場面から、前記3次元場面を表す1つ以上のアトラスデータコンポーネントと、関連付けられたビデオエンコードされたコンポーネントとを備えているボリュメトリックメディアを生成することと、
    メディアプレゼンテーション記述(MPD)ファイルに、前記ボリュメトリックメディアの事前選択を示す1つ以上の事前選択要素を含むことと
    を含み、
    前記1つ以上の事前選択要素は、前記3次元場面に関連付けられた1つ以上のアトラスデータコンポーネントと、前記ビデオエンコードされたコンポーネントとへのアクセスを提供する、方法。
  10. 前記1つ以上の事前選択要素の各々は、前記ボリュメトリックメディアを識別する記述子と、前記ボリュメトリックメディアのアトラスデータコンポーネントおよび関連付けられたビデオエンコードされたコンポーネントを事前選択する属性とを含む、請求項9に記載の方法。
  11. 前記ボリュメトリックメディアを識別する前記記述子は、前記ボリュメトリックメディアの前記アトラスデータコンポーネントの識別を含む、請求項8に記載の方法。
  12. 前記ボリュメトリックメディアを識別する前記記述子は、前記ボリュメトリックメディアの前記アトラスデータコンポーネントに属しているタイルのための1つ以上のタイルアドレスを含む、請求項8に記載の方法。
  13. 前記ボリュメトリックメディアの1つ以上のアトラスのアクセスを示す前記ボリュメトリックメディアの前記事前選択に起因して、前記方法は、
    前記1つ以上のアトラスの前記1つ以上のアトラスデータコンポーネントと、全ての関連付けられたビデオエンコードされたコンポーネントとへのアクセスを構成することをさらに含む、請求項9に記載の方法。
  14. 前記ボリュメトリックメディアの1つ以上のタイルのアクセスを示す前記ボリュメトリックメディアの前記事前選択に起因して、前記方法は、
    前記1つ以上のタイルが属している前記1つ以上のアトラスの前記1つ以上のアトラスデータコンポーネントと、前記1つ以上のタイルの前記1つ以上のアトラスデータコンポーネントと、全ての関連付けられたビデオエンコードされたコンポーネントとへのアクセスを構成することを含む、請求項9に記載の方法。
  15. 前記ボリュメトリックメディアの前記事前選択が複数のアトラスを伴う前記ボリュメトリックメディアのアクセスを示す場合、
    前記ボリュメトリックメディアのエントリアトラスの前記アトラスデータコンポーネントを構成する、請求項9、13、または14に記載の方法。
  16. 請求項1-15のうちの1つ以上において説明される方法を実装するように構成されたプロセッサを備えているボリュメトリックメディアを処理するための装置。
  17. コード記憶しているコンピュータ読み取り可能な媒体を備えているコンピュータプログラム製品であって、前記コードは、プロセッサによって実行されると、請求項1-15のうちの1つ以上において説明される方法を前記プロセッサに実装させる、コンピュータプログラム製品。
JP2022546012A 2020-06-24 2020-06-24 ボリュメトリックメディア処理方法および装置 Active JP7467647B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/098009 WO2021258324A1 (en) 2020-06-24 2020-06-24 Volumetric media process methods and apparatus

Publications (2)

Publication Number Publication Date
JP2023531579A true JP2023531579A (ja) 2023-07-25
JP7467647B2 JP7467647B2 (ja) 2024-04-15

Family

ID=79282754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022546012A Active JP7467647B2 (ja) 2020-06-24 2020-06-24 ボリュメトリックメディア処理方法および装置

Country Status (6)

Country Link
US (1) US12034982B2 (ja)
EP (1) EP4097987A4 (ja)
JP (1) JP7467647B2 (ja)
CN (1) CN115004716A (ja)
WO (1) WO2021258324A1 (ja)
ZA (1) ZA202208170B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023175243A1 (en) * 2022-03-17 2023-09-21 Nokia Technologies Oy A method, an apparatus and a computer program product for video encoding and video decoding

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2550589B (en) * 2016-05-23 2019-12-04 Canon Kk Method, device, and computer program for improving streaming of virtual reality media content
US10587934B2 (en) * 2016-05-24 2020-03-10 Qualcomm Incorporated Virtual reality video signaling in dynamic adaptive streaming over HTTP
WO2017203098A1 (en) 2016-05-24 2017-11-30 Nokia Technologies Oy Method and an apparatus and a computer program for encoding media content
TWI650994B (zh) 2016-09-02 2019-02-11 聯發科技股份有限公司 提升品質遞送及合成處理
GB2554877B (en) 2016-10-10 2021-03-31 Canon Kk Methods, devices, and computer programs for improving rendering display during streaming of timed media data
US20210058600A1 (en) 2018-04-04 2021-02-25 Sharp Kabushik Kaisha Systems and methods for signaling sub-picture composition information for virtual reality applications
GB2572996A (en) 2018-04-19 2019-10-23 Nokia Technologies Oy Processing video patches for three-dimensional content
US10984591B2 (en) * 2018-07-27 2021-04-20 Arcturus Studios Inc. Volumetric data post-production and distribution system
WO2020045593A1 (en) 2018-08-30 2020-03-05 Sharp Kabushiki Kaisha Systems and methods for signaling sub-picture timed metadata information
CN113498606B (zh) 2019-01-02 2024-11-01 诺基亚技术有限公司 用于视频编码和解码的装置、方法和计算机程序
WO2021093153A1 (en) * 2020-01-08 2021-05-20 Zte Corporation Point cloud data processing
CN115699751A (zh) 2020-06-12 2023-02-03 索尼集团公司 信息处理装置和方法

Also Published As

Publication number Publication date
WO2021258324A1 (en) 2021-12-30
EP4097987A1 (en) 2022-12-07
ZA202208170B (en) 2023-12-20
US20220360828A1 (en) 2022-11-10
US12034982B2 (en) 2024-07-09
EP4097987A4 (en) 2023-03-08
JP7467647B2 (ja) 2024-04-15
CN115004716A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN108702528B (zh) 发送360视频的方法、接收360视频的方法、发送360视频的设备和接收360视频的设备
US20240040170A1 (en) Method, device, and computer program for transmitting media content
KR102559862B1 (ko) 미디어 콘텐츠 전송을 위한 방법, 디바이스, 및 컴퓨터 프로그램
CN109691094A (zh) 发送全向视频的方法、接收全向视频的方法、发送全向视频的装置和接收全向视频的装置
JP2022133439A (ja) メディアコンテンツを送信するための方法、装置及びコンピュータプログラム
GB2509953A (en) Displaying a Region of Interest in a Video Stream by Providing Links Between Encapsulated Video Streams
WO2018177373A1 (en) Method and apparatus for signaling spherical region information in isobmff
WO2023029858A1 (zh) 点云媒体文件的封装与解封装方法、装置及存储介质
US20220366611A1 (en) Three-dimensional content processing methods and apparatus
US12101508B2 (en) Volumetric media process methods and apparatus
US12034982B2 (en) Volumetric media process methods and apparatus
KR20220160646A (ko) 미디어 파일 캡슐화 방법, 미디어 파일 캡슐화 해제 방법 및 관련 디바이스
WO2023024839A1 (zh) 媒体文件封装与解封装方法、装置、设备及存储介质
WO2023169003A1 (zh) 点云媒体的解码方法、点云媒体的编码方法及装置
CN117082262A (zh) 点云文件封装与解封装方法、装置、设备及存储介质
CN115061984A (zh) 点云媒体的数据处理方法、装置、设备、存储介质
WO2024201180A1 (en) Encapsulation of volumetric video with static and dynamic type components
CN115004699A (zh) 沉浸式媒体的多图集封装

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230418

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230418

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240403

R150 Certificate of patent or registration of utility model

Ref document number: 7467647

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150