JP2023504097A - マルチビュービデオ処理方法および装置 - Google Patents

マルチビュービデオ処理方法および装置 Download PDF

Info

Publication number
JP2023504097A
JP2023504097A JP2022531493A JP2022531493A JP2023504097A JP 2023504097 A JP2023504097 A JP 2023504097A JP 2022531493 A JP2022531493 A JP 2022531493A JP 2022531493 A JP2022531493 A JP 2022531493A JP 2023504097 A JP2023504097 A JP 2023504097A
Authority
JP
Japan
Prior art keywords
media
views
view
base
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022531493A
Other languages
English (en)
Inventor
チウティン リー,
チェン フアン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of JP2023504097A publication Critical patent/JP2023504097A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/189Recording image signals; Reproducing recorded image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • H04N21/8153Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Graphics (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

メディアコンテンツ伝送を効果的に低減させ、没入型メディアコンテンツを効率的にレンダリングするための方法、装置、およびシステムが、開示される。一例示的側面では、本方法は、ユーザによって、ユーザの現在の視認位置および視認方向に従って、メディアファイルをサーバから要求するステップと、ユーザによって、ユーザの現在の視認位置および視認方向に従って、メディアファイルをサーバから受信するステップと、アトラスのパッチを抽出するステップと、ユーザの現在のウィンドウエリア内の視覚的コンテンツを合成するステップと、ユーザによって、ユーザの現在の視認位置および視認方向に従って、3次元立体視ビデオコンテンツを取得するステップとを含む。

Description

本特許文書は、概して、没入型技術に関する。
人間とコンピュータの相互作用および人工知能技術の最近の発展に伴って、没入型技術が、我々の労働および生活方法に革命を起こしている。没入型技術は、マーケティングおよび広告、保健医療、教育、およびゲームを含む、いくつかの分野に適用されている。新しい没入型技術の高速発展は、ビデオおよび画像データを効果的に処理することを要求する。
開示されるものは、メディアコンテンツ伝送を効果的に低減させ、没入型メディアコンテンツを効率的にレンダリングする、X、Y、およびZ軸に沿った、付加的な限定された平行移動(典型的には、頭部移動)を伴う、3DOFをサポートする、メディアデータの表現に関する、方法、デバイス、およびアプリケーションである。
開示される技術の例示的実施形態では、本方法は、ユーザによって、ユーザの現在の視認位置、視認方向、およびビューポートに従って、メディアファイルをサーバから要求するステップと、ユーザによって、ユーザの現在の視認位置、視認方向、およびビューポートに従って、メディアファイルをサーバから受信するステップと、1つまたはそれを上回るアトラスのパッチを抽出するステップと、ユーザの現在のビューポート内の視覚的コンテンツを合成するステップと、ユーザによって、ユーザの現在のビューポート内の3次元立体視ビデオコンテンツを取得するステップとを含む。
開示される技術の別の例示的実施形態では、メディアコンテンツを構築する方法は、各メディアサンプルが、複数のビューのうちの1つまたはそれを上回るものに対応し、対応するビューのテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも1つを含むように、複数のメディアサンプルを、1つまたはそれを上回る基本ビューおよび1つまたはそれを上回る付加的ビューを含む、複数のビューと関連付けられる、メディアファイルの中に(またはそこから)設置する(または抽出する)ステップと、各メディアトラックが、対応するビューについての情報を説明するための1つまたはそれを上回るインジケータを含むように、1つまたはそれを上回る基本ビューに対応する、基本ビューメディアトラック、および1つまたはそれを上回る付加的ビューメディアトラックを決定するステップと、複数のメディアサンプルを、そのそれぞれが、1つの基本ビューと関連付けられる、1つまたはそれを上回るサンプルグループにグループ化することによって、1つまたはそれを上回るインジケータに基づいて、メディアコンテンツを複数のメディアサンプルから構築するステップ、またはその中に複数のメディアサンプルが設置される、複数のメディアトラックをグループ化することによって、1つまたはそれを上回るインジケータに基づいて、メディアコンテンツを複数のメディアサンプルから構築するステップとを含む。
開示される技術のさらに別の例示的実施形態では、メディアコンテンツを構築する方法は、各メディアサンプルが、複数のビューのうちの1つに対応し、対応するビューと関連付けられる、テクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも1つを含むように、複数のメディアサンプルを複数の基本ビューおよび複数の付加的ビューを含む、複数のビューと関連付けられる、メディアファイルの中に(またはそこから)設置する(または抽出する)ステップと、各メディアトラックが、対応するビューについての情報を説明するための1つまたはそれを上回るインジケータを含むように、それぞれ、複数の基本ビューに対応する、複数の基本ビューメディアトラック、およびそれぞれ、複数の付加的ビューに対応する、複数の付加的ビューメディアトラックを決定するステップと、複数のメディアサンプルを、そのそれぞれが少なくとも1つの基本ビューと関連付けられる、1つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、1つまたはそれを上回るインジケータに基づいて、メディアコンテンツを複数のメディアサンプルから構築するステップとを含む。
開示される技術のさらに別の例示的実施形態では、メディアコンテンツを構築する方法は、複数のビューと関連付けられる、メディアファイルの中に(またはそこから)、視認方向、視認位置、および視認ウィンドウに従って、複数のビューに対応する、カメラパラメータを含む、カメラ情報を設置する(または抽出する)ステップと、カメラパラメータ情報に基づいて、メディアメタデータをメディアファイルから選択するステップと、メディアメタデータに基づいて、メディアコンテンツを構築するステップとを含む。
いくつかの実施形態は、好ましくは、以下のように、これらの方法を実装してもよい。
上記の方法では、ベースビューは、他のビューを予測するためのビューを含む。
上記の方法では、各基本ビューは、基本ビューアトラスに対応する。
上記の方法では、パッチは、基本ビューアトラスに基づいて入手される。
上記の方法では、メディアコンテンツは、1つまたはそれを上回る基本ビューと1つまたはそれを上回る付加的ビューの組み合わせに基づいて構築される。
上記の方法では、1つまたはそれを上回るインジケータは、サンプルグループの中に、2つまたはそれを上回る基本ビューのアトラスに対応する、複数のサンプルをグループ化するためのインジケータを含む。
上記の方法では、1つまたはそれを上回るインジケータは、各メディアトラックが、テクスチャコンポーネントまたは深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む。
上記の方法では、1つまたはそれを上回るインジケータは、各メディアトラックが、テクスチャコンポーネントまたは深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む。
上記の方法では、1つまたはそれを上回るインジケータは、メディアトラック内に含有される、テクスチャコンポーネントおよび深度コンポーネントの部分を定義するためのアトラス属性インジケータを含む。
上記の方法では、1つまたはそれを上回るインジケータは、対応するビューを説明するためのビュー識別子を含む。ある実装では、各メディアトラックは、アトラスモードとして記憶される、1つまたはそれを上回るビューを含む。
上記の方法では、メディアコンテンツの構築は、異なるビューからのパッチを組み合わせるステップを含む。ある実装では、アトラスは、1つまたはそれを上回るビューからの1つまたはそれを上回るパッチの集約を含有する。
上記の方法では、1つまたはそれを上回るインジケータは、各アトラス内のパッチの数を説明する、インジケータを含む。
上記の方法では、1つまたはそれを上回るインジケータは、パッチが、アトラスから、対応するビューにマッピングする、回転角度に対するパッチ回転インジケータを含む。
上記の方法では、1つまたはそれを上回るインジケータは、異なるビューを含有する異なるメディアトラックをグループ化するためのグループ化タイプを説明する、ファイルレベルグループ化インジケータを含む。
上記の方法では、ファイルレベルグループ化インジケータは、基本ビューと1つまたはそれを上回る付加的ビューとの間のグループ化情報を含む。
上記の方法では、ファイルレベルグループ化インジケータは、グループ内のエンティティの数を含む。
上記の方法では、各メディアトラックは、複数のビューを基本ビューまたは付加的ビューとして識別するためのインジケータを含む。
上記の方法では、カメラ情報は、メディアファイルベースで抽出される。
上記の方法では、カメラ情報は、メディアトラックベースで抽出される。
上記の方法では、複数のメディアトラックはそれぞれ、複数のビューのパッチからのものであって、各ビューは、1つのカメラに対応する。
上記の方法では、ユーザの複数のビューは、少なくとも1つの基本ビューと、少なくとも1つの基本ビューと関連付けられる、少なくとも1つの付加的ビューとを含む。
上記の方法では、少なくとも1つの基本ビューのメディアデータは、少なくとも1つの基本ビューと関連付けられる、少なくとも1つの付加的ビューのベース画像として使用される。
上記の方法では、ユーザの複数のビューは、それぞれ、異なるメディアトラック内に記憶される、2つまたはそれを上回る基本ビューを含む。
上記の方法では、カメラ情報は、メディアトラックグループ内のメディアデータが、メディアトラックグループに対応する、ある空間範囲内の画像をデコーディングするために使用されるべきであることを示す、メディアトラックグループを含む。
開示される技術のさらに別の例示的実施形態では、上記に説明される方法は、プロセッサ実行可能コードの形態で具現化され、コンピュータ可読プログラム媒体内に記憶される。
開示される技術のさらに別の例示的実施形態では、上記に説明される方法を実施するように構成される、または動作可能である、デバイスが、開示される。
上記および他の側面およびその実装は、図面、説明、および請求項において、より詳細に説明される。
図1は、開示される技術のいくつかの実施形態に基づく、3DOF+のコンテンツ集合の実施例を示す、略図である。
図2は、開示される技術のいくつかの実施形態に基づく、ビデオデータ処理システムの実施例を示す、略図である。
図3は、開示される技術のいくつかの実施形態に基づく、ビデオデータ処理方法の実施例を示す、フローチャートである。
図4Aは、開示される技術のいくつかの実施形態に基づく、メディアファイルの基本構造の実施例を示す、略図である。
図4Bは、開示される技術のいくつかの実施形態に基づく、メディアファイルの基本構造の別の実施例を示す、略図である。
図5は、開示される技術のいくつかの実施形態に基づく、メディアファイル内の多層構造の実施例を示す、略図であって、1つのみのメディアトラックが、1つまたはそれを上回る基本ビューを含む。
図6は、開示される技術のいくつかの実施形態に基づく、メディアファイル内の多層トラック構造の実施例を示す、略図である。
詳細な説明
没入型メディアは、ユーザが、オーディオおよびビデオ技術を通した視覚的およびオーディオ体験を通して、高度に現実的な仮想空間環境を体験することを可能にする。現在、没入型体験は、主に、パノラマビデオをサポートする。例えば、ユーザは、頭部ディスプレイデバイスを通した頭部の自由回転を通して、360度ビデオ、すなわち、3自由度(3DOF)没入型体験を視聴することができる。向上された3自由度(3DOF+)および部分的6自由度(6DOF)をサポートする、ビデオに関して、ユーザの頭部はまた、限定された範囲内で移動し、オクルードされた視覚的コンテンツ等のさらなる詳細を視認することができる。
3DOF+ビデオのためのサポートは、空間内で異なる形状に配列される複数のカメラを通して使用され、オリジナルビデオを捕捉し、次いで、3次元パノラマビデオのアルゴリズム合成によって、ユーザの頭部を没入型メディア限定移動内に合わせることができる。マルチカメラ展開に基づいて、マルチビュービデオは、典型的には、大量の冗長データを有し、記憶およびコンピューティングリソースの無駄をもたらす。現在、コンテンツ生産位相では、同時に、複数のビューの重複部分の視覚的コンテンツを除去することによって、冗長性を低減させ、テクスチャおよび深度コンポーネントを伴うビューによって、ステレオ-ビデオをビューポート内に表すことが可能である。ユーザの端末デバイスが、没入型メディアコンテンツを受信すると、特に、ユーザのための最良没入体験を確実にするように、移動のプロセスにおいてレンダリングするために、ユーザの視認位置、視認方向、入手デバイスの性質、および他の情報に従って、コンテンツをレンダリングする必要がある。現在、3DOF+のメディアコンテンツのための対応するメディア表現の欠如が存在し、これは、メディアコンテンツの効果的レンダリングおよび再生に影響を及ぼすであろう。
図1は、開示される技術のいくつかの実施形態に基づく、3DOF+のビデオ捕捉の実施例を示す、略図である。3DOF+シナリオをサポートするために、複数のカメラが、空間内の異なる場所に展開される。例えば、複数のカメラは、湾曲構成または矩形構成において、並列に配列され、画像が、同時に、複数のカメラによって捕捉される。カメラ展開の場所および配向に応じて、異なるカメラによって捕捉されたビデオは、類似コンテンツを有することができる。
マルチビュービデオから収集されたコンテンツは、3次元パノラマビデオを生産するように合成される。マルチビュー入手コンテンツの類似性および差異に従って、ユーザは、没入型メディアを視認するプロセスにおいて、限定された範囲内で移動し、オクルードされた視覚的コンテンツ等のさらなる詳細を見ることができる。
図2は、開示される技術のいくつかの実施形態に基づく、ビデオデータ処理システムの実施例を示す、略図である。開示される技術のいくつかの実施形態、ビデオデータ処理システムは、メディアサーバ10と、ユーザ端末20とを含む。
いくつかの実装では、メディアサーバ10は、メディアファイルを記憶するためのメモリモジュール101と、ユーザ端末20と通信するための送受信機モジュール102とを含む。メモリモジュール101は、メディアファイルを記憶するために使用される。いくつかの実装では、送受信機モジュール102は、要求メッセージをユーザ端末20から受信し、および/または記憶されたメディアファイルをユーザに端末20に送信するように構成される。一実施例では、送受信機モジュール102は、無線ネットワークおよび/または有線ネットワークを通して、要求メッセージを受信し、メディアファイルを伝送してもよい。
いくつかの実装では、ユーザ端末20は、送受信機モジュール201と、カプセル化解除およびデコーディングモジュール202と、メディア処理モジュール203と、メディア再生モジュール204とを含む。いくつかの実装では、送受信機モジュール201は、メディアファイルをメディアサーバ10から受信し、メディアファイル要求等の要求をメディアサーバ10に送信するように構成される。カプセル化解除およびデコーディングモジュール202は、送受信機モジュール201によって受信されたメディアファイルをアンパックおよびデコーディングするために使用される。いくつかの実装では、メディア処理モジュール203は、ユーザの現在の視認状態(例えば、ユーザの位置、視認方向、ユーザのビューポート)に従って、デコーディングモジュール202によってデコーディングされたマルチビューのアトラスのセット上において、ビデオ合成およびレンダリング等のビデオ処理を実施する。メディア再生モジュール204は、ユーザの現在の視認状態に対応する、視覚的コンテンツを再生するために使用される。
図3は、開示される技術のいくつかの実施形態に基づく、ビデオデータ処理方法の実施例を示す、フローチャートである。
開示される技術のいくつかの実施形態では、ビデオデータ処理方法は、ステップS301において、ユーザによって、ユーザの現在の視認位置、視認方向、およびビューポートに従って、メディアファイルをサーバから要求するステップを含む。一実施例では、対応するメディアファイルのための要求は、ユーザによって所望されるビューを視聴するためのユーザのリアルタイムフィードバックを含んでもよい。一実施例では、ユーザ端末内に実装されるメディア処理モジュールは、1つまたはそれを上回るセンサと、関連付けられる信号処理デバイスとを使用して、ユーザのリアルタイムフィードバックをユーザの要求に変換してもよい。
開示される技術のいくつかの実施形態では、ビデオデータ処理方法は、ステップS302において、ユーザによって、ユーザの現在の視認位置、視認方向、およびビューポートに従って、メディアファイルをサーバから受信するステップと、ユーザの現在の視認位置、視認方向、およびビューポートに従って、1つまたはそれを上回るアトラスのパッチを抽出するステップと、視覚的コンテンツをユーザの現在のビューポート内に合成するステップとを含む。一実施例では、メディア処理モジュールは、ユーザのリアルタイム視認位置および方向に従って、ビデオをユーザのビューポート内に再構築し、再構築されたビデオをメディア再生モジュールまたはディスプレイ端末に伝送してもよい。
開示される技術のいくつかの実施形態では、ビデオデータ処理方法は、ステップS303において、ユーザによって、ユーザの現在の視認位置、視認方向、およびビューポートに従って、再構築された3次元立体視ビデオコンテンツを取得するステップを含む。一実施例では、ユーザは、ディスプレイ端末またはメディア再生モジュールを使用して、再構築されたビデオを視認する。
開示される技術のいくつかの実施形態では、ビデオデータ処理方法は、ISO(国際標準化機構)基本メディアファイルフォーマットに基づいて、ファイル内の3DOF+ビデオデータに対して実装されてもよい。ISO基本メディアファイルフォーマットは、とりわけ、制限されたスキーム情報ボックス、トラック参照ボックス、およびトラックグループボックスを含んでもよく、これは、ISO/IEC JTC1/SC29/WG11 Moving Picture Experts Group(MPEG)MPEG-4.Part 12 ISO Base Media File Formatに定義される。全方向性ビデオの投影、パッケージングステップ、および基本フォーマットは、ISO/IEC JTC1/SC29/WG11のMoving Picture Experts Group(MPEG)によって開発されたMPEG-I Part 2 OMAF(全方向性メディアフォーマット)に基づいて動作されることができる。
開示される技術のいくつかの実施形態では、ISO基本ファイルフォーマット内の全てのデータが、ボックス(Box)内に含有される。一実施例では、mp4ファイルによって表されるISO基本ファイルフォーマットは、複数のボックスを含み、そのそれぞれが、特定のタイプおよび長さを有し、データオブジェクトと見なされ得る。ボックスは、コンテナボックスと呼ばれる、別のボックスを含有することができる。一実施例では、「ftyp」タイプボックスは、ファイルの先頭に設置される。一実施例では、「ftyp」タイプボックスは、ファイルフォーマットを示すためのフラグとして使用され、ファイルについてのある情報を含有する。
開示される技術のいくつかの実施形態では、「ftyp」タイプボックス後には、「MOOV」タイプボックスが続き、これは、メディアに関するメタデータ情報を伴う、コンテナボックスである。ある実装では、MP4ファイルのためのメディアデータは、1つまたはそれを上回る「mdat」タイプボックス内に含有され、そのそれぞれが、コンテナボックスである。別の実装では、MP4ファイルは、メディアデータが、その全体として、他のファイルを参照するとき、そのような「mdat」タイプボックスを含有しない。開示される技術のいくつかの実施形態では、メディアデータの構造は、メタデータによって説明される。いくつかの実装では、メディアに関するさらなるメタデータ説明のために、MP4ファイルは、「メタ」タイプボックスを含有してもよく、これもまた、ある汎用または付加的非時限メタデータを説明する、コンテナボックスである。
開示される技術のいくつかの実施形態では、時限メタデータトラック(例えば、ISO Basic Media File Format(ISOBMFF)における機構)が、特定のサンプルと関連付けられる時限メタデータを確立するために使用される。時限メタデータは、メディアデータと殆ど結合されることはなく、通常、記述的である。
図4Aは、開示される技術のいくつかの実施形態に基づく、アトラスのテクスチャコンポーネントおよび深度コンポーネントが同一メディアトラックの中に設置される、メディアファイルの基本構造の実施例を示す、略図である。
図4Bは、開示される技術のいくつかの実施形態に基づく、アトラスのテクスチャコンポーネントおよび深度コンポーネントが異なるメディアトラックの中に設置される、メディアファイルの基本構造の別の実施例を示す、略図である。
開示される技術のいくつかの実施形態では、複数のビューが、ベース層と、1つまたはそれを上回る付加的層とを含む、層化構造を使用することによって、説明され得る。メディアファイルは、複数のビューのメディアメタデータを説明するための1つまたはそれを上回るメディアトラックを含んでもよく、1つのメディアトラックは、1つの層に対応する。
図4Bに示されるように、ビデオのビューは、テクスチャコンポーネントと、深度コンポーネントとに分割される、1つまたはそれを上回るアトラスによって表されてもよく、テクスチャコンポーネントおよび/または深度コンポーネントは、アトラスに対応する、1つまたはそれを上回る(例えば、1または2つの)メディアトラック内に含有される。アトラスは、完全ビューまたはビューからトリミングされた断片の一部のいずれかである、1つまたはそれを上回るビューからのパッチをまとめる。パッチのコンテンツ、サイズ、および量が、変化する場合、パッチに関する情報は、時限メタデータを使用して、説明される。
ある実装では、カメラパラメータリスト等の複数のビューに関連する静的情報が、メディアトラック内のボックスまたはメディアファイル内のボックスに説明される。
別の実装では、ボックスを「メタ」タイプボックスとして定義し、各カメラを1つずつ説明することによって、各カメラは、各ビューに対応する。
別の実装では、1つのメディアトラック内のアトラスが、1つまたはそれを上回るビューに対応する場合、ビューに対応する、カメラパラメータのリストは、メディアトラックに説明される。
アトラス内の各パッチは、カメラによって捕捉されたビデオ内のビューから導出される。ユーザの視認位置および視認方向に従って、ユーザの視野内のパッチは、1つまたはそれを上回る選択されたパッチを合成することによって、ユーザに現在のビューポートのメディアコンテンツが見え得るように、メディアトラックに説明される各パッチの性質に基づいて選択される。
開示される技術のいくつかの実施形態では、ビデオデータを処理するための方法は、ユーザによって選択されたビューポート内のマルチビュービデオのビューに対応する、1つまたはそれを上回るメディアトラック内の1つまたはそれを上回るアトラスを決定するステップであって、1つまたはそれを上回るアトラスは、1つまたはそれを上回るビューのテクスチャコンポーネントおよび深度コンポーネントを含む、ステップと、ユーザが視認するために、アトラスおよびマルチビュービデオを撮影するためのカメラパラメータに基づいて、マルチビュービデオをビューポート内に生成するステップとを含むことを特徴とする。
開示される技術のいくつかの実施形態では、ユーザによって選択されたマルチビュービデオのビューに対応する、1つまたはそれを上回るメディアトラック内の1つまたはそれを上回るアトラスの決定は、マルチビュービデオの基本ビューと、ユーザによって選択されたマルチビュービデオのビューに関連する、1つまたはそれを上回る付加的ビューとを決定するステップと、メディアトラック内のマルチビュービデオの基本ビューおよび1つまたはそれを上回る付加的ビューに対応する、1つまたはそれを上回るアトラスに基づいて、メディアトラック内のユーザによって選択されたマルチビュービデオのビューに対応する、1つまたはそれを上回るアトラスを決定するステップとを含む。
図5は、開示される技術のいくつかの実施形態に基づく、メディアファイル内の多層構造の実施例を示す、略図であって、1つのみのメディアトラックは、ベース層であって、1つまたはそれを上回る基本ビューを含有する。
開示される技術のいくつかの実施形態では、異なるビュー間の相関は、ビュー予測のために使用されることができる。同一空間内の複数のカメラによって入手されたビューは、異なる相関度を有し得る。高度に相関するビューに関して、ビューは、その近隣のビューを予測するために使用されることができる。しかしながら、低相関を伴うビューに関して、ビューのコンテンツは、独立し(または相関せず)、相互から予測されることができないが、基本ビューのフレーム間予測は、可能である。
開示される技術のいくつかの実施形態では、メディアファイルは、1つまたはそれを上回る基本ビューと関連付けられる、メディアデータを含み、各基本ビューは、アトラスに対応する。その点に関して、開示される技術は、種々の実施形態において、あるメディアトラックを、1つまたはそれを上回る基本ビューに対応する、1つまたはそれを上回るアトラスを説明および記憶するために使用される、ベース層として定義する、階層メディア説明構造を提供するために実装されることができる。他の関連付加的ビューに対応する、アトラスは、付加的層のメディアトラック等の1つまたはそれを上回る他のメディアトラック内に説明および記憶され、ユーザのビューポートのビューは、ベース層および付加的層内のアトラス内のパッチの組み合わせから合成される。
多層アトラスを通して、3次元パノラマビデオが、合成され、ユーザが、頭部セットの位置および配向を変化させることによって、部分的にオクルードされた視覚的コンテンツを見ることを可能にすることができる。
ベース層のメディアトラックでは、サンプルグループのタイプ「oinf」(動作点情報)は、ベース層内の基本ビューのアトラスを示し、ビューのアトラスは、他のアトラスを参照せず、付加的層内の他のアトラスによって参照され得る。付加的ビューのアトラスを含む、付加的層に対応する、1つまたはそれを上回るメディアトラックでは、グループタイプ「oinf」を伴うサンプルグループは、メディアトラック参照タイプ「oref」を伴うメディアトラックによって参照され得る。
ベース層のメディアトラック名には、異なる基本ビューに基づいて、サンプルをグループ化し、サンプルグループタイプを「invw」として定義し、グループ化サンプルが基本ビューに属することを示す、複数の基本ビューが存在する。
Figure 2023504097000002
Figure 2023504097000003
具体的構文は、以下の通りである。
「version」は、ボックのバージョンを示す。
「grouping_type」は、サンプルグループ化のタイプを示し、それをgrouping_typeに関する同一値を伴うそのサンプルグループ説明エントリにリンクする。
「grouping_type_parameter」は、グループ化のサブタイプを示す。
「entry_count」は、以下のテーブル内のサンプリングエントリの数を示す。
「sample_count」は、同一サンプルグループに属する、連続サンプルの数を示す。
「group_description_index」は、本グループ内のサンプルを説明するサンプルグループエントリのインデックスを示す。
基本ビューベースのサンプルに基づくグループ化のために、タイプ「bsvw」(基本ビュー)のサンプルグループエントリを定義し、グループ内のこれらのサンプルが対応する、基本ビューの識別子、基本ビューに対応するカメラの識別子、および基本ビューと関連付けられる他の付加的ビューを説明するステップが、説明される。
実施例として、これらの識別子は、以下のように説明されることができる。
Figure 2023504097000004
Figure 2023504097000005
構文は、以下のように定義される。
「group_id」は、それに対して現在のサンプルが属する、グループ識別子を示す。
「view_idx」は、現在のサンプルに対応する、基本ビューインデックス識別子、すなわち、それに対してサンプルが対応する、ビューを示す。
「camera_idx」は、基本ビューに対応する、カメラインデックス識別子を示す。
「num_ref_views」は、基本ビューアトラスのセットを参照する、他の付加的ビューの数を示す。
「additional_view_idx」は、グループ内の基本ビューと関連付けられる、付加的ビューのインデックス識別子を示す。
「track_id」は、関連付けられる付加的ビューが対応するサンプルが位置する、メディアトラックIDを示す。
「texture_or_depth_flag」は、関連付けられる付加的ビューが対応する、サンプルを含有する、メディアトラックが、テクスチャコンポーネントおよび/または深度コンポーネントを含むかどうかを示す。それが0に等しいとき、両方を含み、それが1に等しいとき、テクスチャコンポーネントのみを含む。
「depth_track_id」は、関連付けられる付加的ビューが対応する深度コンポーネントが位置する、メディアトラックIDを示す。
開示される技術のいくつかの実施形態では、メディアトラック内のサンプルは、1つまたはそれを上回るビューからのパッチを含有する、アトラスである。一実施例では、各ビューは、1つのアトラスに対応し得る。別の実施例では、1つまたはそれを上回るビューは、1つのアトラスに対応し得る。アトラスは、テクスチャコンポーネントと、深度コンポーネントとを含む。ある例示的階層構造では、アトラスのテクスチャコンポーネントおよび深度コンポーネントは、それぞれ、2つのメディアトラック内に設置されてもよい。別の例示的階層構造では、アトラスのテクスチャコンポーネントおよび深度コンポーネントは、同一メディアトラック内に設置されてもよい。「AtlasAttributeBox」は、メディアトラック内に含有される、アトラスのコンポーネントを説明する。
Figure 2023504097000006
構文は、以下のように定義される。
「texture_in_track」は、メディアトラックがテクスチャコンポーネントを含有するかどうかを示す。
「depth_in_track」は、メディアトラックが深度コンポーネントを含有するかどうかを示す。
「atlas_id」は、テクスチャコンポーネントおよび/または深度コンポーネントがメディアトラック内で属する、アトラスの識別子を示す。
開示される技術のある実施形態では、アトラスのテクスチャコンポーネントおよび深度コンポーネントが、2つのメディアトラック内に設置されるとき、1つのメディアトラックグループ、例えば、トラック1に属する、2つのメディアトラックは、アトラス1のテクスチャコンポーネントを有し、トラック2は、アトラス1の深度コンポーネントを有し、トラック1およびトラック2のコンポーネントは、同一アトラスに属する。一実施例では、2つのメディアトラックが、track_group_typeを有する、TrackGrouptypeBoxが、「atls」であって、メディアトラックグループが、アトラスのアトラス識別インデックス(atlas_id)と同一であり得る、「track_group_id」によって識別されると定義することによって、1つのメディアトラックグループに属する。
開示される技術の別の実施形態では、テクスチャおよび深度コンポーネントの両方が、メディアトラック内に設置されるとき、テクスチャおよび深度コンポーネントサンプルは、グループ化され、タイプ「テクスチャおよび深度グループ」は、各サンプルがテクスチャコンポーネントまたは深度コンポーネントに属するかどうかを説明する、テクスチャおよび深度サンプルグループとして定義される。
実施例として、これらの識別子は、以下のように説明されることができる。
Figure 2023504097000007
具体的構文は、以下のように定義される。
「texture_or_depth」は、グループのサンプルが、テクスチャまたは深度コンポーネントにグループ化されることを示す。texture_or_depthが、0に等しいとき、サンプルは、テクスチャコンポーネントにグループ化され、texture_or_depthが、1に等しいとき、サンプルは、深度コンポーネントにグループ化される。
「num_basicview_flag」は、メディアトラック内のサンプルが、複数の基本ビューに対応するかどうかを示し、それが、0に等しいとき、1つのみの基本ビューに対応し、これらのサンプルは、基本ビューによってグループ化されず、それが、1に等しいとき、2つを上回る基本ビューに対応する。
「group_id」は、メディアトラック内の複数の基本ビューのためのサンプルに関して、基本ビューに基づいて、サンプルグループのグループ化識別子を示す。
開示される技術のいくつかの実施形態では、ISO基本ファイルフォーマットに定義される、ビュー識別子ボックス(ViewIdentifierBox)は、「vwid」であって、各メディアトラック内に含有されるビューを説明し、ビューの識別、ビューに対応する他の参照ビュー等を含む。これは、メディアトラックが、テクスチャコンポーネントまたは深度コンポーネントまたは両方を含有するかどうかを示すことができる。
メディアトラック内のサンプルである、アトラスに基づいて、ユーザは、現在の視認位置、視認方向、およびビューポートに従って、1つまたはそれを上回るメディアトラック内のアトラスを選択し、ユーザが視認することを所望する、画像を合成する。セット内のパッチは、1つまたはそれを上回るビューに対応する、1つまたはそれを上回るカメラによって捕捉されたビデオからのものである。いくつかの実装では、それに対して各パッチが属するビューおよびビュー内の各パッチの位置が、メディアトラックおよびその対応するアトラスの選択を促進するために説明される。ISO基本ファイルフォーマットに従って、アトラスに対してボックスのパラメータを定義することは、随意に、以下の方法のうちの1つにおいて行われる。
開示される技術のいくつかの実施形態では、各フレームサンプル内に、パッチが、異なるビューから収集され、ビュー内の位置は、異なり、かつ可変であって、全てのアトラスに関するパッチ情報は、時限メタデータによって動的に説明される。
アトラス情報リストが、サンプルエントリタイプに従って、時限メタデータトラックから識別され、アトラス情報リスト時限メタデータトラックは、アトラス内の各パッチに対応する場所情報および対応するビューおよび対応するビュー情報を示すために使用される。
具体的には、アトラス情報リスト時限メタデータトラックの目的は、下記に定義されるように、「atpl」である、トラックサンプルエントリタイプによって示される。
Figure 2023504097000008
具体的構文は、以下のように定義される。
「num_atlases」は、アトラスの数を示す。
「num_views」は、ビューの数を示す。
時限メタデータトラック内の各サンプルは、ある時点における全てのアトラスに関する情報に対応する。以下の実施例は、アトラス情報のサンプルフォーマットが、上記のトラックサンプルエントリタイプ「atpl」を参照することを図示し、サンプル毎に、アトラス情報を示す。
Figure 2023504097000009
Figure 2023504097000010
具体的構文は、以下のように定義される。
「atlas_id」は、アトラスの識別子を示す。
「num_patches」は、アトラス内に含有されるパッチの数を示す。
「view_id」は、パッチが属する、ビュー識別子を示す。
「group_id」は、基本ビューおよびその関連付けられる付加的ビューに基づいて、グループ化のグループ識別子を示し、group_idが、0に等しいとき、1つのみの基本ビューであって、ビューは、グループ化される必要がない。
「patch_width_in_view」および「patch_height_in_view」は、それぞれ、輝度サンプル内のパッチの幅および高さを示す。
「patch_pos_in_atlas_x」および「patch_pos_in_atlas_y」は、それぞれ、アトラス内のX-軸およびY-軸の座標を示す。
「patch_pos_in_view_x」および「patch_pos_in_view_y」は、それぞれ、輝度サンプリング内のパッチのX-軸およびY-軸の座標を示す。
「patch_rotation」は、パッチがアトラスからビューにマッピングする、回転角度を示す。patch_rotationが、0であるとき、これは、回転が存在しないことを示し、patch_rotationが、1であるとき、これは、時計回りに90度回転を示し、1を上回る他の値は、一時的に留保される。
開示される技術のいくつかの実施形態では、アトラス情報は、他のメディアトラック内のアトラス設置を説明し、上記で定義された時限メタデータトラックは、「cdsc」referenceTypeを伴うTrackReferenceBoxを使用することによって、1つまたはそれを上回る他のメディアトラックにリンクすることができる。
開示される技術のいくつかの実施形態では、サンプルテーブルボックス(SampleTableBox)は、新しい定義されたボックス(AtlasParametersBox)を含み、メディアトラック内のサンプルのアトラス情報を1つずつ示す。
Figure 2023504097000011
具体的構文は、以下のように定義される。
「sample_count」は、ある時間周期にわたる連続サンプルの数を示す。
「num_patches」は、アトラス内に含まれるパッチの数を示す。
「view_id」は、本パッチが属する、ビュー識別子を示す。
「patch_width_in_view」および「patch_height_in_view」は、それぞれ、輝度サンプル内のパッチの幅および高さを示す。
「patch_pos_in_atlas_x」および「patch_pos_in_atlas_y」は、それぞれ、アトラス内のパッチのX-軸およびY-軸の座標を示す。
「patch_pos_in_view_x」および「patch_pos_in_view_y」は、それぞれ、輝度サンプル内のX-軸およびY-軸の座標を示す。
「patch_rotation」は、アトラスからビュー画像までのパッチの回転角度を示す。それが、0に等しいとき、回転が存在しないことを示し、それが、1に等しいとき、時計回りに90度の回転を示し、1を上回る他の値は、一時的に留保される。
図6は、開示される技術のいくつかの実施形態に基づく、メディアファイル内の多層トラック構造の実施例を示す、略図であって、メディアファイル内には、複数の基本ビューが存在し、基本ビューは、ベースビューとして使用され、他のビューを予測することができる。層化trackdescription構造に基づいて、メディアトラックは、1つの基本ビューの記憶のためのベース層として定義され、全ての基本ビューの動作点情報を説明する。他の基本ビューおよび付加的ビューの対応するビューは、1つまたはそれを上回る他のメディアトラック内に記憶される。複数のビューを通して、3次元立体視ビデオが、ユーザに頭部の変位を通して部分的にオクルードされた視覚的コンテンツを見え得るように、合成されることができる。
ベース層のメディアトラック内のタイプ「oinf」(動作点情報)サンプルグループは、全ての基本ビュー内の動作点情報を説明するように定義される。全ての付加的層メディアトラックは、メディアトラックタイプインジケータ「oref」を参照することによって、ベース層メディアトラックを参照する。
基本ビューは、メディアトラックレベルまたはファイルレベルにおいて、インジケーションを含むことによって、他の基本ビューおよびその関連付けられる付加的ビューから区別されることができる。
開示される技術のいくつかの実施形態では、基本ビューと付加的ビューとの間の特異性は、メディアトラックレベルで説明される。基本ビューに属するアトラスを含有する、メディアトラックでは、メディアトラックは、タイプ「invw」のボックスをメディア情報ボックス内に定義することによって、基本ビューを含有する、メディアトラックとして説明される。
Figure 2023504097000012
Figure 2023504097000013
具体的構文は、以下のように定義される。
「basic_view_idx」は、メディアトラック内のアトラスに対応する、基本ビューの識別子である。
「camera_idx」は、基本ビューに対応する、カメラの識別子を示す。
「additional_view_idx」は、基本ビューを参照する、付加的ビューの識別子を示す。
「track_id」は、基本ビューと関連付けられる付加的ビューに対応する、アトラスを含有する、メディアトラックの識別子を示す。
「texture_or_depth_flag」は、サンプルに対応する付加的ビューと関連付けられる、サンプルを含有する、メディアトラックが、テクスチャコンポーネントおよび/または深度コンポーネントを含むかどうかを示し、それが、0である場合、両方を含み、それが、1である場合、テクスチャコンポーネントのみを含む。
「depth_track_id」は、関連付けられる付加的ビューが対応する、深度コンポーネントが位置する、メディアトラックIDを示す。
基本ビューおよび基本ビューを参照するその関連付けられる付加的ビューに対応する、アトラスに関して、「cstg」のトラックグループタイプ(track_group_type)を伴う、トラックグループボックスが、定義され、基本ビューおよびその関連付けられる付加的ビューに対応する、アトラス間の関係を説明する。
開示される技術のいくつかの実施形態では、グループ説明は、基本ビューが位置する、メディアトラックに関して、ファイルレベルで提供され、付加的ビューを有する、メディアトラックは、関連付けられる基本ビューを参照する。
拡張EntityToGroupBoxが、ISOベースファイルフォーマットにおいて、グループ化タイプ(grouping_type)を「asvw」(関連付けられるビューグループ)として定義し、アトラス形態の関連付けられるビューを含有する、メディアトラックをグループするために使用される。グループメンバーは、その中に基本ビューが位置する、メディアトラックを区別するために説明され、トラックは、アトラスのテクスチャコンポーネントおよび/または深度コンポーネントを含有すると言える。1つのグループでは、1つのみの基本ビューが、メディアトラック内に存在し、他のビューは、基本ビューと関連付けられる。
Figure 2023504097000014
構文は、以下の通りである。
「group_id」は、各ボックスに説明されるグループ化のためのグループ識別子を示す。
「num_entities_in_group」は、グループ内のエンティティの数を示す。
「entity_id」は、track_idに等しい、その中にそれが属するアトラスが設置される、メディアトラックのエンティティ識別子を示す。
「is_basic_view」は、グループ内のグループメンバーメディアトラックが基本ビューを含むかどうかを示す。それが、1に等しいとき、グループ内のグループメンバーメディアトラックは、基本ビューを含有する、またはそれが、0であるとき、グループ内のグループメンバーメディアトラックは、基本ビューを含有せず、1つのみのグループメンバーが、1の値を有する。
「is_texture_in_entity」は、グループ内のあるグループメンバーのメディアトラックが、ビューが属する、アトラスのテクスチャコンポーネントを含有するかどうかを示す。
「is_depth_in_entity」は、グループ内のグループメンバーのメディアトラックが、ビューが属する、アトラスの深度コンポーネントを含有するかどうかを示す。
いくつかの実装では、複数の基本ビューのアトラスは、別個のビットストリーム内に記憶される。例えば、1ビットストリームは、1つの基本ビューに対応する、1つのみのアトラスと、その基本ビューと関連付けられる、他のビューに対応する、アトラスとを含有する。この場合、層化構造は、依然として、使用されることができる。
開示される技術のいくつかの実施形態では、メディアストリームファイルを受信およびデコーディング後、ユーザは、ユーザの視認方向、視認位置、およびビューポートに従って、基本ビューおよびその関連付けられる付加的ビューに対応する、メディアコンテンツを選択する。対応するカメラ情報は、選択されたコンテンツのレンダリングを完了するためのプロセスにおいて考慮される。
開示される技術のいくつかの実施形態では、カメラパラメータの情報を説明する、ボックスを定義することによって、複数のビューのためのカメラが、詳細に説明される。
開示される技術のいくつかの実施形態では、カメラパラメータ情報は、固有の情報および位置情報であって、データボックスは、説明のために、ファイルレベルで定義される。カメラパラメータリストボックスは、ボックスタイプに従って識別され、メディアファイル内の全てのパッチに対応する、カメラパラメータが、説明され、ボックスは、「メタ」タイプボックス内に含まれる。
Figure 2023504097000015
Figure 2023504097000016
Figure 2023504097000017
具体的構文は、以下のように定義される。
「num_cameras」は、カメラの数を示す。
「view_idx」は、カメラによって捕捉されたビューの識別子であって、それによってビューに対応する、カメラが、見出されることができる。
「camera_pos_x」、「camera_pos_y」、および「camera_pos_z」は、グローバル参照座標系内のカメラの位置を示す。
「projection_type」は、カメラの投影方法を示す。それが、0に等しいとき、インジケーションは、ERP投影モードであって、それが、1に等しいとき、インジケーションは、CMP投影モードであって、それが、2に等しいとき、インジケーションは、透視投影であって、値は、0~255に及び、そのうちの3~255は、必要に応じて、将来的に定義され得る。
「projection_plane_width」および「projection_plane_height」はカメラ投影平面の水平および垂直分解能を示し、これは、エンコーディングされた明度サンプリングの水平および垂直分解能によって示される。
「erp_phi_min」および「erp_phi_max」は、ERP投影の緯度範囲(最小および最大)を示す。
「erp_theta_min」および「erp_theta_max」は、ERP投影の経度範囲(最小および最大)を示す。
「perspective_focal_hor」および「perspective_focal_ver」は、輝度サンプル位置単位における、それぞれ、透視投影の焦点の水平および垂直コンポーネントを示す。
「perspective_center_hor」および「perspective_center_ver」は、輝度サンプル位置における、それぞれ、透視投影の主点の水平および垂直座標を示す。
「quantization_law」は、カメラの深度数値化方法のタイプを示す。
「depth_near,depth_far」は、それぞれ、最小および最大正規化視差値を示す。
「cubic_map_type」は、CMP投影のタイプを示す。それが、0に等しいとき、インジケーションは、完全投影モード(6パッケージ面)であって、それが、0を上回るとき、一時的に留保される。
「rotation_yaw」および「rotation_pitch」および「rotation_roll」は、カメラが、それぞれ、X、Y、およびZ軸に沿って回転するためのヨー角度、ピッチ角、およびロール角度を規定する。
開示される技術のいくつかの実施形態では、メディアトラックはそれぞれ、1つまたはそれを上回るビューのパッチからのものであって、各ビューは、1つのカメラに対応し、各メディアトラック内のビューに対応する、カメラが、説明される。
カメラパラメータリストボックスは、「schi」タイプボックス内に含有されるボックスタイプに従って識別され、これは、スキーム情報ボックスであって、ボックスがスキームタイプにある、制限されたスキーム情報を説明する(scheme_typeが、「altv」であるとき、アトラスモードをサポートする)。カメラパラメータボックスの実施例は、下記に説明される。
Figure 2023504097000018
Figure 2023504097000019
開示される技術のいくつかの実施形態では、カメラの展開モードに基づいて、2つまたはそれを上回る基本ビューが存在し、基本ビューのアトラスは、異なるメディアトラック内に記憶され、各基本ビューのアトラスは、ベースビューとして使用され、関連付けられる付加的ビューのビューは、付加的ビューとしての役割を果たす。基本ビューが位置する、メディアトラックでは、基本ビューおよびその関連付けられる他のビューに対応する、カメラは、アトラスカメラパラメータボックス(AltalsCameraParametersListBox)を使用して説明されることができ、これは、「schi」タイプボックス内に含まれ、これは、ソリューション情報である。スキーム情報ボックスは、制限された情報を説明するために使用される。その中に他の関連ビューのアトラスが位置する、メディアトラックは、トラック参照タイプ「sbas」を伴うトラックを定義し、基本ビューのメディアトラックと関連する付加的ビューの他のメディアトラックを関連付ける。
開示される技術のいくつかの実施形態では、基本ビューおよびそれらに関連する他のビューと関連付けられる、メディアトラックは、トラックグループタイプ「cstg」を使用して定義されてもよい。
開示される技術は、いくつかの実施形態では、複数の基本ビューが存在する状況では、ビューのアトラスをメディアトラックの中に入れるために実装されることができる。ある実装では、テクスチャコンポーネントおよび深度コンポーネントは、1つのメディアトラックの中に入れられる、または別の実装では、テクスチャコンポーネントおよび深度コンポーネントは、異なるメディアトラックの中に入れられる。開示される技術のいくつかの実施形態に基づいて実装される、マルチビュービデオ処理方法は、メディアトラックおよび関連メタデータの構造を定義するステップと、データのメタデータおよびメディアトラック内に入れられたビューのアトラス情報を説明するステップとを含んでもよい。開示される技術のいくつかの実施形態に基づいて実装される、マルチビュービデオ処理方法は、複数のビューに基づいて、ビデオを捕捉するステップと、ビデオをコーディングするステップと、コーディングされたビデオをそのメタデータとともにメディアファイルの中にパッキングするステップと、メディアファイルを、直接、またはユーザの選択に従って、送信するステップとを含んでもよい。ユーザは、メディアファイルを承認し、メタデータおよび必要とされるサンプルを抽出し、メディアファイル内の写真をデコーディングし、デコーディングされた写真を合成し、合成されたコンテンツをそのビューポート内で見ることができる。
開示される技術のいくつかの実施形態では、ビデオデータ処理方法は、ユーザの視点内の多視点ビデオのビューに対応する、メディアトラック内の1つまたはそれを上回るアトラスを決定するステップを含んでもよい。1つまたはそれを上回るアトラスは、ビューのテクスチャ情報および深度情報を含む。
開示される技術のいくつかの実施形態では、ビデオデータ処理方法はまた、マルチビュービデオに対応する、アトラスおよびカメラパラメータに基づいて、ユーザの視点内の多視点ビデオを生成するステップを含んでもよい。
開示される技術のいくつかの実施形態では、ユーザの視点内の多視点ビデオのビューに対応する、メディアトラック内の1つまたはそれを上回るアトラスを決定するステップは、多視点ビデオのベースビューおよびユーザによって選択された多視点ビデオのベースビューに関連する付加的ビューを決定するステップと、メディアトラック内の多視点ビデオのベースビューおよび付加的ビューに対応する、アトラスに基づいて、メディアトラック内のユーザによって選択されたマルチビュービデオのビューに対応する、1つまたはそれを上回るアトラスを決定するステップとを含む。
一実施例では、ユーザの視点内の多視点ビデオのビューに対応する、メディアトラック内の1つまたはそれを上回るアトラスの決定はさらに、第2のグループタイプに基づいて、メディアトラック内のエンティティグループデータボックスを識別するステップを含み、エンティティグループデータボックスは、多視点ビデオのベースビューを示す。一実施例では、エンティティグループデータボックスは、エンティティグループのグループ識別を示す。
一実施例では、ユーザの視点内の多視点ビデオのビューに対応する、メディアトラック内の1つまたはそれを上回るアトラスの決定はさらに、ビデオトラックサンプルのエントリ内の基本ビューデータボックスを識別するステップを含み、および基本ビューデータボックスは、多視点ビデオのベースビュー識別を示す。
開示される技術のいくつかの実施形態では、サンプルグループデータボックスは、メディアトラック内にあって、その対応するサンプルグループ説明データボックスは、第1のグループタイプに基づいて識別され、サンプルグループ説明データボックス内のサンプルグループエントリは、多視点ビデオベースビューIDを示す。一実施例では、サンプルグループエントリは、サンプルグループのグループ化識別子を示す。
開示される技術のいくつかの実施形態では、ビデオデータ処理方法はさらに、サンプルグループ説明データボックスまたはエンティティグループデータボックスまたは基本ビューデータボックスに示される、多視点ビデオのベースビュー識別子と関連付けられる、1つまたはそれを上回る付加的ビューの識別子を示すステップを含む。一実施例では、ビデオデータ処理方法はさらに、ビューに対応するアトラスが位置する、メディアトラックの識別子を使用するステップを含む。
開示される技術のいくつかの実施形態では、基本ビューデータボックスによって示されるベースビューと、基本ビューデータボックスによって示される多視点ビデオのベースビュー識別子によって識別される付加的ビューに対応する、アトラスとが、位置特定される。一実施例では、メディアトラックは、メディアトラックのタイプに従って、その中でチャートセットがベースビューに対応する、メディアトラックのグループ化と、その中に付加的ビューに対応するアトラスが位置する、メディアトラックとを識別することによって、特性評価される。
開示される技術のいくつかの実施形態では、アトラスリスト時限メタデータトラックが、第1のサンプルエントリタイプに従って識別され、アトラスリスト時限メタデータトラックは、メディアトラック内のアトラスの画像ブロック情報を示すために使用される。
開示される技術のいくつかの実施形態では、メディアトラック内のアトラスのパッチ情報は、以下、すなわち、アトラスの識別、アトラスのパッチの数、アトラスのパッチソースのビュー識別、アトラスに対応するビュー内のアトラスのパッチの幅および高さ、アトラスX-軸およびY-軸内のパッチの座標、X-軸およびY-軸のアトラスに対応する、ビュー内のアトラスのパッチの座標のうちの少なくとも1つを含み、アトラスのパッチは、アトラスからビューの対応する回転角度にマッピングされる。
開示される技術のいくつかの実施形態では、ビデオデータ処理方法はさらに、アトラス属性データボックスを識別するステップを含み、これは、アトラスが、テクスチャ情報および/または深度情報を含有するかどうかを示し、かつアトラスの識別を示す。代替として、アトラスを含有するテクスチャ情報に属する、ビデオトラックと、アトラスの深度情報を含有する、ビデオトラックは、第3のトラックグループタイプに基づいて識別される。
開示される技術のいくつかの実施形態では、カメラパラメータは、ファイルレベルカメラパラメータリストデータボックスを識別し、多視点ビューを撮影するためのカメラパラメータ情報を示すために使用されてもよい。代替として、制限されたソリューション情報を識別するためのアトラスカメラパラメータリストデータボックスが、メディアトラック内のアトラスに対応する、ビューのカメラパラメータ情報を示すために使用される。
開示される技術のいくつかの実施形態では、カメラパラメータは、以下、すなわち、カメラ場所に関する座標情報、カメラ場所に関する座標回転情報、カメラマッピングフォーマット情報、カメラ深度定量化情報のうちの少なくとも1つを含んでもよい。
本明細書に説明される実施形態のうちのいくつかは、方法またはプロセスの一般的文脈で説明され、これは、一実施形態では、ネットワーク化された環境内でコンピュータによって実行される、プログラムコード等のコンピュータ実行可能命令を含む、コンピュータ可読媒体で具現化されるコンピュータプログラム製品によって実装され得る。コンピュータ可読媒体は、限定ではないが、読取専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)等を含む、リムーバブルおよび非リムーバブル記憶デバイスを含んでもよい。したがって、コンピュータ可読媒体は、非一過性の記憶媒体を含むことができる。概して、プログラムモジュールは、特定のタスクを実施する、または特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含んでもよい。コンピュータまたはプロセッサ実行可能命令、関連付けられるデータ構造、およびプログラムモジュールは、本明細書に開示される方法のステップを実行するためのプログラムコードの実施例を表す。そのような実行可能命令または関連付けられるデータ構造の特定のシーケンスは、そのようなステップまたはプロセスで説明される機能を実装するための対応する行為の実施例を表す。
開示される実施形態のうちのいくつかは、ハードウェア回路、ソフトウェア、またはそれらの組み合わせを使用する、デバイスまたはモジュールとして実装されることができる。例えば、ハードウェア回路実装は、例えば、プリント回路基板の一部として統合される、離散アナログおよび/またはデジタルコンポーネントを含むことができる。代替として、または加えて、開示されるコンポーネントまたはモジュールは、特定用途向け集積回路(ASIC)として、および/またはフィールドプログラマブルゲートアレイ(FPGA)デバイスとして実装されることができる。いくつかの実装は、加えて、または代替として、本願の開示される機能性と関連付けられるデジタル信号処理の動作の必要性のために最適化されるアーキテクチャを伴う特殊マイクロプロセッサである、デジタル信号プロセッサ(DSP)を含んでもよい。同様に、各モジュール内の種々のコンポーネントまたはサブコンポーネントが、ソフトウェア、ハードウェア、またはファームウェアで実装されてもよい。モジュールおよび/またはモジュール内のコンポーネントの間のコネクティビティは、限定ではないが、適切なプロトコルを使用する、インターネット、有線、または無線ネットワークを経由した通信を含む、当技術分野で公知であるコネクティビティ方法および媒体のうちのいずれか1つを使用して、提供され得る。
本書は、多くの詳細を含有するが、これらは、請求される発明または請求され得るものの範囲への限定としてではなく、むしろ、特定の実施形態に特有の特徴の説明として解釈されるべきである。別個の実施形態との関連で本書に説明されるある特徴もまた、単一の実施形態において組み合わせて実装されることができる。逆に、単一の実施形態との関連で説明される種々の特徴もまた、複数の実施形態において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴が、ある組み合わせにおいて作用するものとして上記に説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つまたはそれを上回る特徴は、ある場合には、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で、または連続的順序で実施されること、または全ての図示される動作が実施されることを要求するものとして理解されるべきではない。
いくつかの実装および実施例のみが、説明され、他の実装、向上、および変形例も、本開示に説明および図示されるものに基づいて成されることができる。
上記および他の側面およびその実装は、図面、説明、および請求項において、より詳細に説明される。
本発明は、例えば、以下を提供する。
(項目1)
メディアコンテンツを構築する方法であって、
各メディアサンプルが、複数のビューのうちの1つまたはそれを上回るものに対応し、上記対応するビューのテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも1つを含むように、複数のメディアサンプルを、1つまたはそれを上回る基本ビューおよび1つまたはそれを上回る付加的ビューを含む複数のビューと関連付けられるメディアファイルの中に設置することと、
各メディアトラックが、上記対応するビューについての情報を説明するための1つまたはそれを上回るインジケータを含むように、上記1つまたはそれを上回る基本ビューおよび1つまたはそれを上回る付加的ビューメディアトラックに対応する基本ビューメディアトラックを決定することと、
上記複数のメディアサンプルを、そのそれぞれが1つの基本ビューと関連付けられる1つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、またはその中に上記複数のメディアサンプルが設置される複数のメディアトラックをグループ化することによって、上記1つまたはそれを上回るインジケータに基づいて、上記メディアコンテンツを上記複数のメディアサンプルから構築することと
を含む、方法。
(項目2)
各基本ビューは、n個の基本ビューアトラスに対応する、項目1に記載の方法。
(項目3)
パッチは、上記基本ビューアトラスに基づいて入手される、項目2に記載の方法。
(項目4)
上記メディアコンテンツは、1つまたはそれを上回る基本ビューと1つまたはそれを上回る付加的ビューの組み合わせに基づいて構築される、項目2に記載の方法。
(項目5)
上記1つまたはそれを上回るインジケータは、サンプルグループの中に、2つまたはそれを上回る基本ビューに対応する上記複数のメディアサンプルをグループ化するためのインジケータを含む、項目4に記載の方法。
(項目6)
上記1つまたはそれを上回るインジケータは、各メディアトラックが、上記テクスチャコンポーネントまたは上記深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む、項目1に記載の方法。
(項目7)
上記1つまたはそれを上回るインジケータは、各メディアトラックが、上記テクスチャコンポーネントまたは上記深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む、項目1に記載の方法。
(項目8)
上記1つまたはそれを上回るインジケータは、上記メディアトラック内に含有される上記テクスチャコンポーネントおよび上記深度コンポーネントの部分を定義するためのアトラス属性インジケータを含む、項目1に記載の方法。
(項目9)
上記1つまたはそれを上回るインジケータは、上記対応するビューを説明するためのビュー識別子を含む、項目1に記載の方法。
(項目10)
上記メディアコンテンツの構築は、異なるメディアサンプルからのパッチを組み合わせることを含む、項目1に記載の方法。
(項目11)
上記1つまたはそれを上回るインジケータは、各メディアサンプル内のパッチの数を説明するインジケータを含む、項目10に記載の方法。
(項目12)
上記1つまたはそれを上回るインジケータは、パッチが、ビューアトラスから、上記複数のビューと関連付けられるメディアサンプルにマッピングする回転角度に対するパッチ回転インジケータを含む、項目10に記載の方法。
(項目13)
メディアコンテンツを構築する方法であって、
各メディアサンプルが、複数のビューのうちの1つに対応し、上記対応するビューと関連付けられるテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも1つを含むように、複数のメディアサンプルを、複数の基本ビューおよび複数の付加的ビューを含む複数のビューと関連付けられるメディアファイルの中に設置することと、
各メディアトラックが、上記対応するビューについての情報を説明するための1つまたはそれを上回るインジケータを含むように、それぞれ、上記複数の基本ビューに対応する複数の基本ビューメディアトラック、およびそれぞれ、上記複数の付加的ビューに対応する複数の付加的ビューメディアトラックを決定することと、
上記複数のメディアサンプルを、そのそれぞれが少なくとも1つの基本ビューと関連付けられる1つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、上記1つまたはそれを上回るインジケータに基づいて、上記メディアコンテンツを上記複数のメディアサンプルから構築することと
を含む、方法。
(項目14)
上記1つまたはそれを上回る基本ビューに基づいて入手された画像は、他の画像を予測するためのベース画像として使用される、項目13に記載の方法。
(項目15)
各基本ビューは、基本ビューアトラスに対応する、項目14に記載の方法。
(項目16)
上記画像は、上記基本ビューアトラスに基づいて入手される、項目15に記載の方法。
(項目17)
各基本ビューアトラスは、別個のコードストリーム内に記憶される、項目15に記載の方法。
(項目18)
上記1つまたはそれを上回るインジケータは、異なるビューを含有する異なるメディアトラックをグループ化するためのグループ化タイプを説明するエンティティレベルグループ化インジケータを含む、項目13に記載の方法。
(項目19)
上記エンティティレベルグループ化インジケータは、基本ビューと付加的ビューとの間のグループ化情報を含む、項目18に記載の方法。
(項目20)
上記エンティティレベルグループ化インジケータは、グループ内のエンティティの数を含む、項目18に記載の方法。
(項目21)
各メディアトラックは、上記複数のビューを基本ビューまたは付加的ビューとして識別するためのインジケータを含む、項目13に記載の方法。
(項目22)
メディアコンテンツを構築する方法であって、
複数のビューと関連付けられるメディアファイルの中に、視認方向、視認位置、および視認ウィンドウに従って、上記複数のビューに対応する、カメラパラメータを含むカメラ情報を設置することと、
上記カメラパラメータ情報に基づいて、メディアメタデータを上記メディアファイルから選択することと、
上記メディアメタデータに基づいて、上記メディアコンテンツを構築することと
を含む、方法。
(項目23)
上記カメラ情報は、メディアファイルベースで抽出される、項目22に記載の方法。
(項目24)
上記カメラ情報は、メディアトラックベースで抽出される、項目22に記載の方法。
(項目25)
上記複数のメディアトラックはそれぞれ、上記複数のビューのパッチからのものであり、各ビューは、1つのカメラに対応する、項目22-24のいずれかに記載の方法。
(項目26)
上記ユーザの複数のビューは、少なくとも1つの基本ビューと、上記少なくとも1つの基本ビューと関連付けられる少なくとも1つの付加的ビューとを含む、項目22-24のいずれかに記載の方法。
(項目27)
上記少なくとも1つの基本ビューのメディアメタデータは、上記少なくとも1つの基本ビューと関連付けられる少なくとも1つの付加的ビューのベース画像として使用される、項目26に記載の方法。
(項目28)
上記ユーザの複数のビューは、それぞれ、異なるメディアトラック内に記憶される2つまたはそれを上回る基本ビューを含む、項目22-24のいずれかに記載の方法。
(項目29)
上記カメラ情報は、上記メディアトラックグループ内のメディアデータが、上記メディアトラックグループに対応するある空間範囲内の画像をデコーディングするために使用されるべきであることを示すメディアトラックグループを含む、項目22-24のいずれかに記載の方法。
(項目30)
メモリと、プロセッサとを備える無線通信のための装置であって、上記プロセッサは、コードを上記メモリから読み取り、項目1-29のいずれかに記載の方法を実装する、装置。
(項目31)
コンピュータ可読プログラム記憶媒体であって、上記コンピュータ可読プログラム記憶媒体は、その上に記憶されるコードを有し、上記コードは、プロセッサによって実行されると、上記プロセッサに、項目1-29のいずれかに記載の方法を実装させる、コンピュータ可読プログラム記憶媒体。

Claims (31)

  1. メディアコンテンツを構築する方法であって、
    各メディアサンプルが、複数のビューのうちの1つまたはそれを上回るものに対応し、前記対応するビューのテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも1つを含むように、複数のメディアサンプルを、1つまたはそれを上回る基本ビューおよび1つまたはそれを上回る付加的ビューを含む複数のビューと関連付けられるメディアファイルの中に設置することと、
    各メディアトラックが、前記対応するビューについての情報を説明するための1つまたはそれを上回るインジケータを含むように、前記1つまたはそれを上回る基本ビューおよび1つまたはそれを上回る付加的ビューメディアトラックに対応する基本ビューメディアトラックを決定することと、
    前記複数のメディアサンプルを、そのそれぞれが1つの基本ビューと関連付けられる1つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、またはその中に前記複数のメディアサンプルが設置される複数のメディアトラックをグループ化することによって、前記1つまたはそれを上回るインジケータに基づいて、前記メディアコンテンツを前記複数のメディアサンプルから構築することと
    を含む、方法。
  2. 各基本ビューは、n個の基本ビューアトラスに対応する、請求項1に記載の方法。
  3. パッチは、前記基本ビューアトラスに基づいて入手される、請求項2に記載の方法。
  4. 前記メディアコンテンツは、1つまたはそれを上回る基本ビューと1つまたはそれを上回る付加的ビューの組み合わせに基づいて構築される、請求項2に記載の方法。
  5. 前記1つまたはそれを上回るインジケータは、サンプルグループの中に、2つまたはそれを上回る基本ビューに対応する前記複数のメディアサンプルをグループ化するためのインジケータを含む、請求項4に記載の方法。
  6. 前記1つまたはそれを上回るインジケータは、各メディアトラックが、前記テクスチャコンポーネントまたは前記深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む、請求項1に記載の方法。
  7. 前記1つまたはそれを上回るインジケータは、各メディアトラックが、前記テクスチャコンポーネントまたは前記深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む、請求項1に記載の方法。
  8. 前記1つまたはそれを上回るインジケータは、前記メディアトラック内に含有される前記テクスチャコンポーネントおよび前記深度コンポーネントの部分を定義するためのアトラス属性インジケータを含む、請求項1に記載の方法。
  9. 前記1つまたはそれを上回るインジケータは、前記対応するビューを説明するためのビュー識別子を含む、請求項1に記載の方法。
  10. 前記メディアコンテンツの構築は、異なるメディアサンプルからのパッチを組み合わせることを含む、請求項1に記載の方法。
  11. 前記1つまたはそれを上回るインジケータは、各メディアサンプル内のパッチの数を説明するインジケータを含む、請求項10に記載の方法。
  12. 前記1つまたはそれを上回るインジケータは、パッチが、ビューアトラスから、前記複数のビューと関連付けられるメディアサンプルにマッピングする回転角度に対するパッチ回転インジケータを含む、請求項10に記載の方法。
  13. メディアコンテンツを構築する方法であって、
    各メディアサンプルが、複数のビューのうちの1つに対応し、前記対応するビューと関連付けられるテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも1つを含むように、複数のメディアサンプルを、複数の基本ビューおよび複数の付加的ビューを含む複数のビューと関連付けられるメディアファイルの中に設置することと、
    各メディアトラックが、前記対応するビューについての情報を説明するための1つまたはそれを上回るインジケータを含むように、それぞれ、前記複数の基本ビューに対応する複数の基本ビューメディアトラック、およびそれぞれ、前記複数の付加的ビューに対応する複数の付加的ビューメディアトラックを決定することと、
    前記複数のメディアサンプルを、そのそれぞれが少なくとも1つの基本ビューと関連付けられる1つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、前記1つまたはそれを上回るインジケータに基づいて、前記メディアコンテンツを前記複数のメディアサンプルから構築することと
    を含む、方法。
  14. 前記1つまたはそれを上回る基本ビューに基づいて入手された画像は、他の画像を予測するためのベース画像として使用される、請求項13に記載の方法。
  15. 各基本ビューは、基本ビューアトラスに対応する、請求項14に記載の方法。
  16. 前記画像は、前記基本ビューアトラスに基づいて入手される、請求項15に記載の方法。
  17. 各基本ビューアトラスは、別個のコードストリーム内に記憶される、請求項15に記載の方法。
  18. 前記1つまたはそれを上回るインジケータは、異なるビューを含有する異なるメディアトラックをグループ化するためのグループ化タイプを説明するエンティティレベルグループ化インジケータを含む、請求項13に記載の方法。
  19. 前記エンティティレベルグループ化インジケータは、基本ビューと付加的ビューとの間のグループ化情報を含む、請求項18に記載の方法。
  20. 前記エンティティレベルグループ化インジケータは、グループ内のエンティティの数を含む、請求項18に記載の方法。
  21. 各メディアトラックは、前記複数のビューを基本ビューまたは付加的ビューとして識別するためのインジケータを含む、請求項13に記載の方法。
  22. メディアコンテンツを構築する方法であって、
    複数のビューと関連付けられるメディアファイルの中に、視認方向、視認位置、および視認ウィンドウに従って、前記複数のビューに対応する、カメラパラメータを含むカメラ情報を設置することと、
    前記カメラパラメータ情報に基づいて、メディアメタデータを前記メディアファイルから選択することと、
    前記メディアメタデータに基づいて、前記メディアコンテンツを構築することと
    を含む、方法。
  23. 前記カメラ情報は、メディアファイルベースで抽出される、請求項22に記載の方法。
  24. 前記カメラ情報は、メディアトラックベースで抽出される、請求項22に記載の方法。
  25. 前記複数のメディアトラックはそれぞれ、前記複数のビューのパッチからのものであり、各ビューは、1つのカメラに対応する、請求項22-24のいずれかに記載の方法。
  26. 前記ユーザの複数のビューは、少なくとも1つの基本ビューと、前記少なくとも1つの基本ビューと関連付けられる少なくとも1つの付加的ビューとを含む、請求項22-24のいずれかに記載の方法。
  27. 前記少なくとも1つの基本ビューのメディアメタデータは、前記少なくとも1つの基本ビューと関連付けられる少なくとも1つの付加的ビューのベース画像として使用される、請求項26に記載の方法。
  28. 前記ユーザの複数のビューは、それぞれ、異なるメディアトラック内に記憶される2つまたはそれを上回る基本ビューを含む、請求項22-24のいずれかに記載の方法。
  29. 前記カメラ情報は、前記メディアトラックグループ内のメディアデータが、前記メディアトラックグループに対応するある空間範囲内の画像をデコーディングするために使用されるべきであることを示すメディアトラックグループを含む、請求項22-24のいずれかに記載の方法。
  30. メモリと、プロセッサとを備える無線通信のための装置であって、前記プロセッサは、コードを前記メモリから読み取り、請求項1-29のいずれかに記載の方法を実装する、装置。
  31. コンピュータ可読プログラム記憶媒体であって、前記コンピュータ可読プログラム記憶媒体は、その上に記憶されるコードを有し、前記コードは、プロセッサによって実行されると、前記プロセッサに、請求項1-29のいずれかに記載の方法を実装させる、コンピュータ可読プログラム記憶媒体。
JP2022531493A 2019-11-29 2019-11-29 マルチビュービデオ処理方法および装置 Pending JP2023504097A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/122095 WO2021102953A1 (en) 2019-11-29 2019-11-29 Multi-view video processing method and apparatus

Publications (1)

Publication Number Publication Date
JP2023504097A true JP2023504097A (ja) 2023-02-01

Family

ID=76129052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022531493A Pending JP2023504097A (ja) 2019-11-29 2019-11-29 マルチビュービデオ処理方法および装置

Country Status (6)

Country Link
US (1) US20220286659A1 (ja)
EP (1) EP4066513A4 (ja)
JP (1) JP2023504097A (ja)
KR (1) KR102647019B1 (ja)
CN (1) CN114556962B (ja)
WO (1) WO2021102953A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114697631B (zh) * 2022-04-26 2023-03-21 腾讯科技(深圳)有限公司 沉浸媒体的处理方法、装置、设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102388613B (zh) * 2009-04-09 2014-04-30 瑞典爱立信有限公司 媒体容器文件管理
US9584792B2 (en) * 2013-01-04 2017-02-28 Qualcomm Incorporated Indication of current view dependency on reference view in multiview coding file format
GB2527786B (en) * 2014-07-01 2016-10-26 Canon Kk Method, device, and computer program for encapsulating HEVC layered media data
US9922680B2 (en) * 2015-02-10 2018-03-20 Nokia Technologies Oy Method, an apparatus and a computer program product for processing image sequence tracks
US20160373771A1 (en) * 2015-06-18 2016-12-22 Qualcomm Incorporated Design of tracks and operation point signaling in layered hevc file format
US11172005B2 (en) * 2016-09-09 2021-11-09 Nokia Technologies Oy Method and apparatus for controlled observation point and orientation selection audiovisual content
US10880570B2 (en) * 2016-10-05 2020-12-29 Qualcomm Incorporated Systems and methods of adaptively determining template size for illumination compensation
US10389994B2 (en) * 2016-11-28 2019-08-20 Sony Corporation Decoder-centric UV codec for free-viewpoint video streaming
EP3349182A1 (en) * 2017-01-13 2018-07-18 Thomson Licensing Method, apparatus and stream for immersive video format
GB2560921B (en) * 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
US10515477B2 (en) * 2018-02-06 2019-12-24 A9.Com, Inc. Photorealistic three dimensional texturing using canonical views and a two-stage approach
US10944977B2 (en) * 2018-04-03 2021-03-09 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding overlay compositions
US11212506B2 (en) * 2018-07-31 2021-12-28 Intel Corporation Reduced rendering of six-degree of freedom video
US10887574B2 (en) * 2018-07-31 2021-01-05 Intel Corporation Selective packing of patches for immersive video
WO2020076058A1 (ko) * 2018-10-08 2020-04-16 삼성전자 주식회사 3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법 및 장치 및 3차원 비디오 컨텐츠를 재생하는 방법 및 장치
KR20200143287A (ko) * 2019-06-14 2020-12-23 한국전자통신연구원 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
US11432009B2 (en) * 2019-07-02 2022-08-30 Intel Corporation Techniques for encoding and decoding immersive video
US11627314B2 (en) * 2019-09-27 2023-04-11 Apple Inc. Video-based point cloud compression with non-normative smoothing

Also Published As

Publication number Publication date
EP4066513A1 (en) 2022-10-05
CN114556962B (zh) 2024-01-30
EP4066513A4 (en) 2023-01-25
WO2021102953A1 (en) 2021-06-03
KR20220101169A (ko) 2022-07-19
US20220286659A1 (en) 2022-09-08
CN114556962A (zh) 2022-05-27
KR102647019B1 (ko) 2024-03-12

Similar Documents

Publication Publication Date Title
JP6984841B2 (ja) イメージ処理方法、端末およびサーバ
KR102559862B1 (ko) 미디어 콘텐츠 전송을 위한 방법, 디바이스, 및 컴퓨터 프로그램
CN113852829A (zh) 点云媒体文件的封装与解封装方法、装置及存储介质
CN114095737B (zh) 媒体文件封装及解封装方法、装置、设备及存储介质
CN113891117B (zh) 沉浸媒体的数据处理方法、装置、设备及可读存储介质
CN115379189B (zh) 一种点云媒体的数据处理方法及相关设备
CN113949829B (zh) 媒体文件封装及解封装方法、装置、设备及存储介质
CN115396645A (zh) 一种沉浸媒体的数据处理方法、装置、设备及存储介质
US20220286659A1 (en) Multi-view video processing method and apparatus
CN115022715B (zh) 一种沉浸媒体的数据处理方法及设备
CN115396647B (zh) 一种沉浸媒体的数据处理方法、装置、设备及存储介质
CN115086635B (zh) 多视角视频的处理方法、装置、设备及存储介质
CN115102932B (zh) 点云媒体的数据处理方法、装置、设备、存储介质及产品
CN113497928B (zh) 一种沉浸媒体的数据处理方法及相关设备
EP4290866A1 (en) Media file encapsulation method and apparatus, media file decapsulation method and apparatus, device and storage medium
WO2023016293A1 (zh) 自由视角视频的文件封装方法、装置、设备及存储介质
CN116137664A (zh) 点云媒体文件封装方法、装置、设备及存储介质
CN115481280A (zh) 容积视频的数据处理方法、装置、设备及可读存储介质
CN116781676A (zh) 一种点云媒体的数据处理方法、装置、设备及介质
CN115733576A (zh) 点云媒体文件的封装与解封装方法、装置及存储介质
CN118158377A (zh) 点云媒体的数据处理方法、装置、设备、存储介质及产品
CN117082262A (zh) 点云文件封装与解封装方法、装置、设备及存储介质
CN115426502A (zh) 点云媒体的数据处理方法、装置、设备及存储介质
CN115941995A (zh) 媒体文件封装与解封装方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220725

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240507