JP2023504097A - マルチビュービデオ処理方法および装置 - Google Patents
マルチビュービデオ処理方法および装置 Download PDFInfo
- Publication number
- JP2023504097A JP2023504097A JP2022531493A JP2022531493A JP2023504097A JP 2023504097 A JP2023504097 A JP 2023504097A JP 2022531493 A JP2022531493 A JP 2022531493A JP 2022531493 A JP2022531493 A JP 2022531493A JP 2023504097 A JP2023504097 A JP 2023504097A
- Authority
- JP
- Japan
- Prior art keywords
- media
- views
- view
- base
- track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title description 12
- 238000000034 method Methods 0.000 claims abstract description 111
- 238000004891 communication Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 10
- 238000009877 rendering Methods 0.000 abstract description 5
- 230000005540 biological transmission Effects 0.000 abstract 1
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 73
- 238000005516 engineering process Methods 0.000 description 68
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 4
- 101150072037 ATP6V0C gene Proteins 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/156—Mixing image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/128—Adjusting depth or disparity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/189—Recording image signals; Reproducing recorded image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/194—Transmission of image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/275—Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
- H04N13/279—Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8146—Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
- H04N21/8153—Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
- H04N13/117—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Graphics (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
没入型メディアは、ユーザが、オーディオおよびビデオ技術を通した視覚的およびオーディオ体験を通して、高度に現実的な仮想空間環境を体験することを可能にする。現在、没入型体験は、主に、パノラマビデオをサポートする。例えば、ユーザは、頭部ディスプレイデバイスを通した頭部の自由回転を通して、360度ビデオ、すなわち、3自由度(3DOF)没入型体験を視聴することができる。向上された3自由度(3DOF+)および部分的6自由度(6DOF)をサポートする、ビデオに関して、ユーザの頭部はまた、限定された範囲内で移動し、オクルードされた視覚的コンテンツ等のさらなる詳細を視認することができる。
「version」は、ボックのバージョンを示す。
「grouping_type」は、サンプルグループ化のタイプを示し、それをgrouping_typeに関する同一値を伴うそのサンプルグループ説明エントリにリンクする。
「grouping_type_parameter」は、グループ化のサブタイプを示す。
「entry_count」は、以下のテーブル内のサンプリングエントリの数を示す。
「sample_count」は、同一サンプルグループに属する、連続サンプルの数を示す。
「group_description_index」は、本グループ内のサンプルを説明するサンプルグループエントリのインデックスを示す。
「group_id」は、それに対して現在のサンプルが属する、グループ識別子を示す。
「view_idx」は、現在のサンプルに対応する、基本ビューインデックス識別子、すなわち、それに対してサンプルが対応する、ビューを示す。
「camera_idx」は、基本ビューに対応する、カメラインデックス識別子を示す。
「num_ref_views」は、基本ビューアトラスのセットを参照する、他の付加的ビューの数を示す。
「additional_view_idx」は、グループ内の基本ビューと関連付けられる、付加的ビューのインデックス識別子を示す。
「track_id」は、関連付けられる付加的ビューが対応するサンプルが位置する、メディアトラックIDを示す。
「texture_or_depth_flag」は、関連付けられる付加的ビューが対応する、サンプルを含有する、メディアトラックが、テクスチャコンポーネントおよび/または深度コンポーネントを含むかどうかを示す。それが0に等しいとき、両方を含み、それが1に等しいとき、テクスチャコンポーネントのみを含む。
「depth_track_id」は、関連付けられる付加的ビューが対応する深度コンポーネントが位置する、メディアトラックIDを示す。
「texture_in_track」は、メディアトラックがテクスチャコンポーネントを含有するかどうかを示す。
「depth_in_track」は、メディアトラックが深度コンポーネントを含有するかどうかを示す。
「atlas_id」は、テクスチャコンポーネントおよび/または深度コンポーネントがメディアトラック内で属する、アトラスの識別子を示す。
「texture_or_depth」は、グループのサンプルが、テクスチャまたは深度コンポーネントにグループ化されることを示す。texture_or_depthが、0に等しいとき、サンプルは、テクスチャコンポーネントにグループ化され、texture_or_depthが、1に等しいとき、サンプルは、深度コンポーネントにグループ化される。
「num_basicview_flag」は、メディアトラック内のサンプルが、複数の基本ビューに対応するかどうかを示し、それが、0に等しいとき、1つのみの基本ビューに対応し、これらのサンプルは、基本ビューによってグループ化されず、それが、1に等しいとき、2つを上回る基本ビューに対応する。
「group_id」は、メディアトラック内の複数の基本ビューのためのサンプルに関して、基本ビューに基づいて、サンプルグループのグループ化識別子を示す。
「num_atlases」は、アトラスの数を示す。
「num_views」は、ビューの数を示す。
「atlas_id」は、アトラスの識別子を示す。
「num_patches」は、アトラス内に含有されるパッチの数を示す。
「view_id」は、パッチが属する、ビュー識別子を示す。
「group_id」は、基本ビューおよびその関連付けられる付加的ビューに基づいて、グループ化のグループ識別子を示し、group_idが、0に等しいとき、1つのみの基本ビューであって、ビューは、グループ化される必要がない。
「patch_width_in_view」および「patch_height_in_view」は、それぞれ、輝度サンプル内のパッチの幅および高さを示す。
「patch_pos_in_atlas_x」および「patch_pos_in_atlas_y」は、それぞれ、アトラス内のX-軸およびY-軸の座標を示す。
「patch_pos_in_view_x」および「patch_pos_in_view_y」は、それぞれ、輝度サンプリング内のパッチのX-軸およびY-軸の座標を示す。
「sample_count」は、ある時間周期にわたる連続サンプルの数を示す。
「num_patches」は、アトラス内に含まれるパッチの数を示す。
「view_id」は、本パッチが属する、ビュー識別子を示す。
「patch_width_in_view」および「patch_height_in_view」は、それぞれ、輝度サンプル内のパッチの幅および高さを示す。
「patch_pos_in_atlas_x」および「patch_pos_in_atlas_y」は、それぞれ、アトラス内のパッチのX-軸およびY-軸の座標を示す。
「patch_pos_in_view_x」および「patch_pos_in_view_y」は、それぞれ、輝度サンプル内のX-軸およびY-軸の座標を示す。
「patch_rotation」は、アトラスからビュー画像までのパッチの回転角度を示す。それが、0に等しいとき、回転が存在しないことを示し、それが、1に等しいとき、時計回りに90度の回転を示し、1を上回る他の値は、一時的に留保される。
「basic_view_idx」は、メディアトラック内のアトラスに対応する、基本ビューの識別子である。
「camera_idx」は、基本ビューに対応する、カメラの識別子を示す。
「additional_view_idx」は、基本ビューを参照する、付加的ビューの識別子を示す。
「track_id」は、基本ビューと関連付けられる付加的ビューに対応する、アトラスを含有する、メディアトラックの識別子を示す。
「texture_or_depth_flag」は、サンプルに対応する付加的ビューと関連付けられる、サンプルを含有する、メディアトラックが、テクスチャコンポーネントおよび/または深度コンポーネントを含むかどうかを示し、それが、0である場合、両方を含み、それが、1である場合、テクスチャコンポーネントのみを含む。
「depth_track_id」は、関連付けられる付加的ビューが対応する、深度コンポーネントが位置する、メディアトラックIDを示す。
「group_id」は、各ボックスに説明されるグループ化のためのグループ識別子を示す。
「num_entities_in_group」は、グループ内のエンティティの数を示す。
「entity_id」は、track_idに等しい、その中にそれが属するアトラスが設置される、メディアトラックのエンティティ識別子を示す。
「is_basic_view」は、グループ内のグループメンバーメディアトラックが基本ビューを含むかどうかを示す。それが、1に等しいとき、グループ内のグループメンバーメディアトラックは、基本ビューを含有する、またはそれが、0であるとき、グループ内のグループメンバーメディアトラックは、基本ビューを含有せず、1つのみのグループメンバーが、1の値を有する。
「is_texture_in_entity」は、グループ内のあるグループメンバーのメディアトラックが、ビューが属する、アトラスのテクスチャコンポーネントを含有するかどうかを示す。
「is_depth_in_entity」は、グループ内のグループメンバーのメディアトラックが、ビューが属する、アトラスの深度コンポーネントを含有するかどうかを示す。
「num_cameras」は、カメラの数を示す。
「view_idx」は、カメラによって捕捉されたビューの識別子であって、それによってビューに対応する、カメラが、見出されることができる。
「camera_pos_x」、「camera_pos_y」、および「camera_pos_z」は、グローバル参照座標系内のカメラの位置を示す。
「projection_type」は、カメラの投影方法を示す。それが、0に等しいとき、インジケーションは、ERP投影モードであって、それが、1に等しいとき、インジケーションは、CMP投影モードであって、それが、2に等しいとき、インジケーションは、透視投影であって、値は、0~255に及び、そのうちの3~255は、必要に応じて、将来的に定義され得る。
「projection_plane_width」および「projection_plane_height」はカメラ投影平面の水平および垂直分解能を示し、これは、エンコーディングされた明度サンプリングの水平および垂直分解能によって示される。
「erp_phi_min」および「erp_phi_max」は、ERP投影の緯度範囲(最小および最大)を示す。
「erp_theta_min」および「erp_theta_max」は、ERP投影の経度範囲(最小および最大)を示す。
「perspective_focal_hor」および「perspective_focal_ver」は、輝度サンプル位置単位における、それぞれ、透視投影の焦点の水平および垂直コンポーネントを示す。
「perspective_center_hor」および「perspective_center_ver」は、輝度サンプル位置における、それぞれ、透視投影の主点の水平および垂直座標を示す。
「quantization_law」は、カメラの深度数値化方法のタイプを示す。
「depth_near,depth_far」は、それぞれ、最小および最大正規化視差値を示す。
「cubic_map_type」は、CMP投影のタイプを示す。それが、0に等しいとき、インジケーションは、完全投影モード(6パッケージ面)であって、それが、0を上回るとき、一時的に留保される。
「rotation_yaw」および「rotation_pitch」および「rotation_roll」は、カメラが、それぞれ、X、Y、およびZ軸に沿って回転するためのヨー角度、ピッチ角、およびロール角度を規定する。
本発明は、例えば、以下を提供する。
(項目1)
メディアコンテンツを構築する方法であって、
各メディアサンプルが、複数のビューのうちの1つまたはそれを上回るものに対応し、上記対応するビューのテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも1つを含むように、複数のメディアサンプルを、1つまたはそれを上回る基本ビューおよび1つまたはそれを上回る付加的ビューを含む複数のビューと関連付けられるメディアファイルの中に設置することと、
各メディアトラックが、上記対応するビューについての情報を説明するための1つまたはそれを上回るインジケータを含むように、上記1つまたはそれを上回る基本ビューおよび1つまたはそれを上回る付加的ビューメディアトラックに対応する基本ビューメディアトラックを決定することと、
上記複数のメディアサンプルを、そのそれぞれが1つの基本ビューと関連付けられる1つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、またはその中に上記複数のメディアサンプルが設置される複数のメディアトラックをグループ化することによって、上記1つまたはそれを上回るインジケータに基づいて、上記メディアコンテンツを上記複数のメディアサンプルから構築することと
を含む、方法。
(項目2)
各基本ビューは、n個の基本ビューアトラスに対応する、項目1に記載の方法。
(項目3)
パッチは、上記基本ビューアトラスに基づいて入手される、項目2に記載の方法。
(項目4)
上記メディアコンテンツは、1つまたはそれを上回る基本ビューと1つまたはそれを上回る付加的ビューの組み合わせに基づいて構築される、項目2に記載の方法。
(項目5)
上記1つまたはそれを上回るインジケータは、サンプルグループの中に、2つまたはそれを上回る基本ビューに対応する上記複数のメディアサンプルをグループ化するためのインジケータを含む、項目4に記載の方法。
(項目6)
上記1つまたはそれを上回るインジケータは、各メディアトラックが、上記テクスチャコンポーネントまたは上記深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む、項目1に記載の方法。
(項目7)
上記1つまたはそれを上回るインジケータは、各メディアトラックが、上記テクスチャコンポーネントまたは上記深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む、項目1に記載の方法。
(項目8)
上記1つまたはそれを上回るインジケータは、上記メディアトラック内に含有される上記テクスチャコンポーネントおよび上記深度コンポーネントの部分を定義するためのアトラス属性インジケータを含む、項目1に記載の方法。
(項目9)
上記1つまたはそれを上回るインジケータは、上記対応するビューを説明するためのビュー識別子を含む、項目1に記載の方法。
(項目10)
上記メディアコンテンツの構築は、異なるメディアサンプルからのパッチを組み合わせることを含む、項目1に記載の方法。
(項目11)
上記1つまたはそれを上回るインジケータは、各メディアサンプル内のパッチの数を説明するインジケータを含む、項目10に記載の方法。
(項目12)
上記1つまたはそれを上回るインジケータは、パッチが、ビューアトラスから、上記複数のビューと関連付けられるメディアサンプルにマッピングする回転角度に対するパッチ回転インジケータを含む、項目10に記載の方法。
(項目13)
メディアコンテンツを構築する方法であって、
各メディアサンプルが、複数のビューのうちの1つに対応し、上記対応するビューと関連付けられるテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも1つを含むように、複数のメディアサンプルを、複数の基本ビューおよび複数の付加的ビューを含む複数のビューと関連付けられるメディアファイルの中に設置することと、
各メディアトラックが、上記対応するビューについての情報を説明するための1つまたはそれを上回るインジケータを含むように、それぞれ、上記複数の基本ビューに対応する複数の基本ビューメディアトラック、およびそれぞれ、上記複数の付加的ビューに対応する複数の付加的ビューメディアトラックを決定することと、
上記複数のメディアサンプルを、そのそれぞれが少なくとも1つの基本ビューと関連付けられる1つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、上記1つまたはそれを上回るインジケータに基づいて、上記メディアコンテンツを上記複数のメディアサンプルから構築することと
を含む、方法。
(項目14)
上記1つまたはそれを上回る基本ビューに基づいて入手された画像は、他の画像を予測するためのベース画像として使用される、項目13に記載の方法。
(項目15)
各基本ビューは、基本ビューアトラスに対応する、項目14に記載の方法。
(項目16)
上記画像は、上記基本ビューアトラスに基づいて入手される、項目15に記載の方法。
(項目17)
各基本ビューアトラスは、別個のコードストリーム内に記憶される、項目15に記載の方法。
(項目18)
上記1つまたはそれを上回るインジケータは、異なるビューを含有する異なるメディアトラックをグループ化するためのグループ化タイプを説明するエンティティレベルグループ化インジケータを含む、項目13に記載の方法。
(項目19)
上記エンティティレベルグループ化インジケータは、基本ビューと付加的ビューとの間のグループ化情報を含む、項目18に記載の方法。
(項目20)
上記エンティティレベルグループ化インジケータは、グループ内のエンティティの数を含む、項目18に記載の方法。
(項目21)
各メディアトラックは、上記複数のビューを基本ビューまたは付加的ビューとして識別するためのインジケータを含む、項目13に記載の方法。
(項目22)
メディアコンテンツを構築する方法であって、
複数のビューと関連付けられるメディアファイルの中に、視認方向、視認位置、および視認ウィンドウに従って、上記複数のビューに対応する、カメラパラメータを含むカメラ情報を設置することと、
上記カメラパラメータ情報に基づいて、メディアメタデータを上記メディアファイルから選択することと、
上記メディアメタデータに基づいて、上記メディアコンテンツを構築することと
を含む、方法。
(項目23)
上記カメラ情報は、メディアファイルベースで抽出される、項目22に記載の方法。
(項目24)
上記カメラ情報は、メディアトラックベースで抽出される、項目22に記載の方法。
(項目25)
上記複数のメディアトラックはそれぞれ、上記複数のビューのパッチからのものであり、各ビューは、1つのカメラに対応する、項目22-24のいずれかに記載の方法。
(項目26)
上記ユーザの複数のビューは、少なくとも1つの基本ビューと、上記少なくとも1つの基本ビューと関連付けられる少なくとも1つの付加的ビューとを含む、項目22-24のいずれかに記載の方法。
(項目27)
上記少なくとも1つの基本ビューのメディアメタデータは、上記少なくとも1つの基本ビューと関連付けられる少なくとも1つの付加的ビューのベース画像として使用される、項目26に記載の方法。
(項目28)
上記ユーザの複数のビューは、それぞれ、異なるメディアトラック内に記憶される2つまたはそれを上回る基本ビューを含む、項目22-24のいずれかに記載の方法。
(項目29)
上記カメラ情報は、上記メディアトラックグループ内のメディアデータが、上記メディアトラックグループに対応するある空間範囲内の画像をデコーディングするために使用されるべきであることを示すメディアトラックグループを含む、項目22-24のいずれかに記載の方法。
(項目30)
メモリと、プロセッサとを備える無線通信のための装置であって、上記プロセッサは、コードを上記メモリから読み取り、項目1-29のいずれかに記載の方法を実装する、装置。
(項目31)
コンピュータ可読プログラム記憶媒体であって、上記コンピュータ可読プログラム記憶媒体は、その上に記憶されるコードを有し、上記コードは、プロセッサによって実行されると、上記プロセッサに、項目1-29のいずれかに記載の方法を実装させる、コンピュータ可読プログラム記憶媒体。
Claims (31)
- メディアコンテンツを構築する方法であって、
各メディアサンプルが、複数のビューのうちの1つまたはそれを上回るものに対応し、前記対応するビューのテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも1つを含むように、複数のメディアサンプルを、1つまたはそれを上回る基本ビューおよび1つまたはそれを上回る付加的ビューを含む複数のビューと関連付けられるメディアファイルの中に設置することと、
各メディアトラックが、前記対応するビューについての情報を説明するための1つまたはそれを上回るインジケータを含むように、前記1つまたはそれを上回る基本ビューおよび1つまたはそれを上回る付加的ビューメディアトラックに対応する基本ビューメディアトラックを決定することと、
前記複数のメディアサンプルを、そのそれぞれが1つの基本ビューと関連付けられる1つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、またはその中に前記複数のメディアサンプルが設置される複数のメディアトラックをグループ化することによって、前記1つまたはそれを上回るインジケータに基づいて、前記メディアコンテンツを前記複数のメディアサンプルから構築することと
を含む、方法。 - 各基本ビューは、n個の基本ビューアトラスに対応する、請求項1に記載の方法。
- パッチは、前記基本ビューアトラスに基づいて入手される、請求項2に記載の方法。
- 前記メディアコンテンツは、1つまたはそれを上回る基本ビューと1つまたはそれを上回る付加的ビューの組み合わせに基づいて構築される、請求項2に記載の方法。
- 前記1つまたはそれを上回るインジケータは、サンプルグループの中に、2つまたはそれを上回る基本ビューに対応する前記複数のメディアサンプルをグループ化するためのインジケータを含む、請求項4に記載の方法。
- 前記1つまたはそれを上回るインジケータは、各メディアトラックが、前記テクスチャコンポーネントまたは前記深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む、請求項1に記載の方法。
- 前記1つまたはそれを上回るインジケータは、各メディアトラックが、前記テクスチャコンポーネントまたは前記深度コンポーネントまたは両方を含有するかどうかを示すためのインジケータを含む、請求項1に記載の方法。
- 前記1つまたはそれを上回るインジケータは、前記メディアトラック内に含有される前記テクスチャコンポーネントおよび前記深度コンポーネントの部分を定義するためのアトラス属性インジケータを含む、請求項1に記載の方法。
- 前記1つまたはそれを上回るインジケータは、前記対応するビューを説明するためのビュー識別子を含む、請求項1に記載の方法。
- 前記メディアコンテンツの構築は、異なるメディアサンプルからのパッチを組み合わせることを含む、請求項1に記載の方法。
- 前記1つまたはそれを上回るインジケータは、各メディアサンプル内のパッチの数を説明するインジケータを含む、請求項10に記載の方法。
- 前記1つまたはそれを上回るインジケータは、パッチが、ビューアトラスから、前記複数のビューと関連付けられるメディアサンプルにマッピングする回転角度に対するパッチ回転インジケータを含む、請求項10に記載の方法。
- メディアコンテンツを構築する方法であって、
各メディアサンプルが、複数のビューのうちの1つに対応し、前記対応するビューと関連付けられるテクスチャコンポーネントまたは深度コンポーネントのうちの少なくとも1つを含むように、複数のメディアサンプルを、複数の基本ビューおよび複数の付加的ビューを含む複数のビューと関連付けられるメディアファイルの中に設置することと、
各メディアトラックが、前記対応するビューについての情報を説明するための1つまたはそれを上回るインジケータを含むように、それぞれ、前記複数の基本ビューに対応する複数の基本ビューメディアトラック、およびそれぞれ、前記複数の付加的ビューに対応する複数の付加的ビューメディアトラックを決定することと、
前記複数のメディアサンプルを、そのそれぞれが少なくとも1つの基本ビューと関連付けられる1つまたはそれを上回るメディアサンプルグループの中にグループ化することによって、前記1つまたはそれを上回るインジケータに基づいて、前記メディアコンテンツを前記複数のメディアサンプルから構築することと
を含む、方法。 - 前記1つまたはそれを上回る基本ビューに基づいて入手された画像は、他の画像を予測するためのベース画像として使用される、請求項13に記載の方法。
- 各基本ビューは、基本ビューアトラスに対応する、請求項14に記載の方法。
- 前記画像は、前記基本ビューアトラスに基づいて入手される、請求項15に記載の方法。
- 各基本ビューアトラスは、別個のコードストリーム内に記憶される、請求項15に記載の方法。
- 前記1つまたはそれを上回るインジケータは、異なるビューを含有する異なるメディアトラックをグループ化するためのグループ化タイプを説明するエンティティレベルグループ化インジケータを含む、請求項13に記載の方法。
- 前記エンティティレベルグループ化インジケータは、基本ビューと付加的ビューとの間のグループ化情報を含む、請求項18に記載の方法。
- 前記エンティティレベルグループ化インジケータは、グループ内のエンティティの数を含む、請求項18に記載の方法。
- 各メディアトラックは、前記複数のビューを基本ビューまたは付加的ビューとして識別するためのインジケータを含む、請求項13に記載の方法。
- メディアコンテンツを構築する方法であって、
複数のビューと関連付けられるメディアファイルの中に、視認方向、視認位置、および視認ウィンドウに従って、前記複数のビューに対応する、カメラパラメータを含むカメラ情報を設置することと、
前記カメラパラメータ情報に基づいて、メディアメタデータを前記メディアファイルから選択することと、
前記メディアメタデータに基づいて、前記メディアコンテンツを構築することと
を含む、方法。 - 前記カメラ情報は、メディアファイルベースで抽出される、請求項22に記載の方法。
- 前記カメラ情報は、メディアトラックベースで抽出される、請求項22に記載の方法。
- 前記複数のメディアトラックはそれぞれ、前記複数のビューのパッチからのものであり、各ビューは、1つのカメラに対応する、請求項22-24のいずれかに記載の方法。
- 前記ユーザの複数のビューは、少なくとも1つの基本ビューと、前記少なくとも1つの基本ビューと関連付けられる少なくとも1つの付加的ビューとを含む、請求項22-24のいずれかに記載の方法。
- 前記少なくとも1つの基本ビューのメディアメタデータは、前記少なくとも1つの基本ビューと関連付けられる少なくとも1つの付加的ビューのベース画像として使用される、請求項26に記載の方法。
- 前記ユーザの複数のビューは、それぞれ、異なるメディアトラック内に記憶される2つまたはそれを上回る基本ビューを含む、請求項22-24のいずれかに記載の方法。
- 前記カメラ情報は、前記メディアトラックグループ内のメディアデータが、前記メディアトラックグループに対応するある空間範囲内の画像をデコーディングするために使用されるべきであることを示すメディアトラックグループを含む、請求項22-24のいずれかに記載の方法。
- メモリと、プロセッサとを備える無線通信のための装置であって、前記プロセッサは、コードを前記メモリから読み取り、請求項1-29のいずれかに記載の方法を実装する、装置。
- コンピュータ可読プログラム記憶媒体であって、前記コンピュータ可読プログラム記憶媒体は、その上に記憶されるコードを有し、前記コードは、プロセッサによって実行されると、前記プロセッサに、請求項1-29のいずれかに記載の方法を実装させる、コンピュータ可読プログラム記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2019/122095 WO2021102953A1 (en) | 2019-11-29 | 2019-11-29 | Multi-view video processing method and apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023504097A true JP2023504097A (ja) | 2023-02-01 |
Family
ID=76129052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022531493A Pending JP2023504097A (ja) | 2019-11-29 | 2019-11-29 | マルチビュービデオ処理方法および装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220286659A1 (ja) |
EP (1) | EP4066513A4 (ja) |
JP (1) | JP2023504097A (ja) |
KR (1) | KR102647019B1 (ja) |
CN (1) | CN114556962B (ja) |
WO (1) | WO2021102953A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114697631B (zh) * | 2022-04-26 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 沉浸媒体的处理方法、装置、设备及存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102388613B (zh) * | 2009-04-09 | 2014-04-30 | 瑞典爱立信有限公司 | 媒体容器文件管理 |
US9584792B2 (en) * | 2013-01-04 | 2017-02-28 | Qualcomm Incorporated | Indication of current view dependency on reference view in multiview coding file format |
GB2527786B (en) * | 2014-07-01 | 2016-10-26 | Canon Kk | Method, device, and computer program for encapsulating HEVC layered media data |
US9922680B2 (en) * | 2015-02-10 | 2018-03-20 | Nokia Technologies Oy | Method, an apparatus and a computer program product for processing image sequence tracks |
US20160373771A1 (en) * | 2015-06-18 | 2016-12-22 | Qualcomm Incorporated | Design of tracks and operation point signaling in layered hevc file format |
US11172005B2 (en) * | 2016-09-09 | 2021-11-09 | Nokia Technologies Oy | Method and apparatus for controlled observation point and orientation selection audiovisual content |
US10880570B2 (en) * | 2016-10-05 | 2020-12-29 | Qualcomm Incorporated | Systems and methods of adaptively determining template size for illumination compensation |
US10389994B2 (en) * | 2016-11-28 | 2019-08-20 | Sony Corporation | Decoder-centric UV codec for free-viewpoint video streaming |
EP3349182A1 (en) * | 2017-01-13 | 2018-07-18 | Thomson Licensing | Method, apparatus and stream for immersive video format |
GB2560921B (en) * | 2017-03-27 | 2020-04-08 | Canon Kk | Method and apparatus for encoding media data comprising generated content |
US10515477B2 (en) * | 2018-02-06 | 2019-12-24 | A9.Com, Inc. | Photorealistic three dimensional texturing using canonical views and a two-stage approach |
US10944977B2 (en) * | 2018-04-03 | 2021-03-09 | Mediatek Singapore Pte. Ltd. | Methods and apparatus for encoding and decoding overlay compositions |
US11212506B2 (en) * | 2018-07-31 | 2021-12-28 | Intel Corporation | Reduced rendering of six-degree of freedom video |
US10887574B2 (en) * | 2018-07-31 | 2021-01-05 | Intel Corporation | Selective packing of patches for immersive video |
WO2020076058A1 (ko) * | 2018-10-08 | 2020-04-16 | 삼성전자 주식회사 | 3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법 및 장치 및 3차원 비디오 컨텐츠를 재생하는 방법 및 장치 |
KR20200143287A (ko) * | 2019-06-14 | 2020-12-23 | 한국전자통신연구원 | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 |
US11432009B2 (en) * | 2019-07-02 | 2022-08-30 | Intel Corporation | Techniques for encoding and decoding immersive video |
US11627314B2 (en) * | 2019-09-27 | 2023-04-11 | Apple Inc. | Video-based point cloud compression with non-normative smoothing |
-
2019
- 2019-11-29 KR KR1020227020559A patent/KR102647019B1/ko active IP Right Grant
- 2019-11-29 CN CN201980101328.3A patent/CN114556962B/zh active Active
- 2019-11-29 WO PCT/CN2019/122095 patent/WO2021102953A1/en unknown
- 2019-11-29 JP JP2022531493A patent/JP2023504097A/ja active Pending
- 2019-11-29 EP EP19954380.2A patent/EP4066513A4/en active Pending
-
2022
- 2022-05-24 US US17/752,828 patent/US20220286659A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4066513A1 (en) | 2022-10-05 |
CN114556962B (zh) | 2024-01-30 |
EP4066513A4 (en) | 2023-01-25 |
WO2021102953A1 (en) | 2021-06-03 |
KR20220101169A (ko) | 2022-07-19 |
US20220286659A1 (en) | 2022-09-08 |
CN114556962A (zh) | 2022-05-27 |
KR102647019B1 (ko) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6984841B2 (ja) | イメージ処理方法、端末およびサーバ | |
KR102559862B1 (ko) | 미디어 콘텐츠 전송을 위한 방법, 디바이스, 및 컴퓨터 프로그램 | |
CN113852829A (zh) | 点云媒体文件的封装与解封装方法、装置及存储介质 | |
CN114095737B (zh) | 媒体文件封装及解封装方法、装置、设备及存储介质 | |
CN113891117B (zh) | 沉浸媒体的数据处理方法、装置、设备及可读存储介质 | |
CN115379189B (zh) | 一种点云媒体的数据处理方法及相关设备 | |
CN113949829B (zh) | 媒体文件封装及解封装方法、装置、设备及存储介质 | |
CN115396645A (zh) | 一种沉浸媒体的数据处理方法、装置、设备及存储介质 | |
US20220286659A1 (en) | Multi-view video processing method and apparatus | |
CN115022715B (zh) | 一种沉浸媒体的数据处理方法及设备 | |
CN115396647B (zh) | 一种沉浸媒体的数据处理方法、装置、设备及存储介质 | |
CN115086635B (zh) | 多视角视频的处理方法、装置、设备及存储介质 | |
CN115102932B (zh) | 点云媒体的数据处理方法、装置、设备、存储介质及产品 | |
CN113497928B (zh) | 一种沉浸媒体的数据处理方法及相关设备 | |
EP4290866A1 (en) | Media file encapsulation method and apparatus, media file decapsulation method and apparatus, device and storage medium | |
WO2023016293A1 (zh) | 自由视角视频的文件封装方法、装置、设备及存储介质 | |
CN116137664A (zh) | 点云媒体文件封装方法、装置、设备及存储介质 | |
CN115481280A (zh) | 容积视频的数据处理方法、装置、设备及可读存储介质 | |
CN116781676A (zh) | 一种点云媒体的数据处理方法、装置、设备及介质 | |
CN115733576A (zh) | 点云媒体文件的封装与解封装方法、装置及存储介质 | |
CN118158377A (zh) | 点云媒体的数据处理方法、装置、设备、存储介质及产品 | |
CN117082262A (zh) | 点云文件封装与解封装方法、装置、设备及存储介质 | |
CN115426502A (zh) | 点云媒体的数据处理方法、装置、设备及存储介质 | |
CN115941995A (zh) | 媒体文件封装与解封装方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220725 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240507 |