JP7487742B2 - 画像処理装置および方法 - Google Patents

画像処理装置および方法 Download PDF

Info

Publication number
JP7487742B2
JP7487742B2 JP2021564056A JP2021564056A JP7487742B2 JP 7487742 B2 JP7487742 B2 JP 7487742B2 JP 2021564056 A JP2021564056 A JP 2021564056A JP 2021564056 A JP2021564056 A JP 2021564056A JP 7487742 B2 JP7487742 B2 JP 7487742B2
Authority
JP
Japan
Prior art keywords
information
atlas
group
linking
spatial region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021564056A
Other languages
English (en)
Other versions
JPWO2021117859A1 (ja
Inventor
遼平 高橋
光浩 平林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2021117859A1 publication Critical patent/JPWO2021117859A1/ja
Application granted granted Critical
Publication of JP7487742B2 publication Critical patent/JP7487742B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2389Multiplex stream processing, e.g. multiplex stream encrypting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

本開示は、画像処理装置および方法に関し、特に、3Dスペーシャルリージョンとアトラスタイルグループとを紐付けることができるようにした画像処理装置および方法に関する。
従来、3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドデータ(Point cloud data)の符号化・復号の標準化がMPEG(Moving Picture Experts Group)で進められている。そして、そのポイントクラウドのジオメトリデータとアトリビュートデータとを小領域毎に2次元平面に投影し、その2次元平面に投影された画像(パッチ)をビデオのフレーム画像内に配置し、そのフレーム画像を2次元画像用の符号化方法で符号化する方法(以下、V-PCC(Video based Point Cloud Compression)とも称する)が提案された(例えば、非特許文献1参照)。
また、動画圧縮の国際標準技術MPEG-4(Moving Picture Experts Group - 4)のファイルコンテナ仕様であるISOBMFF(International Organization for Standardization Base Media File Format)がある(例えば、非特許文献2および非特許文献3参照)。
そして、このV-PCCで符号化されたビットストリームのローカルストレージからの再生処理やネットワーク配信の効率化を目的とし、V-PCCビットストリームをISOBMFFに格納する方法の検討がなされている(例えば、非特許文献4参照)。
しかしながら、非特許文献4に記載の規定では、特定の3Dスペーシャルリージョンの部分ポイントクラウドを構築するために必要なアトラスタイルグループを識別するためのシグナリングが定義されていなかった。そのため、復号側において3Dスペーシャルリージョンとアトラスタイルグループとを紐付けることが困難であった。
本開示は、このような状況に鑑みてなされたものであり、3Dスペーシャルリージョンとアトラスタイルグループとを紐付けることができるようにするものである。
本技術の一側面の画像処理装置は、3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドのビットストリームとともにファイルに格納される、前記ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間に対応する前記3Dスペーシャルリージョンおよび前記アトラスタイルグループを選択する選択部と、前記ファイルから、前記選択部により選択された前記アトラスタイルグループに対応するアトラスNALユニットと、前記選択部により選択された前記3Dスペーシャルリージョンに対応するビットストリームを抽出する抽出部と、前記抽出部により抽出された前記ビットストリームを復号し、前記所望の3次元空間の前記3Dスペーシャルリージョンに対応する2Dデータを生成し、前記抽出部により抽出された前記アトラスNALユニットを復号し、前記2Dデータに対応するアトラス情報を生成する復号部とを備える画像処理装置である。
本技術の一側面の画像処理方法は、3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドのビットストリームとともにファイルに格納される、前記ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間に対応する前記3Dスペーシャルリージョンおよび前記アトラスタイルグループを選択し、前記ファイルから、選択された前記アトラスタイルグループに対応するアトラスNALユニットと、選択された前記3Dスペーシャルリージョンに対応するビットストリームを抽出し、抽出された前記ビットストリームを復号し、前記所望の3次元空間の前記3Dスペーシャルリージョンに対応する2Dデータを生成し、抽出された前記アトラスNALユニットを復号し、前記2Dデータに対応するアトラス情報を生成する画像処理方法である。
本技術の他の側面の画像処理装置は、3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの3Dスペーシャルリージョンに対応する2Dデータを符号化し、ビットストリームを生成する符号化部と、前記3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報を生成する紐付け情報生成部と、前記符号化部により生成された前記ビットストリームと、前記紐付け情報生成部により生成された前記紐付け情報とを格納するファイルを生成するファイル生成部とを備える画像処理装置である。
本技術の他の側面の画像処理方法は、3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの3Dスペーシャルリージョンに対応する2Dデータを符号化し、ビットストリームを生成し、前記3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報を生成し、生成された前記ビットストリームおよび前記紐付け情報を格納するファイルを生成する画像処理方法である。
本技術の一側面の画像処理装置および方法においては、3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドのビットストリームとともにファイルに格納される、そのポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間に対応する3Dスペーシャルリージョンおよびアトラスタイルグループが選択され、そのファイルから、その選択されたアトラスタイルグループに対応するアトラスNALユニットと、その選択された3Dスペーシャルリージョンに対応するビットストリームが抽出され、その抽出されたビットストリームが復号され、所望の3次元空間の3Dスペーシャルリージョンに対応する2Dデータが生成され、その抽出されたアトラスNALユニットが復号され、その2Dデータに対応するアトラス情報が生成される。
本技術の他の側面の画像処理装置および方法においては、3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの3Dスペーシャルリージョンに対応する2Dデータが符号化され、ビットストリームが生成され、その3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報が生成され、その生成されたビットストリームおよび紐付け情報を格納するファイルが生成される。
V-PCCの概要を説明する図である。 V-PCCビットストリームの主な構成例を示す図である。 アトラスサブビットストリームの主な構成例を示す図である。 ファイル構造の例を示す図である。 パーシャルアクセス情報の例について説明する図である。 ファイル構造の例を示す図である。 SpatialRegionGroupBoxとVPCCSpatialRegionsBoxの例を示す図である。 ファイル構造の例を示す図である。 ファイル構造の例を示す図である。 紐付け情報のシグナリングについて説明する図である。 トラックグループ識別情報とタイルグループ識別情報との紐付けについて説明する図である。 VPCCSpatialRegionsBoxの例を示す図である。 ビデオサブビットストリームの分割情報を用いた紐付けについて説明する図である。 SpatialRegionGroupBoxの例を示す図である。 グループ識別情報を用いた紐付けについて説明する図である。 グループ識別情報を用いた紐付けについて説明する図である。 HEVCのタイルを用いた紐付けについて説明する図である。 VPCCSpatialRegionsBoxの例を示す図である。 VPCCSpatialRegionsBoxの例を示す図である。 シングルトラックストラクチャの場合のグループ識別情報を用いた紐付けについて説明する図である。 SubSampleToGroupBoxの例を示す図である。 3Dスペーシャルリージョン毎にV-PCCビットストリームを分ける例について説明する図である。 VPCCSpatialRegionsBoxの例を示す図である。 3Dスペーシャルリージョンの切り替えの例を示す図である。 VPCCSpatialRegionsBoxとAlternativeRegionListStructの例を示す図である。 AlternativeRegionListStructの例を示す図である。 マトリョーシカメディアコンテナの構成例を示す図である。 符号化装置の主な構成例を示すブロック図である。 符号化処理の流れの例を示すフローチャートである。 復号装置の主な構成例を示すブロック図である。 復号処理の流れの例を示すフローチャートである。 コンピュータの主な構成例を示すブロック図である。
以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.紐付け情報のシグナリング
2.第1の実施の形態(符号化装置)
3.第2の実施の形態(復号装置)
4.付記
<1.紐付け情報のシグナリング>
<技術内容・技術用語をサポートする文献等>
本技術で開示される範囲は、実施の形態に記載されている内容だけではなく、出願当時において公知となっている以下の非特許文献等に記載されている内容や以下の非特許文献において参照されている他の文献の内容等も含まれる。
非特許文献1:(上述)
非特許文献2:(上述)
非特許文献3:(上述)
非特許文献4:(上述)
非特許文献5:https://www.matroska.org/index.html
つまり、上述の非特許文献に記載されている内容や、上述の非特許文献において参照されている他の文献の内容等も、サポート要件を判断する際の根拠となる。
<ポイントクラウド>
従来、点の位置情報や属性情報等により3次元構造を表すポイントクラウド(Point cloud)等の3Dデータが存在した。
例えばポイントクラウドの場合、立体構造物(3次元形状のオブジェクト)を多数の点の集合として表現する。ポイントクラウドは、各点の位置情報(ジオメトリ(geometry)とも称する)と属性情報(アトリビュート(attribute)とも称する)とにより構成される。アトリビュートは任意の情報を含むことができる。例えば、各ポイントの色情報、反射率情報、法線情報等がアトリビュートに含まれるようにしてもよい。このようにポイントクラウドは、データ構造が比較的単純であるとともに、十分に多くの点を用いることにより任意の立体構造物を十分な精度で表現することができる。
<V-PCCの概要>
V-PCC(Video based Point Cloud Compression)では、このようなポイントクラウドのジオメトリやアトリビュートが、小領域毎に2次元平面に投影される。本開示において、この小領域を部分領域という場合がある。このジオメトリやアトリビュートが2次元平面に投影された画像を投影画像とも称する。また、この小領域(部分領域)毎の投影画像をパッチ(patch)と称する。例えば、図1のAのオブジェクト1(3Dデータ)が、図1のBに示されるようなパッチ2(2Dデータ)に分解される。ジオメトリのパッチの場合、各画素値は、ポイントの位置情報を示す。ただし、その場合、ポイントの位置情報は、その投影面に対して垂直方向(奥行方向)の位置情報(デプス値(Depth))として表現される。
そして、このように生成された各パッチがビデオシーケンスのフレーム画像(ビデオフレームとも称する)内に配置される。ジオメトリのパッチが配置されたフレーム画像をジオメトリビデオフレーム(Geometry video frame)とも称する。また、アトリビュートのパッチが配置されたフレーム画像をアトリビュートビデオフレーム(Attribute video frame)とも称する。例えば、図1のAのオブジェクト1から、図1のCに示されるようなジオメトリのパッチ3が配置されたジオメトリビデオフレーム11と、図1のDに示されるようなアトリビュートのパッチ4が配置されたアトリビュートビデオフレーム12が生成される。例えば、ジオメトリビデオフレーム11の各画素値は、上述のデプス値を示す。
そして、これらのビデオフレームが、例えばAVC(Advanced Video Coding)やHEVC(High Efficiency Video Coding)等といった2次元画像用の符号化方法で符号化される。つまり、3次元構造を表す3Dデータであるポイントクラウドデータを、2次元画像用のコーデックを用いて符号化することができる。
なお、オキュパンシーマップを用いることもできる。オキュパンシーマップは、ジオメトリビデオフレームやアトリビュートビデオフレームのNxN画素毎に、投影画像(パッチ)の有無を示すマップ情報である。例えば、オキュパンシーマップは、ジオメトリビデオフレームやアトリビュートビデオフレームの、パッチが存在する領域(NxN画素)を値「1」で示し、パッチが存在しない領域(NxN画素)を値「0」で示す。
デコーダは、このオキュパンシーマップを参照することにより、パッチが存在する領域であるか否かを把握することができるので、符号化・復号により生じるノイズ等の影響を抑制することができ、より正確に3Dデータを復元することができる。例えば、符号化・復号によりデプス値が変化しても、デコーダは、オキュパンシーマップを参照することにより、パッチが存在しない領域のデプス値を無視することができる。つまり、デコーダは、オキュパンシーマップを参照することにより、3Dデータの位置情報として処理しないようにすることができる。
例えば、ジオメトリビデオフレーム11およびアトリビュートビデオフレーム12に対して、図1のDに示されるようなオキュパンシーマップ13を生成してもよい。オキュパンシーマップ13において、白の部分が値「1」を示し、黒の部分が値「0」を示している。
このようなオキュパンシーマップが、ジオメトリビデオフレームやアトリビュートビデオフレームとは別のデータ(ビデオフレーム)として符号化され、復号側に伝送され得る。つまり、オキュパンシーマップも、ジオメトリビデオフレームやアトリビュートビデオフレームと同様に、AVCやHEVC等の2次元画像用の符号化方法で符号化することができる。
ジオメトリビデオフレームを符号化して生成される符号化データ(ビットストリーム)をジオメトリビデオサブビットストリーム(geometry video sub-bitstream)とも称する。アトリビュートビデオフレームを符号化して生成される符号化データ(ビットストリーム)をアトリビュートビデオサブビットストリーム(attribute video sub-bitstream)とも称する。オキュパンシーマップを符号化して生成される符号化データ(ビットストリーム)をオキュパンシーマップビデオサブビットストリーム(occupancy map video sub-bitstream)とも称する。なお、ジオメトリビデオサブビットストリーム、アトリビュートビデオサブビットストリーム、オキュパンシーマップビデオサブビットストリームを互いに区別して説明する必要が無い場合、ビデオサブビットストリーム(video sub-bitstream)と称する。
さらに、パッチ(2Dデータ)からポイントクラウド(3Dデータ)を再構成するための情報であるアトラス情報(atlas)が符号化され、復号側に伝送される。アトラス情報の符号化方法(および復号方法)は任意である。アトラス情報を符号化して生成される符号化データ(ビットストリーム)をアトラスサブビットストリーム(atlas sub-bitstream)とも称する。
なお、以下において、ポイントクラウド(のオブジェクト)は、2次元画像の動画像のように、時間方向に変化し得るものとする。つまり、ジオメトリデータやアトリビュートデータは、時間方向の概念を有し、2次元画像の動画像のように、所定の時間毎にサンプリングされたデータとする。なお、2次元画像のビデオフレームのように、各サンプリング時刻のデータをフレームと称する。つまり、ポイントクラウドデータ(ジオメトリデータやアトリビュートデータ)は、2次元画像の動画像のように、複数フレームにより構成されるものとする。本開示において、このポイントクラウドのフレームのことを、ポイントクラウドフレームとも称する。V-PCCの場合、このような動画像(複数フレーム)のポイントクラウドであっても、各ポイントクラウドフレームをビデオフレーム化してビデオシーケンスとすることで、動画像の符号化方式を用いて高効率に符号化することができる。
<V-PCCビットストリームの構造>
エンコーダは、上述したようなジオメトリビデオフレーム、アトリビュートビデオフレーム、オキュパンシーマップ、およびアトラス情報の符号化データを多重化し、1つのビットストリームを生成する。このビットストリームをV-PCCビットストリーム(V-PCC Bitstream)とも称する。
図2は、V-PCCビットストリームの主な構成例を示す図である。図2に示されるようにV-PCCビットストリーム21は、複数のV-PCCユニット(V-PCC Unit)22を含む。
V-PCCユニット22は、V-PCCユニットヘッダ(V-PCC unit header)23とV-PCCユニットペイロード(V-PCC unit payload)24を含む。V-PCCユニットヘッダ23は、V-PCCユニットペイロード24に格納される情報の種類(タイプ)を示す情報を含む。V-PCCユニットペイロード24は、そのV-PCCユニットヘッダ23でシグナルされるタイプに応じて、V-PCCパラメータセット(V-PCC Parameter Set)25、ジオメトリビデオサブビットストリーム26(Geometry Video Data)、アトリビュートビデオサブビットストリーム27(Attribute Video Data)、オキュパンシーマップビデオサブビットストリーム28(Occupancy Video Data)、アトラスサブビットストリーム29(Atlas Data)等が格納され得る。V-PCCパラメータセット(V-PCC Parameter Set)25には、V-PCCユニット22に関するパラメータが格納される。
<アトラスサブビットストリームの構造>
図3のAは、アトラスサブビットストリームの主な構成例を示す図である。図3のAに示されるようにアトラスサブビットストリーム31は、アトラスNALユニット(atlas NAL unit)32の連続で構成される。図3のAに示される各四角がアトラスNALユニット32を示している。
audは、アクセスユニットデリミタ(access unit delimiter)のNALユニットである。atlas spsは、アトラスシーケンスパラメータセット(atlas sequence parameter set)のNALユニットである。atlas fpsは、アトラスフレームパラメータセット(atlas frame parameter set)のNALユニットである。
coded tile groupは、コーデドタイルグループのNALユニットである。このNALユニットのことをコーデドタイルグループNALユニット(coded tile group NAL unit)とも称する。コーデドタイルグループNALユニットは、アトラスタイルグループ情報を持つ。アトラスタイルグループ情報とは、アトラスタイルグループ(atlas tile group)に関する情報のことである。
アトラスタイルグループは、ビデオサブビットストリームの対応矩形領域のパッチに対応する2D3D変換情報を持つ。2D3D変換情報は、2Dデータであるパッチを3Dデータであるポイントクラウドに変換するための情報のことである。例えば、図3のBに示されるアトリビュートビデオフレーム12に対して、点線で区切られた矩形領域毎にアトラス情報がグループ化される。つまり、各矩形領域に対応するアトラスタイルグループ33が形成される。アトラスタイルグループ33は、図3のCに示されるように、複数のアトラスタイル34により構成される。
各アトラスタイルグループは、互いに独立に復号可能に構成される。このアトラスタイルグループの符号化には、HEVCのタイル(tile)と同等の制約がある。例えば、同一フレーム(same frame)の他のアトラスタイルグループには依存しないように構成される。また、参照関係のあるアトラスフレーム(atlas frame)は互いに同一のアトラスタイルグループパーティショニング(atlas tile group partitioning)を持つ。さらに、参照フレームの同一位置のアトラスタイルグループのみ参照する。
アトラスタイルグループが対応するフレーム内位置を示す位置情報は、アトラスフレームパラメータセット(atlas fps)でシグナルされる。その位置情報がid経由でコーデドタイルグループNALユニットに紐づけられる。つまり、アトラスフレームパラメータセットにおいて、アトラスタイルグループを識別するアトラスタイルグループ識別情報としてafti_tile_group_idがシグナルされる。コーデドタイルグループNALユニットにおいて、アトラスタイルグループの位置情報を識別する識別情報としてatgh_addressがシグナルされる。これらの識別情報(id)が一致することにより、アトラスフレームパラメータセットの位置情報とコーデドタイルグループNALユニットに紐づけられる。なお、1つのコーデドタイルグループNALユニットは、1つのアトラスタイルグループの情報を持つ。つまり、コーデドタイルグループNALユニットとアトラスタイルグループは1対1に対応する。
<ISOBMFFへの格納方法>
非特許文献4には、V-PCCビットストリームをISOBMFF(International Organization for Standardization Base Media File Format)に格納する方法として、マルチトラックストラクチャ(multi-track structure)とシングルトラックストラクチャ(single track structure)の2種類が規定されている。
マルチトラックストラクチャは、ジオメトリビデオサブビットストリーム、アトリビュートビデオサブビットストリーム、オキュパンシーマップビデオサブビットストリーム、およびアトラスサブビットストリームをそれぞれ個別のトラック(track)に格納する方法である。各ビデオサブビットストリームは、従来の2Dビデオストリームであるので、2Dの場合と同様の手法で格納(管理)することができる。マルチトラックストラクチャを適用する場合のファイルの構成例を図4に示す。
シングルトラックストラクチャは、V-PCCビットストリームを1つのトラックに格納する方法である。つまりこの場合、ジオメトリビデオサブビットストリーム、アトリビュートビデオサブビットストリーム、オキュパンシーマップビデオサブビットストリーム、およびアトラスサブビットストリームが互いに同一のトラックに格納される。
<パーシャルアクセス>
ところで非特許文献4には、ポイントクラウドのオブジェクトの一部分を取得したり、復号したりするためのパーシャルアクセス(partial access)情報が規定されている。例えば、このパーシャルアクセス情報を利用することにより、ストリーミング配信時にポイントクラウドのオブジェクトの表示部分の情報のみを取得するといった制御が可能になる。このような制御により、帯域幅を有効活用して高精細化する、といった効果を得ることができる。
例えば、図5のAに示されるように、ポイントクラウドのオブジェクトに対して、そのオブジェクトを内包する3次元領域であるバウンディングボックス(Bounding box)51が設定されているとする。つまり、ISOBMFFにおいて、図5のBに示されるように、バウンディングボックス51に関する情報であるバウンディングボックス情報(3DBoundingBoxStruct)が設定されている。
パーシャルアクセス情報を設定することにより、図5のAに示されるように、このバウンディングボックス51内に、独立に復号可能な部分領域である3Dスペーシャルリージョン(3D spatial region)52を設定することができる。つまり、図5のBに示されるように、ISOBMFFにおいてパーシャルアクセス情報として、3Dスペーシャルリージョン52に関する情報である3Dスペーシャルリージョン情報(3dSpatialRegionStruct)が設定される。
3Dスペーシャルリージョン情報において、その領域は、その基準点の座標(anchor_x, anchor_y, anchor_z)とサイズ(cuboid_delta_x, cuboid_delta_y, cuboid_delta_z)で指定される。
<ファイル構造例>
例えば、図6のオブジェクト61のビットストリームが3つの3Dスペーシャルリージョン(3Dスペーシャルリージョン61A、3Dスペーシャルリージョン61B、3Dスペーシャルリージョン61C)に分割されてISOBMFFに格納されるとする。また、マルチトラックストラクチャが適用され、3Dスペーシャルリージョン情報が静的である(時間方向に変化しない)とする。
その場合、図6の右側に示されるように、ビデオサブビットストリームは、3Dスペーシャルリージョン毎に分けて(互いに異なるトラックに)格納される。つまり、互いに同一の3Dスペーシャルリージョンに対応するジオメトリビデオサブビットストリーム、アトリビュートビデオサブビットストリーム、オキュパンシーマップビデオサブビットストリームを格納する各トラックがグループ化される(図6の点線枠)。このグループをスペーシャルリージョントラックグループ(spatial region track group)とも称する。
なお、1つの3Dスペーシャルリージョンのビデオサブビットストリームは、1つまたは複数のスペーシャルリージョントラックグループに格納される。図6の例の場合、3Dスペーシャルリージョンが3つ構成されるので、3つ以上のスペーシャルリージョントラックグループが形成される。
各スペーシャルリージョントラックグループには、スペーシャルリージョントラックグループを識別する識別情報であるトラックグループ識別情報としてtrack_group_idが割り当てられる。このtrack_group_idは、各トラックにシグナルされる。つまり、互いに同一のスペーシャルリージョントラックグループに属するトラックには、互いに同一の値のtrack_group_idがシグナルされる。したがって、このtrack_group_idの値に基づいて、所望のスペーシャルリージョントラックグループに属するトラックを識別することができる。
換言するに、互いに同一の3Dスペーシャルリージョンに対応するジオメトリビデオサブビットストリーム、アトリビュートビデオサブビットストリーム、オキュパンシーマップビデオサブビットストリームを格納する各トラックには、互いに同一の値のtrack_group_idがシグナルされる。したがって、このtrack_group_idの値に基づいて、所望の3Dスペーシャルリージョンに対応する各ビデオサブビットストリームを識別することができる。
より具体的には、互いに同一のスペーシャルリージョントラックグループに属するトラックには、図7に示されるように、互いに同一のtrack_group_idを持つSpatialRegionGroupBoxがシグナルされる。track_group_idは、SpatialRegionGroupBoxが継承するTrackGroupTypeBoxでシグナルされる。
なお、アトラスサブビットストリームは、3Dスペーシャルリージョンに関わらず1つのトラックに格納される。つまり、この1つのアトラスサブビットストリームが複数の3Dスペーシャルリージョンのパッチに関する2D3D変換情報を持つ。より具体的には、アトラスサブビットストリームが格納されるトラックにおいて、図7に示されるように、VPCCSpatialRegionsBoxがシグナルされ、そこで各track_group_idがシグナルされる。
なお、3Dスペーシャルリージョン情報が動的である(時間方向に変化する)場合、図8のAに示されるように、タイムドメタデータトラック(timed metadata track)を用いて、各時刻の3Dスペーシャルリージョンを表現すればよい。つまり、図8のBに示されるように、Dynamic3DSpatialRegionSampleEntryやDynamicSpatialRegionSampleをシグナルする。
<パーシャルアクセスの復号処理>
パーシャルアクセスする場合の復号処理は、以下のような手順で行われる。
1.VPCCSpatialRegionBoxの情報に基づき、アクセスしたい3Dスペーシャルリージョンに対応するSpatialRegionGroupBoxのtrack_group_idを識別する。
2.そのtrack_group_idのSpatialRegionGroupBoxに属するトラックのビデオサブビットストリームを復号する。
3.アトラスサブビットストリームから必要なコーデドタイルグループNALユニットを抽出し、復号する。
4.3Dスペーシャルリージョンに対応するポイントクラウドを構築する。
<ファイル構造例>において上述したように、全ての3Dスペーシャルリージョンに対応するアトラスサブビットストリームが1つのトラックに格納される。汎用のデコーダは、入力されたアトラスサブビットストリームに含まれるすべてのアトラスタイルグループを復号する。つまり、汎用のデコーダは、一部のアトラスタイルグループを抽出して復号することはできない。そして、ポイントクラウドを構築する際にアトラス情報に対応するビデオサブビットストリームが揃っていないとエラーになる。
つまり、上述の手順1、2のようにパーシャルアクセスして一部のスペーシャルリージョントラックグループのみを汎用のデコーダで復号する場合、アトラスサブビットストリーム全体を復号するとポイントクラウドを構築する際にビデオサブビットストリームが不足し、エラーになる。したがって、その場合は、手順3のように、アトラスサブビットストリームから、そのスペーシャルリージョントラックグループに対応するコーデドタイルグループNALユニットを抽出し、汎用のデコーダに入力する必要がある。つまり、不要なアトラスタイルグループの情報を復号対象から除外する必要がある。
例えば、図9に示されるように、ビデオサブビットストリームのビデオフレーム71内に異なる3Dスペーシャルリージョンに対応するビデオフレーム部分領域71Aと71Bとが存在するとする。ビデオフレーム部分領域71Aのみを復号する場合、そのビデオフレーム部分領域71Aに対応するアトラスタイルグループ72AのコーデドタイルグループNALユニットのみが汎用のデコーダに入力される。また、ビデオフレーム部分領域71Bのみを復号する場合、そのビデオフレーム部分領域71Bに対応するアトラスタイルグループ72BのコーデドタイルグループNALユニットのみが汎用のデコーダに入力される。
しかしながら、非特許文献4では、3Dスペーシャルリージョンとアトラスタイルグループとが紐付けられていなかった。つまり、ビデオサブビットストリームのビデオフレーム部分領域とコーデドタイルグループNALユニットとが紐付けされていなかった。そのため、上述の手順3を行うことは困難であった。つまり、アトラスサブビットストリームから、所望の3Dスペーシャルリージョン(スペーシャルリージョントラックグループ)に対応するコーデドタイルグループNALユニットを抽出し、復号することは困難であった。そのため、その所望の3Dスペーシャルリージョンのポイントクラウド(部分ポイントクラウドとも称する)を構築することは困難であった。
<3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける情報>
そこで、3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける情報(紐付け情報とも称する)を符号化側から復号側に伝送する(シグナリングする)。例えば、その紐付け情報として、スペーシャルリージョントラックグループとアトラスタイルグループとを紐付ける情報をシグナリングする。
例えば、画像処理方法(または符号化方法)において、3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの3Dスペーシャルリージョンに対応する2Dデータを符号化し、ビットストリームを生成し、3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報を生成し、生成されたビットストリームおよび紐付け情報を格納するファイルを生成する。
例えば、画像処理装置(または符号化装置)において、3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの3Dスペーシャルリージョンに対応する2Dデータを符号化し、ビットストリームを生成する符号化部と、3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報を生成する紐付け情報生成部と、符号化部により生成されたビットストリームと、紐付け情報生成部により生成された紐付け情報とを格納するファイルを生成するファイル生成部とを備えるようにする。
3Dスペーシャルリージョンに対応する2Dデータは、例えば、ジオメトリビデオフレーム、アトリビュートビデオフレーム、およびオキュパンシーマップビデオフレームの、その3Dスペーシャルリージョンに対応するパッチを含む部分領域のデータである。その2Dデータを符号化して生成されるビットストリームは、例えば、その3Dスペーシャルリージョンに対応するスペーシャルリージョントラックグループに属するトラックに格納されるジオメトリビデオサブビットストリーム、アトリビュートビデオサブビットストリーム、およびオキュパンシーマップビデオサブビットストリームである。ビットストリームおよび紐付け情報を格納するファイルは、例えば、ISOBMFFのファイルである。
例えば、画像処理方法(または復号方法)において、3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドのビットストリームとともにファイルに格納される、ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間に対応する3Dスペーシャルリージョンおよびアトラスタイルグループを選択し、そのファイルから、選択されたアトラスタイルグループに対応するアトラスNALユニットと、選択された3Dスペーシャルリージョンに対応するビットストリームを抽出し、その抽出されたビットストリームを復号し、所望の3次元空間の3Dスペーシャルリージョンに対応する2Dデータを生成し、抽出されたアトラスNALユニットを復号し、2Dデータに対応するアトラス情報を生成する。
例えば、画像処理装置(または復号装置)において、3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドのビットストリームとともにファイルに格納される、ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間に対応する3Dスペーシャルリージョンおよびアトラスタイルグループを選択する選択部と、そのファイルから、選択部により選択されたアトラスタイルグループに対応するアトラスNALユニットと、選択部により選択された3Dスペーシャルリージョンに対応するビットストリームを抽出する抽出部と、その抽出部により抽出されたビットストリームを復号し、所望の3次元空間の3Dスペーシャルリージョンに対応する2Dデータを生成し、その抽出部により抽出されたアトラスNALユニットを復号し、2Dデータに対応するアトラス情報を生成する復号部とを備えるようにする。
ビットストリームおよび紐付け情報を格納するファイルは、例えば、ISOBMFFのファイルである。3Dスペーシャルリージョンに対応するビットストリームは、例えば、その3Dスペーシャルリージョンに対応するスペーシャルリージョントラックグループに属するトラックに格納されるジオメトリビデオサブビットストリーム、アトリビュートビデオサブビットストリーム、およびオキュパンシーマップビデオサブビットストリームである。3Dスペーシャルリージョンに対応する2Dデータは、例えば、ジオメトリビデオフレーム、アトリビュートビデオフレーム、およびオキュパンシーマップビデオフレームの、その3Dスペーシャルリージョンに対応するパッチを含む部分領域のデータである。
このようにすることにより、復号側において、3Dスペーシャルリージョンとアトラスタイルグループとを紐付けることができる。したがって、所望の3Dスペーシャルリージョンの部分ポイントクラウドを構築するために必要なコーデドタイルグループNALユニットおよびビデオサブビットストリームを抽出し、汎用のデコーダに入力することができる。よって、所望の3Dスペーシャルリージョンの部分ポイントクラウドのみを構築し、表示することができる。
例えば、ストリーミング配信時にポイントクラウドのオブジェクトの視聴部分のみ取得することで帯域幅を有効活用して高精細化する、といった効果を得ることができる。このようなポイントクラウドのオブジェクトの配信技術は、AR(Augmented Reality)やVR(Virtual Reality)用途での6DoF(Degree of Freedom)コンテンツ配信への活用が期待される。
また、汎用のデコーダを利用することができるので、アトラスサブビットストリームから、所望の3Dスペーシャルリージョンの部分ポイントクラウドを構築するために必要なコーデドタイルグループNALユニットを抽出し、復号することができる機能を有する専用のデコーダを開発する場合に比べて、コストの増大を抑制することができる。
<方法1>
例えば、図10に示される表の最上段に示されるように、マルチトラックストラクチャにおいて、スペーシャルリージョントラックグループとアトラスタイルグループとを紐付けるようにしてもよい(方法1)。
例えば、<3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける情報>で上述した紐付け情報は、マルチトラックストラクチャにおいて、互いに同一の3Dスペーシャルリージョンに対応するビットストリームを格納するトラックのグループであるスペーシャルリージョントラックグループと、アトラスタイルグループとを紐付ける情報を含むようにしてもよい。
符号化側装置は、このような紐付け情報をシグナリングする。復号側装置は、シグナリングされたその紐付け情報に基づいて3Dスペーシャルリージョンの復号を行う。このようにすることにより、復号側装置は、アトラスサブビットストリームのうち、アクセスしたい3Dスペーシャルリージョンに該当する部分を構成するアトラスNALユニットのみを抽出することができる。つまり、復号側装置は、ビデオサブビットストリームおよびアトラスサブビットストリームの、その3Dスペーシャルリージョンに対応する部分のみを汎用のデコーダで復号することができる。つまり、復号側装置は、ポイントクラウドの、その3Dスペーシャルリージョンに対応する部分のみを構築することができる。
<方法1-1>
また、図10に示される表の上から2段目に示されるように、track_group_idにtile_group_idを紐付けるようにしてもよい(方法1-1)。
例えば、<方法1>において上述したスペーシャルリージョントラックグループとアトラスタイルグループとを紐付ける情報は、ビットストリームを格納するトラックを識別するトラックグループ識別情報と、アトラスタイルグループを識別するアトラスタイルグループ識別情報とを紐付ける情報を含むようにしてもよい。
このビットストリームは、例えば、上述したビデオサブビットストリームである。トラックグループ識別情報は、例えばtrack_group_idである。アトラスタイルグループ識別情報は、例えばtile_group_idである。例えば図11に示されるように、track_group_idとtile_group_idとを紐付けることにより、スペーシャルリージョントラックグループとアトラスタイルグループとを紐付けることができる。
符号化側装置は、このようなトラックグループ識別情報とアトラスタイルグループ識別情報とを紐付ける情報を含む紐付け情報をシグナリングする。復号側装置は、シグナリングされたその紐付け情報に基づいて3Dスペーシャルリージョンの復号を行う。このようにすることにより、復号側装置は、その紐付け情報に基づいて、所望の3Dスペーシャルリージョン(に対応するトラックグループ識別情報)に対応するアトラスタイルグループ識別情報を特定することができる。そして、復号側装置は、その特定したアトラスタイルグループ識別情報を用いて、所望の3Dスペーシャルリージョンに対応するアトラスNALユニットを特定することができる。
例えば、ISOBMFFのVPCCSpatialRegionsBoxを拡張することにより、track_group_idとtile_group_idとを紐付けるようにしてもよい。つまり、トラックグループ識別情報とアトラスタイルグループ識別情報とを紐付ける情報は、ISOBMFFのVPCCSpatialRegionsBoxを用いて、トラックグループ識別情報とアトラスタイルグループ識別情報とを紐付けるようにしてもよい。
このようなVPCCSpatialRegionsBoxの拡張例を図12に示す。図12の例の場合、VPCCSpatialRegionsBoxにおいて、各track_group_idに対して、tile_group_idが紐付けられている。このtile_group_idはアトラスタイルグループヘッダ(atlas_tile_group_header)でシグナルされるatgh_addressと同値である。この場合、1つの1スペーシャルリージョントラックグループに対して、単数または複数のアトラスタイルグループを紐付けることができる。
例えば、ISOBMFFのSpatialRegionGroupBoxを拡張することにより、track_group_idとtile_group_idとを紐付けるようにしてもよい。つまり、トラックグループ識別情報とアトラスタイルグループ識別情報とを紐付ける情報は、ISOBMFFのSpatialRegionGroupBoxを用いて、トラックグループ識別情報とアトラスタイルグループ識別情報とを紐付けるようにしてもよい。
例えば、num_tile_groupsのシグナリングを省略してもよい。その場合、1つのアトラスタイルグループは、1つのスペーシャルリージョントラックグループに対応する。
また、スペーシャルリージョントラックグループにビデオサブビットストリームのサブディビジョン(sub-division)情報を紐付けるようにしてもよい。つまり、図13に示されるように、atlas tile group idの代わりにビデオサブビットストリームの分割情報(分割位置およびサイズ(2d region pos/size))を用いて、スペーシャルリージョントラックグループとアトラスタイルグループとを紐付けてもよい。
つまり、<方法1>において上述したスペーシャルリージョントラックグループとアトラスタイルグループとを紐付ける情報は、3Dスペーシャルリージョンに対応するビデオフレームの部分領域情報を用いて、スペーシャルリージョントラックグループとアトラスタイルグループとを紐付ける情報を含むようにしてもよい。
その場合のSpatialRegionGroupBoxの拡張例を図14に示す。この例の場合、SpatialRegionGroupBoxのTrackGroupTypeBoxにおいて、3Dスペーシャルリージョン(スペーシャルリージョントラックグループ)に対応するビデオフレームの部分領域の位置(offset_x, offset_y)とサイズ(width, height, total_width, total_height)とがシグナルされている。また、アトラスタイルグループの位置およびサイズは、図3を参照して上述したようにatlas fpsでシグナルされる。このような位置情報およびサイズが一致することにより、スペーシャルリージョントラックグループとアトラスタイルグループとが紐付けられる。
符号化側装置は、3Dスペーシャルリージョンに対応するビデオフレームの部分領域情報を用いてスペーシャルリージョントラックグループとアトラスタイルグループとを紐付ける紐付け情報をシグナリングする。復号側装置は、シグナリングされたその紐付け情報に基づいて3Dスペーシャルリージョンの復号を行う。このようにすることにより、復号側装置は、分割情報に基づいて、所望の3Dスペーシャルリージョンに対応するアトラスNALユニットを特定することができる。
なお、全ビデオサブビットストリームを、マルチプレクスドトラック(multiplexed track)として、1つのトラックに格納してもよい。また、SpatialRegionGroupBoxの代わりに、VPCC SpatialRegionsBoxを拡張してもよい。
なお、この方法1-1の場合、所望のスペーシャルリージョントラックグループに対応するアトラスタイルグループを識別するために、アトラスサブビットストリームのパースが必要になる。
<方法1-2>
また、図10に示される表の上から3段目に示されるように、新たにgroupIDを割り当てて紐付けるようにしてもよい(方法1-2)。
例えば、<方法1>において上述したスペーシャルリージョントラックグループとアトラスタイルグループとを紐付ける情報は、ビットストリームを格納するトラックを識別するトラックグループ識別情報と、アトラスNALユニットが属するアトラスタイルグループを識別するグループ識別情報とを紐付ける情報を含むようにしてもよい。
このビットストリームは、例えば、上述したビデオサブビットストリームである。トラックグループ識別情報は、例えばtrack_group_idである。グループ識別情報は、新規に割り当てる識別情報であり、例えばgroupIDである。このgroupIDは、アトラスNALユニットが属するアトラスタイルグループを識別する識別情報であり、各アトラスNALユニットに割り当てられる。
したがって、例えば図15に示されるように、track_group_idとこのgroupIDとを紐付けることにより、スペーシャルリージョントラックグループとアトラスタイルグループとを紐付けることができる。図15の例の場合、track_group_id = 1のスペーシャルリージョントラックグループに対応するアトラスタイルグループ(そのアトラスNALユニット)に対してgroupID = 1が割り当てられ、track_group_id = 2のスペーシャルリージョントラックグループに対応するアトラスタイルグループ(そのアトラスNALユニット)に対してgroupID = 2が割り当てられている。なお、aud、atlas sps、およびatlas fpsのアトラスNALユニットには、groupID = 0が割り当てられている。groupID=0は全てのアトラスタイルグループの復号に必要なデータであることを示す。
符号化側装置は、このようなスペーシャルリージョントラックグループとアトラスタイルグループとを紐付ける情報を含む紐付け情報をシグナリングする。復号側装置は、シグナリングされたその紐付け情報に基づいて3Dスペーシャルリージョンの復号を行う。このようにすることにより、復号側装置は、その紐付け情報に基づいて、所望の3Dスペーシャルリージョン(に対応するトラックグループ識別情報)に対応するグループ識別情報を特定することができる。そして、復号側装置は、その特定したグループ識別情報を用いて、所望の3Dスペーシャルリージョンに対応するアトラスNALユニットを特定することができる。
なお、このグループ識別情報は、図16に示されるように、ISOBMFFのSampleToGroupBoxを用いて、サンプル毎に、アトラスNALユニットとアトラスタイルグループを紐付けるようにしてもよい。
また、例えば、非特許文献3で規定されるNALUMapEntry (‘nalm’)とTileRegionGroupEntry (‘trif’)とを利用して、スペーシャルリージョントラックグループとアトラスタイルグループ(を構成するアトラスNALユニット)とを紐付けるようにしてもよい。例えば、上述したグループ識別情報は、図16の上側に示されるように、ISOBMFFのNALUMapEntryとTileRegionGroupEntryとを用いて、アトラスNALユニットとアトラスタイルグループを紐付けるようにしてもよい。
図16の例の場合、SampleToGroupBoxのsample_count[1]およびgroup_description_index[1]、SampleGroupDescriptionBoxのNALUMapEntry[1]、並びに、SampleGroupDescriptionBoxのTileRegionGroupEntry[1]を用いて、スペーシャルリージョントラックグループとアトラスタイルグループ(を構成するアトラスNALユニット)とが紐付けられている。
符号化側装置は、このような紐付け情報をシグナリングする。復号側装置は、シグナリングされたその紐付け情報に基づいて3Dスペーシャルリージョンの復号を行う。このようにすることにより、復号側装置は、その紐付け情報に基づいて、所望の3Dスペーシャルリージョンに対応するアトラスNALユニットを特定することができる。
例えば、図16の下側に示されるように、ISOBMFFのVPCCSpatialRegionsBoxを拡張することにより、track_group_idとgroupIDとを紐付けるようにしてもよい。例えば、上述したトラックグループ識別情報とグループ識別情報とを紐付ける情報は、ISOBMFFのVPCCSpatialRegionsBoxを用いて、トラックグループ識別情報とグループ識別情報とを紐付けるようにしてもよい。
図16に示されるVPCCSpatialRegionsBoxのシンタックスは、図12の例(方法1-1)と同様である。ただし、tile_group_idのセマンティクスを’nalm’のgroupIDとする。なお、tile_group_idのセマンティクスは、<方法1-1>において上述した場合と同一とし、(groupID - 1)がそのアトラスタイルグループNALユニットのtile_group_idとなるように設定してもよい。
なお、全ビデオサブビットストリームをマルチプレクスドトラックとして、1つのトラックに格納してもよい。また、trifのシグナルを省略してもよい。
なお、この方法1-2の場合、アトラスNALユニットに対してgroupIDを新規に割り当てるので、全アトラスサブビットストリームをパースせずに、所望のスペーシャルリージョントラックグループに対応するアトラスタイルグループを識別することができる。
なお、アトラスサブビットストリーム用にAtlasNALUMapEntryを定義して使用してもよい。そのシンタックスおよびセマンティクスは、NALUMapEntryと同一としてもよい。また、NALUMapEntryを拡張して、アトラスNALユニットを参照していることをシグナルしてもよい。HEVC NALユニットとアトラスNALユニットのシンタックスには相違があるため、パースと復号が異なることをクライアントに明示し、処理の切り替えを容易にすることができる。
<方法1-3>
また、図10に示される表の上から4段目に示されるように、ビデオサブビットストリームをHEVC(High Efficiency Video Coding)のタイルを適用した符号化方式(HEVC tile)で符号化し、そのHEVCのタイルをアトラスタイルグループと紐付けるようにしてもよい(方法1-3)。
つまり、各ビデオサブビットストリームは、スペーシャルリージョントラックグループ毎にHEVCのタイルとして符号化される。そして、図17に示されるように、2D位置を用いて(すなわち互いに同位置にある)そのHEVCのタイル(つまりスペーシャルリージョントラックグループ)とアトラスタイルグループとを紐付けるようにしてもよい。
例えば、<方法1>において上述したスペーシャルリージョントラックグループとアトラスタイルグループとを紐付ける情報は、アトラスタイルグループと、そのアトラスタイルグループと同位置にあるHEVCのタイルに対応するビットストリームとを紐付ける情報を含むようにしてもよい。
符号化側装置は、このような紐付け情報をシグナリングする。復号側装置は、シグナルされたtile_group_idのアトラスタイルグループの位置情報に基づき、各ビデオサブビットストリーム(ジオメトリトラック(geometry track) / アトリビュートトラック(attribute track) / オキュパンシーマップトラック(occupancy map track))の対応する位置のタイルのみを復号する。
その際、復号側装置は、各トラックでシグナリングされるtrifからジオメトリトラック、アトリビュートトラック、およびオキュパンシーマップトラックのそれぞれのタイルリージョン(tile region)位置を識別することができる。したがって、復号側装置は、アトラスタイルグループのタイルリージョンと一致する各ビデオサブビットストリームのタイルリージョンを構成するNALユニットを抽出し、復号することができる。
図18に示されるように、ISOBMFFのVPCCSpatialRegionsBoxを拡張することにより、アトラスタイルグループと、そのアトラスタイルグループと同位置にあるHEVCのタイルに対応するビットストリームとを紐付けてもよい。その場合のシンタックスは、図16の例(方法1-2)と同様である。ただし、スペーシャルリージョントラックグループは1つである。
なお、スペーシャルリージョントラックグループの利用をオプション化し、SpatialRegionGroupBoxをシグナル不要にしてもよい。ジオメトリ、アトリビュート、およびオキュパンシーマップの各トラックと、V-PCCトラックは、トラックリファレンス(track reference)で紐づけられており、SpatialRegionGroupBoxのシグナルを省略することができる。その場合のVPCCSpatialRegionsBoxの拡張例を図19に示す。
<方法2>
例えば、図10に示される表の上から5段目に示されるように、シングルトラックストラクチャにおいて、スペーシャルリージョントラックグループとアトラスタイルグループとを紐付けるようにしてもよい(方法2)。
例えば、<3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける情報>で上述した紐付け情報は、シングルトラックストラクチャにおいて3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける情報を含むようにしてもよい。
符号化側装置は、このような紐付け情報をシグナリングする。復号側装置は、シグナリングされたその紐付け情報に基づいて3Dスペーシャルリージョンの復号を行う。このようにすることにより、復号側装置は、アトラスサブビットストリームのうち、アクセスしたい3Dスペーシャルリージョンに該当する部分を構成するアトラスNALユニットのみを抽出することができる。つまり、復号側装置は、V-PCCビットストリームの、その3Dスペーシャルリージョンに対応する部分のみを汎用のデコーダで復号することができる。つまり、復号側装置は、ポイントクラウドの、その3Dスペーシャルリージョンに対応する部分のみを構築することができる。
<方法2-1>
例えば、図10に示される表の上から6段目に示されるように、新たにgroupIDを割り当てて紐付けるようにしてもよい(方法2-1)。
例えば、<方法2>において上述した3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける情報は、その3Dスペーシャルリージョンと、アトラスNALユニットが属するアトラスタイルグループを識別するグループ識別情報とを紐付ける情報を含むようにしてもよい。
<方法1-2>では、非特許文献2で規定されるsample to group機能を利用し、アトラスサブビットストリームのサンプル(sample)毎にnalm, trifに紐付けを行うように説明した。
V-PCCビットストリーム(つまり、ジオメトリ、アトリビュート、オキュパンシーマップ、およびアトラス情報)を1つのトラックに格納シングルトラックストラクチャでは、方法1-2におけるサンプルがサブサンプル(sub-sample)となる。そこで、図20に示されるように、方法1-3と同様の仕組みをこのサブサンプルに適用することができるように、新規Box(SubSampleToGroupBox)を定義する。より具体的には、サブサンプルにSampleGroupDescription (nalm, trif)を紐づけるため、sub sample to groupを新規定義し、sample to groupと置き換える。
まずVPCCSpatialRegionBoxを拡張する。その際、スペーシャルリージョントラックグループの利用をオプション化する。つまり、図19の例(方法1-3)と同様のシンタックスを利用する。
さらに、図21に示されるように、sub sample to groupを新規定義する。つまり、図21に示されるようなシンタックスのSubSampleToGroupBoxをシグナルする。その場合、SubSampleInformationBoxもシグナルする。なお、このSubSampleToGroupBoxにおいて、sample_countは、サブサンプルを持つサンプル数を示す。また、subsample_countは、同じサンプルグループディスクリプタ(sample group descriptor)に紐づく連続するサブサンプル数を示す。その他のフィールド(field)のセマンティクスはSubSampleInformationBoxと同一である。
符号化側装置は、このような紐付け情報をシグナリングする。復号側装置は、シグナリングされたその紐付け情報に基づいて3Dスペーシャルリージョンの復号を行う。このようにすることにより、復号側装置は、その紐付け情報に基づいて、所望の3Dスペーシャルリージョンに対応するサブサンプルを特定することができる。
<方法2-2>
例えば、図10に示される表の上から7段目に示されるように、3Dスペーシャルリージョン毎にV-PCCビットストリームを分けるようにしてもよい(方法2-2)。つまり、図22に示されるように、3Dスペーシャルリージョン毎に分割した各V-PCCビットストリームを、互いに異なるトラックに格納してもよい。そして、紐付け情報によって、3Dスペーシャルリージョンと、その分割されたV-PCCビットストリーム(分割されたV-PCCビットストリームを格納するトラック)とを紐付けるようにしてもよい。
例えば、<方法2>において上述した3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける情報は、その3Dスペーシャルリージョンに対応するビットストリームを格納するトラックを識別するトラックグループ識別情報と、そのアトラスタイルグループを識別するアトラスタイルグループ識別情報とを紐付ける情報を含むようにしてもよい。
この場合、各トラックには、ジオメトリ、アトリビュート、オキュパンシーマップ、およびアトラス情報が格納される。各トラックの3Dスペーシャルリージョン情報は、VPCCSpatialRegionsBoxでシグナルされる。図23にそのVPCCSpatialRegionsBoxのシンタックスの例を示す。シングルトラック(single track)で使用するときはtrack_group_id毎の3Dスペーシャルリージョンのシグナリングは不要であるので、フラグ(flags)で制御してもよい。なお、シングルトラックにシグナルされる場合、条件(flags & 1)は、1(真)となる。
符号化側装置は、このような紐付け情報をシグナリングする。復号側装置は、シグナリングされたその紐付け情報に基づいて3Dスペーシャルリージョンの復号を行う。このようにすることにより、復号側装置は、その紐付け情報に基づいて、所望の3Dスペーシャルリージョンに対応するトラック(分割されたV-PCCビットストリーム)を特定することができる。
<方法3>
例えば、図10に示される表の上から8段目に示されるように、3次元空間において同一位置の代替3Dスペーシャルリージョンの切り替え表示を可能としてもよい(方法3)。
1つのポイントクラウドのオブジェクトにおいて3次元空間の同じ位置に重複するように異なる部分データを符号化しておき、状況に応じてその重複部分データを切り替えるというユースケースを実現できる。例えば、図24のAおよびBに示されるように、オブジェクト201の頭部を、頭部202Aとして表示したり、頭部202Bとして表示したりすることができるようにする。このようにすることにより、例えばユーザの好みに応じて頭部の表示を切り替えることができる。
このような機能を実現するために、1つのV-PCCビットストリーム中に、3次元空間で重複するポイントをビデオサブビットストリームの2D画像上の異なる矩形領域に配置する。図24の例の場合、図24のCに示されるように、頭部202Aのパッチと、頭部202Bのパッチを、互いに同一のビデオフレーム203の互いに異なる位置に配置する。
<方法3-1>
<方法3>において上述したような、3次元空間において同一位置にある代替3Dスペーシャルリージョンの切り替え表示を可能にする情報をシグナルするようにしてもよい。
つまり、<3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける情報>で上述した紐付け情報は、3Dスペーシャルリージョンの切り替えに関する情報である切替情報を含むようにしてもよい。
例えば、図25に示されるように、VPCCSpatialRegionsBoxを拡張し、切替情報として、復号側装置が代替3Dスペーシャルリージョンを識別するためのAlternativeRegionListStructを新規定義する。
その切替情報は、表示の切り替えの条件に関する情報を含むようにしてもよい。例えば図25に示されるAlternativeRegionListStructにおいて、list_type、region_type_value、ref_3d_region_id等の表示の切り替えの条件に関する情報がシグナルされる。
list_typeは、alternative regionの切り替え基準を示す。例えば、値「0」が言語設定に応じて切り替えることを示し、値「1」がユーザの年齢設定に応じて切り替えることを示すようにしてもよい。もちろん、これは一例であり、list_typeが取り得る値は任意である。また、各値が示す基準は任意である。
region_type_valueは、リージョン毎のタイプを示す。例えば、list_typeが言語設定に応じて切り替えることを示す値である場合、region_type_valueの値「0」が日本語(jpn)を示し、値「1」が英語(eng)を示すようにしてもよい。もちろん、これは一例であり、region_type_valueが取り得る値は任意である。また、各値が示すタイプは任意である。
ref_3d_region_idは、alternative regionの3d_region_idを示す。この値は、例えばプリセットされたユーザの嗜好情報によって静的に決定されるようにしてもよい。例えば、ユーザが日本語を希望するなら、region_type=0のalternative regionが選択されるようにしてもよい。これらと同等の情報をV-PCC codecのSEIとしてシグナルしてもよい。
もちろん、これらはシグナルされる情報の一例であり、これら以外の情報がシグナルされてもよい。また、動的に変化する場合には、DynamicRegionSampleを同様に拡張するようにしてもよい。
また、動的に外部から提供されるトリガに基づき、代替3Dスペーシャルリージョンを切り替えるようにしてもよい。そして、例えば、上述した切替情報は、切り替えのトリガとなるイベントに関する情報を含むようにしてもよい。
例えば、MPEG-DASH(Moving Picture Experts Group phase - Dynamic Adaptive Streaming over HTTP)のイベントメッセージ(event message)を適用してもよい。例えば、message_data[]にイベント識別情報(event_id)をシグナルし、コンテンツ配信側が所望のタイミングでイベントメッセージを送付する。クライアントはそのイベントメッセージを受け取ったら、event_idに応じて表示を切り替える。
また、シーンディスクリプション(Scene description)において、ユーザの何等かのインタラクション(interaction)の結果にevent_idを紐づけてもよい。例えば、MPEG-4 Scene Descriptionにおいて、同一V-PCCオブジェクトを参照する複数ノード(node(例えばbitwrapper))の参照URLクエリに異なるevent_idを設定し、これらのノードをSwitchノードでまとめる。さらに、タッチセンサ(TouchSensor)等のインタラクションのノードのeventOutとSwitchノードのexposedFieldを紐づける。このようにすることにより、シーンディスクリプションの機能を利用して、ユーザのインタラクションに応じて表示が切り替わる(シーンディスクリプションの機能を利用する)ようにしてもよい。
<方法4>
以上においてはファイルフォーマットとしてISOBMFFを適用する例について説明したが、V-PCCビットストリームを格納するファイルは任意であり、ISOBMFF以外であってもよい。例えば、図10に示される表の最下段に示されるように、V-PCCビットストリームが、マトリョーシカメディアコンテナ(Matroska Media Container)に格納されるようにしてもよい(方法4)。マトリョーシカメディアコンテナの主な構成例を図27に示す。
例えば、アトラスタイルグループの紐づけ情報が、Track Entry element下のVPCCSpatialRegionsBoxと同等の情報を持つelementにシグナルされるようにしてもよい。また、代替3Dスペーシャルリージョンの切替表示を可能にする情報は、Track Entry element下に新たに定義したelementとしてシグナルされるようにしてもよい。
<組み合わせ>
上述した方法1乃至方法4は、それらの一部または全部を適宜組み合わせて適用することができる。
<2.第1の実施の形態>
<符号化装置>
符号化側装置について説明する。<1.紐付け情報のシグナリング>において説明した本技術は、任意の装置において適用することができる。図28は、本技術を適用した画像処理装置(符号化側装置)の一態様である符号化装置の構成の一例を示すブロック図である。図28に示される符号化装置300は、V-PCCを適用してポイントクラウドデータをビデオフレームとして2次元画像用の符号化方法により符号化を行う装置である。また、符号化装置300は、その符号化により生成したV-PCCビットストリームをISOBMFFに格納する。
符号化装置300は、<1.紐付け情報のシグナリング>において説明した本技術を適用し、パーシャルアクセスを可能とするようにISOBMFFに情報を格納する。つまり、符号化装置300は、3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報をシグナリングする。
なお、図28においては、処理部やデータの流れ等の主なものを示しており、図28に示されるものが全てとは限らない。つまり、符号化装置300において、図28においてブロックとして示されていない処理部が存在したり、図28において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
図28に示されるように符号化装置300は、3D2D変換部301、2D符号化部302、メタデータ生成部303、PCストリーム生成部304、およびファイル生成部305を有する。
3D2D変換部301は、符号化装置300に入力された3Dデータであるポイントクラウドをパッチに分解し、パッキングする。つまり、3D2D変換部301は、ジオメトリビデオフレーム、アトリビュートビデオフレーム、オキュパンシーマップビデオフレームを生成し、それらを2D符号化部302に供給する。また、3D2D変換部301は、アトラス情報を生成し、それを2D符号化部302に供給する。
2D符号化部302は、符号化に関する処理を行う。例えば、2D符号化部302は、3D2D変換部301から供給されるジオメトリビデオフレーム、アトリビュートビデオフレーム、オキュパンシーマップビデオフレーム、およびアトラス情報等を取得する。2D符号化部302は、それらを符号化し、ビットストリームを生成する。2D符号化部302は、生成したビットストリームをメタデータ生成部303およびPCストリーム生成部304に供給する。
2D符号化部302は、符号化部311乃至符号化部314を有する。符号化部311は、ジオメトリビデオフレームを符号化し、ジオメトリビデオサブビットストリームを生成する。2D符号化部302は、生成したジオメトリビデオサブビットストリームをメタデータ生成部303およびPCストリーム生成部304に供給する。
符号化部312は、アトリビュートビデオフレームを符号化し、アトリビュートビデオサブビットストリームを生成する。符号化部312は、生成したアトリビュートビデオサブビットストリームをメタデータ生成部303およびPCストリーム生成部304に供給する。
符号化部313は、オキュパンシーマップビデオフレームを符号化し、オキュパンシーマップビデオサブビットストリームを生成する。符号化部313は、生成したオキュパンシーマップビデオサブビットストリームをメタデータ生成部303およびPCストリーム生成部304に供給する。
符号化部314は、アトラス情報を符号化し、アトラスサブビットストリームを生成する。符号化部314は、生成したアトラスサブビットストリームをメタデータ生成部303およびPCストリーム生成部304に供給する。
メタデータ生成部303は、メタデータの生成に関する処理を行う。例えば、メタデータ生成部303は、2D符号化部302から供給されるビデオサブビットストリームやアトラスサブビットストリームを取得する。また、メタデータ生成部303は、それらのデータを用いてメタデータを生成する。
例えば、メタデータ生成部303は、メタデータとして、ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報を生成しうる。つまり、メタデータ生成部303は、<1.紐付け情報のシグナリング>において説明した本技術を適用してメタデータを生成しうる。なお、メタデータ生成部303は、例えば、<1.紐付け情報のシグナリング>において上述した、方法1、方法1-1、方法1-2、方法1-3、方法2、方法2-1、方法2-2、方法3、方法3-1、および方法4、各種の変形例、並びに、複数方法の組み合わせ(以下、本技術の各種方法と称する)の内、いずれも適用することができる。
メタデータ生成部303は、このように、ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報を含むメタデータを生成すると、そのメタデータをファイル生成部305に供給する。
PCストリーム生成部304は、V-PCCビットストリームの生成に関する処理を行う。例えば、PCストリーム生成部304は、2D符号化部302から供給されるビデオサブビットストリームやアトラスサブビットストリームを取得する。また、PCストリーム生成部304は、それらを用いてV-PCCビットストリーム(ジオメトリビデオサブビットストリーム、アトリビュートビデオサブビットストリーム、オキュパンシーマップビデオサブビットストリーム、およびアトラスサブビットストリーム、または、それらをまとめたもの)を生成し、ファイル生成部305に供給する。
ファイル生成部305は、ファイルの生成に関する処理を行う。例えば、ファイル生成部305は、メタデータ生成部303から供給される、ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報を含むメタデータを取得する。また、ファイル生成部305は、PCストリーム生成部304から供給されるV-PCCビットストリームを取得する。ファイル生成部305は、その紐付け情報を含むメタデータやV-PCCビットストリームを格納するファイル(例えばISOBMFFやマトリョーシカメディアコンテナ)を生成する。
その際、ファイル生成部305は、<1.紐付け情報のシグナリング>において説明した本技術を適用し、ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報をシグナリングするファイルを生成する。なお、ファイル生成部305は、<1.紐付け情報のシグナリング>において上述した本技術の各種方法の内、いずれも適用することができる。そして、ファイル生成部305は、生成したファイルを符号化装置300の外部に出力する。
なお、これらの処理部(3D2D変換部301乃至ファイル生成部305、並びに、符号化部311乃至符号化部314)は、任意の構成を有する。例えば、各処理部が、上述の処理を実現する論理回路により構成されるようにしてもよい。また、各処理部が、例えばCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を有し、それらを用いてプログラムを実行することにより、上述の処理を実現するようにしてもよい。もちろん、各処理部が、その両方の構成を有し、上述の処理の一部を論理回路により実現し、他を、プログラムを実行することにより実現するようにしてもよい。各処理部の構成は互いに独立していてもよく、例えば、一部の処理部が上述の処理の一部を論理回路により実現し、他の一部の処理部がプログラムを実行することにより上述の処理を実現し、さらに他の処理部が論理回路とプログラムの実行の両方により上述の処理を実現するようにしてもよい。
以上のように、符号化装置300は、<1.紐付け情報のシグナリング>において説明した本技術を適用して、3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報をシグナリングする。
このようにすることにより、復号側装置は、アトラスサブビットストリームのうち、アクセスしたい3Dスペーシャルリージョンに該当する部分を構成するアトラスNALユニットのみを抽出することができる。つまり、復号側装置は、V-PCCビットストリームの内、その所望の3Dスペーシャルリージョンに対応する部分のみを復号することができる。つまり、復号側装置は、ポイントクラウドの、その所望の3Dスペーシャルリージョンに対応する部分のみを構築することができる。
このようにすることにより、復号側装置は、3Dスペーシャルリージョンとアトラスタイルグループとを紐付けることができる。したがって、復号側装置は、所望の3Dスペーシャルリージョンの部分ポイントクラウドを構築するために必要なコーデドタイルグループNALユニットおよびビデオサブビットストリームを抽出し、汎用のデコーダに入力することができる。よって、復号側装置は、所望の3Dスペーシャルリージョンの部分ポイントクラウドのみを構築し、表示することができる。
例えば、ストリーミング配信時にポイントクラウドのオブジェクトの視聴部分のみ取得することで帯域幅を有効活用して高精細化する、といった効果を得ることができる。このようなポイントクラウドのオブジェクトの配信技術は、ARやVR用途での6DoFコンテンツ配信への活用が期待される。
また、汎用のデコーダを利用することができるので、復号側装置は、アトラスサブビットストリームから、所望の3Dスペーシャルリージョンの部分ポイントクラウドを構築するために必要なコーデドタイルグループNALユニットを抽出し、復号することができる機能を有する専用のデコーダを開発する場合に比べて、コストの増大を抑制することができる。
<符号化処理の流れ>
この符号化装置300により実行される符号化処理の流れの例を、図29のフローチャートを参照して説明する。
符号化処理が開始されると、符号化装置300の3D2D変換部301は、ステップS301において、ポイントクラウドをパッチに分解し、ジオメトリやアトリビュートのパッチを生成する。そして、3D2D変換部301は、そのパッチをビデオフレームにパッキングする。また、3D2D変換部301は、オキュパンシーマップやアトラス情報を生成する。
ステップS302において、2D符号化部302は、ジオメトリビデオフレーム、アトリビュートビデオフレーム、オキュパンシーマップビデオフレーム、およびアトラス情報を符号化する。例えば、符号化部311は、ジオメトリビデオフレームを任意の2Dデータ用の符号化方式(例えばAVCやHEVC等)を用いて符号化し、ジオメトリビデオサブビットストリームを生成する。また符号化部312は、アトリビュートビデオフレームを任意の2Dデータ用の符号化方式を用いて符号化し、アトリビュートビデオサブビットストリームを生成する。さらに符号化部313は、オキュパンシーマップビデオフレームを任意の2Dデータ用の符号化方式を用いて符号化し、オキュパンシーマップビデオサブビットストリームを生成する。また符号化部314は、アトラス情報を任意の符号化方式で符号化し、アトラスサブビットストリームを生成する。
ステップS303において、メタデータ生成部303は、スペーシャルリージョントラックグループとアトラスタイルグループとを紐付ける紐付け情報を含むパーシャルアクセス情報をメタデータとして生成する。つまり、メタデータ生成部303は、<1.紐付け情報のシグナリング>において説明した本技術を適用してメタデータを生成しうる。なお、メタデータ生成部303は、例えば、<1.紐付け情報のシグナリング>において上述した本技術の各種方法の内、いずれも適用することができる。
ステップS304において、PCストリーム生成部304は、ビデオサブビットストリームを用いてV-PCCビットストリーム(ポイントクラウドストリーム)を生成する。
ステップS305において、ファイル生成部305は、ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報を含むメタデータと、V-PCCビットストリームとを格納するファイル(例えばISOBMFFやマトリョーシカメディアコンテナ)を生成する。
その際、ファイル生成部305は、<1.紐付け情報のシグナリング>において説明した本技術を適用する。つまりファイル生成部305は、<1.紐付け情報のシグナリング>において上述したように紐付け情報をシグナリングするファイルを生成する。なお、ファイル生成部305は、<1.紐付け情報のシグナリング>において上述した本技術の各種方法の内、いずれも適用することができる。
ステップS305の処理が終了すると符号化処理が終了する。
以上のように、符号化装置300は、符号化処理において、<1.紐付け情報のシグナリング>において説明した本技術を適用し、3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報をシグナリングする。
このようにすることにより、復号側装置は、アトラスサブビットストリームのうち、アクセスしたい3Dスペーシャルリージョンに該当する部分を構成するアトラスNALユニットのみを抽出することができる。つまり、復号側装置は、ビデオサブビットストリームおよびアトラスサブビットストリームの、その3Dスペーシャルリージョンに対応する部分のみを汎用のデコーダで復号することができる。つまり、復号側装置は、ポイントクラウドの、その3Dスペーシャルリージョンに対応する部分のみを構築することができる。
このようにすることにより、復号側装置は、3Dスペーシャルリージョンとアトラスタイルグループとを紐付けることができる。したがって、復号側装置は、所望の3Dスペーシャルリージョンの部分ポイントクラウドを構築するために必要なコーデドタイルグループNALユニットおよびビデオサブビットストリームを抽出し、汎用のデコーダに入力することができる。よって、復号側装置は、所望の3Dスペーシャルリージョンの部分ポイントクラウドのみを構築し、表示することができる。
例えば、ストリーミング配信時にポイントクラウドのオブジェクトの視聴部分のみ取得することで帯域幅を有効活用して高精細化する、といった効果を得ることができる。このようなポイントクラウドのオブジェクトの配信技術は、ARやVR用途での6DoFコンテンツ配信への活用が期待される。
また、汎用のデコーダを利用することができるので、復号側装置は、アトラスサブビットストリームから、所望の3Dスペーシャルリージョンの部分ポイントクラウドを構築するために必要なコーデドタイルグループNALユニットを抽出し、復号することができる機能を有する専用のデコーダを開発する場合に比べて、コストの増大を抑制することができる。
<3.第2の実施の形態>
<復号装置>
<1.紐付け情報のシグナリング>において説明した本技術は、符号化側装置に限らず、復号側装置にも適用することができる。図30は、本技術を適用した画像処理装置の一態様である復号装置の構成の一例を示すブロック図である。図30に示される復号装置400は、V-PCCを適用し、ポイントクラウドデータをビデオフレームとして2次元画像用の符号化方法により符号化されたV-PCCビットストリーム(ジオメトリビデオサブビットストリーム、アトリビュートビデオサブビットストリーム、オキュパンシーマップビデオサブビットストリーム、およびアトラスサブビットストリーム、または、それらをまとめたもの)をファイルから取得し、2次元画像用の復号方法により復号し、ポイントクラウドを生成(再構築)する装置である。例えば、復号装置400は、符号化装置300が生成したファイルからV-PCCビットストリームを抽出し、復号してポイントクラウドを生成することができる。
その際、復号装置400は、<1.紐付け情報のシグナリング>において説明した本技術を適用し、パーシャルアクセスを実現する。つまり、復号装置400は、シグナリングされた3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間領域に対応する3Dスペーシャルリージョン(つまり所望の3Dスペーシャルリージョン)に対応するV-PCCビットストリームのみを復号し、部分ポイントクラウドを構築することができる。
なお、図30においては、処理部やデータの流れ等の主なものを示しており、図30に示されるものが全てとは限らない。つまり、復号装置400において、図30においてブロックとして示されていない処理部が存在したり、図30において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
図30に示されるように復号装置400は、ファイル処理部401、2D復号部402、および表示情報生成部403を有する。
ファイル処理部401は、復号装置400に入力されるファイルからV-PCCビットストリームを抽出し、2D復号部402に供給する。その際、ファイル処理部401は、<1.紐付け情報のシグナリング>において説明した本技術を適用し、シグナリングされた3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間領域に対応する3Dスペーシャルリージョン(つまり所望の3Dスペーシャルリージョン)に対応するV-PCCビットストリームを抽出する。なお、ファイル処理部401は、<1.紐付け情報のシグナリング>において上述した本技術の各種方法の内、いずれも適用することができる。そして、ファイル処理部401は、抽出したV-PCCビットストリームを2D復号部402に供給する。
つまり、抽出したV-PCCビットストリームのみが復号対象とされる。換言するに、ファイル処理部401は、シグナリングされたその紐付け情報に基づいて、所望の3Dスペーシャルリージョンのポイントクラウドの再構成に不要なV-PCCビットストリームを復号対象から除外する。
ファイル処理部401は、解析部411および抽出部412を有する。
解析部411は、復号装置400に入力されるファイル(例えばISOBMFF等)の解析に関する処理を行う。例えば、ファイル処理部401は、<1.紐付け情報のシグナリング>において説明した本技術を適用してファイルを解析し、ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間に対応するスペーシャルリージョントラックグループおよびアトラスタイルグループを選択する。なお、解析部411は、<1.紐付け情報のシグナリング>において上述した本技術の各種方法の内、いずれも適用することができる。
つまり、解析部411は、3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドのビットストリームとともにファイルに格納される、そのポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間に対応する3Dスペーシャルリージョンおよびアトラスタイルグループを選択する。
そして、解析部411は、選択したスペーシャルリージョントラックグループおよびアトラスタイルグループを示す情報を抽出部412に供給する。
抽出部412は、解析部411による解析結果に基づいて、V-PCCビットストリームから、復号対象とするデータを抽出する。つまり、抽出部412は、解析部411により選択されたアトラスタイルグループに対応するアトラスNALユニットをファイルから抽出する。また、抽出部412は、解析部411により選択されたスペーシャルリージョントラックグループに対応するビデオサブビットストリームをファイルから抽出する。抽出部412は、抽出したデータを2D復号部402に供給する。
2D復号部402は、復号に関する処理を行う。例えば、2D復号部402は、ファイル処理部401から供給されるジオメトリビデオサブビットストリーム、アトリビュートビデオサブビットストリーム、オキュパンシーマップビデオサブビットストリーム、およびアトラスサブビットストリーム等を取得する。2D復号部402は、それらを復号し、ビデオフレームやアトラス情報を生成する。2D復号部402は、生成したビットストリームをメタデータ生成部303およびPCストリーム生成部304に供給する。
2D復号部402は、復号部421乃至復号部424を有する。復号部421は、供給されたジオメトリビデオサブビットストリームを復号し、ジオメトリビデオフレーム(2Dデータ)を生成する。復号部421は、生成したジオメトリビデオフレームを表示情報生成部403に供給する。
復号部422は、アトリビュートビデオサブビットストリームを復号し、アトリビュートビデオフレーム(2Dデータ)を生成する。復号部422は、生成したアトリビュートビデオフレームを表示情報生成部403に供給する。
復号部423は、オキュパンシーマップビデオサブビットストリームを復号し、オキュパンシーマップビデオフレーム(2Dデータ)を生成する。復号部423は、生成したオキュパンシーマップビデオフレームを表示情報生成部403に供給する。
復号部424は、アトラスサブビットストリーム(抽出された前記アトラスNALユニット)を復号し、上述のビデオフレームに対応するアトラス情報を生成する。復号部424は、生成したアトラス情報を表示情報生成部403に供給する。
表示情報生成部403は、ポイントクラウドの構築やレンダリングに関する処理を行う。例えば、表示情報生成部403は、2D復号部402から供給されるビデオフレームやアトラス情報を取得する。また、表示情報生成部403は、取得したアトラス情報に基づいて、取得したビデオフレームにパッキングされたパッチからポイントクラウドを生成する。そして、表示情報生成部403は、そのポイントクラウドをレンダリングして、表示用画像を生成し、復号装置400の外部に出力する。
表示情報生成部403は、例えば、2D3D変換部431および表示処理部433を有する。
2D3D変換部431は、2D復号部402から供給されるビデオフレームに配置されたパッチ(2Dデータ)をポイントクラウド(3Dデータ)に変換する。2D3D変換部431は、生成したポイントクラウドを表示処理部432に供給する。
表示処理部432は、レンダリングに関する処理を行う。例えば、表示処理部432は、2D3D変換部431から供給されるポイントクラウドを取得する。また、表示処理部432は、取得したポイントクラウドをレンダリングして表示用画像を生成する。表示処理部432は、生成した表示用画像を復号装置400の外部(例えばモニタ等)に出力する。
以上のように、復号装置400は、<1.紐付け情報のシグナリング>において説明した本技術を適用して、シグナリングされた3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいてパーシャルアクセスを行う。
このようにすることにより、復号装置400は、アトラスサブビットストリームのうち、アクセスしたい3Dスペーシャルリージョンに該当する部分を構成するアトラスNALユニットのみを抽出することができる。つまり、復号装置400は、V-PCCビットストリームの内、その所望の3Dスペーシャルリージョンに対応する部分のみを復号することができる。つまり、復号装置400は、ポイントクラウドの、その所望の3Dスペーシャルリージョンに対応する部分のみを構築することができる。
このようにすることにより、復号装置400は、3Dスペーシャルリージョンとアトラスタイルグループとを紐付けることができる。したがって、復号装置400は、所望の3Dスペーシャルリージョンの部分ポイントクラウドを構築するために必要なコーデドタイルグループNALユニットおよびビデオサブビットストリームを抽出し、汎用のデコーダに入力することができる。よって、復号装置400は、所望の3Dスペーシャルリージョンの部分ポイントクラウドのみを構築し、表示することができる。
例えば、ストリーミング配信時にポイントクラウドのオブジェクトの視聴部分のみ取得することで帯域幅を有効活用して高精細化する、といった効果を得ることができる。このようなポイントクラウドのオブジェクトの配信技術は、ARやVR用途での6DoFコンテンツ配信への活用が期待される。
また、汎用のデコーダを利用することができるので、復号装置400は、アトラスサブビットストリームから、所望の3Dスペーシャルリージョンの部分ポイントクラウドを構築するために必要なコーデドタイルグループNALユニットを抽出し、復号することができる機能を有する専用のデコーダを開発する場合に比べて、コストの増大を抑制することができる。
<復号処理の流れ>
この復号装置400により実行される復号処理の流れの例を、図31のフローチャートを参照して説明する。
復号処理が開始されると、復号装置400の解析部411は、ステップS401において、スペーシャルリージョントラックグループとアトラスタイルグループとを紐付ける情報を含むパーシャルアクセス情報に基づいて、所望の3次元空間に対応するスペーシャルリージョントラックグループとアトラスタイルグループとを選択する。
ステップS402において、抽出部412は、ステップS401において選択されたアトラスタイルグループに対応するアトラスNALユニットと、スペーシャルリージョントラックグループとに対応するビデオサブビットストリームとを抽出する。
ステップS403において、2D復号部402は、ステップS402において抽出されたアトラスNALユニットとビデオサブビットストリームとを復号する。
ステップS404において、2D3D変換部431は、ステップS403の処理により生成されたビデオフレームとアトラス情報とを用いてポイントクラウドを構築する。つまり、2D3D変換部431は、所望の3次元空間に対応する部分ポイントクラウドを構築する。
ステップS405において、表示処理部432は、ステップS404の処理において生成されたポイントクラウド(すなわち、所望の3次元空間に対応する部分ポイントクラウド)をレンダリングして表示用画像を生成する。つまり、表示処理部432は、所望の3次元空間に対応する表示用画像を生成する。
ステップS405の処理が終了すると復号処理が終了する。
以上のように、復号装置400は、復号処理において、<1.紐付け情報のシグナリング>において説明した本技術を適用し、シグナリングされた3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3Dスペーシャルリージョンに対応する部分ポイントクラウドを構築することができる。
例えば、ストリーミング配信時にポイントクラウドのオブジェクトの視聴部分のみ取得することで帯域幅を有効活用して高精細化する、といった効果を得ることができる。このようなポイントクラウドのオブジェクトの配信技術は、ARやVR用途での6DoFコンテンツ配信への活用が期待される。
また、汎用のデコーダを利用することができるので、復号装置400は、アトラスサブビットストリームから、所望の3Dスペーシャルリージョンの部分ポイントクラウドを構築するために必要なコーデドタイルグループNALユニットを抽出し、復号することができる機能を有する専用のデコーダを開発する場合に比べて、コストの増大を抑制することができる。
<4.付記>
<コンピュータ>
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。
図27は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
図27に示されるコンピュータ900において、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903は、バス904を介して相互に接続されている。
バス904にはまた、入出力インタフェース910も接続されている。入出力インタフェース910には、入力部911、出力部912、記憶部913、通信部914、およびドライブ915が接続されている。
入力部911は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部912は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部913は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部914は、例えば、ネットワークインタフェースよりなる。ドライブ915は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア921を駆動する。
以上のように構成されるコンピュータでは、CPU901が、例えば、記憶部913に記憶されているプログラムを、入出力インタフェース910およびバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行われる。RAM903にはまた、CPU901が各種の処理を実行する上において必要なデータなども適宜記憶される。
コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア921に記録して適用することができる。その場合、プログラムは、リムーバブルメディア921をドライブ915に装着することにより、入出力インタフェース910を介して、記憶部913にインストールすることができる。
また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部914で受信し、記憶部913にインストールすることができる。
その他、このプログラムは、ROM902や記憶部913に、あらかじめインストールしておくこともできる。
<本技術の適用対象>
以上においては、ポイントクラウドデータの符号化・復号に本技術を適用する場合について説明したが、本技術は、これらの例に限らず、任意の規格の3Dデータの符号化・復号に対して適用することができる。つまり、上述した本技術と矛盾しない限り、符号化・復号方式等の各種処理、並びに、3Dデータやメタデータ等の各種データの仕様は任意である。また、本技術と矛盾しない限り、上述した一部の処理や仕様を省略してもよい。
また、以上においては、本技術の適用例として、符号化装置300および復号装置400について説明したが、本技術は、任意の構成に適用することができる。
例えば、本技術は、衛星放送、ケーブルTVなどの有線放送、インターネット上での配信、およびセルラー通信による端末への配信などにおける送信機や受信機(例えばテレビジョン受像機や携帯電話機)、または、光ディスク、磁気ディスクおよびフラッシュメモリなどの媒体に画像を記録したり、これら記憶媒体から画像を再生したりする装置(例えばハードディスクレコーダやカメラ)などの、様々な電子機器に応用され得る。
また、例えば、本技術は、システムLSI(Large Scale Integration)等としてのプロセッサ(例えばビデオプロセッサ)、複数のプロセッサ等を用いるモジュール(例えばビデオモジュール)、複数のモジュール等を用いるユニット(例えばビデオユニット)、または、ユニットにさらにその他の機能を付加したセット(例えばビデオセット)等、装置の一部の構成として実施することもできる。
また、例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。例えば、本技術を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングとして実施するようにしてもよい。例えば、コンピュータ、AV(Audio Visual)機器、携帯型情報処理端末、IoT(Internet of Things)デバイス等の任意の端末に対して、画像(動画像)に関するサービスを提供するクラウドサービスにおいて本技術を実施するようにしてもよい。
なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
<本技術を適用可能な分野・用途>
本技術を適用したシステム、装置、処理部等は、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用することができる。また、その用途も任意である。
例えば、本技術は、観賞用コンテンツ等の提供の用に供されるシステムやデバイスに適用することができる。また、例えば、本技術は、交通状況の監理や自動運転制御等、交通の用に供されるシステムやデバイスにも適用することができる。さらに、例えば、本技術は、セキュリティの用に供されるシステムやデバイスにも適用することができる。また、例えば、本技術は、機械等の自動制御の用に供されるシステムやデバイスに適用することができる。さらに、例えば、本技術は、農業や畜産業の用に供されるシステムやデバイスにも適用することができる。また、本技術は、例えば火山、森林、海洋等の自然の状態や野生生物等を監視するシステムやデバイスにも適用することができる。さらに、例えば、本技術は、スポーツの用に供されるシステムやデバイスにも適用することができる。
<その他>
なお、本明細書において「フラグ」とは、複数の状態を識別するための情報であり、真(1)または偽(0)の2状態を識別する際に用いる情報だけでなく、3以上の状態を識別することが可能な情報も含まれる。したがって、この「フラグ」が取り得る値は、例えば1/0の2値であってもよいし、3値以上であってもよい。すなわち、この「フラグ」を構成するbit数は任意であり、1bitでも複数bitでもよい。また、識別情報(フラグも含む)は、その識別情報をビットストリームに含める形だけでなく、ある基準となる情報に対する識別情報の差分情報をビットストリームに含める形も想定されるため、本明細書においては、「フラグ」や「識別情報」は、その情報だけではなく、基準となる情報に対する差分情報も包含する。
また、符号化データ(ビットストリーム)に関する各種情報(メタデータ等)は、符号化データに関連づけられていれば、どのような形態で伝送または記録されるようにしてもよい。ここで、「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る(リンクさせ得る)ようにすることを意味する。つまり、互いに関連付けられたデータは、1つのデータとしてまとめられてもよいし、それぞれ個別のデータとしてもよい。例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の伝送路上で伝送されるようにしてもよい。また、例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の記録媒体(または同一の記録媒体の別の記録エリア)に記録されるようにしてもよい。なお、この「関連付け」は、データ全体でなく、データの一部であってもよい。例えば、画像とその画像に対応する情報とが、複数フレーム、1フレーム、またはフレーム内の一部分などの任意の単位で互いに関連付けられるようにしてもよい。
なお、本明細書において、「合成する」、「多重化する」、「付加する」、「一体化する」、「含める」、「格納する」、「入れ込む」、「差し込む」、「挿入する」等の用語は、例えば符号化データとメタデータとを1つのデータにまとめるといった、複数の物を1つにまとめることを意味し、上述の「関連付ける」の1つの方法を意味する。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
また、例えば、上述したプログラムは、任意の装置において実行されるようにしてもよい。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
また、例えば、1つのフローチャートの各ステップを、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。さらに、1つのステップに複数の処理が含まれる場合、その複数の処理を、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
また、例えば、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
なお、本技術は以下のような構成も取ることができる。
(1) 3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドのビットストリームとともにファイルに格納される、前記ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間に対応する前記3Dスペーシャルリージョンおよび前記アトラスタイルグループを選択する選択部と、
前記ファイルから、前記選択部により選択された前記アトラスタイルグループに対応するアトラスNALユニットと、前記選択部により選択された前記3Dスペーシャルリージョンに対応するビットストリームを抽出する抽出部と、
前記抽出部により抽出された前記ビットストリームを復号し、前記所望の3次元空間の前記3Dスペーシャルリージョンに対応する2Dデータを生成し、前記抽出部により抽出された前記アトラスNALユニットを復号し、前記2Dデータに対応するアトラス情報を生成する復号部と
を備える画像処理装置。
(2) 前記紐付け情報は、マルチトラックストラクチャにおいて、互いに同一の前記3Dスペーシャルリージョンに対応するビットストリームを格納するトラックのグループであるスペーシャルリージョントラックグループと、前記アトラスタイルグループとを紐付ける情報を含む
(1)に記載の画像処理装置。
(3) 前記スペーシャルリージョントラックグループと前記アトラスタイルグループとを紐付ける情報は、前記ビットストリームを格納するトラックを識別するトラックグループ識別情報と、前記アトラスNALユニットが属する前記アトラスタイルグループを識別するグループ識別情報とを紐付ける情報を含む
(2)に記載の画像処理装置。
(4) 前記ファイルは、ISOBMFF(International Organization for Standardization base media file format)のファイルであり、
前記トラックグループ識別情報と前記グループ識別情報とを紐付ける情報は、前記ISOBMFFのVPCCSpatialRegionsBoxを用いて、前記トラックグループ識別情報と前記グループ識別情報とを紐付ける
(3)に記載の画像処理装置。
(5) 前記ファイルは、ISOBMFF(International Organization for Standardization base media file format)のファイルであり、
前記グループ識別情報は、前記ISOBMFFのNALUMapEntryを用いて、前記アトラスNALユニットと前記アトラスタイルグループを紐付ける
(3)または(4)に記載の画像処理装置。
(6) 前記グループ識別情報は、前記ISOBMFFのSampleToGroupBoxを用いて、サンプル毎に、前記アトラスNALユニットと前記アトラスタイルグループを紐付ける
(5)に記載の画像処理装置。
(7) 前記スペーシャルリージョントラックグループと前記アトラスタイルグループとを紐付ける情報は、前記ビットストリームを格納するトラックを識別するトラックグループ識別情報と、前記アトラスタイルグループを識別するアトラスタイルグループ識別情報とを紐付ける情報を含む
(2)乃至(6)のいずれかに記載の画像処理装置。
(8) 前記ファイルは、ISOBMFF(International Organization for Standardization base media file format)のファイルであり、
前記トラックグループ識別情報と前記アトラスタイルグループ識別情報とを紐付ける情報は、前記ISOBMFFのVPCCSpatialRegionsBoxを用いて、前記トラックグループ識別情報と前記アトラスタイルグループ識別情報とを紐付ける
(7)に記載の画像処理装置。
(9) 前記ファイルは、ISOBMFF(International Organization for Standardization base media file format)のファイルであり、
前記トラックグループ識別情報と前記アトラスタイルグループ識別情報とを紐付ける情報は、前記ISOBMFFのSpatialRegionGroupBoxを用いて、前記トラックグループ識別情報と前記アトラスタイルグループ識別情報とを紐付ける
(7)または(8)に記載の画像処理装置。
(10) 前記スペーシャルリージョントラックグループと前記アトラスタイルグループとを紐付ける情報は、前記3Dスペーシャルリージョンの分割情報を用いて、前記スペーシャルリージョントラックグループと前記アトラスタイルグループとを紐付ける情報を含む
(2)乃至(9)のいずれかに記載の画像処理装置。
(11) 前記スペーシャルリージョントラックグループと前記アトラスタイルグループとを紐付ける情報は、前記アトラスタイルグループと、前記アトラスタイルグループと同位置にあるHEVC(High Efficiency Video Coding)のタイルに対応する前記ビットストリームとを紐付ける情報を含む
(2)乃至(10)のいずれかに記載の画像処理装置。
(12) 前記紐付け情報は、シングルトラックストラクチャにおいて前記3Dスペーシャルリージョンと前記アトラスタイルグループとを紐付ける情報を含む
(1)乃至(11)のいずれかに記載の画像処理装置。
(13) 前記3Dスペーシャルリージョンと前記アトラスタイルグループとを紐付ける情報は、前記3Dスペーシャルリージョンと、前記アトラスNALユニットが属する前記アトラスタイルグループを識別するグループ識別情報とを紐付ける情報を含む
(12)に記載の画像処理装置。
(14) 前記3Dスペーシャルリージョンと前記アトラスタイルグループとを紐付ける情報は、前記3Dスペーシャルリージョンに対応するビットストリームを格納するトラックを識別するトラックグループ識別情報と、前記アトラスタイルグループを識別するアトラスタイルグループ識別情報とを紐付ける情報を含む
(12)または(13)に記載の画像処理装置。
(15) 前記紐付け情報は、前記3Dスペーシャルリージョンの切り替えに関する情報である切替情報を含む
(1)乃至(14)のいずれかに記載の画像処理装置。
(16) 前記切替情報は、前記切り替えの条件に関する情報を含む
(15)に記載の画像処理装置。
(17) 前記切替情報は、前記切り替えのトリガとなるイベントに関する情報を含む
(15)または(16)に記載の画像処理装置。
(18) 3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドのビットストリームとともにファイルに格納される、前記ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間に対応する前記3Dスペーシャルリージョンおよび前記アトラスタイルグループを選択し、
前記ファイルから、選択された前記アトラスタイルグループに対応するアトラスNALユニットと、選択された前記3Dスペーシャルリージョンに対応するビットストリームを抽出し、
抽出された前記ビットストリームを復号し、前記所望の3次元空間の前記3Dスペーシャルリージョンに対応する2Dデータを生成し、抽出された前記アトラスNALユニットを復号し、前記2Dデータに対応するアトラス情報を生成する
画像処理方法。
(19) 3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの3Dスペーシャルリージョンに対応する2Dデータを符号化し、ビットストリームを生成する符号化部と、
前記3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報を生成する紐付け情報生成部と、
前記符号化部により生成された前記ビットストリームと、前記紐付け情報生成部により生成された前記紐付け情報とを格納するファイルを生成するファイル生成部と
を備える画像処理装置。
(20) 3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの3Dスペーシャルリージョンに対応する2Dデータを符号化し、ビットストリームを生成し、
前記3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報を生成し、
生成された前記ビットストリームおよび前記紐付け情報を格納するファイルを生成する
画像処理方法。
300 符号化装置, 301 3D3D変換部, 302 2D符号化部, 303 メタデータ生成部, 304 PCストリーム生成部, 305 ファイル生成部, 311乃至314 符号化部, 400 復号装置, 401 ファイル処理部, 402 2D復号部, 403 表示情報生成部, 411 解析部, 412 抽出部, 421乃至424 復号部, 431 2D3D変換部, 432 表示処理部

Claims (20)

  1. 3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドのビットストリームとともにファイルに格納される、前記ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間に対応する前記3Dスペーシャルリージョンおよび前記アトラスタイルグループを選択する選択部と、
    前記ファイルから、前記選択部により選択された前記アトラスタイルグループに対応するアトラスNALユニットと、前記選択部により選択された前記3Dスペーシャルリージョンに対応するビットストリームを抽出する抽出部と、
    前記抽出部により抽出された前記ビットストリームを復号し、前記所望の3次元空間の前記3Dスペーシャルリージョンに対応する2Dデータを生成し、前記抽出部により抽出された前記アトラスNALユニットを復号し、前記2Dデータに対応するアトラス情報を生成する復号部と
    を備える画像処理装置。
  2. 前記紐付け情報は、マルチトラックストラクチャにおいて、互いに同一の前記3Dスペーシャルリージョンに対応するビットストリームを格納するトラックのグループであるスペーシャルリージョントラックグループと、前記アトラスタイルグループとを紐付ける情報を含む
    請求項1に記載の画像処理装置。
  3. 前記スペーシャルリージョントラックグループと前記アトラスタイルグループとを紐付ける情報は、前記ビットストリームを格納するトラックを識別するトラックグループ識別情報と、前記アトラスNALユニットが属する前記アトラスタイルグループを識別するグループ識別情報とを紐付ける情報を含む
    請求項2に記載の画像処理装置。
  4. 前記ファイルは、ISOBMFF(International Organization for Standardization base media file format)のファイルであり、
    前記トラックグループ識別情報と前記グループ識別情報とを紐付ける情報は、前記ISOBMFFのVPCCSpatialRegionsBoxを用いて、前記トラックグループ識別情報と前記グループ識別情報とを紐付ける
    請求項3に記載の画像処理装置。
  5. 前記ファイルは、ISOBMFF(International Organization for Standardization base media file format)のファイルであり、
    前記グループ識別情報は、前記ISOBMFFのNALUMapEntryを用いて、前記アトラスNALユニットと前記アトラスタイルグループを紐付ける
    請求項3に記載の画像処理装置。
  6. 前記グループ識別情報は、前記ISOBMFFのSampleToGroupBoxを用いて、サンプル毎に、前記アトラスNALユニットと前記アトラスタイルグループを紐付ける
    請求項5に記載の画像処理装置。
  7. 前記スペーシャルリージョントラックグループと前記アトラスタイルグループとを紐付ける情報は、前記ビットストリームを格納するトラックを識別するトラックグループ識別情報と、前記アトラスタイルグループを識別するアトラスタイルグループ識別情報とを紐付ける情報を含む
    請求項2に記載の画像処理装置。
  8. 前記ファイルは、ISOBMFF(International Organization for Standardization base media file format)のファイルであり、
    前記トラックグループ識別情報と前記アトラスタイルグループ識別情報とを紐付ける情報は、前記ISOBMFFのVPCCSpatialRegionsBoxを用いて、前記トラックグループ識別情報と前記アトラスタイルグループ識別情報とを紐付ける
    請求項7に記載の画像処理装置。
  9. 前記ファイルは、ISOBMFF(International Organization for Standardization base media file format)のファイルであり、
    前記トラックグループ識別情報と前記アトラスタイルグループ識別情報とを紐付ける情報は、前記ISOBMFFのSpatialRegionGroupBoxを用いて、前記トラックグループ識別情報と前記アトラスタイルグループ識別情報とを紐付ける
    請求項7に記載の画像処理装置。
  10. 前記スペーシャルリージョントラックグループと前記アトラスタイルグループとを紐付ける情報は、前記3Dスペーシャルリージョンの分割情報を用いて、前記スペーシャルリージョントラックグループと前記アトラスタイルグループとを紐付ける情報を含む
    請求項2に記載の画像処理装置。
  11. 前記スペーシャルリージョントラックグループと前記アトラスタイルグループとを紐付ける情報は、前記アトラスタイルグループと、前記アトラスタイルグループと同位置にあるHEVC(High Efficiency Video Coding)のタイルに対応する前記ビットストリームとを紐付ける情報を含む
    請求項2に記載の画像処理装置。
  12. 前記紐付け情報は、シングルトラックストラクチャにおいて前記3Dスペーシャルリージョンと前記アトラスタイルグループとを紐付ける情報を含む
    請求項1に記載の画像処理装置。
  13. 前記3Dスペーシャルリージョンと前記アトラスタイルグループとを紐付ける情報は、前記3Dスペーシャルリージョンと、前記アトラスNALユニットが属する前記アトラスタイルグループを識別するグループ識別情報とを紐付ける情報を含む
    請求項12に記載の画像処理装置。
  14. 前記3Dスペーシャルリージョンと前記アトラスタイルグループとを紐付ける情報は、前記3Dスペーシャルリージョンに対応するビットストリームを格納するトラックを識別するトラックグループ識別情報と、前記アトラスタイルグループを識別するアトラスタイルグループ識別情報とを紐付ける情報を含む
    請求項12に記載の画像処理装置。
  15. 前記紐付け情報は、前記3Dスペーシャルリージョンの切り替えに関する情報である切替情報を含む
    請求項1に記載の画像処理装置。
  16. 前記切替情報は、前記切り替えの条件に関する情報を含む
    請求項15に記載の画像処理装置。
  17. 前記切替情報は、前記切り替えのトリガとなるイベントに関する情報を含む
    請求項15に記載の画像処理装置。
  18. 3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドのビットストリームとともにファイルに格納される、前記ポイントクラウドの3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報に基づいて、所望の3次元空間に対応する前記3Dスペーシャルリージョンおよび前記アトラスタイルグループを選択し、
    前記ファイルから、選択された前記アトラスタイルグループに対応するアトラスNALユニットと、選択された前記3Dスペーシャルリージョンに対応するビットストリームを抽出し、
    抽出された前記ビットストリームを復号し、前記所望の3次元空間の前記3Dスペーシャルリージョンに対応する2Dデータを生成し、抽出された前記アトラスNALユニットを復号し、前記2Dデータに対応するアトラス情報を生成する
    画像処理方法。
  19. 3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの3Dスペーシャルリージョンに対応する2Dデータを符号化し、ビットストリームを生成する符号化部と、
    前記3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報を生成する紐付け情報生成部と、
    前記符号化部により生成された前記ビットストリームと、前記紐付け情報生成部により生成された前記紐付け情報とを格納するファイルを生成するファイル生成部と
    を備える画像処理装置。
  20. 3次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの3Dスペーシャルリージョンに対応する2Dデータを符号化し、ビットストリームを生成し、
    前記3Dスペーシャルリージョンとアトラスタイルグループとを紐付ける紐付け情報を生成し、
    生成された前記ビットストリームおよび前記紐付け情報を格納するファイルを生成する
    画像処理方法。
JP2021564056A 2019-12-13 2020-12-11 画像処理装置および方法 Active JP7487742B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962947910P 2019-12-13 2019-12-13
US62/947,910 2019-12-13
PCT/JP2020/046249 WO2021117859A1 (ja) 2019-12-13 2020-12-11 画像処理装置および方法

Publications (2)

Publication Number Publication Date
JPWO2021117859A1 JPWO2021117859A1 (ja) 2021-06-17
JP7487742B2 true JP7487742B2 (ja) 2024-05-21

Family

ID=76329992

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021564056A Active JP7487742B2 (ja) 2019-12-13 2020-12-11 画像処理装置および方法

Country Status (5)

Country Link
US (1) US20230043987A1 (ja)
EP (1) EP4057632A4 (ja)
JP (1) JP7487742B2 (ja)
CN (1) CN114762356B (ja)
WO (1) WO2021117859A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021141264A1 (ko) * 2020-01-08 2021-07-15 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
CN114930863B (zh) * 2020-01-09 2023-08-08 Lg电子株式会社 点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法
WO2021141233A1 (ko) * 2020-01-10 2021-07-15 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
EP4325870A1 (en) * 2021-04-14 2024-02-21 Sony Group Corporation Information processing device and method
WO2022220278A1 (ja) * 2021-04-14 2022-10-20 ソニーグループ株式会社 情報処理装置および方法
WO2023115489A1 (zh) * 2021-12-23 2023-06-29 浙江大学 编解码方法、码流、装置、设备以及可读存储介质
CN117857762B (zh) * 2024-03-08 2024-05-14 深圳市东陆科技有限公司 显示模组的图像处理方法、装置、芯片及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018198421A (ja) 2017-05-04 2018-12-13 トムソン ライセンシングThomson Licensing 二次元ポイントクラウドを符号化および復号する方法および装置
WO2019094184A1 (en) 2017-11-07 2019-05-16 Interdigital Vc Holdings, Inc. Method, apparatus and stream for encoding/decoding volumetric video
WO2019142834A1 (ja) 2018-01-19 2019-07-25 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置
EP3540696A1 (en) 2018-03-16 2019-09-18 Nokia Technologies Oy A method and an apparatus for volumetric video rendering
US20190318488A1 (en) 2018-04-12 2019-10-17 Samsung Electronics Co., Ltd. 3d point cloud compression systems for delivery and access of a subset of a compressed 3d point cloud

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10447990B2 (en) * 2012-02-28 2019-10-15 Qualcomm Incorporated Network abstraction layer (NAL) unit header design for three-dimensional video coding
US9584792B2 (en) * 2013-01-04 2017-02-28 Qualcomm Incorporated Indication of current view dependency on reference view in multiview coding file format
US20180376180A1 (en) * 2015-12-29 2018-12-27 Thomson Licensing Method and apparatus for metadata insertion pipeline for streaming media
EP3340072B1 (de) * 2016-12-23 2021-02-17 Solute GmbH Verfahren zur durchführung einer selbsttätigen datenabfrage und programmprodukt
US10503760B2 (en) * 2018-03-29 2019-12-10 Aurora Innovation, Inc. Use of relative atlas in an autonomous vehicle
CN114930863B (zh) * 2020-01-09 2023-08-08 Lg电子株式会社 点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法
US20230188751A1 (en) * 2020-04-14 2023-06-15 Interdigital Patent Holdings, Inc. Partial access support in isobmff containers for video-based point cloud streams

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018198421A (ja) 2017-05-04 2018-12-13 トムソン ライセンシングThomson Licensing 二次元ポイントクラウドを符号化および復号する方法および装置
WO2019094184A1 (en) 2017-11-07 2019-05-16 Interdigital Vc Holdings, Inc. Method, apparatus and stream for encoding/decoding volumetric video
WO2019142834A1 (ja) 2018-01-19 2019-07-25 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置
EP3540696A1 (en) 2018-03-16 2019-09-18 Nokia Technologies Oy A method and an apparatus for volumetric video rendering
US20190318488A1 (en) 2018-04-12 2019-10-17 Samsung Electronics Co., Ltd. 3d point cloud compression systems for delivery and access of a subset of a compressed 3d point cloud

Also Published As

Publication number Publication date
EP4057632A1 (en) 2022-09-14
EP4057632A4 (en) 2023-01-04
US20230043987A1 (en) 2023-02-09
JPWO2021117859A1 (ja) 2021-06-17
CN114762356B (zh) 2024-06-11
WO2021117859A1 (ja) 2021-06-17
CN114762356A (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
JP7487742B2 (ja) 画像処理装置および方法
US11962809B2 (en) Image data encapsulation with referenced description information
US11876994B2 (en) Description of image composition with HEVC still image file format
CN110139130B (zh) 流传输数据的方法、发送和接收视频数据的方法和设备
KR102559862B1 (ko) 미디어 콘텐츠 전송을 위한 방법, 디바이스, 및 컴퓨터 프로그램
GB2509953A (en) Displaying a Region of Interest in a Video Stream by Providing Links Between Encapsulated Video Streams
US20230224482A1 (en) Information processing device and method
US20240107049A1 (en) Information processing device and information processing method
WO2022059495A1 (ja) 情報処理装置および方法
CN111567057B (zh) 信息处理装置和方法
GB2561491A (en) Image data encapsulation with tile support
US20230222693A1 (en) Information processing apparatus and method
GB2560649A (en) Image data encapsulation with tile support

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240422

R150 Certificate of patent or registration of utility model

Ref document number: 7487742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150