JP7415936B2

JP7415936B2 - 情報処理装置および情報処理方法

Info

Publication number: JP7415936B2
Application number: JP2020550266A
Authority: JP
Inventors: 遼平高橋; 光浩平林; 央二中神; 智隈
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-10-02
Filing date: 2019-09-18
Publication date: 2024-01-17
Anticipated expiration: 2039-09-18
Also published as: US11676331B2; US20210343069A1; US20220383587A1; JPWO2020071112A1; WO2020071112A1; EP3863290A1; CN112789865A; EP3863290A4; US11481961B2

Description

本開示は、情報処理装置および情報処理方法に関し、特に、クライアントにおける処理量の増加を抑制しつつ、より高画質化を図ることができるようにした情報処理装置および情報処理方法に関する。

従来、非特許文献１で開示されているように、３次元空間上に位置情報および属性情報（特に色情報）を同時に持った点の集合であるPoint Cloudの圧縮方法が規定されている。

また、非特許文献２には、Point Cloudの圧縮方法の一つとして、Point Cloudデータを複数の領域に分割（以下、セグメンテーションと称する）し、領域毎に平面投影してtexture画像、geometry画像、occupancy map画像、auxiliary informationを生成した後、それらの３種類の画像を動画コーデックにより符号化する方法が開示されている。ここで、geometry画像は、Point Cloudを構成する点群のdepth情報から構成される画像である。また、この方法は、Video-based Point Cloud Coding（V-PCC）と称されている。

ところで、従来、Point Cloudデータをセグメンテーションした後、領域ごとに平面投影してtexture画像、geometry画像、およびoccupancy map画像を生成する際の投影面の数は、６面（水平方向に４面および垂直方向に２面）であった。このように投影面が６面である場合、３Ｄから２Ｄへ変換する際に消失する点が多く、再構築されたPoint Cloudオブジェクトの表面に穴が開くことがあった。

そこで、非特許文献３に開示されているように、投影面を新たに４面追加して、１０面（水平方向に８面および垂直方向に２面）に増やす技術が開発されており、MPEG（Moving Picture Experts Group）においても議論されている。

また、非特許文献４には、object boxを分割する個々のblockに部分的にアクセスすることができる技術が開示されている。

MPEG-I Part5 Point Cloud Compression (ISO/IEC 23090-5) w17534, Working draft of Point Cloud Coding for Category 2 (Draft 1), April 2018, San Diego, USA w17871, PCC Core Experiment on Patch packing, July 2018, Ljubljana, Slovenia ISO/IEC JTC 1/SC 29/WG 11 Coding of moving pictures and audio Convenorship: UNI (Italy) "Technologies Under Consideration for Carriage of Point Cloud Data"

ところで、上記のように高画質化のために投影面を新たに追加することは、クライアントにおける処理量が増加することが想定される。また、従来のクライアントは、配信されるストリームが通常の６面の投影面による画像で生成されているものであるのか、新たに追加された４面の投影面による画像で生成されているものであるのかを事前に識別することができなかった。このため、全ストリーム取得しなければならず、限られたネットワーク帯域幅の環境下においては、再生途切れや画質の悪化、および、クライアント側における処理のオーバーヘッド増大につながることが懸念される。

本開示は、このような状況に鑑みてなされたものであり、クライアントにおける処理量の増加を抑制しつつ、より高画質化を図ることができるようにするものである。

本開示の第１の側面の情報処理装置は、３次元構造を表すPoint Cloudデータである３Ｄデータを複数の投影方向に投影して、２次元に変換することによって複数の前記投影方向の画像データを生成し、前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成する前処理部と、前記投影メタデータを、複数の前記投影方向のデータ単位であるトラックごとにシグナルするISOBMFFのファイルを生成するファイル生成部とを備える。
本開示の第２の側面の情報処理装置は、３次元構造を表すPoint Cloudデータである３Ｄデータが複数の投影方向に投影されて、２次元に変換することによって複数の前記投影方向の画像データが生成され、前記画像データの前記投影方向を示す投影方向情報として生成された投影メタデータが、複数の前記投影方向のデータ単位であるトラックごとにシグナルされたISOBMFFのファイルを処理して符号化データを抽出するファイル処理部を備える。

本開示の第１の側面の情報処理方法は、３次元構造を表すPoint Cloudデータである３Ｄデータを複数の投影方向に投影して、２次元に変換することによって複数の前記投影方向の画像データを生成することと、前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成することと、前記投影メタデータを、複数の前記投影方向のデータ単位であるトラックごとにシグナルするISOBMFFのファイルを生成することとを含む。
本開示の第２の側面の情報処理方法は、３次元構造を表すPoint Cloudデータである３Ｄデータが複数の投影方向に投影されて、２次元に変換することによって複数の前記投影方向の画像データが生成され、前記画像データの前記投影方向を示す投影方向情報として生成された投影メタデータが、複数の前記投影方向のデータ単位であるトラックごとにシグナルされたISOBMFFのファイルを処理して符号化データを抽出することを含む。

本開示の第１の側面においては、３次元構造を表すPoint Cloudデータである３Ｄデータを複数の投影方向に投影して、２次元に変換することによって複数の投影方向の画像データが生成され、それぞれの画像データの投影方向を示す投影方向情報が投影メタデータとして生成され、投影メタデータを、複数の投影方向のデータ単位であるトラックごとにシグナルするISOBMFFのファイルが生成される。
本開示の第２の側面においては、３次元構造を表すPoint Cloudデータである３Ｄデータが複数の投影方向に投影されて、２次元に変換することによって複数の前記投影方向の画像データが生成され、それぞれの画像データの投影方向を示す投影方向情報として生成された投影メタデータが、複数の投影方向のデータ単位であるトラックごとにシグナルされたISOBMFFのファイルが処理されて符号化データが抽出される。

Point Cloudの圧縮方法を説明する図である。投影面が６面である場合に生成される画像について説明する図である。水平方向に８面の投影面を設定する一例を示す図である。投影面を増やすことによる画質の改善について説明する図である。投影面が１０面である場合に生成される画像について説明する図である。投影面が１０面であるときのファイルの生成について説明する図である。視聴方向に応じたファイルの取得例について説明する図である。第１の拡張方法における第１のシグナル方法でのMPDのサンプルを示す図である。ストリームの取得例について説明する図である。第１の拡張方法における第２のシグナル方法でのMPDのサンプルを示す図である。追加投影方向識別情報をシグナルしたMPDのサンプルを示す図である。 object boxおよびblockについて説明する図である。 blockごとに設定される追加投影方向識別情報をシグナルしたMPDのサンプルを示す図である。 gpcc:blockInfo要素の各属性について説明する図である。データ生成装置の構成例を示すブロック図である。データ再生装置の構成例を示すブロック図である。ファイル生成処理を説明するフローチャートである。 Point Cloud再生処理を説明するフローチャートである。画質メタデータを付加したMPDのサンプルを示す図である。 extractor trackを利用する変形例について説明する図である。 extractor trackを利用したMPDのサンプルを示す図である。新たに定義するVPCCGroupBoxの一例を示す図である。 projection_direction，present_alone、およびpoint_cloud_resolutionの定義を説明する図である。追加投影方向識別情報をシグナルしたVPCCGroupBoxのサンプルを示す図である。 45degree_projection，projection_direction，present_alone、およびpoint_cloud_resolutionの定義を説明する図である。 blockごとに設定される追加投影方向識別情報をシグナルしたVPCCGroupBoxのサンプルを示す図である。 auxiliary informationの拡張について説明する図である。 projection_direction，present_alone、およびpoint_cloud_resolutionの定義を説明する図である。 45degree_projectionを追加したauxiliary informationの一部を示す図である。 45degree_projection，projection_direction，present_alone、およびpoint_cloud_resolutionの定義を説明する図である。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

＜従来のシグナリング＞
本技術を適用したシグナリングについて説明する前に、図１乃至図４を参照して、従来のシグナリングについて説明する。

図１は、上述した非特許文献２で開示されているV-PCCを、簡略的に説明するための図である。

図１に示すように、まず、３次元構造を表すPoint Cloudデータ（３Ｄデータ）が入力され、そのPoint Cloudコンテンツが複数の領域にセグメンテーションされる。図１に示す例では、半球形状と円錐形状とが組み合わされた３次元構造を表すPoint Cloudデータが入力され、そのPoint Cloudコンテンツに対し、半球形状を１領域に、円錐形状を２領域に分割した３つの領域にセグメンテーションが行われる。

次に、領域ごとに平面投影が行われ、それぞれの領域の表面の見た目を表す色情報からなるtexture画像、それぞれの領域の表面までの奥行（depth）を表す位置情報からなるgeometry画像、および、コンポーネントのピクチャ内のパッチ位置情報からなるoccupancy map画像が生成される。そして、texture画像、geometry画像、およびoccupancy map画像が、例えば、AVC（Advanced Video Coding）やHEVC（High Efficiency Video Coding）などの動画像コーデックで符号化される。

従来、図２に示すように、６面の投影面（X+投影面、X-投影面、Y+投影面、Y-投影面、Z+投影面、およびZ-投影面）に投影されたパッチが、それぞれの投影方向ごとにまとめられて配置されたtexture画像を生成することができる。また、geometry画像、およびoccupancy map画像についても同様に、６面の投影面に投影されたパッチが、それぞれの投影方向ごとにまとめられて配置されて生成することができる。

これに対し、上述した非特許文献３で開示されているように、１０面の投影面で、texture画像、geometry画像、およびoccupancy map画像を生成する技術が開発されている。即ち、図３に示すように、従来、水平方向に９０°ごとの４面の投影面（実線）が用いられており、それらの投影面に対して投影方向を４５°ずらした４面の投影面（破線）を追加して、垂直方向の２面を含めた１０面の投影面が用いられる。

例えば、投影面が６面の場合には、図４の上側に示すように、再構築されたPoint Cloudオブジェクトの表面に穴が開いてしまうことがあった。これに対し、投影面を１０面に増やすことで、図４の下側に示すように、投影面が６面の場合には開いていた穴を埋め、そのような穴が表面に開かないようにPoint Cloudオブジェクトを再構築することができ、主観的に、画質の向上を図ることができる。

そして、図５に示すように、１０面の投影面（X+投影面、X-投影面、Y+投影面、Y-投影面、Z+投影面、Z-投影面、X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面）に投影されたパッチが、それぞれの投影方向ごとにまとめられて配置されたtexture画像を生成することができる。また、geometry画像、およびoccupancy map画像についても同様に、１０面の投影面に投影されたパッチが、それぞれの投影方向ごとにまとめられて配置されて生成することができる。

ここで、Point Cloudを投影面に投影する際、従来から用いられていた水平方向の４面の投影面（X+投影面、X-投影面、Y+投影面、およびY-投影面）に投影されるPoint Cloudの点は、追加された水平方向の４面の投影面（X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面）にも重複して投影されることになる。

そして、この追加された４面の投影面への投影で、既存の水平方向の４面との間で生じる全ての重複する部分について、追加された４面の投影面のパッチに含めて重複情報として符号化するか、追加された４面の投影面のパッチから重複する部分を削除し、既存の水平方向の４面との間の差分のみを重複情報として符号化するかは、エンコーダの実装に依存することになる。例えば、追加された４面の投影面のパッチに含めて重複情報を符号化する場合には、X+Y+投影面に投影された全てのパッチは、X+Y+投影面の投影方向の全情報を有している。一方、追加された４面の投影面のパッチから削除して重複情報を符号化する場合には、X+Y+投影面に投影されたパッチの中に、X+投影面およびY+投影面のパッチで消失した差分情報のみを含むパッチが存在する。

従って、追加された４面の投影面のパッチに含めて重複情報を符号化する場合、投影方向ごとの分割ストリームは単独で表示可能である。一方、追加された４面の投影面のパッチから削除して重複情報を符号化する場合、投影方向ごとの分割ストリームは単独での表示が不可能である。

即ち、投影面を１０面にすることにより、主観的な画質の向上を図ることができる一方で、それに伴い画像内のパッチの数も増えるので、texture画像、geometry画像、およびoccupancy map画像の情報量が増加することになる。

また、従来、texture画像、geometry画像、およびoccupancy map画像それぞれの全体ストリームを取得することを前提としている。このため、V-PCCのストリームを配信する際、投影面が６面であるストリームと比較して、投影面が１０面に増えたのに応じて必然的にビットレートが増加することになる。

従って、これに伴い、例えば限られたネットワーク帯域幅の環境下において、再生時の途切れを招いてしまうことが起こると想定される。それに対し、限られたネットワーク帯域幅の中で途切れない再生を行うためにビットレートを削減しようとすると、画質向上のために投影面を増加させたのにもかかわらず、ビットレート削減の符号化による画質悪化を招くことが懸念される。

このため、V-PCCストリーム（textureストリーム、geometryストリーム、およびoccupancy mapストリーム）を投影面ごとに分割して配信し、ユーザの視聴方向に応じて必要な投影面の分割V-PCCストリームのみを選択して取得する方法が、配信ビットレートを削減する上で有効であると考えられる。

しかしながら、この場合においても、追加された４面の投影面（X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面）のパッチが、それぞれの投影方向の全情報を有しているか否かを識別することができない。このため、独立して表示可能な画像であるか判断することができず、常に、投影方向の全情報を有していない前提でストリームを取得することになってしまう。

例えば、ユーザの視聴方向が投影方向X+Y+の分割ストリームに対応する場合において、その分割ストリームが投影方向の全情報を有しており、そのストリームだけで投影方向のPoint Cloudコンテンツを構成できる場合においても、投影方向X+Y+の周囲の投影方向X+および投影方向Y+の分割ストリームを取得することになってしまう。このように、表示するにあたって本来は不要な分割ストリームを取得することになるため、再生途切れや画質の悪化、および、クライアント側における処理のオーバーヘッド増大が懸念される。

そこで、V-PCCストリームを分割して、表示にあたって必要なストリームのみを配信することによって、ネットワーク帯域幅を有効活用し、クライアントにおける処理量の増加を抑制しつつ、投影面の追加によって高画質化されたV-PCCストリームを配信することが求められている。このためには、追加平面に関する情報、つまり、分割V-PCCストリーム内のパッチの投影方向情報と、単独での表示が可能か否かを示す単独表示可否情報をクライアントに提供するための手段が必要となる。

本開示では、上述したような追加平面に関する情報を含めたファイルを生成し、クライアントに提供する手段を提案する。その具体的な実施例として、以下で拡張（DASH MPD拡張、ISOBMFF拡張、またはElementary Stream拡張）する方法について説明する。また、V-PCCストリームの視聴方向の高画質化を図るため、高画質化に有効なV-PCCストリームの有効ピクセル情報を、画質メタデータとしてクライアントに提供する手段を提案する。

ここで、拡張方法について説明する前に、図６および図７を参照して、投影方向情報および単独表示可否情報をクライアントに提供することによる効果について説明する。

例えば、図６の中央に示すように、１０面の投影面（X+投影面、X-投影面、Y+投影面、Y-投影面、Z+投影面、Z-投影面、X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面）に投影されたパッチが、全て同じ配置で、それぞれの投影方向ごとにまとめられて、texture画像、geometry画像、およびoccupancy map画像が生成されるとともに、投影方向情報および単独表示可否情報からなる投影メタデータを含むauxiliary informationが生成される。

その後、図６の右側に示すように、生成された各画像を投影方向ごとに分割し、符号化することにより、投影方向ごとのtextureストリーム、geometryストリーム、およびoccupancy mapストリームが生成される。そして、それらのストリームとauxiliary informationとが格納される投影方向ファイル（ISOBMFF：ISO Base Media File Format）が生成される。

例えば、投影方向ファイルは、投影方向ごとのtextureストリーム、geometryストリーム、およびoccupancy mapストリームとともに、auxiliary informationをまとめてシングルストリームを生成し、そのシングルストリームを格納した１つのトラックから構成することができる。また、投影方向ファイルは、投影方向ごとのtextureストリーム、geometryストリーム、およびoccupancy mapストリームそれぞれと、auxiliary informationとを個別に格納した４つのトラックから構成することができる。このように、投影方向ごとに投影方向ファイルを生成することにより、各投影方向に対応する１０個の投影方向ファイルが生成される。

このように、投影方向ファイルはauxiliary informationを有して構成され、auxiliary informationには、その１ファイルの投影方向を示す投影方向情報と、その１ファイルで単独表示が可能か否かを示す単独表示可否情報が付加される。従って、クライアントは、これらの情報に基づいて、視聴方向に応じて再生に必要なファイルを選択して取得することができ、Point Cloudを構成して、表示することができる。

一方、図７のＡに示す矢印viewは視聴方向を表しており、ユーザの視聴方向が、投影方向X+Y+の付近であるときのファイルの取得例について説明する。

例えば、単独表示可否情報が、単独表示が可能であることを示している場合、クライアントは、図７のＢに示す４つの投影方向にＺ方向の２つの投影方向を加えた６つの投影方向（投影方向X+Y+、投影方向X-Y-、投影方向X-Y+、投影方向X+Y-、投影方向Z+、および投影方向Z-）の投影方向ファイルを取得する。これに対し、単独表示可否情報が、単独表示が不可であることを示している場合、クライアントは、図７のＣに示す５つの投影方向にＺ方向の２つの投影方向を加えた７つの投影方向（投影方向X+Y+、投影方向Y+、投影方向X-、投影方向Y-、投影方向X+、投影方向Z+、および投影方向Z-）の投影方向ファイルを取得する。

このように、単独表示可否情報が、単独表示が可能である場合も、単独表示が不可である場合も、クライアントが取得するファイル数は投影メタデータなしの場合の１０ファイルより少なくなり、かつ視聴方向の主観的画質は同等である。つまり、ネットワーク帯域幅を有効活用し、クライアント側における処理のオーバーヘッド抑制しつつ、投影面追加によって高画質化されたV-PCCストリームをクライアントに配信することが可能となる。

＜第１の拡張方法＞
図８乃至図２１を参照して、投影方向情報、単独表示可否情報、および画質メタデータを、参照するファイルごとに、DASH MPD（Dynamic Adaptive Streaming over HTTP Media Presentation Description）拡張によってシグナルする第１の拡張方法について説明する。

例えば、投影メタデータは、投影方向情報および単独表示可否情報からなる。単独表示可否情報は、ファイルに含まれるtextureストリーム、geometryストリーム、およびoccupancy mapストリームが単独で表示可能であるか否かを示す情報であり、その情報のシグナル方法には、以下で説明する第１および第２のシグナル方法がある。

＜第１の拡張方法における第１のシグナル方法＞
第１のシグナル方法では、ファイルに含まれるtextureストリーム、geometryストリーム、およびoccupancy mapストリームが単体で表示可能であるか否かを示すフラグによりシグナルする。

図８に示すMPDのサンプルのように、projection direction descriptor（schemeIdUri=“urn:mpeg:mpegI:pc_proj_direction:2018”のSupplementalProperty）を、分割V-PCCストリームの投影方向情報として、新たに定義してシグナルする。ここで、@valueは、ストリーム内パッチの投影方向情報をシグナルする。

例えば、Point Cloudのローカル座標系を基準にして、@value（０～９）により投影方向をシグナルする。即ち、@value＝０の場合には投影方向X+、@value＝１の場合には投影方向Y+、@value＝２の場合には投影方向X-、@value＝３の場合には投影方向Y-、@value＝４の場合には投影方向Z+、@value＝５の場合には投影方向Z-、@value＝６の場合には投影方向X+Y+、@value＝７の場合には投影方向X-Y+、@value＝８の場合には投影方向X-Y-、@value＝９の場合には投影方向X+Y-とシグナルする。

なお、１つの分割V-PCCストリーム内に複数の投影方向のパッチが含まれていてもよい。この場合、@valueにコンマ区切り等で、複数の投影方向がシグナルされる。

また、図８に示すMPDのサンプルのように、present alone descriptor（schemeIdUri=“urn:mpeg:mpegI:pc_present_alone:2018”のSupplementalProperty）を、分割V-PCCストリームの単独表示可否情報として、新たに定義してシグナルする。ここで、@valueには０または１が設定され、@value＝０の場合には、その分割ストリームを単独で表示不可能であることを示し、@value＝１の場合には、その分割ストリームを単独で表示可能であることを示す。

例えば、図８に示す例は、投影方向X+および投影方向Y+に投影されたパッチを含む分割ストリームは単独表示可能で、投影方向X+Y+に投影されたパッチを含む分割ストリームは単独表示不可能であることを示している。

なお、１つの分割V-PCCストリーム内に、単独で表示可能なパッチと表示不可能なパッチとが混在していてもよい。この場合、present alone descriptorの@value=0となる。

また、１つのPoint Cloudを構成する分割V-PCCストリームのグルーピングは、point cloud group descriptor（schemeIdUri=“urn:mpeg:mpegI:pc_group:2018”のSupplementalProperty）を新たに定義してシグナルする。ここで、@valueはグルーピング識別子をシグナルし、同じ値の分割V-PCCストリームが１つのPoint Cloudを構成する。

例えば、ユーザの視聴方向が投影方向X+Y+の付近であり、その方向から見たPoint Cloudのみを再構築しようとする場合、クライアントはprojection direction descriptorを参照してAdaptationSet@id=vpcc45を選択する。そして、クライアントは、present alone descriptorから単独表示不可であることを識別することができ、周辺の投影方向であるAdaptationSet@id=vpcc0およびAdaptationSet@id=vpcc90を選択する。このように、クライアントが、３つのAdaptationSetsを取得することで、視聴方向をカバーするPoint Cloud表示が可能となる。

また、例えば、ユーザの視聴方向が投影方向X+の付近である場合、クライアントは、AdaptationSet@id=vpcc0のみを選択して取得すればよいことを識別できるので、視聴方向をカバーする上で、その他の余分な分割ストリームを取得することが不要となる。

なお、視聴方向からは見えない背面のPoint Cloudを構成する分割V-PCCストリームをさらに取得してもよい。その際、背面についてはPoint Cloudに穴が空いていてもよいので、最低限の分割ストリーム取得にとどめることで、配信ビットレートを削減できる。例えば、ユーザの視聴方向が投影方向X+Y+の付近であるときに、投影方向X+Y+のストリームが単独表示不可能であった場合、図９に示すように、水平方向においては５つの投影方向（投影方向X+Y+、投影方向X+、投影方向Y+、投影方向X、および投影方向Y-）のストリームを取得すればよい。

このように、projection direction descriptorおよびpresent alone descriptorを用いることで、V-PCCストリームの視聴方向に応じた配信を効果的に行うことができる。

なお、新たに定義したdescriptorは、EssentialPropertyを用いてシグナルしてもよい。

このとき、EssentialPropertyのschemeIdUriに対応していないDASHクライアントは、このPropertyの書かれているPreselection, Adaptation Set（もしくはRepresentationなどの場合もあり）は無視しなければならない。また、SupplementalPropertyのschemeIdUriに対応していないDASHクライアントは、このProperty値を無視して、そのPreselection, AdaptationSet（もしくはRepresentationなどの場合もあり）を利用してもよい。

＜第１の拡張方法における第２のシグナル方法＞
第２のシグナル方法では、ファイルに含まれるtextureストリーム、geometryストリーム、およびoccupancy mapストリームが単体で表示不可能である場合には、表示する上で必要なファイルへの関連付けをシグナルする。

まず、単独表示できない分割ストリームのRepresentationから、その表示をする上で必要な情報を持っている分割ストリームのRepresentationへの紐づけをRepresentation@dependencyIdで行う。つまり、分割V-PCCストリームの単独表示可否情報として、Representation@dependencyIdを利用する。例えば、Representation@dependencyIdがある場合、単独で表示不可能な分割ストリームであることを示し、Representation@dependencyIdがない場合は単独で表示可能な分割ストリームであることを示す。

図１０には、第２のシグナル方法におけるMPDのサンプルが示されており、第２のシグナル方法においても、上述したような第１のシグナル方法と同様の効果を得ることができる。

また、新たにdescriptorを定義し、単独表示可能グループをシグナルしてもよい。例えば、単独で表示不可能な投影方向X+Y+と、その表示に必要な投影方向X+および投影方向Y+をグルーピングし、グループ単位で単独表示が可能であることを示す。

＜第１の拡張方法の更なる拡張＞
ここで、第１の拡張方法の更なる拡張について説明する。

上述したように、第１の拡張方法は、投影方向情報などを有するように従来のDASH MPDを拡張する拡張方法である。これに加え、追加された４面の投影面（X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面）が、追加された４つの投影方向のパッチから生成された画像であることを示す追加投影方向識別情報を有するようにDASH MPDを更に拡張することができる。

例えば、図１１に示すMPDのサンプルのように、45degree projection descriptor（schemeIdUri=“urn:mpeg:mpegI:pc_45degree_projection:2018”のSupplementalProperty）を、投影方向ファイルの追加投影方向識別情報として、新たに定義してシグナルする。ここで、45degree projection descriptorにおいて、@value=0は、６つの投影方向のパッチから生成されたストリームであることを示し、@value=1は、追加された４つの投影方向のパッチから生成されたストリームであることを示す。

また、projection direction descriptorは、Point Cloudのローカル座標系を基準にして、@value（０～５）により投影方向をシグナルする。即ち、@value＝０の場合には投影方向X+、@value＝１の場合には投影方向Y+、@value＝２の場合には投影方向X-、@value＝３の場合には投影方向Y-、@value＝４の場合には投影方向Z+、@value＝５の場合には投影方向Z-とシグナルする。

なお、図１１に示すMPDのサンプルのように、各Adaptation Setにおいて、45degree projection descriptorおよびprojection direction descriptorをシグナルすることで、図８に示したMPDのサンプルと等価となる。

即ち、45degree projection descriptorの@value=1により、追加された４つの投影方向のパッチから生成された画像であることが示された場合、投影方向はprojection direction descriptorの@valueで示された方向をZ軸まわりに反時計回りに45°回転した方向であることを示す。例えば、@id=”vpcc45”のAdaptation Setに示すように、@value=1の45degree projection descriptorともにシグナルされるprojection direction descriptorの@value=0は、投影方向がX+Y+であることを示している。

また、45degree projection descriptorがシグナルされない場合には、６つの投影方向のパッチから生成されたストリームであることを示すようにしてもよい。一方、45degree projection descriptorがシグナルされた場合には、４つの投影方向のパッチから生成されたストリームであることを示すようにしてもよい。

さらに、projection direction descriptorをシグナルせずに、45degree projection descriptorのみをシグナルしてもよい。この場合、45degree projection descriptorにおいて、@value=0であれば、６つすべての投影方向のパッチから生成されたストリームであることを示し、@value=1であれば、追加された４つすべての投影方向のパッチから生成されたストリームであることを示すようにする。

ここで、上述の非特許文献４で開示されているように、object boxを分割する個々のblockに部分的にアクセスすることができる場合には、それぞれのblockに基づいて投影方向ファイルを生成してもよい。例えば、object boxは、Point Cloudオブジェクトの全体を含むような直方体の形状をしており、object boxよりも小さな直方体であるblockによって複数に分割することができる。

図１２には、object boxが４つのblockによって分割される一例が示されている。例えば、object boxには、図１２のＡに示すようなＸ軸、Ｙ軸、およびＺ軸が設定されており、図１２のＢに示すようにＺ軸方向から見て、Ｘ軸およびＹ軸方向に２×２の配置となるように４つのblockによってobject boxを分割することができる。そして、図１２のＢの右下に示すように、blockの４面の投影面（実線）に対して投影方向を４５°ずらした４面の投影面（破線）を追加することができる。

また、投影方向ファイルをblockごとに生成する場合、blockごとにシグナルされる45degree projection descriptorは、それぞれのblockの３次元空間情報を識別するためのBlock位置情報とともに利用することができる。

即ち、図１３に示すMPDのサンプルのように、各Adaptation Setにおいて、projection direction descriptor，45degree projection descriptor、およびblock information descriptorをシグナルする。ここで、block information descriptor (schemeIdUri=”urn:mpeg:mepgI:gpcc:block_information:2018”のSupplementalProperty)は、blockの３次元空間情報をシグナルする。例えば、blockの３次元空間情報は、gpcc:blockInfo要素のblock_offset_x，block_offset_y，block_offset_z，block_size_x，block_size_y、およびblock_size_zの各属性で示すことができる。また、object_id属性が等しいblockは、同じ一つのobject boxを構成することを示す。

ここで、gpcc:blockInfo要素の各属性は、図１４に示すように、object boxのＸ軸、Ｙ軸、およびＺ軸の各辺を１として求められる相対値によってシグナルされる。

なお、projection direction descriptorをシグナルせず、45degree projection descriptorおよびblock information descriptorのみをシグナルしてもよい。この場合、45degree projection descriptorにおいて、@value=0であれば、各blockの投影方向ファイルが６つすべての投影方向のパッチから生成されたストリームであることを示し、@value=1であれば、追加された４つすべての投影方向のパッチから生成されたストリームであることを示すようにする。

このように、第１の拡張方法において、投影方向情報とは別に、追加投影方向識別情報がシグナルされるようにMPDを拡張することができる。

＜情報処理装置の構成例＞
図１５は、コンテンツを提供するサーバ側で、Point CloudデータからPC streamを生成し、そのPC streamをISOBMFFに格納したファイルを生成するファイル生成処理を実行する情報処理装置であるデータ生成装置の構成例を示すブロック図である。

図１５に示すデータ生成装置５１は、制御部６１およびファイル生成部６２を有している。このデータ生成装置５１は、MPEG-DASHなどにより配信されるV-PCCのストリームのセグメントファイルとMPDファイルを生成してサーバにアップロードする。

制御部６１は、データ生成装置５１全体の動作を制御する。例えば、制御部６１は、ファイル生成部６２を制御して、V-PCCのストリームが格納されたセグメントファイルや、メタデータが含まれるMPDファイルを生成させたり、それらのセグメントファイルやMPDファイルをアップロードさせたりする。

ファイル生成部６２は、制御部６１の制御に従ってセグメントファイルやMPDファイルを生成するとともに、それらのセグメントファイルやMPDファイルを、ネットワークを介してサーバにアップロード（送信）する。

ファイル生成部６２は、データ入力部７１、データ符号化・生成部７２、MPDファイル生成部７３、記録部７４、およびアップロード部７５を有している。

データ入力部７１は、Point Cloudデータを取得してデータ符号化・生成部７２に供給するとともに、MPDファイルの生成に必要なメタデータを取得してMPDファイル生成部７３に供給する。

データ符号化・生成部７２は、データ入力部７１から供給されたPoint Cloudデータに基づいて、texture画像、geometry画像、およびoccupancy map画像を生成するとともに、それらのV-PCCのストリームが格納されたセグメントファイルを生成し、記録部７４に供給する。

データ符号化・生成部７２は、前処理部７６、符号化部７７、およびファイル生成部７８を有している。

前処理部７６は、データ入力部７１から供給されたPoint Cloudデータに基づいて、texture画像、geometry画像、およびoccupancy map画像を生成するとともに、投影メタデータ（投影方向情報および単独表示可否情報）と画質メタデータも生成し、符号化部７７に供給する。さらに、前処理部７６は、図６を参照して説明したように、投影方向ごとに、texture画像、geometry画像、およびoccupancy map画像を分割する。

符号化部７７は、前処理部７６から供給されたtexture画像、geometry画像、およびoccupancy map画像を符号化し、分割V-PCCストリーム（即ち、投影方向ごとに分割されたtextureストリーム、geometryストリーム、occupancy mapストリームと、投影メタデータ（投影方向情報および単独表示可否情報）を含むauxiliary information）を生成し、ファイル生成部７８に供給する。

ファイル生成部７８は、データ入力部７１から供給されたメタデータ等に基づいて、符号化部７７から供給された分割V-PCCストリームをセグメント単位でファイル化し、その結果得られたセグメントファイルを記録部７４に供給する。なお、ファイル生成部７８は、セグメントファイルの生成に必要なメタデータ等を符号化部７７から取得するようにしてもよいし、分割V-PCCストリームから抽出してもよい。

MPDファイル生成部７３は、データ入力部７１から供給されたメタデータ等に基づいて、Point Cloudデータや、そのPoint Cloudデータから構成されるV-PCCのストリームに関する情報が含まれるMPDファイルを生成し、記録部７４に供給する。即ち、MPDファイル生成部７３は、投影メタデータ（投影方向情報および単独表示可否情報）がシグナリングされたMPDファイルを生成する。なお、MPDファイル生成部７３は、MPDファイルの生成に必要なメタデータ等をファイル生成部７８から取得するようにしてもよいし、セグメントファイルから抽出してもよい。

記録部７４は、MPDファイル生成部７３から供給されたMPDファイル、およびファイル生成部７８から供給されたセグメントファイルを記録する。

アップロード部７５は、記録部７４からPoint CloudデータのMPDファイルおよびセグメントファイルを読み出してサーバにアップロードする。すなわち、アップロード部７５はMPDファイルおよびセグメントファイルをサーバに送信する通信部として機能する。

なお、ここではデータ生成装置５１が、MPDファイルおよびセグメントファイルをサーバにアップロードする装置として機能する例について説明するが、データ生成装置５１がサーバとして機能してもよい。そのような場合、データ生成装置５１のアップロード部７５は、ネットワークを介してMPDファイルおよびセグメントファイルをクライアント装置に送信する。

図１６は、コンテンツを再生するクライアント側で、ファイルから表示画像を生成してPoint Cloudデータを再生するPoint Cloud再生処理を実行する情報処理装置であるデータ再生装置の構成例を示すブロック図である。

図１６に示すデータ再生装置５２は、DASHクライアントであり、制御部８１および再生処理部８２を有している。

制御部８１は、データ再生装置５２全体の動作を制御する。例えば、制御部８１は、再生処理部８２を制御して、サーバからMPDファイルやセグメントファイルを取得させるとともに、セグメントファイルに基づいてPoint Cloudデータを再生させる。

再生処理部８２は、制御部８１の制御に従ってPoint Cloudデータを再生する。再生処理部８２は、ファイル取得部９１、ファイル処理部９２、表示制御部９４、データ解析・復号部９５、および表示部９６を有している。

ファイル処理部９２は、ファイル取得部９１から供給されたMPDファイルに基づいて、取得するV-PCCのストリームを選択し、その選択結果をファイル取得部９１にフィードバックする。なお、取得するV-PCCのストリームの選択にあたっては、表示制御部９４から供給されたユーザの視野方向（視点位置や、視線方向、視野角度など）なども適宜利用される。

ファイル取得部９１は、ファイル処理部９２から供給された選択結果に基づいて、Point Cloudデータの再生に必要なV-PCCのストリームが格納されたセグメントファイルをサーバから取得し、データ解析・復号部９５のファイル処理部９７に供給する。

表示制御部９４は、Point Cloudデータの再生（表示）を制御する。例えば、表示制御部９４は、Point Cloudを視聴するユーザの視野方向の検出結果を取得し、ファイル処理部９２およびデータ解析・復号部９５に供給する。

データ解析・復号部９５は、ファイル取得部９１から供給されたセグメントファイルに基づいて、Point Cloudデータである3Dモデルの画像を生成し、表示部９６に供給する。データ解析・復号部９５はファイル処理部９７、復号部９８、および表示情報生成部９９を有している。

ファイル処理部９７は、ファイル取得部９１から供給されたセグメントファイルからV-PCCのストリームの符号化データを抽出し、復号部９８に供給する。

復号部９８は、ファイル処理部９７から供給された符号化データを復号し、その結果得られたV-PCCのストリームを表示情報生成部９９に供給する。

表示情報生成部９９は、復号部９８から供給されたV-PCCのストリームからPoint Cloudデータを再構成し、表示制御部９４から供給されたユーザの視野方向の検出結果に基づいて、ユーザの視野方向に応じたPoint Cloudの画像のデータを生成し、表示部９６に供給する。

表示部９６は、例えば液晶表示パネルなどからなり、表示情報生成部９９から供給されたデータに基づいてPoint Cloudの画像を表示（再生）する。

＜ファイル生成処理およびPoint Cloud再生処理の処理例＞
図１７は、図１５のデータ生成装置５１が、Point Cloudデータからファイルを生成するファイル生成処理を説明するフローチャートである。

例えば、データ生成装置５１にPoint Cloudデータの入力が行われると処理が開始され、ステップＳ１１において、前処理部７６は、Point Cloudの投影方向ごとにパッチを配置し、texture画像、geometry画像、occupancy map画像、およびauxiliary informationを生成する。また、このとき、前処理部７６は、それぞれの投影方向ごとに、投影メタデータ（投影方向情報および単独表示可否情報）を生成する。

ステップＳ１２において、前処理部７６は、投影方向ごとに、texture画像、geometry画像、およびoccupancy map画像を分割して、符号化部７７に供給する。

ステップＳ１３において、符号化部７７は、texture画像、geometry画像、およびoccupancy map画像をエンコードし、auxiliary informationを加えてストリームを生成して、ファイル生成部７８に供給する。

ステップＳ１４において、ファイル生成部７８は、投影方向ごとの分割ストリームを、個別のファイルに格納し、その結果得られたセグメントファイルを記録部７４に供給する。

ステップＳ１５において、MPDファイル生成部７３は、ファイル生成部７８により生成された各ファイルに紐づく投影メタデータ（投影方向情報および単独表示可否情報）を付加したMPDを生成し、記録部７４に供給して、ファイル生成処理は終了される。その後、アップロード部７５により、任意のタイミングで記録部７４からMPDファイルおよびセグメントファイルが読み出されてサーバにアップロードされる。

図１８は、図１６のデータ再生装置５２が、ファイルから表示画像を生成して再生するPoint Cloud再生処理を説明するフローチャートである。

例えば、データ再生装置５２へファイルの先端から供給が始まると処理が開始され、ステップＳ２１において、ファイル取得部９１は、MPDの投影メタデータ（投影方向情報および単独表示可否情報）でシグナルされる投影方向情報をもとに、ユーザの視聴方向に最も近いAdaptationSetを選択する。

ステップＳ２２において、ファイル処理部９２は、ステップＳ２１でファイル取得部９１が選択したAdaptationSetの単独表示可否情報を識別する。

ステップＳ２３において、ファイル処理部９２は、ステップＳ２３における識別の結果に従って、AdaptationSetは、単独で表示可能であるか否かを判定する。

ステップＳ２３において、ファイル処理部９２が、AdaptationSetは単独で表示可能でないと判定した場合、処理はステップＳ２４に進む。ステップＳ２４において、ファイル取得部９１は、ユーザの視聴方向を表示するために必要なAdaptationSetを追加で選択した後、処理はステップＳ２５に進む。

一方、ステップＳ２３において、ファイル処理部９２が、AdaptationSetは単独で表示可能であると判定した場合、処理はステップＳ２５に進む。

ステップＳ２５において、ファイル取得部９１は、ユーザの視聴方向以外に対応する投影方向のAdaptationSetを追加で選択する。

ステップＳ２６において、ファイル取得部９１は、選択した全てのAdaptationSetが参照するファイルを取得し、データ解析・復号部９５においてPoint Cloudを再生する。

ステップＳ２７において、表示制御部９４は、ユーザの視聴方向が変更されたか否かを判定する。

ステップＳ２７において、表示制御部９４が、ユーザの視聴方向が変更されたと判定した場合、処理はステップＳ２１に戻り、以下、同様の処理が繰り返して行われる。

一方、ステップＳ２７において、表示制御部９４が、ユーザの視聴方向が変更されていないと判定した場合、処理はステップＳ２８に進む。

ステップＳ２８において、データ解析・復号部９５は、PC streamの終端か否かを判定し、PC streamの終端でない場合には処理はステップＳ２６に戻り、PC streamの終端である場合には、処理は終了される。

以上のように、データ生成装置５１が、投影メタデータ（投影方向情報および単独表示可否情報）を付加したMPDを送信することで、データ再生装置５２は、ユーザの視聴方向に最も近いAdaptationSetが単独で表示可能であるか否かを識別することができる。これにより、データ再生装置５２は、ユーザの視聴方向を表示するために必要なAdaptationSetを適切に取得することができ、Point Cloudを再生する処理に必要となる処理量の増加を抑制しつつ、より高画質なPoint Cloudを再生することができる。

なお、Point Cloudの１つの点に対し、投影方向ごとに異なる色を割り当ててもよい。例えば、投影方向X+Y+が投影方向X+との重複情報を持つ場合において、重複して投影された点の色がそれぞれの投影方向で異なってもよい。これにより、例えば、視聴方向によって色が変わることによって、キラメキなどを表現することができ、よりリアリティのあるPoint Cloudの構成が可能となる。

＜画質メタデータ＞
さらに、視聴方向に対応する分割ストリームの高画質化のための画質メタデータを定義してもよい。

例えば、Point Cloudの画質はPoint Cloudを構成する点の疎密に依存し、Point Cloudを構成する点が疎であれば低画質になり、Point Cloudを構成する点が密であれば高画質になる。そして、V-PCCにおいて、再構成されるPoint Cloudの点の疎密はtexture画像およびgeometry画像の解像度に依存する。

ここで、解像度とは、texture画像またはgeometry画像の全体ではなく、パッチとして有効な領域のピクセル数である。つまり、この有効ピクセル数が大きいほど、再構成されるPoint Cloudは高画質となる。そこで、画質メタデータとして提供されるV-PCCストリームの有効ピクセル情報は、ユーザの視聴方向に対応するPoint Cloudの領域を高画質化する上で、有効な指標となる。

従って、それぞれの投影方向ファイルに、画質メタデータを付加することで、クライアントは、この情報に基づいて、視聴方向に応じて再生に必要なファイルを選択して取得し、視聴方向が高画質なPoint Cloudを構成して、表示することができる。

以降、DASH MPDを拡張し、参照するファイルごとに画質メタデータを付加する手法について説明する。

V-PCCストリームの有効ピクセル情報は、point cloud resolution descriptor（schemeIdUri=“urn:mpeg:mpegI:pc_resolution:2018”のSupplementalProperty）を新たに定義してシグナルする。ここで、@valueは、V-PCCストリームにおける各フレームのパッチ総ピクセル数のフレーム平均を示し、例えば、occupancy mapストリームから算出できるパッチ領域（例えば、図１に示したoccupancy map画像の白色ピクセル）の総ピクセル数のフレーム平均が設定される。

また、V-PCCストリームの構成要素の１つであるauxiliary informationのdelta_size_u0およびdelta_size_v0から算出されるおおよそのパッチサイズのフレーム平均値を設定してもよい。

図１９には、画質メタデータを付加したMPDのサンプルが示されている。

このMPDサンプルをもとに、ユーザの視聴方向が投影方向X+の投影面に相当する場合のストリーム取得方法例を示す。例えば、上述した第１のシグナル方法に従って、AdaptationSet@id=vpcc0の分割ストリームを視聴方向のPoint Cloudを構築するために取得し、さらにその他のAdaptationSet（図１９のMPDのサンプルでは省略）を、それ以外の方向から見たPoint Cloudを構築するために取得する。

その際、point cloud resolution descriptorをもとに、視聴方向に相当するAdaptationSet@id=vpcc0については高画質なPoint Cloudを構築するRepresentationを、それ以外のAdaptationSetについては低画質なPoint Cloudを構築するRepresentationを選択する。このように、画質メタデータを利用することにより、ネットワーク帯域幅を有効活用した、視聴方向のPoint Cloudのさらなる高画質化を実現することができる。

なお、point cloud resolution descriptorは、分割されていないV-PCCストリームにも適用可能である。また、クライアントの処理能力に応じたV-PCCストリーム選択にも有効である。例えば、処理能力が低いクライアントは、構成されるPoint Cloudの点数が少ないV-PCCストリームを選択することができる。

さらに、画質メタデータのみを使用して分割V-PCCストリーム選択を行ってもよい。

＜extractorの利用＞
図２０および図２１を参照して、extractorの利用について説明する。

上述したように、分割ストリームを個別に選択して取得することにより、クライアントに自由度がある構成であるが、その反面、分割ストリームを個別にデコードする必要があるため、クライアントに必要なデコーダインスタンス数が増えてしまう。そこで、図２０に示すように、ISOBMFFのツールであるextractor trackを利用して、分割前のストリームと同じ数のデコーダインスタンスによるデコードを可能にする。

なお、extractor trackとは、ISO/IEC 14496-15で規定されるExtractorという機能を利用したtrackのことであり、他のtrackを参照してbitstreamの構成要素を抜出し、１つのbitstreamを再構成することができる。ここでbitstreamの構成要素とは、AVCやHEVCの場合は独立してデコードが可能な、１つもしくは複数のNAL unitである。

例えば、図２１に示すMPDのサンプルのように、high quality direction descriptor （schemeIdUri=“urn:mpeg:mpegI:pc_hq_direction:2018”のSupplementalProperty）を、extractor trackが構成するV-PCCストリームで高画質化されている投影方向情報として、新たに定義してシグナルする。ここで、@valueは、extractor trackが構成するV-PCCストリームで高画質化されている投影方向情報をシグナルする。

また、複数方向が高画質化されている場合は、@valueにコンマ区切り等で複数方向シグナルしてよい。また、投影方向間の相対的なPoint Cloud画質ランキングをシグナルしてもよい。

この場合、クライアントは、視聴方向に応じて適切なextractor trackを選択して取得した上で、さらにextractor trackが参照するファイルを取得することで、視聴方向が高画質となるV-PCCストリームを再構成することができる。このV-PCCストリームは、分割前のV-PCCストリームのデコードと同数のデコーダでデコード可能である。

その他、第１のシグナル方法の変形例として、投影面は６面のままで、投影するPoint CloudオブジェクトをＺ軸周りに４５°回転させて投影したストリームを追加で配信することで、投影面を追加した場合と同様に主観的な画質向上の効果を得ることができる。このとき、DASH MPDには前述のメタデータに加え、投影時のPoint Cloudオブジェクトの回転情報がシグナルされてもよい。なお、この変形例は、後述するISOBMFFにも適用することができる。

＜第２の拡張方法＞
図２２および図２６を参照して、投影方向情報、単独表示可否情報、および画質メタデータを、トラックごとに、ISOBMFF拡張によってシグナルする第２の拡張方法について説明する。

例えば、ISOBMFFを拡張し、トラックごとに、投影メタデータ（投影方向情報、単独表示可否情報）および画質メタデータを付加することができる。

即ち、分割したV-PCCストリームをそれぞれ1 trackごとに格納し、ISOBMFFで定義されるマルチトラックのファイルに格納する。そして、１つのPoint Cloudコンテンツを構成する分割V-PCCストリームトラックをグルーピングする新たなtrack groupとして、図２２に示すように、VPCCGroupBoxを定義する。

例えば、VPCCGroupBoxはTrackGroupTypeBoxを拡張しており、投影メタデータ（投影方向情報、単独表示可否情報）および画質メタデータをシグナルする。ここで、TrackGroupTypeBoxは、同じ特性を持った複数trackをグルーピングするためのツールであり、ISOBMFFで規定されている。

また、図２３に示すように、projection_directionは、パッチごとの投影方向を示す。即ち、projection_direction＝０の場合には投影方向X+、projection_direction＝１の場合には投影方向Y+、projection_direction＝２の場合には投影方向X-、projection_direction＝３の場合には投影方向Y-、projection_direction＝４の場合には投影方向Z+、projection_direction＝５の場合には投影方向Z-、projection_direction＝６の場合には投影方向X+Y+、projection_direction＝７の場合には投影方向X-Y+、projection_direction＝８の場合には投影方向X-Y-、projection_direction＝９の場合には投影方向X+Y-とシグナルする。

また、present_aloneは、トラック単独でPoint Cloudを構成し表示可能かを示す。例えば、present_alone＝０の場合には、トラック単独で表示不可であることを示し、present_alone＝１の場合には、トラック単独で表示可能であることを示す。

また、point_cloud_resolutionは、V-PCCストリームにおける各フレームのパッチ総ピクセル数のフレーム平均を示し、構成されるPoint Cloudのフレーム平均点数を示す。

このようなISOBMFF拡張により、全ての分割V-PCCストリームトラックをデコードするのでなく、視聴方向に応じてトラックを選択し、表示に必要な分割V-PCCストリームのみデコードしてPoint Cloud再構築を行い、優先的に表示することが可能になる。

ここで、１つの分割V-PCCストリーム内に複数投影方向のパッチが含まれていてもよい。この場合、例えば、projection_directionを10bit長とし、most significant bitから順に投影方向X+、・・・、投影方向X+Y-を割り当て、各bit fieldに１が立てばその投影方向を含むものとする。例えば、projection_direction＝1100000000は、投影方向X+および投影方向Y+を含むことを示す。

また、１つの分割V-PCCストリーム内に、単独で表示可能なパッチと表示不可能なパッチとが混在していてもよい。この場合、present_alone=0となる。

なお、投影メタデータ、画質メタデータは、Sample EntryなどVPCCGroupBox以外にシグナルしてもよい。また、単独表示可否情報はpresent_aloneというフィールドとしてではなく、単独表示不可であるトラックに対し、その表示に必要なV-PCCストリームトラックへのtrack reference（reference_type=vpcc）という方法で示してもよい。

さらに、新たなtrack groupとしてTrackGroupTypeBoxを拡張し、単独表示可能グループを定義してもよい。例えば、単独で表示不可能な投影方向X+Y+と、その表示に必要な投影方向X+および投影方向Y+をグルーピングし、グループ単位で単独表示が可能であることを示す。

＜第２の拡張方法の更なる拡張＞
ここで、第２の拡張方法の更なる拡張について説明する。

上述したように、第２の拡張方法は、投影方向情報などを有するように従来のISOBMFFを拡張する拡張方法である。これに加え、追加された４面の投影面（X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面）が、追加された４つの投影方向のパッチから生成された画像であることを示す追加投影方向識別情報を有するようにISOBMFFを更に拡張することができる。

例えば、図２４に示すようにVPCCGroupBoxを定義し、追加投影方向識別情報として、45degree_projectionをシグナルする。そして、図２５に示すように、45degree_projection=０の場合は、６つの投影方向のパッチから生成されたストリームであることを示し、45degree_projection=１の場合は、追加された４つの投影方向のパッチから生成されたストリームであることを示す。また、projection_directionは、投影方向情報（0: X+, 1: Y+, 2: X-, 3: Y-, 4: Z+, 5: Z-）を示す。

例えば、図２４に示すように45degree_projectionおよびprojection_directionをシグナルし、45degree_projection =１により、追加された４つの投影方向のパッチから生成された画像であることが示された場合、投影方向は、projection_directionで示された方向をＺ軸まわりに反時計回りに45°回転した方向であることを示す。また、45degree_projection=１とともにシグナルされるprojection_direction =０は、投影方向がX+Y+であることを示している。

なお、projection_directionをシグナルせずに、45degree_projectionのみをシグナルしてもよい。この場合、45degree_projection=０であれば、６つすべての投影方向のパッチから生成されたストリームであることを示し、45degree_projection=１であれば、追加された４つすべての投影方向のパッチから生成されたストリームであることを示すようにする。

ここで、上述した第１の拡張方法の更なる拡張と同様に、投影方向ファイルをblockごとに生成する場合、blockごとにシグナルされる45degree_projectionは、それぞれのblockの３次元空間情報を識別するためのBlock位置情報とともに利用することができる。

例えば、図２６に示すようにVPCCGroupBoxを定義し、block位置情報をシグナルする。例えば、block位置情報は、block_offset_x，block_offset_y，block_offset_z，block_size_x，block_size_y、およびblock_size_zの各フィールドで示すことができる。これらの各フィールドは全て、上述の図１４に示したように、object boxのＸ軸、Ｙ軸、およびＺ軸の各辺を１として求められる相対値によってシグナルされる。また、同じ一つのobject boxを構成するblockは、VPCCGroupBoxの拡張元であるTrackGroupTypeBoxの機能を利用してシグナルすることができる。

なお、projection_directionをシグナルせず、45degree_projectionおよびblock位置情報のみをシグナルしてもよい。この場合、45degree_projection=０であれば、各blockの投影方向ファイルが６つすべての投影方向のパッチから生成されたストリームであることを示し、45degree_projection=１であれば、追加された４つすべての投影方向のパッチから生成されたストリームであることを示すようにする。

このように、第２の拡張方法において、投影方向情報とは別に、追加投影方向識別情報がシグナルされるようにISOBMFFを拡張することができる。

＜第３の拡張方法＞
図２７乃至図３０を参照して、投影方向情報、単独表示可否情報、および画質メタデータを、パッチごとに、Elementary Stream拡張によってシグナルする第３の拡張方法について説明する。

例えば、Elementary StreamのHigh level syntaxを拡張し、パッチごとに、投影メタデータおよび画質メタデータを付加することができる。即ち、V-PCCストリームのHigh level syntaxを拡張し、投影メタデータおよび画質メタデータがシグナルされる。

図２７には、V-PCCストリームの構成要素の１つであるauxiliary informationを拡張する一例が示されている。

例えば、図２８に示すように、projection_directionは、パッチごとの投影方向を示す。即ち、projection_direction＝０の場合には投影方向X+、projection_direction＝１の場合には投影方向Y+、projection_direction＝２の場合には投影方向X-、projection_direction＝３の場合には投影方向Y-、projection_direction＝４の場合には投影方向Z+、projection_direction＝５の場合には投影方向Z-、projection_direction＝６の場合には投影方向X+Y+、projection_direction＝７の場合には投影方向X-Y+、projection_direction＝８の場合には投影方向X-Y-、projection_direction＝９の場合には投影方向X+Y-とシグナルする。

また、present_aloneは、パッチ単独でPoint Cloudを構成し表示可能かを示す。例えば、present_aloneが０である場合には、パッチ単独で表示不可であることを示し、present_aloneが１である場合には、パッチ単独で表示可能であることを示す。

また、point_cloud_resolutionは、パッチのピクセル数を示す。

なお、１つのV-PCCストリームに含まれる全パッチが、同じprojection_directionの値を持っている場合、または、present_aloneの値を持っている場合、それぞれ１つのフィールド（default_projection_direction , default_present_alone）でシグナルしてもよい。また、各パッチのpoint_cloud_resolutionの値の合計を示すフィールドをシグナルしてもよい。そして、いずれのフィールドも、occupancy_aux_stream_sizeフィールドの直後にシグナルされる。

さらに、パッチが単独で表示可能でない場合に、表示に必要な追加パッチの識別子をシグナルしてもよい。

例えば、分割V-PCCストリームに複数の投影方向のパッチが含まれていて、投影方向ごとに領域にまとめ、それぞれの領域が独立してデコードできる符号化方法で符号化されている場合、Elementary Streamレベルの投影メタデータおよび画質メタデータを参照し、分割V-PCCストリームの中で視聴方向に応じて必要な領域のみ選択してデコードし、Point Cloud再構築を行い、優先的に表示することが可能になる。例えば、符号化コーデックとしてHEVCを用い、その場合、HEVC tileで符号化された領域を独立してデコード可能である。

このとき、V-PCCストリームを格納するISOBMFFトラックのVPCCGroupBoxを拡張し、duplicated_patchフィールドを追加してもよい。このフィールドには、トラックに格納されるV-PCCストリームに重複情報を含むパッチが含まれていれば１がシグナルされ、そうでなければ０がシグナルされる。また、duplicated_patch=1である場合、デコード処理に先駆け、重複情報がある場合のポストプロセスの準備が可能となる。

＜第３の拡張方法の更なる拡張＞
ここで、第３の拡張方法の更なる拡張について説明する。

上述したように、第３の拡張方法は、投影方向情報などを有するように従来のElementary Streamを拡張する拡張方法である。これに加え、追加された４面の投影面（X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面）が、追加された４つの投影方向のパッチから生成された画像であることを示す追加投影方向識別情報を有するようにElementary Streamを更に拡張することができる。

例えば、図２９に示すように、追加投影方向識別情報として、45degree_projectionをシグナルする。なお、図２９に示すauxiliary informationは、図２７に示したauxiliary informationの一部を抜き出したものである。

例えば、図３０に示すように、45degree_projection=０の場合は、６つの投影方向のパッチであることを示し、45degree_projection=１の場合は、追加された４つの投影方向のパッチであることを示す。また、projection_directionは、投影方向情報（0: X+, 1: Y+, 2: X-, 3: Y-, 4: Z+, 5: Z-）を示す。

図２９に示すように45degree_projectionおよびprojection_directionをシグナルし、45degree_projection =１により、追加された４つの投影方向のパッチから生成された画像であることが示された場合、投影方向はprojection_directionで示された方向をＺ軸まわりに反時計回りに45°回転した方向であることを示す。また、45degree_projection=１とともにシグナルされるprojection_direction =０は、投影方向がX+Y+であることを示している。

このように、第３の拡張方法において、投影方向情報とは別に、追加投影方向識別情報がシグナルされるようにElementary Streamを拡張することができる。

以上のように、本技術によれば、V-PCC streamを分割し、DASH配信する際に、分割ストリーム内のパッチの投影方向情報および単独表示可否情報をシグナルするDASH MPDのメタデータが定義される。さらに、追加投影方向識別情報をシグナルするDASH MPDのメタデータが定義される。これにより、ネットワーク帯域幅を有効活用し、クライアント側における処理のオーバーヘッド抑制しつつ、投影面を追加することによって高画質化されたV-PCCストリームを配信することが可能になる。

例えば、従来技術では、texture画像、geometry画像、およびoccupancy map画像それぞれの全体ストリームを取得することを前提としていることから、V-PCCのストリームを配信する際、投影面が６面であるストリームに比較して、投影面が増えた分、必然的にビットレートが増加することになる。それに対し、限られたネットワーク帯域幅の環境下において、V-PCCストリーム（textureストリーム、geometryストリーム、およびoccupancy mapストリーム）を投影面ごとに分割して、クライアントの視聴方向に応じて必要な分割V-PCCストリームのみを選択して配信するといった方法が考えられる。しかしながら、この場合においては、クライアント側は、追加された投影面のパッチがその投影方向の全情報を有しているか否かを識別することができず、独立して十分表示可能な画像であるか判断することができなかった。

このような従来技術に対し、本技術によれば、投影方向情報および単独表示可否情報をシグナルすることで、限られたネットワーク帯域幅の環境下において、クライアントの視聴方向に応じて必要な分割V-PCCストリームのみを選択して配信することができる。即ち、常に投影方向の全情報を有していない前提でV-PCCの全ストリームを取得する必要はなく、不要な分割ストリームを取得することが回避される。

さらに、DASH MPDを拡張し、画質メタデータをシグナルすることで、V-PCCストリームの視聴方向の高画質化を図ることができる。

また、本技術によれば、V-PCC streamを分割してISOBMFFに格納するためのISOBMFF拡張により、全ての分割V-PCCストリームトラックをデコードするのでなく、視聴方向に応じてトラックを選択し、表示に必要な分割V-PCCストリームのみデコードしてPoint Cloudの再構築を行い、優先的に表示することが可能になる。

また、本技術によれば、V-PCCストリームのHigh level syntaxを拡張し、投影メタデータ、画質メタデータをシグナルすることで、分割V-PCCストリームに複数の投影方向のパッチが含まれている場合において、視聴方向に応じて必要な領域のみ選択してデコードし、Point Cloudの再構築を行い、優先的に表示することが可能になる。

＜コンピュータの構成例＞
次に、上述した一連の処理（情報処理方法）は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

図３１は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

あるいはまた、プログラムは、ドライブ１０９によって駆動されるリムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウェアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

また、例えば、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。

また、例えば、本技術は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能（機能ブロック等）を有し、必要な情報を得ることができるようにすればよい。

また、例えば、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、１つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を１つのステップとしてまとめて実行することもできる。

なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。

なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。

＜構成の組み合わせ例＞
なお、本技術は以下のような構成も取ることができる。
（１）
３Ｄデータを複数の投影方向に投影して、２次元に変換することによって複数の前記投影方向の画像データを生成し、
前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成する前処理部
を備える情報処理装置。
（２）
前記投影メタデータには、追加投影方向への投影によって生成された前記画像データであることを示す追加投影方向識別情報が含まれる
上記（１）に記載の情報処理装置。
（３）
前記画像データは、前記投影方向ごとのtexture画像、geometry画像、およびoccupancy map画像を有する
上記（２）に記載の情報処理装置。
（４）
前記前処理部は、前記投影方向情報または前記追加投影方向識別情報により示される前記投影方向の前記画像データが、単独での表示可能であるか否かを示す単独表示可否情報を、前記投影メタデータとして更に生成する
上記（３）に記載の情報処理装置。
（５）
前記前処理部は、前記画像データの有効ピクセル数を画質メタデータとしてさらに生成する
上記（１）から（４）までのいずれかに記載の情報処理装置。
（６）
生成された前記投影メタデータを、前記３Ｄデータの表示時に参照されるデータ単位であるファイルごとにシグナルするMPD（Media Presentation Description）を生成するMPDファイル生成部
をさらに備える上記（１）から（５）までのいずれかに記載の情報処理装置。
（７）
前記MPDファイル生成部は、前記ファイルの１つで前記３Ｄデータの単独表示が不可能である場合に、前記３Ｄデータを表示する上で必要となる他の前記ファイルへの関連付けをシグナルする
上記（６）に記載の情報処理装置。
（８）
前記MPDファイル生成部は、前記ファイルの１つで前記３Ｄデータの単独表示が不可能である場合に、そのファイルと、前記３Ｄデータを表示する上で必要となる他の前記ファイルとをグルーピングしてシグナルする
上記（６）に記載の情報処理装置。
（９）
前記投影メタデータを、複数の前記投影方向の前記データ単位であるトラックごとにシグナルするISOBMFF（ISO Base Media File Format）のファイルを生成するファイル生成部
をさらに備える上記（１）から（５）までのいずれかに記載の情報処理装置。
（１０）
前記ファイル生成部は、前記トラックの１つで前記３Ｄデータの単独表示が不可能である場合に、そのトラックと、前記３Ｄデータを表示する上で必要となる他の前記トラックとをグルーピングしてシグナルする
上記（９）に記載の情報処理装置。
（１１）
前記投影メタデータを、複数の前記投影方向の前記データ単位であるパッチごとにシグナルするElementary Streamを符号化する符号化部
をさらに備える上記（１）から（５）までのいずれかに記載の情報処理装置。
（１２）
前記符号化部は、前記パッチの１つで前記３Ｄデータの単独表示が不可能である場合に、そのパッチと、前記３Ｄデータの表示に必要な追加パッチの識別子をシグナルする
上記（１１）に記載の情報処理装置。
（１３）
前記投影方向の前記画像データが、前記３Ｄデータを含む直方体であるobject boxの一部分であるblockに基づいて生成された場合において、
前記前処理部は、前記object boxを基準にして個々の前記blockの３次元空間の位置を識別するBlock位置情報を、前記投影メタデータとして更に生成する
上記（４）に記載の情報処理装置。
（１４）
情報処理装置が、
３Ｄデータを複数の投影方向に投影して、２次元に変換することによって複数の前記投影方向の画像データを生成すること、
前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成することと
を含む情報処理方法。

なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

５１データ生成装置，５２データ再生装置，６１制御部，６２ファイル生成部，７１データ入力部，７２データ符号化・生成部，７３ MPDファイル生成部，７４記録部，７５アップロード部，７６前処理部，７７符号化部，７８ファイル生成部，８１制御部，８２再生処理部，９１ファイル取得部，９２ファイル処理部，９４表示制御部，９５データ解析・復号部，９６表示部，９７ファイル処理部，９８復号部，９９表示情報生成部

Claims

３次元構造を表すPoint Cloudデータである３Ｄデータを複数の投影方向に投影して、２次元に変換することによって複数の前記投影方向の画像データを生成し、前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成する前処理部と、
前記投影メタデータを、複数の前記投影方向のデータ単位であるトラックごとにシグナルするISOBMFF（ISO Base Media File Format）のファイルを生成するファイル生成部と
を備える情報処理装置。
前記投影メタデータには、追加投影方向への投影によって生成された前記画像データであることを示す追加投影方向識別情報が含まれる
請求項１に記載の情報処理装置。
前記画像データは、前記投影方向ごとのtexture画像、geometry画像、およびoccupancymap画像を有する
請求項２に記載の情報処理装置。
前記前処理部は、前記画像データの有効ピクセル数を画質メタデータとしてさらに生成する
請求項１に記載の情報処理装置。
前記ファイル生成部は、前記トラックの１つで前記３Ｄデータの単独表示が不可能である場合に、そのトラックと、前記３Ｄデータを表示する上で必要となる他の前記トラックとをグルーピングしてシグナルする
請求項１に記載の情報処理装置。
情報処理装置が、
３次元構造を表すPoint Cloudデータである３Ｄデータを複数の投影方向に投影して、２次元に変換することによって複数の前記投影方向の画像データを生成することと、
前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成することと、
前記投影メタデータを、複数の前記投影方向のデータ単位であるトラックごとにシグナルするISOBMFF（ISO Base Media File Format）のファイルを生成することと
を含む情報処理方法。
３次元構造を表すPoint Cloudデータである３Ｄデータが複数の投影方向に投影されて、２次元に変換することによって複数の前記投影方向の画像データが生成され、前記画像データの前記投影方向を示す投影方向情報として生成された投影メタデータが、複数の前記投影方向のデータ単位であるトラックごとにシグナルされたISOBMFF（ISO Base Media File Format）のファイルを処理して符号化データを抽出するファイル処理部
を備える情報処理装置。
３次元構造を表すPoint Cloudデータである３Ｄデータが複数の投影方向に投影されて、２次元に変換することによって複数の前記投影方向の画像データが生成され、前記画像データの前記投影方向を示す投影方向情報として生成された投影メタデータが、複数の前記投影方向のデータ単位であるトラックごとにシグナルされたISOBMFF（ISO Base Media File Format）のファイルを処理して符号化データを抽出すること
を含む情報処理方法。