JP7415936B2 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JP7415936B2
JP7415936B2 JP2020550266A JP2020550266A JP7415936B2 JP 7415936 B2 JP7415936 B2 JP 7415936B2 JP 2020550266 A JP2020550266 A JP 2020550266A JP 2020550266 A JP2020550266 A JP 2020550266A JP 7415936 B2 JP7415936 B2 JP 7415936B2
Authority
JP
Japan
Prior art keywords
projection
data
information
file
projection direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020550266A
Other languages
English (en)
Other versions
JPWO2020071112A1 (ja
Inventor
遼平 高橋
光浩 平林
央二 中神
智 隈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020071112A1 publication Critical patent/JPWO2020071112A1/ja
Application granted granted Critical
Publication of JP7415936B2 publication Critical patent/JP7415936B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本開示は、情報処理装置および情報処理方法に関し、特に、クライアントにおける処理量の増加を抑制しつつ、より高画質化を図ることができるようにした情報処理装置および情報処理方法に関する。
従来、非特許文献1で開示されているように、3次元空間上に位置情報および属性情報(特に色情報)を同時に持った点の集合であるPoint Cloudの圧縮方法が規定されている。
また、非特許文献2には、Point Cloudの圧縮方法の一つとして、Point Cloudデータを複数の領域に分割(以下、セグメンテーションと称する)し、領域毎に平面投影してtexture画像、geometry画像、occupancy map画像、auxiliary informationを生成した後、それらの3種類の画像を動画コーデックにより符号化する方法が開示されている。ここで、geometry画像は、Point Cloudを構成する点群のdepth情報から構成される画像である。また、この方法は、Video-based Point Cloud Coding(V-PCC)と称されている。
ところで、従来、Point Cloudデータをセグメンテーションした後、領域ごとに平面投影してtexture画像、geometry画像、およびoccupancy map画像を生成する際の投影面の数は、6面(水平方向に4面および垂直方向に2面)であった。このように投影面が6面である場合、3Dから2Dへ変換する際に消失する点が多く、再構築されたPoint Cloudオブジェクトの表面に穴が開くことがあった。
そこで、非特許文献3に開示されているように、投影面を新たに4面追加して、10面(水平方向に8面および垂直方向に2面)に増やす技術が開発されており、MPEG(Moving Picture Experts Group)においても議論されている。
また、非特許文献4には、object boxを分割する個々のblockに部分的にアクセスすることができる技術が開示されている。
MPEG-I Part5 Point Cloud Compression (ISO/IEC 23090-5) w17534, Working draft of Point Cloud Coding for Category 2 (Draft 1), April 2018, San Diego, USA w17871, PCC Core Experiment on Patch packing, July 2018, Ljubljana, Slovenia ISO/IEC JTC 1/SC 29/WG 11 Coding of moving pictures and audio Convenorship: UNI (Italy) "Technologies Under Consideration for Carriage of Point Cloud Data"
ところで、上記のように高画質化のために投影面を新たに追加することは、クライアントにおける処理量が増加することが想定される。また、従来のクライアントは、配信されるストリームが通常の6面の投影面による画像で生成されているものであるのか、新たに追加された4面の投影面による画像で生成されているものであるのかを事前に識別することができなかった。このため、全ストリーム取得しなければならず、限られたネットワーク帯域幅の環境下においては、再生途切れや画質の悪化、および、クライアント側における処理のオーバーヘッド増大につながることが懸念される。
本開示は、このような状況に鑑みてなされたものであり、クライアントにおける処理量の増加を抑制しつつ、より高画質化を図ることができるようにするものである。
本開示の第1の側面の情報処理装置は、3次元構造を表すPoint Cloudデータである3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の前記投影方向の画像データを生成し、前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成する前処理部と、前記投影メタデータを、複数の前記投影方向のデータ単位であるトラックごとにシグナルするISOBMFFのファイルを生成するファイル生成部とを備える。
本開示の第2の側面の情報処理装置は、3次元構造を表すPoint Cloudデータである3Dデータが複数の投影方向に投影されて、2次元に変換することによって複数の前記投影方向の画像データが生成され、前記画像データの前記投影方向を示す投影方向情報として生成された投影メタデータが、複数の前記投影方向のデータ単位であるトラックごとにシグナルされたISOBMFFのファイルを処理して符号化データを抽出するファイル処理部を備える。
本開示の第1の側面の情報処理方法は、3次元構造を表すPoint Cloudデータである3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の前記投影方向の画像データを生成すること、前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成することと、前記投影メタデータを、複数の前記投影方向のデータ単位であるトラックごとにシグナルするISOBMFFのファイルを生成することとを含む。
本開示の第2の側面の情報処理方法は、3次元構造を表すPoint Cloudデータである3Dデータが複数の投影方向に投影されて、2次元に変換することによって複数の前記投影方向の画像データが生成され、前記画像データの前記投影方向を示す投影方向情報として生成された投影メタデータが、複数の前記投影方向のデータ単位であるトラックごとにシグナルされたISOBMFFのファイルを処理して符号化データを抽出することを含む。
本開示の第1の側面においては、3次元構造を表すPoint Cloudデータである3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の投影方向の画像データが生成され、それぞれの画像データの投影方向を示す投影方向情報が投影メタデータとして生成され、投影メタデータを、複数の投影方向のデータ単位であるトラックごとにシグナルするISOBMFFのファイルが生成される。
本開示の第2の側面においては、3次元構造を表すPoint Cloudデータである3Dデータが複数の投影方向に投影されて、2次元に変換することによって複数の前記投影方向の画像データが生成され、それぞれの画像データの投影方向を示す投影方向情報として生成された投影メタデータが、複数の投影方向のデータ単位であるトラックごとにシグナルされたISOBMFFのファイルが処理されて符号化データが抽出される。
Point Cloudの圧縮方法を説明する図である。 投影面が6面である場合に生成される画像について説明する図である。 水平方向に8面の投影面を設定する一例を示す図である。 投影面を増やすことによる画質の改善について説明する図である。 投影面が10面である場合に生成される画像について説明する図である。 投影面が10面であるときのファイルの生成について説明する図である。 視聴方向に応じたファイルの取得例について説明する図である。 第1の拡張方法における第1のシグナル方法でのMPDのサンプルを示す図である。 ストリームの取得例について説明する図である。 第1の拡張方法における第2のシグナル方法でのMPDのサンプルを示す図である。 追加投影方向識別情報をシグナルしたMPDのサンプルを示す図である。 object boxおよびblockについて説明する図である。 blockごとに設定される追加投影方向識別情報をシグナルしたMPDのサンプルを示す図である。 gpcc:blockInfo要素の各属性について説明する図である。 データ生成装置の構成例を示すブロック図である。 データ再生装置の構成例を示すブロック図である。 ファイル生成処理を説明するフローチャートである。 Point Cloud再生処理を説明するフローチャートである。 画質メタデータを付加したMPDのサンプルを示す図である。 extractor trackを利用する変形例について説明する図である。 extractor trackを利用したMPDのサンプルを示す図である。 新たに定義するVPCCGroupBoxの一例を示す図である。 projection_direction,present_alone、およびpoint_cloud_resolutionの定義を説明する図である。 追加投影方向識別情報をシグナルしたVPCCGroupBoxのサンプルを示す図である。 45degree_projection,projection_direction,present_alone、およびpoint_cloud_resolutionの定義を説明する図である。 blockごとに設定される追加投影方向識別情報をシグナルしたVPCCGroupBoxのサンプルを示す図である。 auxiliary informationの拡張について説明する図である。 projection_direction,present_alone、およびpoint_cloud_resolutionの定義を説明する図である。 45degree_projectionを追加したauxiliary informationの一部を示す図である。 45degree_projection,projection_direction,present_alone、およびpoint_cloud_resolutionの定義を説明する図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
<従来のシグナリング>
本技術を適用したシグナリングについて説明する前に、図1乃至図4を参照して、従来のシグナリングについて説明する。
図1は、上述した非特許文献2で開示されているV-PCCを、簡略的に説明するための図である。
図1に示すように、まず、3次元構造を表すPoint Cloudデータ(3Dデータ)が入力され、そのPoint Cloudコンテンツが複数の領域にセグメンテーションされる。図1に示す例では、半球形状と円錐形状とが組み合わされた3次元構造を表すPoint Cloudデータが入力され、そのPoint Cloudコンテンツに対し、半球形状を1領域に、円錐形状を2領域に分割した3つの領域にセグメンテーションが行われる。
次に、領域ごとに平面投影が行われ、それぞれの領域の表面の見た目を表す色情報からなるtexture画像、それぞれの領域の表面までの奥行(depth)を表す位置情報からなるgeometry画像、および、コンポーネントのピクチャ内のパッチ位置情報からなるoccupancy map画像が生成される。そして、texture画像、geometry画像、およびoccupancy map画像が、例えば、AVC(Advanced Video Coding)やHEVC(High Efficiency Video Coding)などの動画像コーデックで符号化される。
従来、図2に示すように、6面の投影面(X+投影面、X-投影面、Y+投影面、Y-投影面、Z+投影面、およびZ-投影面)に投影されたパッチが、それぞれの投影方向ごとにまとめられて配置されたtexture画像を生成することができる。また、geometry画像、およびoccupancy map画像についても同様に、6面の投影面に投影されたパッチが、それぞれの投影方向ごとにまとめられて配置されて生成することができる。
これに対し、上述した非特許文献3で開示されているように、10面の投影面で、texture画像、geometry画像、およびoccupancy map画像を生成する技術が開発されている。即ち、図3に示すように、従来、水平方向に90°ごとの4面の投影面(実線)が用いられており、それらの投影面に対して投影方向を45°ずらした4面の投影面(破線)を追加して、垂直方向の2面を含めた10面の投影面が用いられる。
例えば、投影面が6面の場合には、図4の上側に示すように、再構築されたPoint Cloudオブジェクトの表面に穴が開いてしまうことがあった。これに対し、投影面を10面に増やすことで、図4の下側に示すように、投影面が6面の場合には開いていた穴を埋め、そのような穴が表面に開かないようにPoint Cloudオブジェクトを再構築することができ、主観的に、画質の向上を図ることができる。
そして、図5に示すように、10面の投影面(X+投影面、X-投影面、Y+投影面、Y-投影面、Z+投影面、Z-投影面、X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)に投影されたパッチが、それぞれの投影方向ごとにまとめられて配置されたtexture画像を生成することができる。また、geometry画像、およびoccupancy map画像についても同様に、10面の投影面に投影されたパッチが、それぞれの投影方向ごとにまとめられて配置されて生成することができる。
ここで、Point Cloudを投影面に投影する際、従来から用いられていた水平方向の4面の投影面(X+投影面、X-投影面、Y+投影面、およびY-投影面)に投影されるPoint Cloudの点は、追加された水平方向の4面の投影面(X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)にも重複して投影されることになる。
そして、この追加された4面の投影面への投影で、既存の水平方向の4面との間で生じる全ての重複する部分について、追加された4面の投影面のパッチに含めて重複情報として符号化するか、追加された4面の投影面のパッチから重複する部分を削除し、既存の水平方向の4面との間の差分のみを重複情報として符号化するかは、エンコーダの実装に依存することになる。例えば、追加された4面の投影面のパッチに含めて重複情報を符号化する場合には、X+Y+投影面に投影された全てのパッチは、X+Y+投影面の投影方向の全情報を有している。一方、追加された4面の投影面のパッチから削除して重複情報を符号化する場合には、X+Y+投影面に投影されたパッチの中に、X+投影面およびY+投影面のパッチで消失した差分情報のみを含むパッチが存在する。
従って、追加された4面の投影面のパッチに含めて重複情報を符号化する場合、投影方向ごとの分割ストリームは単独で表示可能である。一方、追加された4面の投影面のパッチから削除して重複情報を符号化する場合、投影方向ごとの分割ストリームは単独での表示が不可能である。
即ち、投影面を10面にすることにより、主観的な画質の向上を図ることができる一方で、それに伴い画像内のパッチの数も増えるので、texture画像、geometry画像、およびoccupancy map画像の情報量が増加することになる。
また、従来、texture画像、geometry画像、およびoccupancy map画像それぞれの全体ストリームを取得することを前提としている。このため、V-PCCのストリームを配信する際、投影面が6面であるストリームと比較して、投影面が10面に増えたのに応じて必然的にビットレートが増加することになる。
従って、これに伴い、例えば限られたネットワーク帯域幅の環境下において、再生時の途切れを招いてしまうことが起こると想定される。それに対し、限られたネットワーク帯域幅の中で途切れない再生を行うためにビットレートを削減しようとすると、画質向上のために投影面を増加させたのにもかかわらず、ビットレート削減の符号化による画質悪化を招くことが懸念される。
このため、V-PCCストリーム(textureストリーム、geometryストリーム、およびoccupancy mapストリーム)を投影面ごとに分割して配信し、ユーザの視聴方向に応じて必要な投影面の分割V-PCCストリームのみを選択して取得する方法が、配信ビットレートを削減する上で有効であると考えられる。
しかしながら、この場合においても、追加された4面の投影面(X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)のパッチが、それぞれの投影方向の全情報を有しているか否かを識別することができない。このため、独立して表示可能な画像であるか判断することができず、常に、投影方向の全情報を有していない前提でストリームを取得することになってしまう。
例えば、ユーザの視聴方向が投影方向X+Y+の分割ストリームに対応する場合において、その分割ストリームが投影方向の全情報を有しており、そのストリームだけで投影方向のPoint Cloudコンテンツを構成できる場合においても、投影方向X+Y+の周囲の投影方向X+および投影方向Y+の分割ストリームを取得することになってしまう。このように、表示するにあたって本来は不要な分割ストリームを取得することになるため、再生途切れや画質の悪化、および、クライアント側における処理のオーバーヘッド増大が懸念される。
そこで、V-PCCストリームを分割して、表示にあたって必要なストリームのみを配信することによって、ネットワーク帯域幅を有効活用し、クライアントにおける処理量の増加を抑制しつつ、投影面の追加によって高画質化されたV-PCCストリームを配信することが求められている。このためには、追加平面に関する情報、つまり、分割V-PCCストリーム内のパッチの投影方向情報と、単独での表示が可能か否かを示す単独表示可否情報をクライアントに提供するための手段が必要となる。
本開示では、上述したような追加平面に関する情報を含めたファイルを生成し、クライアントに提供する手段を提案する。その具体的な実施例として、以下で拡張(DASH MPD拡張、ISOBMFF拡張、またはElementary Stream拡張)する方法について説明する。また、V-PCCストリームの視聴方向の高画質化を図るため、高画質化に有効なV-PCCストリームの有効ピクセル情報を、画質メタデータとしてクライアントに提供する手段を提案する。
ここで、拡張方法について説明する前に、図6および図7を参照して、投影方向情報および単独表示可否情報をクライアントに提供することによる効果について説明する。
例えば、図6の中央に示すように、10面の投影面(X+投影面、X-投影面、Y+投影面、Y-投影面、Z+投影面、Z-投影面、X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)に投影されたパッチが、全て同じ配置で、それぞれの投影方向ごとにまとめられて、texture画像、geometry画像、およびoccupancy map画像が生成されるとともに、投影方向情報および単独表示可否情報からなる投影メタデータを含むauxiliary informationが生成される。
その後、図6の右側に示すように、生成された各画像を投影方向ごとに分割し、符号化することにより、投影方向ごとのtextureストリーム、geometryストリーム、およびoccupancy mapストリームが生成される。そして、それらのストリームとauxiliary informationとが格納される投影方向ファイル(ISOBMFF:ISO Base Media File Format)が生成される。
例えば、投影方向ファイルは、投影方向ごとのtextureストリーム、geometryストリーム、およびoccupancy mapストリームとともに、auxiliary informationをまとめてシングルストリームを生成し、そのシングルストリームを格納した1つのトラックから構成することができる。また、投影方向ファイルは、投影方向ごとのtextureストリーム、geometryストリーム、およびoccupancy mapストリームそれぞれと、auxiliary informationとを個別に格納した4つのトラックから構成することができる。このように、投影方向ごとに投影方向ファイルを生成することにより、各投影方向に対応する10個の投影方向ファイルが生成される。
このように、投影方向ファイルはauxiliary informationを有して構成され、auxiliary informationには、その1ファイルの投影方向を示す投影方向情報と、その1ファイルで単独表示が可能か否かを示す単独表示可否情報が付加される。従って、クライアントは、これらの情報に基づいて、視聴方向に応じて再生に必要なファイルを選択して取得することができ、Point Cloudを構成して、表示することができる。
一方、図7のAに示す矢印viewは視聴方向を表しており、ユーザの視聴方向が、投影方向X+Y+の付近であるときのファイルの取得例について説明する。
例えば、単独表示可否情報が、単独表示が可能であることを示している場合、クライアントは、図7のBに示す4つの投影方向にZ方向の2つの投影方向を加えた6つの投影方向(投影方向X+Y+、投影方向X-Y-、投影方向X-Y+、投影方向X+Y-、投影方向Z+、および投影方向Z-)の投影方向ファイルを取得する。これに対し、単独表示可否情報が、単独表示が不可であることを示している場合、クライアントは、図7のCに示す5つの投影方向にZ方向の2つの投影方向を加えた7つの投影方向(投影方向X+Y+、投影方向Y+、投影方向X-、投影方向Y-、投影方向X+、投影方向Z+、および投影方向Z-)の投影方向ファイルを取得する。
このように、単独表示可否情報が、単独表示が可能である場合も、単独表示が不可である場合も、クライアントが取得するファイル数は投影メタデータなしの場合の10ファイルより少なくなり、かつ視聴方向の主観的画質は同等である。つまり、ネットワーク帯域幅を有効活用し、クライアント側における処理のオーバーヘッド抑制しつつ、投影面追加によって高画質化されたV-PCCストリームをクライアントに配信することが可能となる。
<第1の拡張方法>
図8乃至図21を参照して、投影方向情報、単独表示可否情報、および画質メタデータを、参照するファイルごとに、DASH MPD(Dynamic Adaptive Streaming over HTTP Media Presentation Description)拡張によってシグナルする第1の拡張方法について説明する。
例えば、投影メタデータは、投影方向情報および単独表示可否情報からなる。単独表示可否情報は、ファイルに含まれるtextureストリーム、geometryストリーム、およびoccupancy mapストリームが単独で表示可能であるか否かを示す情報であり、その情報のシグナル方法には、以下で説明する第1および第2のシグナル方法がある。
<第1の拡張方法における第1のシグナル方法>
第1のシグナル方法では、ファイルに含まれるtextureストリーム、geometryストリーム、およびoccupancy mapストリームが単体で表示可能であるか否かを示すフラグによりシグナルする。
図8に示すMPDのサンプルのように、projection direction descriptor(schemeIdUri=“urn:mpeg:mpegI:pc_proj_direction:2018”のSupplementalProperty)を、分割V-PCCストリームの投影方向情報として、新たに定義してシグナルする。ここで、@valueは、ストリーム内パッチの投影方向情報をシグナルする。
例えば、Point Cloudのローカル座標系を基準にして、@value(0~9)により投影方向をシグナルする。即ち、@value=0の場合には投影方向X+、@value=1の場合には投影方向Y+、@value=2の場合には投影方向X-、@value=3の場合には投影方向Y-、@value=4の場合には投影方向Z+、@value=5の場合には投影方向Z-、@value=6の場合には投影方向X+Y+、@value=7の場合には投影方向X-Y+、@value=8の場合には投影方向X-Y-、@value=9の場合には投影方向X+Y-とシグナルする。
なお、1つの分割V-PCCストリーム内に複数の投影方向のパッチが含まれていてもよい。この場合、@valueにコンマ区切り等で、複数の投影方向がシグナルされる。
また、図8に示すMPDのサンプルのように、present alone descriptor(schemeIdUri=“urn:mpeg:mpegI:pc_present_alone:2018”のSupplementalProperty)を、分割V-PCCストリームの単独表示可否情報として、新たに定義してシグナルする。ここで、@valueには0または1が設定され、@value=0の場合には、その分割ストリームを単独で表示不可能であることを示し、@value=1の場合には、その分割ストリームを単独で表示可能であることを示す。
例えば、図8に示す例は、投影方向X+および投影方向Y+に投影されたパッチを含む分割ストリームは単独表示可能で、投影方向X+Y+に投影されたパッチを含む分割ストリームは単独表示不可能であることを示している。
なお、1つの分割V-PCCストリーム内に、単独で表示可能なパッチと表示不可能なパッチとが混在していてもよい。この場合、present alone descriptorの@value=0となる。
また、1つのPoint Cloudを構成する分割V-PCCストリームのグルーピングは、point cloud group descriptor(schemeIdUri=“urn:mpeg:mpegI:pc_group:2018”のSupplementalProperty)を新たに定義してシグナルする。ここで、@valueはグルーピング識別子をシグナルし、同じ値の分割V-PCCストリームが1つのPoint Cloudを構成する。
例えば、ユーザの視聴方向が投影方向X+Y+の付近であり、その方向から見たPoint Cloudのみを再構築しようとする場合、クライアントはprojection direction descriptorを参照してAdaptationSet@id=vpcc45を選択する。そして、クライアントは、present alone descriptorから単独表示不可であることを識別することができ、周辺の投影方向であるAdaptationSet@id=vpcc0およびAdaptationSet@id=vpcc90を選択する。このように、クライアントが、3つのAdaptationSetsを取得することで、視聴方向をカバーするPoint Cloud表示が可能となる。
また、例えば、ユーザの視聴方向が投影方向X+の付近である場合、クライアントは、AdaptationSet@id=vpcc0のみを選択して取得すればよいことを識別できるので、視聴方向をカバーする上で、その他の余分な分割ストリームを取得することが不要となる。
なお、視聴方向からは見えない背面のPoint Cloudを構成する分割V-PCCストリームをさらに取得してもよい。その際、背面についてはPoint Cloudに穴が空いていてもよいので、最低限の分割ストリーム取得にとどめることで、配信ビットレートを削減できる。例えば、ユーザの視聴方向が投影方向X+Y+の付近であるときに、投影方向X+Y+のストリームが単独表示不可能であった場合、図9に示すように、水平方向においては5つの投影方向(投影方向X+Y+、投影方向X+、投影方向Y+、投影方向X、および投影方向Y-)のストリームを取得すればよい。
このように、projection direction descriptorおよびpresent alone descriptorを用いることで、V-PCCストリームの視聴方向に応じた配信を効果的に行うことができる。
なお、新たに定義したdescriptorは、EssentialPropertyを用いてシグナルしてもよい。
このとき、EssentialPropertyのschemeIdUriに対応していないDASHクライアントは、このPropertyの書かれているPreselection, Adaptation Set(もしくはRepresentationなどの場合もあり)は無視しなければならない。また、SupplementalPropertyのschemeIdUriに対応していないDASHクライアントは、このProperty値を無視して、そのPreselection, AdaptationSet(もしくはRepresentationなどの場合もあり)を利用してもよい。
<第1の拡張方法における第2のシグナル方法>
第2のシグナル方法では、ファイルに含まれるtextureストリーム、geometryストリーム、およびoccupancy mapストリームが単体で表示不可能である場合には、表示する上で必要なファイルへの関連付けをシグナルする。
まず、単独表示できない分割ストリームのRepresentationから、その表示をする上で必要な情報を持っている分割ストリームのRepresentationへの紐づけをRepresentation@dependencyIdで行う。つまり、分割V-PCCストリームの単独表示可否情報として、Representation@dependencyIdを利用する。例えば、Representation@dependencyIdがある場合、単独で表示不可能な分割ストリームであることを示し、Representation@dependencyIdがない場合は単独で表示可能な分割ストリームであることを示す。
図10には、第2のシグナル方法におけるMPDのサンプルが示されており、第2のシグナル方法においても、上述したような第1のシグナル方法と同様の効果を得ることができる。
また、新たにdescriptorを定義し、単独表示可能グループをシグナルしてもよい。例えば、単独で表示不可能な投影方向X+Y+と、その表示に必要な投影方向X+および投影方向Y+をグルーピングし、グループ単位で単独表示が可能であることを示す。
<第1の拡張方法の更なる拡張>
ここで、第1の拡張方法の更なる拡張について説明する。
上述したように、第1の拡張方法は、投影方向情報などを有するように従来のDASH MPDを拡張する拡張方法である。これに加え、追加された4面の投影面(X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)が、追加された4つの投影方向のパッチから生成された画像であることを示す追加投影方向識別情報を有するようにDASH MPDを更に拡張することができる。
例えば、図11に示すMPDのサンプルのように、45degree projection descriptor(schemeIdUri=“urn:mpeg:mpegI:pc_45degree_projection:2018”のSupplementalProperty)を、投影方向ファイルの追加投影方向識別情報として、新たに定義してシグナルする。ここで、45degree projection descriptorにおいて、@value=0は、6つの投影方向のパッチから生成されたストリームであることを示し、@value=1は、追加された4つの投影方向のパッチから生成されたストリームであることを示す。
また、projection direction descriptorは、Point Cloudのローカル座標系を基準にして、@value(0~5)により投影方向をシグナルする。即ち、@value=0の場合には投影方向X+、@value=1の場合には投影方向Y+、@value=2の場合には投影方向X-、@value=3の場合には投影方向Y-、@value=4の場合には投影方向Z+、@value=5の場合には投影方向Z-とシグナルする。
なお、図11に示すMPDのサンプルのように、各Adaptation Setにおいて、45degree projection descriptorおよびprojection direction descriptorをシグナルすることで、図8に示したMPDのサンプルと等価となる。
即ち、45degree projection descriptorの@value=1により、追加された4つの投影方向のパッチから生成された画像であることが示された場合、投影方向はprojection direction descriptorの@valueで示された方向をZ軸まわりに反時計回りに45°回転した方向であることを示す。例えば、@id=”vpcc45”のAdaptation Setに示すように、@value=1の45degree projection descriptorともにシグナルされるprojection direction descriptorの@value=0は、投影方向がX+Y+であることを示している。
また、45degree projection descriptorがシグナルされない場合には、6つの投影方向のパッチから生成されたストリームであることを示すようにしてもよい。一方、45degree projection descriptorがシグナルされた場合には、4つの投影方向のパッチから生成されたストリームであることを示すようにしてもよい。
さらに、projection direction descriptorをシグナルせずに、45degree projection descriptorのみをシグナルしてもよい。この場合、45degree projection descriptorにおいて、@value=0であれば、6つすべての投影方向のパッチから生成されたストリームであることを示し、@value=1であれば、追加された4つすべての投影方向のパッチから生成されたストリームであることを示すようにする。
ここで、上述の非特許文献4で開示されているように、object boxを分割する個々のblockに部分的にアクセスすることができる場合には、それぞれのblockに基づいて投影方向ファイルを生成してもよい。例えば、object boxは、Point Cloudオブジェクトの全体を含むような直方体の形状をしており、object boxよりも小さな直方体であるblockによって複数に分割することができる。
図12には、object boxが4つのblockによって分割される一例が示されている。例えば、object boxには、図12のAに示すようなX軸、Y軸、およびZ軸が設定されており、図12のBに示すようにZ軸方向から見て、X軸およびY軸方向に2×2の配置となるように4つのblockによってobject boxを分割することができる。そして、図12のBの右下に示すように、blockの4面の投影面(実線)に対して投影方向を45°ずらした4面の投影面(破線)を追加することができる。
また、投影方向ファイルをblockごとに生成する場合、blockごとにシグナルされる45degree projection descriptorは、それぞれのblockの3次元空間情報を識別するためのBlock位置情報とともに利用することができる。
即ち、図13に示すMPDのサンプルのように、各Adaptation Setにおいて、projection direction descriptor,45degree projection descriptor、およびblock information descriptorをシグナルする。ここで、block information descriptor (schemeIdUri=”urn:mpeg:mepgI:gpcc:block_information:2018”のSupplementalProperty)は、blockの3次元空間情報をシグナルする。例えば、blockの3次元空間情報は、gpcc:blockInfo要素のblock_offset_x,block_offset_y,block_offset_z,block_size_x,block_size_y、およびblock_size_zの各属性で示すことができる。また、object_id属性が等しいblockは、同じ一つのobject boxを構成することを示す。
ここで、gpcc:blockInfo要素の各属性は、図14に示すように、object boxのX軸、Y軸、およびZ軸の各辺を1として求められる相対値によってシグナルされる。
なお、projection direction descriptorをシグナルせず、45degree projection descriptorおよびblock information descriptorのみをシグナルしてもよい。この場合、45degree projection descriptorにおいて、@value=0であれば、各blockの投影方向ファイルが6つすべての投影方向のパッチから生成されたストリームであることを示し、@value=1であれば、追加された4つすべての投影方向のパッチから生成されたストリームであることを示すようにする。
このように、第1の拡張方法において、投影方向情報とは別に、追加投影方向識別情報がシグナルされるようにMPDを拡張することができる。
<情報処理装置の構成例>
図15は、コンテンツを提供するサーバ側で、Point CloudデータからPC streamを生成し、そのPC streamをISOBMFFに格納したファイルを生成するファイル生成処理を実行する情報処理装置であるデータ生成装置の構成例を示すブロック図である。
図15に示すデータ生成装置51は、制御部61およびファイル生成部62を有している。このデータ生成装置51は、MPEG-DASHなどにより配信されるV-PCCのストリームのセグメントファイルとMPDファイルを生成してサーバにアップロードする。
制御部61は、データ生成装置51全体の動作を制御する。例えば、制御部61は、ファイル生成部62を制御して、V-PCCのストリームが格納されたセグメントファイルや、メタデータが含まれるMPDファイルを生成させたり、それらのセグメントファイルやMPDファイルをアップロードさせたりする。
ファイル生成部62は、制御部61の制御に従ってセグメントファイルやMPDファイルを生成するとともに、それらのセグメントファイルやMPDファイルを、ネットワークを介してサーバにアップロード(送信)する。
ファイル生成部62は、データ入力部71、データ符号化・生成部72、MPDファイル生成部73、記録部74、およびアップロード部75を有している。
データ入力部71は、Point Cloudデータを取得してデータ符号化・生成部72に供給するとともに、MPDファイルの生成に必要なメタデータを取得してMPDファイル生成部73に供給する。
データ符号化・生成部72は、データ入力部71から供給されたPoint Cloudデータに基づいて、texture画像、geometry画像、およびoccupancy map画像を生成するとともに、それらのV-PCCのストリームが格納されたセグメントファイルを生成し、記録部74に供給する。
データ符号化・生成部72は、前処理部76、符号化部77、およびファイル生成部78を有している。
前処理部76は、データ入力部71から供給されたPoint Cloudデータに基づいて、texture画像、geometry画像、およびoccupancy map画像を生成するとともに、投影メタデータ(投影方向情報および単独表示可否情報)と画質メタデータも生成し、符号化部77に供給する。さらに、前処理部76は、図6を参照して説明したように、投影方向ごとに、texture画像、geometry画像、およびoccupancy map画像を分割する。
符号化部77は、前処理部76から供給されたtexture画像、geometry画像、およびoccupancy map画像を符号化し、分割V-PCCストリーム(即ち、投影方向ごとに分割されたtextureストリーム、geometryストリーム、occupancy mapストリームと、投影メタデータ(投影方向情報および単独表示可否情報)を含むauxiliary information)を生成し、ファイル生成部78に供給する。
ファイル生成部78は、データ入力部71から供給されたメタデータ等に基づいて、符号化部77から供給された分割V-PCCストリームをセグメント単位でファイル化し、その結果得られたセグメントファイルを記録部74に供給する。なお、ファイル生成部78は、セグメントファイルの生成に必要なメタデータ等を符号化部77から取得するようにしてもよいし、分割V-PCCストリームから抽出してもよい。
MPDファイル生成部73は、データ入力部71から供給されたメタデータ等に基づいて、Point Cloudデータや、そのPoint Cloudデータから構成されるV-PCCのストリームに関する情報が含まれるMPDファイルを生成し、記録部74に供給する。即ち、MPDファイル生成部73は、投影メタデータ(投影方向情報および単独表示可否情報)がシグナリングされたMPDファイルを生成する。なお、MPDファイル生成部73は、MPDファイルの生成に必要なメタデータ等をファイル生成部78から取得するようにしてもよいし、セグメントファイルから抽出してもよい。
記録部74は、MPDファイル生成部73から供給されたMPDファイル、およびファイル生成部78から供給されたセグメントファイルを記録する。
アップロード部75は、記録部74からPoint CloudデータのMPDファイルおよびセグメントファイルを読み出してサーバにアップロードする。すなわち、アップロード部75はMPDファイルおよびセグメントファイルをサーバに送信する通信部として機能する。
なお、ここではデータ生成装置51が、MPDファイルおよびセグメントファイルをサーバにアップロードする装置として機能する例について説明するが、データ生成装置51がサーバとして機能してもよい。そのような場合、データ生成装置51のアップロード部75は、ネットワークを介してMPDファイルおよびセグメントファイルをクライアント装置に送信する。
図16は、コンテンツを再生するクライアント側で、ファイルから表示画像を生成してPoint Cloudデータを再生するPoint Cloud再生処理を実行する情報処理装置であるデータ再生装置の構成例を示すブロック図である。
図16に示すデータ再生装置52は、DASHクライアントであり、制御部81および再生処理部82を有している。
制御部81は、データ再生装置52全体の動作を制御する。例えば、制御部81は、再生処理部82を制御して、サーバからMPDファイルやセグメントファイルを取得させるとともに、セグメントファイルに基づいてPoint Cloudデータを再生させる。
再生処理部82は、制御部81の制御に従ってPoint Cloudデータを再生する。再生処理部82は、ファイル取得部91、ファイル処理部92、表示制御部94、データ解析・復号部95、および表示部96を有している。
ファイル処理部92は、ファイル取得部91から供給されたMPDファイルに基づいて、取得するV-PCCのストリームを選択し、その選択結果をファイル取得部91にフィードバックする。なお、取得するV-PCCのストリームの選択にあたっては、表示制御部94から供給されたユーザの視野方向(視点位置や、視線方向、視野角度など)なども適宜利用される。
ファイル取得部91は、ファイル処理部92から供給された選択結果に基づいて、Point Cloudデータの再生に必要なV-PCCのストリームが格納されたセグメントファイルをサーバから取得し、データ解析・復号部95のファイル処理部97に供給する。
表示制御部94は、Point Cloudデータの再生(表示)を制御する。例えば、表示制御部94は、Point Cloudを視聴するユーザの視野方向の検出結果を取得し、ファイル処理部92およびデータ解析・復号部95に供給する。
データ解析・復号部95は、ファイル取得部91から供給されたセグメントファイルに基づいて、Point Cloudデータである3Dモデルの画像を生成し、表示部96に供給する。データ解析・復号部95はファイル処理部97、復号部98、および表示情報生成部99を有している。
ファイル処理部97は、ファイル取得部91から供給されたセグメントファイルからV-PCCのストリームの符号化データを抽出し、復号部98に供給する。
復号部98は、ファイル処理部97から供給された符号化データを復号し、その結果得られたV-PCCのストリームを表示情報生成部99に供給する。
表示情報生成部99は、復号部98から供給されたV-PCCのストリームからPoint Cloudデータを再構成し、表示制御部94から供給されたユーザの視野方向の検出結果に基づいて、ユーザの視野方向に応じたPoint Cloudの画像のデータを生成し、表示部96に供給する。
表示部96は、例えば液晶表示パネルなどからなり、表示情報生成部99から供給されたデータに基づいてPoint Cloudの画像を表示(再生)する。
<ファイル生成処理およびPoint Cloud再生処理の処理例>
図17は、図15のデータ生成装置51が、Point Cloudデータからファイルを生成するファイル生成処理を説明するフローチャートである。
例えば、データ生成装置51にPoint Cloudデータの入力が行われると処理が開始され、ステップS11において、前処理部76は、Point Cloudの投影方向ごとにパッチを配置し、texture画像、geometry画像、occupancy map画像、およびauxiliary informationを生成する。また、このとき、前処理部76は、それぞれの投影方向ごとに、投影メタデータ(投影方向情報および単独表示可否情報)を生成する。
ステップS12において、前処理部76は、投影方向ごとに、texture画像、geometry画像、およびoccupancy map画像を分割して、符号化部77に供給する。
ステップS13において、符号化部77は、texture画像、geometry画像、およびoccupancy map画像をエンコードし、auxiliary informationを加えてストリームを生成して、ファイル生成部78に供給する。
ステップS14において、ファイル生成部78は、投影方向ごとの分割ストリームを、個別のファイルに格納し、その結果得られたセグメントファイルを記録部74に供給する。
ステップS15において、MPDファイル生成部73は、ファイル生成部78により生成された各ファイルに紐づく投影メタデータ(投影方向情報および単独表示可否情報)を付加したMPDを生成し、記録部74に供給して、ファイル生成処理は終了される。その後、アップロード部75により、任意のタイミングで記録部74からMPDファイルおよびセグメントファイルが読み出されてサーバにアップロードされる。
図18は、図16のデータ再生装置52が、ファイルから表示画像を生成して再生するPoint Cloud再生処理を説明するフローチャートである。
例えば、データ再生装置52へファイルの先端から供給が始まると処理が開始され、ステップS21において、ファイル取得部91は、MPDの投影メタデータ(投影方向情報および単独表示可否情報)でシグナルされる投影方向情報をもとに、ユーザの視聴方向に最も近いAdaptationSetを選択する。
ステップS22において、ファイル処理部92は、ステップS21でファイル取得部91が選択したAdaptationSetの単独表示可否情報を識別する。
ステップS23において、ファイル処理部92は、ステップS23における識別の結果に従って、AdaptationSetは、単独で表示可能であるか否かを判定する。
ステップS23において、ファイル処理部92が、AdaptationSetは単独で表示可能でないと判定した場合、処理はステップS24に進む。ステップS24において、ファイル取得部91は、ユーザの視聴方向を表示するために必要なAdaptationSetを追加で選択した後、処理はステップS25に進む。
一方、ステップS23において、ファイル処理部92が、AdaptationSetは単独で表示可能であると判定した場合、処理はステップS25に進む。
ステップS25において、ファイル取得部91は、ユーザの視聴方向以外に対応する投影方向のAdaptationSetを追加で選択する。
ステップS26において、ファイル取得部91は、選択した全てのAdaptationSetが参照するファイルを取得し、データ解析・復号部95においてPoint Cloudを再生する。
ステップS27において、表示制御部94は、ユーザの視聴方向が変更されたか否かを判定する。
ステップS27において、表示制御部94が、ユーザの視聴方向が変更されたと判定した場合、処理はステップS21に戻り、以下、同様の処理が繰り返して行われる。
一方、ステップS27において、表示制御部94が、ユーザの視聴方向が変更されていないと判定した場合、処理はステップS28に進む。
ステップS28において、データ解析・復号部95は、PC streamの終端か否かを判定し、PC streamの終端でない場合には処理はステップS26に戻り、PC streamの終端である場合には、処理は終了される。
以上のように、データ生成装置51が、投影メタデータ(投影方向情報および単独表示可否情報)を付加したMPDを送信することで、データ再生装置52は、ユーザの視聴方向に最も近いAdaptationSetが単独で表示可能であるか否かを識別することができる。これにより、データ再生装置52は、ユーザの視聴方向を表示するために必要なAdaptationSetを適切に取得することができ、Point Cloudを再生する処理に必要となる処理量の増加を抑制しつつ、より高画質なPoint Cloudを再生することができる。
なお、Point Cloudの1つの点に対し、投影方向ごとに異なる色を割り当ててもよい。例えば、投影方向X+Y+が投影方向X+との重複情報を持つ場合において、重複して投影された点の色がそれぞれの投影方向で異なってもよい。これにより、例えば、視聴方向によって色が変わることによって、キラメキなどを表現することができ、よりリアリティのあるPoint Cloudの構成が可能となる。
<画質メタデータ>
さらに、視聴方向に対応する分割ストリームの高画質化のための画質メタデータを定義してもよい。
例えば、Point Cloudの画質はPoint Cloudを構成する点の疎密に依存し、Point Cloudを構成する点が疎であれば低画質になり、Point Cloudを構成する点が密であれば高画質になる。そして、V-PCCにおいて、再構成されるPoint Cloudの点の疎密はtexture画像およびgeometry画像の解像度に依存する。
ここで、解像度とは、texture画像またはgeometry画像の全体ではなく、パッチとして有効な領域のピクセル数である。つまり、この有効ピクセル数が大きいほど、再構成されるPoint Cloudは高画質となる。そこで、画質メタデータとして提供されるV-PCCストリームの有効ピクセル情報は、ユーザの視聴方向に対応するPoint Cloudの領域を高画質化する上で、有効な指標となる。
従って、それぞれの投影方向ファイルに、画質メタデータを付加することで、クライアントは、この情報に基づいて、視聴方向に応じて再生に必要なファイルを選択して取得し、視聴方向が高画質なPoint Cloudを構成して、表示することができる。
以降、DASH MPDを拡張し、参照するファイルごとに画質メタデータを付加する手法について説明する。
V-PCCストリームの有効ピクセル情報は、point cloud resolution descriptor(schemeIdUri=“urn:mpeg:mpegI:pc_resolution:2018”のSupplementalProperty)を新たに定義してシグナルする。ここで、@valueは、V-PCCストリームにおける各フレームのパッチ総ピクセル数のフレーム平均を示し、例えば、occupancy mapストリームから算出できるパッチ領域(例えば、図1に示したoccupancy map画像の白色ピクセル)の総ピクセル数のフレーム平均が設定される。
また、V-PCCストリームの構成要素の1つであるauxiliary informationのdelta_size_u0およびdelta_size_v0から算出されるおおよそのパッチサイズのフレーム平均値を設定してもよい。
図19には、画質メタデータを付加したMPDのサンプルが示されている。
このMPDサンプルをもとに、ユーザの視聴方向が投影方向X+の投影面に相当する場合のストリーム取得方法例を示す。例えば、上述した第1のシグナル方法に従って、AdaptationSet@id=vpcc0の分割ストリームを視聴方向のPoint Cloudを構築するために取得し、さらにその他のAdaptationSet(図19のMPDのサンプルでは省略)を、それ以外の方向から見たPoint Cloudを構築するために取得する。
その際、point cloud resolution descriptorをもとに、視聴方向に相当するAdaptationSet@id=vpcc0については高画質なPoint Cloudを構築するRepresentationを、それ以外のAdaptationSetについては低画質なPoint Cloudを構築するRepresentationを選択する。このように、画質メタデータを利用することにより、ネットワーク帯域幅を有効活用した、視聴方向のPoint Cloudのさらなる高画質化を実現することができる。
なお、point cloud resolution descriptorは、分割されていないV-PCCストリームにも適用可能である。また、クライアントの処理能力に応じたV-PCCストリーム選択にも有効である。例えば、処理能力が低いクライアントは、構成されるPoint Cloudの点数が少ないV-PCCストリームを選択することができる。
さらに、画質メタデータのみを使用して分割V-PCCストリーム選択を行ってもよい。
<extractorの利用>
図20および図21を参照して、extractorの利用について説明する。
上述したように、分割ストリームを個別に選択して取得することにより、クライアントに自由度がある構成であるが、その反面、分割ストリームを個別にデコードする必要があるため、クライアントに必要なデコーダインスタンス数が増えてしまう。そこで、図20に示すように、ISOBMFFのツールであるextractor trackを利用して、分割前のストリームと同じ数のデコーダインスタンスによるデコードを可能にする。
なお、extractor trackとは、ISO/IEC 14496-15で規定されるExtractorという機能を利用したtrackのことであり、他のtrackを参照してbitstreamの構成要素を抜出し、1つのbitstreamを再構成することができる。ここでbitstreamの構成要素とは、AVCやHEVCの場合は独立してデコードが可能な、1つもしくは複数のNAL unitである。
例えば、図21に示すMPDのサンプルのように、high quality direction descriptor (schemeIdUri=“urn:mpeg:mpegI:pc_hq_direction:2018”のSupplementalProperty)を、extractor trackが構成するV-PCCストリームで高画質化されている投影方向情報として、新たに定義してシグナルする。ここで、@valueは、extractor trackが構成するV-PCCストリームで高画質化されている投影方向情報をシグナルする。
例えば、Point Cloudのローカル座標系を基準にして、@value(0~9)により投影方向をシグナルする。即ち、@value=0の場合には投影方向X+、@value=1の場合には投影方向Y+、@value=2の場合には投影方向X-、@value=3の場合には投影方向Y-、@value=4の場合には投影方向Z+、@value=5の場合には投影方向Z-、@value=6の場合には投影方向X+Y+、@value=7の場合には投影方向X-Y+、@value=8の場合には投影方向X-Y-、@value=9の場合には投影方向X+Y-とシグナルする。
また、複数方向が高画質化されている場合は、@valueにコンマ区切り等で複数方向シグナルしてよい。また、投影方向間の相対的なPoint Cloud画質ランキングをシグナルしてもよい。
この場合、クライアントは、視聴方向に応じて適切なextractor trackを選択して取得した上で、さらにextractor trackが参照するファイルを取得することで、視聴方向が高画質となるV-PCCストリームを再構成することができる。このV-PCCストリームは、分割前のV-PCCストリームのデコードと同数のデコーダでデコード可能である。
その他、第1のシグナル方法の変形例として、投影面は6面のままで、投影するPoint CloudオブジェクトをZ軸周りに45°回転させて投影したストリームを追加で配信することで、投影面を追加した場合と同様に主観的な画質向上の効果を得ることができる。このとき、DASH MPDには前述のメタデータに加え、投影時のPoint Cloudオブジェクトの回転情報がシグナルされてもよい。なお、この変形例は、後述するISOBMFFにも適用することができる。
<第2の拡張方法>
図22および図26を参照して、投影方向情報、単独表示可否情報、および画質メタデータを、トラックごとに、ISOBMFF拡張によってシグナルする第2の拡張方法について説明する。
例えば、ISOBMFFを拡張し、トラックごとに、投影メタデータ(投影方向情報、単独表示可否情報)および画質メタデータを付加することができる。
即ち、分割したV-PCCストリームをそれぞれ1 trackごとに格納し、ISOBMFFで定義されるマルチトラックのファイルに格納する。そして、1つのPoint Cloudコンテンツを構成する分割V-PCCストリームトラックをグルーピングする新たなtrack groupとして、図22に示すように、VPCCGroupBoxを定義する。
例えば、VPCCGroupBoxはTrackGroupTypeBoxを拡張しており、投影メタデータ(投影方向情報、単独表示可否情報)および画質メタデータをシグナルする。ここで、TrackGroupTypeBoxは、同じ特性を持った複数trackをグルーピングするためのツールであり、ISOBMFFで規定されている。
また、図23に示すように、projection_directionは、パッチごとの投影方向を示す。即ち、projection_direction=0の場合には投影方向X+、projection_direction=1の場合には投影方向Y+、projection_direction=2の場合には投影方向X-、projection_direction=3の場合には投影方向Y-、projection_direction=4の場合には投影方向Z+、projection_direction=5の場合には投影方向Z-、projection_direction=6の場合には投影方向X+Y+、projection_direction=7の場合には投影方向X-Y+、projection_direction=8の場合には投影方向X-Y-、projection_direction=9の場合には投影方向X+Y-とシグナルする。
また、present_aloneは、トラック単独でPoint Cloudを構成し表示可能かを示す。例えば、present_alone=0の場合には、トラック単独で表示不可であることを示し、present_alone=1の場合には、トラック単独で表示可能であることを示す。
また、point_cloud_resolutionは、V-PCCストリームにおける各フレームのパッチ総ピクセル数のフレーム平均を示し、構成されるPoint Cloudのフレーム平均点数を示す。
このようなISOBMFF拡張により、全ての分割V-PCCストリームトラックをデコードするのでなく、視聴方向に応じてトラックを選択し、表示に必要な分割V-PCCストリームのみデコードしてPoint Cloud再構築を行い、優先的に表示することが可能になる。
ここで、1つの分割V-PCCストリーム内に複数投影方向のパッチが含まれていてもよい。この場合、例えば、projection_directionを10bit長とし、most significant bitから順に投影方向X+、・・・、投影方向X+Y-を割り当て、各bit fieldに1が立てばその投影方向を含むものとする。例えば、projection_direction=1100000000は、投影方向X+および投影方向Y+を含むことを示す。
また、1つの分割V-PCCストリーム内に、単独で表示可能なパッチと表示不可能なパッチとが混在していてもよい。この場合、present_alone=0となる。
なお、投影メタデータ、画質メタデータは、Sample EntryなどVPCCGroupBox以外にシグナルしてもよい。また、単独表示可否情報はpresent_aloneというフィールドとしてではなく、単独表示不可であるトラックに対し、その表示に必要なV-PCCストリームトラックへのtrack reference(reference_type=vpcc)という方法で示してもよい。
さらに、新たなtrack groupとしてTrackGroupTypeBoxを拡張し、単独表示可能グループを定義してもよい。例えば、単独で表示不可能な投影方向X+Y+と、その表示に必要な投影方向X+および投影方向Y+をグルーピングし、グループ単位で単独表示が可能であることを示す。
<第2の拡張方法の更なる拡張>
ここで、第2の拡張方法の更なる拡張について説明する。
上述したように、第2の拡張方法は、投影方向情報などを有するように従来のISOBMFFを拡張する拡張方法である。これに加え、追加された4面の投影面(X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)が、追加された4つの投影方向のパッチから生成された画像であることを示す追加投影方向識別情報を有するようにISOBMFFを更に拡張することができる。
例えば、図24に示すようにVPCCGroupBoxを定義し、追加投影方向識別情報として、45degree_projectionをシグナルする。そして、図25に示すように、45degree_projection=0の場合は、6つの投影方向のパッチから生成されたストリームであることを示し、45degree_projection=1の場合は、追加された4つの投影方向のパッチから生成されたストリームであることを示す。また、projection_directionは、投影方向情報(0: X+, 1: Y+, 2: X-, 3: Y-, 4: Z+, 5: Z-)を示す。
例えば、図24に示すように45degree_projectionおよびprojection_directionをシグナルし、45degree_projection =1により、追加された4つの投影方向のパッチから生成された画像であることが示された場合、投影方向は、projection_directionで示された方向をZ軸まわりに反時計回りに45°回転した方向であることを示す。また、45degree_projection=1とともにシグナルされるprojection_direction =0は、投影方向がX+Y+であることを示している。
なお、projection_directionをシグナルせずに、45degree_projectionのみをシグナルしてもよい。この場合、45degree_projection=0であれば、6つすべての投影方向のパッチから生成されたストリームであることを示し、45degree_projection=1であれば、追加された4つすべての投影方向のパッチから生成されたストリームであることを示すようにする。
ここで、上述した第1の拡張方法の更なる拡張と同様に、投影方向ファイルをblockごとに生成する場合、blockごとにシグナルされる45degree_projectionは、それぞれのblockの3次元空間情報を識別するためのBlock位置情報とともに利用することができる。
例えば、図26に示すようにVPCCGroupBoxを定義し、block位置情報をシグナルする。例えば、block位置情報は、block_offset_x,block_offset_y,block_offset_z,block_size_x,block_size_y、およびblock_size_zの各フィールドで示すことができる。これらの各フィールドは全て、上述の図14に示したように、object boxのX軸、Y軸、およびZ軸の各辺を1として求められる相対値によってシグナルされる。また、同じ一つのobject boxを構成するblockは、VPCCGroupBoxの拡張元であるTrackGroupTypeBoxの機能を利用してシグナルすることができる。
なお、projection_directionをシグナルせず、45degree_projectionおよびblock位置情報のみをシグナルしてもよい。この場合、45degree_projection=0であれば、各blockの投影方向ファイルが6つすべての投影方向のパッチから生成されたストリームであることを示し、45degree_projection=1であれば、追加された4つすべての投影方向のパッチから生成されたストリームであることを示すようにする。
このように、第2の拡張方法において、投影方向情報とは別に、追加投影方向識別情報がシグナルされるようにISOBMFFを拡張することができる。
<第3の拡張方法>
図27乃至図30を参照して、投影方向情報、単独表示可否情報、および画質メタデータを、パッチごとに、Elementary Stream拡張によってシグナルする第3の拡張方法について説明する。
例えば、Elementary StreamのHigh level syntaxを拡張し、パッチごとに、投影メタデータおよび画質メタデータを付加することができる。即ち、V-PCCストリームのHigh level syntaxを拡張し、投影メタデータおよび画質メタデータがシグナルされる。
図27には、V-PCCストリームの構成要素の1つであるauxiliary informationを拡張する一例が示されている。
例えば、図28に示すように、projection_directionは、パッチごとの投影方向を示す。即ち、projection_direction=0の場合には投影方向X+、projection_direction=1の場合には投影方向Y+、projection_direction=2の場合には投影方向X-、projection_direction=3の場合には投影方向Y-、projection_direction=4の場合には投影方向Z+、projection_direction=5の場合には投影方向Z-、projection_direction=6の場合には投影方向X+Y+、projection_direction=7の場合には投影方向X-Y+、projection_direction=8の場合には投影方向X-Y-、projection_direction=9の場合には投影方向X+Y-とシグナルする。
また、present_aloneは、パッチ単独でPoint Cloudを構成し表示可能かを示す。例えば、present_aloneが0である場合には、パッチ単独で表示不可であることを示し、present_aloneが1である場合には、パッチ単独で表示可能であることを示す。
また、point_cloud_resolutionは、パッチのピクセル数を示す。
なお、1つのV-PCCストリームに含まれる全パッチが、同じprojection_directionの値を持っている場合、または、present_aloneの値を持っている場合、それぞれ1つのフィールド(default_projection_direction , default_present_alone)でシグナルしてもよい。また、各パッチのpoint_cloud_resolutionの値の合計を示すフィールドをシグナルしてもよい。そして、いずれのフィールドも、occupancy_aux_stream_sizeフィールドの直後にシグナルされる。
さらに、パッチが単独で表示可能でない場合に、表示に必要な追加パッチの識別子をシグナルしてもよい。
例えば、分割V-PCCストリームに複数の投影方向のパッチが含まれていて、投影方向ごとに領域にまとめ、それぞれの領域が独立してデコードできる符号化方法で符号化されている場合、Elementary Streamレベルの投影メタデータおよび画質メタデータを参照し、分割V-PCCストリームの中で視聴方向に応じて必要な領域のみ選択してデコードし、Point Cloud再構築を行い、優先的に表示することが可能になる。例えば、符号化コーデックとしてHEVCを用い、その場合、HEVC tileで符号化された領域を独立してデコード可能である。
このとき、V-PCCストリームを格納するISOBMFFトラックのVPCCGroupBoxを拡張し、duplicated_patchフィールドを追加してもよい。このフィールドには、トラックに格納されるV-PCCストリームに重複情報を含むパッチが含まれていれば1がシグナルされ、そうでなければ0がシグナルされる。また、duplicated_patch=1である場合、デコード処理に先駆け、重複情報がある場合のポストプロセスの準備が可能となる。
<第3の拡張方法の更なる拡張>
ここで、第3の拡張方法の更なる拡張について説明する。
上述したように、第3の拡張方法は、投影方向情報などを有するように従来のElementary Streamを拡張する拡張方法である。これに加え、追加された4面の投影面(X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)が、追加された4つの投影方向のパッチから生成された画像であることを示す追加投影方向識別情報を有するようにElementary Streamを更に拡張することができる。
例えば、図29に示すように、追加投影方向識別情報として、45degree_projectionをシグナルする。なお、図29に示すauxiliary informationは、図27に示したauxiliary informationの一部を抜き出したものである。
例えば、図30に示すように、45degree_projection=0の場合は、6つの投影方向のパッチであることを示し、45degree_projection=1の場合は、追加された4つの投影方向のパッチであることを示す。また、projection_directionは、投影方向情報(0: X+, 1: Y+, 2: X-, 3: Y-, 4: Z+, 5: Z-)を示す。
図29に示すように45degree_projectionおよびprojection_directionをシグナルし、45degree_projection =1により、追加された4つの投影方向のパッチから生成された画像であることが示された場合、投影方向はprojection_directionで示された方向をZ軸まわりに反時計回りに45°回転した方向であることを示す。また、45degree_projection=1とともにシグナルされるprojection_direction =0は、投影方向がX+Y+であることを示している。
このように、第3の拡張方法において、投影方向情報とは別に、追加投影方向識別情報がシグナルされるようにElementary Streamを拡張することができる。
以上のように、本技術によれば、V-PCC streamを分割し、DASH配信する際に、分割ストリーム内のパッチの投影方向情報および単独表示可否情報をシグナルするDASH MPDのメタデータが定義される。さらに、追加投影方向識別情報をシグナルするDASH MPDのメタデータが定義される。これにより、ネットワーク帯域幅を有効活用し、クライアント側における処理のオーバーヘッド抑制しつつ、投影面を追加することによって高画質化されたV-PCCストリームを配信することが可能になる。
例えば、従来技術では、texture画像、geometry画像、およびoccupancy map画像それぞれの全体ストリームを取得することを前提としていることから、V-PCCのストリームを配信する際、投影面が6面であるストリームに比較して、投影面が増えた分、必然的にビットレートが増加することになる。それに対し、限られたネットワーク帯域幅の環境下において、V-PCCストリーム(textureストリーム、geometryストリーム、およびoccupancy mapストリーム)を投影面ごとに分割して、クライアントの視聴方向に応じて必要な分割V-PCCストリームのみを選択して配信するといった方法が考えられる。しかしながら、この場合においては、クライアント側は、追加された投影面のパッチがその投影方向の全情報を有しているか否かを識別することができず、独立して十分表示可能な画像であるか判断することができなかった。
このような従来技術に対し、本技術によれば、投影方向情報および単独表示可否情報をシグナルすることで、限られたネットワーク帯域幅の環境下において、クライアントの視聴方向に応じて必要な分割V-PCCストリームのみを選択して配信することができる。即ち、常に投影方向の全情報を有していない前提でV-PCCの全ストリームを取得する必要はなく、不要な分割ストリームを取得することが回避される。
さらに、DASH MPDを拡張し、画質メタデータをシグナルすることで、V-PCCストリームの視聴方向の高画質化を図ることができる。
また、本技術によれば、V-PCC streamを分割してISOBMFFに格納するためのISOBMFF拡張により、全ての分割V-PCCストリームトラックをデコードするのでなく、視聴方向に応じてトラックを選択し、表示に必要な分割V-PCCストリームのみデコードしてPoint Cloudの再構築を行い、優先的に表示することが可能になる。
また、本技術によれば、V-PCCストリームのHigh level syntaxを拡張し、投影メタデータ、画質メタデータをシグナルすることで、分割V-PCCストリームに複数の投影方向のパッチが含まれている場合において、視聴方向に応じて必要な領域のみ選択してデコードし、Point Cloudの再構築を行い、優先的に表示することが可能になる。
<コンピュータの構成例>
次に、上述した一連の処理(情報処理方法)は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
図31は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
あるいはまた、プログラムは、ドライブ109によって駆動されるリムーバブル記録媒体111に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウェアとして提供することができる。ここで、リムーバブル記録媒体111としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク105にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)102を内蔵しており、CPU102には、バス101を介して、入出力インタフェース110が接続されている。
CPU102は、入出力インタフェース110を介して、ユーザによって、入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、CPU102は、ハードディスク105に格納されたプログラムを、RAM(Random Access Memory)104にロードして実行する。
これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
なお、入力部107は、キーボードや、マウス、マイク等で構成される。また、出力部106は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
また、例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
<構成の組み合わせ例>
なお、本技術は以下のような構成も取ることができる。
(1)
3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の前記投影方向の画像データを生成し、
前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成する前処理部
を備える情報処理装置。
(2)
前記投影メタデータには、追加投影方向への投影によって生成された前記画像データであることを示す追加投影方向識別情報が含まれる
上記(1)に記載の情報処理装置。
(3)
前記画像データは、前記投影方向ごとのtexture画像、geometry画像、およびoccupancy map画像を有する
上記(2)に記載の情報処理装置。
(4)
前記前処理部は、前記投影方向情報または前記追加投影方向識別情報により示される前記投影方向の前記画像データが、単独での表示可能であるか否かを示す単独表示可否情報を、前記投影メタデータとして更に生成する
上記(3)に記載の情報処理装置。
(5)
前記前処理部は、前記画像データの有効ピクセル数を画質メタデータとしてさらに生成する
上記(1)から(4)までのいずれかに記載の情報処理装置。
(6)
生成された前記投影メタデータを、前記3Dデータの表示時に参照されるデータ単位であるファイルごとにシグナルするMPD(Media Presentation Description)を生成するMPDファイル生成部
をさらに備える上記(1)から(5)までのいずれかに記載の情報処理装置。
(7)
前記MPDファイル生成部は、前記ファイルの1つで前記3Dデータの単独表示が不可能である場合に、前記3Dデータを表示する上で必要となる他の前記ファイルへの関連付けをシグナルする
上記(6)に記載の情報処理装置。
(8)
前記MPDファイル生成部は、前記ファイルの1つで前記3Dデータの単独表示が不可能である場合に、そのファイルと、前記3Dデータを表示する上で必要となる他の前記ファイルとをグルーピングしてシグナルする
上記(6)に記載の情報処理装置。
(9)
前記投影メタデータを、複数の前記投影方向の前記データ単位であるトラックごとにシグナルするISOBMFF(ISO Base Media File Format)のファイルを生成するファイル生成部
をさらに備える上記(1)から(5)までのいずれかに記載の情報処理装置。
(10)
前記ファイル生成部は、前記トラックの1つで前記3Dデータの単独表示が不可能である場合に、そのトラックと、前記3Dデータを表示する上で必要となる他の前記トラックとをグルーピングしてシグナルする
上記(9)に記載の情報処理装置。
(11)
前記投影メタデータを、複数の前記投影方向の前記データ単位であるパッチごとにシグナルするElementary Streamを符号化する符号化部
をさらに備える上記(1)から(5)までのいずれかに記載の情報処理装置。
(12)
前記符号化部は、前記パッチの1つで前記3Dデータの単独表示が不可能である場合に、そのパッチと、前記3Dデータの表示に必要な追加パッチの識別子をシグナルする
上記(11)に記載の情報処理装置。
(13)
前記投影方向の前記画像データが、前記3Dデータを含む直方体であるobject boxの一部分であるblockに基づいて生成された場合において、
前記前処理部は、前記object boxを基準にして個々の前記blockの3次元空間の位置を識別するBlock位置情報を、前記投影メタデータとして更に生成する
上記(4)に記載の情報処理装置。
(14)
情報処理装置が、
3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の前記投影方向の画像データを生成すること、
前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成することと
を含む情報処理方法。
なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
51 データ生成装置, 52 データ再生装置, 61 制御部, 62 ファイル生成部, 71 データ入力部, 72 データ符号化・生成部, 73 MPDファイル生成部, 74 記録部, 75 アップロード部, 76 前処理部, 77 符号化部, 78 ファイル生成部, 81 制御部, 82 再生処理部, 91 ファイル取得部, 92 ファイル処理部, 94 表示制御部, 95 データ解析・復号部, 96 表示部, 97 ファイル処理部, 98 復号部, 99 表示情報生成部

Claims (8)

  1. 3次元構造を表すPoint Cloudデータである3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の前記投影方向の画像データを生成し、前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成する前処理部と、
    前記投影メタデータを、複数の前記投影方向のデータ単位であるトラックごとにシグナルするISOBMFF(ISO Base Media File Format)のファイルを生成するファイル生成部と
    を備える情報処理装置。
  2. 前記投影メタデータには、追加投影方向への投影によって生成された前記画像データであることを示す追加投影方向識別情報が含まれる
    請求項1に記載の情報処理装置。
  3. 前記画像データは、前記投影方向ごとのtexture画像、geometry画像、およびoccupancymap画像を有する
    請求項2に記載の情報処理装置。
  4. 前記前処理部は、前記画像データの有効ピクセル数を画質メタデータとしてさらに生成する
    請求項1に記載の情報処理装置。
  5. 前記ファイル生成部は、前記トラックの1つで前記3Dデータの単独表示が不可能である場合に、そのトラックと、前記3Dデータを表示する上で必要となる他の前記トラックとをグルーピングしてシグナルする
    請求項1に記載の情報処理装置。
  6. 情報処理装置が、
    3次元構造を表すPoint Cloudデータである3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の前記投影方向の画像データを生成すること
    前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成することと
    前記投影メタデータを、複数の前記投影方向のデータ単位であるトラックごとにシグナルするISOBMFF(ISO Base Media File Format)のファイルを生成することと
    を含む情報処理方法。
  7. 3次元構造を表すPoint Cloudデータである3Dデータが複数の投影方向に投影されて、2次元に変換することによって複数の前記投影方向の画像データが生成され、前記画像データの前記投影方向を示す投影方向情報として生成された投影メタデータが、複数の前記投影方向のデータ単位であるトラックごとにシグナルされたISOBMFF(ISO Base Media File Format)のファイルを処理して符号化データを抽出するファイル処理部
    を備える情報処理装置。
  8. 3次元構造を表すPoint Cloudデータである3Dデータが複数の投影方向に投影されて、2次元に変換することによって複数の前記投影方向の画像データが生成され、前記画像データの前記投影方向を示す投影方向情報として生成された投影メタデータが、複数の前記投影方向のデータ単位であるトラックごとにシグナルされたISOBMFF(ISO Base Media File Format)のファイルを処理して符号化データを抽出すること
    を含む情報処理方法。
JP2020550266A 2018-10-02 2019-09-18 情報処理装置および情報処理方法 Active JP7415936B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2018187817 2018-10-02
JP2018187817 2018-10-02
JP2019117700 2019-06-25
JP2019117700 2019-06-25
PCT/JP2019/036466 WO2020071112A1 (ja) 2018-10-02 2019-09-18 情報処理装置および情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2020071112A1 JPWO2020071112A1 (ja) 2021-09-02
JP7415936B2 true JP7415936B2 (ja) 2024-01-17

Family

ID=70054767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020550266A Active JP7415936B2 (ja) 2018-10-02 2019-09-18 情報処理装置および情報処理方法

Country Status (5)

Country Link
US (2) US11481961B2 (ja)
EP (1) EP3863290A4 (ja)
JP (1) JP7415936B2 (ja)
CN (1) CN112789865A (ja)
WO (1) WO2020071112A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11481961B2 (en) * 2018-10-02 2022-10-25 Sony Corporation Information processing apparatus and information processing method
WO2020145668A1 (ko) * 2019-01-08 2020-07-16 삼성전자주식회사 3차원 컨텐츠의 처리 및 전송 방법
KR102344072B1 (ko) * 2020-01-08 2021-12-28 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
US11706450B2 (en) * 2020-09-18 2023-07-18 Samsung Electronics Co., Ltd. Partial decoding and reconstruction of a video-based point cloud compression bitstream

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140056499A1 (en) 2012-08-24 2014-02-27 Samsung Electronics Co., Ltd. Apparatus and method for generating image using correction model
US20180260990A1 (en) 2017-03-07 2018-09-13 Thomas Brunner Method and Apparatus for Generating an Output Image from a Volume Data Set
JP2021529482A (ja) 2018-06-30 2021-10-28 華為技術有限公司Huawei Technologies Co.,Ltd. 点群符号化方法、点群復号化方法、符号器、及び復号器

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4694404A (en) * 1984-01-12 1987-09-15 Key Bank N.A. High-speed image generation of complex solid objects using octree encoding
JP3537965B2 (ja) * 1996-08-28 2004-06-14 日本電気株式会社 多段式フロントエンド・プロセッサ装置
US20060291506A1 (en) * 2005-06-23 2006-12-28 Cain David C Process of providing content component displays with a digital video recorder
US8726325B2 (en) * 2005-08-08 2014-05-13 Telvue Corporation Method and apparatus for scheduling delivery of video and graphics
US20090240716A1 (en) * 2008-03-20 2009-09-24 Mediatek Inc. Data processing method, system, and device for multimedia data recording and data patching method thereof
WO2012039998A1 (en) * 2010-09-24 2012-03-29 Tufts University Imaging adaptor for camera
US20140002598A1 (en) * 2012-06-29 2014-01-02 Electronics And Telecommunications Research Institute Transport system and client system for hybrid 3d content service
CN103900503B (zh) * 2012-12-27 2016-12-28 清华大学 提取形状特征的方法、安全检查方法以及设备
CN103903303B (zh) * 2012-12-27 2018-01-30 清华大学 三维模型创建方法和设备
CN107851425B (zh) * 2015-08-05 2022-01-18 索尼公司 信息处理设备、信息处理方法和程序
US9754405B1 (en) * 2015-08-10 2017-09-05 Ngrain (Canada) Corporation System, method and computer-readable medium for organizing and rendering 3D voxel models in a tree structure
KR102523997B1 (ko) * 2016-02-12 2023-04-21 삼성전자주식회사 360도 영상 처리 방법 및 장치
US20170289533A1 (en) * 2016-03-30 2017-10-05 Seiko Epson Corporation Head mounted display, control method thereof, and computer program
US11172005B2 (en) * 2016-09-09 2021-11-09 Nokia Technologies Oy Method and apparatus for controlled observation point and orientation selection audiovisual content
US20180240276A1 (en) * 2017-02-23 2018-08-23 Vid Scale, Inc. Methods and apparatus for personalized virtual reality media interface design
US10375375B2 (en) * 2017-05-15 2019-08-06 Lg Electronics Inc. Method of providing fixed region information or offset region information for subtitle in virtual reality system and device for controlling the same
US10992961B2 (en) * 2017-05-25 2021-04-27 Qualcomm Incorporated High-level signaling for fisheye video data
US10659760B2 (en) * 2017-07-10 2020-05-19 Qualcomm Incorporated Enhanced high-level signaling for fisheye virtual reality video
CN107464283B (zh) * 2017-07-13 2020-11-10 广西我的科技有限公司 一种三维空间信息采集分析处理的方法及装置
US11065761B2 (en) * 2017-07-25 2021-07-20 Dematic Corp. Robotic picking training technique
US10853975B2 (en) * 2018-01-26 2020-12-01 Sony Corporation Hybrid projection-based point cloud texture coding
US20190251744A1 (en) * 2018-02-12 2019-08-15 Express Search, Inc. System and method for searching 3d models using 2d images
US11481961B2 (en) * 2018-10-02 2022-10-25 Sony Corporation Information processing apparatus and information processing method
US11216984B2 (en) * 2019-01-09 2022-01-04 Samsung Electronics Co., Ltd. Patch splitting for improving video-based point cloud compression performance

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140056499A1 (en) 2012-08-24 2014-02-27 Samsung Electronics Co., Ltd. Apparatus and method for generating image using correction model
US20180260990A1 (en) 2017-03-07 2018-09-13 Thomas Brunner Method and Apparatus for Generating an Output Image from a Volume Data Set
JP2021529482A (ja) 2018-06-30 2021-10-28 華為技術有限公司Huawei Technologies Co.,Ltd. 点群符号化方法、点群復号化方法、符号器、及び復号器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Qualcomm Incorporated,VRStream:Status OMAF and VR-IF,WG4 #96 S4-171168,3GPP TSG SA,2017年11月07日,pp.1-5

Also Published As

Publication number Publication date
US11676331B2 (en) 2023-06-13
US20210343069A1 (en) 2021-11-04
US20220383587A1 (en) 2022-12-01
JPWO2020071112A1 (ja) 2021-09-02
WO2020071112A1 (ja) 2020-04-09
EP3863290A1 (en) 2021-08-11
CN112789865A (zh) 2021-05-11
EP3863290A4 (en) 2021-12-08
US11481961B2 (en) 2022-10-25

Similar Documents

Publication Publication Date Title
JP7415936B2 (ja) 情報処理装置および情報処理方法
US11532103B2 (en) Information processing apparatus and information processing method
WO2015182491A1 (ja) 情報処理装置および情報処理方法
JP7310816B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP7439762B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
US11979544B2 (en) 360 video transmission method, 360 video reception method, 360 video transmission apparatus, and 360 video reception apparatus
DE112020004716T5 (de) Objektbasierte volumetrische videocodierung
KR20190103102A (ko) Vr 디바이스 및 vr 디바이스 제어 방법
WO2021251173A1 (ja) 情報処理装置および方法
WO2021065277A1 (ja) 情報処理装置、再生処理装置及び情報処理方法
WO2020137854A1 (ja) 情報処理装置および情報処理方法
JPWO2018142946A1 (ja) 情報処理装置および方法
WO2021065605A1 (ja) 情報処理装置および情報処理方法
US20220217314A1 (en) Method for transmitting 360 video, method for receiving 360 video, 360 video transmitting device, and 360 video receiving device
WO2020261689A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
JP2022063882A (ja) 情報処理装置および方法、並びに、再生装置および方法
US11463671B2 (en) Video transmitting method, video transmitting device, video receiving method and video receiving device
WO2020145139A1 (ja) 情報処理装置および情報処理方法
JP2024016955A (ja) 符号化装置、ストリーム合成装置、復号装置、およびプログラム
KR20200143299A (ko) 이머시브 영상 부호화/복호화 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231218

R151 Written notification of patent or utility model registration

Ref document number: 7415936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151