JP2022019932A

JP2022019932A - 情報処理装置および情報処理方法

Info

Publication number: JP2022019932A
Application number: JP2021196280A
Authority: JP
Inventors: 充勝股; Mitsuru Katsumata; 光浩平林; Mitsuhiro Hirabayashi; 俊也浜田; Toshiya Hamada
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2016-01-13
Filing date: 2021-12-02
Publication date: 2022-01-27
Anticipated expiration: 2036-12-28
Also published as: CN108476346A; JP7238948B2; JPWO2017122543A1; CN113014930A; WO2017122543A1; EP3742747B1; US11206386B2; CN108476346B; EP3742747A1; US20180316903A1; EP3404927A4; CN113014930B; EP3404927A1; JP6992511B2

Abstract

【課題】ＭＰ４ファイルにおいてデプスリプレゼンテーション情報を効率的に記述することができるようにする。【解決手段】ファイル生成部は、各画素の奥行き方向の位置を表すデプス情報を量子化して得られた画素値からなるデプス画像を符号化したエレメンタリストリームをサンプル化して配置するとともに、デプス画像に関するデプスリプレゼンテーション情報が同一であるサンプルをグループ化して各グループのデプスリプレゼンテーション情報を記述したＭＰ４ファイルを生成する。本開示は、例えば、ファイル生成装置等に適用することができる。【選択図】図２

Description

本開示は、情報処理装置および情報処理方法に関し、特に、ISO Base media file formatのファイルにおいてデプスリプレゼンテーション情報を効率的に記述することができるようにした情報処理装置および情報処理方法に関する。

近年、インターネット上のストリーミングサービスの主流がOTT－V（Over The Top Video）となっている。この基盤技術として普及し始めているのがMPEG－DASH（Moving Picture Experts Group phase － Dynamic Adaptive Streaming over HTTP）である（例えば、非特許文献１参照）。

MPEG－DASHでは、配信サーバが１本の動画コンテンツ用に画面サイズと符号化速度が異なる動画データ群を用意し、再生端末が伝送路の状況に応じて最適な画面サイズと符号化速度の動画データ群を要求することにより、適応型のストリーミング配信が実現される。

一方、立体視を実現するための手法として、テクスチャ画像と、そのテクスチャ画像の所定の単位領域における被写体の奥行き方向の位置を表すデプス情報とを用いる手法がある。デプス情報は、所定のビット数の値（例えば0から255までの値）に量子化されて画素値とされることにより、デプス画像として符号化することができる。

テクスチャ画像とデプス画像をともに符号化する方式としては、例えば、MVD（Multiview Video plus Depth）方式(ISO/IEC14496-10)やMV-HEVC方式(HEVC（High Efficiency Video Coding） Multiview Extension)(ISO/IEC 23008-2)がある。

これらの符号化方式では、デプス画像の種類、デプス情報の量子化前の最大値と最小値などのデプス画像に関するデプスリプレゼンテーション情報を、SEI（Supplemental Enhancement Information）としてエレメンタリストリームに含むことが可能になっている。

従って、テクスチャ画像とデプス画像のエレメンタリストリームの再生時、エレメンタリストリームからデプスリプレゼンテーション情報が抽出され、エレメンタリストリームに含まれるテクスチャ画像とデプス画像の符号化データが復号される。そして、デプスリプレゼンテーション情報に基づいて、復号の結果得られるデプス画像からデプス情報が生成され、復号の結果得られるテクスチャ画像とデプス情報とを用いて立体視が実現される。

現在、MVD方式またはMV-HEVC方式で符号化されたエレメンタリストリームをISO Base media file formatのファイル（以下、ＭＰ４ファイルという）に格納する方法が、ISO/IEC 14496-15で検討されている。

ここで、デプス画像からデプス情報を生成する処理、および、立体視を実現する処理は、復号処理とは独立して行うことができるため、これらの処理は、デコーダ以外の処理部において行われることが想定される。従って、ＭＰ４ファイルにおいて、エレメンタリストリームとは別にデプスリプレゼンテーション情報を格納することが望まれている。

しかしながら、MVD方式で符号化されたエレメンタリストリームを格納するＭＰ４ファイルでは、そのエレメンタリストリームのトラックにデプス画像のエレメンタリストリームが含まれているかどうかを示す情報（以下、デプス有無情報という）が、エレメンタリストリーム外のSample Entryに記述されるが、デプスリプレゼンテーション情報は記述されない。

また、AVC（Advanced Video Coding）方式またはHEVC（High Efficiency Video Coding）方式で符号化されたデプス画像のエレメンタリストリームを格納するＭＰ４ファイルでは、エレメンタリストリーム外のTrack Referenceにデプス有無情報が記述されるが、デプスリプレゼンテーション情報は記述されない。

従って、デプス画像からデプス情報を生成する処理、および、立体視を実現する処理がデコーダ以外の処理部で行われる場合であっても、その処理部は、ＭＰ４ファイルからエレメンタリストリームを抽出し、そのエレメンタリストリームからデプスリプレゼンテーション情報を抽出する必要があり、処理が複雑になる。

これに対して、MV-HEVC方式で符号化されたエレメンタリストリームを格納するＭＰ４ファイルでは、エレメンタリストリーム外のSample Entryに、デプス有無情報が記述されるだけでなく、MV-HEVC方式用のConfig情報としてデプスリプレゼンテーション情報が記述される。

従って、デプス画像からデプス情報を生成する処理、および、立体視を実現する処理がデコーダ以外の処理部で行われる場合、その処理部は、ＭＰ４ファイルから直接デプスリプレゼンテーション情報を抽出すればよく、エレメンタリストリームを抽出する必要はない。

MPEG－DASH(Dynamic Adaptive Streaming over HTTP)（URL:http://mpeg.chiariglione.org/standards/mpeg－dash/media－presentation－description－and－segment－formats/text－isoiec－23009－12012－dam－1）

しかしながら、デプスリプレゼンテーション情報は、連続するサンプル群であるチャンク単位の復号に必要な情報が記述されるSample Entryにチャンク単位で記述される。従って、チャンク間でデプスリプレゼンテーション情報と復号に必要な情報の少なくとも一方が異なるごとに、新たなSample Entryが生成される。その結果、変更されていないデプスリプレゼンテーション情報または復号に必要な情報が冗長して記述されることになり、デプスリプレゼンテーション情報の記述効率が悪い。

本開示は、このような状況に鑑みてなされたものであり、ＭＰ４ファイルにおいてデプスリプレゼンテーション情報を効率的に記述することができるようにするものである。

本開示の一側面の情報処理装置は、各画素の奥行き方向の位置を表すデプス情報を量子化して得られた画素値からなるデプス画像を符号化した符号化ストリームがサンプル化して配置され、前記デプス画像の種類または前記デプス情報の最小値と最大値を少なくとも含む、前記デプス画像に関するデプスリプレゼンテーション情報が同一であるサンプルがグループ化されて、各グループの前記デプスリプレゼンテーション情報が記述されてISO Base media file formatのファイルが生成されており、各グループの符号化ストリームのサンプルが前記ファイル内の第１のトラックに配置され、各グループの前記デプスリプレゼンテーション情報がサンプル化され、前記第１のトラックとは異なる第２のトラックのサンプルとして前記ファイル内に配置された前記デプスリプレゼンテーション情報に基づいて、前記デプス画像から前記デプス情報を生成するデプス情報生成部を備え、各グループの前記デプスリプレゼンテーション情報のうちの互いに異なる前記デプスリプレゼンテーション情報を記述するグループ情報ボックスと、各グループのサンプルを特定する情報および前記デプスリプレゼンテーション情報を特定する情報を記述するグループボックスとが前記ファイルに配置される情報処理装置である。

本開示の一側面の情報処理方法は、本開示の一側面の情報処理装置に対応する。

本開示の一側面においては、各画素の奥行き方向の位置を表すデプス情報を量子化して得られた画素値からなるデプス画像を符号化した符号化ストリームがサンプル化して配置され、前記デプス画像の種類または前記デプス情報の最小値と最大値を少なくとも含む、前記デプス画像に関するデプスリプレゼンテーション情報が同一であるサンプルがグループ化されて、各グループの前記デプスリプレゼンテーション情報が記述されてISO Base media file formatのファイルが生成されており、各グループの符号化ストリームのサンプルが前記ファイル内の第１のトラックに配置され、各グループの前記デプスリプレゼンテーション情報がサンプル化され、前記第１のトラックとは異なる第２のトラックのサンプルとして前記ファイル内に配置された前記デプスリプレゼンテーション情報に基づいて、前記デプス画像から前記デプス情報が生成される。そして、各グループの前記デプスリプレゼンテーション情報のうちの互いに異なる前記デプスリプレゼンテーション情報を記述するグループ情報ボックスと、各グループのサンプルを特定する情報および前記デプスリプレゼンテーション情報を特定する情報を記述するグループボックスとが前記ファイルに配置される。

なお、一側面の情報処理装置は、コンピュータにプログラムを実行させることにより実現することができる。

また、一側面の情報処理装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本開示の一側面の情報処理装置およびは、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

本開示の一側面によれば、ファイルを再生することができる。また、本開示の一側面によれば、デプスリプレゼンテーション情報を効率的に記述したＭＰ４ファイルを再生することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本開示を適用した情報処理システムの第１実施の形態の構成例を示すブロック図である。図１のファイル生成装置の構成例を示すブロック図である。ＭＰ４ファイルの構造を示す図である。 moovボックスの構造を示す図である。 moofボックスの構造を示す図である。サンプルグループを説明する図である。 sgpdボックスの詳細構造例を示す図である。 VisualSampleGroupEntryの第１の構造例を示す図である。図８の記述の内容を示す図である。図９のscheme_uriの値の例を示す図である。デプスリプレゼンテーション情報の第１の構造例を示す図である。デプスリプレゼンテーション情報の第２の構造例を示す図である。図１１のdepth_representation_typeの値の例を示す図である。 sbgpボックスの詳細構造例を示す図である。 VisualSampleGroupEntryの第２の構造例を示す図である。図１５の記述の内容を示す図である。 depth_scheme_typeの値の例を示す図である。 VisualSampleGroupEntryの第３の構造例を示す図である。 sbgpボックスのgroup_type_parameterの値の例を示す図である。ファイル生成装置のファイル生成処理を説明するフローチャートである。図１の再生装置の構成例を示すブロック図である。再生装置の復号処理を説明するフローチャートである。再生装置のデプス情報生成処理を説明するフローチャートである。デプスリプレゼンテーション情報の他の配置方法を説明する図である。第１の他の配置方法におけるavcCボックスの構造例を示す図である。図２５のDEPIボックスの第１の構造例を示す図である。図２５のDEPIボックスの第２の構造例を示す図である。第２の他の配置方法におけるVisualSampleEntryの構造例を示す図である。第４の他の配置方法におけるDEPIボックスの構造例を示す図である。第２実施の形態におけるVisualSampleGroupEntryの第１の構造例を示す図である。第２実施の形態におけるsbgpボックスの第１の構造例を示す図である。図３１のsbgpボックスに記述される情報を説明する図である。第２実施の形態におけるデプス情報生成処理を説明するフローチャートである。第２実施の形態におけるVisualSampleGroupEntryの第２の構造例を示す図である。第２実施の形態におけるsbgpボックスの第２の構造例を示す図である。第３実施の形態におけるmoovボックスとmdatボックスの構造例を示す図である。 trefボックスの構造例を示す図である。 DepthRepresentasionSampleEntryの構造例を示す図である。図３８のDepthRepresentationConfigurationBoxの第１の構造例を示す図である。図３８のDepthRepresentationConfigurationBoxの第２の構造例を示す図である。第３実施の形態におけるデプス情報生成処理を説明するフローチャートである。第４実施の形態におけるmoovボックスとmdatボックスの構造例を示す図である。 stsdボックスへのdepth_representation_typeの記述方法の例を示す図である。第４実施の形態におけるデプス情報生成処理を説明するフローチャートである。第５実施の形態におけるmoovボックスとmdatボックスの構造例を示す図である。本開示を適用した第６実施の形態における情報処理システムの概要を説明する図である。コンピュータのハードウエアの構成例を示すブロック図である。

以下、本開示を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．第１実施の形態：情報処理システム（図１乃至図２９）
２．第２実施の形態：情報処理システム（図３０乃至図３５）
３．第３実施の形態：情報処理システム（図３６乃至図４１）
４．第４実施の形態：情報処理システム(図４２乃至図４４)
５．第５実施の形態：情報処理システム（図４５）
６．第６実施の形態：情報処理システム（図４６）
７．第７実施の形態：コンピュータ（図４７）

＜第１実施の形態＞
（情報処理システムの第１実施の形態の構成例）
図１は、本開示を適用した情報処理システムの第１実施の形態の構成例を示すブロック図である。

図１の情報処理システム１０は、ファイル生成装置１１、記録メディア１２、再生装置１３、および表示装置１４により構成される。情報処理システム１０は、MVD方式またはMV-HEVC方式で符号化されたエレメンタリストリームとデプスリプレゼンテーション情報を格納するＭＰ４ファイルを生成して、記録メディア１２に記録し、再生する。

具体的には、情報処理システム１０のファイル生成装置１１は、動画コンテンツのテクスチャ画像の所定の単位領域を画素として各画素のデプス情報を0から255までの値に量子化し、その結果得られる画素値からなるデプス画像を生成する。ファイル生成装置１１は、テクスチャ画像とデプス画像をMVD方式またはMV-HEVC方式で符号化し、エレメンタリストリームを生成する。ファイル生成装置１１は、エレメンタリストリームをサンプル化して配置するとともに、デプスリプレゼンテーション情報が同一であるサンプルをグループ化して、各グループのデプスリプレゼンテーション情報のうちの互いに異なるデプスリプレゼンテーション情報を記述したＭＰ４ファイルを生成する。ファイル生成装置１１は、生成されたＭＰ４ファイルを記録メディア１２に供給して、記録させる。

記録メディア１２は、ファイル生成装置１１から供給されるＭＰ４ファイルを記録する。

再生装置１３は、記録メディア１２に記録されているＭＰ４ファイルを読み出す。再生装置１３は、ＭＰ４ファイルから各サンプルのエレメンタリストリームを抽出し、MVD方式またはMV-HEVC方式で復号する。また、再生装置１３は、ＭＰ４ファイルから各グループのデプスリプレゼンテーション情報を抽出する。再生装置１３は、復号の結果得られるデプス画像に対応すするグループのデプスリプレゼンテーション情報に基づいて、そのデプス画像からデプス情報を生成する。再生装置１３は、復号の結果得られるテクスチャ画像とデプス情報に基づいて、立体視を実現する３次元画像を生成し、表示装置１４に供給する。

表示装置１４は、再生装置１３から供給される３次元画像を表示する。

（ファイル生成装置の構成例）
図２は、図１のファイル生成装置１１の構成例を示すブロック図である。

図２のファイル生成装置１１は、取得部３１、前処理部３２、符号化部３３、ファイル生成部３４、および記録制御部３５により構成される。

ファイル生成装置１１の取得部３１は、外部から動画コンテンツのテクスチャ画像と、テクスチャ画像の所定の単位領域を画素としたときの各画素のデプス情報とを取得し、前処理部３２に供給する。また、取得部３１は、外部からデプスリプレゼンテーション情報を取得し、前処理部３２とファイル生成部３４に供給する。

前処理部３２は、取得部３１から供給されるデプスリプレゼンテーション情報に基づいて、各画素のデプス情報を0から255までの値に量子化し、その結果得られる画素値からなるデプス画像を生成する。前処理部３２は、デプス画像、テクスチャ画像、およびデプスリプレゼンテーション情報を符号化部３３に供給する。

符号化部３３は、テクスチャ画像符号化部４１とデプス画像符号化部４２により構成される。テクスチャ画像符号化部４１は、前処理部３２から供給されるテクスチャ画像をMVD方式またはMV-HEVC方式で符号化する。テクスチャ画像符号化部４１は、符号化の際に復号されたテクスチャ画像をデプス画像符号化部４２に供給する。

デプス画像符号化部４２は、テクスチャ画像符号化部４１から供給されるテクスチャ画像を参照画像の候補として、前処理部３２から供給されるデプス画像をMVD方式またはMV-HEVC方式で符号化する。

符号化部３３は、テクスチャ画像符号化部４１により符号化されたテクスチャ画像とデプス画像符号化部４２により符号化されたデプス画像を含み、デプスリプレゼンテーション情報をSEIとして含むエレメンタリストリーム（符号化ストリーム）を、ファイル生成部３４に供給する。

ファイル生成部３４は、符号化部３３から供給されるエレメンタリストリームをサンプル化して配置するとともに、デプスリプレゼンテーション情報が同一である連続するサンプルをグループ化して、各グループのデプスリプレゼンテーション情報のうちの互いに異なるデプスリプレゼンテーション情報を記述したＭＰ４ファイルを生成する。ファイル生成部３４は、ＭＰ４ファイルを記録制御部３５に供給する。

記録制御部３５は、ファイル生成部３４から供給されるＭＰ４ファイルを図１の記録メディア１２に供給して記録させる。

（ＭＰ４ファイルの構造）
図３は、ＭＰ４ファイルの構造を示す図である。

図３に示すように、ＭＰ４ファイルの構造は、ボックス構造である。図３の例では、ＭＰ４ファイルは、Fragment Movie構造を有している。従って、図３のＭＰ４ファイルには、ftypボックス(FileTypeBox)、moovボックス（MovieBox）およびmdatボックス(MediaDataBox)、並びに、１以上のmoofボックス（MovieFragmentBox）およびmdatボックスが順に配置される。

ftypボックスは、ＭＰ４ファイルの先頭を示すボックスであり、ファイルフォーマットを識別する情報などが記述される。moovボックスには、全時間のサンプルのサンプルに関する情報（以下、サンプル情報という）などが記述される。mdatボックスには、サンプルが配置される。moofボックスには、任意の時間ごとのサンプル情報などが記述される。

なお、ＭＰ４ファイルには、必要に応じて、ランダムアクセスに関する情報が記述されるmfraボックス（MovieFragmentRandomAccessBox）が配置されてもよい。

（moovボックスの構造）
図４は、moovボックスの構造を示す図である。

図４に示すように、moovボックスは、MovieHeaderBoxと１以上のtrakボックス（TrackBox）により構成される。MovieHeaderBoxには、動画コンテンツの時間軸を指定する情報などが記述される。

trakボックスは、トラック単位で配置され、対応するトラックに関する情報が記述される。例えば、trakボックスには、対応するトラックが割り当てられた全時間のサンプルのサンプル情報が記述されるstblボックス（SampleTableBox）が配置される。

stblボックスでは、サンプルグループという手法が用いられている。サンプルグループという手法は、サンプル情報が共通である連続するサンプルをグループ化し、各グループのサンプル情報のうちの互いに異なるサンプル情報のみを記述する手法である。この手法では、同一のサンプル情報が冗長して記述されることを防止することができる。従って、複数のサンプルのサンプル情報が同一である場合に、サンプル情報を効率的に記述することができる。

（moofボックスの構造）
図５は、moofボックスの構造を示す図である。

図５に示すように、moofボックスは、MovieFragmentHeaderBoxと１以上のtrafボックス（TrackFragmentBox）により構成される。MovieFragmentHeaderBoxは、moofボックスに順に付与されたシーケンス番号などが記述される。

trafボックスは、トラック単位で配置され、trafボックスには、対応するトラックが割り当てられた任意の時間のサンプルのサンプル情報が記述される。trafボックスでは、stblボックスと同様に、サンプルグループという手法が用いられている。

（サンプルグループの説明）
図６は、サンプルグループを説明する図である。

図６に示すように、サンプルグループという手法が用いられるボックスは、sgpdボックス（SampleGroupDescriptionBox）と、sbgpボックス（SampleToGroupBox）とを含む。

sgpdボックスは、サンプル情報が共通であるサンプルをグループ化し、各グループのサンプル情報を記述するボックスである。sbgpボックスは、各グループのサンプルを特定する情報(以下、サンプル特定情報という)を記述するボックスである。

sgpdボックス（グループ情報ボックス）には、grouping_type, entry_count, GroupEntryなどが記述される。sgpdボックスのgrouping_typeは、対応するグループのグループ化の基になったサンプル情報の種類を示し、entry_countは、各グループのサンプル情報のうちの互いに異なるサンプル情報の数を示す。また、GroupEntryは、各グループのサンプル情報のうちの互いに異なるサンプル情報であり、entry_countだけ記述される。GroupEntryの構造は、grouping_typeによって異なる。

sbgpボックス（グループボックス）には、grouping_type，entry_count，sample_count, group_description_indexなどが記述される。sbgpボックスのgrouping_typeは、対応するグループのグループ化の基になったサンプル情報の種類を示し、entry_countは、グループの数を示す。

sample_countは、各グループのサンプル特定情報であり、各グループのサンプルの連続数を示す。sample_countは、entry_countだけ記述され、全てのsample_countの合計は、sgpdボックスが含まれるボックス（例えば、trakボックス、trafボックス）に対応するサンプルの数（例えば、トラックの全サンプル数）になる。group_description_indexは、各グループのサンプル情報であるGroupEntryを特定する情報である。

図６の例では、grouping_typeが同一であるsbgpボックスとsgpdボックスのentry_countが、それぞれ、６，４である。従って、グループの数は６個であり、６個の各グループのサンプル情報のうちの互いに異なるサンプル情報の数は４個である。そして、sgpdボックスには、４つのGroupEntryが記述される。

また、sbgpボックスの先頭から１乃至６番目のsample_count[1]乃至sample_count［6］は、順に、１，２，１，１，１，２である。従って、先頭から１乃至６番目のグループのサンプル数が、順に、１，２，１，１，１，２である。

即ち、先頭から１番目のサンプル（sample[1]）が、先頭から１番目のグループに分類され、先頭から２番目および３番目のサンプル（sample[2],sample[3]）が、先頭から２番目のグループに分類される。また、先頭から４番目のサンプル（sample[4]）が、先頭から３番目のグループに分類され、先頭から５番目のサンプル（sample[5]）が、先頭から４番目のグループに分類される。先頭から６番目のサンプル（sample[6]）が、先頭から５番目のグループに分類され、先頭から７番目および８番目のサンプル（sample[7],sample[8]）が、先頭から６番目のグループに分類される。

また、先頭から１番目乃至６番目のgroup_description_index[1]乃至group_description_index[6]は、順に、１，３，２，０，４，１である。従って、先頭から１番目のグループに分類される先頭から１番目のサンプルのサンプル情報は、先頭から１番目のGroupEntryである。また、先頭から２番目のグループに分類される先頭から２番目および３番目のサンプルに共通するサンプル情報は、先頭から３番目のGroupEntryである。

さらに、先頭から３番目のグループに分類される先頭から４番目のサンプルのサンプル情報は、先頭から２番目のGroupEntryである。また、先頭から５番目のグループに分類される先頭から４番目のサンプル情報はない。

また、先頭から５番目のグループに分類される先頭から６番目のサンプルのサンプル情報は、先頭から４番目のGroupEntryである。また、先頭から６番目のグループに分類される先頭から７番目および８番目のサンプルに共通するサンプル情報は、先頭から１番目のGroupEntryである。

（sgpdボックスの詳細構造例）
図７は、sgpdボックスの詳細構造例を示す図である。

図７に示すように、sgpdボックスには、grouping_typeとentry_countが記述される。また、動画のトラックに対応するsgpdボックスには、動画のトラックのサンプル情報であるVisualSampleGroupEntryがGroupEntryとして記述される。VisualSampleGroupEntryの構造は、grouping_typeによって異なる。

（VisualSampleGroupEntryの第１の構造例）
図８は、grouping_typeが、グループ化の基になったサンプル情報がデプスリプレゼンテーション情報であることを示すDEPIである場合のVisualSampleGroupEntryの第１の構造例を示す図である。

図８のVisualSampleGroupEntryは、scheme_uri,length、およびdepth_representation_informationを含む。

図９に示すように、図８のscheme_uriは、デプスリプレゼンテーション情報の構造を示す情報である。lengthは、デプスリプレゼンテーションの長さを示す情報である。depth_representation_informationは、サンプル情報としてのデプスリプレゼンテーション情報である。

（scheme_uriの値の例）
図１０は、図９のscheme_uriの値の例を示す図である。

図１０に示すように、scheme_uriの値としては、例えば、urn:mpeg:14496:10:depth_representation_information:2015とurn:mpeg:23008:2:depth_representation_information:2015がある。

urn:mpeg:14496:10:depth_representation_information:2015は、デプスリプレゼンテーション情報の構造がISO/IEC 14496-10のDepth representation information SEI messageの構造と同一であることを示す値である。

また、urn:mpeg:23008:2:depth_representation_information:2015は、デプスリプレゼンテーション情報の構造がISO/IEC 23008-2のDepth representation information SEI messageの構造と同一であることを示す値である。

以上のように、デプスリプレゼンテーション情報の構造を示す情報がscheme_uriとして記述される場合、scheme_uriの値を設定するだけで、現在規定されている構造以外の構造を示すことができる。従って、デプスリプレゼンテーション情報の構造の拡張を容易に行うことができる。

（デプスリプレゼンテーション情報の構造例）
図１１は、デプスリプレゼンテーション情報の構造がISO/IEC 14496-10のDepth representation information SEI messageの構造と同一である場合のデプスリプレゼンテーション情報の構造例を示す図である。

図１１のデプスリプレゼンテーション情報は、デプス画像の種類を示すdepth_representation_typeとデプス情報の最小値と最大値を表す情報とを含む。図１１のデプス情報の最小値と最大値を表す情報は、デプス情報の最小値を表すZNearSign,ZNearExp,ZNearMantissa、およびZNearManLen(DMinSign,DMinExp, DMinMantissa、および DMinManLen）と最大値を表すZFarSign,ZFarExp,ZFarMantissa、およびZFarManLen(DMaxSign,DMaxExp, DMaxMantissa、およびDMaxManLen）、または、デプス情報の最小値と最大値が同一である前のデプス画像を特定する情報であるcommon_z_axis_reference_view,z_axis_reference_view(disparity_reference_view）である。

図１２は、デプスリプレゼンテーション情報の構造がISO/IEC 23008-2のDepth representation information SEI messageの構造と同一である場合のデプスリプレゼンテーション情報の構造例を示す図である。

図１２のデプスリプレゼンテーション情報は、デプス画像の種類を示すdepth_representation_typeとデプス情報の最小値と最大値を表す情報とを含む。図１２のデプス情報の最小値と最大値を表す情報とは、デプス情報の最小値を表すZNearSign,ZNearExp,ZNearMantissa、およびZNearManLen(DMinSign,DMinExp, DMinMantissa、および DMinManLen）と最大値を表すZFarSign,ZFarExp,ZFarMantissa、およびZFarManLen(DMaxSign,DMaxExp, DMaxMantissa、およびDMaxManLen）、または、デプス情報が視差（disparity）を表す情報である場合にデプス情報の最小値と最大値が同一である前のデプス画像を特定する情報であるdisparity_ref_view_idである。

図１１および図１２に示すように、デプスリプレゼンテーション情報の構造が、ISO/IEC 14496-10のDepth representation information SEI messageの構造と同一である場合と、ISO/IEC 23008-2のDepth representation information SEI messageの構造と同一である場合とでは、デプスリプレゼンテーション情報の構造は異なっている。

（depth_representation_typeの値の例）
図１３は、図１１のdepth_representation_typeの値の例を示す図である。

図１３に示すように、図１１のdepth_representation_typeの値が０である場合、depth_representation_typeは、デプス画像が、被写体の奥行き方向の位置を表すデプスｚの逆数であるデプス情報を0から255までの値に均一に量子化した値を画素値とする画像であること示している。

また、depth_representation_typeの値が１である場合、depth_representation_typeは、デプス画像が、視差であるデプス情報を0から255までの値に均一に量子化した値を画素値とする画像であること示している。なお、視差は、被写体の奥行き方向の位置を表すデプスｚに一意に変換できるものである。従って、視差は、被写体の奥行き方向を表すデプス情報であるといえる。

depth_representation_typeの値が２である場合、depth_representation_typeは、デプス画像が、デプスｚであるデプス情報を0から255までの値に均一に量子化した値を画素値とする画像であること示している。

depth_representation_typeの値が３である場合、depth_representation_typeは、デプス画像が、視差であるデプス情報をノンリニアの関数を用いて0から255までの値に量子化した値を画素値とする画像であること示している。

（sbgpボックスの詳細構造例）
図１４は、sbgpボックスの詳細構造例を示す図である。

図１４に示すように、sbgpボックスは、grouping_type,grouping_typeが示すサンプル情報のパラメータであるgrouping_type_parameter，entry_count，sample_count、およびgroup_description_indexを含む。

（VisualSampleGroupEntryの第２の構造例）
図１５は、grouping_typeがDEPIである場合のVisualSampleGroupEntryの第２の構造例を示す図である。

図１５のVisualSampleGroupEntryの構造は、デプスリプレゼンテーション情報の構造を示す情報が、scheme_uriではなく、フィールドとして記述される点が、図８の構造と異なっている。

具体的には、図１５のVisualSampleGroupEntryには、scheme_uriの代わりに、depth_scheme_typeがフィールドして記述される。図１６に示すように、depth_scheme_typeは、デプスリプレゼンテーション情報の構造を示す情報であり、１６ビットの固定長の情報である。

（depth_scheme_typeの値の例）
図１７は、depth_scheme_typeの値の例を示す図である。

図１７に示すように、depth_scheme_typeの値が0x0000である場合、depth_scheme_typeは、デプスリプレゼンテーション情報の構造がISO/IEC 14496-10のDepth representation information SEI messageの構造と同一であることを示す。

また、depth_scheme_typeの値が0x0001である場合、デプスリプレゼンテーション情報の構造がISO/IEC 23008-2のDepth representation information SEI messageの構造と同一であることを示す。

さらに、depth_scheme_typeでは、現在規定されている構造以外の構造を示す値として、0x0100乃至0xFFFFが割り当てられている。従って、depth_scheme_typeに0x0100乃至0xFFFFのいずれかの値を設定するだけで、現在規定されている構造以外の構造であることを示すことができる。よって、デプスリプレゼンテーション情報の構造の拡張を容易に行うことができる。

（VisualSampleGroupEntryの第３の構造例）
図１８は、grouping_typeがDEPIである場合のVisualSampleGroupEntryの第３の構造例を示す図である。

図１８のVisualSampleGroupEntryの構造は、デプスリプレゼンテーション情報の構造を示す情報が記述されない点が、図８の構造と異なっている。具体的には、図１８のVisualSampleGroupEntryは、scheme_uriとlengthを含む。

（group_type_parameterの値の例）
図１９は、VisualSampleGroupEntryの構造が図１８の構造である場合のsbgpボックスのgroup_type_parameterの値の例を示す図である。

VisualSampleGroupEntryの構造が図１８の構造である場合、図１９に示すように、sbgpボックスのgroup_type_parameterを用いてデプスリプレゼンテーション情報の構造が記述される。即ち、sbgpボックスには、デプスリプレゼンテーション情報の構造を示す情報としてgroup_type_parameterが記述される。

具体的には、group_type_parameterの値が0x0000である場合、group_type_parameterは、デプスリプレゼンテーション情報の構造がISO/IEC 14496-10のDepth representation information SEI messageの構造と同一であることを示す。

また、group_type_parameterの値が0x0001である場合、デプスリプレゼンテーション情報の構造がISO/IEC 23008-2のDepth representation information SEI messageの構造と同一であることを示す。

さらに、group_type_parameterでは、現在規定されている構造以外の構造を示す値として、0x0100乃至0xFFFFが割り当てられている。従って、group_type_parameterに0x0100乃至0xFFFFのいずれかの値を設定するだけで、現在規定されている構造以外の構造であることを示すことができる。よって、デプスリプレゼンテーション情報の構造の拡張を容易に行うことができる。

（ファイル生成装置の処理の説明）
図２０は、図２のファイル生成装置１１のファイル生成処理を説明するフローチャートである。

図２０のステップＳ１１において、ファイル生成装置１１の取得部３１は、外部から動画コンテンツのテクスチャ画像、各画素のデプス情報、およびデプスリプレゼンテーション情報を取得する。取得部３１は、テクスチャ画像と各画素のデプス情報を前処理部３２に供給し、デプスリプレゼンテーション情報を前処理部３２とファイル生成部３４に供給する。

ステップＳ１２において、前処理部３２は、デプスリプレゼンテーション情報に基づいて、各画素のデプス情報を0から255までの値に量子化し、デプス画像の画素値とすることにより、デプス情報からデプス画像を生成する。前処理部３２は、デプス画像、テクスチャ画像、およびデプスリプレゼンテーション情報を符号化部３３に供給する。

ステップＳ１３において、符号化部３３のテクスチャ画像符号化部４１は、前処理部３２から供給されるテクスチャ画像をMVD方式またはMV-HEVC方式で符号化する。テクスチャ画像符号化部４１は、符号化の際に復号されたテクスチャ画像をデプス画像符号化部４２に供給する。

ステップＳ１４において、デプス画像符号化部４２は、テクスチャ画像符号化部４１から供給されるテクスチャ画像を参照画像の候補として、前処理部３２から供給されるデプス画像をMVD方式またはMV-HEVC方式で符号化する。符号化部３３は、テクスチャ画像符号化部４１により符号化されたテクスチャ画像、デプス画像符号化部４２により符号化されたデプス画像、およびデプスリプレゼンテーション情報を含むエレメンタリストリームをファイル生成部３４に供給する。

ステップＳ１５において、ファイル生成部３４は、エレメンタリストリームをサンプル化して配置するとともに、stblボックスおよびtrafボックスにgrouping_typeがDEPIであるsbgpボックスおよびsgpdボックスを配置したＭＰ４ファイルを生成する。ファイル生成部３４は、ＭＰ４ファイルを記録制御部３５に供給する。

ステップＳ１６において、記録制御部３５は、ファイル生成部３４から供給されるＭＰ４ファイルを図１の記録メディア１２に供給して記録させる。そして、処理は終了する。

以上のように、ファイル生成装置１１は、デプスリプレゼンテーション情報をエレメンタリストリーム外に記述したＭＰ４ファイルを生成する。従って、再生装置１３は、ＭＰ４ファイルから直接デプスリプレゼンテーション情報を抽出することができ、ＭＰ４ファイルからエレメンタリストリームを抽出し、そのエレメンタリストリームからさらにデプスプレゼンテーション情報を抽出する必要がない。その結果、再生装置１３の処理が容易になる。

また、ファイル生成装置１１は、デプスリプレゼンテーション情報が同一であるサンプルをグループ化し、各グループのデプスリプレゼンテーション情報のうちの互いに異なるデプスリプレゼンテーション情報のみをＭＰ４ファイルに記述する。従って、ＭＰ４ファイルに同一のデプスリプレゼンテーション情報が冗長して記述されることを防止し、デプスリプレゼンテーション情報を効率的に記述することができる。その結果、ＭＰ４ファイル内のデプスリプレゼンテーション情報全体のサイズを削減することができる。

（再生装置の構成例）
図２１は、図１の再生装置１３の構成例を示すブロック図である。

図２１の再生装置１３は、再生制御部６１、解析部６２、復号部６３、および表示生成部６４により構成される。

再生装置１３の再生制御部６１は、記録メディア１２に記録されているＭＰ４ファイルから再生対象のサンプルを抽出し、解析部６２に供給する。また、再生制御部６１は、ＭＰ４ファイルから、再生対象のサンプルを含むトラックの、grouping_typeがDEPIであるsbgpボックスおよびsgpdボックスを抽出し、解析部６２に供給する。

解析部６２は、再生制御部６１から供給されるサンプルを復号部６３に供給する。また、解析部６２は、sbgpボックスおよびsgpdボックスに基づいて、再生対象のサンプルがデプス画像のエレメンタリストリームである場合、再生対象のサンプルのデプスリプレゼンテーション情報の構造を示す情報とデプスリプレゼンテーション情報とを認識する。

具体的には、解析部６２は、sbgpボックスのsample_countに基づいて、再生対象のサンプルのグループを認識する。そして、解析部６２は、再生対象のサンプルのグループのgroup_description_indexにより特定されるsgpdボックスのVisualGroupEntryの構造が図８の構造である場合、VisualGroupEntryのscheme_uriをデプスリプレゼンテーション情報の構造を示す情報として認識する。

一方、再生対象のサンプルのグループのgroup_description_indexにより特定されるsgpdボックスのVisualGroupEntryの構造が図１５の構造である場合、解析部６２は、VisualGroupEntryのdepth_scheme_typeをデプスリプレゼンテーション情報の構造を示す情報として認識する。

また、再生対象のサンプルのグループのgroup_description_indexにより特定されるsgpdボックスのVisualGroupEntryの構造が図１８の構造である場合、解析部６２は、sbgpボックスのgrouping_type_parameterをデプスリプレゼンテーション情報の構造を示す情報として認識する。

解析部６２はまた、再生対象のサンプルのグループのgroup_description_indexにより特定されるsgpdボックスのVisualGroupEntryからデプスリプレゼンテーション情報(depth_representation_information)を認識する。解析部６２は、認識されたデプスリプレゼンテーション情報の構造を示す情報とデプスリプレゼンテーション情報を表示生成部６４に供給する。

復号部６３は、テクスチャ画像復号部７１とデプス画像復号部７２により構成される。復号部６３のテクスチャ画像復号部７１は、解析部６２から供給される再生対象のサンプルがテクスチャ画像のエレメンタリストリームである場合、そのエレメンタリストリームをMVD方式またはMV-HEVC方式で復号する。テクスチャ画像復号部７１は、復号されたテクスチャ画像を表示生成部６４とデプス画像復号部７２に供給する。

デプス画像復号部７２は、解析部６２から供給される再生対象のサンプルがテクスチャ画像のエレメンタリストリームである場合、必要に応じてテクスチャ画像復号部７１から供給されるテクスチャ画像を参照画像とし、そのエレメンタリストリームをMVD方式またはMV-HEVC方式で復号する。デプス画像復号部７２は、復号の結果得られるデプス画像を表示生成部６４に供給する。

表示生成部６４は、デプス情報生成部８１と合成部８２により構成される。表示生成部６４のデプス情報生成部８１は、解析部６２からのデプスリプレゼンテーション情報の構造を示す情報とデプスリプレゼンテーション情報とに基づいて、デプス画像復号部７２からのデプス画像を逆量子化し、デプス情報を生成する。

具体的には、デプス情報生成部８１は、デプスリプレゼンテーション情報の構造を示す情報が、自分が認識可能な構造を示す情報である場合、デプスリプレゼンテーション情報の構造を解析し、デプス画像の種類とデプス情報の最小値および最大値とを認識する。デプス情報生成部８１は、デプス画像の種類とデプス情報の最小値および最大値に基づいて、デプス画像を逆量子化し、デプス情報を生成する。そして、デプス情報生成部８１は、デプス情報とデプス画像の種類とを合成部８２に供給する。

合成部８２は、デプス情報生成部８１からデプス情報が供給される場合、デプス画像の種類に基づいて、テクスチャ画像とデプス情報から３Ｄ画像を生成し、図１の表示装置１４に供給する。一方、合成部８２は、デプス情報生成部８１からデプス情報が供給されない場合、テクスチャ画像をそのまま表示装置１４に供給する。

（再生装置の処理の説明）
図２２は、デプス画像のエレメンタリストリームであるサンプルを再生対象としたときの図２１の再生装置１３の復号処理を説明するフローチャートである。

図２２のステップＳ３１において、再生制御部６１は、記録メディア１２に記録されているＭＰ４ファイルから再生対象のサンプルを抽出し、解析部６２を介して復号部６３に供給する。

ステップＳ３２において、復号部６３のデプス画像復号部７２は、必要に応じてテクスチャ画像復号部７１から供給されるテクスチャ画像を参照画像として、再生対象のサンプルをMVD方式またはMV-HEVC方式で復号する。デプス画像復号部７２は、復号の結果得られるデプス画像をデプス情報生成部８１に供給し、処理を終了する。

図２３は、デプス画像のエレメンタリストリームであるサンプルを再生対象としたときの再生装置１３のデプス情報生成処理を説明するフローチャートである。

図２３のステップＳ５１において、再生装置１３の再生制御部６１は、ＭＰ４ファイルから、再生対象のサンプルを含むトラックの、grouping_typeがDEPIであるsbgpボックスおよびsgpdボックスを抽出し、解析部６２に供給する。

ステップＳ５２において、解析部６２は、sbgpボックスおよびsgpdボックスに基づいて、再生対象のサンプルのデプスリプレゼンテーション情報の構造を示す情報とデプスリプレゼンテーション情報とを認識する。解析部６２は、認識されたデプスリプレゼンテーション情報の構造を示す情報とデプスリプレゼンテーション情報をデプス情報生成部８１に供給する。

ステップＳ５３において、デプス情報生成部８１は、解析部６２からのデプスリプレゼンテーション情報の構造が、自分が認識可能な構造であるかどうかを判定する。ステップＳ５３でデプスリプレゼンテーション情報の構造が、自分が認識可能な構造であると判定された場合、処理はステップＳ５４に進む。

ステップＳ５４において、デプス情報生成部８１は、デプスリプレゼンテーション情報から、デプス画像の種類とデプス情報の最小値および最大値とを認識する。

ステップＳ５５において、デプス情報生成部８１は、図２２のステップＳ３２の処理によりデプス画像復号部７２からデプス画像が供給されたかどうかを判定する。ステップＳ５５でデプス画像が供給されていないと判定された場合、デプス情報生成部８１は、デプス画像が供給されるまで待機する。

一方、ステップＳ５５でデプス画像が供給されたと判定された場合、ステップＳ５６において、デプス情報生成部８１は、デプス画像の種類とデプス情報の最小値および最大値に基づいて、デプス画像を逆量子化し、デプス画像からデプス情報を生成する。そして、デプス情報生成部８１は、デプス情報とデプス画像の種類とを合成部８２に供給する。

また、ステップＳ５３でデプスリプレゼンテーション情報の構造が、自分が認識可能な構造ではないと判定された場合、処理は終了する。

なお、図２３のステップＳ５４の処理後、デプス情報生成部８１は、デプス画像の種類が、自分が処理可能な種類であるかどうかを判定するようにしてもよい。この場合、デプス画像の種類が、自分が処理可能な種類であると判定された場合、処理はステップＳ５５に進み、デプス画像の種類が、自分が処理可能な種類ではないと判定された場合、処理は終了する。

以上のように、再生装置１３は、ファイル生成装置１１により生成されたＭＰ４ファイルを再生することができる。また、再生装置１３は、ＭＰ４ファイルのうちのデプスプレゼンテーション情報に基づいて、デプス画像からデプス情報を生成することができる。

なお、上述した説明では、デプスリプレゼンテーション情報がstblボックスとtrafボックスに配置されたが、デプスリプレゼンテーション情報が配置されるボックスは、stblボックスとtrafボックスに限定されない。

また、テクスチャ画像とデプス画像の符号化方式は、MVC方式やMV-HEVC方式のほか、AVC方式やHEVC方式であってもよい。

（デプスリプレゼンテーション情報の他の配置方法の説明）
図２４は、デプスリプレゼンテーション情報の他の配置方法を説明する図である。

より詳細には、図２４は、テクスチャ画像とデプス画像がAVC方式で符号化された場合のＭＰ４ファイルのボックスの階層構造を示す図である。ボックスは、右にあるほど、階層が低い。例えば、trakボックスは、moovボックスの下の階層のボックスであり、moovボックスに配置されるボックスである。また、ftypボックスとmoovボックスは同一の階層のボックスである。

また、図２４中星印は、他の配置方法によりデプスリプレゼンテーション情報がＭＰ４ファイルのエントリストリーム外に配置される場合のデプスリプレゼンテーション情報が配置される位置を示している。

図２４に示すように、デプスリプレゼンテーション情報の第１の他の配置方法は、trakボックスの下層のavcCボックス（AVCConfigurationBox）に、サンプルグループという手法を用いずにデプスリプレゼンテーション情報を記述するDEPIボックス（DepthRepresentationInformationBox）を追加する方法である。avcCボックスは、AVC方式で符号化されたサンプルのConfig情報が記述されるボックスである。

デプスリプレゼンテーション情報の第２の他の配置方法は、trakボックスの下層のavc1ボックスに含まれるAVC方式で符号化されたサンプルのSampleEntryの基になるVisualSampleEntryにDEPIボックスを追加する方法である。

デプスリプレゼンテーション情報の第３の他の配置方法は、trakボックスの下層のポスト処理に用いられる情報を記述するrinfボックス（RestrictedSchemeInformationBox)の下層のポスト処理の内容を示すschiボックス（SchemeInformationBox）にDEPIボックスを追加する方法である。デプスリプレゼンテーション情報は、復号処理の後のポスト処理としてのデプス情報生成処理に用いられる情報であるため、schiボックスに記述することにより、利便性を向上させることができる。

デプスリプレゼンテーション情報の第４の他の配置方法は、trakボックスの下層のudtaボックス（UserDataBox)にDEPIボックスを追加する方法である。

第１乃至第４の他の配置方法では、エレメンタリストリーム外にデプスリプレゼンテーション情報が記述されるので、再生装置１３は、デプスリプレゼンテーション情報をエレメンタリストリームから抽出する必要がない。従って、再生装置１３の処理が容易になる。

なお、図２４の例では、デプスリプレゼンテーション情報がmoovボックスに配置されるようにしたが、moofボックスに配置されるようにしてもよい。

（第１の他の配置方法の説明）
図２５は、第１の他の配置方法によりデプスリプレゼンテーション情報が配置される場合のavcCボックスの構造例を示す図である。

図２５のavcCボックスは、チャンク単位のconfig情報とDEPIボックス（DepthRepresentationInformationBox）を含む。avcCボックスは、チャンク（Chunk）間でavcCボックスに記述される情報が異なるごとに、新たに生成される。avcCボックスとチャンクは、stblボックス内のSampleToChunkBoxからSample Entryを参照するための情報であるSample_description_indexを利用して関連づけされる。

図２６は、図２５のDEPIボックスの第１の構造例を示す図である。

図２６のDEPIボックスは、scheme_uri,length、およびdepth_representation_informationを含む。即ち、DEPIボックスは、図８のVisualSampleGroupEntryがボックス構造になったものである。

図２７は、図２５のDEPIボックスの第２の構造例を示す図である。

図２７のDEPIボックスは、depth_scheme_type,length、およびdepth_representation_informationを含む。即ち、DEPIボックスは、図１５のVisualSampleGroupEntryがボックス構造になったものである。

第１の他の配置方法では、符号化方式に依存するavcCボックスにDEPIボックスが配置されるため、各符号化方式のConfig情報が記述されるボックスに対して拡張を行い、DEPIボックスを配置可能にする必要がある。

なお、HEVC方式およびMV-HEVC方式のConfig情報が記述されるボックスでは、既にデプスリプレゼンテーション情報を記述することが可能である。しかしながら、現在規定されている構造以外の構造のデプスリプレゼンテーション情報を記述することはできない。

これに対して、第１の他の配置方法では、scheme_uriまたはdepth_scheme_typeを、現在規定されているデプスリプレゼンテーション情報の構造以外の構造を示す値にすることで、その構造のデプスリプレゼンテーション情報を記述することが可能である。

（第２の他の配置方法の説明）
図２８は、第２の他の配置方法によりデプスリプレゼンテーション情報が配置される場合のVisualSampleEntryの構造例を示す図である。

図２８のVisualSampleEntryには、DEPIボックスが配置される。このDEPIボックスの構造は、図２６または図２７の構造と同一である。VisualSampleEntryを基にした構造を有する各符号化方式のSampleEntryを含むボックス（符号化方式がAVC方式である場合avc1ボックス）は、avcCボックスと同様に、チャンク間で、このボックスに記述される情報が異なるごとに、新たに生成される。このボックス(例えばavc１ボックス)とチャンクは、stblボックス内のSample to Chunk boxからSample Entryを参照するための情報であるSample_description_indexを利用して関連づけされる。

第２の他の配置方法では、符号化方式に依存しない、各符号化方式のSampleEntryの基になるVisualSampleEntryにDEPIボックスが配置されるため、符号化方式ごとに拡張を行う必要はない。

また、第３の他の配置方法によりデプスリプレゼンテーション情報が配置される場合のschiボックスに配置されるDEPIボックスの構造は、図２６または図２７の構造と同一である。schiボックスは、DEPIボックスを含むことにより、ポスト処理がデプス情報生成処理であること、および、そのデプス情報生成処理に必要なデプスリプレゼンテーション情報を示す。

schiボックスは、avcCボックスと同様に、チャンク間でschiボックスに記述される情報が異なるごとに、新たに生成される。schiボックスとチャンクは、stblボックス内のSampleToChunkBoxからSample Entryを参照するための情報であるSample_description_indexを利用して関連づけされる。

第３の他の配置方法では、符号化方式に依存しない、schiボックスにDEPIボックスが配置されるため、符号化方式ごとに拡張を行う必要はない。

以上のように、第１乃至第３の他の配置方法では、チャンク間で記述される情報が異なるごとに生成されるボックス（avcCボックス，avc１ボックス, schiボックスなど）にDEPIボックスが配置される。従って、ファイル生成部３４は、デプスリプレゼンテーション情報が同一であるサンプルをグループ化せず、DEPIボックスが配置されるボックスに記述される情報が異なるチャンクごとに、デプスリプレゼンテーション情報をＭＰ４ファイルに記述する。

（第４の他の配置方法の説明）
図２９は、第４の他の配置方法によりデプスリプレゼンテーション情報が配置される場合にudtaボックスに配置されるDEPIボックスの構造例を示す図である。

図２９のDEPIボックスには、entry_countとscheme_uriが記述され、entry_count分のsample_count,length、およびdepth_representation_informationが記述される。

即ち、第４の他の配置方法では、ファイル生成部３４は、デプスリプレゼンテーション情報が同一である連続するサンプルをグループ化する。そして、ファイル生成部３４は、そのグループの数を示すentry_countをDEPIボックスに記述する。

また、ファイル生成部３４は、各グループのサンプル特定情報であるsample_count、デプスリプレゼンテーション情報の長さを示すlength、およびデプスリプレゼンテーション情報であるdepth_representation_informationをDEPIボックスに記述する。さらに、ファイル生成部３４は、デプスリプレゼンテーション情報の構造を示すscheme_uriをDEPIボックスに記述する。以上のようにして情報が記述されたDEPIボックスは、ＭＰ４ファイルに配置される。

以上のように、第４の他の配置方法では、デプスリプレゼンテーション情報が同一であるサンプルがグループ化され、各グループのデプスリプレゼンテーション情報がＭＰ４ファイルに記述される。従って、同一のデプスリプレゼンテーション情報が冗長して記述されることを抑制し、デプスリプレゼンテーション情報を効率的に記述することができる。その結果、ＭＰ４ファイル内のデプスリプレゼンテーション情報全体のサイズを削減することができる。

また、第４の他の配置方法では、符号化方式に依存しない、udtaボックスにDEPIボックスが配置されるため、符号化方式ごとに拡張を行う必要はない。

なお、図２９の例では、デプスリプレゼンテーション情報の構造を示す情報がscheme_uriとして記述されたが、図１５の場合と同様に、フィールドとして記述されるようにしてもよい。

＜第２実施の形態＞
（VisualSampleGroupEntryの第１の構造例）
本開示を適用した情報処理システムの第２実施の形態の構成は、ＭＰ４ファイルに記述されるデプスリプレゼンテーション情報の構造が、デプス画像のエレメンタリストリームに含まれるデプスリプレゼンテーション情報のSEIのNALユニットの構造そのものである点を除いて、図１の構成と同一である。

即ち、第２実施の形態では、VisualSampleGroupEntryに記述されるデプスリプレゼンテーション情報の構造が、デプス画像のエレメンタリストリームのデプスリプレゼンテーション情報を含むSEI（Depth representation information SEI message）のNALユニットの構造そのものである。従って、第２実施の形態では、ISO/IEC 14496-10やISO/IEC 23008-2で規定されているNALユニットをそのまま格納するVisualSampleGroupEntryが定義される。

図３０は、このようなVisualSampleGroupEntryの構造例を示す図である。

図３０のVisualSampleGroupEntryのgrouping_typeは、グループ化の基になったサンプル情報がNALユニットであることを示すnalgである。また、図３０のVisualSampleGroupEntryは、ISO/IEC 14496-10やISO/IEC 23008-2で規定されているNALユニット（NAL_unit）を含む。

第２実施の形態では、デプス画像のエレメンタリストリームのデプスリプレゼンテーション情報のSEIのNALユニットを含む図３０のVisualSampleGroupEntryが、sgpdボックスに記述される。

また、第２実施の形態では、図３０のVisualSampleGroupEntryが記述されるsgpdボックスに対応する、grouping_typeがnalgであるsbgpボックスが定義される。

（sbgpボックスの第１の構造例）
図３１は、grouping_typeがnalgであるsbgpボックスの構造例を示す図である。

図３１の構造は、grouping_typeとしてnalgが記述される点、および、grouping_type_parameterが、空き領域（reserved）、NAL_unit_type、およびNAL_unit_type_informationに代わる点を除いて、図１４の構造と同一である。

図３２に示すように、NAL_unit_typeは、grouping_type「nalg」がサンプル情報として示すNALユニットのタイプを表す情報であり、例えば、ISO/IEC 14496-10やISO/IEC 23008-2で規定されるNAL_unit_typeと同様に規定される。

また、NAL_unit_type_informationは、grouping_type「nalg」がサンプル情報として示すNALユニットを、NAL_unit_typeが表すタイプのNALユニット内で識別する情報である。例えば、NALユニットのタイプがSEIのNALユニットのタイプである場合、NALユニットに格納可能なSEIのタイプは、複数存在する。従って、このような場合に、grouping_type「nalg」がサンプル情報として示すNALユニットに格納されるSEIのタイプを、NALユニットに格納可能なSEIのタイプから識別するために、NAL_unit_type_informationが記述される。

以上のように、sbgpボックスにNAL_unit_typeとNAL_unit_type_informationが記述されることにより、再生装置１３は、サンプルのグループ化に用いられたサンプル情報としてのNALユニットのタイプを認識することができる。従って、サンプル情報のうちの任意のタイプのNALユニットに基づいて、サンプルをグループ化することができる。

第２実施の形態では、テクスチャ画像とデプス画像の符号化方式がMVD方式である場合、NAL_unit_typeとしてSEIのNALユニットのタイプを表す６が記述される。そして、NAL_unit_type_informationとして、デプスリプレゼンテーション情報を含むSEIのpayloadTypeである５０が記述される。

また、テクスチャ画像とデプス画像の符号化方式がMV-HEVC方式である場合、NAL_unit_typeとしてPREFIX SEIのNALユニットのタイプを表す３９が記述される。そして、NAL_unit_type_informationとして、デプスリプレゼンテーション情報を含むSEIのpayloadTypeである１７７が記述される。

（情報処理システムの処理の説明）
第２実施の形態におけるファイル生成装置１１のファイル生成処理は、ＭＰ４ファイルに記述されるデプスリプレゼンテーション情報の構造が、デプス画像のエレメンタリストリームに含まれるデプスリプレゼンテーション情報のSEIのNALユニットの構造そのものである点を除いて、図２０のファイル生成処理と同一である。また、第２実施の形態における再生装置１３の復号処理は、図２２の復号処理と同一である。従って、以下では、デプス画像のエレメンタリストリームであるサンプルを再生対象としたときの第２実施の形態における再生装置１３のデプス情報生成処理について説明する。

図３３は、このデプス情報生成処理を説明するフローチャートである。

図３３のステップＳ７１において、再生装置１３の再生制御部６１は、ＭＰ４ファイルから、再生対象のサンプルを含むトラックの、grouping_typeがnalgであるsbgpボックスおよびsgpdボックスを抽出し、解析部６２に供給する。

ステップＳ７２において、解析部６２は、sbgpボックスおよびsgpdボックスに基づいて、再生対象のサンプルのデプスリプレゼンテーション情報を含むSEIのNALユニットを認識する。具体的には、解析部６２は、図３１のsbgpボックスのNAL_unit_typeおよびNAL_unit_type_informationに基づいて、デプスリプレゼンテーション情報を含むSEIのNALユニットのsbgpボックスを選択する。解析部６２は、選択されたsbgpボックスのsample_countに基づいて、再生対象のサンプルのグループを認識する。そして、解析部６２は、そのグループのgroup_description_indexにより特定されるsgpdボックスに含まれる図３０のVisualGroupEntryからNALユニットを認識する。解析部６２は、認識されたデプスリプレゼンテーション情報のSEIのNALユニットをデプス情報生成部８１に供給する。

ステップＳ７３において、デプス情報生成部８１は、解析部６２から供給されるデプスリプレゼンテーション情報を含むSEI（図１１または図１２）のNALユニットから、デプス画像の種類とデプス情報の最小値および最大値とを認識する。

ステップＳ７４およびＳ７５の処理は、図２３のステップＳ５５およびＳ５６の処理と同様であるので、説明は省略する。

なお、図３３のステップＳ７３の処理後、デプス情報生成部８１は、デプス画像の種類が、自分が処理可能な種類であるかどうかを判定するようにしてもよい。この場合、デプス画像の種類が、自分が処理可能な種類であると判定された場合、処理はステップＳ７４に進み、デプス画像の種類が、自分が処理可能な種類ではないと判定された場合、処理は終了する。

また、第２実施の形態において、ＭＰ４ファイルに記述されるデプスリプレゼンテーション情報の構造は、デプス画像のエレメンタリストリームに含まれるデプスリプレゼンテーション情報のSEIの構造そのものであってもよい。この場合、ISO/IEC 14496-10やISO/IEC 23008-2で規定されているSEIをそのまま格納するVisualSampleGroupEntryが定義され、そのVisualSampleGroupEntryが記述されるsgpdボックスに対応するsbgpボックスが定義される。

（VisualSampleGroupEntryの第２の構造例）
図３４は、ISO/IEC 14496-10やISO/IEC 23008-2で規定されているSEIをそのまま格納するVisualSampleGroupEntryの構造例を示す図である。

図３４のVisualSampleGroupEntryのgrouping_typeは、グループ化の基になったサンプル情報がSEIであることを示すseimである。また、図３４のVisualSampleGroupEntryは、ISO/IEC 14496-10やISO/IEC 23008-2で規定されているSEI（sei_message）を含む。

第２実施の形態では、デプス画像のエレメンタリストリームのデプスリプレゼンテーション情報のSEIを含む図３４のVisualSampleGroupEntryが、sgpdボックスに記述される。

（sbgpボックスの第２の構造例）
図３５は、図３４のVisualSampleGroupEntryが記述されるsgpdボックスに対応する、grouping_typeがseimであるsbgpボックスの詳細構造例を示す図である。

図３５の構造は、grouping_typeとしてseimが記述される点、および、grouping_type_parameterが、空き領域（reserved）およびpayloadTypeに代わる点を除いて、図１４の構造と同一である。

payloadTypeは、grouping_type「seim」がサンプル情報として示すSEIのタイプを識別する情報であり、例えば、ISO/IEC 14496-10やISO/IEC 23008-2で規定されるpayloadTypeと同様に規定される。

以上のように、sbgpボックスにpayloadTypeが記述されることにより、再生装置１３は、サンプルのグループ化に用いられたサンプル情報としてのSEIのタイプを認識することができる。従って、サンプル情報のうちの任意のタイプのSEIに基づいて、サンプルをグループ化することができる。

第２実施の形態では、テクスチャ画像とデプス画像の符号化方式がMVD方式である場合、payloadTypeとして、デプスリプレゼンテーション情報を含むSEIのpayloadTypeである５０が記述される。また、テクスチャ画像とデプス画像の符号化方式がMV-HEVC方式である場合、payloadTypeとして、デプスリプレゼンテーション情報を含むSEIのpayloadTypeである１７７が記述される。

ＭＰ４ファイルに記述されるデプスリプレゼンテーション情報の構造が、デプス画像のエレメンタリストリームに含まれるデプスリプレゼンテーション情報のSEIの構造そのものである場合のファイル生成処理は、ＭＰ４ファイルに記述されるデプスリプレゼンテーション情報の構造が、デプス画像のエレメンタリストリームに含まれるデプスリプレゼンテーション情報のSEIの構造そのものである点を除いて、図２０のファイル生成処理と同様である。また、復号処理は、図２２の復号処理と同一である。

さらに、デプス画像のエレメンタリストリームであるサンプルを再生対象としたときのデプス情報生成処理は、抽出されるsbgpボックスおよびsgpdボックスのgrouping_typeがseimである点、および、デプスリプレゼンテーション情報のSEIのNALユニットがデプスリプレゼンテーション情報のSEIに代わる点を除いて、図３３のデプス情報生成処理と同様である。

以上のように、第２実施の形態においては、第１実施の形態と同様に、ＭＰ４ファイルにおいて、デプスリプレゼンテーション情報がエレメンタリストリーム外に記述されるので、再生装置１３の処理が容易になる。

また、第２実施の形態においては、第１実施の形態と同様に、デプスリプレゼンテーション情報が同一であるサンプルがグループ化され、各グループのデプスリプレゼンテーション情報のうちの互いに異なるデプスリプレゼンテーション情報のみがＭＰ４ファイルに記述される。従って、ＭＰ４ファイル内のデプスリプレゼンテーション情報全体のサイズを削減することができる。

＜第３実施の形態＞
（moovボックスとmdatボックスの構造例）
本開示を適用した情報処理システムの第３実施の形態の構成は、ＭＰ４ファイルにおいて、デプス画像のエレメンタリストリームの各サンプルのデプスリプレゼンテーション情報が、デプス画像のエレメンタリストリームのトラックとは別のトラックのサンプルに格納される点を除いて、図１の情報処理システム１０の構成と同一である。

即ち、第１実施の形態では、デプス画像のエレメンタリストリームとデプスリプレゼンテーション情報のトラックは同一であった。具体的には、デプス画像のエレメンタリストリームのトラックのサンプル情報としてデプスリプレゼンテーション情報が記述され、サンプルとして、デプス画像のエレメンタリストリームが配置された。これに対して、第３実施の形態では、デプス画像のエレメンタリストリームとデプスリプレゼンテーション情報のトラックは異なる。

図３６は、第３実施の形態におけるＭＰ４ファイルのmoovボックスとmdatボックスの構造例を示す図である。

なお、図３６では、デプス画像のエレメンタリストリームとデプスリプレゼンテーション情報のトラックに関する構造についてのみ図示してある。このことは、後述する図４５においても同様である。

図３６に示すように、moovボックスには、デプス画像のエレメンタリストリームのトラック（Depth Track）のtrakボックスと、デプスリプレゼンテーション情報のトラック（Depth Metadata Track）のtrakボックスが配置される。

デプスリプレゼンテーション情報のトラックのtrakボックスのtrefボックス（Track Reference Box）には、このトラックが参照するトラックを特定するトラックＩＤとして、デプス画像のエレメンタリストリームのトラックに付与されたトラックＩＤが記述される。また、stsd（Sample Description Box）ボックスには、デプスリプレゼンテーション情報のトラックの全てのサンプルのDepthRepresentasionSampleEntryのテーブルが記述される。

mdatボックスには、デプス画像のエレメンタリストリームのトラックのエレメンタリストリームとして、デプス画像のエレメンタリストリーム（Depth Stream）がサンプル単位で配置される。また、mdatボックスには、デプスリプレゼンテーション情報がサンプル化されて、デプスリプレゼンテーション情報のトラックのTimed Metadataとしてサンプル単位で配置される。なお、デプスリプレゼンテーション情報のトラックのサンプルに対応する時間は、デプス画像のエレメントリストリームのトラックの１以上のサンプルに対応する時間である。即ち、デプス画像のエレメントリストリームのトラックのデプスリプレゼンテーション情報が同一である連続する１以上のサンプルがグループ化される。そして、各グループを構成する１以上のサンプルに対応する時間の、デプスリプレゼンテーション情報のトラックのサンプルとして、各グループに対応するデプスリプレゼンテーション情報が配置される。

（trefボックスの構造例）
図３７は、trefボックスの構造例を示す図である。

図３７に示すように、trefボックスには、trackReferenceTypeBoxが配置される。trackReferenceTypeBoxでは、参照するトラックとの関係のタイプを示すreference_typeが指定され、参照するトラックに付与されたトラックＩＤ(track_IDs)が記述される。

デプスリプレゼンテーション情報は、デプス画像のエレメンタリストリームのメタデータである。従って、デプスリプレゼンテーション情報のトラックのtrefボックスでは、reference_typeとして、参照するトラックとの関係が、参照するトラックのメタデータであることを示す「cdsc」が指定される。また、デプスリプレゼンテーション情報のトラックのtrefボックスには、デプス画像のエレメンタリストリームのトラックに付与されたトラックＩＤが記述される。

（DepthRepresentasionSampleEntryの構造例）
図３８は、図３６のstsdボックスに記述されるDepthRepresentasionSampleEntryの構造例を示す図である。

図３８に示すように、DepthRepresentasionSampleEntryには、DepthRepresentationConfigurationBoxが配置される。

（DepthRepresentationConfigurationBoxの第１の構造例）
図３９は、図３８のDepthRepresentationConfigurationBoxの第１の構造例を示す図である。

図３９のDepthRepresentationConfigurationBoxには、図１３のdepth_representation_typeとsample_structure_type_uriが記述される。sample_structure_type_uriは、サンプルに格納されるデプスリプレゼンテーション情報の構造を示す値であり、例えば、図１０のscheme_uriの値と同様に設定される。

（DepthRepresentationConfigurationBoxの第２の構造例）
図４０は、図３８のDepthRepresentationConfigurationBoxの第２の構造例を示す図である。

図４０のDepthRepresentationConfigurationBoxの構造は、sample_structure_type_uriの代わりにsample_structure_typeが記述される点が、図３９の構造と異なる。

sample_structure_typeは、デプスリプレゼンテーション情報の構造を示す１６ビットの固定長の情報であり、例えば、図１７のdepth_scheme_typeと同様に設定される。

（情報処理システムの処理の説明）
第３実施の形態におけるファイル生成装置１１のファイル生成処理は、ＭＰ４ファイルにおいて、デプス画像のエレメンタリストリームの各サンプルのデプスリプレゼンテーション情報が、デプス画像のエレメンタリストリームのトラックとは別のトラックのサンプルに格納される点を除いて、図２０のファイル生成処理と同一である。また、第３実施の形態における再生装置１３の復号処理は、図２２の復号処理と同一である。従って、以下では、デプス画像のエレメンタリストリームであるサンプルを再生対象としたときの第３実施の形態における再生装置１３のデプス情報生成処理について説明する。

図４１は、このデプス情報生成処理を説明するフローチャートである。

図４１のステップＳ９１において、再生装置１３の再生制御部６１は、ＭＰ４ファイルから、再生対象のサンプルに対応するDepthRepresentasionSampleEntryを抽出する。具体的には、再生制御部６１は、ＭＰ４ファイル内のデプス画像のエレメンタリストリームのトラックのトラックＩＤを記述し、reference_typeとして「cdsc」を指定するtrefボックスを含むtrakボックスのstsdボックスから、再生対象のサンプルに対応するデプスリプレゼンテーション情報のサンプルのDepthRepresentasionSampleEntryを抽出する。再生制御部６１は、抽出されたDepthRepresentasionSampleEntryを解析部６２に供給する。

ステップＳ９２において、解析部６２は、再生対象のサンプルに対応するDepthRepresentasionSampleEntryから、デプスリプレゼンテーション情報の構造を示す情報を認識する。

具体的には、DepthRepresentasionSampleEntryに含まれるDepthRepresentationConfigurationBoxの構造が図３９の構造である場合、解析部６２は、sample_structure_type_uriをデプスリプレゼンテーション情報の構造を示す情報として認識する。また、DepthRepresentasionSampleEntryに含まれるDepthRepresentationConfigurationBoxの構造が図４０の構造である場合、解析部６２は、sample_structure_typeをデプスリプレゼンテーション情報の構造を示す情報として認識する。解析部６２は、認識されたデプスリプレゼンテーション情報の構造を示す情報とデプスリプレゼンテーション情報をデプス情報生成部８１に供給する。

ステップＳ９３において、デプス情報生成部８１は、解析部６２から供給される情報が示すデプスリプレゼンテーション情報の構造が、自分が認識可能な構造であるかどうかを判定する。ステップＳ９３でデプスリプレゼンテーション情報の構造が、自分が認識可能な構造であると判定された場合、処理はステップＳ９４に進む。

ステップＳ９４において、再生制御部６１は、ＭＰ４ファイルから、再生対象のサンプルに対応するデプスリプレゼンテーション情報のサンプルを抽出し、そのデプスリプレゼンテーション情報を、解析部６２を介してデプス情報生成部８１に供給する。

ステップＳ９５乃至Ｓ９７の処理は、図２３のステップＳ５４乃至Ｓ５６の処理と同様であるので、説明は省略する。

一方、ステップＳ９３でデプスリプレゼンテーション情報の構造が、自分が認識可能な構造ではないと判定された場合、処理は終了する。

なお、図４１のステップＳ９５の処理後、デプス情報生成部８１は、デプス画像の種類が、自分が処理可能な種類であるかどうかを判定するようにしてもよい。この場合、デプス画像の種類が、自分が処理可能な種類であると判定された場合、処理はステップＳ９６に進み、デプス画像の種類が、自分が処理可能な種類ではないと判定された場合、処理は終了する。

また、第３実施の形態において、第２実施の形態と同様に、デプスリプレゼンテーション情報の構造は、デプス画像のエレメンタリストリームに含まれるデプスリプレゼンテーション情報のSEIのNALユニットまたはSEIの構造そのものであってもよい。

以上のように、第３実施の形態においては、第１実施の形態と同様に、ＭＰ４ファイルにおいて、デプスリプレゼンテーション情報がエレメンタリストリーム外に記述されるので、再生装置１３の処理が容易になる。また、第３実施の形態においては、デプス画像のエレメンタリストリームのトラックのデプスリプレゼンテーション情報が同一である連続するサンプルがグループ化され、各グループのデプスリプレゼンテーション情報がＭＰ４ファイルに記述される。従って、ＭＰ４ファイルに同一のデプスリプレゼンテーション情報が冗長して記述されることを抑制し、デプスリプレゼンテーション情報を効率的に記述することができる。その結果、ＭＰ４ファイル内のデプスリプレゼンテーション情報全体のサイズを削減することができる。

＜第４実施の形態＞
（moovボックスとmdatボックスの構造例）
本開示を適用した情報処理システムの第４実施の形態の構成は、depth_representation_typeが、stsdボックスにも配置される点を除いて、図１の情報処理システム１０の構成と同一である。

図４２は、第４実施の形態におけるＭＰ４ファイルのmoovボックスとmdatボックスの構造例を示す図である。

なお、図４２では、デプス画像のエレメンタリストリームのトラックに関する構造についてのみ図示してある。

図４２に示すように、moovボックスには、デプス画像のエレメンタリストリームのトラック(Depth Track)のtrakボックスが配置される。このtrakボックスは、stsdボックスにdepth_representation_typeが記述される点を除いて第１実施の形態と同様であり、このtrakボックスには、stsdボックス、sbgpボックス、sgpdボックス等が配置される。

mdatボックスには、デプス画像のエレメンタリストリームのトラックのエレメンタリストリームとして、デプス画像のエレメンタリストリーム（Depth Stream）がサンプル単位で配置される。

（stsdボックスへのdepth_representation_typeの記述方法）
図４３は、stsdボックスへのdepth_representation_typeの記述方法の例を示す図である。

図４３の例では、デプス画像がAVC方式で符号化され、ＭＰ４ファイルのボックスの階層構造が図２４の階層構造になる。

この場合、第１の記述方法では、stsdボックスの下層のavcCボックスの構造が、図２５の構造と同一になる。また、avcCボックスに配置されるDepthRepresentationInformationBoxには、図４３に示すように、図１３のdepth_representation_typeが記述される。

なお、図示は省略するが、デプス画像の符号化方式がHEVC方式、MVD方式、MV-HEVC方式等である場合、図４３の場合と同様に、各符号化方式のConfig情報が記述されるボックスに図１３のdepth_representation_typeが記述される。

以上のように、depth_representation_typeがConfig情報と同一のボックスに記述されることにより、再生装置１３は、Config情報を処理するタイミングでdepth_representation_typeを用いてデプス情報の生成の可否を判定することができる。

また、depth_representation_typeは、stsdボックスの下層のVisualSampleEntryに記述されるようにしてもよい。この場合、VisualSampleEntryの構造は、図２８の構造と同一であり、VisualSampleEntry に配置されるDepthRepresentationInformationBoxの構造は、図４３の構造と同一である。depth_representation_typeをVisualSampleEntryに記述する場合、depth_representation_typeを記述可能にするためにVisualSampleEntryのみを拡張すれば済み、Config情報と同一のボックスに記述する場合のように符号化方式ごとに拡張を行う必要がない。

さらに、depth_representation_typeは、stsdボックスの下層のポスト処理の内容を示すschiボックスに記述されるようにしてもよい。depth_representation_typeは、復号処理の後のポスト処理としてのデプス情報生成処理に用いられる情報であるため、schiボックスに記述することにより、利便性を向上させることができる。また、depth_representation_typeをVisualSampleEntryに記述する場合と同様に、depth_representation_typeを記述可能にするためにschiボックスのみを拡張すれば済む。

（情報処理システムの処理の説明）
第４実施の形態におけるファイル生成装置１１のファイル生成処理は、ＭＰ４ファイルにおいて、depth_representation_typeがstsdボックスにも配置される点を除いて、図２０のファイル生成処理と同様である。また、第４実施の形態における再生装置１３の復号処理は、図２２の復号処理と同一である。従って、以下では、デプス画像のエレメンタリストリームであるサンプルを再生対象としたときの第４実施の形態における再生装置１３のデプス情報生成処理について説明する。

図４４は、このデプス情報生成処理を説明するフローチャートである。

図４４のステップＳ１１１において、再生装置１３の再生制御部６１は、ＭＰ４ファイルから、再生対象のサンプルを含むトラックのstsdボックスを抽出し、解析部６２に供給する。

ステップＳ１１２において、解析部６２は、stsdボックスのdepth_representation_typeからデプス画像の種類を認識し、デプス情報生成部８１に供給する。ステップＳ１１３において、デプス情報生成部８１は、デプス画像の種類が、自分が処理可能な種類であるかどうかを判定する。

ステップＳ１１３で、デプス画像の種類が、自分が処理可能な種類であると判定された場合、デプス情報生成部８１は、デプス情報の生成が可能であると判断し、処理はステップＳ１１４に進む。ステップＳ１１４乃至Ｓ１１９の処理は、図２３のステップＳ５１乃至Ｓ５６の処理と同様であるので、説明は省略する。

一方、ステップＳ１１３でデプス画像の種類が、自分が処理可能な種類ではないと判定された場合、デプス情報生成部８１は、デプス情報の生成が不可能であると判断し、処理は終了する。

以上のように、第４実施の形態では、デプスリプレゼンテーション情報のうちの、サンプルごとに変化する可能性が少なく、デプス情報の生成の可否の判別に用いられるdepth_representation_typeがstsdボックスに配置される。従って、再生装置１３は、stsdボックスのみを用いて、デプス情報の生成の可否を判別することができる。

即ち、再生装置１３は、デプス情報の生成の可否を判別するために、sbgpボックスから再生対象のサンプルのグループを認識し、sgpdボックスから、そのグループのdepth_representation_typeを認識するという複雑な処理を行う必要がない。その結果、再生装置１３は、デプス情報生成処理を効率的に行うことができる。

また、デプスリプレゼンテーション情報のうちの、サンプルごとに変化する可能性の高いデプス情報の最小値と最大値を表す情報については、その情報が同一であるサンプルがグループ化され、各グループのサンプルにおいて共通の情報のうちの互いに異なる情報のみがＭＰ４ファイルに記述される。従って、ＭＰ４ファイルに同一のデプス情報の最小値と最大値を表す情報が冗長して記述されることを防止し、デプス情報の最小値と最大値を表す情報を効率的に記述することができる。その結果、ＭＰ４ファイル内のデプス情報の最小値と最大値を表す情報全体のサイズを削減することができる。

さらに、第４実施の形態においては、第１実施の形態と同様に、ＭＰ４ファイルにおいて、デプスリプレゼンテーション情報がエレメンタリストリーム外に記述されるので、再生装置１３の処理が容易になる。

なお、第４実施の形態において、第２実施の形態と同様に、デプスリプレゼンテーション情報の構造は、デプス画像のエレメンタリストリームに含まれるデプスリプレゼンテーション情報のSEIのNALユニットまたはSEIの構造そのものであってもよい。

また、デプスリプレゼンテーション情報の構造を示す情報も、depth_representation_typeとともに、stsdボックスに記述されるようにしてもよい。さらに、sgpdボックスには、stsdボックスに記述されるdepth_representation_typeやデプスリプレゼンテーション情報の構造を示す情報が配置されないようにしてもよい。

＜第５実施の形態＞
（moovボックスとmdatボックスの構造例）
本開示を適用した情報処理システムの第５実施の形態の構成は、第４実施の形態と同様に、depth_representation_typeが、デプス画像のエレメンタリストリームのトラックのstsdボックスにも配置される点を除いて、第３実施の形態の構成と同一である。

図４５は、第５実施の形態におけるＭＰ４ファイルのmoovボックスとmdatボックスの構造例を示す図である。

図４５のmoovボックスとmdatボックスの構造は、moovボックス内のデプス画像のエレメンタリストリームのトラック（Depth Track）のtrakボックスに配置されるstsdボックスに、depth_representation_typeが記述される点が、図３６の構造と異なる。stsdボックスへのdepth_representation_typeの記述方法は、第４実施の形態と同様である。

第５実施の形態におけるファイル生成装置１１のファイル生成処理は、depth_representation_typeが、デプス画像のエレメンタリストリームのトラックのstsdボックスにも配置される点を除いて、第３実施の形態におけるファイル生成処理と同一である。また、第５実施の形態における再生装置１３の復号処理は、図２２の復号処理と同一である。

さらに、デプス画像のエレメンタリストリームであるサンプルを再生対象としたときの第５実施の形態における再生装置１３のデプス情報生成処理は、ステップＳ９１の処理の前に、図４４のステップＳ１１１乃至Ｓ１１３の処理が行われる点を除いて、図４１のデプス情報生成処理と同一である。

以上のように、第５実施の形態は、第３実施の形態と第４実施の形態の組み合わせであるため、第３実施の形態と第４実施の形態の両方の効果を有する。

＜第６実施の形態＞
（情報処理システムの第６実施の形態の構成例）
図４６は、本開示を適用した第６実施の形態における情報処理システムの概要を説明する図である。

図４６の情報処理システム１００は、ファイル生成装置１０１に接続するWebサーバ１０２と動画再生端末１０４とが、インターネット１０３を介して接続されることにより構成される。

情報処理システム１００では、MPEG－DASHで、Webサーバ１０２が、ファイル生成装置１０１により生成された動画コンテンツのファイルを、動画再生端末１０４に配信する。

具体的には、ファイル生成装置１０１(情報処理装置)の構成は、複数の符号化速度で符号化が行われる点、符号化速度ごとにセグメント単位でＭＰ４ファイルが生成される点、ＭＰ４ファイル等を管理するＭＰＤ（Media Presentation Description）ファイルが生成される点、およびＭＰ４ファイルとＭＰＤファイルが記録メディア１２ではなくWebサーバ１０２に記録される点を除いて、第１乃至第５実施の形態におけるファイル生成装置１１の構成と同様である。セグメントとは、数秒から10秒程度の時間単位である。

なお、図４６の例では、複数の符号化速度で符号化が行われるようにするが、複数の符号化速度以外の条件（例えば、画像のサイズ等）で符号化が行われるようにしてもよい。また、異なる条件の数は、２以上であってもよい。ファイル生成装置１０１は、ＭＰ４ファイルとＭＰＤファイルをWebサーバ１０２にアップロードする。

Webサーバ１０２は、ファイル生成装置１０１からアップロードされたＭＰ４ファイルとＭＰＤファイルを格納する。図４６の例では、符号化速度の種類が３種類あり、３つの符号化速度それぞれについて、各セグメントのＭＰ４ファイルが格納されている。Webサーバ１０２は、動画再生端末１０４からの要求に応じて、格納しているＭＰ４ファイルやＭＰＤファイルを動画再生端末１０４に送信する。

動画再生端末１０４（情報処理装置）は、ストリーミングデータの制御用ソフトウェア（以下、制御用ソフトウェアという）１２１、動画再生ソフトウェア１２２、HTTP（HyperText Transfer Protocol）アクセス用のクライアント・ソフトウエア(以下、アクセス用ソフトウェアという)１２３などを実行する。

制御用ソフトウェア１２１は、Webサーバ１０２からストリーミングするデータを制御するソフトウェアである。具体的には、制御用ソフトウェア１２１は、動画再生端末１０４にWebサーバ１０２からＭＰＤファイルを取得させる。

また、制御用ソフトウェア１２１は、ＭＰＤファイルと、動画再生ソフトウェア１２２により指定される再生対象の時刻等を表す再生対象情報とに基づいて、再生対象のＭＰ４ファイルのサンプルやボックスの送信要求を、アクセス用ソフトウェア１２３に指令する。

動画再生ソフトウェア１２２は、Webサーバ１０２から取得されたサンプルを再生するソフトウェアである。動画再生ソフトウェアは、記録メディア１２ではなく、Webサーバ１０２に記録されているサンプルやボックスを抽出する点を除いて、第１乃至第５実施の形態における再生装置１３と同様の処理を行う。

具体的には、動画再生ソフトウェア１２２は、再生対象情報を制御用ソフトウェア１２１に指定することにより動画再生端末１０４を制御し、再生制御部６１と同様に、ＭＰ４ファイルから、再生対象のサンプル、sbgpボックス、およびsgpdボックスを抽出する。また、動画再生ソフトウェア１２２は、解析部６２、復号部６３、および表示生成部６４と同様に、再生対象のサンプルを復号し、復号の結果得られるデプス画像をデプス情報に変換して、３Ｄ画像を生成する。

アクセス用ソフトウェア１２３は、HTTPを用いたインターネット１０３を介したWebサーバ１０２との通信を制御するソフトウェアである。具体的には、アクセス用ソフトウェア１２３は、制御用ソフトウェア１２１の指令に応じて、再生対象のＭＰ４ファイルのサンプルやボックスの送信要求を、動画再生端末１０４に送信させる。また、アクセス用ソフトウェア１２３は、その送信要求に応じて、Webサーバ１０２から送信されてくるサンプルやボックスの受信を動画再生端末１０４に開始させる。

＜第７実施の形態＞
（本開示を適用したコンピュータの説明）
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図４７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータ２００において、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、入力部２０６、出力部２０７、記憶部２０８、通信部２０９、及びドライブ２１０が接続されている。

入力部２０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記憶部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインタフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア２１１を駆動する。

以上のように構成されるコンピュータ２００では、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ２００（CPU２０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア２１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータ２００では、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

なお、コンピュータ２００が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

また、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

なお、本開示は、以下のような構成もとることができる。

（１）
各画素の奥行き方向の位置を表すデプス情報を量子化して得られた画素値からなるデプス画像を符号化した符号化ストリームをサンプル化して配置するとともに、前記デプス画像に関するデプスリプレゼンテーション情報が同一であるサンプルをグループ化して各グループの前記デプスリプレゼンテーション情報を記述したファイルを生成するファイル生成部
を備える情報処理装置。
（２）
前記ファイル生成部は、各グループの前記デプスリプレゼンテーション情報のうちの互いに異なる前記デプスリプレゼンテーション情報を記述するグループ情報ボックスと、各グループのサンプルを特定する情報および前記デプスリプレゼンテーション情報を特定する情報を記述するグループボックスとを前記ファイルに配置する
ように構成された
前記（１）に記載の情報処理装置。
（３）
前記ファイル生成部は、前記デプスリプレゼンテーション情報の構造を示す情報を、前記グループ情報ボックスのschem_uriとして記述する
ように構成された
前記（２）に記載の情報処理装置。
（４）
前記ファイル生成部は、前記デプスリプレゼンテーション情報の構造を示す情報を、前記グループ情報ボックスのフィールドとして記述する
ように構成された
前記（２）に記載の情報処理装置。
（５）
前記ファイル生成部は、前記デプスリプレゼンテーション情報の構造を示す情報を前記グループボックスに記述する
ように構成された
前記（２）に記載の情報処理装置。
（６）
前記ファイル生成部は、各グループのサンプルを特定する情報と前記デプスリプレゼンテーション情報を記述するボックスを前記ファイルに配置する
ように構成された
前記（１）に記載の情報処理装置。
（７）
前記ファイル生成部は、各グループの前記デプスリプレゼンテーション情報をサンプル化し、前記符号化ストリームのサンプルとは異なるトラックのサンプルとして前記ファイルに配置する
ように構成された
前記（１）に記載の情報処理装置。
（８）
前記ファイル生成部は、前記符号化ストリームに対応するトラックを、前記デプスリプレゼンテーション情報に対応するトラックが参照するトラックとして特定する情報を前記ファイルに記述する
ように構成された
前記（７）に記載の情報処理装置。
（９）
前記デプスリプレゼンテーション情報は、前記デプス画像の種類を示す情報を含む
ように構成された
前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
前記デプスリプレゼンテーション情報は、前記デプス情報の最小値と最大値を含む
ように構成された
前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１１）
前記ファイル生成部は、前記デプス画像の種類を示す情報を前記ファイルに記述する
ように構成された
前記（１０）に記載の情報処理装置。
（１２）
前記デプスリプレゼンテーションの構造は、前記符号化ストリームの前記デプスリプレゼンテーション情報を含むSEI（Supplemental Enhancement Information）または前記SEIのNAL(Network Abstraction Layer)ユニットの構造である
ように構成された
前記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
情報処理装置が、
各画素の奥行き方向の位置を表すデプス情報を量子化して得られた画素値からなるデプス画像を符号化した符号化ストリームをサンプル化して配置するとともに、前記デプス画像に関するデプスリプレゼンテーション情報が同一であるサンプルをグループ化して各グループの前記デプスリプレゼンテーション情報を記述したファイルを生成するファイル生成ステップ
を含む情報処理方法。
（１４）
各画素の奥行き方向の位置を表すデプス情報を量子化して得られた画素値からなるデプス画像を符号化した符号化ストリームをサンプル化して配置するとともに、前記デプス画像に関するデプスリプレゼンテーション情報が同一であるサンプルをグループ化して各グループの前記デプスリプレゼンテーション情報を記述したファイルのうちの、前記デプスリプレゼンテーション情報に基づいて、前記デプス画像から前記デプス情報を生成するデプス情報生成部
を備える情報処理装置。
（１５）
前記ファイルには、各グループの前記デプスリプレゼンテーション情報のうちの互いに異なる前記デプスリプレゼンテーション情報を記述するグループ情報ボックスと、各グループのサンプルを特定する情報および前記デプスリプレゼンテーション情報を特定する情報を記述するグループボックスとが配置される
ように構成された
前記（１４）に記載の情報処理装置。
（１６）
前記ファイルには、前記デプスリプレゼンテーション情報の構造を示す情報が、前記グループ情報ボックスのschem_uriとして記述される
ように構成された
前記（１５）に記載の情報処理装置。
（１７）
前記ファイルには、前記デプスリプレゼンテーション情報の構造を示す情報が、前記グループ情報ボックスのフィールドとして記述される
ように構成された
前記（１５）に記載の情報処理装置。
（１８）
前記ファイルには、前記デプスリプレゼンテーション情報の構造を示す情報が前記グループボックスに記述される
ように構成された
前記（１５）に記載の情報処理装置。
（１９）
前記ファイルには、各グループのサンプルを特定する情報と前記デプスリプレゼンテーション情報を記述するボックスが前記ファイルに配置される
ように構成された
前記（１４）に記載の情報処理装置。
（２０）
前記ファイルには、各グループの前記デプスリプレゼンテーション情報がサンプル化されて、前記符号化ストリームのサンプルとは異なるトラックのサンプルとして配置されるように構成された
前記（１４）に記載の情報処理装置。
（２１）
前記ファイルには、前記符号化ストリームに対応するトラックを、前記デプスリプレゼンテーション情報に対応するトラックが参照するトラックとして特定する情報が記述される
ように構成された
前記（２０）に記載の情報処理装置。
（２２）
前記デプスリプレゼンテーション情報は、前記デプス画像の種類を示す情報を含む
ように構成された
前記（１４）乃至（２１）のいずれかに記載の情報処理装置。
（２３）
前記デプスリプレゼンテーション情報は、前記デプス情報の最小値と最大値を含む
ように構成された
前記（１４）乃至（２１）のいずれかに記載の情報処理装置。
（２４）
前記ファイルは、前記デプス画像の種類を示す情報を含む
ように構成された
前記（２３）に記載の情報処理装置。
（２５）
前記デプスリプレゼンテーションの構造は、前記符号化ストリームの前記デプスリプレゼンテーション情報を含むSEI（Supplemental Enhancement Information）または前記SEIのNAL(Network Abstraction Layer)ユニットの構造である
ように構成された
前記（１４）乃至（２４）のいずれかに記載の情報処理装置。
（２６）
情報処理装置が、
各画素の奥行き方向の位置を表すデプス情報を量子化して得られた画素値からなるデプス画像を符号化した符号化ストリームをサンプル化して配置するとともに、前記デプス画像に関するデプスリプレゼンテーション情報が同一であるサンプルをグループ化して各グループの前記デプスリプレゼンテーション情報を記述したファイルのうちの、前記デプスリプレゼンテーション情報に基づいて、前記デプス画像から前記デプス情報を生成するデプス情報生成ステップ
を含む情報処理方法。

１１ファイル生成装置, １３再生装置, ３４ファイル生成部, ８１デプス情報生成部, １０１ファイル生成装置, １０４動画再生端末, １２２動画再生ソフトウェア

Claims

各画素の奥行き方向の位置を表すデプス情報を量子化して得られた画素値からなるデプス画像を符号化した符号化ストリームがサンプル化して配置され、前記デプス画像の種類または前記デプス情報の最小値と最大値を少なくとも含む、前記デプス画像に関するデプスリプレゼンテーション情報が同一であるサンプルがグループ化されて、各グループの前記デプスリプレゼンテーション情報が記述されてISO Base media file formatのファイルが生成されており、各グループの符号化ストリームのサンプルが前記ファイル内の第１のトラックに配置され、各グループの前記デプスリプレゼンテーション情報がサンプル化され、前記第１のトラックとは異なる第２のトラックのサンプルとして前記ファイル内に配置された前記デプスリプレゼンテーション情報に基づいて、前記デプス画像から前記デプス情報を生成するデプス情報生成部
を備え、
各グループの前記デプスリプレゼンテーション情報のうちの互いに異なる前記デプスリプレゼンテーション情報を記述するグループ情報ボックスと、各グループのサンプルを特定する情報および前記デプスリプレゼンテーション情報を特定する情報を記述するグループボックスとが前記ファイルに配置される
情報処理装置。
前記デプスリプレゼンテーション情報の構造を示す情報が、前記グループ情報ボックスのscheme_uriとして記述される
請求項１に記載の情報処理装置。
前記デプスリプレゼンテーション情報の構造を示す情報が、前記デプスリプレゼンテーション情報を記述するグループ情報ボックスのフィールドとして記述される
請求項２に記載の情報処理装置。
前記デプスリプレゼンテーション情報の構造を示す情報が、前記デプスリプレゼンテーション情報を特定する情報を記述するグループボックスに記述される
請求項３に記載の情報処理装置。
各グループのサンプルを特定する情報と前記デプスリプレゼンテーション情報を記述するボックスが前記ファイルに配置される
請求項２に記載の情報処理装置。
各グループの前記デプスリプレゼンテーション情報がサンプル化され、前記デプス画像を符号化した符号化ストリームのサンプルとは異なるトラックのサンプルとして前記ファイルに配置される
請求項２に記載の情報処理装置。
前記符号化ストリームに対応するトラックを、前記デプスリプレゼンテーション情報に対応するトラックが参照するトラックとして特定する情報が前記ファイルに記述される
請求項６に記載の情報処理装置。
前記デプス画像の種類を示す情報が前記ファイルに記述される
請求項２に記載の情報処理装置。
前記デプスリプレゼンテーション情報の構造は、前記デプス画像を符号化した符号化ストリームの前記デプスリプレゼンテーション情報を含むSEI（Supplemental EnhancementInformation）または前記SEIのNAL(Network Abstraction Layer)ユニットの構造である
請求項２に記載の情報処理装置。
情報処理装置が、
各画素の奥行き方向の位置を表すデプス情報を量子化して得られた画素値からなるデプス画像を符号化した符号化ストリームがサンプル化して配置され、前記デプス画像の種類または前記デプス情報の最小値と最大値を少なくとも含む、前記デプス画像に関するデプスリプレゼンテーション情報が同一であるサンプルがグループ化されて、各グループの前記デプスリプレゼンテーション情報が記述されてISO Base media file formatのファイルが生成されており、各グループの符号化ストリームのサンプルが前記ファイル内の第１のトラックに配置され、各グループの前記デプスリプレゼンテーション情報がサンプル化され、前記第１のトラックとは異なる第２のトラックのサンプルとして前記ファイル内に配置された前記デプスリプレゼンテーション情報に基づいて、前記デプス画像から前記デプス情報を生成すること
を含み、
各グループの前記デプスリプレゼンテーション情報のうちの互いに異なる前記デプスリプレゼンテーション情報を記述するグループ情報ボックスと、各グループのサンプルを特定する情報および前記デプスリプレゼンテーション情報を特定する情報を記述するグループボックスとが前記ファイルに配置される
情報処理方法。