JP2022050376A

JP2022050376A - 符号化映像における動作点サンプルグループ

Info

Publication number: JP2022050376A
Application number: JP2021152670A
Authority: JP
Inventors: イエクイワン; Ye-Kui Wang
Original assignee: LEMON Inc
Current assignee: LEMON Inc
Priority date: 2020-09-17
Filing date: 2021-09-17
Publication date: 2022-03-30
Anticipated expiration: 2041-09-17
Also published as: KR20220037398A; KR20220037397A; JP7372293B2; US20220086494A1; US11758195B2; CN114205605A; JP2022050377A; EP3972267A1; EP3972266A1; CN114205604A; JP7319336B2; EP3972268A1; US11683529B2; US20220086495A1; CN114205606A; JP2022050378A; JP7376544B2; KR20220037399A; US20220086496A1; US11671627B2

Abstract

【課題】視覚メディアファイルに対してファイルフォーマットに従って書き込みまたは構文解析を行う方法、視覚メディア処理装置及び記憶媒体を提供する。【解決手段】方法は、動作点情報を含む特定のタイプのサンプルグループを含む複数のトラックから１つ以上のトラックを識別する構文要素をファイルレベル情報が含むことを規定するフォーマット規則に従って、視覚メディアデータと、この視覚メディアデータのビットストリームを複数のトラックに記憶する視覚メディアファイルとの変換を行うことを含む。【選択図】図９Ａ

Description

関連出願の相互参照
パリ条約に基づく適用可能な特許法および／または規則に基づいて、本願は、２０２０年９月１７日出願の米国特許仮出願第６３／０７９９４６号および２０２０年１０月７日出願の米国特許仮出願第６３／０８８７８６号の優先権および利益を適時に主張することを目的とする。法に基づくすべての目的のために、上記出願の開示全体は、本明細書の開示の一部として参照により援用される。

この特許文献は、ファイルフォーマットのデジタルオーディオ映像メディア情報の生成、記憶、および消費に関する。

デジタル映像は、インターネット及び他のデジタル通信ネットワークにおいて最大の帯域幅の使用量を占めている。映像を受信及び表示することが可能である接続されたユーザ機器の数が増加するにつれ、デジタル映像の使用に対する帯域幅需要は増大し続けることが予測される。

本明細書は、視覚メディアファイルに対してファイルフォーマットに従って書き込みまたは構文解析を行う視覚メディア処理装置が使用できる技術を開示する。

１つの例示的な態様において、視覚メディア処理方法が開示される。この方法は、動作点情報を含む特定のタイプのサンプルグループを含む複数のトラックから１つ以上のトラックを識別する構文要素をファイルレベル情報が含むことを規定するフォーマット規則に従って、視覚メディアデータと、この視覚メディアデータのビットストリームを複数のトラックに記憶する視覚メディアファイルと、の変換を行うことを含む。

別の例示的な態様では、視覚メディア処理方法が開示される。この方法は、フォーマット規則に従って、視覚メディアデータと、この視覚メディアデータのビットストリームを記憶する視覚メディアファイルと、の変換を行うことを含む。視覚メディアファイルは、１つ以上の映像レイヤを含む１つ以上のトラックを記憶する。このフォーマット規則は、レイヤ依存性情報を示す第１の構文要素のセットが視覚メディアファイルに記憶されるかどうかが、視覚メディアファイルにおけるすべてのレイヤが独立していることを示す第２の構文要素が値１を有するかどうかに依存することを規定する。

別の例示的な態様では、視覚メディア処理方法が開示される。この方法は、複数のトラックからビットストリームを黙示的に再構成する間に、複数のトラックに記憶された冗長アクセスユニットデリミタネットワークアクセス層（ＡＵＤＮＡＬ）ユニットを処理する方法を規定するフォーマット規則に従って、複数のトラックにおける視覚メディアデータのビットストリームを記憶する視覚メディアファイルと視覚メディアデータとの変換を行うことを含む。

別の例示的な態様では、視覚メディア処理方法が開示される。この方法は、フォーマット規則に従って、視覚メディアデータと、この視覚メディアデータのビットストリームを記憶する視覚メディアファイルと、の変換を行うことを含む。視覚メディアファイルは、１つ以上の映像レイヤを含む１つ以上のトラックを記憶する。視覚メディアファイルは、動作点（ＯＰ）の情報を含む。このフォーマット規則は、構文要素がサンプルグループエントリおよびＯＰのグループボックスに含まれているかどうか、またはどのように含まれているかに応答して、１つの映像レイヤを含むＯＰに応答するかを規定する。この構文要素は、ＯＰのために設定された出力レイヤへのインデックスを示すように構成される。

別の例示的な態様では、視覚メディア処理方法が開示される。この方法は、フォーマット規則に従って、視覚メディアデータと、視覚メディアデータのビットストリームを記憶する視覚メディアファイルとの変換を行うことを含み、前記視覚メディアファイルは、特定のタイプのエンティティグループに属する複数のトラックを記憶し、前記フォーマット規則は、グループ識別子に対する特定のタイプへのトラック参照を有する複数のトラックに応答して、複数のトラックが、（Ａ）特定のタイプのサンプルグループを担持することを省略するか、または（Ｂ）特定のタイプのサンプルグループの情報が、特定のタイプのエンティティグループの情報と整合するように、特定のタイプのサンプルグループを担持するかを規定する。

別の例示的な態様では、視覚メディア処理方法が開示される。この方法は、視覚メディアデータと、この視覚メディアデータのビットストリームを記憶する視覚メディアファイルと、の変換を行うことを含む。この視覚メディアファイルは、複数のトラックを含み、この視覚メディアファイルは、この視覚メディアファイルにおける動作点に関する情報を担持するエンティティグループと、各動作点を担持するトラックと、を記憶する。フォーマット規則は、各動作点の情報を担持するエンティティグループまたはサンプルグループを記憶する視覚メディアファイルに応答して、視覚メディアファイルの特性を指定する。

さらに別の例示的な態様では、視覚メディア書き込み装置が開示される。この装置は、上述した方法を実装するように構成された処理装置を備える。

さらに別の例示的な態様では、視覚メディア構文解析装置が開示される。この装置は、上述した方法を実装するように構成された処理装置を備える。

さらに別の例示的な態様では、コードが記憶されたコンピュータ可読媒体が開示される。このコードは、本明細書に記載の方法の１つを処理装置が実行可能なコードの形式で実施する。

さらに別の例示的な態様では、視覚メディアファイルが記憶されたコンピュータ可読媒体が開示される。本明細書に記載の方法を使用して、視覚メディアを生成または構文解析する。

これらの、およびその他の特徴は、本明細書全体にわたって説明されている。

映像処理システム例を示すブロック図である。映像処理装置のブロック図である。映像処理方法の一例を示すフローチャートである。本発明のいくつかの実施形態による映像符号化システムを示すブロック図である。本発明のいくつかの実施形態によるエンコーダを示すブロック図である。本発明のいくつかの実施形態によるデコーダを示すブロック図である。エンコーダブロック図の例を示す。２つのＯＬＳを有するビットストリームを例示し、ここで、ＯＬＳ２は、ｖｐｓ＿ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１［１］［０］が０である。視覚メディア処理方法の例示的な方法のフローチャートを示す。視覚メディア処理方法の例示的な方法のフローチャートを示す。視覚メディア処理方法の例示的な方法のフローチャートを示す。視覚メディア処理方法の例示的な方法のフローチャートを示す。視覚メディア処理方法の例示的な方法のフローチャートを示す。視覚メディア処理方法の例示的な方法のフローチャートを示す。

本明細書では、理解を容易にするために章の見出しを使用しており、その技術および各章に記載された実施形態の適用可能性をその章のみに限定するものではない。さらに、Ｈ．２６６という用語は、ある説明において、理解を容易にするためだけに使用され、開示された技術の範囲を限定するために用いられたものではない。このように、本明細書で説明されている技術は、他の映像コーデックプロトコルおよび設計にも適用可能である。本明細書において、編集変更は、ＶＶＣ規格またはＩＳＯＢＭＦＦファイルフォーマット規格の現在の草案に対して、取り消されたテキストを示す取り消し線および付加されたテキストを示すハイライト（太字のイタリック体を含む）によってテキストに示す。

１．初期の協議

本明細書は、映像ファイルフォーマットに関する。具体的には、本発明は、ＩＳＯベースのメディアファイルフォーマット（ＩＳＯＢＭＦＦ）に基づいて、メディアファイルにおけるスケーラブル汎用映像符号化（ＶＶＣ）映像ビットストリームの記憶域に関する。この考えは、任意のコーデック、例えば、ＶＶＣ規格によって符号化された映像ビットストリーム、および任意の映像ファイルフォーマット、例えば、開発されているＶＶＣ映像ファイルフォーマットに、個々にまたは様々な組み合わせで適用されてもよい。

２．略語

ＡＣＴ適応色変換
ＡＬＦ適応ループフィルタ
ＡＭＶＲ適応型動きベクトル解像度
ＡＰＳ適応パラメータセット
ＡＵアクセスユニット
ＡＵＤアクセスユニット区切り文字
ＡＶＣ高度映像符号化（Ｒｅｃ．ＩＴＵ－ＴＨ．２６４｜ＩＳＯ／ＩＥＣ１４４９６－１０）
Ｂ双方向予測
ＢＣＷＣＵレベル重み付き双方向予測
ＢＤＯＦ双方向オプティカルフロー
ＢＤＰＣＭブロックベースのデルタパルス符号変調
ＢＰバッファリング時間
ＣＡＢＡＣコンテキストに基づく適応２進算術符号化
ＣＢ符号化ブロック
ＣＢＲ一定ビットレート
ＣＣＡＬＦクロスコンポーネント適応ループフィルタ
ＣＰＢ符号化ピクチャバッファ
ＣＲＡクリーンなランダムアクセス
ＣＲＣ巡回冗長性検査
ＣＴＢ符号化ツリーブロック
ＣＴＵ符号化ツリーユニット
ＣＵ符号化ユニット
ＣＶＳ符号化映像シーケンス
ＤＰＢ復号化ピクチャバッファ
ＤＣＩ復号化能力情報
ＤＲＡＰ従属ランダムアクセスポイント
ＤＵ復号化ユニット
ＤＵＩ復号化ユニット情報
ＥＧ指数ゴロム
ＥＧｋｋ次指数ゴロム
ＥＯＢビットストリームの末端
ＥＯＳシーケンスの末端
ＦＤフィラーデータ
ＦＩＦＯ先入れ先出し
ＦＬ固定長
ＧＢＲ緑色、青色、赤色
ＧＣＩ一般的な制約情報
ＧＤＲ緩やかな復号化更新
ＧＰＭジオメトリ分割モード
ＨＥＶＣ高効率映像符号化（Ｒｅｃ．ＩＴＵ－ＴＨ．２６５｜ＩＳＯ／ＩＥＣ２３００８－２）
ＨＲＤ仮想参照デコーダ
ＨＳＳ仮想ストリームスケジューラ
Ｉイントラ
ＩＢＣイントラブロックコピー
ＩＤＲ瞬時復号化更新
ＩＬＲＰ層間参照画像
ＩＲＡＰイントラランダムアクセスポイント
ＬＦＮＳＴ低周波数非可分変換
ＬＰＳ最小確率シンボル
ＬＳＢ最下位ビット
ＬＴＲＰ長期参照画像
ＬＭＣＳクロマスケーリングを伴う輝度マッピング
ＭＩＰマトリックスに基づくイントラ予測
ＭＰＳ最大確率記号
ＭＳＢ最上位ビット
ＭＴＳ多重変換選択
ＭＶＰ動きベクトル予測
ＮＡＬネットワーク抽象化層
ＯＬＳ出力層セット
ＯＰ動作点
ＯＰＩ動作点情報
Ｐ予測
ＰＨピクチャヘッダ
ＰＯＣピクチャオーダカウント
ＰＰＳピクチャパラメータセット
ＰＲＯＦオプティカルフローによる予測微調整
ＰＴピクチャタイミング
ＰＵピクチャユニット
ＱＰ量子化パラメータ
ＲＡＤＬランダムアクセス復号化可能リード（ピクチャ）
ＲＡＳＬランダムアクセススキップリード（ピクチャ）
ＲＢＳＰ生バイトシーケンスペイロード
ＲＧＢ赤、緑、青
ＲＰＬ参照ピクチャリスト
ＳＡＯサンプル適応オフセット
ＳＡＲサンプルアスペクト比
ＳＥＩ補足強化情報
ＳＨスライスヘッダ
ＳＬＩサブピクチャレベル情報
ＳＯＤＢデータビットのストリング
ＳＰＳシーケンスパラメータセット
ＳＴＲＰ短期参照ピクチャ
ＳＴＳＡステップワイズ時間的サブレイヤアクセス
ＴＲ短縮ライス
ＶＢＲ可変ビットレート
ＶＣＬ映像符号化層
ＶＰＳ映像パラメータセット
ＶＳＥＩ汎用補足強化情報（Ｒｅｃ．ＩＴＵ－ＴＨ．２７４｜ＩＳＯ／ＩＥＣ２３００２－７）
ＶＵＩ映像可用性情報
ＶＶＣ（Ｒｅｃ．ＩＴＵ－ＴＨ．２６６｜ＩＳＯ／ＩＥＣ２３０９０－３）Ｈ．２６５｜ＩＳＯ／ＩＥＣ２３００８－２）

３．映像符号化の導入

３．１．映像符号化規格

映像符号化規格は、主に周知のＩＴＵ－ＴおよびＩＳＯ／ＩＥＣ規格の開発によって発展してきた。ＩＴＵ－ＴはＨ．２６１とＨ．２６３を作り、ＩＳＯ／ＩＥＣはＭＰＥＧ－１とＭＰＥＧ－４Ｖｉｓｕａｌを作り、両団体はＨ．２６２／ＭＰＥＧ－２ＶｉｄｅｏとＨ．２６４／ＭＰＥＧ－４ＡＶＣ（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）とＨ．２６５／ＨＥＶＣ規格を共同で作った。Ｈ．２６２以来、映像符号化規格は、時間予測と変換符号化が利用されるハイブリッド映像符号化構造に基づく。ＨＥＶＣを超えた将来の映像符号化技術を探索するため、２０１５年には、ＶＣＥＧとＭＰＥＧが共同でＪＶＥＴ（ＪｏｉｎｔＶｉｄｅｏＥｘｐｌｏｒａｔｉｏｎＴｅａｍ）を設立した。それ以来、多くの新しい方法がＪＶＥＴによって採用され、ＪＥＭ（ＪｏｉｎｔＥｘｐｌｏｒａｔｉｏｎＭｏｄｅ）と呼ばれる参照ソフトウェアに組み込まれてきた。ＪＶＥＴは、後に汎用映像符号化（ＶＶＣ）プロジェクトが正式に始まったとき、共同映像エキスパートチーム（ＪＶＥＴ）に改称された。ＶＶＣは新しい符号化規格であり、ＨＥＶＣに比べて５０％のビットレート低減を目指し、２０２０年７月１日に終了した第１９回ＪＶＥＴ総会において完成した。

汎用映像符号化（ＶＶＣ）規格（ＩＴＵ－ＴＨ．２６６｜ＩＳＯ／ＩＥＣ２３０９０－３）と汎用補足強化情報（ＶＳＥＩ）規格（ＩＴＵ－ＴＨ．２７４｜ＩＳＯ／ＩＥＣ２３００２－７）は、テレビ放送、ビデオ会議、記憶媒体からの再生などの従来の用途に加え、適応ビットレートストリーミング、映像領域抽出、複数の符号化映像ビットストリームからのコンテンツの合成・結合、マルチビュー映像、スケーラブルレイヤードコーディング、ビューポートに適応した３６０°没入型メディアなど、より新しく、より高度な用途を含め、最大限に幅広いアプリケーションで使用できるように設計されている。

３．２．ファイルフォーマット規格

メディアストリーミングアプリケーションは、一般的に、ＩＰ、ＴＣＰ、およびＨＴＴＰトランスポート方法に基づいており、一般的に、ＩＳＯベースのメディアファイルフォーマット（ＩＳＯＢＭＦＦ）［７］などのファイルフォーマットに依存する。そのようなストリーミングシステムの１つは、ＨＴＴＰ（ＤＡＳＨ）を介した動的適応ストリーミングである。ＩＳＯＢＭＦＦおよびＤＡＳＨを有する映像フォーマットを使用するために、ＩＳＯＢＭＦＦトラック並びにＤＡＳＨ表現およびセグメントにおける映像コンテンツのカプセル化のために、ＡＶＣファイルフォーマットおよびＨＥＶＣファイルフォーマットのような、映像フォーマットに特定のファイルフォーマット仕様が必要とされる。映像ビットストリームに関する重要な情報、例えば、プロファイル、階層、レベル、その他多数は、コンテンツ選択のために、例えば、ストリーミングセッションの開始時の初期化およびストリーミングセッション中のストリーム適応の両方のために、ファイルフォーマットレベルのメタデータおよび／またはＤＡＳＨメディアプレゼンテーション記述（ＭＰＤ）として公開される必要がある。

同様に、ＩＳＯＢＭＦＦを有する画像フォーマットを使用するために、ＡＶＣ画像ファイルフォーマットおよびＨＥＶＣ画像ファイルフォーマット等の、画像フォーマットに特定のファイルフォーマット仕様が必要とされる。

ＩＳＯＢＭＦＦに基づくＶＶＣ映像コンテンツを記憶するためのファイルフォーマットであるＶＶＣ映像ファイルフォーマットは、現在、ＭＰＥＧによって開発されている。ＭＰＥＧ出力文書Ｎ１９４５４の最終草案仕様は、情報技術－オーディオビジュアルオブジェクトの符号化－パート１５：ＩＳＯベースのメディアファイルフォーマットのネットワーク抽象化層（ＮＡＬ）単位で構造化された映像の担持、補正２：ＩＳＯＢＭＦＦにおけるＶＶＣおよびＥＶＣの担持、２０２０年７月）である。

ＩＳＯＢＭＦＦに基づく、ＶＶＣを使用して符号化された画像内容を記憶するためのファイルフォーマットであるＶＶＣ画像ファイルフォーマットは、現在、ＭＰＥＧによって開発されている。ＶＶＣ画像ファイルフォーマットの最新草案仕様は、ＭＰＥＧ出力文書Ｎ１９４６０「情報技術－異種環境における高効率符号化およびメディア配信－第１２部：画像ファイルフォーマット－補正３：ＶＶＣ、ＥＶＣ、スライドショーおよびその他の改善のサポート」、２０２０年７月に含まれている。

３．３ＶＶＣにおける時間的スケーラビリティサポート

ＶＶＣは、ＨＥＶＣと同様な時間的スケーラビリティのサポートを含む。そのようなサポートは、ＮＡＬユニットのヘッダにおける時間的ＩＤの信号通知、特定の時間的サブレイヤのピクチャを下位時間的サブレイヤのピクチャによるインター予測参照に使用できないという制限、サブビットストリーム抽出プロセス、および適切な入力の各サブビットストリーム抽出出力が適合ビットストリームでなければならないという要件を含む。メディアアウェアネットワークエレメント（ＭＡＮＥ）は、時間的スケーラビリティに基づいて、ストリーム適応のために、ＮＡＬユニットヘッダにおける時間的ＩＤを利用することができる。

３．４ＶＶＣにおけるシーケンス内のピクチャ解像度の変更

ＡＶＣおよびＨＥＶＣにおいて、ピクチャの空間的解像度は、新しいＳＰＳを使用する新しいシーケンスがＩＲＡＰピクチャで始まらない限り、変更することができない。ＶＶＣは、常にイントラ符号化されるＩＲＡＰピクチャを符号化せずに、ある位置のシーケンス内でピクチャの解像度を変更することを可能にする。この特徴は、参照ピクチャが復号化されている現在のピクチャと異なる解像度を有する場合、インター予測に使用される参照ピクチャをリサンプリングすることが必要であるため、参照ピクチャリサンプリング（ＲＰＲ）と称する。

既存の実装形態の動き補償モジュールを再利用することを可能にするために、スケーリング比は、１／２（参照ピクチャから現在のピクチャへのダウンサンプリングの２倍）以上８（８倍のアップサンプリング）以下に制限される。水平および垂直スケーリング比は、ピクチャの幅および高さ、並びに参照ピクチャおよび現在のピクチャに対して指定された左、右、上および下のスケーリングオフセットに基づいて導出される。

ＲＰＲは、ＩＲＡＰピクチャを符号化する必要なく解像度を変更することを可能にし、これにより、ストリーミングまたはビデオ会議のシナリオにおいて、例えば、ネットワーク条件の変化に対処するために、瞬間的なビットレートの急上昇を引き起こす。ＲＰＲは、映像領域全体またはある関心領域のズームが必要とされる応用シナリオにも使用できる。スケーリング窓オフセットは、より幅広い範囲のズームに基づくアプリケーションをサポートするように、負のオフセットも可能である。また、負のスケーリング窓オフセットにより、抽出されたサブビットストリームに対して元のビットストリームと同じスケーリング窓を維持しつつ、多層ビットストリームからサブピクチャシーケンスを抽出することが可能になる。

ＨＥＶＣのスケーラブル拡張における空間的スケーラビリティとは異なり、２つの異なるステージでピクチャのリサンプリングおよび動き補償を行う場合、ＶＶＣにおけるＲＰＲは、動き補償の間にサンプル位置の導出および動きベクトルのスケーリングを行うブロックレベルでの同じプロセスの一部として実行される。

実装の複雑性を制限するために、ＣＬＶＳにおけるピクチャがピクチャごとに複数のサブピクチャを有する場合、ＣＬＶＳにおけるピクチャ解像度の変更は許可されない。また、現在のピクチャと参照ピクチャとの間でＲＰＲを使用する場合、デコーダ側動きベクトル微調整、双方向オプティカルフロー、およびオプティカルフローによる予測の改善は適用されない。また、時間的動きベクトル候補を導出するための同一位置に配置されたピクチャピクチャは、現在のピクチャと同じピクチャサイズ、スケーリング窓オフセット、およびＣＴＵサイズを有するように制限される。

ＲＰＲをサポートするために、ＶＶＣ設計の他のいくつかの態様は、ＨＥＶＣとは異ならせている。まず、ＳＰＳの代わりに、ＰＰＳにおいて、画像解像度および対応する適合性およびスケーリング窓を信号通知し、ＳＰＳにおいて、最大ピクチャ解像度および対応する適合性窓を信号通知する。応用例において、ＳＰＳにおける対応する適合性窓オフセットを有する最大ピクチャ解像度を、クロッピング後の意図したまたは所望のピクチャ出力サイズとして使用できる。第２に、単層ビットストリームの場合、各ピクチャ記憶域（１つの復号化されたピクチャを記憶するためにＤＰＢ内の１つのスロット）は、最大ピクチャ解像度を有する復号化されたピクチャを記憶するために必要なバッファサイズを占める。

３．５ＶＶＣにおける多層スケーラビリティサポート

ＶＶＣコア設計におけるＲＰＲによって、現在のピクチャとは異なるサイズの参照ピクチャからインター予測する能力を有するため、ＶＶＣは、異なる解像度の複数のレイヤ、例えば、それぞれ標準解像度および高解像度を有する２つのレイヤを含むビットストリームを容易にサポートすることができる。ＶＶＣデコーダにおいて、ＲＰＲアップサンプリングフィルタを再利用することで、空間的スケーラビリティのサポートに必要なアップサンプリング機能を実現することができるため、このような機能は、追加の信号処理レベルの符号化ツールを必要とせずに統合できる。それでも、ビットストリームのスケーラビリティサポートを可能にするためには、追加の高レベル構文設計が必要である。

スケーラビリティはＶＶＣでサポートされているが、多層プロファイルにしか含まれていない。ＡＶＣおよびＨＥＶＣの拡張を含む、任意の以前の映像符号化規格におけるスケーラビリティサポートとは異なり、ＶＶＣのスケーラビリティの設計は、単層デコーダの実装形態にできるだけ適したものにされてきた。多層ビットストリームの復号化能力は、ビットストリームに１つのレイヤしかなかったかの如く規定される。例えば、ＤＰＢサイズのような復号化能力は、復号化されるビットストリームのレイヤの数に依存しないようで規定される。基本的に、単層ビットストリームのために設計されたデコーダは、多層ビットストリームを復号化することができるようにするために、大きな変更を必要としない。

ＡＶＣおよびＨＥＶＣの多層拡張の設計と比較して、ＨＬＳの態様は、ある程度の柔軟性を犠牲にして大幅に簡略化されてきた。例えば、１）ＩＲＡＰＡＵは、ＣＶＳに存在するレイヤ毎にピクチャを含むことが必要であり、これにより、各レイヤのスタートアップ復号化プロセスを規定する必要がなくなり、２）複雑なＰＯＣリセット機構の代わりに、ＰＯＣ信号通知のためのはるかに簡単な設計がＶＶＣに含まれ、導出されたＰＯＣ値がＡＵにおけるすべてのピクチャに対して必ず同じになるようにする。

ＨＥＶＣと同様に、ＶＰＳには、レイヤおよびレイヤ依存関係に関する情報が含まれている。ＯＬＳの情報は、ＯＬＳにどのレイヤが含まれているか、どのレイヤが出力されるか、および各ＯＬＳに関連付けられたＰＴＬ、ＨＲＤパラメータ等の他の情報を信号通知するために提供されるものである。ＨＥＶＣと同様に、カスタム出力モードにおいて、すべてのレイヤ、最上位レイヤのみ、または特定の示されたレイヤのいずれかを出力するための３つの動作モードがある。

ＶＶＣおよびＨＥＶＣにおけるＯＬＳ設計には若干の違いがある。まず、ＨＥＶＣにおいて、レイヤセットを信号通知し、次に、レイヤセットに基づいてＯＬＳを信号通知し、ＯＬＳ毎に出力レイヤを信号通知する。ＨＥＶＣにおける設計は、レイヤが、出力レイヤでもなく、出力レイヤの復号化に必要なレイヤでもないＯＬＳに属することを許可した。ＶＶＣにおいて、この設計は、ＯＬＳにおける任意のレイヤが、出力レイヤであるか、または出力レイヤを復号化するために必要なレイヤでなければならない。そのため、ＶＶＣにおいて、ＯＬＳは、ＯＬＳの出力レイヤを示すことで信号通知され、その後、ＯＬＳに属する他のレイヤが、ＶＰＳに示されるレイヤ依存関係によって簡単に導出される。さらに、ＶＶＣでは、各レイヤが少なくとも１つのＯＬＳに含まれていなければならない。

ＶＶＣＯＬＳの設計における別の相違は、ＯＬＳがＯＬＳにマッピングされた識別されたレイヤのセットに属するすべてのＮＡＬユニットからなるＨＥＶＣとは異なり、ＶＶＣは、ＯＬＳにマッピングされた非出力レイヤに属するいくつかのＮＡＬユニットを排除してもよい点である。具体的には、ＶＶＣのためのＯＬＳは、ｐｈ＿ｒｅｃｏｖｅｒｙ＿ｐｏｃ＿ｃｎｔが０であるＩＲＡＰまたはＧＤＲピクチャのみを含む非出力レイヤを有するＯＬＳにマッピングされるレイヤのセット、またはレイヤ間予測に使用されるサブレイヤからのピクチャからなる。これにより、ＯＬＳを形成するレイヤ内のすべてのサブレイヤのすべての「必要な」ピクチャのみを考慮して、マルチレイヤビットストリームのための最適なレベル値を示すことができ、ここで、「必要な」とは、ここでいう、出力または復号化に必要であることを意味する。図８は、ｖｐｓ＿ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１［１］［０］が０である２レイヤビットストリーム、すなわち、ＯＬＳ２が抽出される時にレイヤＬ０からのＩＲＡＰピクチャのみが保持されるサブビットストリームを例示する。

ＡＶＣおよびＨＥＶＣと同様に、異なるレイヤにおいて異なるＲＡＰ周期性を許可することが有益であるいくつかのシナリオを考慮すると、ＡＵは、非整列ＲＡＰを有するレイヤを有することができる。多層ビットストリームにおけるＲＡＰのより高速な識別のために、すなわち、すべてのレイヤにＲＡＰを有するＡＵは、ＡＵがＩＲＡＰＡＵであるかＧＤＲＡＵであるかを示すフラグを有するＨＥＶＣと比較して、アクセスユニットデリミタ（ＡＵＤ）を拡張した。さらに、ＶＰＳが複数のレイヤを示す場合、ＡＵＤは、このようなＩＲＡＰまたはＧＤＲＡＵに存在することが義務付けられる。しかしながら、ＶＰＳで示されるような単層ビットストリームまたはＶＰＳを参照しないビットストリームの場合、ＡＵＤは、ＨＥＶＣのように、ＡＵにおける第１のスライスのＮＡＬユニットタイプおよびそれぞれのパラメータセットからＲＡＰを容易に検出することができるので、完全に省略可能である。

複数のレイヤによるＳＰＳ、ＰＰＳ、およびＡＰＳの共有を可能にすると同時に、ビットストリーム抽出プロセスが復号化プロセスで必要とされるパラメータセットを捨てないようにするために、第１のレイヤのＶＣＬＮＡＬユニットは、第１のレイヤを含むすべてのＯＬＳが下位のレイヤのＩＤ値によって識別されるレイヤをも含む限り、同じまたは下位のレイヤＩＤ値を有するＳＰＳ、ＰＰＳ、またはＡＰＳを指すことができる。

３．６．ＶＶＣ映像ファイルフォーマットの詳細

３．６．１．複数のレイヤを有するＶＶＣ記憶域の概要

複数のレイヤを有するＶＶＣビットストリームのためのサポートには、多数のツールが含まれ、それらをどのように使用するかについては様々な「ｍｏｄｅｌｓ」がある。複数のレイヤを有するＶＶＣストリームは、複数の方法でトラックに配置でき、そのうちの１つは、以下のようである。
１．１つのトラックにおけるすべてのレイヤであって、すべてのレイヤは動作点に対応する。
２．１つのトラックにおけるすべてのレイヤであって、すべてのレイヤを含む動作点がない。
３．個々のトラックにおける１つ以上のレイヤまたはサブレイヤであって、示された１つ以上のトラックのすべてのサンプルを含むビットストリームは、動作点に対応する。
４．個々のトラックにおける１つ以上のレイヤまたはサブレイヤであって、１つ以上のトラックのセットのすべてのＮＡＬユニットを含む動作点がない。

ＶＶＣファイルフォーマットは、１つ以上のレイヤをトラックに記憶させることができる。１つのトラック当たり複数のレイヤの記憶域を使用できる。例えば、コンテンツプロバイダが、サブセット化することを意図していない多層ビットストリームを提供したい場合、またはビットストリームが、各レイヤがビュー（例えば、ステレオペア）に対応する少数の予め定義された出力レイヤのセットのために生成された場合、それに応じてトラックを生成することができる。

ＶＶＣビットストリームが複数のトラックで表現され、プレーヤーが複数のトラックに複数のレイヤが記憶されている動作点を使用する場合、プレーヤーはＶＶＣアクセスユニットをＶＶＣデコーダに渡す前にＶＶＣアクセスユニットを再構成しなければならない。

ＶＶＣ動作点は、トラックによって明示的に表現されてもよい。即ち、このトラックにおける個々のサンプルは、自然にまたは「ｓｕｂｐ」のトラック参照（存在する場合）を分解することによって、且つ「ｖｖｃＮ」のトラック参照（存在する場合）を分解することによって、アクセスユニットを含む。アクセスユニットは、動作点の一部であるすべてのレイヤおよびサブレイヤからのＮＡＬユニットを含む。

ＶＶＣビットストリームの記憶域は、以下のような構造によってサポートされる。
ａ）サンプルのエントリ、
ｂ）動作点情報（「ｖｏｐｉ」）サンプルグループ
ｃ）レイヤの情報（「ｌｉｎｆ」）サンプルグループ、
ｄ）動作点エンティティグループ（「ｏｐｅｇ」）。

サンプルエントリ内の構造は、そのサンプルエントリに関連付けられたサンプルの復号化または使用のための情報、この場合は符号化映像および非ＶＣＬデータ情報を提供する。

動作点情報サンプルグループは、動作点を構成するレイヤおよびサブレイヤ等の動作点、それらの間の依存関係（もしあれば）、動作点のプロファイル、階層およびレベルパラメータ、並びに他のこのような動作点に関連する情報を記録する。

レイヤ情報サンプルグループは、トラックのサンプルに含まれるすべてのレイヤおよびサブレイヤを列挙する。

動作点エンティティグループは、動作点を構成するレイヤおよびサブレイヤ、それらの間の依存関係（もしあれば）、動作点のプロファイル、階層、およびレベルパラメータ、並びに他のそのような動作点に関連する情報などの動作点に関する情報、並びに各動作点を担持するトラックの識別を記録する。

これらのサンプルグループにおける情報は、トラック参照を使用してトラックを見出すことと合わせて、または動作点エンティティグループにおいて、読取装置がその能力に従って動作点を選択し、選択された動作点を復号化するために必要な関連するレイヤおよびサブレイヤを含むトラックを識別し、且つそれらを効率的に抽出するのに十分である。

３．６．２．データ共有および再構成ＶＶＣビットストリーム

３．６．２．１一般

多層ＶＶＣビットストリームを担持する複数のトラックのサンプルからアクセスユニットを再構成するために、まず動作点を決定することが必要である。
注：ＶＶＣビットストリームが複数のＶＶＣトラックで表現される場合、ファイル構文解析ツールは、選択された動作点に必要なトラックを以下のように特定することができる。
ＶＶＣサンプルエントリですべてのトラックを検索する。
トラックに同じＩＤの「ｏｒｅｆ」トラックリファレンスが含まれている場合、そのＩＤをＶＶＣトラックまたは「ｏｐｅｇ」エンティティグループに分解する。
「ｏｐｅｇ」エンティティグループまたは「ｖｏｐｉ」サンプルグループから、復号化能力および用途に適した動作点を選択する。
「ｏｐｅｇ」エンティティグループが存在する場合、それは、トラックセットが選択された動作点を正確に表すことを示す。このように、ＶＶＣビットストリームをトラックのセットから再構成し、復号化することができる。
「ｏｐｅｇ」エンティティグループが存在しない場合（即ち、「ｖｏｐｉ」サンプルグループが存在する場合）、「ｖｏｐｉ」および「ｌｉｎｆ」から、選択された動作点を復号化するために、どのトラックセットが必要であるかを見出す。

ＶＶＣビットストリームを担持する複数のＶＶＣトラックからビットストリームを再構成するために、まず目標最高値ＴｅｍｐｏｒａｌＩｄを決定することが必要となる場合がある。

複数のトラックがアクセスユニットのためのデータを含む場合、トラック内のそれぞれのサンプルのアラインメントは、サンプルの復号化時間に基づいて、すなわち、編集リストを考慮せずに時間対サンプルの表を使用して行われる。

ＶＶＣビットストリームが複数のＶＶＣトラックで表現される場合、サンプルの復号化時間は、復号化時間が大きい順にトラックを単一のストリームにまとめた場合に、ＩＳＯ／ＩＥＣ２３０９０－３で規定されているアクセスユニットの順序が正しくなるようにしなければならない。

３．６．２．２項に記載されているように、黙示的再構成プロセスに従って、必要なトラックにおけるそれぞれのサンプルからアクセスユニットのシーケンスを再構成する。

３．６．２．２．ＶＶＣビットストリームの黙示的再構成

動作点情報サンプルグループが存在する場合、動作点情報およびレイヤ情報サンプルグループに示されるように、それらが担持するレイヤおよびそれらの基準レイヤに基づいて、必要なトラックを選択する。

ＯｐｅｒａｔｉｎｇＰｏｉｎｔＧｒｏｕｐＢｏｘの情報に基づいて、動作点エンティティグループが存在する場合、必要なトラックを選択する。

ＶＣＬＮＡＬユニットが０より大きいＴｅｍｐｏｒａｌＩｄを有するサブレイヤを含むビットストリームを再構成する場合、同じレイヤ内のすべての下位のサブレイヤ（すなわち、ＶＣＬＮＡＬユニットがより小さいＴｅｍｐｏｒａｌＩｄを有するサブレイヤ）もまた、結果のビットストリームに含まれ、それに応じて必要なトラックが選択される。

アクセスユニットを再構成するとき、同じ復号化時間を有するサンプルからのピクチャユニット（ＩＳＯ／ＩＥＣ２３０９０－３で規定される）を、ｎｕｈ＿ｌａｙｅｒ＿ｉｄ値の大きい順にアクセスユニットに入れる。

依存するレイヤを持つアクセスユニットを再構成する際に、ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１が０より大きい場合、同一レイヤ内で、ＶＣＬＮＡＬユニットのＴｅｍｐｏｒａｌＩｄがｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１－１（動作点情報サンプルグループに示されたように）以下である参照レイヤのサブレイヤも、結果のビットストリームに含まれ、それに応じて必要なトラックが選択されることになる。

従属層を有し、ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１が０であるアクセスユニットを再構成するとき、参照レイヤのＩＲＡＰピクチャユニットのみが結果のビットストリームに含まれ、それに応じて必要なトラックが選択される。

ＶＶＣトラックが「ｓｕｂｐ」トラックリファレンスを含む場合、個々のピクチャユニットは、以下で規定されるようなＥＯＳおよびＥＯＢＮＡＬユニットに対する追加の制約を伴って１１．７．３項で規定されるように再構成される。１１．７．３項のプロセスは、ｎｕｈ＿ｌａｙｅｒ＿ｉｄの大きい順に目標動作点の各レイヤについて繰り返される。そうでない場合、各ピクチャユニットは、以下のように再構成される。

再構成されたアクセスユニットは、復号化時間の早い順にＶＶＣビットストリームに入れられ、さらに後述するように、ビットストリーム終了（ＥＯＢ）およびシーケンス終了（ＥＯＳ）ＮＡＬユニットの複製がＶＶＣビットストリームから取り除かれる。

ＶＶＣビットストリームの同じ符号化映像シーケンス内にあり、複数のトラックに記憶された異なるサブレイヤに属するアクセスユニットの場合、それぞれのサンプルにおいて、特定のｎｕｈ＿ｌａｙｅｒ＿ｉｄ値を有するＥＯＳＮＡＬユニットを含む２つ以上のトラックがあってもよい。この場合、最後のアクセスユニットのうち、ＥＯＢＮＡＬユニット（存在する場合）を除き、すべてのＮＡＬユニットの後に配置された最後の再構成ビットストリームにおいて、ＥＯＳＮＡＬユニットのうちの１つのみをこれらのアクセスユニットの最後のユニット（復号化時間が最も長いユニット）に保持し、他のＥＯＳＮＡＬユニットは廃棄する。同様に、それぞれのサンプルにおいて、１つのＥＯＢＮＡＬユニットを含む２つ以上のこのようなトラックがあってもよい。この場合、ＥＯＢＮＡＬユニットの１つのみが、これらのアクセスユニットの最後の末端に配置される最終的な再構成ビットストリームに保持され、他のＥＯＢＮＡＬユニットは廃棄される。

特定のレイヤまたはサブレイヤは２つ以上のトラックで表現されることができるので、動作点に必要なトラックを計算する時に、特定のレイヤまたはサブレイヤをすべて担持するトラックのセットの中から選択することが必要となることがある。

動作点エンティティグループが存在しない場合、最終的に必要とされるトラックは、同じレイヤまたはサブレイヤを担持するトラック間で選択された後、依然として目標動作点に属さないいくつかのレイヤまたはサブレイヤをセット的に担持してもよい。目標動作点のために再構成されたビットストリームは、最終的に必要とされるトラックに含まれるが、目標動作点に属さないレイヤまたはサブレイヤを含むべきでない。

注：ＶＶＣデコーダの実装形態は、入力として、目標出力レイヤセットインデックスに対応するビットストリーム、および目標動作点の最高ＴｅｍｐｏｒａｌＩｄ値を取り、これらは、それぞれ、ＩＳＯ／ＩＥＣ２３０９０－３の項目８におけるＴａｒｇｅｔＯｌｓＩｄｘ変数およびＨｉｇｈｅｓｔＴｉｄ変数に対応する。ファイル構文解析ツールは、再構成されたビットストリームが、ＶＶＣデコーダに送信する前に、目標動作点に含まれていた以外のレイヤおよびサブレイヤを含まないことを確保する必要がある。

３．６．３．動作点情報サンプルグループ

３．６．３．１．定義

アプリケーションは、動作点情報サンプルグループ（「ｖｏｐｉ」）を使用することで、所与のＶＶＣビットストリームに提供される異なる動作点およびそれらの構成の通知を受ける。各動作点は、出力レイヤセット、最大ＴｅｍｐｏｒａｌＩｄ値、およびプロファイル、レベル、および階層信号通知に関連する。これら情報はすべて「ｖｏｐｉ」サンプルグループで捕捉されたものである。この情報とは別に、このサンプルグループは、レイヤ間の依存関係情報も提供する。

ＶＶＣビットストリームに対して２つ以上のＶＶＣトラックが存在し、ＶＶＣビットストリームに対して動作点エンティティグループが存在しない場合、以下の両方が適用される。
－ＶＶＣビットストリームのためのＶＶＣトラックの間に、１つの「ｖｏｐｉ」サンプルグループを担持する１つのトラックのみが存在するものとする。
－ＶＶＣビットストリームの他のすべてのＶＶＣトラックは、「ｖｏｐｉ」のサンプルグループを担持するトラックに「ｏｒｅｆ」型のトラック基準を有するものとする。

所与のトラックにおける任意の特定のサンプルに対して、別のトラックにおける時間的に同一位置に配置されたサンプルは、この特定のサンプルの復号化時間と同じ復号化時間を有するものとして定義される。「ｖｏｐｉ」サンプルグループを担持するトラックＴ_ｋに対して「ｏｒｅｆ」トラック基準を有するトラックＴ_ＮにおけるそれぞれのサンプルＳ_Ｎについて、以下が適用される。
－トラックＴ_ｋ内に時間的に同一位置に配置されたサンプルＳ_ｋが存在する場合、サンプルＳ_Ｎは、サンプルＳ_ｋと同じ「ｖｏｐｉ」サンプルグループエントリに関連付けられる。
－そうでない場合、サンプルＳ_Ｎは、復号化時にサンプルＳ_Ｎに先行するトラックＴ_ｋ内のサンプルのうちの最後のサンプルと同じ「ｖｏｐｉ」サンプルグループエントリに関連付けられる。

複数のＶＰＳがＶＶＣビットストリームによって参照される場合、ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ「ｖｏｐｉ」を有するサンプルグループ記述ボックスに複数のエントリを含めることが必要となる場合がある。１つのＶＰＳが存在するより一般的な場合、ＩＳＯ／ＩＥＣ１４４９６－１２に定義されたデフォルトのサンプルグループ機構を使用し、各トラック断片にそれを含めるのではなく、サンプルテーブルボックスに動作点情報サンプルグループを含めることが推奨される。

ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ＿ｐａｒａｍｅｔｅｒは、グルーピングタイプが「ｖｏｐｉ」であるＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘに対しては定義されない。

３．６．３．２．構文

ｃｌａｓｓＶｖｃＯｐｅｒａｔｉｎｇＰｏｉｎｔｓＲｅｃｏｒｄ｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｕｍ＿ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ＿ｍｉｎｕｓ１；
ｆｏｒ（ｉ＝０；ｉ＜＝ｎｕｍ＿ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ＿ｍｉｎｕｓ１；ｉ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｐｔｌ＿ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ［ｉ］；
ＶｖｃＰＴＬＲｅｃｏｒｄ（ｐｔｌ＿ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ［ｉ］＋１）ｐｔｌ［ｉ］；
｝
ｕｎｓｉｇｎｅｄｉｎｔ（１）ａｌｌ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒｓ＿ｆｌａｇ；
ｂｉｔ（７）ｒｅｓｅｒｖｅｄ＝０；
ｉｆ（ａｌｌ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒｓ＿ｆｌａｇ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｅａｃｈ＿ｌａｙｅｒ＿ｉｓ＿ａｎ＿ｏｌｓ＿ｆｌａｇ；
ｂｉｔ（７）ｒｅｓｅｒｖｅｄ＝０；
｝ｅｌｓｅ
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｏｌｓ＿ｍｏｄｅ＿ｉｄｃ；
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｎｕｍ＿ｏｐｅｒａｔｉｎｇ＿ｐｏｉｎｔｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｏｐｅｒａｔｉｎｇ＿ｐｏｉｎｔｓ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｐｔｌ＿ｉｄｘ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｌａｙｅｒ＿ｃｏｕｎｔ；
ｆｏｒ（ｊ＝０；ｊ＜ｌａｙｅｒ＿ｃｏｕｎｔ；ｊ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（６）ｌａｙｅｒ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｉｓ＿ｏｕｔｐｕｔｌａｙｅｒ；
ｂｉｔ（１）ｒｅｓｅｒｖｅｄ＝０；
｝
ｂｉｔ（６）ｒｅｓｅｒｖｅｄ＝０；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｆｒａｍｅ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇ
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇ
ｉｆ（ｆｒａｍｅ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ａｖｇＦｒａｍｅＲａｔｅ；
ｂｉｔ（６）ｒｅｓｅｒｖｅｄ＝０；
ｕｎｓｉｇｎｅｄｉｎｔ（２）ｃｏｎｓｔａｎｔＦｒａｍｅＲａｔｅ；
｝
ｉｆ（ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｍａｘＢｉｔＲａｔｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ａｖｇＢｉｔＲａｔｅ；
｝
｝
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｍａｘ＿ｌａｙｅｒ＿ｃｏｕｎｔ；
ｆｏｒ（ｉ＝０；ｉ＜ｍａｘ＿ｌａｙｅｒ＿ｃｏｕｎｔ；ｉ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｌａｙｅｒＩＤ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｕｍ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒｓ；
ｆｏｒ（ｊ＝０；ｊ＜ｎｕｍ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒｓ；ｊ＋＋）
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒＩＤ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１；
｝
｝
ｃｌａｓｓＶｖｃＯｐｅｒａｔｉｎｇＰｏｉｎｔｓＩｎｆｏｒｍａｔｉｏｎｅｘｔｅｎｄｓＶｉｓｕａｌＳａｍｐｌｅＧｒｏｕｐＥｎｔｒｙ（「ｖｏｐｉ」）｛
ＶｖｃＯｐｅｒａｔｉｎｇＰｏｉｎｔｓＲｅｃｏｒｄｏｉｎｆ；
｝

３．６．３．３．意味論

ｎｕｍ＿ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ＿ｍｉｎｕｓ１プラス１は、以下のプロファイル、階層、レベルの組み合わせの数および関連するフィールドを示す。
ｐｔｌ＿ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ［ｉ］：指定したｉ番目のプロファイル、階層、レベル構造に対応するビットストリームのＮＡＬユニットの最大ＴｅｍｐｏｒａｌＩＤを示す。

注：以下に示す、動作点のｐｔｌ＿ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ［ｉ］およびｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄは、同じ数値を担持する場合もあるが、意味論が異なる。

ｐｔｌ［ｉ］は、ｉ番目のプロファイル、階層、レベル構造を指定する。
ａｌｌ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒｓ＿ｆｌａｇ、ｅａｃｈ＿ｌａｙｅｒ＿ｉｓ＿ａｎ＿ｏｌｓ＿ｆｌａｇ、ｏｌｓ＿ｍｏｄｅ＿ｉｄｃ、およびｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１は、ＩＳＯ／ＩＥＣ２３０９０－３において定義される。
ｎｕｍ＿ｏｐｅｒａｔｉｎｇ＿ｐｏｉｎｔｓ：以下の情報を実行する動作点数を示す。
ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘは、動作点を定義する出力レイヤセットのインデックスである。ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘとｌａｙｅｒ＿ｉｄ値とのマッピングは、インデックスがｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘである出力レイヤのＶＰＳで指定されたものと同じにする。
ｐｔｌ＿ｉｄｘ：インデックスがｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘである出力レイヤセットの、リストされたプロファイル、レベル、および階層構造のゼロベースのインデックスに信号通知する。
ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ：この動作点のＮＡＬユニットの最大ＴｅｍｐｏｒａｌＩｄを指定する。

注：レイヤ情報サンプルグループに示されるＴｅｍｐｏｒａｌＩｄの最大値は、ここで示されるＴｅｍｐｏｒａｌＩｄの最大値とは異なる意味論を有する。しかしながら、それらは同じ文字通りの数値を担持してもよい。

ｌａｙｅｒ＿ｃｏｕｎｔ：このフィールドは、この動作点の、ＩＳＯ／ＩＥＣ２３０９０－３に定義されるとおりの必要なレイヤの数を示す。
ｌａｙｅｒ＿ｉｄ：動作点のレイヤのためのｎｕｈ＿ｌａｙｅｒ＿ｉｄ値を提供する。
ｉｓ＿ｏｕｔｐｕｔｌａｙｅｒ：レイヤが出力レイヤであるかどうかを示すフラグ。１は出力レイヤを示す。
ｆｒａｍｅ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇが０であると、動作点についてフレームレート情報が存在しないことを示す。値１は、動作点に対してフレームレート情報が存在することを示す。
ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇが０であると、動作点に対してビットレート情報が存在しないことを示す。値１は、ビットレート情報が動作点に存在することを示す。
ａｖｇＦｒａｍｅＲａｔｅは、動作点の平均フレームレートをフレーム／（２５６秒）の単位で示す。値０は、不特定の平均フレームレートを示す。
ｃｏｎｓｔａｎｔＦｒａｍｅＲａｔｅが１であることは、動作点のストリームが一定のフレームレートであることを示す。値２は、動作点のストリームにおける各時間層レイヤの表現が一定のフレームレートであることを示す。値０は、動作点のストリームが一定のフレームレートであってもなくてもよいことを示す。
ｍａｘＢｉｔＲａｔｅは、１秒の任意の窓にわたって、動作点のストリームのビット／秒で表される最大ビットレートを与える。
ａｖｇＢｉｔＲａｔｅは、動作点のストリームのビット／秒で表される平均ビットレートを与える。
ｍａｘ＿ｌａｙｅｒ＿ｃｏｕｎｔ：この関連付けられたベーストラックに関連付けられたすべての動作点におけるすべての固有レイヤの数。
ｌａｙｅｒＩＤ：ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒＩＤの次のループにおいてすべての直接参照レイヤが与えられるレイヤのｎｕｈ＿ｌａｙｅｒ＿ｉｄ。
ｎｕｍ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒｓ：ｎｕｈ＿ｌａｙｅｒ＿ｉｄがｌａｙｅｒＩＤであるレイヤの直接参照レイヤの数。
ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒＩＤ：直接参照レイヤのｎｕｈ＿ｌａｙｅｒ＿ｉｄ。

３．６．４．レイヤ情報サンプルグループ

トラックが担持するレイヤおよびサブレイヤのリストは、レイヤ情報サンプルグループにおいて信号通知される。同じＶＶＣビットストリームに対して２つ以上のＶＶＣトラックが存在する場合、これらのＶＶＣトラックの各々は、「ｌｉｎｆ」サンプルグループを担持する。

複数のＶＰＳがＶＶＣビットストリームによって参照される場合、ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ「ｌｉｎｆ」を有するサンプルグループ記述ボックスに複数のエントリを含めることが必要となる場合がある。１つのＶＰＳが存在するより一般的な場合、ＩＳＯ／ＩＥＣ１４４９６－１２に定義されたデフォルトのサンプルグループ機構を使用し、各トラック断片に含めるのではなく、サンプルテーブルボックスにレイヤ情報サンプルグループを含めることが推奨される。

ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ＿ｐａｒａｍｅｔｅｒは、グルーピングタイプが「ｌｉｎｆ」であるＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘに対しては定義されない。
「ｌｉｎｆ」サンプルグループの構文および意味論は、それぞれ９．６．３．２項および９．６．３．３項で規定されている。

３．６．５．動作点エンティティグループ

３．６．５．１．一般

動作点エンティティグループは、動作点への軌道のマッピングおよび動作点のプロファイルレベル情報を提供するように定義される。
このエンティティグループに記載されている動作点にマッピングされたトラックのサンプルを集約する場合、黙示的な再構成プロセスでは、さらなるＮＡＬユニットを除去しなくても、適合するＶＶＣビットストリームが得られる。動作点エンティティグループに属するトラックは、この動作点エンティティグループに示されているｇｒｏｕｐ＿ｉｄに「ｏｒｅｆ」型のトラック参照トラックを有するものとする。
動作点エンティティグループに含まれるすべてのｅｎｔｉｔｙ＿ｉｄ値は、同じＶＶＣビットストリームに属するものとする。存在する場合、ＯｐｅｒａｔｉｎｇＰｏｉｎｔＧｒｏｕｐＢｏｘは、ムービーレベルのＭｅｔａＢｏｘにおけるＧｒｏｕｐｓＬｉｓｔＢｏｘに含まれるものとし、ファイルレベルのＭｅｔａＢｏｘまたはトラックレベルのＭｅｔａＢｏｘに含まれないものとする。

３．６．５．２．構文

ａｌｉｇｎｅｄ（８）ｃｌａｓｓＯｐｅｒａｔｉｎｇＰｏｉｎｔＧｒｏｕｐＢｏｘｅｘｔｅｎｄｓＥｎｔｉｔｙＴｏＧｒｏｕｐＢｏｘ（「ｏｐｅｇ」，０，０）
｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｕｍ＿ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ＿ｍｉｎｕｓ１；
ｆｏｒ（ｉ＝０；ｉ＜＝ｎｕｍ＿ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ＿ｍｉｎｕｓ１；ｉ＋＋）
ＶｖｃＰＴＬＲｅｃｏｒｄ（０）ｏｐｅｇ＿ｐｔｌ［ｉ］；
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｎｕｍ＿ｏｐｅｒａｔｉｎｇ＿ｐｏｉｎｔｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｏｐｅｒａｔｉｎｇ＿ｐｏｉｎｔｓ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｐｔｌ＿ｉｄｘ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｌａｙｅｒ＿ｃｏｕｎｔ；
ｆｏｒ（ｊ＝０；ｊ＜ｌａｙｅｒ＿ｃｏｕｎｔ；ｊ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（６）ｌａｙｅｒ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｉｓ＿ｏｕｔｐｕｔｌａｙｅｒ；
ｂｉｔ（１）ｒｅｓｅｒｖｅｄ＝０；
｝
ｂｉｔ（６）ｒｅｓｅｒｖｅｄ＝０；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｆｒａｍｅ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇ
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇ
ｉｆ（ｆｒａｍｅ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ａｖｇＦｒａｍｅＲａｔｅ；
ｂｉｔ（６）ｒｅｓｅｒｖｅｄ＝０；
ｕｎｓｉｇｎｅｄｉｎｔ（２）ｃｏｎｓｔａｎｔＦｒａｍｅＲａｔｅ；
｝
ｉｆ（ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｍａｘＢｉｔＲａｔｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ａｖｇＢｉｔＲａｔｅ；
｝
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｅｎｔｉｔｙ＿ｃｏｕｎｔ；
ｆｏｒ（ｊ＝０；ｊ＜ｅｎｔｉｔｙ＿ｃｏｕｎｔ；ｊ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｅｎｔｉｔｙ＿ｉｄｘ；
｝
｝
｝

３．６．５．３．意味論

ｎｕｍ＿ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ＿ｍｉｎｕｓ１プラス１は、以下のプロファイル、階層、レベルの組み合わせの数および関連するフィールドを示す。
ｏｐｅｇ＿ｐｔｌ［ｉ］第ｉ番目のプロファイル、階層、レベル構造を指定する。
ｎｕｍ＿ｏｐｅｒａｔｉｎｇ＿ｐｏｉｎｔｓ：以下の情報を実行する動作点数を示す。
ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘは、動作点を定義する出力レイヤセットのインデックスである。ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘとｌａｙｅｒ＿ｉｄ値とのマッピングは、インデックスがｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘである出力レイヤのＶＰＳで指定されたものと同じにする。
ｐｔｌ＿ｉｄｘ：インデックスがｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘである、出力レイヤセットの、リストされたプロファイル、レベル、および階層構造のゼロベースのインデックスに信号通知する。
ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ：この動作点のＮＡＬユニットの最大ＴｅｍｐｏｒａｌＩｄを指定する。

ｌａｙｅｒ＿ｃｏｕｎｔ：このフィールドは、この動作点の、ＩＳＯ／ＩＥＣ２３０９０－３に定義されるとおりの必要なレイヤの数を示す。
ｌａｙｅｒ＿ｉｄ：動作点のレイヤのためのｎｕｈ＿ｌａｙｅｒ＿ｉｄ値を提供する。
ｉｓ＿ｏｕｔｐｕｔｌａｙｅｒ：レイヤが出力レイヤであるかどうかを示すフラグ。１は出力レイヤを示す。
ｆｒａｍｅ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇが０であると、動作点についてフレームレート情報が存在しないことを示す。値１は、動作点に対してフレームレート情報が存在することを示す。
ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇが０であると、動作点に対してビットレート情報が存在しないことを示す。値１は、ビットレート情報が動作点に存在することを示す。
ａｖｇＦｒａｍｅＲａｔｅは、動作点の平均フレームレートをフレーム／（２５６秒）の単位で示す。値０は、不特定の平均フレームレートを示す。
ｃｏｎｓｔａｎｔＦｒａｍｅＲａｔｅが１であることは、動作点のストリームが一定のフレームレートであることを示す。値２は、動作点のストリームにおける各時間層レイヤの表現が一定のフレームレートであることを示す。値０は、動作点のストリームが一定のフレームレートであってもなくてもよいことを示す。
ｍａｘＢｉｔＲａｔｅは、１秒の任意の窓にわたって、動作点のストリームのビット／秒で表される最大ビットレートを与える。
ａｖｇＢｉｔＲａｔｅは、動作点のストリームのビット／秒で表される平均ビットレートを与える。
ｅｎｔｉｔｙ＿ｃｏｕｎｔ動作点に存在するトラックの数を指定する。
ｅｎｔｉｔｙ＿ｉｄｘ動作点に属するエンティティグループ内のｅｎｔｉｔｙ＿ｉｄリストへのインデックスを指定する。

４．開示される技術的解決策が解決しようとする技術課題の例

スケーラブルＶＶＣビットストリームの記憶域に関するＶＶＣ映像ファイルフォーマットの最近の設計は、以下のような問題を有する。

１）ＶＶＣビットストリームが複数のＶＶＣトラックで表現される場合、ファイル構文解析ツールは、まずＶＶＣサンプルエントリを有するすべてのトラックを見出し、次いで「ｖｏｐｉ」サンプルグループを含むすべてのトラックを見出すことなどによって、選択された動作点に必要なトラックを識別し、ファイルに提供されたすべての動作点の情報を見つけ出すことができる。しかしながら、これらすべてのトラックを見つけることは、非常に複雑である。

２）「ｌｉｎｆ」サンプルグループは、どのレイヤおよび／またはサブレイヤがトラックに含まれているかの情報を信号通知する。「ｖｏｐｉ」サンプルグループを使用してＯＰを選択する場合、「ｌｉｎｆ」サンプルグループを含むすべてのトラックを見出す必要があり、これらのトラックの「ｌｉｎｆ」サンプルグループエントリに含まれる情報を、ＯＰのレイヤおよび／またはサブレイヤにおける「ｖｏｐｉ」サンプルグループエントリにおける情報とともに使用して、必要なトラックを見つけ出す。これらは非常に複雑になり得る。

３）「ｖｏｐｉ」サンプルグループエントリにおいて、ａｌｌ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒｓ＿ｆｌａｇが１であっても、レイヤ依存性情報を信号通知する。しかしながら、ａｌｌ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒｓ＿ｆｌａｇが１である場合、レイヤ依存性情報は既知であり、従って、この場合の信号通知のためのビットはすべて浪費されることになる。

４）複数のトラックからＶＶＣビットストリームを黙示的に再構成する処理において、冗長なＥＯＳおよびＥＯＢＮＡＬユニットを除去することが規定される。しかしながら、この処理におけるＡＵＤＮＡＬユニットの取り外しおよび／または書き換えは、必要とされ得るが、対応する処理が不足している。

５）なお、「ｏｐｅｇ」エンティティグループが存在する場合、ＮＡＬユニットを取り除くことなく、必要なトラックのすべてのＮＡＬユニットを含めることで、複数のトラックからビットストリームを再構成する。しかしながら、これは、例えば、特定のＡＵのためのＡＵＤ、ＥＯＳ、およびＥＯＢＮＡＬユニットのようなＮＡＬユニットが、ＶＶＣビットストリームを担持する２つ以上のトラックに含まれることを許可しない。

６）「ｏｐｅｇ」エンティティグループボックスのコンテナは、ムービーレベルのメタボックスに指定される。ただし、ファイルレベルのＭｅｔａＢｏｘに含まれている場合のみ、エンティティグループのｅｎｔｉｔｙ＿ｉｄ値はトラックＩＤを参照する。

７）「ｏｐｅｇ」エンティティグループボックスにおいて、フィールドｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘは、各ＯＰに必ず信号通知される。しかしながら、ＯＰが１つのレイヤのみを含む場合、ＯＬＳインデックスの値を知る必要がないことが多く、ＯＬＳインデックスを知ることが有用であっても、このレイヤのみを含むＯＬＳのＯＬＳインデックスであることを容易に導出することができる。

８）ＶＶＣビットストリームに対して「ｏｐｅｇ」エンティティグループが存在する場合、ＶＶＣビットストリームを表すトラックの１つは、「ｖｏｐｉ」サンプルグループを有することができる。しかし、両方を許可することは不必要であり、ファイルサイズを不必要に大きくするだけであり、どちらを使用すべきかファイル構文解析ツールを混乱させる可能性がある。

５．解決策のリスト

上記課題を解決するために、以下に示す方法が開示されている。これらの項目は、一般的な概念を説明するための例であり、狭義に解釈されるべきではない。さらに、これらの項目は、個々に適用されてもよく、または任意の方法で組み合わされてもよい。

１）課題１を解決するために、以下の項目の１つ以上を提案する。
ａ．ＯＰごとに必要なトラックを含め、ファイルに含まれているすべてのＯＰに関するファイルレベル情報の信号通知を追加する一方、ＯＰに必要なトラックは、ＯＰに含まれていないレイヤまたはサブレイヤを担持してもよい。
ｂ．「ｖｏｐｉ」のサンプルグループがどのトラックに含まれているかを示すファイルレベルの情報の信号通知を追加する。
ｉ．一例において、「ｖｏｐｉ」のサンプルグループを担持するトラックに信号通知するために、ファイルレベルのＭｅｔａＢｏｘをコンテナとして、新しいボックスを指定する（例えば、動作点情報トラックボックスと呼ばれる）。
ファイルレベル情報は、ファイルレベルボックスまたはムービーレベルボックスまたはトラックレベルボックスに信号通知されてもよいが、トラックレベルボックスの位置は、ファイルレベルボックスまたはムービーレベルボックスにおいて識別される。

２）課題２を解決するために、以下の項目の１つ以上を提案する。
ａ．「ｖｏｐｉ」サンプルグループエントリのＯＰごとに必要なトラックの情報を追加する。
ｂ．「ｌｉｎｆ」サンプルグループの使用を廃止する。

３）課題３を解決するために、ａｌｌ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒｓ＿ｆｌａｇが１である場合、「ｖｏｐｉ」サンプルグループエントリにおけるレイヤ依存情報の信号通知をスキップする。

４）課題４を解決するために、複数のトラックからＶＶＣビットストリームを黙示的に再構成するプロセスにおいて、冗長なＡＵＤＮＡＬユニットを除去する動作を追加する。
ａ．代替的に、必要に応じて、ＡＵＤＮＡＬユニットを書き換える動作をさらに加える。
ｉ．一例において、異なるトラックの複数のピクチャユニットからアクセスユニットを再構成するとき、再構成されたアクセスユニットに含まれているＡＵＤＮＡＬユニットのａｕｄ＿ｉｒａｐ＿ｏｒ＿ｇｄｒ＿ｆｌａｇが１であり、かつ、再構成されたアクセスユニットがＩＲＡＰまたはＧＤＲアクセスユニットでない場合、ＡＵＤＮＡＬユニットのａｕｄ＿ｉｒａｐ＿ｏｒ＿ｇｄｒ＿ｆｌａｇの値を０に設定することが規定される。
ｉｉ．第１のＰＵにおけるＡＵＤＮＡＬユニットは、ａｕｄ＿ｉｒａｐ＿ｏｒ＿ｇｄｒ＿ｆｌａｇが１である場合があり、同じアクセスユニットであるが別個のトラックにある別のＰＵは、ＩＲＡＰまたはＧＤＲピクチャでないピクチャを有する。この場合、再構成されたアクセスユニットにおけるＡＵＤＮＡＬユニットのａｕｄ＿ｉｒａｐ＿ｏｒ＿ｇｄｒ＿ｆｌａｇの値は、１から０に変更される。
ｂ．一例において、追加的又は代替的に、アクセスユニットのための異なるトラックからの複数のピクチャユニットのうちの少なくとも１つがＡＵＤＮＡＬユニットを有する場合、第１のピクチャユニット（即ち、ｎｕｈ＿ｌａｙｅｒ＿ｉｄの最小値を有するピクチャユニット）はＡＵＤＮＡＬユニットを有するべきであることが規定される。
ｃ．一例において、アクセスユニットのための異なるトラックからの複数のピクチャユニットがＡＵＤＮＡＬユニットを有する場合、第１のピクチャユニットにおけるＡＵＤＮＡＬユニットのみが再構成されたアクセスユニットに保持されることが特定される。

５）課題５を解決するために、以下の項目の１つ以上を提案する。
ａ．「ｏｐｅｇ」エンティティグループが存在し、かつ使用される場合、必要なトラックは、ＯＰごとに必要な正確なＶＣＬＮＡＬユニットセットを提供するが、非ＶＣＬＮＡＬユニットの一部は、再構成されたビットストリームにおいて冗長になる可能性があり、従って削除する必要がある場合があることを規定する。
ｉ．代替的に、「ｏｐｅｇ」エンティティグループが存在し、かつ使用される場合、必要とされるトラックは、個々のＯＰに必要とされるレイヤおよびサブレイヤの厳密なセットを提供するが、非ＶＣＬＮＡＬユニットの一部は、再構成されたビットストリームにおいて冗長になる可能性があり、従って削除する必要がある場合があることを規定する。
ｂ．「ｏｐｅｇ」エンティティグループが存在し、かつ使用されている場合であっても、複数のトラックからの黙示的なＶＶＣビットストリームの再構成のプロセスにおいて、冗長なＥＯＢユニットおよびＥＯＳＮＡＬユニットを取り除く動作を適用する。
ｃ．複数のトラックからのＶＶＣビットストリームの黙示的再構成のプロセスにおいて、「ｏｐｅｇ」エンティティグループが存在し、かつ使用されている場合であっても、冗長ＡＵＤユニットを取り除く動作および冗長ＡＵＤユニットを書き換える動作を適用する。

６）課題６を解決するために、「ｏｐｅｇ」エンティティグループボックスのコンテナを、ファイルレベルメタボックスのＧｒｏｕｐｓＬｉｓｔＢｏｘにすると、次のように指定する。存在する場合、ＯｐｅｒａｔｉｎｇＰｏｉｎｔＧｒｏｕｐＢｏｘは、ファイルレベルのＭｅｔａＢｏｘにおけるＧｒｏｕｐｓＬｉｓｔＢｏｘに含まれるべきであり、他のレベルのＭｅｔａＢｏｘに含まれてはならない。

７）課題７を解決するために、「ｖｏｐｉ」サンプルグループエントリに存在するＶｖｃＯｐｅｒａｔｉｎｇＰｏｉｎｔｓＲｅｃｏｒｄにおけるｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘフィールド、および「ｏｐｅｇ」エンティティグループボックスにおけるＯｐｅｒａｔｉｎｇＰｏｉｎｔＧｒｏｕｐＢｏｘの信号通知は、ＯＰが１つのレイヤのみを含む場合、ＯＰに対してはスキップされる。
ａ．一例において、ＶｖｃＯｐｅｒａｔｉｎｇＰｏｉｎｔｓＲｅｃｏｒｄおよび／またはＯｐｅｒａｔｉｎｇＰｏｉｎｔＧｒｏｕｐＢｏｘにおけるｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘフィールドは、ｌａｙｅｒ＿ｉｄの信号通知ループの後に移動され、「ｉｆ（ｌａｙｅｒ＿ｃｏｕｎｔｔ＞１）」上に調整される。
ｂ．一例において、ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘがＯＰに存在しない場合、その値は、そのＯＰにおけるレイヤのみを含むＯＬＳのＯＬＳインデックスであると推測されることがさらに特定される。

８）課題８を解決するために、ＶＶＣビットストリームに対して「ｏｐｅｇ」エンティティグループが存在する場合、ＶＶＣビットストリームを表すトラックはいずれも「ｖｏｐｉ」サンプルグループを有さないことを規定する。
ａ．代替的に、両方が存在してもよいが、両方が存在する場合、それらのいずれかを選択することの間に差がないように、それらが一貫していることが必要である。
ｂ．一例において、「ｏｐｅｇ」エンティティグループに属し、全てがこのエンティティグループに示されたｇｒｏｕｐ＿ｉｄに「ｏｒｅｆ」な型のトラックリファレンスを有するトラックは、「ｖｏｐｉ」サンプルグループを担持しないことが規定される。

９）なお、ＶＶＣビットストリームが１つのトラックのみに表現される場合、ＶＶＣビットストリームのために「ｏｐｅｇ」エンティティグループまたは「ｖｏｐｉ」サンプルグループのいずれかを有することは許可されない。

６．実施形態の例

以下は、上記第５章に要約されたいくつかの発明の態様のためのいくつかの例示的な実施形態であり、ＶＶＣ映像ファイルフォーマットの標準仕様に適用できる。変更されたテキストは、ＶＶＣの最新の草案仕様に基づく。既に追加または修正された最も関連する部分は太字の下線で強調表示され、削除された部分の一部は［［太字の斜体］］で強調表示される。本質的に編集可能であるため、強調されていない他の何らかの変更があってもよい。

６．１．第一の実施形態

本実施形態は、２ａ、３、７、７ａ、７ｂ項に関する。

６．１．１．動作点情報サンプルグループ

６．１．１．１．定義

ＶＶＣビットストリームに対して２つ以上のＶＶＣトラックが存在し、ＶＶＣビットストリームに対して動作点エンティティグループが存在しない場合、以下の両方が適用される。
－ＶＶＣビットストリームのためのＶＶＣトラックの間に、「ｖｏｐｉ」サンプルグループを担持する１つのトラックのみが存在するものとする。
－ＶＶＣビットストリームの他のすべてのＶＶＣトラックは、「ｖｏｐｉ」のサンプルグループを担持するトラックに「ｏｒｅｆ」型のトラック基準を有するものとする。

６．１．１．２．構文

ｃｌａｓｓＶｖｃＯｐｅｒａｔｉｎｇＰｏｉｎｔｓＲｅｃｏｒｄ｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｕｍ＿ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ＿ｍｉｎｕｓ１；
ｆｏｒ（ｉ＝０；ｉ＜＝ｎｕｍ＿ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ＿ｍｉｎｕｓ１；ｉ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｐｔｌ＿ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ［ｉ］；
ＶｖｃＰＴＬＲｅｃｏｒｄ（ｐｔｌ＿ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ［ｉ］＋１）ｐｔｌ［ｉ］；
｝
ｕｎｓｉｇｎｅｄｉｎｔ（１）ａｌｌ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒｓ＿ｆｌａｇ；
ｂｉｔ（７）ｒｅｓｅｒｖｅｄ＝０；
ｉｆ（ａｌｌ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒｓ＿ｆｌａｇ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｅａｃｈ＿ｌａｙｅｒ＿ｉｓ＿ａｎ＿ｏｌｓ＿ｆｌａｇ；
ｂｉｔ（７）ｒｅｓｅｒｖｅｄ＝０；
｝ｅｌｓｅ
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｏｌｓ＿ｍｏｄｅ＿ｉｄｃ；
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｎｕｍ＿ｏｐｅｒａｔｉｎｇ＿ｐｏｉｎｔｓ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｏｐｅｒａｔｉｎｇ＿ｐｏｉｎｔｓ）｛
［［ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘ；］］
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｐｔｌ＿ｉｄｘ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｌａｙｅｒ＿ｃｏｕｎｔ；
ｆｏｒ（ｊ＝０；ｊ＜ｌａｙｅｒ＿ｃｏｕｎｔ；ｊ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（６）ｌａｙｅｒ＿ｉｄ；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｉｓ＿ｏｕｔｐｕｔｌａｙｅｒ；
ｂｉｔ（１）ｒｅｓｅｒｖｅｄ＝０；
｝
ｉｆ（ｌａｙｅｒ＿ｃｏｕｎｔ＞１）
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｏｐ＿ｔｒａｃｋ＿ｃｏｕｎｔ；
ｆｏｒ（ｊ＝０；ｊ＜ｏｐ＿ｔｒａｃｋ＿ｃｏｕｎｔ；ｊ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｏｐ＿ｔｒａｃｋ＿ｉｄ［ｊ］；
｝
ｂｉｔ（６）ｒｅｓｅｒｖｅｄ＝０；
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｆｒａｍｅ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇ
ｕｎｓｉｇｎｅｄｉｎｔ（１）ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇ
ｉｆ（ｆｒａｍｅ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（１６）ａｖｇＦｒａｍｅＲａｔｅ；
ｂｉｔ（６）ｒｅｓｅｒｖｅｄ＝０；
ｕｎｓｉｇｎｅｄｉｎｔ（２）ｃｏｎｓｔａｎｔＦｒａｍｅＲａｔｅ；
｝
ｉｆ（ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｍａｘＢｉｔＲａｔｅ；
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ａｖｇＢｉｔＲａｔｅ；
｝
｝
ｉｆ（！ａｌｌ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒｓ＿ｆｌａｇ）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｍａｘ＿ｌａｙｅｒ＿ｃｏｕｎｔ；
ｆｏｒ（ｉ＝０；ｉ＜ｍａｘ＿ｌａｙｅｒ＿ｃｏｕｎｔ；ｉ＋＋）｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｌａｙｅｒＩＤ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｕｍ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒｓ；
ｆｏｒ（ｊ＝０；ｊ＜ｎｕｍ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒｓ；ｊ＋＋）
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒＩＤ；
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｍａｘ＿ｔｉｄ＿ｉｌ＿ｒｅｆ＿ｐｉｃｓ＿ｐｌｕｓ１；
｝
｝
｝
ｃｌａｓｓＶｖｃＯｐｅｒａｔｉｎｇＰｏｉｎｔｓＩｎｆｏｒｍａｔｉｏｎｅｘｔｅｎｄｓＶｉｓｕａｌＳａｍｐｌｅＧｒｏｕｐＥｎｔｒｙ（「ｖｏｐｉ」）｛
ＶｖｃＯｐｅｒａｔｉｎｇＰｏｉｎｔｓＲｅｃｏｒｄｏｉｎｆ；
｝

６．１．１．３．意味論

．．．
ｎｕｍ＿ｏｐｅｒａｔｉｎｇ＿ｐｏｉｎｔｓ：以下の情報を実行する動作点数を示す。
［［ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘは、動作点を定義する出力レイヤセットのインデックスである。ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘとｌａｙｅｒ＿ｉｄの値のマッピングは、インデックスがｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘである出力レイヤのＶＰＳで指定されたものと同じである必要がある。］］
ｐｔｌ＿ｉｄｘ：インデックスがｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘである出力レイヤセットの、リストされたプロファイル、レベル、および階層構造のゼロベースのインデックスに信号通知する。
ｍａｘ＿ｔｅｍｐｏｒａｌ＿ｉｄ：この動作点のＮＡＬユニットの最大ＴｅｍｐｏｒａｌＩｄを指定する。

ｌａｙｅｒ＿ｃｏｕｎｔ：このフィールドは、この動作点の、ＩＳＯ／ＩＥＣ２３０９０－３に定義されるとおりの必要なレイヤの数を示す。
ｌａｙｅｒ＿ｉｄ：動作点のレイヤのためのｎｕｈ＿ｌａｙｅｒ＿ｉｄ値を提供する。
ｉｓ＿ｏｕｔｐｕｔｌａｙｅｒ：レイヤが出力レイヤであるかどうかを示すフラグ。１は出力レイヤを示す。
ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘは、動作点を定義する出力レイヤセットのインデックスである。ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘとｌａｙｅｒ＿ｉｄ値とのマッピングは、インデックスがｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘである出力レイヤのＶＰＳで指定されたものと同じにする。ｏｕｔｐｕｔ＿ｌａｙｅｒ＿ｓｅｔ＿ｉｄｘが１つのＯＰに存在しない場合、その値は、そのＯＰにおけるレイヤのみを含むＯＬＳのＯＬＳインデックスであると推測される。
ｏｐ＿ｔｒａｃｋ＿ｃｏｕｎｔは、この動作点において、ＶＣＬＮＡＬユニットを担持するトラックの数を指定する。
ｏｐ＿ｔｒａｃｋ＿ｉｄ［ｊ］は、この動作点であるＶＣＬＮＡＬユニットを担持するトラックのｊ番目のトラックのｔｒａｃｋ＿ＩＤ値を指定する。
ｆｒａｍｅ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇが０であると、動作点についてフレームレート情報が存在しないことを示す。値１は、動作点に対してフレームレート情報が存在することを示す。
ｂｉｔ＿ｒａｔｅ＿ｉｎｆｏ＿ｆｌａｇが０であると、動作点に対してビットレート情報が存在しないことを示す。値１は、ビットレート情報が動作点に存在することを示す。
ａｖｇＦｒａｍｅＲａｔｅは、動作点の平均フレームレートをフレーム／（２５６秒）の単位で示す。値０は、不特定の平均フレームレートを示す。
ｃｏｎｓｔａｎｔＦｒａｍｅＲａｔｅが１であることは、動作点のストリームが一定のフレームレートであることを示す。値２は、動作点のストリームにおける各時間層レイヤの表現が一定のフレームレートであることを示す。値０は、動作点のストリームが一定のフレームレートであってもなくてもよいことを示す。
ｍａｘＢｉｔＲａｔｅは、１秒の任意の窓にわたって、動作点のストリームのビット／秒で表される最大ビットレートを与える。
ａｖｇＢｉｔＲａｔｅは、動作点のストリームのビット／秒で表される平均ビットレートを与える。
ｍａｘ＿ｌａｙｅｒ＿ｃｏｕｎｔ：この関連付けられたベーストラックに関連付けられたすべての動作点におけるすべての固有レイヤの数。
ｌａｙｅｒＩＤ：ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒＩＤの次のループにおいてすべての直接参照レイヤが与えられるレイヤのｎｕｈ＿ｌａｙｅｒ＿ｉｄ。
ｎｕｍ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒｓ：ｎｕｈ＿ｌａｙｅｒ＿ｉｄがｌａｙｅｒＩＤであるレイヤの直接参照レイヤの数。
ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒＩＤ：直接参照レイヤのｎｕｈ＿ｌａｙｅｒ＿ｉｄ。

６．２．第二の実施形態

本実施形態は、１．ｂ．ｉ、４、４ａ、４．ａ．ｉ、４ｂ、４ｃ、５ａ、６、８、８ｂ項についてである。

ＶＶＣビットストリームの黙示的再構成

動作点情報サンプルグループが存在する場合、動作点情報およびレイヤ情報サンプルグループに示されるように、それらが担持するレイヤおよびそれらの基準レイヤに基づいて、必要なトラックを選択する。
ＯｐｅｒａｔｉｎｇＰｏｉｎｔＧｒｏｕｐＢｏｘの情報に基づいて、動作点エンティティグループが存在する場合、必要なトラックを選択する。
ＶＣＬＮＡＬユニットが０より大きいＴｅｍｐｏｒａｌＩｄを有するサブレイヤを含むビットストリームを再構成する場合、同じレイヤ内のすべての下位のサブレイヤ（すなわち、ＶＣＬＮＡＬユニットがより小さいＴｅｍｐｏｒａｌＩｄを有するサブレイヤ）もまた、結果のビットストリームに含まれ、それに応じて必要なトラックが選択される。
アクセスユニットを再構成するとき、同じ復号化時間を有するサンプルからのピクチャユニット（ＩＳＯ／ＩＥＣ２３０９０－３で規定される）を、ｎｕｈ＿ｌａｙｅｒ＿ｉｄ値の大きい順にアクセスユニットに入れる。あるアクセスユニットの複数のピクチャユニットのうち、少なくとも１つがＡＵＤＮＡＬユニットを有する場合、最初のピクチャユニット（すなわち、ｎｕｈ＿ｌａｙｅｒ＿ｉｄの値が最も小さいピクチャユニット）がＡＵＤＮＡＬユニットを有するものとし、最初のピクチャユニットのＡＵＤＮＡＬユニットのみを再構成されたアクセスユニットに残し、他のＡＵＤＮＡＬユニットが存在する場合にはそれを破棄することとする。このような再構成されたアクセスユニットにおいて、ＡＵＤＮＡＬユニットのａｕｄ＿ｉｒａｐ＿ｏｒ＿ｇｄｒ＿ｆｌａｇが１であり、且つ再構成されたアクセスユニットがＩＲＡＰまたはＧＤＲアクセスユニットでない場合、ＡＵＤＮＡＬユニットのａｕｄ＿ｉｒａｐ＿ｏｒ＿ｇｄｒ＿ｆｌａｇの値は０に設定される。

注１：第１のＰＵにおけるＡＵＤＮＡＬユニットは、ａｕｄ＿ｉｒａｐ＿ｏｒ＿ｇｄｒ＿ｆｌａｇが１である場合があり、同じアクセスユニットであるが別個のトラックにある別のＰＵは、ＩＲＡＰまたはＧＤＲピクチャでないピクチャを有する。この場合、再構成されたアクセスユニットにおけるＡＵＤＮＡＬユニットのａｕｄ＿ｉｒａｐ＿ｏｒ＿ｇｄｒ＿ｆｌａｇの値は、１から０に変更される。

．．．
エンティティグループその他のファイルレベル情報
サブピクチャエンティティグループ
．．．
動作点エンティティグループ
一般

動作点エンティティグループは、動作点への軌道のマッピングおよび動作点のプロファイルレベル情報を提供するように定義される。
このエンティティグループに記載されている動作点にマッピングされたトラックのサンプルを集約する場合、黙示的な再構成プロセスでは、さらなるＶＣＬＮＡＬユニットを除去しなくても、適合するＶＶＣビットストリームが得られる。動作点エンティティグループに属するトラックは、この動作点エンティティグループに示されているｇｒｏｕｐ＿ｉｄに「ｏｒｅｆ」型のトラック参照［トラック参照］を有するものとし、「ｖｏｐｉ」サンプルグループを担持しないものとする。

動作点エンティティグループに含まれるすべてのｅｎｔｉｔｙ＿ｉｄ値は、同じＶＶＣビットストリームに属するものとする。存在する場合、ＯｐｅｒａｔｉｎｇＰｏｉｎｔＧｒｏｕｐＢｏｘは、［［ムービー］］ファイルレベルのＭｅｔａＢｏｘにおけるＧｒｏｕｐｓＬｉｓｔＢｏｘに含まれるものとし、ファイルレベルのＭｅｔａＢｏｘまたはトラックレベルの他のレベルのＭｅｔａＢｏｘに含まれないものとする。

動作点情報トラックボックス
定義
ボックスタイプ：「ｔｏｐｉ」
コンテナ：ファイルレベルＭｅｔａＢｏｘ
必須：番号
数量：ゼロまたは１

この動作点情報トラックボックスは、１つの「ｖｏｐｉ」サンプルグループを担持するトラックのセットのトラックＩＤを含む。この囲みがないことは、「ｖｏｐｉ」サンプルグループを担持するファイル内にトラックがないことを示す。

構文
ａｌｉｇｎｅｄ（８）ｃｌａｓｓＯｐｅｒａｔｉｎｇＰｏｉｎｔｓＩｎｆｏＴｒａｃｋｓＢｏｘｅｘｔｅｎｄｓＦｕｌｌＢｏｘ（「ｔｏｐｉ」，０，０）
｛
ｕｎｓｉｇｎｅｄｉｎｔ（８）ｎｕｍ＿ｔｒａｃｋｓ＿ｗｉｔｈ＿ｖｏｐｉ；
ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍ＿ｔｒａｃｋｓ＿ｗｉｔｈ＿ｖｏｐｉ；ｉ＋＋）
ｕｎｓｉｇｎｅｄｉｎｔ（３２）ｔｒａｃｋ＿ＩＤ［ｉ］；
｝

意味論
ｎｕｍ＿ｔｒａｃｋｓ＿ｗｉｔｈ＿ｖｏｐｉ「ｖｏｐｉ」のサンプルグループを保持するファイル内のトラックの数を規定する。
ｔｒａｃｋ＿ＩＤ［ｉ］「ｖｏｐｉ」のサンプルグループを含むｉ番目のトラックのトラックＩＤを規定する。

図１は、本明細書で開示される様々な技術が実装され得る例示的な映像処理システム１９００を示すブロック図である。様々な実装形態は、システム１９００のモジュールの一部又は全部を含んでもよい。システム１９００は、映像コンテンツを受信するための入力ユニット１９０２を含んでもよい。映像コンテンツは、未加工又は非圧縮フォーマット、例えば、８又は１０ビットのマルチモジュール画素値で受信されてもよく、又は圧縮又は符号化フォーマットで受信されてもよい。入力ユニット１９０２は、ネットワークインタフェース、周辺バスインタフェース、又は記憶インタフェースを表してもよい。ネットワークインタフェースの例は、イーサネット（登録商標）、パッシブ光ネットワーク（ＰＯＮ）等の有線インタフェース、およびＷｉ－Ｆｉ（登録商標）またはセルラーインタフェース等の無線インタフェースを含む。

システム１９００は、本明細書に記載される様々な符号化又は符号化方法を実装することができる符号化モジュール１９０４を含んでもよい。符号化モジュール１９０４は、入力ユニット１９０２から符号化モジュール１９０４の出力への映像の平均ビットレートをに低減して、映像の符号化表現を生成してもよい。従って、この符号化技術は、映像圧縮または映像コード変換技術と呼ばれることがある。符号化モジュール１９０４の出力は、モジュール１９０６によって表されるように、記憶されてもよいし、接続された通信を介して送信されてもよい。入力ユニット１９０２において受信された、記憶された又は通信された映像のビットストリーム（又は符号化）表現は、モジュール１９０８によって使用されて、表示インタフェースユニット１９１０に送信される画素値又は表示可能な映像を生成してもよい。ビットストリーム表現からユーザが見ることができる映像を生成する処理は、映像伸張（映像展開）と呼ばれることがある。さらに、特定の映像処理動作を「符号化」動作又はツールと呼ぶが、符号化ツール又は動作は、エンコーダで使用され、対応する復号化ツール又は動作であり符号化の結果を逆にするものは、デコーダによって行われることが理解されよう。

周辺バスインタフェースユニットまたは表示インタフェースユニットの例は、ユニバーサルシリアルバス（ＵＳＢ）または高精細マルチメディアインタフェース（ＨＤＭＩ（登録商標））またはディスプレイポート等を含んでもよい。ストレージインタフェースの例は、シリアルアドバンスドテクノロジーアタッチメント（ＳＡＴＡ）、ＰＣＩ、ＩＤＥインタフェース等を含む。本明細書に記載される技術は、携帯電話、ノートパソコン、スマートフォン、又はデジタルデータ処理及び／又は映像表示を実施可能な他のデバイス等の様々な電子デバイスに実施されてもよい。

図２は、映像処理装置３６００のブロック図である。装置３６００は、本明細書に記載の方法の１つ以上を実装するために使用してもよい。装置３６００は、スマートフォン、タブレット、コンピュータ、モノのインターネット（ＩｏＴ）受信機等に実施されてもよい。装置３６００は、１つ以上の処理装置３６０２と、１つ以上のメモリ３６０４と、映像処理ハードウェア３６０６と、を含んでもよい。１つまたは複数の処理装置３６０２は、本明細書に記載される１つ以上の方法を実装するように構成されてもよい。メモリ（複数可）３６０４は、本明細書で説明される方法および技術を実装するために使用されるデータおよびコードを記憶するために使用してもよい。映像処理ハードウェア３６０６は、本明細書に記載される技術をハードウェア回路にて実装するために使用してもよい。いくつかの実施形態において、映像処理ハードウェア３６０６は、処理装置３６０２、例えばグラフィックコ処理装置（コ・プロセッサ）に少なくとも部分的に含まれてもよい。

図４は、本開示の技術を利用し得る例示的な映像符号化システム１００を示すブロック図である。

図４に示すように、映像符号化システム１００は、送信元デバイス１１０と、送信先デバイス１２０と、を備えてもよい。送信元デバイス１１０は、映像符号化デバイスと呼ばれ得る符号化映像データを生成する。送信先デバイス１２０は、送信元デバイス１１０によって生成された、映像復号化デバイスと呼ばれ得る符号化映像データを復号化してもよい。

送信元デバイス１１０は、映像ソース１１２と、映像エンコーダ１１４と、入出力（Ｉ／Ｏ）インタフェース１１６と、を備えてもよい。

映像ソース１１２は、映像キャプチャデバイスなどのソース、映像コンテンツプロバイダからの映像データを受信するためのインタフェース、および／または映像データを生成するためのコンピュータグラフィックスシステム、またはこれらのソースの組み合わせを含んでもよい。映像データは、１つ以上のピクチャを含んでもよい。映像エンコーダ１１４は、映像ソース１１２からの映像データを符号化し、ビットストリームを生成する。ビットストリームは、映像データの符号化表現を形成するビットシーケンスを含んでもよい。ビットストリームは、符号化ピクチャおよび関連付けられたデータを含んでもよい。符号化ピクチャは、ピクチャの符号化表現である。関連付けられたデータは、シーケンスパラメータセット、ピクチャパラメータセット、および他の構文構造を含んでもよい。Ｉ／Ｏインタフェース１１６は、変復調器（モデム）および／または送信機を含んでもよい。符号化された映像データは、ネットワーク１３０ａを介して、Ｉ／Ｏインタフェース１１６を介して送信先デバイス１２０に直接送信されてもよい。符号化された映像データは、送信先デバイス１２０がアクセスするために、記憶媒体／サーバ１３０ｂに記憶してもよい。

送信先デバイス１２０は、Ｉ／Ｏインタフェース１２６、映像デコーダ１２４、および表示デバイス１２２を含んでもよい。

Ｉ／Ｏインタフェース１２６は、受信機および／またはモデムを含んでもよい。Ｉ／Ｏインタフェース１２６は、送信元デバイス１１０または記憶媒体／サーバ１３０ｂから符号化映像データを取得してもよい。映像デコーダ１２４は、符号化された映像データを復号化してもよい。表示デバイス１２２は、復号化された映像データをユーザに表示してもよい。表示デバイス１２２は、送信先デバイス１２０と一体化されてもよく、または外部表示デバイスとインタフェースするように構成される送信先デバイス１２０の外部にあってもよい。

映像エンコーダ１１４および映像デコーダ１２４は、高効率映像符号化（ＨＥＶＣ）規格、汎用映像符号化（ＶＶＶＭ）規格、および他の現在のおよび／またはさらなる規格等の映像圧縮規格に従って動作してもよい。

図５は、映像エンコーダ２００の一例を示すブロック図であり、この映像エンコーダ２００は、図４に示されるシステム１００における映像エンコーダ１１４であってもよい。

映像エンコーダ２００は、本開示の技術のいずれか又は全部を実行するように構成されてもよい。図５の実施例において、映像エンコーダ２００は、複数の機能性モジュールを含む。本開示で説明されている技術は、映像エンコーダ２００の様々なモジュール間で共有されてもよい。いくつかの例では、処理装置は、本開示で説明されている技術のいずれか又はすべてを実行するように構成されてもよい。

映像エンコーダ２００の機能モジュールは、分割ユニット２０１、予測ユニット２０２、予測ユニット２０２を含んでもよく、予測ユニット２０２は、モード選択ユニット２０３、動き推定ユニット２０４、動き補償ユニット２０５、及びイントラ予測ユニット２０６、残差生成ユニット２０７、変換ユニット２０８、量子化ユニット２０９、逆量子化ユニット２１０、逆変換ユニット２１１、再構成ユニット２１２、バッファ２１３、及びエントロピー符号化ユニット２１４を含んでもよい。

他の例において、映像エンコーダ２００は、より多くの、より少ない、又は異なる機能コンポーネントを含んでもよい。一例において、予測ユニット２０２は、ＩＢＣ（ＩｎｔｒａＢｌｏｃｋＣｏｐｙ）ユニットを含んでもよい。ＩＢＣユニットは、少なくとも１つの参照ピクチャが現在の映像ブロックが位置するピクチャであるＩＢＣモードにおいて予測（ｐｒｅｄｉｃａｔｉｏｎ）を行うことができる。

さらに、動き推定ユニット２０４および動き補償ユニット２０５などのいくつかのモジュールは、高度に統合されてもよいが、説明のために、図５の例においては別個に表現されている。

分割ユニット２０１は、１つのピクチャを１つ以上の映像ブロックに分割することができる。映像エンコーダ２００及び映像デコーダ３００は、様々な映像ブロックサイズをサポートしてもよい。

モード選択ユニット２０３は、例えば、エラー結果に基づいて、イントラ又はインターのいずれかの符号化モードの１つを選択し、得られたイントラ又はインター符号化ブロックを、残差生成ユニット２０７に供給して残差ブロックデータを生成し、また再構成ユニット２１２に供給して参照ピクチャとして符号化ブロックを再構成してもよい。いくつかの例では、モード選択ユニット２０３は、インター予測信号及びイントラ予測信号に基づいて予測を行うイントラ及びインター組み合わせ予測（ＣＩＩＰ）モードを選択してもよい。また、モード選択ユニット２０３は、インター予測の場合、ブロックのために動きベクトルの解像度（例えば、サブピクセル又は整数ピクセル精度）を選択してもよい。

現在の映像ブロックに対してインター予測を実行するために、動き推定ユニット２０４は、バッファ２１３からの１つ以上の参照フレームと現在の映像ブロックとを比較することで、現在の映像ブロックのために動き情報を生成してもよい。動き補償ユニット２０５は、現在の映像ブロックに関連付けられたピクチャ以外のバッファ２１３からのピクチャの動き情報及び復号化サンプルに基づいて、現在の映像ブロックのために予測映像ブロックを判定してもよい。

動き推定ユニット２０４及び動き補償ユニット２０５は、例えば、現在の映像ブロックがＩスライスであるか、Ｐスライスであるか、又はＢスライスであるかに基づいて、現在の映像ブロックに対して異なる演算を実行することができる。

いくつかの例において、動き推定ユニット２０４は、現在の映像ブロックに対して単方向予測を実行し、動き推定ユニット２０４は、現在の映像ブロックに対して、リスト０又はリスト１の参照ピクチャを検索して、参照映像ブロックを求めることができる。そして、動き推定ユニット２０４は、リスト０又はリスト１における、参照映像ブロックと、現在の映像ブロックと参照映像ブロックとの空間変位を示す動きベクトルとを含む参照ピクチャを示す参照インデックスを生成してもよい。動き推定ユニット２０４は、参照インデックス、予測方向インジケータ、及び動きベクトルを、現在の映像ブロックの動き情報として出力する。動き補償ユニット２０５は、現在の映像ブロックの動き情報が示す参照映像ブロックに基づいて、現在のブロックの予測映像ブロックを生成してもよい。

他の例において、動き推定ユニット２０４は、現在の映像ブロックを双方向予測してもよく、動き推定ユニット２０４は、リスト０における参照ピクチャの中から現在の映像ブロックために参照映像ブロックを検索してもよく、また、リスト１における参照ピクチャの中から現在の映像ブロックのために別の参照映像ブロックを検索してもよい。次に、動き推定ユニット２０４は、参照映像ブロックを含むリスト０及びリスト１における参照ピクチャを示す参照インデックスと、参照映像ブロックと現在の映像ブロックとの空間変位を示す動きベクトルと、を生成してもよい。動き推定ユニット２０４は、現在の映像ブロックの参照インデックス及び動きベクトルを、現在の映像ブロックの動き情報として出力する。動き補償ユニット２０５は、現在の映像ブロックの動き情報が示す参照映像ブロックに基づいて、現在の映像ブロックの予測映像ブロックを生成する。

いくつかの例において、動き推定ユニット２０４は、デコーダの復号化処理のために、動き情報のフルセットを出力してもよい。

いくつかの例では、動き推定ユニット２０４は、現在の映像のために動き情報のフルセットを出力しなくてもよい。むしろ、動き推定ユニット２０４は、別の映像ブロックの動き情報を参照して、現在の映像ブロックの動き情報を信号通知してもよい。例えば、動き推定ユニット２０４は、現在の映像ブロックの動き情報が近傍の映像ブロックの動き情報に十分に類似していると判定してもよい。

一例において、動き推定ユニット２０４は、現在の映像ブロックに関連付けられた構文構造において、現在の映像ブロックが別の映像ブロックと同じ動き情報を有することを映像デコーダ３００に示す値を示してもよい。

別の例において、動き推定ユニット２０４は、現在の映像ブロックに関連付けられた構文構造において、別の映像ブロックと、動きベクトル差（ＭＶＤ）と、を識別してもよい。動きベクトルの差分は、現在の映像ブロックの動きベクトルと、示された映像ブロックの動きベクトルとの差分を示す。映像デコーダ３００は、指示された映像ブロックの動きベクトルと、動きベクトル差分と、を用いて、現在の映像ブロックの動きベクトルを判定してもよい。

上述したように、映像エンコーダ２００は、動きベクトルを予測的に信号通知してもよい。映像エンコーダ２００によって実施され得る予測信号通知技法の２つの例は、高度動きベクトル予測（ＡＭＶＰ）及びマージモード信号通知を含む。

イントラ予測ユニット２０６は、現在の映像ブロックに対してイントラ予測を行ってもよい。イントラ予測ユニット２０６が現在の映像ブロックをイントラ予測する場合、イントラ予測ユニット２０６は、同じピクチャ中の他の映像ブロックの復号化されたサンプルに基づいて、現在の映像ブロックのために予測データを生成してもよい。現在の映像ブロックのための予測データは、予測された映像ブロック及び様々な構文要素を含んでもよい。

残差生成ユニット２０７は、現在の映像ブロックから現在の映像ブロックの予測された映像ブロックを減算することによって（例えば、マイナス符号によって示されている）、現在の映像ブロックのために残差データを生成してもよい。現在の映像ブロックの残差データは、現在の映像ブロックにおけるサンプルの異なるサンプル成分に対応する残差映像ブロックを含んでもよい。

他の例において、例えば、スキップモードにおいて、現在の映像ブロックのための残差データがなくてもよく、残差生成ユニット２０７は、減算演算を実行しなくてもよい。

変換処理ユニット２０８は、現在の映像ブロックに関連付けられた残差映像ブロックに１つ以上の変換を適用することによって、現在の映像ブロックのために１つ以上の変換係数映像ブロックを生成してもよい。

変換処理ユニット２０８が現在の映像ブロックに関連付けられた変換係数映像ブロックを生成した後、量子化ユニット２０９は、現在の映像ブロックに関連付けられた１つ以上の量子化パラメータ（ＱＰ）値に基づいて、現在の映像ブロックに関連付けられた変換係数映像ブロックを量子化してもよい。

逆量子化ユニット２１０および逆変換ユニット２１１は、変換係数映像ブロックに逆量子化および逆変換をそれぞれ適用し、変換係数映像ブロックから残差映像ブロックを再構成してもよい。再構成ユニット２１２は、予測ユニット２０２が生成した１つ以上の予測映像ブロックから対応するサンプルに再構成された残差映像ブロックを加え、現在のブロックに関連付けられた再構成映像ブロックを生成し、バッファ２１３に記憶することができる。

再構成ユニット２１２が映像ブロックを再構成した後、映像ブロックにおける映像ブロッキングアーチファクトを縮小するために、ループフィルタリング動作を行ってもよい。

エントロピー符号化ユニット２１４は、映像エンコーダ２００の他の機能コンポーネントからデータを受信してもよい。エントロピー符号化ユニット２１４は、データを受信すると、１つ以上のエントロピー符号化演算を行い、エントロピー符号化データを生成し、エントロピー符号化データを含むビットストリームを出力してもよい。

図６は、映像デコーダ３００の一例を示すブロック図であり、この映像デコーダ３００は、図４に示すシステム１００における映像デコーダ１１４であってもよい。

映像デコーダ３００は、本開示の技術のいずれか又は全部を実行するように構成されてもよい。図６の実施例において、映像デコーダ３００は、複数の機能性モジュールを含む。本開示で説明されている技術は、映像デコーダ３００の様々なモジュール間で共有されてもよい。いくつかの例では、処理装置は、本開示で説明されている技術のいずれか又はすべてを実行するように構成されてもよい。

図６の実施例において、映像デコーダ３００は、エントロピー復号化ユニット３０１、動き補償ユニット３０２、イントラ予測ユニット３０３、逆量子化ユニット３０４、逆変換ユニット３０５、および再構成ユニット３０６、並びにバッファ３０７を含む。映像デコーダ３００は、いくつかの例では、映像エンコーダ２００（図５）に関して説明した符号化パスとほぼ逆の復号化パスを行ってもよい。

エントロピー復号化ユニット３０１は、符号化ビットストリームを取り出す。符号化ビットストリームは、エントロピー符号化された映像データ（例えば、映像データの符号化ブロック）を含んでもよい。エントロピー復号化ユニット３０１は、エントロピー符号化された映像データを復号化し、エントロピー復号化された映像データから、動き補償ユニット３０２は、動きベクトル、動きベクトル精度、参照ピクチャリストインデックス、及び他の動き情報を含む動き情報を判定してもよい。動き補償ユニット３０２は、例えば、ＡＭＶＰ及びマージモードを実行することで、このような情報を判定してもよい。

動き補償ユニット３０２は、動き補償されたブロックを生成してもよく、場合によっては、補間フィルタに基づいて補間を実行する。構文要素には、サブピクセルの精度で使用される補間フィルタのための識別子が含まれてもよい。

動き補償ユニット３０２は、映像ブロックの符号化中に映像エンコーダ２００によって使用されるような補間フィルタを使用して、参照ブロックのサブ整数画素のための補間値を計算してもよい。動き補償ユニット３０２は、受信した構文情報に基づいて、映像エンコーダ２００が使用する補間フィルタを判定し、この補間フィルタを使用して予測ブロックを生成してもよい。

動き補償ユニット３０２は、構文情報の一部を使用して、符号化された映像シーケンスのフレーム（複数可）および／またはスライス（複数可）を符号化するために使用されるブロックのサイズ、符号化された映像シーケンスのピクチャの各マクロブロックがどのように分割されるかを記述する分割情報、各分割がどのように符号化されるかを示すモード、インター符号化ブロック毎の１つ以上の参照フレーム（および参照フレームリスト）、および符号化された映像シーケンスを復号化するための他の情報を判定してもよい。

イントラ予測ユニット３０３は、例えば、ビットストリームにおいて受信したイントラ予測モードを使用して、空間的に隣接するブロックから予測ブロックを形成してもよい。逆量子化ユニット３０３は、ビットストリームにおいて提供され、エントロピー復号化ユニット３０１によって復号化された量子化された映像ブロック係数を逆量子化、すなわち、非量子化する。逆変換ユニット３０３は、逆変換を適用する。

再構成ユニット３０６は、残差ブロックと、動き補償ユニット２０２又はイントラ予測ユニット３０３によって生成された対応する予測ブロックとを合計し、復号化されたブロックを形成してもよい。所望であれば、ブロックアーチファクトを除去するために、復号化されたブロックをフィルタリングするために非ブロック化フィルタを適用してもよい。復号化された映像ブロックは、バッファ３０７に記憶され、バッファ３０７は、後続の動き補償／イントラ予測のために参照ブロックを提供し、且つ表示デバイスに表示するために復号化された映像を生成する。

次に、いくつかの実施形態において好適な解決策を列挙する。

以下の解決策は、前章（例えば、項目１、２）で論じた技術の例示的な実施形態を示す。

１．視覚メディア処理方法（例えば、図３に示される方法７００）は、視覚メディアデータと、この視覚メディアデータのビットストリーム表現を記憶するファイルとを、フォーマット規則に従って変換を行うこと（７０２）を含み、前記ファイルは、すべての動作点のファイルレベル情報を含み、前記ファイルレベル情報は、それぞれの動作点に必要なトラックの情報を含む。

２．前記フォーマット規則は、トラックが、対応する動作点に必要とされないレイヤおよびサブレイヤを含むことを許可する、解決策１に記載の方法。

３．動作点ごとに必要なトラックの前記情報が１つのｖｏｐｉサンプルグループエントリに含まれる、解決策１～２のいずれかに記載の方法。

以下の解決策は、前章（例えば、項目３）で論じた技術の例示的な実施形態を示す。

４．視覚メディアデータと、この視覚メディアデータのビットストリーム表現を記憶するファイルとを、フォーマット規則に従って変換を行うことを含み、フォーマット規則は、すべてのレイヤが独立している場合、ｖｏｐｉサンプルグループエントリからレイヤ依存情報をスキップすることを指定する、視覚メディア処理方法。

以下の解決策は、前章（例えば、項目５，６）で論じた技術の例示的な実施形態を示す。

５．視覚メディアデータと、この視覚メディアデータのビットストリーム表現を記憶するファイルとを、フォーマット規則に従って変換を行うことを含み、フォーマット規則は、ビットストリーム表現における動作点エンティティグループ（ｏｐｅｇ）の取り扱いに関連付けられた規則を規定する、視覚メディア処理方法。

６．前記フォーマット規則は、ｏｐｅｇが存在する場合、ファイルにおける各要求されたトラックは、ｏｐｅｇにおける各動作点に対応する映像符号化レイヤネットワーク抽象化層（ＶＣＬＮＡＬ）の正確なセットを提供することを規定する、解決策５に記載の方法。

７．前記フォーマット規則は、前記トラックに非ＶＣＬユニットを含めることを許可する、解決策６に記載の方法。

以下の解決策は、前章（例えば、項目４）で論じた技術の例示的な実施形態を示す。

８．視覚メディアデータと、この視覚メディアデータのビットストリーム表現を記憶するファイルとを、規則に従って変換を行うことを含み、前記変換は、１つの規則に従って冗長性アクセスユニットデリミタネットワークアクセスユニット（ＡＵＤＮＡＬ）が１つの規則に従って処理される複数のトラックからの前記ビットストリーム表現の黙示的再構成を実行することを含む、視覚メディア処理方法。

９．前記規則は、ＡＵＤＮＡＬユニットを除去することを指定する、解決策８に記載の方法。

１０．前記規則は、ＡＵＤＮＡＬユニットを書き換えることを指定する、解決策８に記載の方法。

１１．前記規則は、１つのアクセスユニットのための異なるトラックからの複数のピクチャユニットのうちの少なくとも１つがＡＵＤＮＡＬユニットを有する場合、前記第１のピクチャユニットが別のＡＵＤＮＡＬユニットを有することを規定する、解決策８～１０のいずれかに記載の方法。

１２．前記規則は、１つのアクセスユニットのための異なるトラックからの複数のピクチャユニットがＡＵＤＮＡＬユニットを有する場合、１つの第１のピクチャユニットにおける１つのＡＵＤＮＡＬユニットのみが、復号化中に再構成されたアクセスユニットに保持されることを規定する、解決策８～１０のいずれかに記載の方法。

１３．前記変換は、前記視覚メディアデータのビットストリーム表現を生成することと、前記フォーマット規則に従って、前記ファイルへ前記ビットストリーム表現を記憶することと、を含む、解決策１～１２のいずれかに記載の方法。

１４．前記変換は、前記フォーマット規則に従って前記ファイルを構文解析し、前記視覚メディアデータを復元することを含む、解決策１～１２のいずれかに記載の方法。

１５．解決策１～１４の１つ以上に記載の方法を実装するように構成された処理装置を備える、映像復号化装置。

１６．解決策１～１４の１つ以上に記載の方法を実装するように構成された処理装置を備える、映像符号化装置。

１７．コンピュータコードが記憶されたコンピュータプログラム製品であって、前記コードは、処理装置により実行されると、前記処理装置に、解決策１～１４のいずれかに記載の方法を実装させるコンピュータプログラム製品。

１８．解決策１～１４のいずれかに従って生成されたファイルフォーマットに準拠したビットストリーム表現を備えるコンピュータ可読媒体。

１９．本明細書に記載の方法、装置またはシステム。

上記解決策のいくつかの好ましい実施形態は、以下を含んでもよい（例えば、項目１、２）。

いくつかの実施形態において、視覚メディアの処理方法（例えば、図９Ａに示される方法９１０）は、動作点情報を含む特定のタイプのサンプルグループを含む複数のトラックから１つ以上のトラックを識別する構文要素をファイルレベル情報が含むことを規定するフォーマット規則に従って、視覚メディアデータと、この視覚メディアデータのビットストリームを複数のトラックに記憶する視覚メディアファイルと、の変換を行うこと（９１２）を含む。

上記実施形態において、前記フォーマット規則は、前記視覚メディアファイルが、前記視覚メディアファイルに提供されるすべての動作点のファイルレベル情報を含むことを規定し、前記フォーマット規則は、前記ファイルレベル情報が、動作点ごとに前記視覚メディアファイルにおける対応するトラックの情報を含むことをさらに規定する。

いくつかの実施形態において、前記フォーマット規則は特定の動作点に必要なトラックが特定の動作点に必要でないレイヤおよびサブレイヤを含むことを許可する。

いくつかの実施形態において、前記構文要素は、ファイルレベルコンテナを含むボックスを含むことができる。

いくつかの実施形態において、フォーマット規則はファイルレベル情報がファイルレベルボックスに含まれることを規定する。

いくつかの実施形態において、フォーマット規則は、ファイルレベル情報がムービーレベルボックスに含まれることを規定する。

いくつかの実施形態において、前記フォーマット規則は、前記ファイルレベル情報が別のトラックレベルボックスまたは別のファイルレベルボックスにおいて識別されるトラックレベルボックスに含まれることを規定する。

いくつかの実施形態において、前記フォーマット規則は、前記特定のタイプのサンプルグループが各動作点に必要な軌跡に関する情報を含むことをさらに規定する。

いくつかの実施形態において、前記フォーマット規則は、動作点ごとに必要なトラックに関する情報を、ビットストリームにおける複数のレイヤに関するレイヤ情報を含む別の特定のタイプのサンプルグループから削除することをさらに規定する。

いくつかの実施形態において、前記視覚メディアデータは汎用映像符号化（ＶＶＣ）方式で処理され、前記複数のトラックはＶＶＣトラックであることができる。

いくつかの好ましい実施形態において、次のもの（例えば、項目３）を含んでもよい。

いくつかの実施形態において、視覚メディア処理方法（例えば、図９Ｂに記載の方法９２０）は、フォーマット規則に従って視覚メディアデータと、視覚メディアデータのビットストリームを記憶する視覚メディアファイルと、の変換を行うこと（９２２）を含む。視覚メディアファイルは、１つ以上の映像レイヤを含む１つ以上のトラックを記憶する。このフォーマット規則は、レイヤ依存性情報を示す第１の構文要素のセットが視覚メディアファイルに記憶されるかどうかを、視覚メディアファイルにおけるすべてのレイヤが独立していることを示す第２の構文要素が値１を有するかどうかに依存することを規定する。

いくつかの実施形態において、前記第１の構文要素セットは、前記視覚メディアファイルに記憶された１つ以上の動作点に関する情報を示すサンプルグループに記憶される。

いくつかの実施形態において、前記フォーマット規則は、値が１である第２の構文要素に応答して、前記第１の構文要素のセットを前記視覚メディアファイルから削除することを規定する。

上述した解決策のいくつかの好適な実施形態は、以下の態様（例えば、項目４）を含んでもよい。

いくつかの実施形態において、視覚メディアデータを処理する方法（例えば、図９Ｃに記載の方法９３０）は、複数のトラックからビットストリームを黙示的に再構成する間に、複数のトラックに記憶された冗長アクセスユニットデリミタネットワークアクセス層（ＡＵＤＮＡＬ）ユニットを処理する方法を規定するフォーマット規則に従って、複数のトラックにおける視覚メディアデータのビットストリームを記憶する視覚メディアファイルと、視覚メディアデータと、の変換を行うこと（９３２）を含む。

いくつかの実施形態において、前記フォーマット規則は、前記冗長ＡＵＤＮＡＬユニットを前記黙示的再構成中に除去することを規定する。

いくつかの実施形態において、前記フォーマット規則は、前記冗長ＡＵＤＮＡＬユニットを前記黙示的再構成中に書き換えることを規定する。

いくつかの実施形態において、前記フォーマット規則は、特定のアクセスユニットが、瞬時ランダムアクセスポイントタイプと異なる特定のタイプを有すること、或いは、複数のトラックの複数のピクチャから緩やかな復号化更新タイプを生成すること、を含む黙示的な再構成に応答して、前記特定のアクセスユニットに含まれた特定の冗長ＡＵＤＮＡＬの構文フィールドを０に書き換え、前記特定の冗長ＡＵＤＮＡＬが前記瞬時ランダムアクセスポイントまたは緩やかな復号化更新タイプを表現していないことを示すことを規定する。

いくつかの実施形態において、前記フォーマット規則は、第１のピクチャユニット（ＰＵ）のＡＵＤＮＡＬユニットにおける構文要素の値を０に書き換え、異なるトラックの第２のＰＵがイントラランダムアクセスポイントピクチャまたは緩やかな復号化更新ピクチャでないピクチャを含む場合には、特定のＡＵＤＮＡＬが瞬時ランダムアクセスポイントおよび緩やかな復号化更新タイプのいずれも表していないことをさらに規定する。

いくつかの実施形態において、前記フォーマット規則は、第１のＡＵＤＮＡＬユニットを有する１つのアクセスユニットにおいて、異なるトラックからの複数のピクチャユニットのうち少なくとも１つに応答して、前記黙示的再構成から生成された前記アクセスユニットの第１のピクチャユニットが第２のＡＵＤＮＡＬユニットを含むことを規定する。

いくつかの実施形態において、前記フォーマット規則は、１つのアクセスユニットに対して異なるトラックからの複数のピクチャユニットがＡＵＤＮＡＬユニットを含むことに応答して、第１のピクチャユニットに対応する１つのＡＵＤＮＡＬユニットが前記黙示的再構成から生成されたアクセスユニットに含まれることを規定する。

上述した解決策のいくつかの好適な実施形態は、以下の態様（例えば、項目７）を含んでもよい。

いくつかの実施形態において、視覚メディア処理方法（例えば、図９Ｄに記載の方法９４０）は、フォーマット規則に従って視覚メディアデータと、視覚メディアデータのビットストリームを記憶する視覚メディアファイルと、の変換を行うこと（９４２）を含む。視覚メディアファイルは、１つ以上の映像レイヤを含む１つ以上のトラックを記憶する。この視覚メディアファイルは、動作点（ＯＰ）の情報を含み、このフォーマット規則は、サンプルグループエントリおよびこのＯＰのグループボックスに構文要素が含まれているかどうか、またはどのように含まれているかに応答して、単一の映像レイヤを含むＯＰに応答するかどうかを規定し、この構文要素は、このＯＰの出力レイヤセットへのインデックスを示すように構成される。

いくつかの実施形態において、前記フォーマット規則は、単一の映像レイヤを含むＯＰに応答して、前記構文要素を前記サンプルグループエントリおよび前記グループボックスから省略することを規定する。

いくつかの実施形態において、前記フォーマット規則は、２つ以上の映像レイヤを含むＯＰに応答して、前記２つ以上の映像レイヤを識別する情報を示した後に前記構文要素を含むことを規定する。

いくつかの実施形態において、サンプルグループエントリおよびグループボックスから構文要素を省略することに呼応して、ＯＰのための出力レイヤセットへのインデックスは、単一の映像レイヤを含む出力レイヤセットのインデックスと等しいと推測される。

上述した解決策のいくつかの好適な実施形態は、以下の態様（例えば、項目８）を含んでもよい。

いくつかの実施形態において、視覚メディア処理方法（例えば、方法９５０が図９Ｅに示される）は、視覚メディアデータと、視覚メディアデータのビットストリームを記憶する視覚メディアファイルとを、フォーマット規則に従って変換を行うこと（９５２）を含み、前記視覚メディアファイルは、特定のタイプのエンティティグループに属する複数のトラックを記憶し、前記フォーマット規則は、グループ識別子に対する特定のタイプへのトラック参照を有する複数のトラックに応答して、複数のトラックが、（Ａ）特定のタイプのサンプルグループを担持することを省略するか、または（Ｂ）特定のタイプのサンプルグループの情報が、特定のタイプのエンティティグループの情報と整合するように、特定のタイプのサンプルグループを担持するか、を規定する。

いくつかの実施形態において、複数のトラックはビットストリームを表す。

いくつかの実施形態において、特定のタイプのエンティティグループは、複数のトラックが１つの動作点に正確に対応することを示す。

４いくつかの実施形態において、特定のタイプのサンプルグループは、複数のトラックのうち、どのトラックが動作点に対応するかに関する情報を含む。

上記に列挙された解決策のいくつかの好適な実施形態は、以下の態様（例えば、項目５、６、９）を組み込んでもよい。

いくつかの実施形態において、視覚メディア処理方法（例えば、図９Ｆに示される方法９６０）は、視覚メディアデータと、この視覚メディアデータのビットストリームを記憶する視覚メディアファイルと、の変換を行うこと（９６２）を含み、この視覚メディアファイルは、複数のトラックを含み、この視覚メディアファイルは、この視覚メディアファイルにおける動作点に関する情報を搬送するエンティティグループと、各動作点を搬送するトラックと、を記憶し、フォーマット規則は、各動作点の情報を担持するエンティティグループまたはサンプルグループを記憶する視覚メディアファイルに応答して、視覚メディアファイルの特性を指定する。

いくつかの実施形態において、前記フォーマット規則では、エンティティグループが、動作点ごとに映像符号化レイヤ（ＶＣＬ）ネットワーク抽象化層（ＮＡＬ）ユニットの正確なセットを伝送するトラックのセットを提供することを規定する。

いくつかの実施形態において、前記フォーマット規則は、前記ビットストリームを再構成するとき、前記トラックのセットに含まれかつ冗長である非ＶＣＬＮＡＬユニットを除去することをさらに規定する。

４いくつかの実施形態において、前記フォーマット規則は、前記エンティティグループが動作点ごとに１つ以上のレイヤおよび１つ以上のサブレイヤの正確なセットを担持する１つのトラックのセットを提供することを規定する。

いくつかの実施形態において、前記フォーマット規則は、前記ビットストリームを再構成するとき、トラックのセットに含まれかつ冗長である非映像符号化レイヤ（ＶＣＬ）ネットワーク抽象化層（ＮＡＬ）ユニットを除去することをさらに規定する。

いくつかの実施形態において、前記フォーマット規則では、複数のトラックからビットストリームを再構成するプロセスで、冗長なビットストリームの終端（ＥＯＢ）またはストリームの終端（ＥＯＳ）のネットワーク抽象化層（ＮＡＬ）ユニットを削除することを規定する。

いくつかの実施形態において、前記フォーマット規則は、複数のトラックからビットストリームを再構成するプロセスにおいて、アクセス区切りユニット（ＡＵＤ）を削除するか或いは書き換えることを規定する。

いくつかの実施形態において、前記フォーマット規則は、前記エンティティグループに関連付けられたエンティティグループボックスのコンテナが、予め指定されたファイルレベルボックスを除き、任意のレベルの視覚メディアファイルに記憶することが許可されない特性を規定する。

いくつかの実施形態において、前記予め指定されたファイルレベルボックスはファイルレベルのメタデータボックスに含まれるグループリストボックスである。

いくつかの実施形態において、前記フォーマット規則は、前記ビットストリームが前記視覚メディアファイルの１つのトラックに記憶されることに応答して、前記ビットストリームのために前記エンティティグループおよび／または前記サンプルグループのいずれか一方を記憶することが許可されないことを規定する。

上述したいくつかの実施形態において、この変換は、フォーマット規則に従ってビットストリームを視覚メディアファイルに記憶することを含む。

上述したいくつかの実施形態において、この変換は、フォーマット規則に従って視覚メディアファイルを構文解析し、ビットストリームを再構成することを含む。

いくつかの実施形態において、視覚メディアファイル構文解析装置は、上記した実施形態に開示された方法を実装するように構成された処理装置を含んでもよい。

いくつかの実施形態において、視覚メディアファイル書き込み装置は、上記した実施形態に開示された方法を実装するように構成された処理装置を含む。

いくつかの実施形態は、コンピュータコードが記憶されたコンピュータプログラム製品を含んでもよい。コードは、処理装置によって実行されると、処理装置に、上述した実施形態のいずれかに記載の方法を実装させる。

いくつかの実施形態では、上述の方法のいずれかに従って生成されたファイルフォーマットに準拠した視覚メディアファイルが記憶されたコンピュータ可読媒体を構成してもよい。

本明細書に記載の解決策において、エンコーダは、フォーマット規則に従って符号化表現を生成することで、フォーマット規則に準拠することができる。本明細書に記載の解決策において、デコーダは、フォーマット規則に従って、構文要素の有無を知りつつ、符号化表現における構文要素を構文解析することで、復号された映像を生成するために、このフォーマット規則を使用してもよい。

本明細書では、「映像処理」という用語は、映像符号化、映像復号化、映像圧縮、または映像展開を指すことができる。例えば、映像圧縮アルゴリズムは、映像の画素表現から対応するビットストリーム表現への変換、またはその逆の変換中に適用されてもよい。現在の映像ブロックのビットストリーム表現は、例えば、構文によって規定されるように、ビットストリーム内の同じ場所または異なる場所に拡散されるビットに対応していてもよい。例えば、１つのマクロブロックは、変換および符号化された誤り残差値の観点から、且つビットストリームにおけるヘッダおよび他のフィールドにおけるビットを使用して符号化されてもよい。さらに、変換中、デコーダは、上記解決策で説明されているように、判定に基づいて、いくつかのフィールドが存在しても存在しなくてもよいという知識を持って、ビットストリームを構文解析してもよい。同様に、エンコーダは、特定のシンタックスフィールドが含まれるべきであるか、または含まれないべきであるかを判定し、構文フィールドを符号化表現に含めるか、または符号化表現から除外することによって、それに応じて符号化表現を生成してもよい。用語「視覚メディア」は、映像または画像を指すことができ、用語「視覚メディア処理」は、映像処理または画像処理を指すことができる。

本明細書に記載された開示された、およびその他の解決策、実施例、実施形態、モジュール、および機能動作の実装形態は、本明細書に開示された構造およびその構造的等価物を含め、デジタル電子回路、またはコンピュータソフトウェア、ファームウェア、若しくはハードウェアで実施されてもよく、またはそれらの１つ以上の組み合わせで実施してもよい。開示された、およびその他の実施形態は、１つ以上のコンピュータプログラム製品、すなわち、データ処理装置によって実装されるため、またはデータ処理装置の動作を制御するために、コンピュータ可読媒体上に符号化されたコンピュータプログラム命令の１つ以上のモジュールとして実施することができる。このコンピュータ可読媒体は、機械可読記憶デバイス、機械可読記憶基板、メモリデバイス、機械可読伝播信号をもたらす物質の組成物、またはこれらの１つ以上の組み合わせであってもよい。「データ処理装置」という用語は、例えば、プログラマブル処理装置、コンピュータ、または複数の処理装置、若しくはコンピュータを含む、データを処理するためのすべての装置、デバイス、および機械を含む。この装置は、ハードウェアの他に、当該コンピュータプログラムの実行環境を作るコード、例えば、処理装置ファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはこれらの１つ以上の組み合わせを構成するコードを含むことができる。伝播信号は、人工的に生成した信号、例えば、機械で生成した電気、光、または電磁信号であり、適切な受信装置に送信するための情報を符号化するために生成される。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとも呼ばれる）は、コンパイルされた言語または解釈された言語を含む任意の形式のプログラミング言語で記述することができ、また、それは、スタンドアロンプログラムとして、またはコンピューティング環境で使用するのに適したモジュール、成分、サブルーチン、または他のユニットとして含む任意の形式で展開することができる。コンピュータプログラムは、必ずしもファイルシステムにおけるファイルに対応するとは限らない。プログラムは、他のプログラムまたはデータを保持するファイルの一部（例えば、マークアップ言語文書に格納された１つ以上のスクリプト）に記録されていてもよいし、当該プログラム専用の単一のファイルに記憶されていてもよいし、複数の調整ファイル（例えば、１つ以上のモジュール、サブプログラム、またはコードの一部を格納するファイル）に記憶されていてもよい。１つのコンピュータプログラムを、１つのサイトに位置する１つのコンピュータ、または複数のサイトに分散され通信ネットワークによって相互接続される複数のコンピュータで実行させるように展開することも可能である。

本明細書に記載された処理およびロジックフローは、入力データ上で動作し、出力を生成することによって機能を実行するための１つ以上のコンピュータプログラムを実行する１つ以上のプログラマブル処理装置によって行うことができる。処理およびロジックフローはまた、特定用途のロジック回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって行うことができ、装置はまた、特別目的のロジック回路として実装することができる。

コンピュータプログラムの実行に適した処理装置は、例えば、汎用および専用マイクロ処理装置の両方、並びに任意の種類のデジタルコンピュータの任意の１つ以上の処理装置を含む。一般的に、処理装置は、リードオンリーメモリまたはランダムアクセスメモリまたはその両方から命令およびデータを受信する。コンピュータの本質的な要素は、命令を実行するための処理装置と、命令およびデータを記憶するための１つ以上のメモリデバイスとである。一般的に、コンピュータは、データを記憶するための１つ以上の大容量記憶デバイス、例えば、磁気、光磁気ディスク、または光ディスクを含んでもよく、またはこれらの大容量記憶デバイスからデータを受信するか、またはこれらにデータを転送するように動作可能に結合されてもよい。しかしながら、コンピュータは、このようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、あらゆる形式の不揮発性メモリ、媒体、およびメモリデバイスを含み、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュ記憶装置、磁気ディスク、例えば内部ハードディスクまたはリムーバブルディスク、光磁気ディスク、およびＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスク等の半導体記憶装置を含む。処理装置およびメモリは、特定用途のロジック回路によって補完されてもよく、または特定用途のロジック回路に組み込まれてもよい。

本特許明細書は多くの詳細を含むが、これらは、任意の主題の範囲または特許請求の範囲を限定するものと解釈されるべきではなく、むしろ、特定の技術の特定の実施形態に特有であり得る特徴の説明と解釈されるべきである。本特許文献において別個の実施形態のコンテキストで説明されている特定の特徴は、１つの例において組み合わせて実装してもよい。逆に、１つの例のコンテキストで説明された様々な特徴は、複数の実施形態において別個にまたは任意の適切なサブコンビネーションで実装してもよい。さらに、特徴は、特定の組み合わせで作用するものとして上記に記載され、最初にそのように主張されていてもよいが、主張された組み合わせからの１つ以上の特徴は、場合によっては、組み合わせから抜粋されることができ、主張された組み合わせは、サブコンビネーションまたはサブコンビネーションのバリエーションに向けられてもよい。

同様に、動作は図面において特定の順番で示されているが、これは、所望の結果を達成するために、このような動作が示された特定の順番でまたは連続した順番で行われること、または示された全ての動作が行われることを必要とするものと理解されるべきではない。また、本特許明細書に記載されている例における様々なシステムの構成要素の分離は、全ての実施形態においてこのような分離を必要とするものと理解されるべきではない。

いくつかの実装形態および例のみが記載されており、この特許文献に記載され図示されているコンテンツに基づいて、他の実施形態、拡張および変形が可能である。

Claims

視覚メディア処理方法であって、
フォーマット規則に従って、視覚メディアデータと、この視覚メディアデータのビットストリームを複数のトラックに記憶する視覚メディアファイルと、の変換を行うことを含み、
前記フォーマット規則は、ファイルレベル情報が、動作点情報を含む特定のタイプのサンプルグループを含む前記複数のトラックから１つ以上のトラックを識別する構文要素を含むことを規定する、
方法。
前記フォーマット規則は、前記視覚メディアファイルが、前記視覚メディアファイルに提供されるすべての動作点のファイルレベル情報を含むことを規定し、
前記フォーマット規則は、前記ファイルレベル情報が、動作点ごとに前記視覚メディアファイルにおける対応するトラックの情報を含むことをさらに規定する、
請求項１に記載の方法。
前記フォーマット規則は、特定の動作点に必要なトラックが前記特定の動作点に必要でないレイヤ及びサブレイヤを含むことを許可する、
請求項２に記載の方法。
前記構文要素は、ファイルレベルコンテナを含むボックスを備える、
請求項１～３のいずれか１項に記載の方法。
前記フォーマット規則は、前記ファイルレベル情報がファイルレベルボックスに含まれることを規定する、
請求項１～４のいずれか１項に記載の方法。
前記フォーマット規則は、前記ファイルレベル情報がムービーレベルボックスに含まれることを規定する、
請求項１～５のいずれか１項に記載の方法。
前記フォーマット規則は、前記ファイルレベル情報が別のトラックレベルボックス又は別のファイルレベルボックスにおいて識別されるトラックレベルボックスに含まれることを規定する、
請求項１～６のいずれか１項に記載の方法。
前記フォーマット規則は、前記特定のタイプのサンプルグループが、動作点ごとに必要な軌跡に関する情報を含むことをさらに規定する、
請求項３～７のいずれか１項に記載の方法。
前記フォーマット規則は、動作点ごとに必要な軌跡に関する情報が、前記ビットストリームにおける複数のレイヤに関するレイヤ情報を含む別の特定のタイプのサンプルグループから削除されることをさらに規定する、
請求項３～８のいずれか１項に記載の方法。
前記視覚メディアデータは、汎用映像符号化（ＶＶＣ）によって処理され、
前記複数のトラックは、ＶＶＣトラックである、
請求項１～９のいずれか１項に記載の方法。
前記変換は、前記視覚メディアファイルを生成することと、前記フォーマット規則に従って、前記ビットストリームを前記視覚メディアファイルに記憶することと、を含む、
請求項１～１０のいずれか１つに記載の方法。
前記変換は、前記フォーマット規則に従って前記視覚メディアファイルを構文解析し、前記ビットストリームを再構成することを含む、
請求項１～１０のいずれか１項に記載の方法。
請求項１～１２のいずれか１項以上に記載の方法を実装するように構成された処理装置を備える、視覚メディア処理装置。
処理装置が実行可能なコードが記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コードは、前記処理装置に、請求項１～１２のいずれか１項以上に記載の方法を実装させる、非一時的なコンピュータ可読記憶媒体。