JP2023520326A

JP2023520326A - エンコーダ、デコーダ、および対応する方法

Info

Publication number: JP2023520326A
Application number: JP2022557698A
Authority: JP
Inventors: ワン、ビャオ; エセンリク、セミ; アレクサンドロヴナアルシナ、エレナ; メハーコトラ、アナンド; ガオ、ハン
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2020-03-24
Filing date: 2021-03-24
Publication date: 2023-05-17
Also published as: MX2022011943A; CA3173179A1; AU2021244737A1; BR112022019219A2; EP4118834A1; US20230068266A1; CN115349260A; KR20220156069A; EP4118834A4; WO2021190525A1; IL296780A; CL2022002570A1

Abstract

デコーディングデバイスによって実装されるビデオまたは画像のビットストリームのデコーディング方法であって、上記ビットストリームは、ビデオシーケンスに適用されるシンタックス要素を含む現在のシーケンスパラメータセット（ＳＰＳ）を含み、上記方法は、現在のＳＰＳを参照する各符号化レイヤビデオシーケンスに存在することが許される時間的サブレイヤの最大数を決定するために用いられる第１のシンタックス要素を取得する段階であって、上記第１のシンタックス要素の値が０から第１の値の範囲にある段階と、上記第１の値が、第２のシンタックス要素が上記ＳＰＳによって参照される場合に、上記ビデオパラメータセットを参照する各符号化ビデオシーケンスにおいてレイヤに存在することを許される時間的サブレイヤの最大数を決定するために使用される第２のシンタックス要素の値である、段階と、上記第１のシンタックス要素の値に基づいて、上記ビットストリームをデコーディングする段階と、を含む。

Description

［関連出願の相互参照］
本特許出願は、２０２０年３月２４日に出願された国際特許出願ＰＣＴ／ＥＰ２０２０／０５８２０８の優先権を主張する。前述の特許出願の開示は、その全体が参照により本明細書に組み込まれる。

本願の実施形態は、一般的に、画像処理の分野に関し、より具体的には、ビデオコーディングに関する。

ビデオコーディング（ビデオエンコーディングおよびデコーディング）は、例えば、放送デジタルＴＶ、インターネットおよびモバイルネットワークを介したビデオ送信、またはビデオチャット、ビデオ会議、ＤＶＤおよびブルーレイディスク、ビデオコンテンツの取得および編集システム、セキュリティアプリケーションのカムコーダー等のリアルタイム会話アプリケーションといった、広範なデジタルビデオアプリケーションで使用される。

比較的短いビデオを描画するのであってもなお、必要とされるビデオデータの量は、実質的にかなりのものであり得、その結果、限定的な帯域幅容量を有する通信ネットワークを介してデータがストリームされるかまたは別の形で通信されることになる場合に困難が生じる場合がある。したがって、ビデオデータは一般的に、現代の遠隔通信ネットワークを介して通信される前に圧縮される。ビデオのサイズは、メモリリソースが限定的である場合があるので、ビデオがストレージデバイス上に保存される場合にも問題となり得る。ビデオ圧縮デバイスは、しばしば、ソースにおけるソフトウェアおよび／またはハードウェアを用いて、送信または保存の前にビデオデータをコードすることにより、デジタルビデオイメージを表現するのに必要なデータの量を低減させる。その後、圧縮データは、デスティネーションにおいて、ビデオデータをデコードするビデオ圧縮解除デバイスによって受信される。限定的なネットワークリソースおよびますます増加する高ビデオ品質の需要に鑑みて、画質をほとんどまたは全く犠牲にせずに圧縮比を改善する、改善された圧縮および解凍技術が望まれている。

本願の実施形態は、独立請求項によるエンコーディングおよびデコーディングのための装置および方法を提供する。

前述の目的および他の目的が、独立請求項の主題によって達成される。従属請求項、明細書および図からはさらなる実施形態が明らかになる。

第１の態様によれば、本発明は、デコーディングデバイスによって実装されるビデオまたは画像のビットストリームのデコーディング方法に関し、ビットストリームは、ビデオシーケンスに適用されるシンタックス要素を含む現在のシーケンスパラメータセット（ＳＰＳ）を含み、この方法は、現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）に存在することが許される時間的サブレイヤの最大数を決定するために使用される第１のシンタックス要素（例えば、ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１）（の値）を取得する段階であって、第１のシンタックス要素の値が０から第１の値の範囲であり、第１の値が、第２のシンタックス要素がＳＰＳによって参照される場合に、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）内のレイヤに存在することが許される時間的サブレイヤの最大数を決定するために使用される第２のシンタックス要素（例えば、ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１）の値である段階と、第１のシンタックス要素の値に基づいてビットストリームをデコーディングする段階と、を含む。

ＳＰＳによって第２のシンタックス要素が参照される条件（第１のシンタックス要素の範囲、すなわち第１の値が依存する）は、第２のシンタックス要素がビットストリームに存在することを含んでもよい。換言すれば、第２のシンタックス要素がＳＰＳによって参照されないことは、「第２のシンタックス要素がビットストリームに存在しないこと」を含んでもよい。

特に、ＳＰＳによって第２のシンタックス要素が参照される場合にのみ、第１のシンタックス要素の値が０から第１の値の範囲にあることを保持することができる。

実施態様によれば、第１の値は、特に、第２のシンタックス要素がＳＰＳによって参照されない場合にのみ、予め設定された値（例えば、６）である。

実施態様によれば、第２のシンタックス要素は、ＶＰＳにある。

ＶＰＳはオプションのパラメータセットである。例えば、単層ビットストリームの場合、ビットストリーム中にＶＰＳが存在しないか、または参照されない（その結果、第２のシンタックス要素がＳＰＳによって参照されることがあり得ない）場合がある。したがって、少なくとも第２のシンタックス要素がＳＰＳによって参照される場合、単層ビットストリームについて第１のシンタックス要素の範囲を決定するために第２のシンタックス要素を用いることはビデオコーディングの実装を保証する。特に、現在のＳＰＳを参照する各ＣＬＶＳに存在することが許される時間的サブレイヤの最大数は、ビットストリームにＶＰＳが存在するかどうかにかかわらず、十分に定義される。

実施態様によれば、ビットストリームをデコーディングすることは、第１のシンタックス要素の値に基づいてデコーディング能力情報を取得することと、デコーディング能力情報（例えばｄｐｂ＿ｐａｒａｍｅｔｅｒｓ）に基づいてビットストリームをデコーディングすることと、を含んでもよい。

実施態様によれば、デコーディング能力情報は、ＤＰＢシンタックス要素を含み、デコーディング能力情報に基づいてビットストリームをデコーディングすることは、ＤＰＢシンタックス要素の値に基づいてＤＰＢを構成することを含み、方法は、ＤＰＢを用いてビットストリームをデコーディングしてビデオシーケンスを再構築することをさらに含んでもよい。

実施態様によれば、デコーディング能力情報は、ＤＰＢシンタックス要素を含み、デコーディング能力情報に基づいてビットストリームをデコーディングすることは、使用されるＤＰＢが、ビデオシーケンスを再構築するためにＤＰＢシンタックス要素の値によって指定される要件を満たすことを決定することに基づいて、ビットストリームをデコーディングすることを含んでもよい。

実施態様によれば、第１のシンタックス要素は、ＳＰＳにある。

第２の態様によれば、本発明は、エンコーディングデバイスによって実装されるビデオまたは画像のビットストリームのエンコーディング方法に関し、ビットストリームは、ビデオシーケンスに適用されるシンタックス要素を含む現在のシーケンスパラメータセット（ＳＰＳ）を含み、この方法は、第２のシンタックス要素がＳＰＳによって参照されるかどうかを決定する段階であって、第２のシンタックス要素（例えば、ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１）は、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）内のレイヤに存在することが許される時間的サブレイヤの最大数を決定するために使用される段階と、現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）において存在することが許される時間的サブレイヤの最大数を決定するために使用される第１のシンタックス要素の値を、第１のシンタックス要素の範囲に基づいて決定する段階であって、この範囲は０から第１の値であり、第１の値は第２のシンタックス要素がＳＰＳによって参照されると決定した場合の第２のシンタックス要素の値である段階と、および、第１のシンタックス要素の値をビットストリームにエンコーディングする段階と、を含む。

特に、第２のシンタックス要素がＳＰＳによって参照されると決定された場合にのみ、第１のシンタックス要素の値が０から第１の値の範囲にあることを保持してもよい。

実施態様によれば、ビットストリームをエンコーディングする段階は、第１のシンタックス要素の値に基づいてデコーディング能力情報をビットストリームにエンコーディングする段階を含んでもよい。

第３の態様によれば、本発明は、（符号化）ビデオビットストリームをデコーディングするための装置に関し、この装置は、現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）に存在することが許される時間的サブレイヤの最大数を決定するために用いられる第１のシンタックス要素（の値）を取得するように構成された取得ユニットを備え、第１のシンタックス要素の値は０から第１の値の範囲にあり、第１の値が、第２のシンタックス要素がＳＰＳによって参照される場合に、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）内のレイヤに存在することが許される時間的サブレイヤの最大数を決定するために使用される第２のシンタックス要素の値であり、第１のシンタックス要素の値に基づいてビットストリームをデコーディングするように構成されたデコーディングユニットを備える。

第４の態様によれば、本発明は、ビデオビットストリームをエンコーディングする装置に関し、この装置は、第２のシンタックス要素がＳＰＳによって参照されるかどうかを決定するように構成された決定ユニットを備え、第２のシンタックス要素（例えば、ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１）は、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）内のレイヤに存在することが許される時間的サブレイヤの最大数を決定するために使用され、現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）において存在することが許される時間的サブレイヤの最大数を決定するために使用される第１のシンタックス要素の値を、第１のシンタックス要素の範囲に基づいて決定し、この範囲は０から第１の値であり、第１の値は第２のシンタックス要素がＳＰＳによって参照されると決定された場合の第２のシンタックス要素の値であり、ビットストリームに第１のシンタックス要素の値をエンコーディングするよう構成されるエンコーディングユニットを備える。

本発明の第１の態様による方法は、本発明の第３の態様に係る装置によって実行することができる。本発明の第３の態様による装置のさらなる特徴および実施形態は、本発明の第１の態様による方法の特徴および実施形態に対応する。

本発明の第２の態様による方法は、本発明の第４の態様による装置によって実行することができる。本発明の第４の態様による装置のさらなる特徴および実施形態は、本発明の第２の態様による方法の特徴および実施形態に対応する。

上述の方法は、それぞれデコーディングデバイスまたはエンコーディングデバイスに実装することができ、したがって、上述の例のいずれか１つによってビデオビットストリームのエンコーディング方法を実行するための処理回路を含むエンコーダが提供される。さらに、１または複数のプロセッサと、プロセッサに連結され、プロセッサによる実行のためのプログラミングを記憶する非一時的コンピュータ可読記憶媒体とを備えるエンコーダであって、プログラミングは、プロセッサによって実行される場合、上述の例のいずれか１つによるビデオビットストリームのエンコーディングの方法を実行するようにエンコーダを構成することを特徴とするエンコーダが提供される。同様に、上述の例のいずれか１つによってビデオビットストリームのデコーディング方法を実行するための処理回路を含み、１または複数のプロセッサと、プロセッサに連結され、プロセッサによる実行のためのプログラミングを記憶する非一時的コンピュータ可読記憶媒体とを含むデコーダであって、プログラミングが、プロセッサによって実行される場合、上述の例のいずれか１つにしたがってビデオビットストリームのデコーディング方法を実行するようにデコーダを構成するデコーダが、提供される。

さらに、コンピュータまたはプロセッサ上で実行された場合に、上述の例のいずれか１つによる方法を実行するためのプログラムコードを含むコンピュータプログラム製品が提供される。同様に、コンピュータデバイスによって実行される場合、コンピュータデバイスに上述の例のいずれか１つの方法を実行させるプログラムコードを保持する非一時的コンピュータ可読媒体が提供される。

第５の態様によれば、本発明は、ビデオビットストリームを含む非一時的記憶媒体に関し、ビットストリームは、ビデオシーケンスに適用されるシンタックス要素を含む現在のシーケンスパラメータセット（ＳＰＳ）を備え、ビットストリームは、現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）に存在することが許される時間的サブレイヤの最大数を決定するために用いられる第１のシンタックス要素をさらに備え、第１のシンタックス要素の値は０から第１の値の範囲にあり、第１の値は、第２のシンタックス要素がＳＰＳによって参照される場合、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）においてレイヤに存在することが許される時間的サブレイヤの最大数を決定するために用いられる第２のシンタックス要素の値である。

実施態様によれば、第２のシンタックス要素がＳＰＳによって参照されない場合、第１の値は予め設定された値である。

１または複数の実施形態の詳細は、添付図面および以下の説明に記載されている。他の機能、目的、および利点は、明細書、図面、および特許請求の範囲から明らかになるであろう。

本発明の以下の実施形態は、添付の図および図面を参照してより詳細に説明される。
本発明の実施形態を実装するよう構成されるビデオコーディングシステムの例を示すブロック図である。本発明の実施形態を実装するよう構成されるビデオコーディングシステムの別の例を示すブロック図である。本発明の実施形態を実装するよう構成されるビデオエンコーダの例を示すブロック図である。本発明の実施形態を実装するよう構成されるビデオデコーダの例示的な構造を示すブロック図である。エンコーディング装置またはデコーディング装置の例を示すブロック図である。エンコーディング装置またはデコーディング装置の別の例を示すブロック図である。スケーラブルビデオコーディングのレイヤとサブレイヤに関する例である。タイル、スライスおよびサブ画像の例を示す図である。コンテンツ配信サービスを実現するコンテンツ供給システム３１００の例示的な構造を示すブロック図である。端末デバイスの例の構造を示すブロック図である。一実施形態によるビデオビットストリームのデコーディング方法を示す図である。一実施形態によるビデオビットストリームのエンコーディング方法を示す図である。一実施形態によるビデオビットストリームのデコーディング方法を示す図である。一実施形態によるビデオビットストリームのエンコーディング方法を示す図である。以下、別途明示的に指定されていない限り、同一の参照符号は、同一または少なくとも機能的に等価な特徴を指す。

以下の説明では、本開示の一部を形成し、発明の実施形態の具体的態様または本発明の実施形態を使用することができる具体的態様を例示として示す添付図面を参照する。本発明の実施形態は他の態様で使用されてもよく、図に示されない構造的または論理的変更を含んでもよいことが理解される。したがって、以下の詳細な説明は、限定する意味で解釈されず、本発明の範囲は、添付の特許請求の範囲によって定義される。

例えば、説明された方法に関連する開示は、方法を実行するように構成された対応するデバイスまたはシステムにも当てはまり得、逆もまた同様であることが理解される。例えば、１または複数の特定の方法の段階が説明される場合、対応するデバイスは、説明される１または複数の方法の段階を実行するための、例えば、機能ユニットなどの１または複数のユニット（例えば、１または複数の段階を実行する１つのユニット、または複数の段階のうちの１または複数を各々が実行する複数のユニット）を、そのような１または複数のユニットが図において明示的に説明されていないかまたは示されていないときであっても、含んでもよい。他方で、例えば、特定の装置が、例えば、機能ユニットなどの１または複数のユニットに基づいて説明される場合、対応する方法は、１または複数のユニットの機能を実行するために１つの段階（例えば、１または複数のユニットの機能を実行する１つの段階、または複数のユニットのうちの１または複数の機能を各々が実行する複数の段階）を、そのような１または複数の段階が図において明示的に説明されていないかまたは示されていないときであっても、含んでもよい。さらに、特に別段の記載がない限り、本明細書において説明される様々な例示的な実施形態および／または態様の特徴が互いに組み合わされ得ることに留意されたい。

ビデオコーディングは典型的には、ビデオまたはビデオシーケンスを形成する一連の画像の処理を意味する。「画像」という用語の代わりに、「フレーム」または「イメージ」という用語がビデオコーディングの分野での同義語として用いられる場合がある。ビデオコーディング（または一般的にコーディング）は、ビデオエンコーディングおよびビデオデコーディングの２つの部分を含む。ビデオエンコーディングは、ソース側で実行され、典型的には、（より効率的な保存および／または送信のために）ビデオ画像を表現するために要求されるデータ量を低減させるように、元のビデオ画像を処理（例えば、圧縮による）することを含む。ビデオデコーディングは、デスティネーション側で実行され、典型的には、ビデオ画像を再構築するように、エンコーダと比較して逆の処理を含む。ビデオ画像（または一般的に画像）の「コーディング」に言及する実施形態は、ビデオ画像またはそれぞれのビデオシーケンスの「エンコーディング」または「デコーディング」に関すると理解されるものとする。エンコーディング部分とデコーディング部分との組み合わせは、コーデック（コーディングおよびデコーディング）とも称される。

無損失ビデオコーディングの場合、元のビデオ画像を再構築でき、すなわち、再構築されたビデオ画像は元のビデオ画像と同じ品質である（保存中または送信中に伝送損失またはその他のデータ損失がないと仮定して）。不可逆ビデオコーディングの場合、ビデオ画像を表現するデータ量を低減するために、例えば量子化によるさらなる圧縮が実行されるが、これはデコーダにおいて完全には再構築できない、すなわち、再構築されたビデオ画像の品質は、元のビデオ画像の品質に比較して低下または劣化する。

いくつかのビデオコーディング規格は、「不可逆ハイブリッドビデオコーデック」のグループに属する（すなわち、サンプル領域における空間的および時間的予測と、変換領域における量子化を適用するための２Ｄ変換コーディングとを組み合わせる）。ビデオシーケンスの各画像は、典型的には、非重複ブロックのセットへと区分化され、コーディングは、典型的には、ブロックレベルで実行される。換言すれば、エンコーダにおいて、ビデオは、例えば、空間的（画像内）予測および／または時間的（画像間）予測を使用して予測ブロックを生成し、現在のブロック（現在処理されている／処理されることになるブロック）から予測ブロックを減算して残差ブロックを取得し、残差ブロックを変換するとともに変換領域における残差ブロックを量子化して、送信されることになるデータ量を低減（圧縮）することによって、典型的にはブロック（ビデオブロック）レベルで処理される、すなわちエンコードされ、一方で、デコーダにおいて、現在のブロックを表現のために再構築するために、エンコーダと比較して逆の処理がエンコードまたは圧縮されたブロックに適用される。さらに、エンコーダがデコーダ処理ループを繰り返すことにより、後続のブロックの処理のために、すなわちコーディングのために、両方が同一の予測（例えば、イントラおよびインター予測）および／または再構築物を生成することになる。ビデオコーディングシステム１０の以下の実施形態では、ビデオエンコーダ２０、およびビデオデコーダ３０が、図１～３に基づいて説明される。

図１Ａは、本願の技術を使用し得る例示的なコーディングシステム１０、例えばビデオコーディングシステム１０（または略してコーディングシステム１０）を示す概略ブロック図である。ビデオコーディングシステム１０のビデオエンコーダ２０（または略してエンコーダ２０）およびビデオデコーダ３０（または略してデコーダ３０）は、本願において説明される様々な例にしたがって技術を実行するように構成され得るデバイスの例を表す。図１Ａに示すように、コーディングシステム１０は、エンコードされた画像データ２１を、例えば、このエンコードされた画像データ１３をデコードするためにデスティネーションデバイス１４に提供するように構成されているソースデバイス１２を備える。

ソースデバイス１２は、エンコーダ２０を備え、加えて、すなわち任意選択で、画像ソース１６と、前処理装置（または前処理ユニット）１８、例えば画像前処理装置１８と、通信インタフェースまたは通信ユニット２２とを備えてよい。画像ソース１６は、任意の種類の撮像デバイス、例えば、現実世界の画像をキャプチャするカメラ、および／または、任意の種類の画像生成デバイス、例えば、コンピュータアニメーション画像を生成するコンピュータグラフィクスプロセッサ、または、現実世界の画像、コンピュータ生成画像（例えば、スクリーンコンテンツ、仮想現実（ＶＲ）画像）、および／またはそれらの任意の組み合わせ（例えば、拡張現実（ＡＲ）画像）を取得および／または提供する任意の種類の他のデバイスを含むかまたはそれらのデバイスであってよい。画像ソースは、上述の画像の任意のものを保存する任意の種類のメモリまたはストレージであってよい。

前処理装置１８および前処理ユニット１８によって実行される処理と区別するように、画像または画像データ１７は、生画像または生画像データ１７とも称され得る。

前処理装置１８は、（生）の画像データ１７を受信するとともに、画像データ１７に対して前処理を実行して、前処理された画像１９または前処理された画像データ１９を取得するように構成されている。前処理装置１８によって実行される前処理は、例えば、トリム、カラーフォーマット変換（例えば、ＲＧＢからＹＣｂＣｒ）、色補正、またはノイズ除去を含んでよい。

前処理ユニット１８は任意選択のコンポーネントであってよいことが理解できる。

ビデオエンコーダ２０は、前処理された画像データ１９を受信するとともに、エンコードされた画像データ２１を提供するように構成されている（さらなる詳細は、例えば図２に基づいて下記で説明される）。

ソースデバイス１２の通信インタフェース２２は、通信チャネル１３を介して、エンコードされた画像データ２１を受信するとともに、エンコードされた画像データ２１（またはその任意のさらなる処理バージョン）を、保存または直接再構築のために、別のデバイス、例えばデスティネーションデバイス１４または任意の他のデバイスに送信するよう構成されてよい。

デスティネーションデバイス１４は、デコーダ３０（例えばビデオデコーダ３０）を備え、加えて、すなわち任意選択で、通信インタフェースまたは通信ユニット２８と、ポストプロセッサ３２（または後処理ユニット３２）と、ディスプレイデバイス３４とを備えてよい。

デスティネーションデバイス１４の通信インタフェース２８は、エンコードされた画像データ２１（またはその任意のさらなる処理バージョン）を、例えばソースデバイス１２から直接または任意の他のソース、例えばストレージデバイス、例えばエンコードされた画像データストレージデバイスから受信するとともに、エンコードされた画像データ２１をデコーダ３０に提供するように構成されている。

通信インタフェース２２および通信インタフェース２８は、ソースデバイス１２とデスティネーションデバイス１４との間で、直接通信リンク、例えば、直接的な有線もしくは無線接続を介して、または、任意の種類のネットワーク、例えば、有線もしくは無線ネットワークもしくはそれらの任意の組み合わせ、もしくは、任意の種類のプライベートおよびパブリックネットワークもしくはそれらの任意の種類の組み合わせを介して、エンコードされた画像データ２１またはエンコードされたデータ１３を送信または受信するように構成されてよい。

通信インタフェース２２は、例えば、エンコードされた画像データ２１を適切なフォーマットに、例えばパケットにパッケージ化する、および／または、通信リンクまたは通信ネットワークを介した送信のための任意の種類の送信エンコーディングまたは処理を用いて、エンコードされた画像データを処理するように構成されてよい。

通信インタフェース２２のカウンターパートを形成する通信インタフェース２８は、例えば、送信されるデータを受信するとともに、任意の種類の対応する送信デコーディングまたは処理および／またはデパッケージングを用いて送信データを処理して、エンコードされた画像データ２１を取得するように構成されてよい。

通信インタフェース２２および通信インタフェース２８は両方とも、図１Ａにおいてソースデバイス１２からデスティネーションデバイス１４に向く通信チャネル１３の矢印で示すように単方向通信インタフェースとして、または、双方向通信インタフェースとして構成されてよく、例えば、メッセージを送信および受信する、例えば、接続を設定し、通信リンクおよび／またはデータ送信、例えばエンコードされた画像データ送信に関連する任意の他の情報を確認およびやりとりするように構成されてよい。

デコーダ３０は、エンコードされた画像データ２１を受信するとともに、デコードされた画像データ３１またはデコードされた画像３１を提供するように構成されている（さらなる詳細は、例えば図３または図５に基づいて下記で説明される）。

デスティネーションデバイス１４のポストプロセッサ３２は、デコードされた画像データ３１（再構築画像データとも呼ばれる）、例えばデコードされた画像３１を後処理して、後処理された画像データ３３、例えば後処理された画像３３を取得するように構成されている。後処理ユニット３２により実行される後処理は、例えば、デコードされた画像データ３１を、例えば、ディスプレイデバイス３４による表示のために準備する目的で、例えば、カラーフォーマット変換（例えば、ＹＣｂＣｒからＲＧＢへ）、色補正、トリム、もしくは再サンプリング、または任意の他の処理を含んでよい。

デスティネーションデバイス１４のディスプレイデバイス３４は、画像を例えばユーザまたは視聴者に表示するために、後処理された画像データ３３を受信するように構成されている。ディスプレイデバイス３４は、再構築画像を表現するための任意の種類のディスプレイ、例えば、一体型または外付けのディスプレイまたはモニタであってもよく、またはこれを含んでもよい。ディスプレイは、例えば、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、プラズマディスプレイ、プロジェクタ、マイクロＬＥＤディスプレイ、液晶オンシリコン（ＬＣｏＳ）、デジタル光プロセッサ（ＤＬＰ）、または任意の種類の他のディスプレイを含んでよい。

図１Ａはソースデバイス１２とデスティネーションデバイス１４とを別個のデバイスとして示しているが、デバイスの実施形態は、それらの両方または両方の機能、すなわち、ソースデバイス１２または対応する機能と、デスティネーションデバイス１４または対応する機能とを備えてもよい。そのような実施形態では、ソースデバイス１２または対応する機能およびデスティネーションデバイス１４または対応する機能は、同じハードウェアおよび／またはソフトウェアを使用して、または別個のハードウェアおよび／またはソフトウェアまたはそれらの任意の組み合わせによって実装され得る。

本説明に基づいて当業者には明らかであるように、図１Ａに示すような、異なるユニットの機能またはソースデバイス１２および／またはデスティネーションデバイス１４内の機能の存在および（正確な）分割は、実際のデバイスおよびアプリケーションに応じて変わり得る。

エンコーダ２０（例えば、ビデオエンコーダ２０）またはデコーダ３０（例えば、ビデオデコーダ３０）またはエンコーダ２０およびデコーダ３０の両方は、１または複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリートロジック、ハードウェア、ビデオコーディング専用またはそれらの任意の組み合わせ等の、図１Ｂに示すような処理回路を介して実装されてよい。エンコーダ２０は、図２のエンコーダ２０および／または本明細書において説明される任意の他のエンコーダシステムまたはエンコーダサブシステムに関連して論じられる様々なモジュールを実施するために、処理回路４６を介して実装され得る。デコーダ３０は、図３のデコーダ３０および／または本明細書に記載の任意の他のデコーダシステムまたはサブシステムに関連して論じる様々なモジュールを実施するために処理回路４６を介して実装されてよい。処理回路は、後で論じるように様々な工程を実行するように構成されてよい。図５に示すように、本技術がソフトウェアにおいて部分的に実装される場合、デバイスは、好適な非一時的コンピュータ可読記憶媒体にソフトウェアのための命令を保存してよく、ハードウェア内で１または複数のプロセッサを用いて命令を実行して、本開示の技術を実行してよい。ビデオエンコーダ２０およびビデオデコーダ３０のいずれかは、図１Ｂに示すように、例えば、単一のデバイス内の組み合わされたエンコーダ／デコーダ（コーデック）の一部として統合されてよい。

ソースデバイス１２およびデスティネーションデバイス１４は、任意の種類のハンドヘルドまたはステーショナリデバイス、例えば、ノートブックまたはラップトップコンピュータ、携帯電話、スマートフォン、タブレットまたはタブレットコンピュータ、カメラ、デスクトップコンピュータ、セットトップボックス、テレビ、ディスプレイデバイス、デジタルメディアプレイヤ、ビデオゲームコンソール、ビデオストリーミングデバイス（コンテンツサービスサーバまたはコンテンツ配信サーバ等）、ブロードキャスト受信機デバイス、ブロードキャスト送信機デバイス等を含む、広範なデバイスのいずれかを備えてよく、オペレーティングシステムを用いないまたは任意の種類のオペレーティングシステムを用いてよい。

いくつかの場合、ソースデバイス１２およびデスティネーションデバイス１４は、無線通信に対応してよい。したがって、ソースデバイス１２およびデスティネーションデバイス１４は、無線通信デバイスとしてよい。いくつかの場合、図１Ａに示すビデオコーディングシステム１０は、単に例であり、本願の技術は、エンコーディングデバイスとデコーディングデバイスとの間の任意のデータ通信を必ずしも含まないビデオコーディング設定（例えば、ビデオエンコーディングまたはビデオデコーディング）に適用されてよい。他の例において、データは、ローカルメモリから取得され、ネットワークを介してストリーム等される。ビデオエンコーディングデバイスは、データをメモリにエンコードして格納してよく、および／または、ビデオデコーディングデバイスは、データをメモリからデコードして取得してよい。いくつかの例において、エンコーディングおよびデコーディングは、互いに通信しないが単にデータをメモリにエンコードするおよび／またはデータをメモリから取得するとともにデコードするデバイスによって実行される。

説明の便宜上、本発明の実施形態は、例えば、高効率ビデオコーディング（ＨＥＶＣ）または多目的ビデオコーディング（ＶＶＣ）の参照ソフトウェア、ＩＴＵ－Ｔビデオコーディング・エキスパート・グループ（ＶＣＥＧ）およびＩＳＯ／ＩＥＣモーション・画像・エキスパート・グループ（ＭＰＥＧ）のビデオコーディングに関するジョイント・コラボレーション・チーム（ＪＣＴ－ＶＣ）によって開発された次世代ビデオコーディング規格を参照することによって、本明細書に記載される。当業者であれば、本発明の実施形態がＨＥＶＣまたはＶＶＣに限定されるものではないことを理解するであろう。

［エンコーダおよびエンコーディング方法］
図２は、本願の技術を実行するように構成されている例示的なビデオエンコーダ２０の概略ブロック図を示している。図２の例において、ビデオエンコーダ２０は、入力２０１（または入力インタフェース２０１）と、残差計算ユニット２０４と、変換処理ユニット２０６と、量子化ユニット２０８と、逆量子化ユニット２１０と、逆変換処理ユニット２１２と、再構築ユニット２１４と、ループフィルタユニット２２０と、デコードされた画像バッファ（ＤＰＢ）２３０と、モード選択ユニット２６０と、エントロピーエンコーディングユニット２７０と、出力２７２（または出力インタフェース２７２）とを備える。モード選択ユニット２６０は、インター予測ユニット２４４と、イントラ予測ユニット２５４と、区分化ユニット２６２とを含んでもよい。インター予測ユニット２４４は、動き推定ユニットおよび動き補償ユニットを含んでよい（図示せず）。図２に示されるビデオエンコーダ２０は、ハイブリッドビデオエンコーダ、またはハイブリッドビデオコーデックによるビデオエンコーダとも称され得る。

残差計算ユニット２０４と、変換処理ユニット２０６と、量子化ユニット２０８と、モード選択ユニット２６０とは、エンコーダ２０の順方向信号経路を形成するものとして言及されてよく、一方、逆量子化ユニット２１０と、逆変換処理ユニット２１２と、再構築ユニット２１４と、バッファ２１６と、ループフィルタ２２０と、デコードされた画像バッファ（ＤＰＢ）２３０と、インター予測ユニット２４４と、イントラ予測ユニット２５４とは、ビデオエンコーダ２０の逆方向信号経路を形成するものとして言及されてよい。ビデオエンコーダ２０の逆方向信号経路は、デコーダの信号経路に対応する（図３のビデオデコーダ３０を参照）。逆量子化ユニット２１０と、逆変換処理ユニット２１２と、再構築ユニット２１４と、ループフィルタ２２０と、デコードされた画像バッファ（ＤＰＢ）２３０と、インター予測ユニット２４４と、イントラ予測ユニット２５４とは、ビデオエンコーダ２０の「内蔵デコーダ」を形成するものとも言及される。

［画像および画像区分化（画像およびブロック）］
エンコーダ２０は、例えば、入力２０１を介して、画像１７（または画像データ１７）、例えば、ビデオまたはビデオシーケンスを形成する一連の画像のうちの画像を受信するように構成されてよい。受信された画像または画像データは、前処理された画像１９（または前処理された画像データ１９）であってもよい。簡潔にするために、以下の説明は画像１７を指す。画像１７は、現在の画像または符号化される画像とも称され得る（特に、ビデオコーディングにおいて、現在の画像を他の画像、例えば、同じビデオシーケンス、すなわち現在の画像も含むビデオシーケンスの、以前にエンコード済みおよび／またはデコードされた画像から区別するために）。

（デジタル）画像は、強度値を持つサンプルの２次元アレイまたは行列であるか、またはそれとみなされ得る。アレイ内のサンプルは、画素（画像要素の略称）またはペルとも称され得る。アレイまたは画像の水平および垂直方向（または軸）のサンプル数は、画像のサイズおよび／または解像度を定義する。色を表現するために、典型的には３つの色成分が利用され、すなわち、画像は、３つのサンプルアレイで表されてもまたはこれを含んでもよい。ＲＢＧ形式または色空間では、画像は対応する赤、緑、および青のサンプルアレイを含む。しかしながら、ビデオコーディングでは、各画素は、典型的には輝度およびクロミナンス形式または色空間、例えばＹＣｂＣｒで表され、これには、Ｙ（代わりにＬが用いられる場合もある）で示される輝度成分と、ＣｂおよびＣｒで示される２つのクロミナンス成分とが含まれる。輝度（または略してルマ）成分Ｙは、明るさまたは（例えば、グレースケール画像でのような）グレーレベルの強度を表し、２つのクロミナンス（または略してクロマ（ｃｈｒｏｍａ））成分であるＣｂおよびＣｒは、色度または色情報成分を表す。したがって、ＹＣｂＣｒ形式の画像は、輝度サンプル値（Ｙ）の輝度サンプルアレイと、クロミナンス値（ＣｂおよびＣｒ）の２つのクロミナンスサンプルアレイとを含む。ＲＧＢ形式の画像は、ＹＣｂＣｒ形式に転換または変換され得、その逆もまた同様であり、このプロセスは、色変換または転換としても知られている。画像がモノクロの場合、画像は輝度サンプルアレイのみを含んでよい。したがって、画像は、例えば、モノクロ形式におけるルマサンプルのアレイ、または、４：２：０、４：２：２、および４：４：４のカラー形式におけるルマサンプルのアレイおよびクロマサンプルの２つの対応するアレイであってよい。

ビデオエンコーダ２０の実施形態は、画像１７を複数の（典型的には非重複）画像ブロック２０３に区分化するように構成されている画像区分化ユニット（図２には示されない）を備えてよい。これらのブロックは、ルートブロック、マクロブロック（Ｈ．２６４／ＡＶＣ）またはコーディングツリーブロック（ＣＴＢ）またはコーディングツリーユニット（ＣＴＵ）（Ｈ．２６５／ＨＥＶＣおよびＶＶＣ）とも称され得る。画像区分化ユニットは、ビデオシーケンスの全ての画像およびブロックサイズを定義する対応するグリッドに同じブロックサイズを使用するか、または、画像または画像のサブセットもしくはグループ間でブロックサイズを変化させて、各画像を対応するブロックに区分化するように構成されてよい。

さらなる実施形態において、ビデオエンコーダは、画像１７のブロック２０３、例えば、画像１７を形成する１つ、いくつかの、または全てのブロックを直接受信するように構成されてよい。画像ブロック２０３は、現在の画像ブロックまたは符号化される画像ブロックとも称され得る。

画像１７と同様に、画像ブロック２０３は再度、画像１７より小さい寸法であるが、強度値（サンプル値）を持つサンプルの２次元アレイまたはマトリックスであるか、または、それとみなすことができる。換言すれば、ブロック２０３は、例えば、１つのサンプルアレイ（例えば、モノクロ画像１７の場合はルマアレイ、または、カラー画像の場合はルマもしくはクロマアレイ）、または３つのサンプルアレイ（例えば、カラー画像１７の場合はルマおよび２つのクロマアレイ）、または、適用されるカラーフォーマットに応じた任意の他の数および／または種類のアレイを備えてよい。ブロック２０３の水平および垂直方向（または軸）のサンプル数は、ブロック２０３のサイズを定義する。したがって、ブロックは、例えば、サンプルのＭ×Ｎ（Ｍ列×Ｎ行）アレイ、または変換係数のＭ×Ｎアレイであってよい。

図２に示すビデオエンコーダ２０の実施形態は、画像１７をブロック毎にエンコードするように構成され得、例えば、エンコードおよび予測は、ブロック２０３毎に実行される。

図２に示すビデオエンコーダ２０の実施形態は、スライス（ビデオスライスとも称される）を使用することによって画像を区分化および／またはエンコードするようにさらに構成され得、ここで画像は、１または複数のスライスを使用して区分化またはエンコードされ得（通常は重複しない）、各スライスは、１または複数のブロック（例えば、ＣＴＵ）を含んでもよい。

図２に示すビデオエンコーダ２０の実施形態は、タイルグループ（ビデオタイルグループとも称される）および／またはタイル（ビデオタイルとも称される）を使用することによって画像を区分化および／またはエンコードするようにさらに構成され得、画像は、１または複数のタイルグループ（通常は重複しない）を使用して区分化またはエンコードされ得、各タイルグループは、例えば１または複数のブロック（例えばＣＴＵ）または１または複数のタイルを含み得、各タイルは、例えば長方形の形状であり得、１または複数のブロック（例えばＣＴＵ）、例えば完全なブロックまたは部分的なブロックを含んでもよい。

［残差計算］
残差計算ユニット２０４は、例えば、サンプル毎（画素毎）に画像ブロック２０３のサンプル値から予測ブロック２６５のサンプル値を減算し、サンプル領域における残差ブロック２０５を取得することによって、画像ブロック２０３および予測ブロック２６５に基づいて（予測ブロック２６５に関するさらなる詳細は後で提供される）、残差ブロック２０５（残差２０５とも称される）を計算するように構成されてよい。

［変換］
変換処理ユニット２０６は、残差ブロック２０５のサンプル値に対して変換、例えば、離散コサイン変換（ＤＣＴ）または離散サイン変換（ＤＳＴ）を適用し、変換領域における変換係数２０７を取得するように構成されてよい。変換係数２０７は、変換残差係数とも称されてよく、変換領域における残差ブロック２０５を表す。

変換処理ユニット２０６は、Ｈ．２６５／ＨＥＶＣに指定された変換等のＤＣＴ／ＤＳＴの整数近似を適用するように構成されてよい。直交ＤＣＴ変換に比較して、そのような整数近似は、典型的には特定の係数によってスケーリングされる。順変換および逆変換によって処理される残差ブロックのノルムを保存するべく、変換プロセスの一部として追加のスケーリング係数が適用される。スケーリング係数は、典型的には、シフト演算に関して２のべき乗であるスケーリング係数、変換係数のビット深度、確度と実装コストとの間のトレードオフなどのような特定の制約に基づいて選択される。例えば、特定のスケーリング係数が、例えば、逆変換処理ユニット２１２による逆変換（および、例えばビデオデコーダ３０における逆変換処理ユニット３１２による対応する逆変換）に指定され、例えば、エンコーダ２０における変換処理ユニット２０６による順方向変換のための対応するスケーリング係数が、相応に指定されてよい。

ビデオエンコーダ２０の実施形態は（それぞれ変換処理ユニット２０６）は、変換パラメータ、例えば単数または複数の変換のタイプを、例えば、直接またはエントロピーエンコーディングユニット２７０を介してエンコードもしくは圧縮してから出力するように構成されてよく、それにより、例えば、ビデオデコーダ３０は、デコーディングのための変換パラメータを受信して使用してよい。

［量子化］
量子化ユニット２０８は、例えば、スカラ量子化またはベクトル量子化を適用することによって、変換係数２０７を量子化して、量子化係数２０９を取得するように構成されてよい。量子化係数２０９は、量子化変換係数２０９または量子化残差係数２０９とも称され得る。

量子化プロセスは、変換係数２０７のいくつかまたは全てに関連付けられたビット深度を減少させ得る。例えば、量子化中にｎビット変換係数がｍビットの変換係数に切り捨てられてよく、ｎはｍより大きい。量子化の程度は、量子化パラメータ（ＱＰ）を調整することによって変更されてよい。例えば、スカラ量子化の場合、より細かいまたはより粗い量子化を達成するために、異なるスケーリングが適用されてよい。量子化段階サイズが小さいほどより細かい量子化に対応し、一方で、量子化段階サイズが大きいほど粗い量子化に対応する。適用可能な量子化ステップサイズは、量子化パラメータ（ＱＰ）によって示され得る。量子化パラメータは、例えば、適用可能な量子化ステップサイズの予め定義されたセットへのインデックスであり得る。例えば、小さな量子化パラメータは細かい量子化（小さな量子化段階サイズ）に対応し得、大きな量子化パラメータは粗い量子化（大きな量子化段階サイズ）に対応し得るか、または逆もまた同様である。量子化は、量子化段階サイズによる除算を含んでよく、例えば逆量子化ユニット２１０による対応するおよび／または逆量子化解除は、量子化段階サイズによる乗算を含んでよい。いくつかの規格、例えばＨＥＶＣに従った実施形態は、量子化段階サイズを決定するのに量子化パラメータを使用するように構成されてよい。概して、量子化段階サイズは、除算を含む方程式の固定小数点近似を使用する量子化パラメータに基づいて算出され得る。残差ブロックのノルムを復元するために、量子化および量子化解除に追加のスケーリング係数を導入し得、これは、量子化段階サイズおよび量子化パラメータの方程式の固定小数点近似で使用されるスケーリングに起因して変更され得る。例示的な一実装態様では、逆変換および量子化解除のスケーリングは組み合わされ得る。代替的には、カスタマイズされた量子化テーブルが使用され、例えばビットストリームにおいてエンコーダからデコーダにシグナリングされてよい。量子化は不可逆演算であり、損失は量子化段階サイズの増加に伴って増加する。

ビデオエンコーダ２０の実施形態（それぞれの量子化ユニット２０８）は、量子化パラメータ（ＱＰ）、例えば直接かまたはエントロピーエンコーディングユニット２７０を介してエンコードしてから出力するように構成されてよく、それにより、例えば、ビデオデコーダ３０は、デコーディングのための量子化パラメータを受信して適用してよい。

［逆量子化］
逆量子化ユニット２１０は、例えば、量子化ユニット２０８と同じ量子化段階サイズに基づいてまたはそれを使用して量子化ユニット２０８によって適用された量子化スキームの逆を適用することによって、量子化係数に対して量子化ユニット２０８の逆量子化を適用し、量子化解除係数２１１を取得するように構成されている。量子化解除係数２１１は、量子化解除残差係数２１１とも称され得、典型的には量子化による損失に起因して変換係数とは同一でないが、変換係数２０７に対応する。

［逆変換］
逆変換処理ユニット２１２は、変換処理ユニット２０６によって適用された変換の逆変換、例えば、逆離散コサイン変換（ＤＣＴ）または逆離散サイン変換（ＤＳＴ）または他の逆変換を適用し、サンプル領域における再構築残差ブロック２１３（または対応する量子化解除係数２１３）を取得するように構成されている。再構築残差ブロック２１３は、変換ブロック２１３とも称され得る。

［再構築］
再構築ユニット２１４（例えば、加算器または合算器２１４）は、例えば、サンプル毎に、再構築残差ブロック２１３のサンプル値と予測ブロック２６５のサンプル値とを加算することによって、変換ブロック２１３（すなわち、再構築残差ブロック２１３）を予測ブロック２６５に加算し、サンプル領域における再構築ブロック２１５を取得するように構成されている。

［フィルタ］
ループフィルタユニット２２０（または、略して「ループフィルタ」２２０）は、再構築ブロック２１５をフィルタして、フィルタリングされたブロック２２１を取得する、または、一般的に、再構築サンプルをフィルタして、フィルタリングされたサンプルを取得するように構成されている。ループフィルタユニットは、例えば、画素遷移を平滑化するか、またはそうでなければビデオ品質を改善するように構成される。ループフィルタユニット２２０は、デブロッキングフィルタ、サンプル適応型オフセット（ＳＡＯ）フィルタ、または、１または複数の他のフィルタ、例えば、バイラテラルフィルタ、適応ループフィルタ（ＡＬＦ）、シャープ処理、平滑化フィルタもしくは協調フィルタ、または、それらの任意の組み合わせなどの１または複数のループフィルタを含んでもよい。ループフィルタユニット２２０が、ループフィルタ内にあるものとして図２に示されているが、他の構成では、ループフィルタユニット２２０はポストループフィルタとして実装されてもよい。フィルタリングされたブロック２２１は、フィルタリングされた再構築ブロック２２１とも称され得る。

ビデオエンコーダ２０の実施形態（それぞれループフィルタユニット２２０）は、ループフィルタパラメータを（サンプル適応オフセット情報等）、例えば、直接またはエントロピーエンコーディングユニット２７０を介してエンコードしてから出力するように構成されてよく、それにより、例えば、デコーダ３０は、デコーディングのために同じループフィルタパラメータまたはそれぞれのループフィルタを受信して適用してよい。

［デコードされた画像バッファ］
デコードされた画像バッファ（ＤＰＢ）２３０は、ビデオエンコーダ２０によってビデオデータをエンコーディングするための参照画像、または一般的に参照画像データを保存するメモリであってよい。ＤＰＢ２３０は、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、磁気抵抗ＲＡＭ（ＭＲＡＭ）、抵抗ＲＡＭ（ＲＲＡＭ（登録商標））、または他のタイプのメモリデバイスを含む、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）等の様々なメモリデバイスのうちの任意のものによって形成されてよい。デコードされた画像バッファ（ＤＰＢ）２３０は、１または複数のフィルタリングされたブロック２２１を保存するように構成されてよい。デコードされた画像バッファ２３０はさらに、同じ現在の画像または異なる画像、例えば以前の再構築画像の他の以前にフィルタリングされたブロック、例えば以前に再構築されたフィルタリングされたブロック２２１を格納するように構成されてよく、完全な、以前に再構築された、すなわちデコードされた画像（対応する参照ブロックおよび参照サンプル）および／または部分的に再構築された現在の画像（対応する参照ブロックおよび参照サンプル）を、例えばインター予測のために提供してよい。デコードされた画像バッファ（ＤＰＢ）２３０は、例えば、再構築ブロック２１５がループフィルタユニット２２０によってフィルタリングされていない場合、１または複数のフィルタリングされていない再構築ブロック２１５、または一般的に、フィルタリングされていない再構築サンプル、または、再構築ブロックもしくはサンプルの任意の他のさらに処理されたバージョンを保存するように構成されてもよい。

［モード選択（区分化および予測）］
モード選択ユニット２６０は、区分化ユニット２６２と、インター予測ユニット２４４と、イントラ予測ユニット２５４とを備え、元の画像データ、例えば元のブロック２０３（現在の画像１７の現在のブロック２０３）、および再構築画像データ、例えば、同じ（現在の）画像のおよび／または１または複数の以前のデコードされた画像からの、例えばデコードされた画像バッファ２３０もしくは他のバッファ（例えば、図示しないラインバッファ）からのフィルタリング済みおよび／またはフィルタリングされていない再構築サンプルもしくはブロックを受信または取得するように構成されている。再構築画像データは、予測ブロック２６５または予測因子２６５を取得するために、予測、例えばインター予測またはイントラ予測のための参照画像データとして使用される。

モード選択ユニット２６０は、現在のブロック予測モード（区分化を含まない）のための区分化および予測モード（例えば、イントラまたはインター予測モード）を決定または選択し、対応する予測ブロック２６５を生成するように構成されてよく、予測ブロック２６５は、残差ブロック２０５の計算のためおよび再構築ブロック２１５の再構築のために使用される。

モード選択ユニット２６０の実施形態は、区分化および予測モード（例えば、モード選択ユニット２６０によってサポートされているものまたはモード選択ユニット２６０に利用可能なものから）選択するように構成されてよく、これにより、最良のマッチング、または換言すれば、最小残差（最小残差は、送信または保存のための圧縮率がより良好であることを意味する）、または、最小シグナリングオーバヘッド（最小シグナリングオーバヘッドは、送信または保存のための圧縮率がより良好であることを意味する）、またはこれらの両方を考慮したもしくはバランスを取ったものを提供する。モード選択ユニット２６０は、レート歪み最適化（ＲＤＯ）に基づいて区分化および予測モードを決定する、すなわち、最小レート歪みを提供する予測モードを選択するように構成されてよい。この文脈において「最良」、「最小」、「最適」などのような用語は、全般的な「最良」、「最小」、「最適」などを必ずしも指さず、値が閾値または他の制約を超過または下回り、潜在的に「最適未満選択」につながるが複雑性および処理時間を低減するような、終了または選択基準の達成を指してもよい。

換言すれば、区分化ユニット２６２は、例えば、四分木区分化（ＱＴ）、二分木区分化（ＢＴ）、もしくは三分木区分化（ＴＴ）、またはそれらの任意の組み合わせを繰り返し用いて、ブロック２０３をより小さいブロック区分またはサブブロック（再度ブロックを形成する）に区分化するように、また、例えば、ブロック区分またはサブブロックの各々のための予測を実行するように構成されてよく、モード選択は、区分化されたブロック２０３の木構造の選択を含み、予測モードは、ブロック区分またはサブブロックの各々に適用される。

以下では、例示的なビデオエンコーダ２０によって実行される、区分化（例えば、区分化ユニット２６０による）および予測処理（インター予測ユニット２４４およびイントラ予測ユニット２５４による）をより詳細に説明する。

［区分化］
区分化ユニット２６２は、現在のブロック２０３をより小さい区分、例えば、正方形または長方形サイズのより小さいブロックに区分化（または分割）してよい。これらのより小さいブロック（サブブロックとも称され得る）は、さらにより小さい区分にさらに区分化されてよい。これは、ツリー区分化もしくは階層的ツリー区分化とも称され、ここで、例えばルートツリーレベル０（階層レベル０、深度０）にあるルートブロックは、再帰的に区分化、例えば、次に低いツリーレベル、例えばツリーレベル１（階層レベル１、深度１）にあるノードの２または２より多いブロックに区分化されてよく、これらのブロックは、例えば終了基準が達成されたことで、例えば最大ツリー深度または最小ブロックサイズに達したことで、区分化が終了するまで、次に低いレベル、例えばツリーレベル２（階層レベル２、深度２）の２または２より多いブロックに再度区分化されるなどしてよい。さらに区分化されないブロックは、ツリーのリーフブロックまたはリーフノードとも称される。２つの区分への区分化を用いるツリーは、二分木（ＢＴ）と称され、３つの区分への区分化を用いるツリーは、三分木（ＴＴ）と称され、４つの区分への区分化を用いるツリーは、四分木（ＱＴ）と称される。

前で言及したように、本明細書で使用される「ブロック」という用語は、画像の部分、特に正方形または長方形部分であってよい。例えば、ＨＥＶＣおよびＶＶＣを参照すると、ブロックは、コーディングツリーユニット（ＣＴＵ）、コーディングユニット（ＣＵ）、予測ユニット（ＰＵ）、および変換ユニット（ＴＵ）であり得る、または、それに対応し得る、および／または、対応するブロック、例えば、コーディングツリーブロック（ＣＴＢ）、コーディングブロック（ＣＢ）、変換ブロック（ＴＢ）、または、予測ブロック（ＰＢ）に対応し得る。

例えば、コーディングツリーユニット（ＣＴＵ）は、３つのサンプルアレイを有する画像のルマサンプルのＣＴＢ、クロマサンプルの２つの対応するＣＴＢ、または、モノクロ画像のもしくはサンプルをコードするために使用された３つの別個のカラー平面およびシンタックス構造を用いて符号化された画像のサンプルのＣＴＢであるか、またはそれらを含んでよい。対応して、コーディングツリーブロック（ＣＴＢ）は、ＣＴＢへの構成要素の分割が区分化であるように、或るＮの値に関してサンプルのＮ×Ｎブロックであってよい。コーディングユニット（ＣＵ）は、ルマサンプルのコーディングブロック、３つのサンプルアレイを有する画像のクロマサンプルの２つの対応するコーディングブロック、または、モノクロ画像のもしくはサンプルを符号化するために使用された３つの別個のカラー平面およびシンタックス構造を用いて符号化された画像のサンプルのコーディングブロックであるか、またはそれらを含んでよい。それに対応して、コーディングブロック（ＣＢ）は、コーディングブロックへのＣＴＢの分割が区分化であるように、ある値ＭおよびＮについてのＭ×Ｎブロックのサンプルであり得る。

例えばＨＥＶＣに従う実施形態において、コーディングツリーユニット（ＣＴＵ）は、コーディングツリーとして表される四分木構造を用いることによってＣＵに分割されてよい。インター画像（時間的）予測またはイントラ画像（空間的）予測のどちらを用いて画像エリアを符号化するかの決定は、ＣＵレベルで行われる。各ＣＵは、ＰＵの分割タイプによって、１つ、２つまたは４つのＰＵへさらに分割され得る。１つのＰＵの内部では、同じ予測処理が適用され、関連情報はＰＵベースでデコーダに送信される。ＰＵの分割タイプに基づいて予測処理を適用することによって残差ブロックを取得した後に、ＣＵは、ＣＵについてのコーディングツリーと同様の別の四分木構造に、したがって、変換ユニット（ＴＵ）に区分化できる。

例えば、多目的ビデオコーディング（ＶＶＣ）と称される、現在開発中の最新のビデオコーディング規格に従う実施形態において、組み合わされた四分木および二分木（ＱＴＢＴ）区分化は、例えば、コーディングブロックを区分化するのに使用される。ＱＴＢＴブロック構造では、ＣＵは、正方形または長方形のいずれかを有し得る。例えば、コーディングツリーユニット（ＣＴＵ）はまず、四分木構造によって区分化される。クアッドツリーリーフノードはさらに、二分木または三値（またはトリプル）ツリー構造によって区分化される。区分化ツリーリーフノードは、コーディングユニット（ＣＵ）と称され、そのセグメンテーションは、任意のさらに区分化を伴うことなく、予測および変換処理に使用される。これは、ＣＵ、ＰＵおよびＴＵがＱＴＢＴコーディングブロック構造内で同じブロックサイズを有することを意味する。並行して、複数の区分化、例えば、三分木区分化が、ＱＴＢＴブロック構造と一緒に使用され得る。

一例において、ビデオエンコーダ２０のモード選択ユニット２６０は、本明細書に記載の区分化技術の任意の組み合わせを実行するように構成されてよい。

上述したように、ビデオエンコーダ２０は、（例えば予め決定された）予測モードの設定から、最良または最適な予測モードを決定または選択するように構成されている。予測モードの設定は、例えば、イントラ予測モードおよび／またはインター予測モードを含んでよい。

［イントラ予測］
イントラ予測モードの設定は、３５の異なるイントラ予測モード、例えば、ＤＣ（またはミーン）モードおよび平面モードのような無方向性モード、もしくは、例えばＨＥＶＣにおいて定義されているような、方向性モードを含んでよく、または、６７の異なるイントラ予測モード、例えば、ＤＣ（またはミーン）モードおよび平面モードのような無方向性モード、もしくは、例えばＶＶＣに定義されている、方向性モードを含んでよい。

イントラ予測ユニット２５４は、同じ現在の画像の隣接ブロックの再構築サンプルを使用して、イントラ予測モードの設定のうちのイントラ予測モードによって、イントラ予測ブロック２６５を生成するように構成されている。

イントラ予測ユニット２５４（または一般的にモード選択ユニット２６０）は、イントラ予測パラメータ（またはブロックのために選択されたイントラ予測モードを示す一般的な情報）を、エンコードされた画像データ２１に含まれるようにシンタックス要素２６６の形態でエントロピーエンコーディングユニット２７０に出力するようにさらに構成され、それにより、例えば、ビデオデコーダ３０は、デコーディングのための予測パラメータを受信して使用してよい。

［インター予測］
インター予測モードの設定（または可能な）は、利用可能な参照画像（すなわち、例えばＤＢＰ２３０に保存された、以前の少なくとも部分的にデコードされた画像）および他のインター予測パラメータ、例えば、最良にマッチする参照ブロックの検索に使用されたのは、参照画像の全体なのかもしくは参照画像の一部のみ、例えば、現在のブロックのエリアの周りの検索窓エリアなのか、および／または、例えば、画素補間、例えばハーフ／セミペルおよび／またはクオータペル補間が適用されたか、または適用されていないかに依拠する。

上述の予測モードに加えて、スキップモードおよび／または直接モードが適用されてもよい。

インター予測ユニット２４４は、動き予測（ＭＥ）ユニットおよび動き補償（ＭＣ）ユニット（両方とも図２には図示せず）を備えてよい。動き推定ユニットは、画像ブロック２０３（現在の画像１７の現在の画像ブロック２０３）およびデコードされた画像２３１、または、少なくとも１または複数の以前の再構築ブロック、例えば、１または複数の他の／異なる以前のデコードされた画像２３１の再構築ブロックを動き予測のために受信または取得するよう構成され得る。例えば、ビデオシーケンスは、現在の画像、および、以前のデコードされた画像２３１を含んでもよい、または、換言すれば、現在の画像および以前のデコードされた画像２３１は、ビデオシーケンスを形成する一連の画像の一部であり得る、または、それを形成し得る。

エンコーダ２０は、例えば、複数の他の画像のうちの同じまたは異なる画像の複数の参照ブロックから参照ブロックを選択し、インター予測パラメータとして参照画像（または参照画像インデックス）および／または参照ブロックの位置（ｘ、ｙ座標）と現在のブロックの位置との間のオフセット（空間的オフセット）を動き推定ユニットに提供するように構成してよい。このオフセットは、動きベクトル（ＭＶ）とも呼ばれる。

動き補償ユニットは、インター予測パラメータを取得、例えば受信するとともに、そのインター予測パラメータに基づいてまたはそれを使用してインター予測を実行して、インター予測ブロック２６５を取得するように構成されている。動き補償ユニットによって実行される動き補償は、動き予測によって決定された動き／ブロックベクトルに基づいて予測ブロックをフェッチまたは生成し、場合によってサブ画素精度までの補間を実行することを伴ってよい。補間フィルタリングは、既知の画素サンプルから追加の画素サンプルを生成してよく、したがって、画像ブロックをコードするのに用いられ得る候補予測ブロックの数を潜在的に増加させる。現在の画像ブロックのＰＵのための動きベクトルを受信すると、動き補償ユニットは、参照画像リストのうちの１つにおいて動きベクトルが指し示す予測ブロックを位置特定してよい。

動き補償ユニットはまた、ビデオスライスの画像ブロックをデコードする際にビデオデコーダ３０によって使用されるブロックおよびビデオスライスに関連するシンタックス要素を生成することができる。スライスおよびそれぞれのシンタックス要素に加えて、または代替的に、タイルグループおよび／またはタイル、ならびに、それぞれのシンタックス要素が生成または使用され得る。

［エントロピーコーディング］
エントロピーエンコーディングユニット２７０は、例えば、エントロピーエンコーディングアルゴリズムまたはスキーム（例えば、可変長コーディング（ＶＬＣ）スキーム、コンテキスト適応ＶＬＣスキーム（ＣＡＶＬＣ）、算術コーディングスキーム、バイナリゼーション、コンテキスト適応バイナリ算術コーディング（ＣＡＢＡＣ）、シンタックスベースのコンテキスト適応バイナリ算術コーディング（ＳＢＡＣ）、確率インターバル区分化エントロピー（ＰＩＰＥ）コーディング、または、別のエントロピーエンコーディング方法もしくは技術）、またはバイパス（無圧縮）を、量子化係数２０９、インター予測パラメータ、イントラ予測パラメータ、ループフィルタパラメータ、および／または他のシンタックス要素に適用し、例えばエンコードされたビットストリーム２１の形態で出力２７２を介して出力できるエンコードされた画像データ２１を取得するように構成され、それにより、例えば、ビデオデコーダ３０は、デコーディングのためのパラメータを受信して使用してよい。エンコードされたビットストリーム２１は、ビデオデコーダ３０に送信、または、後でビデオデコーダ３０によって送信または取得するためにメモリに保存されてよい。

ビデオエンコーダ２０の他の構造的変形を、ビデオストリームをエンコードするのに用いることができる。例えば、非変換ベースのエンコーダ２０は、特定のブロックまたはフレームのための変換処理ユニット２０６を用いずに直接的に残差信号を量子化できる。別の実装において、エンコーダ２０は、単一のユニットに組み合わされた量子化ユニット２０８および逆量子化ユニット２１０を有することができる。

［デコーダおよびデコーディング方法］
図３は、本願の技術を実行するように構成されているビデオデコーダ３０の例を示している。ビデオデコーダ３０は、例えばエンコーダ２０によってエンコードされた、エンコードされた画像データ２１（例えば、エンコードされたビットストリーム２１）を受信して、デコードされた画像３３１を取得するように構成されている。エンコードされた画像データまたはビットストリームは、エンコードされた画像データをデコードするための情報、例えば、エンコードされたビデオスライス（および／またはタイルグループまたはタイル）の画像ブロックおよび関連するシンタックス要素を表すデータを含む。図３の例では、デコーダ３０は、エントロピーデコーディングユニット３０４、逆量子化ユニット３１０、逆変換処理ユニット３１２、再構築ユニット３１４（例えば、合算器３１４）、ループフィルタ３２０、デコードされた画像バッファ（ＤＢＰ）３３０、モード適用ユニット３６０、インター予測ユニット３４４、およびイントラ予測ユニット３５４を備える。インター予測ユニット３４４は、動き補償ユニットであるかまたはこれを備えてよい。ビデオデコーダ３０は、いくつかの例では、図２のビデオエンコーダ１００に関連して説明されたエンコーディングパスに対して、概して、逆のデコーディングパスを実行してよい。

エンコーダ２０に関して説明したように、逆量子化ユニット２１０、逆変換処理ユニット２１２、再構築ユニット２１４、ループフィルタ２２０、デコードされた画像バッファ（ＤＰＢ）２３０、インター予測ユニット３４４、およびイントラ予測ユニット３５４も、ビデオエンコーダ２０の「内蔵デコーダ」を形成するものとして言及される。したがって、逆量子化ユニット３１０は、逆量子化ユニット１１０と機能的に同一であってよく、逆変換処理ユニット３１２は、逆変換処理ユニット２１２と機能的に同一であってよく、再構築ユニット３１４は、再構築ユニット２１４と機能的に同一であってよく、ループフィルタ３２０は、ループフィルタ２２０と機能的に同一であってよく、デコードされた画像バッファ３３０は、デコードされた画像バッファ２３０と機能的に同一であってよい。したがって、ビデオエンコーダ２０のそれぞれのユニットおよび機能について提供される説明は、ビデオデコーダ３０のそれぞれのユニットおよび機能に対応して適用される。

［エントロピーデコーディング］
エントロピーデコーディングユニット３０４は、ビットストリーム２１（または一般的にエンコードされた画像データ２１）をパースし、例えば、エンコードされた画像データ２１にエントロピーデコーディングを実行して、例えば量子化係数３０９および／またはデコードされたコーディングパラメータ（図３には図示せず）、例えば、インター予測パラメータ（例えば、参照画像インデックスおよび動きベクトル）、イントラ予測パラメータ（例えば、イントラ予測モードまたはインデックス）、変換パラメータ、量子化パラメータ、ループフィルタパラメータ、および／または他のシンタックス要素のいずれかまたは全てを取得するように構成されている。エントロピーデコーディングユニット３０４は、エンコーダ２０のエントロピーエンコーディングユニット２７０に関して記載されたエンコーディングスキームに対応するデコーディングアルゴリズムまたはスキームを適用するように構成されてよい。エントロピーデコーディングユニット３０４は、インター予測パラメータ、イントラ予測パラメータ、および／または他のシンタックス要素をモード適用ユニット３６０に、また他のパラメータをデコーダ３０の他のユニットに提供するようにさらに構成されてよい。ビデオデコーダ３０は、ビデオスライスレベルでおよび／またはビデオブロックレベルで、シンタックス要素を受信してよい。スライスおよびそれぞれのシンタックス要素に加えて、または代替的に、タイルグループおよび／またはタイル、ならびに、それぞれのシンタックス要素が受信および／または使用され得る。

［逆量子化］
逆量子化ユニット３１０は、エンコードされた画像データ２１から量子化パラメータ（ＱＰ）（または一般的に逆量子化に関連する情報）および量子化係数を受信する（例えばエントロピーデコーディングユニット３０４によって、例えば解析および／またはデコードすることによって）とともに、量子化パラメータに基づいて、デコードされた量子化係数３０９に逆量子化を適用し、変換係数３１１とも称され得る量子化解除係数３１１を取得するように構成されてよい。逆量子化プロセスは、量子化の程度、また同様に適用されるべき逆量子化の程度を決定するために、ビデオスライス（またはタイルもしくはタイルグループ）内のビデオブロック毎にビデオエンコーダ２０によって決定される量子化パラメータの使用を含んでよい。

［逆変換］
逆変換処理ユニット３１２は、変換係数３１１とも称される量子化解除係数３１１を受信するとともに、サンプル領域における再構築残差ブロック２１３を取得するべく、量子化解除係数３１１に変換を適用するように構成されてよい。再構築残差ブロック２１３は、変換ブロック３１３とも称され得る。変換は、逆変換、例えば、逆ＤＣＴ、逆ＤＳＴ、逆整数変換、または概念的に同様の逆変換プロセスであってよい。逆変換処理ユニット３１２は、エンコードされた画像データ２１から変換パラメータまたは対応する情報を受信し（例えばエントロピーデコーディングユニット３０４によって、例えば解析および／またはデコードすることによって）、量子化解除係数３１１に適用されるべき変換を決定するようにさらに構成されてよい。

［再構築］
再構築ユニット３１４（例えば、加算器または合算器３１４）は、再構築残差ブロック３１３を予測ブロック３６５に加算し、例えば、再構築残差ブロック３１３のサンプル値と予測ブロック３６５のサンプル値とを加算することによって、サンプル領域における再構築ブロック３１５を取得するように構成されてよい。

［フィルタ］
ループフィルタユニット３２０（コーディングループ内またはコーディングループの後のいずれかにある）は、例えば、画素遷移を円滑にするように、またはビデオ品質を別様に改善するように、再構築ブロック３１５をフィルタして、フィルタリングされたブロック３２１を取得するように構成されている。ループフィルタユニット３２０は、デブロッキングフィルタ、サンプル適応型オフセット（ＳＡＯ）フィルタ、または、１または複数の他のフィルタ、例えば、バイラテラルフィルタ、適応ループフィルタ（ＡＬＦ）、シャープ処理、平滑化フィルタ、または協調フィルタ、またはそれらの任意の組み合わせなど、１または複数のループフィルタを含んでもよい。ループフィルタユニット３２０が、ループフィルタ内にあるものとして図３に示されているが、他の構成では、ループフィルタユニット３２０はポストループフィルタとして実装されてもよい。

［デコードされた画像バッファ］
画像のデコードされたビデオブロック３２１は、その後、デコードされた画像バッファ３３０に保存され、デコードされた画像バッファ３３０は、デコードされた画像３３１を他の画像の後続の動き補償のためのおよび／またはそれぞれ表示を出力するための参照画像として保存する。デコーダ３０は、例えば出力３１２を介して、ユーザに提示または視聴させるために、デコードされた画像３１１を出力するように構成されている。

［予測］
インター予測ユニット３４４は、インター予測ユニット２４４（特に、動き補償ユニット）と同一であってよく、イントラ予測ユニット３５４は、インター予測ユニット２５４と機能的に同一であってよく、エンコードされた画像データ２１から受信（例えば、エントロピーデコーディングユニット３０４によって、例えば、解析および／またはデコードすることによって）された区分化および／または予測パラメータまたはそれぞれの情報に基づいて分割または区分化の決定および予測を実行する。モード適用ユニット３６０は、再構築画像、ブロック、またはそれぞれのサンプル（フィルタリング済みまたはフィルタリングされていない）に基づいてブロック毎に予測（イントラまたはインター予測）を実行し、予測ブロック３６５を取得するように構成されてよい。

ビデオスライスがイントラ符号化（Ｉ）スライスとして符号化される場合、モード適用ユニット３６０のイントラ予測ユニット３５４は、シグナリングされたイントラ予測モードおよび現在の画像の以前にデコードされたブロックからのデータに基づいて、現在のビデオスライスの画像ブロックに対する予測ブロック３６５を生成するように構成される。

ビデオ画像がインター符号化（すなわち、ＢまたはＰ）スライスとして符号化されている場合、モード適用ユニット３６０のインター予測ユニット３４４（例えば、動き補償ユニット）は、動きベクトルおよびエントロピーデコーディングユニット３０４から受信された他のシンタックス要素に基づいて、現在のビデオスライスのビデオブロックのための予測ブロック３６５を生成するように構成されている。インター予測では、予測ブロックは、複数の参照画像リストのうちの１つに含まれる複数の参照画像のうちの１つから生成されてよい。ビデオデコーダ３０は、リスト０およびリスト１という基準フレームリストを、デフォルトの構築技術を用いて、ＤＰＢ３３０に保存された参照画像に基づいて構築してよい。同一または同様のことが、スライス（例えばビデオスライス）に追加的または代替的にタイルグループ（例えばビデオタイルグループ）および／またはタイル（例えばビデオタイル）を使用する実施形態について、または、それによって適用され得る。例えば、ビデオは、Ｉ、Ｐ、またはＢタイルグループおよび／またはタイルを使用して符号化され得る。

モード適用ユニット３６０は、動きベクトルまたは関連情報および他のシンタックス要素を解析することによって、現在のビデオスライスのビデオブロックのための予測情報を決定するように構成され、デコードされている現在のビデオブロックのための予測ブロックを生成するために上述の予測情報を使用する。例えば、モード適用ユニット３６０は、受信されたシンタックス要素のいくつかを用いて、ビデオスライスのビデオブロックを符号化するのに用いられた予測モード（例えば、イントラまたはインター予測）、インター予測スライスタイプ（例えば、Ｂスライス、Ｐスライス、またはＧＰＢスライス）、スライスのための参照画像リストのうちの１または複数に関する構築情報、スライスの各インターエンコードされたビデオブロック毎の動きベクトル、スライスのインター符号化されたビデオブロック毎のインター予測ステータス、および現在のビデオスライス内のビデオブロックをデコードするための他の情報を決定する。同一または同様のことが、スライス（例えばビデオスライス）に追加的または代替的にタイルグループ（例えばビデオタイルグループ）および／またはタイル（例えばビデオタイル）を使用する実施形態について、または、それによって適用され得る。例えば、ビデオは、Ｉ、Ｐ、またはＢタイルグループおよび／またはタイルを使用して符号化され得る。

図３に示されるビデオデコーダ３０の実施形態は、スライス（ビデオスライスとも称される）を使用して、画像を区分化および／またはデコードするように構成されてよく、画像は、１または複数のスライス（典型的には非重複）を使用して区分化またはデコードされてよく、各スライスは、１または複数のブロック（例えば、ＣＴＵ）を含んでよい。

図３に示されるビデオデコーダ３０の実施形態は、タイルグループ（ビデオタイルグループとも称される）および／またはタイル（ビデオタイルとも称される）を使用して、画像を区分化および／またはデコードするように構成されてよく、画像は、１または複数のタイルグループ（典型的には非重複）を使用して区分化またはデコードされてよく、各タイルグループは、例えば、１または複数のブロック（例えば、ＣＴＵ）もしくは１または複数のタイルを含んでよく、各タイルは、例えば、長方形の形状であってよく、１または複数のブロック（例えば、ＣＴＵ）、例えば、完全なまたは部分的なブロックを含んでよい。

ビデオデコーダ３０の他の変更形態を、エンコードされた画像データ２１をデコードするのに用いることができる。例えば、デコーダ３０は、ループフィルタリングユニット３２０を用いずに、出力ビデオストリームを生成することができる。例えば、非変換ベースのデコーダ３０は、特定のブロックまたはフレームのための逆変換処理ユニット３１２を用いずに、残差信号を直接的に逆量子化することができる。別の実装において、ビデオデコーダ３０は、単一のユニットに組み合わされた逆量子化ユニット３１０および逆変換処理ユニット３１２を有することができる。

エンコーダ２０およびデコーダ３０において、現在の段階の処理結果は、さらに処理されて、その後、次の段階に出力されてよいことが理解されるべきである。例えば、補間フィルタリング、動きベクトル導出またはループフィルタリングの後に、クリップまたはシフト等のさらなる操作を、補間フィルタリング、動きベクトル導出またはループフィルタリングの処理結果に対して実行してよい。

さらなる操作を、現在のブロックの導出された動きベクトル（限定しないが、アフィンモードの制御点動きベクトル、アフィン、平面、ＡＴＭＶＰモードにおけるサブブロック動きベクトル、時間的な動きベクトル等を含む）に適用してよいことに留意すべきである。例えば、動きベクトルの値は、その表現ビットによって予め定義された範囲に制限される。動きベクトルの表現ビットがｂｉｔＤｅｐｔｈである場合、即ち、その範囲は、－２＾（ｂｉｔＤｅｐｔｈ－１）～２＾（ｂｉｔＤｅｐｔｈ－１）－１であり、ここで、「＾」はべき乗を意味する。例えば、ｂｉｔＤｅｐｔｈが１６に等しく設定されている場合、その範囲は－３２７６８～３２７６７であり、ｂｉｔＤｅｐｔｈが１８に等しく設定されている場合、その範囲は－１３１０７２～１３１０７１である。例えば、導出された動きベクトル（例えば、１つの８×８ブロックにおける４つの４×４サブブロックのＭＶ）の値は、４つの４×４サブブロックＭＶの整数部分の間の最大差が、１画素以下など、Ｎ画素以下であるように制限される。ここで、ｂｉｔＤｅｐｔｈによって動きベクトルを制限する２つの方法を提供する。

方法１：フロー演算によりオーバフローＭＳＢ（最上位ビット）を除去する。

ｍｖｘは、イメージブロックまたはサブブロックの動きベクトルの水平成分であり、ｍｖｙは、イメージブロックまたはサブブロックの動きベクトルの垂直成分であり、ｕｘおよびｕｙは、中間値を示す。

例えば、式（１）および（２）の適用後、ｍｖｘの値が－３２７６９である場合、結果として得られる値は３２７６７である。コンピュータシステムにおいて、十進数は、２の補数として保存される。－３２７６９の２の補数は、１，０１１１，１１１１，１１１１，１１１１（１７ビット）であり、その後、ＭＳＢが破棄されるので、結果として得られる２の補数は、式（１）および（２）を適用することによる出力と同じである０１１１，１１１１，１１１１，１１１１（十進数は３２７６７である）である。

操作は、式（５）～（８）に示すように、ｍｖｐおよびｍｖｄの合計中に適用されてよい。

方法２：値をクリップしてオーバフローＭＳＢを除去する。

ここで、ｖｘは画像ブロックまたはサブブロックの動きベクトルの水平成分、ｖｙは画像ブロックまたはサブブロックの動きベクトルの垂直成分、ｘ、ｙ、ｚはそれぞれＭＶクリップ処理の３つの入力値に対応し、関数Ｃｌｉｐ３の定義は以下のとおりである。

図４は、本開示の一実施形態によるビデオコーディングデバイス４００の概略図である。

ビデオコーディングデバイス４００は、本明細書に記載の開示される実施形態を実装するのに好適なものである。一実施形態において、ビデオコーディングデバイス４００は、図１Ａのビデオデコーダ３０等のデコーダ、または、図１Ａのビデオエンコーダ２０等のエンコーダであってよい。

ビデオコーディングデバイス４００は、データを受信するための入口ポート４１０（または、入力ポート４１０）および受信器ユニット（Ｒｘ）４２０と、データを処理するためのプロセッサ、論理ユニット、または中央演算処理装置（ＣＰＵ）４３０と、データを送信するための送信器ユニット（Ｔｘ）４４０および出口ポート４５０（または出力ポート４５０）と、データを保存するためのメモリ４６０とを備える。ビデオコーディングデバイス４００は、入口ポート４１０、受信器ユニット４２０、送信器ユニット４４０、および、光または電気信号の出入りのための出口ポート４５０に連結されている、光／電気（ＯＥ）構成要素および電気／光（ＥＯ）構成要素を備えてもよい。

プロセッサ４３０は、ハードウェアおよびソフトウェアによって実装される。プロセッサ４３０は、１または複数のＣＰＵチップ、コア（例えば、マルチコアプロセッサとして）、ＦＰＧＡ、ＡＳＩＣ、およびＤＳＰとして実装されてよい。プロセッサ４３０は、入口ポート４１０、受信器ユニット４２０、送信器ユニット４４０、出口ポート４５０、およびメモリ４６０と通信する。プロセッサ４３０は、コーディングモジュール４７０を備える。コーディングモジュール４７０は、上述した開示される実施形態を実装する。例えば、コーディングモジュール４７０は、様々なコーディング演算を実装、処理、準備、または提供する。したがって、コーディングモジュール４７０を含むことにより、ビデオコーディングデバイス４００の機能の大幅な改善が提供され、ビデオコーディングデバイス４００の異なる状態への変換がもたらされる。代替的に、コーディングモジュール４７０は、メモリ４６０に保存されてプロセッサ４３０により実行される命令として実装される。

メモリ４６０は、１または複数のディスク、テープドライブ、およびソリッドステートドライブを備えてよく、プログラムが実行のために選択された場合のようなプログラムを保存するとともに、プログラム実行中に読み取られる命令およびデータを保存するために、オーバーフローデータストレージデバイスとして使用されてよい。メモリ４６０は、例えば、揮発性および／または不揮発性であってよく、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、三値連想メモリ（ＴＣＡＭ）、および／または、スタティックランダムアクセスメモリ（ＳＲＡＭ）であってよい。

図５は、例示的な実施形態に従い、図１のソースデバイス１２およびデスティネーションデバイス１４のいずれかまたは両方として使用され得る装置５００の簡略ブロック図である。

装置５００におけるプロセッサ５０２は、中央演算処理装置とすることができる。代替的に、プロセッサ５０２は、既存の、または、今後開発される、情報を操作または処理することができる任意の他のタイプのデバイス、または、複数のデバイスであり得る。開示される実装は、示されているような単一のプロセッサ、例えばプロセッサ５０２を用いて実施され得るが、速度および効率上の利点は、１つより多くのプロセッサを用いて達成され得る。

装置５００におけるメモリ５０４は、実装において、リードオンリメモリ（ＲＯＭ）デバイスまたはランダムアクセスメモリ（ＲＡＭ）デバイスとすることができる。任意の他の好適なタイプのストレージデバイスが、メモリ５０４として用いられ得る。メモリ５０４は、バス５１２を用いてプロセッサ５０２によってアクセスされるコードおよびデータ５０６を備えることができる。メモリ５０４は、オペレーティングシステム５０８およびアプリケーションプログラム５１０をさらに備えることができ、アプリケーションプログラム５１０は、プロセッサ５０２が本明細書に記載の方法を実行することを可能にする少なくとも１つのプログラムを含む。例えば、アプリケーションプログラム５１０は、アプリケーション１～Ｎを含むことができ、アプリケーション１～Ｎは、本明細書に記載の方法を実行するビデオコーディングアプリケーションをさらに含む。

装置５００は、ディスプレイ５１８等の、１または複数の出力デバイスも備えることができる。ディスプレイ５１８は、一例において、ディスプレイと、タッチ入力を検知するように動作可能なタッチセンサ素子とを組み合わせたタッチセンサ式ディスプレイであってよい。ディスプレイ５１８は、バス５１２を介してプロセッサ５０２に連結され得る。

単一のバスとして本明細書に示したが、装置５００のバス５１２は、複数のバスから構成することができる。さらに、セカンダリストレージ５１４は、装置５００の他のコンポーネントに直接的に連結されてもよく、またはネットワークを介してアクセスされてもよく、メモリカードなどの単一の統合されたユニットまたは複数のメモリカードなどの複数のユニットを備えてよい。したがって、装置５００は、多種多様な構成で実装することができる。

［背景技術］
［パラメータセット］
パラメータセットは、基本的に同様で、同じ基本的な設計目標（すなわち、ビットレート効率、エラー耐性、およびシステム層インタフェースの提供）を共有している。ＨＥＶＣ（Ｈ．２６５）には、ビデオパラメータセット（ＶＰＳ）、シーケンスパラメータセット（ＳＰＳ）、および画像パラメータセット（ＰＰＳ）を含むパラメータセットの階層が存在し、それらはＡＶＣおよびＶＶＣにおいて自らのカウンターパートと同様である。各スライスは、スライスをデコードするのに使用される情報にアクセスするために、単一のアクティブＰＰＳ、ＳＰＳおよびＶＰＳを参照する。ＰＰＳは、画像内の全てのスライスに適用される情報を含むので、画像内の全てのスライスは同じＰＰＳを参照しなければならない。異なる画像内のスライスも、同じＰＰＳを参照することが可能である。同様に、ＳＰＳは、同じ符号化ビデオシーケンスで全ての画像に適用される情報を含む。

ＰＰＳは個別の画像ごとに異なり得るが、符号化ビデオシーケンスにおける多くのまたは全ての画像が同じＰＰＳを参照することは一般的である。パラメータセットを再利用することは、共有された情報を複数回送信する必要性を回避するので、ビットレートが効率的にさせる。それはまた、パラメータセットのコンテンツを、それが損失されないことを確実にするべく、いくつかのより信頼できる外部の通信リンクによって搬送されるまたはビットストリーム内で頻繁に繰り返されることを可能にするので、損失に強い。

シーケンスパラメータセット（ＳＰＳ）：各画像ヘッダにあるシンタックス要素が参照するＰＰＳにあるシンタックス要素の内容によって決定される、ゼロまたはそれ以上のＣＬＶＳＳ全体に適用されるシンタックス要素を含むシンタックス構造。

パラメータセット（ＶＰＳまたはＳＰＳなど）は、通常、ＲａｗＢｙｔｅＳｅｑｕｅｎｃｅＰａｙｌｏａｄ（ＲＢＳＰ）という形態でカプセル化されている。ＲＢＳＰは、ＮＡＬユニットでカプセル化された整数バイトを含むシンタックス構造であり、空であるか、またはシンタックス要素を含むデータストリングビット列の後にＲＢＳＰストップビットと、０に等しいゼロまたはそれ以上の後続ビットが続く形式のいずれかである。

ＮＡＬユニットは、後に続くデータのタイプを示すインジケーションと、必要に応じてエミュレーション防止バイトが入り混じる（ＲａｗＢｙｔｅＳｅｑｕｅｎｃｅＰａｙｌｏａｄ）ＲＢＳＰの形式でそのデータを含むバイトを含むシンタックス構造である。エミュレーション防止バイトは、例えば、０×０３に等しいバイトである。

一般的に、ビットストリーム中のＮＡＬユニットは２つのクラスに分割することができる。ビデオコーディングレイヤ（ＶＣＬ）ＮＡＬユニットと非ＶＣＬＮＡＬユニットである。画像の必須符号化データを提供しないパラメータセット（ＶＰＳまたはＳＰＳなど）を含むＮＡＬユニットは、非ＶＣＬＮＡＬユニットタイプに属する。これに対して、画像の必須符号化データ（Ｉ画像符号化ビデオデータなど）を含むＮＡＬユニットをＶＣＬＮＡＬユニットと呼ぶ。

表５のＶＶＣＤｒａｆｔ８では、各ＮＡＬユニットのＮＡＬユニットタイプとその分類が定義されている。

さらなる詳細は、ＶＶＣＤｒａｆｔ８を参照されたい。

換言すれば、まずパラメータセットがＲＢＳＰにカプセル化され、さらにＲＢＳＰがＮＡＬユニットにカプセル化される。パラメータセットがＲＢＳＰにカプセル化される場合、ＲＢＳＰがバイト整合されていることを確認するべく、いくつかの余分なダミービットが付加されることがある。ＲＢＳＰをＮＡＬユニットでカプセル化する場合、ＮＡＬユニットヘッダの先頭にＮＡＬユニットヘッダが付加される。ＮＡＬユニットヘッダは、以下のシンタックス要素を持つ。

ｆｏｒｂｉｄｄｅｎ＿ｚｅｒｏ＿ｂｉｔは０に等しいものとする。
ｎｕｈ＿ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ＿ｂｉｔは０に等しいものとする。
ｎｕｈ＿ｌａｙｅｒ＿ｉｄは、ＶＣＬＮＡＬユニットが属するレイヤの識別子、または非ＶＣＬＮＡＬユニットが適用されるレイヤの識別子を指定する。
ｎａｌ＿ｕｎｉｔ＿ｔｙｐｅは、ＮＡＬユニットタイプを指定し、すなわち表５のＶＶＣＤｒａｆｔ８に規定されるＮＡＬユニットに含まれるＲＢＳＰデータ構造のタイプを指定する。
ｎｕｈ＿ｔｅｍｐｏｒａｌ＿ｉｄ＿ｐｌｕｓ１マイナス１は、ＮＡＬユニットの時間的識別子を指定する。

［スケーラブルビデオコーディング、レイヤおよびビデオパラメータセット（ＶＰＳ）］
スケーラブルビデオコーディングは、ビデオを複数のレイヤでコーディングするメカニズムを提供し、各レイヤは同じビデオシーンの異なる品質表現を表す。基準層（ＢＬ）は、最も低い品質表現である。１または複数のエンハンスメントレイヤ（ＥＬＳ）は、下位レイヤを参照して符号化され、改善されたビデオ品質を提供することができる。スケーラブル符号化されたビデオビットストリームのレイヤのサブセットをデコードすると、全ビットストリームをデコードした場合よりも低い結果であるが、依然として許容できる品質のビデオという結果となる。このため、ビットレートの低下により通常ビデオ品質の劣化がより激しくなり、しばしば急速に視聴に耐えられない品質になることがあるノンスケーラブルのビデオビットストリームと比較して、より緩やかな劣化が可能になる。

スケーラブルビデオシーケンスには、時間的スケーラビリティ、空間的スケーラビリティ、品質的スケーラビリティなどを含む、複数の種類のスケーラビリティが存在する。図６は、空間的および時間的スケーラビリティの両方を示す例を提供する。図６では、異なる解像度で符号化された２つのレイヤが存在する。ＢＬは低い解像度、ＥＬはより高い解像度であり、デコーダはＢＬ、ＥＬのいずれか、または両方のデコードを提供することで、空間的スケーラビリティを達成する。空間的スケーラビリティに加えて、時間的スケーラビリティも符号化レイヤの中で達成される。この例では、各符号化レイヤは２つの時間的サブレイヤに分割され、それぞれ時間ＩＤの０と１によってラベル付けされる。時間的スケーラビリティは、デコーダが時間的サブレイヤ０（時間ＩＤは０に等しい）のいずれかまたはサブレイヤ０と１の両方のデコードを提供することで達成される。

異なるレイヤの画像は、異なるレイヤＩＤ、例えば、シンタックス要素ｎｕｈ＿ｌａｙｅｒ＿ｉｄで割り当てられる。符号化レイヤビデオシーケンス（ＣＬＶＳ）は、ｎｕｈ＿ｌａｙｅｒ＿ｉｄが同じ値である一連の画像であり、デコーディング順で、特別な符号化レイヤビデオシーケンス開始符号化画像（ＣＬＶＳＳ、例えばイントラ画像）、後続のＣＬＶＳＳ画像ではないゼロまたはそれ以上の画像から構成され、それまでの全ての後続画像を含むが、ＣＬＶＳＳ画像であるいかなる後続画像は含まない。

ＶＰＳが適用できる符号化ビデオシーケンス（ＣＶＳ）は、１または複数の符号化レイヤビデオシーケンス（ＣＬＶＳ）で構成される。図６の例では、ＢＬとＥＬの最初の画像がＣＬＶＳＳ画像であり、全ての他の画像はＣＬＶＳＳ画像ではないと仮定すると、これは２つのＣＬＶＳＳから構成されるＣＶＳとなる。

レイヤは独立レイヤまたは従属レイヤを含み、従属レイヤの予測は、その１または複数の参照レイヤを参照してインターレイヤ予測を使用する必要があり、参照レイヤのレイヤＩＤは従属レイヤのレイヤＩＤよりも低くてもよい。インターレイヤ予測を用いずに、独立レイヤを予測する。

出力のために同時に関連付けられる異なるレイヤに属する画像は、アクセスユニット（ＡＵ）を形成する。例えば、図６では、画像Ａと画像Ｂは同じＡＵに属している。

図７は、画像を４つのタイル（２つのタイル列と２つのタイル行）、４つの長方形スライス、および３つのサブ画像に分割したものを示す。

ＩＴＵＪＶＥＴ－Ｑ２００１－ｖ１３のＶＰＳのレイヤとサブレイヤの情報の一部のスナップショットを以下の表のいくつかの部分に示し、ダウンロードリンクは以下の通りである。
ｈｔｔｐ：／／ｐｈｅｎｉｘ．ｉｔ－ｓｕｄｐａｒｉｓ．ｅｕ／ｊｖｅｔ／ｄｏｃ＿ｅｎｄ＿ｕｓｅｒ／ｄｏｃｕｍｅｎｔｓ／１７＿Ｂｒｕｓｓｅｌｓ／ｗｇ１１／ＪＶＥＴ－Ｑ２００１－ｖ１３．ｚｉｐ.

本出願の残りの部分では、この文献を簡略化してＶＶＣＤｒａｆｔ８と呼ぶ。

ＶＶＣＤｒａｆｔ８によると、
ｖｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄは、他のシンタックス要素（例えば、ＳＰＳ）が参照するためのＶＰＳの識別子を提供する。ｖｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄの値は０より大きいものとする。

ｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１ｐｌｕｓ１は、ＶＰＳを参照する各ＣＶＳで許される最大レイヤ数を指定する。

ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１ｐｌｕｓ１は、ＶＰＳを参照する各ＣＶＳのレイヤに存在してよい時間的サブレイヤの最大数を指定する。ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１の値は、０から６までを含む範囲であるものとする。

ｖｐｓ＿ａｌｌ＿ｌａｙｅｒｓ＿ｓａｍｅ＿ｎｕｍ＿ｓｕｂｌａｙｅｒｓ＿ｆｌａｇが１に等しい場合、ＶＰＳを参照している各ＣＶＳの全てのレイヤで、時間的サブレイヤの数が同じであることを指定する。ｖｐｓ＿ａｌｌ＿ｌａｙｅｒｓ＿ｓａｍｅ＿ｎｕｍ＿ｓｕｂｌａｙｅｒｓ＿ｆｌａｇが０に等しい場合、ＶＰＳを参照している各ＣＶＳのレイヤは、同じ数の時間的サブレイヤを持っていてもよく、または持っていなくてもよいことを指定する。存在しない場合、ｖｐｓ＿ａｌｌ＿ｌａｙｅｒｓ＿ｓａｍｅ＿ｎｕｍ＿ｓｕｂｌａｙｅｒｓ＿ｆｌａｇの値は１に等しいと推定される。存在しない場合、ｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１は０に等しいこと、または、ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１は０に等しいことは、ＣＶＳ内に最大１つのレイヤ、またはＣＶＳ内に最大１つのサブレイヤがあることを意味する。

ｖｐｓ＿ａｌｌ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒｓ＿ｆｌａｇが１に等しい場合、ＣＶＳの全てのレイヤがインターレイヤ予測を用いずに独立に符号化されることを指定する。ｖｐｓ＿ａｌｌ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒｓ＿ｆｌａｇが０に等しい場合、ＣＶＳの１または複数のレイヤがインターレイヤ予測を用いることができることを指定する。存在しない場合、ｖｐｓ＿ａｌｌ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒｓ＿ｆｌａｇの値は１に等しいと推定される。ＣＶＳに複数のレイヤがある場合のみ、このフラグが立つことは理解できる。

ｖｐｓ＿ｌａｙｅｒ＿ｉｄ［ｉ］は、ｉ番目のレイヤのｎｕｈ＿ｌａｙｅｒ＿ｉｄの値を指定する。任意の２つの非負の整数値ｍとｎについて、ｍがｎより小さい場合、ｖｐｓ＿ｌａｙｅｒ＿ｉｄ［ｍ］の値はｖｐｓ＿ｌａｙｅｒ＿ｉｄ［ｎ］より小さいものとする。

ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ｉ］が１に等しい場合、インデックスｉのレイヤはインターレイヤ予測を使用しないことを指定する。ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ｉ］が０に等しい場合、インデックスｉのレイヤはインターレイヤ予測を使用することができ、０からｉ－１までを含む範囲のｊのシンタックス要素ｖｐｓ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒ＿ｆｌａｇ［ｉ］［ｊ］がＶＰＳに存在することを指定する。存在しない場合、ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ｉ］の値は１に等しいと推定される。

ｖｐｓ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒ＿ｆｌａｇ［ｉ］［ｊ］が０に等しい場合、インデックスｊのレイヤはインデックスｉのレイヤの直接参照レイヤでないことを指定する。ｖｐｓ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒ＿ｆｌａｇ［ｉ］［ｊ］が１に等しい場合、インデックスｊのレイヤがインデックスｉのレイヤの直接参照レイヤであることを指定する。ｖｐｓ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒ＿ｆｌａｇ［ｉ］［ｊ］が０からｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１までを含む範囲のｉとｊに存在しない場合、０と等しいと推定される。ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ｉ］が０に等しい場合、ｖｐｓ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒ＿ｆｌａｇ［ｉ］［ｊ］の値が１と等しくなるように、０からｉ－１までを含む範囲で少なくとも１つの値のｊが存在するものとする。

ＶＰＳでシグナリングされた他のシンタックス要素もあるが、本発明にはあまり関係ない。詳細な説明は、ＶＶＣＤｒａｆｔ８を参照されたい。

［シーケンスパラメータセット（ＳＰＳ）］
ＳＰＳは、符号化ビデオシーケンスの１または複数の層に適用されるパラメータを含み、符号化ビデオシーケンス内で画像から画像に変更されない。通常、１つのＳＰＳは１つのＣＬＶＳに適用され、どのＶＰＳを参照しているかを表すＶＰＳ識別子が含まれる。異なるＣＬＶＳＳに適用される複数のＳＰＳが同一のＶＰＳを参照する場合、それらのＳＰＳのＶＰＳ識別子は同一であるものとする。

以下の表のいくつかの部分は、ＶＶＣＤｒａｆｔ８におけるＳＰＳのレイヤ関連シンタックス要素のシグナリングの一部のスナップショットを示す。

［ＤＰＢパラメータのシンタックス］

ｓｐｓ＿ｓｅｑ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄは、他のシンタックス要素（例えば、画像パラメータセット）が参照するための、ＳＰＳの識別子を提供する。

ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄは、０より大きい場合、ＳＰＳが参照するＶＰＳのｖｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄの値を指定する。

ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄが０に等しい場合、以下が適用される。
－ＳＰＳはＶＰＳを参照しない。
－ＳＰＳを参照している各ＣＬＶＳをデコーディングする場合、ＶＰＳは参照しない。
－ｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１の値は０に等しいと推定される。
－ＣＶＳは１つのレイヤのみを含む（すなわち、ＣＶＳ内の全てのＶＣＬＮＡＬユニットはｎｕｈ＿ｌａｙｅｒ＿ｉｄは同じ値でなければならない）。
－ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］の値は０に等しいと推定される。
－ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］の値は１に等しいと推定される。

変数ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］は、以下の処理を用いて取得する。

ｉのための０からｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１までを含む、ｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１とｖｐｓ＿ｌａｙｅｒ＿ｉｄ［ｉ］の値は、ＶＰＳでシグナリングされる。

ｉのための１からｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１までを含む、ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ｉ］の値は、ＶＰＳでシグナリングされる。

ＶＶＣＤｒａｆｔ８によると、
ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１ｐｌｕｓ１は、ＳＰＳを参照する各ＣＬＶＳに存在し得る時間的サブレイヤの最大数を指定する。ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１の値は、０からｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１までを含む範囲であるものとする。

本明細書の仕様に準拠したビットストリームでは、ｓｐｓ＿ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ＿４ｂｉｔｓは０に等しいものとする。ｓｐｓ＿ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ＿４ｂｉｔｓの他の値は、ＩＴＵ－Ｔ｜ＩＳＯ／ＩＥＣによる将来の使用のために確保される。

ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが１に等しい場合、ＳＰＳにｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ（）シンタックス構造と、ｄｐｂ＿ｐａｒａｍｅｔｅｒｓ（）シンタックス構造とが存在し、ｇｅｎｅｒａｌ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（）シンタックス構造と、ｏｌｓ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（）シンタックス構造もＳＰＳに存在してもよいことを指定する。ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが０に等しい場合は、これら４つのシンタックス構造のいずれもＳＰＳに存在しないことを指定する。ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値はｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］と等しいものとする。

ｓｐｓ＿ｇｅｎｅｒａｌ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、ｇｅｎｅｒａｌ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（）と、ｏｌｓ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（）のシグナリングを許可しない。したがって、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが１に等しくても、ｇｅｎｅｒａｌ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（）と、ｏｌｓ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（）のシグナリングは保証されない。しかしながら、シンタックス構造ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ（）と、ｄｐｂ＿ｐａｒａｍｅｔｅｒｓ（）は、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇのフラグにより直接コントロールされる。したがって、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値が１に等しい場合、これら２つのシンタックスは必ずシグナリングされる。ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ（）と、ｄｐｂ＿ｐａｒａｍｅｔｅｒｓ（）と、ｇｅｎｅｒａｌ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（）と、ｏｌｓ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（）のシンタックス構造の詳細は、ＶＶＣＤｒａｆｔ８を参照されたい。また、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇというシンタックスには制限があり、それを含むＳＰＳが独立レイヤに（すなわち、ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］が１に等しい）適用される場合、値は１に等しいものとする。

ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが０に等しい場合、ＣＬＶＳ内の符号化画像のインター予測にＩＬＲＰが使用されないことを指定する。ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが１に等しい場合、ＣＬＶＳ内の１または複数の符号化画像のインター予測にＩＬＲＰが使用される可能性があることを指定する。ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄが０に等しい場合、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいと推定される。ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］が１に等しい場合、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいものとする。

ＩＬＲＰとはインターレイヤ参照画像の略語で、同じＡＵでｎｕｈ＿ｌａｙｅｒ＿ｉｄが現在の画像のｎｕｈ＿ｌａｙｅｒ＿ｉｄより小さい画像のインター予測に使用される画像を表す用語である。例えば、図６において、画像Ａを画像Ｂのインター予測に使用する場合、Ａは画像ＢのＩＬＲＰとなる。

ｄｐｂ＿ｐａｒａｍｅｔｅｒｓ（）シンタックス構造は、１または複数のＯＬＳのＤＰＢサイズ、最大画像順序再設定数、および最大レイテンシの情報を提供する。

ＶＰＳにｄｐｂ＿ｐａｒａｍｅｔｅｒｓ（）シンタックス構造が含まれる場合、ｄｐｂ＿ｐａｒａｍｅｔｅｒｓ（）シンタックス構造が適用されるＯＬＳはＶＰＳによって指定される。ＳＰＳにｄｐｂ＿ｐａｒａｍｅｔｅｒｓ（）シンタックス構造が含まれる場合、ＳＰＳを参照するレイヤのうち最下位レイヤであるレイヤのみを含むＯＬＳに適用され、この最下位レイヤは独立レイヤである。

ｄｐｂ＿ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ］ｐｌｕｓ１は、Ｈｔｉｄがｉに等しい場合のＤＰＢの最大要求サイズを画像保存バッファの単位で指定する。ｄｐｂ＿ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ］の値は、０からＭａｘＤｐｂＳｉｚｅ－１までを含む範囲であるものとし、ＭａｘＤｐｂＳｉｚｅはＡ．４．２節に指定する。ｉが０より大きい場合、ｄｐｂ＿ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ］はｄｐｂ＿ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ－１］より大きいまたはそれと等しいものとする。ｓｕｂＬａｙｅｒＩｎｆｏＦｌａｇが０に等しいことにより、ｄｐｂ＿ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ］が０からＭａｘＳｕｂＬａｙｅｒｓＭｉｎｕｓ１－１までを含む範囲で存在しない場合、ｄｐｂ＿ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ＭａｘＳｕｂＬａｙｅｒｓＭｉｎｕｓ１］と等しいものと推定される。

ｄｐｂ＿ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］は、Ｈｔｉｄがｉに等しい場合、ＯＬＳ内の任意の画像に先行し、出力順序でその画像にデコーディング順で後続することができるＯＬＳ内の画像の最大許容個数を指定する。ｄｐｂ＿ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］の値は、０からｄｐｂ＿ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇ＿ｍｉｎｕｓ１［ｉ］までを含む範囲であるものとする。ｉが０より大きい場合、ｄｐｂ＿ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］はｄｐｂ＿ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ－１］より大きいまたはこれと等しいものとする。ｓｕｂＬａｙｅｒＩｎｆｏＦｌａｇが０に等しいことにより、０からＭａｘＳｕｂＬａｙｅｒｓＭｉｎｕｓ１－１までを含む範囲内のｉについてｄｐｂ＿ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］が存在しない場合、ｄｐｂ＿ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ＭａｘＳｕｂＬａｙｅｒｓＭｉｎｕｓ１］と等しいと推定される。０に等しくないｄｐｂ＿ｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｉ］は、ＭａｘＬａｔｅｎｃｙＰｉｃｔｕｒｅｓ［ｉ］の値の計算に用いられ、Ｈｔｉｄがｉに等しい場合、ＯＬＳ内の任意の画像に出力順序で先行し、その画像にデコーディング順で後続できるＯＬＳ内の画像の最大数を指定する。

ｄｐｂ＿ｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｉ］が０に等しくない場合、ＭａｘＬａｔｅｎｃｙＰｉｃｔｕｒｅｓ［ｉ］の値は以下のように指定される。

ＭａｘＬａｔｅｎｃｙＰｉｃｔｕｒｅｓ［ｉ］＝ｄｐｂ＿ｍａｘ＿ｎｕｍ＿ｒｅｏｒｄｅｒ＿ｐｉｃｓ［ｉ］＋ｄｐｂ＿ｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｉ］－１（１０６）である。

ｄｐｂ＿ｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｉ］が０に等しい場合、対応する制限は表されない。

ｄｐｂ＿ｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｉ］の値は、０から２３２－２までを含む範囲であるものとする。ｓｕｂＬａｙｅｒＩｎｆｏＦｌａｇが０に等しいことにより、ｄｐｂ＿ｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ｉ］が０からＭａｘＳｕｂＬａｙｅｒｓＭｉｎｕｓ１－１までを含む範囲のｉに存在しない場合、ｄｐｂ＿ｍａｘ＿ｌａｔｅｎｃｙ＿ｉｎｃｒｅａｓｅ＿ｐｌｕｓ１［ＭａｘＳｕｂＬａｙｅｒｓＭｉｎｕｓ１］と等しいことが推定される。

ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は、２つの制限がある。ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄの値が０に等しい場合、すなわちＣＶＳ内にレイヤが１つしかない場合は、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいものとする。ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］の値が１に等しい場合、すなわち現在のＣＬＶＳが独立レイヤである場合、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいものとする。

ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄ、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ、およびｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇのシンタックス要素のシグナリングは、いくつかの場合、冗長情報がシグナリングされることが確認された。

以下に提案する実施形態は、これらのシンタックス要素に起因するそのような冗長性を一掃することに努め、したがって、シグナリング効率を改善させる。

第１実施形態によれば、シンタックス要素ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄの値が０に等しくない場合にのみシグナリングされ、以下のようにハイライトされる。
表１：ＳＰＳのシンタックス要素

その理由は、ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄが０に等しい場合、ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］の値は１に等しいものとし、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値はｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］の値に等しい、すなわち１であるものとする。したがって、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値をシグナリングする必要はない。その代わり、ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄの値が０に等しい場合、その値は１と推定される。
ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの意味が以下のように変更され、追加部分がハイライトされる。

ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが１に等しい場合、ＳＰＳにｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ（）シンタックス構造とｄｐｂ＿ｐａｒａｍｅｔｅｒｓ（）シンタックス構造が存在し、ｇｅｎｅｒａｌ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（）シンタックス構造とｏｌｓ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（）シンタックス構造もＳＰＳに存在できることが指定される。ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが０に等しい場合、これら４つのシンタックス構造のいずれもＳＰＳに存在しないことが指定される。ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値はｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］と等しいものとする。存在しない場合、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は１に等しいと推定される。

第２実施形態によれば、シンタックス要素ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、シンタックス要素ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇおよびｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄに基づいて、以下のようにシグナリングされる。
表２：ＳＰＳのシンタックス要素

その理由は、ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄが０に等しい場合、ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］の値は１に等しいものとし、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいものとするからである。同様に、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値が１に等しい場合、ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］の値は同じであり、すなわち、１であるものとする。したがって、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの意味に適用される制約によって、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいものとする。

この２つの場合、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値をシグナリングする必要はない。その代わり、その値は０と推定される。ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの意味を以下のように変更し、変更点をハイライトする。

ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが０に等しい場合、ＣＬＶＳの符号化画像のインター予測にＩＬＲＰが使用されないことを指定する。ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが１に等しい場合、ＣＬＶＳ内の１または複数の符号化画像のインター予測にＩＬＲＰが使用される可能性があることを指定する。存在しない場合、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいと推定される。

第３実施形態によれば、シンタックス要素ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、シンタックス要素ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄに基づいて、以下のようにシグナリングされる。
表３：ＳＰＳのシンタックス要素

その理由は、ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄが０に等しい場合、ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］の値は１に等しいものとし、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいものとするからである。この場合、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値をシグナリングする必要はない。その代わり、その値は０と推定される。ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの意味を以下のように変更し、変更点をハイライトする。

ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが０に等しい場合，ＣＬＶＳの符号化画像のインター予測にＩＬＲＰが使用されないことを指定する。ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが１に等しい場合、ＣＬＶＳ内の１または複数の符号化画像のインター予測にＩＬＲＰが使用される可能性があることを指定する。ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］が１に等しい場合、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいものとする。存在しない場合、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいと推定される。

第４実施形態によれば、シンタックス要素ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、シンタックス要素ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇに基づいて、以下のようにシグナリングされる。
表４：ＳＰＳのシンタックス要素

その理由は、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値が１に等しい場合、ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］の値は同じ、すなわち１であるものとするからである。したがって、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの意味に適用される制約によって、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいものとする。

この場合、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値をシグナリングする必要はない。その代わり、その値は０と推定される。ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの意味を以下のように変更し、変更点をハイライトする。

ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが０に等しい場合、ＣＬＶＳの符号化画像のインター予測にＩＬＲＰが使用されないことを指定する。ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが１に等しい場合、ＣＬＶＳ内の１または複数の符号化画像のインター予測にＩＬＲＰが使用される可能性があることを指定する。ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄが０に等しい場合、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいものとする。存在しない場合、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいと推定される。

第５実施形態によれば、シンタックス要素ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、シンタックス要素ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇおよびｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄに基づいて、以下のようにシグナリングされる。
表５：ＳＰＳのシンタックス要素

その理由は、ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄが０に等しい場合、ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］の値は１に等しいものとし、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいものとするからである。同様に、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値が１に等しい場合、ｖｐｓ＿ｉｎｄｅｐｅｎｄｅｎｔ＿ｌａｙｅｒ＿ｆｌａｇ［ＧｅｎｅｒａｌＬａｙｅｒＩｄｘ［ｎｕｈ＿ｌａｙｅｒ＿ｉｄ］］の値は同じ、すなわち１に等しいものとする。

したがって、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの意味に適用される制約によって、ｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇの値は０に等しいものとする。

ＶＰＳはビットストリームには必要ないＮＡＬユニットである。したがって、ＶＰＳ内のいくつかのシンタックス要素が常に利用可能でない場合がある。しかしながら、ＳＰＳのいくつかのシンタックス要素の意味は、ＶＰＳのシンタックス要素に依存しており、問題となる可能性がある。

例えば、ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１の意味は、以下のように定義される。

ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１ｐｌｕｓ１は、ＳＰＳを参照する各ＣＬＶＳに存在し得る時間的サブレイヤの最大数を指定する。ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１の値は、０からｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１までを含む範囲であるものとする。

しかしながら、ＶＰＳがビットストリームに存在せず、シンタックス要素ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１に推定値が定義されていない場合、ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１に対する上述の範囲制約：

「ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１の値は、０からｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１までを含む範囲であるものとする」は定義されない。

ＶＰＳがビットストリームに存在しない場合を考慮して、ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１の意味を以下のように変更する。

ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１ｐｌｕｓ１は、ＳＰＳを参照する各ＣＬＶＳに存在し得る時間的サブレイヤの最大数を指定する。ＶＰＳが存在する場合、ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１の値は０からｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１までを含む範囲であるものとする。ＶＰＳが存在しない場合、ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１の値は、０から６までを含む範囲であるものとする。

ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１ｐｌｕｓ１は、ＳＰＳを参照する各ＣＬＶＳに存在し得る時間的サブレイヤの最大数を指定する。ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１が存在する場合、ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１の値は０からｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１までを含む範囲であるものとする。ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１が存在しないか、または推定される場合、ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１の値は０から６までを含む範囲であるものとする。

以下は、上述の実施形態に示されたような本出願のエンコーディング方法およびデコーディング方法の適用、ならびにそれらを使用するシステムの説明である。

図８は、コンテンツ配信サービスを実現するためのコンテンツ供給システム３１００を示すブロック図である。このコンテンツ供給システム３１００は、キャプチャデバイス３１０２、端末デバイス３１０６を含み、任意選択で、ディスプレイ３１２６を含む。キャプチャデバイス３１０２は、通信リンク３１０４を介して端末デバイス３１０６と通信する。通信リンクは、上述した通信チャネル１３を含んでよい。通信リンク３１０４は、限定されるものではないが、ＷＩＦＩ（登録商標）、イーサネット（登録商標）、ケーブル、無線（３Ｇ／４Ｇ／５Ｇ）、ＵＳＢまたはこれらの任意の種類の組み合わせなどを含む。

キャプチャデバイス３１０２は、データを生成し、上述の実施形態に示されたようなエンコーディング方法によってデータをエンコードすることができる。代替的に、キャプチャデバイス３１０２は、データをストリーミングサーバ（図示せず）に配信してよく、サーバは、データをエンコードして、エンコードされたデータを端末デバイス３１０６に送信する。キャプチャデバイス３１０２は、限定されるものではないが、カメラ、スマートフォンまたはパッド、コンピュータまたはラップトップ、ビデオ会議システム、ＰＤＡ、車載デバイスまたはそれらのいずれかの組み合わせなどを含む。例えば、上述したように、キャプチャデバイス３１０２はソースデバイス１２を含んでよい。データがビデオを含む場合、キャプチャデバイス３１０２に含まれるビデオエンコーダ２０は、ビデオエンコーディング処理を実際に実行してよい。データがオーディオ（すなわち、音声）を含む場合、キャプチャデバイス３１０２に含まれるオーディオエンコーダは、オーディオエンコーディング処理を実際に実行してよい。いくつかの実際のシナリオについて、キャプチャデバイス３１０２は、それらを一緒に多重化することにより、エンコードされたビデオおよびオーディオデータを配信する。他の実際のシナリオについて、例えば、ビデオ会議システムにおいて、エンコードされたオーディオデータおよびエンコードされたビデオデータは多重化されない。キャプチャデバイス３１０２は、エンコードされたオーディオデータおよびエンコードされたビデオデータを別個に端末デバイス３１０６に配信する。

コンテンツ供給システム３１００では、端末デバイス３１０がエンコードされたデータを受信して再生する。端末デバイス３１０６は、データ受信および復元機能を有するデバイスであり、例えば、スマートフォンまたはパッド３１０８、コンピュータまたはラップトップ３１１０、ネットワークビデオレコーダ（ＮＶＲ）／デジタルビデオレコーダ（ＤＶＲ）３１１２、ＴＶ３１１４、セットトップボックス（ＳＴＢ）３１１６、ビデオ会議システム３１１８、ビデオ監視システム３１２０、パーソナルデジタルアシスタント（ＰＤＡ）３１２２、車載デバイス３１２４、またはそれらのいずれかの組み合わせや、上述したエンコードされたデータをデコードできるものなどであってよい。例えば、上述したように、端末デバイス３１０６はデスティネーションデバイス１４を含んでよい。エンコードされたデータがビデオを含む場合、端末デバイスに含まれるビデオデコーダ３０は、ビデオデコーディングを実行することを優先させる。エンコードされたデータがオーディオを含む場合、端末デバイスに含まれるオーディオデコーダは、オーディオデコーディング処理を実行することを優先させる。

そのディスプレイを有する端末デバイス、例えば、スマートフォンまたはパッド３１０８、コンピュータまたはラップトップ３１１０、ネットワークビデオレコーダ（ＮＶＲ）／デジタルビデオレコーダ（ＤＶＲ）３１１２、ＴＶ３１１４、パーソナルデジタルアシスタント（ＰＤＡ）３１２２、または車載デバイス３１２４の場合、端末デバイスは、デコードされたデータをそのディスプレイに供給することができる。ディスプレイを搭載していない端末デバイス、例えば、ＳＴＢ３１１６、ビデオ会議システム３１１８またはビデオ監視システム３１２０について、外部ディスプレイ３１２６は、デコードされたデータを受信および示すために、内部で接触される。

本システムにおける各デバイスがエンコーディングまたはデコーディングを実行する場合、上述の実施形態で示したような画像エンコーディングデバイスまたは画像デコーディングデバイスを用いることができる。

図９は、端末デバイス３１０６の構造の例を示す図である。端末デバイス３１０６がキャプチャデバイス３１０２からストリームを受信した後に、プロトコル処理ユニット３２０２は、ストリームの送信プロトコルを分析する。プロトコルは、限定されるものではないが、リアルタイムストリーミングプロトコル（ＲＴＳＰ）、ハイパーテキストトランスファープロトコル（ＨＴＴＰ）、ＨＴＴＰライブストリーミングプロトコル（ＨＬＳ）、ＭＰＥＧ－ＤＡＳＨ、リアルタイムトランスポートプロトコル（ＲＴＰ）、リアルタイムメッセージングプロトコル（ＲＴＭＰ）、または、これらの任意の種類の組み合わせなどを含む。プロトコル処理ユニット３２０２がストリームを処理した後、ストリームファイルが生成される。当該ファイルは、逆多重化ユニット３２０４に出力される。逆多重化ユニット３２０４は、多重化されたデータをエンコードされたオーディオデータおよびエンコードされたビデオデータに分離できる。上述したように、いくつかの実際のシナリオについて、例えば、ビデオ会議システムでは、エンコードされたオーディオデータおよびエンコードされたビデオデータは多重化されていない。この状況において、エンコードされたデータは、逆多重化ユニット３２０４を通すことなく、ビデオデコーダ３２０６およびオーディオデコーダ３２０８へ送信される。

この逆多重化処理により、ビデオエレメンタリストリーム（ＥＳ）と、オーディオＥＳと、任意選択でサブタイトルが生成される。上述の実施形態において説明したように、ビデオデコーダ３０を含むビデオデコーダ３２０６は、上述の実施形態に示されるようなデコーディング方法により、ビデオＥＳをデコードしてビデオフレームを生成し、このデータを同期ユニット３２１２に供給する。オーディオデコーダ３２０８は、オーディオＥＳをデコードしてオーディオフレームを生成し、このデータを同期ユニット３２１２に供給する。代替的に、ビデオフレームは、それを同期ユニット３２１２に供給する前に、（図９には図示せず）バッファに格納されてよい。同様に、オーディオフレームは、それを同期ユニット３２１２に供給する前に、（図９には図示せず）バッファに格納されてよい。

同期ユニット３２１２は、ビデオフレームとオーディオフレームを同期させ、ビデオ／オーディオをビデオ／オーディオディスプレイ３２１４に供給する。例えば、同期ユニット３２１２は、ビデオおよびオーディオ情報の提示を同期させる。情報は、符号化されたオーディオおよびビジュアルデータの提示に関するタイムスタンプ、および、データストリーム自体の配信に関するタイムスタンプを用いてシンタックスで符号化してよい。

ストリームに字幕が含まれている場合、字幕デコーダ３２１０は、字幕をデコードし、それをビデオフレームおよびオーディオフレームと同期させ、ビデオ／オーディオ／字幕をビデオ／オーディオ／字幕ディスプレイ３２１６に供給する。

以上の説明にしたがって、ビデオビットストリームのデコーディング方法と、ビデオビットストリームのエンコーディング方法が本明細書で提供される。これに対応して、（符号化）ビデオビットストリームをデコーディングするための装置およびビデオビットストリームをデコーディングするための装置が本明細書に提供される。

図１０は、デコーディングデバイスによって実装されるビデオビットストリームをデコーディング方法を示し、ビットストリームは、ビデオシーケンスに適用されるシンタックス要素を含む現在のシーケンスパラメータセット（ＳＰＳ）を含み、この方法は：現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）に存在することが許される時間的サブレイヤの最大数を決定するために使用される第１のシンタックス要素（例えば、ｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１）（の値）を取得する段階１０１０であって、第１のシンタックス要素の値が０から第１の値の範囲であり、第１の値が、第２のシンタックス要素がＳＰＳによって参照される場合に、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）内のレイヤに存在することが許される時間的サブレイヤの最大数を決定するために使用される第２のシンタックス要素（例えば、ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１）の値である段階と、第１のシンタックス要素の値に基づいてビットストリームをデコーディングする段階１０２０と、を含む。

ビットストリームは、無線ネットワークまたは有線ネットワークによって取得してもよいことに留意されたい。ビットストリームは、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者線（ＤＳＬ）、または赤外線、ラジオ、マイクロ波、ＷＩＦＩ、ブルートゥース（登録商標）、ＬＴＥまたは５Ｇなどの無線技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合がある。ビットストリームは、ネットワーク抽象化レイヤ（ＮＡＬ）ユニットストリームまたはバイトストリームの形態で、１または複数の符号化ビデオシーケンス（ＣＶＳ）を形成するアクセスユニット（ＡＵ）のシーケンスの表現を形成する、ビットのシーケンスであってよい。

具体例では、ビットストリームフォーマットはネットワーク抽象化レイヤ（ＮＡＬ）ユニットストリームとバイトストリームの関係を指定し、そのいずれかをビットストリームと呼ぶ。

ビットストリームの形式は、ＮＡＬユニットストリーム形式またはバイトストリーム形式の２つの形式の内の１つであってよい。ＮＡＬユニットストリーム形式は、概念的にはより「基本的」なタイプである。ＮＡＬユニットストリーム形式は、ＮＡＬユニットと呼ばれる一連のシンタックス構造で構成される。このシーケンスは、デコーディング順に並んでいる。ＮＡＬユニットストリームにおけるＮＡＬユニットのデコーディング順（および内容）には制約が課せられている。

バイトストリーム形式は、ＮＡＬユニットをデコーディング順に並べ、各ＮＡＬユニットに開始コードプレフィクスとゼロまたはそれ以上の０値バイトをプレフィクスしてバイトのストリームを形成することにより、ＮＡＬユニットストリーム形式から構築することができる。このバイトのストリーム内でユニークな開始コードプレフィクスパターンの位置を検索することで、バイトストリーム形式の中からＮＡＬユニットストリーム形式を抽出することができる。

図１１は、エンコーディングデバイスによって実装されるビデオビットストリームのエンコーディング方法を示し、ビットストリームは、ビデオシーケンスに適用されるシンタックス要素を含む現在のシーケンスパラメータセット（ＳＰＳ）を含み、この方法は、第２のシンタックス要素がＳＰＳによって参照されるかどうかを決定する段階１１１０であって、第２のシンタックス要素（例えば、ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１）は、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）内のレイヤに存在することが許される時間的サブレイヤの最大数を決定するために使用される段階と、現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）において存在することが許される時間的サブレイヤの最大数を決定するために使用される第１のシンタックス要素の値を、第１のシンタックス要素の範囲に基づいて決定する段階１１２０であって、この範囲は０から第１の値であり、第１の値は第２のシンタックス要素がＳＰＳによって参照されると決定した場合の第２のシンタックス要素の値である段階と、および、第１のシンタックス要素の値をビットストリームにエンコーディングする段階１１３０と、を含む。

上述の方法は、以下に記載するように、ビデオデコーディング装置またはビデオエンコーディング装置（ビットストリームを生成する）においてそれぞれ実装することができる。

図１２に示すように、本明細書で提供する一実施形態によるビデオデコーディング装置１２００は、取得ユニット１２１０とデコーディングユニット１２２０とから構成される。図１３に示すように、本明細書で提供される一実施形態によるビデオエンコーディング装置１３００は、決定ユニット１３１０とエンコーディングユニット１３２０とから構成される。

図１２に示すビデオデコーディング装置１２００に含まれる取得ユニット１２１０は、現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）に存在することが許される時間的サブレイヤの最大数を決定するために用いられる第１のシンタックス要素（の値）を取得するように構成され、第１のシンタックス要素の値は０から第１の値の範囲にあり、第１の値が、第２のシンタックス要素がＳＰＳによって参照される場合に、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）内のレイヤに存在することが許される時間的サブレイヤの最大数を決定するために使用される第２のシンタックス要素の値である。図１２に示すビデオデコーディング装置１２００に含まれるデコーディングユニット１２２０は、第１のシンタックス要素の値に基づいてビットストリームをデコーディングするように構成されている。

ここで、取得ユニット１２１０は、エントロピーデコーディングユニット３０４であってもよい。デコーディングユニット１２２０は、ビットストリームのデコーディングに用いられる図３に示す１または複数のユニットで構成されてもよい。

図１３に示すビデオエンコーディング装置１３００に含まれる決定ユニット１３１０は、第２のシンタックス要素がＳＰＳによって参照されるかどうかを決定するように構成され、第２のシンタックス要素（例えば。ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１）は、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）内のレイヤに存在することが許される時間的サブレイヤの最大数を決定するために使用され、現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）において存在することが許される時間的サブレイヤの最大数を決定するために使用される第１のシンタックス要素の値を、第１のシンタックス要素の範囲に基づいて決定し、この範囲は０から第１の値であり、第１の値は第２のシンタックス要素がＳＰＳによって参照されると決定された場合の第２のシンタックス要素の値である。図１３に示すビデオエンコーディング装置１３００に含まれるエンコーディングユニット１３２０は、第１のシンタックス要素の値をビットストリームにエンコーディングするように構成される。

ここで、エンコーディングユニット１３２０は、エントロピーエンコーディングユニット２７０であってもよい。決定ユニット１２２０は、図２に示す１または複数のユニットで構成されてもよい。

図１２に示すビデオデコーディング装置１２００は、図１Ａ、図１Ｂ、および図３に示すデコーダ３０や、図９に示すビデオデコーダ３２０６であってもよく、またはこれらで構成してもよい。また、デコーディングデバイス１２００は、図４に示すビデオコーディングデバイス４００、図５に示す装置５００、および図８に示す端末デバイス３１０６で構成してもよい。図１３に示すエンコーディングデバイス１３００は、図１Ａ、図１Ｂ、図３に示すエンコーダ２０であってもよいし、または、図１Ａ、図１Ｂ、図３に示すエンコーダ２０を含んでもよい。さらに、エンコーディングデバイス１２００は、図４に示すビデオコーディングデバイス４００、図５に示す装置５００、および図８に示すキャプチャデバイス３１０２で構成してもよい。

本発明は、上述のシステムに限定されるものではなく、上述の実施形態における画像エンコーディングデバイスまたは画像デコーディングデバイスのいずれかを、他のシステム、例えば、自動車システムに組み込むことも可能である。

特に、以下のさらなる態様も本明細書に提供され、これらは、態様１～１７に列挙される。

（項目１）
デコーディングデバイスによって実装されるビデオまたは画像のビットストリームのデコーディング方法の態様であって、前記ビットストリームは、現在のシーケンスパラメータセット（ＳＰＳ）を表すデータを含み、
ビットストリームを解析することによって少なくとも１つのシンタックス構造（例えば、ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ（）、ｄｐｂ＿ｐａｒａｍｅｔｅｒｓ（）、ｇｅｎｅｒａｌ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（）またはｏｌｓ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（））がＳＰＳに存在するかどうかを指定する第１のシンタックス要素（例えば、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ）を取得する段階であって、前記存在条件が満たされる場合、前記存在条件は、第２のシンタックス要素（例えば、ｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄ）の値が予め設定された値（例えば、０）に等しくないことを含む段階と、前記第１のシンタックス要素の値に基づいて、前記少なくとも１つのシンタックス構造を取得する段階と、
前記少なくとも１つのシンタックス構造に基づいて前記ビットストリームをデコーディングする段階と、を備える方法の態様。

（項目２）
前記第２のシンタックス要素は、現在のＳＰＳが参照する、または現在のＳＰＳがＶＰＳを参照しないことを示すビデオパラメータセット（ＶＰＳ）の識別子を指定する、態様１に記載の方法の態様。

（項目３）
前記存在条件が満たされていない場合、前記第１のシンタックス要素の値はデフォルト値（例えば１）に等しいと推定される、態様１から２に記載の方法の態様。

（項目４）
デコーディングデバイスによって実装されるビデオまたは画像のビットストリームのデコーディング方法の態様であって、シーケンスパラメータセット（ＳＰＳ）を表すデータを含むビットストリームが現在の符号化レイヤビデオシーケンス（ＣＬＶＳ）に適用され、
存在条件が満たされる場合、ビットストリームを解析することによって、ＣＬＶＳにおける１または複数の符号化画像のインター予測のためにインターレイヤ参照画像（ＩＬＲＰ）が使用されてもよいかどうかを指定する第１のシンタックス要素（例えばｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ）を取得する段階であって、前記存在条件は、第２のシンタックス要素（例えばｓｐｓ＿ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄ）の値が予め設定された値（例えば０）に等しくないことを含む段階と、
前記第１のシンタックス要素の値に基づいて、現在のＣＬＶＳにおける現在の画像を予測する段階と、を備える方法の態様。

（項目５）
前記第２のシンタックス要素は、現在のＳＰＳが参照する、または、現在のＳＰＳがＶＰＳを参照しないことを示す、ビデオパラメータセット（ＶＰＳ）の識別子を指定する、態様４に記載の方法の態様。

（項目６）
前記存在条件が満たされていない場合、前記第１のシンタックス要素の値は、デフォルト値（例えば０）に等しいと推定される、態様４から５に記載の方法の態様。

（項目７）
デコーディングデバイスによって実装されるビデオまたは画像のビットストリームのデコーディング方法の態様であって、シーケンスパラメータセット（ＳＰＳ）を表すデータを含むビットストリームが現在の符号化レイヤビデオシーケンス（ＣＬＶＳ）に適用され、
存在条件が満たされる場合に、ビットストリームを解析することによって、ＣＬＶＳにおける１または複数の符号化画像のインター予測のためにインターレイヤ参照画像（ＩＬＲＰ）が使用され得るかどうかを指定する第１のシンタックス要素（例えばｉｎｔｅｒ＿ｌａｙｅｒ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ）を取得する段階であって、前記存在条件は、第２のシンタックス要素（例えば、ｓｐｓ＿ｐｔｌ＿ｄｐｂ＿ｈｒｄ＿ｐａｒａｍｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ）の値が予め設定された値（例えば、１）に等しくないことを含み、前記第２のシンタックス要素は、ビットストリームに表されるシーケンスパラメータセット（ＳＰＳ）内に少なくとも１つのシンタックス構造（例えば、ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ（）、ｄｐｂ＿ｐａｒａｍｅｔｅｒｓ（）、ｇｅｎｅｒａｌ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（）、またはｏｌｓ＿ｈｒｄ＿ｐａｒａｍｅｔｅｒｓ（））が存在するかどうかを指定する段階と、
前記第１のシンタックス要素の値に基づいて、現在のＣＬＶＳにおける現在の画像を予測する段階と、を備える方法の態様。

（項目８）
態様７に記載の方法において、存在条件が満たされていない場合、前記第１のシンタックス要素の値はデフォルト値（例えば、０）に等しいと推定される態様。

（項目９）
デコーディングデバイスによって実装されるビデオまたは画像のビットストリームのデコーディング方法の態様であって、前記ビットストリームは、現在のシーケンスパラメータセット（ＳＰＳ）を表すデータを含み、
現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）に存在し得る時間的サブレイヤの最大数を決定するために使用される第１のシンタックス要素（例えばｓｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１）を取得する段階であって、前記第１のシンタックス要素の値は０から第１の値の範囲にあり、前記第１の値は第２のシンタックス要素（例えば、ｖｐｓ＿ｍａｘ＿ｓｕｂｌａｙｅｒｓ＿ｍｉｎｕｓ１）の値であり、第２のシンタックス要素がビットストリーム中に存在する場合に、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）中のレイヤに存在し得る時間的サブレイヤの最大数を決定するために使用される段階と、
前記第１のシンタックス要素の値に基づいて前記ビットストリームをデコーディングする段階と、を備える方法の態様。

（項目１０）
前記ビットストリームをデコーディングすることは、前記デコーディング能力情報を取得することと、前記デコーディング能力情報に基づいて前記ビットストリームをデコーディングすることとを含む、態様９に記載の方法の態様。

（項目１１）
前記第２のシンタックス要素が前記ビットストリームに存在しない場合、前記第１の値は予め設定された値である、態様９または１０に記載の方法の態様。

（項目１２）
前記第２のシンタックス要素が前記ビットストリームに存在することは、前記ＶＰＳが前記ビットストリームに存在することを構成し、前記第２のシンタックス要素が前記ビットストリームに存在しないことは、ＶＰＳがビットストリームに存在しないことを構成する、態様９から１１のいずれか一つに記載の方法の態様。

（項目１３）
態様９に記載の方法の態様で、ＣＶＳは１または複数のＣＬＶＳを含み、ＶＰＳはゼロまたはそれ以上のＳＰＳで参照される態様。

（項目１４）
態様１から１３のいずれか一つに記載の方法を実行するための処理回路を備えるデコーダ（３０）の態様。

（項目１５）
コンピュータ上またはプロセッサ上で実行される場合、先行する態様のいずれか一つに記載の方法を実行するためのプログラムコードを含むコンピュータプログラム製品の態様。

（項目１６）
デコーダの態様であって、
１または複数のプロセッサと、
前記プロセッサに連結され、前記プロセッサによる実行のためのプログラミングを記憶する非一時的コンピュータ可読記憶媒体であって、前記プログラミングは、前記プロセッサにより実行された場合、先行する態様のいずれか１つに記載の方法を実行するよう前記デコーダを構成する、非一時的コンピュータ可読記憶媒体と
を備える、デコーダ。

（項目１７）
コンピュータデバイスによって実行される場合、前記コンピュータデバイスに先行する態様のいずれか１つに記載の方法を実行させるプログラムコードを保持する、非一時的コンピュータ可読媒体の態様。

［数学演算子］
本出願で使用される数学演算子は、Ｃプログラミング言語で使用されるそれらと同様である。しかしながら、整数除算および算術シフト演算の結果はより厳密に定義され、べき乗および実数値除算などの追加の演算が定義される。番号およびカウントの方式は概して０から始まり、例えば「第１」は０番目と同等であり、「第２」は１番目と同等であり、以降も同様である。

［算術演算子］
以下の算術演算子を以下のように定義する。

［論理演算子］
以下の論理演算子は、以下のように定義される。

［関係演算子］
以下の関係演算子は、以下のように定義される。
＞よりも大きい
＞＝より大きいまたは等しい
＜より小さい
＜＝より小さいまたは等しい
＝＝等しい
！＝等しくない

関係演算子が、値「ｎａ」（非該当）を割り当てられているシンタックス要素または変数に適用される場合、値「ｎａ」は、そのシンタックス要素または変数の区別的な値として扱われる。値「ｎａ」は、任意の他の値に等しくないとみなされる。

［ビット単位演算子］
以下のビット単位の演算子は以下のように定義する。
＆：ビット単位の「ａｎｄ」。整数引数で演算する場合、整数値の２の補数表現で演算する。別の項より少ないビットを含む二進項に対して演算を行う場合、そのより短い項は、０に等しいより上位のビットを加算することによって拡張される。
｜：ビット単位の「ｏｒ」。整数引数で演算する場合、整数値の２の補数表現で演算する。別の項より少ないビットを含む二進項に対して演算を行う場合、そのより短い項は、０に等しいより上位のビットを加算することによって拡張される。
＾：ビット単位の「排他的ｏｒ」。整数引数で演算する場合、整数値の２の補数表現で演算する。別の項より少ないビットを含む二進項に対して演算を行う場合、そのより短い項は、０に等しいより上位のビットを加算することによって拡張される。
ｘ＞＞ｙｙ：二進数だけの、ｘの２の補数整数表現の算術右シフト。この関数は、ｙの非負の整数値に関してのみ定義される。右シフトの結果として最上位ビット（ＭＳＢ）にシフトされたビットは、シフト演算前のｘのＭＳＢに等しい値を有する。
ｘ＜＜ｙｙ：二進数だけの、ｘの２の補数整数表現の算術左シフト。この関数は、ｙの非負の整数値に関してのみ定義される。左シフトの結果として最下位ビット（ＬＳＢ）にシフトされたビットは、０に等しい値を有する。

［代入演算子］
以下の算術演算子は、以下のように定義される。
＝代入演算子
＋＋インクリメント、すなわち、ｘ＋＋はｘ＝ｘ＋１に相当する。配列インデックスに使用される場合、インクリメント演算の前の変数の値になる。
－－デクリメント、すなわち、ｘ－－はｘ＝ｘ－１に相当する。配列インデックスに使用される場合、デクリメント演算の前の変数の値になる。
＋＝指定された量だけのインクリメント、すなわち、ｘ＋＝３はｘ＝ｘ＋３に相当し、ｘ＋＝（－３）はｘ＝ｘ＋（－３）に相当する。
－＝指定された量だけのデクリメント、すなわち、ｘ－＝３はｘ＝ｘ－３に相当し、ｘ－＝（－３）はｘ＝ｘ－（－３）に相当する。

［範囲表記］
以下の表記は、値の範囲を指定するのに使用される。
ｘ＝ｙ．．ｚｘはｙからｚまでを含む範囲の整数値を取り、ｘ、ｙおよびｚは整数でありｚはｙより大きい。

［数学関数］
以下の数学関数が定義される。

Ａｓｉｎ（ｘ）：ラジアン単位で、－π÷２からπ÷２までを含む範囲を含む出力値で、－１．０から１．０までを含む範囲の引数ｘに対して機能する、逆三角サイン関数。
Ａｔａｎ（ｘ）：ラジアン単位で－π÷２からπ÷２までを含む範囲を含む出力値で、引数ｘに対して機能する逆三角タンジェント関数。

Ｃｅｉｌ（ｘ）：ｘより大きいまたは等しい最小の整数を表す。

Ｃｏｓ（ｘ）：ラジアン単位で引数ｘに対して機能する三角コサイン関数。
Ｆｌｏｏｒ（ｘ）：ｘより小さいまたは等しい最大の整数を表す。

Ｌｎ（ｘ）：Ｌｎ（ｘ）ｘの自然対数（底ｅ対数、ｅは自然対数底定数２．７１８２８１８２８...）を表す。
Ｌｏｇ２（ｘ）：ｘの底２の対数。
Ｌｏｇ１０（ｘ）：ｘの底１０の対数。

Ｒｏｕｎｄ（ｘ）＝Ｓｉｇｎ（ｘ）＊Ｆｌｏｏｒ（Ａｂｓ（ｘ）＋０．５）

Ｓｉｎ（ｘ）：ラジアン単位で引数ｘに対して機能する三角サイン関数。

Ｔａｎ（ｘ）：ラジアン単位で引数ｘに対して機能する三角タンジェント関数。

［演算の優先順位の順序］
式の優先順位の順序が括弧を使用して明示的に指示されていない場合、以下のルールが適用される。
－より高い優先順位の演算は、より低い優先順位の任意の演算の前に評価される。
－同じ優先順位の演算は、左から右に順次評価される。
以下の表は、演算の優先順位を最高から最低まで指定する。表でのより高い位置は、より高い優先順位を示す。
Ｃプログラミング言語でも使用される演算子の場合、本明細書で使用される優先順位の順序は、Ｃプログラミング言語で使用されるものと同じである。
表：最も高いもの（表の上部）から最も低いもの（表の底部）までの演算の優先順位

［論理演算のテキストの説明］
本文では、論理演算の記述は、以下の形式で数学的に説明される。
ｉｆ（条件０）
記述０
ｅｌｓｅｉｆ（条件１）
記述１
...
ｅｌｓｅ／＊残りの条件に関する有益な言及＊／
記述ｎ
は、以下の方式で記述することができる。
...ａｓｆｏｌｌｏｗｓ／...ｔｈｅｆｏｌｌｏｗｉｎｇａｐｐｌｉｅｓ：
－Ｉｆ条件０，記述０
－Ｏｔｈｅｒｗｉｓｅ，ｉｆ条件１，記述１
－...
－Ｏｔｈｅｒｗｉｓｅ（残りの条件に関する有益な言及），記述ｎ
各「Ｉｆ...Ｏｔｈｅｒｗｉｓｅ，ｉｆ...Ｏｔｈｅｒｗｉｓｅ，...」という本文での記述で、「...ａｓｆｏｌｌｏｗｓ」または「ｔｈｅｆｏｌｌｏｗｉｎｇａｐｐｌｉｅｓ」は、直後に「Ｉｆ...」が導入される。
「Ｉｆ...Ｏｔｈｅｒｗｉｓｅ，ｉｆ...Ｏｔｈｅｒｗｉｓｅ」の最後の条件は常に、「Ｏｔｈｅｒｗｉｓｅ，...」である。
インターリーブされた「Ｉｆ...Ｏｔｈｅｒｗｉｓｅ，ｉｆ...Ｏｔｈｅｒｗｉｓｅ，...」ステートメントは、「Ｏｔｈｅｒｗｉｓｅ，...」で終わる「...ａｓｆｏｌｌｏｗｓ」または「...ｔｈｅｆｏｌｌｏｗｉｎｇａｐｐｌｉｅｓ」をマッチングすることによって識別され得る。
本文では、論理演算の記述は、以下の形式で数学的に説明される。
ｉｆ（条件０ａ＆＆条件０ｂ）
記述０
ｅｌｓｅｉｆ（条件１ａ｜｜条件１ｂ）
記述１
...
ｅｌｓｅ
記述ｎ
は、以下の方式で記述することができる。
...ａｓｆｏｌｌｏｗｓ／...ｔｈｅｆｏｌｌｏｗｉｎｇａｐｐｌｉｅｓ：
－Ｉｆａｌｌｏｆｔｈｅｆｏｌｌｏｗｉｎｇｃｏｎｄｉｔｉｏｎｓａｒｅｔｒｕｅ，ｓｔａｔｅｍｅｎｔ０（以下の条件の全てが真である場合、記述０）：
－条件０ａ
－条件０ｂ
－Ｏｔｈｅｒｗｉｓｅ，ｉｆｏｎｅｏｒｍｏｒｅｏｆｔｈｅｆｏｌｌｏｗｉｎｇｃｏｎｄｉｔｉｏｎｓａｒｅｔｒｕｅ，ｓｔａｔｅｍｅｎｔ１（そうではなく、以下の条件のうちの１または複数が真である場合、記述１）：
－条件１ａ
－条件１ｂ
－...
－Ｏｔｈｅｒｗｉｓｅ，記述ｎ
本文では、論理演算の記述は、以下の形式で数学的に説明される。
ｉｆ（条件０）
記述０
ｉｆ（条件１）
記述１
は、以下の方式で記述することができる。
条件０である場合、記述０
条件１である場合、記述１

本発明の実施形態は主にビデオコーディングに基づいて説明されてきたが、コーディングシステム１０、エンコーダ２０、およびデコーダ３０（およびそれに対応してシステム１０）の実施形態ならびに本明細書に記載の他の実施形態はまた、静止画処理またはコーディング、すなわち、ビデオコーディングのようにいずれかの先行するまたは連続する画像とは無関係の個々の画像の処理またはコーディングのために構成され得ることに留意されたい。一般的に、画像処理コーディングが単一の画像１７に限定される場合、インター予測ユニット２４４（エンコーダ）および３４４（デコーダ）のみが利用可能ではないことがある。ビデオエンコーダ２０およびビデオデコーダ３０の全ての他の機能（ツールまたは技術とも称される）は、静止画処理、例えば、残差計算２０４／３０４、変換２０６、量子化２０８、逆量子化２１０／３１０、（逆）変換２１２／３１２、区分化２６２／３６２、イントラ予測２５４／３５４、および／またはループフィルタリング２２０、３２０ならびにエントロピーコーディング２７０およびエントロピーデコーディング３０４に等しく用いられ得る。

例えばエンコーダ２０およびデコーダ３０の実施形態、並びに、例えばエンコーダ２０およびデコーダ３０を参照して本明細書に記載された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせで実装されてよい。ソフトウェアにおいて実装される場合、機能は、コンピュータ可読媒体上に保存されるか、または、通信媒体を介して１または複数の命令もしくはコードとして送信され、ハードウェアベースの処理ユニットによって実行されてよい。コンピュータ可読媒体は、データ記憶媒体等の有形媒体に対応するコンピュータ可読記憶媒体、または、例えば通信プロトコルに従った、コンピュータプログラムの１つの場所から別の場所への移動を促進する任意の媒体を含む通信媒体を含んでよい。このように、コンピュータ可読媒体は、一般的に、（１）非一時的な有形コンピュータ可読記憶媒体、または、（２）信号もしくは搬送波等の通信媒体に対応してよい。データ記憶媒体は、本開示において説明された技術の実装のための命令、コードおよび／またはデータ構造を取得するために１または複数のコンピュータまたは１または複数のプロセッサによりアクセスされ得る任意の利用可能な媒体であってよい。コンピュータプログラム製品は、コンピュータ可読媒体を含んでもよい。

限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ－ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージ、または他の磁気ストレージデバイス、フラッシュメモリ、または命令もしくはデータ構造の形態で所望のプログラムコードを格納するために使用することができ、コンピュータによってアクセスすることができる任意の他の媒体を含んでもよい。また、任意の接続が、適宜コンピュータ可読媒体と称される。例えば、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者線（ＤＳＬ）、または、赤外線、無線、およびマイクロ波等の無線技術を用いて、ウェブサイト、サーバ、または他のリモートソースから命令が送信される場合、そして、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または、赤外線、無線、およびマイクロ波等の無線技術が媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まず、その代わりに、非一時的な有形記憶媒体を指すことが理解されるべきである。本明細書で使用されるディスク（Ｄｉｓｋａｎｄｄｉｓｃ）は、コンパクトディスク（ＣＤ）、レーザディスク、光ディスク、デジタル多用途ディスク（ＤＶＤ）、フロッピディスク、およびブルーレイディスクを含み、ここで、通常、ディスクはデータを磁気的に再現するものであり、ディスクはデータをレーザによって光学的に再現するものである。上述の組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。命令は、１または複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルロジックアレイ（ＦＰＧＡ）、または他の等価な集積またはディスクリート論理回路等の、１または複数のプロセッサによって実行されてよい。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造のいずれか、または、本明細書に記載の技術の実装に好適な任意の他の構造物を指してよい。加えて、いくつかの態様では、本明細書に記載の機能は、エンコーディングおよびデコーディングのために構成されている専用ハードウェアおよび／またはソフトウェアモジュール内に提供されるか、または、組み合わされたコーデックに組み込まれてよい。また、本技術は、１または複数の回路、またはロジック要素において完全に実装することができる。

本開示の技術は、無線ハンドセット、集積回路（ＩＣ）またはＩＣのセット（例えば、チップセット）を含む、多種多様なデバイスまたは装置において実装してよい。様々な構成要素、モジュール、またはユニットが、開示された技術を実行するように構成されているデバイスの機能的態様を強調するように本開示において記載されているが、異なるハードウェアユニットによる実現は必ずしも要求されない。むしろ、上述したように、好適なソフトウェアおよび／またはファームウェアと連動して、様々なユニットがコーデックハードウェアユニットにして組み合わされるか、または、上述したように、１または複数のプロセッサを含む相互運用ハードウェアユニットの集合によって提供されてよい。

Claims

デコーディングデバイスによって実装されるビデオまたは画像のビットストリームのデコーディング方法であって、前記ビットストリームは、ビデオシーケンスに適用されるシンタックス要素を含む現在のシーケンスパラメータセット（ＳＰＳ）を含み、
前記現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）に存在することが許される時間的サブレイヤの最大数を決定するために用いられる第１のシンタックス要素を取得する段階であって、前記第１のシンタックス要素の値が０から第１の値の範囲にあり、前記第１の値が、第２のシンタックス要素が前記ＳＰＳによって参照される場合に、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）においてレイヤに存在することを許される時間的サブレイヤの最大数を決定するために使用される前記第２のシンタックス要素の値である、段階と、
前記第１のシンタックス要素の値に基づいて、前記ビットストリームをデコーディングする段階と、
を備える方法。
前記ビットストリームをデコーディングする前記段階は、前記第１のシンタックス要素の値に基づいてデコーディング能力情報を取得する段階と、前記デコーディング能力情報に基づいて前記ビットストリームをデコーディングする段階とを備える、請求項１に記載の方法。
前記デコーディング能力情報は、ＤＰＢシンタックス要素を備え、前記デコーディング能力情報に基づいて前記ビットストリームをデコーディングする前記段階は、前記ＤＰＢシンタックス要素の値に基づいてＤＰＢを構成する段階を備え、前記ＤＰＢを用いて前記ビットストリームをデコーディングして前記ビデオシーケンスを再構築する段階をさらに備える、請求項２に記載の方法。
前記デコーディング能力情報は、ＤＰＢシンタックス要素を含み、前記デコーディング能力情報に基づいて前記ビットストリームをデコーディングする前記段階は、使用されるＤＰＢが前記ＤＰＢシンタックス要素の値によって指定される要件を満たして前記ビデオシーケンスを再構築すると決定することに基づいて前記ビットストリームをデコーディングする段階を備える、請求項２に記載の方法。
前記第２のシンタックス要素が前記ＳＰＳによって参照されない場合、前記第１の値は予め設定された値である、請求項１から４のいずれか一項に記載の方法。
前記第２のシンタックス要素が前記ＶＰＳにある、請求項１から５のいずれか一項に記載の方法。
前記第１のシンタックス要素は、前記ＳＰＳにある、請求項１から６のいずれか一項に記載の方法。
エンコーディングデバイスによって実装されるビデオまたは画像のビットストリームのエンコーディング方法であって、前記ビットストリームは、ビデオシーケンスに適用されるシンタックス要素を含む現在のシーケンスパラメータセット（ＳＰＳ）を含み、
第２のシンタックス要素が前記ＳＰＳによって参照されるかどうかを決定する段階であって、前記第２のシンタックス要素は、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）内のレイヤに存在することが許される時間的サブレイヤの最大数を決定するために使用される段階と、
前記現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）において存在することが許される時間的サブレイヤの最大数を決定するために使用される第１のシンタックス要素の値を、前記第１のシンタックス要素の範囲に基づいて決定する段階であって、前記範囲は０から第１の値であり、前記第１の値は第２のシンタックス要素が前記ＳＰＳによって参照されると決定した場合の前記第２のシンタックス要素の値である段階と、
前記第１のシンタックス要素の値を前記ビットストリームにエンコーディングする段階と、を備える方法。
前記ビットストリームをエンコーディングする前記段階は、前記第１のシンタックス要素の値に基づいて前記ビットストリームにデコーディング能力情報をエンコーディングする段階を備える、請求項８に記載の方法。
前記第２のシンタックス要素が前記ＳＰＳによって参照されない場合、前記第１の値は予め設定された値である、請求項８または９に記載の方法。
前記第２のシンタックス要素が前記ＶＰＳにある、請求項８から１０のいずれか一項に記載の方法。
前記第１のシンタックス要素が前記ＳＰＳにある、請求項８から１１のいずれか一項に記載の方法。
請求項１から１２のいずれか一項に記載の方法を実行するための処理回路を備える符号化デバイス。
コンピュータに、請求項１から１２のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
符号化デバイスであって、
１または複数のプロセッサと、
前記プロセッサに連結され、前記プロセッサによる実行のためのプログラミングを記憶する非一時的コンピュータ可読記憶媒体であって、前記プログラミングは、前記プロセッサにより実行された場合、請求項１から１２のいずれか一項に記載の方法を実行するようデコーダを構成する、非一時的コンピュータ可読記憶媒体と
を備える、符号化デバイス。
コンピュータデバイスによって実行される場合、前記コンピュータデバイスに請求項１から１２のいずれか一項に記載の方法を実行させるプログラムコードを保持する、非一時的コンピュータ可読媒体。
ビデオビットストリームをデコーディングするための装置であって、
現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）に存在することが許される時間的サブレイヤの最大数を決定するために用いられる第１のシンタックス要素を取得するように構成された取得ユニットであって、前記第１のシンタックス要素の値が０から第１の値の範囲にある、取得ユニットであって、前記第１の値が、第２のシンタックス要素が前記ＳＰＳによって参照される場合に、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）においてレイヤに存在することが許される時間的サブレイヤの最大数を決定するために使用される前記第２のシンタックス要素の値である取得ユニットと、
前記第１のシンタックス要素の値に基づいて前記ビデオビットストリームをデコーディングするように構成されたデコーディングユニットと、を備える装置。
ビデオビットストリームをエンコーディングするための装置であって、
決定ユニットであって、第２のシンタックス要素がＳＰＳによって参照されるかどうかを決定することであって、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）内のレイヤに存在することが許される最大数の時間的サブレイヤを決定するために前記第２のシンタックス要素が使用される、決定することと、現在の前記ＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）において存在することが許される時間的サブレイヤの最大数を決定するために使用される第１のシンタックス要素の値を、前記第１のシンタックス要素の範囲に基づいて決定することであって、前記範囲は０から第１の値であり、前記第１の値は、前記第２のシンタックス要素が前記ＳＰＳによって参照されると決定した場合の前記第２のシンタックス要素の値である、決定すること、を行うように構成された決定ユニットと、
前記第１のシンタックス要素の値を前記ビデオビットストリームにエンコーディングするように構成されたエンコーディングユニットと、を備える装置。
ビデオビットストリームを含む非一時的記憶媒体であって、前記ビデオビットストリームは、ビデオシーケンスに適用されるシンタックス要素を含む現在のシーケンスパラメータセット（ＳＰＳ）を含み、前記ビデオビットストリームは、前記現在のＳＰＳを参照する各符号化レイヤビデオシーケンス（ＣＬＶＳ）に存在することが許される時間的サブレイヤの最大数を決定するために用いられる第１のシンタックス要素をさらに含み、前記第１のシンタックス要素の値が０から第１の値の範囲にあり、前記第１の値は、第２のシンタックス要素が前記ＳＰＳによって参照される場合、ビデオパラメータセット（ＶＰＳ）を参照する各符号化ビデオシーケンス（ＣＶＳ）においてレイヤに存在することが許される時間的サブレイヤの最大数を決定するために使用される前記第２のシンタックス要素の値である、非一時的記憶媒体。
前記第２のシンタックス要素が前記ＳＰＳによって参照されない場合、前記第１の値は予め設定された値である、請求項１９に記載の非一時的記憶媒体。