JP2014530573A

JP2014530573A - 参照ピクチャシグナリングおよび復号ピクチャバッファ管理

Info

Publication number: JP2014530573A
Application number: JP2014532019A
Authority: JP
Inventors: チェン、イン; ワン、イェ—クイ; ワン、イェ―クイ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-09-23
Filing date: 2012-09-21
Publication date: 2014-11-17
Anticipated expiration: 2032-09-21
Also published as: CN103828365B; AU2012312318A1; BR112014006842A2; HK1247761A1; WO2013043893A2; HK1253675A1; CA2849284A1; CA2849284C; MY171154A; JP2018093506A; AR089559A1; KR101613804B1; AU2012312317A1; ZA201402900B; CN108337517A; KR101612651B1; BR112014006839A2; IL264182B; AR089560A1; CN103828374B

Abstract

瞬時デコーダリフレッシュピクチャではないランダムアクセスポイントピクチャから始まるランダムアクセスの実施に関連した技法について、記載する。いくつかの技法は、参照ピクチャセットの長期参照ピクチャについてシグナリングされる情報の量の削減にも関連する。追加技法は、時間的識別値に基づく復号ピクチャの削除など、復号ピクチャバッファ管理にも関連する。

Description

本出願は、各々の内容全体が参照により組み込まれる、
２０１１年９月２３日に出願した米国仮出願第６１／５３８，７８７号、
２０１１年９月２６日に出願した米国仮特許出願第６１／５３９，４３３号、および
２０１１年９月３０日に出願した米国仮特許出願第６１／５４２，０３４号の利益を主張する。

本開示は、ビデオコーディングに関し、より詳細には、ビデオデータをコーディングするための技法に関する。

デジタルビデオ機能は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップまたはデスクトップコンピュータ、タブレットコンピュータ、電子ブックリーダ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、セルラーまたは衛星無線電話、いわゆる「スマートフォン」、ビデオ遠隔会議デバイス、ビデオストリーミングデバイスなどを含む、広範囲にわたるデバイスに組み込まれ得る。デジタルビデオデバイスは、ＭＰＥＧ−２、ＭＰＥＧ−４、ＩＴＵ−ＴＨ．２６３、ＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４、Ｐａｒｔ１０、アドバンストビデオコーディング（ＡＶＣ：Advanced Video Coding）、現在開発中の高効率ビデオコーディング（ＨＥＶＣ）規格によって定義された規格、およびそのような規格の拡張に記載されているビデオ圧縮技法など、ビデオ圧縮技法を実装する。ビデオデバイスは、そのようなビデオ圧縮技法を実装することによって、デジタルビデオ情報をより効率的に送信、受信、符号化、復号、および／または記憶し得る。

ビデオ圧縮技法は、ビデオシーケンスに固有の冗長性を低減または除去するために空間的（イントラピクチャ）予測および／または時間的（インターピクチャ）予測を実施する。ブロックベースのビデオコーディングの場合、ビデオスライス（すなわち、ビデオピクチャまたはビデオピクチャの一部分）が、ツリーブロック、コーティングツリーブロック（ＣＴＢ）、コーディングツリーユニット（ＣＴＵ）、コーディングユニット（ＣＵ：coding unit）および／またはコーディングノードと呼ばれることもあるビデオブロックに区分され得る。ピクチャのイントラコード化（Ｉ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック内の参照サンプルに対する空間的予測を使用して符号化される。ピクチャのインターコード化（ＰまたはＢ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間的予測、または他の参照ピクチャ中の参照サンプルに対する時間的予測を使用し得る。ピクチャはフレームと呼ばれることがあり、参照ピクチャは参照フレームと呼ばれることがある。

空間的予測または時間的予測によって、コーディングされるべきブロックの予測ブロックが生じる。残差データは、コーディングされるべき元のブロックと予測ブロックとの間のピクセル差分を表す。インターコード化ブロックは、予測ブロックを形成する参照サンプルのブロックを指す動きベクトル、およびコード化ブロックと予測ブロックとの間の差分を示す残差データに従って符号化される。イントラコード化ブロックは、イントラコーディングモードと残差データとに従って符号化される。さらなる圧縮のために、残差データは、ピクセル領域から変換領域に変換されて、残差変換係数が得られ得、その残差変換係数は、次いで量子化され得る。量子化変換係数は、最初は２次元アレイで構成され、変換係数の１次元ベクトルを生成するために走査され得、なお一層の圧縮を達成するために、エントロピーコーディングが適用され得る。

概して、本開示は、いくつかの参照ピクチャについての識別子をビデオコーダが判断するやり方に関連した技法について記載する。これらの技法は、ビデオコーダが、ある特定のタイプの参照ピクチャが現在のピクチャのインター予測に使われるべきかどうか判断するやり方にも関連する。さらに、これらの技法は、ピクチャバッファに記憶されたどのピクチャを削除してよいかの判断に関連する。

たとえば、いくつかの例では、瞬時デコーダリフレッシュピクチャではないランダムアクセスポイント（ＲＡＰ）参照ピクチャについての完全識別子値を、ビデオエンコーダは、ビデオデータのコード化ビットストリーム中でシグナリングすることができ、ビデオデコーダは、ビデオデータのコード化ビットストリーム中で受信することができる。こうすることにより、復号順で非ＩＤＲＲＡＰ参照ピクチャに続く参照ピクチャについての部分的識別子値を、ビデオエンコーダは、ビデオデータのコード化ビットストリーム中でシグナリングし、ビデオデコーダは、ビデオデータのコード化ビットストリーム中で受信することができるようになり得る。そのような参照ピクチャについての部分的識別子値および非ＩＤＲＲＡＰ参照ピクチャについての完全識別子値から、ビデオデコーダは、復号順で非ＩＤＲＲＡＰ参照ピクチャに続く参照ピクチャについての完全識別子値を判断することができる。

いくつかの例では、ある特定のタイプの参照ピクチャがインター予測コーディングに使われるかどうかを示す値を、ビデオエンコーダは、ビデオデータのコード化ビットストリーム中でシグナリングすることができ、ビデオデコーダは、ビデオデータのコード化ビットストリーム中で受信することができる。これらの値が、特定のタイプの参照ピクチャがインター予測に必要とされないことを示す場合、特定のタイプの参照ピクチャについての識別子値を、ビデオエンコーダはシグナリングする必要がないことがあり、ビデオデコーダは受信する必要がないことがある。

ビデオエンコーダおよびビデオデコーダは、復号ピクチャバッファと呼ばれるピクチャバッファに復号ピクチャを記憶するように構成され得る。ビデオエンコーダおよびビデオデコーダは、空間を空けるために、復号ピクチャバッファに記憶されたピクチャを削除してよい。いくつかの例では、ビデオエンコーダおよびビデオデコーダは、復号ピクチャバッファに記憶されたピクチャの時間的識別値に基づいて、どのピクチャが復号ピクチャバッファから削除されるべきか判断することができる。

一例では、本開示は、ビデオデータをコーディングするための方法について説明する。この方法は、瞬時デコーダリフレッシュ（ＩＤＲ）ピクチャではないランダムアクセスポイント（ＲＡＰ）ピクチャについての完全識別子値をコーディングすることと、ＲＡＰピクチャについての完全識別子値に基づいて、非ＲＡＰピクチャについての部分的識別子値をコーディングすることとを含む。この例では、部分的識別子値は、非ＲＡＰピクチャについての完全識別子値の一部分を表す。

一例では、本開示は、ビデオデータをコーディングするためのデバイスについて説明する。このデバイスは、瞬時デコーダリフレッシュ（ＩＤＲ）ピクチャではないランダムアクセスポイント（ＲＡＰ）ピクチャについての完全識別子値をコーディングし、ＲＡＰピクチャについての完全識別子値に基づいて、非ＲＡＰピクチャについての部分的識別子値をコーディングするように構成されたビデオコーダを含む。この例では、部分的識別子値は、非ＲＡＰピクチャについての完全識別子値の一部分を表す。

一例では、本開示は、実行されると、ビデオデータをコーディングするためのデバイスのプロセッサに、瞬時デコーダリフレッシュ（ＩＤＲ）ピクチャではないランダムアクセスポイント（ＲＡＰ）ピクチャについての完全識別子値をコーディングさせ、ＲＡＰピクチャについての完全識別子値に基づいて、非ＲＡＰピクチャについての部分的識別子値をコーディングさせる命令を記憶したコンピュータ可読記憶媒体について記載する。この例では、部分的識別子値は、非ＲＡＰピクチャについての完全識別子値の一部分を表す。

一例では、本開示は、ビデオデータをコーディングするためのデバイスについて説明する。このデバイスは、瞬時デコーダリフレッシュ（ＩＤＲ）ピクチャではないランダムアクセスポイント（ＲＡＰ）ピクチャについての完全識別子値をコーディングするための手段と、ＲＡＰピクチャについての完全識別子値に基づいて、非ＲＡＰピクチャについての部分的識別子値をコーディングするための手段とを含む。この例では、部分的識別子値は、非ＲＡＰピクチャについての完全識別子値の一部分を表す。

１つまたは複数の例の詳細を添付の図面および以下の説明に記載する。他の特徴、目的、および利点は、その説明および図面、ならびに特許請求の範囲から明らかになろう。

本開示で説明する技法を利用し得る例示的なビデオ符号化および復号システムを示すブロック図。本開示で説明する技法を実装し得る例示的なビデオエンコーダを示すブロック図。本開示で説明する技法を実装し得る例示的なビデオデコーダを示すブロック図。本開示の１つまたは複数の態様による例示的な動作を示すフローチャート。本開示の１つまたは複数の態様による別の例示的な動作を示すフローチャート。本開示の１つまたは複数の態様による別の例示的な動作を示すフローチャート。本開示の１つまたは複数の態様による別の例示的な動作を示すフローチャート。本開示の１つまたは複数の態様による別の例示的な動作を示すフローチャート。

本開示に記載する技法は概して、参照ピクチャについてのシグナリング情報および復号ピクチャバッファ（ＤＰＢ）と呼ばれる、復号ピクチャを記憶するピクチャバッファの管理などのビデオコーディングに関する。様々なビデオコーディング規格が、ビデオコーディングが実施される方法を定義する。ビデオコーディング規格の例は、ＩＴＵ−ＴＨ．２６１、ＩＳＯ／ＩＥＣＭＰＥＧ−１Ｖｉｓｕａｌ、ＩＴＵ−ＴＨ．２６２またはＩＳＯ／ＩＥＣＭＰＥＧ−２Ｖｉｓｕａｌ、ＩＴＵ−ＴＨ．２６３、ＩＳＯ／ＩＥＣＭＰＥＧ−４Ｖｉｓｕａｌ、ならびにスケーラブルビデオコーディング（ＳＶＣ）およびマルチビュービデオコーディング拡張を含むＩＴＵ−ＴＨ．２６４（ＩＳＯ／ＩＥＣＭＰＥＧ−４ＡＶＣとしても知られている）を含む。

さらに、ＩＴＵ−ＴＶｉｄｅｏＣｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐ（ＶＣＥＧ）とＩＳＯ／ＩＥＣＭｏｔｉｏｎＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）とのＪｏｉｎｔＣｏｌｌａｂｏｒａｔｉｏｎＴｅａｍｏｎＶｉｄｅｏＣｏｄｉｎｇ（ＪＣＴ−ＶＣ）によって開発されている新しいビデオコーディング規格、すなわち、高効率ビデオコーディング（ＨＥＶＣ）がある。これ以降ＨＥＶＣＷＤ８と呼ばれる、ＨＥＶＣの最新の作業草案（ＷＤ）が、２０１２年７月２０日の時点で、ｈｔｔｐ：／／ｐｈｅｎｉｘ．ｉｎｔ−ｅｖｒｙ．ｆｒ／ｊｃｔ／ｄｏｃ＿ｅｎｄ＿ｕｓｅｒ／ｄｏｃｕｍｅｎｔｓ／１０＿Ｓｔｏｃｋｈｏｌｍ／ｗｇ１１／ＪＣＴＶＣ−Ｊ１００３−ｖ８．ｚｉｐから入手可能である。

本開示に記載する技法は、これらの例示的規格のうちのいずれに記載されているものも含む、どのビデオコーディング技法にも適用可能であり得る。説明のために、本開示に記載する技法は、ＨＥＶＣ規格のコンテキストで記載されるが、本開示の態様はそのように限定されない。たとえば、本開示に記載する技法は、本開示に記載する技法が他の規格にも拡張可能であり、概してどのビデオコーディング技法にも拡張可能であることを理解した上で、ＨＥＶＣ規格において定義される参照ピクチャセットのコンテキストで記載される。

本開示に記載するビデオコーディング技法は、現在のピクチャのブロックをインター予測するために、参照ピクチャセット中で識別された参照ピクチャを使用することができる。参照ピクチャとは、現在のピクチャ内のブロックをインター予測するために使うことができるピクチャである。たとえば、ビデオデータは、比較的高いフレームレートで再生される一連の個々のピクチャに対応する。ビデオエンコーダおよびビデオデコーダなどのビデオコーダは、一般に、ブロックベースのビデオコーディング技法を使用する。つまり、ビデオコーダは、ピクチャの各々を、１組の個々のビデオデータブロックに分割し、次いでピクチャの各個々のブロックをコーディングすればよい。

ブロックベースのビデオコーディングは一般に、２つの一般的ステップを伴う。第１のステップは、ビデオデータの現在のブロックを予測することを含む。この予測は、イントラ予測（つまり、同じピクチャの隣接し合う事前コード化ブロックに基づく空間予測）またはインター予測（つまり、１つもしくは複数の事前コード化ピクチャに基づく時間的予測）を使用し得る。インター予測に使うことができるこれらの事前コード化ピクチャは、参照ピクチャと呼ばれ得る。この予測プロセスを実施することにより、現在のブロックに対する予測ブロックが生成される。他方のステップは、残差ブロックのコーディングを伴う。概して、現在のブロックの元の非コード化バージョンと予測ブロックとの間の残差ブロックは、ピクセルごとの差を表す。ビデオエンコーダは、ピクセルごとの差を算出することによって残差ブロックを形成し、ビデオデコーダは、残差ブロックを予測ブロックに追加して、元のブロックを再現する。

たとえば、ビデオエンコーダおよびビデオデコーダは各々、それぞれの復号ピクチャバッファを含む。それぞれの復号ピクチャバッファは、復号ピクチャを記憶する。たとえば、ビデオ復号の一部として、ビデオデコーダは、ピクチャを、復号した後でビデオデコーダのＤＰＢに記憶することができる。ビデオデコーダは次いで、復号ピクチャを表示のために後で出力することができ、かつ／または復号ピクチャを、後続インター予測ピクチャを復号するための参照ピクチャとして使用することができる。

ビデオエンコーダはまた、符号化プロセスの一部として復号ピクチャを記憶することができる。たとえば、ピクチャを符号化した後、ビデオエンコーダは再構成プロセスを実施してよく、このプロセスにおいてビデオエンコーダは符号化ピクチャを復号する。ビデオエンコーダは、後続ピクチャをインター予測するために、復号ピクチャをビデオエンコーダのＤＰＢに記憶すればよい。

言い換えると、ビデオエンコーダおよびビデオデコーダは、後続コード化ピクチャを予測するために、および将来の出力のために使われる復号ピクチャをＤＰＢにバッファリングすることができる。バッファメモリ（すなわち、ＤＰＢ）を効率的に使用するために、現行および開発中のビデオコーディング規格は、ＤＰＢへの復号ピクチャの記憶プロセスと、参照ピクチャのマーキングプロセスと、ＤＰＢからの復号ピクチャの出力および削除プロセスとを含むＤＰＢ管理プロセスを指定することができる。概して、いくつかの現行および開発中のビデオコーディング規格では、ＤＰＢ管理は、ピクチャ識別および参照ピクチャ識別、参照ピクチャリスト構成、参照ピクチャマーキング、ＤＰＢからのピクチャ出力、ＤＰＢへのピクチャ挿入、およびＤＰＢからのピクチャ削除という側面のうちの１つまたは複数を含み得る。

上述したように、ビデオデコーダはＤＰＢにピクチャを記憶することができ、１つまたは複数のこれらのピクチャは、参照ピクチャである可能性があり得る。本開示に記載する技法によると、ビデオエンコーダは、ビデオデコーダのＤＰＢ中のどのピクチャが現在のピクチャおよび／または復号順で現在のピクチャに続くピクチャをインター予測するために使われ得るかを示す情報をシグナリングすることができる。言い換えると、ビデオエンコーダは、ビデオデコーダが参照ピクチャセットを導出するために使用する、現在のピクチャについての参照ピクチャ情報をシグナリングすることができ、ここで参照ピクチャセットは、現在のピクチャおよび／または復号順で現在のピクチャに続くピクチャをインター予測するために使うことができる参照ピクチャを識別する。インター予測に使うことができる参照ピクチャは、必ずしもインター予測に使われる必要はないことを理解されたい。

ビデオエンコーダは、各ピクチャ用の参照ピクチャセットにどの参照ピクチャが属すかを示す情報をシグナリングすることができる。たとえば、各ピクチャについて、ビデオデコーダは、そのピクチャをインター予測するために、および／または復号順でそのピクチャに続くピクチャをインター予測するためにどの参照ピクチャが使われ得るかを示す情報を受信し得る。

概して、ビデオエンコーダは、ピクチャオーダーカウント（ＰＯＣ）値を使って参照ピクチャを識別する。ＰＯＣ値は、対応するピクチャの相対出力順（つまり、表示順）を記述する。たとえば、より低いＰＯＣ値をもつピクチャは、より高いＰＯＣ値をもつピクチャよりも早く表示される。ピクチャの表示順とピクチャの復号順は、混同されるべきでない。ＰＯＣ値がより低いピクチャは、必ずしもＰＯＣ値がより高いピクチャよりも早く復号される必要はない。同様に、ＰＯＣ値がより高いピクチャは、必ずしもＰＯＣ値がより低いピクチャよりも後で復号される必要はない。いくつかの例では、ＰＯＣ値がより低いピクチャが、ＰＯＣ値がより高いピクチャよりも早く復号されることも可能な場合がある。

いくつかの例では、参照ピクチャのＰＯＣ値を識別するためにシグナリングされる必要があるビットの数を削減するために、ビデオエンコーダは、ある特定のタイプの参照ピクチャについての完全ＰＯＣ値と、他のタイプの参照ピクチャについての部分的ＰＯＣ値とをシグナリングすればよい。たとえば、ビデオエンコーダは、瞬時復号可能リフレッシュ（ＩＤＲ）ピクチャについての、最上位ビット（ＭＳＢ）と最下位ビット（ＬＳＢ）とを含む完全ＰＯＣ値をシグナリングすればよい。ＩＤＲピクチャは、ピクチャシーケンス中の最初のピクチャであり得る。シーケンスの他のピクチャについて、ビデオエンコーダは、ＬＳＢのみであり得る部分的ＰＯＣ値をシグナリングすればよい。ビデオデコーダは、非ＩＤＲピクチャおよび前のＩＤＲピクチャについての受信したＬＳＢに基づいて、非ＩＤＲピクチャについての完全ＰＯＣ値を判断することができる。

これは、ＰＯＣ値についてシグナリングされるべき必要があるビットの数を削減する際にはうまく機能することができるが、非ＩＤＲピクチャから始まるランダムアクセスにとっては問題があり得る。ランダムアクセスでは、ビデオデコーダは、任意のランダムアクセスポイントから始まるコード化ビデオシーケンスを復号し得る。ランダムアクセスポイントの一例は、コード化ビデオシーケンス中の、順序が第１のコード化ピクチャではなく、ＩＤＲピクチャである、コード化ピクチャである。言い換えると、ランダムアクセスのいくつかの例では、ビデオデコーダは、非ＩＤＲピクチャから開始して、ビデオシーケンスを復号することができる。

この場合、ビデオデコーダは、ピクチャについての部分的ＰＯＣ値を受信することができるが、ＩＤＲピクチャが利用可能でない場合があり、したがって、ＩＤＲピクチャの完全ＰＯＣ値が利用可能でない場合があるので、ピクチャについての完全ＰＯＣ値を再構成することはできない可能性がある。次いで、ビデオデコーダは、参照ピクチャとなるべきピクチャについての完全ＰＯＣ値を受信することができる。ただし、ビデオデコーダは、復号ピクチャの完全ＰＯＣ値を再構成することができない場合があるので、この例では、ビデオデコーダは、記憶されているＤＰＢ中のどのピクチャが参照ピクチャとなることを意図されているか判断することができない場合がある。言い換えると、ビデオデコーダは、参照ピクチャのＰＯＣ値を、ＤＰＢに記憶されたどのピクチャにもマッピングすることができない場合があり、このことは、ビデオデコーダのランダムアクセスを実装する能力に悪影響を与える。

本開示に記載する技法は、ランダムアクセスのためのより堅牢な機構を実現し得る。たとえば、ビデオエンコーダは、ビデオシーケンス中のいくつかの非ＩＤＲランダムアクセスポイント（ＲＡＰ）ピクチャについての完全ＰＯＣ値（たとえば、ＭＳＢとＬＳＢとを含む）をシグナリングすることができる。これにより、ビデオデコーダは、復号ピクチャの完全ＰＯＣ値を再構成するためにビデオデコーダがそのＰＯＣ値を使用することができる他のピクチャがビデオシーケンス中にあるので、ランダムアクセスをより堅牢に実装することが可能になり得る。このように、本開示に記載する技法は、ビデオシーケンス中の非ＩＤＲピクチャから始まるランダムアクセスが実施されるときに存在し得る問題に対処し、他の非ＩＤＲピクチャを、ビデオシーケンス中の他のピクチャにおけるランダムアクセスを可能にするＲＡＰとして使用できるようにする。

さらに、参照ピクチャセット中の参照ピクチャは概して、長期参照ピクチャおよび短期参照ピクチャとしてカテゴリー化することができ、長期参照ピクチャは、短期参照ピクチャよりも長くＤＰＢに記憶される。長期参照ピクチャについてのシグナリングオーバーヘッドは、高く複雑である可能性があり得る。

いくつかの他の技法（たとえば、本開示に記載するもの以外の技法）では、ビデオデコーダが、現在のピクチャをインター予測するために長期参照ピクチャを使用する必要がない場合であっても、ビデオエンコーダはそれにもかかわらず、長期参照ピクチャについての情報をシグナリングする場合があるが、それは、ビデオデコーダが、復号順で現在のピクチャの後に続くピクチャをインター予測するために長期参照ピクチャを使う必要があり得るからである。繰返しになるが、ビデオエンコーダは、現在のピクチャおよび／または復号順で現在のピクチャに続くピクチャをインター予測するために、どの参照ピクチャを使うことができるかを示す情報をシグナリングする場合がある。

したがって、ビデオデコーダが、現在のピクチャをインター予測するのに長期参照ピクチャを必要とせず、ビデオエンコーダが長期参照ピクチャの情報をシグナリングしなかった場合、ビデオデコーダは、復号順で現在のピクチャの後に続くどのピクチャも、インター予測するために長期参照ピクチャを使う必要がないと判断してよいが、この判断は正しくない可能性がある。この場合、これらの他の技法では、ビデオデコーダがデコーダのＤＰＢから長期参照ピクチャを削除することが可能な場合があり、その結果、ビデオデコーダはその後、削除された長期参照ピクチャをインター予測に使用する必要が実際にあるピクチャを復号することができない。

本開示に記載する技法は、ビデオデコーダが現在のピクチャをインター予測するために長期参照ピクチャを使う必要がないが、復号順で現在のピクチャの後に続くピクチャをインター予測するために長期参照ピクチャを必要とし得るときにシグナリングされる情報の量を削減するための機構を提供し得る。たとえば、ビデオエンコーダは、ビデオデコーダが現在のピクチャをインター予測するためにいずれかの長期参照ピクチャを必要とするかどうかを示す第１の値を、現在のピクチャのスライスヘッダ中でシグナリングすればよい。ビデオエンコーダは、ビデオデコーダが現在のピクチャをインター予測するために長期参照ピクチャのうちのいずれかを使用する可能性があり得るかどうか（たとえば、すべての長期参照ピクチャが、現在のピクチャをインター予測するために使われ得るかどうか）を示す第２の値も、現在のピクチャのスライスヘッダ中でシグナリングしてよい。これらの値に基づいて、ビデオエンコーダは、長期参照ピクチャ用のスライスヘッダ中で、情報の異なる量をシグナリングすればよい。また、ビデオデコーダは、これらの値に基づいて、長期参照ピクチャ用のスライスヘッダ中にどれだけ多くの情報が期待されるかを判断することができる。

いくつかの例では、本開示に記載する技法は、どのピクチャをＤＰＢから削除すればよいかの判断などのＤＰＢ管理に関連し得る。ピクチャ削除とピクチャ出力または表示は混同されるべきでない。ピクチャ出力または表示は、ＤＰＢに記憶されたピクチャがいつ表示されるかを指すが、ビデオエンコーダまたはビデオデコーダがそのピクチャを、他のピクチャをインター予測するために使用する可能性があるので、ピクチャは依然としてＤＰＢ内に留まり得る。ピクチャ削除は、ピクチャがそれ以上予測目的のために利用可能でなくなるような、ＤＰＢからのピクチャの削除を指す。

いくつかの現在の技法は、どのピクチャがＤＰＢから削除されるべきか判断するために、参照ピクチャマーキングに依拠する。参照ピクチャマーキングのために、インター予測に使われる参照ピクチャの、Ｍ（ｎｕｍ＿ｒｅｆ＿ｆｒａｍｅｓ）と呼ばれる最大数が、アクティブシーケンスパラメータセット中で示される。参照ピクチャは、復号されると、「参照に使用される」とマーキングされる。参照ピクチャの復号により、Ｍ個より多いピクチャが「参照に使用される」とマーキングされた場合、少なくとも１つのピクチャが「参照に使用されない」とマーキングされていなければならない。ＤＰＢ削除プロセスは次いで、「参照に使用されない」とマーキングされたピクチャが出力にも必要とされない場合、それらのピクチャをＤＰＢから削除することになる。

ピクチャは、復号されると、非参照ピクチャまたは参照ピクチャのいずれかになり得る。参照ピクチャは、長期参照ピクチャであっても短期参照ピクチャであってもよく、「参照に使用されない」とマーキングされると、参照にはそれ以上必要とされなくなる。いくつかのビデオコーディング規格には、参照ピクチャのステータスを変える参照ピクチャマーキング操作があり得る。

参照ピクチャマーキングには、スライディングウィンドウおよび適応メモリ制御という、２つのタイプの操作があり得る。参照ピクチャマーキングのための操作モードは、ピクチャに基づいて選択されてよく、スライディングウィンドウ操作は、一定数の短期参照ピクチャをもつ先入れ先出しキューとして作用し得る。言い換えると、復号時間が最も早い短期参照ピクチャが、暗黙的に、削除される最初のものである（参照用に使われないピクチャとマーキングされる）。

ただし、適応メモリ制御は、短期または長期ピクチャを明示的に削除する。適応メモリ制御は、短期および長期ピクチャなどのステータスを切り替えることも可能にする。たとえば、適応メモリ制御において、ビデオエンコーダは、どのピクチャが参照に使用されるものとマーキングされるべきかを指定するシンタックス要素をシグナリングすることができる。ビデオデコーダは、シンタックス要素を受信し、指定された通りにピクチャをマーキングすればよい。スライディングウィンドウ中、ビデオエンコーダは、どのピクチャが参照に使用されるものとマーキングされるかはシグナリングする必要はなくてよい。そうではなく、ビデオデコーダは、暗黙的に（すなわち、シンタックス要素を受信せずに）、どのピクチャがスライディングウィンドウ内にあるかに基づいて、どのピクチャが参照に使用されるものとマーキングされるか判断してよい。

本開示に記載する技法は、ＤＰＢに記憶されたピクチャおよび現在のピクチャの時間的識別値に依拠して、ＤＰＢ中のどのピクチャを削除すればよいか判断し得る。いくつかの例では、時間的識別値に加え、ＤＢＰ中のどのピクチャを削除すればよいかをビデオエンコーダおよびビデオデコーダが判断するのに使用することができる他の要素があり得る。

時間的識別値（ｔｅｍｐｏｒａｌ＿ｉｄ）は、現在のピクチャをコーディングするために、どのピクチャを使うことができるかを示す階層的値であってよい。概して、特定のｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャは、可能性としては、それ以上のｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャ用の参照ピクチャになり得るが、逆は成り立たない。たとえば、１のｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャは、可能性としては、１、２、３、．．．のｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャ用の参照ピクチャになり得るが、０のｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャ用の参照ピクチャにはなり得ない。

最も低いｔｅｍｐｏｒａｌ＿ｉｄ値は、最も低い表示レートも示し得る。たとえば、ビデオデコーダが、０のｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャのみを復号した場合、表示レートは、毎秒７．５個のピクチャになり得る。ビデオデコーダが、０および１のｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャのみを復号した場合、表示レートは、毎秒１５個のピクチャになり得、以下同様である。

いくつかの他の技法（たとえば、本開示に記載するもの以外の技法）では、現在のピクチャに対する参照ピクチャセットは、現在のピクチャよりも高いｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャを参照ピクチャセットが含まないように定義することができる。たとえば、ピクチャＡとして指定されるピクチャのｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのものよりも大きい場合、現在のピクチャに対する参照ピクチャセットは、ピクチャＡを含むことができない。これらの他の技法では、ピクチャＡが出力に必要とされないとき、ビデオエンコーダまたはビデオデコーダは、それぞれのＤＰＢからピクチャＡを削除してよい。ただし、ビデオエンコーダおよびビデオデコーダは、ｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのものよりも大きい、復号順で現在のピクチャの後に続くピクチャのインター予測のためにピクチャＡを必要とし得る。

本開示に記載する技法は、現在のピクチャのものよりも高いｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャが必ずしもＤＰＢから削除されないようにするための機構を提供する。たとえば、ビデオエンコーダおよびビデオデコーダは、（１）ピクチャが現在のピクチャの参照ピクチャセットに含まれず、（２）ピクチャが出力に必要とされず、（３）ピクチャのｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのもの以下である場合、それぞれのＤＰＢからピクチャを削除するように構成されてよい。これらの３つの基準を使用することによって、これらの技法は、ｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのものよりも大きい、復号順で現在のピクチャの後に続くピクチャをインター予測するために必要とされる可能性があるかもしれないＤＰＢ用のピクチャを、ビデオエンコーダおよびビデオデコーダが不注意に削除することがないようにすることができる。

いくつかの例では、ビデオデコーダが参照ピクチャセットを導出した後、ビデオデコーダは、１つの参照ピクチャリストまたは複数の参照ピクチャリストを構成することができる。ビデオデコーダは次いで、参照ピクチャリスト（１つまたは複数）中で識別された参照ピクチャに基づいて、現在のピクチャをインター予測することができる。以下では、参照ピクチャリスト構成について手短に説明する。さらに、ビデオエンコーダは、ＤＰＢに記憶するために符号化ピクチャを復号するのに必要とされる再構成プロセスの一部として、参照ピクチャリストを同様に構成することができる。

いくつかの例では、ビデオエンコーダおよびビデオデコーダは、単一の参照ピクチャリスト（リスト０またはＲｅｆＰｉｃＬｉｓｔ０と呼ばれる）を構成することができ、他の例では、ビデオエンコーダおよびビデオデコーダは、２つの参照ピクチャリスト（リスト０およびリスト１）を構成することができる。リスト１は、ＲｅｆＰｉｃＬｉｓｔ１と呼ばれる場合もある。たとえば、Ｐスライスなど、単方向予測されるスライス、およびＢスライスのいくつかの例に対して、ビデオエンコーダおよびビデオデコーダは、１つの参照ピクチャリスト（リスト０またはリスト１のいずれか）を構成することができる。単方向予測されるスライスは、ピクチャのブロックが１つの参照ピクチャから予測されるピクチャのスライスを指す。双予測されるスライス（たとえば、２つの参照ピクチャを用いてブロックが予測されるスライス）に対して、ビデオエンコーダおよびビデオデコーダは、リスト０とリスト１とを構成することができ、リスト０は参照ピクチャの識別であり、リスト１は他方を識別する。

一般に、第１または第２の参照ピクチャリストについての参照ピクチャリスト構成は、２つのステップ、すなわち参照ピクチャリスト初期化と、参照ピクチャリスト並べ替え（修正）とを含む。参照ピクチャリスト初期化は、参照ピクチャメモリ（たとえば、ＤＰＢ）中の参照ピクチャを、ＰＯＣ（ピクチャの表示順で整列されるピクチャオーダーカウント）値の順序に基づいてリストに入れる機構である。参照ピクチャリスト並べ替え機構は、参照ピクチャリスト初期化中にリストに入れられたピクチャの位置をどの新しい位置にも修正し、またはＤＰＢ中のどの参照ピクチャも、そのピクチャが初期化リストに属さない場合であっても、どの位置に入れてもよい。参照ピクチャリスト並べ替え（修正）後のいくつかのピクチャは、リスト中のはるかに離れた位置に入れられる場合がある。ただし、ピクチャの位置が、リストのアクティブ参照ピクチャの数を超える場合、ピクチャは、最終参照ピクチャリストのエントリとは見なされない。アクティブ参照ピクチャの数は、各リスト用のスライスヘッダに入れてシグナリングされ得る。

図１は、本開示で説明する技法を利用し得る例示的なビデオ符号化および復号システム１０を示すブロック図である。図１に示すように、システム１０は、宛先デバイス１４による復号のために符号化ビデオを生成するソースデバイス１２を含む。ソースデバイス１２および宛先デバイス１４は、それぞれビデオコーディングデバイスの一例であり得る。ソースデバイス１２は、通信チャネル１６を介して宛先デバイス１４に符号化ビデオを送信するか、あるいは、必要に応じて符号化ビデオが宛先デバイス１４によってアクセスされ得るように記憶媒体１７またはファイルサーバ１９に符号化ビデオを記憶し得る。

ソースデバイス１２および宛先デバイス１４は、いわゆる「スマート」フォン、いわゆる「タブレット」コンピューティングデバイスなどのワイヤレスハンドセット、またはワイヤレス通信のために装備される他のそのようなワイヤレスデバイスを含む、広範なデバイスのうちのどれを備えてもよい。ソースデバイス１２および宛先デバイス１４の追加例は、デジタルテレビ、デジタルダイレクトブロードキャストシステムにおけるデバイス、ワイヤレスブロードキャストシステムにおけるデバイス、携帯情報端末（ＰＤＡ）、ラップトップコンピュータ、デスクトップコンピュータ、タブレットコンピュータ、ｅブックリーダ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、セルラー無線電話、衛星無線電話、テレビ会議デバイス、およびビデオストリーミングデバイス、ワイヤレス通信デバイスなどを含むが、それに限定されない。

上記のように、多くの場合、ソースデバイス１２および／または宛先デバイス１４は、ワイヤレス通信のために装備され得る。したがって、通信チャネル１６は、符号化ビデオデータの送信に好適なワイヤレスチャネル、ワイヤードチャネル、またはワイヤレスチャネルとワイヤードチャネルとの組合せを備え得る。同様に、ファイルサーバ１９は、インターネット接続を含む任意の標準データ接続を介して宛先デバイス１４によってアクセスされ得る。これは、ファイルサーバに記憶された符号化ビデオデータにアクセスするのに好適であるワイヤレスチャネル（たとえば、Ｗｉ−Ｆｉ（登録商標）接続）、ワイヤード接続（たとえば、ＤＳＬ、ケーブルモデムなど）、または両方の組合せを含み得る。

ただし、本開示の技法は、オーバージエアテレビジョン放送、ケーブルテレビジョン送信、衛星テレビジョン送信、たとえばインターネットを介したストリーミングビデオ送信、データ記憶媒体に記憶するためのデジタルビデオの符号化、データ記憶媒体に記憶されたデジタルビデオの復号、または他の適用例など、様々なマルチメディア適用例のいずれかをサポートするビデオコーディングに適用され得る。いくつかの例では、システム１０は、ビデオストリーミング、ビデオ再生、ビデオブロードキャスティング、および／またはビデオテレフォニーなどの適用例をサポートするために、単方向または二方向のビデオ送信をサポートするように構成され得る。

図１の例では、ソースデバイス１２は、ビデオソース１８と、ビデオエンコーダ２０と、変調器／復調器（モデム）２２と、出力インターフェース２４とを含む。ソースデバイス１２において、ビデオソース１８は、ビデオカメラなどのビデオキャプチャデバイス、以前にキャプチャされたビデオを含んでいるビデオアーカイブ、ビデオコンテンツプロバイダからビデオを受信するためのビデオフィードインターフェース、および／またはソースビデオとしてコンピュータグラフィックスデータを生成するためのコンピュータグラフィックスシステムなどのソース、あるいはそのようなソースの組合せを含み得る。一例として、ビデオソース１８がビデオカメラである場合、ソースデバイス１２および宛先デバイス１４は、いわゆるカメラ付き電話またはテレビ電話を形成し得る。ただし、本開示で説明する技法は、概してビデオコーディングに適用可能であり得、ワイヤレスおよび／またはワイヤード適用例に適用され得る。

キャプチャされたビデオ、以前にキャプチャされたビデオ、またはコンピュータ生成ビデオはビデオエンコーダ２０によって符号化され得る。符号化ビデオ情報は、ワイヤレス通信プロトコルなどの通信規格に従ってモデム２２によって変調され、出力インターフェース２４を介して宛先デバイス１４に送信され得る。モデム２２は、信号変調のために設計された様々なミキサ、フィルタ、増幅器または他の構成要素を含み得る。出力インターフェース２４は、増幅器、フィルタ、および１つまたは複数のアンテナを含む、データを送信するために設計された回路を含み得る。

ビデオエンコーダ２０によって符号化された、キャプチャされたビデオ、以前にキャプチャされたビデオ、またはコンピュータ生成されたビデオはまた、後で消費するために記憶媒体１７またはファイルサーバ１９に記憶され得る。記憶媒体１７は、ブルーレイ（登録商標）ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、フラッシュメモリ、または符号化ビデオを記憶するための他の好適なデジタル記憶媒体を含み得る。記憶媒体１７に記憶された符号化ビデオは、次いで、復号および再生のために宛先デバイス１４によってアクセスされ得る。

ファイルサーバ１９は、符号化ビデオを記憶することと、その符号化ビデオを宛先デバイス１４に送信することとが可能な任意のタイプのサーバであり得る。例示的なファイルサーバは、（たとえば、ウェブサイトのための）ウェブサーバ、ＦＴＰサーバ、ネットワーク接続ストレージ（ＮＡＳ）デバイス、ローカルディスクドライブ、または符号化ビデオデータを記憶することと、符号化ビデオデータを宛先デバイスに送信することとが可能な他のタイプのデバイスを含む。ファイルサーバ１９からの符号化ビデオデータの送信は、ストリーミング送信、ダウンロード送信、または両方の組合せであり得る。ファイルサーバ１９は、インターネット接続を含む任意の標準データ接続を介して宛先デバイス１４によってアクセスされ得る。これは、ファイルサーバに記憶された符号化ビデオデータにアクセスするのに好適である、ワイヤレスチャネル（たとえば、Ｗｉ−Ｆｉ接続）、ワイヤード接続（たとえば、ＤＳＬ、ケーブルモデム、イーサネット（登録商標）、ＵＳＢなど）、または両方の組合せを含み得る。

宛先デバイス１４は、図１の例では、入力インターフェース２６と、モデム２８と、ビデオデコーダ３０と、ディスプレイデバイス３２とを含む。宛先デバイス１４の入力インターフェース２６は、一例として、チャネル１６を介して、または代替例として、記憶媒体１７もしくはファイルサーバ１７から情報を受信し、モデム２８は、情報を復調して、ビデオデコーダ３０向けの復調ビットストリームを生じる。復調されたビットストリームは、ビデオデータを復号する際にビデオデコーダ３０が使用する、ビデオエンコーダ２０によって生成された様々なシンタックス情報を含み得る。そのようなシンタックスはまた、記憶媒体１７またはファイルサーバ１９に記憶された符号化ビデオデータに含まれ得る。一例として、シンタックスは符号化ビデオデータで埋め込まれ得るが、本開示の態様はそのような要件に限定されると考えられるべきでない。ビデオデコーダ３０によっても使用される、ビデオエンコーダ２０によって定義されたシンタックス情報は、コーディングツリーユニット（ＣＴＵ）、コーディングツリーブロック（ＣＴＢ）、予測ユニット（ＰＵ：prediction unit）、コーディングユニット（ＣＵ）またはコーディングされたビデオの他のユニット、たとえば、ビデオスライス、ビデオピクチャ、およびビデオシーケンスまたはピクチャのグループ（ＧＯＰ：group of pictures）などのビデオブロックの特性および／または処理を記述するシンタックス要素を含み得る。ビデオエンコーダ２０およびビデオデコーダ３０の各々は、ビデオデータを符号化または復号することが可能であるそれぞれのエンコーダデコーダ（コーデック）の一部を形成し得る。

ディスプレイデバイス３２は、宛先デバイス１４と一体化されるかまたはその外部にあり得る。いくつかの例では、宛先デバイス１４は、一体型ディスプレイデバイスを含み、また、外部ディスプレイデバイスとインターフェースするように構成され得る。他の例では、宛先デバイス１４はディスプレイデバイスであり得る。概して、ディスプレイデバイス３２は、復号ビデオデータをユーザに対して表示し、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、または別のタイプのディスプレイデバイスなど、様々なディスプレイデバイスのいずれかを備え得る。

図１の例では、通信チャネル１６は、無線周波数（ＲＦ）スペクトルあるいは１つまたは複数の物理伝送線路など、任意のワイヤレスまたはワイヤード通信媒体、あるいはワイヤレス媒体とワイヤード媒体との任意の組合せを備え得る。通信チャネル１６は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークのような、パケットベースのネットワークの一部を形成することができる。通信チャネル１６は、概して、ワイヤード媒体またはワイヤレス媒体の任意の好適な組合せを含む、ビデオデータをソースデバイス１２から宛先デバイス１４に送信するのに好適な任意の通信媒体、または様々な通信媒体の集合体を表す。通信チャネル１６は、ソースデバイス１２から宛先デバイス１４への通信を支援するのに有用であり得る、ルータ、スイッチ、基地局、または任意の他の機器を含み得る。

ビデオエンコーダ２０およびビデオデコーダ３０は、ＩＴＵ−ＴＨ．２６１、ＩＳＯ／ＩＥＣＭＰＥＧ−１Ｖｉｓｕａｌ、ＩＴＵ−ＴＨ．２６２またはＩＳＯ／ＩＥＣＭＰＥＧ−２Ｖｉｓｕａｌ、ＩＴＵ−ＴＨ．２６３、ＩＳＯ／ＩＥＣＭＰＥＧ−４Ｖｉｓｕａｌ、ならびにスケーラブルビデオコーディング（ＳＶＣ）およびマルチビュービデオコーディング（ＭＶＣ）拡張を含むＩＴＵ−ＴＨ．２６４（ＩＳＯ／ＩＥＣＭＰＥＧ−４ＡＶＣとしても知られている）などのビデオ圧縮規格に従って動作し得る。さらに、ＩＴＵ−ＴＶｉｄｅｏＣｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐ（ＶＣＥＧ）とＩＳＯ／ＩＥＣＭｏｔｉｏｎＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）とのＪｏｉｎｔＣｏｌｌａｂｏｒａｔｉｏｎＴｅａｍｏｎＶｉｄｅｏＣｏｄｉｎｇ（ＪＣＴ−ＶＣ）によって現在開発中の新しいビデオコーディング規格、すなわち、高効率ビデオコーディング（ＨＥＶＣ）規格がある。これ以降ＨＥＶＣＷＤ８と呼ばれる、ＨＥＶＣの最新の作業草案（ＷＤ）が、２０１２年７月２０日の時点で、ｈｔｔｐ：／／ｐｈｅｎｉｘ．ｉｎｔ−ｅｖｒｙ．ｆｒ／ｊｃｔ／ｄｏｃ＿ｅｎｄ＿ｕｓｅｒ／ｄｏｃｕｍｅｎｔｓ／１０＿Ｓｔｏｃｋｈｏｌｍ／ｗｇ１１／ＪＣＴＶＣ−Ｊ１００３−ｖ８．ｚｉｐから入手可能である。

ただし、本開示の技法は、いかなる特定のコーディング規格にも限定されない。単に例示のために、本技法は、ＨＥＶＣ規格に従って説明される。

図１には示されていないが、いくつかの態様では、ビデオエンコーダ２０およびビデオデコーダ３０は、それぞれオーディオエンコーダおよびオーディオデコーダと統合され得、適切なＭＵＸ−ＤＥＭＵＸユニット、または他のハードウェアおよびソフトウェアを含んで、共通のデータストリームまたは別個のデータストリーム中のオーディオとビデオの両方の符号化を処理し得る。適用可能な場合、ＭＵＸ−ＤＥＭＵＸユニットはＩＴＵＨ．２２３マルチプレクサプロトコル、またはユーザデータグラムプロトコル（ＵＤＰ）などの他のプロトコルに準拠することができる。

ビデオエンコーダ２０およびビデオデコーダ３０はそれぞれ、マイクロプロセッサを含む１つまたは複数のプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアなど、様々な好適なエンコーダ回路のいずれか、またはそれらの任意の組合せとして実装され得る。本技法がソフトウェアで部分的に実施されるとき、デバイスは、好適な非一時的コンピュータ可読媒体にソフトウェアの命令を記憶し、１つまたは複数のプロセッサを使用してその命令をハードウェアで実行して、本開示の技法を実施し得る。

ビデオエンコーダ２０およびビデオデコーダ３０の各々は１つまたは複数のエンコーダまたはデコーダ中に含まれ得、そのいずれも、それぞれのデバイスにおいて複合エンコーダ／デコーダ（コーデック）の一部として統合され得る。いくつかの事例では、ビデオエンコーダ２０およびビデオデコーダ３０は、情報（たとえば、ピクチャおよびシンタックス要素）をコーディングするビデオコーダと通常呼ばれ得る。ビデオコーダがビデオエンコーダ２０に対応するとき、情報のコーディングは符号化を指し得る。ビデオコーダがビデオデコーダ３０に対応するとき、情報のコーディングは復号を指し得る。

さらに、本開示で説明する技法は、情報をシグナリングするビデオエンコーダ２０を指し得る。ビデオエンコーダ２０が情報をシグナリングするとき、本開示の技法は、概して、ビデオエンコーダ２０が情報を提供する任意の方法を指す。たとえば、ビデオエンコーダ２０がビデオデコーダ３０にシンタックス要素をシグナリングするとき、それは、ビデオエンコーダ２０が出力インターフェース２４および通信チャネル１６を介してビデオデコーダ３０にシンタックス要素を送信したこと、あるいはビデオエンコーダ２０がビデオデコーダ３０による最終的な受信のために記憶媒体１７および／またはファイルサーバ１９上に出力インターフェース２４を介してシンタックス要素を記憶したことを意味し得る。このように、ビデオエンコーダ２０からビデオデコーダ３０へのシグナリングは、ビデオデコーダ３０によって直ちに受信されるビデオエンコーダ２０からの送信が、可能ではあり得るが、必要とされると解釈されるべきでない。そうではなく、ビデオエンコーダ２０からビデオデコーダ３０へのシグナリングは、直接あるいは（たとえば、記憶媒体１７および／またはファイルサーバ１９内の）中間記憶装置を介して、ビデオエンコーダ２０がビデオデコーダ３０による最終的な受信についての情報を提供するためのいずれの技法としても解釈されるべきである。

ビデオエンコーダ２０およびビデオデコーダ３０は、参照ピクチャセットを導出するための、本開示に記載する例示的技法を実装するように構成すればよい。たとえば、ビデオエンコーダ２０およびビデオデコーダ３０は、ランダムアクセスを可能にし得る。また、ビデオエンコーダ２０は、現在のピクチャの各スライス向けに、長期参照ピクチャの軽量シグナリングを実装することができる。こうすることにより、ビデオエンコーダ２０は、長期参照ピクチャの情報をシグナリングする比較的複雑でないやり方を実装することが可能になり、それによりビデオデコーダ３０は、インター予測にどの長期参照ピクチャが必要とされるか判断するための比較的複雑でないプロセスを実装することが可能になる。さらに、ビデオエンコーダ２０およびビデオデコーダ３０は、それぞれのＤＰＢに記憶されたピクチャの時間的識別値に基づいて、どのピクチャが削除されるべきか判断することによって、それぞれの復号ピクチャバッファ（ＤＰＢ）を管理することができる。

これらの技法の各々について、以下でより詳しく説明する。さらに、これらの技法は、別個でも、互いと組み合わせても実装することができる。ただし、これらの技法の説明に先立って、以下で、ビデオエンコーダ２０がビデオデータのコード化ビットストリーム中でシグナリングすることができるとともに、ビデオデコーダ３０がビデオデータのコード化ビットストリーム中で受信することができるシンタックス要素について説明する。

ｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓは、ルーマサンプル中の各復号ピクチャの幅を指定し得る。ｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓの値は、両端値を含む０〜２¹⁶−１の範囲内であり得る。

ｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓは、ルーマサンプル中の各復号ピクチャの高さを指定し得る。ｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓの値は、両端値を含む０〜２¹⁶−１の範囲内であり得る。

テーブル１に示されるように、ビデオデコーダ３０は、シーケンスパラメータセット（ＳＰＳ）中で、ｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕｓ４シンタックス要素を受信することができる。ｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕ４の値は、ＰＯＣ値を判断するための復号プロセスにおいてビデオデコーダ３０が使う変数ＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂの値を指定することができ、ここでＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂ＝２^{(log2_max_pic_order_cnt_lsb_minus4+4)}である。

ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔｓ＿ｐｐｓは、ピクチャパラメータセットに含まれるｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ（）シンタックス構造の数を指定する。ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔｓ＿ｐｐｓの値は、両端値を含む０〜３２の範囲内とする。

０に等しいｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、ピクチャパラメータセットを参照するどのコード化ピクチャのインター予測にも、長期参照ピクチャが使われず、シンタックス要素ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ｌｅｎ＿ｍｉｎｕｓ４、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｄｅｌｔａおよびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｐｓが存在しないことを指定する。１に等しいｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、ピクチャパラメータセットを参照する１つまたは複数のコード化ピクチャのインター予測に長期参照ピクチャを使うことができ、シンタックス要素ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ｌｅｎ＿ｍｉｎｕｓ４、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｄｅｌｔａおよびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｐｓが存在することを指定する。

ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ｌｅｎ＿ｍｉｎｕｓ４に４を加えたものは、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ａｄｄ＿ｆｏｌｌ［ｉ］シンタックス要素のビット長を指定する。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ｌｅｎ＿ｍｉｎｕｓ４の値は、両端値を含む０〜１２の範囲内とする。

ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｄｅｌｔａプラスｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ｌｅｎ＿ｍｉｎｕｓ４プラス４は、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｐｐｓ［ｉ］シンタックス要素のビット長を指定する。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｄｅｌｔａの値は、両端値を含む０〜２８−ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ｌｅｎ＿ｍｉｎｕｓ４の範囲内であり得る。１つの特定のシーケンスパラメータセットを参照するすべてのピクチャパラメータセット中のｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｄｅｌｔａ＋ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ｌｅｎ＿ｍｉｎｕｓ４＋４の値は、同一であり得る。

ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｐｓは、ピクチャパラメータセットに含まれる長期参照ピクチャの識別の数を指定する。ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｐｓの値は、両端値を含む０〜３２の範囲内であり得る。

ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｐｐｓ［ｉ］は、ピクチャパラメータセットに含まれる第ｉの長期参照ピクチャ識別情報を指定する。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｐｐｓ［ｉ］を表すのに使われるビットの数は、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｄｅｌｔａ＋ｌｏｎｇ＿ｔｅｒｍ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｍｉｎｕｓ４＋４に等しくなり得る。

短期参照ピクチャセットシンタックスは、短期ピクチャ用であり得る。短期ピクチャは、それについての識別情報がコード化ピクチャ用のｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ（）シンタックス構造に含まれ、スライスヘッダ（１つもしくは複数）に含まれるか、または参照されるピクチャパラメータセットおよびスライスヘッダ（１つまたは複数）中のｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘシンタックス要素による参照に含まれる参照ピクチャとして定義され得る。スライスヘッダシンタックス要素を、以下のテーブル４に挙げる。

ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ０は、以下で説明するように、コード化ピクチャの参照ピクチャセットの導出にｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ（）シンタックス構造が使われるとき、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０中の短期参照ピクチャの数を指定する。ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ０の値は、両端値を含む０〜ｍａｘ＿ｎｕｍ＿ｒｅｆ＿ｆｒａｍｅｓの範囲内であり得る。

ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ１は、以下で説明するように、コード化ピクチャの参照ピクチャセットの導出にｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ（）シンタックス構造が使われるとき、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１中の短期参照ピクチャの数を指定する。ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ１の値は、両端値を含む０〜ｍａｘ＿ｎｕｍ＿ｒｅｆ＿ｆｒａｍｅｓ−ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ０の範囲内であり得る。

ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｆｏｌｌ０は、以下で説明するように、コード化ピクチャの参照ピクチャセットの導出にｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ（）シンタックス構造が使われるとき、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ０中の短期参照ピクチャの数を指定する。ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｆｏｌｌ０の値は、両端値を含む０〜ｍａｘ＿ｎｕｍ＿ｒｅｆ＿ｆｒａｍｅｓ−ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ０−ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ１の範囲内であり得る。

ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｆｏｌｌ１は、以下で説明するように、コード化ピクチャの参照ピクチャセットの導出にｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ（）シンタックス構造が使われるとき、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ１中の短期参照ピクチャの数を指定する。ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｆｏｌｌ１の値は、両端値を含む０〜ｍａｘ＿ｎｕｍ＿ｒｅｆ＿ｆｒａｍｅｓ−ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ０−ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ１−ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｆｏｌｌ０の範囲内とする。

ｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ｍｉｎｕｓ１［ｉ］は、ｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ（）シンタックス構造に含まれる第ｉの短期参照ピクチャの識別情報を指定する。

ｉｄｒ＿ｐｉｃ＿ｉｄは、瞬時デコーダリフレッシュ（ＩＤＲ）ピクチャを識別する。

ｐｉｃ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄは、ピクチャパラメータセットを指示し、ピクチャパラメータセットを指すのに使われる。

変数ＣｒａＰｉｃＦｌａｇは、スライスがクリアランダムアクセス（ＣＲＡ：clear random access）ピクチャに属す場合、１に等しく設定される。

ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔは、現在のピクチャのピクチャオーダーカウント（ＰＯＣ）値を指定し得る。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｄｅｌｔａおよびｌｏｎｇ＿ｔｅｒｍ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｍｉｎｕｓ４が、参照されるピクチャパラメータセット中に存在する場合、この値を表すのに使われるビットの数は、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｄｅｌｔａ＋ｌｏｎｇ＿ｔｅｒｍ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｍｉｎｕｓ４＋４に等しくなり得る。そうでない場合、この値を表すのに使われるビットの数は３２に等しくなり得る。

ｎｏ＿ｏｕｔｐｕｔ＿ｏｆ＿ｐｒｉｏｒ＿ｐｉｃｓ＿ｆｌａｇは、ＩＤＲピクチャの復号の後で復号ピクチャバッファ中のあらかじめ復号されたピクチャがどのように扱われるかを指定する。ＩＤＲピクチャがビットストリーム中の最初のＩＤＲピクチャであるとき、ｎｏ＿ｏｕｔｐｕｔ＿ｏｆ＿ｐｒｉｏｒ＿ｐｉｃｓ＿ｆｌａｇの値は、復号プロセスに影響する可能性はない。ＩＤＲピクチャがビットストリーム中の最初のＩＤＲピクチャではなく、アクティブシーケンスパラメータセットから導出されたｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓまたはｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓまたはｍａｘ＿ｄｅｃ＿ｆｒａｍｅ＿ｂｕｆｆｅｒｉｎｇの値が、先行ピクチャについてのアクティブなシーケンスパラメータセットから導出されたｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓまたはｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓまたはｍａｘ＿ｄｅｃ＿ｆｒａｍｅ＿ｂｕｆｆｅｒｉｎｇの値とは異なり得るとき、１に等しいｎｏ＿ｏｕｔｐｕｔ＿ｏｆ＿ｐｒｉｏｒ＿ｐｉｃｓ＿ｆｌａｇは、ｎｏ＿ｏｕｔｐｕｔ＿ｏｆ＿ｐｒｉｏｒ＿ｐｉｃｓ＿ｆｌａｇの実効値にかかわらず、デコーダによって推論することができるが、必ずしも推論できるわけではない。

１に等しいｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｐｐｓ＿ｆｌａｇは、現在のピクチャ用の参照ピクチャセットに含まれる短期参照ピクチャセットの識別情報が、参照されるピクチャパラメータセットに存在することを指定する。０に等しいｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｐｐｓ＿ｆｌａｇは、現在のピクチャ用の参照ピクチャセットに含まれる短期参照ピクチャセットの識別情報が、参照されるピクチャパラメータセットに存在しないことを指定する。

ｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘは、現在のピクチャ用の参照ピクチャセット中の短期参照ピクチャセットの識別情報を含む、参照されるピクチャパラメータセットに含まれる、ｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ（）シンタックス構造の索引を指定する。

変数ＮｕｍＳｈｏｒｔＴｅｒｍＣｕｒｒ０およびＮｕｍＳｈｏｒｔＴｅｒｍＣｕｒｒ１は、次のように指定される。

上式で、ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ０およびｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ０は、それぞれ、参照されるピクチャパラメータセットに存在し、ｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘによって参照されるか、またはスライスヘッダに直接存在する、ｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ（）シンタックス構造中の同じ名称のシンタックス要素である。

ｎｕｍ＿ｒｅｆ＿ｉｄｘ＿ｌ０＿ａｃｔｉｖｅ＿ｍｉｎｕｓ１は、スライスを復号するのに使われるものとする参照ピクチャリスト０についての最大参照索引を指定する。

現在のスライスがＰまたはＢスライスであり、ｎｕｍ＿ｒｅｆ＿ｉｄｘ＿ｌ０＿ａｃｔｉｖｅ＿ｍｉｎｕｓ１が存在しないとき、ｎｕｍ＿ｒｅｆ＿ｉｄｘ＿ｌ０＿ａｃｔｉｖｅ＿ｍｉｎｕｓ１は、ｎｕｍ＿ｒｅｆ＿ｉｄｘ＿ｌ０＿ｄｅｆａｕｌｔ＿ａｃｔｉｖｅ＿ｍｉｎｕｓ１に等しいと推論され得る。

ｎｕｍ＿ｒｅｆ＿ｉｄｘ＿ｌ０＿ａｃｔｉｖｅ＿ｍｉｎｕｓ１の値は、両端値を含む０〜１５の範囲内であり得る。

ｎｕｍ＿ｒｅｆ＿ｉｄｘ＿ｌ１＿ａｃｔｉｖｅ＿ｍｉｎｕｓ１は、スライスを復号するのに使われるものとする参照ピクチャリスト１についての最大参照索引を指定する。

現在のスライスがＰまたはＢスライスであり、ｎｕｍ＿ｒｅｆ＿ｉｄｘ＿ｌ１＿ａｃｔｉｖｅ＿ｍｉｎｕｓ１が存在しないとき、ｎｕｍ＿ｒｅｆ＿ｉｄｘ＿ｌ１＿ａｃｔｉｖｅ＿ｍｉｎｕｓ１は、ｎｕｍ＿ｒｅｆ＿ｉｄｘ＿ｌ１＿ｄｅｆａｕｌｔ＿ａｃｔｉｖｅ＿ｍｉｎｕｓ１に等しいと推論され得る。

ｎｕｍ＿ｒｅｆ＿ｉｄｘ＿ｌ１＿ａｃｔｉｖｅ＿ｍｉｎｕｓ１の値は、両端値を含む０〜１５の範囲内であり得る。

長期参照ピクチャセットシンタックスは、長期ピクチャ用であり得る。長期ピクチャは、コード化ピクチャ用のｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ（）シンタックス構造に、それについての識別情報が含まれる参照ピクチャとして定義され得る。概して、長期参照ピクチャは、短期参照ピクチャよりも長くＤＰＢに記憶されてよい。

１に等しいｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇは、どの長期参照ピクチャも、現在のピクチャならびに復号順で現在のピクチャに続くピクチャのインター予測に使われないことを示し得る。０に等しいこのフラグは、長期参照ピクチャの使用が長期参照ピクチャセットシンタックステーブルの残りのシンタックス要素によってシグナリングされることを示し得る。

ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇが１に等しいとき、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ、およびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｆｏｌｌは、それぞれ、０、０、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｐｓ、および０であると推論することができる。

１に等しいｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇは、参照されるピクチャパラメータセット中で指定されるすべての長期参照ピクチャを、現在のピクチャの予測に使うことができ、参照されるＰＰＳ中で指示されないとともに復号順で現在のピクチャに先立つ長期参照ピクチャは、現在のピクチャまたは復号順で現在のピクチャに続くピクチャのインター予測に使うことができないことを示し得る。０に等しいこのフラグは、長期参照ピクチャの使用が長期参照ピクチャセットシンタックステーブルの残りのシンタックス要素によってシグナリングされることを示し得る。

ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇが１に等しいとき、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ、およびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｆｏｌｌは、それぞれ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｐｓ、０、０および０であると推論することができる。

表さないとき、このフラグは０に等しいと推論することができる。

ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒは、参照されるピクチャパラメータセットに識別情報が含まれるとともに現在のピクチャのインター予測に使うことができるすべての長期参照ピクチャの数を指定する。ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒが存在しない場合、値は、０に等しいものとして導出され得る。ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒの値は、両端値を含む０〜ｍａｘ＿ｎｕｍ＿ｒｅｆ＿ｆｒａｍｅｓの範囲内であり得る。

ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒは、参照されるピクチャパラメータセットに識別情報が含まれないとともに現在のピクチャのインター予測に使うことができるすべての長期参照ピクチャの数を指定する。ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒが存在しない場合、値は、０に等しいものとして導出され得る。ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒの値は、両端値を含む０〜ｍａｘ＿ｎｕｍ＿ｒｅｆ＿ｆｒａｍｅｓ−ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒの範囲内であり得る。

変数ＮｕｍＬｏｎｇＴｅｒｍＣｕｒｒは、次のように指定される。

ＮｕｍＬｏｎｇＴｅｒｍＣｕｒｒ＝ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＋ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒ
ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌは、参照されるピクチャパラメータセットに識別情報が含まれ、現在のピクチャのインター予測に使われず、復号順で現在のピクチャに続くピクチャのうちのどのピクチャのインター予測にも使うことができるすべての長期参照ピクチャの数を指定する。ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌが存在しない場合、値は、０に等しいものとして導出され得る。ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌの値は、両端値を含む０〜ｍａｘ＿ｎｕｍ＿ｒｅｆ＿ｆｒａｍｅｓの範囲内であり得る。

ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｆｏｌｌは、参照されるピクチャパラメータセットに識別情報が含まれず、現在のピクチャのインター予測に使われず、復号順で後に続くピクチャのうちのどのピクチャのインター予測にも使うことができるすべての長期参照ピクチャの数を指定する。ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｆｏｌｌが存在しない場合、値は、０に等しいものとして導出され得る。ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｆｏｌｌの値は、両端値を含む０〜ｍａｘ＿ｎｕｍ＿ｒｅｆ＿ｆｒａｍｅｓ−ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌの範囲内であり得る。

ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓ［ｉ］は、参照されるピクチャパラメータセットから現在のピクチャの参照ピクチャセットに継承される第ｉの長期参照ピクチャの、参照されるピクチャパラメータセットに含まれる長期参照ピクチャ識別情報のリストに対する索引を指定する。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓ［ｉ］の値は、両端値を含む０〜３１の範囲内であり得る。

ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ａｄｄ［ｉ］は、参照されるピクチャパラメータセットから継承されないが、現在のピクチャの参照ピクチャセットに含まれる第ｉの長期参照ピクチャの長期参照ピクチャ識別情報を指定する。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ａｄｄ＿ｃｕｒｒ［ｉ］を表すのに使われるビットの数は、ｌｏｎｇ＿ｔｅｒｍ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｍｉｎｕｓ４＋４に等しくなり得る。

上記シグナリングまたは導出された値（すなわち、テーブル１〜５中のシンタックス要素および値）を用いて、ビデオデコーダ３０は、より多くのピクチャを、ランダムアクセスポイント（ＲＡＰ）として適格とすることが可能になり得る。ランダムアクセスポイントは、ビデオデコーダ３０がピクチャを復号し始めることができるビデオシーケンス中のピクチャを指し得る。たとえば、ＲＡＰピクチャは、他のどのピクチャに関しても予測されないピクチャであってよく（すなわち、ＲＡＰピクチャ内のすべてのスライスがイントラ予測される）、復号順でＲＡＰピクチャの後に続くピクチャは、復号順でＲＡＰピクチャに先立つどのピクチャに関しても予測することができない。したがって、ビデオデコーダ３０は、復号順でＲＡＰピクチャよりも早いどのピクチャも必要とせずに、ＲＡＰピクチャと、復号順でＲＡＰピクチャに続くピクチャとを復号することが可能であり得る。

ＲＡＰピクチャの一例は、ビデオデータからなるビデオシーケンス中の最初のピクチャである瞬時デコーダリフレッシュ（ＩＤＲ）ピクチャである。より詳しく説明するように、ＲＡＰピクチャの他の例があってもよく、これらの技法により、これらのＲＡＰピクチャからもランダムアクセスが起こってよく、ＩＤＲＲＡＰピクチャだけに限られない。

本開示に記載する技法では、非ＲＡＰピクチャ（たとえば、ビデオデコーダ３０が復号を始めることができないピクチャ）に関して、ビデオエンコーダ２０は、現在のピクチャの完全ＰＯＣ値の一部を成す部分的識別子値（たとえば、部分的ＰＯＣ値）を、スライスヘッダ中でシグナリングすればよい。たとえば、テーブル４に示したように、ビデオエンコーダ２０は、現在のピクチャのｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ値をシグナリングすればよく、ここでｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ値は、現在のピクチャの完全ＰＯＣ値の最下位ビット（ＬＳＢ）である。たとえば、ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ値は、コード化ピクチャについてのピクチャオーダーカウントモジュロＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂを指定し得る。ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂシンタックス値は、ｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕｓ４＋４ビットであり得る。ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂの値は、両端値を含む０〜ＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂ−１の範囲内であり得る。

ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ値から、ビデオデコーダ３０は、現在のピクチャの完全ＰＯＣ値を判断することができる。たとえば、ビデオデコーダ３０はまた、ビデオエンコーダ２０によってシグナリングされるコード化ビットストリーム中で、ｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕｓ４シンタックス要素を受信することができる。ビデオデコーダ３０は、ｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕｓ４シンタックス要素を、シーケンスパラメータセット中で受信することができる。ｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕ４の値は、両端値を含む０〜１２の範囲内であり得る。ｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕｓ４シンタックス要素は、ビデオデコーダ３０がＰＯＣ値を判断するための復号プロセスにおいて使う変数ＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂの値を指定し得る。たとえば、以下のようになる。

これらの受信シンタックス要素から、ビデオデコーダ３０は、現在のピクチャのＰＯＣ値を次のように判断することができる。たとえば、ビデオデコーダ３０は、現在のピクチャについてのＰｉｃＯｒｄｅｒＣｎｔＭｓｂを判断することができる。現在のピクチャについてのＰＯＣ値は、現在のピクチャについての判断されたＰｉｃＯｒｄｅｒＣｎｔＭｓｂに、現在のピクチャについての受信されたｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂをプラスしたものとなり得る。

現在のピクチャについてのＰＯＣ値を判断するプロセスの一部として、ビデオデコーダ３０は、変数ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＭｓｂおよびｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＬｓｂを判断すればよい。たとえば、現在のピクチャがＩＤＲピクチャである場合、ビデオデコーダ３０は、ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＭｓｂを０に等しく設定し、ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＬｓｂを０に等しく設定すればよい。そうでない場合（すなわち、現在のピクチャがＩＤＲピクチャでない場合）、ビデオデコーダ３０は、ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＭｓｂを、現在のピクチャ以下のｔｅｍｐｏｒａｌ＿ｉｄをもつ、復号順において前の参照ピクチャのＰｉｃＯｒｄｅｒＣｎｔＭｓｂに等しく設定し、ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＬｓｂを、現在のピクチャ以下のｔｅｍｐｏｒａｌ＿ｉｄをもつ、復号順において前の参照ピクチャのｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂの値に等しく設定すればよい。

これらの変数値およびシンタックス要素の値（たとえば、ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＭｓｂ、ｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＬｓｂ、ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ、およびＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂの値）を用いて、ビデオデコーダ３０は、ＰｉｃＯｒｄｅｒＣｎｔＭｓｂの値を、以下の擬似コードに記述するステップに基づいて判断することができる。ビデオデコーダ３０は、以下の擬似コードに記述するステップを実装して、現在のピクチャのＰＯＣ値を導出するのに使われる、各現在のピクチャについてのＰｉｃＯｒｄｅｒＣｎｔＭｓｂを判断し得ることを理解されたい。

現在のピクチャについてのＰｉｃＯｒｄｅｒＣｎｔＭｓｂを判断した後、ビデオデコーダ３０は、現在のピクチャについてのＰｉｃＯｒｄｅｒＣｎｔＭｓｂおよび現在のピクチャについてのｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂに基づいて、現在のピクチャについてのＰＯＣ値を判断することができる。ビデオデコーダ３０は、現在のピクチャについてのＰＯＣ値を次のように判断することができる。

現在のピクチャの復号の後、ビデオデコーダ３０は、そのピクチャについてのＰｉｃＯｒｄｅｒＣｎｔＭｓｂ値と、ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ値と、ＰＯＣ値とを、ビデオデコーダ３０の復号ピクチャバッファ（ＤＰＢ）に記憶してよい。このように、ＤＰＢ中の各ピクチャは、ＰＯＣ値、ＰｉｃＯｒｄｅｒＣｎｔＭｓｂ値、およびｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ値に関連付けられる。

いくつかの事例では、ビデオデコーダ３０は、この復号ピクチャを後続ピクチャ用の参照ピクチャとして使うことができるかどうか判断する必要がある場合がある。たとえば、この後続ピクチャについて、ビデオデコーダ３０は、ビデオデコーダ３０がこの後続ピクチャをインター予測するために使うことができる長期参照ピクチャ用のピクチャパラメータセットなどのパラメータセット中で、完全ＰＯＣ値を受信し得る。この例では、長期参照ピクチャについてのＰＯＣ値が、現在のピクチャについての判断されたＰＯＣ値に等しいと仮定する。したがって、ビデオデコーダ３０は、長期参照ピクチャの受信ＰＯＣ値と、現在の復号ピクチャの判断されたＰＯＣ値とに基づいて、後続ピクチャをインター予測するために使うことができる長期参照ピクチャが現在の復号ピクチャであると判断することができる（すなわち、ビデオデコーダ３０は、長期参照ピクチャの受信ＰＯＣ値を、現在の復号ピクチャのＰＯＣ値にマッピングすることができる）。ビデオデコーダ３０は次いで、現在の復号ピクチャを、後続ピクチャをインター予測するために使うことができるピクチャとして識別することができる。

現在のピクチャの部分的識別子値（たとえば、現在のピクチャのＰＯＣ値のＬＳＢ）をシグナリングすることによって、ビデオエンコーダ２０は、シグナリングされる必要があるビットの量を削減することができ、ビデオデコーダ３０は、より少ないビットしか受信する必要がないことがある。ただし、ビデオデコーダ３０が非ＩＤＲＲＡＰピクチャにおいて復号を開始する場合、いくつかの問題があり得る。

たとえば、上述したように、ビデオデコーダ３０は、ＩＤＲピクチャに基づいて、現在のピクチャの完全ＰＯＣ値を判断することができる（たとえば、完全ＰＯＣ値を判断するのに使われる、上述したｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＬｓｂおよびｐｒｅｖＰｉｃＯｒｄｅｒＣｎｔＭｓｂ変数が、ＩＤＲピクチャから始まって増分される）。ビデオデコーダ３０が非ＩＤＲＲＡＰピクチャにおいて復号を始めるべきである場合、ＩＤＲピクチャは利用可能でない場合があり、ビデオデコーダ３０は、非ＩＤＲＲＡＰピクチャの完全ＰＯＣ値を判断することができない場合がある。この場合、参照ピクチャについての完全ＰＯＣ値をビデオデコーダ３０が受信した場合、非ＩＤＲＲＡＰピクチャの後に続くピクチャをインター予測するために使われることになる。たとえば、参照ピクチャは長期参照ピクチャであってよく、ビデオエンコーダ２０は、長期参照ピクチャの完全ＰＯＣ値を、ピクチャパラメータセット中でシグナリングすればよい。この場合ビデオデコーダ３０は、ＤＰＢ中のピクチャについての完全ＰＯＣ値を判断することができなかった可能性があるので、ビデオデコーダ３０は、参照ピクチャについてのＰＯＣ値を、ＤＰＢ中のピクチャにマッピングすることができない場合がある。

たとえば、ピクチャをインター予測するためのいくつかの例では、ビデオデコーダ３０は、後でより詳しく説明するように、参照ピクチャセットを共に形成する複数の参照ピクチャサブセットを構成することができる。これらの参照ピクチャサブセットは、ピクチャをインター予測するために使うことができるがピクチャをインター予測するために必ずしも使われなくてもよい参照ピクチャを識別する。

いくつかの例では、ビデオエンコーダ２０は、ピクチャをインター予測するために使うことができる長期参照ピクチャについての完全ＰＯＣ値を、ピクチャパラメータセット中でシグナリングすればよい。ただし、ビデオデコーダ３０がピクチャについての完全ＰＯＣ値を判断することができない場合、たとえばビデオデコーダ３０が非ＩＤＲＲＡＰピクチャにおいて復号を始めた場合、ビデオデコーダ３０は、ＤＰＢに記憶されたどのピクチャが、ピクチャパラメータセット中でシグナリングされる、長期参照ピクチャの完全ＰＯＣ値によって参照されるか判断することができない可能性がある。

こうすることにより、ランダムアクセスのための選択肢が制限され得る。より詳しく説明するように、本開示に記載する技法により、ビデオデコーダ３０は、ランダムアクセスに非ＩＤＲＲＡＰピクチャを使用するときに存在し得る問題に対処することができるようになり得る。

たとえば、本開示に記載する技法によると、ビデオデコーダ３０は、非ＩＤＲＲＡＰピクチャから復号することが可能であり得る。非ＩＤＲＲＡＰピクチャとは、以下の基準を満たすピクチャであり得る。この例では、非ＩＤＲＲＡＰピクチャはｐｉｃＲとして指定される。

非ＩＤＲＲＡＰピクチャｐｉｃＲについての第１の基準は、ｐｉｃＲはＩＤＲピクチャではないことである。非ＩＤＲＲＡＰピクチャｐｉｃＲについての第２の基準は、出力順および復号順でｐｉｃＲに続くすべてのピクチャが正しく復号され得ることである。たとえば、ｐｉｃＲのＰＯＣ値をｒＰＯＣとし、ｐｉｃＡを、復号順と出力順の両方でｐｉｃＲに続く同じコード化ビデオシーケンス中のピクチャとし、ｐｉｃａのＰＯＣ値をａＰＯＣとする。ｐｉｃＲにおいてランダムアクセスが実施されると、同じコード化ビデオシーケンス中にあるとともに出力順でｐｉｃＡに続くすべてのピクチャが正しく復号され得る。

非ＩＤＲＲＡＰピクチャｐｉｃＲに関して、ランダムアクセスがｐｉｃＲにおいて実施されたとき、同じコード化ビデオシーケンス中にあるとともに出力順でｐｉｃＲに続くすべてのピクチャが正しく復号され得る場合、クリーンランダムアクセス（ＣＲＡ）ピクチャと呼ばれる。この条件が非ＩＤＲＲＡＰピクチャｐｉｃＲについて真でない場合、漸進的復号リフレッシュ（ＧＤＲ）ピクチャと呼ばれる。

非ＩＤＲＲＡＰピクチャのさらなる例は、リンク切断アクセス（ＢＬＡ）ピクチャである。ＢＬＡピクチャは、予測構造（たとえば、ＢＬＡピクチャに続くどのピクチャがインター予測に使われ得るか）においてＣＲＡピクチャと同様であり得る。

本開示に記載する技法により、ビデオデコーダ３０は、非ＩＤＲＲＡＰピクチャから始まるランダムアクセスを実施することができるようになり、ランダムアクセスの例は、ＣＲＡピクチャ、ＧＤＲピクチャ、およびＢＬＡピクチャを含むが、これらの技法は、他のタイプの非ＩＤＲＲＡＰピクチャにも拡張可能である。たとえば、テーブル４は、ＣｒａＰｉｃＦｌａｇシンタックス要素を定義する。現在のピクチャがＣＲＡピクチャである場合、テーブル４によると、ビデオエンコーダ２０は、ＣｒａＰｉｃＦｌａｇを真（すなわち、１の値）に設定すればよい。テーブル４に示されるように、ＣｒａＰｉｃＦｌａｇが真の場合、ビデオエンコーダ２０は、現在のピクチャの完全ＰＯＣ値をシグナリングしてよい。たとえば、ＣｒａＰｉｃＦｌａｇが真の場合、ビデオエンコーダ２０は、現在のピクチャのＰＯＣ値の最上位ビット（ＭＳＢ）とＬＳＢとを含むＰＯＣ値をシグナリングしてよい。

このように、ビデオデコーダ３０がＣＲＡピクチャ（すなわち、非ＩＤＲＲＡＰピクチャ）から開始してランダムアクセスを実施する場合、ビデオデコーダ３０は、ＩＤＲピクチャが利用可能でなくても、非ＩＤＲＲＡＰピクチャについての完全ＰＯＣ値をＤＰＢに記憶することができ得る。次いで、ビデオデコーダ３０は、ＣＲＡピクチャの完全ＰＯＣ値に基づいて、ＣＲＡピクチャの後に続くピクチャの完全ＰＯＣ値を判断することができ得る。

たとえば、ＣＲＡピクチャの後に続く非ＲＡＰピクチャに関して、ビデオデコーダ３０は、部分的識別子値（たとえば、ＰＯＣ値のＬＳＢ）を受信することができる。ＣＲＡピクチャのＰＯＣ値および完全ＰＯＣ値のＬＳＢから、ビデオデコーダ３０は、後続ピクチャの完全ＰＯＣ値を判断することができ得る。これにより、ビデオデコーダ３０は、ＣＲＡピクチャと、ＣＲＡピクチャの後に続くピクチャとをインター予測に使用することが可能になり得る。たとえば、ビデオエンコーダ２０が、以降のピクチャをインター予測するために使うことができる参照ピクチャ（たとえば、短期参照ピクチャまたは長期参照ピクチャ）についての完全ＰＯＣ値をシグナリングする場合、ビデオデコーダ３０は、ＤＰＢ中のどのピクチャが、後続ピクチャをインター予測するために使うことができる参照ピクチャであるかを識別することができる可能性がある。

このように、復号順で非ＩＤＲＲＡＰピクチャに続く非ＲＡＰピクチャに関して、ビデオデコーダ３０は、非ＩＤＲＲＡＰピクチャの完全ＰＯＣ値に基づいて、非ＲＡＰピクチャをインター予測するために使うことができる参照ピクチャを識別することができる。たとえば、ビデオデコーダ３０は、参照ピクチャサブセット中のピクチャパラメータセット中でシグナリングされる長期ピクチャであるとビデオデコーダ３０が判断したピクチャをＤＰＢに含めることによって、参照ピクチャサブセットを構成することができる可能性がある。

このように、ビデオデコーダ３０は、非ＩＤＲＲＡＰピクチャの一例であるＣＲＡピクチャから開始してランダムアクセスを実施することができる。ただし、本開示の態様はそのように限定されない。他の例では、ビデオエンコーダ２０は、現在のピクチャがＧＤＲピクチャである場合はＧｄｒＰｉｃＦｌａｇを真に設定すればよく、ＧＤＲピクチャの完全ＰＯＣ値をシグナリングすればよい。同様に、ビデオエンコーダ２０は、現在のピクチャがＢＬＡピクチャである場合はＢｌａＰｉｃＦｌａｇを真に設定すればよく、ＢＬＡピクチャの完全ＰＯＣ値をシグナリングすればよい。たとえば、上記例では、ビデオエンコーダ２０は、テーブル４の「ｉｆ（ＣｒａＰｉｃＦｌａｇ）」を、「ｉｆ（ＧｄｒＰｉｃＦｌａｇ）」または「ｉｆ（ＢｌａＰｉｃＦｌａｇ）で置き換えてよい。

あるいは、ビデオエンコーダ２０は、テーブル４の「ｉｆ（ＣｒａＰｉｃＦｌａｇ）」を、「ｉｆ（ＣｒａＰｉｃＦｌａｇ｜｜ＧｄｒＰｉｃＦｌａｇ｜｜ＢｌａＰｉｃＦｌａｇ）」で置き換えてよい。この場合、現在のピクチャが、ＣＲＡピクチャ、ＧＤＲピクチャ、またはＢＬＡピクチャのうちのいずれかである場合、ビデオエンコーダ２０は、ピクチャについての完全ＰＯＣ値をシグナリングすればよい。ビデオデコーダ３０が、すべての例において、すべての可能な非ＩＤＲＲＡＰピクチャに対してランダムアクセスを実施することが必要である必要はなく、ビデオエンコーダ２０は、ビデオデコーダ３０がランダムアクセスに使用することができる非ＩＤＲＲＡＰピクチャを制限してよい。たとえば、ビデオエンコーダ２０は、テーブル４中の「ｉｆ（ＣｒａＰｉｃＦｌａｇ）」を「ｉｆ（ＣｒａＰｉｃＦｌａｇ｜｜ＧｄｒＰｉｃＦｌａｇ）」で置き換えてよく、そうすることによって、ランダムアクセスをＣＲＡおよびＧＤＲピクチャに限定し、ＢＬＡピクチャ向けのランダムアクセスは認めない。ビデオデコーダ３０がランダムアクセスに使用することができる、ピクチャについての他の順列および組合せも可能であり得る。

さらに、ビデオエンコーダ２０は、ＲＡＰピクチャについての完全ＰＯＣ値を必ずしもシグナリングする必要はない。たとえば、いくつかの事例では、ビデオエンコーダ２０は、ＲＡＰピクチャについてのＰＯＣ値のＭＳＢとＰＯＣ値のＬＳＢとを別個にシグナリングすればよい。たとえば、ビデオエンコーダ２０は、ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｍｓｂ値をスライスヘッダ中でシグナリングしてよい。

ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｍｓｂは、現在のピクチャのピクチャオーダーカウントのＭＳＢ部を指定する。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｄｅｌｔａおよびｌｏｎｇ＿ｔｅｒｍ＿ｐｉｃ＿ｉｄ＿ｌｅｎ＿ｍｉｎｕｓ４が、参照されるピクチャパラメータセット中に存在する場合、この値を表すのに使われるビットの数は、

に等しくなり得る。そうでない場合、この値を表すのに使われるビットの数は、３２−ｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕｓ４に等しくなり得る。

この例では、ビデオデコーダ３０は、現在のピクチャについての完全ＰＯＣ値を次のように判断することができる。

この例では、ビデオエンコーダ２０は、非ＩＤＲＲＡＰピクチャのビットすべて（たとえば、ＭＳＢとＬＳＢの組合せ）をシグナリングするよりもむしろ、非ＩＤＲＲＡＰピクチャについてのｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｍｓｂをシグナリングし、ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂを別個にシグナリングすればよい。ビデオデコーダ３０は、非ＩＤＲＲＡＰピクチャの完全ＰＯＣ値のＭＳＢ部とＬＳＢ部とを別個に復号することができる。ビデオデコーダ３０は次いで、上記技法を使用して、非ＩＤＲＲＡＰピクチャについての完全ＰＯＣ値を判断すればよい。

さらに、いくつかの他の例では、ビデオエンコーダ２０は、非ＩＤＲＲＡＰピクチャについての完全ＰＯＣ値をシグナリングしなくてよい。たとえば、ビデオエンコーダ２０は、ＣＲＡ、ＧＤＲ、またはＢＬＡピクチャのＭＳＢ部をシグナリングすればよい。この例では、ビデオデコーダ３０は、これらのピクチャについての完全ＰＯＣ値を、ＰＯＣ値のＭＳＢ部から完全ＰＯＣ値を判断するための前の式と同様にして判断することができる。

上記は、ビデオエンコーダ２０およびビデオデコーダ３０が非ＩＤＲＲＡＰピクチャからのランダムアクセスを可能にする例示的なやり方について説明している。したがって、いくつかの例では、ビデオコーダ（たとえば、ビデオエンコーダ２０またはビデオデコーダ３０）は、瞬時デコーダリフレッシュ（ＩＤＲ）ピクチャではないランダムアクセスポイント（ＲＡＰ）ピクチャについての完全識別子値をコーディングする（たとえば、符号化または復号する）ことができる。ＲＡＰピクチャとは、ビットストリームの復号を開始するためのピクチャのタイプであり、復号順でＲＡＰピクチャに続く少なくともいくつかのピクチャは、復号順でＲＡＰピクチャの前のどのピクチャに関してもインター予測されない。上述したように、非ＩＤＲＲＡＰピクチャの例には、ＣＲＡ、ＢＬＡ、およびＧＤＲピクチャがある。

いくつかの例では、ビデオコーダは、非ＩＤＲＲＡＰピクチャについての完全識別子値のビットすべて（たとえば、ＭＳＢ部およびＬＳＢ部）をコーディングしてよい。いくつかの他の例では、ビデオコーダは、非ＩＤＲＲＡＰピクチャの完全識別子値のＭＳＢ部とＬＳＢ部とを別個にコーディングしてよい。非ＩＤＲＲＡＰピクチャの識別子値の一例は、非ＩＤＲＲＡＰピクチャのＰＯＣ値である。

ビデオコーダは、第１の非ＲＡＰピクチャについての部分的識別子値をコーディングすることができる。この例では、部分的識別子値は、第１の非ＲＡＰピクチャの完全ＰＯＣ値の一部分であってよい。この第１の非ＲＡＰピクチャは、復号順で非ＩＤＲＲＡＰピクチャに続き得る。

ビデオコーダはまた、第１の非ＲＡＰピクチャについての完全識別子値に基づいて、第２の非ＲＡＰピクチャをインター予測することができる。たとえば、ビデオコーダは、第１の非ＲＡＰピクチャについての完全識別子値に基づいて、ビデオコーダが、第２の非ＲＡＰピクチャをインター予測するために第１の非ＲＡＰピクチャを使うべきであると判断してよい。この場合、ビデオコーダは、第１の非ＲＡＰピクチャに基づいて第２の非ＲＡＰピクチャをインター予測する。第２の非ＲＡＰピクチャは、復号順で非ＩＤＲＲＡＰピクチャと第１の非ＲＡＰピクチャの両方に続く。

いくつかの例では、ビデオコーダは、ピクチャパラメータセットなどのパラメータセット中で、第２の非ＲＡＰピクチャをインター予測するために使うことができる、長期参照ピクチャなど、１つまたは複数の参照ピクチャについての完全識別子値をさらにコーディングすることができる。この例では、ビデオコーダ（たとえば、ビデオデコーダ３０）は、非ＩＤＲＲＡＰピクチャについての完全識別子値と第１の非ＲＡＰピクチャについての部分的識別子値とに基づいて、第１の非ＲＡＰピクチャについての完全識別子値を判断することができる。

ビデオコーダは、１つまたは複数の参照ピクチャのうちの少なくとも１つについての完全識別子値が、第１の非ＲＡＰピクチャについての完全識別子値と同じかどうか判断することができる。１つまたは複数の参照ピクチャのうちの少なくとも１つについての完全識別子値が、第１の非ＲＡＰピクチャについての完全識別子値と同じである場合、ビデオコーダは、第２の非ＲＡＰピクチャをインター予測するために使うことができる参照ピクチャを識別する参照ピクチャサブセットに、第１の非ＲＡＰピクチャを含めてよい。

いくつかの例では、本開示に記載する技法は、スライスヘッダ中での長期参照ピクチャのシグナリングに関連し得る。概して、参照ピクチャは、短期参照ピクチャまたは長期参照ピクチャとしてカテゴリー化することができる。本開示に記載する技法によると、ビデオエンコーダ２０は、現在のピクチャ用の参照ピクチャセットを示す情報をシグナリングすることができる。現在のピクチャ用の参照ピクチャセットは、現在のピクチャをインター予測するために使うことができ、かつ／または復号順で現在のピクチャに続くピクチャをインター予測するために使うことができる参照ピクチャを識別することができる。参照ピクチャセット中の参照ピクチャは、短期参照ピクチャおよび長期参照ピクチャであってよい。

たとえば、ビデオエンコーダ２０は、どの短期参照ピクチャが参照ピクチャセットに属すかと、どの長期参照ピクチャが参照ピクチャセットに属すかとを示す情報をシグナリングすることができる。この情報から、ビデオデコーダ３０は、複数の参照ピクチャサブセットを構成することができ、各参照ピクチャサブセットは、参照ピクチャセットに属す参照ピクチャのうちのゼロ個以上のピクチャを識別する。構成された参照ピクチャサブセットから、ビデオデコーダ３０は、参照ピクチャセットを導出することができる。

ビデオデコーダ３０は、ピクチャごとに一度、参照ピクチャセットを導出するための導出プロセスを実装することができる。たとえば、ビデオデコーダ３０は、スライスヘッダを復号した後、ただし現在のピクチャ内のどのブロックを復号するのにも先立って、および現在のピクチャ内のスライスをインター予測するのに使われる参照ピクチャ（１つまたは複数）を識別する参照ピクチャリスト（１つまたは複数）を構成するのに先立って、参照ピクチャセットを導出することができる。

参照ピクチャサブセットは、参照ピクチャセットに属す短期参照ピクチャと、参照ピクチャセットに属す長期参照ピクチャとを識別するサブセットを含み得る。いくつかの例では、ビデオデコーダ３０は、ゼロ個以上の短期参照ピクチャを含む４つの参照ピクチャサブセット、およびゼロ個以上の長期参照ピクチャを含む２つの参照ピクチャサブセットをもつ、６つの参照ピクチャサブセットを構成することができる。短期参照ピクチャ用の４つの参照ピクチャサブセットは、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ０、およびＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ１と呼ばれ得る。長期参照ピクチャ用の２つの参照ピクチャサブセットは、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌと呼ばれ得る。

６つの参照ピクチャサブセットは、例示の目的で記載され、限定的と解釈されるべきでないことを理解されたい。一例として、ビデオデコーダ３０は、たとえば、サブセットのうちのいくつかを組み合わせることによって、６つの参照ピクチャサブセットよりも少ない参照ピクチャサブセットを構成してよい。ビデオデコーダ３０が６未満の参照ピクチャサブセットを構成するこれらの例のうちのいくつかについては、後で説明する。ただし、説明のために、ビデオデコーダ３０が６つの参照ピクチャサブセットを構成する例を用いて、本技法を記載する。

いくつかの例では、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０参照ピクチャサブセットは、現在のピクチャよりも出力または表示順が早いとともに、現在のピクチャのインター予測において参照用に使われ得、復号順で現在のピクチャに続く１つまたは複数のピクチャのインター予測において参照用に使われ得るすべての短期参照ピクチャの、ＰＯＣ値などの識別情報を含むことができ、かつそれだけを含むことができる。ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１参照ピクチャサブセットは、現在のピクチャよりも出力または表示順が後であるとともに、現在のピクチャのインター予測において参照用に使われ得、復号順で現在のピクチャに続く１つまたは複数のピクチャのインター予測において参照用に使われ得るすべての短期参照ピクチャの識別情報を含むことができ、かつそれだけを含むことができる。

ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ０参照ピクチャサブセットは、現在のピクチャよりも出力または表示順が早く、復号順で現在のピクチャに続く１つまたは複数のピクチャのインター予測において参照用に使われ得るとともに、現在のピクチャのインター予測においては参照用に使うことができない、すべての短期参照ピクチャの識別情報を含むことができ、かつそれだけを含むことができる。ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ１参照ピクチャサブセットは、現在のピクチャよりも出力または表示順が遅く、復号順で現在のピクチャに続く１つまたは複数のピクチャのインター予測において参照用に使われ得、現在のピクチャのインター予測においては参照用に使うことができない、すべての短期参照ピクチャの識別情報を含むことができ、かつそれだけを含むことができる。

ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ参照ピクチャサブセットは、現在のピクチャのインター予測において参照用に使われ得るとともに復号順で現在のピクチャに続く１つまたは複数のピクチャのインター予測において参照用に使われ得るすべての長期参照ピクチャの識別情報を含むことができ、かつそれだけを含むことができる。ＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットは、復号順で現在のピクチャに続く１つまたは複数のピクチャのインター予測において参照用に使われ得るとともに、現在のピクチャのインター予測においては参照用に使うことができない、すべての長期参照ピクチャの識別情報を含むことができ、かつそれだけを含むことができる。

現在のピクチャがＩＤＲピクチャである場合、ビデオデコーダ３０は、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ０、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ１、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ、およびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットを空に設定してよい。上述したように、ＩＤＲピクチャはインター予測されず、したがって、ＩＤＲピクチャ用の参照ピクチャはない。

テーブル４に示されるように、スライスヘッダは、テーブル３においてさらに定義されるｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ（）シンタックス構造を指す。テーブル３は、ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ０、ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｃｕｒｒ１、ｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｆｏｌｌ０、およびｎｕｍ＿ｓｈｏｒｔ＿ｔｅｒｍ＿ｆｏｌｌ１シンタックス要素を定義する。これらのシンタックス要素は、それぞれ、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ０、およびＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ１参照ピクチャサブセット中のピクチャの数を定義し得る。

これらのシンタックス要素およびｓｈｏｒｔ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ｍｉｎｕｓ１シンタックス要素に基づいて、ビデオデコーダ３０は、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ０、およびＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ１参照ピクチャサブセットを構成することができる。概して、短期参照ピクチャを識別するこれらの参照ピクチャサブセットをビデオデコーダ３０が構成する具体的やり方は重要でない場合がある。以下の擬似コードは、ビデオデコーダ３０が短期参照ピクチャについての参照ピクチャサブセットを構成し得るための一例示的やり方を記述する。

長期参照ピクチャに関して、ビデオエンコーダ２０は、ピクチャパラメータセット中の候補長期参照ピクチャのリストについての識別子（たとえば、完全ＰＯＣ値）をシグナリングすればよい。候補長期参照ピクチャは、参照ピクチャセットに属す可能性があり得るが、必ずしも参照ピクチャセットに属さなくてよい長期参照ピクチャを指す。候補長期参照ピクチャリストの一例は、ピクチャパラメータセット中のｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｐｐｓ［ｉ］シンタックス要素である。

ビデオエンコーダ２０は、任意選択で、候補長期参照ピクチャについての完全ＰＯＣ値をシーケンスパラメータセット中でシグナリングしてもよいことを理解されたい。説明のために、これらの技法について、ビデオエンコーダ２０が候補長期参照ピクチャについての完全ＰＯＣ値をピクチャパラメータセット中でシグナリングする例を用いて記載する。

ビデオエンコーダ２０は、どの長期参照ピクチャが参照ピクチャセット中に属すかを示す候補長期参照ピクチャのリスト中への索引をシグナリングすることができる。たとえば、テーブル５は、ビデオデコーダ３０が参照ピクチャセットを導出する目的で継承するべき候補長期参照ピクチャのリスト中への索引を指定するｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓシンタックス要素を含む。

さらに、参照ピクチャセットに属す候補長期参照ピクチャのリストにはない長期参照ピクチャがあり得る。たとえば、テーブル５は、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ａｄｄシンタックス要素を含む。このシンタックス要素は、現在のピクチャの参照ピクチャセットに含まれるべきだがピクチャパラメータセット中で指定されない長期参照ピクチャを示す。

テーブル５は、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ、およびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｆｏｌｌシンタックス要素も含む。これらのシンタックス要素は、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットに含まれるべき長期参照ピクチャの数を示す。たとえば、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒおよびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒの値の合計は、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ参照ピクチャサブセットに含まれるべき長期参照ピクチャの数を示す。ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌおよびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｆｏｌｌの値の合計は、ＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットに含まれるべき長期参照ピクチャの数を示す。

いくつかの他の技法では、ビデオデコーダ３０が現在のピクチャをインター予測するためにどの長期参照ピクチャも必要としない場合であっても、ビデオエンコーダ２０は、テーブル５のこれらのシンタックス要素すべてをシグナリングしてよい。たとえば、参照ピクチャセットは、現在のピクチャと復号順で現在のピクチャに続くピクチャをインター予測するために使うことができる参照ピクチャを識別することができるので、ビデオデコーダ３０がインター予測にどの長期参照ピクチャも使用する必要がない場合であっても、復号順で現在のピクチャに続くピクチャが長期参照ピクチャを使用することができるので、これらの他の技法は依然として、長期参照ピクチャについてのこれらのシンタックス要素をシグナリングことができる。

説明のための例として、ビデオエンコーダ２０が、３つの長期参照ピクチャをピクチャパラメータセット中でシグナリングしたと仮定する。いくつかの例では、ピクチャの多くは、これらの長期参照ピクチャのうちのどれもインター予測に使うことができない。ただし、これらの他の技法では、ビデオデコーダ３０がこれらの長期参照ピクチャのうちのどれも、現在のピクチャをインター予測するために必要としない場合であっても、ビデオデコーダ３０は、これらの長期参照ピクチャを、復号順で現在のピクチャに続くピクチャをインター予測するために必要とし得るので、ビデオエンコーダ２０は依然として、長期参照ピクチャのうち３つすべてについてのシンタックス要素を現在のピクチャのスライスヘッダ中でシグナリングしてよい。これらの他の技法では、ビデオエンコーダ２０が、長期参照ピクチャをシグナリングしなかった場合、ビデオデコーダ３０は、これらの長期参照ピクチャがインター予測にそれ以上必要とされないと判断してよく、これらの参照ピクチャをＤＰＢから削除してよい。

現在のピクチャをインター予測するために必要とされない長期参照ピクチャ用のシンタックス要素のそのような不必要なシグナリングは、帯域幅を消費する。さらに、ビデオデコーダ２０が長期参照ピクチャの候補リスト中への索引値をシグナリングするとともに、候補長期参照ピクチャのリスト中にない長期参照ピクチャについてのＰＯＣ値をシグナリングする必要があり得るとき、長期参照ピクチャについてのシグナリングオーバーヘッドは、すでに高く複雑である可能性がある。

これに対処するために、ビデオエンコーダ２０は、ビデオデコーダ３０が現在のピクチャをインター予測するためにいずれかの長期参照ピクチャを使用する必要があるかどうかを示す値をシグナリングすればよい。この値は、現在のピクチャ復号順に続くピクチャが長期参照ピクチャに関してインター予測されないことをさらに示す。

たとえば、テーブル５は、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇを含む。このフラグが真のとき、どの長期参照ピクチャも、現在のピクチャならびに復号順で現在のピクチャに続くピクチャのインター予測に使われない。０に等しいこのフラグは、ビデオエンコーダ２０が、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｆｏｌｌ、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓ、およびｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ａｄｄシンタックス要素など、テーブル５の長期参照ピクチャセットシンタックス中のシンタックス要素を使う、長期参照ピクチャの使用をシグナリングしてよいことを示す。

いくつかの例では、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇが真（たとえば、１の値）のとき、ビデオデコーダ３０は、現在のピクチャをインター予測するためにどの長期参照ピクチャも必要としないので、ビデオエンコーダ２０は、どの長期参照ピクチャが現在のピクチャの参照ピクチャセット中に属すかを示すシンタックス要素をシグナリングしなくてよい。たとえば、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇが真のとき、ビデオエンコーダ２０は、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｆｏｌｌ、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓ、およびｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ａｄｄシンタックス要素をシグナリングしなくてよい。

さらに、真であるｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇは、復号順で現在のピクチャに続くどのピクチャも、インター予測に長期参照ピクチャを使わないことを、ビデオデコーダ３０に対して示す。いくつかの例では、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇの値が１のとき、現在のピクチャおよび復号順で現在のピクチャに続くピクチャは長期参照ピクチャをインター予測に使わないので、ビデオデコーダ３０は、出力にそれ以上必要とされない場合、その長期参照ピクチャをＤＰＢから削除してよい。

本開示に記載する技法によると、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇが偽（たとえば、０の値）の場合、ビデオエンコーダ２０は、参照されるパラメータセット中で指定されたすべての長期参照ピクチャが現在のピクチャのインター予測に使われ得ることを示す別の値をシグナリングすればよい。たとえば、テーブル５は、「ｉｆ（！ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇ）」（すなわち、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇが偽である）場合、ビデオエンコーダ２０はｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇをシグナリングしてよいことを示す。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇが真（たとえば、１の値）のとき、参照されるピクチャパラメータセット中で指定されるすべての長期参照ピクチャは、現在のピクチャの予測に使うことができ、参照されるＰＰＳ中で指示されないどの長期参照ピクチャも、現在のピクチャまたは復号順で現在のピクチャに続くピクチャのインター予測に使うことはできない。

いくつかの例では、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇが真のとき、ビデオエンコーダ２０は、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｆｏｌｌ、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓ、およびｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ａｄｄシンタックス要素をシグナリングしなくてよい。というのは、真であるｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇは、参照されるピクチャパラメータセット中のすべての長期参照ピクチャが、現在のピクチャをインター予測するために使われ得ることを示すからであり得る。したがって、候補リスト中への索引をシグナリングする必要がないことがあり、結果としてｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓシンタックス要素が余分になる。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓシンタックス要素が必要とされないので、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒおよびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌシンタックス要素は必要とされない。

また、真であるｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇは、参照されるＰＰＳ中で指示されないどの長期参照ピクチャも、現在のピクチャまたは復号順で現在のピクチャに続くピクチャのインター予測に使うことができないことを示す。このことは、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ａｄｄシンタックス要素が必要とされないことを意味する。たとえば、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ａｄｄシンタックス要素は、参照されるＰＰＳ中で指定されないが参照ピクチャセットに属す長期参照ピクチャを示す。ただし、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇが真のとき、参照されるＰＰＳに含まれないどの参照ピクチャも、現在のピクチャまたは復号順で現在のピクチャに続くピクチャをインター予測するために使われず、このことは、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ａｄｄシンタックス要素についての値がないことを意味する。ビデオエンコーダ２０がｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ａｄｄシンタックス要素をシグナリングする必要がないので、ビデオエンコーダ２０がｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒおよびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｆｏｌｌシンタックス要素をシグナリングする必要がないことがある。

ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇとｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇの両方について本開示に記載するが、本開示の態様は、そのように限定されないことを理解されたい。いくつかの例では、長期参照ピクチャセットシンタックスはｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇを含み得るが、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇは含まなくてよい。いくつかの例では、長期参照ピクチャセットシンタックスはｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇを含み得るが、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇは含まなくてよい。

テーブル５に示されるように、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇとｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇの両方が真でない事例では、ビデオエンコーダ２０は、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｃｕｒｒ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ａｄｄ＿ｆｏｌｌ、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓ、およびｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄ＿ｄｅｌｔａ＿ａｄｄシンタックス要素をシグナリングすればよい。たとえば、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇとｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇの両方が真でないときは、ビデオデコーダ３０が現在のピクチャをインター予測するために使用する必要がある長期参照ピクチャが存在する可能性があり、ビデオデコーダ３０が現在のピクチャまたは復号順で現在のピクチャに続くピクチャをインター予測するために使用する必要があり得る参照されるピクチャパラメータセットに含まれない長期参照ピクチャが存在する可能性がある。

上述したように、ビデオデコーダ３０は、上記擬似コードを実装して、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ０、およびＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ１参照ピクチャサブセットを構成することができる。以下では、ビデオデコーダ３０がＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットを構成することができるやり方について説明する。

ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが偽（たとえば、０の値）であることをスライスヘッダが示す場合、ビデオデコーダ３０は、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットを空に設定すればよい。そうではなく、スライスヘッダ中のｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ（）シンタックス構造のインスタンスが与えられる場合、ビデオデコーダ３０は、次のようにＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットを構成することができる。

ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇが真（たとえば、１の値）の場合、ビデオデコーダ３０は、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ参照ピクチャサブセットを空に設定し、ＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットを空に設定すればよい。このことは、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットに含まれる参照ピクチャがないことを示す。そうではなく、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇが偽（たとえば、０の値）であり、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇが真（たとえば、１の値）である場合、ビデオデコーダ３０は、ピクチャパラメータセット中の長期参照ピクチャすべてを、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ参照ピクチャサブセットに含めればよい。この場合、ビデオデコーダ３０は、ＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットを空に設定してよい。

ビデオデコーダ３０は、以下の擬似コードを実装して、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ参照ピクチャサブセットを構成することができる。

そうでない（すなわち、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇおよびｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇが偽である）場合、ビデオコーダ３０は、次の擬似コードにおいて指示されるように、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ参照ピクチャサブセットを構成すればよい。

また、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇおよびｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇが偽である場合、ビデオコーダ３０は、次の擬似コードにおいて指示されるように、ＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットを構成すればよい。

上記は、ビデオエンコーダ２０が長期参照ピクチャについての情報をシグナリングすることができる一例示的やり方と、ビデオデコーダ３０が、長期参照ピクチャを含む参照ピクチャサブセットを含む、参照ピクチャセットの参照ピクチャサブセットを構成することができるやり方とについて説明している。ただし、本開示の態様はそのように限定されない。以下では、スライスヘッダの一部である長期参照ピクチャセットシンタックスの別の例について説明する。

テーブル６の長期参照ピクチャセットシンタックスは、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇとｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇとを含む。

１に等しいｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇは、参照されるピクチャパラメータセット中で指定されるすべての長期参照ピクチャが、現在のピクチャの予測に使われ得ることを示す。１に等しいこのフラグは、現在のピクチャの長期参照ピクチャの使用が長期参照ピクチャセットシンタックステーブルの残りのシンタックス要素によってシグナリングされることを示す。

ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇが１に等しいとき、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒおよびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌは、それぞれ、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｐｓおよび０に等しいと推論され、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄｘ＿ｐｐｓ［ｉ］は、両端値を含む０〜ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｐｓ−１の範囲のｉ個すべての値について、ｉであると推論される。

１に等しいｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇは、どの長期参照ピクチャも現在のピクチャのインター予測に使われず、参照されるピクチャパラメータセット（ＰＰＳ）中で指示されるすべての長期参照ピクチャが、復号順で現在のピクチャに続くピクチャのインター予測に使われ得ることを示す。０に等しいこのフラグは、長期参照ピクチャの使用が長期参照ピクチャセットシンタックステーブルの残りのシンタックス要素によってシグナリングされることを示す。ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇが存在しないとき、値は、０に等しいと推論することができる。

ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇが１に等しいとき、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒおよびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌは、それぞれ、０およびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｐｓであると推論され、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄｘ＿ｐｐｓ［ｉ］は、両端値を含む０〜ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｐｓ−１の範囲のｉ個すべての値について、ｉであると推論される。

テーブル６のｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇおよびｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇは、ビデオエンコーダ２０に、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓ索引値、およびいくつかのケースではｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒおよびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌシンタックス要素をシグナリングさせないようにすることができる。これらのケースでは、ビデオデコーダ３０は、ピクチャパラメータセットの候補長期参照ピクチャリスト中の参照ピクチャのうちのいずれも継承する必要がない場合がある。

たとえば、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇが真（たとえば、１の値）のとき、ビデオデコーダ３０は、参照されるピクチャパラメータセット中のすべての長期参照ピクチャが、現在のピクチャをインター予測するために使われ得ると判断してよい。この場合、候補長期参照ピクチャリスト中のすべての長期参照ピクチャが現在のピクチャをインター予測するために使われ得るので、候補長期参照ピクチャリスト中への索引値のシグナリングは必要とされない場合がある。したがって、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇが真のとき、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓシンタックス要素を、ビデオエンコーダ２０はシグナリングする必要がないことがあり、ビデオデコーダ３０は受信する必要がないことがある。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓシンタックス要素を、ビデオエンコーダ２０がシグナリングする必要がないことがあり、ビデオデコーダ３０が受信する必要がないことがあるので、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒおよびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌシンタックス要素を、ビデオエンコーダ２０はシグナリングする必要がないことがあり、ビデオデコーダ３０は受信する必要がないことがある。

また、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇが真（たとえば、１の値）のとき、ビデオデコーダ３０は、参照されるピクチャパラメータセット中のどの長期参照ピクチャも、現在のピクチャをインター予測するために使うことができず、すべての長期参照ピクチャが、復号順で現在のピクチャに続くピクチャをインター予測するために使われ得ると判断してよい。この場合、候補長期参照ピクチャリスト中のすべての長期参照ピクチャが、復号順で現在のピクチャに続くピクチャをインター予測するために使われ得るので、候補長期参照ピクチャリスト中への索引値のシグナリングは必要とされない場合がある。したがって、上記と同様に、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇが真のとき、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓシンタックス要素を、ビデオエンコーダ２０はシグナリングする必要がないことがあり、ビデオデコーダ３０は受信する必要がないことがある。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓシンタックス要素を、ビデオエンコーダ２０がシグナリングする必要がないことがあり、ビデオデコーダ３０が受信する必要がないことがあるので、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒおよびｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌシンタックス要素を、ビデオエンコーダ２０はシグナリングする必要がないことがあり、ビデオデコーダ３０は受信する必要がないことがある。

テーブル６の例における長期参照ピクチャセットシンタックスをビデオエンコーダ２０がシグナリングし、ビデオデコーダ３０が受信する例では、ビデオエンコーダ２０およびビデオデコーダ３０は、上述したように、短期参照ピクチャサブセット（たとえば、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ０、およびＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ１参照ピクチャサブセット）を構成することができる。長期参照ピクチャサブセット（たとえば、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセット）を構成するために、ビデオエンコーダ２０およびビデオデコーダ３０は、以下を実装すればよい。

ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットの上記導出において示されるように、ビデオエンコーダ２０およびビデオデコーダ３０は、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄｘ＿ｐｐｓシンタックス要素を使用して、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットを構成することができる。ただし、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇが偽（たとえば、０の値）であり、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇが偽（たとえば、０の値）である場合、ビデオエンコーダ２０は、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄｘ＿ｐｐｓシンタックス要素をシグナリングしなくてよい。これらのケースでは、ビデオエンコーダ２０およびビデオデコーダ３０は、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｉｄｘ＿ｐｐｓシンタックス要素の値を推論すればよい。たとえば、ビデオエンコーダ２０およびビデオデコーダ３０は、ｌｏｎｇ＿ｒｅｆ＿ｐｉｃ＿ｉｄｘ＿ｐｐｓ［ｉ］の値を、両端値を含む０〜ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｐｓ−１の範囲のすべての値について、ｉに等しいと推論することができる。

テーブル６の例示的シンタックスは、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇとｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇの両方を含むが、本開示の態様は、そのように限定されないことを理解されたい。他の例では、ビデオエンコーダ２０は、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇをシグナリングしてよく、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇはシグナリングしなくてよい。他の例では、ビデオエンコーダ２０は、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇをシグナリングしてよく、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇをシグナリングしなくてよい。

上記は、現在のピクチャおよび／または復号順で現在のピクチャに続くピクチャをインター予測するために使うことができる長期参照ピクチャについての情報を、ビデオエンコーダ２０がシグナリングすることができ、ビデオデコーダ３０が受信することができる例示的やり方について説明している。たとえば、ビデオエンコーダ２０およびビデオデコーダ３０は、テーブル５を参照して上述した例示的技法を実装するように構成すればよい。他の例では、ビデオエンコーダ２０およびビデオデコーダ３０は、テーブル６を参照して上述した例示的技法を実装するように構成すればよい。

たとえば、ビデオコーダ（たとえば、ビデオエンコーダ２０またはビデオデコーダ３０）は、長い長期参照ピクチャが現在のピクチャと、復号順で現在のピクチャに続くピクチャとをインター予測するために使われ得るかどうかを示すフラグの値をコーディングすればよい。たとえば、ビデオコーダは、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇについての値を、現在のピクチャのスライスのスライスヘッダ中でコーディングすればよい。

フラグの値が第１の値であるとき、ビデオコーダは、１つまたは複数の短期参照ピクチャのみを使用して、現在のピクチャをインター予測することができる。たとえば、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇの値が１（たとえば、真）のとき、ビデオコーダは、現在のピクチャと復号順で現在のピクチャに続くピクチャとをインター予測するために、長期参照ピクチャを使うことができない。この例では、ビデオコーダは、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットを空に設定すればよい。

また、この例では、ビデオコーダは、少なくとも１つの短期参照ピクチャサブセット（たとえば、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ０、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒ１、ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ０、およびＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌ１参照ピクチャサブセットのうちの少なくとも１つ）を構成することができる。ビデオコーダは、少なくとも１つの短期参照ピクチャサブセットに含まれる短期参照ピクチャのうちの１つまたは複数を使用して、現在のピクチャをインター予測することができる。

いくつかの例では、ビデオコーダは、別のフラグの値をさらにコーディングすることができる。たとえば、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅ＿ｆｌａｇが偽である（たとえば、値が０である）場合、ビデオコーダはｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇをコーディングすることができる。この例では、０の値であるｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅ＿ｆｌａｇは、長期参照ピクチャが現在のピクチャと復号順で現在のピクチャに続くピクチャとをインター予測するために使われ得ることを示す。上述したように、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇは、パラメータセット中で指定されたすべての長期参照ピクチャ（たとえば、参照されるピクチャパラメータセット）が現在のピクチャのインター予測に使われ得るかどうかと、パラメータセット中で指定されないとともに復号順で現在のピクチャに先立つ長期参照ピクチャが、現在のピクチャまたは復号順で現在のピクチャに続くピクチャのインター予測に使われ得るかどうかとを示す。

ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇの値が１（たとえば、真）のとき、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇは、パラメータセット中で指定されたすべての長期参照ピクチャが現在のピクチャのインター予測に使うことができ、パラメータセット中で指定されないとともに復号順で現在のピクチャに先立つ長期参照ピクチャが、現在のピクチャまたは復号順で現在のピクチャに続くピクチャのインター予測に使うことができないことを示す。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇが１のとき、ビデオコーダは、現在のピクチャのインター予測において参照用に使うことができるとともに、復号順で現在のピクチャに続くピクチャのインター予測において参照用に使うことができるすべての長期参照ピクチャを含む長期参照ピクチャサブセット（たとえば、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ）を構成することができる。これらの例では、ビデオコーダは、パラメータセット中への索引をコーディングすることなく、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ参照ピクチャサブセットを構成することができる。

たとえば、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓ［ｉ］シンタックス要素は、候補長期参照ピクチャリスト中への索引（たとえば、ピクチャパラメータセット中で指定された長期参照ピクチャ中への索引）を与え得る。ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇが１である例では、ビデオコーダは、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓ［ｉ］シンタックス要素をコーディングすることなく、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ参照ピクチャサブセットを構成することが可能であり得る。

ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇおよびｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｇ＿ｆｌａｇの値が両方とも０（たとえば偽）のとき、このことは、現在のピクチャおよび復号順で現在のピクチャに続くピクチャが長期参照ピクチャでインター予測され得ることと、パラメータセット中で指定されたすべての長期参照ピクチャが現在のピクチャのインター予測に使われ得るわけではないことと、パラメータセット中で指定されないとともに復号順で現在のピクチャに先立つ長期参照ピクチャが現在のピクチャおよび復号順で現在のピクチャに続くピクチャのインター予測に使われ得ることとを示し得る。この場合、ビデオコーダは、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットの両方を構成することができる。いくつかの例では、ビデオコーダは、パラメータセット中への少なくとも１つの索引（たとえば、指定された長期参照ピクチャ中への索引）をコーディングすることができ、少なくとも１つの索引に基づいて、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒおよびＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ参照ピクチャサブセットを構成することができる。

いくつかの他の例では、ビデオコーダは、パラメータセット中で指定されたすべての長期参照ピクチャが現在のピクチャ用のインター予測に使われ得ることを示すフラグの値を、現在のピクチャのスライス用のスライスヘッダ中でコーディングすることができる。たとえば、ビデオコーダは、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇをコーディングすることができる。

ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇの値が第１の値（たとえば、１）であるとき、このことは、パラメータセット中で指定されたすべての長期参照ピクチャが現在のピクチャ用のインター予測に使われ得ることを示すことができる。この場合、ビデオコーダは、指定された長期参照ピクチャについてのパラメータセット中への索引をコーディングすることなく（たとえば、候補長期参照ピクチャリスト中への索引を与えるｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃ＿ｓｅｔ＿ｉｄｘ＿ｐｐｓ［ｉ］シンタックス要素をコーディングすることなく）、パラメータセット中で指定された長期参照ピクチャを使用して、現在のピクチャをインター予測することができる。

たとえば、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇの値が１のとき、ビデオコーダは、長期参照ピクチャが現在のピクチャをインター予測するために使われ得ると判断してよい。ビデオコーダは、長期参照ピクチャが、現在のピクチャをインター予測するために使われるべきであるとさらに判断してよい。この場合、ビデオコーダは、長期参照ピクチャが現在のピクチャをインター予測するために使われるべきであるという判断に基づいて、長期参照ピクチャを使用して現在のピクチャをインター予測することができる。

いくつかの例では、ビデオコーダは、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇの値が０のとき、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇをさらにコーディングすることができる。ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇが０のとき、およびどの長期参照ピクチャも現在のピクチャのインター予測に使われず、パラメータセット中で指示されるすべての長期参照ピクチャが、復号順で現在のピクチャに続くピクチャのインター予測に使われ得ることを、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇが示すとき、ビデオコーダは、パラメータセット中で指定されない１つまたは複数の長期参照ピクチャを使用して、およびパラメータセット中で指定される長期参照ピクチャのうちのいずれも使用せずに、現在のピクチャをインター予測することができる。

いくつかの例では、本開示に記載する技法は、復号ピクチャバッファ（ＤＰＢ）管理を対象とし得る。ＤＰＢは、復号ピクチャを記憶するバッファであり得る。

ビデオエンコーダ２０およびビデオデコーダ３０の各々は、それぞれのＤＰＢを含み得る。たとえば、符号化プロセスの一部として、ビデオエンコーダ２０は、現在のピクチャを復号し、復号ピクチャをビデオエンコーダ２０のＤＰＢに記憶し、ＤＰＢに記憶された復号ピクチャを、後続ピクチャのインター予測のために使用することができる。同様に、復号プロセスの一部として、ビデオデコーダ３０は、現在のピクチャを復号し、復号ピクチャをビデオデコーダ３０のＤＰＢに記憶することができる。ビデオデコーダ３０は次いで、復号ピクチャを、後続ピクチャのインター予測のために使用することができる。

いくつかの例では、ビデオエンコーダ２０またはビデオデコーダ３０のいずれかのためのＤＰＢは、復号ピクチャを、出力並べ替えまたは出力遅延のために記憶することができる。たとえば、ビデオデコーダ３０は、復号ピクチャが出力用に並べ替えられるべきであると、または復号ピクチャの出力が遅らされるべきであると判断してよい。これらの例では、ビデオデコーダ３０のＤＰＢは、復号ピクチャを、出力並べ替えまたは出力遅延のために記憶することができる。

本開示に記載するＤＰＢ管理技法は、ＤＰＢが復号ピクチャを出力および削除する方法を対象とし得る。ｏｕｔｐｕｔ＿ｆｌａｇシンタックス要素は、復号ピクチャ出力および削除プロセスに影響する場合があり、ネットワークアブストラクションレイヤ（ＮＡＬ）ユニットセマンティクスの一部として定義され得る。ＮＡＬユニットは、後に続くべきデータのタイプと、必要に応じてエミュレーション防止バイトをもつ、散在される未加工バイトシーケンスペイロード（ＲＢＳＰ）の形でデータを含むバイトとの指示を含むシンタックス構造として定義され得る。ＲＢＳＰは、ＮＡＬユニット中にカプセル化される、整数個のバイトを含むシンタックス構造であり得る。ＲＢＳＰは、空であってもよく、またはシンタックス要素、それに続くＲＢＳＰストップビット、およびそれに続く、０に等しい、ゼロ個以上の後続ビットを含むデータビット列の形を有する。テーブル７は、ＮＡＬユニットシンタックスを定義する。

テーブル７において、ｏｕｔｐｕｔ＿ｆｌａｇは、後でより詳しく説明するように、復号ピクチャ出力および削除プロセスに影響し得る。どのピクチャに対しても、ｏｕｔｐｕｔ＿ｆｌａｇが１に等しい場合、ピクチャは出力を意図されている。そうでない場合、ピクチャが出力されることはない。本開示に記載する技法では、変数ＯｕｔｐｕｔＦｌａｇは、ｏｕｔｐｕｔ＿ｆｌａｇシンタックス要素に等しい。

いくつかの例では、現在のアクセスユニットのコード化ピクチャのどのコード化スライスＮＡＬユニットも、以下のうちの１つまたは複数のように、前のアクセスユニットのコード化ピクチャのどのコード化スライスＮＡＬユニットとも異なってよい。たとえば、ｎａｌ＿ｒｅｆ＿ｉｄｃ値のうちの１つが０に等しい場合、ｐｉｃ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄ値が異なってよく、ｎａｌ＿ｒｅｆ＿ｉｄｃ値が異なってよい。ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ値が異なってよい。ＩｄｒＰｉｃＦｌａｇ値が異なってよい。ＩｄｒＰｉｃＦｌａｇは両方に対して１に等しくてよく、ｉｄｒ＿ｐｉｃ＿ｉｄ値は異なってよい。

本開示に記載する技法では、アクセスユニットは、復号順において連続するとともに１つのコード化ピクチャを含む１組のＮＡＬユニットとして定義され得る。コード化ピクチャに加え、１つの補助コード化ピクチャ、または他のＮＡＬユニットは、コード化ピクチャのスライスを含むことはできない。いくつかの例では、アクセスユニットの復号により、復号ピクチャが生じ得る。コード化ピクチャは、復号プロセスによって使用されるべきピクチャのコード化表現であり得る。

テーブル４に示されるように、スライスヘッダシンタックスは、ｐｉｃ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｉｄシンタックス要素と、ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂシンタックス要素と、ＩｄｒＰｉｃＦｌａｇシンタックス要素と、ｉｄｒ＿ｐｉｃ＿ｉｄシンタックス要素とを含み得る。テーブル７に示されるように、ＮＡＬユニットシンタックスは、ｎａｌ＿ｒｅｆ＿ｉｄｃシンタックス要素を含み得る。

説明のために、ＤＰＢ管理技法を、仮想参照デコーダ（ＨＲＤ）の観点から説明する。ＨＲＤは、符号化プロセスが生じ得る準拠ＮＡＬユニットストリームまたは準拠バイトストリームの変動性に対する制約を指定する仮想デコーダモデルとして定義され得る。ただし、本開示に記載する技法によると、ビデオデコーダ３０はＤＰＢ管理技法を実装することができ、いくつかの例では、ビデオエンコーダ２０がＤＰＢ管理技法を実装することも可能であり得る。

ＨＤＲモデルは、コード化ピクチャバッファ（ＣＰＢ）と、瞬時復号プロセスと、復号ピクチャバッファ（ＤＰＢ）とを定義することができる。ＣＰＢは、他の以前の規格において定義されるＨＤＲモデルのＣＰＢと同様であり得る（すなわち、ＣＰＢは、コード化ピクチャを記憶することができる）。本開示に記載する技法は、他の規格における操作とは異なる、ＤＰＢ操作を対象とする。繰返しになるが、ビデオデコーダ３０および可能性としてはビデオエンコーダ２０が、後で説明するようにＤＰＢ操作を実装し得ることを理解されたい。

概して、本開示に記載する技法は、ＤＰＢにおける復号ピクチャの出力および削除に関連する。復号ピクチャの出力は、このコンテキストでは、復号中のピクチャの、表示、記憶または他の目的での出力を意味する。ただし、出力される復号ピクチャは、必ずしもＤＰＢから削除される必要はない。たとえば、ビデオデコーダ３０は、出力される復号ピクチャを、後続ピクチャをインター予測するための参照ピクチャとして使用する必要があり得るので、ビデオデコーダ３０は、その復号ピクチャをＤＰＢから削除しなくてよい。復号ピクチャの削除は、このコンテキストでは、ＤＰＢからの復号ピクチャの削除を意味する。

たとえば、ビデオデコーダ３０は、復号ピクチャを、ビデオデコーダ３０のＤＰＢに、ピクチャが復号される順序で記憶すればよい。ただし、ピクチャの復号順は、ピクチャの出力順と同じでなくてよい。たとえば、復号順において現在のピクチャの後に続く、現在のピクチャよりも早く出力されるべきピクチャがあり得る。したがって、いくつかの例では、ビデオデコーダ３０は、復号順で並べられている、ＤＰＢ中のピクチャを、ビデオデコーダ３０が出力順に並べ替えるための並べ替えを実施してよい。ビデオデコーダ３０は次いで、復号ピクチャを、その出力順に出力すればよい。ビデオデコーダ３０は、ピクチャが出力に必要とされない（すなわち、出力済みであるか、または出力を意図されていない）、また、インター予測に必要とされない（すなわち、インター予測のための参照ピクチャとして使われる必要がない）場合、復号ピクチャからピクチャを削除してもよい。

本開示に記載する技法では、以下の基準が満たされるとき、ビデオデコーダ３０は、ＤＰＢから復号ピクチャを削除することができる。すなわち、（１）導出された参照ピクチャセット中で復号ピクチャが識別されない、（２）復号ピクチャが出力に必要とされない（すなわち、出力済みであり、または出力を意図されない）、（３）ピクチャの時間的識別値（ｔｅｍｐｏｒａｌ＿ｉｄ）が現在のピクチャの時間的識別値以下である。上述のように、時間的識別値（ｔｅｍｐｏｒａｌ＿ｉｄ）は、現在のピクチャをインター予測するために、どのピクチャを使うことができるかを示す階層的値であってよい。特定のｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャは、それ以上のｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャ用の参照ピクチャになり得るが、逆は成り立たない。たとえば、１のｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャは、可能性としては、１、２、３、．．．のｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャ用の参照ピクチャになり得るが、０のｔｅｍｐｏｒａｌ＿ｉｄ値をもつピクチャ用の参照ピクチャにはなり得ない。

繰返しになるが、上述したように、参照ピクチャセットは、現在のピクチャをインター予測するのに使われ得るとともに復号順で現在のピクチャに続く１つまたは複数のピクチャをインター予測するのに使われ得る参照ピクチャを識別することができる。いくつかのケースでは、現在のピクチャの参照ピクチャセットは、ｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのもの以下である参照ピクチャのみを識別するように制約され得る。

いくつかの他の技法では、ＤＰＢ中の復号ピクチャのｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのｔｅｍｐｏｒａｌ＿ｉｄ値よりも大きい場合、その復号ピクチャは、出力に必要とされないとき、ＤＰＢから削除される。ただし、削除されたピクチャは、ｔｅｍｐｏｒａｌ＿ｉｄ値が削除されたピクチャのｔｅｍｐｏｒａｌ＿ｉｄ値以上である別のピクチャをインター予測するための最良候補である場合がある。この場合、ビデオデコーダ３０は、ｔｅｍｐｏｒａｌ＿ｉｄ値が削除されたピクチャのｔｅｍｐｏｒａｌ＿ｉｄ値以上であるこのピクチャをインター予測するための最良候補を使うことができない可能性がある。

本開示に記載する技法によると、上述した例示的基準は、ｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのものよりも大きい復号ピクチャが後続ピクチャをインター予測するために利用可能であるように、そのようなピクチャがＤＰＢのままであるようにし得る。たとえば、復号ピクチャが導出された参照ピクチャセット中で識別されない場合であっても、および復号ピクチャが出力に必要とされない場合であっても、復号ピクチャのｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのものよりも大きい場合、ビデオデコーダ３０は、デコーダのＤＰＢから復号ピクチャを削除しなくてよい。このように、現在のピクチャの参照ピクチャセットが、ｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのものよりも大きいどのピクチャも識別しない場合であっても、ビデオデコーダ３０は、ｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのものよりも大きい復号ピクチャを削除しなくてよい。

さらに、本開示に記載する技法では、ビデオデコーダ３０は、現在のピクチャの復号に先立って、復号ピクチャを削除してよい。たとえば、上述したように、ビデオデコーダ３０は、参照ピクチャセットを導出することができる。ビデオデコーダ３０は、現在のピクチャを復号するのに先立って参照ピクチャセットを導出することができるので、ビデオデコーダ３０は、出力に必要とされない復号ピクチャが、現在のピクチャを復号するのに先立って削除されるべきかどうか判断するように構成すればよい。たとえば、参照ピクチャセットを導出した後、および現在のピクチャを復号するのに先立って、ビデオデコーダ３０は、出力に必要とされず、現在のピクチャの参照ピクチャセット中で識別されず、ｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのもの以下である復号ピクチャを識別することができる。次いで、現在のピクチャを復号するのに先立って、ビデオデコーダ３０は、ＤＰＢから、識別された復号ピクチャを削除してよい。

ＤＰＢは複数のバッファを含んでよく、各バッファは、参照ピクチャとして使われるべき、または将来の出力のために保有される復号ピクチャを記憶することができる。最初に、ＤＰＢは空である（すなわち、ＤＰＢ充満度はゼロに設定される）。

本開示は、ＤＰＢ中の復号ピクチャの削除技法について、少なくとも２つの観点から記載する。第１の観点では、ビデオデコーダ３０は、ピクチャが出力を意図されている場合、出力時間に基づいて、復号ピクチャを削除してよい。第２の観点では、ビデオデコーダ３０は、ピクチャが出力を意図されている場合、ＰＯＣ値に基づいて、復号ピクチャを削除してよい。いずれの観点でも、ビデオデコーダ３０は、復号ピクチャが参照ピクチャセット中にないとき、および現在のピクチャを復号するのに先立って、出力に必要とされない（すなわち、すでに出力されているか、または出力を意図されていない）復号ピクチャを削除してよい。

第１の観点では、以下の技法は、以下の系列で、時間ｔ_r（ｎ）において瞬時に起こり得る。この例では、ｔ_r（ｎ）は、現在のピクチャを含むアクセスユニットｎのＣＰＢ削除時間（すなわち、復号時間）である。本開示で説明するように、瞬時に起こる技法は、ＨＤＲモデルでは、ピクチャの復号が、ゼロに等しい、ピクチャを復号するための期間をもつ瞬時（すなわち、無制限に高速）であると仮定されることを意味し得る。

現在のピクチャがＩＤＲピクチャである場合、およびＩＤＲピクチャが最初のＩＤＲピクチャではなく、アクティブシーケンスパラメータセットから導出されたｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓまたはｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓまたはｍａｘ＿ｄｅｃ＿ｆｒａｍｅ＿ｂｕｆｆｅｒｉｎｇの値の値が、それぞれ、先行ピクチャに関してアクティブだったシーケンスパラメータセットから導出されたｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓまたはｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓまたはｍａｘ＿ｄｅｃ＿ｆｒａｍｅ＿ｂｕｆｆｅｒｉｎｇの値とは異なるとき、ビデオデコーダ３０は、ｎｏ＿ｏｕｔｐｕｔ＿ｏｆ＿ｐｒｉｏｒ＿ｐｉｃｓ＿ｆｌａｇの実効値にかかわらず、ｎｏ＿ｏｕｔｐｕｔ＿ｏｆ＿ｐｒｉｏｒ＿ｐｉｃｓ＿ｆｌａｇシンタックス要素が１に等しいと推論してよい。現在のピクチャがＩＤＲピクチャである場合、およびｎｏ＿ｏｕｔｐｕｔ＿ｏｆ＿ｐｒｉｏｒ＿ｐｉｃｓ＿ｆｌａｇが実際に１に等しく、または１に等しいと推論されるとき、ビデオデコーダ３０は、ＤＰＢ内のピクチャを出力せずに、ＤＰＢのすべてのバッファを空にしてよく、ＤＰＢ充満度を０に設定すればよい。

上でテーブル１に示したように、シーケンスパラメータセットは、ｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓ、およびｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓシンタックス要素を含み得る。シーケンスパラメータセットは、ｍａｘ＿ｄｅｃ＿ｆｒａｍｅ＿ｂｕｆｆｅｒｉｎｇシンタックス要素も含み得る。上でテーブル４に示したように、スライスヘッダシンタックスは、ｎｏ＿ｏｕｔｐｕｔ＿ｏｆ＿ｐｒｉｏｒ＿ｐｉｃｓ＿ｆｌａｇシンタックス要素を含み得る。

現在のピクチャがＩＤＲピクチャではないとき、ビデオデコーダ３０は、以下の条件が真であるＤＰＢ内のすべてのピクチャ（ｍ）を削除してよい。第１の条件は、ピクチャが現在のピクチャの参照ピクチャセットに含まれないことであってよい。第２の条件は、ピクチャが、０に等しいＯｕｔｐｕｔＦｌａｇをもち、またはピクチャのＤＰＢ出力時間が現在のピクチャのＣＰＢ削除時間以下であることであり得る。この例では、ＣＰＢ削除時間は、削除プロセスが起こるｔ_r（ｎ）（たとえば、現在のピクチャの復号に先立つ時間）である。復号ピクチャｍのＤＰＢ出力時間は、変数ｔ_o,dpb（ｍ）によって定義することができる。したがって、ＣＰＢ削除時間以下であるＤＰＢ出力時間は、ｔ_o,dpb（ｍ）≦ｔ_r（ｎ）と表すことができる。ＤＰＢ出力時間（ｔ_o,dpb）の導出については、以下でより詳しく定義する。第３の条件は、ピクチャのｔｅｍｐｏｒａｌ＿ｉｄが現在のピクチャのｔｅｍｐｏｒａｌ＿ｉｄ以下であることである。

このようにして、ビデオデコーダ３０は、復号ピクチャの出力時間、復号ピクチャが参照ピクチャセット中で識別されるかどうか、および復号ピクチャのｔｅｍｐｏｒａｌ＿ｉｄ値に基づいて、ピクチャを復号するのに先立って、ＤＰＢから復号ピクチャを削除することができる。ビデオデコーダ３０がＤＰＢから復号ピクチャを削除すると、ビデオデコーダ３０は、ＤＰＢ充満度を１だけ減分してよい。

以下では、復号ピクチャを出力するべき時間（たとえば、復号ピクチャのＤＰＢ出力時間）をビデオデコーダ３０が判断することができる方法について説明し、いつビデオデコーダ３０が復号ピクチャをＤＰＢに記憶することができるかについても説明する。上述したように、ピクチャのＤＰＢ出力時間は、そのピクチャがＤＰＢから削除されるかどうか判断する際の要因となり得る。

ビデオデコーダ３０がピクチャを復号するとき、ビデオデコーダ３０は、ピクチャをＤＰＢに記憶し、ＤＰＢ充満度を１だけ増分する。ピクチャが、１に等しいＯｕｔｐｕｔＦｌａｇを有するとき、ビデオデコーダ３０は、以下の式に基づいて、ピクチャについてのＤＰＢ出力時間を導出することができる。

この式において、ｄｐｂ＿ｏｕｔｐｕｔ＿ｄｅｌａｙ（ｎ）は、ピクチャを含むアクセスユニットに関連付けられたピクチャタイミングＳＥＩメッセージ中で指定され得る。ＳＥＩメッセージは概して、Ｈ．２６４／ＡＶＣ規格などの規格において十分に確立され、記載されている。

ｔ_o,dpb（ｎ）値は、いつピクチャが出力されるべきかを定義し得る。たとえば、ＯｕｔｐｕｔＦｌａｇが１に等しく、ｔ_o,dpb（ｎ）がｔ_r（ｎ）に等しい場合、ビデオデコーダ３０はピクチャを出力してよい。そうではなく、ＯｕｔｐｕｔＦｌａｇが０に等しい場合、ビデオデコーダ３０はピクチャを出力することができない。ＯｕｔｐｕｔＦｌａｇが１に等しく、ｔ_o,dpb（ｎ）がｔ_r（ｎ）よりも大きい事例では、ビデオデコーダ３０は、以降の時間に（たとえば、時間ｔ_o,dpb（ｎ）で）ピクチャを出力することができる。

いくつかの例では、ビデオデコーダ３０がピクチャを出力するとき、ビデオデコーダ３０はピクチャをクロップしてよい。たとえば、ビデオデコーダ３０は、ピクチャ用のアクティブシーケンスパラメータセット中で指定されたクロッピング矩形を使用することができる。ピクチャをクロップするための技法は概して、Ｈ．２６４／ＡＶＣ規格などの規格において十分に確立され、記載されている。

いくつかの例では、ビデオデコーダ３０は、ピクチャについてのＤＰＢ出力時間と、出力順においてそのピクチャに続くピクチャについてのＤＰＢ出力時間との間の差を判断することができる。たとえば、ピクチャ（ｎ）が、ビデオデコーダ３０が出力するピクチャであり、出力される、ビットストリームの最後のピクチャではないとき、ビデオデコーダ３０は、Δｔ_o,dpb（ｎ）の値が、次のように定義されると判断することができる。

上記式において、ｎ_nは、出力順においてピクチャ（ｎ）に続くとともに１に等しいＯｕｔｐｕｔＦｌａｇをもつピクチャを示す。また、上記式において、Δｔ_o,dpb（ｎ）は、ピクチャと、出力順においてその後に続くピクチャとの間のＤＰＢ出力時間の差を表す。

復号ピクチャを削除するための第２の観点において、ＨＤＲは、アクセスユニットがＣＰＢから削除されたとき、瞬時にこれらの技法を実装すればよい。繰返しになるが、ビデオデコーダ３０は、ＤＰＢからの復号ピクチャの削除を実施することができ、ビデオデコーダ３０は、必ずしもＣＰＢを含まなくてよい。概して、本開示では、復号ピクチャの削除は、ビデオデコーダ３０によって実施され、ビデオエンコーダ２０によって実施されてもよい。これらの例では、ビデオデコーダ３０およびビデオエンコーダ２０は、ＣＰＢを要求しなくてよい。そうではなく、ＣＰＢは、説明のためにのみ、ＨＤＲモデルの一部として説明される。

上記のように、復号ピクチャを削除するための第２の観点において、ビデオデコーダ３０は、現在のピクチャの復号の前、ただし現在のピクチャの最初のスライスのスライスヘッダを解析した後、ＤＰＢからピクチャを削除してよい。また、復号ピクチャを削除するための第１の観点と同様、第２の観点において、ビデオデコーダ３０は、現在のピクチャがＩＤＲピクチャであるとき、第１の観点に関して上述したのと同様の機能を実施することができる。

そうではなく、現在のピクチャがＩＤＲピクチャではない場合、ビデオデコーダ３０は、「出力に必要とされない」とマーキングされたピクチャを記憶し、現在のピクチャの参照ピクチャセットに含まれないピクチャを記憶し、ｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのもの以下であるピクチャを記憶する、ＤＰＢのバッファを、出力せずに空にしてよい。ビデオデコーダ３０は、ＤＰＢ充満度を、ビデオデコーダ３０が空にしたバッファの数だけ減分してもよい。

空きバッファがなくなった（すなわち、ＤＰＢ充満度がＤＢＰサイズに等しくなった）とき、ビデオデコーダ３０は、後で説明する「バンピング」プロセスを実施すればよい。いくつかの例では、空きバッファがない場合、ビデオデコーダ３０は、ビデオデコーダ３０が現在の復号ピクチャを記憶することができる空きバッファがあるバンピングプロセス繰り返しユニットを実装すればよい。

現在のピクチャが、ｎｏ＿ｏｕｔｐｕｔ＿ｏｆ＿ｐｒｉｏｒ＿ｐｉｃｓ＿ｆｌａｇが１に等しくないとともに１に等しいと推論されないＩＤＲピクチャであるとき、ビデオデコーダ３０は、以下を実施すればよい。ビデオデコーダ３０は、「出力に必要とされない」とマーキングされたピクチャを記憶するとともに、現在のピクチャの参照ピクチャセットに含まれないＤＰＢのバッファを、出力せずに空にしてよい。ビデオデコーダ３０は、「バンピング」プロセスを繰り返し呼び出すことによって、ＤＰＢ内のすべての空でないバッファを空にしてよく、ＤＰＢ充満度を０に設定すればよい。

言い換えると、現在のピクチャがＩＤＲピクチャであるとき、ビデオデコーダ３０は、ＤＰＢ内のすべてのバッファを空にするための技法を実施すればよい。現在のピクチャがＩＤＲピクチャではないとき、ビデオデコーダ３０は、復号ピクチャを、現在の復号ピクチャを記憶するためのフリーバッファに移動するための技法を実施すればよい。

たとえば、ビデオデコーダ３０が現在のピクチャを復号した後、ビデオデコーダ３０は、現在のピクチャをＤＰＢに記憶し、ＤＰＢ充満度を１だけ増分してよい。いくつかの例では、現在のピクチャのＯｕｔｐｕｔＦｌａｇが１に等しい場合、ビデオデコーダ３０は、現在のピクチャを、「出力に必要とされる」とマーキングすればよい。そうではなく、現在のピクチャのＯｕｔｐｕｔＦｌａｇが０に等しい場合、ビデオデコーダ３０は、現在のピクチャを、「出力に必要とされない」とマーキングすればよい。

上述したように、いくつかの例では、ビデオデコーダ３０は、バンピングプロセスを実装してよい。概して、バンピングプロセスは、復号ピクチャの出力を伴う。たとえば、ビデオデコーダ３０は、現在のピクチャがＩＤＲピクチャであり、ｎｏ＿ｏｕｔｐｕｔ＿ｏｆ＿ｐｒｉｏｒ＿ｐｉｃｓ＿ｆｌａｇが１に等しくないとともに、１に等しいと推論されないときのためのバンピングプロセスを実施すればよい。ビデオデコーダ３０は、ＤＰＢ中に空きバッファがなく（すなわち、ＤＰＢ充満度がＤＰＢのサイズに等しく）、復号（非ＩＤＲ）ピクチャの記憶に空きバッファが必要とされる場合にバンピングプロセスを実施してもよい。

概して、ビデオデコーダ３０は、以下のステップを実施して、バンピングプロセスを実施することができる。ビデオデコーダ３０は最初に、出力されるべきピクチャを判断すればよい。たとえば、ビデオデコーダ３０は、「出力に必要とされる」とマーキングされている、ＤＰＢ中のピクチャすべてのうち、最も小さいＰＯＣ値をもつピクチャを選択してよい。ビデオデコーダ３０は、ピクチャ用のアクティブシーケンスパラメータセット中で指定されたクロッピング矩形を使って、選択されたピクチャをクロップしてよい。ビデオデコーダ３０は、クロップされたピクチャを出力すればよく、ピクチャを「出力に必要とされない」とマーキングすればよい。ビデオデコーダ３０は、クロップされ出力されたピクチャを記憶したＤＰＢのバッファを調べればよい。ピクチャが参照ピクチャセットに含まれず、ピクチャのｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのもの以下である場合、ビデオデコーダ３０は、そのバッファを空にしてよく、ＤＰＢ充満度を１だけ減分すればよい。

上記技法を使用することによって、ビデオエンコーダ２０およびビデオデコーダ３０は、非ＩＤＲＲＡＰピクチャにおいてランダムアクセスを実施することができ、現在のピクチャをインター予測するために長期参照ピクチャを使うことができ、または使うことができない例についてシグナリングされる必要がある情報の量を削減することができ、時間的識別値が現在のピクチャのものよりも大きい参照ピクチャがインター予測用にＤＰＢ中で利用可能であるようにすることができる。また、上記は、ピクチャのインター予測について説明している。以下では、ピクチャのインター予測が起こる例について説明する。

上述したように、参照ピクチャサブセットを構成した後、ビデオデコーダ３０は、参照ピクチャサブセットから、１つまたは２つの参照ピクチャリストを構成することができる。参照ピクチャリストは、現在のピクチャをインター予測するために使うことができる参照ピクチャを識別する。たとえば、現在のピクチャ中のブロックが双予測される（たとえば、２つの参照ピクチャに関して予測される）場合、ビデオデコーダ３０は、リスト０およびリスト１またはＲｅｆＰｉｃＬｉｓｔ０およびＲｅｆＰｉｃＬｉｓｔ１と呼ばれる２つの参照ピクチャを構成することができる。この場合、リスト０は、参照ピクチャのうちの一方を識別し、リスト１は、他方の参照ピクチャを識別する。現在のピクチャ中のブロックが単方向予測される（１つの参照に関して予測される）場合、ビデオデコーダ３０は、参照ピクチャを識別する１つの参照ピクチャリスト（たとえば、リスト０またはリスト１のいずれか）を構成することができる。

いくつかの例では、ビデオデコーダ３０は最初に、１つまたは複数の初期参照ピクチャリストを構成し得る。参照ピクチャリスト修正が必要とされない場合、１つまたは複数の最終参照ピクチャリストは、１つまたは複数の初期参照ピクチャリストに等しくなり得る。参照ピクチャリスト修正が必要とされる場合、ビデオデコーダ３０は、ビデオデコーダ３０が１つもしくは複数の初期参照リスト中のピクチャの順序付けを配列し直し、１つのリストもしくは複数のリストに参照ピクチャを追加し、または１つのリストもしくは複数のリストから参照ピクチャを削除する修正プロセスを実装すればよい。

１つまたは複数の参照ピクチャリストの構成の後、ビデオデコーダ３０は、構成された１つまたは複数の参照ピクチャリスト中への索引値（１つまたは複数）を受信することができる。索引値（１つまたは複数）から、ビデオデコーダ３０は、どの参照ピクチャをインター予測に使用するべきか判断することができ、それらのピクチャをＤＰＢから取り出し、それらのピクチャに関してインター予測を実施すればよい。

以下では、ビデオデコーダ３０が初期参照ピクチャリストを構成することができる例示的やり方について説明する。この初期化プロセスは、インター予測ピクチャのスライスヘッダを復号するときに起こり得る。

初期ＲｅｆＰｉｃＬｉｓｔ０を構成するために、ビデオデコーダ３０は、以下の擬似コードを実装すればよい。たとえば、ビデオデコーダ３０は、ＰまたはＢスライスの復号を伴う、以下の擬似コードを実装してよい。この例では、少なくとも１つの参照ピクチャが、ＲｅｆＰｉｃＳｅｔＣｕｒｒ０、ＲｅｆＰｉｃＳｅｔＣｕｒｒ１、およびＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ参照ピクチャサブセットにあり得る。

初期ＲｅｆＰｉｃＬｉｓｔ１を構成するために、ビデオデコーダ３０は、以下の擬似コードを実装すればよい。たとえば、ビデオデコーダ３０は、Ｂスライスの復号を伴う、以下の擬似コードを実装してよい。この例では、少なくとも１つの参照ピクチャが、ＲｅｆＰｉｃＳｅｔＣｕｒｒ０、ＲｅｆＰｉｃＳｅｔＣｕｒｒ１、およびＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ参照ピクチャサブセットにあり得る。

上記擬似コードにおいて、ｎｕｍ＿ｒｅｆ＿ｉｄｘ＿ｌ０＿ａｃｔｉｖｅ＿ｍｉｎｕｓ１＋１は、ＲｅｆＰｉｃＬｉｓｔ０中の参照ピクチャの数を示し、ｎｕｍ＿ｒｅｆ＿ｉｄｘ＿ｌ１＿ａｃｔｉｖｅ＿ｍｉｎｕｓ１＋１は、ＲｅｆＰｉｃＬｉｓｔ１中の参照ピクチャの数を示す。いくつかの例では、参照ピクチャリスト初期化の後、ＲｅｆＰｉｃＬｉｓｔ０およびＲｅｆＰｉｃＬｉｓｔ１中の２つ以上の索引において参照ピクチャが現れる場合がある。

いくつかの例では、参照ピクチャリスト修正は必要とされなくてよい。これらのケースでは、ビデオエンコーダ２０は、ｒｅｆ＿ｐｉｃ＿ｌｉｓｔ＿ｍｏｄｉｆｉｃａｔｉｏｎ＿ｆｌａｇ＿ｌ０シンタックス要素および／またはｒｅｆ＿ｐｉｃ＿ｌｉｓｔ＿ｍｏｄｉｆｉｃａｔｉｏｎ＿ｆｌａｇ＿ｌ１シンタックス要素をシグナリングすればよい。ｒｅｆ＿ｐｉｃ＿ｌｉｓｔ＿ｍｏｄｉｆｉｃａｔｉｏｎ＿ｆｌａｇ＿ｌ０シンタックス要素は、ＲｅｆＰｉｃＬｉｓｔ０の参照ピクチャリスト修正が必要とされることを示し、ｒｅｆ＿ｐｉｃ＿ｌｉｓｔ＿ｍｏｄｉｆｉｃａｔｉｏｎ＿ｆｌａｇ＿ｌ１シンタックス要素は、ＲｅｆＰｉｃＬｉｓｔ１の参照ピクチャ修正が必要とされることを示す。参照ピクチャリスト修正が必要とされるとき、ビデオデコーダ３０は、初期ＲｅｆＰｉｃＬｉｓｔ０および初期ＲｅｆＰｉｃＬｉｓｔ１に含まれていなかったＲｅｆＰｉｃＬｉｓｔ０および／またはＲｅｆＰｉｃＬｉｓｔ１にピクチャを含めてよい。

上述したように、ビデオエンコーダ２０は、どの参照ピクチャが参照ピクチャセットに属すかを示す情報をシグナリングすることができる。ビデオエンコーダ２０がそのような情報をシグナリングすることができる様々なやり方があり得る。たとえば、上記例では、ビデオエンコーダ２０は、短期参照ピクチャセットシンタックスと長期参照ピクチャセットシンタックスとをスライスヘッダ中でシグナリングして、どの短期および長期参照ピクチャが参照ピクチャセットに属すかを示すことができる。

別の例では、ビデオエンコーダ２０は、短期参照ピクチャおよび／または長期参照ピクチャについての参照ピクチャ識別情報（たとえば、ＰＯＣ値）のリストを、ピクチャパラメータセットおよび／またはシーケンスパラメータセット中でシグナリングすることができ、リストに対する索引またはリストのサブセットをスライスヘッダ中でシグナリングすることができ、こうすることによりシグナリングオーバーヘッドを削減することができる。別の例では、ビデオエンコーダ２０は、短期参照ピクチャおよび／または長期参照ピクチャについての参照ピクチャ識別情報（たとえば、ＰＯＣ値）のリストを、直接またはピクチャパラメータセットおよび／もしくはシーケンスパラメータセット中でシグナリングされる短期参照ピクチャおよび／もしくは長期参照ピクチャについての参照ピクチャ識別情報リストへの索引を参照することによって、適応パラメータセット中でシグナリングすることができ、スライスヘッダは適応パラメータセットを指す。

上記は、参照ピクチャサブセットを構成するための一例示的やり方についても説明している。これらの例のうちのいくつかでは、参照ピクチャサブセットのうちのどれも、ｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャよりも大きいピクチャを識別することができない。いくつかの他の例では、参照ピクチャセットのサブセットは、現在のピクチャよりも大きいｔｅｍｐｏｒａｌ＿ｉｄをもつ短期および／または長期参照ピクチャを含み得る。

さらに、１つまたは複数の参照ピクチャセットに含められるべき参照ピクチャをシグナリングするとき、ビデオエンコーダ２０は、参照ピクチャ識別と、参照ピクチャのいくつかの他のプロパティ（たとえば、ｔｅｍｐｏｒａｌ＿ｉｄによって識別される時間的レベル情報）との情報をシグナリングすればよい。また、参照ピクチャリスト初期化と参照ピクチャリスト修正とを含む、参照ピクチャリスト構成の少なくとも１つのステップにおいて、ビデオデコーダ３０は、現在のピクチャのものよりも大きいｔｅｍｐｏｒａｌ＿ｉｄをもつ参照ピクチャを参照ピクチャリストに含めなくてよい。

上述したように、本開示に記載する技法は、ＨＥＶＣ規格に従って実施することができる。以下は、理解を助けるための、ＨＥＶＣ規格についての手短な説明である。さらに、これらの技法は、ＨＥＶＣ規格のコンテキストで説明されるが、これらの技法は、固有規格を含む他の規格に拡張可能であり得る。

ＪＣＴ−ＶＣは、ＨＥＶＣ規格の開発に取り組んでいる。ＨＥＶＣ規格化の取り組みは、ＨＥＶＣテストモデル（ＨＭ）と呼ばれるビデオコーディングデバイスの発展的モデルに基づく。ＨＭは、たとえば、ＩＴＵ−ＴＨ．２６４／ＡＶＣに従う既存のデバイスに対してビデオコーディングデバイスのいくつかの追加の能力を仮定する。たとえば、Ｈ．２６４は９つのイントラ予測符号化モードを提供するが、ＨＭは３３個ものイントラ予測符号化モードを提供し得る。

一般に、ＨＭの作業モデルは、ビデオフレームまたはピクチャが、ルーマとクロマの両方のサンプルを含む一連のツリーブロックまたは最大コーディングユニット（ＬＣＵ）に分割され得ることを記載する。ツリーブロックは、Ｈ．２６４規格のマクロブロックと同様の目的を有する。スライスは、復号順序でいくつかの連続的なツリーブロックを含む。ビデオフレームまたはピクチャは、１つまたは複数のスライスに区分され得る。各ツリーブロックは、４分木に従ってコーディングユニット（ＣＵ）に分割され得る。たとえば、４分木のルートノードとしてのツリーブロックは、４つの子ノードに分割され得、各子ノードは、次に、親ノードとなり、別の４つの子ノードに分割され得る。４分木のリーフノードとしての、最終的な、分割されていない子ノードは、コーディングノード、すなわち、コード化ビデオブロックを備える。コード化ビットストリームに関連するシンタックスデータは、ツリーブロックが分割され得る最大回数を定義し得、コーディングノードの最小サイズをも定義し得る。ツリーブロックは、いくつかの例では、ＬＣＵと呼ばれることがある。

ＣＵは、コーディングノードと、コーディングノードに関連する予測ユニット（ＰＵ）および変換ユニット（ＴＵ）とを含む。ＣＵのサイズは、コーディングノードのサイズに対応し、形状が方形でなければならない。ＣＵのサイズは、８×８ピクセルから最大６４×６４以上のピクセルをもつツリーブロックのサイズまでに及び得る。各ＣＵは、１つまたは複数のＰＵと、１つまたは複数のＴＵとを含み得る。ＣＵに関連するシンタックスデータは、たとえば、ＣＵを１つまたは複数のＰＵに区分することを記述し得る。区分モードは、ＣＵが、スキップモード符号化またはダイレクトモード符号化されるか、イントラ予測モード符号化されるか、あるいはインター予測モード符号化されるかによって異なり得る。ＰＵは、形状が非方形になるように区分され得る。ＣＵに関連するシンタックスデータは、たとえば、４分木に従って、ＣＵを１つまたは複数のＴＵに区分することも記述し得る。ＴＵは、形状が方形または非方形であり得る。

ＨＥＶＣ規格は、ＣＵごとに異なり得るＴＵに従う変換を可能にする。ＴＵは、一般に、区分されたＬＣＵについて定義された所与のＣＵ内のＰＵのサイズに基づいてサイズ決定されるが、常にそうであるとは限らない。ＴＵは、一般にＰＵと同じサイズであるかまたはＰＵよりも小さい。いくつかの例では、ＣＵに対応する残差サンプルは、「残差４分木」（ＲＱＴ：residual quad tree）として知られる４分木構造を使用してより小さいユニットに再分割され得る。ＲＱＴのリーフノードは変換ユニット（ＴＵ）と呼ばれることがある。ＴＵに関連するピクセル差分値は、変換されて変換係数が生成され得、その変換係数は量子化され得る。

一般に、ＰＵは、予測プロセスに関連したデータを含む。たとえば、ＰＵがイントラモード符号化されるとき、ＰＵは、ＰＵについてのイントラ予測モードを記述するデータを含み得る。別の例として、ＰＵがインターモード符号化されるとき、ＰＵは、そのＰＵについての動きベクトルを定義するデータを含み得る。ＰＵについての動きベクトルを定義するデータは、たとえば、動きベクトルの水平成分、動きベクトルの垂直成分、動きベクトルの解像度（たとえば、１／４ピクセル精度または１／８ピクセル精度）、動きベクトルが指す参照ピクチャ、および／または動きベクトルの参照ピクチャリスト（たとえば、リスト０またはリスト１）を記述し得る。

概して、ＴＵは、変換プロセスと量子化プロセスとのために使用される。１つまたは複数のＰＵを有する所与のＣＵは、１つまたは複数の変換ユニット（ＴＵ）をも含み得る。予測の後に、ビデオエンコーダ２０は、ＰＵに対応する残差値を計算し得る。残差値は、エントロピーコーディングのためのシリアル化変換係数（serialized transform coefficient）を生成するために、ＴＵを使用して変換係数に変換され、量子化され、走査され得るピクセル差分値を備える。本開示では、一般に、ＣＵのコーディングノードを指すために「ビデオブロック」という用語を使用する。いくつかの特定の場合において、本開示では、コーディングノードならびにＰＵおよびＴＵを含む、ツリーブロック、すなわち、ＬＣＵまたはＣＵを指す「ビデオブロック」という用語も使用し得る。

ビデオシーケンスは、一般的に、一連のビデオフレームまたはピクチャを含む。ピクチャグループ（ＧＯＰ）は、一般に、ビデオピクチャのうちの一連の１つまたは複数を備える。ＧＯＰは、ＧＯＰ内に含まれるいくつかのピクチャを記述するシンタックスデータを、ＧＯＰのヘッダ中、１つまたは複数のピクチャのヘッダ中、または他の場所に含み得る。ピクチャの各スライスは、それぞれのスライスの符号化モードを記述するスライスシンタックスデータを含み得る。ビデオエンコーダ２０は、一般に、ビデオデータを符号化するために、個々のビデオスライス内のビデオブロックに対して動作する。ビデオブロックは、ＣＵ内のコーディングノードに対応し得る。ビデオブロックは、サイズを固定することも変更することもでき、指定のコーディング規格に応じてサイズが異なることがある。

一例として、ＨＭは、様々なＰＵサイズでの予測をサポートする。特定のＣＵのサイズが２Ｎ×２Ｎであると仮定すると、ＨＭは、２Ｎ×２ＮまたはＮ×ＮのＰＵサイズでのイントラ予測をサポートし、２Ｎ×２Ｎ、２Ｎ×Ｎ、Ｎ×２Ｎ、またはＮ×Ｎの対称的なＰＵサイズでのインター予測をサポートする。ＨＭはまた、２Ｎ×ｎＵ、２Ｎ×ｎＤ、ｎＬ×２Ｎ、およびｎＲ×２ＮのＰＵサイズでのインター予測のための非対称区分をサポートする。非対称区分では、ＣＵの一方向は区分されないが、他の方向は２５％と７５％とに区分される。２５％の区分に対応するＣＵの部分は、「ｎ」とその後ろに付く「Ｕｐ」、「Ｄｏｗｎ」、「Ｌｅｆｔ」、または「Ｒｉｇｈｔ」という表示によって示される。したがって、たとえば、「２Ｎ×ｎＵ」は、上部の２Ｎ×０．５ＮＰＵと下部の２Ｎ×１．５ＮＰＵとで水平方向に区分された２Ｎ×２ＮＣＵを指す。

本開示では、「Ｎ×Ｎ（NxN）」および「Ｎ×Ｎ（N by N）」は、垂直寸法および水平寸法に関するビデオブロックのピクセル寸法、たとえば、１６×１６（16x16）ピクセルまたは１６×１６（16 by 16）ピクセルを指すために互換的に使用され得る。概して、１６×１６ブロックは、垂直方向に１６ピクセルを有し（ｙ＝１６）、水平方向に１６ピクセルを有する（ｘ＝１６）。同様に、Ｎ×Ｎブロックは、一般に、垂直方向にＮピクセルを有し、水平方向にＮピクセルを有し、ここで、Ｎは非負整数値を表す。ブロック中のピクセルは行と列に構成され得る。その上、ブロックは、必ずしも、水平方向において垂直方向と同じ数のピクセルを有する必要があるとは限らない。たとえば、ブロックはＮ×Ｍピクセルを備えてよく、ただし、Ｍは必ずしもＮに等しいとは限らない。

ＣＵのＰＵを使用したイントラ予測コーディングまたはインター予測コーディングの後、ビデオエンコーダ２０は、ＣＵのＴＵのための残差データを計算し得る。ＰＵは、（ピクセル領域とも呼ばれる）空間領域においてピクセルデータを備え得、ＴＵは、たとえば、残差ビデオデータへの離散コサイン変換（ＤＣＴ）、整数変換、ウェーブレット変換、または概念的に同様の変換などの変換の適用後に、変換領域において係数を備え得る。残差データは、符号化されていないピクチャのピクセルと、ＰＵに対応する予測値との間のピクセル差分に対応し得る。ビデオエンコーダ２０は、ＣＵのための残差データを含むＴＵを形成し、次いで、ＴＵを変換して、ＣＵの変換係数を生成し得る。

変換係数を生成するための任意の変換の後に、ビデオエンコーダ２０は、変換係数の量子化を実施し得る。量子化は、概して、さらなる圧縮を提供する、係数を表すために使用されるデータの量をできるだけ低減するために変換係数を量子化するプロセスを指す。量子化プロセスは、係数の一部または全部に関連するビット深度を低減し得る。たとえば、量子化中にｎビット値がｍビット値に切り捨てられ得、この場合、ｎはｍよりも大きい。

いくつかの例では、ビデオエンコーダ２０は、エントロピー符号化され得るシリアル化ベクトルを生成するために、量子化変換係数を走査するためにあらかじめ定義された走査順序を利用し得る。他の例では、ビデオエンコーダ２０は適応走査を実施し得る。量子化変換係数を走査して１次元ベクトルを形成した後に、ビデオエンコーダ２０は、たとえば、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ：context-adaptive variable length coding）、コンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ：context-adaptive binary arithmetic coding）、シンタックスベースコンテキスト適応型バイナリ算術コーディング（ＳＢＡＣ：syntax-based context-adaptive binary arithmetic coding）、確率間隔区分エントロピー（ＰＩＰＥ：Probability Interval Partitioning Entropy）コーディング、または別のエントロピー符号化方法に従って１次元ベクトルをエントロピー符号化し得る。ビデオエンコーダ２０はまた、ビデオデータを復号する際にビデオデコーダ３０が使用するための符号化ビデオデータに関連するシンタックス要素をエントロピー符号化し得る。

ＣＡＢＡＣを実施するために、ビデオエンコーダ２０は、送信されるべきシンボルに、コンテキストモデル内のコンテキストを割り当て得る。コンテキストは、たとえば、シンボルの隣接値が非０であるか否かに関係し得る。ＣＡＶＬＣを実施するために、ビデオエンコーダ２０は、送信されるべきシンボルの可変長コードを選択し得る。ＶＬＣにおけるコードワードは、比較的短いコードが優勢シンボルに対応し、より長いコードが劣勢シンボルに対応するように構成され得る。このようにして、ＶＬＣの使用は、たとえば、送信されるべき各シンボルのために等長コードワードを使用するよりも、ビット節約を達成し得る。確率判断は、シンボルに割り当てられるコンテキストに基づき得る。

図２は、本開示で説明する技法を実装し得る例示的なビデオエンコーダ２０を示すブロック図である。ビデオエンコーダ２０は、ビデオスライス内のビデオブロックのイントラコーディングおよびインターコーディングを実施し得る。イントラコーディングは、所与のビデオフレームまたはピクチャ内のビデオの空間的冗長性を低減または除去するために空間的予測に依拠する。インターコーディングは、ビデオシーケンスの隣接フレームまたはピクチャ内のビデオの時間的冗長性を低減または除去するために時間的予測に依拠する。イントラモード（Ｉモード）は、いくつかの空間ベースの圧縮モードのいずれかを指し得る。単方向予測（Ｐモード）または双予測（Ｂモード）などのインターモードは、いくつかの時間ベースの圧縮モードのいずれかを指し得る。

図２の例では、ビデオエンコーダ２０は、区分ユニット３５と、予測モジュール４１と、復号ピクチャバッファ（ＤＰＢ）６４と、加算器５０と、変換モジュール５２と、量子化ユニット５４と、エントロピー符号化ユニット５６とを含む。予測モジュール４１は、動き推定ユニット４２と、動き補償ユニット４４と、イントラ予測モジュール４６とを含む。ビデオブロック再構成のために、ビデオエンコーダ２０はまた、逆量子化ユニット５８と、逆変換モジュール６０と、加算器６２とを含む。再構成されたビデオからブロッキネスアーティファクトを除去するためにブロック境界をフィルタ処理するデブロッキングフィルタ（図２に図示せず）も含まれ得る。所望される場合、デブロッキングフィルタは、一般に、加算器６２の出力をフィルタ処理することになる。また、デブロッキングフィルタに加えて追加のループフィルタ（ループ内またはループ後）が使用され得る。

図２に示すように、ビデオエンコーダ２０はビデオデータを受信し、区分ユニット３５はデータをビデオブロックに区分する。この区分は、たとえば、ＬＣＵおよびＣＵの４分木構造に応じて、スライス、タイル、または他のより大きいユニットへの区分、ならびにビデオブロック区分をも含み得る。ビデオエンコーダ２０は、概して、符号化されるべきビデオスライス内のビデオブロックを符号化する構成要素を示す。スライスは、複数のビデオブロックに（および、場合によっては、タイルと呼ばれるビデオブロックのセットに）分割され得る。予測モジュール４１は、誤り結果（たとえば、コーディングレートおよびひずみレベル）に基づいて現在ビデオブロックのために、複数のイントラコーディングモードのうちの１つ、または複数のインターコーディングモードのうちの１つなど、複数の可能なコーディングモードのうちの１つを選択し得る。予測モジュール４１は、得られたイントラコード化ブロックまたはインターコード化ブロックを、残差ブロックデータを生成するために加算器５０に与え、参照ピクチャとして使用するための符号化ブロックを再構成するために加算器６２に与え得る。

予測モジュール４１内のイントラ予測モジュール４６は、空間圧縮を行うために、コーディングされるべき現在ブロックと同じピクチャまたはスライス中の１つまたは複数の隣接ブロックに対する現在ビデオブロックのイントラ予測コーディングを実施し得る。予測モジュール４１内の動き推定ユニット４２および動き補償ユニット４４は、時間圧縮を行うために、１つまたは複数の参照ピクチャ中の１つまたは複数の予測ブロックに対する現在ビデオブロックのインター予測コーディングを実施する。

動き推定ユニット４２は、ビデオシーケンスの所定のパターンに従ってビデオスライスのためのインター予測モードを判断するように構成され得る。所定のパターンは、シーケンス中のビデオスライスをＰスライスまたはＢスライスに指定し得る。動き推定ユニット４２と動き補償ユニット４４とは、高度に統合され得るが、概念的な目的のために別々に示されている。動き推定ユニット４２によって実施される動き推定は、ビデオブロックの動きを推定する動きベクトルを生成するプロセスである。動きベクトルは、たとえば、参照ピクチャ内の予測ブロックに対する現在ビデオピクチャ内のビデオブロックのＰＵの変位を示し得る。

予測ブロックは、絶対値差分和（ＳＡＤ）、差分２乗和（ＳＳＤ）、または他の差分メトリックによって判断され得るピクセル差分に関して、コーディングすべきビデオブロックのＰＵにぴったり一致することがわかるブロックである。いくつかの例では、ビデオエンコーダ２０は、復号ピクチャバッファ６４に記憶された参照ピクチャのサブ整数ピクセル位置の値を計算し得る。たとえば、ビデオエンコーダ２０は、参照ピクチャの１／４ピクセル位置、１／８ピクセル位置、または他の分数ピクセル位置の値を補間し得る。したがって、動き推定ユニット４２は、フルピクセル位置と分数ピクセル位置とに対する動き探索を実施し、分数ピクセル精度で動きベクトルを出力し得る。

動き推定ユニット４２は、ＰＵの位置を参照ピクチャの予測ブロックの位置と比較することによって、インターコード化スライス中のビデオブロックのＰＵについての動きベクトルを計算する。参照ピクチャは、第１の参照ピクチャリスト（リスト０）または第２の参照ピクチャリスト（リスト１）から選択され得、それらの参照ピクチャリストの各々は、復号ピクチャバッファ６４に記憶された１つまたは複数の参照ピクチャを識別する。動き推定ユニット４２は、計算された動きベクトルをエントロピー符号化ユニット５６と動き補償ユニット４４とに送る。

動き補償ユニット４４によって実施される動き補償は、動き推定によって判断された動きベクトルに基づいて予測ブロックをフェッチまたは生成すること、場合によってはサブピクセル精度への補間を実施することを伴い得る。現在のビデオブロックのＰＵのための動きベクトルを受信すると、動き補償ユニット４４は、参照ピクチャリストのうちの１つにおいて動きベクトルが指す予測ブロックの位置を特定し得る。ビデオエンコーダ２０は、コーディングされている現在ビデオブロックのピクセル値から予測ブロックのピクセル値を減算し、ピクセル差分値を形成することによって残差ビデオブロックを形成する。ピクセル差分値は、ブロックの残差データを形成し、ルーマ差分成分とクロマ差分成分の両方を含み得る。加算器５０は、この減算演算を実施する１つまたは複数の構成要素を表す。動き補償ユニット４４はまた、ビデオスライスのビデオブロックを復号する際にビデオデコーダ３０が使用するための、ビデオブロックとビデオスライスとに関連するシンタックス要素を生成し得る。

イントラ予測モジュール４６は、上記で説明したように、動き推定ユニット４２と動き補償ユニット４４とによって実施されるインター予測の代替として、現在ブロックをイントラ予測し得る。特に、イントラ予測モジュール４６は、現在ブロックを符号化するために使用すべきイントラ予測モードを判断し得る。いくつかの例では、イントラ予測モジュール４６は、たとえば、別々の符号化パス中に、様々なイントラ予測モードを使用して現在ブロックを符号化し得、イントラ予測モジュール４６（または、いくつかの例では、モード選択ユニット４０）は、テストされたモードから使用するのに適切なイントラ予測モードを選択し得る。たとえば、イントラ予測モジュール４６は、様々なテストされたイントラ予測モードのためのレートひずみ分析を使用してレートひずみ値を計算し、テストされたモードの中で最良のレートひずみ特性を有するイントラ予測モードを選択し得る。レートひずみ分析は、概して、符号化ブロックと、符号化ブロックを生成するために符号化された元の符号化されていないブロックとの間のひずみ（または誤差）の量、ならびに符号化ブロックを生成するために使用されるビットレート（すなわち、ビット数）を判断する。イントラ予測モジュール４６は、どのイントラ予測モードがブロックについて最良のレートひずみ値を呈するかを判断するために、様々な符号化ブロックについてのひずみおよびレートから比率を計算し得る。

ブロック用のイントラ予測モードを選択した後、イントラ予測モジュール４６は、ブロック用に選択されたイントラ予測モードを示す情報を、エントロピー符号化ユニット５６に提供することができる。エントロピー符号化ユニット５６は、本開示の技法に従って選択されたイントラ予測モードを示す情報を符号化し得る。ビデオエンコーダ２０は、送信ビットストリーム中に、複数のイントラ予測モードインデックステーブルおよび複数の変更されたイントラ予測モードインデックステーブル（コードワードマッピングテーブルとも呼ばれる）と、様々なブロックの符号化コンテキストの定義と、コンテキストの各々について使用すべき、最確イントラ予測モード、イントラ予測モードインデックステーブル、および変更されたイントラ予測モードインデックステーブルの指示とを含み得る構成データを含み得る。

予測モジュール４１が、インター予測またはイントラ予測のいずれかを介して、現在ビデオブロックのための予測ブロックを生成した後、ビデオエンコーダ２０は、現在ビデオブロックから予測ブロックを減算することによって残差ビデオブロックを形成する。残差ブロック中の残差ビデオデータは、１つまたは複数のＴＵ中に含まれ、変換モジュール５２に適用され得る。変換モジュール５２は、離散コサイン変換（ＤＣＴ）または概念的に同様の変換などの変換を使用して、残差ビデオデータを残差変換係数に変換する。変換モジュール５２は、残差ビデオデータをピクセル領域から周波数領域などの変換領域に変換し得る。

変換モジュール５２は、得られた変換係数を量子化ユニット５４に送り得る。量子化ユニット５４は、ビットレートをさらに低減するために変換係数を量子化する。量子化プロセスは、係数の一部または全部に関連するビット深度を低減し得る。量子化の程度は、量子化パラメータを調整することによって変更され得る。いくつかの例では、量子化ユニット５４は、次いで、量子化変換係数を含む行列の走査を実施し得る。代替的に、エントロピー符号化ユニット５６が走査を実施し得る。

量子化の後、エントロピー符号化ユニット５６は、量子化変換係数をエントロピー符号化する。たとえば、エントロピー符号化ユニット５６は、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ）、コンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ）、シンタックスベースコンテキスト適応型バイナリ算術コーディング（ＳＢＡＣ）、確率間隔区分エントロピー（ＰＩＰＥ）コーディングまたは別のエントロピー符号化方法または技法を実施し得る。エントロピー符号化ユニット５６によるエントロピー符号化の後に、符号化ビットストリームは、ビデオデコーダ３０に送信されるか、あるいはビデオデコーダ３０が後で送信するかまたは取り出すためにアーカイブされ得る。エントロピー符号化ユニット５６はまた、コーディングされている現在ビデオスライスのための動きベクトルと他のシンタックス要素とをエントロピー符号化し得る。

逆量子化ユニット５８および逆変換モジュール６０は、それぞれ逆量子化および逆変換を適用して、参照ピクチャの参照ブロックとして後で使用するためにピクセル領域において残差ブロックを再構成する。動き補償ユニット４４は、残差ブロックを参照ピクチャリストのうちの１つ内の参照ピクチャのうちの１つの予測ブロックに加算することによって参照ブロックを計算し得る。動き補償ユニット４４はまた、再構成された残差ブロックに１つまたは複数の補間フィルタを適用して、動き推定において使用するためのサブ整数ピクセル値を計算し得る。加算器６２は、再構成された残差ブロックを動き補償ユニット４４によって生成された動き補償予測ブロックに加算して、復号ピクチャバッファ６４に記憶するための参照ブロックを生成する。参照ブロックは、後続のビデオフレームまたはピクチャ中のブロックをインター予測するために、動き推定ユニット４２および動き補償ユニット４４によって参照ブロックとして使用され得る。

本開示によると、予測モジュール４１は、上述した例示的機能を実施するための１つの例示的ユニットを表す。たとえば、予測モジュール４１は、ビデオエンコーダ２０に、ビデオデコーダ３０が非ＩＤＲＲＡＰピクチャにおけるランダムアクセスを実装することを可能にする非ＩＤＲＲＡＰピクチャについての完全ＰＯＣ値を符号化させることができる。別の例として、予測モジュール４１は、ビデオエンコーダ２０に、フラグの値に基づいて、テーブル５および６のシンタックス要素中で信号を符号化させることができる。さらに別の例として、予測モジュール４１は、復号ピクチャが出力に必要とされるかどうか、復号ピクチャが参照ピクチャセットに含まれるかどうか、および復号ピクチャについてのｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのｔｅｍｐｏｒａｌ＿ｉｄ値以下であるかどうかに基づいて、どの復号ピクチャを復号ピクチャバッファ６４から削除してよいか判断することができる。

他の例では、予測モジュール４１以外のユニットが上述の例を実装し得る。いくつかの他の例では、予測モジュール４１は、ビデオエンコーダ２０の１つまたは複数の他のユニットとともに、上述した例を実装することができる。さらにいくつかの他の例では、ビデオエンコーダ２０のプロセッサまたはユニット（図２には図示せず）は、単独で、またはビデオエンコーダ２０の他のユニットとともに、上述した例を実装することができる。

図３は、本開示で説明する技法を実装し得る例示的なビデオデコーダ３０を示すブロック図である。図３の例では、ビデオデコーダ３０は、エントロピー復号ユニット８０と、予測モジュール８１と、逆量子化ユニット８６と、逆変換ユニット８８と、加算器９０と、復号ピクチャバッファ（ＤＰＢ）９２とを含む。予測モジュール８１は、動き補償ユニット８２と、イントラ予測モジュール８４とを含む。ビデオデコーダ３０は、いくつかの例では、図２のビデオエンコーダ２０に関して説明した符号化パスとは概して逆の復号パスを実施し得る。

復号プロセス中に、ビデオデコーダ３０は、ビデオエンコーダ２０から、符号化ビデオスライスのビデオブロックと、関連するシンタックス要素とを表す符号化ビデオビットストリームを受信する。ビデオデコーダ３０のエントロピー復号ユニット８０は、量子化係数と、動きベクトルと、他のシンタックス要素とを生成するためにビットストリームをエントロピー復号する。エントロピー復号ユニット８０は、予測モジュール８１に動きベクトルと他のシンタックス要素とを転送する。ビデオデコーダ３０は、ビデオスライスレベルおよび／またはビデオブロックレベルでシンタックス要素を受信し得る。

ビデオスライスがイントラコード化（Ｉ）スライスとしてコーディングされるとき、予測モジュール８１のイントラ予測モジュール８４は、シグナリングされたイントラ予測モードと、現在ピクチャの、前に復号されたブロックからのデータとに基づいて、現在ビデオスライスのビデオブロックのための予測データを生成し得る。ビデオピクチャがインターコード化（すなわち、Ｂ、またはＰ）スライスとしてコーディングされるとき、予測モジュール８１の動き補償ユニット８２は、エントロピー復号ユニット８０から受信された動きベクトルおよび他のシンタックス要素に基づいて、現在ビデオスライスのビデオブロックのための予測ブロックを生成する。予測ブロックは、参照ピクチャリストのうちの１つ内の参照ピクチャのうちの１つから生成され得る。ビデオデコーダ３０は、復号ピクチャバッファ９２に記憶された参照ピクチャに基づいて、デフォルトの構成技法を使用して、参照フレームリスト、すなわち、リスト０およびリスト１を構成し得る。いくつかの例では、ビデオデコーダ３０は、導出された参照ピクチャセット中で識別された参照ピクチャから、リスト０とリスト１とを構成することができる。

動き補償ユニット８２は、動きベクトルと他のシンタックス要素とを解析することによって現在ビデオスライスのビデオブロックについての予測情報を判断し、予測情報を使用して、復号されている現在ビデオブロックのための予測ブロックを生成する。たとえば、動き補償ユニット８２は、ビデオスライスのビデオブロックをコーディングするために使用される予測モード（たとえば、イントラまたはインター予測）と、インター予測スライスタイプ（たとえば、ＢスライスまたはＰスライス）と、スライスの参照ピクチャリストのうちの１つまたは複数についての構成情報と、スライスの各インター符号化ビデオブロックについての動きベクトルと、スライスの各インターコード化ビデオブロックについてのインター予測ステータスと、現在ビデオスライス中のビデオブロックを復号するための他の情報とを判断するために、受信されたシンタックス要素のいくつかを使用する。

動き補償ユニット８２はまた、補間フィルタに基づいて補間を実施し得る。動き補償ユニット８２は、ビデオブロックの符号化中にビデオ符号器２０によって使用される補間フィルタを使用して、参照ブロックのサブ整数ピクセルの補間値を計算し得る。この場合、動き補償ユニット８２は、受信されたシンタックス要素からビデオ符号器２０によって使用された補間フィルタを判断し、その補間フィルタを使用して予測ブロックを生成し得る。

逆量子化ユニット８６は、ビットストリーム中で与えられ、エントロピー復号ユニット８０によって復号された、量子化変換係数を逆量子化（inverse quantize）、すなわち、逆量子化（de-quantize）する。逆量子化プロセスは、ビデオスライス中の各ビデオブロックについてビデオエンコーダ２０によって計算される量子化パラメータを使用して量子化の程度を判断し、同様に、適用すべき逆量子化の程度を判断することを含み得る。逆変換モジュール８８は、ピクセル領域において残差ブロックを生成するために、逆変換、たとえば、逆ＤＣＴ、逆整数変換、または概念的に同様の逆変換プロセスを変換係数に適用する。

予測モジュール８１が、インター予測またはイントラ予測のいずれかに基づいて現在ビデオブロックのための予測ブロックを生成した後、ビデオデコーダ３０は、逆変換モジュール８８からの残差ブロックを予測モジュール８１によって生成された対応する予測ブロックと加算することによって、復号ビデオブロックを形成する。加算器９０は、この加算演算を実施する１つまたは複数の構成要素を表す。所望される場合、ブロッキネスアーティファクトを除去するために、復号されたブロックをフィルタ処理するためにデブロッキングフィルタも適用され得る。ピクセル遷移を平滑化するか、またはさもなければビデオ品質を改善するために、（コーディングループ内またはコーディングループ後の）他のループフィルタも使用され得る。次いで、所与のピクチャ内の復号されたビデオブロックは、その後の動き補償に使用される参照ピクチャを記憶する復号ピクチャバッファ９２に記憶される。復号ピクチャバッファ９２はまた、図１のディスプレイデバイス３２などのディスプレイデバイス上での後の表示のための、復号されたビデオを記憶する。

本開示によると、予測モジュール８１は、上述した例示的機能を実施するための１つの例示的ユニットを表す。たとえば、予測モジュール８１は、非ＩＤＲＲＡＰピクチャの完全ＰＯＣ値に基づいて、非ＲＡＰピクチャについての完全ＰＯＣ値を判断することができ、ビデオデコーダ３０が非ＩＤＲＲＡＰピクチャにおけるランダムアクセスを実施できるようにする。別の例として、予測モジュール８１は、テーブル５および６のフラグの値に基づいて、現在のピクチャをインター予測するためにどの長期参照ピクチャを使うことができるか判断することができる。さらに別の例として、予測モジュール８１は、復号ピクチャが出力に必要とされるかどうか、復号ピクチャが参照ピクチャセットに含まれるかどうか、および復号ピクチャについてのｔｅｍｐｏｒａｌ＿ｉｄ値が現在のピクチャのｔｅｍｐｏｒａｌ＿ｉｄ値以下であるかどうかに基づいて、どの復号ピクチャを復号ピクチャバッファ９２から削除してよいか判断することができる。

他の例では、予測モジュール８１以外のユニットが上述の例を実装し得る。いくつかの他の例では、予測モジュール８１は、ビデオデコーダ３０の１つまたは複数の他のユニットとともに、上述した例を実装することができる。さらにいくつかの他の例では、ビデオデコーダ３０のプロセッサまたはユニット（図３には図示せず）は、単独で、またはビデオデコーダ３０の他のユニットとともに、上述した例を実装することができる。

図４は、本開示の１つまたは複数の態様による例示的な動作を示すフローチャートである。説明のためにのみ、図４の方法は、ビデオエンコーダ２０またはビデオデコーダ３０のいずれかに対応するビデオコーダによって実施することができる。

ビデオコーダは、非ＩＤＲＲＡＰピクチャについての完全識別子値（たとえば、完全ＰＯＣ値）をコーディングすることができる（９４）。ビデオコーダは、完全ＰＯＣ値のＭＳＢとＬＳＢとを一緒にコーディングしてもよく、完全ＰＯＣ値のＭＳＢとＬＳＢとを別個にコーディングしてもよい。非ＩＤＲＲＡＰピクチャの例には、ＧＤＲ、ＣＲＡ、およびＢＬＡピクチャがある。

ビデオコーダは、第１の非ＲＡＰピクチャについての部分的識別子値をコーディングすることができる（９６）。第１の非ＲＡＰピクチャは、復号順で非ＩＤＲＲＡＰピクチャの後に続き得る。部分的識別子値は、完全ＰＯＣ値のＬＳＢなど、第１の非ＲＡＰピクチャの完全ＰＯＣ値の部分であってよい。

ビデオコーダは、第１の非ＲＡＰピクチャの完全識別子値に基づいて、第２の非ＲＡＰピクチャをインター予測することができる（９８）。たとえば、ビデオコーダは、第１の非ＲＡＰピクチャの完全識別子値に基づいて、第１の非ＲＡＰピクチャが、第２の非ＲＡＰピクチャをインター予測するために使われる予定であると判断することができる。第２の非ＲＡＰピクチャは、復号順で第１の非ＲＡＰピクチャの後に続き得る。

図５は、本開示の１つまたは複数の態様による別の例示的な動作を示すフローチャートである。説明のためにのみ、図５の方法は、ビデオデコーダ３０などのビデオコーダに対応するビデオコーダによって実施することができる。ビデオコーダは、インター予測に使うことができる参照ピクチャについての完全識別子値をコーディングすることができる（１００）。たとえば、ビデオコーダは、インター予測に使うことができる長期参照ピクチャについての完全ＰＯＣ値を、ピクチャパラメータセットなどのパラメータセット中でコーディングすればよい。

いくつかの例では、ビデオコーダは、非ＲＡＰピクチャについての部分的識別子値と、非ＩＤＲＲＡＰピクチャについての完全識別子値とを受信するだけでよい。これらの例では、ビデオコーダは、非ＩＤＲＲＡＰピクチャについての完全識別子値と、非ＲＡＰピクチャについての部分的識別子値とに基づいて、非ＲＡＰピクチャについての完全識別子値を判断することができる（１０２）。ビデオコーダは、非ＲＡＰピクチャについての完全識別子値が参照ピクチャに関して同じであるかどうか判断することができる（１０４）。同じであるとき、ビデオコーダは、非ＲＡＰピクチャを参照ピクチャサブセットに含めてよい（１０６）。

図６は、本開示の１つまたは複数の態様による別の例示的な動作を示すフローチャートである。説明のためにのみ、図６の方法は、ビデオエンコーダ２０またはビデオデコーダ３０のいずれかに対応するビデオコーダによって実施することができる。

ビデオコーダは、長期ピクチャが現在のピクチャと復号順で現在のピクチャに続くピクチャとをインター予測するために使われ得るかどうかを示す第１のフラグ（たとえば、ｌｏｎｇ＿ｔｅｒｍ＿ｎｏｔ＿ｕｓｅｄ＿ｆｌａｇ）についての値をコーディングすることができる（１０８）。ビデオコーダは、第１のフラグが真であるかどうか判断することができる（１１０）。

真のとき（１１０の「ＹＥＳ」）、ビデオコーダは、短期参照ピクチャのみを使って、現在のピクチャをインター予測することができる（１１２）。偽（１１０の「ＮＯ」）のとき、パラメータセット中で指定されたすべての長期参照ピクチャが現在のピクチャの予測に使われ得るかどうかと、パラメータセット中で指示されないとともに、復号順で現在のピクチャに先立つ長期参照ピクチャが、〆在のピクチャまたは復号順で現在のピクチャに続くピクチャのインター予測に使われ得るかどうかとを示す第２のフラグ（たとえば、ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｕｓｅ＿ｐｐｓ＿ｆｌａｇ）の値をコーディングする。

ビデオコーダは、第２のフラグが真であるかどうか判断することができる（１１６）。偽（１１６の「ＮＯ」）のとき、ビデオコーダは、指定された長期参照ピクチャについてのパラメータセット中へのコード化索引（たとえば、パラメータセット中で指定された候補長期参照ピクチャリスト中への索引）に基づいて、長期参照ピクチャサブセットを構成することができる（１１８）。真（１１６の「ＹＥＳ」）のとき、ビデオコーダは、パラメータセット中への索引をコーディングすることなく（たとえば、パラメータセット中で指定された候補長期参照ピクチャリスト中への索引をコーディングすることなく）、長期参照ピクチャサブセットを構成することができる（１２０）。

図７は、本開示の１つまたは複数の態様による別の例示的な動作を示すフローチャートである。説明のためにのみ、図７の方法は、ビデオエンコーダ２０またはビデオデコーダ３０のいずれかに対応するビデオコーダによって実施することができる。

ビデオコーダは、パラメータセット中で指定されたすべての長期ピクチャが現在のピクチャのインター予測に使われ得るかどうかを示す第１のフラグ（たとえば、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｃｕｒｒ＿ｆｌａｇ）の値をコーディングすることができる（１２２）。ビデオコーダは、第１のフラグが真であるかどうか判断することができる（１２４）。

真（１２４の「ＹＥＳ」）のとき、ビデオコーダは、指定された長期参照ピクチャについてのパラメータセット中への索引をコーディングすることなく、現在のピクチャをインター予測することができる（１２６）。偽（１２４の「ＮＯ」）のとき、ビデオコーダは、どの長期参照ピクチャも現在のピクチャのインター予測に使われないかどうかと、パラメータセット中で指定されたすべての長期参照ピクチャがインター予測に使われ得るかどうかとを示す第２のフラグ（たとえば、ｌｏｎｇ＿ｔｅｒｍ＿ｐｐｓ＿ｆｏｌｌ＿ｆｌａｇ）の値をコーディングすればよい（１２８）。

ビデオコーダは、第２のフラグが真であるかどうか判断することができる（１３０）。偽（１３０の「ＮＯ」）のとき、ビデオコーダは、パラメータセット中へのコード化索引に基づいて、長期参照ピクチャサブセットを構成することができる（１３２）。真（１３０の「ＹＥＳ」）のとき、ビデオコーダは、パラメータセット中で指定されたピクチャを使わず、パラメータセット中で指定されないピクチャを使ってインター予測することができる（１３４）。

図８は、本開示の１つまたは複数の態様による別の例示的な動作を示すフローチャートである。説明のためにのみ、図８の方法は、ビデオエンコーダ２０またはビデオデコーダ３０のいずれかに対応するビデオコーダによって実施することができる。

ビデオコーダは、現在のピクチャ用の参照ピクチャセットを導出することができる（１３８）。ビデオコーダは、ＤＰＢに記憶された１つまたは複数の復号ピクチャが出力に必要とされず（１４０）、１つまたは複数の復号ピクチャが参照ピクチャセット中になく（１４２、１つまたは複数のピクチャについての時間的識別（ｔｅｍｐｏｒａｌ＿ｉｄ）値が現在のピクチャのｔｅｍｐｏｒａｌ＿ｉｄ以下であると判断することができる（１４４）。この場合、ビデオコーダは、１つまたは複数のピクチャをＤＰＢから削除してよい（１４６）。

１つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。各機能は、ソフトウェアで実装される場合、１つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されてよく、あるいはコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行されてよい。コンピュータ可読媒体は、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、データ記憶媒体または通信媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。このようにして、コンピュータ可読媒体は、概して、（１）非一時的である有形コンピュータ可読記憶媒体、あるいは（２）信号または搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明した技法の実装のための命令、コードおよび／またはデータ構造を取り出すために１つまたは複数のコンピュータあるいは１つまたは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージ、または他の磁気ストレージデバイス、フラッシュメモリ、あるいは命令またはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。ただし、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時媒体を含まないが、代わりに非一時的有形記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザディスク（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびブルーレイディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。

命令は、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）などの１つまたは複数のプロセッサ、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブル論理アレイ（ＦＰＧＡ）、あるいは他の等価な集積回路またはディスクリート論理回路によって実行され得る。したがって、本明細書で使用する「プロセッサ」という用語は、前述の構造、または本明細書で説明する技法の実装に好適な他の構造のいずれかを指す。さらに、いくつかの態様では、本明細書で説明した機能は、符号化および復号のために構成された専用のハードウェアおよび／またはソフトウェアモジュール内に与えられ得、あるいは複合コーデックに組み込まれ得る。また、本技法は、１つまたは複数の回路または論理要素中に十分に実装され得る。

本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）、またはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置において実装され得る。本開示では、開示する技法を実行するように構成されたデバイスの機能的態様を強調するために様々な構成要素、モジュール、またはユニットについて説明したが、それらの構成要素、モジュール、またはユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。むしろ、上記で説明したように、様々なユニットが、好適なソフトウェアおよび／またはファームウェアとともに、上記で説明した１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作ハードウェアユニットの集合によって与えられ得る。

様々な例について説明した。これらおよび他の例は以下の特許請求の範囲内に入る。

Claims

ビデオデータをコーディングするための方法であって、
瞬時デコーダリフレッシュ（ＩＤＲ）ピクチャではないランダムアクセスポイント（ＲＡＰ）ピクチャについての完全識別子値をコーディングすることと、
前記ＲＡＰピクチャについての前記完全識別子値に基づいて、非ＲＡＰピクチャについての部分的識別子値をコーディングすることであって、前記部分的識別子値が、前記非ＲＡＰピクチャについての完全識別子値の一部分を表す、コーディングすることとを備える方法。
復号順で前記ＲＡＰピクチャに続く非ＲＡＰピクチャに対して、前記ＲＡＰピクチャの前記完全識別子値に基づいて、前記非ＲＡＰピクチャをインター予測するために使うことができる参照ピクチャを識別することをさらに備える、請求項１に記載の方法。
前記完全識別子値をコーディングすることが、前記ＲＡＰピクチャについての完全ピクチャオーダーカウント（ＰＯＣ）値をコーディングすることを備える、請求項１に記載の方法。
前記完全識別子値をコーディングすることが、前記ＲＡＰピクチャについての完全ピクチャオーダーカウント（ＰＯＣ）値の最上位ビット（ＭＳＢ）部分と、前記ＲＡＰピクチャについての前記完全ＰＯＣ値の最下位ビット（ＬＳＢ）部分とを別個にコーディングすることを備える、請求項１に記載の方法。
前記ＲＡＰピクチャが、クリーンランダムアクセス（ＣＲＡ）ピクチャ、リンク切断アクセス（ＢＬＡ）ピクチャ、および漸進的復号リフレッシュ（ＧＤＲ）ピクチャのうちの１つを備える、請求項１に記載の方法。
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングすることをさらに備え、
前記フラグの前記値が第１の値であるとき、どの長期参照ピクチャも前記現在のピクチャのインター予測に使うことができず、どの長期参照ピクチャも、復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができず、
前記フラグの前記値が第２の値であるとき、１つまたは複数の長期参照ピクチャを前記現在のピクチャのインター予測に使うことができ、復号順で前記現在のピクチャに続く前記ピクチャのインター予測に使うことができる、請求項１に記載の方法。
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングすることをさらに備え、
前記フラグの前記値が第１の値であるとき、パラメータセット中で指定されたすべての長期参照ピクチャを、前記現在のピクチャのインター予測に使うことができ、前記パラメータセット中で指定されないとともに復号順で前記現在のピクチャに先立つ長期参照ピクチャを、前記現在のピクチャおよび復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができず、
前記フラグの前記値が第２の値であるとき、パラメータセット中で指定された前記長期参照ピクチャすべてが、前記現在のピクチャのインター予測に使うことができるわけではなく、前記パラメータセット中で指定されないとともに復号順で前記現在のピクチャに先立つ長期参照ピクチャを、前記現在のピクチャおよび復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができる、請求項１に記載の方法。
前記フラグの前記値が前記第１の値であるとき、
前記パラメータセット中で指定された長期参照ピクチャを識別する、前記パラメータセット中への索引をコーディングすることなく、参照ピクチャセットの長期参照ピクチャサブセットを構成することをさらに備え、
前記長期参照ピクチャサブセットを構成することが、前記パラメータセット中で指定された前記長期参照ピクチャすべてを前記参照ピクチャサブセットに含めることを備える、請求項７に記載の方法。
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングすることをさらに備え、
前記フラグの前記値が第１の値であるとき、パラメータセット中で指定されたすべての長期参照ピクチャを、前記現在のピクチャのインター予測に使うことができ、
前記フラグの前記値が第２の値であるとき、前記パラメータセット中で指定された前記長期参照ピクチャすべてを前記現在のピクチャのインター予測に使うことができるわけではない、請求項１に記載の方法。
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングすることをさらに備え、
前記フラグの前記値が第１の値であるとき、どの長期参照ピクチャも前記現在のピクチャのインター予測に使うことができず、パラメータセット中で指定されたすべての長期参照ピクチャを、復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができ、
前記フラグの前記値が第２の値であるとき、前記長期参照ピクチャのうちの１つまたは複数を前記現在のピクチャのインター予測に使うことができ、前記パラメータセット中で指定された前記長期参照ピクチャのすべてを、復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができるわけではない、請求項１に記載の方法。
現在のピクチャについての参照ピクチャセットを導出することと、
現在のピクチャの時間的識別値を判断することと、
前記現在のピクチャの前記時間的識別値以下の時間的識別値を有するとともに前記参照ピクチャセット中で識別されない１つまたは複数のピクチャを、復号ピクチャバッファ（ＤＰＢ）から削除することとをさらに備え、
時間的識別値が前記現在のピクチャの前記時間的識別値以下である、前記参照ピクチャセット中で識別された１つまたは複数のピクチャに関して、前記現在のピクチャをインター予測することができる、請求項１に記載の方法。
前記１つまたは複数のピクチャが出力に必要とされないと判断することをさらに備え、
前記１つまたは複数のピクチャを削除することが、前記参照ピクチャセット中で識別されないとともに出力に必要とされない、前記現在のピクチャの前記時間的識別値以下の時間的識別値を有する前記１つまたは複数のピクチャを、ＤＰＢから削除することを備える、請求項１１に記載の方法。
前記１つまたは複数のピクチャを削除することが、前記現在のピクチャをインター予測するのに先立って、前記１つまたは複数のピクチャを削除することを備える、請求項１１に記載の方法。
ビデオデータをコーディングするためのデバイスであって、
瞬時デコーダリフレッシュ（ＩＤＲ）ピクチャではないランダムアクセスポイント（ＲＡＰ）ピクチャについての完全識別子値をコーディングすることと、
前記ＲＡＰピクチャについての前記完全識別子値に基づいて、非ＲＡＰピクチャについての部分的識別子値をコーディングすることであって、前記部分的識別子値が、前記非ＲＡＰピクチャについての完全識別子値の一部分を表す、コーディングすることとを行うように構成されたビデオコーダを備える、デバイス。
復号順で前記ＲＡＰピクチャに続く非ＲＡＰピクチャに対して、前記ビデオコーダが、
前記ＲＡＰピクチャの前記完全識別子値に基づいて、前記非ＲＡＰピクチャをインター予測するために使うことができる参照ピクチャを識別するように構成される、請求項１４に記載のデバイス。
前記完全識別子値をコーディングするために、前記ビデオコーダが、前記ＲＡＰピクチャについての完全ピクチャオーダーカウント（ＰＯＣ）値をコーディングするように構成される、請求項１４に記載のデバイス。
前記完全識別子値をコーディングするために、前記ビデオコーダが、前記ＲＡＰピクチャについての完全ピクチャオーダーカウント（ＰＯＣ）値の最上位ビット（ＭＳＢ）部分と、前記ＲＡＰピクチャについての前記完全ＰＯＣ値の最下位ビット（ＬＳＢ）部分とをコーディングするように構成される、請求項１４に記載のデバイス。
前記ＲＡＰピクチャが、クリーンランダムアクセス（ＣＲＡ）ピクチャ、リンク切断アクセス（ＢＬＡ）ピクチャ、および漸進的復号リフレッシュ（ＧＤＲ）ピクチャのうちの１つを備える、請求項１４に記載のデバイス。
前記ビデオコーダが、
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングするようにさらに構成され、
前記フラグの前記値が第１の値であるとき、どの長期参照ピクチャも前記現在のピクチャのインター予測に使うことができず、どの長期参照ピクチャも、復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができず、
前記フラグの前記値が第２の値であるとき、１つまたは複数の長期参照ピクチャを前記現在のピクチャのインター予測に使うことができ、復号順で前記現在のピクチャに続く前記ピクチャのインター予測に使うことができる、請求項１４に記載のデバイス。
前記ビデオコーダが、
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングするようにさらに構成され、
前記フラグの前記値が第１の値であるとき、パラメータセット中で指定されたすべての長期参照ピクチャを、前記現在のピクチャのインター予測に使うことができ、前記パラメータセット中で指定されないとともに復号順で前記現在のピクチャに先立つ長期参照ピクチャを、前記現在のピクチャおよび復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができず、
前記フラグの前記値が第２の値であるとき、パラメータセット中で指定された前記長期参照ピクチャすべてが、前記現在のピクチャのインター予測に使うことができるわけではなく、前記パラメータセット中で指定されないとともに復号順で前記現在のピクチャに先立つ長期参照ピクチャを、前記現在のピクチャおよび復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができる、請求項１４に記載のデバイス。
前記フラグの前記値が前記第１の値であるとき、前記ビデオコーダが、
前記パラメータセット中で指定された長期参照ピクチャを識別する、前記パラメータセット中への索引をコーディングすることなく、参照ピクチャセットの長期参照ピクチャサブセットを構成するようにさらに構成され、
前記長期参照ピクチャサブセットを構成するために、前記ビデオコーダが、前記パラメータセット中で指定された前記長期参照ピクチャすべてを前記参照ピクチャサブセットに含めるように構成される、請求項２０に記載のデバイス。
前記ビデオコーダが、
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングするようにさらに構成され、
前記フラグの前記値が第１の値であるとき、パラメータセット中で指定されたすべての長期参照ピクチャを、前記現在のピクチャのインター予測に使うことができ、
前記フラグの前記値が第２の値であるとき、前記パラメータセット中で指定された前記長期参照ピクチャすべてを前記現在のピクチャのインター予測に使うことができるわけではない、請求項１４に記載のデバイス。
前記ビデオコーダが、
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングするようにさらに構成され、
前記フラグの前記値が第１の値であるとき、どの長期参照ピクチャも前記現在のピクチャのインター予測に使うことができず、パラメータセット中で指定されたすべての長期参照ピクチャを、復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができ、
前記フラグの前記値が第２の値であるとき、前記長期参照ピクチャのうちの１つまたは複数を前記現在のピクチャのインター予測に使うことができ、前記パラメータセット中で指定された前記長期参照ピクチャのすべてを、復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができるわけではない、請求項１４に記載のデバイス。
前記ビデオコーダが、
現在のピクチャについての参照ピクチャセットを導出し、
現在のピクチャの時間的識別値を判断し、
前記現在のピクチャの前記時間的識別値以下の時間的識別値を有するとともに前記参照ピクチャセット中で識別されない１つまたは複数のピクチャを、復号ピクチャバッファ（ＤＰＢ）から削除するようにさらに構成され、
時間的識別値が前記現在のピクチャの前記時間的識別値以下である、前記参照ピクチャセット中で識別された１つまたは複数のピクチャに関して、前記現在のピクチャをインター予測することができる、請求項１４に記載のデバイス。
前記ビデオコーダが、
前記１つまたは複数のピクチャが出力に必要とされないと判断するようにさらに構成され、
前記ビデオコーダが、前記参照ピクチャセット中で識別されないとともに出力に必要とされない、前記現在のピクチャの前記時間的識別値以下の時間的識別値を有する前記１つまたは複数のピクチャを、ＤＰＢから削除するように構成される、請求項２４に記載のデバイス。
前記１つまたは複数のピクチャを削除するために、前記ビデオコーダが、前記現在のピクチャをインター予測するのに先立って前記１つまたは複数のピクチャを削除するように構成される、請求項２４に記載のデバイス。
前記ビデオコーダがビデオデコーダを備える、請求項１４に記載のデバイス。
前記ビデオコーダがビデオエンコーダを備える、請求項１４に記載のデバイス。
ワイヤレス通信デバイス、
マイクロプロセッサ、および
集積回路のうちの１つを備える、請求項１４に記載のデバイス。
命令を記憶したコンピュータ可読記憶媒体であって、前記命令が、実行されると、ビデオデータをコーディングするためのデバイスのプロセッサに、
瞬時デコーダリフレッシュ（ＩＤＲ）ピクチャではないランダムアクセスポイント（ＲＡＰ）ピクチャについての完全識別子値をコーディングすることと、
前記ＲＡＰピクチャについての前記完全識別子値に基づいて、部分的識別子値をコーディングすることであって、前記部分的識別子値が、前記非ＲＡＰピクチャについての完全識別子値の一部分を表す、コーディングすることとを行わせる、コンピュータ可読記憶媒体。
前記プロセッサに、
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングさせる命令をさらに備え、
前記フラグの前記値が第１の値であるとき、どの長期参照ピクチャも前記現在のピクチャのインター予測に使うことができず、どの長期参照ピクチャも、復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができず、
前記フラグの前記値が第２の値であるとき、１つまたは複数の長期参照ピクチャを前記現在のピクチャのインター予測に使うことができ、復号順で前記現在のピクチャに続く前記ピクチャのインター予測に使うことができる、請求項３０に記載のコンピュータ可読記憶媒体。
前記プロセッサに、
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングさせる命令をさらに備え、
前記フラグの前記値が第１の値であるとき、パラメータセット中で指定されたすべての長期参照ピクチャを、前記現在のピクチャのインター予測に使うことができ、前記パラメータセット中で指定されないとともに復号順で前記現在のピクチャに先立つ長期参照ピクチャを、前記現在のピクチャおよび復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができず、
前記フラグの前記値が第２の値であるとき、パラメータセット中で指定された前記長期参照ピクチャすべてが、前記現在のピクチャのインター予測に使うことができるわけではなく、前記パラメータセット中で指定されないとともに復号順で前記現在のピクチャに先立つ長期参照ピクチャを、前記現在のピクチャおよび復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができる、請求項３０に記載のコンピュータ可読記憶媒体。
前記プロセッサに、
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングさせる命令をさらに備え、
前記フラグの前記値が第１の値であるとき、パラメータセット中で指定されたすべての長期参照ピクチャを、前記現在のピクチャのインター予測に使うことができ、
前記フラグの前記値が第２の値であるとき、前記パラメータセット中で指定された前記長期参照ピクチャすべてを前記現在のピクチャのインター予測に使うことができるわけではない、請求項３０に記載のコンピュータ可読記憶媒体。
前記プロセッサに、
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングさせる命令をさらに備え、
前記フラグの前記値が第１の値であるとき、どの長期参照ピクチャも前記現在のピクチャのインター予測に使うことができず、パラメータセット中で指定されたすべての長期参照ピクチャを、復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができ、
前記フラグの前記値が第２の値であるとき、前記長期参照ピクチャのうちの１つまたは複数を前記現在のピクチャのインター予測に使うことができ、前記パラメータセット中で指定された前記長期参照ピクチャのすべてを、復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができるわけではない、請求項３０に記載のコンピュータ可読記憶媒体。
前記プロセッサに、
現在のピクチャについての参照ピクチャセットを導出させ、
現在のピクチャの時間的識別値を判断させ、
前記現在のピクチャの前記時間的識別値以下の時間的識別値を有するとともに前記参照ピクチャセット中で識別されない１つまたは複数のピクチャを、復号ピクチャバッファ（ＤＰＢ）から削除させる命令をさらに備え、
時間的識別値が前記現在のピクチャの前記時間的識別値以下である、前記参照ピクチャセット中で識別された１つまたは複数のピクチャに関して、前記現在のピクチャをインター予測することができる、請求項３０に記載のコンピュータ可読記憶媒体。
ビデオデータをコーディングするためのデバイスであって、
瞬時デコーダリフレッシュ（ＩＤＲ）ピクチャではないランダムアクセスポイント（ＲＡＰ）ピクチャについての完全識別子値をコーディングするための手段と、
前記ＲＡＰピクチャについての前記完全識別子値に基づいて、非ＲＡＰピクチャについての部分的識別子値をコーディングするための手段であって、前記部分的識別子値が、前記非ＲＡＰピクチャについての完全識別子値の一部分を表す、コーディングするための手段とを備えるデバイス。
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングするための手段をさらに備え、
前記フラグの前記値が第１の値であるとき、どの長期参照ピクチャも前記現在のピクチャのインター予測に使うことができず、どの長期参照ピクチャも、復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができず、
前記フラグの前記値が第２の値であるとき、１つまたは複数の長期参照ピクチャを前記現在のピクチャのインター予測に使うことができ、復号順で前記現在のピクチャに続く前記ピクチャのインター予測に使うことができる、請求項３６に記載のデバイス。
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングするための手段をさらに備え、
前記フラグの前記値が第１の値であるとき、パラメータセット中で指定されたすべての長期参照ピクチャを、前記現在のピクチャのインター予測に使うことができ、前記パラメータセット中で指定されないとともに復号順で前記現在のピクチャに先立つ長期参照ピクチャを、前記現在のピクチャおよび復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができず、
前記フラグの前記値が第２の値であるとき、パラメータセット中で指定された前記長期参照ピクチャすべてが、前記現在のピクチャのインター予測に使うことができるわけではなく、前記パラメータセット中で指定されないとともに復号順で前記現在のピクチャに先立つ長期参照ピクチャを、前記現在のピクチャおよび復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができる、請求項３６に記載のデバイス。
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングするための手段をさらに備え、
前記フラグの前記値が第１の値であるとき、パラメータセット中で指定されたすべての長期参照ピクチャを、前記現在のピクチャのインター予測に使うことができ、
前記フラグの前記値が第２の値であるとき、前記パラメータセット中で指定された前記長期参照ピクチャすべてを前記現在のピクチャのインター予測に使うことができるわけではない、請求項３６に記載のデバイス。
フラグの値を、スライスを含む現在のピクチャについての前記スライスのヘッダ中でコーディングするための手段をさらに備え、
前記フラグの前記値が第１の値であるとき、どの長期参照ピクチャも前記現在のピクチャのインター予測に使うことができず、パラメータセット中で指定されたすべての長期参照ピクチャを、復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができ、
前記フラグの前記値が第２の値であるとき、前記長期参照ピクチャのうちの１つまたは複数を前記現在のピクチャのインター予測に使うことができ、前記パラメータセット中で指定された前記長期参照ピクチャのすべてを、復号順で前記現在のピクチャに続くピクチャのインター予測に使うことができるわけではない、請求項３６に記載のデバイス。
現在のピクチャについての参照ピクチャセットを導出するための手段と、
現在のピクチャの時間的識別値を判断するための手段と、
前記現在のピクチャの前記時間的識別値以下の時間的識別値を有するとともに前記参照ピクチャセット中で識別されない１つまたは複数のピクチャを、復号ピクチャバッファ（ＤＰＢ）から削除するための手段とをさらに備え、
時間的識別値が前記現在のピクチャの前記時間的識別値以下である、前記参照ピクチャセット中で識別された１つまたは複数のピクチャに関して、前記現在のピクチャをインター予測することができる、請求項３６に記載のデバイス。