JP2016519508A

JP2016519508A - 高レベルシンタックス専用ｓｈｖｃにおける一般化残差予測ならびにそのシグナリングおよび管理

Info

Publication number: JP2016519508A
Application number: JP2016506589A
Authority: JP
Inventors: リ、シャン; ワン、イェ−クイ; チェン、イン; チェン、ジャンレ; ラマスブラモニアン、アダルシュ・クリシュナン; カークゼウィックズ、マルタ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-04-05
Filing date: 2014-04-02
Publication date: 2016-06-30
Anticipated expiration: 2034-04-02
Also published as: CN105052142B; US9380305B2; EP2982112A1; US20140301466A1; JP6352390B2; KR20150139554A; CN105052142A; WO2014165613A1

Abstract

いくつかの態様による、ビデオ情報を復号するための装置は、メモリユニットと、メモリユニットに動作可能に結合されたプロセッサとを含む。メモリユニットは、エンハンスメントレイヤの少なくとも１つの参照ピクチャリストを記憶するように構成され、少なくとも１つの参照ピクチャリストは、残差予測参照ピクチャの情報を備える。プロセッサは、残差予測参照ピクチャの生成についてのシグナリングされた情報を復号することと、生成される残差予測参照ピクチャが、当該残差予測参照ピクチャが生成されるエンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように、エンハンスメントレイヤ参照ピクチャおよび復号されたシグナリングされた情報に基づいて、残差予測参照ピクチャを生成することと、生成された残差予測参照ピクチャをエンハンスメントレイヤの少なくとも１つの参照ピクチャリストに記憶することと、を行うように構成される。【選択図】図１０

Description

本開示は、ＨＥＶＣ（高効率ビデオコーディング）などのアドバンスドビデオコーデックのコンテキストで、高レベルシンタックス専用のスケーラブルビデオコーディングおよび３Ｄビデオコーディングにおいて、一般化残差予測（ＧＲＰ）参照ピクチャをシグナリングおよび管理することに関する。

[0002]デジタルビデオ機能は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップまたはデスクトップコンピュータ、タブレットコンピュータ、電子ブックリーダ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、セルラーまたは衛星無線電話、いわゆる「スマートフォン」、ビデオ遠隔会議デバイス、ビデオストリーミングデバイスなどを含む、広範囲にわたるデバイスに組み込まれ得る。デジタルビデオデバイスは、ＭＰＥＧ−２、ＭＰＥＧ−４、ＩＴＵ−ＴＨ．２６３、ＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４，Ｐａｒｔ１０，ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ（ＡＶＣ）、現在開発中の高効率ビデオコーディング（ＨＥＶＣ：High Efficiency Video Coding）規格によって定義された規格、およびそのような規格の拡張に記載されているビデオコーディング技法など、ビデオコーディング技法を実装する。ビデオデバイスは、そのようなビデオコーディング技法を実装することによって、デジタルビデオ情報をより効率的に送信、受信、符号化、復号、および／または記憶し得る。

[0003]ビデオコーディング技法は、ビデオシーケンスに固有の冗長性を低減または除去するための空間的（イントラピクチャ）予測および／または時間的（インターピクチャ）予測を含む。ブロックベースのビデオコーディングの場合、ビデオスライス（たとえば、ビデオフレームまたはビデオフレームの一部分）が、ツリーブロック、コーディングユニット（ＣＵ）および／またはコーディングノードと呼ばれることもあるビデオブロックに区分され得る。ピクチャのイントラコーディングされた（Ｉ）スライス中のビデオブロックは、同じピクチャ中の近隣ブロック中の参照サンプルに対する空間的予測を使用して符号化される。ピクチャのインターコーディングされた（ＰまたはＢ）スライス中のビデオブロックは、同じピクチャ中の近隣ブロック中の参照サンプルに対する空間的予測、または他の参照ピクチャ中の参照サンプルに対する時間的予測を使用し得る。ピクチャはフレームと呼ばれることがあり、参照ピクチャは参照フレームと呼ばれることがある。

[0004]空間的予測または時間的予測は、コーディングされるべきブロックの予測ブロックを生じる。残差データは、コーディングされるべき元のブロックと予測ブロックとの間のピクセル差分を表す。インターコード化ブロックは、予測ブロックを形成する参照サンプルのブロックを指す動きベクトルと、コード化ブロックと予測ブロックとの間の差分を示す残差データとに従って符号化される。イントラコード化ブロックは、イントラコーディングモードと残差データとに従って符号化される。さらなる圧縮のために、残差データは、ピクセル領域から変換領域に変換されて、残差変換係数が得られ得、その残差変換係数は、次いで量子化され得る。量子化変換係数は、最初は２次元アレイで構成され、変換係数の１次元ベクトルを生成するために走査され得、なお一層の圧縮を達成するために、エントロピーコーディングが適用され得る。

[0005]本開示のシステム、方法、およびデバイスは、いくつかの革新的な態様をそれぞれ有し、それらの態様は、１つとして、本明細書に開示される望ましい属性を単独で担うものではない。

[0006]概して、いくつかの態様では、本開示は、エンハンスメントレイヤ参照ピクチャに基づいて、１つまたは複数の残差予測参照ピクチャを生成する技法を記載する。いくつかの態様によれば、生成された残差予測参照ピクチャは、ブロックレベルで重み付けされた一般化残差予測を適用する効果をもたらすことができる。生成された残差予測参照ピクチャは、それらが基づいているエンハンスメントレイヤからの参照ピクチャと同じ動きフィールドを共有することができる。生成された残差予測参照ピクチャは、それらが基づいているエンハンスメントレイヤ参照ピクチャと同じピクチャ順序カウント（ＰＯＣ）番号を有することもできる。残差予測参照ピクチャは、復号されるのではなく、ビットストリーム内で受信されるシグナリングされた情報に基づいて、生成され得る。本技法は、残差予測参照ピクチャをどのように生成するかに関する情報をシグナリングし得る。

[0007]いくつかの態様による、ビデオ情報を復号するための装置は、メモリユニットと、メモリユニットに動作可能に結合されたプロセッサとを含む。メモリユニットは、エンハンスメントレイヤの少なくとも１つの参照ピクチャリストを記憶するように構成され、少なくとも１つの参照ピクチャリストは、残差予測参照ピクチャの情報を備える。プロセッサは、残差予測参照ピクチャの生成についてのシグナリングされた情報を復号することと、生成される残差予測参照ピクチャが、当該残差予測参照ピクチャが生成されるエンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように、エンハンスメントレイヤ参照ピクチャおよび復号されたシグナリングされた情報に基づいて、残差予測参照ピクチャを生成することと、生成された残差予測参照ピクチャをエンハンスメントレイヤの少なくとも１つの参照ピクチャリストに記憶することと、を行うように構成される。

[0008]いくつかの態様による、ビデオ情報を符号化するための装置は、メモリユニットと、メモリユニットに動作可能に結合されたプロセッサとを含む。メモリユニットは、スケーラブルビデオコーディングにおいて、ビデオ情報の１つまたは複数のレイヤに関連する少なくとも１つの参照ピクチャリストを記憶するように構成される。プロセッサは、エンハンスメントレイヤに関連する、対応するエンハンスメントレイヤ参照ピクチャに少なくとも部分的に基づいて、残差予測参照ピクチャを生成することについての情報を符号化することと、残差予測参照ピクチャは、当該残差予測参照ピクチャが生成されるべきエンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように構成される、符号化された情報をビットストリーム内でシグナリングすることと、を行うように構成される。

[0009]１つまたは複数の例の詳細は、添付の図面および以下の説明に記載されている。他の特徴、目的、および利点は、その説明および図面から、ならびに特許請求の範囲から明らかになろう。

[0010]本開示で説明する態様による技法を利用し得る例示的なビデオ符号化および復号システムを示すブロック図。 [0011]本開示で説明する態様による技法を実装し得るビデオエンコーダの一例を示すブロック図。 [0012]本開示で説明する態様による技法を実装し得るビデオデコーダの一例を示すブロック図。 [0013]様々な寸法でスケーラビリティの一例を示す図。 [0014]スケーラブルビデオコーディング（ＳＶＣ）のコーディング構造の一例を示す図。 [0015]ＳＶＣのコンテキストでアクセスユニットを示す図。 [0016]一般化残差予測（ＧＲＰ）の単予測ケースを示す図。 [0017]本開示の態様による、残差予測参照ピクチャの生成を示すブロック図。 [0018]本開示の態様による、残差予測参照ピクチャを生成し、関連情報をシグナリングするための例示的な方法を示すフローチャート。 [0019]本開示の態様による、シグナリングされた情報に基づいて残差予測参照ピクチャを生成するための例示的な方法を示すフローチャート。 [0020]高度レイヤ間参照（ＥＩＬＲ）を生成することを示す図。

[0021]本開示で説明する技法は、概して、スケーラブルビデオコーディング（ＳＶＣ）および３Ｄビデオコーディングに関係する。たとえば、本技法は、高効率ビデオコーディング（ＨＥＶＣ）スケーラブルビデオコーディング（ＳＶＣ）拡張に関係し、それとともにまたはそれの中で使用され得る。ＨＥＶＣＳＶＣ拡張は、スケーラブルＨＥＶＣ（ＳＨＶＣ）と呼ばれることもある。ＳＶＣ拡張では、ビデオ情報の複数のレイヤがあり得る。最下位レベルにあるレイヤはベースレイヤ（ＢＬ：base layer）として働き、最上位にあるレイヤはエンハンストレイヤ（ＥＬ：enhanced layer）として働き得る。「エンハンストレイヤ」は「エンハンスメントレイヤ」と呼ばれることがあり、これらの用語は互換的に使用され得る。中間にあるすべてのレイヤは、ＥＬまたはＢＬの一方または両方として働き得る。たとえば、中間にあるレイヤは、ベースレイヤまたは介在エンハンスメントレイヤ（intervening enhancement layer）など、それの下のレイヤのためのＥＬであり、同時にそれの上のエンハンスメントレイヤのためのＢＬとして働き得る。

[0022]単に説明のために、本開示で説明する技法は、単に２つのレイヤ（たとえば、ベースレイヤなどの下位レベルレイヤと、エンハンストレイヤなどの上位レベルレイヤ）を含む例を用いて説明する。本開示で説明する例が、複数のベースレイヤおよびエンハンスメントレイヤをもつ例にも拡張され得ることを理解されたい。

[0023]ビデオコーディング規格には、ＩＴＵ−ＴＨ．２６１、ＩＳＯ／ＩＥＣＭＰＥＧ−１ビデオ、ＩＴＵ−ＴＨ．２６２またはＩＳＯ／ＩＥＣＭＰＥＧ−２ビデオ、ＩＴＵ−ＴＨ．２６３、ＩＳＯ／ＩＥＣＭＰＥＧ−４Ｖｉｓｕａｌ、および、それのスケーラブルビデオコーディング（ＳＶＣ）拡張とマルチビュービデオコーディング（ＭＶＣ）拡張とを含む（ＩＳＯ／ＩＥＣＭＰＥＧ−４ＡＶＣとしても知られる）ＩＴＵ−ＴＨ．２６４が含まれる。ＳＶＣおよびＭＶＣの最新のジョイントドラフトは、「ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇｆｏｒＧｅｎｅｒｉｃＡｕｄｉｏｖｉｓｕａｌＳｅｒｖｉｃｅｓ」、ＩＴＵ−Ｔ勧告Ｈ．２６４、２０１０年３月に記載されている。さらに、新しいビデオコーディング規格、すなわち、高効率ビデオコーディング（ＨＥＶＣ）が、ＩＴＵ−Ｔビデオコーディングエキスパートグループ（ＶＣＥＧ：Video Coding Experts Group）とＩＳＯ／ＩＥＣモーションピクチャエキスパートグループ（ＭＰＥＧ：Motion Picture Experts Group）とのジョイントコラボレーションチームオンビデオコーディング（ＪＣＴ−ＶＣ：Joint Collaboration Team on Video Coding）によって開発されている。バージョン７とバージョン８とを含むＨＥＶＣ仕様の様々な作業ドラフトが入手可能になっている。承認されたＨＥＣＶ仕様がｈｔｔｐ：／／ｗｗｗ．ｉｔｕ．ｉｎｔ／ｒｅｃ／Ｔ−ＲＥＣ−Ｈ．２６５−２０１３０４−Ｉで見られ、これらの各々は、その全体が参照により組み込まれる。

[0024]さらに、以下の刊行物の各々が参照によりその全体が本明細書に組み込まれる。以下の参照文献は、説明を容易にするために、本開示において参照文献に先行する対応する番号によって参照され得る。

［１］Ｗ．Ｊ．Ｈａｎ、Ｊ．Ｍｉｎ、Ｉ．Ｋ．Ｋｉｍ、Ｅ．Ａｌｓｈｉｎａ、Ａ．Ａｌｓｈｉｎ、Ｔ．Ｌｅｅ；Ｊ．Ｃｈｅｎ；Ｖ．Ｓｅｒｅｇｉｎ、Ｓ．Ｌｅｅ、Ｙ．ＭＨｏｎｇ、Ｍ．Ｓ．Ｃｈｅｏｎ、Ｎ．Ｓｈｌｙａｋｈｏｖ、Ｋ．ＭｃＣａｎｎ、Ｔ．Ｄａｖｉｅｓ、Ｊ．Ｈ．Ｐａｒｋ、「ＩｍｐｒｏｖｅｄＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎＥｆｆｉｃｉｅｎｃｙＴｈｒｏｕｇｈＦｌｅｘｉｂｌｅＵｎｉｔＲｅｐｒｅｓｅｎｔａｔｉｏｎａｎｄＣｏｒｒｅｓｐｏｎｄｉｎｇＥｘｔｅｎｓｉｏｎｏｆＣｏｄｉｎｇＴｏｏｌｓ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、第２０巻、第１２号、ページ１７０９〜１７２０、２０１０年１２月
［２］Ｂ．Ｂｒｏｓｓ、Ｗ．−Ｊ．Ｈａｎ、Ｊ．−Ｒ．Ｏｈｍ、Ｇ．Ｊ．Ｓｕｌｌｉｖａｎ、Ｔ．Ｗｉｅｇａｎｄ、Ｙ．−Ｋ．Ｗａｎｇ、「Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｖｉｄｅｏｃｏｄｉｎｇ（ＨＥＶＣ）ｔｅｘｔｓｐｅｃｉｆｉｃａｔｉｏｎｄｒａｆｔ１０（ｆｏｒＦＤＩＳ＆Ｃｏｎｓｅｎｔ）」、ＪｏｉｎｔＣｏｌｌａｂｏｒａｔｉｖｅＴｅａｍｏｎＶｉｄｅｏＣｏｄｉｎｇ（ＪＣＴ−ＶＣ）ｏｆＩＴＵ−ＴＳＧ１６ＷＰ３ａｎｄＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１、ＪＣＴＶＣ−Ｌ１００３、ジュネーブ、スイス、２０１３年１月
［３］Ｅ．Ｆｒａｎｃｏｉｓ、Ｊ．Ｔａｑｕｅｔ、Ｃ．Ｇｉｓｑｕｅｔ、Ｇ．Ｌａｒｏｃｈｅ、Ｐ．Ｏｎｎｏ、「Ｎｏｎ−ＴＥ３：ＳｉｍｐｌｉｆｉｃａｔｉｏｎｏｆＧｅｎｅｒａｌｉｚｅｄＲｅｓｉｄｕａｌＩｎｔｅｒ−ＬａｙｅｒＰｒｅｄｉｃｔｉｏｎ（ＧＲＩＬＰ）ｉｎＳＨＶＣ」、ｄｏｃ．ＪＣＴＶＣ−Ｌ０１０４、ＪｏｉｎｔＣｏｌｌａｂｏｒａｔｉｖｅＴｅａｍｏｎＶｉｄｅｏＣｏｄｉｎｇ（ＪＣＴ−ＶＣ）ｏｆＩＴＵ−ＴＳＧ１６ＷＰ３ａｎｄＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１の第１２回会議、ジュネーブ、スイス、２０１３年１月１４日〜２３日
［４］Ｒ．Ｓｊｏｅｂｅｒｇ、Ｙ．Ｃｈｅｎ、Ａ．Ｆｕｊｉｂａｙａｓｈｉ、Ｍ．Ｍ．Ｈａｎｎｕｋｓｅｌａ、Ｊ．Ｓａｍｕｅｌｓｓｏｎ、Ｔ．Ｋ．Ｔａｎ、Ｙ．−Ｋ．Ｗａｎｇ、およびＳ．Ｗｅｎｇｅｒ、「ＯｖｅｒｖｉｅｗｏｆＨＥＶＣＨｉｇｈ−ＬｅｖｅｌＳｙｎｔａｘａｎｄＲｅｆｅｒｅｎｃｅＰｉｃｔｕｒｅＭａｎａｇｅｍｅｎｔ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、第２２巻、第１２号、ページ１８５８〜１８７０、２０１２年１２月
［５］Ｊ．Ｃｈｅｎ、Ｊ．Ｂｏｙｃｅ、Ｙ．Ｙｅ、Ｍ．Ｍ．Ｈａｎｎｕｋｓｅｌａ、「ＳＨＶＣＷｏｒｋｉｎｇＤｒａｆｔ１」、ＪＣＴＶＣ−Ｌ１００８、２０１３年３月
［６］Ｊ．Ｃｈｅｎ、Ｙ．Ｙｅ、Ｊ．Ｂｏｙｃｅ、Ｍ．Ｍ．Ｈａｎｎｕｋｓｅｌａ、「ＳＨＶＣＴｅｓｔＭｏｄｅｌ１（ＳＨＭ１）」、ＪＣＴＶＣ−Ｌ１００７、２０１３年２月
［７］Ａ．Ａｍｉｎｌｏｕ、Ｊ．Ｌａｉｎｅｍａ、Ｋ．Ｕｇｕｒ、Ｍ．Ｈａｎｎｕｋｓｅｌａ、「Ｎｏｎ−ＣＥ３：ＥｎｈａｎｃｅｄｉｎｔｅｒｌａｙｅｒｒｅｆｅｒｅｎｃｅｐｉｃｔｕｒｅｆｏｒＲｅｆＩｄｘｂａｓｅｄｓｃａｌａｂｉｌｉｔｙ」、ＪＣＴＶＣ−Ｍ０１５５、２０１３年４月
［８］Ｙ．Ｈｅ、Ｙ．Ｙｅ、「Ｎｏｎ−ＳＣＥ３：ＩＬＲｅｎｈａｎｃｅｍｅｎｔｗｉｔｈｄｉｆｆｅｒｅｎｔｉａｌｃｏｄｉｎｇｆｏｒＲｅｆＩｄｘｆｒａｍｅｗｏｒｋ」、ＪＣＴＶＣ−Ｍ０１８９、２０１３年４月
[0025]スケーラブルビデオコーディング（ＳＶＣ）は、（信号対雑音比（ＳＮＲ）とも呼ばれる）品質スケーラビリティ、空間スケーラビリティ、および／または時間スケーラビリティを提供するために使用され得る。強調されたレイヤは、ベースレイヤとは異なる空間解像度を有し得る。たとえば、ＥＬとＢＬとの間の空間アスペクト比は、１．０、１．５、２．０または他の異なる比であり得る。言い換えれば、ＥＬの空間アスペクトは、ＢＬの空間アスペクトの１．０倍、１．５倍、または２．０倍に等しくなり得る。いくつかの例では、ＥＬのスケーリングファクタはＢＬよりも大きくなり得る。たとえば、ＥＬ中のピクチャのサイズは、ＢＬ中のピクチャのサイズよりも大きくなり得る。このようにして、限定はしないが、ＥＬの空間解像度がＢＬの空間解像度よりも大きくなることが可能であり得る。

[0026]一般化残差予測（ＧＲＰ）のフレームワークは、それらの開示が参照によりそれらの全体で本明細書に組み込まれる、２０１２年７月１０日に出願された米国仮出願第６１／６７０，０７５号、２０１２年９月２７日に出願された米国仮出願第６１／７０６，６９２号、２０１３年７月２日に出願された米国出願第１３／９３３，５８８号、２０１２年８月７日に出願された米国仮出願第６１／６８０，５２２号、および２０１３年８月２日に出願された米国出願第１３／９５７，８４１号に記載されている。ＧＲＰのフレームワークは、参照レイヤの残差に重み係数を適用することができる。レイヤ間残差予測は、現在のビデオユニット、たとえば、ブロックまたはフレームを予測する際に参照レイヤの残差を使用する。一般化残差予測では、現在のビデオユニットのレイヤ間残差予測は、現在のレイヤの残差、現在のレイヤの時間予測または空間予測、および参照レイヤの残差に基づき得る。参照レイヤの残差は、重み係数によって調整され得る。重み係数を適宜に調整することによって、残差予測の有効なコーディング利得がもたらされ得る。重み係数が１に設定されるとき、ＧＲＰは従来の残差予測に適応することができる。

[0027]しかしながら、高レベルシンタックス専用ＳＨＶＣ（high-level syntax only SHVC）では、ＨＥＶＣシングルレイヤコーディングと比較されると、新しいブロックレベルのコーディングツールは存在せず、したがって、ＧＲＰはブロックレベルで提供され得ない。高レベルシンタックス専用ＳＨＶＣでは、スライスおよびその上のレベルのシンタックス変更、ならびにピクチャのフィルタリングおよび／またはアップサンプリングを含むピクチャレベルの動作のみが許可される。

[0028]本開示に記載される技法は、高レベルシンタックス専用ＳＨＶＣに重み付けされた一般化残差予測を組み込むことに対処し得る。本開示に記載される技法は、エンハンスメントレイヤ参照ピクチャに基づいて、１つまたは複数の残差予測参照ピクチャを生成することができる。残差予測参照ピクチャは、「ＧＲＰ参照ピクチャ」と呼ばれることもある。いくつかの態様によれば、生成された残差予測参照ピクチャは、ブロックレベルで重み付けされた一般化残差予測を適用する効果をもたらすことができる。たとえば、残差予測参照ピクチャは、ＧＲＰで使用される重み係数を組み込むことができる。生成された残差予測参照ピクチャは、それらが基づいているエンハンスメントレイヤからの参照ピクチャと同じ動きフィールドを共有することができる。生成された残差予測参照ピクチャは、それらが基づいているエンハンスメントレイヤ参照ピクチャと同じピクチャ順序カウント（ＰＯＣ）番号を有することもできる。残差予測参照ピクチャは、復号されるのではなく、ビットストリーム内で受信されるシグナリングされた情報に基づいて、生成され得る。本技法は、残差予測参照ピクチャをどのように生成するかをシグナリングすることができる。一般に、ＳＨＶＣは、ＰＯＣ番号にただ１つの参照ピクチャを提供する。複数の参照ピクチャが同じＰＯＣに提供され得るので、本技法は、どの参照ピクチャが使用されるべきかをシグナリングする様々な方法を提供することもできる。

[0029]添付の図面を参照しながら新規のシステム、装置、および方法の様々な態様について以下でより十分に説明する。ただし、本開示は、多くの異なる形態で実施され得、本開示全体にわたって提示される任意の特定の構造または機能に限定されるものと解釈されるべきではない。むしろ、これらの態様は、本開示が周到で完全になり、本開示の範囲を当業者に十分に伝えるように与えられる。本明細書の教示に基づいて、本開示の範囲は、本発明の他の態様とは無関係に実装されるにせよ、または本開示の他の態様と組み合わせて実装されるにせよ、本明細書で開示する新規のシステム、装置、および方法のいかなる態様をもカバーするものであることを、当業者なら諒解されたい。たとえば、本明細書に記載の態様の複数を使用しても、装置は実装され得、または方法は実施され得る。さらに、本発明の範囲は、本明細書に記載の発明の様々な態様に加えてまたはそれらの態様以外に、他の構造、機能、または構造および機能を使用して実施されるそのような装置またはそのような方法をカバーするものとする。本明細書で開示する任意の態様が請求項の１つまたは複数の要素によって実施され得ることを理解されたい。

[0030]本明細書では特定の態様について説明するが、これらの態様の多くの変形および置換は本開示の範囲内に入る。好ましい態様のいくつかの利益および利点について説明するが、本開示の範囲は特定の利益、使用、または目的に限定されるものではない。むしろ、本開示の態様は、様々なワイヤレス技術、システム構成、ネットワーク、および伝送プロトコルに広く適用可能であるものとし、それらのいくつかを例として、図および好適な態様についての以下の説明において示す。発明を実施するための形態および図面は、本開示を限定するものではなく説明するものにすぎず、本開示の範囲は添付の特許請求の範囲およびそれの均等物によって定義される。

[0031]図１は、本開示で説明する態様による技法を利用し得る例示的なビデオ符号化および復号システムを示すブロック図である。図１に示すように、システム１０は、宛先デバイス１４によって後で復号されるべき符号化ビデオデータを与えるソースデバイス１２を含む。特に、ソースデバイス１２は、コンピュータ可読媒体１６を介してビデオデータを宛先デバイス１４に与える。ソースデバイス１２および宛先デバイス１４は、デスクトップコンピュータ、ノートブック（たとえば、ラップトップ）コンピュータ、タブレットコンピュータ、セットトップボックス、いわゆる「スマート」フォンなどの電話ハンドセット、いわゆる「スマート」パッド、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイスなどを含む、広範囲にわたるデバイスのいずれかを備え得る。場合によっては、ソースデバイス１２および宛先デバイス１４は、ワイヤレス通信のために装備され得る。

[0032]宛先デバイス１４は、コンピュータ可読媒体１６を介して復号されるべき符号化ビデオデータを受信し得る。コンピュータ可読媒体１６は、ソースデバイス１２から宛先デバイス１４に符号化されたビデオデータを移動させることができる任意のタイプの媒体またはデバイスを備え得る。一例では、コンピュータ可読媒体１６は、ソースデバイス１２が、符号化ビデオデータを宛先デバイス１４にリアルタイムで直接送信することを可能にするための通信媒体を備え得る。符号化ビデオデータは、ワイヤレス通信プロトコルなどの通信規格に従って変調され、宛先デバイス１４に送信され得る。通信媒体は、無線周波数（ＲＦ）スペクトルまたは１つもしくは複数の物理伝送線路など、任意のワイヤレスまたはワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなど、パケットベースネットワークの一部を形成し得る。通信媒体は、ソースデバイス１２から宛先デバイス１４への通信を可能にするために有用であり得るルータ、スイッチ、基地局、または任意の他の機器を含み得る。

[0033]いくつかの例では、符号化データは、出力インターフェース２２からストレージデバイスに出力され得る。同様に、符号化データは、入力インターフェースによってストレージデバイスからアクセスされ得る。ストレージデバイスは、ハードドライブ、ブルーレイ（登録商標）ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、フラッシュメモリ、揮発性もしくは不揮発性メモリ、または符号化ビデオデータを記憶するための任意の他の好適なデジタル記憶媒体など、様々な分散されたまたはローカルにアクセスされるデータ記憶媒体のいずれかを含み得る。さらなる一例では、ストレージデバイスは、ソースデバイス１２によって生成された符号化ビデオを記憶し得るファイルサーバまたは別の中間ストレージデバイスに対応し得る。宛先デバイス１４は、ストリーミングまたはダウンロードを介してストレージデバイスから、記憶されたビデオデータにアクセスし得る。ファイルサーバは、符号化ビデオデータを記憶し、その符号化ビデオデータを宛先デバイス１４に送信することが可能な任意のタイプのサーバであり得る。例示的なファイルサーバは、（たとえば、ウェブサイトのための）ウェブサーバ、ＦＴＰサーバ、ネットワーク接続ストレージ（ＮＡＳ）デバイス、またはローカルディスクドライブを含む。宛先デバイス１４は、インターネット接続を含む、任意の標準のデータ接続を介して符号化ビデオデータにアクセスし得る。これは、ファイルサーバに記憶された符号化ビデオデータにアクセスするのに好適であるワイヤレスチャネル（たとえば、Ｗｉ−Ｆｉ（登録商標）接続）、ワイヤード接続（たとえば、ＤＳＬ、ケーブルモデムなど）、または両方の組合せを含み得る。ストレージデバイスからの符号化ビデオデータの送信は、ストリーミング送信、ダウンロード送信、またはそれらの組合せであり得る。

[0034]本開示の技法は、必ずしもワイヤレス適用例または設定に限定されるとは限らない。本技法は、オーバージエアテレビジョン放送、ケーブルテレビジョン送信、衛星テレビジョン送信、動的適応ストリーミングオーバーＨＴＴＰ（ＤＡＳＨ：dynamic adaptive streaming over HTTP）などのインターネットストリーミングビデオ送信、データ記憶媒体上に符号化されたデジタルビデオ、データ記憶媒体に記憶されたデジタルビデオの復号、または他の適用例など、様々なマルチメディア適用例のいずれかをサポートするビデオコーディングに適用され得る。いくつかの例では、システム１０は、ビデオストリーミング、ビデオ再生、ビデオブロードキャスティング、および／またはビデオテレフォニーなどの適用例をサポートするために、一方向または双方向のビデオ送信をサポートするように構成され得る。

[0035]図１の例では、ソースデバイス１２は、ビデオソース１８と、ビデオエンコーダ２０と、出力インターフェース２２とを含む。宛先デバイス１４は、入力インターフェース２８と、ビデオデコーダ３０と、ディスプレイデバイス３２とを含む。本開示によれば、ソースデバイス１２のビデオエンコーダ２０は、複数の規格または規格拡張に準拠するビデオデータを含むビットストリームをコーディングするための技法を適用するように構成され得る。他の例では、ソースデバイスおよび宛先デバイスは他の構成要素または構成を含み得る。たとえば、ソースデバイス１２は、外部カメラなど、外部ビデオソース１８からビデオデータを受信し得る。同様に、宛先デバイス１４は、内蔵ディスプレイデバイスを含むのではなく、外部ディスプレイデバイスとインターフェースし得る。

[0036]図１の図示のシステム１０は一例にすぎない。現在のブロックの動きベクトル予測子の候補リストの候補を判断するための技法は、任意のデジタルビデオ符号化および／または復号デバイスによって実行され得る。概して、本開示の技法はビデオ符号化デバイスによって実行されるが、本技法は、一般に「コーデック」と呼ばれるビデオエンコーダ／デコーダによっても実行され得る。さらに、本開示の技法は、ビデオプリプロセッサによっても実行され得る。ソースデバイス１２および宛先デバイス１４は、ソースデバイス１２が宛先デバイス１４に送信するためのコード化ビデオデータを生成するような、コーディングデバイスの例にすぎない。いくつかの例では、デバイス１２、１４は、デバイス１２、１４の各々がビデオ符号化構成要素とビデオ復号構成要素とを含むように、実質的に対称的に動作し得る。したがって、システム１０は、たとえば、ビデオストリーミング、ビデオ再生、ビデオブロードキャストまたはビデオ電話のための、ビデオデバイス１２とビデオデバイス１４との間の一方向または双方向のビデオ送信をサポートし得る。

[0037]ソースデバイス１２のビデオソース１８は、ビデオカメラなどのビデオキャプチャデバイス、あらかじめキャプチャされたビデオを含んでいるビデオアーカイブ、および／またはビデオコンテンツプロバイダからビデオを受信するためのビデオフィードインターフェースを含み得る。さらなる代替として、ビデオソース１８は、ソースビデオとしてのコンピュータグラフィックスベースのデータ、またはライブビデオとアーカイブビデオとコンピュータ生成ビデオとの組合せを生成し得る。場合によっては、ビデオソース１８がビデオカメラである場合、ソースデバイス１２および宛先デバイス１４は、いわゆるカメラフォンまたはビデオフォンを形成し得る。ただし、上述のように、本開示で説明する技法は、概してビデオコーディングに適用可能であり得、ワイヤレスおよび／またはワイヤード適用例に適用され得る。各場合において、キャプチャされたビデオ、以前にキャプチャされたビデオ、またはコンピュータ生成ビデオは、ビデオエンコーダ２０によって符号化され得る。符号化されたビデオ情報は、次いで、出力インターフェース２２によってコンピュータ可読媒体１６上に出力され得る。

[0038]コンピュータ可読媒体１６は、ワイヤレスブロードキャストまたはワイヤードネットワーク送信などの一時媒体、またはハードディスク、フラッシュドライブ、コンパクトディスク、デジタルビデオディスク、ブルーレイディスク、または他のコンピュータ可読媒体などの記憶媒体（すなわち、非一時的記憶媒体）を含み得る。いくつかの例では、ネットワークサーバ（図示せず）は、ソースデバイス１２から符号化ビデオデータを受信し、たとえば、ネットワーク送信、直接ワイヤード通信などを介して、その符号化ビデオデータを宛先デバイス１４に与え得る。同様に、ディスクスタンピング設備など、媒体製造設備のコンピューティングデバイスは、ソースデバイス１２から符号化ビデオデータを受信し、その符号化ビデオデータを含んでいるディスクを生成し得る。したがって、様々な例では、コンピュータ可読媒体１６は、様々な形態の１つまたは複数のコンピュータ可読媒体を含むと理解され得る。

[0039]宛先デバイス１４の入力インターフェース２８は、コンピュータ可読媒体１６から情報を受信する。コンピュータ可読媒体１６の情報は、ビデオエンコーダ２０によって定義され、またビデオデコーダ３０によって使用される、ブロックおよび他のコード化ユニット、たとえば、ＧＯＰの特性および／または処理を記述するシンタックス要素を含む、シンタックス情報を含み得る。ディスプレイデバイス３２は、復号されたビデオデータをユーザに対して表示し、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、または別のタイプのディスプレイデバイスなど、様々なディスプレイデバイスのいずれかを備え得る。

[0040]ビデオエンコーダ２０およびビデオデコーダ３０は、現在開発中の高効率ビデオコーディング（ＨＥＶＣ）規格などのビデオコーディング規格に従って動作し得、ＨＥＶＣテストモデル（ＨＭ）に準拠し得る。代替的に、ビデオエンコーダ２０およびビデオデコーダ３０は、代替的にＭＰＥＧ−４，Ｐａｒｔ１０，ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ（ＡＶＣ）と呼ばれるＩＴＵ−ＴＨ．２６４規格など、他のプロプライエタリ規格もしくは業界規格、またはそのような規格の拡張に従って動作し得る。ただし、本開示の技法は、限定はしないが、上記に記載した規格のいずれかを含む特定のコーディング規格に限定されない。ビデオコーディング規格の他の例としては、ＭＰＥＧ−２およびＩＴＵ−ＴＨ．２６３がある。図１には示されていないが、いくつかの態様では、ビデオエンコーダ２０およびビデオデコーダ３０は、それぞれオーディオエンコーダおよびオーディオデコーダと統合され得、適切なＭＵＸ−ＤＥＭＵＸユニット、または他のハードウェアおよびソフトウェアを含んで、共通のデータストリームまたは別個のデータストリーム中のオーディオとビデオの両方の符号化を処理し得る。適用可能な場合、ＭＵＸ−ＤＥＭＵＸユニットは、ＩＴＵＨ．２２３マルチプレクサプロトコル、またはユーザデータグラムプロトコル（ＵＤＰ）などの他のプロトコルに準拠し得る。

[0041]ビデオエンコーダ２０およびビデオデコーダ３０はそれぞれ、１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアまたはそれらの任意の組合せなど、様々な好適なエンコーダ回路のいずれかとして実装され得る。本技法が部分的にソフトウェアで実装されるとき、デバイスは、好適な非一時的コンピュータ可読媒体にソフトウェアの命令を記憶し、１つまたは複数のプロセッサを使用してその命令をハードウェアで実行して、本開示の技法を実行し得る。ビデオエンコーダ２０およびビデオデコーダ３０の各々は１つまたは複数のエンコーダまたはデコーダ中に含まれ得、そのいずれも、それぞれのデバイスにおいて複合エンコーダ／デコーダ（コーデック）の一部として統合され得る。ビデオエンコーダ２０および／またはビデオデコーダ３０を含むデバイスは、集積回路、マイクロプロセッサ、および／またはセルラー電話などのワイヤレス通信デバイスを備え得る。

[0042]ＪＣＴ−ＶＣは、ＨＥＶＣ規格の開発に取り組んでいる。ＨＥＶＣ規格化の取り組みは、ＨＥＶＣテストモデル（ＨＭ）と呼ばれるビデオコーディングデバイスの発展的モデルに基づく。ＨＭは、たとえば、ＩＴＵ−ＴＨ．２６４／ＡＶＣに従う既存のデバイスに対してビデオコーディングデバイスのいくつかの追加の能力を仮定する。たとえば、Ｈ．２６４は９つのイントラ予測符号化モードを提供するが、ＨＭは３３個ものイントラ予測符号化モードを提供し得る。

[0043]概して、ＨＭの作業モデルは、ビデオフレームまたはピクチャが、ルーマサンプルとクロマサンプルの両方を含む一連のツリーブロックまたは最大コーディングユニット（ＬＣＵ：largest coding unit）に分割され得ることを記載している。ビットストリーム内のシンタックスデータが、ピクセルの数に関して最大コーディングユニットであるＬＣＵのサイズを定義し得る。スライスは、コーディング順序でいくつかの連続するツリーブロックを含む。ビデオフレームまたはピクチャは、１つまたは複数のスライスに区分され得る。各ツリーブロックは、４分木に従ってコーディングユニット（ＣＵ）に分割され得る。概して、４分木データ構造はＣＵごとに１つのノードを含み、ルートノードはツリーブロックに対応する。ＣＵが４つのサブＣＵに分割された場合、ＣＵに対応するノードは４つのリーフノードを含み、リーフノードの各々はサブＣＵのうちの１つに対応する。

[0044]４分木データ構造の各ノードは、対応するＣＵのシンタックスデータを与え得る。たとえば、４分木のノードは、そのノードに対応するＣＵがサブＣＵに分割されるかどうかを示す分割フラグを含み得る。ＣＵのシンタックス要素は、再帰的に定義され得、かつＣＵがサブＣＵに分割されるかどうかに依存し得る。ＣＵがさらに分割されない場合、そのＣＵはリーフＣＵと呼ばれる。本開示では、元のリーフＣＵの明示的分割が存在しない場合でも、リーフＣＵの４つのサブＣＵをリーフＣＵとも呼ぶ。たとえば、１６×１６サイズのＣＵがさらに分割されない場合、この１６×１６ＣＵが決して分割されなくても、４つの８×８サブＣＵをリーフＣＵとも呼ぶ。

[0045]ＣＵは、ＣＵがサイズの差異を有さないことを除いて、Ｈ．２６４規格のマクロブロックと同様の目的を有する。たとえば、ツリーブロックは、４つの子ノード（サブＣＵとも呼ばれる）に分割され得、各子ノードは、今度は親ノードとなり、別の４つの子ノードに分割され得る。４分木のリーフノードと呼ばれる、最後の分割されていない子ノードは、リーフＣＵとも呼ばれるコーディングノードを備える。コード化ビットストリームに関連するシンタックスデータは、最大ＣＵ深さと呼ばれる、ツリーブロックが分割され得る最大回数を定義し得、また、コーディングノードの最小サイズを定義し得る。それに応じて、ビットストリームは最小コーディングユニット（ＳＣＵ：smallest coding unit）をも定義し得る。本開示では、ＨＥＶＣのコンテキストにおけるＣＵ、ＰＵ、もしくはＴＵ、または他の規格のコンテキストにおける同様のデータ構造（たとえば、Ｈ．２６４／ＡＶＣにおけるマクロブロックおよびそれのサブブロック）のいずれかを指すために「ブロック」という用語を使用する。

[0046]ＣＵは、コーディングノードと、コーディングノードに関連する予測ユニット（ＰＵ：prediction unit）および変換ユニット（ＴＵ：transform unit）とを含む。ＣＵのサイズは、コーディングノードのサイズに対応し、かつ形状が方形でなければならない。ＣＵのサイズは、８×８ピクセルから最大６４×６４以上のピクセルを有するツリーブロックのサイズまでに及び得る。各ＣＵは、１つまたは複数のＰＵと、１つまたは複数のＴＵとを含み得る。ＣＵに関連するシンタックスデータは、たとえば、ＣＵを１つまたは複数のＰＵに区分することを記述し得る。区分モードは、ＣＵが、スキップモード符号化もしくはダイレクトモード符号化されるか、イントラ予測モード符号化されるか、またはインター予測モード符号化されるかによって異なり得る。ＰＵは、形状が非方形になるように区分され得る。ＣＵに関連するシンタックスデータは、たとえば、４分木に従って、ＣＵを１つまたは複数のＴＵに区分することも記述し得る。ＴＵは、形状が方形または非方形（たとえば、矩形）であり得る。

[0047]ＨＥＶＣ規格は、ＣＵごとに異なり得るＴＵに従う変換を可能にする。ＴＵは、一般に、区分されたＬＣＵについて定義された所与のＣＵ内のＰＵのサイズに基づいてサイズ決定されるが、常にそうであるとは限らない。ＴＵは、一般にＰＵと同じサイズであるかまたはＰＵよりも小さい。いくつかの例では、ＣＵに対応する残差サンプルは、「残差クワッドツリー」（ＲＱＴ：residual quad tree）として知られるクワッドツリー構造を使用して、より小さいユニットに再分割され得る。ＲＱＴのリーフノードは変換ユニット（ＴＵ）と呼ばれることがある。ＴＵに関連するピクセル差分値は、量子化され得る変換係数を生成するために変換され得る。

[0048]リーフＣＵは、１つまたは複数の予測ユニット（ＰＵ）を含み得る。概して、ＰＵは、対応するＣＵの全部または一部分に対応する空間的エリアを表し、そのＰＵの参照サンプルを取り出すためのデータを含み得る。その上、ＰＵは、予測に関係するデータを含む。たとえば、ＰＵがイントラモード符号化されるとき、ＰＵについてのデータは、ＰＵに対応するＴＵについてのイントラ予測モードを記述するデータを含み得る残差４分木（ＲＱＴ）中に含まれ得る。別の例として、ＰＵがインターモード符号化されるとき、ＰＵは、ＰＵのための１つまたは複数の動きベクトルを定義するデータを含み得る。ＰＵの動きベクトルを定義するデータは、たとえば、動きベクトルの水平成分、動きベクトルの垂直成分、動きベクトルの解像度（たとえば、１／４ピクセル精度または１／８ピクセル精度）、動きベクトルが指す参照ピクチャ、および／または動きベクトルの参照ピクチャリスト（たとえば、リスト０、リスト１、またはリストＣ）を記述し得る。

[0049]１つまたは複数のＰＵを有するリーフＣＵはまた、１つまたは複数の変換ユニット（ＴＵ）を含み得る。変換ユニットは、上記で説明したように、（ＴＵ４分木構造とも呼ばれる）ＲＱＴを使用して指定され得る。たとえば、分割フラグは、リーフＣＵが４つの変換ユニットに分割されるかどうかを示し得る。次いで、各変換ユニットは、さらに、さらなるサブＴＵに分割され得る。ＴＵがさらに分割されないとき、そのＴＵはリーフＴＵと呼ばれることがある。概して、イントラコーディングの場合、リーフＣＵに属するすべてのリーフＴＵは同じイントラ予測モードを共有する。すなわち、概して、リーフＣＵのすべてのＴＵの予測値を計算するために同じイントラ予測モードが適用される。イントラコーディングの場合、ビデオエンコーダは、イントラ予測モードを使用して各リーフＴＵの残差値をＴＵに対応するＣＵの一部と元のブロックとの間の差分として計算し得る。ＴＵは、必ずしもＰＵのサイズに制限されるとは限らない。したがって、ＴＵはＰＵよりも大きくまたは小さくなり得る。イントラコーディングの場合、ＰＵは、同じＣＵの対応するリーフＴＵとコロケートされ得る。いくつかの例では、リーフＴＵの最大サイズは、対応するリーフＣＵのサイズに対応し得る。

[0050]さらに、リーフＣＵのＴＵはまた、残差４分木（ＲＱＴ）と呼ばれる、それぞれの４分木データ構造に関連付けられ得る。すなわち、リーフＣＵは、リーフＣＵがどのようにＴＵに区分されるかを示す４分木を含み得る。ＴＵ４分木のルートノードは概してリーフＣＵに対応し、ＣＵ４分木のルートノードは概してツリーブロック（またはＬＣＵ）に対応する。分割されないＲＱＴのＴＵはリーフＴＵと呼ばれる。概して、本開示では、特に明記しない限り、リーフＣＵおよびリーフＴＵに言及するためにそれぞれＣＵおよびＴＵという用語を使用する。

[0051]ビデオシーケンスは、一般に、一連のビデオフレームまたはピクチャを含む。ピクチャグループ（ＧＯＰ）は、概して、ビデオピクチャのうちの一連の１つまたは複数を備える。ＧＯＰは、ＧＯＰ中に含まれるいくつかのピクチャを記述するシンタックスデータを、ＧＯＰのヘッダ中、ピクチャのうちの１つまたは複数のヘッダ中、または他の場所に含み得る。ピクチャの各スライスは、それぞれのスライスの符号化モードを記述するスライスシンタックスデータを含み得る。ビデオエンコーダ２０は、一般に、ビデオデータを符号化するために個々のビデオスライス内のビデオブロックに対して動作する。ビデオブロックは、ＣＵ内のコーディングノードに対応し得る。ビデオブロックは、固定サイズまたは可変サイズを有し得、かつ指定のコーディング規格に応じてサイズが異なり得る。

[0052]一例として、ＨＭは、様々なＰＵサイズでの予測をサポートする。特定のＣＵのサイズが２Ｎ×２Ｎであると仮定すると、ＨＭは、２Ｎ×２ＮまたはＮ×ＮのＰＵサイズでのイントラ予測をサポートし、２Ｎ×２Ｎ、２Ｎ×Ｎ、Ｎ×２Ｎ、またはＮ×Ｎの対称的なＰＵサイズでのインター予測をサポートする。ＨＭはまた、２Ｎ×ｎＵ、２Ｎ×ｎＤ、ｎＬ×２Ｎ、およびｎＲ×２ＮのＰＵサイズでのインター予測のための非対称区分をサポートする。非対称区分では、ＣＵの一方向は区分されないが、他の方向は２５％と７５％とに区分される。２５％の区分に対応するＣＵの部分は、「ｎ」とその後ろに付く「Ｕｐ」、「Ｄｏｗｎ」、「Ｌｅｆｔ」、または「Ｒｉｇｈｔ」という表示によって示される。したがって、たとえば、「２Ｎ×ｎＵ」は、上部の２Ｎ×０．５ＮＰＵと下部の２Ｎ×１．５ＮＰＵとで水平方向に区分された２Ｎ×２ＮＣＵを指す。

[0053]本開示では、「Ｎ×Ｎ（NxN）」および「Ｎ×Ｎ（N by N）」は、垂直寸法および水平寸法に関するビデオブロックのピクセル寸法、たとえば、１６×１６（16x16）ピクセルまたは１６×１６（16 by 16）ピクセルを指すために互換的に使用され得る。概して、１６×１６ブロックは、垂直方向に１６ピクセルを有し（ｙ＝１６）、水平方向に１６ピクセルを有する（ｘ＝１６）。同様に、Ｎ×Ｎブロックは、概して、垂直方向にＮピクセルを有し、水平方向にＮピクセルを有し、ただし、Ｎは非負整数値を表す。ブロック中のピクセルは行と列で構成され得る。さらに、ブロックは、必ずしも、水平方向に垂直方向と同じ数のピクセルを有する必要はない。たとえば、ブロックはＮ×Ｍピクセルを備え得、ただし、Ｍは必ずしもＮに等しいとは限らない。

[0054]ＣＵのＰＵを使用したイントラ予測コーディングまたはインター予測コーディングの後、ビデオエンコーダ２０は、ＣＵのＴＵのための残差データを計算し得る。ＰＵは、（ピクセル領域とも呼ばれる）空間領域において予測ピクセルデータを生成する方法またはモードを記述するシンタックスデータを備え得、ＴＵは、変換、たとえば、残差ビデオデータへの離散コサイン変換（ＤＣＴ）、整数変換、ウェーブレット変換、または概念的に同様の変換の適用後に、変換領域において係数を備え得る。残差データは、符号化されていないピクチャのピクセルと、ＰＵに対応する予測値との間のピクセル差分に対応し得る。ビデオエンコーダ２０は、ＣＵのための残差データを含むＴＵを形成し、次いで、ＴＵを変換して、ＣＵの変換係数を生成し得る。

[0055]変換係数を生成するための任意の変換の後に、ビデオエンコーダ２０は、変換係数の量子化を実行し得る。一般に、量子化は、係数を表すために使用されるデータの量をできるだけ低減するために変換係数が量子化され、さらなる圧縮を行うプロセスを指す。量子化プロセスは、係数の一部または全部に関連するビット深度を低減し得る。たとえば、量子化中にｎビット値がｍビット値に切り捨てられ得、ただし、ｎはｍよりも大きい。

[0056]量子化の後に、ビデオエンコーダは、変換係数を走査して、量子化変換係数を含む２次元行列から１次元ベクトルを生成し得る。走査は、より高いエネルギー（したがってより低い周波数）の係数をアレイの前方に配置し、より低いエネルギー（したがってより高い周波数）の係数をアレイの後方に配置するように設計され得る。いくつかの例では、ビデオエンコーダ２０は、エントロピー符号化され得るシリアル化ベクトルを生成するために、量子化変換係数を走査するためにあらかじめ定義された走査順序を利用し得る。他の例では、ビデオエンコーダ２０は適応型走査を実行し得る。量子化変換係数を走査して１次元ベクトルを形成した後に、ビデオエンコーダ２０は、たとえば、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ：context-adaptive variable length coding）、コンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ：context-adaptive binary arithmetic coding）、シンタックスベースコンテキスト適応型バイナリ算術コーディング（ＳＢＡＣ：syntax-based context-adaptive binary arithmetic coding）、確率間隔区分エントロピー（ＰＩＰＥ：Probability Interval Partitioning Entropy）コーディング、または別のエントロピー符号化方法に従って１次元ベクトルをエントロピー符号化し得る。ビデオエンコーダ２０はまた、ビデオデータを復号する際にビデオデコーダ３０が使用するための符号化ビデオデータに関連するシンタックス要素をエントロピー符号化し得る。

[0057]ＣＡＢＡＣを実行するために、ビデオエンコーダ２０は、送信されるべきシンボルに、コンテキストモデル内のコンテキストを割り当て得る。コンテキストは、たとえば、シンボルの隣接値が非０であるか否かに関係し得る。ＣＡＶＬＣを実行するために、ビデオエンコーダ２０は、送信されるべきシンボルのための可変長コードを選択し得る。ＶＬＣにおけるコードワードは、比較的短いコードが優勢シンボルに対応し、より長いコードが劣勢シンボルに対応するように構成され得る。このようにして、ＶＬＣの使用は、たとえば、送信されるべき各シンボルのために等長コードワードを使用するよりも、ビット節約を達成し得る。確率判断は、シンボルに割り当てられたコンテキストに基づき得る。

[0058]ビデオエンコーダ２０は、さらに、ブロックベースのシンタックスデータ、フレームベースのシンタックスデータ、およびＧＯＰベースのシンタックスデータなどのシンタックスデータを、たとえば、フレームヘッダ、ブロックヘッダ、スライスヘッダ、またはＧＯＰヘッダ中でビデオデコーダ３０に送り得る。ＧＯＰシンタックスデータは、それぞれのＧＯＰ中のいくつかのフレームを記述し得、かつフレームシンタックスデータは、対応するフレームを符号化するために使用される符号化／予測モードを示し得る。

[0059]図２は、本開示で説明する態様による技法を実装し得るビデオエンコーダの例を示すブロック図である。ビデオエンコーダ２０は、本開示の技法のいずれかまたはすべてを実行するように構成され得る。一例として、モード選択ユニット４０は、本開示で説明する技法のいずれかまたはすべてを実行するように構成され得る。ただし、本開示の態様はそのように限定されない。いくつかの例では、本開示で説明する技法は、ビデオエンコーダ２０の様々な構成要素間で共有され得る。いくつかの例では、追加としてまたは代わりに、プロセッサ（図示せず）が、本開示で説明する技法のいずれかまたはすべてを実行するように構成され得る。

[0060]いくつかの実施形態では、モード選択ユニット４０、動き推定ユニット４２、動き補償ユニット４４（もしくはモード選択ユニット４０の別の構成要素、図示済みもしくは図示せず）、またはエンコーダ２０の別の構成要素（図示済みもしくは図示せず）が本開示の技法を実行し得る。たとえば、モード選択ユニット４０は、どの動き推定および動き補償が実行され得るかに基づいて、１つまたは複数の残差予測参照ピクチャを生成し得る。エンコーダ２０は、エンハンスメントレイヤに関連する、対応するエンハンスメントレイヤ参照ピクチャに少なくとも部分的に基づいて、残差予測参照ピクチャを生成することについての情報を符号化し得る。生成されるべき残差予測参照ピクチャは、それから残差予測参照ピクチャが生成されるべきエンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有することができる。エンコーダ２０は、符号化された情報をビットストリーム内でシグナリングすることができる。

[0061]ビデオエンコーダ２０は、ビデオスライス内のビデオブロックのイントラコーディングおよびインターコーディングを実行し得る。イントラコーディングは、所与のビデオフレームまたはピクチャ内のビデオの空間的冗長性を低減または除去するために空間的予測に依拠する。インターコーディングは、ビデオシーケンスの隣接フレームまたはピクチャ内のビデオの時間的冗長性を低減または除去するために時間的予測に依拠する。イントラ（Ｉ）モードは、いくつかの空間ベースのコーディングモードのいずれかを指し得る。単方向予測（Ｐモード）または双方向予測（Ｂモード）などのインターモードは、いくつかの時間ベースのコーディングモードのいずれかを指し得る。

[0062]図２に示すように、ビデオエンコーダ２０は、符号化されるべきビデオフレーム内の現在のビデオブロックを受信する。図１の例では、ビデオエンコーダ２０は、モード選択ユニット４０と、参照フレームメモリ６４と、加算器５０と、変換処理ユニット５２と、量子化ユニット５４と、エントロピー符号化ユニット５６とを含む。モード選択ユニット４０は、今度は、動き補償ユニット４４と、動き推定ユニット４２と、イントラ予測ユニット４６と、パーティションユニット４８とを含む。ビデオブロック再構成のために、ビデオエンコーダ２０はまた、逆量子化ユニット５８と、逆変換ユニット６０と、加算器６２とを含む。再構成されたビデオからブロッキネスアーティファクトを除去するためにブロック境界をフィルタ処理するデブロッキングフィルタ（図２に図示せず）も含まれ得る。所望される場合、デブロッキングフィルタは、一般に、加算器６２の出力をフィルタ処理することになる。また、デブロッキングフィルタに加えて追加のフィルタ（ループ内またはループ後）が使用され得る。そのようなフィルタは、簡潔のために示されていないが、所望される場合、（ループ内フィルタとして）加算器５０の出力をフィルタ処理し得る。

[0063]符号化プロセス中に、ビデオエンコーダ２０は、コーディングされるべきビデオフレームまたはスライスを受信する。フレームまたはスライスは複数のビデオブロックに分割され得る。動き推定ユニット４２および動き補償ユニット４４は、時間的予測を行うために、１つまたは複数の参照フレーム中の１つまたは複数のブロックに対して、受信されたビデオブロックのインター予測コーディングを実行する。イントラ予測ユニット４６は、代替的に、空間的予測を行うために、コーディングされるべきブロックと同じフレームまたはスライス中の１つまたは複数の隣接ブロックに対して受信されたビデオブロックのイントラ予測コーディングを実行し得る。ビデオエンコーダ２０は、たとえば、ビデオデータのブロックごとに適切なコーディングモードを選択するために、複数のコーディングパスを実行し得る。

[0064]その上、パーティションユニット４８は、前のコーディングパスにおける前の区分方式の評価に基づいて、ビデオデータのブロックをサブブロックに区分し得る。たとえば、パーティションユニット４８は、初めにフレームまたはスライスをＬＣＵに区分し、レートひずみ分析（たとえば、レートひずみ最適化）に基づいてＬＣＵの各々をサブＣＵに区分し得る。モード選択ユニット４０は、ＬＣＵをサブＣＵに区分することを示す４分木データ構造をさらに生成し得る。４分木のリーフノードＣＵは、１つまたは複数のＰＵおよび１つまたは複数のＴＵを含み得る。

[0065]モード選択ユニット４０は、たとえば、誤差結果に基づいて、コーディングモード、すなわち、イントラまたはインターのうちの１つを選択することができ、残差ブロックデータを生成するために、得られたイントラコーディングされたブロックまたはインターコーディングされたブロックを加算器５０に与え、かつ参照フレームとして使用するための符号化されたブロックを復元するために、得られたイントラコーディングされたブロックまたはインターコーディングされたブロックを加算器６２に与える。モード選択ユニット４０はまた、動きベクトル、イントラモードインジケータ、パーティション情報、および他のそのようなシンタックス情報などのシンタックス要素をエントロピー符号化ユニット５６に与える。

[0066]動き推定ユニット４２および動き補償ユニット４４は、高度に統合され得るが、概念的な目的のために別々に示してある。動き推定ユニット４２によって実行される動き推定は、ビデオブロックの動きを推定する動きベクトルを生成するプロセスである。動きベクトルは、たとえば、現在のフレーム（または他のコード化ユニット）内でコーディングされている現在のブロックに対する参照フレーム（または他のコード化ユニット）内の予測ブロックに対する現在のビデオフレームまたはピクチャ内のビデオブロックのＰＵの変位を示し得る。予測ブロックは、絶対値差分和（ＳＡＤ：sum of absolute difference）、２乗差分和（ＳＳＤ：sum of square difference）、または他の差分メトリックによって判断され得るピクセル差分に関して、コーディングされるべきブロックにぴったり一致することがわかるブロックである。いくつかの例では、ビデオエンコーダ２０は、参照フレームメモリ６４に記憶された参照ピクチャのサブ整数ピクセル位置の値を計算し得る。たとえば、ビデオエンコーダ２０は、参照ピクチャの１／４ピクセル位置、１／８ピクセル位置、または他の分数ピクセル位置の値を補間し得る。したがって、動き推定ユニット４２は、フルピクセル位置と分数ピクセル位置とに対する動き探索を実行し、分数ピクセル精度で動きベクトルを出力し得る。

[0067]動き推定ユニット４２は、ＰＵの位置を参照ピクチャの予測ブロックの位置と比較することによって、インターコード化スライスにおけるビデオブロックのＰＵのための動きベクトルを計算する。参照ピクチャは、第１の参照ピクチャリスト（リスト０）または第２の参照ピクチャリスト（リスト１）から選択され得、それらの参照ピクチャリストの各々は、参照フレームメモリ６４に記憶された１つまたは複数の参照ピクチャを識別する。動き推定ユニット４２は、計算された動きベクトルをエントロピー符号化ユニット５６と動き補償ユニット４４とに送る。

[0068]動き補償ユニット４４によって実行される動き補償は、動き推定ユニット４２によって判断された動きベクトルに基づいて予測ブロックをフェッチまたは生成することに関与し得る。この場合も、いくつかの例では、動き推定ユニット４２および動き補償ユニット４４は機能的に統合され得る。現在のビデオブロックのＰＵについての動きベクトルを受信すると、動き補償ユニット４４は、動きベクトルが参照ピクチャリストのうちの１つにおいて指す予測ブロックの位置を特定し得る。加算器５０は、以下で説明するように、コーディングされている現在のビデオブロックのピクセル値から予測ブロックのピクセル値を減算し、ピクセル差分値を形成することによって、残差ビデオブロックを形成する。概して、動き推定ユニット４２はルーマ成分に対して動き推定を実行し、かつ動き補償ユニット４４は、クロマ成分とルーマ成分の両方のためにルーマ成分に基づいて計算された動きベクトルを使用する。モード選択ユニット４０はまた、ビデオスライスのビデオブロックを復号する際にビデオデコーダ３０が使用するためのビデオブロックとビデオスライスとに関連するシンタックス要素を生成し得る。

[0069]イントラ予測ユニット４６は、上記で説明したように、動き推定ユニット４２と動き補償ユニット４４とによって実行されるインター予測の代替として、現在ブロックをイントラ予測し得る。特に、イントラ予測ユニット４６は、現在のブロックを符号化するために使用すべきイントラ予測モードを決定し得る。いくつかの例では、イントラ予測ユニット４６は、たとえば、別個の符号化パス中に、様々なイントラ予測モードを使用して現在のブロックを符号化し得、イントラ予測ユニット４６（または、いくつかの例では、モード選択ユニット４０）は、テストされたモードから使用するのに適切なイントラ予測モードを選択し得る。

[0070]たとえば、イントラ予測ユニット４６は、様々なテストされたイントラ予測モードのためのレートひずみ分析を使用してレートひずみ値を計算し、テストされたモードの中で最良のレートひずみ特性を有するイントラ予測モードを選択し得る。レートひずみ分析は、概して、符号化ブロックと、符号化ブロックを生成するために符号化された元の符号化されていないブロックとの間のひずみ（または誤差）の量、ならびに符号化ブロックを生成するために使用されるビットレート（すなわち、ビット数）を決定する。イントラ予測ユニット４６は、どのイントラ予測モードがブロックについて最良のレートひずみ値を呈するかを決定するために、様々な符号化ブロックのひずみおよびレートから比率を計算し得る。

[0071]ブロックのためのイントラ予測モードを選択した後に、イントラ予測ユニット４６は、ブロックのための選択されたイントラ予測モードを示す情報をエントロピー符号化ユニット５６に提供し得る。エントロピー符号化ユニット５６は、選択されたイントラ予測モードを示す情報を符号化し得る。ビデオエンコーダ２０は、送信ビットストリーム中に、複数のイントラ予測モードインデックステーブルおよび複数の変更されたイントラ予測モードインデックステーブル（コードワードマッピングテーブルとも呼ばれる）と、様々なブロックの符号化コンテキストの定義と、コンテキストの各々について使用すべき、最確イントラ予測モード、イントラ予測モードインデックステーブル、および変更されたイントラ予測モードインデックステーブルの指示とを含み得る構成データを含み得る。

[0072]ビデオエンコーダ２０は、コーディングされている元のビデオブロックから、モード選択ユニット４０からの予測データを減算することによって残差ビデオブロックを形成する。加算器５０は、この減算演算を実行する１つまたは複数の構成要素を表す。変換処理ユニット５２は、離散コサイン変換（ＤＣＴ）または概念的に同様の変換などの変換を残差ブロックに適用し、残差変換係数値を備えるビデオブロックを生成する。変換処理ユニット５２は、ＤＣＴと概念的に同様である他の変換を実行し得る。ウェーブレット変換、整数変換、サブバンド変換または他のタイプの変換も使用され得る。いずれの場合も、変換処理ユニット５２は、変換を残差ブロックに適用し、残差変換係数のブロックを生成する。変換は、残差情報をピクセル値領域から周波数領域などの変換領域に変換し得る。変換処理ユニット５２は、得られた変換係数を量子化ユニット５４に送り得る。量子化ユニット５４は、ビットレートをさらに低減するために変換係数を量子化する。量子化プロセスは、係数の一部または全部に関連するビット深度を低減し得る。量子化の程度は、量子化パラメータを調整することによって変更され得る。いくつかの例では、量子化ユニット５４は、次いで、量子化変換係数を含む行列の走査を実行し得る。代替的に、エントロピー符号化ユニット５６が走査を実行し得る。

[0073]量子化の後、エントロピー符号化ユニット５６は、量子化変換係数をエントロピーコーディングする。たとえば、エントロピー符号化ユニット５６は、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ）、コンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ）、シンタックスベースコンテキスト適応型バイナリ算術コーディング（ＳＢＡＣ）、確率間隔区分エントロピー（ＰＩＰＥ）コーディングまたは別のエントロピーコーディング技法を実行し得る。コンテキストベースのエントロピーコーディングの場合、コンテキストは、隣接するブロックに基づき得る。エントロピー符号化ユニット５６によるエントロピーコーディングの後、符号化されたビットストリームは、別のデバイス（たとえば、ビデオデコーダ３０）に送信されるか、または後で送信するかまたは取り出すためにアーカイブされ得る。

[0074]逆量子化ユニット５８および逆変換ユニット６０は、それぞれ逆量子化および逆変換を適用して、たとえば参照ブロックとして後で使用するために、ピクセル領域中で残差ブロックを再構成する。動き補償ユニット４４は、残差ブロックを参照フレームメモリ６４のフレームのうちの１つの予測ブロックに加算することによって参照ブロックを計算し得る。動き補償ユニット４４はまた、再構成された残差ブロックに１つまたは複数の補間フィルタを適用して、動き推定において使用するサブ整数ピクセル値を計算し得る。加算器６２は、再構成された残差ブロックを、動き補償ユニット４４によって生成された動き補償予測ブロックに加算して、参照フレームメモリ６４に記憶するための再構成されたビデオブロックを生成する。再構成されたビデオブロックは、後続のビデオフレーム中のブロックをインターコーディングするために動き推定ユニット４２および動き補償ユニット４４によって参照ブロックとして使用され得る。

[0075]図３は、本開示で説明する態様による技法を実装し得るビデオデコーダの例を示すブロック図である。ビデオデコーダ３０は、本開示の技法のいずれかまたはすべてを実行するように構成され得る。一例として、動き補償ユニット７２、および／またはイントラ予測ユニット７４は、本開示で説明する技法のいずれかまたはすべてを実行するように構成され得る。ただし、本開示の態様はそのように限定されない。いくつかの例では、本開示で説明する技法は、ビデオデコーダ３０の様々な構成要素間で共有され得る。いくつかの例では、追加としてまたは代わりに、プロセッサ（図示せず）が、本開示で説明する技法のいずれかまたはすべてを実行するように構成され得る。

[0076]いくつかの実施形態では、エントロピー復号ユニット７０、動き補償ユニット７２、またはデコーダ３０の別の構成要素（図示済みまたは図示せず）が本開示の技法を実行し得る。デコーダ３０は、残差予測参照ピクチャの生成についてのシグナリングされた情報を復号することができる。動き補償ユニット７２は、生成される残差予測参照ピクチャが、当該残差予測参照ピクチャが生成されるエンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように、エンハンスメントレイヤ参照ピクチャおよび復号されたシグナリングされた情報に基づいて、残差予測参照ピクチャを生成することができる。動き補償ユニット７２は、エンハンスメントレイヤの少なくとも１つの参照ピクチャリスト（たとえば、参照フレームメモリ８２）に生成された残差予測参照ピクチャを記憶することができる。

[0077]図３の例では、ビデオデコーダ３０は、エントロピー復号ユニット７０と、動き補償ユニット７２と、イントラ予測ユニット７４と、逆量子化ユニット７６と、逆変換ユニット７８と、参照フレームメモリ８２と、加算器８０とを含む。ビデオデコーダ３０は、いくつかの例では、ビデオエンコーダ２０（図２）に関して説明した符号化パスとは概して逆の復号パスを実行し得る。動き補償ユニット７２は、エントロピー復号ユニット７０から受信された動きベクトルに基づいて予測データを生成し得、イントラ予測ユニット７４は、エントロピー復号ユニット７０から受信されたイントラ予測モードインジケータに基づいて予測データを生成し得る。

[0078]復号プロセス中に、ビデオデコーダ３０は、ビデオエンコーダ２０から、符号化ビデオスライスのビデオブロックと、関連するシンタックス要素とを表す符号化ビデオビットストリームを受信する。ビデオデコーダ３０のエントロピー復号ユニット７０は、量子化係数、動きベクトルまたはイントラ予測モードインジケータ、および他のシンタックス要素を生成するためにビットストリームをエントロピー復号する。エントロピー復号ユニット７０は、動きベクトルと他の予測シンタックス要素とを動き補償ユニット７２に転送する。ビデオデコーダ３０は、ビデオスライスレベルおよび／またはビデオブロックレベルでシンタックス要素を受信し得る。

[0079]ビデオスライスがイントラコード化（Ｉ）スライスとしてコーディングされるとき、イントラ予測ユニット７４は、シグナリングされたイントラ予測モードと、現在フレームまたはピクチャの、前に復号されたブロックからのデータとに基づいて、現在のビデオスライスのビデオブロックのための予測データを生成し得る。ビデオフレームがインターコード化（たとえば、Ｂ、ＰまたはＧＰＢ）スライスとしてコーディングされるとき、動き補償ユニット７２は、エントロピー復号ユニット７０から受信された動きベクトルと他のシンタックス要素とに基づいて、現在のビデオスライスのビデオブロックのための予測ブロックを生成する。予測ブロックは、参照ピクチャリストのうちの１つ内の参照ピクチャのうちの１つから生成され得る。ビデオデコーダ３０は、参照フレームメモリ８２に記憶された参照ピクチャに基づいて、デフォルトの構成技法を使用して、参照フレームリスト、すなわち、リスト０およびリスト１を構成し得る。動き補償ユニット７２は、動きベクトルと他のシンタックス要素とをパースすることによって現在のビデオスライスのビデオブロックのための予測情報を決定し、その予測情報を使用して、復号されている現在のビデオブロックのための予測ブロックを生成する。たとえば、動き補償ユニット７２は、ビデオスライスのビデオブロックをコーディングするために使用される予測モード（たとえば、イントラまたはインター予測）と、インター予測スライスタイプ（たとえば、Ｂスライス、Ｐスライス、またはＧＰＢスライス）と、スライスの参照ピクチャリストのうちの１つまたは複数のための構成情報と、スライスの各インター符号化ビデオブロックのための動きベクトルと、スライスの各インターコード化ビデオブロックのためのインター予測ステータスと、現在のビデオスライス中のビデオブロックを復号するための他の情報とを決定するために、受信されたシンタックス要素のいくつかを使用する。

[0080]動き補償ユニット７２はまた、補間フィルタに基づいて補間を実行し得る。動き補償ユニット７２は、ビデオブロックの符号化中にビデオエンコーダ２０によって使用された補間フィルタを使用して、参照ブロックのサブ整数ピクセルの補間値を計算し得る。この場合、動き補償ユニット７２は、受信されたシンタックス要素からビデオエンコーダ２０によって使用された補間フィルタを決定し、その補間フィルタを使用して予測ブロックを生成し得る。

[0081]逆量子化ユニット７６は、ビットストリーム中で与えられ、エントロピー復号ユニット７０によって復号された量子化変換係数を逆量子化（inverse quantize）、たとえば、逆量子化（de-quantize）する。逆量子化プロセスは、量子化の程度を決定し、同様に、適用されるべき逆量子化の程度を決定するための、ビデオスライス中のビデオブロックごとにビデオデコーダ３０によって計算される量子化パラメータＱＰ_Yの使用を含み得る。

[0082]逆変換ユニット７８は、ピクセル領域において残差ブロックを生成するために、逆変換、たとえば逆ＤＣＴ、逆整数変換、または概念的に同様の逆変換プロセスを変換係数に適用する。

[0083]動き補償ユニット７２が、動きベクトルと他のシンタックス要素とに基づいて現在のビデオブロックのための予測ブロックを生成した後に、ビデオデコーダ３０は、逆変換ユニット７８からの残差ブロックを動き補償ユニット７２によって生成された対応する予測ブロックに加算することによって、復号されたビデオブロックを形成する。加算器８０は、この加算演算を実行する１つまたは複数の構成要素を表す。所望される場合、ブロッキネスアーティファクトを除去するために、復号ブロックをフィルタ処理するためにデブロッキングフィルタも適用され得る。ピクセル遷移を平滑化するために、または場合によってはビデオ品質を改善するために、他のループフィルタも（コーディングループ中またはコーディングループ後のいずれかで）使用され得る。所与のフレームまたはピクチャ中の復号されたビデオブロックは、次いで、その後の動き補償のために使用される参照ピクチャを記憶する参照フレームメモリ８２に記憶される。参照フレームメモリ８２はまた、図１のディスプレイデバイス３２などのディスプレイデバイス上での後の表示のための、復号されたビデオを記憶する。
ＨＥＶＣにおける動き補償
[0084]一般に、ＨＥＶＣは以前のビデオコーディング規格のフレームワークに追従する。ＨＥＶＣの動き補償ループは、Ｈ．２６４／ＡＶＣにおける動き補償ループと同じに保持される、たとえば、現在のフレーム

の復元は、逆量子化係数ｒプラス時間予測Ｐに等しい。

ここで、Ｐは、Ｐフレームに対する単方向予測、またはＢフレームに対する双方向予測を示す。

[0085]ＨＥＶＣにおける動き補償の単位は、以前のビデオコーディング規格における単位とは異なる。以前のビデオコーディング規格におけるマクロブロックの概念は、ＨＥＶＣには存在しない。マクロブロックは、一般的な４分木方式に基づく極めて柔軟な階層構造によって置き換えられる。この方式内で、３つのタイプのブロック、たとえば、コーディングユニット（ＣＵ）、予測ユニット（ＰＵ）、および変換ユニット（ＴＵ）が定義される。ＣＵは領域分割の基本単位である。ＣＵはマクロブロックの概念に類似するが、それは最大サイズを制限せず、それは４つの等しいサイズのＣＵへの再帰分割がコンテンツの適応性を向上させることを可能にする。ＰＵはインター／イントラ予測の基本単位であり、それは単一のＰＵ内に複数の任意の形状のパーティションを含んで、不規則な画像パターンを効果的にコーディングすることができる。ＴＵは変換の基本単位である。それはＰＵとは無関係に定義され得るが、そのサイズはＴＵが属するＣＵに限定される。このようにブロック構造を３つの異なる概念に分割すると、各々がその役割に応じて最適化されることが可能になり、その結果、コーディング効率が改善される。
ＨＥＶＣにおける参照管理
[0086]ＨＥＶＣでは、以前に復号されたピクチャは、参照パラメータセット（ＲＰＳ）の概念の下で、参照用の復号ピクチャバッファ（ＤＰＢ）内で管理される。ＤＰＢ内のピクチャは、「短期参照に使用される」、「長期参照に使用される」、または「参照に使用されない」としてマーキングされ得る。ピクチャが「参照に使用されない」としてマーキングされていると、それはもはや予測に使用され得ず、それがもはや出力に必要とされないとき、それはＤＰＢから削除され得る。参照ピクチャ管理用のＲＰＳの概念は、以前のビデオコーディング規格の参照ピクチャ管理とは基本的に異なる。ＤＰＢに対する相対的変化をシグナリングする代わりに、ＤＰＢのステータスが各スライス内でシグナリングされる。参照ピクチャ管理についてのＨＥＶＣ開発における目標は、すべての規格に適合するビットストリームおよびデコーダにおいて、基本レベルのエラーロバストネスを有することであった。
ＲＰＳのシグナリング
[0087]ＨＥＶＣにおける各スライスヘッダは、スライスを含むピクチャ用のＲＰＳをシグナリングするためのパラメータを含まなければならない。唯一の例外は、瞬時デコーダリフレッシュ（ＩＤＲ）スライスについてはＲＰＳがシグナリングされないことである。代わりに、ＲＰＳは空であると推論される。ＩＤＲピクチャに属さないＩスライスの場合、それらがＩピクチャに属する場合でも、復号順序でＩピクチャに先行したピクチャからのインター予測を使用する、復号順序でＩピクチャに続くピクチャが存在し得るので、ＲＰＳが提供され得る。ＲＰＳ内のピクチャの数は、シーケンスパラメータセット（ＳＰＳ）内のｓｐｓ＿ｍａｘ＿ｄｅｃ＿ｐｉｃ＿ｂｕｆｆｅｒｉｎｇシンタックス要素によって指定されたＤＰＢのサイズ制限を超えるべきではない。

[0088]各ピクチャは、出力順序を表すピクチャ順序カウント（ＰＯＣ）値に関連付けられる。スライスヘッダは、ＰＯＣＬＳＢとしても知られる、完全なＰＯＣ値の最下位ビットを表す、固定長のコードワードｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂを含む。コードワードの長さは、ＳＰＳ内でシグナリングされ、４ビットと１６ビットの間であり得る。ＲＰＳの概念は、参照ピクチャを識別するためにＰＯＣを使用する。それ自体のＰＯＣ値に加えて、各スライスヘッダは、ＲＰＳ内の各ピクチャのＰＯＣ値のコード化表現を直接含むか、またはＳＰＳから引き継ぐ。

[0089]ピクチャごとのＲＰＳは、５個のＲＰＳサブセットとも呼ばれる、参照ピクチャの５個の異なるリストからなる。

・ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＢｅｆｏｒｅは、復号順序と出力順序の両方で現在のピクチャに先立ち、現在のピクチャのインター予測において使用され得る、すべての短期参照ピクチャを備える。

・ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＡｆｔｅｒは、復号順序では現在のピクチャに先立ち、出力順序では現在のピクチャの後に続き、現在のピクチャのインター予測において使用され得る、すべての短期参照ピクチャを備える。

・ＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌは、復号順序で現在のピクチャの後に続くピクチャの１つまたは複数のインター予測で使用され得るし、現在のピクチャのインター予測においては使用されない、すべての短期参照ピクチャを備える。

・ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒは、現在のピクチャのインター予測において使用され得る、すべての長期参照ピクチャを備える。

・ＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌは、復号順序で現在のピクチャの後に続くピクチャの１つまたは複数のインター予測で使用され得るし、現在のピクチャのインター予測においては使用されない、すべての長期参照ピクチャを備える。

[0090]様々なタイプの参照ピクチャである、現在のピクチャよりも低いＰＯＣ値を有する短期参照ピクチャ、現在のピクチャよりも高いＰＯＣ値を有する短期参照ピクチャ、および長期参照ピクチャにわたって繰り返す３つまでのループを使用して、ＲＰＳはシグナリングされる。さらに、参照ピクチャが現在のピクチャによる参照に使用される（リストＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＢｅｆｏｒｅ、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＡｆｔｅｒ、またはＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒのうちの１つに含まれる）か否か（リストＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌまたはＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌのうちの１つに含まれる）を示すフラグ（ｕｓｅｄ＿ｂｙ＿ｃｕｒｒ＿ｐｉｃ＿Ｘ＿ｆｌａｇ）が参照ピクチャごとに送られる。
ピクチャのマーキング
[0091]ピクチャの復号の前に、通常、いくつかのピクチャがＤＰＢ内に存在する。それらのうちのいくつかは予測に利用可能であり得るし、したがって「参照に使用される」としてマーキングされる。他は、予測に利用不可であり得るが、出力を待ち、したがって「参照に使用されない」としてマーキングされる。スライスヘッダがパース（parse）されたとき、ピクチャのマーキングプロセスは、スライスデータが復号される前に遂行される。ＤＰＢ内に存在し、「参照に使用される」としてマーキングされるが、ＲＰＳに含まれていないピクチャは、「参照に使用されない」としてマーキングされる。ＤＰＢ内に存在しないが、参照ピクチャセットに含まれているピクチャは、ｕｓｅｄ＿ｂｙ＿ｃｕｒｒ＿ｐｉｃ＿Ｘ＿ｆｌａｇがゼロに等しい場合無視される。しかしながら、代わりにｕｓｅｄ＿ｂｙ＿ｃｕｒｒ＿ｐｉｃ＿Ｘ＿ｆｌａｇが１に等しい場合、この参照ピクチャは現在のピクチャ内で予測に使用されるように意図されたが、紛失している。次いで、偶発的なピクチャ損失が推測され、デコーダは適切なアクションをとるべきである。現在のピクチャを復号した後、それは「短期参照に使用される」とマーキングされる。
短期参照ピクチャセットのシンタックス
[0092]短期参照ピクチャセット用のシンタックスの例が下記に提供される。

参照リストの初期化
[0093]参照ピクチャリストの初期化は、３つのＲＰＳサブセット、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＢｅｆｏｒｅ、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＡｆｔｅｒ、およびＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒに基づいて、（スライスがＢスライスである場合）２つのデフォルトのリスト、リスト０とリスト１とを作成する。最初に、早い出力順序を有する短期ピクチャが現在のピクチャまでのＰＯＣ間隔の昇順でリスト０に挿入され、次いで、遅い出力順序を有する短期ピクチャが現在のピクチャまでのＰＯＣ間隔の昇順でリスト０に挿入され、最終的に、長期ピクチャが最後に挿入される。同様に、最初に、遅い出力順序を有する短期ピクチャが現在のピクチャまでのＰＯＣ間隔の昇順でリスト１に挿入され、次いで、早い出力順序を有する短期ピクチャが現在のピクチャまでのＰＯＣ間隔の昇順でリスト１に挿入され、最終的に、長期ピクチャが最後に挿入される。ＲＰＳに関して、リスト０の場合、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＢｅｆｏｒｅ内のエントリが最初のリストに挿入され、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＡｆｔｅｒ内のエントリが後に続く。その後、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ内のエントリが、利用可能な場合追加される。ＨＥＶＣでは、リスト内のエントリの数が、（ピクチャパラメータセットまたはスライスヘッダ内でシグナリングされた）アクティブな参照ピクチャの目標数よりも小さいとき、上記のプロセスが繰り返される（参照ピクチャリストにすでに加えられている参照ピクチャが再び加えられる）。エントリの数が目標数よりも大きいとき、リストは切り捨てられる。
Ｈ．２６４／ＡＶＣのスケーラブルな拡張
[0094]スケーラブルビデオコーディング、すなわちＨ．２６４／ＡＶＣのスケーラブルな拡張の簡単な紹介が下記に提供される。
ＳＶＣの構造
[0095]様々な次元におけるスケーラビリティの一例が図４に示される。スケーラビリティは、３つの次元において使用可能である。時間次元では、７．５Ｈｚ、１５Ｈｚ、または３０Ｈｚを有するフレームレートが時間スケーラビリティ（Ｔ）４１０によってサポートされ得る。空間スケーラビリティ（Ｓ）４２０がサポートされるとき、ＱＣＩＦ（１／４共通中間フォーマット）、ＣＩＦ（共通中間フォーマット）、および４ＣＩＦなどの様々な解像度が使用可能である。特定の空間解像度およびフレームレートごとに、ＳＮＲ（Ｑ）レイヤ４３０が、ピクチャ品質を改善するために追加され得る。ビデオコンテンツがそのようなスケーラブルな方法で符号化されると、たとえば、クライアントまたは送信チャネルに依存するアプリケーション要件に従って、実際の配信されたコンテンツを適応させるために、エキストラクタ（extractor）ツールが使用され得る。図４に示された例では、各立方体４５０は、同じフレームレート（時間レベル）と、空間解像度と、ＳＮＲレイヤとを有するピクチャを含む。それらの立方体（ピクチャ）４５０を任意の次元で追加することによって、より良い表現が達成され得る。使用可能な２つ、３つ、またはさらに多くのスケーラビリティがあるとき、複合スケーラビリティがサポートされる。

[0096]ＳＶＣの仕様によれば、最も低い空間レイヤと品質レイヤとを有するピクチャは、Ｈ．２６４／ＡＶＣと互換性があり、最も低い時間レベルにあるピクチャは、より高い時間レベルにあるピクチャで増強（enhance）され得る時間ベースレイヤを形成する。Ｈ．２６４／ＡＶＣ互換レイヤに加えて、空間スケーラビリティおよび／または品質スケーラビリティを提供するために、いくつかの空間エンハンスメントレイヤおよび／またはＳＮＲエンハンスメントレイヤが追加され得る。ＳＮＲスケーラビリティは、品質スケーラビリティとも呼ばれる。各々の空間エンハンスメントレイヤまたはＳＮＲエンハンスメントレイヤ自体は時間的にスケーラブルであり得るし、Ｈ．２６４／ＡＶＣ互換レイヤと同じ時間スケーラビリティ構造を有する。１つの空間エンハンスメントレイヤまたはＳＮＲエンハンスメントレイヤの場合、それが依存するより低いレイヤは、その特定の空間エンハンスメントレイヤまたはＳＮＲエンハンスメントレイヤのベースレイヤとも呼ばれる。

[0097]ＳＶＣコーディング構造の一例が図５に示される。最も低い空間レイヤと品質レイヤとを有するピクチャ（ＱＣＩＦ解像度を有する、レイヤ０（５１０）およびレイヤ１（５２０）内のピクチャ）は、Ｈ．２６４／ＡＶＣと互換性がある。これらの中で、最も低い時間レベルのそれらのピクチャは、図５のレイヤ０（５１０）に示されるように、時間ベースレイヤを形成する。この時間ベースレイヤ（レイヤ０（５１０））は、より高い時間レベル（レイヤ１（５２０））のピクチャで増強され得る。Ｈ．２６４／ＡＶＣ互換レイヤに加えて、空間スケーラビリティおよび／または品質スケーラビリティを提供するために、いくつかの空間エンハンスメントレイヤおよび／またはＳＮＲエンハンスメントレイヤが追加され得る。たとえば、エンハンスメントレイヤは、レイヤ２（５３０）と同じ解像度を有するＣＩＦ表現であり得る。この例では、レイヤ３（５４０）はＳＮＲエンハンスメントレイヤである。この例に示されたように、各々の空間エンハンスメントレイヤまたはＳＮＲエンハンスメントレイヤ自体は時間的にスケーラブルであり得るし、Ｈ．２６４／ＡＶＣ互換レイヤと同じ時間スケーラビリティ構造を有する。また、エンハンスメントレイヤは、空間解像度とフレームレートの両方を増強することができる。たとえば、レイヤ４（５５０）は、フレームレートを１５Ｈｚから３０Ｈｚにさらに増大させる、４ＣＩＦエンハンスメントレイヤを提供する。

[0098]図６に示されたように、同じ時間インスタンスでコーディングされたスライスは、ビットストリームの順序で連続しており、ＳＶＣのコンテキストで１つのアクセスユニット６１０を形成する。次いで、それらのＳＶＣアクセスユニット６１０は、表示順序とは異なる、たとえば時間予測関係によって決定される可能性がある、復号順序に従う。
Ｈ．２６４／ＡＶＣのスケーラブルな拡張の特徴
[0099]ＳＶＣのいくつかの機能は、Ｈ．２６４／ＡＶＣから引き継がれている。以前のスケーラブルな規格と比較して、レイヤ間予測およびシングルループ復号などのいくつかの重要な特徴が下記で概説される。
シングルループ復号
[00100]低複雑度のデコーダを保持するために、ＳＶＣではシングルループ復号が必須である。シングルループ復号で、各々のサポートされるレイヤは、単一の動き補償ループで復号され得る。これを達成するために、レイヤ間イントラ予測の使用は、エンハンスメントレイヤのマクロブロックのみに許可され、そのためにコロケート（co-locate）された参照レイヤ信号がイントラコーディングされる。より高いレイヤをレイヤ間予測するために使用されるすべてのレイヤが、制約付きイントラ予測を使用してコーディングされることがさらに必要である。
レイヤ間予測
[00101]ＳＶＣは、テクスチャ、残差、および動きに基づいて、空間スケーラビリティおよびＳＮＲスケーラビリティのためのレイヤ間予測を導入する。ＳＶＣにおける空間スケーラビリティは、２つのレイヤ間の任意の解像度比に一般化されている。ＳＮＲスケーラビリティは、粗粒度スケーラビリティ（ＣＧＳ：coarse granularity scalability）または中粒度スケーラビリティ（ＭＧＳ:medium granularity scalability）によって実現され得る。ＳＶＣでは、２つの空間レイヤまたはＣＧＳレイヤは、（ＮＡＬユニットヘッダ内でｄｅｐｅｎｄｅｎｃｙ＿ｉｄによって示される）異なる従属レイヤに属するが、２つのＭＧＳレイヤは同じ従属レイヤ内にあり得る。１つの従属レイヤは、品質エンハンスメントレイヤに対応する、０からより高い値までのｑｕａｌｉｔｙ＿ｉｄを有する品質レイヤを含む。ＳＶＣでは、レイヤ間の冗長性を低減するために、レイヤ間予測方法が利用される。それらは以下の段落で簡単に紹介される。
レイヤ間イントラ予測
[00102]レイヤ間イントラ予測を使用するコーディングモードは、ＳＶＣでは「イントラＢＬ」モードと呼ばれる。シングルループ復号をイネーブルにするために、制約付きイントラモードとしてコーディングされるベースレイヤ中のコロケートされたマクロブロック（ＭＢ）を有するＭＢのみが、レイヤ間イントラ予測モードを使用することができる。制約付きイントラモードのＭＢは、隣接するインターコーディングされたＭＢからのいかなるサンプルも参照せずにイントラコーディングされる。
レイヤ間残差予測
[00103]ＭＢが残差予測を使用するように指示された場合、レイヤ間予測のためにベースレイヤ内でコロケートされたＭＢは、インターＭＢであるに違いなく、その残差は空間解像度比に従ってアップサンプリングされ得る。エンハンスメントレイヤとベースレイヤのそれとの間の差分がコーディングされる。すなわち、エンハンスメントレイヤの現在のフレーム

の復元は、エンハンスメントレイヤの逆量子化係数ｒ_eと、エンハンスメントレイヤからの時間予測Ｐ_eと、ベースレイヤの量子化正規化残差係数ｒ_bとの和に等しい。

[00104]多くの実装形態では、残差はピクチャレベルでバッファリングされることに留意されたい。オンザフライ残差予測が可能であるが、それはビットストリーム内のベースレイヤブロックに位置し、ベースブロックの残差を得るためにそのブロックを再びパースする必要があるので、多くのコストがかかるはずである。
レイヤ間動き予測
[00105]コロケートされたベースレイヤの動きベクトルは、エンハンスメントレイヤ内のＭＢまたはＭＢパーティションの動きベクトル用の予測子を生成するためにスケーリングされ得る。加えて、ＭＢごとに１つのフラグを送る、基本モードと命名された１つのＭＢタイプが存在する。このフラグが真であり、対応するベースレイヤのＭＢがイントラでない場合、動きベクトル、区分化モード、および参照インデックスは、すべてベースレイヤから導出される。
ＨＥＶＣのＳＶＣ拡張
[00106]Ｈ．２６４／ＡＶＣと同様に、ＨＥＶＣは、少なくとも時間スケーラビリティとＳＮＲスケーラビリティと空間スケーラビリティとを提供する、スケーラブルビデオコーディング拡張も有する。
ＨＥＶＣのＳＶＣ拡張および３ＤＶ拡張のための一般化残差予測
[00107]スケーラブルビデオコーディングおよび３Ｄビデオコーディングのための一般化残差予測（ＧＲＰ）は、それらの開示が参照によりそれらの全体で本明細書に組み込まれる、２０１２年７月１０日に出願された米国仮出願第６１／６７０，０７５号、２０１２年９月２７日に出願された米国仮出願第６１／７０６，６９２号、２０１３年７月２日に出願された米国出願第１３／９３３，５８８号、２０１２年８月７日に出願された米国仮出願第６１／６８０，５２２号、および２０１３年８月２日に出願された米国出願第１３／９５７，８４１号に記載されている。本技法では、エンハンスメントレイヤ中の現在ブロックのインター予測残差を予測するために、コロケートされた参照レイヤブロックのインター予測残差が使用され得る。この方法は、インターＣＵおよびスキップモードＣＵに適用され得る。この方法のフレームワークの一例が図７に示され、そこでは単予測の場合が示されている。

[00108]Ｂ_e（７２５）およびＢ_b（７１５）は、それぞれ、エンハンスメントレイヤのピクチャおよびそのコロケートされた参照レイヤブロック内の現在のブロックを意味するものとする。Ｐ_e0（７２０）は、動きベクトルＭＶ_e0を使用することによって取得された、ブロックＢ_e（７２５）についての時間予測を意味するものとする（ここで、サブインデックス０は参照リスト０を指す）。同様に、Ｐ_b0（７１０）は、（必要な場合）アップサンプリングされた参照レイヤの参照ピクチャ内で同じ動きベクトルＭＶ_e0を使用することによって取得された、ブロックＢ_b（７１５）についての時間予測を表すものとする。次いで、参照レイヤブロックＲ_b0のインター予測された残差が、
Ｒ_b0＝（Ｂ_b−Ｐ_b0）（３）
として取得される。

ブロックＢ_e（７２５）についての時間予測Ｐ_e0（７２０）を考慮すると、ブロックＢ_e（７２５）についての最終的な単予測Ｐは、
Ｐ＝Ｐ_e0＋ｗ・（Ｂ_b−Ｐ_b0）（４）
である。ここで、ｗは、０、０．５または１の値をとる、重み係数である。
Ｐフレームなどのいくつかの場合によっては、（４）の以下の変形形態がより効率的な場合があり、
Ｐ＝Ｂ_b＋ｗ・（Ｐ_e0−Ｐ_b0）（５）
ここで、ｗ＝０．５である。したがって、４つの重み付けモード、たとえば、（４）におけるｗ＝０、０．５、および１、ならびに（５）におけるｗ＝０．５がＧＲＰモード用に提案される。

[00109]重み係数ｗは、重み付けインデックスとしてＣＵレベルでシグナリングされ得る。たとえば、重み付けインデックス０、１、２、および３（または異なる順序で）は、それぞれ、（４）における重み付けモード０、０．５、および１、ならびに（５）におけるｗ＝０．５を示すために使用され得る。正規ＣＡＢＡＣモードでの短縮単項コードがシグナリングのために使用され得る。
単一のＭＣ補間ＧＲＰ
[00110]ＧＲＰの計算の複雑さとメモリ帯域幅要件とを低減するために、単一のＭＣ補間が２０１２年１１月２９日に出願された米国仮出願第６１／７３１，４４８号に記載されており、それは参照によりその全体が本明細書に組み込まれる。その出願では、（４）は（６）、すなわち、
Ｐ＝（Ｐ_e0−ｗ・Ｐ_b0）＋ｗ・Ｂ_b （６）
に書き換えられている。
Ｐ_e0とＰ_b0が同じ動きを共有すると考えると、ＭＣ補間は、差分ブロック（Ｐ_e0−ｗ・Ｐ_b0）に直接適用され得、その結果、ＭＣ補間の数は２から１に削減される。その結果、計算の複雑さとメモリアクセスの両方が低減される。
高レベルシンタックス専用ＳＨＶＣ
[00111]高レベルシンタックス専用ＳＨＶＣでは、ＨＥＶＣシングルレイヤコーディングと比較されると、新しいブロックレベルのコーディングツールは存在しない。本手法では、スライスおよびその上のレベルのシンタックス変更、ならびにピクチャのフィルタリングまたはアップサンプリングなどのピクチャレベルの動作のみが許可される。

[00112]レイヤ間の冗長性を低減するために、アップサンプリングされたコロケートされた参照レイヤのピクチャがエンハンスメントレイヤの参照バッファに入れられ、その結果、同じレイヤ内のフレーム間予測と同じ方法でレイヤ間予測が達成される。ＳＨＶＣの現在の作業ドラフト（［５］Ｃｈｅｎ、「ＳＨＶＣＷｏｒｋｉｎｇＤｒａｆｔ１」）およびテストモデル（［６］Ｃｈｅｎ、「ＳＨＶＣＴｅｓｔＭｏｄｅｌ１」）では、レイヤ間参照ピクチャが、長期参照ピクチャとしてマーキングされる。レイヤ間参照の動きベクトルの差分はゼロに制約される。
高レベルシンタックス専用ＳＨＶＣにおけるＧＲＰの模倣
[00113]ＧＲＰは、下記に記載されるように、高レベルシンタックス専用ＳＨＶＣまたはマルチビューＨＥＶＣにおいて模倣され得る。さらなる詳細は、２０１２年９月３０日に出願された米国仮出願第６１／７０８，０１１号、２０１３年１月７日に出願された米国仮出願第６１／７４９，８７４号、および２０１３年９月２７日に出願された米国出願第１４／０４０，２９０号に記載され、それらの開示が参照によりそれらの全体で本明細書に組み込まれる。
ＧＲＰ参照ピクチャの生成
[00114]ＧＲＰは、双方向予測のフレームワークでブロックレベルのＧＲＰ予測を模倣することによって、高レベルシンタックス専用ＳＨＶＣにおいて実現され得る。この場合、単方向ＧＲＰ予測のみが模倣され得る。現在、以下のような３つのＧＲＰ単予測モード（たとえば、（３）〜（５））が存在する。

ここで、Ｂ_bは、現在のピクチャのためのレイヤ間参照を示す。ＧＲＰ参照ピクチャの場合、ＰＯＣおよび動き情報は、ＧＲＰ参照を生成するために使用されるエンハンスメント参照ピクチャのＯＣおよび動き情報と同じであるべきである。
あらかじめ定義されたＧＲＰ参照ピクチャの生成
[00115]差分ピクチャの中でピクセルサンプルの妥当なダイナミックレンジを保持するために、２つのタイプのＧＲＰ参照ピクチャが以下のように定義される。
ＲＧ_half＝ｍｉｎ（ｍａｘ（０, ２・Ｐ_e0−Ｐ_b0）,２^bitdepth−１）（１０）
ＲＧ_one＝ｍｉｎ（ｍａｘ（０, Ｐ_e0−Ｐ_b0＋２^bitdepth-1）,２^bitdepth−１）（１１）
[00116]一般に、エンハンスメントレイヤ参照ピクチャと（アップサンプリングされた）コロケートされた参照レイヤのピクチャの両方が利用可能であるときはいつでも、ＲＧ_halfとＲＧ_oneが生成され得る。

[00117]（７）における単方向ＧＲＰ予測を模倣するために、

基本的に、ＲＧ_halfとＢ_bが参照ピクチャとして使用されるとき、（７）におけるＧＲＰは容易に模倣され得る。

[00118]（８）における単方向ＧＲＰ予測の場合、

この場合、ＲＧ_oneとＢ_bの両方に対するさらなる重み付け２およびオフセット−２^bitdepth-1が、重み付け予測パラメータのシンタックスとともにシグナリングされる必要がある（［２］Ｂｒｏｓｓ、「ＨＥＶＣＳｐｅｃｉｆｉｃａｔｉｏｎＤｒａｆｔ１０」）。

[00119]（９）における単方向ＧＲＰ予測の場合、

この場合、Ｂ_bに対するさらなる重み付け２およびオフセット−２^bitdepth-1が、重み付け予測パラメータのシンタックスとともにシグナリングされる必要がある（［２］Ｂｒｏｓｓ、「ＨＥＶＣＳｐｅｃｉｆｉｃａｔｉｏｎＤｒａｆｔ１０」）。

[00120]一般に、エンハンスメント参照ピクチャごとに、ＧＲＰ参照ＲＧ_halfとＲＧ_oneが生成され、ＧＲＰを模倣するために参照ピクチャリストの中に配置され得る。しかしながら、ピクチャをコーディングするときいくつのＧＲＰ参照ピクチャが使用されるかは、エンコーダの最適化に依存し得る。
ＧＲＰ参照ピクチャのマーキング
[00121]差分ピクチャがＤＰＢに記憶される。差分ピクチャ参照ピクチャセット（ＤＰＲＰＳ）が以下のように作成される。

・ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ、ＲｅｆＰｉｃＳｅｔＬｔＦｏｌｌ、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＢｅｆｏｒｅ、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＡｆｔｅｒ、またはＲｅｆＰｉｃＳｅｔＳｔＦｏｌｌの中のピクチャごとに、その差分ピクチャがＤＰＲＰＳに挿入される。

・ＤＰＲＰＳにない他のすべての差分ピクチャがＤＰＢから削除される。

・現在のピクチャを予測するためにどのピクチャが使用され得るかを決定するために、ＤＰＲＰＳ内のエントリがさらに選択され得る。たとえば、現在のピクチャに最も近いピクチャのみが、ｃｕｒｒＤｉｆｆＲＰＳの形態になるように選ばれる。一代替では、ｃｕｒｒＤｉｆｆＲＰＳはＤＰＲＰＳに等しい。

・さらに、より多くの差分ピクチャがＤＰＲＰＳから削除され得る。

・レイヤ間参照ピクチャセットに類似する参照ピクチャリストを形成するために、ｃｕｒｒＤｉｆｆＲＰＳが使用される。

・ｃｕｒｒＤｉｆｆＲＰＳ内のエントリが短期参照ピクチャとしてマーキングされる。
高レベルシンタックス専用ＳＨＶＣにおける一般化残差予測のシグナリングおよび管理
[00122]本開示は、ＧＲＰ参照ピクチャをどのように効率的にシグナリングおよび管理するかを定義するための解決策に対処することができる。さらに、現在のＳＨＶＣのフレームワークでは、エンハンスメントレイヤで現在のピクチャをコーディングするとき、ただ１つのレイヤ間参照ピクチャが生成され、使用される。本開示は、複数のレイヤ間参照ピクチャを管理する効率的な方法をどのように提供するかの説明を提供する。

[00123]本開示に記載された技法は、ＧＲＰ参照ピクチャを生成し、それらをエンハンスメントレイヤの参照ピクチャリストの中に配置することができる。ＧＲＰ参照ピクチャは、どのＧＲＰ参照ピクチャが生成されるかに基づいて、エンハンスメントレイヤ参照ピクチャと同じ動き情報およびＰＯＣを共有することができる。たとえば、どのＧＲＰ参照ピクチャが生成されるかに基づくエンハンスメントレイヤ参照ピクチャのＰＯＣ番号および動きフィールドが、ＧＲＰ参照ピクチャにコピーされる。上記で説明されたように、ＰＯＣは、ピクチャの出力の順序を示す、ピクチャに関連する値を指すことができる。ＰＯＣ番号は、参照ピクチャを識別するために使用され得る。動きフィールドは、ピクチャ内の様々なブロックに関する動き情報を指し得るし、１つまたは複数の動きベクトルを含むことができる。ＧＲＰ参照ピクチャは、エンハンスメントレイヤ参照ピクチャからコピーされたＰＯＣ番号および動きフィールドに基づいて、生成される。このようにして生成されたＧＲＰ参照ピクチャは、参照ピクチャリストに記憶され得る。

[00124]本開示では、ＧＲＰ参照および他のビデオデータ（たとえば、エンハンスメントレイヤ参照、復元されるべき現在のピクチャなど）がピクチャに関して説明されたが、本技法はビデオデータの他の単位（たとえば、フレームなど）に適用することもできる。たとえば、本技法は、ＧＲＰ参照フレーム、エンハンスメントレイヤ参照フレーム、現在のフレームなどに適用することができる。プログレッシブコーディングの場合、ピクチャとフレームは同じであり得る。

[00125]図８は、本開示の態様による、残差予測参照ピクチャの生成を示すブロック図である。図８は、時刻Ｔ０の場合のベースレイヤ（「ＢＬ」）参照８１０と、エンハンスメントレイヤ（「ＥＬ」）参照８２０と、ＧＲＰ参照８３０とを示す。ＢＬ参照８１０は、（たとえば、アップサンプリングされた）エンハンスメントレイヤに関連するベースレイヤからの参照であり得る。上記で説明されたように、ＧＲＰ参照８３０は、対応するＥＬ参照８２０に基づいて生成され得る。一実施形態では、ＥＬ参照８２０はＰＯＣ番号ｎを有する。ＢＬ参照８１０も同じＰＯＣ番号ｎを有する。ＥＬ参照８２０は、それに関連する動きフィールドを有し、動きフィールドは動きベクトルを含む。ＧＲＰ参照８３０はＥＬ参照８２０に基づいて生成され、その結果、ＧＲＰ参照８３０はＥＬ参照８２０と同じＰＯＣ番号ｎを有し、ＥＬ参照８２０と同じ動きフィールドを有する。これは、ＥＬ参照８２０からＰＯＣ番号ｎと動きフィールドとをコピーすることによって行われ得る。ＧＲＰ参照８３０は、参照リスト８７０（たとえば、ＧＲＰ参照８３０用の特定のサブセット）に記憶され得る。時刻Ｔ１の場合のＥＬの現在のピクチャまたはフレーム８２５は、ＧＲＰ参照８３０に基づいて復元され得る。時刻Ｔ１は時刻Ｔ０よりも後である。ＧＲＰ参照８３０は生成されるが、出力されない場合がある。たとえば、ＧＲＰ参照８３０は、ピクチャの復元を生成するために予測で使用され得るが、それ自体はディスプレイデバイスに出力されない場合がある。

[00126]一実施形態では、２つのタイプのＧＲＰ参照８３０が存在し得るし、ＧＲＰ参照ピクチャ８３０は、たとえば、式（１０）および（１１）に基づいて、上記で説明されたように生成され得る。ＲＧ_half、ＲＧ_one、または両方は、実施形態に応じて生成され得る。ＲＧ_halfおよびＲＧ_oneは異なる重み係数を反映することができる。たとえば、ＲＧ_halfは０．５の重み付けを反映することができ、ＲＧ_oneは１の重み付けを反映することができ、ＲＧ_halfは０．５の重み係数を有するブロックレベルのＧＲＰを模倣することができ、ＲＧ_oneは１の重み係数を有するブロックレベルのＧＲＰを模倣することができる。一実施形態では、式（７）に示された重み付け０．５を有するブロックレベルのＧＲＰを模倣するために、ＲＧ_halfが（１２）に示されたように使用される。別の実施形態では、式（８）に示された重み付け１を有するブロックレベルのＧＲＰを模倣するために、ＲＧ_oneが式（１３）に示されたように使用される。さらに別の実施形態では、ＲＧ_oneは０．５の重み付けを反映するためにも使用され得る。たとえば、式（９）に示された重み付け０．５を有するブロックレベルのＧＲＰを模倣するために、ＲＧ_oneが式（１４）に示されたように使用される。

[00127]ＧＲＰ参照ピクチャ８３０を使用すると、高レベルシンタックス専用ＳＨＶＣにおいて、ブロックレベルでの重み付けされた残差予測の組込みが可能になり得る。たとえば、ＧＲＰで使用される重み係数は、予測に使用され得るＧＲＰ参照ピクチャ８３０にすでに適用されている。ＧＲＰ参照ピクチャ８３０は、ＧＲＰ参照ピクチャ８３０が導出または生成されたエンハンスメントレイヤ参照ピクチャ８２０と同じ動きフィールドとＰＯＣとを共有することができる。対応するエンハンスメントレイヤ参照ピクチャ８２０と同じ動きフィールドとＰＯＣとを共有するＧＲＰ参照ピクチャ８３０を有することは、より良い予測結果につながり得る。一般に、エンハンスメントレイヤ参照ピクチャ８２０は、より良い品質の動きフィールドを有し、したがって、ＥＬ参照ピクチャ８２０の動きフィールドをコピーすることは、より良い予測結果がもたらされ得る。ＧＲＰ参照８３０ピクチャはＥＬ参照ピクチャ８２０と同じＰＯＣを有するので、同じＰＯＣに利用可能なより多くの参照ピクチャが存在し得るし、それらはより良い予測結果につながり得る。

[00128]本技法は、ＧＲＰ参照ピクチャ８３０に関する情報をシグナリングすることもできる。本技法は、たとえば、ビデオパラメータセット（ＶＰＳ）またはＳＰＳにおいて、ＧＲＰ参照ピクチャ８３０が使用されるかどうかをシグナリングすることができる。本技法は、ＧＲＰ参照ピクチャ８３０がどのように生成されるか（たとえば、どの短期参照に基づくか、および何の重み付けタイプを用いるか）をシグナリングすることもできる。一般に、ただ１つの参照ピクチャがＰＯＣに利用可能である。複数の参照ピクチャがＧＲＰ参照ピクチャ８３０の生成で利用可能であり得るので、どの参照ピクチャを使用するかは、ビットストリーム内でシグナリングされ得る。同じピクチャに属するすべてのスライスは同じＧＲＰ参照情報を共有するべきであるという適合制約が適用され得る。

[00129]本技法は、ＧＲＰ参照ピクチャ用の２つのさらなるＲＰＳサブセット、ＲｅｆＰｉｃＳｅｔＧＲＰＲｅｆＣｕｒｒＢｅｆｏｒｅ８７５ａとＲｅｆＰｉｃＳｅｔＧＲＰＲｅｆＣｕｒｒＡｆｔｅｒ８７５ｂとを作成することによって、ＧＲＰ参照を管理することができる。これら２つのサブセットは、ＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＢｅｆｏｒｅおよびＲｅｆＰｉｃＳｅｔＳｔＣｕｒｒＡｆｔｅｒと同様の方式で管理され得る。ＧＲＰ参照ピクチャ８３０だけが、これら２つのサブセットに入れられ得る。その上、ＧＲＰ参照ピクチャ８３０は、他のサブセットの中に配置されない場合がある。ＧＲＰ参照ピクチャ８３０は現在のピクチャ８２５にのみ使用され得るという適合制限が適用され得るし、その結果、ＧＲＰ参照ピクチャ８３０はＤＰＢに記憶されない。

[00130]様々な適合制限がＧＲＰ参照ピクチャの使用に適用され得る。たとえば、ＧＲＰ参照ピクチャ８３０は双予測でペア（ＧＲＰ参照およびレイヤ間参照）として使用されなければならないという適合制限が適用され得る。

[00131]ＧＲＰ参照管理のための技法は、アップサンプリングされた参照レイヤのピクチャなどの、他の生成されたピクチャにも適用され得る。たとえば、コロケートされた参照レイヤのピクチャをどのように生成／アップサンプリングするかが、ビットストリーム内で、たとえばスライスヘッダ内でシグナリングされ得る。任意の生成されたピクチャは現在のピクチャ８２５にのみ使用され得るという適合制限が適用され得るし、その結果、生成されたピクチャはＤＰＢに記憶されない。

[00132]このようにして、下記でさらに説明されるように、本技法は、ＧＲＰ参照ピクチャ８３０をどのように効率的にシグナリングおよび管理するかを定義することができる。
シグナリングをイネーブルにする／制御するツール
[00133]本技法は、ＧＲＰ参照ピクチャ８３０がレイヤに使用されるかどうかを示すために、（エンハンスメントレイヤごとの）ＶＰＳまたはＳＰＳ内でフラグをシグナリングすることができる。たとえば、以下のシンタックスがＳＰＳに追加され得る。

１に等しいｇｒｐ＿ｒｅｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇは、ＧＲＰ参照８３０がレイヤで使用されることを指定する。０に等しいｇｒｐ＿ｒｅｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇは、ＧＲＰ参照８３０がレイヤで使用されないことを指定する。ｇｒｐ＿ｒｅｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇが存在しないとき、それは０に等しいと推定される。
ＧＲＰ参照ピクチャのシグナリング
[00134]本技法は、ビットストリーム内で、たとえば、ピクチャパラメータセット（ＰＰＳ）、スライスヘッダ、およびＲＰＳ内で、ＧＲＰ参照ピクチャ８３０の使用情報をシグナリングすることができる。ＧＲＰ参照ピクチャ８３０をシグナリングする様々な実施形態が下記に記載される。
実施形態１
[00135]一実施形態では、現在のピクチャ８２５用にあらかじめ定義されたタイプ（ＲＧ_halfおよびＲＧ_one）を有するＧＲＰ参照ピクチャ８３０の数が、スライスヘッダまたはＰＰＳ内でシグナリングされる。シグナリングされた数は、ＲＧ_halfおよびＲＧ_oneの総数（たとえば、組み合わされたＲＧ_halfおよびＲＧ_oneの総数）であり得る。代替として、両方の数がシグナリングされ得る（たとえば、ＲＧ_halfの数およびＲＧ_oneの数が別個にシグナリングされ得る）。本実施形態では、ＧＲＰ参照ピクチャ８３０のシグナリングされた数に到達するまで、ＲＧ_halfおよびＲＧ_oneが現在のピクチャ８２５の短期参照ピクチャごとに生成され、ＲｅｆＰｉｃＳｅｔＧＲＰＲｅｆＣｕｒｒＢｅｆｏｒｅ８７５ａおよびＲｅｆＰｉｃＳｅｔＧＲＰＲｅｆＣｕｒｒＡｆｔｅｒ８７５ｂの中に配置される。ＲＧ_halfとＲＧ_oneの両方が同じ短期参照ピクチャ用に生成されるとき、ＲＧ_oneの前にＲＧ_halfが配置される。本実施形態は、生成されるべきＧＲＰ参照ピクチャ８３０の数のみをシグナリングすることができ、ＲＧ_halfおよびＲＧ_oneの両方は、ＧＲＰ参照８３０のシグナリングされた数に到達するまで、（たとえば、あらかじめ定義されたように）生成され得る。
実施形態２
[00136]本実施形態では、ＧＲＰ参照ピクチャ８３０は、以下のようにスライスヘッダ内でシグナリングされる。

ｇｒｐ＿ｒｅｆ＿ｓ０＿ｆｌａｇ［ｉ］およびｇｒｐ＿ｒｅｆ＿ｓ１＿ｆｌａｇ［ｉ］は、ＧＲＰ参照ピクチャが短期参照ピクチャに基づいて生成されるかどうかを指定する。ｇｒｐ＿ｒｅｆ＿ｓ０＿ｆｌａｇ［ｉ］（ｇｒｐ＿ｒｅｆ＿ｓ１＿ｆｌａｇ［ｉ］）が０に等しいとき、ＧＲＰ参照ピクチャは短期参照ピクチャに基づいて生成されない。ｇｒｐ＿ｒｅｆ＿ｓ０＿ｆｌａｇ［ｉ］（ｇｒｐ＿ｒｅｆ＿ｓ１＿ｆｌａｇ［ｉ］）が１に等しいとき、ＲＧ_halfが短期参照ピクチャに基づいて生成される。代替として、ｇｒｐ＿ｒｅｆ＿ｓ０＿ｆｌａｇ［ｉ］（ｇｒｐ＿ｒｅｆ＿ｓ１＿ｆｌａｇ［ｉ］）が１に等しいとき、ＲＧ_oneが短期参照ピクチャに基づいて生成される。ｇｒｐ＿ｒｅｆ＿ｓ０＿ｆｌａｇ［ｉ］およびｇｒｐ＿ｒｅｆ＿ｓ１＿ｆｌａｇ［ｉ］が存在しないとき、それらは０であると推定される。本実施形態では、ただ１つのＧＲＰ参照タイプまたは他のタイプの２つのＧＲＰ参照タイプが生成される。どちらのタイプのＧＲＰ参照を使用するかは、あらかじめ定義され得る。たとえば、ｇｒｐ＿ｒｅｆ＿ｓ０＿ｆｌａｇ［ｉ］（ｇｒｐ＿ｒｅｆ＿ｓ１＿ｆｌａｇ［ｉ］）が１に等しいとき、ＲＧ_halfのみが使用されるか、またはＲＧ_oneのみが使用される。
実施形態３
[00137]本実施形態では、ＧＲＰ参照ピクチャ８３０は、以下のようにスライスヘッダ内でシグナリングされる。

ｇｒｐ＿ｒｅｆ＿ｓ０＿ｉｄｃ［ｉ］およびｇｒｐ＿ｒｅｆ＿ｓ１＿ｉｄｃ［ｉ］は、ＧＲＰ参照ピクチャ８３０が短期参照ピクチャに基づいてどのように生成されるかを指定する。ｇｒｐ＿ｒｅｆ＿ｓ０＿ｉｄｃ［ｉ］（ｇｒｐ＿ｒｅｆ＿ｓ１＿ｉｄｃ［ｉ］）が０に等しいとき、ＧＲＰ参照ピクチャは短期参照ピクチャに基づいて生成されない。ｇｒｐ＿ｒｅｆ＿ｓ０＿ｉｄｃ［ｉ］（ｇｒｐ＿ｒｅｆ＿ｓ１＿ｉｄｃ［ｉ］）が１に等しいとき、ＲＧ_halfが短期参照ピクチャに基づいて生成される。ｇｒｐ＿ｒｅｆ＿ｓ０＿ｉｄｃ［ｉ］（ｇｒｐ＿ｒｅｆ＿ｓ１＿ｉｄｃ［ｉ］）が２に等しいとき、ＲＧ_oneが短期参照ピクチャに基づいて生成される。ｇｒｐ＿ｒｅｆ＿ｓ０＿ｉｄｃ［ｉ］（ｇｒｐ＿ｒｅｆ＿ｓ１＿ｉｄｃ［ｉ］）が３に等しいとき、ＲＧ_halfとＲＧ_oneの両方が短期参照ピクチャに基づいて生成される。ｇｒｐ＿ｒｅｆ＿ｓ０＿ｉｄｃ［ｉ］およびｇｒｐ＿ｒｅｆ＿ｓ１＿ｉｄｃ［ｉ］が存在しないとき、それらは０であると推定される。ｇｒｐ＿ｒｅｆ＿ｓ０＿ｉｄｃ［ｉ］およびｇｒｐ＿ｒｅｆ＿ｓ１＿ｉｄｃ［ｉ］は、２ビット固定コーディングまたはトランケーテッド・ユーナリー・コーディング（truncated unary coding）でコーディングされ得る。

[00138]本実施形態では、すべてのタイプのＧＲＰ参照８３０が生成され得る。上記で説明されたように、ｇｒｐ＿ｒｅｆ＿ｓ０＿ｉｄｃ［ｉ］（ｇｒｐ＿ｒｅｆ＿ｓ１＿ｉｄｃ［ｉ］）の値に応じて、ＲＧ_halfもしくはＲＧ_one、または両方が作成され得るか、または両方とも作成され得ない。本実施形態は、実施形態１、２、および４よりも多くの情報をシグナリングし得る。
実施形態４
[00139]コーディング効率と複雑さとの間のトレードオフとして、ＧＲＰ参照８３０は、短期参照ピクチャのうちのいくつかに基づいてのみ、生成され得る。一実施形態では、ＧＲＰ参照情報は、以下のようにスライスヘッダ内でシグナリングされ得る。

１に等しいｏｎｅ＿ｇｒｐ＿ｒｅｆ＿ｉｎ＿ｏｎｅ＿ｌｉｓｔは、１つのＧＲＰ参照ピクチャがＰスライス用のリスト０内の最初の短期参照ピクチャに基づいて生成されることと、２つのＧＲＰ参照ピクチャ８３０がＢスライス用のリスト０およびリスト１内の最初の短期参照ピクチャに基づいて生成される（各リストが１つのＧＲＰ参照を有する）こととを指定する。０に等しいｏｎｅ＿ｇｒｐ＿ｒｅｆ＿ｉｎ＿ｏｎｅ＿ｌｉｓｔは、ＧＲＰ参照ピクチャがこのスライス用に生成されないことを指定する。ｏｎｅ＿ｇｒｐ＿ｒｅｆ＿ｉｎ＿ｏｎｅ＿ｌｉｓｔが存在しないとき、それは０であると推定される。本実施形態は、リスト０および／またはリスト１内の最初の短期参照ピクチャ用のみにＧＲＰ参照ピクチャ８３０を生成し、したがって、シグナリングの量を低減することができる。生成されるＧＲＰ参照ピクチャのタイプは、あらかじめ定義され得る（たとえば、ＲＧ_halfまたはＲＧ_one）。
ＧＲＰ参照管理
[00140]本技法は、効率的な方式でＧＲＰ参照ピクチャ８３０を管理する方法も提供し得る
ＧＲＰ参照ピクチャによる参照リストの初期化
[00141]一実施形態では、ＲＰＳの５つのサブセット８７５に加えて、２つの新しいサブセットがＧＲＰ参照ピクチャ８３０に提供される。２つの新しいサブセット８７５ａ、８７５ｂは、ＲｅｆＰｉｃＳｅｔＧＲＰＲｅｆＣｕｒｒＢｅｆｏｒｅ８７５ａおよびＲｅｆＰｉｃＳｅｔＧＲＰＲｅｆＣｕｒｒＡｆｔｅｒ８７５ｂと呼ばれ得る。ＧＲＰ参照ピクチャ８３０は、これら２つのサブセット８７５ａ、８７５ｂのみに追加され得る。

・ＲｅｆＰｉｃＳｅｔＧＲＰＲｅｆＣｕｒｒＢｅｆｏｒｅ８７５ａは、現在のピクチャ８２５よりも小さいＰＯＣを有するすべてのＧＲＰ参照ピクチャ８３０からなる。リストは、ＰＯＣ値の降順で初期化される。２つのＧＲＰ参照ピクチャ８３０が同じＰＯＣを共有するとき、ＧＲＰ参照タイプＲＧ_halfを有する１つが最初に配置される。または代替として、ＲＧ_oneが最初に配置される。

・ＲｅｆＰｉｃＳｅｔＧＲＰＲｅｆＣｕｒｒＡｆｔｅｒ８７５ｂは、現在のピクチャ８２５よりも大きいＰＯＣを有するすべてのＧＲＰ参照ピクチャ８３０からなる。リストは、ＰＯＣ値の昇順で初期化される。２つのＧＲＰ参照ピクチャ８３０が同じＰＯＣを共有するとき、ＧＲＰ参照タイプＲＧ_halfを有する１つが最初に配置される。または代替として、ＲＧ_oneが最初に配置される。
参照リストを初期化するとき、ＲｅｆＰｉｃＳｅｔＧＲＰＲｅｆＣｕｒｒＢｅｆｏｒｅ８７５ａおよびＲｅｆＰｉｃＳｅｔＧＲＰＲｅｆＣｕｒｒＡｆｔｅｒ８７５ｂ内のエントリは、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ内のエントリの後に順次挿入される。代替として、ＲｅｆＰｉｃＳｅｔＧＲＰＲｅｆＣｕｒｒＢｅｆｏｒｅ８７５ａおよびＲｅｆＰｉｃＳｅｔＧＲＰＲｅｆＣｕｒｒＡｆｔｅｒ８７５ｂ内のエントリは、ＲｅｆＰｉｃＳｅｔＬｔＣｕｒｒ８７５ｂ内のエントリの前に順次挿入される。
ＧＲＰ参照ピクチャの使用に対する適合制限
[00142]ＧＲＰ参照ピクチャを生成する目的の１つは、高レベルシンタックス専用ＳＨＶＣにおいてＧＲＰコーディングモードを模倣することである。その結果、（１２）、（１３）、および（１４）に示されたように、ＧＲＰ参照ピクチャ８３０のみが、双方向予測において、関係するアップサンプリングされた参照レイヤのピクチャとともに使用され得ることがさらに制約され得る。これにより、より良い予測結果につながり得る。

[00143]生成されたＧＲＰ参照ピクチャ８３０のみが現在のピクチャ８２５に使用され得るという別の適合制限が適用され得、その結果、現在のピクチャ８２５が復号された後、それらはＤＰＢに入れられない。
他の生成されたレイヤ間参照ピクチャの管理
[00144]ＧＲＰ参照ピクチャ８３０と同様に、レイヤ間参照ピクチャは、復号されたピクチャではない場合があるが、コロケートされた参照レイヤのピクチャに基づいて生成され得る。ＧＲＰ参照ピクチャ８３０に関する技法は、レイヤ間参照ピクチャにも使用され得る。

[00145]一実施形態では、適応型アップサンプリングフィルタまたは第２のアップサンプリングフィルタがイネーブルにされる。その結果、現在のピクチャ８２５用のレイヤ間参照ピクチャの２つ以上のバージョンが存在し得る。参照リストを初期化するとき、最も近い参照レイヤからのレイヤ間ピクチャが最初に挿入されるべきである。複数のレイヤ間ピクチャが同じ参照レイヤからのものであるとき、適応型アップサンプリングフィルタまたは第２のアップサンプリングフィルタによって生成されたレイヤ間ピクチャは、デフォルトのアップサンプリングフィルタで生成されたレイヤ間ピクチャの後に挿入されるべきである。

[00146]その上、レイヤ間参照ピクチャの数は、ビットストリーム内で、たとえば、ＳＰＳ、ＰＰＳ、スライスヘッダ、またはＲＰＳ内でシグナリングされ得る。すべてのレイヤ間参照ピクチャが現在のピクチャ８２５のみに使用され得るという別の適合制限が適用され得、その結果、現在のピクチャ８２５が復号された後、それらはＤＰＢに入れられない。

[00147]図９は、本開示の態様による、残差予測参照ピクチャを生成し、関連情報をシグナリングするための例示的な方法を示すフローチャートである。プロセス９００は、エンコーダ（たとえば、図２に示したエンコーダなど）、デコーダ（たとえば、図３に示したデコーダなど）、または任意の他の構成要素によって実行され得る。プロセス９００のブロックについて図２のエンコーダ２０に関して説明するが、プロセス９００は、上述のように、デコーダなどの他の構成要素によって実行され得る。図９に関して記載されるすべての実施形態は、別個に、または互いに組み合わせて実装され得る。プロセス９００に関するいくつかの詳細が、たとえば、図８に関して上記で説明されている。

[00148]上記で説明されたように、ＧＲＰ参照ピクチャは、残差予測参照ピクチャ（「ＲＰＲＰ」）とも呼ばれ得る。プロセス９００は、ブロック９０１で開始する。ブロック９０２で、エンコーダ２０は、残差予測参照ピクチャがデコーダでのピクチャの復元に利用可能であるかどうかを決定する。エンコーダ２０は、レートひずみトレードオフ、計算の複雑さ、メモリアクセス、要件、エンコーダの最適化などの様々な要因に基づいて、決定を行い得る。いくつかの実施形態では、スライスのグループ、スライスなどの、ピクチャ以外のビデオの単位が復元され得る。

[00149]ブロック９０３で、エンコーダ２０は、残差予測参照ピクチャを生成することについての情報を符号化する。情報は、エンハンスメントレイヤに関連する、対応するエンハンスメントレイヤ参照ピクチャに少なくとも部分的に基づいて、残差予測参照ピクチャをどのように生成するかについての情報を含むことができる。たとえば、残差予測参照ピクチャは、エンハンスメントレイヤからのエンハンスメントレイヤ参照ピクチャに基づいて、生成され得る。残差予測参照ピクチャは、それから残差予測参照ピクチャが生成されるべきエンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように構成され得る。情報は、残差予測参照ピクチャの使用がイネーブルにされるか否かを含むことができる。たとえば、エンコーダ２０は、残差予測参照ピクチャの使用がイネーブルにされるか否かを示すフラグを符号化することができる。

[00150]エンコーダ２０は、上記で説明されたように、様々な方法で情報をシグナリングすることができる。いくつかの実施形態では、デコーダは、ある特定の方法で残差予測参照ピクチャを生成する（たとえば、ＲＧ_halfのみ、ＲＧ_oneのみ、または両方を生成する）ように事前構成され得るし、エンコーダ２０は、生成する残差予測参照ピクチャの数のみをシグナリングする。他の実施形態では、デコーダは、ある特定のタイプの残差予測参照ピクチャを生成する（たとえば、ＲＧ_halfまたはＲＧ_oneのみを生成する）ように事前構成され、エンコーダ２０は、その特定のタイプの残差予測参照ピクチャが生成されるべきか否かを示す、１つまたは複数のシンタックス要素をシグナリングする。たとえば、フラグが１の値を示す場合、それは、あらかじめ定義されたタイプの残差予測参照ピクチャを生成することを意味し、フラグが０の値を示す場合、それは、あらかじめ定義されたタイプの残差予測参照ピクチャを生成しないことを意味する。

[00151]いくつかの実施形態では、デコーダは、様々なタイプの残差予測参照ピクチャを生成するように構成され、エンコーダ２０は、残差予測参照ピクチャが作成されるべきかどうかと、どのタイプの残差予測参照ピクチャが作成されるべきかと、を示す、１つまたは複数のシンタックス要素をシグナリングする。たとえば、フラグは複数の値を示すことができ、各値は、どの（１つまたは複数の）タイプの残差予測参照ピクチャを作成するかに関連付けられ得る。上記の実施形態３では、０は残差予測参照ピクチャを生成しないことを意味し、１はＲＧ_halfを生成することを意味し、２はＲＧ_oneを生成することを意味し、３はＲＧ_halfとＲＧ_oneの両方を生成することを意味する。

[00152]いくつかの実施形態では、デコーダは、参照ピクチャリスト内の最初の短期参照ピクチャのみに基づいて、残差予測参照ピクチャを生成するように構成され得る。エンコーダ２０は、残差予測参照ピクチャを生成するか否かのみをシグナリングする。たとえば、フラグは、残差予測参照ピクチャが生成されるべきであることを示す１の値と、残差予測参照ピクチャが生成されるべきではないことを示す０の値とを有する。

[00153]情報は、様々な制約または適合制限に関する情報も含み得る。そのような制約または適合制限の例には、以下が含まれ得る。

・同じピクチャに属するスライスは同じＧＲＰ参照情報を共有するべきである。たとえば、ピクチャのすべてのスライスは、参照リスト内の同じＧＲＰ参照を有する。

・ＧＲＰ参照はペアで使用されるべきである。たとえば、エンハンスメントレイヤのピクチャは、少なくとも２つのＧＲＰ参照に基づいて復元されるべきである。

・ＧＲＰ参照ピクチャは、レイヤ間参照ピクチャとともに使用されるべきである。たとえば、エンハンスメントレイヤのピクチャは、ＧＲＰ参照ピクチャおよび参照レイヤのアップサンプリングされたコロケートされた参照ピクチャに基づいて、復元されるべきである。参照レイヤは、どのＧＲＰ参照ピクチャが生成されるかに基づいて、エンハンスメントレイヤ参照ピクチャに関連するエンハンスメントレイヤに対応することができる。

・ＧＲＰ参照ピクチャは、現在のピクチャのみに使用され得、その結果、ＤＰＢの中に配置されない。

[00154]これらの制約は、復号されるか、またはデコーダにあると推定され、残差予測参照ピクチャの生成時に適用され得る。

[00155]ブロック９０４で、エンコーダ２０は、ビットストリーム内で符号化された情報をシグナリングする。符号化された情報は、復号されるためにデコーダにシグナリングされ得る。情報は、スライスまたはその上のレベルで指定され得る。たとえば、符号化された情報は、ピクチャパラメータセット（ＰＰＳ）、ビデオパラメータセット（ＶＰＳ）、シーケンスパラメータセット（ＳＰＳ）、参照パラメータセット（ＲＰＳ）、スライスヘッダなどで指定され得る。シグナリングされた情報の復号に関するいくつかの詳細が、図１０に関して下記で説明される。プロセス９００は、ブロック９０５で終了する。

[00156]エンコーダ２０は、スケーラブルビデオコーディングにおいて、ビデオ情報の１つまたは複数のレイヤに関連する少なくとも１つの参照ピクチャリストを記憶するように構成された、メモリユニットを含むことができる。エンコーダ２０は、たとえば、残差予測参照ピクチャを生成することについての情報を符号化するプロセスにおいて参照するために、残差予測参照ピクチャを生成および／または記憶し得る。

[00157]図１０は、本開示の態様による、シグナリングされた情報に基づいて残差予測参照ピクチャを生成するための例示的な方法を示すフローチャートである。プロセス１０００は、エンコーダ（たとえば、図２に示されたエンコーダなど）、デコーダ（たとえば、図３に示されたデコーダなど）、または任意の他の構成要素によって実行され得る。プロセス１０００のブロックが図３のデコーダ３０に関して記載されるが、プロセス１０００は、上述されたように、エンコーダなどの他の構成要素によって実行され得る。図１０に関して記載されるすべての実施形態は、別個に、または互いに組み合わせて実装され得る。プロセス１０００に関するいくつかの詳細が、たとえば、図８および図９に関して上記で説明されている。

[00158]プロセス１０００は、ブロック１００１で開始する。ブロック１００２で、デコーダ３０は、残差予測参照ピクチャの生成についてのシグナリングされた情報を復号する。シグナリングされた情報は、図９に関して上記で説明された情報を含み得る。たとえば、シグナリングされた情報は、残差予測参照ピクチャを生成するかどうか、および／またはどのタイプの残差予測参照ピクチャを生成するかを示すことができる。実施形態に応じて、シグナリングされた情報に含まれる情報は変化することができる。いくつかの実施形態が図９とともに記載され、シグナリングされた情報は、これらの様々な実施形態における情報のうちのいずれも含むことができる。

[00159]シグナリングされた情報は、残差予測参照ピクチャの使用がイネーブルにされるか否かを含むことができる。たとえば、フラグは、残差予測参照ピクチャの使用がイネーブルにされる否かを示し得る。シグナリングされた情報は、スライスまたはその上のレベルで指定され得る。たとえば、シグナリングされた情報は、ピクチャパラメータセット（ＰＰＳ）、ビデオパラメータセット（ＶＰＳ）、シーケンスパラメータセット（ＳＰＳ）、参照パラメータセット（ＲＰＳ）、スライスヘッダなどで指定され得る。シグナリングされた情報の符号化に関するいくつかの詳細が、図９に関して上記で説明されている。

[00160]残差予測参照ピクチャを生成するかどうか、および／またはどのように生成するかについての情報は、様々な方法でシグナリングされ得る。いくつかの実施形態では、デコーダ３０は、ある特定の方法で残差予測参照ピクチャを生成する（たとえば、ＲＧ_halfのみ、ＲＧ_oneのみ、または両方を生成する）ように構成され得るし、シグナリングされた情報は、生成する残差予測参照ピクチャの数を含む。他の実施形態では、デコーダ３０は、ある特定のタイプの残差予測参照ピクチャを生成する（たとえば、ＲＧ_halfまたはＲＧ_oneのみを生成する）ように構成され、シグナリングされた情報は、その特定のタイプの残差予測参照ピクチャが生成されるべきか否かを示す、１つまたは複数のシンタックス要素を含む。たとえば、フラグが１の値を示す場合、それは、あらかじめ定義されたタイプの残差予測参照ピクチャを生成することを意味し、フラグが０の値を示す場合、それは、あらかじめ定義されたタイプの残差予測参照ピクチャを生成しないことを意味する。

[00161]いくつかの実施形態では、デコーダ３０は、様々なタイプの残差予測参照ピクチャを生成するように構成され、シグナリングされた情報は、残差予測参照ピクチャが作成されるべきかどうかと、どのタイプの残差予測参照ピクチャが作成されるべきかと、を示す、１つまたは複数のシンタックス要素を含む。たとえば、フラグは複数の値を示すことができ、各値は、どの（１つは複数の）タイプの残差予測参照ピクチャを作成するかに関連付けられ得る。上記の実施形態３では、０は残差予測参照ピクチャを生成しないことを意味し、１はＲＧ_halfを生成することを意味し、２はＲＧ_oneを生成することを意味し、３はＲＧ_halfとＲＧ_oneの両方を生成することを意味する。

[00162]いくつかの実施形態では、デコーダ３０は、参照ピクチャリスト内の最初の短期参照ピクチャのみに基づいて、残差予測参照ピクチャを生成するように構成され得る。シグナリングされた情報は、残差予測参照ピクチャを生成するか否かのみを示す。たとえば、フラグは、残差予測参照ピクチャが生成されるべきであることを示す１の値と、残差予測参照ピクチャが生成されるべきではないことを示す０の値とを有する。

[00163]図９に記載された制約および／または適合制限のうちのいずれも、デコーダ３０によって適用され得る。制約または制限に関する情報は、シグナリングされた情報から復号され得るか、シグナリングされた情報に基づいて推定され得るか、または両方である。制約または適合制限のいくつかの例には、以下が含まれ得る。

[00164]これらの制約または制限は、残差予測参照ピクチャを生成するか、またはエンハンスメントレイヤのピクチャを復元する際に適用され得る。デコーダ３０は、あらかじめ定義されたシンタックスに従って、シグナリングされた情報を復号し、１つまたは複数の残差予測参照ピクチャを生成する際に復号された情報を使用することができる。

[00165]ブロック１００３で、デコーダ３０は、エンハンスメントレイヤ参照ピクチャおよび復号されたシグナリングされた情報に基づいて、残差予測参照ピクチャを生成する。残差予測参照ピクチャは、エンハンスメントレイヤ内の参照ピクチャに基づいて生成され、エンハンスメントレイヤの参照ピクチャリストに記憶され得る。生成された残差予測参照ピクチャは、それから残差予測参照ピクチャが生成されたエンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有することができる。一実施形態では、残差予測参照ピクチャは、残差予測参照ピクチャがエンハンスメントレイヤ参照ピクチャと同じ動きフィールドとＰＯＣとを有するような方式で、生成される。たとえば、残差予測参照ピクチャは、それが基づいているエンハンスメントレイヤ参照ピクチャと同じ動きフィールドを使用し、エンハンスメントレイヤ参照ピクチャ用の同じＰＯＣが残差予測参照ピクチャに割り当てられる。

[00166]ブロック１００４で、デコーダ３０は、メモリユニット内のエンハンスメントレイヤの少なくとも１つの参照ピクチャリストに、生成された残差予測参照ピクチャを記憶する。残差予測参照ピクチャは、記憶され、予測で使用され得るが、（たとえば、ディスプレイデバイスに）出力されない場合がある。デコーダ３０は、残差予測参照ピクチャを記憶する追加のＲＰＳサブセットを有し得る。残差予測参照ピクチャのみがこれらのＲＰＳサブセットに記憶され得、残差予測参照ピクチャは、エンハンスメントレイヤの参照リストの他の既存のサブセットには記憶され得ない。

[00167]デコーダ３０は、残差予測参照ピクチャに基づいて、エンハンスメントレイヤの復元されたピクチャを生成し得る。一実施形態では、デコーダ３０は、エンハンスメントレイヤの参照レイヤのアップサンプリングされたコロケートされた参照ピクチャを生成し、残差予測参照ピクチャおよび参照レイヤのアップサンプリングされたコロケートされた参照ピクチャに基づいて、エンハンスメントレイヤの復元されたピクチャを生成する。たとえば、これは、ＧＲＰ参照がレイヤ間参照とともに使用されるという制約のときに、行われ得る。ある特定の実施形態では、残差予測参照ピクチャは現在のピクチャのみに使用され得、その結果、ＤＰＢの中へ配置されない。

[00168]これらの技法は、高レベルシンタックス専用ＳＨＶＣにおいて使用され得る。高レベルシンタックス専用ＳＨＶＣでは、シグナリングされた情報は、スライスレベルまたはその上のレベルで指定される。ＧＲＰはブロックレベルで利用可能ではないので、デコーダ３０は、エンハンスメントレイヤに関連する参照レイヤ内の対応するピクチャの残差に重み係数を適用することなく、エンハンスメントレイヤの復元されたピクチャを生成し得る。代わりに、デコーダ３０は、１つまたは複数の残差予測参照ピクチャを使用することができる。プロセス１０００は、ブロック１００５で終了する。

[00169]本開示においてＧＲＰ参照に関して記載された任意の特徴および／または実施形態は、別個に、またはそれらの任意の組合せで実装され得る。
高レベルシンタックス専用ＳＨＶＣにおいてＧＲＰを模倣する別の手法
[00170]［７］Ａｍｉｎｌｏｕ、「ＥｎｈａｎｃｅｄＩｎｔｅｒＬａｙｅｒＲｅｆｅｒｅｎｃｅＰｉｃｔｕｒｅ」では、高レベルシンタックス専用ＳＨＶＣにおいてＧＲＰを模倣する別の方法が提案された。この手法では、ベースレイヤ動き情報と、ベースレイヤ参照フレームと、エンハンスメントレイヤ参照とを使用して、高度レイヤ間参照（「ＥＩＬＲ」）ピクチャと呼ばれる新しい参照フレームが生成される。この新しく生成された参照フレームを用いて、ブロックレベルのＧＲＰが模倣され得る。

[00171]ＥＩＬＲピクチャは、エンハンスメントレイヤからの動き補償された高周波成分を、ベースレイヤの復元されたサンプル値に加算することによって、生成される。図１１に示されたように、ＥＩＬＲ１１５０の各ブロック（Ｈ（ｘ，ｙ））１１２５について、対応するコロケートされたブロックがベースレイヤ（Ｂ（ｘ，ｙ））１１１５に位置し、参照フレームと動きベクトル（ＭＶ_BL）とを含むその動き情報が抽出される。ベースレイヤの動き情報を使用して、ベースレイヤ参照ピクチャ（Ｒ’（ｘ，ｙ））１１１０および対応するエンハンスメントレイヤ参照ピクチャ（Ｒ（ｘ，ｙ））１１２０から、動き補償された予測によって２つのブロックが生成される。次いで、これら２つのブロック間の差分（Ｄ（ｘ，ｙ））１１３０が計算され、重み係数（ｗ）によって乗算され、ベースレイヤ参照フレームのコロケートされたブロック１１１５のサンプル値に加算されて、ＥＩＬＲ１１５０のブロック１１２５を形成する。［７］Ａｍｉｎｌｏｕでは、ルーマ成分用の７／８およびクロマ成分用の１（すなわち、重み付けなし）の重み係数が使用される。

[00172]［８］Ｈｅ、「ＩＬＲＥｎｈａｎｃｅｍｅｎｔｗｉｔｈＤｉｆｆｅｒｅｎｔｉａｌＣｏｄｉｎｇ」では、重み係数は、エンコーダによって決定され、デコーダにシグナリングされる。しかしながら、それらの開示が参照によりそれらの全体で本明細書に組み込まれる、２０１３年３月８日に出願された米国仮出願第６１／７７５，３５２号、２０１３年３月１９日に出願された米国仮出願第６１／８０３，３６８号、２０１３年６月７日に出願された米国仮出願第６１／８３２，６２３号、および２０１４年１月７日に出願された米国出願第１４／１４９，２６０号に記載されたように、計算の複雑さとメモリアクセス要件とを低減するために、ＧＲＰブロックの動きベクトルは、整数ピクセル位置に丸められ得る。

[00173]本開示では、様々な実施形態は、以下の態様を改善することに向けられている。

・［７］Ａｍｉｎｌｏｕで導入されたＧＲＰ参照の生成は、それほど効率的ではなく、計算の複雑さに関して込み入っている。

・ＧＲＰ参照がエンハンスメントレイヤの参照リストに挿入された後、ＧＲＰ参照の使用は制約されず、コーディング性能および実装コストに関して効率性が小さくなることにつながる。

・高い計算の複雑さおよび高いメモリアクセス要件のために、ＧＲＰ参照の生成中、動き補償補間は望ましくない。動きベクトルは整数ピクセル位置に丸められ得るが、整数ピクセル精度の動きベクトルは、特に４：２：０のカラーフォーマット内のビデオコンテンツの場合、クロマ成分用の動き補償補間にさらにつながり得るので、問題は完全には解決されない。

[00174]本開示のいくつかの態様によれば、ＧＲＰ参照ピクチャは、いかなる追加の重み係数もなしに、コロケートされたベースレイヤブロック、およびエンハンスメントレイヤ参照とベースレイヤ参照との間の動き補償された差分によって直接生成される。一実施形態では、ＧＲＰ参照ピクチャは、追加の重み係数を組み込むことなく（たとえば、０．５および１のみの重み係数を与え、他の重み係数を与えずに）、式（１０）および（１１）に従って生成される。いくつかの実施形態では、参照によりその全体が本明細書に組み込まれる、２０１３年１月３０日に出願された米国仮出願第６１／７５８，７２３号に記載された、３タップまたは４タップのアップサンプリング／平滑化フィルタは、エンハンスメントレイヤ参照とベースレイヤ参照との間の動き補償された差分を導出するために使用され得る。そのような実施形態では、ＧＲＰ参照は以下のように生成され得る。コロケートされたベースレイヤブロックが動きベクトルを有していないか、またはイントラコーディングされているとき、ベースレイヤのアップサンプリング／フィルタリングされた復元は、ＧＲＰ参照内のコロケートされたブロックに使用される。代替として、ＧＲＰ参照内のコロケートされたブロックを生成するために、ゼロの動きなどのデフォルトの動きベクトルがベースブロック用に想定される。代替として、ＧＲＰ参照内のコロケートされたブロックを生成するために、隣接ブロックからの動きベクトルが使用される。

[00175]上述されたように、ＧＲＰピクチャ内のブロックを生成するために、ベースレイヤ内のコロケートされたベースレイヤブロックの参照ピクチャは、コロケートされたベースレイヤブロックのスケーリングされたＭＶによって示される。次いで、エンハンスメントレイヤ内の対応する参照ピクチャは、ベースレイヤの参照ピクチャと同じアクセスユニットに属するエンハンスメントレイヤのピクチャに設定される。必要なエンハンスメントレイヤおよび／または参照レイヤが、コーディングされたビットストリーム内に存在しない場合があり得る。ＧＲＰピクチャ内の現在のブロックを形成するために使用される（インターコーディングされた）コロケートされたベースブロックのＭＶによって示されたエンハンスメントレイヤ内の２つの参照のうちの１つが利用可能ではないとき、ブロックは単方向予測を使用することによって生成される。（インターコーディングされた）コロケートされたベースブロックの両方の参照がエンハンスメントレイヤ内で利用可能ではないとき、ブロックはイントラコーディングされたと見なされ得るし、以下の動作のうちのいずれかが適用され得る。

・（インターコーディングされた）コロケートされたベースブロックの参照が利用可能ではない場合、同じ参照リスト内のエンハンスメントレイヤとベースレイヤの両方で利用可能な最初の参照が、動き補償された差分を導出するために使用され得る。この場合、新しい参照用の動きベクトルは、時間距離、たとえばＰＯＣ差分に基づいてスケーリングされるべきである。

・ＧＲＰ参照ピクチャ内の現在のブロックを形成するために、コロケートされたベースブロックを使用する。

[00176]ＧＲＰ参照ピクチャの動きフィールドは、レイヤ間参照ピクチャ（アップサンプリングされたコロケートされたベースピクチャ）の動きフィールドと同じ方法で生成され得る。エンハンスメント参照とベースレイヤ参照との間の動き補償された差分を導出する動き補償プロセスは、ＧＲＰ参照ピクチャの生成された動きフィールド、および１６×１６ブロックのレベルなどの動きフィールド内の最小単位のサイズのレベルに基づき得る。

[00177]参照リストにＧＲＰ参照を挿入するとき、
・ＧＲＰ参照ピクチャは、短期参照としてマーキングされ得、また、非ゼロの動きベクトルを有し得る。

・ＧＲＰ参照ピクチャは、長期参照としてマーキングされ得、また、必ずゼロの動きを有する。

・ＧＲＰ参照ピクチャが現在のエンハンスメントのピクチャにのみ使用でき、ＤＰＢに入れられない、という制約が適用され得る。

・ＧＲＰ参照ピクチャが単方向予測のソースとしてのみ使用され得るという制約は、ＧＲＰ参照ピクチャが双方向予測の要素ではあり得ないことを意味する。

[00178]エンハンスメント参照リストを初期化するとき、ＧＲＰ参照ピクチャは、レイヤ間参照ピクチャの直前に配置され得る。代替として、ＧＲＰ参照ピクチャは、レイヤ間参照ピクチャを置き換える。ＧＲＰ参照と同様に、それらの各々の開示が参照によりその全体で本明細書に組み込まれる、２０１３年１月７日に出願された米国仮出願第６１／７４９，８６５号、２０１２年１２月７日に出願された第６１／７３４，９２０号、および２０１３年１月４日に出願された第６１／７４９，０７７号に記載された推定モードなどのいくつかの他の低レベルツールは、ベースレイヤの動きおよびエンハンスメント参照を用いてエンハンスメントレイヤ用の新しい参照フレームを生成することによって、模倣され得る。

[00179]ＧＲＰ参照ピクチャを生成するとき、丸められた動きベクトルは、動き補償補間がルーマ成分とクロマ成分の両方に必要とされないように、使用され得る。一実施形態では、ルーマ成分とクロマ成分は、同じ丸められた動きベクトルを共有する。ビデオコンテンツが４：２：０のカラーフォーマットであるとき、動きベクトルは、動き補償補間がクロマ成分に必要とされないことを保証するために、２倍ピクセル精度で丸められる。ビデオコンテンツが４：２：２のカラーフォーマットであるとき、動きベクトルの水平成分は２倍ピクセル精度で丸められ、動きベクトルの垂直成分は整数ピクセル精度で丸められる。

[00180]別の実施形態では、動き補償補間が必要とされないことを保証するために、同じ動きベクトルの異なる丸められたバージョンがルーマ成分およびクロマ成分に使用される。たとえば、４：２：０のカラーフォーマットのビデオの場合、ブロック用の（１／４ピクセル精度で、３２ビットで表現される）動きベクトルは、（ＭＶｘ，ＭＶｙ）である。ルーマ成分の場合、丸められたＭＶは、（（ＭＶｘ＋４）＆０ｘＦＦＦＦＦＦＦＣ，（ＭＶｙ＋４）＆０ｘＦＦＦＦＦＦＦＣ）であり得る。クロマ成分の場合、丸められたＭＶは、（（ＭＶｘ＋８）＆０ｘＦＦＦＦＦＦＦ８，（ＭＶｙ＋８）＆０ｘＦＦＦＦＦＦＦ８）であり得る。ここで、「＆」はビット単位の論理演算「論理積（アンド）」を示すことに留意されたい。

[00181]動きベクトルは、常に、ゼロ、正の無限大、または負の無限大に向かって丸められ得る。代替として、動きベクトルは、その値に基づいて、正／負の無限大に向かって丸められ得る。たとえば、動きベクトルの垂直成分は、それが正であるとき正の無限大に向かって丸められ、それが負であるとき負の無限大に向かって丸められる。同様に、動きベクトルの水平成分は、それが正であるとき正の無限大に向かって丸められ、それが負であるとき負の無限大に向かって丸められる。
ＧＲＰ参照ピクチャの生成
[00182]本実施形態では、ＧＲＰ参照ピクチャは、復元されたコロケートされたベースレイヤブロックに基づいて生成される。Ｉ_Bがアップサンプリングされたコロケートされたベースピクチャを示すとする。Ｉ_Bの動きフィールドが、レイヤ間参照の動きフィールドを生成するための動きマッピングと同じ動きマッピングによって生成されていると仮定する。ＢがＩ_B内のＰＵを意味し、ＭＶがＢの中の動きベクトルを表し、Ｒ_e、Ｒ’_bが、それぞれエンハンスメント参照、アップサンプリング／平滑化されたベース参照を示すとする。ＧＲＰ参照内のコロケートされたブロックは以下のように生成され得る。

Ｒ_GRP＝Ｂ＋ｗ・ＭＶ（Ｒ_e−Ｒ’_b）（１５）
ここで、ＭＶ（Ｒ）は、動きベクトルＭＶを有する参照Ｒ内の参照ブロックを示す。ｗは重み係数を示し、ｗの通常の値は１であり得る。ｗの値は、スライスタイプもしくは他のスライスレベルまたは上記の情報に基づいて、あらかじめ定義される。ｗはまた、ビットストリーム内でシグナリングされ得る。ビットストリーム内でシグナリングするとき、ｗはあらかじめ定義された値に基づいて量子化され得る。さらなるフィルタリングが、Ｂ、Ｒ_e、Ｒ’_b、ＭＶ（Ｒ_e−Ｒ’_b）、または任意の組合せに適用され得る。ブロックＢが２つの動きベクトルを有するとき、（１５）の双方向性の形態が使用され得る。ブロックＢがイントラコーディングされたとき、ＭＶ（Ｒ）は０として見なされ得るし、その結果、Ｒ_GRP＝Ｂである。生成されたＧＲＰ参照は、コロケートされたベースピクチャのＰＯＣと同じＰＯＣを共有することができる。

[00183]例によっては、本明細書で説明された技法のうちいずれかの、いくつかの行為またはイベントは、異なるシーケンスで実行され得、追加、マージ、または完全に除外され得る（たとえば、すべての説明した作用またはイベントが、本技法の実施のために必要であるとは限らない）ことを認識されたい。さらに、いくつかの例では、行為またはイベントは、連続的にではなく、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサを通して、同時に実行され得る。

[00184]本明細書で開示された情報および信号は、多種多様な技術および技法のいずれかを使用して表され得る。たとえば、上記の説明全体にわたって参照され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、およびチップは、電圧、電流、電磁波、磁場もしくは磁性粒子、光場もしくは光学粒子、またはそれらの任意の組合せによって表され得る。

[00185]本明細書で開示された実施形態に関して記載された様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得る。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップが、概してそれらの機能に関して上述されている。そのような機能がハードウェアとして実装されるか、またはソフトウェアとして実装されるかは、特定の適用例および全体的なシステムに課された設計制約に依存する。当業者は、特定の適用例ごとに様々な方法で記載された機能を実装し得るが、そのような実装の決定は、本発明の範囲からの逸脱を引き起こすと解釈されるべきではない。

[00186]本明細書に記載された技術は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せに実装され得る。そのような技法は、汎用コンピュータ、ワイヤレス通信デバイスハンドセット、またはワイヤレス通信デバイスハンドセットおよび他のデバイスにおける適用例を含む複数の用途を有する集積回路デバイスなどの、様々なデバイスのいずれかにおいて実装され得る。モジュールまたは構成要素として記載された任意の特徴は、集積論理デバイス内で一緒に、または個別であるが相互運用可能な論理デバイスとして別々に実装され得る。ソフトウェアに実装された場合、本技法は、実行されたとき、上述された方法のうちの１つまたは複数を実行する命令を含むプログラムコードを備えるコンピュータ可読データ記憶媒体によって、少なくとも部分的に実現され得る。コンピュータ可読データ記憶媒体は、パッケージング材料を含むことがあるコンピュータプログラム製品の一部を形成し得る。コンピュータ可読媒体は、同期型ダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、電気消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュメモリ、磁気または光学データ記憶媒体などの、メモリまたはデータ記憶媒体を備え得る。本技法は、追加または代替として、伝搬信号または電波などの、命令またはデータ構造の形態でプログラムコードを搬送または伝達し、コンピュータによってアクセスされ、読み取られ、および／または実行され得るコンピュータ可読通信媒体によって、少なくとも部分的に実現され得る。

[00187]プログラムコードは、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）などの１つまたは複数のプロセッサ、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルロジックアレイ（ＦＰＧＡ）、または他の等価の集積回路もしくはディスクリート論理回路を含み得るプロセッサによって実行され得る。そのようなプロセッサは、本開示に記載された技法のいずれかを実行するように構成され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つもしくは複数のマイクロプロセッサ、または任意の他のそのような構成として実装され得る。したがって、本明細書で使用する「プロセッサ」という用語は、上記の構造、上記の構造の任意の組合せ、または本明細書に記載された技法の実装に適した任意の他の構造もしくは装置を指し得る。さらに、いくつかの態様では、本明細書に記載された機能は、符号化および復号のために構成された専用のソフトウェアモジュールもしくはハードウェアモジュール内に提供され得るか、または複合ビデオエンコーダ／デコーダ（コーデック）に組み込まれ得る。

[00188]本発明の様々な実施形態が記載された。これらおよび他の実施形態は、以下の特許請求の範囲内に入る。

[00188]本発明の様々な実施形態が記載された。これらおよび他の実施形態は、以下の特許請求の範囲内に入る。
［Ｃ１］ビデオ情報を復号するための装置であって、
エンハンスメントレイヤの少なくとも１つの参照ピクチャリストを記憶するように構成されたメモリユニットと、前記少なくとも１つの参照ピクチャリストは残差予測参照ピクチャの情報を備え、
前記メモリユニットに動作可能に結合され、
残差予測参照ピクチャの生成についてのシグナリングされた情報を復号することと、
生成される残差予測参照ピクチャが、前記残差予測参照ピクチャが生成されるエンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように、前記エンハンスメントレイヤ参照ピクチャおよび前記復号されたシグナリングされた情報に基づいて、前記残差予測参照ピクチャを生成することと、
前記エンハンスメントレイヤの前記少なくとも１つの参照ピクチャリストに、前記生成された残差予測参照ピクチャを記憶することと、
を行うように構成された、プロセッサと、
を備える、装置。
［Ｃ２］ピクチャの複数のスライスは、同じ生成された残差予測参照ピクチャを有する、Ｃ１に記載の装置。
［Ｃ３］前記シグナリングされた情報は、残差予測参照ピクチャが使用されるかどうかを示すフラグを備え、前記プロセッサは、残差予測参照ピクチャが使用されることを前記フラグが示すとき、前記残差予測参照ピクチャを生成するようにさらに構成された、Ｃ１に記載の装置。
［Ｃ４］前記プロセッサは、残差予測参照ピクチャのみを含む参照パラメータセット（ＲＰＳ）のサブセットに、前記生成された残差予測参照ピクチャを記憶するようにさらに構成された、Ｃ１に記載の装置。
［Ｃ５］前記シグナリングされた情報は、生成されるべき残差予測参照ピクチャの数を備える、Ｃ１に記載の装置。
［Ｃ６］前記残差予測参照ピクチャは、残差予測参照の複数のタイプから選択されたタイプに関連する、Ｃ１に記載の装置。
［Ｃ７］前記シグナリングされた情報は、前記残差予測参照ピクチャを生成するかどうかを示す１つまたは複数のシンタックス要素を備え、残差予測参照の前記複数のタイプのうちのただ１つが、生成されるべき前記残差予測参照ピクチャに利用可能である、Ｃ６に記載の装置。
［Ｃ８］残差予測参照ピクチャの前記複数のタイプのうちの少なくとも２つのタイプが利用可能であり、前記シグナリングされた情報は、前記残差予測参照ピクチャを生成するかどうかを示すとともに前記残差予測参照ピクチャ用の前記少なくとも２つのタイプのうちの１つを示す１つまたは複数のシンタックス要素を備える、Ｃ６に記載の装置。
［Ｃ９］前記プロセッサは、
前記残差予測参照ピクチャに基づいて、前記エンハンスメントレイヤの復元されたピクチャを生成すること、
を行うようにさらに構成された、Ｃ１に記載の装置。
［Ｃ１０］前記プロセッサは、
前記エンハンスメントレイヤの参照レイヤのアップサンプリングされたコロケートされた参照ピクチャを生成することと、
前記残差予測参照ピクチャおよび前記参照レイヤの前記アップサンプリングされたコロケートされた参照ピクチャに基づいて、前記エンハンスメントレイヤの前記復元されたピクチャを生成することと、
を行うようにさらに構成された、Ｃ９に記載の装置。
［Ｃ１１］前記残差予測参照ピクチャは復号ピクチャバッファ（ＤＰＢ）の中に配置されない、Ｃ９に記載の装置。
［Ｃ１２］前記シグナリングされた情報は、スライスレベルまたはその上のレベルで指定される、Ｃ１に記載の装置。
［Ｃ１３］前記プロセッサは、前記エンハンスメントレイヤに関連する参照レイヤ内の対応するピクチャの残差に重み係数を適用することなく、前記エンハンスメントレイヤの前記復元されたピクチャを生成するようにさらに構成された、Ｃ９に記載の装置。
［Ｃ１４］前記シグナリングされた情報は、ピクチャパラメータセット（ＰＰＳ）、ビデオパラメータセット（ＶＰＳ）、シーケンスパラメータセット（ＳＰＳ）、参照パラメータセット（ＲＰＳ）、またはスライスヘッダから選択されたレベルで指定される、Ｃ１に記載の装置。
［Ｃ１５］前記装置は、デスクトップコンピュータ、ノートブックコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、セットトップボックス、電話ハンドセット、スマートフォン、スマートパッド、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、およびビデオストリーミングデバイスのうちの１つまたは複数からなるグループから選択される、Ｃ１に記載の装置。
［Ｃ１６］ビデオ情報を復号する方法であって、
メモリユニットに動作可能に結合されたプロセッサを使用して、残差予測参照ピクチャの生成についてのシグナリングされた情報を復号することと、
生成される残差予測参照ピクチャが、前記残差予測参照ピクチャが生成されるエンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように、エンハンスメントレイヤの前記エンハンスメントレイヤ参照ピクチャおよび前記復号されたシグナリングされた情報に基づいて、前記残差予測参照ピクチャを生成することと、
前記メモリユニット内の前記エンハンスメントレイヤの少なくとも１つの参照ピクチャリストに、前記生成された残差予測参照ピクチャを記憶することと、
を備える、方法。
［Ｃ１７］前記残差予測参照ピクチャは、残差予測参照の複数のタイプから選択されたタイプに関連する、Ｃ１６に記載の方法。
［Ｃ１８］前記シグナリングされた情報は、前記残差予測参照ピクチャを生成するかどうかを示す１つまたは複数のシンタックス要素を備え、残差予測参照の前記複数のタイプのうちのただ１つが、生成されるべき前記残差予測参照ピクチャに利用可能である、Ｃ１７に記載の方法。
［Ｃ１９］残差予測参照ピクチャの前記複数のタイプのうちの少なくとも２つのタイプが利用可能であり、前記シグナリングされた情報は、前記残差予測参照ピクチャを生成するかどうかを示すとともに前記残差予測参照ピクチャ用の前記少なくとも２つのタイプのうちの１つを示す１つまたは複数のシンタックス要素を備える、Ｃ１７に記載の方法。
［Ｃ２０］ビデオ情報を符号化するための装置であって、
スケーラブルビデオコーディングにおいて、ビデオ情報の１つまたは複数のレイヤに関連する少なくとも１つの参照ピクチャリストを記憶するように構成されたメモリユニットと、
前記メモリユニットに動作可能に結合され、
エンハンスメントレイヤに関連する、対応するエンハンスメントレイヤ参照ピクチャに少なくとも部分的に基づいて、残差予測参照ピクチャを生成することについての情報を符号化することと、前記残差予測参照ピクチャは、前記残差予測参照ピクチャが生成される前記エンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように構成され、
前記符号化された情報をビットストリーム内でシグナリングすることと、
を行うように構成された、プロセッサと、
を備える、装置。
［Ｃ２１］前記プロセッサは、ピクチャの複数のスライスが同じ生成された残差予測参照ピクチャを有するという制約を適用するようにさらに構成された、Ｃ２０に記載の装置。
［Ｃ２２］前記符号化された情報は、生成されるべき残差予測参照ピクチャの数を備える、Ｃ２０に記載の装置。
［Ｃ２３］前記残差予測参照ピクチャは、残差予測参照の複数のタイプから選択されたタイプに関連する、Ｃ２０に記載の装置。
［Ｃ２４］前記複数のタイプは、０．５の重み係数を表す第１のタイプと、１の重み係数を表す第２のタイプとを含む、Ｃ２３に記載の装置。
［Ｃ２５］前記符号化された情報は、前記残差予測参照ピクチャを生成するかどうかを示す１つまたは複数のシンタックス要素を備え、残差予測参照の前記複数のタイプのうちのただ１つが、生成されるべき前記残差予測参照ピクチャに利用可能である、Ｃ２３に記載の装置。
［Ｃ２６］残差予測参照ピクチャの前記複数のタイプのうちの少なくとも２つのタイプが利用可能であり、前記符号化された情報は、前記残差予測参照ピクチャを生成するかどうかを示すとともに前記残差予測参照ピクチャ用の前記少なくとも２つのタイプのうちの１つを示す１つまたは複数のシンタックス要素を備える、Ｃ２３に記載の装置。
［Ｃ２７］前記符号化された情報は、前記エンハンスメントレイヤに関連する参照ピクチャリスト内の第１の短期参照ピクチャに基づいて前記残差予測参照ピクチャを生成するかどうかを示す１つまたは複数のシンタックス要素を備える、Ｃ２０に記載の装置。
［Ｃ２８］前記符号化された情報は、ピクチャパラメータセット（ＰＰＳ）、ビデオパラメータセット（ＶＰＳ）、シーケンスパラメータセット（ＳＰＳ）、参照パラメータセット（ＲＰＳ）、またはスライスヘッダから選択されたレベルで指定される、Ｃ２０に記載の装置。
［Ｃ２９］ビデオ情報を符号化する方法であって、
メモリユニットに動作可能に結合されたプロセッサを使用して、エンハンスメントレイヤに関連する、対応するエンハンスメントレイヤ参照ピクチャに少なくとも部分的に基づいて、残差予測参照ピクチャを生成することについての情報を符号化することと、
ここで、前記残差予測参照ピクチャは、前記残差予測参照ピクチャが生成され前記エンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように構成され、
前記メモリユニットは、スケーラブルビデオコーディングにおいて、ビデオ情報の１つまたは複数のレイヤに関連する少なくとも１つの参照ピクチャリストを記憶するように構成され、
前記符号化された情報をビットストリーム内でシグナリングすることと、
を備える、方法。
［Ｃ３０］前記残差予測参照ピクチャは、残差予測参照の複数のタイプから選択されたタイプに関連し、残差予測参照ピクチャの前記複数のタイプのうちの少なくとも２つのタイプが利用可能であり、前記符号化された情報は、前記残差予測参照ピクチャを生成するかどうかを示すとともに前記残差予測参照ピクチャ用の前記少なくとも２つのタイプのうちの１つを示す１つまたは複数のシンタックス要素を備える、Ｃ２９に記載の方法。

Claims

ビデオ情報を復号するための装置であって、
エンハンスメントレイヤの少なくとも１つの参照ピクチャリストを記憶するように構成されたメモリユニットと、前記少なくとも１つの参照ピクチャリストは残差予測参照ピクチャの情報を備え、
前記メモリユニットに動作可能に結合され、
残差予測参照ピクチャの生成についてのシグナリングされた情報を復号することと、
生成される残差予測参照ピクチャが、前記残差予測参照ピクチャが生成されるエンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように、前記エンハンスメントレイヤ参照ピクチャおよび前記復号されたシグナリングされた情報に基づいて、前記残差予測参照ピクチャを生成することと、
前記エンハンスメントレイヤの前記少なくとも１つの参照ピクチャリストに、前記生成された残差予測参照ピクチャを記憶することと、
を行うように構成された、プロセッサと、
を備える、装置。
ピクチャの複数のスライスは、同じ生成された残差予測参照ピクチャを有する、請求項１に記載の装置。
前記シグナリングされた情報は、残差予測参照ピクチャが使用されるかどうかを示すフラグを備え、前記プロセッサは、残差予測参照ピクチャが使用されることを前記フラグが示すとき、前記残差予測参照ピクチャを生成するようにさらに構成された、請求項１に記載の装置。
前記プロセッサは、残差予測参照ピクチャのみを含む参照パラメータセット（ＲＰＳ）のサブセットに、前記生成された残差予測参照ピクチャを記憶するようにさらに構成された、請求項１に記載の装置。
前記シグナリングされた情報は、生成されるべき残差予測参照ピクチャの数を備える、請求項１に記載の装置。
前記残差予測参照ピクチャは、残差予測参照の複数のタイプから選択されたタイプに関連する、請求項１に記載の装置。
前記シグナリングされた情報は、前記残差予測参照ピクチャを生成するかどうかを示す１つまたは複数のシンタックス要素を備え、残差予測参照の前記複数のタイプのうちのただ１つが、生成されるべき前記残差予測参照ピクチャに利用可能である、請求項６に記載の装置。
残差予測参照ピクチャの前記複数のタイプのうちの少なくとも２つのタイプが利用可能であり、前記シグナリングされた情報は、前記残差予測参照ピクチャを生成するかどうかを示すとともに前記残差予測参照ピクチャ用の前記少なくとも２つのタイプのうちの１つを示す１つまたは複数のシンタックス要素を備える、請求項６に記載の装置。
前記プロセッサは、
前記残差予測参照ピクチャに基づいて、前記エンハンスメントレイヤの復元されたピクチャを生成すること、
を行うようにさらに構成された、請求項１に記載の装置。
前記プロセッサは、
前記エンハンスメントレイヤの参照レイヤのアップサンプリングされたコロケートされた参照ピクチャを生成することと、
前記残差予測参照ピクチャおよび前記参照レイヤの前記アップサンプリングされたコロケートされた参照ピクチャに基づいて、前記エンハンスメントレイヤの前記復元されたピクチャを生成することと、
を行うようにさらに構成された、請求項９に記載の装置。
前記残差予測参照ピクチャは復号ピクチャバッファ（ＤＰＢ）の中に配置されない、請求項９に記載の装置。
前記シグナリングされた情報は、スライスレベルまたはその上のレベルで指定される、請求項１に記載の装置。
前記プロセッサは、前記エンハンスメントレイヤに関連する参照レイヤ内の対応するピクチャの残差に重み係数を適用することなく、前記エンハンスメントレイヤの前記復元されたピクチャを生成するようにさらに構成された、請求項９に記載の装置。
前記シグナリングされた情報は、ピクチャパラメータセット（ＰＰＳ）、ビデオパラメータセット（ＶＰＳ）、シーケンスパラメータセット（ＳＰＳ）、参照パラメータセット（ＲＰＳ）、またはスライスヘッダから選択されたレベルで指定される、請求項１に記載の装置。
前記装置は、デスクトップコンピュータ、ノートブックコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、セットトップボックス、電話ハンドセット、スマートフォン、スマートパッド、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、およびビデオストリーミングデバイスのうちの１つまたは複数からなるグループから選択される、請求項１に記載の装置。
ビデオ情報を復号する方法であって、
メモリユニットに動作可能に結合されたプロセッサを使用して、残差予測参照ピクチャの生成についてのシグナリングされた情報を復号することと、
生成される残差予測参照ピクチャが、前記残差予測参照ピクチャが生成されるエンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように、エンハンスメントレイヤの前記エンハンスメントレイヤ参照ピクチャおよび前記復号されたシグナリングされた情報に基づいて、前記残差予測参照ピクチャを生成することと、
前記メモリユニット内の前記エンハンスメントレイヤの少なくとも１つの参照ピクチャリストに、前記生成された残差予測参照ピクチャを記憶することと、
を備える、方法。
前記残差予測参照ピクチャは、残差予測参照の複数のタイプから選択されたタイプに関連する、請求項１６に記載の方法。
前記シグナリングされた情報は、前記残差予測参照ピクチャを生成するかどうかを示す１つまたは複数のシンタックス要素を備え、残差予測参照の前記複数のタイプのうちのただ１つが、生成されるべき前記残差予測参照ピクチャに利用可能である、請求項１７に記載の方法。
残差予測参照ピクチャの前記複数のタイプのうちの少なくとも２つのタイプが利用可能であり、前記シグナリングされた情報は、前記残差予測参照ピクチャを生成するかどうかを示すとともに前記残差予測参照ピクチャ用の前記少なくとも２つのタイプのうちの１つを示す１つまたは複数のシンタックス要素を備える、請求項１７に記載の方法。
ビデオ情報を符号化するための装置であって、
スケーラブルビデオコーディングにおいて、ビデオ情報の１つまたは複数のレイヤに関連する少なくとも１つの参照ピクチャリストを記憶するように構成されたメモリユニットと、
前記メモリユニットに動作可能に結合され、
エンハンスメントレイヤに関連する、対応するエンハンスメントレイヤ参照ピクチャに少なくとも部分的に基づいて、残差予測参照ピクチャを生成することについての情報を符号化することと、前記残差予測参照ピクチャは、前記残差予測参照ピクチャが生成される前記エンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように構成され、
前記符号化された情報をビットストリーム内でシグナリングすることと、
を行うように構成された、プロセッサと、
を備える、装置。
前記プロセッサは、ピクチャの複数のスライスが同じ生成された残差予測参照ピクチャを有するという制約を適用するようにさらに構成された、請求項２０に記載の装置。
前記符号化された情報は、生成されるべき残差予測参照ピクチャの数を備える、請求項２０に記載の装置。
前記残差予測参照ピクチャは、残差予測参照の複数のタイプから選択されたタイプに関連する、請求項２０に記載の装置。
前記複数のタイプは、０．５の重み係数を表す第１のタイプと、１の重み係数を表す第２のタイプとを含む、請求項２３に記載の装置。
前記符号化された情報は、前記残差予測参照ピクチャを生成するかどうかを示す１つまたは複数のシンタックス要素を備え、残差予測参照の前記複数のタイプのうちのただ１つが、生成されるべき前記残差予測参照ピクチャに利用可能である、請求項２３に記載の装置。
残差予測参照ピクチャの前記複数のタイプのうちの少なくとも２つのタイプが利用可能であり、前記符号化された情報は、前記残差予測参照ピクチャを生成するかどうかを示すとともに前記残差予測参照ピクチャ用の前記少なくとも２つのタイプのうちの１つを示す１つまたは複数のシンタックス要素を備える、請求項２３に記載の装置。
前記符号化された情報は、前記エンハンスメントレイヤに関連する参照ピクチャリスト内の第１の短期参照ピクチャに基づいて前記残差予測参照ピクチャを生成するかどうかを示す１つまたは複数のシンタックス要素を備える、請求項２０に記載の装置。
前記符号化された情報は、ピクチャパラメータセット（ＰＰＳ）、ビデオパラメータセット（ＶＰＳ）、シーケンスパラメータセット（ＳＰＳ）、参照パラメータセット（ＲＰＳ）、またはスライスヘッダから選択されたレベルで指定される、請求項２０に記載の装置。
ビデオ情報を符号化する方法であって、
メモリユニットに動作可能に結合されたプロセッサを使用して、エンハンスメントレイヤに関連する、対応するエンハンスメントレイヤ参照ピクチャに少なくとも部分的に基づいて、残差予測参照ピクチャを生成することについての情報を符号化することと、
ここで、前記残差予測参照ピクチャは、前記残差予測参照ピクチャが生成され前記エンハンスメントレイヤ参照ピクチャと同じ動きフィールドおよび同じピクチャ順序カウント（ＰＯＣ）を有するように構成され、
前記メモリユニットは、スケーラブルビデオコーディングにおいて、ビデオ情報の１つまたは複数のレイヤに関連する少なくとも１つの参照ピクチャリストを記憶するように構成され、
前記符号化された情報をビットストリーム内でシグナリングすることと、
を備える、方法。
前記残差予測参照ピクチャは、残差予測参照の複数のタイプから選択されたタイプに関連し、残差予測参照ピクチャの前記複数のタイプのうちの少なくとも２つのタイプが利用可能であり、前記符号化された情報は、前記残差予測参照ピクチャを生成するかどうかを示すとともに前記残差予測参照ピクチャ用の前記少なくとも２つのタイプのうちの１つを示す１つまたは複数のシンタックス要素を備える、請求項２９に記載の方法。