JP6352314B2

JP6352314B2 - 異なるアスペクト比を伴う空間スケーラビリティのためのレイヤ間の参照ピクチャの構築

Info

Publication number: JP6352314B2
Application number: JP2015561505A
Authority: JP
Inventors: ラマスブラモニアン、アダルシュ・クリシュナン; チェン、イン; リ、シャン; ワン、イェ−クイ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-03-05
Filing date: 2014-03-03
Publication date: 2018-07-04
Anticipated expiration: 2034-03-03
Also published as: CN105075258A; CN105075258B; JP2016513913A; US20140254679A1; KR20200037462A; KR102276777B1; WO2014137920A1; KR20150122767A; US10284842B2; EP2965513B1; EP2965513A1

Description

[0001]本開示は、一般に、ビデオコーディングおよび圧縮に関する。詳細には、本開示は、高効率ビデオコーディング（ＨＥＶＣ）およびその拡張、たとえば、スケーラブルビデオコーディング（ＳＶＣ）、マルチビュービデオ、および３次元コーディング（ＭＶＣ、３ＤＶ）などに関する。いくつかの実施形態では、本開示は、異なるピクチャアスペクト比（ＰＡＲ）を有するピクチャを、ＳＶＣでコーディング（たとえば、符号化または復号）することに関する。他の実施形態では、本開示は、レイヤ間予測に関する参照レイヤおよび／またはエンハンスメントレイヤの領域を、信号で伝えることに関する。

[0002]デジタルビデオ機能は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップまたはデスクトップコンピュータ、タブレットコンピュータ、電子ブックリーダ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、セルラーまたは衛星無線電話、いわゆる「スマートフォン」、ビデオ遠隔会議デバイス、ビデオストリーミングデバイスなどを含む、広範囲にわたるデバイスに組み込まれ得る。デジタルビデオデバイスは、ＭＰＥＧ−２、ＭＰＥＧ−４、ＩＴＵ−ＴＨ．２６３、ＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４、Ｐａｒｔ１０、アドバンストビデオコーディング（ＡＶＣ）、現在開発中の高効率ビデオコーディング（ＨＥＶＣ）規格によって定義された規格、およびそのような規格の拡張に記載されているビデオコーディング技法など、ビデオコーディング技法を実装する。ビデオデバイスは、そのようなビデオコーディング技法を実装することによって、デジタルビデオ情報を送信、受信、符号化、復号、および／または記憶することができる。

[0003]ビデオコーディング技法は、ビデオシーケンスに固有の冗長性を低減または除去するために、空間的（イントラピクチャ）予測および／または時間的（インターピクチャ）予測を含む。ブロックベースのビデオコーディングでは、ビデオスライス（たとえば、ビデオフレームまたはビデオフレームの一部分）は、ツリーブロック、コーディングユニット（ＣＵ）、および／またはコーディングノードと呼ばれることもある、ビデオブロックに区分され得る。ピクチャのイントラコード化（Ｉ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間的予測を使用して符号化される。ピクチャのインターコード化（ＰまたはＢ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間的予測、または他の参照ピクチャ中の参照サンプルに対する時間的予測を使用し得る。ピクチャはフレームと呼ばれる場合があり、参照ピクチャは参照フレームと呼ばれる場合がある。

[0004]空間的または時間的予測は、コーディングされるべきブロックの予測ブロックを生じる。残差データは、コーディングされるべき元のブロックと予測ブロックとの間のピクセル差分を表す。インターコード化ブロックは、予測ブロックを形成する参照サンプルのブロックを指す動きベクトル、およびコーディングされたブロックと予測ブロックとの間の差分を示す残差データに従って符号化される。イントラコード化ブロックは、イントラコード化モードおよび残差データに従って符号化される。さらなる圧縮のために、残差データは、ピクセル領域から変換領域に変換されて、残差変換係数が得られ得、その残差変換係数は、量子化され得る。量子化変換係数は、最初は２次元アレイで構成され、変換係数の１次元ベクトルを生成するために走査され得、なお一層の圧縮を達成するために、エントロピーコーディングが適用され得る。

[0005]いくつかの実施形態によれば、ビデオ情報をコーディングするように構成される装置は、参照レイヤのピクチャの少なくとも一部分を、アップサンプルされたピクチャサイズを有するアップサンプルされたピクチャへアップサンプルするプロセッサ構成されたを含み、アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを備える。プロセッサは、アップサンプルされたピクチャと関連した位置情報を、信号で伝えるように、さらに構成され得る。たとえば、プロセッサは、エンハンスメントレイヤのピクチャと関連した位置情報に基づいて、アップサンプルされたピクチャと関連した位置情報を決定するように、さらに構成され得る。エンハンスメントレイヤのピクチャと関連した位置情報は、エンハンスメントレイヤのピクチャの座標を備え得る。プロセッサは、アップサンプルされたピクチャおよび位置情報に基づいて、レイヤ間の参照ピクチャを生成するように、さらに構成され得る。

[0006]いくつかの実施形態では、参照レイヤのピクチャのアップサンプルされる部分のサイズは、参照レイヤのピクチャのサイズと等しい。プロセッサは、さらに、信号で伝えられる位置情報を送信または受信するように構成され得る。

[0007]いくつかの実施形態では、アップサンプルされたピクチャサイズは、エンハンスメントレイヤのピクチャのサイズ以下である。たとえば、水平または垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、エンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも小さくてもよい。プロセッサは、アップサンプルされたピクチャサイズとエンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定し、サイズの差に基づいて、アップサンプルされたピクチャサイズを増大させるように、さらに構成され得る。いくつかの実施形態では、プロセッサは、アップサンプルされたピクチャにピクセル値をパディングすることによって、アップサンプルされたピクチャサイズを増大させ、アップサンプルされたピクチャ内の最も近い境界ピクセルの値に基づいて、埋められる（padded）ピクセル値を決定するように、さらに構成され得る。

[0008]いくつかの実施形態では、アップサンプルされたピクチャサイズは、エンハンスメントレイヤのピクチャのサイズ以上である。たとえば、水平または垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、エンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも大きくてもよい。プロセッサは、アップサンプルされたピクチャサイズとエンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定し、サイズの差に基づいて、アップサンプルされたピクチャサイズを低減するように、さらに構成され得る。たとえば、プロセッサは、アップサンプルされたピクチャからピクセル値を切り取ることによって、アップサンプルされたピクチャサイズを減少させるように構成され得る。

[0009]いくつかの実施形態では、プロセッサは、信号で伝えられた位置情報に少なくとも部分的に基づいて、水平方向または垂直方向に関するアップサンプル比を決定するように、さらに構成される。いくつかの実施形態では、装置は、ビデオエンコーダを備える。他の実施形態では、装置は、ビデオデコーダを備える。

[0010]別の実施形態では、ビデオ情報をコーディングする方法は、参照レイヤのピクチャの少なくとも一部分を、アップサンプルされたピクチャサイズを有するアップサンプルされたピクチャへアップサンプルすることと、アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを備える、アップサンプルされたピクチャと関連した位置情報を信号で伝えることとを含む。方法は、エンハンスメントレイヤのピクチャと関連した位置情報に基づいて、アップサンプルされたピクチャと関連した位置情報を決定することを含んでもよい。たとえば、エンハンスメントレイヤのピクチャと関連した位置情報は、エンハンスメントレイヤのピクチャの座標を備え得る。方法は、アップサンプルされたピクチャおよび位置情報に基づいて、レイヤ間の参照ピクチャを生成することを、さらに含んでもよい。

[0011]別の実施形態では、ビデオコーディング装置は、参照レイヤのピクチャを、アップサンプルされたピクチャサイズを有するアップサンプルされたピクチャへアップサンプルするための手段と、アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを備える、アップサンプルされたピクチャと関連した位置情報を信号で伝えるための手段とを含む。ビデオコーディング装置は、エンハンスメントレイヤのピクチャと関連した位置情報に基づいて、アップサンプルされたピクチャと関連した位置情報を決定するための手段を、さらに含んでもよい。ビデオコーディング装置は、アップサンプルされたピクチャサイズとエンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定することを、さらに含み、サイズの差に基づいて、アップサンプルされたピクチャサイズを増大させ得る。

[0012]別の実施形態では、プロセッサによって実行されたときに、プロセッサに、参照レイヤのピクチャを、アップサンプルされたピクチャサイズを有するアップサンプルされたピクチャへアップサンプルさせ、アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを備える、アップサンプルされたピクチャと関連した位置情報を信号で伝えさせる、そこに記憶されている命令を有する非一時的なコンピュータ可読媒体。非一時的なコンピュータ可読媒体は、実行されたときに、プロセッサに、エンハンスメントレイヤのピクチャと関連した位置情報に基づいて、アップサンプルされたピクチャと関連した位置情報を決定させる、そこに記憶されている命令を、さらに有してもよい。非一時的なコンピュータ可読媒体は、実行されたときに、プロセッサに、アップサンプルされたピクチャサイズとエンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定させ、サイズの差に基づいて、アップサンプルされたピクチャサイズを増大させる、そこに記憶されている命令を、さらに有してもよい。

[0013]本開示で説明する態様による技法を利用し得る例示的なビデオ符号化および復号システムを示すブロック図。 [0014]本開示で説明する態様による技法を実装し得るビデオエンコーダの例を示すブロック図。 [0015]本開示で説明する態様による技法を実装し得るビデオデコーダの例を示すブロック図。 [0016]本開示の態様による３つの異なる寸法でのスケーラビリティを示すブロック図。 [0017]本開示の態様によるスケーラブルビデオコーディング（ＳＶＣ）のビットストリームの例示的な構造を示すブロック図。 [0018]本開示の態様によるビットストリーム中の例示的なＳＶＣアクセスユニットを示すブロック図。 [0019]参照レイヤとエンハンスメントレイヤとの間のピクチャアスペクト比のスケーラビリティの例を示す図。 [0020]参照レイヤとエンハンスメントレイヤとの間のピクチャアスペクト比のスケーラビリティの別の例を示す図。 [0021]一実施形態による参照レイヤのピクチャの一部分をエンハンスメントレイヤにアップサンプルすることの例を示す図。 [0022]一実施形態による参照レイヤのピクチャをエンハンスメントレイヤにアップサンプルすることの例を示す図。 [0023]別の実施形態による参照レイヤのピクチャをエンハンスメントレイヤにアップサンプルすることの例を示す図。 [0024]別の実施形態による参照レイヤのピクチャをエンハンスメントレイヤにアップサンプルすることの例を示す図。 [0025]別の実施形態による参照レイヤのピクチャをエンハンスメントレイヤにアップサンプルすることの例を示す図。 [0026]一実施形態によるビデオデータをコーディングするための方法を示す図。

[0027]本開示に記載される技法は、一般に、スケーラブルビデオコーディング（ＳＶＣ）および／またはマルチビュー／３次元ビデオコーディングに関する。たとえば、技法は、高効率ビデオコーディング（ＨＥＶＣ）のスケーラブルビデオコーディング（ＳＶＣ）の拡張に関してよく、それを伴って、またはそれの中で使用されてもよい。ＳＶＣでは、ビデオ情報の多数のレイヤが存在し得る。ビデオ情報の最下部のレベルすなわち最も低いレベルのレイヤは、ベースレイヤ（ＢＬ）または参照レイヤ（ＲＬ）として働き得、ビデオ情報の最上部のレベルすなわち最も高いレベルのレイヤは、エンハンストレイヤ（ＥＬ）として働き得る。「エンハンストレイヤ」は、「エンハンスメントレイヤ」と同義であると考えられ得るし、これらの用語は互換的に使用される場合がある。ＢＬとＥＬとの間のレイヤは、ＥＬおよび／またはＲＬとして働き得る。たとえば、所与のレイヤは、ベースレイヤまたは間に入る任意のエンハンスメントレイヤなどの、所与のレイヤよりも下の（たとえば、先行する）レイヤのためのＥＬであり得る。さらに、所与のレイヤは、また、所与のレイヤよりも上の（たとえば、後続の）エンハンスメントレイヤのための参照レイヤとして働き得る。ベースレイヤ（たとえば、レイヤ識別（ＩＤ）が「１」に設定されているか、または「１」と等しい、たとえば、最も低いレイヤ）とトップレイヤ（すなわち、最も高いレイヤ）との間にある任意の所与のレイヤは、所与のレイヤに比べて高いレイヤによるレイヤ間予測のための参照として使用され得、所与のレイヤよりも低いレイヤをレイヤ間予測のための参照として使用して、決定され得る。

[0028]例示のみを目的として、本開示に記載される技法は、２つのレイヤ（たとえば、参照レイヤのような低いレベルのレイヤ、およびエンハンストレイヤのような高いレベルのレイヤ）のみを含む例とともに説明される。本開示に記載される例は、多数の参照レイヤおよびエンハンスメントレイヤを伴う例に、同様に拡張され得ることを理解されたい。加えて、説明を簡単にするため、以下の開示は、主に「ピクチャ」という用語を使用する。しかしながら、これらの用語は、限定的であることを意味しない。たとえば、以下に記載される技法は、ブロック（たとえば、ＣＵ、ＰＵ、ＴＵ、マクロブロックなど）、スライス、フレーム、ブロックなどのような、ビデオユニットと関連した他の用語とともに使用され得る。

[0029]ＳＨＶＣでのレイヤ間予測をサポートするために、アップサンプルされた参照レイヤのピクチャが、エンハンスメントレイヤのピクチャの参照ピクチャリストでの参照ピクチャとして使用される場合、参照レイヤの再構築されたピクチャの解像度が、アップサンプルの後、エンハンスメントレイヤのピクチャの解像度と等しくないときに、問題が起きる。たとえば、一般に、参照レイヤのピクチャをアップサンプルすることは、参照レイヤのピクチャの解像度を増大させる。詳細には、参照レイヤのピクチャをアップサンプルすることは、アップサンプルされた参照レイヤの中のいくつかのピクセルを増大させる。アップサンプルは、アップサンプルスケールファクタＳ＝Ｎ／Ｍによって示され得、ここで、Ｓは、アップサンプルスケールファクタを示し、Ｎは、アップサンプルされた参照レイヤのピクチャでのいくつかの出力ピクセルを示し、Ｍは、参照レイヤのピクチャでのいくつかの入力ピクセルを示す。アップサンプルスケールファクタは、水平方向および垂直方向で同じであってよく、またはアップサンプルスケールファクタは、異なってもよい。しかしながら、アップサンプルされた参照レイヤのピクチャが、エンハンスメントレイヤのピクチャの参照ピクチャリストでの参照ピクチャとして使用される場合、アップサンプルスケールファクタが既知でないかもしれないので、問題が起こる。加えて、アップサンプルされた参照レイヤのピクチャが、エンハンスメントレイヤのピクチャのものと同じ解像度を有しない場合、アップサンプルされた参照レイヤのピクチャは、レイヤ間の参照ピクチャとして直接（たとえば、さらなる修正なく）使用され得ない。

[0030]別の問題が、エンハンスメントレイヤのピクチャの整合に関して、アップサンプルされた参照レイヤの領域を信号で伝えることについて起き得る。たとえば、エンハンスメントレイヤのピクチャが多数のレイヤから予測される場合、１つのレイヤに対応するパラメータの１つのセットを信号で伝えることは、不十分であり得る。加えて、参照レイヤのピクチャの断片（たとえば、一部分）のみが、レイヤ間予測のために使用され得ることが可能である。

[0031]コーディングの複雑さを低減し、ＳＨＶＣでのレイヤ間予測のための頑強なサポートを提供するために、異なるアスペクト比を有するレイヤからのレイヤ間の参照ピクチャの構築のための技法が使用され得る。たとえば、いくつかの実施形態では、ビデオデータをコーディングする方法は、参照レイヤのピクチャの少なくとも一部分を、アップサンプルされたピクチャサイズを有するアップサンプルされた参照レイヤのピクチャにアップサンプルすることを含む。アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを含む。オフセットなどの、アップサンプルされたピクチャと関連した位置情報は、信号で伝えられ得る。たとえば、アップサンプルされたピクチャと関連した位置情報は、エンハンスメントレイヤのピクチャと関連した位置情報に基づいて決定され得る。詳細には、アップサンプルされたエンハンスメントレイヤの位置は、エンハンスメントレイヤのピクチャの境界に対するオフセットにより規定される。加えて、基づいたエンハンスメントレイヤのピクチャと関連した位置情報は、エンハンスメントレイヤのピクチャの座標を含み得る。たとえば、オフセットは、エンハンスメントレイヤのピクチャのいくつかのピクセルを規定し得る。加えて、レイヤ間の参照ピクチャは、アップサンプルされたピクチャおよび位置情報に基づいて、生成され得る。

ビデオコーディング規格
[0032]本明細書に記載されるいくつかの実施形態は、ＨＥＶＣ（高効率ビデオコーディング）などの改良型のビデオコーデックのコンテキストにおいて、スケーラブルビデオコーディングのためのレイヤ間予測に関する。より詳細には、本開示は、ＨＥＶＣのスケーラブルビデオコーディング（ＳＶＣ）拡張におけるレイヤ間予測の実行を改善するためのシステムおよび方法に関する。以下の説明では、いくつかの実施形態に関係するＨ．２６４／ＡＶＣ技法が記載され、ＨＥＶＣ規格および関係する技法も説明される。ＨＥＶＣ規格および／またはＨ．２６４規格のコンテキストにおいて、いくつかの実施形態が本明細書に記載されるが、本明細書で開示されるシステムおよび方法が任意の適切なビデオコーディング規格に適用可能であり得ることを、当業者なら諒解されよう。たとえば、本明細書で開示される実施形態は、以下の規格、すなわち、ＩＴＵ−ＴＨ．２６１、ＩＳＯ／ＩＥＣＭＰＥＧ−１ビジュアル、ＩＴＵ−ＴＨ．２６２もしくはＩＳＯ／ＩＥＣＭＰＥＧ−２ビジュアル、ＩＴＵ−ＴＨ．２６３、ＩＳＯ／ＩＥＣＭＰＥＧ−４ビジュアル、およびそのスケーラブルビデオコーディング（ＳＶＣ）およびマルチビュービデオコーディング（ＭＶＣ）拡張を含むＩＴＵ−ＴＨ．２６４（ＩＳＯ／ＩＥＣＭＰＥＧ−４ＡＶＣとも呼ばれる）のうちの、１つまたは複数に適用可能であり得る。

[0033]スケーラブルビデオコーディング（ＳＶＣ）は、（信号対雑音比（ＳＮＲ）とも呼ばれる）品質スケーラビリティ、空間スケーラビリティ、および／または時間スケーラビリティを実現するために使用され得る。たとえば、一実施形態では、参照レイヤ（たとえば、基本レイヤ）は、第１の品質レベルでビデオを表示するのに十分なビデオ情報を含み、エンハンスメントレイヤは、参照レイヤと比べてさらなるビデオ情報を含み、その結果、参照レイヤおよびエンハンスメントレイヤは一緒に、第１の品質レベルよりも高い第２の品質レベル（たとえば、少ない雑音、大きい解像度、より良いフレームレートなど）でビデオを表示するのに十分なビデオ情報を含む。エンハンストレイヤは、参照レイヤと異なる空間解像度を有し得る。たとえば、アップサンプルされたピクチャと参照レイヤのピクチャとの間の空間的なアスペクト比は、１．０、１．５、２．０または他の異なる比であり得る。言い換えれば、アップサンプルされたピクチャの空間的なアスペクトは、参照レイヤのピクチャの空間的なアスペクトの１．０、１．５、または２．０倍に等しくてよい。いくつかの例では、アップサンプルされるピクチャのスケーリングファクタは、参照レイヤのピクチャよりも大きくてよい。たとえば、エンハンスメントレイヤでのピクチャのサイズは、参照レイヤでのピクチャのサイズよりも大きくてよい。このようにして、限定でないけれども、エンハンスメントレイヤの空間解像度は、参照レイヤの空間解像度よりも大きいことが起こり得る。

[0034]Ｈ．２６４用のＳＶＣ拡張では、現在のブロックの予測は、ＳＶＣ用に提供された様々なレイヤを使用して実施され得る。そのような予測は、レイヤ間予測と呼ばれる場合がある。レイヤ間予測方法は、レイヤ間の冗長性を低減するためにＳＶＣ内で利用され得る。レイヤ間予測のいくつかの例は、レイヤ間イントラ予測と、レイヤ間動き予測と、レイヤ間モード予測と、レイヤ間残差予測とを含み得る。レイヤ間イントラ予測は、エンハンスメントレイヤでの現在のブロックを予測するために、参照レイヤで並べられたブロックの再構築を使用する。レイヤ間動き予測は、エンハンスメントレイヤでの動きを予測するために、参照レイヤの動きを使用する。レイヤ間モード予測は、参照レイヤでのモードに基づいて、エンハンスメントレイヤでのモードを予測する。レイヤ間残差予測は、エンハンスメントレイヤの残差を予測するために、参照レイヤの残差を使用する。

[0035]新規のシステム、装置、および方法の様々な態様は、これ以降、添付図面を参照して、より十分に説明される。しかしながら、本開示は、多くの異なる形態で実施可能であり、本開示の全体を通して示される任意の特定の構造または機能に限定されるものと解釈されるべきでない。むしろ、本開示が、入念で完全であり、本開示の範囲を当業者に十分に伝達するように、これらの態様が提供される。本明細書での教示に基づいて、当業者は、本発明の任意の他の態様から独立して実施されるか、または、本発明の任意の他の態様と組み合わされて実施されるかにかかわらず、本開示の範囲が、本明細書で開示される新規のシステム、装置、および方法の任意の態様を包含することを意図することを諒解するべきである。たとえば、本明細書で述べられる任意の数の態様を使用して装置が実施されてよく、または方法が実施されてもよい。加えて、本発明の範囲は、本明細書で述べられる本発明の様々な態様に加えて、またはそれ以外の、他の構造、機能性、または構造および機能性を使用して実施されるそのような装置または方法を包含することを意図する。本明細書で開示する任意の態様は、特許請求の範囲の１つまたは複数の要素により実施されてもよいことを理解されたい。

[0036]特定の態様が本明細書で説明されるけれども、これらの態様の多くの変形および並べ替えは、本開示の範囲内に属する。好ましい態様のいくつかの利益および利点が述べられるけれども、本開示の範囲は、特定の利点、使用、または目的に限定されることを意図しない。むしろ、本開示の態様は、異なるワイヤレス技術、システム構成、ネットワーク、および伝送プロトコルに、広範囲に適用できることが意図され、これらのうちのいくつかは、各図面および好ましい態様の以下の説明で、例として示される。発明を実施するための形態および各図面は、限定的でなく、本開示の単に例示であり、本開示の範囲は、添付の特許請求の範囲およびその均等物によって定義される。

[0037]図１は、本開示で説明する態様による技法を利用し得る例示的なビデオ符号化および復号システムを示すブロック図である。図１に示すように、システム１０は、宛先デバイス１４によって後で復号されるべき符号化ビデオデータを与えるソースデバイス１２を含む。特に、ソースデバイス１２は、コンピュータ可読媒体１６を介してビデオデータを宛先デバイス１４に与える。ソースデバイス１２および宛先デバイス１４は、デスクトップコンピュータ、ノートブック（たとえば、ラップトップ）コンピュータ、タブレットコンピュータ、セットトップボックス、いわゆる「スマート」フォンなどの電話送受話器、いわゆる「スマート」パッド、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲーム機、ビデオストリーミングデバイスなどを含む、様々なデバイスのいずれかを備え得る。加えて、いくつかの実施形態では、システム１０は、単一のデバイス内に実装され得る。たとえば、電話ハンドセットを含む、いかなるそのような単一のデバイスも、ソースデバイス１２と宛先デバイス１４の両方、ならびにコンピュータ可読媒体１６を備える場合がある。場合によっては、ソースデバイス１２および宛先デバイス１４は、ワイヤレス通信のために装備され得る。

[0038]宛先デバイス１４は、コンピュータ可読媒体１６を介して、復号されるべき符号化ビデオデータを受信し得る。コンピュータ可読媒体１６は、符号化ビデオデータをソースデバイス１２から宛先デバイス１４に移動することが可能な、任意のタイプの媒体またはデバイスを備え得る。一例では、コンピュータ可読媒体１６は、ソースデバイス１２が符号化ビデオデータを宛先デバイス１４にリアルタイムで直接送信することを可能にするための、通信媒体を備え得る。符号化ビデオデータは、ワイヤレス通信プロトコルなどの通信規格に従って変調され、宛先デバイス１４に送信され得る。通信媒体は、無線周波数（ＲＦ）スペクトルまたは１つもしくは複数の物理伝送線路など、任意のワイヤレスまたはワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワークなどのパケットベースのネットワーク、またはインターネットなどのグローバルネットワークの一部を形成し得る。通信媒体は、ルータ、スイッチ、基地局、またはソースデバイス１２から宛先デバイス１４への通信を促進するために有用であり得る、任意の他の機器を含み得る。

[0039]いくつかの例では、符号化されるデータは、出力インターフェース２２から記憶デバイスへ出力され得る。同様に、符号化されるデータは、記憶デバイスから入力インターフェースによってアクセスされ得る。記憶デバイスは、ハードドライブ、ブルーレイ（登録商標）ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、フラッシュメモリ、揮発性もしくは不揮発性のメモリ、または符号化ビデオデータを記憶するための任意の他の適当なデジタル記憶媒体などの、様々な分散された、または局所的にアクセスされるデータ記憶媒体のうちの任意のものを含み得る。さらなる例では、記憶デバイスは、ソースデバイス１２によって生成される符号化されたビデオを記憶する、ファイルサーバまたは別の中間的な記憶デバイスに相当し得る。宛先デバイス１４は、記憶されているビデオデータに、記憶デバイスからストリーミングまたはダウンロードを介して、アクセスし得る。ファイルサーバは、符号化ビデオデータを記憶し、その符号化ビデオデータを宛先デバイス１４へ送信することができる、任意のタイプのサーバであり得る。例示的なファイルサーバは、ウェブサーバ（たとえば、ウェブサイトのための）、ＦＴＰサーバ、ネットワーク接続記憶（ＮＡＳ）デバイス、または局所的なディスクドライブを含む。宛先デバイス１４は、インターネット接続を含む任意の標準的なデータ接続を通じて、符号化ビデオデータにアクセスし得る。これは、ワイヤレスチャネル（たとえば、Ｗｉ−Ｆｉ（登録商標）接続）、有線の接続（たとえば、ＤＳＬ、ケーブルモデムなど）、または、ファイルサーバに記憶されている符号化ビデオデータにアクセスするために適当な、それらの両方の組合せを含み得る。符号化ビデオデータの記憶デバイスからの伝送は、ストリーミング伝送、ダウンロード伝送、またはそれらの組合せであり得る。

[0040]本開示の技法は、ワイヤレスのアプリケーションまたはセッティングに、必ずしも限定されるとは限らない。技法は、無線によるテレビジョン放送、ケーブルテレビジョン伝送、衛星テレビジョン伝送、動的適応型ＨＴＴＰストリーミング（ＤＡＳＨ：dynamic adaptive streaming over HTTP）などのインターネットストリーミングビデオ伝送、データ記憶媒体へと符号化されるデジタルビデオ、データ記憶媒体のデジタルビデオの復号、または他の適用例などの、様々なマルチメディアの適用例のうちの任意のものを支援して、ビデオコーディングに適用され得る。いくつかの例では、システム１０は、ビデオストリーミング、ビデオプレイバック、ビデオブロードキャスティングおよび／またはビデオ電話通信などの適用例をサポートするために、一方向または二方向のビデオ伝送をサポートするように構成され得る。

[0041]図１の例では、ソースデバイス１２は、ビデオソース１８と、ビデオエンコーダ２０と、出力インターフェース２２とを含む。いくつかの実施形態では、携帯電話などのワイヤレス通信デバイスは、ビデオソース１８と、ビデオエンコーダ２０と、出力インターフェース２２とを含む、ソースデバイス１２を備えることができる。宛先デバイス１４は、入力インターフェース２８と、ビデオデコーダ３０と、ディスプレイデバイス３２とを含む。いくつかの実施形態では、携帯電話などのワイヤレス通信デバイスは、入力インターフェース２８と、ビデオデコーダ３０と、ディスプレイデバイス３２とを含む、宛先デバイス１４を備えることができる。たとえば、場合によっては、単一のワイヤレス通信デバイスは、ソースデバイス１２と宛先デバイス１４の両方を備えることができる。本開示によれば、ソースデバイス１２のビデオエンコーダ２０は、複数の規格または規格拡張に準拠するビデオデータを含む、ビットストリームをコーディングするための技法を適用するように構成され得る。他の例では、ソースデバイスおよび宛先デバイスは、他の構成要素または構成を含んでもよい。たとえば、ソースデバイス１２は、ビデオデータを外部のカメラなどの外部のビデオソース１８から受信し得る。同様に、宛先デバイス１４は、統合されたディスプレイデバイスを含むのではなく、外部のディスプレイデバイスとインターフェースしてもよい。

[0042]図１の例示されたシステム１０は、単に一例である。現在のブロックに対する動きベクトル予測子の候補リストのための、候補を決定するための技法は、任意のデジタルビデオ符号化および／または復号デバイスによって実行され得る。一般に、本開示の技法は、ビデオ符号化デバイスによって実行されるけれども、技法は、また、通常「コーデック」と呼ばれるビデオエンコーダ／デコーダによって実行され得る。その上、本開示の技法は、また、ビデオプリプロセッサによって実行されてもよい。ソースデバイス１２および宛先デバイス１４は、ソースデバイス１２が、コーディングされたビデオデータを宛先デバイス１４への伝送のためにその中で生成する、そのようなコーディングデバイスの単に例である。いくつかの例では、デバイス１２、１４は、デバイス１２、１４の各々がビデオ符号化と、復号構成要素とを含むように、実質的に相称的な方式で動作し得る。したがって、システム１０は、たとえば、ビデオストリーミング、ビデオプレイバック、ビデオブロードキャスティング、またはビデオ電話通信のための、ビデオデバイス１２と１４との間での一方向または二方向のビデオ伝送をサポートし得る。

[0043]ソースデバイス１２のビデオソース１８は、ビデオカメラ、あらかじめ記録されたビデオを含むビデオアーカイブ、および／またはビデオコンテンツプロバイダからビデオを受信するためのビデオ供給インターフェースなどの、ビデオキャプチャデバイスを含み得る。さらなる代わりとして、ビデオソース１８は、ソースビデオとしてコンピュータグラフィックスベースのデータ、または、ライブビデオ、アーカイブされたビデオ、およびコンピュータ生成のビデオの組合せを生成し得る。場合によっては、ビデオソース１８がビデオカメラである場合、ソースデバイス１２および宛先デバイス１４は、いわゆるカメラ付き携帯電話またはテレビ電話を形成し得る。しかしながら、先に述べたように、本開示に記載される技法は、一般にビデオコーディングに適用可能であり得、ワイヤレスおよび／またはワイヤードの応用例に適用され得る。各ケースでは、記録、事前記録、またはコンピュータで生成されるビデオは、ビデオエンコーダ２０によって符号化され得る。符号化されたビデオ情報は、次いで、出力インターフェース２２によってコンピュータ可読媒体１６へ出力され得る。

[0044]コンピュータ可読媒体１６は、ワイヤレスブロードキャストまたは有線ネットワーク伝送などの一時的な媒体、または、ハードディスク、フラッシュドライブ、コンパクトディスク、デジタルビデオディスク、ブルーレイディスク、または他のコンピュータ可読媒体などの記憶媒体（すなわち、非一時的な記憶媒体）を含み得る。たとえば、ソースデバイス１２および宛先デバイス１４がワイヤレスハンドセットなどの単一のデバイスとして実装されるいくつかの実施形態では、コンピュータ可読媒体１６は任意の記憶媒体を含むことができる。いくつかの例では、ネットワークサーバ（図示せず）は、ソースデバイス１２から符号化ビデオデータを受信し、たとえば、ネットワーク送信、直接ワイヤード通信などを介して、その符号化ビデオデータを宛先デバイス１４に与え得る。同様に、ディスクプレス加工施設などの媒体生産施設のコンピューティングデバイスは、符号化ビデオデータをソースデバイス１２から受信し、符号化ビデオデータを含むディスクを生産し得る。したがって、コンピュータ可読媒体１６は、様々な例で、様々な形態の１つまたは複数のコンピュータ可読媒体を含むと理解され得る。

[0045]宛先デバイス１４の入力インターフェース２８は、情報をコンピュータ可読媒体１６から受信する。コンピュータ可読媒体１６の情報は、ビデオエンコーダ２０により定義された、ブロックの特性および／または処理ならびに他のコーディングされたユニット、たとえば、ＧＯＰを記述するシンタックス要素を含むシンタックス情報を含み得、シンタックス情報は、また、ビデオデコーダ３０によって使用される。ディスプレイデバイス３２は、復号されたビデオデータをユーザに表示し、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、または別のタイプのディスプレイデバイスなどの様々なディスプレイデバイスのうちの任意のものを備え得る。

[0046]ビデオエンコーダ２０およびビデオデコーダ３０は、現在開発中の高効率ビデオコーディング（ＨＥＶＣ）規格などの、ビデオコーディング規格に従って動作し得、ＨＥＶＣテストモデル（ＨＭ）に準拠し得る。あるいは、ビデオエンコーダ２０およびビデオデコーダ３０は、あるいはＭＰＥＧ−４、Ｐａｒｔ１０と呼ばれるＩＴＵ−ＴＨ．２６４規格、アドバンストビデオコーディング（ＡＶＣ）、またはそのような規格の拡張などの、他の独自の規格または業界規格に従って動作し得る。しかしながら、本開示の技法は、いかなる特定のコーディング規格にも限定されず、それだけには限らないが、先に列挙した規格の任意のものを含む。ビデオコーディング規格の他の例は、ＭＰＥＧ−２と、ＩＴＵ−ＴＨ．２６３とを含む。いくつかの態様では、ビデオエンコーダ２０およびビデオデコーダ３０は、それぞれ、オーディオのエンコーダおよびデコーダとともに統合され得、オーディオとビデオの両方の、共通のデータストリームまたは別個のデータストリームでの符号化を扱うための、適切なＭＵＸ−ＤＥＭＵＸユニット、または他のハードウェアおよびソフトウェアを含み得る。適用可能であれば、ＭＵＸ−ＤＥＭＵＸユニットは、ＩＴＵＨ．２２３マルチプレクサプロトコル、またはユーザデータグラムプロトコル（ＵＤＰ）などの他のプロトコルに準拠し得る。

[0047]ビデオエンコーダ２０およびビデオデコーダ３０はそれぞれ、１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアまたはそれらの任意の組合せなど、様々な好適なエンコーダ回路のいずれかとして実装され得る。技法が部分的にソフトウェアで実施される場合、デバイスは、ソフトウェアのための命令を、適当な、非一時的なコンピュータ可読媒体に記憶し、本開示の技法を実行するための１つまたは複数のプロセッサを使用して、ハードウェアで命令を実行し得る。ビデオエンコーダ２０およびビデオデコーダ３０の各々は、１つまたは複数のエンコーダまたはデコーダに含まれ得、そのいずれかは、組み合わされたエンコーダ／デコーダ（コーデック）の一部として、それぞれのデバイスに統合され得る。ビデオエンコーダ２０および／またはビデオデコーダ３０を含むデバイスは、集積回路、マイクロプロセッサ、および／または携帯電話などのワイヤレス通信デバイスを備え得る。

[0048]ＪＣＴ−ＶＣは、ＨＥＶＣ規格の開発に取り組んでいる。ＨＥＶＣの標準化の取組みは、ＨＥＶＣテストモード（ＨＭ）と呼ばれるビデオコーディングデバイスの進展モデルに基づく。ＨＭは、たとえば、ＩＴＵ−ＴＨ．２６４／ＡＶＣに従う既存のデバイスに対して、ビデオコーディングデバイスのいくつかの付加された機能を想定する。たとえば、Ｈ．２６４は、９つのイントラ予測符号化モードを提供するが、ＨＭは、３３ものイントラ予測符号化モードを提供し得る。

[0049]一般に、ＨＭの作業モデルは、ビデオフレームまたはピクチャが、ルーマサンプルとクロマサンプルの両方を含むツリーブロックまたは最大コーディングユニット（ＬＣＵ）のシーケンスに分割され得ることを記載している。ビットストリーム内のシンタックスデータは、ＬＣＵにとってのサイズを定義し得、ＬＣＵは、ピクセルの数の点で最大のコーディングユニットである。スライスは、いくつかの連続したツリーブロックを、コーディングの順序で含む。ビデオフレームまたはピクチャは、１つまたは複数のスライスに区分され得る。各ツリーブロックは、４分木に従って、コーディングユニット（ＣＵ）に分割され得る。一般に、４分木データ構造は、ＣＵあたり１つのノードを、ツリーブロックに対応するルートノードとともに含む。ＣＵが４つのサブＣＵに分割される場合、ＣＵに対応するノードは、４つのリーフノードを含み、その各々は、サブＣＵのうちの１つに対応する。

[0050]４分木データ構造の各ノードは、対応するＣＵにシンタックスデータを提供することができる。たとえば、４分木のノードは、そのノードに対応するＣＵがサブＣＵに分割されるかどうかを示す分割フラグを含み得る。ＣＵのシンタックス要素は、再帰的に定義されてよく、ＣＵがサブＣＵに分割されるかどうかに依存し得る。ＣＵがさらに分割されない場合、ＣＵは、リーフＣＵとして参照させられる。本開示では、たとえ元のリーフＣＵの明白な分割がなくても、リーフＣＵの４つのサブＣＵも、リーフＣＵと呼ばれる。たとえば、１６×１６サイズのＣＵがさらに分割されない場合、４つの８×８サブＣＵも、１６×１６ＣＵが分割されなかったけれどもリーフＣＵと呼ばれる。

[0051]ＣＵは、ＣＵがサイズの特異性を有しないことを別にすれば、Ｈ．２６４規格のマクロブロックと類似の目的を有する。たとえば、ツリーブロックは、４つの子ノード（サブＣＵとも呼ばれる）に分割され得、各子ノードは、次に、親ノードであり得、別の４つの子ノードに分割され得る。４分木のリーフノードと呼ばれる、最終の、分割されていない子ノードは、リーフＣＵとも呼ばれるコーディングノードを備える。コーディングされたビットストリームと関連したシンタックスデータは、最大ＣＵ深度（CU depth）と呼ばれる、ツリーブロックが分割され得る回数の最大数を定義し得、また、コーディングノードの最小サイズを定義し得る。したがって、ビットストリームは、また、最小コーディングユニット（ＳＣＵ）を定義し得る。本開示は、「ブロック」という用語を、ＨＥＶＣのコンテキストにおいてＣＵ、ＰＵ、またはＴＵのうちのいずれか、または他の規格のコンテキストにおいて類似のデータ構造（たとえば、Ｈ．２６４／ＡＶＣのマクロブロックおよびそのサブブロック）を参照するために使用する。

[0052]ＣＵは、コーディングノードと、コーディングノードに関連する予測ユニット（ＰＵ）および変換ユニット（ＴＵ）とを含む。ＣＵのサイズは、コーディングノードのサイズに対応し、形状において正方形でなければならない。ＣＵのサイズは、８×８ピクセルから、最大で６４×６４ピクセルまたはそれを越えるツリーブロックのサイズまで変動し得る。各ＣＵは、１つまたは複数のＰＵと、１つまたは複数のＴＵとを含み得る。ＣＵと関連したシンタックスデータは、たとえば、ＣＵの１つまたは複数のＰＵへの区分を記述し得る。区分モードは、ＣＵがスキップであるか、または、ダイレクトモードで符号化されるか、イントラ予測モードで符号化されるか、もしくはインター予測モードで符号化されるかの間で、異なり得る。ＰＵは、形状において非正方形に区分されてもよい。ＣＵと関連したシンタックスデータは、また、たとえば、ＣＵの１つまたは複数のＴＵへの、４分木に従う区分を記述し得る。ＴＵは、形状において正方形または非正方形（たとえば、長方形）であってもよい。

[0053]ＨＥＶＣ規格は、異なるＣＵに対して異なり得る、ＴＵに従う変換を可能にする。ＴＵは、通常、区分されたＬＣＵのために定義された、所与のＣＵ内のＰＵのサイズに基づいてサイズ変更されるが、これは常にそうであるとは限らない。ＴＵは、通常、ＰＵと同じサイズであるか、またはＰＵよりも小さい。いくつかの例では、ＣＵに対応する残差サンプルは、「残差４分木」（ＲＱＴ）と呼ばれる４分木構造を使用して、より小さいユニットにさらに分割され得る。ＲＱＴのリーフノードは、変換ユニット（ＴＵ）と呼ばれる場合がある。ＴＵと関連したピクセル差分の値は、変換係数を生成するために変換され得、変換係数は量子化され得る。

[0054]リーフＣＵは、１つまたは複数の予測ユニット（ＰＵ）を含み得る。一般に、ＰＵは、対応するＣＵのすべてまたは一部分に対応する空間的なエリアを表現し、ＰＵのための参照サンプルを取り出すためのデータを含み得る。その上、ＰＵは、予測に関係するデータを含む。たとえば、ＰＵがイントラモードで符号化される場合、ＰＵに対するデータは、残差４分木（ＲＱＴ）に含まれ得、残差４分木は、ＰＵに対応するＴＵのためのイントラ予測モードを記述するデータを含め得る。別の例では、ＰＵがインターモードで符号化される場合、ＰＵは、ＰＵに対する１つまたは複数の動きベクトルを定義するデータを含み得る。ＰＵに対する動きベクトルを定義するデータは、たとえば、動きベクトルの水平の構成要素、動きベクトルの垂直の構成要素、動きベクトルのための解像度（たとえば、４分の１ピクセルの精度または８分の１ピクセルの精度）、動きベクトルが指す先の参照ピクチャ、および／または動きベクトルのための参照ピクチャリスト（たとえば、リスト０、リスト１、またはリストＣ）を記述し得る。

[0055]１つまたは複数のＰＵを有するリーフＣＵは、また、１つまたは複数の変換ユニット（ＴＵ）を含み得る。変換ユニットは、上述するように、ＲＱＴ（ＴＵの４分木構造とも呼ばれる）を使用して規定され得る。たとえば、分割フラグは、リーフＣＵが４つの変換ユニットに分割されるかどうかを、示し得る。次いで、各変換ユニットは、さらなるサブＴＵに、さらに分割され得る。ＴＵがさらに分割されない場合、ＴＵは、リーフＴＵと呼ばれる場合がある。一般に、イントラコーディングのために、リーフＣＵに属しているすべてのリーフＴＵは、同じイントラ予測モードを共有する。すなわち、同じイントラ予測モードが、一般に、リーフＣＵのすべてのＴＵに対して予測される値を計算するために適用される。イントラコーディングのために、ビデオエンコーダは、イントラ予測モードを使用して、ＴＵに対応するＣＵの部分と元のブロックとの間の差分として、各リーフＴＵに対する残差値を計算し得る。ＴＵは、必ずしも、ＰＵのサイズに限定されるとは限らない。したがって、ＴＵは、ＰＵよりも大きくてもまたは小さくてもよい。イントラコーディングのために、ＰＵは、同じＣＵに対して対応するリーフＴＵと並べられ得る。いくつかの例では、リーフＴＵの最大サイズは、対応するリーフＣＵのサイズに対応し得る。

[0056]その上、リーフＣＵのＴＵはまた、残差４分木（ＲＱＴ）と呼ばれる、それぞれの４分木データ構造に関連付けられ得る。すなわち、リーフＣＵは、リーフＣＵがどのようにＴＵに区分されるかを示す４分木を含み得る。ＴＵ４分木のルートノードは一般にリーフＣＵに対応し、ＣＵ４分木のルートノードは一般にツリーブロック（またはＬＣＵ）に対応する。分割されないＲＱＴのＴＵはリーフＴＵと呼ばれる。一般に、本開示は、別段の注記がない限り、ＣＵおよびＴＵという用語を、それぞれ、リーフＣＵおよびリーフＴＵを参照するために使用する。

[0057]ビデオシーケンスは、通常、一連のビデオフレームまたはピクチャを含む。ピクチャのグループ（ＧＯＰ）は、一般に、一連の１つまたは複数のビデオピクチャを備える。ＧＯＰは、ＧＯＰのヘッダの中、１つまたは複数のピクチャのヘッダの中、またはその他の所にシンタックスデータを含み得、シンタックスデータは、ＧＯＰに含まれるいくつかのピクチャを記述する。ピクチャの各スライスは、それぞれのスライスのための符号化モードを記述するスライスシンタックスデータを含み得る。ビデオエンコーダ２０は、通常、ビデオデータを符号化するために、個々のビデオスライス内のビデオブロックに作用する。ビデオブロックは、ＣＵ内のコーディングノードに対応し得る。ビデオブロックは、固定のまたは変化するサイズを有し得、規定されたコーディング規格に従って、サイズは異なり得る。

[0058]例として、ＨＭは、様々なＰＵサイズでの予測をサポートする。特定のＣＵのサイズが２Ｎ×２Ｎとすれば、ＨＭは、２Ｎ×２ＮまたはＮ×ＮのＰＵサイズでのイントラ予測、および２Ｎ×２Ｎ、２Ｎ×Ｎ、Ｎ×２Ｎ、またはＮ×Ｎの対称なＰＵサイズでのインター予測をサポートする。ＨＭは、また、２Ｎ×ｎＵ、２Ｎ×ｎＤ、ｎＬ×２Ｎ、およびｎＲ×２ＮのＰＵサイズでのインター予測のための、非対称な区分をサポートする。非対称な区分では、ＣＵの一方向は区分されず、他の方向は２５％および７５％に区分される。ＣＵの２５％パーティションに対応する部分は、「ｎ」、ならびにそれに続く「Ｕｐ」、「Ｄｏｗｎ」、「Ｌｅｆｔ」、または「Ｒｉｇｈｔ」の表示によって示される。したがって、たとえば、「２Ｎ×ｎＵ」は、上部で２Ｎ×０．５ＮのＰＵ、および下部で２Ｎ×１．５ＮのＰＵに水平に区分される２Ｎ×２ＮのＣＵを参照する。

[0059]本開示では、「Ｎ×Ｎ」および「ＮｂｙＮ」は、垂直および水平の寸法の観点からビデオブロックのピクセル寸法を参照するために、たとえば、１６×１６ピクセルまたは１６ｂｙ１６ピクセルのように、互換的に使用され得る。一般に、１６×１６ブロックは、垂直方向に１６ピクセル（ｙ＝１６）、および水平方向に１６ピクセル（ｘ＝１６）を有する。同様に、Ｎ×Ｎブロックは、一般に、垂直方向にＮピクセル、および水平方向にＮピクセルを有し、ここでＮは、非負の整数値を表す。ブロックのピクセルは、行および列に配列され得る。その上、ブロックは、必ずしも、水平方向において垂直方向と同じ数のピクセルを有するとは限らない。たとえば、ブロックは、Ｎ×Ｍピクセルを備え得、ただし、Ｍは必ずしもＮに等しいとは限らない。

[0060]ＣＵのＰＵを使用するイントラ予測またはインター予測のコーディングの後で、ビデオエンコーダ２０は、ＣＵのＴＵに対する残差データを計算し得る。ＰＵは、空間領域（ピクセル領域とも呼ばれる）での予測ピクセルデータを生成する方法、すなわちモードを記述するシンタックスデータを備え得、ＴＵは、変換、たとえば、離散コサイン変換（ＤＣＴ）、整数変換、ウェーブレット変換、または残差ビデオデータへの概念的には類似の変換を適用した後の、変換領域での係数を備え得る。残差データは、符号化されていないピクチャのピクセルと、ＰＵに対応する予測値との間のピクセル差分に対応し得る。ビデオエンコーダ２０は、ＣＵに対する残差データを含むＴＵを形成し、次いで、ＣＵのための変換係数を生成するためにＴＵを変換し得る。

[0061]変換係数を生成するための任意の変換の後で、ビデオエンコーダ２０は、変換係数の量子化を実行し得る。量子化は、その最も広範な通常の意味を有することを意図する、広範な用語である。一実施形態では、量子化は、変換係数が量子化されて、場合によっては、係数を表現するために使用されるデータの量を低減し、さらに圧縮をもたらす処理に言及する。量子化処理は、係数の一部または全部と関連した、いくつかのビット深度を低減し得る。たとえば、ｎビットの値は、量子化中にｍビットの値に端数を丸められてよく、ここで、ｎはｍよりも大きい。

[0062]量子化の後で、ビデオエンコーダは、変換係数を走査し得、量子化変換係数を含む２次元の行列から１次元のベクトルを生成する。走査は、より高いエネルギー（したがってより低い周波数）の係数をアレイの前方に配置し、より低いエネルギー（したがってより高い周波数）の係数をアレイの後方に配置するように意図され得る。いくつかの例では、ビデオエンコーダ２０は、エントロピー符号化され得るシリアル化されたベクトルを生成するために、量子化変換係数を走査するための規定の走査を利用し得る。他の例では、ビデオエンコーダ２０は、適応走査を実行し得る。量子化変換係数を走査して１次元のベクトルを形成した後、ビデオエンコーダ２０は、たとえば、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ：context-adaptive variable length coding）、コンテキスト適応型２値算術コーディング（ＣＡＢＡＣ：context-adaptive binary arithmetic coding）、シンタックスベースコンテキスト適応型２値算術コーディング（ＳＢＡＣ：syntax-based context-adaptive binary arithmetic coding）、確率間隔区分エントロピー（ＰＩＰＥ：Probability Interval Partitioning Entropy）コーディングまたは別のエントロピー符号化の方法に従って、１次元のベクトルをエントロピー符号化し得る。ビデオエンコーダ２０は、また、ビデオデコーダ３０によるビデオデータの復号での使用のために、符号化ビデオデータと関連したシンタックス要素をエントロピー符号化する。

[0063]ＣＡＢＡＣを実行するために、ビデオエンコーダ２０は、コンテキストモデル内のコンテキストを、送信されるべきシンボルに割り当て得る。コンテキストは、たとえば、シンボルの隣接する値がゼロ以外であるか否かに関係し得る。ＣＡＶＬＣを実行するために、ビデオエンコーダ２０は、送信されるべきシンボルに対する可変長符号を選択し得る。ＶＬＣの中の符号語は、比較的に短い符号が、より起こりそうなシンボルに対応し、より長い符号が、より起こりそうでないシンボルに対応するように、再構築され得る。このようにして、ＶＬＣの使用により、たとえば、送信されるべき各シンボルに対して等長の符号語を使用することを越える、ビットの節約が達成され得る。起こりそうなことの決定は、シンボルに割り当てられたコンテキストに基づき得る。

[0064]ビデオエンコーダ２０は、さらに、ブロックベースのシンタックスデータ、フレームベースのシンタックスデータ、およびＧＯＰベースのシンタックスデータなどのシンタックスデータを、たとえば、フレームヘッダ、ブロックヘッダ、スライスヘッダ、またはＧＯＰヘッダの中で、ビデオデコーダ３０へ送り得る。ＧＯＰシンタックスデータは、それぞれのＧＯＰの中のいくつかのフレームを記述し得、フレームシンタックスデータは、対応するフレームを符号化するために使用された符号化／予測モードを示し得る。

[0065]図２は、本開示で説明する態様による技法を実装し得るビデオエンコーダの例を示すブロック図である。ビデオエンコーダ２０は、本開示の技法のうちの、任意のものまたはすべてを実行するように構成され得る。一例として、モード選択ユニット４０は、本開示に記載された技法のうちの、いずれかまたはすべてを実施するように構成され得る。しかしながら、本開示の態様はそのようには限定されない。いくつかの例では、本開示に記載される技法は、図９〜図１２に関して以下に記載される方法を含め、ビデオエンコーダ２０の様々な構成要素の間で共有され得る。いくつかの例では、それに加えて、またはそれの代わりに、プロセッサ（図示せず）は、本開示に記載される技法のうちの任意のものまたはすべてを実行するように構成され得る。

[0066]ビデオエンコーダ２０は、ビデオスライス内のビデオブロックのイントラコーディングおよびインターコーディングを実行し得る。イントラコーディングは、所与のビデオフレームまたはピクチャ内のビデオの空間的冗長性を低減または除去するために空間的予測に依拠する。インターコーディングは、ビデオシーケンスの隣接するフレーム内またはピクチャ内のビデオの、時間的な冗長性を低減または除去するために、時間的予測に依拠する。イントラモード（Ｉモード）（登録商標）は、いくつかの空間ベースのコーディングモードのうちの任意のものを参照し得る。一方向予測（Ｐモード）または双方向予測（Ｂモード）などのインターモードは、いくつかの時間ベースのコーディングモードのうちの任意のものを参照し得る。

[0067]図２に示すように、ビデオエンコーダ２０は、符号化されるべきビデオフレーム内の現在のビデオブロックを受信する。図１の例では、ビデオエンコーダ２０は、モード選択ユニット４０と、参照フレームメモリ６４と、加算器５０と、変換処理ユニット５２と、量子化ユニット５４と、エントロピー符号化ユニット５６とを含む。モード選択ユニット４０は、動き補償ユニット４４と、動き推定ユニット４２と、イントラ予測ユニット４６と、分割ユニット４８とを含む。ビデオブロックの再構築のために、ビデオエンコーダ２０は、また、逆量子化ユニット５８と、逆変換ユニット６０と、加算器６２とを含む。デブロッキングフィルタ（図２に示さず）も、ブロック境界をフィルタして、再構築されたビデオからブロッキネスアーチファクトを除去するために、含まれ得る。所望であれば、デブロッキングフィルタは、通常、加算器６２の出力をフィルタするはずである。さらなるフィルタ（インループまたはポストループ）も、デブロッキングフィルタに加えて使用され得る。そのようなフィルタは、簡約のために図示されないが、所望であれば、加算器５０の出力を（インループフィルタとして）フィルタし得る。

[0068]符号化プロセス中に、ビデオエンコーダ２０は、コーディングされるべきビデオフレームまたはスライスを受信する。フレームまたはスライスは、複数のビデオブロックに分割され得る。動き推定ユニット４２および動き補償ユニット４４は、時間的予測をもたらすために、１つまたは複数の参照フレームの中の１つまたは複数のブロックに対して受信されたビデオブロックのインター予測のコーディングを実行する。イントラ予測ユニット４６は、あるいは、空間的予測をもたらすために、コーディングされるべきブロックと同じフレームまたはスライスの中の、１つまたは複数の隣接ブロックに対して受信されたビデオブロックのイントラ予測のコーディングを実行し得る。ビデオエンコーダ２０は、たとえば、ビデオデータの各ブロックに対する適切なコーディングモードを選択するために、多数のコーディングパスを実行し得る。

[0069]その上、分割ユニット４８は、前のコーディングパスでの前の区分化方式の評価に基づいて、ビデオデータのブロックを、サブブロックに区分し得る。たとえば、分割ユニット４８は、最初は、レート歪み分析（たとえば、レート歪み最適化）に基づいて、フレームまたはスライスをＬＣＵに区分し、ＬＣＵの各々をサブＣＵに区分し得る。モード選択ユニット４０は、さらにＬＣＵのサブＣＵへの区分を示す４分木データ構造を生成し得る。４分木のリーフノードＣＵは、１つまたは複数のＰＵと、１つまたは複数のＴＵとを含み得る。

[0070]モード選択ユニット４０は、たとえば、エラー結果に基づいて、コーディングモードのうちの１つ、イントラまたはインターを選択し、得られたイントラまたはインターコード化ブロックを、残差ブロックデータを生成するために加算器５０に提供し、参照フレームとして使用するためのコーディングされたブロックを再構築するために加算器６２に提供し得る。モード選択ユニット４０はまた、動きベクトル、イントラモードインジケータ、パーティション情報、および他のそのようなシンタックス情報などのシンタックス要素をエントロピー符号化ユニット５６に与える。

[0071]動き推定ユニット４２および動き補償ユニット４４は、高度に統合され得るが、概念的な目的のために別々に示してある。動き推定は、動き推定ユニット４２によって実行され、動きベクトルを生成する処理であり、ビデオブロックに対する動きを推定する。動きベクトルは、たとえば、現在のフレーム内でコーディングされている現在のブロック（または、他のコーディングユニット）に対する、参照フレーム内の予測ブロック（または、他のコーディングユニット）に対する、現在のビデオフレーム内またはピクチャ内のビデオブロックのＰＵの移動を示し得る。予測ブロックは、ピクセル差分の観点で、コーディングされるべきブロックと密に適合すると見出されたブロックであり、ピクセル差分は、絶対値差分の合計（ＳＡＤ）、二乗差分の合計（ＳＳＤ）、または他の差分の測定規準によって決定され得る。いくつかの例では、ビデオエンコーダ２０は、参照フレームメモリ６４に記憶されている参照ピクチャの、サブ整数ピクセル位置に対する値を計算し得る。たとえば、ビデオエンコーダ２０は、参照ピクチャの、４分の１ピクセル位置、８分の１ピクセル位置、または他の分数のピクセル位置の値を補間し得る。したがって、動き推定ユニット４２は、完全なピクセル位置および分数のピクセル位置に対して動き探索を実行し、動きベクトルを分数のピクセル精度で出力し得る。

[0072]動き推定ユニット４２は、ＰＵの位置を参照ピクチャの予測ブロックの位置と比較することによって、インターコード化スライスの中のビデオブロックのＰＵに対する動きベクトルを計算する。参照ピクチャは、第１の参照ピクチャリスト（リスト０）または第２の参照ピクチャリスト（リスト１）から選択され得、それらの各々は、参照フレームメモリ６４に記憶されている１つまたは複数の参照ピクチャを特定する。動き推定ユニット４２は、計算された動きベクトルを、エントロピー符号化ユニット５６と、動き補償ユニット４４とへ送る。

[0073]動き補償は、動き補償ユニット４４によって実行され、動き推定ユニット４２により決定された動きベクトルに基づいて、予測ブロックをフェッチまたは生成することを伴う。やはり、動き推定ユニット４２および動き補償ユニット４４は、いくつかの例では、機能的に統合され得る。現在のビデオブロックのＰＵに対する動きベクトルを受信すると、動き補償ユニット４４は、予測ブロックを、動きベクトルが参照ピクチャリストのうちの１つで指す所へ位置決めし得る。加算器５０は、コーディングされている現在のビデオブロックのピクセル値から予測ブロックのピクセル値を減算することによって残差ビデオブロックを形成し、以下で説明するようにピクセル差分の値を形成する。一般に、動き推定ユニット４２は、ルーマ構成要素に対して動き推定を実行し、動き補償ユニット４４は、クロマ構成要素とルーマ構成要素の両方のために、ルーマ構成要素に基づいて計算された動きベクトルを使用する。モード選択ユニット４０は、また、ビデオデコーダ３０によるビデオスライスのビデオブロックの復号での使用のために、ビデオブロックおよびビデオスライスと関連したシンタックス要素を生成する。

[0074]イントラ予測ユニット４６は、上述されるように、動き推定ユニット４２および動き補償ユニット４４によって実行されるインター予測に代わるものとして、現在のブロックをイントラ予測または計算し得る。特に、イントラ予測ユニット４６は、現在のブロックを符号化するために使用するイントラ予測モードを決定することができる。いくつかの例では、イントラ予測ユニット４６は、たとえば、別個の符号化パス中に様々なイントラ予測モードを使用して現在のブロックを符号化し得、イントラ予測ユニット４６（または、いくつかの例では、モード選択ユニット４０）は、使用するために適切なイントラ予測モードを、テストされたモードから選択し得る。

[0075]たとえば、イントラ予測ユニット４６は、様々なテストされたイントラ予測モードに対して、レート歪み分析を使用してレート歪みの値を計算し、テストされたモードの中から最良のレート歪み特性を有するイントラ予測モードを選択し得る。レート歪み分析は、一般に、符号化されたブロックと、符号化ブロックを生成するために符号化される、元の符号化されていないブロックとの間のある量の歪み（すなわち、エラー）、および、符号化ブロックを生成するために使用されるビットレート（すなわち、いくつかのビット）を決定する。イントラ予測ユニット４６は、様々な符号化ブロックに対する歪みおよびレートから比を計算し、どのイントラ予測モードがブロックに対して最良のレート歪みの値を示すかを決定し得る。

[0076]ブロックに対するイントラ予測モードを選択した後、イントラ予測ユニット４６は、ブロックに対して選択されたイントラ予測モードを示す情報を、エントロピー符号化ユニット５６に提供し得る。エントロピー符号化ユニット５６は、選択されたイントラ予測モードを示す情報を符号化し得る。ビデオエンコーダ２０は、送信されるビットストリームの中に構成データを含み得、構成データは、コンテキストの各々のために使用する、複数のイントラ予測モードのインデックステーブルおよび複数の修正されたイントラ予測モードのインデックステーブル（符号語マッピングテーブルとも呼ばれる）、様々なブロックに対する符号化コンテキストの定義、ならびに、最も起こりそうなイントラ予測モードの表示、イントラ予測モードのインデックステーブル、および修正されたイントラ予測モードのインデックステーブルを含み得る。

[0077]ビデオエンコーダ２０は、モード選択ユニット４０からの予測データを、コーディングされている元のビデオブロックから減算することによって、残差ビデオブロックを形成する。加算器５０は、この減算操作を実行する１つの構成要素または複数の構成要素を表現する。変換処理ユニット５２は、離散コサイン変換（ＤＣＴ）または概念的には類似の変換などの変換を残差ブロックに適用し、残差変換係数の値を備えるビデオブロックを生成する。変換処理ユニット５２は、概念的にはＤＣＴに類似の他の変換を実行し得る。ウェーブレット変換、整数変換、サブバンド変換または他のタイプ変換も使用され得る。いかなる場合でも、変換処理ユニット５２は、変換を残差ブロックに適用し、残差変換係数のブロックを生成する。変換は、ピクセル値領域からの残差情報を、周波数領域などの変換領域に転換し得る。変換処理ユニット５２は、得られた変換係数を量子化ユニット５４へ送り得る。量子化ユニット５４は、ビットレートをさらに低減するために、変換係数を量子化する。量子化処理は、係数の一部または全部と関連したビット深度を低減し得る。量子化の程度は、量子化パラメータを調整することによって、修正され得る。いくつかの例では、量子化ユニット５４は、次いで、量子化変換係数を含む行列の走査を実行し得る。あるいは、エントロピー符号化ユニット５６が、走査を実行し得る。

[0078]量子化の後で、エントロピー符号化ユニット５６は、量子化変換係数をエントロピーコーディングする。たとえば、エントロピー符号化ユニット５６は、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ）、コンテキスト適応型２値算術コーディング（ＣＡＢＡＣ）、シンタックスベースコンテキスト適応型２値算術コーディング（ＳＢＡＣ）、確率間隔区分エントロピー（ＰＩＰＥ）コーディングまたは別のエントロピーコーディング技法を、実行し得る。コンテキストベースのエントロピーコーディングの場合、コンテキストは、隣接ブロックに基づいてよい。エントロピー符号化ユニット５６によるエントロピーコーディングの後で、符号化ビットストリームは、別のデバイス（たとえば、ビデオデコーダ３０）へ送信され得、後から伝送または取り出すために、保管され得る。

[0079]逆量子化ユニット５８および逆変換ユニット６０は、たとえば、参照ブロックとして後で使用できるように、ピクセル領域で残差ブロックを再構築するために、それぞれ、逆量子化と、逆変換とを適用する。動き補償ユニット４４は、残差ブロックを、参照フレームメモリ６４のフレームのうちの１つの予測ブロックに加算することによって、参照ブロックを計算し得る。動き補償ユニット４４は、また、動き推定での使用のためにサブ整数ピクセル値を計算するために、１つまたは複数の補間フィルタを再構築された残差ブロックに適用し得る。加算器６２は、参照フレームメモリ６４での記憶のための再構築されたビデオブロックを生成するために、再構築された残差ブロックを、動き補償ユニット４４によって生成される動き補償された予測ブロックに加算する。再構築されたビデオブロックは、動き推定ユニット４２および動き補償ユニット４４によって、後続のビデオフレームのブロックをインターコード化するための参照ブロックとして使用され得る。

[0080]図３は、本開示で説明する態様による技法を実装し得るビデオデコーダの例を示すブロック図である。ビデオデコーダ３０は、図９〜図１２に関して以下に記載される方法を含め、本開示の技法のうちの任意のものまたはすべてを実行するように構成され得る。一例として、動き補償ユニット７２および／またはイントラ予測ユニット７４は、本開示に記載される技法のうちの任意のものまたはすべてを実行するように構成され得る。しかしながら、本開示の態様はそのようには限定されない。いくつかの例では、本開示に記載される技法は、ビデオデコーダ３０の様々な構成要素の中で、共有され得る。いくつかの例では、それに加えて、またはそれの代わりに、プロセッサ（図示せず）は、本開示に記載される技法のうちの任意のものまたはすべてを実行するように構成され得る。

[0081]図３の例では、ビデオデコーダ３０は、エントロピー復号ユニット７０と、動き補償ユニット７２と、イントラ予測ユニット７４と、逆量子化ユニット７６と、逆変換ユニット７８と、参照フレームメモリ８２と、加算器８０とを含む。ビデオデコーダ３０は、いくつかの例では、ビデオエンコーダ２０（図２）に関して記載される符号化パスに対して概ね相反の復号パスを実行し得る。動き補償ユニット７２は、エントロピー復号ユニット７０から受信された動きベクトルに基づいて、予測データを生成し得、イントラ予測ユニット７４は、エントロピー復号ユニット７０から受信されたイントラ予測モードインジケータに基づいて、予測データを生成し得る。

[0082]復号プロセス中に、ビデオデコーダ３０は、符号化されたビデオスライスのビデオブロックおよび関連するシンタックス要素を表現する符号化されたビデオビットストリームを、ビデオエンコーダ２０から受信する。ビデオデコーダ３０のエントロピー復号ユニット７０は、量子化係数、動きベクトルまたはイントラ予測モードインジケータ、および他のシンタックス要素を生成するために、ビットストリームをエントロピー復号する。エントロピー復号ユニット７０は、動きベクトルと、他のシンタックス要素とを、動き補償ユニット７２へ転送する。ビデオデコーダ３０は、ビデオスライスレベルおよび／またはビデオブロックレベルでのシンタックス要素を受信し得る。

[0083]ビデオスライスが、イントラコード化（Ｉ）スライスとしてコーディングされるとき、イントラ予測ユニット７４は、現在のフレームまたはピクチャの以前に復号されたブロックから、信号で伝えられたイントラ予測モードおよびデータに基づいて、現在のビデオスライスのビデオブロックに対する予測データを生成し得る。ビデオフレームがインターコード化（たとえば、Ｂ、ＰまたはＧＰＢ）スライスとしてコーディングされるとき、動き補償ユニット７２は、エントロピー復号ユニット７０から受信された動きベクトルおよび他のシンタックス要素に基づいて、現在ビデオスライスのビデオブロックのための予測ブロックを生成する。予測ブロックは、参照ピクチャリストのうちの１つの中の、参照ピクチャのうちの１つから生成され得る。ビデオデコーダ３０は、参照フレームメモリ９２に記憶された参照ピクチャに基づいて、デフォルトの構築技法を使用して、参照フレームリスト、すなわち、リスト０とリスト１とを構築し得る。動き補償ユニット７２は、動きベクトルと他のシンタックス要素とを解析することによって現在のビデオスライスのビデオブロックのための予測情報を決定するとともに、復号されている現在のビデオブロックの予測ブロックを生成するために、その予測情報を使用する。たとえば、動き補償ユニット７２は、ビデオスライスのビデオブロックをコーディングするために使用される予測モード（たとえば、イントラまたはインター予測）と、インター予測スライスタイプ（たとえば、Ｂスライス、Ｐスライス、またはＧＰＢスライス）と、スライスの参照ピクチャリストのうちの１つまたは複数の構築情報と、スライスの各々のインター符号化されたビデオブロックの動きベクトルと、スライスの各々のインターコーディングされたビデオブロックのインター予測ステータスと、現在のビデオスライス中のビデオブロックを復号するための他の情報とを決定するために、受信されたシンタックス要素のいくつかを使用する。

[0084]動き補償ユニット７２は、また、補間フィルタに基づいて、補間を実行し得る。動き補償ユニット７２は、参照ブロックのサブ整数ピクセルに対して補間された値を計算するために、ビデオブロックの符号化中にビデオエンコーダ２０によって使用されたように、補間フィルタを使用し得る。このケースでは、動き補償ユニット７２は、受信したシンタックス要素からビデオエンコーダ２０で使用された補間フィルタを決定し、補間フィルタを使用して予測ブロックを生成し得る。

[0085]逆量子化ユニット７６は、ビットストリームの中で提供され、エントロピー復号ユニット８０によって復号された量子化変換係数を、逆量子化（inverse quantize）、たとえば、逆量子化（de-quantize）する。逆量子化処理は、量子化の程度、および同様に、適用されるべき逆量子化の程度を決定するために、ビデオスライスの中の各ビデオブロックに対してビデオデコーダ３０によって計算された量子化パラメータＱＰ_Yの使用を含み得る。

[0086]逆変換ユニット７８は、ピクセル領域内の残差ブロックを生成するために、逆変換、たとえば、逆ＤＣＴ、逆整数変換、または概念的には類似の逆変換処理を、変換係数に適用する。

[0087]動きベクトルおよび他のシンタックス要素に基づいて、動き補償ユニット８２が現在のビデオブロックに対する予測ブロックを生成した後、ビデオデコーダ３０は、逆変換ユニット７８からの残差ブロックに動き補償ユニット７２によって生成された対応する予測ブロックを加算することによって、復号ビデオブロックを形成する。加算器９０は、この加算操作を実行する１つの構成要素または複数の構成要素を表現する。所望であれば、デブロッキングフィルタも、ブロッキネスアーチファクトを除去するため、復号ブロックをフィルタするために適用され得る。他のループフィルタ（コーディングループの中、またはコーディングループの後のいずれか）も、ピクセルの変化を平滑化し、または他の方法でビデオ品質を改善するために使用され得る。所与のフレームまたはピクチャの復号ビデオブロックは、次いで、参照ピクチャメモリ９２に記憶され、これは後続の動き補償のために使用される参照ピクチャを記憶する。参照フレームメモリ８２は、また、図１のディスプレイデバイス３２などのディスプレイデバイスで後で提示できるように、復号ビデオを記憶する。

ＨＥＶＣにおける動き補償
[0088]上述されたように、ＨＥＶＣは次世代のビデオコーディング規格である。概して、ＨＥＶＣは以前のビデオコーディング規格の枠組に追従する。ＨＥＶＣの動き補償ループは、Ｈ．２６４／ＡＶＣのものと同じものを維持され得、たとえば、現在のフレームの再構築

は、以下のように、逆量子化された係数ｒに時間的予測Ｐを加えたものに等しい。

ここで、Ｐは、Ｐフレームもしくはスライスに対する一方向予測、またはＢフレームもしくはスライスに対する双方向予測を示す。

[0089]ＨＥＶＣの動き補償の単位は、以前のビデオコーディング規格のものと異なり得る。実際、以前のビデオコーディング規格におけるマクロブロックの概念は、ＨＥＶＣでは存在しない。代わりに、マクロブロックの概念は、包括的な４分木方式に基づく極めてフレキシブルな階層構造によって取り替えられる。この方式内で、３つのタイプのブロック、たとえば、コーディングユニット（ＣＵ）、予測ユニット（ＰＵ）、および変換ユニット（ＴＵ）が定義される。ＣＵは領域分割の基本単位である。ＣＵは、マクロブロックの概念と類似しているが、ＣＵは、最大サイズを制限せず、ＣＵは、内容の適合性を改善するために、４つの等しいサイズのＣＵへの再帰的な分割を可能にする。ＰＵは、インター／イントラ予測の基本的な単位であり、ＰＵは、不規則な画像パターンを効果的にコーディングするために、単一のＰＵの中に多数の任意の形状のパーティションを含み得る。ＴＵは変換の基本単位である。ＴＵは、ＰＵから独立に定義され得るが、ただし、ＴＵのサイズは、ＴＵが属するＣＵに限定される。ブロック構造の３つの異なるコンセプトへのこの分離によって、それぞれがその役割に従って最適化され得、その結果、コーディングの効率性が改善される。

スケーラブルビデオコーディング
[0090]異なる寸法でのスケーラビリティ４００の例が、図４に示される。この例では、スケーラビリティは、３つの寸法４０２、４０４、４０６で可能である。時間ディメンション４０２では、たとえば、７．５Ｈｚ、１５Ｈｚまたは３０Ｈｚのフレームレートが、時間的なスケーラビリティ（Ｔ）によってサポートされ得る。空間的なスケーラビリティ（Ｓ）４０４がサポートされる場合、異なる解像度、たとえば、ＱＣＩＦ、ＣＩＦおよび４ＣＩＦなどが可能である。各特定の空間解像度およびフレームレートのために、ＳＮＲ（Ｑ）レイヤ４０６が、ピクチャ品質を改善するために追加され得る。各レイヤ４０２、４０４、４０６からのビットストリームは、単一のビットストリームの中に一緒に多重化され得る。いったんビデオコンテンツがそのような拡張性のある方法で符号化されると、エクストラクタツールが、たとえば、クライアントまたは伝送チャネルに依存するアプリケーションの要件に従って、実際に配送されるコンテンツを適応させるために使用され得る。図４に示す例では、各立方体４０８は、同じフレームレート（時間的なレベル）、空間解像度、およびＳＮＲレイヤを有するピクチャを含む。これらの立方体４０８（ピクチャ）を任意の寸法４０２、４０４、４０６に追加することによって、より良い表現が達成され得る。組み合わされたスケーラビリティは、２つ、３つ、またはさらに多くのスケーラビリティが可能である場合に、サポートされる。

[0091]ＳＶＣ仕様によれば、最も低い空間的レイヤ４１０および最も低い品質レイヤ４１２を有するピクチャは、Ｈ．２６４／ＡＶＣと互換性があり、最も低い時間的レベル４１４でのピクチャは、時間的なベースレイヤを形成し、これは、より高い時間的レベルでのピクチャを伴って拡張され得る。Ｈ．２６４／ＡＶＣと互換性のあるレイヤに加えて、いくつかの空間的および／またはＳＮＲエンハンスメントレイヤが、空間的および／または品質のスケーラビリティをもたらすために、追加され得る。ＳＮＲスケーラビリティ４０６は、品質スケーラビリティとしても参照させられる。各空間的エンハンスメントレイヤ４０４またはＳＮＲエンハンスメントレイヤ４０６は、それ自体、Ｈ．２６４／ＡＶＣと互換性のあるレイヤと同じ時間的スケーラビリティ構造とともに、時間的にスケーラブルであり得る。１つの空間的またはＳＮＲエンハンスメントレイヤに対して、空間的またはＳＮＲエンハンスメントレイヤが依存するより低いレイヤは、その特定の空間的またはＳＮＲエンハンスメントレイヤの参照レイヤ（たとえば、ベースレイヤ）としても参照させられる。

[0092]ＳＶＣコーディング構造５００の例が、図５に示される。最も低い空間的および品質レイヤを有するピクチャ（レイヤ０５０２およびレイヤ１５０４の、ＱＣＩＦ解像度のピクチャ）は、Ｈ．２６４／ＡＶＣと互換性がある。これらの中で、最も低い時間的レベルのこれらのピクチャは、図５のレイヤ０５０２に示されるように、時間的なベースレイヤを形成する。この時間的なベースレイヤ（レイヤ０）５０２は、より高い時間的レベル（レイヤ１）５０４のピクチャを伴って拡張され得る。Ｈ．２６４／ＡＶＣと互換性のあるレイヤ５０４に加えて、いくつかの空間的および／またはＳＮＲエンハンスメントレイヤ５０６、５０８、５１０は、空間的および／または品質スケーラビリティをもたらすために、追加され得る。たとえば、エンハンスメントレイヤは、レイヤ２５０６と同じ解像度を有するＣＩＦ表現であり得る。この例では、レイヤ３５０８は、ＳＮＲエンハンスメントレイヤである。この例に示されるように、各空間的またはＳＮＲエンハンスメントレイヤは、それ自体、Ｈ．２６４／ＡＶＣと互換性のあるレイヤと同じ時間的スケーラビリティ構造とともに、時間的にスケーラブルであり得る。また、エンハンスメントレイヤは、空間解像度とフレームレートの両方を拡張することができる。たとえば、レイヤ４５１０は、さらに、フレームレートを１５Ｈｚから３０Ｈｚに増大させる、４ＣＩＦエンハンスメントレイヤを提供する。

[0093]図６に示すように、同じ時間のインスタンスでコーディングされるスライスは、ビットストリームの順序の中で連続であり、ＳＶＣのコンテキストの中で１つのアクセスユニット６００を形成する。それらのＳＶＣアクセスユニット６００は、次いで、表示の順序と異なるかもしれない復号の順序に従い、たとえば、時間的予測の関係によって決定される。

[0094]図７は、参照レイヤとエンハンスメントレイヤとの間のピクチャアスペクト比のスケーラビリティの例の概念的な図を示す。いくつかの実施形態では、ピクチャアスペクト比（ＰＡＲ）は、記録されているピクチャの幅：高さの比であり、ここで、幅および高さは、同じ長さ（空間的な測定値）の単位で計測される。ピクチャアスペクト比は、Ｘ：Ｙとして表現され得、ここで、Ｘは水平の幅であり、Ｙは垂直の高さである（空間的な距離の任意の単位での）。いくつかの実施形態では、ピクチャサンプルアスペクト比（ＰＳＡＲ）は、ピクチャの中のルーマサンプルアレイの、列の間の水平の距離と、行の間の垂直の距離との間の比である。ピクチャサンプルアスペクト比は、ｈ：ｖとして表現され得、ここで、ｈは水平の幅であり、ｖは垂直の高さである（空間的な距離の任意の単位での）。図７は、参照レイヤとエンハンスメントレイヤとの間でＰＳＡＲが同じであり、参照レイヤがエンハンスメントレイヤの切り取られたバージョンである例を示す。詳細には、図示のように、参照レイヤ７１０は、水平の幅７１２と、垂直の高さ７１４を備えることができる。たとえば、水平の幅７１２は８５３ピクセルであり得、垂直の高さ７１４は４８０ピクセルであり得る。エンハンスメントレイヤ７２０は、水平の幅７２２と、垂直の高さ７２４を備えることができる。たとえば、水平の幅７２２は１２８０ピクセルであり得、垂直の高さ７２４は７２０ピクセルであり得る。この図では、エンハンスメントレイヤ７２０の空間解像度は、１２８０×７２０であり、参照レイヤ７１０の空間解像度は、８５３×４８０（ＷＶＧＡ）である。参照レイヤ７１０とエンハンスメントレイヤ７２０の両方は、ＰＳＡＲが１である。この例では、参照レイヤ７１０とエンハンスメントレイヤ７２０の両方は、ＰＡＲが１６：９である。

[0095]図８は、参照レイヤとエンハンスメントレイヤとの間のピクチャアスペクト比のスケーラビリティの別の例の概念的な図を示す。図８は、参照レイヤとエンハンスメントレイヤとの間でＰＳＡＲが同じであり、参照レイヤがエンハンスメントレイヤの変倍され切り取られたバージョンである例を示す。詳細には、図示のように、参照レイヤ８１０は、水平の幅８１２と、垂直の高さ８１４を備え得る。たとえば、水平の幅８１２は６４０ピクセルであり得、垂直の高さ８１４は４８０ピクセルであり得る。エンハンスメントレイヤ８２０は、水平の幅８２２および垂直の高さ８２４を備え得る。たとえば、水平の幅８２２は１２８０ピクセルであり得、垂直の高さ８２４は７２０ピクセルであり得る。参照レイヤ８１０は、変倍され得、変倍された領域の部分がエンハンスメントレイヤ８２０を予測することのために使用されることが可能である。図８では、エンハンスメントレイヤの空間解像度は、１２８０×７２０（ＰＡＲ１６：９）であり、参照レイヤの空間解像度は、６４０×４８０（ＰＡＲ４：３）であり、両方のレイヤは、ＰＳＡＲが１である。そのため、エンハンスメントレイヤ８２０は、参照レイヤ８１０と異なるピクチャアスペクト比を有する。

[0096]ＳＶＣでは、レイヤ間予測のために使用され得るアップサンプルされた参照レイヤのピクチャの領域は、シーケンスパラメータセットの中で定義され得る。そのような領域は、アップサンプルされた領域と呼ばれる場合がある。アップサンプルされた領域は、垂直または水平のいずれかの寸法で、現在のピクチャ（たとえば、エンハンスメントレイヤのピクチャ）よりも小さくても大きくてもよい。表１は、シーケンスパラメータセットのｓｖｃ拡張の例を示す。

[0097]加えて、類似の情報が、スライスヘッダの中に存在し得る。明白に信号で伝えられる場合、この情報は、シーケンスパラメータセットの中で信号で伝えられた情報を上書きする。表２は、スケーラブルな拡張でのスライスヘッダを示す。

[0098]アップサンプルされた参照レイヤのピクチャが、エンハンスメントレイヤのピクチャの参照ピクチャリストでの参照ピクチャとして利用される場合に、ＳＨＶＣでのレイヤ間予測をサポートするためには、困難が生じる場合がある。たとえば、参照レイヤの再構築されたピクチャは、アップサンプルの後、エンハンスメントレイヤのピクチャの解像度と同じ解像度を有しない場合がある。したがって、アップサンプルされた参照レイヤのピクチャは、レイヤ間の参照ピクチャとして、直接使用され得ない。

[0099]加えて、エンハンスメントレイヤのピクチャの整合に関して、参照レイヤのアップサンプルされた領域を信号で伝える場合、さらなる困難が生じる場合がある。たとえば、エンハンスメントレイヤのピクチャは、多数のレイヤから予測される場合があり、したがって、１つのレイヤに対応するパラメータのうちの１つのセットを信号で伝えることは、不十分である可能性がある。さらに、参照レイヤのピクチャのうちの一部分だけが、レイヤ間予測のために使用されることが起こり得る場合がある。

[0100]コーディングの複雑さを低減し、ＳＨＶＣでのレイヤ間予測のための頑強なサポートを提供するために、技法は、異なるアスペクト比を有するレイヤのための、レイヤ間の参照ピクチャの構築を提供するために使用され得る。たとえば、いくつかの実施形態では、ビデオデータをコーディングする方法は、参照レイヤのピクチャの少なくとも一部分を、アップサンプルされたピクチャサイズを有するアップサンプルされたピクチャへアップサンプルすることと、アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを備える、アップサンプルされたピクチャと関連した位置情報を信号で伝えることとを含む。この方法は、さらに、エンハンスメントレイヤのピクチャと関連した位置情報に基づいて、アップサンプルされたピクチャと関連した位置情報を決定することを含み得る。たとえば、エンハンスメントレイヤのピクチャと関連した位置情報は、エンハンスメントレイヤのピクチャの境界に対するオフセットなどの、エンハンスメントレイヤのピクチャの座標を含み得る。位置情報が信号で伝えられない場合、ゼロなどのデフォルト値が前提とされ得る。いくつかの実施形態では、参照レイヤのピクチャのアップサンプルされる部分のサイズは、参照レイヤのピクチャのサイズに等しい。加えて、いくつかの実施形態では、水平または垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、エンハンスメントレイヤのピクチャの、それぞれ、水平方向のピクチャサイズまたは垂直のピクチャサイズと適合する（たとえば、等しい）ことができる。レイヤ間の参照ピクチャは、アップサンプルされたピクチャおよび位置情報に基づいて、生成され得る。

[0101]たとえば、いくつかの実施形態では、参照レイヤのピクチャの選択された部分のみが、その特定の参照レイヤに対する現在のレイヤのために信号で伝えられた関連する窓に基づいて、レイヤ間の参照ピクチャを生成するために使用される。関連する領域内の参照レイヤのピクチャの選択された部分は、アップサンプルされた領域と等しいサイズのピクチャにアップサンプルされ得、アップサンプルの後、アップサンプルされた領域のサイズは、常に、エンハンスメントレイヤのピクチャのピクチャサイズ以下である。アップサンプルされた領域は、さらに、信号で伝えられ得、エンハンスメントレイヤのピクチャの座標を使用して定義される。

[0102]他の実施形態では、全体の参照レイヤのピクチャは、アップサンプルされる。アップサンプルされた領域は、垂直または水平のいずれかの寸法で、エンハンスメントレイヤのピクチャよりも大きくてよい。したがって、アップサンプルされた領域は、切り取られる（たとえば、エリアサイズが低減する）必要があり得る。アップサンプルされた領域が、垂直または水平のいずれかの寸法で、エンハンスメントレイヤのピクチャよりも小さい場合、アップサンプルされた領域は、埋められる必要があり得る。アップサンプルされた領域は、さらに、信号で伝えられ得、エンハンスメントレイヤのピクチャの座標を使用して定義され得る。

[0103]これらの実施形態の各々では、信号で伝えられる関連する窓または参照レイヤの全体のピクチャサイズ、およびアップサンプルされた領域は、水平方向または垂直方向に関するアップサンプル比を導き出すために使用され得る。加えて、アップサンプルされた領域の情報に基づいて、ピクセル値は、参照レイヤのピクチャの位置合わせされたアップサンプルされた領域を取り囲んで埋められて（たとえば、付け足されて）、アップサンプルされたピクチャを現在のピクチャ（たとえば、エンハンスメントレイヤのピクチャ）と同じサイズに拡大し得る。たとえば、パディングは、そのピクセルが１２８（または、２＜＜Ｎ、ここにおいて、Ｎ＋１はビット深度）に等しい値を有する方法でなされ得る。加えて、左側パディング領域が、位置合わせされアップサンプルされた領域の境界ピクセルでのピクセル値から水平に埋められ、右側パディング領域が、位置合わせされアップサンプルされた領域の境界ピクセルでのピクセル値から水平に埋められ、上部パディング領域が、位置合わせされアップサンプルされた領域の境界ピクセルでのピクセル値から垂直に埋められ、下部パディング領域が、位置合わせされアップサンプルされた領域の境界ピクセルでのピクセル値から垂直に埋められ、上部−左側、上部−右側、下部−左側および下部−右側のパディング領域が、利用できれば、水平に埋められ、その後で、他の領域が埋められるように、パディングは実行され得る。

[0104]図９は、一実施形態による参照レイヤのピクチャの一部分をエンハンスメントレイヤにアップサンプルすることの例を示す図である。詳細には、図示のように、参照レイヤ９１０は、サブポーション９１２を備え得る。サブポーション９１２は、参照レイヤ左側オフセット９１４ａ、参照レイヤ右側オフセット９１４ｂ、参照レイヤ下部オフセット９１４ｃ、および参照レイヤ上部オフセット９１４ｄに基づいて、規定され得る。たとえば、参照レイヤ左側オフセット９１４ａは、参照レイヤ９１０の左側境界とサブポーション９１２の左側境界との間の距離（たとえば、オフセット）を、規定し得る。参照レイヤ右側オフセット９１４ｂは、参照レイヤ９１０の右側境界とサブポーション９１２の右側境界との間の距離を、規定し得る。参照レイヤ下部オフセット９１４ｃは、参照レイヤ９１０の下部境界とサブポーション９１２の下部境界との間の距離を、規定し得る。参照レイヤ上部オフセット９１４ｄは、参照レイヤ９１０の上部境界とサブポーション９１２の上部境界との間の距離を、規定し得る。

[0105]参照レイヤ９１０のサブポーション９１２は、エンハンスメントレイヤ９２０のサブポーションであるアップサンプルされたピクチャ９２２にアップサンプルされ得る。この例では、アップサンプルされたピクチャ９２２のサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを含むが、水平または垂直のアップサンプルされたピクチャサイズは、エンハンスメントレイヤ９２０の、それぞれ水平のピクチャサイズおよび垂直のピクチャサイズよりも小さい。

[0106]アップサンプルされたピクチャ９２２は、エンハンスメントレイヤ左側オフセット９２４ａ、エンハンスメントレイヤ右側オフセット９２４ｂ、エンハンスメントレイヤ下部オフセット９２４ｃ、およびエンハンスメントレイヤ上部オフセット９２４ｄに基づいて、規定され得る。たとえば、エンハンスメントレイヤ左側オフセット９２４ａは、エンハンスメントレイヤ９２０の左側境界とサブポーション９２２の左側境界との間の距離（たとえば、オフセット）を、規定し得る。エンハンスメントレイヤ右側オフセット９２４ｂは、エンハンスメントレイヤ９２０の右側境界とサブポーション９２２の右側境界との間の距離を、規定し得る。エンハンスメントレイヤ下部オフセット９２４ｃは、エンハンスメントレイヤ９２０の下部境界とサブポーション９２２の下部境界との間の距離を、規定し得る。エンハンスメントレイヤ上部オフセット９２４ｄは、エンハンスメントレイヤ９２０の上部境界とサブポーション９２２の上部境界との間の距離を、規定し得る。

[0107]図１０Ａおよび図１０Ｂは、参照レイヤのピクチャをエンハンスメントレイヤにアップサンプルすることの例を示す図であり、ここにおいて、水平または垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、エンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも小さい。詳細には、図１０Ａに示す例では、水平のアップサンプルされたピクチャサイズは、エンハンスメントレイヤのピクチャの水平のピクチャサイズよりも小さい。たとえば、参照レイヤ１０１０は、エンハンスメントレイヤ１０２０のサブポーションであるアップサンプルされたピクチャ１０２２に、アップサンプルされ得る。アップサンプルされたピクチャ１０２２のサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを含む。アップサンプルされたピクチャ１０２２の垂直のアップサンプルされたピクチャサイズは、エンハンスメントレイヤ１０２０の垂直のピクチャサイズと適合する（たとえば、等しい）が、アップサンプルされたピクチャ１０２２の水平のピクチャサイズは、エンハンスメントレイヤ１０２０の水平のピクチャサイズよりも小さい。アップサンプルされたピクチャ１０２２の位置を規定するために、エンハンスメントレイヤ１０２０に対してアップサンプルされたピクチャ１０２２と関連した位置情報が、信号で伝えられ得る。たとえば、アップサンプルされたピクチャ１０２２は、エンハンスメントレイヤ左側オフセット１０２４ａおよびエンハンスメントレイヤ右側オフセット１０２４ｂに基づいて、規定され得る。たとえば、エンハンスメントレイヤ左側オフセット１０２４ａは、エンハンスメントレイヤ１０２０の左側境界とアップサンプルされたピクチャ１０２２の左側境界との間の距離（たとえば、オフセット）を、規定し得る。エンハンスメントレイヤ右側オフセット１０２４ｂは、エンハンスメントレイヤ１０２０の右側境界とアップサンプルされたピクチャ１０２２の右側境界との間の距離を、規定し得る。エンハンスメントレイヤ左側オフセット１０２４ａおよびエンハンスメントレイヤ右側オフセット１０２４ｂは、エンハンスメントレイヤのピクチャ１０２０の座標に基づいて、規定され得る。

[0108]図１０Ｂに示す例では、水平のアップサンプルされたピクチャサイズと垂直のアップサンプルされたピクチャサイズの両方は、エンハンスメントレイヤの、それぞれ、水平のピクチャサイズおよび垂直のピクチャサイズよりも小さい。たとえば、参照レイヤ１０１０は、エンハンスメントレイヤ１０２０のサブポーションであるアップサンプルされたピクチャ１０２２に、アップサンプルされ得る。アップサンプルされたピクチャ１０２２の垂直のアップサンプルされたピクチャサイズは、エンハンスメントレイヤ１０２０の垂直のピクチャサイズよりも小さく、アップサンプルされたピクチャ１０２２の水平のピクチャサイズは、エンハンスメントレイヤ１０２０の水平のピクチャサイズよりも小さい。アップサンプルされたピクチャ１０２２の位置を規定するために、位置情報が信号で伝えられ得る。たとえば、アップサンプルされたピクチャ１０２２は、エンハンスメントレイヤ左側オフセット１０２４ａ、エンハンスメントレイヤ右側オフセット１０２４ｂ、エンハンスメントレイヤ下部オフセット１０２４ｃ、およびエンハンスメントレイヤ上部オフセット１０２４ｄに基づいて、規定され得る。たとえば、エンハンスメントレイヤ左側オフセット１０２４ａは、エンハンスメントレイヤ１０２０の左側境界とアップサンプルされたピクチャ１０２２の左側境界との間の距離を、規定し得る。エンハンスメントレイヤ右側オフセット１０２４ｂは、エンハンスメントレイヤ１０２０の右側境界とアップサンプルされたピクチャ１０２２の右側境界との間の距離を、規定し得る。エンハンスメントレイヤ下部オフセット１０２４ｃは、エンハンスメントレイヤ１０２０の下部境界とアップサンプルされたピクチャ１０２２の下部境界との間の距離を、規定し得る。エンハンスメントレイヤ上部オフセット１０２４ｄは、エンハンスメントレイヤ１０２０の上部境界とアップサンプルされたピクチャ１０２２の上部境界との間の距離を、規定し得る。エンハンスメントレイヤ左側オフセット１０２４ａ、エンハンスメントレイヤ右側オフセット１０２４ｂ、エンハンスメントレイヤ下部オフセット１０２４ｃ、およびエンハンスメントレイヤ上部オフセット１０２４ｄは、エンハンスメントレイヤのピクチャ１０２０の座標に基づいて、規定され得る。

[0109]図１１Ａおよび図１１Ｂは、参照レイヤのピクチャをエンハンスメントレイヤにアップサンプルすることの例を示す図であり、ここにおいて、水平または垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、エンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも大きい。詳細には、図１１Ａに示す例では、垂直のアップサンプルされたピクチャサイズは、エンハンスメントレイヤの垂直のピクチャサイズよりも大きい。たとえば、参照レイヤ１１１０は、エンハンスメントレイヤ１１２０よりも大きいアップサンプルされたピクチャ１１２２に、アップサンプルされ得る。この例では、アップサンプルされたピクチャ１１２２のサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを含む。アップサンプルされたピクチャ１１２２の垂直のアップサンプルされたピクチャサイズは、エンハンスメントレイヤ１１２０の垂直のピクチャサイズよりも大きいが、アップサンプルされたピクチャ１１２２の水平のピクチャサイズは、エンハンスメントレイヤ１１２０の水平のピクチャサイズに適合する。アップサンプルされたピクチャ１１２２の位置を規定するために、位置情報が信号で伝えられ得る。たとえば、アップサンプルされたピクチャ１１２２は、エンハンスメントレイヤ下部オフセット１１２４ｃおよびエンハンスメントレイヤ上部オフセット１１２４ｄに基づいて、規定され得る。たとえば、エンハンスメントレイヤ下部オフセット１１２４ｃは、エンハンスメントレイヤ１１２０の下部境界とアップサンプルされたピクチャ１１２２の下部境界との間の距離を、規定し得る。エンハンスメントレイヤ上部オフセット１１２４ｄは、エンハンスメントレイヤ１１２０の上部境界とアップサンプルされたピクチャ１１２２の上部境界との間の距離を、規定し得る。エンハンスメントレイヤ下部オフセット１１２４ｃおよびエンハンスメントレイヤ上部オフセット１１２４ｄは、エンハンスメントレイヤのピクチャ１１２０の座標に基づいて、規定され得る。

[0110]図１１Ｂに示す例では、水平のアップサンプルされたピクチャサイズと垂直のアップサンプルされたピクチャサイズの両方は、エンハンスメントレイヤの、それぞれ水平のピクチャサイズおよび垂直のピクチャサイズよりも大きい。たとえば、参照レイヤ１１１０は、エンハンスメントレイヤ１１２０よりも大きいアップサンプルされたピクチャ１１２２に、アップサンプルされ得る。アップサンプルされたピクチャ１１２２の垂直のアップサンプルされたピクチャサイズは、エンハンスメントレイヤ１１２０の垂直のピクチャサイズよりも大きく、アップサンプルされたピクチャ１１２２の水平のピクチャサイズは、エンハンスメントレイヤ１１２０の水平のピクチャサイズよりも大きい。アップサンプルされたピクチャ１１２２の位置を規定するために、位置情報が信号で伝えられ得る。たとえば、アップサンプルされたピクチャ１１２２は、エンハンスメントレイヤ左側オフセット１１２４ａ、エンハンスメントレイヤ右側オフセット１１２４ｂ、エンハンスメントレイヤ下部オフセット１１２４ｃ、およびエンハンスメントレイヤ上部オフセット１１２４ｄに基づいて、規定され得る。たとえば、エンハンスメントレイヤ左側オフセット１１２４ａは、エンハンスメントレイヤ１１２０の左側境界とアップサンプルされたピクチャ１１２２の左側境界との間の距離を、規定し得る。エンハンスメントレイヤ右側オフセット１１２４ｂは、エンハンスメントレイヤ１１２０の右側境界とアップサンプルされたピクチャ１１２２の右側境界との間の距離を、規定し得る。エンハンスメントレイヤ下部オフセット１１２４ｃは、エンハンスメントレイヤ１１２０の下部境界とアップサンプルされたピクチャ１１２２の下部境界との間の距離を、規定し得る。エンハンスメントレイヤ上部オフセット１１２４ｄは、エンハンスメントレイヤ１１２０の上部境界とアップサンプルされたピクチャ１１２２の上部境界との間の距離を、規定し得る。エンハンスメントレイヤ左側オフセット１１２４ａ、エンハンスメントレイヤ右側オフセット１１２４ｂ、エンハンスメントレイヤ下部オフセット１１２４ｃ、およびエンハンスメントレイヤ上部オフセット１１２４ｄは、エンハンスメントレイヤのピクチャ１１２０の座標に基づいて、規定され得る。

[0111]例示のために、本開示に記載される技法は、２つのレイヤのみが存在する例を使用して記載される。１つのレイヤは下位レベルのレイヤまたは参照レイヤを含むことができ、別のレイヤは上位レベルのレイヤまたはエンハンスメントレイヤを含むことができる。たとえば、参照レイヤは、ベースレイヤ、またはエンハンスメントレイヤ上の時間参照を含むことができ、エンハンスメントレイヤは、参照レイヤに対するエンハンスメントレイヤを含むことができる。本開示に記載される例は、複数のエンハンスメントレイヤにも及ぶことを理解されたい。

[0112]いくつかの実施形態では、ベースビューの中の関連する窓は、信号で伝えられ、参照レイヤのピクチャサイズに関連し、関連する窓の境界は、参照レイヤのピクチャ内で位置合わせまたは位置決めされる。加えて、アップサンプルされた領域も、信号で伝えられ得る。アップサンプルされた領域の境界は、エンハンスメントレイヤのピクチャ内にあり得る。レイヤ間の参照ピクチャが、エンハンスメントレイヤのピクチャの参照ピクチャリストへ加えられるべき場合、アップサンプルされた領域は、エンハンスメントレイヤのピクチャのサイズと同じサイズに拡張される（たとえば、パディングによって）。

[0113]シンタックス要素は、ビデオパラメータセットの中で信号で伝えられ得る。あるいは、シンタックス要素は、ビットストリーム、たとえば、ＶＰＳ（ビデオパラメータセット）、ＳＰＳ（シーケンスパラメータセット）、ＰＰＳ（ピクチャパラメータセット）、スライスヘッダ、またはＳＥＩ（追加拡張情報）メッセージの中の、第１のフラグによって送信され得る。

[0114]シンタックス要素ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｌｅｆｔ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｔｏｐ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｒｉｇｈｔ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｂｏｔｔｏｍ＿ｏｆｆｓｅｔ［ｉ］［ｊ］は、変倍された（アップサンプルされた）領域とエンハンスメントレイヤのピクチャとの間のオフセットと、一括して呼ばれる場合がある。それらが表現する値は、レイヤｉの第ｊの参照レイヤのスケール化された参照レイヤのオフセットと呼ばれる場合がある。

[0115]シンタックス要素ｒｅｌ＿ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｌｅｆｔ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｒｅｌ＿ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｔｏｐ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｒｅｌ＿ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｒｉｇｈｔ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、およびｒｅｌ＿ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｂｏｔｔｏｍ＿ｏｆｆｓｅｔ［ｉ］［ｊ］は、参照レイヤの関連する領域のオフセットシンタックス要素と、一括して呼ばれる場合があり、それらが示す値は、レイヤｉの第ｊの参照レイヤの関連する領域オフセットと呼ばれる場合がある。表３は、ビデオパラメータセットの拡張シンタックスの例を示す。

[0116]加えて、ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｌｅｆｔ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｔｏｐ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｒｉｇｈｔ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｂｏｔｔｏｍ＿ｏｆｆｓｅｔ［ｉ］［ｊ］は、レイヤｉの第ｊの参照レイヤから変倍された参照領域の左側、上部、右側、および下部の境界の、復号されているレイヤｉの現在のピクチャ（たとえば、エンハンスメントレイヤのピクチャ）の、それぞれ、左側、上部、右側および下部の境界までの距離（たとえば、２つのルーマサンプルを単位にして）を、規定し得る。存在しない場合、これらのシンタックス要素の値は、０と等しいと暗示され得る。

[0117]また、ｒｅｌ＿ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｌｅｆｔ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｒｅｌ＿ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｔｏｐ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｒｅｌ＿ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｒｉｇｈｔ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｒｅｌ＿ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｂｏｔｔｏｍ＿ｏｆｆｓｅｔ［ｉ］［ｊ］は、レイヤｉの第ｊの参照レイヤから復号された参照レイヤのピクチャの左側、上部、右側、および下部の境界の、レイヤｉの現在のピクチャ（たとえば、エンハンスメントレイヤのピクチャ）に対するレイヤ間予測のために変倍されるべき復号された参照レイヤのピクチャの関連する領域の、それぞれ、左側、上部、右側および下部の境界に対する距離（たとえば、２つのルーマサンプルを単位にして）を、規定し得る。存在しない場合、これらのシンタックス要素の値は、０と等しいと暗示され得る。

[0118]あるいは、各参照レイヤに対するオフセットを信号で伝えることは、次のように記載される各参照レイヤに対して信号で伝えられたフラグを条件とされ得る。たとえば、表４は、ｖｐｓ拡張の例を示す。

[0119]加えて、ｓｉｇｎａｌ＿ｒｅｆ＿ｌａｙｅｒ＿ｏｆｆｓｅｔｓ＿ｆｌａｇ［ｉ］［ｊ］が１に等しいことは、スケール化された参照レイヤのオフセットのシンタックス要素および参照レイヤの関連する領域のオフセットのシンタックス要素が、レイヤｉの第ｊの参照レイヤに対して信号で伝えられたことを意味する。ｓｉｇｎａｌ＿ｒｅｆ＿ｌａｙｅｒ＿ｏｆｆｓｅｔｓ＿ｆｌａｇ［ｉ］［ｊ］が０に等しいことは、スケール化された参照レイヤのオフセットおよびオフセットのシンタックス要素が、レイヤｉの第ｊの参照レイヤに対して信号で伝えられておらず、これらがすべて０に等しいと暗示されていることを意味する。

[0120]あるいは、スケール化された参照レイヤのオフセットが各レイヤｉに対して信号で伝えられるべき参照レイヤの数は、信号で伝えられるはずであり、加えて、参照レイヤのレイヤＩＤが、レイヤＩＤを特定するために信号で伝えられるはずである。表５は、ｖｐｓ拡張の別の例を示す。

[0121]加えて、ｎｕｍ＿ｒｅｆ＿ｌａｙｅｒｓ＿ｗｉｔｈ＿ｏｆｆｓｅｔｓ［ｉ］は、スケール化された参照レイヤのオフセットおよび参照レイヤの関連する領域が信号で伝えられるべきレイヤｉの参照レイヤの数に等しい。ｎｕｍ＿ｒｅｆ＿ｌａｙｅｒｓ＿ｗｉｔｈ＿ｏｆｆｓｅｔｓ［ｉ］の値は、０からｎｕｍ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒｓ［ｉ］（それらを含む）の範囲にある。

[0122]ｒｅｆ＿ｌａｙｅｒ＿ｉｄ［ｉ］［ｊ］は、スケール化された参照レイヤのオフセットおよび参照レイヤの関連する領域がループの中で信号で伝えられるべき参照レイヤのレイヤ識別子に等しい。ｒｅｆ＿ｌａｙｅｒ＿ｉｄ［ｉ］［ｊ］を表現するために使用されるビットの数は、Ｃｅｉｌ（Ｌｏｇ２（ｎｕｍ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒｓ＋１））である。

[0123]現在のレイヤに対する参照レイヤのピクチャを取得するために、処理で使用される変数を取得するため、導出処理が、Ｌに等しい入力Ｚを伴うルーマサンプルに対して１回、Ｃに等しい入力Ｚを伴うクロマサンプルに対して１回、使用される。変数ＳｕｂＷｉｄｔｈ_LおよびＳｕｂＨｅｉｇｈｔ_Lは、両方とも１に等しく設定され得、変数ＳｕｂＷｉｄｔｈ_CおよびＳｕｂＨｅｉｇｈｔ_Cは、それぞれ、ＳｕｂＷｉｄｔｈＣおよびＳｕｂＨｅｉｇｈｔＣに等しく設定され得る。

[0124]いくつかの実施形態では、変数Ｚは、可能な値ＬまたはＣとともに、この処理へ入力され得る。０からｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１（それらを含む）の範囲にあるｉ、および０からｎｕｍ＿ｄｉｒｅｃｔ＿ｒｅｆ＿ｌａｙｅｒｓ［ｉ］−１（それらを含む）の範囲にあるｊに対して、ＲｅｆＰｉｃＷｉｄｔｈＩｎＬｕｍａＳａｍｐｌｅｓ［ｉ］［ｊ］およびＲｅｆＰｉｃＨｅｉｇｈｔＩｎＬｕｍａＳａｍｐｌｅｓ［ｉ］［ｊ］を、第ｉのレイヤの第ｊの参照レイヤのピクチャの、ＶＰＳで定義されるようなルーマサンプルを単位にした、それぞれ、幅および高さとする。ＣｕｒｒＰｉｃＷｉｄｔｈＩｎＬｕｍａＳａｍｐｌｅｓ［ｉ］およびＣｕｒｒＰｉｃＨｅｉｇｈｔＩｎＬｕｍａＳａｍｐｌｅｓ［ｉ］を、第ｉのレイヤのピクチャの、それぞれ、幅および高さとし、ここで、ｉは０からｖｐｓ＿ｍａｘ＿ｌａｙｅｒｓ＿ｍｉｎｕｓ１（それらを含む）の範囲にある。現在のピクチャ（たとえば、エンハンスメントレイヤのピクチャ）および参照ピクチャのピクチャの幅および高さは、それぞれのピクチャに対して、シンタックス要素ｐｉｃ＿ｗｉｄｔｈ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓおよびｐｉｃ＿ｈｅｉｇｈｔ＿ｉｎ＿ｌｕｍａ＿ｓａｍｐｌｅｓによって定義されるものであり得る。

[0125]関連する参照レイヤは、関連する参照領域オフセットのシンタックス要素、ならびに対応する参照レイヤの幅および高さを使用して、取得され得る。変数ＲｅｌＲｅｆＬａｙｅｒＰｉｃＷｉｄｔｈ_Z［ｉ］［ｊ］およびＲｅｌＲｅｆＬａｙｅｒＰｉｃＨｅｉｇｈｔ_Z［ｉ］［ｊ］は、次のように導き出され得る。

[0126]変倍された／アップサンプルされた領域は、以下に導き出されるように、変数ＳｃａｌｅｄＲｅｆＬａｙｅｒＰｉｃＷｉｄｔｈ_Z［ｉ］［ｊ］およびＳｃａｌｅｄＲｅｆＬａｙｅｒＰｉｃＨｅｉｇｈｔ_Z［ｉ］［ｊ］によって取得され得る。

[0127]以下の復号処理の説明を簡単にするために、ＬｅｆｔＳｔａｒｔ_Z［ｉ］［ｊ］、ＴｏｐＳｔａｒｔ_Z［ｉ］［ｊ］、ＲｉｇｈｔＥｎｄ_Z［ｉ］［ｊ］およびＢｏｔｔｏｍＥｎｄ_Z［ｉ］［ｊ］という項は、次のように定義され得る。

[0128]いくつかの実施形態では、アップサンプル比は、参照レイヤの中の信号で伝えられた関連する領域およびアップサンプルされた領域に基づいて、以下のように計算され得る。

[0129]参照レイヤの中の関連する領域をアップサンプルする場合、領域は、いくつかのピクセルに対して埋められ得るか、または参照ピクチャの中の既存のピクセルを使用する方法で拡張され得る。しかしながら、各寸法に関するアップサンプル比の計算は、参照レイヤの中で信号で伝えられた関連する領域およびエンハンスメントレイヤでアップサンプルされた領域によって決定され得る。様々なアップサンプルの方法、パディングまたは拡張の方法のうちの任意のものは、本明細書に記載される技法および方法と一緒に使用され得る。

[0130]いくつかの実施形態では、スケール化された参照レイヤは、レイヤｉに対する参照ピクチャとして使用される前に、埋められ得る。レイヤｉの第ｊの参照レイヤの変倍され埋められたピクチャは、レイヤｉに対するレイヤ間予測のために使用され得、ＳｃａｌｅｄＰａｄｄｅｄＲｅｆＬａｙｅｒ_A［ｘ］［ｙ］によって表示され、Ａは、それぞれ、ルーマサンプルと、Ｃｂサンプルと、Ｃｒサンプルとを表示するために、値Ｌ、ＣｂまたはＣｒをとる。ＲｅｆＬａｙｅｒ_A［ｉ］［ｊ］に、チャネルＡ（ルーマ、ＣｂまたはＣｒ）に対応するレイヤｉの第ｊの参照レイヤの参照レイヤのサンプルを表示させる。ＲｅｌＲｅｆＬａｙｅｒＬｅｆｔＯｆｆｓｅｔ_Z［ｉ］［ｊ］からＲｅｆＰｉｃＷｉｄｔｈＩｎＬｕｍａＳａｍｐｌｅｓ［ｉ］［ｊ］＞＞（ＳｕｂＷｉｄｔｈ_Z−１）−ＲｅｌＲｅｆＬａｙｅｒＲｉｇｈｔＯｆｆｓｅｔ_Z［ｉ］［ｊ］−１（それらを含む）の範囲にあるｘ、およびＲｅｌＲｅｆＬａｙｅｒＴｏｐＯｆｆｓｅｔ_Z［ｉ］［ｊ］からＲｅｆＰｉｃＨｅｉｇｈｔＩｎＬｕｍａＳａｍｐｌｅｓ［ｉ］［ｉ］＞＞（ＳｕｂＨｅｉｇｈｔ_Z−１）−ＲｅｌＲｅｆＬａｙｅｒＢｏｔｔｏｍＯｆｆｓｅｔ_Z［ｉ］［ｉ］−１（それらを含む）の範囲にあるｙに対して、参照レイヤの関連する領域は、それらサンプルＲｅｆＬａｙｅｒ_A［ｘ］［ｙ］を占める。ＬｅｆｔＳｔａｒｔ_Z［ｉ］［ｊ］からＲｉｇｈｔＥｎｄ_Z［ｉ］［ｊ］−１（それらを含む）の範囲にあるｍ、およびＴｏｐＳｔａｒｔ_Z［ｉ］［ｊ］からＢｏｔｔｏｍＥｎｄ_Z［ｉ］［ｊ］−１（それらを含む）の範囲にあるｎに対して、アップサンプルされたピクチャは、ＳｃａｌｅｄＰａｄｄｅｄＲｅｆＬａｙｅｒＡ［ｍ］［ｎ］を占める。

[0131]最終のＳｃａｌｅｄＰａｄｄｅｄＲｅｆＬａｙｅｒ_A［ｘ］［ｙ］は、以下に記載されるパディング操作の後、入力Ａとともに取得される。アップサンプルの後、スケール化された参照レイヤは、さらには、水平方向および／または垂直方向で埋められて、現在のピクチャと同じ解像度を有するレイヤ間の参照ピクチャ（たとえば、エンハンスメントレイヤのピクチャ）を作り出す。変数Ａは、可能な値Ｌ、ＣｂまたはＣｒを伴って、この方法に入力される。ＡがＬと等しい場合、ＺはＬと等しく設定され、ＡがＣｂまたはＣｒと等しい場合、ＺはＣと等しく設定される。表６は、パディング操作を説明する例示的なコードを示す。

[0132]交互に、スケール化された参照レイヤのピクチャの上部および下部の部分のパディングが最初になされ得、その後に、スケール化された参照レイヤのピクチャの左側および右側の部分のパディングが続く。表７は、このパディング手法の例を提供する。

あるいは、スケール化された参照レイヤのピクチャによってカバーされないＳｃａｌｅｄＰａｄｄｅｄＲｅｆＬａｙｅｒＡ［ｘ］［ｙ］の中のすべてのピクセルは、定数によって満たされ得る。

[0133]いくつかの実施形態では、復号された参照レイヤのピクチャ全体が、アップサンプルされる。スケール化された参照レイヤのオフセットの任意のものの値が負である場合、切り取られた後のピクチャの境界が、現在のピクチャの復号されるピクチャ（たとえば、エンハンスメントレイヤのピクチャ）の境界内にあるように、切り取ることが、スケール化された参照レイヤで適用され得る。この場合、アップサンプルされた領域は、エンハンスメントレイヤのピクチャより小さくてもまたは大きくてもよい。

[0134]シンタックス要素は、ビデオパラメータセットの中で、信号で伝えられ得る。あるいは、そのようなシンタックス要素は、シーケンスパラメータセット、またはスライスヘッダ拡張などの中で、送信され得る。表８は、ビデオパラメータセットの拡張シンタックスの例を提供する。

[0135]いくつかの実施形態では、シンタックス要素ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｌｅｆｔ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｔｏｐ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｒｉｇｈｔ＿ｏｆｆｓｅｔ［ｉ］［ｊ］、ｓｃａｌｅｄ＿ｒｅｆ＿ｌａｙｅｒ＿ｂｏｔｔｏｍ＿ｏｆｆｓｅｔ［ｉ］［ｊ］は、レイヤｉの第ｊの参照レイヤから変倍され復号された参照レイヤのピクチャの左側、上部、右側、および下部の境界の、復号されているレイヤｉの現在のピクチャ（たとえば、エンハンスメントレイヤのピクチャ）の、それぞれ、左側、上部、右側および下部の境界までの距離（たとえば、２つのルーマサンプルを単位にして）を、規定する。スケール化された参照レイヤの境界が、エンハンスメントレイヤのピクチャの外側にある場合、距離は負の数として規定される。存在しない場合、これらのシンタックス要素の値は、０と等しいと暗示される。

[0136]あるいは、スケール化された参照レイヤのオフセットのシンタックス要素を信号で伝えることは、上述される技法と類似のフラグに基づく条件であり得、フラグもレイヤｉの各参照レイヤに対して信号で伝えられる。あるいは、スケール化された参照レイヤのオフセットのシンタックス要素が明白に存在するべきレイヤｉの参照レイヤの数は、信号で伝えられ、上述の技法と類似の、参照レイヤＩＤのリストおよび対応するスケール化された参照レイヤのオフセットのシンタックス要素が後に続く。

[0137]変数ＳｃａｌｅｄＲｅｆＬａｙｅｒＬｅｆｔＯｆｆｓｅｔ_Z［ｉ］［ｊ］、ＳｃａｌｅｄＲｅｆＬａｙｅｒＴｏｐＯｆｆｓｅｔ_Z［ｉ］［ｊ］、ＳｃａｌｅｄＲｅｆＬａｙｅｒＲｉｇｈｔＯｆｆｓｅｔ_Z［ｉ］［ｊ］、ＳｃａｌｅｄＲｅｆＬａｙｅｒＢｏｔｔｏｍＯｆｆｓｅｔ_Z［ｉ］［ｊ］、ＳｃａｌｅｄＲｅｆＬａｙｅｒＰｉｃＷｉｄｔｈ_Z［ｉ］［ｊ］およびＳｃａｌｅｄＲｅｆＬａｙｅｒＰｉｃＨｅｉｇｈｔ_Z［ｉ］［ｊ］は、上述したものと同じ方法で導き出され得る。

[0138]アップサンプルの後、スケール化された参照レイヤは、さらに、水平方向または垂直方向で埋められ、または切り取られ、現在のピクチャと同じ解像度を有するレイヤ間の参照ピクチャ（たとえば、エンハンスメントレイヤのピクチャ）を作り出す。スケール化された参照レイヤは、幅がＳｃａｌｅｄＲｅｆＬａｙｅｒＰｉｃＷｉｄｔｈ_Z［ｉ］［ｊ］サンプル、高さがＳｃａｌｅｄＲｅｆＬａｙｅｒＰｉｃＨｅｉｇｈｔ_Z［ｉ］［ｊ］サンプルのサイズである。０からＳｃａｌｅｄＲｅｆＬａｙｅｒＰｉｃＷｉｄｔｈ_Z［ｉ］［ｊ］−１（それらを含む）の範囲にあるｘ、および０からＳｃａｌｅｄＲｅｆＬａｙｅｒＰｉｃＨｅｉｇｈｔ_Z［ｉ］［ｊ］−１（それらを含む）の範囲にあるｙに対して、レイヤｉのスケール化された参照レイヤｊをＳｃａｌｅｄＬａｙｅｒ_A［ｘ］［ｙ］とする。変倍された参照ピクチャが、復号されているレイヤｉの現在のピクチャ（たとえば、エンハンスメントレイヤのピクチャ）の境界を越えて拡張することを確実にするために、このピクチャは、切り取られる必要があり得る。変数ＬｅｆｔＳｔａｒｔ_Z［ｉ］［ｊ］、ＴｏｐＳｔａｒｔ_Z［ｉ］［ｊ］、ＲｉｇｈｔＥｎｄ_Z［ｉ］［ｊ］およびＢｏｔｔｏｍＥｎｄ_Z［ｉ］［ｊ］は、次のように導き出され得る。

[0139]切り取った後で取得されるスケール化された参照レイヤのピクチャのサンプルは、ＳｃａｌｅｄＰａｄｄｅｄＲｅｆＬａｙｅｒ_A［ｘ］［ｙ］として記憶され、次のように導き出される。以下の導出において、ＡがＬ（ルーマ）と等しい場合、ＺはＬと等しく、ＡがＣｂまたはＣｒ（クロマ）と等しい場合、ＺはＣと等しい。

[0140]ＬｅｆｔＳｔａｒｔ_Z［ｉ］［ｊ］からＲｉｇｈｔＥｎｄ_Z［ｉ］［ｊ］−１（それらを含む）の範囲にあるｘ、およびＴｏｐＳｔａｒｔ_Z［ｉ］［ｊ］からＢｏｔｔｏｍＥｎｄ_Z［ｉ］［ｊ］−１（それらを含む）の範囲にあるｙに対して、ＳｃａｌｅｄＰａｄｄｅｄＲｅｆＬａｙｅｒ_A［ｘ］［ｙ］は、ＳｃａｌｅｄＬａｙｅｒ_A［ｘ−ＳｃａｌｅｄＲｅｆＬａｙｅｒＬｅｆｔＯｆｆｓｅｔ_Z［ｉ］［ｊ］］［ｙ−ＳｃａｌｅｄＲｅｆＬａｙｅｒＴｏｐＯｆｆｓｅｔ_Z［ｉ］［ｊ］］と等しく設定され得る。パディングは、次いで、上述したようにＳｃａｌｅｄＰａｄｄｅｄＲｅｆＬａｙｅｒ_A［ｘ］［ｙ］で実施され得る。加えて、上の実施形態の任意の組合せも、提供され得る。

[0141]図１２は、例示的な実施形態によるビデオデータをコーディングするための例示的な方法１２００を示す。方法１２００は、たとえば、ビデオエンコーダ２０またはビデオデコーダ３０の１つまたは複数の構成要素によって実行され得る。いくつかの実施形態では、本明細書に記載されるステップのうちの１つまたは複数を実施するために、他の構成要素が使用される場合がある。

[0142]ブロック１２０２では、参照レイヤのピクチャの少なくとも一部分は、アップサンプルされたピクチャサイズを有するアップサンプルされたピクチャにアップサンプルされ得る。いくつかの実施形態では、参照レイヤのピクチャは、メモリからのビデオ情報から取得または受信され得る。アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを備え得る。いくつかの実施形態では、水平または垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、エンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズと異なり得る。たとえば、水平または垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、エンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも小さくてよい。あるいは、水平または垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、エンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも大きくてよい。

[0143]ブロック１２０４では、アップサンプルされたピクチャと関連した位置情報は、信号で伝えられ得る。たとえば、アップサンプルされたピクチャと関連した位置情報は、エンハンスメントレイヤのピクチャと関連した位置情報に基づいて、決定され得る。いくつかの実施形態では、エンハンスメントレイヤのピクチャと関連した位置情報は、エンハンスメントレイヤのピクチャの座標を含む。レイヤ間の参照ピクチャは、アップサンプルされたピクチャおよび位置情報に基づいて、生成され得る。

[0144]例に応じて、本明細書に記載される技法のうちの任意のもののいくつかの振る舞いまたは事象は、異なるシーケンスで実行され得、全体的に追加、結合、または除外され得ることが、認識されるべきである（たとえば、記載される振る舞いまたは事象のすべてが、この技法の実施のために必要であるとは限らない）。その上、いくつかの例では、振る舞いまたは事象は、たとえば、マルチスレッドの処理、割込み処理、または多数のプロセッサを用いて、連続的ではなく同時に実行され得る。

[0145]１つまたは複数の例では、述べられた機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで、実施されてもよい。ソフトウェアで実施される場合、諸機能は、１つまたは複数の命令またはコードとして、コンピュータ可読媒体を介して記憶または伝送され得、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの、有形の媒体に相当するコンピュータ可読記憶媒体、またはコンピュータプログラムの、ある場所から別の場所への、たとえば、通信プロトコルによる転送を促進する任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は、一般に、（１）非一時的である有形のコンピュータ可読記憶媒体または（２）信号またはキャリア波などの通信媒体に相当し得る。データ記憶媒体は、本開示に記載される技法の実施のために、１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによって、命令、コードおよび／またはデータ構造を取り出すためにアクセスされ得る、任意の利用できる媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含んでもよい。

[0146]例として、それに限定されず、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令またはデータ構造の形態で所望のプログラムコードを記憶するために使用可能であり、コンピュータによってアクセス可能な他の任意の媒体を備えることができる。同様に、いかなる接続も、コンピュータ可読媒体と当然のことながら呼ばれる。たとえば、命令が、ウェブサイト、サーバ、または他の遠隔ソースから、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して伝送される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、マイクロ波などのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、キャリア波、信号、または他の一時的な媒体を含まないが、代わりに、非一時的な、有形の記憶媒体を対象とすることを理解されたい。本明細書において、ディスク（disk）およびディスク（disc）は、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光ディスク、デジタルバーサタイルディスク（ＤＶＤ）、フロッピー（登録商標）ディスクおよびブルーレイディスクを含み、この場合、ディスク（disk）は、通常、磁気的にデータを再生し、ディスク（disc）は、レーザーを用いてデータを光学的に再生する。上述したものの組合せも、コンピュータ可読媒体の範囲の中に含められるべきである。

[0147]命令は、１つまたは複数のデジタルシグナルプロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルロジックアレイ（ＦＰＧＡ）、または他の同等の統合された、もしくは個別の論理回路などの、１つまたは複数のプロセッサによって実行され得る。したがって、「プロセッサ」という用語は、本明細書において、前述の構造のうちの任意のものまたは本明細書に記載される技法の実施のために適当な任意の他の構造を参照し得る。加えて、いくつかの態様では、本明細書に記載される機能性は、符号化および復号のために構成され、または組み合わされたコーデックに組み込まれる、専用のハードウェア内および／またはソフトウェアモジュール内で提供され得る。また、この技法は、１つまたは複数の回路または論理要素で、完全に実施され得る。

[0148]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）または１組のＩＣ（たとえば、チップセット）を含む、多種多様なデバイスまたは装置に実装され得る。様々な構成要素、モジュール、またはユニットは、開示された技法を実行するように構成されるデバイスの機能上の態様を強調するために、本開示に記載されるが、必ずしも異なるハードウェアユニットによる実現を求めるとは限らない。むしろ、上述したように、様々なユニットは、コーデックハードウェアユニットの中で組み合わされ、または、上述される１つまたは複数のプロセッサを含む、適当なソフトウェアおよび／またはファームウェアと一緒に相互作用するハードウェアユニットが集まったものによって提供され得る。様々な例が、述べられた。これらおよび他の例は、以下の特許請求の範囲の範囲内である。
以下に本願発明の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
ビデオ情報をコーディングするように構成された装置であって、
参照レイヤのピクチャの少なくとも一部分を、アップサンプルされたピクチャサイズを有するアップサンプルされたピクチャへアップサンプルし、前記アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを備える、
前記アップサンプルされたピクチャと関連した位置情報を信号で伝えるように構成される
プロセッサを備える装置。
［Ｃ２］
前記参照レイヤのピクチャの前記アップサンプルされる部分のサイズは、前記参照レイヤのピクチャのサイズと等しい、Ｃ１に記載の装置。
［Ｃ３］
前記プロセッサは、エンハンスメントレイヤのピクチャと関連した位置情報に基づいて、前記アップサンプルされたピクチャと関連した前記位置情報を決定するように、さらに構成される、Ｃ１に記載の装置。
［Ｃ４］
前記エンハンスメントレイヤのピクチャと関連した前記位置情報は、前記エンハンスメントレイヤのピクチャの座標を備える、Ｃ３に記載の装置。
［Ｃ５］
前記水平または垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、エンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも小さい、Ｃ１に記載の装置。
［Ｃ６］
前記プロセッサは、前記アップサンプルされたピクチャサイズと前記エンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定するとともに、前記サイズの差に基づいて前記アップサンプルされたピクチャサイズを増大させるように、さらに構成される、Ｃ５に記載の装置。
［Ｃ７］
前記プロセッサは、
前記アップサンプルされたピクチャサイズを、前記アップサンプルされたピクチャにピクセル値をパディングすることによって、増大させるとともに、
前記アップサンプルされたピクチャでの最も近い境界ピクセルの値に基づいて、埋められるピクセル値を決定するように、さらに構成される、
Ｃ６に記載の装置。
［Ｃ８］
前記水平または垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、エンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも大きい、Ｃ１に記載の装置。
［Ｃ９］
前記プロセッサは、前記アップサンプルされたピクチャサイズと前記エンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定するとともに、前記サイズの差に基づいて、前記アップサンプルされたピクチャサイズを低減するように、さらに構成される、Ｃ８に記載の装置。
［Ｃ１０］
前記プロセッサは、前記信号で伝えられた位置情報に少なくとも部分的に基づいて、水平方向または垂直方向に関するアップサンプル比を決定するように、さらに構成される、Ｃ１に記載の装置。
［Ｃ１１］
前記装置はビデオエンコーダを備える、Ｃ１に記載の装置。
［Ｃ１２］
前記プロセッサは、前記アップサンプルされたピクチャおよび前記位置情報に基づいて、レイヤ間の参照ピクチャを生成するように、さらに構成される、Ｃ１に記載の装置。
［Ｃ１３］
前記装置が、前記メモリと前記プロセッサとを備えるデジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップコンピュータまたはデスクトップコンピュータ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、携帯電話または衛星無線電話、およびビデオ遠隔会議デバイスのうちの少なくとも１つをさらに備える、Ｃ１に記載の装置。
［Ｃ１４］
ビデオデータをコーディングする方法であって、
参照レイヤのピクチャの少なくとも一部分を、アップサンプルされたピクチャサイズを有するアップサンプルされたピクチャへアップサンプルすることと、前記アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを備える、
アップサンプルされたピクチャと関連した位置情報を信号で伝えることと
を備える方法。
［Ｃ１５］
前記参照レイヤのピクチャの前記アップサンプルされる部分のサイズは、前記参照レイヤのピクチャのサイズと等しい、Ｃ１４に記載の方法。
［Ｃ１６］
エンハンスメントレイヤのピクチャと関連した位置情報に基づいて、前記アップサンプルされたピクチャと関連した前記位置情報を決定することを、さらに備える、Ｃ１４に記載の方法。
［Ｃ１７］
前記エンハンスメントレイヤのピクチャと関連した前記位置情報は前記エンハンスメントレイヤのピクチャの座標を備える、Ｃ１６に記載の方法。
［Ｃ１８］
前記水平または垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、エンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも小さい、Ｃ１４に記載の方法。
［Ｃ１９］
前記アップサンプルされたピクチャサイズと前記エンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定することと、前記サイズの差に基づいて前記アップサンプルされたピクチャサイズを増大させることとを、さらに備える、Ｃ１８に記載の方法。
［Ｃ２０］
前記アップサンプルされたピクチャサイズを、前記アップサンプルされたピクチャにピクセル値をパディングすることによって、増大させることと、
前記アップサンプルされたピクチャでの最も近い境界ピクセルの値に基づいて、埋められるピクセル値を決定することとを、さらに備える、
Ｃ１９に記載の方法。
［Ｃ２１］
前記水平または垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、エンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも大きい、Ｃ１４に記載の方法。
［Ｃ２２］
前記アップサンプルされたピクチャサイズと前記エンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定することと、前記サイズの差に基づいて、前記アップサンプルされたピクチャサイズを低減することとを、さらに備える、Ｃ２１に記載の方法。
［Ｃ２３］
前記信号で伝えられた位置情報に少なくとも部分的に基づいて、水平方向または垂直方向に関するアップサンプル比を決定することを、さらに備える、Ｃ１４に記載の方法。
［Ｃ２４］
前記アップサンプルされたピクチャおよび前記位置情報に基づいて、レイヤ間の参照ピクチャを生成することを、さらに備える、Ｃ１４に記載の方法。
［Ｃ２５］
ビデオ情報を処理するための装置であって、
参照レイヤのピクチャを、アップサンプルされたピクチャサイズを有するアップサンプルされたピクチャへアップサンプルするための手段と、前記アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを備える、
前記アップサンプルされたピクチャと関連した位置情報を信号で伝えるための手段と
を備える装置。
［Ｃ２６］
エンハンスメントレイヤのピクチャと関連した位置情報に基づいて、前記アップサンプルされたピクチャと関連した前記位置情報を決定するための手段を、さらに備える、Ｃ２５に記載の装置。
［Ｃ２７］
前記アップサンプルされたピクチャサイズとエンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定するとともに、前記サイズの差に基づいて前記アップサンプルされたピクチャサイズを増大させるための手段を、さらに備える、Ｃ２５に記載の装置。
［Ｃ２８］
プロセッサによって実行されるときに、前記プロセッサに、
参照レイヤのピクチャを、アップサンプルされたピクチャサイズを有するアップサンプルされたピクチャへアップサンプルさせ、前記アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと、垂直のアップサンプルされたピクチャサイズとを備える、
前記アップサンプルされたピクチャと関連した位置情報を信号で伝えさせる、
そこに記憶されている命令を有する非一時的なコンピュータ可読媒体。
［Ｃ２９］
実行されるときに、前記プロセッサに、エンハンスメントレイヤのピクチャと関連した位置情報に基づいて、前記アップサンプルされたピクチャと関連した前記位置情報を決定させる、そこに記憶されている命令をさらに有する、Ｃ２８に記載の非一時的なコンピュータ可読媒体。
［Ｃ３０］
実行されるときに、前記プロセッサに、前記アップサンプルされたピクチャサイズとエンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定させ、前記サイズの差に基づいて前記アップサンプルされたピクチャサイズを増大させる、そこに記憶されている命令をさらに有する、Ｃ２８に記載の非一時的なコンピュータ可読媒体。

Claims

ビデオデータをコーディングする方法であって、前記方法は、
参照レイヤの中の参照レイヤのピクチャの一部分を、アップサンプルされたピクチャサイズを有するアップサンプルされたピクチャへアップサンプルすることと、前記アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと垂直のアップサンプルされたピクチャサイズとを備え、ここにおいて、前記参照レイヤのピクチャの前記一部分は、エンハンスメントレイヤおよび前記参照レイヤと関連した、アップサンプルされた領域におけるサイズの窓によって示され、ここにおいて、前記水平のアップサンプルされたピクチャサイズまたは前記垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、前記エンハンスメントレイヤの中のエンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも小さい、ここにおいて、前記参照レイヤのピクチャの前記一部分は、エンハンスメントレイヤおよび前記参照レイヤと関連した、アップサンプルされた領域におけるサイズの窓によって示され、
前記アップサンプルされたピクチャと関連した位置情報を信号で伝えることと、ここにおいて、前記位置情報は、前記エンハンスメントレイヤの中のエンハンスメントレイヤのピクチャの座標を備える、
前記アップサンプルされたピクチャサイズと前記エンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定することと、
前記サイズの差に基づいて前記アップサンプルされたピクチャサイズを増大させることと、
前記アップサンプルされたピクチャサイズを、前記アップサンプルされたピクチャにピクセル値をパディングすることによって、増大させることと、
前記アップサンプルされたピクチャでの最も近い境界ピクセルの値に基づいて、埋められるピクセル値を決定することと、
を備える方法。
前記エンハンスメントレイヤの中の前記エンハンスメントレイヤのピクチャと関連した位置情報に基づいて、前記アップサンプルされたピクチャと関連した前記位置情報を決定することをさらに備える、請求項１に記載の方法。
前記水平のアップサンプルされたピクチャサイズまたは前記垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、前記エンハンスメントレイヤの中のエンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも大きい、請求項１に記載の方法。
前記アップサンプルされたピクチャサイズと前記エンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定することと、
前記サイズの差に基づいて前記アップサンプルされたピクチャサイズを低減することと
をさらに備える、請求項３に記載の方法。
前記信号で伝えられた位置情報に少なくとも部分的に基づいて、水平方向または垂直方向に関するアップサンプル比を決定することをさらに備える、請求項１に記載の方法。
前記アップサンプルされたピクチャおよび前記位置情報に基づいて、レイヤ間の参照ピクチャを生成することをさらに備える、請求項１に記載の方法。
ビデオ情報を処理するための装置であって、前記装置は、
参照レイヤの中の参照レイヤのピクチャの一部分を、アップサンプルされたピクチャサイズを有するアップサンプルされたピクチャへアップサンプルするための手段と、前記アップサンプルされたピクチャサイズは、水平のアップサンプルされたピクチャサイズと垂直のアップサンプルされたピクチャサイズとを備え、ここにおいて、前記参照レイヤのピクチャの前記一部分は、エンハンスメントレイヤおよび前記参照レイヤと関連した、アップサンプルされた領域におけるサイズの窓によって示され、ここにおいて、前記水平のアップサンプルされたピクチャサイズまたは前記垂直のアップサンプルされたピクチャサイズのうちの少なくとも一方は、前記エンハンスメントレイヤの中のエンハンスメントレイヤのピクチャの、それぞれ、水平のピクチャサイズまたは垂直のピクチャサイズよりも小さい、ここにおいて、前記参照レイヤのピクチャの前記一部分は、エンハンスメントレイヤおよび前記参照レイヤと関連した関連する窓によって示され、
前記アップサンプルされたピクチャと関連した位置情報を信号で伝えるための手段と、ここにおいて、前記位置情報は、前記エンハンスメントレイヤの中のエンハンスメントレイヤのピクチャの座標を備える、
前記アップサンプルされたピクチャサイズと前記エンハンスメントレイヤのピクチャのサイズとの間のサイズの差を決定する手段と、
前記サイズの差に基づいて前記アップサンプルされたピクチャサイズを増大させる手段と、
前記アップサンプルされたピクチャサイズを、前記アップサンプルされたピクチャにピクセル値をパディングすることによって、増大させる手段と、
前記アップサンプルされたピクチャでの最も近い境界ピクセルの値に基づいて、埋められるピクセル値を決定する手段と、
を備える装置。
前記エンハンスメントレイヤの中の前記エンハンスメントレイヤのピクチャと関連した位置情報に基づいて、前記アップサンプルされたピクチャと関連した前記位置情報を決定するための手段をさらに備える、請求項７に記載の装置。
前記装置はビデオエンコーダを備え、ビットストリームの中の前記ビデオ情報を符号化するための手段をさらに備える、請求項７に記載の装置。
前記装置は、メモリとプロセッサとを備える、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップコンピュータまたはデスクトップコンピュータ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、携帯電話または衛星無線電話、およびビデオ遠隔会議デバイスからなるグループから選択される、請求項７に記載の装置。
プロセッサによって実行されるときに、前記プロセッサに、請求項１乃至６のいずれか１項に記載の方法を行わせる命令を記憶した非一時的なコンピュータ可読媒体。