JP2018530968A

JP2018530968A - 空間イントラ予測のためのヘルパーデータを用いたビデオ符号化

Info

Publication number: JP2018530968A
Application number: JP2018518710A
Authority: JP
Inventors: ヤニライネマ; アリレザアミンロウ
Original assignee: ノキアテクノロジーズオーユー
Priority date: 2015-10-13
Filing date: 2016-10-13
Publication date: 2018-10-18
Also published as: US9743092B2; WO2017064370A1; KR20180069850A; CN108353186A; US20170105003A1; PH12018500776A1; EP3363201A1; EP3363201A4

Abstract

ビデオストリームを復号する際、符号化ビデオストリームが、予測モードの標示および１つ以上の予測ヘルパー値の標示と共に受信される。この符号化ビデオストリームを復号する際に、標示された前記予測モードおよび前記予測ヘルパー値に基づいて、少なくとも１つのサンプルそれぞれの予測値が計算される。復号されたビデオストリームは、計算された前記予測値を用いて復号された前記少なくとも１つのサンプルを含み、コンピュータ可読メモリおよびグラフィカルディスプレイの少なくとも１つに出力される。前記ヘルパー値を補助し、予測単位の任意の行または列において非線形の予測値を得られるように、任意の段階関数を用いることができる。エンコーダ側において、当該エンコーダが前記予測ヘルパー値を決定し、それを用いて前記ビデオストリームを符号化し、格納またはデコーダに伝送する。
【選択図】図３

Description

本発明は、デジタルの画像およびビデオの処理、具体的には、そのような画像およびビデオの通信および格納のための符号化および復号に関する。

背景

ここで使用する略語の一覧を、本明細書の末尾に示している。推奨規格ＩＴＵ-ＴＨ．２６３およびＨ．２６４（０４／２０１５）は、ビデオ情報を２段階で符号化する一般的なハイブリッドビデオコーデックを提供している。第１段階で、例えば動き補償手段や空間手段によって、特定のピクチャ領域（「ブロック」と称する）のピクセル値が予測される。動き補償は通常、符号化されるブロックと密接に対応する、先に符号化済みのビデオフレームの１つにある領域を探して示すことを含み、空間手段は通常、特定の方法で符号化されるブロックの周辺のピクセル値を用いることを含む。第２段階で、予測誤差が符号化される。予測誤差とは、ピクセルの予測ブロックとそのピクセルの元のブロックとの間の差である。予測誤差の符号化は、一般的に、例えば、離散コサイン変換（Discrete Cosine Transform：ＤＣＴ）やその変形などの特定の変換を用いてピクセル値の差を変換し、係数を量子化し、量子化済み係数をエントロピー符号化することによって行われる。量子化処理の忠実性を変えることによって、エンコーダはピクセル表現の正確性（ピクチャ品質）と結果として得られる符号化ビデオ表現のサイズ（ファイルサイズまたは伝送ビットレート）との間のバランスを制御することができる。

別の画像／ビデオ符号化規格として、高効率ビデオ符号化（High Efficiency Video Coding：ＨＥＶＣ）とも呼ばれるＩＴＵ-ＴＨ．２６５がある。この手法では、方向フィルタリングを用いてフレーム内サンプル予測ブロックを構築し、選択された予測方向を用いて予測対象のサンプルのサンプル位置を参照行に投影し、さらに１次元線形フィルタを適用してサンプルの予測値を補間する。真水平または真垂直の予測方向の場合、ブロック境界の１つが、サンプル勾配ベースフィルタによってさらにフィルタされる。ＨＥＶＣは、直流（Direct Current：ＤＣ）予測モードおよび平面予測モードも定義している。ＤＣ予測では、参照サンプルのＤＣ成分を計算し、そのＤＣ成分をブロック内のサンプルの予測に用いる。平面予測では、２つの線形予測の平均を計算し、平坦なサンプル表面を有するブロックを予測する。

前述のことから、空間イントラ予測は一般的に、サンプル予測ブロックをそのブロックの周囲の復号されたサンプルに基づいて作成することが明らかである。この手法では、そのブロック内の特定種類の構造を非常に適切にモデル化できるが、同時に、一部のテクスチャの共通クラスを予測できない。例えば、方向サンプル予測では、サポートされている予測方向に一致する形状を正確にモデル化できるが、参照サンプルから離れるほど予測の信頼性が低下する傾向があり、選択された予測方向に沿って予測誤差が現れ始める。以下により詳細に示すこれらの教示の実施形態において、このような先行技術の欠点などに対応する。

摘要

これらの教示の第１の態様によると、ビデオストリームを符号化する方法が提供される。前記方法は、符号化ビデオストリームと共に、予測モードの標示と１つ以上の予測ヘルパー値の標示を受信することと、前記符号化ビデオストリームを復号する際に、受信した前記予測モードの標示および受信した前記１つ以上の予測ヘルパー値に基づいて、少なくとも１つのサンプルそれぞれの予測値を計算することと、出力される復号されたビデオストリームに、計算された前記予測値を用いて復号された前記少なくとも１つのサンプルを含めて、前記復号されたビデオストリームをコンピュータ可読メモリおよびグラフィカルディスプレイの少なくとも１つへと明確に出力することとを含む。

これらの教示の第２の態様によると、コンピュータプログラム命令を格納するコンピュータ可読メモリが提供される。前記コンピュータプログラム命令は、１つ以上のプロセッサによって実行された場合、ホストデコーダ装置にビデオストリームの復号に向けた動作を実行させる。これに関して、前記動作は、符号化ビデオストリームと共に、予測モードの標示および１つ以上の予測ヘルパー値の標示を受信することと、前記符号化ビデオストリームを復号する際に、受信した前記予測モードの標示および受信した前記１つ以上の予測ヘルパー値に基づいて、少なくとも１つのサンプルそれぞれの予測値を計算することと、出力される復号されたビデオストリームに、計算された前記予測値を用いて復号された前記少なくとも１つのサンプルを含めて、前記復号されたビデオストリームをコンピュータ可読メモリおよびグラフィカルディスプレイの少なくとも１つへと明確に出力することとを含む。

これらの教示の第３の態様によると、ビデオストリームを復号する装置が提供される。前記装置は、コンピュータプログラム命令を格納する少なくとも１つのコンピュータ可読メモリと、少なくとも１つのプロセッサとを備える。前記コンピュータプログラム命令を含む前記コンピュータ可読メモリは、前記少なくとも１つのプロセッサによって、前記装置に以下の動作を実行させる。前記動作は、符号化ビデオストリームと共に、予測モードの標示および１つ以上の予測ヘルパー値の標示を受信することと、前記符号化ビデオストリームを復号する際に、受信した前記予測モードの標示および受信した前記１つ以上の予測ヘルパー値に基づいて、少なくとも１つのサンプルそれぞれの予測値を計算することと、出力される復号されたビデオストリームに、計算された前記予測値を用いて復号された前記少なくとも１つのサンプルを含めて、前記復号されたビデオストリームをコンピュータ可読メモリおよびグラフィカルディスプレイの少なくとも１つへと明確に出力することとを含む。

本発明の前述およびその他の態様を、以下においてより詳細に説明する。

図１は、ビデオ符号化技術において知られるように、ピクセル予測と予測誤差の２段階の処理を用いるビデオエンコーダの概略的ブロック図である。図２は、ビデオ符号化技術において知られるように、図１の処理によって符号化されたビデオを復号する汎用ビデオデコーダの概略的ブロック図である。図３Ａは、垂直のみの予測方向を用いる符号化単位内の参照サンプルに対応する予測ブロックのサンプル位置に関して図３Ｂから図３Ｄで用いる表記法を示す図である。図３Ｂは、サンプル値予測における従来の手法を説明するために、図３Ａの表記法を用いて１つの予測単位を含む符号化単位を示す図である。図３Ｃは、これらの教示によるサンプル値の線形予測の一例を説明するために、図３Ａの表記法を用いて１つの予測単位を含む符号化単位を示す図である。図３Ｄは、これらの教示によるサンプル値の非線形予測の一例を説明するために、図３Ａの表記法を用いて１つの予測単位を含む符号化単位を示す図である。図４は、これらの教示の例示的実施形態による処理フロー図である。図５は、これらの教示の特定の態様により実施される、ビデオストリームの符号化および復号に好適な特定の装置やデバイスを示す上位の概略的ブロック図である。

詳細説明

ビデオとは、個々のピクチャまたは画像の連続したストリームであり、ビデオ符号化では、離散した画像セット内の画像の多くに変更がない、またはわずかな変更しかないという事実を利用する。そのため、１つの画像は、対象のピクチャ周囲近傍の連続した他の画像、および同じ画像の他のセクションを参照して構成することができる。多くの場合、ビデオの個々の画像はフレームと呼ばれる。したがって、ビデオ符号化／復号では、１つ以上の他のフレームから対象フレームを予測するフレーム間予測（インター予測）と、対象フレームの１つ以上の他の部分から対象フレームの１つの部分を予測するフレーム内予測（イントラ予測）との両方が用いられる。コーデックとは、一般的に、特定の符号化および復号の手順を実行するソフトウェアを指すが、原則として、コーデックをハードウェア（回路）またはハードウェアとソフトウェアの組合わせとして体現することを妨げるものではない。これらの教示がもたらす、従来のコーデックより有利な点の理解を助けるために、図１に、前述の背景に示したように、また以下にさらに詳細に説明するように、ピクセル予測と予測誤差の２段階の処理を用いる汎用ビデオエンコーダの概略的ブロック図を示している。図１では以下の符号を用いている。
Ｉ_ｎ符号化対象の画像
Ｐ'_ｎ画像ブロックの予測表現
Ｄ_ｎ予測誤差信号
Ｄ'_ｎ再構成された予測誤差信号
Ｉ'_ｎ仮再構成された画像
Ｒ'_ｎ最終再構成された画像
Ｔ、Ｔ^−１変換および逆変換
Ｑ、Ｑ^−１量子化および逆量子化
Ｅエントロピー符号化
ＲＦＭ参照フレームメモリ
Ｐ_{ｉｎｔｅｒ} インター予測
Ｐ_{ｉｎｔｒａ} イントラ予測
ＭＳモード選択
Ｆフィルタリング

ソースピクチャおよび復号されたピクチャはそれぞれ、以下のサンプル配列セットの１つのような１つ以上のサンプル配列を含む。
・輝度（Ｙ）のみ（モノクロ）
・輝度および２つの色差（ＹＣｂＣｒまたはＹＣｇＣｏ）
・緑、青、および赤（ＧＢＲ、ＲＧＢとしても知られる）
・他の不特定のモノクロまたは三刺激色サンプリング（例えば、ＹＺＸ、ＸＹＺとしても知られる）を表現する配列

以下において、これらの配列は輝度（すなわちＬまたはＹ）および色差と呼ばれることがある。前述の２つの色差配列は、実際に用いる色表現方法にかかわらず、ＣｂおよびＣｒと呼ばれることがある。実際に用いる色表現方法は、例えばＨ．２６４／ＡＶＣおよび／またはＨＥＶＣのビデオユーザビリティ情報（Video Usability Information：ＶＵＩ）シンタックスを用いて、例えば符号化ビットストリームに示すことができる。成分は、１つの配列、または３つのサンプル配列（輝度および２つの色差）のうちの１つからの単一サンプル、またはモノクロフォーマットでピクチャを構成する配列、またはその配列の単一サンプルと定義してもよい。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣでは、ピクチャはフレームまたはフィールドのいずれでもよい。フレームは輝度サンプルと、場合により対応する色差サンプルとの行列を含む。ソース信号がインターレースされる場合、フィールドは、フレームの交互のサンプル行のセットであり、エンコーダ入力として用いてもよい。色差サンプル配列はなくてもよく（したがってモノクロサンプリングを用いてもよい）、輝度サンプル配列と比較してサブサンプリングしてもよい。色差フォーマットは次のようにまとめられる。
・モノクロサンプリングでは、サンプル配列が１つだけ存在し、名目上輝度配列と見なされる。
・４:２:０サンプリングでは、２つの色差配列の各々が輝度配列の半分の高さと半分の幅を有する。
・４:２:２サンプリングでは、２つの色差配列の各々が輝度配列と同じ高さと半分の幅を有する。
・４:４:４サンプリングでは、別個の色平面が使用されない場合、２つの色差配列の各々が輝度配列と同じ高さと幅を有する。
・Ｈ．２６４／ＡＶＣおよびＨＥＶＣでは、サンプル配列を別個の色平面としてビットストリームに符号化し、そのビットストリームから符号化色平面をそれぞれ別々に復号することができる。別個の色平面が用いられる場合、それらの各々は（エンコーダおよび／またはデコーダによって）モノクロサンプリングのピクチャとして別々に処理される。

色差サブサンプリングが用いられる場合（例えば、４：２：０または４：２：２色差サンプリング）、輝度サンプルに対する色差サンプルの位置は、エンコーダ側で（例えば、前処理ステップや符号化の一部として）決定されてもよい。輝度サンプルの位置に対する色差サンプルの位置は、例えばＨ．２６４／ＡＶＣやＨＥＶＣなどの符号化規格で予め定義されていてもよい。あるいは、例えばＨ．２６４／ＡＶＣやＨＥＶＣのＶＵＩの一部としてビットストリームに示されていてもよい。

パーティショニングとは、１つのセットの各要素が正確にサブセットの１つであるように、そのセットを複数のサブセットに分割することとして定義することができる。

Ｈ．２６４／ＡＶＣでは、１６×１６ブロックの輝度サンプルと、対応する色差サンプルのブロックがマクロブロックである。例えば４：２：０サンプリングパターンでは、マクロブロックは色差成分ごとに８×８ブロックの色差サンプルを含む。Ｈ．２６４／ＡＶＣでは、ピクチャは１つ以上のスライスグループにパーティショニングされ、スライスグループは１つ以上のスライスを含む。Ｈ．２６４／ＡＶＣでは、スライスは整数のマクロブロックからなり、特定のスライスグループ内でラスタースキャンの順で連続している。

ＨＥＶＣ符号化および／または復号の動作の説明において、次の用語を用いる場合がある。符号化ブロックは、符号化ツリーブロックを複数の符号化ブロックに分割することがパーティショニングであるような、Ｎ×Ｎブロック（Ｎは任意の値）のサンプルとして定義してもよい。符号化ツリーブロック（Coding Tree Block：ＣＴＢ）は、ある成分を複数の符号化ツリーブロックに分割することがパーティショニングであるような、Ｎ×Ｎブロック（Ｎは任意の値）のサンプルとして定義してもよい。符号化ツリー単位（Coding Tree Unit：ＣＴＵ）は、輝度サンプルの符号化ツリーブロック、３つのサンプル配列を有するピクチャにおける色差サンプルの２つの対応する符号化ツリーブロック、あるいはモノクロピクチャ、またはサンプルの符号化に用いた３つの個別の色平面およびシンタックス構造を用いて符号化されるピクチャのサンプルの符号化ツリーブロックとして定義してもよい。符号化単位（Coding Unit：ＣＵ）は、輝度サンプルの符号化ブロック、３つのサンプル配列を有するピクチャにおける色差サンプルの２つの対応する符号化ブロック、あるいはモノクロピクチャ、またはサンプルの符号化に用いた３つの個別の色平面およびシンタックス構造を用いて符号化されるピクチャのサンプルの符号化ブロックとして定義してもよい。

ＨＥＶＣなどの一部のビデオコーデックでは、ビデオピクチャは、ピクチャ領域を覆う複数の符号化単位（ＣＵ）に分割される。ＣＵは１つ以上の予測単位（Prediction Unit：ＰＵ）と１つ以上の変換単位（Transform Unit：ＴＵ）からなる。ＰＵはＣＵ内のサンプルに対する予測処理を規定し、ＴＵはＣＵのサンプルに対する予測誤差の符号化処理を規定する。通常ＣＵは、正方形のサンプルブロックからなり、既定されている可能なＣＵサイズのセットから選択可能なサイズを有する。最大許容サイズのＣＵは通常は最大符号化単位（Largest Coding Unit：ＬＣＵ）または符号化ツリー単位（Coding Tree Unit：ＣＴＵ）と呼ばれ、ビデオピクチャは重なり合わないＣＴＵに分割される。ＣＴＵは、例えば、ＣＴＵと分割の結果得られるＣＵを再帰的に分割することによって、さらに小さいＣＵの組合わせに分割できる。分割の結果得られる各ＣＵは通常、少なくとも１つのＰＵとそれに関連する少なくとも１つのＴＵを有する。ＰＵとＴＵはそれぞれ、予測処理と予測誤差符号化処理の粒度を上げるために、さらに小さい複数のＰＵとＴＵに分割できる。各ＰＵは、そのＰＵ内のピクセルに適用される予測の種類を定義する、そのＰＵに関連した予測情報を持つ。この予測情報は、例えば、インター予測されたＰＵに対しては動きベクトルの情報、イントラ予測されたＰＵに対してはイントラ予測の方向情報などである。同様に、各ＴＵは、そのＴＵ内のサンプルに対する予測誤差復号処理を記述する情報に関連付けられる。この情報は、例えばＤＣＴ係数情報などを含んでもよい。符号化ビデオを格納および／または伝送する場合、通常、各ＣＵに対して予測誤差符号化が適用されるか否かがＣＵレベルで伝達される。ＣＵに関連する予測誤差の残差がない場合、そのＣＵに対するＴＵが存在しないと見なされる。画像をＣＵに分割し、ＣＵをＰＵとＴＵに分割することは通常、そのビデオを伝送するビットストリーム信号で伝えられる（または、符号化ビデオがコンピュータ可読メモリに格納される場合、そのビデオと共に格納される）。これによってデコーダが、これらの単位から目的の構造を再生できる。

図２は、図１の処理によって符号化されたビデオを復号する汎用ビデオデコーダの概略的ブロック図である。図２では以下の符号を用いている。
Ｐ'_ｎ画像ブロックの予測表現
Ｄ'_ｎ再構成された予測誤差信号
Ｉ'_ｎ仮再構成された画像
Ｒ'_ｎ最終再構成された画像
Ｔ^−１逆変換
Ｑ^−１逆量子化
Ｅ^−１エントロピー復号
ＲＦＭ参照フレームメモリ
Ｐ予測（インターまたはイントラ）
Ｆフィルタリング

デコーダは、エンコーダと同様の予測手段を適用してピクセルブロックの予測表現を形成し、予測誤差の復号を用いることによって、出力ビデオを再構成する。ここで予測表現の形成は、エンコーダが作成し、圧縮表現で格納された動き情報や空間情報を用いて行われ、予測誤差の復号は予測誤差符号化の逆操作であって、空間ピクセル領域で量子化された予測誤差信号を回復するものである。デコーダは、予測手段および予測誤差復号手段の適用後、予測信号と予測誤差信号（ピクセル値）を足し合わせて出力ビデオフレームを形成する。図１のエンコーダと同様に図２のデコーダは、出力ビデオをディスプレイに送る、および／または後続フレーム用の予測参照としてビデオシーケンスに格納する前に、出力ビデオの品質を改善するために追加フィルタリング手段を適用することもできる。

サンプル値予測および変換符号化を用いて符号化サンプル値を示す手法の代わりに、またはそれに加えて、カラーパレットに基づく符号化を用いることができる。パレットに基づく符号化とは、パレットが通常は色および関連するインデックスのセットとして定義され、符号化単位内の各サンプルの値がパレット内のそのインデックスを示すことによって表現される、一群の手法を意味する。パレットに基づく符号化は、比較的少数の色を有する符号化単位内において優れた符号化効率を達成することができる。そのような符号化単位は、例えばテキストおよび／または単純な図形だけを含むコンピュータスクリーンコンテンツを表している画像領域などである。パレット符号化の符号化効率を改善するために、異なる種類のパレットインデックス予測手法を利用でき、あるいはパレットインデックスをランレングス符号化して、より大きい均質な画像領域を効率良く表すようにすることができる。また、ＣＵがそのＣＵ内で繰り返されないサンプル値を含む場合、エスケープ符号化を使用することができる。エスケープ符号化されたサンプルは、どのパレットインデックスも参照することなく伝送される。代わりに、エスケープ符号化されたサンプルごとに、それらの値が個々に示される。

典型的なビデオコーデックでは、動き情報は、動き補償された画像ブロックのそれぞれに関連する動きベクトルで示される。こうした動きベクトルはそれぞれ、（エンコーダ側で）符号化されるピクチャまたは（デコーダ側で）復号されるピクチャの画像ブロックと、先に符号化または復号されたピクチャの１つにおける予測ソースブロックとの間の移動量を表す。動きベクトルを効率良く表現するために、動きベクトルは通常、ブロック固有の予測動きベクトルに関して差動符号化されてもよい。典型的なビデオコーデックにおいて、予測動きベクトルは所定の方法、例えば、隣接ブロックの符号化／復号動きベクトルの中央値を計算することによって生成される。動きベクトル予測を行う別の方法は、時間参照ピクチャにおける隣接ブロックおよび／または同位置のブロックから予測候補のリストを作成し、選択された候補を動きベクトルの予測として信号で伝えるものである。動きベクトルの値の予測に加え、先に符号化／復号されたピクチャの参照インデックスを予測できる。参照インデックスは通常、時間参照ピクチャにおける隣接ブロックおよび／または同位置のブロックから予測される。また、典型的な高効率ビデオコーデックでは、通常、マージング（マージモードと呼ばれる場合もある）と呼ばれる追加的な動き情報符号化／復号機構を用いることができる。この機構では、利用可能な参照ピクチャリストの各々について動きベクトルおよび対応する参照ピクチャインデックスを含む、すべての動きフィールド情報が予測され、いかなる変更／修正も行わずに使用される。同様に、動きフィールド情報の予測は、時間参照ピクチャにおける隣接ブロックおよび／または同位置ブロックの動きフィールド情報を用いて行われ、使用された動きフィールド情報は、利用可能な隣接／同位置ブロックの動きフィールド情報が含まれる動きフィールド候補のリストに信号で伝えられる。

ビデオコーデックは通常、１つのソース画像（片予測）または２つのソース（双予測）からの動き補償予測をサポートする。片予測の場合は単一の動きベクトルが適用される。双予測の場合は２つの動きベクトルが信号で伝えられ、２つのソースからの動き補償予測の平均が取られて最終的なサンプル予測が作成される。重み付け予測の場合、２つの予測の相対荷重を調整できる、あるいは信号で伝えられたオフセットを予測信号に追加できる。

ピクチャ間予測のための動き補償を適用することに加えて、ピクチャ内予測に対し、類似の手法を適用することが可能である。この場合、変位ベクトルは、符号化または復号対象のブロックの予測を形成するために、同じピクチャからサンプルブロックをコピーできる位置を示す。この種のブロック内コピー方法により、フレーム内部にテキストや他の図形などの反復構造が存在する場合に、符号化効率を実質的に改善することができる。

典型的なビデオコーデックにおいて、動き補償後またはイントラ予測後の予測残差は、最初にＤＣＴなどの変換カーネルで変換され、次に符号化される。これは、残差間にもまだ相関があることが多く、こうした変換カーネルが多くの場合でこのような相関を小さくするのに役立ち、より高い効率での符号化を可能にするからである。

典型的なビデオエンコーダは、所望のマクロブロックモードおよび関連する動きベクトルなどの最適符号化モードを探索するために、ラグランジュコスト関数を利用する。この種のコスト関数は、非可逆符号化法による（正確なまたは推定された）画像歪みと、画像領域のピクセル値を表現するのに必要である（正確なまたは推定された）情報量を一緒に固定するために、重み付け係数λを用いる。

Ｃ＝Ｄ＋λＲ（式１）

ここで、Ｃは最小化すべきラグランジュコスト、
Ｄはそのモードおよび考慮される動きベクトルによる画像歪み（平均二乗誤差など）、
Ｒはデコーダで画像ブロックを再構成するために要求されるデータ（候補の動きベクトルを表すためのデータ量を含む）を表すのに必要なビット数である。

スケーラブルビデオ符号化とは、コンテンツに関してビットレート、解像度、またはフレームレートが異なる複数の表現を１つのビットストリームに含めることができるような符号化構造のことである。このような場合、受信器は、例えばディスプレイ装置が対応可能な最高の解像度などの特性に応じて、所望の表現を抽出することができる。あるいは、サーバまたはネットワーク要素が、例えばネットワーク特性や受信器の処理能力などに応じて、受信器に送信するビットストリームの部分を抽出することもできる。スケーラブルビットストリームは、一般的には、利用可能な最低品質ビデオを提供する１つの「基本レイヤ」と、下位レイヤと共に受信され復号されるとビデオ品質を高める１つ以上の「拡張レイヤ」から構成される。拡張レイヤに対する符号化効率を高めるために、そのレイヤの符号化表現は、一般に下位レイヤに依存する。例えば、拡張レイヤの動き情報およびモード情報を下位レイヤから予測することができる。同様に、拡張レイヤ予測を作成するために、下位レイヤのピクセルデータを用いることもできる。

品質スケーラビリティ（信号対ノイズ比またはＳＮＲとも呼ばれる）および／または空間スケーラビリティ対応のスケーラブルビデオコーデックは、次のように実装されてもよい。基本レイヤに対しては、従来の非スケーラブルビデオエンコーダおよびデコーダが使用される。基本レイヤの再構成／復号ピクチャは、拡張レイヤ用の参照ピクチャバッファに含められる。Ｈ．２６４／ＡＶＣやＨＥＶＣ、およびインター予測用参照ピクチャリストを用いる同様のコーデックでは、基本レイヤ復号ピクチャは、拡張レイヤの復号参照ピクチャと同様に、拡張レイヤピクチャの符号化／復号のため、参照ピクチャリストに挿入されてもよい。その結果、エンコーダはインター予測参照として基本レイヤ参照ピクチャを選択し、それを使用していることを、通常、参照ピクチャインデックスによって符号化ビットストリーム内に示すことができる。デコーダは、ビットストリームの例えば参照ピクチャインデックスから、拡張レイヤのインター予測参照として基本レイヤピクチャが使用されることを復号する。復号基本レイヤピクチャは、拡張レイヤの予測参照として使用される場合、レイヤ間参照ピクチャと呼ばれる。

品質スケーラビリティに加え、次のスケーラビリティモードも存在する。
・空間スケーラビリティ：基本レイヤピクチャは、拡張レイヤピクチャよりも高い解像度で符号化される。
・ビット深度スケーラビリティ：基本レイヤピクチャは、（例えば１０または１２ビットの）拡張レイヤピクチャよりも低いビット深度（例えば８ビット）で符号化される。
・色差フォーマットスケーラビリティ：基本レイヤピクチャは、拡張レイヤピクチャ（例えば４：２：０フォーマット）よりも高い色差忠実度（例えば４：４：４の色差フォーマットで符号化される）を提供する。
上記のスケーラビリティ例のすべてにおいて、ビットレートの追加オーバーヘッドを最小にするために、拡張レイヤの符号化に基本レイヤ情報を用いることができる。

スケーラビリティは、２つの基本的な方法で有効化できる。すなわち、スケーラブル表現の下位レイヤからのピクセル値またはシンタックスの予測を行うために新しい符号化モードを導入する方法、または、上位レイヤの参照ピクチャバッファ（復号ピクチャバッファ（Decoded Picture Buffer：ＤＰＢ）と呼ばれる）に下位レイヤのピクチャを置く方法である。第１の手法は、より融通性が高く、したがって多くの場合においてより優れた符号化効率を提供できる。しかしながら、第２の手法である参照フレームに基づくスケーラビリティは、単一層コーデックに対する変更を最小限にとどめて非常に効率良く実現可能であると同時に、可能な符号化効率向上の大部分を達成できる。基本的に、参照フレームに基づくスケーラビリティコーデックは、外部手段によるＤＰＢ管理に対処するだけで、すべての層に同じハードウェアまたはソフトウェア実装を利用することによって実現可能である。

ただし、上記の背景セクションに示したように、従来の空間イントラ予測は一部のテクスチャの共通クラスをあまり適切に予測せず、方向サンプル予測において選択した予測方向に予測誤差が現れることがある。そのような点において、本明細書で説明する符号化／復号技術の利点が最も明白となる。

これらの教示の一態様では、予測サンプル値が予測の方向に変更される。これによってコーデックが、従来の方法よりも複雑なテクスチャを補償できる。この変更は、我々が「ヘルパー標示」と呼ぶものによって可能となり、これによりあるサンプル行または列を参照サンプル行または列から離れるように移動させるときに、例えば予測サンプル値の線形変化を決定できる。図３Ｃおよび図３Ｄは、予測ヘルパーのいくつかの例を示している。

これらの教示の別の態様では、予測パフォーマンス改善のために最適化し、予測誤差情報の信号伝達における冗長性を回避するために、予測誤差符号化に変更が加えられる。これは、例えば、残差符号化段階において１つ以上の変換係数行の位置を切り替えることによって達成できる。以下に示すある特定の実施形態において、イントラ予測ヘルパー情報を符号化予測誤差信号に埋め込むことができる。

デコーダ側の観点から、ある特定の実施形態について検討する。この場合、デコーダは次のステップを行うことによって、目的の予測信号（または予測サンプルブロック）を再構成する。
１）予測モードの標示を受信する。
２）１つ以上のイントラ予測ヘルパー値の標示を受信する。
３）前記の予測モードの標示および前記の１つ以上のヘルパー値の標示に基づいて、サンプルの予測値を計算する。
４）任意で、デコーダは、予測誤差の標示を受信し、前記の１つ以上のヘルパー値の標示に基づいて予測誤差符号化手段または復号手段を適用することができる。

この特定の実施形態において、予測ブロック内の各列に１つのヘルパー値ｈ（ｘ）（垂直予測モードの場合）、および予測ブロック内の各行に１つのヘルパー値ｈ（ｙ）（水平予測モードの場合）を用いることができる。ヘルパー値ｈ（ｘ）またはｈ（ｙ）は、エントロピー符号化手段を用いてビットストリームに量子化され符号化される。これらのヘルパー値は線形に適用され、予測方向に参照サンプルｒ（ｘ）およびｒ（ｙ）に蓄積される。

真垂直予測の場合、予測サンプル値ｐ（ｘ，ｙ）は次のように表現できる。

ｐ（ｘ，ｙ）＝ｒ（ｘ）＋ｙ＊ｈ（ｘ）（式２）

より一般的な場合、予測サンプル値ｐ（ｘ，ｙ）は次のように表現できる。

ｐ（ｘ，ｙ）＝ａ_ｙ＊ｒ（ｘ＋ｎ_ｙ）＋（１-ａ_ｙ）＊ｒ（ｘ＋ｎ_ｙ＋１）＋ｙ＊（ａ_ｙ＊ｈ（ｘ＋ｎ_ｙ）＋（１−ａ_ｙ）＊ｈ（ｘ＋ｎ_ｙ＋１））（式３）

ここで、ｎ_ｙは整数であり、
ａ_ｙは、サンプル行ｙを予測する場合の参照サンプルの端数部分を示している（選択した予測方向に基づいて定義される。例えば、Ｈ．２６５／ＨＥＶＣ規格の規定どおり）。

図３Ａから図３Ｄはそれぞれ、最も上の行（網掛け）に沿って参照サンプルｒ１、ｒ２、ｒ３、およびｒ４を示し、参照サンプル以外の網掛けされていない残りの行に、予測サンプルを含む予測ブロックを示している。説明を単純にするために、これらの例では、真垂直の予測方向を想定している。すなわち、各予測ブロックが同じ列内の他の参照サンプルだけを参照する。他の実施形態では、任意の予測ブロックが、異なる１つの行内の１つの参照サンプル、異なる１つの列内の１つの参照サンプル、または同じまたは異なる複数の行および／または列内の複数の参照サンプルを参照できる。網掛けされた左側の列も、ラベル付けされていない網掛けボックス内にｒ０以外の参照サンプルを含むが、これらの例ではどの予測ブロックの参照としても使用されていないのでラベル付けしていない。

通常、図３Ａの太枠のボックスをＣＵと見なしてもよく、その中の破線のボックスをそのＣＵのＰＵと見なしてもよい。図３Ｂから図３Ｄでは、図３Ａに示すものと同じ参照サンプルｒ１〜ｒ４、ＣＵ、およびＰＵを想定している。図３Ｂから図３Ｄにおいて、ＰＵ内の個々のボックス／サンプルは、図３Ａに示す符号ｐ１１、ｐ１２、ｐ２１などを用いてそれぞれ一意に識別されている。

図３Ａに示す符号ｐ１１、ｐ１２、ｐ２１などは、予測ベクトルを表すと見なしてもよい。これらの予測ベクトルは、図３Ｂから図３Ｄにおいて異なる値を取る。予測ブロック／ＰＵ内の予測サンプルは、予測ベクトルによって標示される参照サンプルを、予測ベクトル値を有するボックスへと方向的にコピーすることによって生成される。図３Ｂは、従来技術の垂直方向イントラ予測を示し、図３Ｃおよび図３Ｄは、垂直方向イントラ予測に関するこれらの教示の２つの単純な実施形態を示している。他の実施形態において、予測ベクトルは、同じ画像フレームの異なるＣＵ内（これもイントラ予測）、または異なるフレームのＣＵ内（インター予測）の１つ以上の参照サンプルを参照できる。

まず、図３Ｂに示す従来技術の手法について検討する。参照サンプルｒ１が位置する列内で、すべての予測ベクトルｐ１１、ｐ２１、ｐ３１、およびｐ４１はそれぞれ、この単純な例における真垂直方向予測の制約を受けて、同じ垂直列内の真上のボックスを指す。予測ベクトルｐ１１は参照サンプルｒ１を指すため、ｐ１１と標示されているボックスにｒ１がコピーされる。予測ベクトルｐ２１は、その真上でｐ１１と標示されているボックスであって、現在復号処理中である参照サンプルｒ１のコピーを含むボックスを指すため、ｐ２１と標示されているボックスに参照サンプルｒ１が再度コピーされる。予測ベクトルｐ３１はその真上のボックスを指し、ｐ３１と標示されているボックスに参照サンプルｒ１が同様にコピーされる。このように参照サンプルｒ１の列が処理される。他の列も、それぞれの参照サンプルｒ２、ｒ３、およびｒ４に関して同様である。すなわち、図３Ｂの予測ブロック／ＰＵ（網掛けされていない部分）の各列が、最も上の行内の参照サンプルｒ１〜ｒ４のコピーとなる。この例は垂直のみの予測方向に制限されているため、従来のＨＥＶＣ符号化／復号に必要な結果は、図３Ｂに示すように、予測ブロックのすべての行にわたって同じ列内で参照サンプルが正確に繰り返されることである。これは、従来のビデオ符号化／復号の予測処理における方向バイアスを表している。

図３Ｃは、大きさが＋２の線形予測ヘルパー（概して、ヘルパー情報３０２）が、参照サンプルｒ３が整列している列（第３の予測列）に伝達される例を示している。図３Ｃではヘルパー情報３０２の他の列にゼロ以外の予測ヘルパー値がないため、これらの列は復号後、図３Ｂの対応する列と同一になる。一方、第３の予測列にあるゼロ以外のヘルパー値は、真上のブロックの値に＋２を加える。予測ベクトルがブロックの上のサンプルを参照し、参照サンプルｒ３における関連値が８７である特定の例を想定すると、図３Ｃの第３の予測列は以下のように復号される。

図３Ｃの第３の予測列における後続の行それぞれは、ヘルパー値＋２によって真上の行内の対応する値から発散する値を有する。ある特定の例においてサンプル値はピクセルの色やカラーパレットのインデックスであるが、別の実装においてこれらのサンプル値は、デジタル画像を定義する様々なパラメータのいずれかを表してもよい。

図３Ｄの例を検討すると、ゼロ以外のヘルパー値３０２は第３の予測列に対するものだけであるという点で図３Ｃと同様である。ただし図３Ｄの場合、ヘルパー情報３０２は大きさが＋８であり、図３Ｃとより明確に区別されるのは、図３Ｄのヘルパー情報３０２は段階関数３０４［０，０，１，１］によって生成されていることである。この特定の例において、段階関数は、選択された列内の最後２つのサンプルにのみ存在する有効なヘルパーの結果によってヘルパー信号３０２を変調するために用いられる。具体的には、段階関数３０４の最初の２つのゼロは、図３Ｄにおいて予測ブロック／ＰＵのｐ１３およびｐ２３の位置に対する＋８ヘルパー値を無効にするため、それらの位置に参照サンプルｒ３が変更なしでコピーされる。段階関数３０４の次の２つの値は、図３Ｄにおいて予測ブロック／ＰＵのｐ３３およびｐ４３の位置に対するヘルパー値＋８の単位乗数であるため、これらの各位置においてヘルパー値の大きさ＋８が、このベクトルが参照するサンプルの大きさに加えられる。予測ベクトルがブロックの上のサンプルを参照し、参照サンプルｒ３における関連値が８７であるという図３Ｃの想定を同様に用いると、図３Ｄの第３の予測列は以下のように復号される。

エンコーダはヘルパー値を決定するが、その決定の際にサンプル予測の改善と、ヘルパー値の伝達に必要なビットレートの増加とのバランスを取ってもよい。段階関数はエンコーダによって決定することもできるが、エンコーダ／デコーダ装置の外部で決定することもできる（例えば、任意のコーデックは所定の段階関数を常に用いるが、この段階関数は、デコーダが任意のＰＵのみ、任意のフレームのみ、またはビデオストリーム全体に適用する異なる段階関数を信号伝達することによって無効にすることができる）。エンコーダが段階関数を決定するときは、デコーダが画像フレームを適切に復号できるように、常にその段階関数を符号化ビットストリームで伝達する必要がある。実際には、エンコーダとデコーダの両方が段階関数の適用方法を共通に認識していれば、段階関数の適用方法は前述の例とは異なってもよい。前述の例では、あるボックス／予測ブロックがその真上の予測ブロックまたは参照サンプルを参照するため、予測ブロックｐ４３の場合、図３Ｄの段階関数［０，０，１，１］は予測ブロックｐ３３の値にヘルパー値＋８を加えた。ただし他の構成において、エンコーダおよびデコーダが元の参照サンプルを指す予測ベクトルを認識できる場合、図３Ｄに用いたものと同じ段階関数およびヘルパー値によって列３が［８７，８７，９５，９５］となる。これは、ｐ４３について、予測ブロックｐ３３の値９５ではなく参照サンプルｒ３の値８７に＋８ヘルパー値が加えられるからである。

この例について図３Ａ、図３Ｂ、および図３Ｄを比較し、垂直のみの予測方向を想定すると、図３Ａの従来の符号化ではＰＵの列内に色勾配が許可されない。ヘルパー情報により、任意の列内において連続的な色勾配が可能になり、ヘルパー情報と段階関数を組み合わせることによってＰＵの任意の列内において非連続的な色勾配が可能になる。水平のみの予測方向についても同様である。垂直と水平の組合わせの場合、従来の実施では任意のＰＵ位置に対してＣＵの１つの参照ピクセルしか選択できないため、ある意味で方向バイアスが存在する。ヘルパー情報（段階関数の有無にかかわらず）を用いた符号化の利点によって、従来のビデオ符号化における方向バイアスが大幅に緩和される。このことは、説明を単純にするために前述の例で用いた垂直のみの予測方向という人為的な制約がない場合にも当てはまる。

これらの教示は様々な実装によって体現される。例えば、予測方向を指定する予測モードは様々な方法で示される（例えば、１つの予測サンプルに２つの参照サンプルが用いられる場合、垂直、水平、または組合わせ／マージモード）。図３Ｃおよび図３Ｄの例では、４値セットのうち１つの値だけがゼロ以外であるヘルパー値を用いたが、これは説明を単純にし、４×４のＰＵサイズに合わせたものである。他の実施形態では、ヘルパー値の数は前述の例とは異なってもよく、予測方向（例えば、サンプルベクトルが水平参照サンプルおよび垂直参照サンプルを指す場合、またはサンプルベクトルが２つの参照サンプルの間の参照位置を指す場合、そのサンプルに２つのヘルパー値を用いることができ、それらの参照サンプル両方の値を用いて予測サンプル値が生成される）や予測ブロック／ＰＵサイズなどの異なる態様に依存してもよい。

また、多種多様な方法によってヘルパー値を標示することができる。いくつかの非限定的な例として、ヘルパー値を絶対値として、または前述の図３Ｃおよび図３Ｄの例に示すように予測サンプル値に対する差分値として、またはエンコーダおよびデコーダが所定のアルゴリズムに用いる変数のような他のヘルパー値（例えば、標示されたヘルパー値に対する剰余関数）として標示することができる。これらの例のいずれにおいても、絶対ヘルパー値または差分ヘルパー値を個別に符号化することも、一緒に符号化することもできる。一緒に符号化する場合、絶対ヘルパー値または差分ヘルパー値は、例えばＤＣＴ、離散サイン変換（Discrete Sign Transform：ＤＳＴ）、Ｈａａｒ（ウェーブレット）変換などの１つ以上の変換を用いて変換符号化することができる。絶対ヘルパー値または差分ヘルパー値は、例えば変換値または非変換値のスカラー量子化などの様々な手法を用いて、エンコーダにおいて量子化およびデコーダにおいて逆量子化できる。量子化と逆量子化の粒度はビデオストリームによって明示的に標示するか、または、例えば予測誤差符号化に用いられる量子化パラメータなどの他の符号化パラメータから導出することもできる。当然のことながら、さらに別の実装において前述のものの組合わせを用いることもできる。

予測ヘルパー値は、図３Ｃの例に示すように予測サンプルに対して一定に増加する値を予測方向に線形に追加すること、または図３Ｄの例に示すように、ある値を、ある処理行と別の処理行で異なることができるように非線形に追加することのいずれによっても適用できる。非線形演算の場合、各処理行の値は事前に定義するか、または符号化ビデオを伝搬するビットストリームによって伝達することができる。

予測ヘルパー値は、予測サンプル値がブロックの最終行において変更されているべき量を標示するか、または予測サンプル値が他の行（例えば最初の行）において変更されるべき量を標示することができる。前述の例では、予測ブロック／ＰＵの第３の列のみが予測ヘルパー値によって変更されたが、例えば、同じ予測ヘルパーセット３０２が水平予測方向モードの標示と共に伝達された場合、示されたＰＵの第３の行に＋２または＋８の値が適用されるであろう。

予測ヘルパー値は、予測処理に用いられる参照サンプルの一部または全部に対して標示しても、前述の図３Ｃおよび図３Ｄの例のように予測ブロック内の一部のピクセルに対してのみ標示してもよい。予測ヘルパー値を予測ブロック内の一部のピクセルに対して標示する場合、それらのヘルパー値を参照サンプル行に投影し、参照サンプルに対して標示されたように用いてもよい。

近傍ピクセルの統計を、予測ヘルパー値の符号化、および／または予測を改善するために予測ヘルパー値を適用する方法の符号化（例えば、段階関数の符号化）に用いることもできる。例として、近傍ピクセル、または近傍ピクセルに関連付けられた予測ヘルパー値を用いて、予測ヘルパー値のコンテキスト適応的算術符号化に用いるコンテキストを定義できる。場合によっては、予測ヘルパー値を近傍ピクセル値から推測することや、近傍ピクセル値を用いて（例えば、ピクセル近傍におけるサンプル値の局所変更を考慮して）計算することができる。

これらの教示の実際の展開では、予測ヘルパー値が存在する場合の残差符号化動作は、サンプルのブロックに予測ヘルパー値が関連付けられていない場合に用いられる残差符号化動作と異なってもよい。この点について、そのような差異の例として、変換係数符号化を適用できる。変換符号化を適用する方法の１つとして、係数を異なる順序で走査すること、または変換ブロック内の変換係数の一部または全部の位置を交換することがある。例えば、予測誤差符号化においてＤＳＴタイプの変換を行い、予測ヘルパー値を用いる水平予測が選択された場合、順変換出力の第１の列内の係数の大きさは小さくなりがちであり、その場合、係数をエントロピー符号化する前にそれら係数の列を最終列に移動してもよい。変換符号化を適用する別の例では、イントラ予測ヘルパー値が存在する場合、変換係数の算術符号化に専用のコンテキストを指定する。

予測ヘルパー値を標示する特に有利な方法の１つは、予測ヘルパーを予測誤差の信号伝達に埋め込むことである。例えば、いくつかの変換係数を用いて、特定の基底関数の加重の代わりに予測ヘルパー値を格納することができる。この場合、実際の変換係数（例えば、水平または垂直方向におけるＤＳＴの第１の基底関数に関連付けられた変換係数）の１つ以上をゼロに設定でき、関連付けられた方向における予測ヘルパーの値を係数符号化処理に渡すことができる。デコーダ側でも同様に、通常は所定の変換係数に関連付けられる復号値をイントラ予測ヘルパー用の値として割り当てることができ、関連付けられた変換係数をゼロに設定できる。別の例では、イントラ予測ヘルパー値も追加の係数として含むように、符号化または復号される係数の数を、変換自体によって必要とされる数から増やすことができる。

これらの教示の実施形態により、ビデオおよび画像の処理における空間イントラ予測の正確性を改善できる。別の実装のいくつかでは、必要な追加処理の量が従来のイントラ予測技術よりも少なくなるが、ほとんどの実装において、これは実質的な制限となるものではない。専用の画像／ビデオプロセッサが消費者装置に備えられることがかなり一般的になり、最新のスマートフォンなどの多くの携帯装置内にも存在する。そのような携帯装置では、能力やデータ処理量（画像／ビデオ処理を含む）の増大にかかわらず、バッテリ消費がそれほど大きな問題ではなくなっている。

図４は、ビデオストリームを符号化する前述の態様のいくつかをデコーダの観点から要約した処理フロー図である。他の実施形態において、これらの同じ教示を、格納または送信の際に符号化された個々の画像の復号に用いることができるが、これらの教示の活用は、個々の画像／ピクチャよりもビデオストリームの画像においてより大きな利点がある。まずブロック４０２において、図４の方法を実行するデコーダが符号化ビデオストリームを予測モードの標示および１つ以上の予測ヘルパー値の標示と共に受信する。ブロック４０４において、符号化ビデオストリームを復号する際に、デコーダは少なくとも１つのサンプルそれぞれの予測値を計算する。この予測値は、受信した予測モードの標示および受信した１つ以上の予測ヘルパー値に基づいて計算される。次にブロック４０６において、デコーダは、出力される復号されたビデオストリームに、計算された対応する予測値を用いて復号された少なくとも１つのサンプル各々を含めて、復号されたビデオストリームをコンピュータ可読メモリおよびグラフィカルディスプレイの少なくとも１つへと明確に出力する。

前述の例において、ブロック４０２において標示された予測モードは、図３Ｃおよび図３Ｄの例に示す垂直予測モード、水平予測モード、単一のサンプルが２つの異なる参照サンプルを参照する場合などの垂直と水平の組合わせ予測モード、動き情報を含むマクロブロックなどのマージモード、符号化ビデオストリームが基本レイヤと少なくとも１つの拡張レイヤを含む場合などのスケーラブルモード、およびＨＥＶＣ規格のＤＣモードと平面モードにすることができる。

前述の実施形態のいずれにおいても、ブロック４０４で行うような符号化ビデオストリームの復号は、対応するゼロ以外の予測ヘルパー値を有する各サンプルについて、ブロック４０４で行うような予測値の計算を、予測ヘルパー値を対応する参照サンプル値に適用することによって行うことを含んでもよい。この参照サンプルは、当該サンプルに対して予測方向に沿って配置され、この予測方向は予測モードによって指定される。図３Ｃおよび図３Ｄの例において、そのような参照サンプルの位置にあるのはｒ３である。

さらに、前述の実施形態のいずれにおいても、ブロック４０２からの１つ以上の予測ヘルパー値の標示は、図３Ｃおよび図３Ｄに関して説明したように予測ヘルパー値のセットとして標示できる。この場合、そのようなセットはそれぞれ符号化ビデオストリーム内の符号化単位ＣＵの１つの予測単位ＰＵに対応する。図３Ｃおよび図３Ｄにおいて、ＣＵおよびＣＵに含まれるＰＵは、そのビデオストリームの１つの画像／フレーム内にある。

図３Ｄの例は、そのようなビデオストリーム内のセットの少なくとも１つについて、予測単位内の同じ行または同じ列内のセットの少なくとも２つのサンプルに対する予測値は非線形であることを示している。これは、当該少なくとも２つのサンプルが存在する同じ行または同じ列の予測値を計算する際に、共通の予測ヘルパー値に段階関数を適用するためである。この場合、＋８が共通予測ヘルパー値である。

図３Ｃの例は、予測値の計算に段階関数を用いない他のセットそれぞれについて、ゼロ以外の予測ヘルパー値に対応する予測ブロックの任意の行または列に対し、対応するゼロ以外の予測ヘルパー値によって、計算された予測値が予測方向に線形に累積されることを示している。図３Ｃの例において、線形累積量はＰＵの連続行ごとに＋２である。

これらの技術はインター予測に用いることもできるが、図３Ｃおよび図３Ｄの例では、復号されたビデオストリームの同じ画像フレーム内にサンプルとサンプル値があるイントラ予測だけに、予測ヘルパー値が制限される。また、図３Ｃおよび図３Ｄの例において、サンプルｐ１１、ｐ１２、ｐ２１などのそれぞれはピクセルであり、対応する予測ヘルパー値は、参照サンプル（図３Ｃおよび図３Ｄにおいてｒ３）を用いて予測されたサンプルを修正するオフセット値を標示することを説明している。しかしながら予測ヘルパー値は、対応する参照ピクセルを着色するためのカラーパレットの別のインデックスと比較して、対応するピクセルを着色するためのカラーパレットの対応するインデックスを標示することもできる。これは、ヘルパー値自体がパレットカラーインデックスである必要があるというわけではない。標示されたヘルパー値がパレットインデックスに対応する絶対値である実装も可能であるが、予測ヘルパーの値は、参照サンプルｒ３に実際に用いられるパレットインデックスに対するオフセットとして用いることができる。この場合、このオフセットは、参照サンプルｒ３のインデックスとの関連から取られる、対応するインデックスを「標示する」。

ストリームビデオは広く普及しており、伝送されたビデオは、コンピュータ可読メモリにビデオを格納するだけの場合よりも高いレベルの圧縮（したがってより多くの符号化）を必要とする場合があるため、前述の説明ではビデオストリームの伝送を想定しているが、これらの教示に従って符号化されるビデオは、ビデオが標示と共に伝送される場合と同様に、図４のブロック４０２において言及した標示と共に格納されるであろうことに注意されたい。したがってデコーダは、伝送チャネル（有線または無線）を介して符号化ビデオを受信したか、またはユーザがデコーダを含む何らかのホスト装置（ラップトップコンピュータ、カメラ／媒体再生装置、スマートフォンなど）に挿入したメモリスティックから符号化ビデオを読み取ったかにかかわらず、それらの同じ標示を用いることができる。

これらの教示に従って動作するエンコーダは、図４に示す同じステップを基本的に逆の順番で実行してもよい。すなわち、ブロック４０６において、エンコーダはカメラからライブ録画されたストリームなどのビデオストリームを取得することができる。その後ブロック４０４において、エンコーダはそのビデオストリームを符号化する際に、１つ以上の予測サンプルについて、予測方向と１つ以上の予測ヘルパー値を用いて予測値を計算する。その後、ブロック４０２において、エンコーダは符号化ビデオストリームを、予測方向を定義する予測モードの標示と、予測ヘルパー値（単数または複数）の１つ以上の標示と共にメモリまたは伝送用の無線に出力できる。

図５は、これらの教示によるビデオストリームの符号化および復号ための汎用ホスト装置の何らかの構成要素、すなわちエンコーダ装置１０およびデコーダ装置２０を示す概略図である。符号化ビデオストリームを送信および受信するための無線チャネル１１がエンコーダ装置１０とデコーダ装置２０の間に示されているが、符号化ビデオストリームは、着脱式のメモリカードやメモリスティックなどの物理的メモリを介してエンコーダ装置１０からデコーダ装置２０へと転送することができる。または、グラフィカルディスプレイインタフェースを有するカメラなどの装置であって、ビデオを記録し、記録されたビデオをメモリに保存する際にそのビデオを符号化し、グラフィカルディスプレイ上で再生するためにメモリ上の符号化ビデオにアクセスする際にその符号化ビデオを復号する、１つの装置があってもよい。また、中間装置があってもよい。例えば、エンコーダ装置１０がビデオを符号化および復号し、サーバ、または符号化ビデオをより大規模なビデオライブラリ内に格納およびインデックス化できる他の中央データベースなどの中間装置にそのビデオを提供し、中間装置が、個々のラップトップコンピュータ、スマートフォン、車載ビデオディスプレイ装置などのデコーダ装置２０に符号化ビデオを提供する。

エンコーダ装置１０は、コンピュータまたはデータプロセッサ（Data Processor：ＤＰ）１０Ａなどのコントローラと、メモリ（ＭＥＭ）１０Ｂとして体現され、コンピュータ命令のプログラム（ＰＲＯＧ）１０Ｃを格納するコンピュータ可読メモリ媒体とを備える。また、エンコーダ装置１０は、１つ以上のアンテナを介してデコーダ装置２０または中間装置と双方向無線通信するための、無線周波数（Radio Frequency：ＲＦ）送信器／受信器の組合わせ１０Ｄなどの好適な無線インタフェースを備えてもよい。エンコーダの処理は、図示のような個別のＤＰによって、中央演算処理ＤＰ１０Ａによって、またはそれら両方の処理チップもしくはそれら以外の要素も含む何らかの組合わせによって実行されてもよい。

エンコーダ装置１０とデコーダ装置２０との間の無線リンクは、図示のように直接リンクにすることも、前述のようなインターネット上のサーバなどの中間装置を介することもできる。あるいは、同じく前述したように、異なる装置１０、２０間で着脱式メモリによって符号化ビデオが移動される場合、またはエンコーダ装置１０とデコーダ装置２０が同じ装置であって、符号化ビデオが、グラフィカルディスプレイやプロジェクタなどのグラフィカルユーザインタフェースにおいて再生される際に復号されるまでその装置のメモリ内に格納される場合、符号化ビデオの通信用の無線リンクはなくてもよい。

デコーダ装置２０も、コンピュータまたはデータプロセッサ（ＤＰ）２０Ａなどのコントローラと、メモリ（ＭＥＭ）２０Ｂとして体現され、コンピュータ命令のプログラム（ＰＲＯＧ）２０Ｃを格納するコンピュータ可読メモリ媒体とを備える。また、デコーダ装置２０は、１つ以上のアンテナを介してエンコーダ装置１０と通信するための、ＲＦ送信器／受信器の組合わせ２０Ｄなどの好適な無線インタフェースを備えてもよい。エンコーダの処理と同様に、デコーダの処理は、図示のような個別のＤＰによって、中央演算処理ＤＰ２０Ａによって、またはそれら両方の処理チップもしくはそれら以外の要素も含む何らかの組合わせによって実行されてもよい。

ＰＲＯＧ１０Ｃ／２０Ｃの少なくとも１つは、関連付けられたＤＰ１０Ａ／２０Ａによって実行された場合、前述したような本発明の例示的実施形態に従って当該装置が動作することを可能にするプログラム命令を含むと想定される。すなわち、本発明の様々な例示的実施形態は、少なくとも部分的に、エンコーダ装置１０のＤＰ１０Ａまたはデコーダ装置２０のＤＰ２０Ａによって実行可能なコンピュータソフトウェアによって、あるいはハードウェアによって、あるいはソフトウェアとハードウェア（とファームウェア）の組合わせによって実装されてもよい。

コンピュータ可読ＭＥＭ１０Ｂ／２０Ｂは、現場の技術環境に適した任意の種類のものであってよい。例えば、半導体ベースのメモリデバイス、フラッシュメモリ、磁気メモリデバイスおよびシステム、光学式メモリデバイスおよびシステム、固定式および着脱式メモリ、電磁気、赤外線、または半導体システムなどの様々な適合するデータ格納技術の１つ以上を用いて実装されてもよい。コンピュータ可読保存媒体／メモリの具体的な例の一部として、１つ以上の配線を含む電気接続、携帯型コンピュータディスケット、ハードディスク、ランダムアクセスメモリ（Random Access Memory：ＲＡＭ）、読取り専用メモリ（Read-Only Memory：ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（Erasable Programmable Read-Only Memory：ＥＰＲＯＭ、またはフラッシュメモリ）、光ファイバ、携帯型コンパクトディスク読取り専用メモリ（Compact Disc Read-Only Memory：ＣＤ-ＲＯＭ）、光学記憶装置、磁気記憶装置、またはそれらの任意の好適な組合わせなどがある。

ＤＰ１０Ａ／２０Ａは、現場の技術環境に適した任意の種類のものであってよく、非限定的な例として、１つ以上の汎用コンピュータ、特定用途向けコンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（Digital Signal Processor：ＤＳＰ）、マルチコアプロセッサアーキテクチャに基づくプロセッサを含んでもよい。無線インタフェース（例えば無線１０Ｄ／２０Ｄ）は、現場の技術環境に適した任意の種類のものであってよく、独立した送信器、受信器、送受信器、またはそれらの要素の組合わせなどの任意の好適な通信技術を用いて実装されてもよい。

一般に、エンコーダ装置１０および／またはデコーダ装置２０の様々な実施形態は、カメラおよび／またはグラフィカルディスプレイを備えたスマートフォン、ビデオ録画および／または再生機能を有するマシン間（Machine-to-Machine：Ｍ２Ｍ）通信装置や携帯電話や携帯情報端末（Personal Digital Assistant：ＰＤＡ）、ビデオ録画および／または再生機能を有する携帯型コンピュータ、ビデオ録画および／または再生機能を有するデジタルカメラなどの画像キャプチャ装置、ビデオ録画および／または再生機能を有するゲーム装置、ビデオ録画および／または再生機能を有する音楽ストレージおよび再生機器、ビデオ録画および／または再生機能に対応したインターネット機器、上記の機能の組合わせを内蔵した携帯型ユニットまたは端末などを含むが、この限りではない。上記のいずれも、携帯型装置、ウェアラブル装置、全体または一部が埋め込まれた装置、車載通信装置などとして体現してもよい。

前述の説明はあくまで例示であることを理解されたい。当業者は、様々な代替案や変更を考案可能である。例えば、複数の従属項に記載する特徴は、任意の好適な組合わせで互いに組み合わせることができる。また、前述の異なる実施形態の特徴を選択し、本明細書において他の実施形態とは別途に特に説明していない、ある実施形態へと組み合わせることもできる。したがって本明細書の説明は、添付の特許請求の範囲に該当するすべての代替案、変更、および変形を包含することを意図している。

本明細書および／または図面に用いられる可能性のある略語を以下に定義する。これらの用語は、ＩＴＵ-ＴのＨ．２６５／ＨＥＶＣ規格に規定されるとおりの通常の意味に従って用いられる。
ＡＣ（Alternating Current）交流（ＤＣＴの係数）
ＡＶＣ（Advanced Video Coding）アドバンストビデオ符号化（Ｈ．２６４／ＡＶＣ規格）
ＣＴＵ（Coding Tree Unit）符号化ツリー単位
ＣＵ（Coding Unit）符号化単位
ＤＣＴ（Discrete Cosine Transform）離散コサイン変換
ＤＰＢ（Decoded Picture Buffer）復号ピクチャバッファ
ＤＳＴ（Discrete Sine Transform）離散サイン変換
ＤＣ（Direct Current）直流（ＤＣＴの係数）
ＨＥＶＣ（High Efficiency Video Coding）高効率ビデオ符号化（Ｈ．２６５／ＨＥＶＣ規格）
ＬＣＵ（Largest Coding Unit）最大符号化単位
ＩＴＵ-Ｔ（International Telecommunication Union - Telecommunication Standardization sector）国際電気通信連合の電気通信標準化部門
ＭＶＣ（Multi-view Video Coding）マルチビュービデオ符号化
ＭＶＰ（Motion Vector Prediction）動きベクトル予測
ＰＵ（Prediction Unit）予測単位
ＳＮＲ（Signal to Noise Ratio）信号対雑音比
ＳＶＣ（Scalable Video Coding）スケーラブルビデオ符号化
ＴＵ（Transform Unit）変換単位

Claims

ビデオストリームを復号する方法であって、
符号化ビデオストリームと共に、予測モードの標示および１つ以上の予測ヘルパー値の標示を受信することと、
前記符号化ビデオストリームを復号する際に、受信した前記予測モードの標示および受信した前記１つ以上の予測ヘルパー値に基づいて、少なくとも１つのサンプルそれぞれの予測値を計算することと、
出力される復号されたビデオストリームに、計算された前記予測値を用いて復号された前記少なくとも１つのサンプルを含めて、前記復号されたビデオストリームをコンピュータ可読メモリおよびグラフィカルディスプレイの少なくとも１つへと明確に出力することと、
を含む、方法。
前記予測モードの標示は、垂直予測モード、水平予測モード、垂直と水平の組合わせ予測モード、マージモード、前記符号化ビデオストリームが基本レイヤと少なくとも１つの拡張レイヤを含むスケーラブルモード、直流（Direct Current：ＤＣ）モード、および平面モードのうち少なくとも１つを標示する、請求項１に記載の方法。
前記符号化ビデオストリームを復号することは、対応するゼロ以外の予測ヘルパー値を有する前記各サンプルについて、前記サンプルに対して予測方向に沿って配置される参照サンプルの対応する値に前記予測ヘルパー値を適用することによって、前記予測値を計算することを含み、
前記予測方向は前記予測モードによって指定される、
請求項１または２に記載の方法。
前記１つ以上の予測ヘルパー値の標示は、予測ヘルパー値のセットとして標示され、前記セットはそれぞれ前記符号化ビデオストリーム内の符号化単位の１つの予測単位に対応する、請求項１から３のいずれかに記載の方法。
前記セットの少なくとも１つについて、前記予測単位内の少なくとも２つのサンプルが存在する同じ行または同じ列の予測値を計算する際に、共通の予測ヘルパー値に段階関数を適用するため、前記セットの前記同じ行または同じ列の前記少なくとも２つのサンプルに対する前記予測値は非線形である、請求項４に記載の方法。
前記予測値を計算する際に段階関数を用いない他のセットそれぞれについて、ゼロ以外の予測ヘルパー値に対応する予測ブロックの任意の行または列に対し、対応する前記ゼロ以外の予測ヘルパー値によって、計算された前記予測値が前記予測方向に線形に累積される、請求項５に記載の方法。
前記予測ヘルパー値は、前記サンプルと参照サンプルが前記復号されたビデオストリームの同じ画像フレーム内にあるイントラ予測だけに制限される、請求項１から６のいずれかに記載の方法。
前記少なくとも１つのサンプルはそれぞれピクセルであり、対応する前記予測ヘルパー値は、対応する参照ピクセルを着色するためのカラーパレットの別のインデックスと比較して、対応する前記ピクセルを着色するための前記カラーパレットの対応するインデックスを標示する、請求項１から７のいずれかに記載の方法。
ビデオストリームを復号する装置であって、
コンピュータプログラム命令を格納する少なくとも１つのコンピュータ可読メモリと、少なくとも１つのプロセッサとを備え、前記コンピュータプログラム命令を含む前記コンピュータ可読メモリは、前記少なくとも１つのプロセッサによって、少なくとも
符号化ビデオストリームと共に、予測モードの標示および１つ以上の予測ヘルパー値の標示を受信することと、
前記符号化ビデオストリームを復号する際に、受信した前記予測モードの標示および受信した前記１つ以上の予測ヘルパー値に基づいて、少なくとも１つのサンプルそれぞれの予測値を計算することと、
出力される復号されたビデオストリームに、計算された前記予測値を用いて復号された前記少なくとも１つのサンプルを含めて、前記復号されたビデオストリームをコンピュータ可読メモリおよびグラフィカルディスプレイの少なくとも１つへと出力することと、
を前記装置にさせるように構成される、装置。
前記予測モードの標示は、垂直予測モード、水平予測モード、垂直と水平の組合わせ予測モード、マージモード、前記符号化ビデオストリームが基本レイヤと少なくとも１つの拡張レイヤを含むスケーラブルモード、直流（Direct Current：ＤＣ）モード、および平面モードのうち少なくとも１つを標示する、請求項９に記載の装置。
前記コンピュータプログラム命令を含む前記コンピュータ可読メモリは、前記少なくとも１つのプロセッサによって、前記装置に前記符号化ビデオストリームを復号させるように構成され、前記符号化ビデオストリームを復号することは、対応するゼロ以外の予測ヘルパー値を有する前記各サンプルについて、
前記サンプルに対して予測方向に沿って配置される参照サンプルの対応する値に前記予測ヘルパー値を適用して、前記予測値を計算することによって行われ、
前記予測方向は前記予測モードによって指定される、
請求項９または１０に記載の装置。
前記１つ以上の予測ヘルパー値の標示は、予測ヘルパー値のセットとして標示され、前記セットはそれぞれ前記符号化ビデオストリーム内の符号化単位の１つの予測単位に対応する、請求項９から１１のいずれかに記載の装置。
前記セットの少なくとも１つについて、前記予測単位内の少なくとも２つのサンプルが存在する同じ行または同じ列の予測値を計算する際に、共通の予測ヘルパー値に段階関数を適用するため、前記セットの前記同じ行または同じ列の前記少なくとも２つのサンプルに対する前記予測値は非線形である、請求項１２に記載の装置。
前記予測値を計算する際に段階関数を用いない他のセットそれぞれについて、ゼロ以外の予測ヘルパー値に対応する予測ブロックの任意の行または列に対し、対応する前記ゼロ以外の予測ヘルパー値によって、計算された前記予測値が前記予測方向に線形に累積される、請求項１３に記載の装置。
前記予測ヘルパー値は、前記サンプルと参照サンプルが前記復号されたビデオストリームの同じ画像フレーム内にあるイントラ予測だけに制限される、請求項９から１４のいずれかに記載の装置。
前記少なくとも１つのサンプルはそれぞれピクセルであり、対応する前記予測ヘルパー値は、対応する参照ピクセルを着色するためのカラーパレットの別のインデックスと比較して、対応する前記ピクセルを着色するための前記カラーパレットの対応するインデックスを標示する、請求項９から１５のいずれかに記載の装置。
コンピュータプログラム命令を格納するコンピュータ可読メモリであって、前記コンピュータプログラム命令は、１つ以上のプロセッサによって実行された場合、ホストデコーダ装置にビデオストリームの復号に向けた動作を実行させ、前記動作は、
符号化ビデオストリームと共に、予測モードの標示および１つ以上の予測ヘルパー値の標示を受信することと、
前記符号化ビデオストリームを復号する際に、受信した前記予測モードの標示および受信した前記１つ以上の予測ヘルパー値に基づいて、少なくとも１つのサンプルそれぞれの予測値を計算することと、
出力される復号されたビデオストリームに、計算された前記予測値を用いて復号された前記少なくとも１つのサンプルを含めて、前記復号されたビデオストリームをコンピュータ可読メモリおよびグラフィカルディスプレイの少なくとも１つへと明確に出力することと、
を含む、コンピュータ可読メモリ。
前記符号化ビデオストリームを復号することは、対応するゼロ以外の予測ヘルパー値を有する前記各サンプルについて、前記サンプルに対して予測方向に沿って配置される参照サンプルの対応する値に前記予測ヘルパー値を適用することによって、前記予測値を計算することを含み、
前記予測方向は前記予測モードによって指定される、
請求項１７に記載のコンピュータ可読メモリ。
前記１つ以上の予測ヘルパー値の標示は、予測ヘルパー値のセットとして標示され、前記セットはそれぞれ前記符号化ビデオストリーム内の符号化単位の１つの予測単位に対応する、請求項１７または１８に記載のコンピュータ可読メモリ。
前記セットの少なくとも１つについて、前記予測単位内の少なくとも２つのサンプルが存在する同じ行または同じ列の予測値を計算する際に、共通の予測ヘルパー値に段階関数を適用するため、前記セットの前記同じ行または同じ列の前記少なくとも２つのサンプルに対する前記予測値は非線形である、請求項１９に記載のコンピュータ可読メモリ。