JP2012533201A

JP2012533201A - 画像のハイブリッド開ループ／閉ループ圧縮

Info

Publication number: JP2012533201A
Application number: JP2012519020A
Authority: JP
Inventors: デイヴィーズ，トーマス; バーレット，ジェームズ
Original assignee: British Broadcasting Corp
Current assignee: British Broadcasting Corp
Priority date: 2009-07-10
Filing date: 2010-07-09
Publication date: 2012-12-20
Anticipated expiration: 2030-07-09
Also published as: CA2767617C; US20120163450A1; WO2011004027A2; US20160353132A1; JP5841940B2; WO2011004027A3; CA2767617A1; US9451272B2

Abstract

入力画像値と画像予測値との間の差が形成され、その差がＤＣＴで変換されるビデオ符号化の一方法では、画像予測はＰ＝（１−ｃ）Ｐ^ｃ＋ＣＰ^ｏとして形成され、ここでＰ^ｃは、下流側の復号器での正確な復元を可能にする予測値に限定されている閉ループプレディクタであり、Ｐ^ｏは、正確な復元を可能にする予測値に限定されていない空間プレディクタである。この因子は、様々なパラメータに依存して、ゼロから１まで変化することができる。

Description

画像の圧縮
本発明は、画像の圧縮符号化に関し、詳細には動画系列における画像の符号化に関する。ここでは、画像という用語は、フィールドおよびフレームを含むものとして使用される。

差分パルス符号変調（ＤＰＣＭ）として知られている、画像圧縮における初期の考えは、画素値ではなくて、その画素値とその画素についての予測値との間の差を伝送することであった。この差分手法により、画像における空間的な冗長度を利用することができ、画像の動画系列における空間的かつ時間的な冗長度を利用することができる。

よく知られているＭＰＥＧ圧縮方式へとビデオ圧縮技法が開発されるにつれて、時間領域における差分技法を使用することに注意が向けられた。連続した画像におけるブロック間の移動ベクトルを確定する正確な動き測定技法を使用する場合、画像間の差を非常に小さくすることができ、非常に効率的に符号化することができる。空間的な冗長度を利用するには、空間変換技法が好ましく、画像の動き予測がされた（インター符号化された）領域と動き予測なしの（イントラ符号化された）領域の両方に適用された。

したがって、よく認められたビデオ符号器は、動き補償予測、ＤＣＴまたは他の空間変換、量子化、および、可変長符号化またはエントロピー符号化を含んでいた。
ＭＰＥＧおよび他の符号化組織では、符号化効率を上げ、ＨＤＴＶおよびさらに高い画像解像度への符号化機能を拡張するための努力が続いている。

ＭＰＥＧ−４Ｐａｒｔ１０／ＡＶＣ／Ｈ．２６４に含まれる１つの技法は、空間変換をイントラ画像予測で補足することである。復号器では、既に復号化され復元された各ブロックからのデータを使用して、現在のブロックに対して空間予測を実現することができる。符号器では、このイントラ予測は、もちろんローカルな復号器を介して利用可能になる。

このさらなる空間予測は、特に、エッジのディテール、および斜め縞など指向性の強いテクスチャに対して、著しく性能を向上させることが分かってきた。
しかし、実験によれば、性能の向上はブロックのサイズが小さい場合に最大となり、ブロックサイズが増大するにつれて性能が低下することが分かってきた。まずこれが問題であるが、それというのも、小さいブロックサイズに対しては変換符号化利得が相対的に低く、効率的な変換符号化には大きいブロックサイズが必要となるからである。第２に、より高い精細度への動きには、必然的にさらに大きいブロックサイズが必要となる。いくつかの例を挙げれば、４×４のブロックサイズでは、イントラ予測が良好に機能することが分かってきた。８×８のブロックに移動すると、変換符号化利得が約１ｄＢになる可能性があるが、空間予測がより複雑になり、その効果が低下する。ＨＤ解像度以上では、１６×１６ブロック以上の変換が必要になる（恐らくＵＨＤＴＶでは６４×６４までになる）。

動き補償予測には同様の対立点が存在する。すなわち、ブロックサイズが大きくなると、符号化される動きベクトルは少なくなければならず、残りについてはより大きい変換を使用することが可能になる。しかし、恐らくは何らかの小さい対象またはブロック領域内の対象の一部分の動きが原因で、大きいブロックのある部分では予測性能が低下することになる可能性が増す。

本発明は、効果的な予測に必要となる小さいブロックサイズと、（特に精細度が増す場合の）効果的な変換符号化利得に必要となる大きいブロックサイズとの間のこうした対立点に対処するものである。

したがって、本発明は、圧縮符号化の一方法における一態様にあり、入力画像値と画像予測値の間の差を形成するステップと、この差を変換するステップとを含み、画像予測が、下流側の復号器での正確な復元を可能にする予測値に限定されているプレディクタＰ^ｃと、下流側の復号器での正確な復元を可能にする予測値に限定されていない空間プレディクタＰ^ｏとの組合せによって形成される。

空間プレディクタＰ^ｏは、現行ブロック内の各画素にアクセスすることができ、その結果、効果的な変換符号化にとって十分大きいブロック内で、効果的なイントラ画像空間予測が可能になる。

空間プレディクタＰ^ｏと下流側の復号器での正確な復元を可能にする予測値に限定されているプレディクタＰ^ｃとの組合せにより、雑音の増大を制御できるようになることがある。この組合せは、以下のように、プレディクタＰ^ｃおよびプレディクタＰ^ｏのそれぞれの出力の加重和を含んでもよい。

Ｐ＝（１−ｃ）Ｐ^ｃ＋ｃＰ^ｏ
ここで、ｃはゼロから１の間で可変の重み付け因子である。
ｃは、雑音増大の制御および予測の確度を最適化するように選んでもよいが、総合的な予測は、この例では重みが変化しない。

因子ｃ、または、より一般的には、プレディクタＰ^ｃとプレディクタＰ^ｏの相対的な重み付けは、画像の内容で変化することがある。
しばしば、プレディクタＰ^ｃは、たとえば、前述のＨ．２６４空間プレディクタなどの空間プレディクタになる。他の構成では、プレディクタＰ^ｃは、ＭＰＥＧ規格においてよく知られている動き補償予測などの時間プレディクタである。

他の態様では、本発明は、これまでに概説したように符号化されたビットストリームの圧縮復号化の一方法にあり、画像の差を表すビットストリームを受け取るステップと、プレディクタＰ^ｃの予測値を正確に復元するステップと、プレディクタＰ^ｏの予測値を正確にではなく復元するステップと、復元された予測値の組合せを使用して、画像の差と加算するステップとを含む。

しかもさらなる態様では、本発明は、画像情報を受け取り、この画像情報を空間ブロックに分割するブロックスプリッタと、ブロック上で動作して、そのブロックについてのブロック予測値を提供するブロックプレディクタと、画像情報および予測値を受け取り、差分値を形成する減算器手段と、空間変換を実行して変換係数を提供するブロック変換と、この変換係数に対して近似値を生成するための量子化ユニットと、変換係数を符号化して、符号化されたビットストリームにするためのエントロピー符号化ユニットと、変換係数を復元するための逆量子化ユニットと、変換係数に逆空間変換を実行して局所的に復号化された画像値を提供する逆ブロック変換と、この局所的に復号化された画像値上で動作して、ローカル復号器予測値を提供するローカル復号器プレディクタとを備えるビデオ圧縮符号器であって、前記減算器手段が受け取った予測値が、ブロック予測値とローカル復号器予測値の組合せを含むビデオ圧縮符号器にある。

この態様では、本発明はまた、各ブロックにおいて系統づけられた変換済みの画像の差を表す圧縮符号化されたビットストリームを受け取る入力部と、再スケーリング化された変換係数を提供する逆量子化ユニットと、この変換係数に逆空間変換を実行して、復号化された画像値を提供する逆ブロック変換器と、この復号化された画像値上で動作して、前記画像の差と加算するための予測値を提供するプレディクタとを備えるビデオ圧縮復号器であって、このプレディクタが、特定のブロックの完全に外側で動作して、そのブロック内での画像の差と加算するためのクローズド予測値を提供するクローズドプレディクタと、特定のブロックの少なくとも部分的に内部で動作して、そのブロック内での画像の差と加算するためのオープン予測値を提供するオープンプレディクタとを備え、この予測値が、クローズド予測値とオープン予測値の組合せを含むビデオ圧縮復号器にある。

しかもさらなる態様では、本発明は、画像情報を受け取り、この画像情報を空間ブロックに分割するブロックスプリッタ手段と、ブロック上で動作して、そのブロックについてのブロック予測値を提供するブロックプレディクタ手段と、画像情報および予測値を受け取り、画像の差分値を形成する減算器手段と、この画像の差分値に空間変換を実行して変換係数を提供するブロック変換手段と、変換係数を近似するための量子化手段と、変換係数を復元するための逆量子化手段と、変換係数に逆空間変換を実行して、局所的に復号化された画像値を提供する逆ブロック変換手段と、この局所的に復号化された画像値上で動作して、ローカル復号器予測値を提供するローカル復号器プレディクタ手段とを符号器内に備えるビデオ圧縮システムであって、前記減算器手段が受け取った予測値が、ブロック予測値とローカル復号器予測値の可変の組合せを含み、ビデオ圧縮システムはさらに、量子化された変換係数を表し前記組合せの変動を記録するパラメータを含む圧縮符号化されたビットストリームを出力するための手段を符号器内に備え、前記圧縮符号化されたビットストリームを受け取ることと、変換係数に逆空間変換を実行して、復号化された画像値を提供する逆ブロック変換手段と、変換係数を復元するための逆量子化手段と、復号化された画像値上で動作して、前記画像の差と加算するための予測値を提供するプレディクタ手段とを復号器内にさらに含み、このプレディクタ手段が、特定のブロックの完全に外側で動作して、そのブロック内での画像の差と加算するためのクローズド予測値を提供するクローズドプレディクタと、特定のブロックの少なくとも部分的に内部で動作して、そのブロック内での画像の差と加算するためのオープン予測値を提供するオープンプレディクタとを備え、この予測値が、クローズド予測値とオープン予測値の可変の組合せを含み、この組合せが、ビットストリーム内の前記パラメータに従って予測手段によって変化するビデオ圧縮システムにある。

ここで、画像予測値Ｐは次式で形成されることが適切である。
Ｐ＝（１−ｃ）Ｐ^ｃ＋ｃＰ^ｏ
ここで、Ｐ^ｏはブロック予測値であり、Ｐ^ｃはローカル復号器予測値であり、ｃはゼロから１の間で可変の重み付け因子である。

他の態様では、本発明は、圧縮符号化の一方法にあり、入力画像値と画像予測値の間の差を形成するステップと、この差を変換するステップとを含み、画像予測が、下流側の復号器での正確な復元を可能にする予測値に限定されている閉ループプレディクタ（ＣＬＰ）と、下流側の復号器での正確な復元を可能にする予測値に限定されていない開ループプレディクタ（ＯＬＰ）との組合せによって形成され、開ループプレディクタおよび変換は、同じ時間領域または空間領域にある。

この組合せは、ＣＬＰおよびＯＬＰのそれぞれの出力の重み付けされた合計を含むことが適切であり、ＣＬＰおよびＯＬＰの相対的な重み付けは、画像の内容で変化してもよい。画像予測Ｐは次式で形成される。

Ｐ＝（１−ｃ）Ｐ^ｃ＋ｃＰ^ｏ
ここで、ｃはゼロから１の間で可変の重み付け因子であり、Ｐ^ｃはＣＬＰの予測値であり、Ｐ^ｏはＯＬＰの予測値である。

一変形形態では、ＣＬＰは空間プレディクタであり、ＯＬＰは空間プレディクタである。ＣＬＰは、同じ画像内の、隣接していて前に符号化されたブロックから、あるブロックを予測してもよい。ＯＬＰは、同じ変換ブロック内の隣接する画素の平均または他の組合せをとる、画素ごとの空間プレディクタでもよい。空間変換は、ブロック変換、離散コサイン変換（ＤＣＴ）、離散サイン変換（ＤＳＴ）、ウェーブレット変換、ブロック化ウェーブレット変換、重複直交変換（ＬＯＴ）、ブロック化ＬＯＴ、または前述したもののいずれかに近いものからなる群から選択されてもよい。空間プレディクタは、動き補償予測の後に、すなわち動き補償された予測残差に実行してもよい。

他の変形形態では、ＣＬＰは、前に符号化された画像からの動き補償予測（または、複数の動き補償予測の組合せ）であり、ＯＬＰは空間プレディクタである。ＣＬＰは、ブロックベースの動き補償予測でもよい。ＯＬＰは、同じ変換ブロック内の隣接する画素の平均または他の組合せ平均をとる、画素ごとの空間プレディクタでもよい。空間変換は、ブロック変換、離散コサイン変換（ＤＣＴ）、離散サイン変換（ＤＳＴ）、ウェーブレット変換、ブロック化ウェーブレット変換、重複直交変換（ＬＯＴ）、ブロック化ＬＯＴ、または前述したもののいずれかに近いものからなる群から選択されてもよい。

さらに他の変形形態では、ＣＬＰは空間プレディクタであり、ＯＬＰは、前に符号化された画像からの動き補償予測（または、複数の動き補償予測の組合せ）である。ＯＬＰは、ブロックベースの動き補償予測でもよい。ＣＬＰは、同じ画像内の前に符号化されたブロックからの空間プレディクタでもよい。時間変換は、ブロック変換、離散コサイン変換（ＤＣＴ）、離散サイン変換（ＤＳＴ）、ウェーブレット変換、ブロック化ウェーブレット変換、重複直交変換（ＬＯＴ）、ブロック化ＬＯＴ、または前述したもののいずれかに近いものからなる群から選択される。

しかもさらなる変形形態では、ＣＬＰおよびＯＬＰは、前に符号化された画像からの動き補償予測（または、複数の動き補償予測の組合せ）である。ＯＬＰは、ブロックベースの動き補償予測でもよい。ＣＬＰは、ブロックベースの動き補償予測でもよい。時間変換は、ブロック変換、離散コサイン変換（ＤＣＴ）、離散サイン変換（ＤＳＴ）、ウェーブレット変換、ブロック化ウェーブレット変換、重複直交変換（ＬＯＴ）、ブロック化ＬＯＴ、または前述したもののいずれかに近いものからなる群から選択されてもよい。

組合せ因子ｃは、たとえば、ブロックごと、またはフレームごと、または画像のグループ（ＧＯＰ）ごとに変化してもよい。組合せ因子は、何らかの（１つまたは複数の）所定のパターンに従って、変換ブロック内で変化してもよい。組合せ因子は、追加のメタデータに含まれてもよく、符号化データと一緒に運搬してもよい。符号化データと一緒に運搬されるインデックスまたはフラグにより、選ばれたパターンを符号化してもよい。

２つのプレディクタの利得を合計すると１になることがある。
他の態様では、本発明は、これまでに説明してきた主張のいずれか１つに従って符号化されたビットストリームの圧縮復号化の一方法にあり、画像の差を表すビットストリームを受け取るステップと、プレディクタＰ^ｃの予測値を正確に復元するステップと、プレディクタＰ^ｏの予測値を正確にではなく復元するステップと、復元された予測値の組合せを使用して、画像の差と加算するステップとを含む。

１組のフレーム、たとえば、Ｆ_Ｎの前の全てのフレームが符号化されている４つのフレームＦ_Ｎ、Ｆ_Ｎ＋１、Ｆ_Ｎ＋２、Ｆ_Ｎ＋３を考える。
Ｆ_ｋ（ｋ＝Ｎ、Ｎ＋１、Ｎ＋２、Ｎ＋３）内の各ブロックについて、ある１つのブロックは、２つの動きベクトルを有することもでき、この１つのベクトルは、Ｆ_Ｎの前のフレームからの閉ループプレディクタを表し、もう一方のブロックは、たとえばちょうど前のフレームからの、セット内の各フレームからの開ループプレディクタを表す。動きベクトルの両方のセットが送信されることになる。

可能なら復元されたデータを使用して、また不可能ならば元のデータを使用して各フレームに動き補償を実行することもでき、各ブロックは、それぞれの種類の１つの動きベクトルを有し、混合予測を使用する。

次いで、たとえば４ポイントＤＣＴまたはアダマール変換などの時間変換を４つのフレームに適用することもでき、さらに、各ブロックに適用されている任意の空間変換に適用することもできる。ブロック係数は、量子化され符号化されることになる。

復号器では、４つのフレーム全てが一緒に変換されたので、その全てが直ちに復号化されることになる。逆変換（空間および時間）の後に、これにより４つの残留フレームが生じる。与えられた動きベクトルを使用すると、復元されたデータを使用して動き補償を加えることができる。開ループ予測が常に前のフレームからの場合、各フレームが順番に処理されるなら、復元されたデータが常に利用可能である。

用語「前」および「後」が使用されてきたが、各フレームの順序は、アプリケーション内での実際の時間順である必要はなく、何らかの時間の並べ換えをして、後の参照ならびに前の参照が利用可能になるようにしてもよかったことに留意されたい。したがって、これらの用語はまた、符号化順序においても前または後を意味することができる。

次に、添付図面を参照しながら、一例として本発明を説明する。

既知の空間予測技法を示す図である。符号器のブロック図である。空間予測を示す図である。符号器のブロック図である。マルチパス符号化技法を示すブロック図である。マルチパス符号化技法を示すブロック図である。

既に述べたように、ＭＰＥＧＰａｒｔ１０／ＡＶＣ／Ｈ．２６４（これより、便宜上Ｈ．２６４と呼ぶ）は、以前のＭＰＥＧ規格への追加仕様を含み、これによりブロックのイントラ予測が可能になる。ブロックの上部に沿った左側へのデータは、既に復号化され復元されているが、これを使用して、ここで差動的に符号化できる現在のブロックに対して予測を実行することができる。図１には、起こり得る８つの方向予測が示してあり、４×４のブロックに対して使用することができる（前に復元されたサンプルには影がついている）。これらの方向予測に加えて、ブロックのエッジにおける画素の平均値からＤＣを予測することができ、合計で９つのモードが生じる。１６×１６および８×８のブロックに対しては、他の予測が利用可能である。

Ｈ．２６４イントラ予測ツールにより、空間予測符号化と変換符号化を組み合わせることの利点が示された。エッジのディテール、および斜め縞など指向性の強いテクスチャに対して、これは特に効果的であった。

しかし、良好な予測を行うのに必要な小さいブロックと、良好な変換符号化利得を得るのに必要な大きいブロックとの間の固有の対立点には、１つの問題がある。
ブロックサイズが増大した空間予測符号化における効率の低下は、現在の画素と予測の基となる画素との間の距離が（少なくとも、ラスタ走査されたブロックの端部に向けて）増大することから生じるものと理解することができる。この距離が増大するにつれて、画素間の相関が低下し、差動符号化効率も低下する。

同様に、動き補償予測により、ＭＰＥＧ−１以降のビデオ圧縮規格の不可欠な部分が形成された。重要な問題は、ブロックサイズと予測確度の間のトレードオフである。ブロックサイズが大きくなると符号化すべき動きベクトルの数が少なくて済むが、予測確度が低下する。それというのも、小さい対象または大きいブロック内の対象の各部分が、そのブロックの残りに対して差動的に移動しうるからである。したがって、あるブロックから他のブロックへの遷移を変換することが困難にならないよう、ブロック変換は一般に予測ブロック内全体に実行されるので、変換ブロックサイズが制約される。Ｈ．２６４では、非常に広範囲の動きブロックパーティションの中から選択することにより、これらのトレードオフが実現されうる。

望ましいことは、変換によって可能になる場合よりも細かい粒度で予測することである。しかし、ブロック内では、復号器に利用可能なサンプルは、復号化され復元されたサンプルである。符号器で使用されるサンプルは元のサンプルであり、後続の量子化によって異なるものになる。この意味では、予測は開ループであり、符号器が使用する予測値が復号器で正確に復元できるよう符号器内のローカル復号器が保証する場合に設けられる閉ループとは対照的である。この差により、著しく雑音が増大することもある。

復元雑音がどのように増大する可能性があるのか理解するために、Ｐ（ｘ_０，．．．，ｘ_ｒ−１）がサンプルｘ_ｋ（ｋ＝０，．．．，ｒ−１）からのサンプルｘ_ｒの予測を表すものとする。したがって、予測残差ｙ_ｒが次式で与えられる。

ｙ_ｒ＝ｘ_ｒ−Ｐ（ｘ_０，．．．，ｘ_ｒ−１）
Ｌ＝Ｔ^１Ｑ^−１ＱＴは、シーケンスｙ_ｒを変換し、量子化し、逆量子化し、また逆変換するプロセスを表すものとする。差し当たり、Ｌの効果は、分散値がσ_ｎ ^２の雑音源ｎ_ｒをｙ_ｒに付加することであると仮定することができる。すなわち、
Ｙ_ｒ＝Ｌ（ｙ_ｒ）＝ｙ_ｒ＋ｎ_ｒ
復元に際しては、復号器は以下のように形成する。

Ｘ_ｒ＝Ｙ_ｒ＋Ｐ（Ｘ_０，．．．，Ｘ_ｒ−１）
Ｙｒでの雑音ｎに加えて、前に復元された値Ｘのそれぞれに雑音が加わることにより、予測が異なることになり、したがってこの雑音が増大する可能性がある。具体的には、良好なプレディクタＰは通常、ＤＣにおいて利得が１なので、１−Ｐはゼロを意味し、逆フィルタは極を有する、すなわちＤＣにおいて無限利得を有することになる。したがって、雑音は際限なく増大する可能性がある。閉ループプレディクタは、符号器においても復元された値Ｘ_０を使用するが、この問題が生じることはない。

したがって、変換符号器とともに閉ループプレディクタを使用すると、予測の確度（ブロックが大きい場合）または変換の効率（ブロックが小さい場合）のいずれかに制限が生じるという問題があり、開ループプレディクタでは、雑音利得に際限がなくなる可能性がある。

ここで、この問題に対するソリューションを説明する。
数学的には、Ｐ^ｃおよびＰ^ｏを２つのプレディクタと定義する。符号器において、Ｐ^ｃは閉ループに加えられて、前に符号化され復元された係数から単独で構成される予測を生成することになり、Ｐ^ｏは開ループに加えられ、すなわち、元の符号化されていない係数から予測値を生成するように加えられることになる。もちろん、復号器においては、両方の予測は、復元された係数を使用しなければならない。

Ｐ^ｃの一例により、隣接する各ブロック内での画素によって、あるブロック内での画素を予測することができるはずである。Ｐ^ｏの一例により、同じブロック内に存在しているかどうかを問わず、すぐ側に隣接する各画素から、ある画素を予測することができるはずである。

次いで、新規に組み合わせたプレディクタＰを次式から生成することができる。
Ｐ＝（１−ｃ）Ｐ^ｃ＋ｃＰ^ｏ
この場合、因子ｃはＰ^ｏに該当する。この因子ｃは、それがゼロと１の間にある場合、復号器内の開ループプレディクタが寄与する雑音における減衰係数または漏れ係数として働き、これにより、雑音の増大が制御される。さらに、組み合わせたプレディクタは、閉ループプレディクタの相補的な寄与があるので、優れたプレディクタのままであるが、相補的な閉ループプレディクタがない場合、因子ｃが小さくなるにつれて予測の有効性が低下するはずである。具体的には、両方のプレディクタがＤＣを排除する場合、組み合わせたプレディクタもＤＣを排除することになる。

符号器アーキテクチャの一例が図２に示してある。入力ビデオがブロックスプリッタＢで受け取られ、このスプリッタが入力データを各ブロックに分割する。ブロック情報が、ブロック格納装置ＢＳと減算器（２００）に供給される。ブロック格納装置ＢＳは、開ループプレディクタＰ^ｏにデータを供給する。このプレディクタは、ブロック内で動作して、現在の画素に対する予測値を提供する。予測値は、一例では、水平左側、斜め上部左側、および現在の画素の垂直上側での３つの画素それぞれの算術平均の形をとる。さらなる隣接画素または様々な隣接画素を利用し、様々な隣接画素に異なる重み付けを加えることにより、予測値を他の様々な方式で形成できることが理解されよう。

Ｐ^ｏからの予測値は、利得因子ｃを用いる乗算器（２０４）を介して、ネガディブ入力として減算器（２００）に供給される。パラメータｃは通常、ゼロから１の間で変化してもよい。この利得制御は、ｃが１未満であるとき、普通なら開ループプレディクタを使用することに関連するはずである雑音増大の問題に対処する。

減算器（２００）からの出力は、第２の減算器（２０４）を通って、従来型のＤＣＴまたは他の空間変換ブロックＴに入る。変換装置Ｔは、受け取った画像の差に演算を実行して、一般的に従来型の量子化装置ブロックＱに変換係数を提供する。量子化された変換係数は、ブロックＥＣにおいて可変長符号化または他のエントロピー符号化を受けて、符号器の出力ビットストリームを提供する。

閉ループ予測を実現するために、局所的に復号化されたブロック格納装置ＬＤＢＳが、前に復元されたデータ値のみを使用して、ちょうど復号器において復元されるように復元された値を含むように維持される。好都合なことに、閉ループ空間予測は、既知のＨ．２６４空間プレディクタまたは動き補償プレディクタの形をとってもよい。

閉ループ空間予測値が、（１−ｃ）の利得制御因子を用いる乗算器を介して、ネガディブ入力として減算器に引き渡される。
逆量子化ブロックＱ^−１、逆変換ブロックＴ^−１、および、同じ比率で、ただしＬＢＤＳ自体からの前に復号化された復元値のみを使用して予測を付加することにより、ＬＤＢＳからの値が構成される。

ブロック動作に際しては、フィードフォワードプレディクタＰ^ｏはまた、ブロックがラスタ順で走査されている場合にはブロックの上部左側において、利用可能であれば復元されたサンプルを使用できることに留意されたい。したがって、Ｐ^ｃに入力されたサンプルはまた、Ｐ^ｏに入力される。これは、予測には、可能な限り復元されたサンプルが使用されることを意味する。

したがって、図３を参照すると、現在の４×４のブロック上の行および左の列における各画素（図ではＸの印がついている）は、図に網掛けで示してある（現在のブロックの外側の）局所的に復号化された画素から、完全にまたはほとんど予測することができる。その結果、符号器と復号器での予測をブロックごとに同期することによって、より一層雑音の増大を制限することになるはずである。

このブロックの上部左側では符号器と復号器の間での発散がほとんどまたは全くないので、そこでは低度の漏れが必要となることがあり、したがって、これらの領域でより良好な予測が使用可能になる。すなわち、パラメータｃは、画像内容に従った任意の変化に加えて、ブロック内の現在の画素の位置で変化してもよい。画素の位置でのこの変化は、必ずしもビットストリーム内で信号伝送する必要はなく、たとえば、工業標準または事実上の標準の一部分を形成してもよい。

この手法では、予測生成および差分生成についての係数の順序は、ラスタ順ではなく、ブロックごとになり、次のブロックに移動する前に各ブロック内で係数を走査する。ブロック内でのラスタ走査を使用することもできるが、たとえば、図３に示すような同心の「Ｌ」形で走査して、他の走査パターンがよりよい結果を生み出すこともある。

ここで予測全体には重み付け因子がないので、このアーキテクチャでは、スプリアス周波数成分を発生させることなく、ブロック全体にわたって漏れの程度を変化させることが可能になる。

ｃが固定の場合、有効値は約０．５であることが分かった。
パラメータｃは、使用されているブロックサイズ、選択されている量子化パラメータ、および２つの予測の相対的な成功に応じて、互いの異なる画像内容について最適化してもよい。ブロックサイズが小さくて、量子化のレベルが低いと、一般に符号器の開ループ予測と復号器の開ループ予測との間の相違は少なくなり、したがって、ビットストリーム内での符号化を介して、または管理標準に従って、ｃの値全体をこれらの環境において１に近づけるように調整することもできる。

このシステムは、あらゆる範囲のプレディクタと容易に組み合わせることができるので、特に魅力的である。たとえば、Ｐ^ｃは、Ｈ．２６４で既に定義されている方向性プレディクタとすることもでき、Ｐ^ｏは、方向性をもつ画素ごとのプレディクタとすることもできる。あるいは、Ｐ^ｃは、動き補償された時間プレディクタとすることもできる。

または、ウェーブレット符号化においては、ある形態の階層符号化を実行することもでき、ローパス係数により、各レベルで閉ループ予測が実現される。
さらなる変形形態では、固定数のｃがとり得る値を事前に決定することもでき、符号器は、特定のブロックもしくはブロックのセットについて使用するための最適値を選択することができ、または閉ループプレディクタを使用するようにのみ選択することもできる。各ブロックまたはブロックのセットの変換係数に付随するメタデータを送信して、開ループ予測が使用されたかどうか、またｃのうちどの値が利用されたかを示す。

たとえば、場合により１／４、１／２、３／４および１など、ｃのうちのゼロ以外のとり得る４つの値を使用してもよい。１５／３２、２５／３２、１０／３２および２２／３２の値は、良好に機能することが示された。符号器は、通常、何らかの速度ひずみ最適化法により、使用すべき最適値を選択するはずである。

しかもさらなる変形形態では、値ｃを固定してもよいが、開ループ予測は、複数の実現可能なプレディクタの間で変化してもよい。各ブロックまたはブロックのセットの変換係数に付随するメタデータを送信して、開ループ予測が使用されたかどうか、またそうであれば、いずれが使用されたかを示す。

たとえば、４つの異なる方向性空間プレディクタ、すなわち、水平プレディクタ、垂直プレディクタ、およびこれらの垂直および水平のプレディクタに対して４５度の角度の２つの斜めプレディクタを使用してもよい。

既存のビデオ規格での構成可能な選択肢を符号化するためのよく知られた方法により、個々のブロックまたはブロックのセットについて予測法を構成するためのメタデータを符号化してもよい。たとえば、符号器は、開ループプレディクタの有無を示すフラグをまず符号化する。開ループプレディクタが存在する場合、選ばれた選択肢を複数のビットで符号化することもできる。典型的なスキームによって２^Ｎの選択肢が可能になり、Ｎ＝２の場合の以下の擬似コードと同様に、Ｎビットで符号化される。
EncodeBit (using_open_loop);
if (1==using_open_loop) {
EncodeBit (combined_pred_mode & 0x01);
EncodeBit ((combined_pred_mode & 0x02)>>1);
}
あるいは、１つのブロックのメタデータと、前に符号化されたブロックのメタデータとの間には、何らかの相関が存在することもある。その場合、符号器は、Ｈ．２６４でのイントラ予測モードを符号化するために使用されるスキームと同様のスキームに従ってもよい。開ループが追加の予測モードとして使用されていない場合を考慮してもよく、２^Ｎ＋１の選択肢がある。次いで、この予測が使用されているかどうかを示すフラッグが符号化される。使用されていない場合、Ｎ＝２の場合の以下の擬似コードで示すようにＮビットを使用して、残りの２^Ｎ個のモードを符号化することができる。
predicted_mode = get_mode_prediction ( );
EncodeBit (combined_pred_mode==predicted_mode);
if (combined_pred_mode<predicted_mode) {
EncodeBit (combined_pred_mode & 0x01);
EncodeBit ((combined_pred_mode & 0x02)>>1);
}
else if (combined_pred_mode>predicted_mode) {
combined_pred_mode = combined_pred_mode-1;
EncodeBit (combined_pred_mode & 0x01);
EncodeBit ((combined_pred_mode & 0x02)>>1);
}
復号器のアーキテクチャが図４に示してある。復号器では、ビットストリームは、エントロピー復号化ブロックＥＤが受け取り、逆量子化ブロックＱ^−１および逆変換ブロックＴ^−１を通過する。逆変換ブロックの出力が、復号化されたブロック格納装置ＤＢＳの入力に送られる。復号化されたブロック格納装置からの復号化されたデータは、閉ループプレディクタＰ^ｃおよび開ループプレディクタＰ^ｏの入力に送られる。Ｐ^ｏの出力は、利得制御因子ｃを用いる乗算器（４０４）を介して、加算器（４０２）に送られる。プレディクタＰ^ｃの出力は、利得制御因子（１−ｃ）を用いる乗算器（４０８）を介して、加算器（４０６）に送られる。開ループプレディクタＰ^ｏと利得制御因子ｃの両方が、符号器が送出するメタデータに応じて選択可能でもよい。２つの加算器は、重み付けされた予測出力を、逆変換ブロックから出力される値に加算するように働く。復元されると、この値は、後続の値の予測に使用するためにＤＢＳに送られる。

もちろん、ＤＢＳへの入力はまた、復号器からのビデオ出力になる。
最適なプレディクタは、適応型手段によって選択することができる。たとえば、プレディクタは、平均平方エラーを最小化する線形最適化技法により、または、局所勾配を決定および外挿することによって選んでもよい。方法が何であれ、基本的な違いは、プレディクタの選択が現在の画素の隣接部における値の連続関数である連続適応型技法と、プレディクタが切り替わる不連続技法との間にある。

任意の適応型技法で開ループを動作させると、適応型プレディクタ自体は、符号器と復号器の間で異なることもある。不連続適応型技法は特に危険であると思われるが、それというのも、非常に様々なプレディクタが選ばれる可能性もあるからである。連続システムでは、所与の同様の値、同様のプレディクタが選ばれるはずである。

連続適応の一例として、画素が走査されて自己相関Ｒ（ｋ）を有するシーケンスｘ（ｎ）を生成する場合に、ＭＭＳＥプレディクタ

は、ＴＶの線形方程式

のシステムを満足させる係数ａ_ｋを有することを示すことができる。
したがって、信号の回転スナップショットをとり、このシステムを解決することにより、適応型システムを得ることができる。これを近似する（また、所与の定常統計が与えられている場合に、それに収束する）ことになる、より扱いやすい適応法は、ＬＭＳまたはＲＬＳアルゴリズムを使用することになる。

この場合、基本的なサンプルと自己相関関数の両方は、符号器と復号器の間で異なることになり、それにより様々なフィルタが使用されることになる。しかし、予測がはるかに良好である場合、このことは重要ではないだろう。白色雑音の程度を想定することにより、たとえば、測定された自己相関Ｒ（ｋ）に小さいデルタインパルスを加えることにより、またはＬＭＳ／ＲＬＳアルゴリズムにおいてフィードバック信号に人口雑音を直接加えることにより、適応をより安定に行うこともできる。

前述のアーキテクチャは、符号化されていない元のサンプルを使用する予測を必要とする。予測プロセスからの雑音付加の原因となっているのがこれである。しかし、圧縮システムでは、符号器は、ビットストリームを生成するのに都合のよい任意のサンプルを使用することができる。すなわち、指定する必要があるのは復号器プロセスだけである。したがって、符号器は、予測に使用されるサンプルが、復元のために復号器が使用するサンプルにより近くなるように、その予測に使用されるサンプルを修正してもよい。開ループプレディクタを使用する場合、各サンプルが同一になることは保証できないが、複数のパスがある程度の収束をもたらさなければならない。

これを実行する方法は、２つ（以上）の符号器を連結し、その結果、第１の符号器によって符号化され、局所的に復号化されたデータを、この予測が利用することである。この場合には、フィードバックの要素が符号化プロセスに再挿入された。ブロック図が、図５および図６に示してある。ここで、第１の符号器は、前述のように初期符号化を実行する。次いで、やはり前述したように、復号器は、第１のパスの復号された信号を生成し、次いで、この信号が第２の符号器に送られる。もちろん、第１および第２の符号器は別々に描いてあるが、通常これらは、１つのハードウェアまたはソフトウェアの符号器の、第１のパスおよび第２のパスを構成する。

２つの基本的な変形形態を考えることができる。図５に示した第１の変形形態では、第２の符号器のプレディクタのみが局所的に復号化されたバージョンを使用するが、予測される画素は、元の画素のままである（第１のパスの符号化および復号化による補償遅延を伴う）。図６に示した第２の変形形態では、予測と予測される画素の両方が、局所的に復号化されたバージョンを使用することになる。符号器と復号器の予測符号化プロセス間でより良好な収束を実現するために、これら任意の数のステージを連結してもよい。

ほんの一例として本発明を説明してきたこと、および添付の特許請求の範囲に記載の範囲から逸脱することなく多種多様な修正形態が可能であることが理解されよう。説明した例が別々の特徴および選択肢を含む限り、こうした特徴および選択肢の全ての実際的な組合せが、本明細書において開示されているものとみなすべきである。具体的には、本明細書に添付の請求項のうちのいずれか一項の主題は、他の全ての請求項の主題と組み合わせて開示されているものとみなすべきである。

Claims

入力画像値と画像予測値の間の差を形成するステップと、前記差を変換において(in a transform)変換する(transforming)ステップとを含む圧縮符号化の方法であって、画像予測Ｐが、時間プレディクタまたは空間プレディクタであり下流側の復号器での正確な復元を可能にする予測値に限定されているプレディクタＰ^ｃと、下流側の復号器での正確な復元を可能にする予測値に限定されていないプレディクタＰ^ｏとの組合せによって形成され、前記プレディクタＰ^ｏが空間プレディクタであり、前記変換が空間変換もしくは時間変換であり、または前記プレディクタＰ^ｏが時間プレディクタであり、前記変換が時間変換である方法。
前記画像予測Ｐが、式Ｐ＝ａＰ^ｃ＋ｂＰ^ｏ（ここで、ａおよびｂは合計１であることが好ましい）の前記プレディクタＰ^ｃおよび前記プレディクタＰ^ｏのそれぞれの出力の重み付けされた合計を含む、請求項１に記載の方法。
前記プレディクタＰ^ｃと前記プレディクタＰ^ｏの相対的な重み付けが画像内容で変化する、請求項１または請求項２に記載の方法。
前記画像予測Ｐが、Ｐ＝（１−ｃ）Ｐ^ｃ＋ｃＰ^ｏ（ここで、ｃはゼロから１の間で可変の選択可能な重み付け因子である）として形成される、前記請求項のいずれか一項に記載の方法。
前記重み付け因子ｃを示すメタデータがビットストリームで信号伝送される、請求項４に記載の方法。
前記予測Ｐ^ｏまたは前記予測Ｐ^ｃが選択可能であり、選択可能な予測を示すメタデータがビットストリームで信号伝送されることが好ましい、前記請求項のいずれか一項に記載の方法。
前記予測Ｐ^ｏが、１組の方向性プレディクタから選択可能な方向性プレディクタである、前記請求項のいずれか一項に記載の方法。
前記差が、空間ブロック変換で変換される、前記請求項のいずれか一項に記載の方法。
前記請求項のいずれか一項に従って符号化されたビットストリームを圧縮復号化する方法であって、画像の差を表すビットストリームを受け取るステップと、プレディクタＰ^ｃの予測値を正確に復元するステップと、プレディクタＰ^ｏの予測値を正確にではなく復元するステップと、前記復元された予測値の組合せを使用して、前記画像の差と加算するステップとを含む方法。
前記復元された予測値の組合せの方式が、前記ビットストリーム内で表されるパラメータの制御下で変化する、請求項９に記載の方法。
第１のステップにおいて、入力画像値と画像予測値の間の差を形成するステップと、前記差を変換するステップとを含み、画像予測が、下流側の復号器での正確な復元を可能にする予測値に限定されているプレディクタＰ^ｃと、下流側の復号器での正確な復元を可能にする予測値に限定されていない空間プレディクタＰ^ｏとの組合せによって形成され、第２のステップにおいて、前記第１の符号化からビットストリームを受け取るステップと、前記プレディクタＰ^ｏの前記予測値を正確にではなく復元するステップとを含み、第３のステップにおいて、前記入力画像値と前記第２のステップからの前記正確にではなく復元された画像予測値との間の差を形成するステップと、前記差を変換するステップとを含む、請求項１から１０のいずれか一項に記載の方法。
入力画像値と画像予測値の間の差を形成するステップと、前記差を変換するステップとを含み、画像予測が、下流側の復号器での正確な復元を可能にする予測値に限定されている閉ループプレディクタ（ＣＬＰ）と、下流側の復号器での正確な復元を可能にする予測値に限定されていない開ループプレディクタ（ＯＬＰ）との組合せによって形成され、前記開ループプレディクタおよび前記変換が、同じ時間領域または空間領域にある、圧縮符号化の方法。
前記組合せが、前記ＣＬＰおよび前記ＯＬＰのそれぞれの出力の重み付けされた合計を含み、重み付け因子は合計が１であることが好ましい、請求項１２に記載の方法。
前記ＣＬＰと前記ＯＬＰの相対的な重み付けが画像内容で変化する、請求項１２または請求項１３に記載の方法。
前記ＣＬＰが空間プレディクタであり、前記ＯＬＰが空間プレディクタである、請求項１２から１４のいずれか一項に記載の方法。
前記ＣＬＰが、同じ画像内の、隣接していて前に符号化されたブロックから、あるブロックを予測する、請求項１５に記載の方法。
前記変換が、ブロック変換、離散コサイン変換（ＤＣＴ）、離散サイン変換（ＤＳＴ）、ウェーブレット変換、ブロック化ウェーブレット変換、重複直交変換（ＬＯＴ）、ブロック化ＬＯＴ、または前述したもののいずれかに近いものからなる群から選択される、請求項１２から１６のいずれか一項に記載の方法。
前記空間予測が、動き補償された予測の後に、すなわち動き補償された予測残差に実行される、請求項１５から１７のいずれか一項に記載の方法。
前記ＣＬＰが動き補償された予測であり、前に符号化された画像からのブロックベースの動き補償された予測（または動き補償された予測の組合せ）であることが好ましく、前記ＯＬＰが空間プレディクタである、請求項１２から１４のいずれか一項に記載の方法。
前記ＯＬＰが、同じ変換ブロック内の隣接する画素の平均または他の組合せ平均をとる、画素ごとの空間プレディクタである、請求項１５、請求項１６または請求項１９に記載の方法。
前記ＣＬＰが空間プレディクタであり、前記ＯＬＰが動き補償された予測であり、前に符号化された画像からのブロックベースの動き補償された予測（または動き補償された予測の組合せ）であることが好ましい、請求項１２から１４のいずれか一項に記載の方法。
前記ＣＬＰが、同じ画像内の前に符号化されたブロックからの空間プレディクタである、請求項２１に記載の方法。
前記ＣＬＰおよび前記ＯＬＰが動き補償された予測であり、前に符号化された画像からのブロックベースの動き補償された予測（または動き補償された予測の組合せ）であることが好ましい、請求項１２から１４のいずれか一項に記載の方法。
前記変換が、ブロック変換、離散コサイン変換（ＤＣＴ）、離散サイン変換（ＤＳＴ）、ウェーブレット変換、ブロック化ウェーブレット変換、重複直交変換（ＬＯＴ）、ブロック化ＬＯＴ、または前述したもののいずれかに近いものからなる群から選択される、請求項１２から２３のいずれか一項に記載の方法。
前記重み付け因子が、ブロックごと、またはフレームごと、または画像のグループ（ＧＯＰ）ごとに変化する、請求項１２から２４のいずれか一項に記載の方法。
前記重み付け因子が、何らかの（１つまたは複数の）所定のパターンに従って、変換ブロック内で変化し、符号化されたデータと一緒に運搬されるインデックスまたはフラグにより、選ばれたパターンが符号化される、請求項１２から２４のいずれか一項に記載の方法。
前記２つのプレディクタの利得の合計が１になる、前記請求項のいずれか一項に記載の方法。
前記請求項のいずれか一項に記載の方法を実施するように構成され適合される装置。
請求項１から２７のいずれか一項に記載の方法をプログラム可能な装置に実行させる命令を含む、コンピュータプログラム製品。
画像情報を受け取り、前記画像情報を空間ブロックに分割するブロックスプリッタと、
ブロック上で動作して、前記ブロックについてのブロック予測値を提供するブロックプレディクタと、
画像情報および予測値を受け取り、差分値を形成する減算器手段と、
空間変換を実行して変換係数を提供するブロック変換と、
前記変換係数に対して近似値を生成するための量子化ユニットと、
変換係数を符号化して、符号化されたビットストリームにするためのエントロピー符号化ユニットと、
変換係数を復元するための逆量子化ユニットと、
前記変換係数に逆空間変換を実行して局所的に復号化された画像値を提供する逆ブロック変換と、
前記局所的に復号化された画像値上で動作して、ローカル復号器予測値を提供するローカル復号器プレディクタとを備えるビデオ圧縮符号器であって、
前記減算器手段が受け取った前記予測値が、前記ブロック予測値と前記ローカル復号器予測値の組合せを含む、ビデオ圧縮符号器。
前記組合せが、前記ブロック予測値と前記ローカル復号器予測値の重み付けされた合計を含む、請求項３０に記載の符号器。
前記ブロック予測値と前記ローカル復号器予測値の相対的な重み付けが画像内容で変化する、請求項３０または請求項３１に記載の符号器。
前記画像予測Ｐが、Ｐ＝（１−ｃ）Ｐ^ｃ＋ｃＰ^ｏ（ここで、Ｐｏは前記ブロック予測値であり、Ｐｃはローカル復号器予測値であり、ｃはゼロから１の間で可変の重み付け因子である）として形成される、請求項３０から３２のいずれか一項に記載の符号器。
各ブロックにおいて系統づけられた変換済みの画像の差を表す圧縮符号化されたビットストリームを受け取る入力部と、
再スケーリング化された変換係数を提供する逆量子化ユニットと、
前記変換係数に逆空間変換を実行して復号化された画像値を提供する逆ブロック変換と、
前記復号化された画像値上で動作して、前記画像の差と加算するための予測値を提供するプレディクタとを備えるビデオ圧縮復号器であって、
前記プレディクタが、特定のブロックの完全に外側で動作して、そのブロック内での画像の差と加算するためのクローズド予測値を提供するクローズドプレディクタと、特定のブロックの少なくとも部分的に内部で動作して、そのブロック内での画像の差と加算するためのオープン予測値を提供するオープンプレディクタとを備え、前記予測値が、前記クローズド予測値と前記オープン予測値の組合せを含む、ビデオ圧縮復号器。
前記組合せが変化し、前記符号化されたビットストリーム内のパラメータ値が、前記組合せの変化を制御する、請求項３４に記載の復号器。
画像情報を受け取り、前記画像情報を空間ブロックに分割するブロックスプリッタ手段と、
ブロック上で動作して、前記ブロックについてのブロック予測値を提供するブロックプレディクタ手段と、
画像情報および予測値を受け取り、画像の差分値を形成する減算器手段と、
前記画像の差分値に空間変換を実行して変換係数を提供するブロック変換手段と、
変換係数を近似するための量子化手段と、
変換係数を復元するための逆量子化手段と、
前記変換係数に逆空間変換を実行して、局所的に復号化された画像値を提供する逆ブロック変換手段と、
前記局所的に復号化された画像値上で動作して、ローカル復号器予測値を提供するローカル復号器プレディクタ手段とを符号器内に備えるビデオ圧縮システムであって、
前記減算器手段が受け取った前記予測値が、前記ブロック予測値と前記ローカル復号器予測値の可変の組合せを含み、前記ビデオ圧縮システムはさらに、
前記量子化された変換係数を表し前記組合せの変化を記録するパラメータを含む圧縮符号化されたビットストリームを出力するための手段を前記符号器内に備え、
前記圧縮符号化されたビットストリームを受け取ることと、前記変換係数に逆空間変換を実行して、復号化された画像値を提供する逆ブロック変換手段と、変換係数を復元するための逆量子化手段と、前記復号化された画像値上で動作して、前記画像の差と加算するための予測値を提供するプレディクタ手段とを復号器内にさらに含み、
前記プレディクタ手段が、特定のブロックの完全に外側で動作して、そのブロック内での画像の差と加算するためのクローズド予測値を提供するクローズドプレディクタと、特定のブロックの少なくとも部分的に内部で動作して、そのブロック内での画像の差と加算するためのオープン予測値を提供するオープンプレディクタとを備え、前記予測値が、前記クローズド予測値と前記オープン予測値の可変の組合せを含み、前記組合せが、前記ビットストリーム内の前記パラメータに従って前記予測手段によって変化するシステム。
前記画像予測値Ｐが、Ｐ＝（１−ｃ）Ｐ^ｃ＋ｃＰ^ｏ（ここで、Ｐ^ｏは前記ブロック予測値であり、Ｐ^ｃはローカル復号器予測値であり、ｃはゼロから１の間で可変の重み付け因子である）として形成される、請求項３６に記載のシステム。