JP3977426B2

JP3977426B2 - ビデオデータ用エンコーダ及びデコーダ

Info

Publication number: JP3977426B2
Application number: JP51531197A
Authority: JP
Inventors: ニエウェグロウスキ，ジェイセク; アリトゥルカー，ムスタファ; カレボ，オシ; ハビスト，ペトリ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1996-04-18
Filing date: 1996-04-18
Publication date: 2007-09-19
Anticipated expiration: 2016-04-18
Also published as: EP0894404A1; DE69606441D1; ATE189353T1; WO1997040630A1; ES2143759T3; EP0894404B1; JP2000508126A; KR19990087773A; US6272178B1; KR100430328B1; AU5689896A; DE69606441T2

Description

本発明は、ビデオデータの動き補償被符号化を行うためのエンコーダ並びに動き補償符号化されたビデオデータを復号するためのデコーダに関する。本発明はさらに、ビデオデータの動き補償符号化の方法及び動き補償符号化ビデオデータの復号方法に関する。
動き補償(MC)ビデオエンコーダ及びデコーダは、典型的なビデオシーケンスの連続フレームがお互いに高度の類似性を示すという事実、及び各連続フレーム間の差異は大部分シーンの中の動きによって生じるという事実を利用するものである。このように、動き補償ビデオ符号化を行うことによってビデオデータ量の圧縮が可能になる。このことは、例えば、IEEE会報の”画像符号化の進歩”（(H. Mussmann, P. Pirsch及びH. Grallert、第73巻，No.4，p.523〜548，1995年4月）から分かる。ビデオシーケンスの各フレームI(x,y)を別々に圧縮する代わりに、符号化されるべき現在のビデオフレームといわゆる予測フレームP(x,y)との間の差分がMCビデオエンコーダによって圧縮され、該予測フレームはエンコーダ内で計算され、それ以前の1つ又はそれ以上のビデオフレームに基づく現在のビデオフレームI(x,y)の推定値を表す。現在のビデオフレームI(x,y)と予測フレームP(x,y)との間のこの圧縮された差分をビデオデコーダで利用し、エンコーダが行ったのと類似のフレーム予測を行い、予測フレームP(x,y)と現在のフレームI(x,y)との間の受信差分に基づいてこの予測フレームを修正することにより、現在のビデオフレームI^*(x,y)を復元することができる。
ビデオ符号化技術では、異なる領域の画像を異なる符号化モードで符号化することはよくあることである。MPEG-1とMPEG-2のビデオ符号化規格のみならず、ITU H.261やH.263のようなすべての現代のビデオコーデックついても事情は同じである。例えば、時間的予測（いわゆるイントラブロック）を使わず画像領域の一部を符号化する場合もある。従って、以下で用いる”フレーム”という用語は、動き補償符号化及び復号を施すフレーム領域を表すものとする。動き補償ビデオ符号化及び復号という文脈で使われる”フレーム”という用語に関して、イントラブロックが存在しない特殊な場合についての制限は何等意図されていないことに留意されたい。
エンコーダとデコーダの双方は、現在のフレームI(x,y)の予測を、動き推定によりエンコーダで計算される推定動きベクトルに基づいている。この推定動きベクトルはエンコーダで利用され、予測フレームPが組立てられ、これに基づいてエンコーダは予測誤差フレームE(x,y)、すなわち現在のフレームIと予測フレームとの間の差分を計算することができる。さらに、基準フレームRに関連して現在のフレームIの推定画素変位を記述する予測誤差フレームE(x,y)と推定動きベクトルとはデコーダに伝えられ、動きベクトルに基づいて現在のフレームPが予測され、この伝えられた予測誤差に基づいて予測フレームが修正される。このようにして、現在のフレームI^*(x,y)が組立てられる。
デコーダへ伝えられるデータ量をさらに低減するために、エンコーダによって予測誤差の圧縮が行われる。予測誤差の圧縮とこの圧縮された予測誤差の伸長を行った結果として、伸長された予測誤差フレームE^*(x,y)がE(x,y)とわずかしか異ならない場合もある。先行する原フレームIではなく、デコーダによりなされる復元に類似した方法でエンコーダによって復元された先行フレームI^*に基づいて、予測誤差フレームE(x,y)の計算のみならず予測フレームP(x,y)の基本的動きの推定と計算を行うことによってエンコーダはこのわずかなずれを考慮にいれる。
動き推定を行うために、復元されたフレームI^*または原フレームIあるいはその双方を用いることができる。
予測誤差フレームEn(x,y)の圧縮は典型的には全フレームをより小さい領域に仕切り、これらの領域の各々に適切な圧縮方法を適用することによって行われる。”領域”という用語は1つのフレーム中で隣接する空間的二次元ブロックを形成するいくつかの画素を表す。予測誤差は典型的にはほんのわずかな領域にだけ集中しているのに対して、残りの領域では、この誤差は非常に少ないかゼロである。従って、圧縮された予測誤差データには、従来2種類の情報、すなわち符号化される予測誤差フレームの領域を特定するアドレス情報と、さらにこれらの領域での圧縮された予測誤差の値が含まれている。
シグナリング処理に関する1992年欧州協議会(EUSIPCO)の会報、”ビデオ符号化のための動き適応性ベクトル量子化”(p.1357〜1360, M. Moresco, F. Lavagetto及びF. Cocurullo)から、動き適応性ビデオ符号化のためのアルゴリズムが知られるようになった。それによれば、ビデオ入力フレームは、3次元の（空間的-時間的）固定サイズのブロックに細分化され、各ブロック内の動き活性度に応じて分割される。その動きの内容によって、各ブロックは一定数のフレームをスキップすることによって適時サブサンプル化される。スキップされなかったブロックの二次元空間スライスは、量子化され符号化されたベクトルである。受信器では、伝送された各ブロックの空間的スライスは復号され、中間の各スライスは線形補間され全ブロックの復元が行われる。
本発明の目的は、より高い符号化効率の達成と、符号化されたビデオデータのビットレートのさらなる低減を行うことができるように、ビデオデータの符号化及び復号を改善することである。
本発明では、この目的は、請求の範囲1に記載のビデオデータの動き補償符号化を行うエンコーダによって、さらに請求の範囲15に記載の動き補償符号化されたビデオデータを復号するデコーダによって解決される。さらに、この目的は、請求の範囲32に記載のビデオデータの動き補償符号化方法によって、また、請求の範囲33に記載の動き補償符号化されたビデオデータの復号方法によって解決される。本発明の実施態様は従属する請求の範囲において規定される。
本発明の第1の態様では、符号化されたビデオデータのビットレートを低減するために、またこの低減によってビデオデータの符号化効率を改善するために、予測フレームの特性及び／又は動きベクトルの特性が利用される。予測誤差はビデオシーン中の可動物体の輪郭に沿って集中している。本発明は、予測フレームP(x,y)中の構造、すなわち空間的変動又は輝度のパターン及び／又は色差画素値（例えばエッジ等）が可動物体の輪郭の位置とほぼ一致するという観察に基づくものである。この明細書を通じて”画像輝度の不連続性”という用語はこの予測フレームの一般的構造を示す。予測フレームP(x,y)は、動きベクトルが伝送されるとすぐにエンコーダとデコーダの双方に順次知らされる。従って、予測フレームに基づいているため、符号化されたビデオデータに含まれる予測誤差フレームのような領域に関するアドレス情報を伝送する必要なく、予測誤差フレーム中のどの領域が重要であり、それぞれ符号化及び復号されなければならないかをエンコーダとデコーダの両方で判定することが可能となる。
本発明はさらに、予測誤差が高い動き活性度のある領域に集中しているという認識に基づくものである。従って、エンコーダとデコーダの双方で利用可能な動きベクトルの特性を利用して、予測誤差フレームの重要な領域に関する、符号化されたビデオデータ中のアドレス情報を含める必要なく、エンコーダによる符号化の対象となる、また、デコーダによる復号の対象となる予測誤差フレームの重要な領域を判定することができる。
本発明のこの態様による好ましいビデオデータ符号化スキームは、エンコーダで推定され、デコーダへ伝えられる動きベクトルの特性のみならず、エンコーダとデコーダの双方で利用できる予測フレームの構造的特徴の双方を利用するものであり、予測誤差フレームの、エンコーダが符号化しなければならない領域を判定し、予測誤差フレームのどの領域が符号化されたビデオデータの中に含まれるかをデコーダで判定するためのものである。
好適には、ビデオデータのフレームを符号化するためにこの予測誤差フレームを複数の領域に仕切ることが望ましい。予測誤差フレームの仕切りに類似した方法で予測フレームを各領域に分割し、予測誤差フレーム中の各領域に対して予測フレーム中に対応する領域が存在するようにする。エンコーダと同じ方法でデコーダによってこの予測フレームを仕切り、受信符号化されたビデオデータ中に含まれる予測誤差フレームの対応する各々の領域内の受信符号化されたビデオデータから予測誤差フレームを復元する。これらのフレームは、所定のサイズと形状からなる各領域に、または変動するサイズと形状からなる各領域に仕切ることができる。各領域へのフレームの仕切りは適応性をもって行うことができる。各領域のサイズ及び形状は、予測フレームの局部的動き活性度及び／又はその局部的構造上の特徴、例えば予測フレームの局部的不連続性の程度に応じて決められる。
好適には、エンコーダが所定のまたは適応性のある方法でフレームの仕切りを達成した後、該エンコーダが所定のシーケンスルールを採用し、予測誤差フレームの、符号化されるべき領域を判定することが望ましい。このシーケンスルールはあらかじめデコーダへ知らされる。そのようなシーケンスルールの一例として、エンコーダは、符号化されるべき領域に対して1ラインずつフレームを仕切ることから結果として生じる領域のアレイを走査し、符号化されるべき対象領域が見出された順序ですべての符号化されるべき対象領域を符号化する。次いで、デコーダは、前記シーケンスルールに基づくだけでなく、予測フレーム及び／又は動きベクトルから引き出された、予測誤差フレームのどの領域を符号化するかに関する情報に基づき、予測フレームの仕切りに基づく受信予測誤差データから予測誤差フレームを復元することができる。
さらに、本発明の第2の態様では、予測誤差フレームのすべての領域または選択された領域が適応性符号化スキームを用いて符号化される。選択された各領域は、本発明の第1の態様に従って重要であると判定された予測誤差フレームの領域であることもできる。この適応性符号化スキームは、符号化されるべきそれぞれの予測誤差フレーム領域の異なる特性クラスを考慮に入れることができる。適応性符号化スキームの例には、すべてそれ自体は技術的に公知の、前記特性クラス、直交変換、マッチング追跡(matching pursuit)法等の中の1つのために各々デザインされたいくつかのコードブックに基づく分類されたベクトル量子化スキームが含まれる。ビデオデータの符号化のための分類されたベクトル量子化の応用については以下の文献に記載がある。例えば信号処理では、”ベクトル量子化を介する低レートシーケンス画像符号化”（H. -H. -Chen, Y.-S. Chen及びW. -H. Hsu著、第26巻，p.265, Elsevier社，1992年)、あるいは1994年の画像処理に関するIEEE国際会議（ICIP）における、”改良型動き推定及びシーケンス圧縮のための多段式ベクトル量子化”（第2巻，p.452, K. Zhang, M. Bober及びJ. Kittler）、及び94年度音響学、音声、及び信号処理に関するIEEE国際会議（ICASSP）に、おける、”可変ブロックサイズVQベースの動き補償ビデオコーデックのレート歪み分析”（第5巻，p.417, S. Liu）。本発明では、予測誤差フレームの符号化領域について、例えば分類されたベクトル量子化、直交変換、マッチング追跡スキーム等の適応性符号化スキームを用いるとき、エンコーダとデコーダの双方で利用可能な予測フレームの特性から分類情報（例えば符号化方法選択情報）を引き出すことによってビットレートの低減を行うことができる。その結果分類情報を符号化されたビデオデータの中に含める必要がなくなる。一つの選択肢として、あるいは符号化されるべき予測誤差フレームの領域に対応する予測フレームの各領域から分類情報を引き出すことに加えて、予測誤差フレームの各領域の適応性符号化を使用するとき、予測誤差フレームの各々の符号化された領域に対して、分類情報を符号化されたビデオデータに含める必要なく、分類、例えばコードブック選択のために動きベクトルの特性を使うことができる。
本発明のこの態様によれば、予測誤差フレームのそれぞれの領域を符号化するために、引き出されたこの分類情報によって特定の符号化方法を示すことができたり、又は異なる符号化方法のグループを示すことができる。本発明のこの態様を好適に実施すれば、対応する特性クラスの特定の特性に各々適合された複数の領域エンコーダの中で、符号化されるべき各領域に対する領域エンコーダを選択するためにこの分類情報を用いることができる。各領域エンコーダは順次利用可能な異なる符号化方法のグループを持っていて、最良の符号化方法が、ビデオエンコーダによってそのグループの中で選択され、符号化方法選択情報がビデオデコーダへ送られる。各領域エンコーダに対する符号化方法選択確率の不均一な分布を利用して符号化方法選択情報をエントロピー符号化すれば、ビデオデコーダへ伝送されるべき符号化方法選択情報の量を低く抑えることができる。各特性クラス、すなわち各領域エンコーダに対して、1つのまたはいくつかの符号化方法が選択される確率が非常に高ければ、非常に少ないビット数でそれらの選択をビデオデコーダへ示すことができるのに対して、もっと少ない選択確率の符号化方法の選択については、もっと多くのビット数でビデオデコーダへ示すことができる。
ビデオデコーダでは利用できない情報（例えば原のビデオデータフレーム入力や、予測誤差フレームの符号化されるべき領域における画素値の個々の構造など）に基づいて、選択された領域エンコーダに設けられているすべての符号化方法の中からの特定の符号化方法の選択をビデオエンコーダによって行うことができる。次いでビデオデコーダは、ビデオデコーダで利用可能な予測フレームの特性に基づいて、また、ビデオエンコーダによって伝えられる符号化方法選択情報に基づいて領域エンコーダを選択することができる。
予測フレームの特性及び／又は動きベクトルフィールドの特性に基づく分類で、予測誤差フレームのそれぞれの符号化されるべき領域の特性について若干の不確定性が残るような状況において、ビデオエンコーダとビデオデコーダの性能を改善することができるという点で本発明のこの態様を実施することは有用である。そのような状況であっても、この態様を実施すれば、ビデオデコーダへ送られるべき非常に少量の選択情報によって、非常に多数の異なる符号化方法の中で高度に適応性のある的確な符号化方法の選択を行うことが可能である。
各領域エンコーダに対する符号化方法選択確率の分布については、ビデオデコーダへの伝送に先立ち、符号化方法の選択情報をエントロピー符号化することが望ましい。同等の修正を施すことによって、各領域エンコーダの複数の符号化方法の中からデフォルトの符号化方法が提供され、予測誤差フレームのそれぞれの領域を符号化するための適切な基準に照らして、その分類に従って選択された領域エンコーダのデフォルトの符号化方法が適切なものであるかどうかのチェックがビデオエンコーダによって行われる。この選択された領域エンコーダのデフォルトの符号化方法が適切に機能するものであることが判明すれば、ビデオエンコーダは符号化方法選択情報をビデオデコーダへ伝送せず、ビデオデコーダは、ビデオエンコーダが採用したデフォルトの符号化方法に対応するデフォルトの復号方法を用いる。そうでない場合は、ビデオエンコーダは、デフォルトを無効にする適切な符号化方法を選択し、対応する選択情報をビデオデコーダへ伝送する。
以下、添付図面を参照しながら本発明の好適な実施例を説明する。
図1は本発明による動き補償ビデオエンコーダの第1実施例のブロック図を示す。
図2は本発明による予測誤差エンコーダの実施例についての詳細なブロック図を示す。
図3は予測誤差フレームの領域の一例を示す。
図4は予測フレーム領域の方向性パターンのクラス及びサブクラスの例を示す。
図5は本発明の第2実施例によるビデオエンコーダの選択可能な領域エンコーダを示す。
図6は画素クラスタの例を示す。
図7は画素活性度測定値の計算のためのサブブロックを示す。
図8は本発明によるビデオデコーダの第1実施例を示す。
図9は図5の予測誤差デコーダについての詳細なブロック図を示す。
図10aは各領域のアレイを例示する。
図10bは予測誤差データの一例を例示する。
図11は本発明の第2実施例によるビデオデコーダの選択可能な領域デコーダを示す。
図1は、本発明によるビデオエンコーダの実施例のブロック図を示す。この図では、参照番号1は、ビデオフレーム入力I(x,y)と予測フレームP(x,y)との間の差分から予測誤差フレームE(x,y)を計算するための手段を示す。参照番号2は、予測誤差符号化ブロックを示し、参照番号3は予測誤差復号ブロックを示す。参照番号5は、予測フレームP(x,y)と復号された予測誤差フレームE^*(x,y)から、復元されたビデオフレームI^*(x,y)を計算するための計算手段を表す。参照番号6は、復元されたビデオフレームI^*(x,y)を格納するための、及び予測フレームを計算するための動き補償予測装置7によって使われる基準フレームR(x,y)を提供するためのフレームメモリを示す。参照番号8は、動きベクトルを推定し、推定された動きベクトルをMC予測ブロック7へ供給するための動き推定装置を示す。参照番号4は、動き推定装置8によって出力された動きベクトルのみならず予測誤差エンコーダ2によって出力された予測誤差データを受信し、デコーダへ伝送するためにその予測誤差データと動きベクトルを多重化するためのマルチプレクサを示す。
この実施例の予測誤差符号化ブロック2は、計算手段1によって出力された予測エラーフレームE(x,y)のみならず、動き推定装置8によって推定された動きベクトルルとともに、予測フレームP(x,y)をも受信するようになっている。さらに、予測誤差復号ブロック3は、予測誤差符号化ブロック2によって出力された予測誤差データのみならず予測フレームP(x,y)と動き推定装置8によって出力された動きベクトルも受信する。
図1のビデオエンコーダは以下のように作動する。ビデオ・データI(x,y)の各々の入来フレームに対して、エンコーダが予測フレームP(x,y)を予測し、その予測フレームP(x,y)を実際の入来ビデオフレームI(x,y)と比較する。この比較は計算手段1によって行われる。次いで、予測誤差フレームE(x,y)がブロック2へ供給され、予測誤差符号化が施され、デコーダへ伝送するための圧縮された予測誤差データが生成される。この予測誤差フレームE(x,y)の圧縮によって情報の若干の損失が生じる場合がある。ビデオエンコーダからビデオデコーダ（図1には示されていない）が受信するものが、予測誤差フレームE(x,y)ではなく圧縮された予測誤差データであるという事実を考慮すると、ビデオデコーダによる実際のビデオフレームの予測は、予測誤差フレームE(x,y)に基づくのではなく、圧縮された予測誤差データの復号から得られる復元された予測誤差フレームE^*(x,y)に基づかなければならない。エンコーダとデコーダにおける予測フレームP(x,y)の間のずれを避けるために、復元された予測誤差フレームE^*(x,y)を得るための、ビデオデコーダと同じ方法で、ビデオエンコーダは予測誤差エンコーダ2によって出力された予測誤差データを復号し、予測は、実際の入来ビデオデータフレームI^*(x,y)にではなく、復元されたビデオデータフレームI^*(x,y)に基づいて行われる。このビデオデータフレームI^*(x,y)は、ブロック2が出力した予測誤差データに基づいてビデオデコーダが復元できるビデオデータフレームに対応するものである。
動き推定装置8は、入来ビデオデータI(x,y)のシーケンスからシーンの動きを分析し、後続するビデオフレームにおける各画素の変位を記述する動きベクトルを推定する。次いで、これらの推定された変位はMC予測装置7によって利用され、この推定された変位に従って現在の復元されたビデオフレームI^*(x,y)が修正される。これは後続するビデオフレームI(x,y)に対する予測フレームP(x,y)に達するためである。
動き推定に基づく予測フレームの生成とともに予測誤差の符号化及び復号は、技術的にはそれ自体周知のものである。動き推定及び動き補償予測に関する大量の論文がすでに発表されている。これらの主題に関する詳細は文献で容易に利用できるので、本発明に直接関連しないこれらの問題を詳しく議論する必要はない。
予測誤差エンコーダ2は、予測誤差フレームを複数の領域に仕切ることによって予測誤差フレームE(x,y)の符号化を行う。さらに、予測誤差エンコーダ2は、それぞれの破線によって図1に示すように予測フレームP(x,y)を受信し、分析する。さらに、予測誤差エンコーダ2は、それぞれの破線によって図1に示すように動き推定装置8によって推定された動きベクトルに関する情報を受信する。これに基づいて、予測誤差エンコーダ2は、予測誤差フレームE(x,y)の領域のいずれを符号化しなければならないかを判定することができ、また、予測誤差フレームのどの領域には重要な情報が含まれていず、デコーダへ伝える必要がないかを判定することができる。予測誤差エンコーダ2は予測フレームの特性の分析に基づいて、また、推定された動きベクトルの分析に基づいてこの判定を行う。そして符号化されたビデオデータを受信するデコーダにおいて動きベクトルと予測フレームの双方を利用することができる。本発明の予測誤差エンコーダ2は、予測誤差フレームE(x,y)中の重要な情報はビデオシーンの中で動いている物体の輪郭に沿って集中しているという事実を利用するものである。可動物体の正確な輪郭がデコーダには知らされていないのに対して、構造的特徴、例えばエンコーダとデコーダの双方で利用可能な予測フレームP(x,y)の画像輝度、エッジなどの不連続部は、これらの輪郭の位置とほぼ一致する。したがって、予測誤差エンコーダは、予測フレームP(x,y)の構造的特徴から予測誤差フレームの重要な領域のおおよその位置を判定することができる。この予測フレームの構造的特性に基づく予測誤差フレームの重要な領域の判定に加えて、予測誤差エンコーダ2のこの実施例は、ビデオシーン中の動きによるフレームからフレームへの各画素の推定された変位を記述する動きベクトルの特性を分析し、デコーダへ伝送されるべき予測誤差フレームの重要な領域を判定する。重要な領域の判定が、動きベクトルとともに予測フレームの構造的特徴（例えばエッジと不連続部）の双方に基づいて行われれば、可動物体の輪郭の動きを記述する予測誤差フレームのこれらの領域を判定することができる。二者択一的に言えば、予測誤差フレームの重要な領域のかかる判定は、予測フレームの構造的特徴に基づいて行うか、動きベクトルに基づいて行うことができる。これらのうちより望ましくない場合でも、予測誤差フレームの重要でない領域の中の若干を判定することはできる。
この実施例の予測誤差エンコーダ2ではさらに、重要であると判定された予測誤差フレームE(x,y)の各領域に対して適応性符号化スキームが採用されている。各領域に対する個々の符号化スキームの選択は、構造的特徴の分類、例えば予測フレームP(x,y)の輪郭の方向付けに基づいて行われる。各クラスはそのクラスの特性に適合した符号化方法を割り当てる。予測フレームP(x,y)はビデオエンコーダとビデオデコーダの双方で利用可能なので、たとえ符号化された予測誤差データ中に追加の選択情報が含まれていない場合でも、ビデオエンコーダが選択するそれぞれの符号化スキームにマッチする適切な復号スキームをビデオデコーダが符号化されるべき各領域に対して選択することができるという点で、これらの特性に基づく適合された符号化スキームを選択することは有用である。
従って、予測誤差フレーム中の重要な領域の位置に関するアドレス情報や、選択された符号化スキームに関する情報を伝送する必要なく、予測誤差フレームE(x,y)の符号化されるべき重要な領域を判定するために、また、予測誤差フレームE(x,y)の各々重要な領域に対して適合された符号化スキームを選択するためにこの情報を利用することによって、この実施例の予測誤差エンコーダ2は、ビデオエンコーダとビデオデコーダの双方での予測フレームPn(x,y)と動きベクトルの有用性を利用する。
図1の予測誤差デコーダ3は有用ではあるが、主要な理由としては必要なものではない。予測誤差フレームE(x,y)の重要な領域を圧縮するために採用された符号化スキームが、結果的に若干の情報損失を生じた場合には、実際の入来フレームに基づくのではなく、ビデオデコーダによって行った復号操作と同一の復号操作から取得した、復元されたビデオフレームI^*(x,y)に基づく動きベクトルの推定とビデオフレームの予測によって、この損失情報の一部をビデオデコーダへ再伝送することができる。この原理は当該技術分野において周知であるので、予測誤差デコーダ3の重要性についてこれ以上の説明は省略する。図1の予測誤差復号ブロック3の、ビデオデコーダでの対応予測誤差復号ブロックとの類似性を考慮して、予測誤差デコーダブロック3の構造的及び動作上の詳細についての説明は、本発明によるビデオデコーダに関する実施例の説明の文脈の中で以下に行う。
マルチプレクサ4は、予測誤差エンコーダ2によって出力された符号化された予測誤差データと動き推定装置8によって出力された動きベクトルデータとを多重化するためのオプションの構成要素である。予測誤差データと動きベクトルのための別々の伝送チャネルが利用できるならばマルチプレクサ4を省くことができる。
図2は、図1の予測誤差エンコーダ2の詳細なブロック図を示す。図2で、参照番号21は、予測フレームP(x,y)を複数の領域に仕切るためのブロックを示す。参照番号22は、予測フレームP(x,y)の領域の各々における空間的不連続部を分析するためのブロックを示す。本発明の範囲を制限しないこの特定の実施例では、このブロックは、P(x,y)のフレームの仕切りから結果として生じる領域の各々についてフィルター操作を行うための方向性高域通過フィルターを有する。ブロック22を実施するための他の選択肢には、エッジ検知アルゴリズム、すなわち画像輝度値の分散値を評価するアルゴリズムが含まれる。ブロック24は、予測フレームP(x,y)の仕切りに従って予測誤差フレームE(x,y)を複数の領域に仕切るために設けられる。
ブロック25は、予測誤差フレームEn(x,y)を仕切ることから得られる領域の各々に対して、それぞれの領域が重要な領域であり、符号化されるべきかどうか、あるいは、予測誤差フレームEのそれぞれの領域が重要なものではなく、従って符号化されないかどうかを決定する判定手段を表す。各領域の重要性を決定するために、ブロック25はブロック22で方向性高域通過フィルターの出力を受信し、さらに、その重要性を判断し、判定しなければならないそれぞれの領域に対応する動きベクトルを受信する。ブロック25は、フィルタ出力の絶対値を各領域で加算し、その得られた合計を第1の所定の閾値と比較する。このようにしてブロック25は、予測フレームPのそれぞれの領域が高度の不連続部を持っているかどうかを判定することができる。さらに、ブロック25は、それぞれのフレーム領域での動き活性度が重要であるかないかを判定するために、それぞれの領域の動きベクトルの大きさを計算し、動きベクトルの最大の大きさを第2の閾値と比較する。ブロック25は、不連続部の程度と動き活性度の双方とも重要であると判断した場合にはそれぞれの領域を重要なものであると判定し、不連続部の程度が重要でないか、動き活性度が重要でない場合には、それぞれの領域を重要なものではないと判定する。
さらに、ブロック25は、予測誤差フレームEの重要な領域を出力するための所定のシーケンスルールをブロック26へ適用し、圧縮して、ビデオデコーダ（この図には示されていない）へ伝送する。具体的には、この特定の実施例では、ブロック25はブロック21の仕切り操作から結果として生じるすべての領域を領域のアレイ内に配置し、このアレイを1ラインずつ重要な領域を探索しながら走査する。次いで、発見された各々の重要な領域は順次ブロック26へ出力される。このようにしてビデオデコーダは、以下で更に説明するように、それぞれの位置に関する情報を受信する必要なく予測誤差フレームの、受信された各領域の位置を捜し当てることができる。
ブロック24によって予測誤差フレームEを仕切るのと同一の方法で、予測フレームPのフレームの仕切りはブロック21により行われるので、予測誤差フレームEの領域の各々の重要性の判定はこの領域での予測フレームの特性に基づく。言い換えれば、予測誤差フレームと予測フレームの対応する各領域は同じセットの画素座標(x,y)を含むようにブロック21とブロック24によるフレームの仕切りが行われる。予測フレームPと予測誤差フレームEは、同じブロックサイズ（例えば4x4画素あるいは8x8画素）を各々持つ各領域に仕切られる。この仕切りは所定のパターンに従うことができること、あるいは不規則な形状の各領域への予測画像のセグメンテーションに基づくことができることに留意されたい。また、現在符号化されたフレームの任意の形状の各領域へのセグメンテーションを記述する情報をエンコーダがデコーダに提供するスキームでは、前述の仕切りはこのセグメンテーションに基づくものであってもよい。
参照番号26は、予測誤差フレームEの符号化されるべき各領域、すなわちブロック25によって重要であると判定された各領域を圧縮し、符号化するための適応性領域エンコーダを示す。適応性領域エンコーダ26は分類ブロック23を含み、このブロック23によって、本発明の範囲を制限しないこの特定の実施例では、予測フレームの重要な領域の各々が以下の各クラスの一つに分類される。すなわち、不連続部がない部分；水平方向不連続部；垂直方向不連続部；対角線左傾斜不連続部；対角線右傾斜不連続部；非方向性不連続部。予測フレームEの問題の各領域の分類は、予測フレームPのそれぞれの領域の方向性特性に基づいて行われ、これらの特性は、ブロック22の不連続性分析器によって分析され引き出される。参照番号28は、予測誤差フレームEのそれぞれの領域を符号化するための予測フレームEのそれぞれの領域の分類に従って、複数の選択可能な領域エンコーダ271，...，27nの中の1つを選択するためのセレクタを示す。参照番号29は、選択された領域エンコーダの出力を選択し、その選択された領域エンコーダの出力をビデオデコーダへ伝送するためのビデオエンコーダの出力とつなぐためのセレクタを示す。
図3は、図2の方向性高域通過フィルターブロック22の動作を例示する目的のための予測フレームPnの領域を示す。図3の黒い点の各々は、予測フレームPの描かれた領域での1つの画素を表す。P(x,y)は、画素座標(x,y)を持つそれぞれの画素の輝度値を表す。
図2のブロック22は、各画素位置(x,y)に対して所定の方向での画素位置(x,y)に関してお互いに対向する隣接画素の輝度値Pを減算することによって各々仕切られた領域で不連続性（不連続部の）情報を引き出す。具体的には、ブロック22には水平高域通過フィルターが含まれ、このフィルターによって、それぞれの領域の各画素、位置(x,y)に対して、位置(x,y+1)での、垂直に隣接する1つの画素の輝度値P(x,y+1)と、位置(x,y)に関して位置(x,y+1)での前記1つの画素に対向する、もう一つの垂直に隣接する画素位置(x,y-1)の輝度値P(x,y-1)との間の差分F_H(x,y)が計算される。さらに、ブロック22には、垂直高域通過フィルターが含まれ、このフィルターによって、各画素位置(x,y)に対して、位置(x+1,y)での水平に隣接する1つの画素の輝度値と、位置(x,y)に関して前記水平に隣接する1つの画素に対向する位置(x-1,y)での、水平に隣接するもう一つの画素の輝度値との間の差分F_V(x,y)が計算される。
この結果として生じる水平及び垂直差分F_H(x,y)とF_V(x,y)は、各画素位置(x,y)に対する垂直及び水平方向での空間的輝度の不連続部をそれぞれ表す。
ブロック22は、予測フレームPのそれぞれの領域の各画素に対するこれらの垂直及び水平不連続部の値F_V(x,y)とF_H(x,y)をブロック25へ供給し、このブロックによって、それぞれの領域のすべての画素位置(x,y)にわたってF_V(x,y)とF_H(x,y)の絶対値を合計することによってそれぞれの領域で発見された不連続部の重要性が判断される。この結果として生じる合計が所定の閾値より大きい場合には、ブロック25によって予測フレームPのそれぞれの領域が重要な量の不連続部を含むものと判定され、大きくない場合にはそれぞれの領域は重要な不連続部を含まないと判定される。
図2の分類器23は、方向性高域通過フィルター22によって出力された水平及び垂直の不連続部の値F_H(x,y)とF_V(x,y)を受信し、問題の各領域に対するこれらの値を利用して、その領域での不連続部の構造に応じてその領域を6つの異なるクラスの中の1つに分類する。図4は、クラスa〜fの各々のメンバーの典型的な代表例を示す。この領域で輝度値が徐々に変化するか全く変化しない場合のように予測フレームのこの領域が何等実質的な不連続部を示さなければ、予測フレームのこの領域はクラスaに属するものとして分類される。クラスbの典型的なメンバーは水平方向の不連続部（例えば水平エッジ）を示す領域である。クラスcは、垂直方向の不連続部（例えば垂直エッジ）を持つ予測フレームの領域を表す。クラスdとeは、対角線のエッジのような対角線方向の不連続部を持つ領域を表す。クラスdは、対角線右傾斜不連続部をカバーし、一方クラスeは対角線左傾斜不連続部をカバーする。最後に、クラスfの典型的なメンバーは方向性による方向付けのない不連続部（例えばテクスチャ）を含む予測フレームの領域である。
方向性不連続部クラスb〜eの各々は、その領域でのそれぞれの不連続部の位置に基づいてさらにサブクラスに細分化される。クラスbを例にとると、第1のサブクラスb1はこの領域の上半分での水平不連続部をカバーし、一方、サブクラスb2はこの領域の中央部での水平不連続部をカバーする。サブクラスb3は、この領域の下半分に位置する水平不連続部をカバーする。
同様に、クラスc、d及びeについては、これらのクラスの細分化は、それぞれ、図4から明らかなように不連続部の垂直及び対角線の位置に応じて決定される。もちろんクラスの数は、例えば選択可能な領域エンコーダ271〜27nの数及び予測フレーム領域の圧縮のために使われる対応する適応性符号化方法に応じて変動してもよいことに留意されたい。また、この領域でのフィルタ出力の値に基づいて各領域を分類するためにいくつかの異なるアルゴリズムを用いることもできる。そのようなアルゴリズムの例としては、例えば、”デジタル画像処理の原理”（M.K. Jain，プレンティスホールインターナショナル社、1989年，pp.347〜357.）から知ることができる。
図2のブロック25によって重要であると判定された予測フレームPの各領域のこの分類に基づいて、予測誤差フレームEの問題の領域を適応性を持って符号化するための適切な領域エンコーダ（例えば適切なベクトル量子化装置）が、選択可能な領域エンコーダ271〜27nの中から分類器23によって選択される。この特定の実施例では各クラスまたはサブクラスに対して、それぞれのクラスまたはサブクラスのメンバーの特定の統計的特性に適合した専用のベクトル量子化装置が設けられる。ベクトル量子化自体は若干の情報損失が生じた信号を圧縮するための確立した技術である。ベクトル量子化装置VQ1...VQnの各々は、この特定のベクトル量子化装置に属するコードブックの中で発見された最良の近似値によって予測誤差フレームEnの領域を置換する。前記コードブックは、それぞれのクラスまたはサブクラスで最も発生しそうな、1セットのいくつかの代表例であり、ベクトル量子化装置が、それぞれのベクトル量子化装置に属するコードブック中で最善のマッチするコードベクトルへインデックスを出力するだけで十分である。
本発明では、予測誤差フレームの各領域の分類は対応する予測フレーム領域に基づいて行われる。この予測フレームはビデオデコーダでも利用可能なので、符号化されたビデオデータの中に分類情報を含める必要はなくなる。それどころか、この分類情報は、エンコーダによって行われる分類に類似した分類操作を行うことによりビデオデコーダによって検索することができる。
例えば直交変換法(DCT、KLT)やマッチング追跡法などの予測誤差フレーム領域の他の圧縮方法を採用することもできることに留意されたい。
以下に、本発明による動き補償ビデオエンコーダのもう一つの実施例を説明する。この実施例は、以下に述べる点を除いて上記のビデオエンコーダの第1実施例に類似している。
図5には、本発明によるビデオエンコーダの第2実施例で採用される選択可能な領域エンコーダ271〜27nの各々の実施例が示されている。図5に示すように、この実施例では、複数の異なる符号化方法を行うために選択可能な領域エンコーダ271〜27nの各々に複数のエンコーダ531〜53kが含まれる。選択可能な領域エンコーダ271〜27nの各々にはさらに、複数のそれぞれのエンコーダ531〜53kの中で、予測誤差フレームのそれぞれの領域を符号化するための適切な基準に従って最も適したエンコーダを選択するための選択コントローラ51が含まれる。本発明の範囲を制限しないこの特定の実施例による選択コントローラ51は、分類器23によって選択された選択可能な領域エンコーダで利用可能な符号化方法のいずれが、最も少ない符号化誤差で予測誤差フレームEのそれぞれの領域の符号化を可能にするかを判定する。この目的のために、選択コントローラ51は予測誤差ーフレームEを受信し、分類器23によって選択された選択可能な領域エンコーダの利用可能なエンコーダ531〜53kの各々によって生じた符号化誤差を評価することができるようになる。エンコーダ531〜53kの中の2つ以上のエンコーダが十分に機能すると選択コントローラ51が判断した場合、選択コントローラ51によって、これらの中から最小量のビットで十分な性能を達成するエンコーダが選ばれる。選択コントローラ51によって、選択情報がセレクタ54へ出力され、選択されたエンコーダが起動され、予測誤差フレームのそれぞれの符号化されるべき領域が符号化される。さらに、選択コントローラ51によって出力された選択情報は、エントロピーエンコーダ52へ供給され、選択情報のエントロピー符号化が行われる。また、この選択情報はセレクタ55を制御して、エンコーダ531〜53kの中から選択されたもの（エンコーダ）をマルチプレクサ56の入力の1つと接続し、エントロピー符号化された選択情報と、選択されたエンコーダによって出力された圧縮された予測誤差データとを多重化する。マルチプレクサ56の出力は、選択可能な領域エンコーダ271〜27nのそれぞれのエンコーダから出力される。
本発明によるビデオエンコーダのこの実施例では、図2に示される分類器23が、符号化されるべき予測誤差フレームのそれぞれの領域に対応する予測フレームの各領域における画像輝度値の分散値に基づいて予測フレームPの方形の領域を分類する。画像輝度値の分散値varbはこの特定の実施例では不連続部分析器22によって以下のように計算される。

ここで、p(i,j)は予測フレームのそれぞれの領域における位置(i,j)での画素の輝度値、Mは方形領域の各行及び各列における画素の数、qはそれぞれの予測フレーム領域における画素の輝度値の平均値である。
次いで、不連続部分析器22は、予測フレームのそれぞれの領域における複数の所定の画素クラスタに対してクラスタ活性度測定値CAMを計算する。画素の各クラスタは、分類器23によって識別可能な1つの特定のクラスに対応する。図6は、分類器23が識別すべき13の異なる特性クラスに対応する13の異なる画素クラスタを例示する。クラスタ1〜13のそれぞれのクラスタに属する画素は、図6で影をつけて示されている。
クラスタ活性度測定値CAMはこの特定の実施例では以下のように各クラスタで計算される。すなわち、
位置(i,j)におけるすべての画素について、それぞれの領域において、画素活性度測定値pam(i,j)は、画素(i,j)を含む4つの2x2画素サブブロックを分析することによって計算される。図7に画素(i,j)に対するこれらのサブブロックの位置が示されている。次いで、これらのサブブロックの各々における画素値の分散値が計算される。これらの分散値はvarlu，varru，varll及びvarrlで示される。1つのサブブロックの画素がそれぞれの領域の外側にある場合、すなわち位置(i,j)が領域の境界画素であるときには、サブブロックの分散値は0と見なされる。位置(i,j)におけるそのときの画素活性度測定値は、

となる。
各クラスタ(a)に対してクラスタ活性度測定値cam(a)は以下のように計算することができる。

この式においてCaはクラスタaに属する画素の集合（セット）を示す。このクラスタ活性度測定値は、クラスタaの正常化係数(normalization factor)w(a)を掛けた、クラスタaの中のすべての画素の画素活性度測定値の合計である。図6に示されている各クラスタa=1からa=13に対して、w(a)の値を以下のように選ぶことができる。

この特定の実施例では、分類器23は14のクラスを識別し、符号化されるべき各領域は、予測フレームのそれぞれの領域における画像輝度の優勢な不連続部の位置に応じて、これらの14のクラスの中の1つに従って分類される。13のクラスはそれぞれ図6に示す13のクラスタの一つに対応する。14番目のクラスは図6には示されていないが、重要な不連続部を含まない領域に割り当てられる。
予測誤差フレームの符号化されるべき領域に対応する予測フレームの領域の分類は以下のように行うことができる。式(1)により計算された領域の分散値が所定の閾値より小さい場合には、その領域は重要な不連続部を含まないものと見なされ、分類器23によってこの領域はクラス14に割り当てられる。一方、式(1)によるこの領域の分散値が前記所定の閾値以上であれば、クラスタaが見つけられ、そのクラスタに対してクラスタ活性度測定値cam(a)が最も高くなり、優勢な不連続部がそのクラスタaに存在することが示される。次いで分類器23によってこの領域はクラスaに割り当てられる。
この分類に従って分類器23は、それぞれのクラスに対応する選択可能な領域エンコーダ27a〜27nの中の1つを選択する。
この特定の実施例によれば、選択可能な領域エンコーダ271〜27nの各々には、1セットの13のエンコーダからのエンコーダ531〜53kのサブセットが含まれ、これらの13のエンコーダの各々は図6に示す画素の13のクラスタの1つに適合している。具体的には、これらの13のエンコーダの各々は各画素の関連クラスタに対して二次元離散余弦変換（two-dimensional discrete cosine transform）を行うようになっている。選択可能な領域エンコーダ271〜27nの各々の複数のエンコーダ531〜53kにはそれぞれの選択可能な領域エンコーダのクラスに適合するそれぞれのエンコーダが含まれ、さらに、それぞれの選択可能な領域エンコーダのクラスに関連するクラスに適合するエンコーダが含まれる。各クラスに対して、すべての他のクラスは関連するクラスと考えることができる。次いで、選択可能な領域エンコーダの各々には同じセットのエンコーダ531〜53kが含まれる。一般に、特定のクラスに対して、異なるクラスの中に領域を分類する方がそれぞれのクラスに分類するよりもよいという確率が無視できない場合には、異なるクラスは関連するクラスとなる。この特定の実施例では、クラス1に関連するクラスはクラス7，9及び13であることが判明している。クラス2に関連するクラスはクラス1，3及び13である。クラス7に関連するクラスはクラス1，4及び13である。クラス11に関連するクラスはクラス11と13である。クラス13に関連するクラスは他のすべてのクラスである。他のすべてのクラスの関連するクラスは対称性を考慮に入れることにより簡単に理解できる。
本発明によるビデオエンコーダのこの実施例は、分類器23によって判定されたクラスに対応するエンコーダではないエンコーダがこのクラスに対応するエンコーダよりもよく機能する確率は非常に低く、一方、このクラスに対応するエンコーダが最もよく機能する確率は高いので、ビデオデコーダへ伝送されるべき符号化方法選択情報の量は小さく、ほんの数ビットで表すことができるという事実を利用するものである。この選択情報の符号化は、それ自体よく知られている方法で、各々の選択可能な領域エンコーダに対するそれぞれの選択確率に基づいて、エントロピーエンコーダ52によって行われる。
一般に、関連するクラスは、対応する予測フレーム領域に基づいて、予測誤差フレーム領域の分類に伴う不確定性を考慮して選ばれる。この実施例では関連するクラスの各々が選択可能な領域エンコーダの中の1つのクラスに対応するのに対して、関連するクラスを提供する他の可能性が存在することに留意されたい。例えば、ある特定のクラスが、どんな他のクラスとも同一ではない関連するクラスを持つ可能性はある。
図8は、本発明によるビデオデコーダの第1実施例を示す。ビデオデコーダは、ビデオエンコーダと同じ方法で予測フレームPを生成するようになっている。さらに、ビデオデコーダは、予測誤差フレームの符号化のためにビデオエンコーダによって使用される予測フレームPから同じ情報を引き出し、受信データの復号と予測誤差フレームE^*の復元のためにこの引き出された情報を利用する。
具体的には、図8のデコーダには、ビデオエンコーダから符号化されたビデオデータを受信し、受信データを予測誤差データと動きベクトルデータに分離（デマルチプレクス）するためのデマルチプレクサー31が含まれる。ブロック32は、分離された予測誤差データを受信し、受信された符号化された予測誤差データから予測誤差フレームE^*を復元するための予測誤差デコーダを示す。33は、予測フレームP(x,y)からの復元されたビデオフレームI^*と復元された予測誤差フレームE^*を計算するための計算手段を示す。この復元されたビデオフレームI^*はフレームメモリ34に格納され、さらに復号されたビデオデータとしてビデオデコーダによって出力される。ブロック35は、ビデオエンコーダから受信され、現在のフレームIでの推定された画素変位を記述する動きベクトルに基づく基準フレームRとして役立つフレームメモリ34に格納されたビデオフレームから予測フレームPを組立てるための動き補償予測装置を示す。MC予測装置35は、基準フレームRの画像輝度値とこれらの推定された画素変位を利用して予測フレームP(x,y)を取得する。
予測誤差デコーダ32は、ビデオエンコーダから伝送された符号化された予測誤差データだけでなく、更にMC予測装置35からの予測フレームPとビデオエンコーダによって伝送された動きベクトルも受信し、予測フレームPと動きベクトルとに基づいて予測誤差復号を行う。これは図8の破線によって示されている。
予測フレームPと動きベクトルに基づいて、予測誤差デコーダ32は、予測誤差フレームEの中の重要な情報が予測フレームPの輪郭に沿った動き活性度が重要である位置にほぼ集中しているという事実を利用し、また予測誤差フレームのそのような重要な領域のみを符号化するビデオエンコーダの特性に基づいて、予測誤差フレームEの領域のどれをビデオエンコーダが伝送するかを判定することができる。MC予測装置35が生成した予測フレームPは、ビデオエンコーダの中でMC予測装置7が生成した予測フレームPに対応するので、本発明のこの実施例によるビデオデコーダは、予測誤差フレームの重要な領域の位置についての情報を受信する必要なく予測誤差の復号を行うことができる。これに加えて、あるいは二者択一的に、予測誤差デコーダ32は、符号化された予測誤差フレーム領域の各々に関する分類情報を受信する必要なく適応性復号を行うことができる。なぜなら、予測誤差フレームの符号化されるべき領域を分類するためにこの予測フレームPをビデオエンコーダが利用したのと同じ方法でデコーダは予測フレームPからこの情報を検索することができるからである。
図9は、図8の予測誤差デコーダ32の詳細なブロック図を示す。図9では、参照番号41は、MC予測装置35によって設けられた予測フレームPを複数の領域に仕切るための手段を示す。予測フレームPの仕切りはビデオエンコーダの場合と同じ方法で行われる。言い換えれば、フレーム仕切り手段41の機能は、図1の予測誤差エンコーダでのフレーム仕切り手段21の機能に完全に対応する。
参照番号42は不連続部分析器を示し、この分析器の機能はビデオエンコーダに設けられている不連続部分析器22の機能に対応する。ブロック22に関するそのようなそれぞれの説明はブロック42にも当てはまるので、ここでは繰り返して述べることはしない。
図9のブロック44は、予測誤差フレームのどの領域がビデオエンコーダによってすでに符号化されてしまっており、圧縮された予測誤差データに含まれているかを判定するための判定手段を示す。この目的のために、判定手段44によって、図2のブロック25によって行われる重要な領域の判断と判定に類似した操作が行われる。このビデオデコーダが第1実施例の上記のビデオエンコーダと協働するように設計されている場合には、ブロック41によって設けられた予測フレームPnの各領域の各画素位置(x,y)に対する、不連続部分析器42によって出力された水平および垂直差分F_H(x,y)とF_V(x,y)がブロック44によって受信され、それぞれの領域のすべての画素位置(x,y)にわたってF_V(x,y)とF_H(x,y)の絶対値を合計することによってこの領域の各々で発見された不連続部の重要性が判断される。図2のブロック25によって行われた判断に従って、結果として生じるその合計がブロック25によって採用された所定の閾値に対応する所定の閾値より大きい場合には、予測フレームPのそれぞれの領域がかなりの量の不連続部を含むことがブロック44によって判定される。所定の閾値より大きくない場合には、それぞれの領域は重要な不連続部を含まないものとブロック44によって判定される。
さらにブロック44はビデオエンコーダによって伝送された動きベクトルを受信する。これらに基づいてブロック44は、各領域に対して、それぞれの領域の動きベクトルの大きさを計算し、対応する操作のために図2のブロック25によって用いられた前記第2の閾値に対応する閾値と最大の大きさを比較することによって動き活性度の量を判断する。ブロック25は、ブロック25が用いた同じ基準に基づいて予測フレームPnの領域を重要なものであると判定する。すなわち、この領域での不連続性の程度と動き活性度の両方が重要（顕著）であると判断された場合にはブロック25はそれぞれの領域を重要なものであると判定する。
受信された予測誤差データの各セクションを対応する領域に割り当てる所定のシーケンスルールがブロック44によって適用される。このルールは、予測誤差フレームの重要な領域を出力するためにビデオエンコーダでブロック25が採用した所定のシーケンスルールに対応するものである。具体的には、この特定の実施例では、ブロック25によってビデオエンコーダに配置された領域のアレイに類似した、領域のアレイにおけるブロック425の仕切り操作から結果として生じたすべての領域がブロック44によって配置され、重要な領域を探索しながら1ラインずつこのアレイが走査される。予測誤差フレームの1つの領域に対応する予測誤差データの各々の受信されたセクションは、次いでその重要な領域に割り当てられる。前記アレイにおけるその順序はそれぞれのセクションの受信の順序に対応する。この操作の一例が図10aと10bに描かれている。図10aは、ブロック21によってビデオエンコーダの中で行われ、またブロック41によってビデオデコーダの中で行われた仕切り操作から結果として生じた領域のアレイ105を示す。この配列は4つの列（0〜3）と4つの行（0〜3）から成る。アレイ105の斜線をつけた要素は重要であると判定された領域を表わし、一方斜線のない領域は重要でない領域を表す。
図10bは、ビデオエンコーダから受信された予測誤差データの流れを示す。この流れはセクション101〜104から成り、各セクションには、予測誤差フレームの対応する領域に対する予測誤差データが含まれる。ブロック44によってアレイ105に対して1ラインずつ行われる走査操作の結果、以下の順序で重要なアレイの一例が生じる:(0,1);(1,2);(2,3);(3,2)。この順序は予測誤差データの中の各セクションの順序に対応するものである。これらの対応する順序に基づいて、ブロック44は、予測誤差データの各々受信されたセクション101〜104をその対応する領域に割り当てることができる。tは時間軸を示す。
図9の参照番号43はブロック42から出力された不連続部についての情報を受信する分類器を示す。この実施例では、分類器43は、方向性高域通過フィルター42によって出力された垂直及び水平方向の不連続部の値F_V(x,y)とF_H(x,y)を受信し、ビデオエンコーダに設けられた分類器23によって行われた操作に類似した操作を行う。従って、ブロック23によって行われた分類に類似した方法でブロック43によって行われた分類についての説明はここでは繰り返さない。
分類器43が判定した特性クラスに従って、ブロック44が出力した圧縮された予測誤差データから成る各セクションに対して、適切なデコーダを選択するための分類器43が制御するセレクタが参照番号45によって示されている。このようにして、適応性領域デコーダ48は、予測フレームPnのそれぞれの領域のクラスに応じたビデオエンコーダでブロック26によって行われる符号化操作とは逆の操作を行うことができる。図9の適応性領域デコーダ48の各々の選択可能な領域デコーダ471〜47nは、ビデオエンコーダでの選択可能な領域エンコーダ271〜27nの中の一つに対応する。ベクトル量子化が用いられる場合には、その中には各デコーダ471〜47nによって復号化されるべき領域のクラスに適合したコードブックが含まれ、デコーダ471〜47nの各々は、その入力時に、対応する領域エンコーダによって使われるコードブックと同一のそのコードブックに適ったインデックスを受信し、受信されたインデックスに対応するコードブックからベクトルを読み出すようになっている。この予測誤差エンコーダとデコーダは、ベクトル量子化に加えてまたはベクトル量子化に代わる一つの選択肢として、例えば直交変換（DCT，KLT）やマッチング追跡法のような他の適応性予測誤差符号化及び復号スキームを一体化してもよいことは言うまでもない。
参照番号46は、その選択された領域デコーダの出力を図9の予測誤差復号ブロック32の出力と接続するためのセレクタを示す。次いで、ブロック44が重要であると判定した各領域のそれぞれの位置で、復号された領域の各々を予測誤差フレームメモリ（この図には示されていない）の中に書き込み、それによって予測誤差フレームE^*(x,y)を復元することができる。
図11は、本発明の第2実施例によるビデオデコーダの選択可能な領域デコーダを示す。第2実施例によるこのビデオデコーダは、上記の第2実施例によるビデオエンコーダと協働するようになっている。第2実施例によるビデオデコーダは、第2実施例の図9における不連続部分析器42と分類器43が第2実施例によるビデオエンコーダのそれぞれ不連続部分析器22と分類器23に類似して作動することを除いては第1実施例によるビデオデコーダに類似しているので、これらのブロックの構造と動作についての説明をここで繰り返す必要はない。さらに、第2実施例によるビデオデコーダの中の選択可能な領域デコーダ471〜47nは図11に示すように第1実施例の選択可能な領域デコーダとは異なるものである。
図11に示すように、第2実施例によるビデオデコーダの中の選択可能な領域デコーダ471〜47nの各々にはデマルチプレクサー61が含まれ、これによって第2実施例のビデオエンコーダから受信された圧縮された予測誤差データは、符号化された予測誤差データとエントロピー符号化された符号化方法選択情報に分離（デマルチプレクス）される。参照番号62は、エントロピー符号化された符号化方法選択情報を受信するエントロピーデコーダを示す。参照番号631〜63kは、それぞれの選択可能な領域デコーダに対応する選択可能な領域エンコーダの中で各々がエンコーダ531〜53kの中の1つに対応する複数のデコーダを表す。参照番号64と65は、複数のデコーダ631〜63kの中から選択された1つのデコーダへ符号化された予測誤差データを供給するための、また、その選択されたデコーダの出力をそれぞれの選択可能な領域デコーダの出力と接続するためのエントロピーデコーダ62の出力によって制御されるセレクタを表す。
ビデオデータ用の本発明によるエンコーダとデコーダ、及びビデオデータの符号化と復号のための本発明による方法は、広い範囲の様々な種類の応用例として有利に用いることができる。この広い範囲の様々な種類の応用例の中の1つとして、ビデオデータ伝送システムがあり、このシステムには本発明によるエンコーダ、符号化されたビデオデータの伝送手段、及び伝送されたビデオデータを受信し、復号されたビデオデータを出力するための本発明によるデコーダが含まれる。
もう一つの好適な応用例としてビデオデータ格納システムがあり、このシステムは、ビデオデータを符号化するための本発明によるエンコーダ、符号化されたビデオデータを格納する手段、及び符号化されたビデオデータを前記格納手段から検索し、前記検索されたビデオデータを復号し出力するための手段が含まれる。
本発明は、符号化されるべき異なるフレーム領域のための異なる符号化モードと組合せて好適に用いることもできる。あるフレームの若干の領域がイントラ符号化を施され、他のフレーム領域が動き補償符号化を施される場合には、本発明をこれらの動き補償符号化された領域に対して適用することができる。また、ビデオフレームの動き補償符号化という用語を、すべてのフレーム領域がMC符号化される場合への制限として理解してはならない。
本発明が先行技術による符号化モードと一緒に利用されるビデオコーデックにおける1つ以上の符号化モードのための根本原理となり得ることは、当業者には明らかである。本発明に基づく符号化された領域と符号化スキームの判定が所望の結果を生み出さないときには、エンコーダは先行技術モードの中の1つを用いることを決定してもよい。例えば、エンコーダは符号化された領域の選択と符号化モード選択を受け付けず、この決定をデコーダへ伝えるかもしれない。これは、そのような選択が受け付けられていれば必要でない能力を使うことを要するものであるかもしれないが、結果的に符号化決定が著しくより良いものであれば正当化することができる。

Claims

ビデオデータの動き補償符号化を行うためのエンコーダにおいて、
ビデオフレーム画素のシーンの動き変位を記述する動きベクトルを推定するための手段(8)と、
予測されたビデオデータフレーム(P)と復号された予測誤差フレーム（E ^* ）とに基づいて計算される第1のビデオデータフレーム(R)と前記動きベクトルとに基づいて前記のビデオデータフレーム(P)を予測するための手段(7)と、
前記の予測されたビデオデータフレーム(P)と前記の動き補償符号化をするべく入力された第2のビデオデータフレーム(I)とに基づいて予測誤差フレーム(E)を計算するための手段(1)と、
前記予測誤差フレーム(E)を符号化することによって予測誤差データを取得するための手段(2)と、
前記動きベクトルと前記予測誤差データとをデコーダへ伝送するための手段(4)とを有し、
前記予測誤差フレーム(E)を符号化するための前記手段(2)が、
前記予測誤差フレームを複数の領域に仕切るための手段(24)と、
以下の操作の中の少なくとも一方、すなわち、前記予測誤差フレーム(E)における符号化されるべき領域の判定と、前記予測誤差フレーム(E)の符号化されるべき各領域のための少なくとも1つの符号化スキームの判定との少なくとも一方を行うための判定手段と、
前記判定手段のうちの少なくとも一方の判定操作に従って前記予測誤差フレーム(E)の符号化されるべき領域を符号化するための領域符号化手段(26)とを有し、
ここに前記判定手段が、前記予測誤差フレーム(E)の各領域に対して、前記の予測されたビデオデータフレーム(P)の対応する領域における画像輝度の不連続性を分析するための手段(22)を有し、かつ
前記判定手段が、前記不連続性の分析に基づいて前記少なくとも一方の判定操作を行うようにされていることを特徴とするエンコーダ。
前記不連続性分析手段(22)が、
予測されたビデオデータフレーム(P)の各領域において、垂直方向の有限差(F_H)を計算するための線形フィルタと、水平方向の有限差(F_V)を計算するための線形フィルタと、
各領域における双方のフィルタの出力の絶対値の合計を第1の所定の閾値と比較するための手段とを有し、
前記判定手段が、前記予測されたビデオデータフレーム(P)の対応する領域に対して計算された絶対値の前記合計が前記第1の閾値を超えない場合には予測誤差フレーム(E)の領域を符号化されるべきでないと判定するようにされていることを特徴とする請求項１に記載のエンコーダ。
前記領域符号化手段(26)が、符号化されるべきであると判定された各領域に対して、複数の異なる領域エンコーダの中から領域エンコーダ(271，...，27n)を個々に選択するための選択手段（28，29）を有することを特徴とする請求項１又は２に記載のエンコーダ。
前記判定手段が、前記予測されたビデオデータフレーム(P)の対応する領域の輝度不連続部特性に応じて、特性クラスから成るあるグループの1つのクラスを前記予測誤差フレーム(E)の符号化されるべき各領域に割り当てるための分類手段(23)を有し、
前記選択手段(28，29)が、それぞれの領域に割り当てられたクラスに従って、符号化されるべき各領域に対する領域エンコーダ(271,...,27n)を選択するようにされていることを特徴とする請求項３に記載のエンコーダ。
前記分類手段(23)が、前記予測誤差フレーム(E)の符号化されるべき領域に対応する予測されたビデオデータフレーム(P)の各領域における垂直方向の有限差(F_H)と水平方向の有限差（F_V）を計算するための線形方向性フィルタ(22)によって与えられる出力値に基づいて分類を行うようにされていることを特徴とする請求項４に記載のエンコーダ。
前記分類手段(23)が、前記予測誤差フレーム(E)の符号化されるべき領域に対応する予測されたビデオデータフレーム(P)の各領域の異なる画素クラスタにおけるそれぞれの輝度不連続性集中部に基づいて分類を行うようにされていることを特徴とする請求項４に記載のエンコーダ。
各クラスから成る前記グループが、以下のクラス、すなわち、不連続部がない部分、水平方向不連続部、垂直方向不連続部、対角線左傾斜不連続部、対角線右傾斜不連続部、非方向性不連続部、のうちの少なくとも1つを含むことを特徴とする請求項５又は６に記載のエンコーダ。
前記領域符号化手段(26)が、選択された直交変換又はベクトル量子化又はマッチング追跡スキームを利用することによって前記予測誤差フレーム(E)の符号化されるべき各領域のデータを符号化するようにされていることを特徴とする請求項１〜７のいずれか一項に記載のエンコーダ。
複数の符号化方法(531〜53k)を含むようにされている各領域エンコーダ(271，...，27n)と、
符号化方法の性能に関連する基準に従ってそれぞれの複数の符号化方法(531〜53k)の中から符号化方法を選択するために、各領域エンコーダ(271，...，27n)に対して設けられた符号化方法選択手段(51，54，55)と、
前記符号化方法選択手段(51，54，55)による選択をビデオデコーダへ伝えるための手段(52，56)とを有することを特徴とする請求項３〜８のいずれか一項に記載のエンコーダ。
異なる領域エンコーダ(271，...，27n)に対して前記複数の符号化方法(531，...，53k)が異なることを特徴とする請求項９に記載のエンコーダ。
前記予測誤差フレーム(E)を復号するための予測誤差デコーダ(3)と、
前記予測されたビデオデータフレーム(P)と前記の復号された予測誤差フレーム(E^*)とに基づいて前記第1のビデオデータフレーム(R)を計算するための手段(5)とを有することを特徴とする請求項１〜10のいずれか一項に記載のエンコーダ。
前記判定手段(25)が、前記予測されたビデオデータフレーム(P)の各領域に対して対応する動きベクトルの大きさ及び／又は方向を計算するための手段を有し、
前記判定手段(22，25)が、前記動きベクトルの前記計算された大きさ及び／又は方向に基づいて前記判定を行うようにされていることを特徴とする請求項１〜11のいずれか一項に記載のエンコーダ。
前記領域に対応する前記動きベクトルの前記計算された大きさが第2の所定の閾値を超えない場合には、前記判定手段が予測誤差フレーム(E)の領域を符号化すべきでないと判定するようにされていることを特徴とする請求項12に記載のエンコーダ。
動き補償符号化されたビデオデータを復号するためのデコーダにおいて、
ビデオデータフレーム(R)を格納するための手段(34)と、
前記ビデオデータフレーム(R)と受信された動きベクトルデータに基づいてビデオデータフレーム(P)を予測するための手段(35)と、
受信された予測誤差データを復号し、復号された予測誤差フレーム(E^*)を取得するための手段(32)と、
前記の予測されたビデオデータフレーム(P)と前記の復号された予測誤差フレーム(E^*)とに基づいて更新されたビデオデータフレーム(I^*)を計算して出力し、前記の更新されたビデオデータフレーム(I^*)を前記の格納手段に格納するための手段(33)とを有し、
前記の受信された予測誤差データを復号するための前記手段(32)が、
以下の操作の中の少なくとも一方、すなわち、前記の受信された予測誤差データの中に符号化されて含まれる前記の予測誤差フレーム(E^*)の領域の判定と、前記の受信された予測誤差データの中に符号化されて含まれる各領域に対する少なくとも1つの復号スキームの判定との中の少なくとも一方を行うための判定手段と、
前記の受信された予測誤差データを復号して、前記判定手段による少なくとも一方の判定操作に従って前記の予測誤差フレームを取得するための領域復号手段(48)とを有し、
ここに前記判定手段が、
前記の予測されたビデオデータフレーム(P)を複数の所定の領域に仕切るための手段(41)と、
前記の予測されたビデオデータフレームの各領域に対して画像輝度の不連続性を分析するための手段とを有し、かつ
前記判定手段が、前記の予測されたビデオデータフレーム(P)の対応する領域における前記不連続性の分析に基づいて、前記の予測誤差フレーム(E ^* )の各領域に対して前記少なくとも一方の判定操作を行うようにされていることを特徴とするデコーダ。
前記不連続性分析手段が、
予測されたビデオデータフレーム(P)の各領域における垂直方向の有限差(F_H)を計算するための線形フィルタ(42)と水平方向の有限差(F_V)を計算するための線形フィルタ(42)と、
各領域における双方のフィルタの出力の絶対値の合計を第3の所定の閾値と比較するための手段と、
前記予測されたビデオデータフレームの対応する領域に対して計算された絶対値の前記合計が前記第3の閾値を超えない場合には、予測誤差フレームの領域が前記受信された予測誤差データの中に符号化されて含まれていないと判定するようにされている前記判定手段(44)とを有することを特徴とする請求項14に記載のデコーダ。
前記領域復号手段(48)が、前記受信された予測誤差データの中に符号化されて含まれる、前記予測誤差フレーム(E^*)の各領域に対する複数の異なる領域デコーダ(471〜47n)の中から領域デコーダを個々に選択するための選択手段(45，46)を有することを特徴とする請求項14又は15に記載のデコーダ。
前記判定手段が、前記予測されたビデオデータフレーム(P)の対応する領域の不連続部の特性に応じて、各特性クラスから成るあるグループの1つのクラスを前記予測誤差フレーム(E^*)の復号されるべき各領域に割り当てるための分類手段(43)を有し、
前記選択手段(45，46)が、それぞれの領域に割り当てられた前記クラスに従って、前記予測誤差フレーム(E^*)の復号されるべき各領域に対して、領域デコーダを選択するようにされていることを特徴とする請求項16に記載のデコーダ。
前記分類手段(43)が、前記予測誤差データ中に符号化されて含まれる前記予測誤差フレーム(E^*)の領域に対応する予測されたビデオデータフレーム(P)の各領域において、垂直方向の有限差(F_H)と水平方向の有限差(F_V)とを計算するための線形方向性フィルタ(42)によって与えられた出力値に基づいて、分類を行うようにされていることを特徴とする請求項17に記載のデコーダ。
前記分類手段(43)が、前記予測誤差データ中に符号化されて含まれる前記予測誤差フレーム(E^*)の領域に対応する予測されたビデオデータフレーム(P)の各領域の異なる画素クラスタにおいて、それぞれの輝度不連続性集中部に基づいて分類を行うようにされていることを特徴とする請求項17に記載のデコーダ。
各クラスから成る前記グループが、以下のクラス、すなわち、不連続部がない部分、水平方向不連続部、垂直方向不連続部、対角線左傾斜不連続部、対角線右傾斜不連続部、非方向性不連続部、のうちの少なくとも1つを含むことを特徴とする請求項18又は19に記載のデコーダ。
前記領域復号手段(48)が、選択された直交変換、ベクトル量子化又はマッチング追跡スキームを利用することによって、前記予測誤差フレーム(E^*)の復号されるべき各領域の受信された誤差予測データを復号するようにされていることを特徴とする請求項14〜20のいずれか一項に記載のデコーダ。
複数の復号方法(631〜63k)を含むようにされている各々の領域デコーダ(471〜47n)と、
受信された符号化方法選択情報に従ってそれぞれの複数の復号方法(631〜63k)から復号方法を選択するための復号方法選択手段(62，64，65)とを有することを特徴とする請求項16〜21のいずれか一項に記載のデコーダ。
前記複数の復号方法(631〜63k)が、異なる領域デコーダ(471〜47n)に対して異なることを特徴とする請求項22に記載のデコーダ。
前記判定手段が、前記予測されたビデオデータフレーム(P)の各領域に対して対応する動きベクトルの大きさ及び／又は方向を計算するための手段(44)を含み、
前記判定手段が、前記動きベクトルの前記計算された大きさ及び／又は方向に基づいて前記判定を行うようにされていることを特徴とする請求項14〜23のいずれか一項に記載のデコーダ。
前記領域に対応する前記動きベクトルの前記計算された大きさが第4の所定の閾値を超えない場合、前記予測誤差フレーム(E^*)の領域が前記受信された予測誤差データの中に符号化されて含まれていないと前記判定手段が判定するようにされていることを特徴とする請求項24に記載のデコーダ。
前記受信された予測誤差データを復号するための前記手段(32)が、所定の空間についての割り当てルールに従って前記判定手段(41，42，44)により判定されたそれぞれの領域に前記予測誤差データの受信されたセクションを順次割り当てるようにされており、
各セクションが、前記予測誤差フレームの1つの符号化された領域に対応することを特徴とする請求項14〜25のいずれか一項に記載のデコーダ。
前記所定の割り当てルールが、前記予測誤差フレームのすべての領域を走査するときそれらのセクションが出現する順序で、及び／又はそれらのセクションが前記判定手段によって判定される順序で、前記予測誤差データの前記順次受信されたセクションを前記それぞれの領域へ割り当てることを規定することを特徴とする請求項26に記載のデコーダ。
請求項１〜13のいずれか一項に記載のエンコーダと、請求項14〜27のいずれか一項に記載のデコーダとを有するビデオデータ伝送システム。
請求項１〜13のいずれか一項に記載のエンコーダと、符号化されたビデオデータを格納するための手段と、請求項14〜27のいずれか一項に記載のデコーダとを有するビデオデータ格納システム。
ビデオデータの動き補償符号化方法において、
ビデオフレーム画素のシーン動き変位を記述する動きベクトルを推定し、
予測されたビデオデータフレーム(P)と復号された予測誤差フレーム(E ^* )とに基づいて計算される第1のビデオデータフレーム(R)と前記動きベクトルに基づいて前記のビデオデータフレーム(P)を予測し、
前記の予測されたビデオデータフレーム(P)と前記の動き補償符号化をするべく入力された第2のビデオデータフレーム(I)とに基づいて予測誤差フレーム(E)を計算し、
前記予測誤差フレーム(E)を符号化して予測誤差データを取得し、
前記動きベクトルと前記予測誤差データとをデコーダへ伝送する各ステップを含み、
前記予測誤差フレーム(E)を符号化する前記ステップが、
前記予測誤差フレーム(E)を複数の領域に分割することと、
以下の判定操作、すなわち、前記予測誤差フレーム(E)の中の領域のいずれを符号化すべきかの判定、及び前記予測誤差フレーム(E)の符号化されるべき各領域に対する符号化スキームの判定のうちの少なくとも一方の判定操作と、
前記判定による前記予測誤差フレーム(E)の符号化されるべき各領域の符号化とを含み、
ここに前記少なくとも一方の判定操作が、前記予測誤差フレーム(E)の各領域に対して、前記の予測されたビデオデータフレーム(P)の対応する領域における画像輝度の不連続性を分析することによって行われることを特徴とする方法。
動き補償符号化されたビデオデータの復号方法において、
ビデオデータフレーム(R)の格納と、
前記ビデオデータフレーム(R)及び受信した動きベクトルデータに基づくビデオデータフレーム(P)の予測と、
受信した予測誤差データの復号及び復号された予測誤差フレーム(E^*)の取得と、
前記の予測されたビデオデータフレーム(P)と前記の復号された予測誤差フレーム(E^*)とに基づく、更新されたビデオデータフレーム(I^*)の計算と出力、及び前記の更新されたビデオデータフレーム(I^*)の格納とを含み、
前記の受信した予測誤差データの復号を行う前記ステップが、
以下の判定操作、すなわち、受信した予測誤差データ中に符号化されて含まれる前記の予測誤差フレーム(E^*)の各領域の判定と、受信した予測誤差データ中に符号化されて含まれる各領域に対する復号スキームの判定の少なくとも一方の判定操作と、
前記の予測誤差フレームを取得するための、前記少なくとも一方の判定操作に従う前記の受信した予測誤差データの復号とを含み、
ここに前記の判定操作が、前記の予測されたビデオデータフレーム(P)を複数の所定の領域に仕切り、前記の予測されたビデオデータフレームの各領域に対して画像輝度の不連続性を分析することによって行われることを特徴とする方法。
ビデオデータの伝送方法において、請求項30に記載の方法による前記ビデオデータの符号化と、伝送媒体を通しての前記符号化されたビデオデータの伝送と、請求項31に記載の方法による前記伝送されたビデオデータの復号とを含む方法。
ビデオデータの格納方法において、請求項30に記載の方法による前記ビデオデータの符号化と、格納手段への前記符号化されたビデオデータの格納と、前記格納されたビデオデータの前記格納手段からの検索と、請求項31に記載の方法による前記検索されたビデオデータの復号とを含む方法。