JP2008178149A

JP2008178149A - 運動ベクトルフィールドを圧縮するための装置及び方法

Info

Publication number: JP2008178149A
Application number: JP2008101068A
Authority: JP
Inventors: Marta Karczewicz; マルタカルツェウィッツ; Jani Lainema; ヤニライネマ; Bogdan-Paul Dobrin; ボグダン−ポールドブリン
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1999-08-11
Filing date: 2008-04-09
Publication date: 2008-07-31
Also published as: US6735249B1; CN1207916C; DE60015566T2; US6711209B1; US7149251B2; WO2001011891A1; DE60015566C5; AU6899200A; JP2003506978A; AU6763100A; US8411757B2; US20040165664A1; US20070140342A1; DE60015566D1; US6782053B1; EP1206881A1; ATE281740T1; CN1378750A; EP1206881B1

Abstract

【課題】ビデオシーケンスの運動補償コード化を行う装置及び関連方法が提供される。
【解決手段】運動補償型予想が運動ベクトルフィールドの表示に使用される。予想エラーを低く維持しながら運動ベクトルフィールドを表すのに少数のビットしか必要とされず、これにより、ビデオシーケンスを形成するビデオフレームの通信及び再生を容易に改善する。
【選択図】図２

Description

本発明は、一般に、ビデオシーケンスをコード化する際に運動補償を使用する方法に係る。より詳細には、本発明は、運動補償された予想を使用してビデオシーケンスをエンコード及びデコードするための装置及び関連方法に係る。セグメントの運動フィールドは、直交アフィン運動ベクトルフィールドモデルを使用することにより、ビデオフレームの隣接セグメントから予想される。本発明の実施形態の動作により、運動ベクトルフィールドは、予想エラーを低く維持しながら少数のビットで形成される。

デジタル通信技術の進歩により新規な改良された形式の通信を開発できるようになった。このような進歩を利用する通信及び通信システムにおいて更なる進歩により改善を続けることができねばならない。
例えば、ビデオフレームを形成することのできるデジタルビデオデータ通信用の通信システムが提案されている。ビデオ会議中に使用されるビデオ像は、デジタルビデオシーケンスを効果的に利用することのできるアプリケーションの一例である。
しかしながら、ビデオフレームは、通常、非常の多数のピクセルで形成され、各ピクセルは、１組のデジタルビットで表わすことができる。そして、ビデオシーケンスを表わすのに、通常、非常に多数のビデオフレームが必要とされる。典型的なビデオシーケンスを形成するのに、フレーム当たり非常に多数のピクセルと、非常に多数のフレームとが必要とされるために、ビデオシーケンスを表わすのに必要なデータの量が急速に増大する。例えば、例示的なビデオフレームは、６４０ｘ４８０ピクセルのアレーを含み、各ピクセルは、カラー成分当たり８ビットのＲＧＢ（赤、緑、青）カラー表示を有し、フレーム当たり全部で７，３７２，８００ビットとなる。

ビデオシーケンスは、フィルムに記録される通常の動画と同様に、一連の静止像より成り、連続する像を比較的速い速度、例えば、毎秒１５−３０フレームで表示することにより動きの幻覚が形成される。比較的速いフレーム速度であるために、連続フレームにおける像は、極めて良く似たものになる。典型的なシーンは、幾つかの静止画素、例えば、背景シーンと、幾つかの動き部分とを含み、これら動き部分は、例えば、ニュースアナウンサーの顔や、交通の流れ等、多数の異なる形態をとり得る。或いは、シーンを記録するカメラそれ自体が移動することもあり、この場合には、像の全ての画素が同じ種類の動きをもつことになる。多くの場合に、これは、あるビデオフレームと次のビデオフレームとの間の全体的な変化がやや少ないことを意味する。もちろん、これは動きの性質に依存し、動きが速いほど、あるフレームから次のフレームへの変化が大きくなる。

ビデオシーケンスを送信する際には、主として、送信装置から受信装置へ送信しなければならない情報の量に関して問題が生じる。シーケンスの各フレームは、ピクセルのアレーを長方形マトリクスの形態で含む。鮮明な像を得るには、高解像度が要求され、即ちフレームは非常に多数のピクセルを含まねばならない。今日、多数の標準化された像フォーマットがあり、３５２ｘ２８８ピクセルのＣＩＦ（共通中間フォーマット）や、１７６ｘ１４４ピクセルのＱＣＩＦ（１／４共通中間フォーマット）を含む。ＱＣＩＦフォーマットは、第１世代の移動ビデオ電話装置に使用されるフォーマットの典型で、このような装置に使用できる種類の小型（３−４ｃｍ平方）ＬＣＤディスプレイに、受け入れられる鮮明な像を形成する。もちろん、大型のディスプレイ装置は、一般に、高い空間的解像度をもつ像を必要とし、これらの像が表示時に充分な空間的ディテールで現れるようにしなければならない。

像の各ピクセルごとに、カラー情報を設けなければならない。通常、上述したように、カラー情報は、原色成分赤、緑及び青（ＲＧＢ）に関してコード化されるか、又はＹＵＶモデルとして知られた関連ルミナンス／クロミナンスモデルを使用してコード化され、これは、以下に述べるように、幾つかのコード化利点を与える。カラー情報を与えることのできる方法は多数あるが、全てのカラー表示に共通した同じ問題があり、即ち自然のシーンに存在するカラー範囲を正しく表示するために情報量が必要とされる。人間の視覚系統に対して受け入れられるクオリティのカラー像を形成するために、各カラー成分は、通常、８ビット解像度で表示されねばならない。従って、像の各ピクセルは、２４ビットの情報を必要とし、それ故、ＱＣＩＦ解像度のカラー像は、１７６ｘ１４４ｘ（３ｘ８）＝６０８２５６ビットを必要とする。更に、そのＱＣＩＦ像が１５フレーム／秒のフレームレートをもつビデオシーケンスの一部分を形成する場合には、そのシーケンスをコード化するのに全部で９，１２３，８４０ビット／ｓが必要となる。

従って、多量のデータを、時には、比較的低いビットレートの通信チャンネルを経て送信しなければならず、例えば、６４ｋビット／ｓ以下で動作するワイヤレス通信チャンネルを経て送信しなければならない。
このようなビデオシーケンスを表示するのに必要なデータの量を減少するためにビデオコード化スキムが使用される。多数のビデオコード化スキムの要点は、運動補償された予想をいかに与えるかである。運動補償された予想は、一般に、フレーム間の時間的冗長性を除去することによりフレーム圧縮を改善する方法を与える。同じ一般像の短いシーケンス内で、ほとんどのオブジェクトが同じ位置に留まり、一方、他のオブジェクトが短い距離だけ移動することに基づいて、オペレーションが断定される。このような運動は、２次元運動ベクトルとして記述される。

ＹＵＶカラーモデルを使用して、あるコード化効果を得ることができる。これは、色の変化に対するものよりも輝度（ルミナンス）の変化により敏感な人間の視覚系統の特性を利用する。従って、像が、ルミナンス成分及び２つのクロミナンス成分に関して表わされる場合には（ＹＵＶモデルのように）、クロミナンス成分を空間的にサブサンプルする（その解像度を減少する）ことができる。これは、像のクオリティを受け入れられる程度に下げて像のカラー情報をコード化するのに必要な全情報量を減少することになる。空間的サブサンプリングは、多数の方法で実行できるが、通常は、像の１６ｘ１６ピクセルの各ブロックが、ルミナンス情報を表わす１６ｘ１６ピクセルの１ブロックと、両クロミナンス成分に対する８ｘ８ピクセルの１ブロックとによりコード化される。換言すれば、クロミナンス成分が、ｘ及びｙ方向に２のファクタでサブサンプリングされる。これにより得られる１つの１６ｘ１６ルミナンスブロック及び２つの８ｘ８クロミナンスブロックの組立体を、一般に、マクロブロックと称する。この種のコード化スキムを使用して、ＱＣＩＦ像をコード化するのに必要な情報の量を次のように計算することができる。ＱＣＩＦ解像度は、１７６ｘ１４４である。従って、像は、１１ｘ９、１６ｘ１６ピクセルのルミナンスブロックを含む。各ルミナンスブロックには、２つの８ｘ８ピクセルのサブサンプリングされたクロミナンスブロックが関連され、即ち像内には１１ｘ９のマクロブロックもある。ルミナンス及びクロミナンス成分が８ビットの解像度でコード化される場合には、マクロブロック当りに必要とされる全ビット数は、１ｘ（１６ｘ１６ｘ８）＋２ｘ（８ｘ８ｘ８）＝３０７２ビットとなる。従って、全ＱＣＩＦ像をコード化するに必要なビット数は、今や、９９ｘ３０７２＝３０４１２８ビットであり、即ちクロミナンスのサブサンプリングが実行されない場合に必要とされる数の半分である（上記参照）。しかしながら、これでも非常に多量の情報であり、このようにコード化されるＱＣＩＦ像が、１５フレーム／秒のビデオシーケンスの一部分である場合には、全部で４，５６１，９２０ビット／ｓが依然として必要である。

ビデオコード化は、多量の情報の処理を必要とする。これは、当然、ビデオ像をコード化するのにパワフルな信号処理装置が必要とされ、そしてこれらの像をオリジナルの形態で送信すべき場合には、広帯域巾の通信チャンネルが必要とされることを意味する。しかしながら、多くの状態においては、大容量の送信チャンネルを与えることができない。これは、ビデオ信号を、既存の固定ライン通信チャンネルを経て（即ち従来の公衆電話ネットワークを経て）送信しなければならないか、又は移動電話ネットワークにより与えられるような無線通信リンクを使用して送信しなければならないビデオ電話のアプリケーションにおいて特に言えることである。多数の国際テレコミュニケーション規格が既に存在し、これら種類のシステムにおけるビデオコード化のガイドラインを規定している。国際テレコミュニケーションユニオン（ＩＴＵ）規格のＨ．２６１及びＨ．２６３は、その一例である。規格Ｈ．２６１は、６４ｋビット／ｓの倍数で動作する送信システム（これらは通常固定ライン電話ネットワークである）におけるビデオコード化の推奨勧告であり、一方、Ｈ．２６３は、使用可能な帯域巾が６４ｋビット／ｓより小さいシステムに対する同様の推奨勧告である。これら２つの規格は、実際には、非常に密接に関連しており、そして両方とも、運動予想コード化として知られている技術を使用して、転送されねばならない情報の量を減少する。

移動ビデオ電話では、約２０ｋビット／ｓの使用可能な帯域巾をもつ送信チャンネルを経てビデオシーケンスを送信することが目的である。典型的なフレームレートは、動きの良好な幻覚を与えるに充分なものでなければならず、従って、１０ないし１５フレーム／ｓでなければならない。従って、４．５Ｍビット／ｓを必要とするビデオシーケンスを、２０ｋビット／ｓしか転送できないチャンネルに合致させるためには、非常に大きな圧縮比（約２２５：１）が必要とされることが明らかである。これは、運動予想コード化及び他の技術が実施される場合である。
運動予想コード化の背景にある基本的な考え方は、ビデオシーケンスに存在する非常に多量の時間的冗長性を考慮することである。上述したように、比較的迅速なフレームレート（即ち、１０フレーム／ｓより高い）で記録される典型的なビデオシーケンスでは、あるフレームから次のフレームへ僅かに変化するだけである。通常、背景は固定であり、像のある部分だけが、ある形式の動きを受ける。或いは又、カメラ自体が移動する場合には、全ての画素がある程度一貫した動きを受ける。

従って、ビデオシーケンスの送信時に、情報の量を減少するように試みるときに、連続するフレーム間のこの高度な相関の利点を取り入れることができる。換言すれば、１つのフレームを、手前のいわゆる基準フレームから予想することができ、この基準フレームは、通常は、現在コード化されているフレームの直前のフレームであるが、必ずしもそうでなくてもよい。このようなコードスキムでは、コード化されて受信器へ送信されるのが、通常、現在フレームと基準フレームとの間の差だけである。一般的に、この種のコード化を、ＩＮＴＥＲコード化と称する。このようなコード化スキムに必要とされることは、送信器及び受信器の両方が基準フレーム（例えば、手前のコード化フレーム）の記録を保持することである。送信器では、ビデオエンコーダが、現在フレームを基準フレームと比較し、２つのフレーム間の差を識別し、それらをコード化し、そして変化に関する情報を受信器へ転送する。受信器では、ビデオデコーダにおいて差の情報を基準（例えば手前の）フレームに追加することにより現在フレームが再構成される。エンコーダ及びデコーダに記憶されたフレームが次いで更新されて、現在フレームが新たな基準となり、そしてあるフレームから次のフレームへとプロセスが同様に続けられる。

もちろん、この種の予想を使用できない状態も幾つかある。ビデオシーケンスの第１フレームは、常に、コード化され、そして受信器のデコーダへ送信されねばならないことが明らかである。予想コード化のための基準として使用できる手前のフレームが存在しないことが明らかである。シーンカットの場合にも、同様の状態が生じる。ここで、現在フレームが、予想ができないほど手前のフレームと相違することがあり、この場合にも、新たなフレームをコード化して送信しなければならない。この種のコード化は、一般に、ＩＮＴＲＡコード化と称する。又、多くのコード化スキムは、周期的ＩＮＴＲＡフレームコード化も使用する。例えば、１つのＩＮＴＲＡフレームが１０個又は２０個のフレームごとに送信されてもよい。これは、徐々に蓄積して最終的に再構成像に受け入れられない歪を生じさせるコード化エラーの影響を防止するために行われる。

運動予想コード化は、上述したＩＮＴＥＲコード化技術の拡張とみなすことができる。上述した考慮は、ある手前のフレームを基準として現在ビデオフレームをデコードできるようにするために差の情報を受信器へいかに送信するかを説明する。差の情報を与えるための最も簡単で且つ最も明らかな方法は、基準像における対応ピクセルとは異なる現在像における各ピクセルのピクセル値（ＹＵＶデータ）を送信することである。しかしながら、実際には、この解決策は、非常に低いビットレートのチャンネルを経てビデオ送信を行えるようにするのに必要なデータレートの減少を与えるものではない。運動予想コード化は、異なる解決策を採用する。上述したように、エンコーダ及びデコーダの両方は、基準フレームの記録を維持し、そして現在フレームが、その記憶されたフレームに対する基準でコード化される。デコーダでは、現在像が、記憶された手前のフレームに対する基準と、エンコーダから送信された差の情報とで再構成される。

エンコーダでは、現在フレームがセグメントごとに検査され、それ自身と基準フレームとの間の対応が決定される。多数のセグメント化スキムを採用することができる。しばしば、現在像は、通常のピクセルブロックに簡単に分割され、例えば、マクロブロックごとに比較がなされる。或いは又、フレームを他の何らかの基準で分割してもよく、おそらく、フレームに含まれた像の異なる画素を良好に識別し、ひいては、フレーム内の動きをより正確に決定できるようにする試みにおいてそのようになされる。

予め定められたセグメント化スキムを使用し、現在フレームと基準フレームの各セグメント間で比較を行い、そのセグメントにおけるピクセルと、基準フレームにおけるピクセルのグループとの間の「最良の一致」が決定される。基準フレームに適用される固定のセグメント化は存在せず、現在フレームの所与のセグメントに最良に対応するピクセルは、以下に述べるある範囲内で、基準フレーム内の任意の位置を有してもよいことに注意されたい。このようにして、運動予想コード化は、現在像におけるピクセルのグループの原点を識別する試みとみなすことができ、即ち基準フレームを振り返って見ることによりあるフレームから次のフレームへピクセル値がいかに伝播するかを確立するよう試みる。

現在フレーム内の所与のセグメントに対して最良の一致が見つかると、そのセグメントと現在フレームとの間の対応が、「運動ベクトル」を使用してコード化される。運動ベクトルは、ｘ及びｙ（水平及び垂直）成分をもつ変位ベクトルと考えることができ、これは、実際に、現在フレームのセグメントから基準フレームのピクセル位置に戻るように指し示す。従って、運動ベクトルは、実際には、基準フレームとの比較により現在フレームにおけるピクセルの原点を識別する。コード化は、現在フレームにおける各セグメントの原点が識別されるまで続けられる。それにより得られる表示は、２つのフレーム間の全体的対応を示す「運動ベクトルフィールド」と考えることができる。

運動ベクトルを使用してセグメントごとに１つの完全なビデオフレームをコード化することにより、現在フレームの非常に効率的な表示が形成される。というのは、各セグメントごとに運動ベクトルに関する情報をコード化するのに比較的少数のビットしか必要とされないからである。しかしながら、コード化プロセスは完璧なものではなく、情報のエラー及びロスがある。一般に、基準フレームにおける対応ピクセル値を厳密に識別することができないので、エラーが生じる。例えば、あるフレームから次のフレームへ像内容が若干変化することがあり、従って、基準フレームに対応部分をもたない新たな画素が現在フレームに現れる。更に、多数の予想運動エンコーダは、フレーム間に許される運動の形式を制限する。この制限は、次のように行われる。運動ベクトルフィールドを表すのに必要な情報の量を更に減少するために、運動予想エンコーダは、通常、「運動モデル」を使用し、ピクセル値をあるフレームから次のフレームへ伝播する仕方を記述する。運動モデルを使用すると、運動ベクトルフィールドは、１組の「基礎関数」に関して記述される。あるフレームから次のフレームへのピクセル値の伝播は、これらの数学的基礎関数に関して表わされる。典型的に、運動は、基礎関数にある係数値を乗算したものを含む和として表わされ、その係数は、運動ベクトルフィールドの最良の近似を与えるように決定される。運動ベクトルフィールドのこの再表現は、当然、ある付加的なエラーを導入する。というのは、運動モデルが、運動ベクトルフィールドを厳密に記述できないからである。しかしながら、この解決策は、今や運動モデル係数だけをデコーダへ送信すればよいので著しい効果を有する。この効果は、運動フィールド基礎関数が、必要と考えられる精度レベル及び実施に基づいて前もって選択され、従って、それらがエンコーダ及びデコーダの両方に知られることから得られる。現在提案されている多数のビデオコード化スキムであって、運動予想コード化を使用し、特に、Ｈ．２６３規格を使用するビデオコード化スキムは、並進運動フィールドモデルをベースとし、即ちその基礎関数がｘ及びｙ（水平及び垂直）方向の直線運動しか表わせないものをベースとする。従って、連続フレーム間に生じる画素の回転やスキューを表わすことができず、これは、予想される運動に必然的にエラーを招く。

最終的に、そして運動フィールドコード化プロセスにより導入されたエラーを補償するために、典型的な運動予想エンコーダは、エラー推定関数を含む。予想エラーに関する情報は、運動フィールドモデル係数と一緒にデコーダへ送信される。運動フィールドコード化プロセスに導入されたエラーを推定するため、運動予想エンコーダは、通常、受信器に見られるものと同一のデコード区分も備えている。上述した運動予想方法を使用して現在フレームがエンコードされると、エンコーダのデコード区分は、現在フレームを再構成し、そしてそれを現在フレームのオリジナルバージョンと比較する。従って、コード化された現在フレームと、オリジナルの現在フレームとの間の差を含む「予想エラーフレーム」を構成することができる。この情報は、運動フィールドのモデル係数及びおそらくは現在フレームのセグメントに関するある情報と共に、デコーダへ送信される。

このような例示的構成を使用しても、ビデオシーケンスを表示するためには、依然として著しい量のデータが必要とされる。
それ故、予想エラーを低く保持しながら、減少されたビット量又は減少されたビットレートを使用してビデオシーケンスをコード化する改良された方法が効果的である。
ビデオデータに関連したこの背景情報に鑑み、本発明の顕著な改良が展開された。

従って、本発明は、運動補償型予想を使用してビデオシーケンスに対して動作するための装置及び関連方法を効果的に提供する。
ビデオフレームをセグメントに分割しそしてセグメントの運動フィールドをその隣接セグメントから予想し、そして直交アフィン運動ベクトルフィールドモデルを使用することにより、運動ベクトルフィールドを表示するための方法が提供される。本発明の実施形態のオペレーションは、予想エラーを低く保ちながら、運動ベクトルフィールドを迅速に且つコンパクトにエンコードする方法を提供する。従って、ビデオシーケンスを一緒に形成する改良されたクオリティのビデオフレームの送信が与えられる。

本発明の実施形態のオペレーションにより、予想エラーの量を低く保つと同時に、運動ベクトルフィールドを表わすのに必要な情報の量を減少するための方法が提供される。
運動ベクトルフィールドを形成するためのエンコーダ用の運動フィールドコーダが提供される。アフィン運動ベクトルフィールドモデリングが使用される。例えば、純粋な並進運動モデルとは対照的に、アフィンモデリングを使用して運動フィールドの柔軟性の高い表示を得ることができる。ズーミング、回転、転向又は並進移動のような典型的な自然の運動を、アフィン運動ベクトルフィールドモデルによって表わすことができる。並進移動モデルのみを使用した従来のシステムは、他の形式の運動を表わすことができない。

アフィン予想運動ベクトルフィールドを使用することにより、ビデオフレームの隣接セグメントのアフィン運動ベクトルフィールドの類似性が利用される。例えば、２つの隣接セグメントが同様の運動ベクトルフィールドを有する場合には、小さな又は無視できる程度の、即ちゼロの精密化フィールドを追加するだけで、運動ベクトルフィールドの一方を他方から計算することができる。ビデオフレームの各セグメントに対して、できるだけ少数の非ゼロ係数で充分に低い予想エラーを達成するアフィン運動モデルが選択される。更に、直交基礎関数が使用される。直交基礎関数は、対応する運動係数の量子化に対する感度が低く、従って、少数のビットで係数を表わすことができる。即ち、運動係数の効率的な送信は、係数を低い精度レベルへ量子化することを必要とする。しかしながら、従来使用されている基礎関数の形式は、少数のビットで表わされたときに受け入れられないほど予想エラーを増加させる。直交基礎関数に対応する係数は、量子化に対して非常に頑丈であるから、本発明の実施形態のオペレーション中に直交基礎関数の効果的な利用がなされる。

本発明の１つの特徴において、ビデオエンコーダに対して運動フィールドコーダが提供される。この運動フィールドコーダは、圧縮された運動ベクトルフィールドを形成するように動作でき、これは、現在フレームの全ピクセルの運動ベクトルセットで形成される。運動ベクトルフィールドは、予想運動ベクトルフィールドと、精密化運動ベクトルフィールドとで形成される。
本発明の別の特徴において、ビデオエンコーダに対して運動補償型予想装置が提供される。この運動補償型予想装置は、運動フィールドコーダにより形成された補償された運動ベクトルフィールドの指示を受け取る。運動補償型予想装置は予想フレームを構成する。予想装置は、各セグメントの運動ベクトルフィールドを計算することによりフレームのピクセルを再構成するように動作できる。運動ベクトルフィールドは、予想運動ベクトルフィールド及び精密化運動ベクトルフィールドに基づいて計算される。

本発明の更に別の特徴において、ビデオデコーダに対して運動補償型予想装置が提供される。この運動補償型予想装置は、予想された運動ベクトルフィールドの指示と、精密化運動ベクトルフィールド係数とを受け取る。
それ故、これら及び他の特徴において、ビデオシーケンスに対して動作するためのビデオ装置用の装置が提供される。ビデオシーケンスは、少なくとも第１隣接セグメント及び第２隣接セグメントを有する少なくとも現在ビデオフレームで形成される。この装置は、第２隣接セグメントの運動ベクトルフィールドの近似を形成する。この装置は、第１隣接セグメントを表わす第１運動ベクトルフィールドの近似を形成する第１アフィン運動モデルを表わす指示を受け取るように接続された運動ベクトルフィールドビルダーを備えている。この運動ベクトルフィールドビルダーは、第１アフィン運動モデルを表わす指示に応答して第２アフィン運動モデルを形成する。この第２アフィン運動モデルは、第２隣接セグメントの運動ベクトルフィールドの近似を形成する。
本発明及びその範囲は、添付図面、現在好ましいと思われる本発明の実施形態の以下の詳細な説明及び特許請求の範囲から完全に明らかとなろう。

本発明の実施形態による運動予想ビデオコード化の新規な方法は、良好な像クオリティを維持しながら、低ビットレートのビデオコード化システムにおいてエンコーダからデコーダへ転送されるべきデータの量を更に減少する。この方法は、現在フレームにおけるセグメントのピクセル値を、その同じフレームの既にコード化されたセグメントを使用して更に予想するという新規な方法を含む。
１つの例示的な実施形態において、新たなビデオシーケンスをコード化しそして送信すべきときには、そのシーケンスにおける第１フレームが、上述した公知のＩＮＴＲＡフォーマットで送信される。このフレームは、次いで、エンコーダ及びデコーダに記憶され、そしてシーケンスにおける次の（即ち第２の）フレームに対して基準フレームを形成する。

エンコーダが第２フレームのエンコードを開始するときには、フレームの第１セグメントを検査することによりコード化プロセスをスタートする。好ましい実施形態では、現在フレームが１組の１６ｘ１６ピクセルセグメントに分割されるが、これは、この方法にとって本質的なものではなく、他のセグメント化スキムも考えられる。エンコードは、最も左上のセグメントからスタートされ、そして左から右へそして上から下へとフレーム全体に進められる（即ち、コード化プロセスは、行において行われ、上から下へと進行する）。

基準フレームと現在フレームの第１セグメントとの間のピクセル値のマッピングを記述する運動ベクトルフィールドが決定され、次いで、いわゆる「アフィン」運動モデルを使用して、その運動ベクトルを近似しそして１組の運動係数を発生する。このアフィン運動モデルは、その数式が例えばフレーム間の並進移動、回転移動及びスキュー移動を許すような運動モデルの特殊なクラスである。これは６つの基礎関数よりなる。従って、運動ベクトルは、本質的に、適当に選択された「運動係数」を６つの基礎関数に乗算したものを含む和と置き換えられる。従って、運動係数（又はそのサブセット）のみをデコーダに送信すれば充分である。というのは、基礎関数自体がエンコーダ及びデコーダの両方に知られている（即ち記憶されている）からである。現在フレームの所与のセグメントに対して最良のアフィン運動モデルを生じる基準フレーム内のピクセルのグループは、少なくとも理論的には、基準フレームの任意の領域に存在し得る。ここでは、この方法の目的は、単に予想エラーを最小にするだけでなく、「レート歪」の意味でセグメントに対して最良の一致を生じるアフィン運動フィールドモデルを見出すことであると強調しなければならない。これは、像歪の尺度と、その歪レベルを達成するのに必要なデータ量の尺度との両方を考慮することにより、最良の一致が決定されることを意味する。

フレームの第１（最も左上）セグメントは、以前にコード化された隣接部をもたないので、更なる動作を行うことができず、エンコーダは、現在フレームの第２セグメントへ進む。次いで、基準フレームと現在フレームの第２セグメントとの間に最良のマッピングを与えるアフィン運動フィールドモデルが、同じ種類のレート歪、即ち上述した最良一致評価を使用して、決定される。上述したように、ピクセル値の対応領域が基準フレーム内のどこかに存在し、そして実際には、現在フレームの第１セグメントに対して最良の一致として既に決定されたものと重畳する。

第２のセグメントは、１つの以前にコード化された隣接セグメント（即ち第１セグメント）を有する。エンコーダは、ここで、第２セグメントそれ自体に対して新たに決定されるアフィン運動係数に基づくのではなく、第１セグメントに対して以前に決定されたアフィン運動モデルに関して第２セグメントをモデリングするのが「より効率的」であるかどうか考える。その理論的根拠は、次の通りである。第１セグメントに対する運動係数は既に決定されてデコーダへ送信されているので、第２セグメントをエンコードする間にデコーダへ送信しなければならない情報の量を減少することができる。従って、コード化効率の改善を得ることができる。

しかしながら、第１セグメントに対する運動係数が、第２セグメントの運動ベクトルフィールドを最も正確にモデリングするものと厳密に同じであることはほとんどあり得ない。それ故、第１セグメントに対して計算された運動係数は、単にそのように使用されず、第１セグメントの運動フィールドを第２セグメントへマップするために投影が行われる。この投影が行われた後でも、再構成像における受け入れられない歪を回避するために、第１及び第２セグメントの運動フィールド間の差に関するある情報もデコーダへ送信しなければならないことが依然考えられる。従って、エンコーダは、ａ）第２セグメントに対して特に決定された運動係数データを送信するのに必要なデータの量と、ｂ）第１セグメントの運動モデルの投影及びある「精密化(refinement)」情報から第２セグメントの運動ベクトルフィールドが決定される場合に必要なデータの量との間で比較を行う。どんな情報を送信するかの選択を行うときには、エンコーダは、予想プロセスにより像に導入されることのある歪も考慮しなければならない。オプション間のこの比較は、特定のオプション、即ち送信されるべき情報の量と許される歪の量との間の妥協、を選択する「コスト」を決定するものと考えることができる。

運動予想コード化に対するこの解決策の利益は、直ちに明らかにならない。しかしながら、多くの場合に、隣接セグメントから運動フィールドモデルを投影した後には、必要とされる精密化情報が非常に僅かであるか又はゼロのこともあると分かった。これは、エンコーダ又はデコーダから送信されねばならないデータの量を著しく減少することができる。必要とされる精密化情報がゼロの場合には、第２セグメントの運動ベクトルフィールドは、単純に、デコーダに既に記憶されている運動係数に基づいて予想することができる。

この例では、今までのところ、フレームの第１及び第２セグメントしか考慮していない。上述したように、本発明の好ましい実施形態に使用されるセグメント化スキムによれば、第２セグメントは、その運動係数を予想するのに使用できる隣接部を１つしか有していない。フレームの第１行における他の全てのセグメントについても同じことが言える。このような全てのセグメントは、以前にコード化された隣接部をそのすぐ左側に有するだけである。しかしながら、像の第２行以降では、以前にコード化されたセグメントが、各セグメントの上にも得られる。従って、後続行におけるセグメントは、その左側及び上に隣接部を有する。これは、以前にコード化された隣接部をその真上にしかもたない各行の第１セグメントを除く全セグメントについて言えることである。従って、コード化されるべきフレームにおいて一般的なセグメントを考慮するときには、運動係数の予想について多数の可能性がある。一般的なケースでは、エンコーダは、所与のセグメントに対する運動係数を、その上又は左側のセグメントに対する運動フィールドモデルを使用して予想するよう試みることができる。或いは又、両隣接部に対する運動フィールドモデルを使用して、ある種の平均値を形成することもできる。各々のケースでは、隣接セグメント（１つ又は複数）から予想される運動フィールドモデルは、「予想フィールド」と称され、そしてその予想フィールドと、セグメント自体に対して特に決定された運動フィールドモデルとの間の差は、「精密化フィールド」と称される。好ましい実施形態では、予想フィールド及び精密化フィールドの両方がアフィン運動フィールドモデルである。従って、予想フィールド及び精密化フィールドの和は、セグメント自体にアフィン運動モデルを適用することにより決定される運動フィールドモデルに等しくなければならない。所与のセグメントに対する運動フィールドモデルをその隣接部から予想することができない場合には、予想フィールドがゼロにセットされ、そして精密化フィールドは、セグメント自体に対して特に決定された運動フィールドモデルに等しくなる。

以上の説明から明らかなように、所与のセグメントをコード化することのできる多数の異なる方法が存在する。どのオプションを使用するかの選択は、エンコーダにおいて、上述した「レート歪」事項に基づいて行われる。従って、選択されたコード化オプションに基づいて多数の異なる形式のデータがデコーダに送信されねばならず、そしてその情報は、セグメントを正しく再構成して表示できるように、鮮明なやり方でデコーダに送信されねばならない。種々のコード化オプションは、次の通りである。１）所与のセグメントは、予想フィールド及び精密化フィールドの和として表わすことができる。２）セグメントは、予想フィールドのみとして表わすことができる。この状態は、セグメントを１つ以上の以前にコード化された隣接部の運動フィールドに関して充分に表わすことができそして精密化情報が必要とされないとき、或いはエンコーダが精密化フィールドをゼロに効率的に減少できると分った場合に、発生する。３）当該セグメントは、基準フレームを使用してセグメントに対して特に決定された運動モデルを使用してコード化することができる。この場合には、上述したように、予想フィールドがゼロにセットされ、そして精密化フィールドが、基準フレームから決定された運動フィールドモデルに等しくセットされる。

基本的に、所与のセグメントを正しく再構成できるためにデコーダに送信されねばならない情報の形式は２つある。それらは、１）デコーダが予想に使用するための正しい隣接セグメント（１つ又は複数）を選択できるようにする選択情報と、２）運動係数情報である。予想フィールドを使用してセグメントがコード化されるときには、関連する精密化フィールドがあるかどうかに関わりなく、予想に使用される隣接セグメント（１つ又は複数）に関する情報を与えることが必要である。運動係数データを送信する必要はない。というのは、以前にコード化された隣接セグメント（１つ又は複数）の運動フィールドモデル（１つ又は複数）がデコーダに既に知られている（即ち記憶されている）からである。例えば、２つ以上の隣接セグメントに基づいて予想が行われる場合、或いは隣接セグメントをサブセグメントに分割しそして１つ以上のサブセグメントの運動フィールドモデルを使用して予想フィールドを形成する場合には、余計な情報が必要とされることもある。精密化フィールドが使用されるときには、運動係数値が与えられねばならない。この場合には、運動モデル基礎関数がデコーダにもエンコーダにも知られているので、運動係数データを送信するだけでよいことを想起されたい。

それ故、エンコーダからデコーダへ送信されるデータ流は、おそらくは、運動係数データと、異なるオペレーションを遂行するようにデコーダに命令する種々の選択データ（即ち非運動係数データ）との両方を含む。例えば、デコーダが非運動係数データを受信する場合には、選択データにより指示された隣接セグメント（１つ又は複数）又はサブセグメント（１つ又は複数）を使用して予想運動フィールドモデルを構成しなければならない。デコーダは、運動係数データを受信する場合には、送信された運動係数値及び記憶された運動モデル基礎関数を使用して精密化運動フィールドモデルを構成しなければならない。本発明の好ましい実施形態においてエンコーダにより与えられるデータ流のフォーマットは、以下で詳細に説明する。

この方法は、更なる幾つかの改善が考えられる。本発明の好ましい実施形態では、隣接セグメントを、より小さなサブセグメントに分割することができる。より詳細には、各１６ｘ１６ピクセルセグメントを、４つの８ｘ８ピクセルブロックに分割し、そしてこれらサブセグメントに対する運動フィールドモデルを使用して、予想フィールドを導出することができる。この場合、一般的な１６ｘ１６ピクセルセグメントは、４つのじかに隣接する８ｘ８ピクセルサブセグメントを有し、これらは、２つが真上でそして２つがすぐ左側であると考えられる。この状態において、判断プロセスは若干複雑であるが、上述したものと本質的に同様に機能する。サブセグメントサイズの選択は、上記の例に限定されるものではなく、種々の他のサブセグメントサイズも考えられる。例えば、４ｘ８又は８ｘ４ピクセルブロックをサブセグメントとして使用することができる。

上述したように、本発明の方法が実際に適用されるときには、精密化情報がほとんど必要とされず、そして一般的セグメントの運動モデルをその隣接セグメントの運動フィールドモデルからかなり高い精度で予想できることがしばしば明らかである。本発明は、もし「レート歪の意味」で効率的であれば、精密化フィールドの個々の係数又は全精密化フィールドをゼロにセットできるような更に別の特徴を含む。換言すれば、精密化フィールドは、それを実施する際に導入された像歪が、送信されるべきデータ量の減少を考慮したときに受け入れられるならば、ゼロにセットすることができる。この付加的な特徴は、エンコーダからデコーダへ送信されねばならないデータの量を更に減少する。

図１を参照すれば、１０で一般的に示された通信システムは、ビデオシーケンスジェネレータとビデオシーケンス受信器との間にビデオシーケンスを通信するように動作できる。この図には、ビデオシーケンスジェネレータのエンコーダ１２が示されていると共に、ビデオシーケンス受信器の一部分を形成するデコーダ１４も示されている。ビデオシーケンスジェネレータ及び受信器の他の要素は、明瞭化のために図示されていない。通信経路１６は、通信システムの部分を相互接続するように示されている。この通信経路は、例えば、無線リンクを含む種々の形態をとり得る。
エンコーダ１２は、ここでは、ライン１８を経てビデオ入力を受け取るように接続されて示されている。ビデオ入力は、運動推定装置２２に送られると共に、減算器２４の入力にも送られる。運動推定装置は、フレームメモリ２６に記憶された基準フレームの指示を受け取るようにも接続される。運動推定装置は、コード化されているフレーム、即ち現在ビデオ入力Ｉ_n(ｘ、ｙ)と、以前のフレーム即ち基準フレームＲ_ref(ｘ、ｙ)との間のピクセルの運動ベクトルを計算する。

エンコーダが各セグメントをコード化すると、その再構成に必要な情報をデコーダに送信することができ、そしてデコーダは、セグメントの再構成をスタートすることができる。各フレームはセグメントごとのベースでコード化されそして以前にコード化されたセグメントのみが予想プロセスに使用されるので、デコーダにおけるフレームの再構成は、直ちにスタートすることができ、即ち全フレームがエンコードされるまで待機する必要がない。各セグメントに関する情報は、それが使用できるようになるや否やデコーダに送信され、そしてフレームのデコード動作は、受信器において、エンコードプロセスと本質的に並列に行われる。ビデオ電話の分野では、これは、端−端遅延が最小に保たれるという効果を有する。もちろん、この方法は、即座の送信が必要な要件でないビデオ記憶及び検索システムにも適用することができる。この場合に、データを即座に送信することが要求されず、現在フレームにおける他の隣接セグメントを予想目的に使用することもできる。

運動推定装置２２は、運動フィールドコーダ２８に接続される。この運動フィールドコーダ２８は、現在フレームの全ピクセルの１組の運動ベクトルである運動ベクトルフィールドを形成するように動作し得る。運動フィールドコーダにより発生されたフィールドは、ライン３２によりマルチプレクサ３４へ送られ、その後、通信経路１６を経てビデオシーケンス受信器及びそのデコーダ１４へ通信される。
エンコーダは、運動補償型（ＭＣ）予想装置３６を含むように更に示されている。又、予想装置３６はフレームメモリ２６にも接続される。予想装置３６は、予想フレームを発生するように動作でき、これは、減算器２４及び加算器３８に送られる。

減算器２４によって形成された差の値は、予想エラーコーダ４２に送られる。この予想エラーコーダは、現在入力ビデオフレームと、フレームのＭＣ予想バージョンとの間のピクセル値の差を決定し、予想エラーの指示を発生する。次いで、予想エラーコーダ４２は、マルチプレクサ３４及び予想エラーデコーダ４６に接続される。予想エラーデコードブロックは、予想エラーをデコードし、これは加算器３８によりＭＣ予想現在フレームに追加され、そしてその結果がフレームメモリ２６に記憶される。
デコーダ１４は、ここでは、デマルチプレクサ５２、予想エラーデコーダ５４、運動補償型予想装置３６、加算器５６、及びフレームメモリ２６を含むように示されている。エンコーダ及びデコーダの予想装置３６は、各装置のフレームメモリ２６と同様に、共通の番号にされる。

運動推定装置２２は、現在フレームＩ_n(ｘ、ｙ)と称されるコード化されているフレームと、基準フレームＲ_ref(ｘ、ｙ)との間のピクセルの運動ベクトル（Δｘ(ｘ、ｙ)、Δｙ(ｘ、ｙ)）を計算する。基準フレームは、以前にコード化されそして送信されたフレームの１つであり、これは、所与の瞬間に、エンコーダ及びデコーダのフレームメモリ２６に得られる。
Δｘ(ｘ、ｙ)及びΔｙ(ｘ、ｙ)は、各々、水平及び垂直変位の値である。運動ベクトルフィールドと称される現在フレームにおける全ピクセルの運動ベクトルのセットは、運動フィールドコーダ２８によって圧縮され、そしてその後、上述したように、デコーダへ送信される。

運動ベクトルフィールドの圧縮が通常損失性であることを示すために、圧縮された運動ベクトルは、次のように表わされる。

運動補償型予想装置３６において、圧縮された運動ベクトル及び基準フレームを使用して、予想フレームＰ_n(ｘ、ｙ)が構成される。予想フレームは、運動推定装置２２及び運動フィールドコーダ２８により決定された運動ベクトルフィールドと、基準フレームＲ_ref(ｘ、ｙ)のピクセル値とを使用して計算された現在フレームＩ_n(ｘ、ｙ)のコード化バージョンである。次の式は、予想フレームをいかに計算するかを示す。

予想エラー即ち現在フレームと予想フレームとの間の差は、次の通りである。

ＭＣ予想装置３６によって形成された運動補償予想フレームＰ_n(ｘ、ｙ)は、再構成エラーの量を最小にすると同時に、運動ベクトルフィールドを表わすのに必要な情報の量を最小にするように構成される。
典型的なビデオシーケンスのフレームは、異なる動きを伴う多数のセグメントを含む。それ故、運動補償された予想は、フレームＩ_n(ｘ、ｙ)を多数のセグメントに分割しそしてこのようなフレームと基準フレームとの間でこのようなセグメントの運動を推定することにより行われる。セグメント化情報は、運動表示の固有の部分である。デフォールトフレームセグメント化が使用されそしてエンコーダ及びデコーダの両方に知らされることがない限り、フレームの最終的な区画を記述する付加的な情報をデコーダへ送信しなければならない。実際に、セグメントは、通常、少なくとも数十のピクセルを含む。このようなピクセルの運動ベクトルをコンパクトに表示するために、それらの値を若干のパラメータの関数によって記述することが望ましい。このような関数は、運動ベクトルフィールドモデルと称される。以下の説明上、像セグメントの運動ベクトルは、次の一般的な加法式を使用して近似されねばならない。
Δｘ(ｘ、ｙ)＝Δｘ_prd(ｘ、ｙ)＋Δｘ_refine(ｘ、ｙ)
Δｙ(ｘ、ｙ)＝Δｙ_prd(ｘ、ｙ)＋Δｙ_refine(ｘ、ｙ) 式５

上記式の第２項は、精密化運動ベクトルフィールドと称され、そして次のような線形の組合せとして表される。

パラメータｃ_nは、精密化運動係数と称される。これらの係数は、エンコーダにおいて圧縮され、通信経路１６に送信され、そしてデコーダ１４において回復される。
関数ｆ_nは、基礎関数と称され、そしてエンコーダ１２及びデコーダ１４の両方に知られている。１組のベクトル（Δｘ_prd(ｘ、ｙ)、Δｙ_prd(ｘ、ｙ)）は、予想運動ベクトルフィールドと称され、これも、エンコーダ及びデコーダの両方に知られている。

運動補償された予想の後に生じる予想エラーフレームＥ_n(ｘ、ｙ)（式２参照）は、通常、離散的コサイン変換（ＤＣＴ）のような二次元変換を使用することによりエンコードされる。このプロセスは、予想エラーコード化と称され、予想エラーを減少することを目的とする。予想エラーコード化は、通常、損失性であるために、再構成エラーを招く。
エンコーダ１２の主たるタスクは、適当な１組の運動係数を見出し、それらをエンコードしてデコーダへ送信することである。通常、係数のコードに割り当てられるビット数を増加することにより、結果的に被る歪が減少される。しかしながら、歪の減少は、常に、ビット数の増加より価値があるというものではない。通常、このような妥協を取り扱う方法は、次のラグランジュ基準を次のように最小化することである。
Ｌ＝Ｄ＋λ・Ｂ式７

この式において、項Ｄは、所与の１組の係数によりエンコードするときに被る歪即ちエラーを表わす。係数を送信するコストは、ビット数Ｂで表わされる。係数λは、ラグランジュパラメータと称する定数である。
本発明の実施形態の動作において、ビデオフレームの所与のセグメントの運動ベクトルフィールドは、２つのアフィン運動ベクトルフィールド、即ち予想運動ベクトルフィールド及び精密化運動ベクトルフィールドの和であり、次の通りである。
Δｘ(ｘ、ｙ)＝Δｘ_prd(ｘ、ｙ)＋Δｘ_refine(ｘ、ｙ)
Δｙ(ｘ、ｙ)＝Δｙ_prd(ｘ、ｙ)＋Δｙ_refine(ｘ、ｙ) 式８

予想運動ベクトルフィールドは、１つ以上の隣接セグメントの運動ベクトルフィールドから多数の方法の１つで得られる。例えば、１つの実施形態では、予想運動ベクトルフィールドは、現在セグメントによりカバーされたエリア内の隣のセグメント、例えば隣接セグメントのアフィン運動ベクトルフィールドを外挿することにより得られる。現在セグメントは、多数の隣接セグメントをもつことができるので、どのセグメントを使用すべきか特定するために、通常、シグナリング情報がデコーダに送られる。別の実施形態では、予想運動ベクトルフィールドは、エンコーダ及びデコーダの両方に知られたある特定の方法を使用して多数の隣接セグメントのアフィン運動ベクトルフィールドの組合せから得られる。このような方法は、例えば、水平及び垂直の運動ベクトルフィールド成分を平均化するか又はその中点を決定することである。

精密化運動ベクトルフィールドは、次のように表されたアフィンモデルを有する。

ここで、基礎関数ｆ₁、・・ｆ₃は、アフィン直交関数である。これら基礎関数は、所与のセグメントを取り巻く長方形に対して直交する。そして、係数ｃ₁、・・ｃ₆は、基礎関数の直交セットに対応する精密化運動ベクトルフィールド係数である。
精密化運動係数は、フレーム内の各セグメントに対して、エンコーダ１２によるエンコード中に運動フィールドコーダにより、特に、運動フィールドコーダ２８により、決定される。

図２は、運動フィールドコーダ２８を詳細に示す。このコーダ２８は、ここでは、予想運動フィールドのセレクタ及びビルダー（形成装置）６２と、運動アナライザー６４と、運動係数除去装置６６と、量子化装置６８とを含むように示されている。
セレクタ及びビルダー６２は、所与のセグメントに対し、現在フレームの以前にエンコードされたセグメント又はそのようなセグメントの組合せであって、その運動ベクトルフィールド（１つ又は複数）が所与のセグメント例えば現在セグメントの運動フィールドを予想するのに最適であるようなセグメント又はその組合せを決定するように動作できる。「勝利する」候補（１つ又は複数）の運動ベクトルフィールドに基づいて、予想運動フィールドが上記のように計算される。通常、多数の候補セグメントの中で最も適したものを特定するために、デコーダにシグナリング情報が送信される。

運動アナライザー６４は、精密化運動ベクトルフィールドの新たな表示を見出すように動作できる。即ち、数学的に効率の良い表示が作られる。この新たな表示は、運動係数除去装置６６において、精密化運動係数を迅速に且つ柔軟に決定するために後で使用される。
運動係数除去装置６６は、精密化係数のいずれをゼロにセットすべきか決定し、そしてラグランジュ基準を最小にするように残りの非ゼロ係数の値を次のように計算する。
Ｌ(ｃ)＝Ｄ(ｃ)＋λ・Ｂ(ｃ) 式１０
但し、Ｄ(ｃ)及びＢ(ｃ)は、精密化運動係数ｃを使用することにより所与のセグメントをエンコードすることに対応する予想エラー及びビットの尺度である。定数λは、ラグランジュパラメータである。精密化運動ベクトルフィールド係数のいずれかをゼロにセットすると、予想エラーが増加する。しかしながら、より多くの係数がゼロにセットされたときには、エンコーダによってデコーダへ送信される必要のあるビット数が減少される。それ故、ラグランジュの値は、精密化運動係数のいずれかがゼロにセットされたときに減少できる。

量子化装置６８は、残りの非ゼロ精密化運動ベクトル係数を量子化して、このような係数を、エントロピーコード化及びエンコーダからデコーダへの送信に適したものにする。
図３は、図１に示すエンコーダ１２及びデコーダ１４の両方の一部分を形成する運動補償型（ＭＣ）予想装置３６を示す。ＭＣ予想装置３６の機能的要素は、エンコーダ及びデコーダの両方に対して同様であり、そしてＭＣ予想装置は、エンコーダ及びデコーダの両方において、フレーム内の各セグメントの運動ベクトルフィールドを計算することにより現在フレームのピクセルを再構成するように動作できる。運動ベクトルフィールドは、予想運動ベクトルフィールド（Δｘ_prd(ｘ、ｙ)、Δｙ_prd(ｘ、ｙ)）及び精密化運動ベクトルフィールド係数に基づいて計算される。ここに例示する実施形態では、精密化運動ベクトルフィールドは、それらの逆量子化値により表わされる。デコーダ１４において、既にデコードされた１つ又は多数の隣接セグメントから予想運動ベクトルフィールドが導出される。精密化運動ベクトルフィールド係数は、デコード及び逆量子化が逆量子化装置７６によって行われた後にデコーダに得られる。図示されたように、ＭＣ予想装置は、更に、運動ベクトルフィールドビルダー、セグメント予想装置８０及び予想運動ベクトルフィールドビルダー８１を含む。

図２に示したように、運動フィールドコーダ６２の運動アナライザー６４への入力は、推定運動ベクトルフィールド（Δｘ(ｘ、ｙ)、Δｙ(ｘ、ｙ)）を含む。この運動ベクトルフィールドは、運動推定装置２２（図１に示す）によって与えられる。運動ベクトルフィールドは、運動推定装置２２において従来のやり方で計算される。予想運動ベクトルフィールドも、運動アナライザーに送られる。コード化されるべきセグメントＳの幾何学形状、即ちサイズ及び形状と、基準及び現在フレーム（各々Ｒ_ref(ｘ、ｙ)及びＩ_n(ｘ、ｙ)）も、運動アナライザーの入力として送られる。

運動アナライザーは、多数のオペレーションを遂行するように動作する。先ず、運動アナライザーは、エラー線形化を遂行する。Ｐ個のピクセル座標（ｘ_p、ｘ_p）、ｐ＝１、２・・Ｐ、より成り、その予想運動フィールドが（Δｘ_prd(ｘ_p、ｙ_p)、Δｙ_prd(ｘ_p、ｙ_p)）で表わされ、そしてその精密化運動ベクトルフィールドが式９で示すアフィン運動モデルにより近似されるような所与のセグメントＳ_iの予想エラーＤ_iは、次の通りである。

線形化の間に、式１１のＲ_ref(ｘ、ｙ)の値は、（Δｘ_refine(ｘ_p、ｙ_p)、Δｙ_refine(ｘ_p、ｙ_p)）に直線的に依存したものとなるように、ある既知の近似方法を使用して近似される。従って、２乗予想エラーＤ_iは、次のように近似することができる。

ｅ及びｗの値は、使用する近似方法の形式に依存する。
その後、運動アナライザーによってマトリクスが構成される。式１２において２乗のもとにあるエレメントは、係数ｃ_nの直線的組合せであるから、この式を最小にすることは、次のマトリクス式を最小にすることと完全に同等である。
（Ｅ_iｃ_i−ｗ_i）^T（Ｅ_iｃ_i−ｗ_i）式１３
但し、Ｅ_i、ｗ_i、ｃ_iは、次の通りである。

Ｅ_i及びｗ_iに基づき、マトリクスＡ_i及びベクトルｄ_iは、次のように計算される。
Ａ_i＝Ｅ_i ^TＥ_i 式１５
ｄ_i＝Ｅ_i ^Tｗ_i 式１６

運動アナライザーは、次の式で表わされる（Ｎ＋Ｍ）ｘ（Ｎ＋Ｍ）上部三角マトリクスＲ_iを含む出力を発生する。

但し、記号ｘは、次のようにマトリクスＡ_iのコレスキー(Cholesky)因数分解を計算することにより得られた非ゼロエレメントを示す。
Ａ_i＝Ｒ_i ^TＲ_i 式１７
又、運動アナライザーは、次の１組の式を解くことによって得られるベクトルｚ_iも発生する。
Ｒ_i ^Tｚ_i＝ｄ_i 式１８

マトリクスＲ_i及びベクトルｚ_iは、運動アナライザーの出力パラメータであり、このような出力パラメータは、運動係数除去装置６６において操作するのに適した精密化運動ベクトルフィールドの表示を構成する。

予想運動フィールドが導出されるセグメント又は１組の隣接セグメントを特定し、又はデフォールトにより暗示するのに、種々の方法を使用することができる。又、予想運動フィールドΔｘ_prd(ｘ、ｙ)、Δｙ_prd(ｘ、ｙ)を発生し、上記式１１を線形化し、そして１組の式１８を解くのに、異なる方法を使用することができる。

図４は、単一のビデオフレーム８４を示し、これは、複数の、ここでは３０の、セグメント８６に分割されて示されている。各セグメント８６は、１６ピクセルｘ１６ピクセルブロックで構成される。各セグメントを更に分割して、より小さいセグメントを形成することもできる。ここでは、幾つかのセグメント８６を分割して、８ピクセルｘ８ピクセルブロック８８を形成する。セグメント８６は、一般に、マクロブロックと称される。フレームのコード化は、左から右へそして上から下へマクロブロックごとに走査することにより行われる。

上述したように、所与のセグメントの運動ベクトルフィールドは、式（８）で与えられる加算的運動モデルに従う。予想、精密化及び最終的運動予想フィールドを得る方法について以下に述べる。ここに例示する実施形態では、運動予想又は運動精密化フィールドのいずれかをゼロにすることができる。それ故、運動ベクトルフィールドについては、所与のセグメントＳ_iを種々の方法のいずれかでコード化することができる。例えば、セグメントは、隣接セグメントから外挿される予想運動ベクトルフィールドのみを使用してコード化することができる。或いは、セグメントは、隣接セグメントから外挿される予想運動ベクトルフィールドを、圧縮された精密化運動ベクトルフィールドと一緒に使用することにより、コード化することもできる。或いは又、セグメントは、予想フィールドを使用せずに、圧縮された運動ベクトルフィールドのみを使用してコード化することもできる。しかしながら、予想フィールドがゼロにセットされる場合には、精密化情報が送信される。又、セグメントは、ゼロ運動ベクトルフィールド、例えば基準フレームＲ_ref(ｘ、ｙ)からのコピーを使用することによりコード化することもできる。又、例えば、運動ベクトルフィールドを使用しないイントラコード化を使用してセグメントをコード化することもできる。

ここに例示する実施形態では、予想運動ベクトルフィールド又は精密化運動ベクトルフィールドの存在に関わらず、所与の運動補償されたセグメントＳ_iの最終的運動ベクトルフィールドは、次の式で表されたアフィンモデルを有し、ここで、添字ｉは、係数が対応セグメントＳ_iに関連していることを指示する。
Δｘ(ｘ、ｙ)＝β₁ ⁱ＋β₂ ⁱ・(ｙ−ｙ₀ ⁱ)＋β₃ ⁱ・(ｘ−ｘ₀ ⁱ)
Δｘ(ｘ、ｙ)＝β₄ ⁱ＋β₅ ⁱ・(ｙ−ｙ₀ ⁱ)＋β₆ ⁱ・(ｘ−ｘ₀ ⁱ) 式１９
但し、ｘ₀ ⁱ及びｙ₀ ⁱは、セグメントの最も左上のピクセルの座標であり、そしてβ₁ ⁱ・・β₆ ⁱは、以下に述べるように計算されたアフィン座標である。
デコーダ１４のここに例示する実施形態では、整数精度を使用することによりオペレーションが実行される。これは、固定精度に対応する固定ポイント実施を利用することによって達成される。その結果、以下で参照する全ての係数は、式（１９）の係数を含む整数値のものとなる。他の実施形態では、他の精度が使用される。

ここに例示する実施形態では、隣接部の予想フィールドが使用されるか否かを信号するためにデコーダ１４に１ビットが送信されるが、これは少なくとも１つの予想隣接部候補がある場合だけである。隣接セグメントＳ_kは、非ゼロの運動ベクトルフィールドを有する場合だけセグメントＳ_iの運動ベクトルフィールドを予想するための候補となる。
又、ここに例示する実施形態では、現在セグメントの左側又は真上の至近隣接ブロックのみから予想が行われる。それ故、隣接セグメントの数はせいぜい４つであり、即ち２つの８ｘ８ピクセルブロックが上にあり、そして２つの８ｘ８ピクセルブロックが左側にある。この実施形態では、デコーダに送信されたビットが、隣接セグメントからの予想が使用されることを指示するときに、予想候補の数及び位置がエンコーダ及びデコーダの両方において計算される。予想候補が、例えば、２つ、３つ又は４つある場合には、使用されるべき候補を指示するために１つ又は２つの選択ビットがデコーダ１４へ送信される。選択情報は、例えば、存在してもしなくてもよい１つの予想方向ビットと、それに続く、これも存在してもしなくてもよい１つの弁別ビットとで形成される。

図５は、本発明の例示的な実施形態において選択ビットの意味及び値をリストしたテーブルを９２で一般的に示す。ｘマークは、不存在、又はコンテキストに基づく論理的「ドントケア」を示す。方向ビットは、候補の隣接セグメントが、現在予想されているセグメントの上にあるか又は左にあるかを指示する。弁別ビットは、運動ベクトルフィールドを予想するために２つの残りの候補のどちらを使用しなければならないかを特定する。即ち、上又は左側のセグメントが選択されるときに、選択の可能性は２つある。弁別ビットは、選択を識別する。テーブルに示された最終的な４つのケースでは、最も適した候補セグメントの位置に基づいて弁別ビットが存在してもしなくてもよい。例えば、方向ビットが「左から」を指示し、１つの候補しかない場合には、弁別ビットは必要とされない。デコーダ１４において、方向ビットをデコードした後に、勝者の候補の方向が分る。

現在セグメントを予想するために隣接セグメントが選択されると、予想運動ベクトルフィールドは、単に、現在セグメントでカバーされたピクセルドメイン内におけるセグメントの運動ベクトルフィールドの外挿であり、次の通りである。
Δｘ_prd(ｘ、ｙ)＝β₁ ^k＋β₂ ^k・(ｙ−ｙ₀ ^k)＋β₃ ^k・(ｘ−ｘ₀ ^k)
Δｙ_prd(ｘ、ｙ)＝β₄ ^k＋β₅ ^k・(ｙ−ｙ₀ ^k)＋β₆ ^k・(ｘ−ｘ₀ ^k) 式２０
但し、ｘ₀ ^k及びｙ₀ ^kは、隣接セグメントＳ_kの最も左上のピクセルの座標であり、そしてβ₁ ^k・・β₆ ^kは、セグメントＳ_kの運動フィールドに対応する整数値の係数ある。式２０において、添字ｋは、係数が隣接セグメントＳ_kに関連していることを指示する。
式１９及び２０を分析すると、隣接セグメントＳ_kの運動ベクトルフィールドが、これを現在セグメントＳ_i内のピクセルに対して単に外挿するだけで、セグメントＳ_iの予想運動ベクトルフィールドになることが指示される。

精密化運動ベクトルフィールドは、式９で表わされるアフィン直交モデルを仮定する。しかしながら、好ましい実施形態では、精密化係数が１組の補助精密化係数へと変換される。この補助精密化係数は、最終的な予想運動フィールドの高速計算を行えるようにする。
好ましい実施形態では、基礎関数の直交アフィンセットに対応する式９の精密化係数は、先ず、補助係数の異なるセットに変換される。これらの係数は、基礎関数のセット｛１、(ｙ−ｙ₀)、(ｘ−ｘ₀)｝に対応し、ここで、ｘ₀、ｙ₀は、セグメントにおける最も左上のピクセルの座標である。この変換は、予想及び精密化の両運動ベクトルフィールドに対する共通の基礎関数表示を得るために実行され、即ち同じ１組の基礎関数を使用するために実行される。これを行うことにより、以下に述べるように、２組の係数の加算に基づいて最終的な運動ベクトルフィールドが計算される。精密化係数ｃ₁、・・ｃ₆に基づき、セグメントＳ_iに対して次の補助係数ａ₁、・・ａ₆が計算される。１６ｘ１６ピクセルブロックであるセグメントに対しては、これは、次のようになる。

８ｘ８ピクセルブロックであるセグメントＳ_iに対しては、計算が次の式となる。

その結果、次の整数値変位は、セグメントＳ_iの精密化運動ベクトルフィールドを表す。
Δｘ_refine(ｘ、ｙ)＝ａ₁＋ａ₂・(ｙ−ｙ₀ ⁱ)＋ａ₃・(ｘ−ｘ₀ ⁱ)
Δｘ_refine(ｘ、ｙ)＝ａ₄＋ａ₅・(ｙ−ｙ₀ ⁱ)＋ａ₆・(ｘ−ｘ₀ ⁱ) 式２３
但し、ｘ₀ ⁱ及びｙ₀ ⁱは、セグメントＳ_i内の最も左上のピクセルの座標である。
添字ｉは、これらの座標が現在セグメントＳ_iに関連していることを指示する。

ここに例示する実施形態では、隣接セグメントＳ_kを使用して運動フィールドを予想するための、所与のセグメントに対するアフィン係数の最終セットが、次の式で計算される。ここで、添字ｉ及びｋは、対応する係数が各々Ｓ_i及びＳ_kに関連していることを指示する。
β₁ ^I＝ａ₁＋Δｘ_prd(ｘ₀ ⁱ、ｙ₀ ⁱ) β₄ ⁱ＝ａ₄＋Δｙ_prd(ｘ₀ ⁱ、ｙ₀ ⁱ)
β₂ ^I＝ａ₂＋β₂ ^k 及び β₅ ^I＝ａ₅＋β₅ ^k
β₃ ^I＝ａ₃＋β₃ ^k β₆ ^I＝ａ₆＋β₆ ^k 式２４
β₁、・・β₆の整数値係数に基づき、式１９を使用して、セグメントＳ₁に対する１組の最終運動ベクトルが発生される。運動ベクトルを使用して、基準フレームからピクセル強度を計算する方法を以下に説明する。
ここに例示する実施形態では、精密化又は非精密化運動係数を期待できるときに、ビット流における運動係数の存在が１ビットでシグナリングされる。このビットは、運動係数指示子（ＭＣＩ）と称される。

又、ここに例示する実施形態では、セグメントＳ_iに対する運動係数が送信されるときに、運動係数パターン（ＭＰＣ）と称される可変長さコードが先ず送信されて、どの係数が非ゼロ値を有するか指示する。全てゼロのパターンは、唯一の非有効パターンである。というのは、この可能性は、ＭＣＩビットのみでシグナリングできるからである。ＭＣＰコードワードによって指示することのできる有効パターンの全数は、６３である。これは、アフィンモデルの特性である。これは、６つの係数を有するので、２⁶個、即ち６４個の考えられる結果が生じる。従って、ＭＣＰコードワードは、ゼロが有効でないので、６３個の考えられる値を有する。ＭＣＰコードワードに続いて、ＭＣＰパターンで指示される各非ゼロ運動係数のエンコードされた値がある。各非ゼロ係数のエンコードされた値がＭＣＰコードワードに続く。運動係数ｃ_jは、ｃ_jの絶対値を示す振幅可変長さコードワードと、その後にｃ_jの符号を示す符号ビットが続くものとしてエンコードされる。ここに例示する実施形態では、同じ可変長さコードテーブルを使用して、異なる係数の振幅をエンコードする。異なるコードテーブルを使用することができる。ゼロ振幅は、有効なオプション間にはない。というのは、この可能性は、ＭＣＰコードワードによって指示できるからである。

式１９を使用することにより計算された最終的な運動ベクトルフィールド成分は、次の弁別ステップに対応する。
Ｄ＝１／６５５３６＝０．００００１５２５８７８９０６２５式２５
（Δｘ(ｘ、ｙ)、Δｙ(ｘ、ｙ)）がセグメントＳ_iに対する最終的な運動補償変位を表わす場合には、以前のフレームにおける対応する非整数座標が次のようになる。
ｘ’＝ｘ＋Δｘ(ｘ、ｙ)・Ｄ
ｙ’＝ｙ＋Δｙ(ｘ、ｙ)・Ｄ式２６
好ましい実施形態では、基準フレームＲ_refは、そのサイズがＭｘＮピクセルで、強度値が｛０，１、・・２５５｝の範囲である。有効ピクセル座標（ｘ’、ｙ’）は、｛０、１、・・Ｍ−１｝ｘ｛０、１、・・Ｎ−１｝の範囲内でのみ定義される。運動補償予想が、基準フレームＲ_ref内の非整数位置におけるルミナンス及びクロミナンス値の評価を必要とするときには、立体的コンボリューション補間の離散的バージョンが使用される。ここに例示する実施形態では、以下に述べるように、基準フレームの再構成値を計算するときに固定ポイントの精度が使用される。

先ず、セグメントＳ_iのピクセル（ｘ、ｙ）に対応する整数値変位（Δｘ(ｘ、ｙ)、Δｙ(ｘ、ｙ)）は、次のように、モジュロ６５５３６で表わされる。
Δｘ(ｘ、ｙ)＝ｄｘ・６５５３６＋δｘ
δｘ∈｛０、１、・・６５５３５｝
Δｘ(ｘ、ｙ)＝ｄｙ・６５５３６＋δｙ
δｙ∈｛０、１、・・６５５３５｝式２７
但し、ｄｘ、ｄｙ、δｘ及びδｙは、整数値であり、後者の２つは、常に、負でない。
４ｘ４立体的コンボリューションウインドウのｘ'_j、ｙ'_k整数値座標は、次のように定義される。
ｘ'_j＝ｓａｔ(ｘ＋ｄｘ＋ｊ−２、Ｍ−１)、ｊ＝１、２、３、４
ｘ'_k＝ｓａｔ(ｙ＋ｄｙ＋ｋ−２、Ｎ−１)、ｋ＝１、２、３、４式２８
但し、ｓａｔ(ｕ、ｖ)は、次のような飽和関数である。

従って、立体的なコンボリューションに使用される１６個の整数ピクセル値ｒ_jkは、次の通りである。
ｒ_jk＝Ｒ_ref(ｘ'_j、ｙ'_k) ｊ、ｋ＝１、２、３、４式２９
但し、ｘ'_j、ｙ'_kは、式２８で計算された整数値座標である。
次いで、コンボリューション係数が計算される。以下、切り捨てによる整数の除算は「／」で表わし、そしてその両方又はそのオペランドは、常に、負でない整数である。整数切り捨てを使用することにより、次のｕ_j、ｖ_k、ｊ、ｋ＝１、２、３、４が計算される。
ｕ₁＝spl(δｘ／２５６＋２５６) ｖ₁＝spl(δｙ／２５６＋２５６)
ｕ₂＝spl(δｘ／２５６) 及びｖ₂＝spl(δｙ／２５６)
ｕ₃＝spl(２５６−(δｘ／２５６)) ｖ₃＝spl(２５６−(δｙ／２５６)) ｕ₄＝16384−(ｕ₁＋ｕ₂＋ｕ₃) ｖ₄＝16384−(ｖ₁＋ｖ₂＋ｖ₃)
式３１但し、δｘ、δｙは、式２７の整数値であり、そしてｓｐｌ(ｓ)は、正の整数の引数の整数値関数である。

次いで、基準ピクセル値が計算される。切り捨てによる整数除算を使用することにより、基準ピクセル値が次のように計算される。

但し、整数値係数ｒ_jkは、式３０により与えられ、整数値係数ｕ_j、ｖ_k、ｊ、ｋ＝１、２、３、４は、式３１により与えられ、そして関数ｓａｔ（．．）は、式２９により与えられる。
運動アナライザーにおいて、線形化のステップは、次の式に対しＲ_ref(ｘ、ｙ)の一次テイラー展開を使用することにより実行される。
ｘ'_p＝ｘ_p＋Δｘ(ｘ_p、ｙ_p)
ｙ'_p＝ｙ_p＋Δｙ(ｘ_p、ｙ_p) 式３４
ｘ及びｙについては、次のようになる。
Ｒ_ref(ｘ_p＋Δｘ_prd(ｘ_p、ｙ_p)＋Δｘ_refine(ｘ_p、ｙ_p)、
ｙ_p＋Δｙ_prd(ｘ_p、ｙ_p)＋Δ_refine(ｘ_p、ｙ_p))
≒Ｒ_ref(ｘ'_p、ｙ'_p)＋(Δｘ_refine(ｘ_p、ｙ_p)＋Δｘ_prd(ｘ_p、ｙ_p)
−Δｘ(ｘ_p、ｙ_p))・Ｇ_x(ｘ'_p、ｙ'_p)＋(Δｙ_refine(ｘ_p、ｙ_p)
＋Δｙ_prd(ｘ_p、ｙ_p)−Δｙ(ｘ_p、ｙ_p))・Ｇ_y(ｘ'_p、ｙ'_p) 式３５

Ｇ_x(ｘ'_p、ｙ'_p)及びＧ_y(ｘ'_p、ｙ'_p)は、ｘ及びｙに対する基準フレームＲ_refの導関数の値である。このような近似を使用すると、式１４におけるマトリクスＥ_i及びベクトルｗ_iのエレメントは、次のようになる。

以上、本発明の好ましい実施形態について詳細に説明したが、本発明の範囲はこれに限定されるものではない。本発明の範囲は、特許請求の範囲によって限定されるものとする。

本発明の実施形態が動作できるビデオ通信システムのエンコーダ及びデコーダを示す図である。図１に示す通信システムの一部分を形成する運動フィールドコーダーの機能的ブロック図である。図１に示す通信システムのエンコーダ及びデコーダの一部分を形成する運動補償型予想装置の機能的ブロック図である。本発明の実施形態の動作中にビデオフレームをセグメントに分割する方法を示す図である。本発明の実施形態の動作中に使用される選択ビットの例示的な値及び意味を示すテーブルである。

Claims

ビデオシーケンスに対して動作する方法において、上記ビデオシーケンスは、少なくとも現在ビデオフレームと基準ビデオフレームとで形成され、現在ビデオフレームは、少なくとも１つの第１隣接セグメントと第２隣接セグメントとを含み、現在ビデオフレームの運動補償型予想のための方法の改良が、
以前に記憶された第１運動フィールドモデルを検索し、この第１運動フィールドモデルは、基準ビデオフレーム内のピクセルに対する第１隣接セグメント内のピクセルの変位を記述する第１運動ベクトルフィールドのモデルであり、
基準ビデオフレーム内のピクセルに対する現在ビデオフレームの第２隣接セグメント内のピクセルの変位を記述する第２運動ベクトルフィールドを決定し、
運動モデルを用いて上記第２運動ベクトルフィールドをモデリングして、第２運動フィールドモデルを形成し、
上記第１運動フィールドモデルに基づいて上記第２運動フィールドモデルを近似して、予想フィールドモデルを形成し、
上記第２運動フィールドモデルを上記予想フィールドモデルと比較し、そして精密化フィールドモデルを形成し、この精密化フィールドモデルは、上記第２運動フィールドモデルと上記予想フィールドモデルとの間の差を表わし、
上記予想フィールドモデルと上記精密化フィールドモデルとの和を形成することにより上記第２運動フィールドモデルの別のモデル表示を構成し、
第１コスト関数を計算し、この第１コスト関数は、被った第１像歪の尺度と、上記第２運動フィールドモデルを使用するときに必要とされるデータの第１量の尺度とを含み、
第２コスト関数を計算し、この第２コスト関数は、被った第２像歪の尺度と、上記第２運動フィールドの上記別のモデル表示を使用するときに必要とされるデータの第２量の尺度とを含み、
上記第１及び第２コスト関数を比較し、そして上記第１及び第２コスト関数のどちらの絶対値が小さいか決定し、そして
上記第２運動フィールドモデルと、上記小さい絶対値に関連した上記第２運動ベクトルフィールドの上記別のモデル表示とのいずれか１つを選択して、選択された運動フィールドモデルを指示し、そしてその選択された運動フィールドモデルを記憶する、
という段階を含むことを特徴とする方法。
上記選択された運動フィールドモデルに関する情報をエンコードする段階を更に含む請求項１に記載の方法。
上記コード化された情報をデコーダに送信してデコードする段階を更に含む請求項２に記載の方法。
上記コード化された情報を記憶手段に記憶する段階を更に含む請求項２に記載の方法。
上記第１運動フィールドモデル、上記第２運動フィールドモデル、上記予想フィールドモデル及び上記精密化フィールドモデルの各々は、運動フィールド基礎関数の和として形成され、上記運動フィールド基礎関数の各々は運動係数が乗算される請求項１に記載の方法。
上記運動フィールド基礎関数は、直交関数である請求項５に記載の方法。
上記第１運動フィールドモデル、上記第２運動フィールドモデル、上記予想フィールドモデル及び上記精密化フィールドモデルの各々は、アフィン運動フィールドモデルである請求項６に記載の方法。
上記少なくとも１つの第１隣接セグメント及び上記第２隣接セグメントは、四辺形である請求項１に記載の方法。
上記少なくとも１つの第１隣接セグメントを複数のサブセグメントに分割し、そして少なくとも１つの上記サブセグメントの運動フィールドモデルを使用して上記予想フィールドモデルを形成する請求項１に記載の方法。
上記予想フィールドモデルは、上記少なくとも１つの隣接セグメントの運動フィールドモデルを投影することにより形成される請求項１に記載の方法。
上記予想フィールドモデルは、２つ以上の第１隣接セグメントから決定された上記第２運動ベクトルフィールドの近似を平均化することにより形成される請求項１に記載の方法。
上記予想フィールドモデルは、２つ以上の第１隣接セグメントから決定された上記第２フィールドモデルの近似を平均化することによって形成される請求項１に記載の方法。
上記第１コスト関数を計算する上記段階は、ラグランジュ基準を使用して実行される請求項１に記載の方法。
上記ラグランジュ基準は、式Ｌ＝Ｄ＋lambdaｘＢを有し、但し、Ｄは、所与の１組の運動係数をエンコードするときに被る歪であり、Ｂは、運動係数を表わすのに必要なビット数であり、そしてlambdaは、乗算ラグランジュパラメータである請求項１３に記載の方法。
上記予想運動フィールド及び上記精密化運動フィールドは、共通の１組の基礎関数を使用して表わされる請求項１に記載の方法。
第１スレッシュホールド値を定義し、
上記精密化フィールドモデルの運動係数を、上記精密化フィールドモデルの全運動係数の最小値で識別し、
上記最小の運動係数をゼロにセットすることにより招く第３コスト関数を決定し、そして
上記第３像歪が上記第１スレッシュホールド値を越えない状態において上記最小値の運動係数をゼロにセットすることにより上記精密化フィールドの近似を形成する、
という段階を更に含む請求項１に記載の方法。
上記選択された運動フィールドモデルが上記第２運動フィールドモデルである場合には、上記方法は、更に、
上記予想フィールドモデルの全運動係数をゼロにセットし、そして
上記精密化フィールドモデルの全運動係数を上記第２運動フィールドモデルの上記運動係数に等しくセットする、
という段階を含む請求項１に記載の方法。
情報の上記エンコードは、選択されたフィールドモデルに基づくやり方で行われる請求項１７に記載の方法。
上記選択されたフィールドモデルが上記第２運動フィールドモデルである場合には、情報の上記エンコードは、上記精密化フィールドモデルをエンコードする段階を含む請求項１８に記載の方法。
上記選択されたフィールドモデルが上記別のモデル表示である場合には、情報の上記エンコードは、
上記予想フィールドモデルをエンコードし、そして
上記精密化フィールドモデルをエンコードする、
という段階を含む請求項１８に記載の方法。
上記精密化フィールドモデルの上記エンコードは、
上記エンコードされた情報が上記精密化フィールドモデルの上記運動係数を含むことを、第１及び第２値のいずれか１つに運動係数指示子をセットすることにより指示し、
上記運動係数のどちらが非ゼロ値を有するかを、運動係数パターン指示子をセットすることにより指示し、そして
上記非ゼロの運動係数値をエンコードする、
という段階を含む請求項２０に記載の方法。
上記非ゼロの運動係数値各々は、振幅値及び符号を指示することによりエンコードされる請求項２１に記載の方法。
上記予想フィールドモデルのエンコードは、
上記エンコードされた情報が運動係数値を含まないことを、第１及び第２値のいずれか１つに運動係数指示子をセットすることにより指示し、そして
上記別のモデル表示が構成されたところの上記少なくとも１つの第１隣接セグメントの上記第２隣接セグメントに対する方向を、方向弁別指示子をセットすることにより指示する、
という段階を含む請求項２０に記載の方法。
上記予想フィールドモデルのエンコードは、
上記別のモデル表示が構成されたところの上記少なくとも１つの第１隣接セグメントのサブセグメントを、サブセグメント弁別指示子をセットすることにより指示するという段階を更に含む請求項２３に記載の方法。
ビデオシーケンスに対して動作する方法において、上記ビデオシーケンスは、少なくとも現在ビデオフレームと基準ビデオフレームで形成され、現在ビデオフレームは、少なくとも１つの第１隣接セグメントと第２隣接セグメントとを含み、現在ビデオフレームの運動補償型予想のための方法の改良が、
少なくとも１つの以前に記憶された第１運動フィールドモデルを検索し、この少なくとも１つの第１運動フィールドモデルは、基準ビデオフレーム内のピクセルに対する少なくとも１つの第１隣接セグメント内のピクセルの変位を記述する第１運動ベクトルフィールドのモデルであり、
基準ビデオフレーム内のピクセルに対する現在ビデオフレームの第２隣接セグメント内のピクセルの変位を記述する第２運動ベクトルフィールドを決定し、
運動モデルを用いて上記第２運動ベクトルフィールドをモデリングして、第２運動フィールドモデルを形成し、そして
上記少なくとも１つの第１運動フィールドモデルに基づいて上記第２運動フィールドモデルを近似して、予想フィールドモデルを形成する、
という段階を含むことを特徴とする方法。
少なくとも現在ビデオフレームで形成されたビデオシーケンスに対して動作するビデオ装置において、現在ビデオフレームは、少なくとも第１隣接セグメント及び第２隣接セグメントを含み、その第２隣接セグメントの運動ベクトルフィールドの近似を形成する装置の改良が、
上記第１隣接セグメントを表わす第１運動ベクトルフィールドの近似を形成する第１アフィン運動モデルを表わす指示を受信すると共に、上記第２隣接セグメントの指示も受信するよう接続された運動ベクトルフィールドビルダーを備え、この運動ベクトルフィールドビルダーは、上記第１アフィン運動モデルを表わす指示に応答して第２アフィン運動モデルを形成するためのものであり、この第２アフィン運動モデルは、上記第２隣接セグメントの運動ベクトルフィールドの近似を形成することを特徴とする装置。
上記ビデオシーケンスは、更に、基準ビデオフレームで形成され、上記運動ベクトルフィールドビルダーは、更に、基準ビデオフレームの指示を受信するように接続され、そして上記第２アフィン運動モデルは、第１アフィンモデルを表わす指示と、基準ビデオフレームの選択された部分とのいずれか１つに応答する請求項２６に記載の装置。
上記運動ベクトルフィールドビルダーは、更に、第２運動ベクトルフィールドを計算し、この第２運動ベクトルフィールドは、基準ビデオフレームの選択された部分に応答して計算される請求項２７に記載の装置。
上記運動ベクトルフィールドビルダーは、更に、第２運動ベクトルフィールドと第２アフィン運動モデルとの間の差を決定し、これらの差が精密化フィールドモデルを形成する請求項２８に記載の装置。
上記運動ベクトルフィールドビルダーは、更に、第２運動ベクトルフィールドの別の表示モデルを構成し、第２運動ベクトルフィールドのこの別の表示モデルは、精密化フィールドモデルと第２アフィン運動モデルの組合せで形成される請求項２９に記載の装置。
上記運動ベクトルフィールドビルダーは、更に、コスト関数を決定し、このコスト関数は、少なくともその一部分が、像の歪と、第２運動ベクトルフィールド及び第２アフィン運動モデルの少なくとも選択された一方に関連した所要データとを表わす請求項３０に記載の装置。
上記運動ベクトルフィールドビルダーは、更に、第２運動ベクトルフィールド及び第２アフィン運動モデルの選択された一方を使用し、その選択は、コスト関数に応答して行われる請求項３１に記載の装置。
上記運動ベクトルフィールドビルダーは、更に、第１アフィンモデルを表わす指示及び基準ビデオフレームの選択された部分のいずれか１つを選択し、それに応答して第２アフィン運動モデルが形成される請求項２７に記載の装置。
上記第１アフィン運動モデルは、それに関連した第１アフィン運動係数を有し、そして上記運動ベクトルフィールドビルダーは、更に、第１アフィン運動モデルの値を投影して、第２アフィン運動モデルを形成する請求項２６に記載の装置。
上記現在ビデオフレームは、更に、第３隣接セグメントを有し、この第３隣接セグメントは、第１隣接セグメント及び第２隣接セグメントの両方に隣接し、上記運動ベクトルフィールドビルダーは、更に、この第２隣接セグメントの指示を受け取るように接続され、そして上記運動ベクトルフィールドビルダーは、更に、第１アフィン運動モデル及び第２アフィン運動モデルの選択されたいずれか１つに応答して第３アフィン運動モデルを形成する請求項２６に記載の装置。
上記運動ベクトルフィールドビルダーは、更に、第１アフィン運動モデル及び第２アフィン運動モデルのいずれか１つを選択し、それに応答して第３アフィン運動モデルが形成される請求項３５に記載の装置。
上記ビデオ装置は、エンコーダを有するビデオシーケンスジェネレータを形成し、そして上記運動ベクトルフィールドビルダーは、エンコーダの一部分を形成する請求項２６に記載の装置。
上記ビデオ装置は、デコーダを有するビデオシーケンス受信器を形成し、そして上記運動ベクトルフィールドビルダーは、デコーダの一部分を形成する請求項２６に記載の装置。
少なくとも現在ビデオフレームで形成されたビデオシーケンスに対して動作する方法において、上記の現在ビデオフレームは、少なくとも第１隣接セグメント及び第２隣接セグメントを有し、この第２隣接セグメントの運動ベクトルフィールドの近似を形成する方法の改良が、
上記第１隣接セグメントを表わす第１運動ベクトルフィールドを形成し、
その第１運動ベクトルフィールドを第１アフィン運動モデルでモデリングし、そして
上記モデリング動作中にモデリングされた第１運動ベクトルフィールドに応答して第２アフィン運動ベクトルモデルを形成し、この第２アフィン運動モデルは、第２隣接セグメントの運動ベクトルフィールドの近似を形成する、
という段階を含むことを特徴とする方法。
上記現在ビデオフレームは、更に、第３隣接セグメントを含み、この第３隣接セグメントは、第１隣接セグメント及び第２隣接セグメントの両方に隣接し、上記方法は、更に、第３隣接セグメントの運動ベクトルフィールドの近似を形成し、上記方法は、更に、
第１アフィン運動モデル及び第２アフィン運動モデルのいずれか１つに応答して第３アフィン運動モデルを形成する、
という段階を含む請求項３９に記載の方法。
上記ビデオシーケンスは、更に、基準ビデオフレームで形成され、第２アフィン運動モデルを形成する上記動作中に形成された第２アフィン運動ベクトルフィールドは、第１運動ベクトルフィールド及び基準フレームの一部分のいずれか１つに応答する請求項３９の記載の方法。
第１運動ベクトルフィールド及び基準フレームのいずれかを選択する付加的な動作を更に備え、それに応答して、第２アフィン運動モデルが形成される請求項４１に記載の方法。
少なくとも現在ビデオフレーム及び基準ビデオフレームで形成されたビデオシーケンスに対して動作するビデオ装置において、現在ビデオフレームは、少なくとも第１隣接セグメントと第２隣接セグメントを含み、運動ベクトルフィールドの近似を形成する装置の改良が、
第１隣接セグメント及び第２隣接セグメントの選択された一方を表わす指示と、基準ビデオフレームの部分を表わす指示とを受信するように接続された運動ベクトルフィールドビルダーを備え、この運動ベクトルフィールドビルダーは、第１及び第２の隣接セグメントの選択された一方と、基準ビデオフレームの選択された部分との間のマッピングを決定すると共に、そのマッピングをアフィン運動モデルで近似するためのものであり、このアフィン運動モデルは、運動ベクトルフィールドの近似を形成することを特徴とする装置。
第１隣接セグメント及び第２隣接セグメントの選択された一方は、第１隣接セグメントであり、そして運動ベクトルフィールドの近似を形成するアフィン運動モデルは、第１アフィン運動モデルより成り、この第１アフィン運動モデルは、第１隣接セグメントを表わす請求項４３に記載の装置。
第１隣接セグメント及び第２隣接セグメントの選択された一方は、更に、第２隣接セグメントであり、上記運動ベクトルフィールドビルダーは、更に、第２隣接セグメントと、基準ビデオフレームの選択された部分及び第１隣接セグメントのいずれか１つとの間のマッピングを決定し、そして運動ベクトルフィールドの近似を形成するアフィン運動モデルは、第２アフィン運動モデルより成り、この第２アフィン運動モデルは、第２隣接セグメントを表わす請求項４３に記載の装置。
上記ビデオ装置は、エンコーダを有するビデオシーケンスジェネレータを備え、そして上記運動ベクトルフィールドビルダーは、エンコーダの一部分を構成する請求項４３に記載の装置。
上記ビデオ装置は、デコーダを有するビデオシーケンス受信器を備え、そして上記運動ベクトルフィールドビルダーは、デコーダの一部分を構成する請求項４３に記載の装置。
ビデオシーケンスをデコードする方法において、ビデオシーケンスは、少なくとも現在フレーム及び基準フレームで形成され、現在フレームは、少なくとも第１隣接セグメント及び第２隣接セグメントを含み、上記現在ビデオフレームをデコードする方法の改良が、
情報形式の指示を受け取り、
上記第２隣接セグメントに対するセグメント再構成情報を受け取り、
上記指示に応答してセグメント再構成モードを選択し、そして
上記選択されたセグメント再構成モードに基づいて上記第２隣接セグメントを再構成する、
という段階を含むことを特徴とする方法。
上記選択されたセグメント再構成モードは、
上記セグメント再構成情報が、上記隣接セグメントの再構成段階に使用されるべき第１隣接セグメントの指示を含むような第１セグメント再構成モードと、
上記セグメント再構成情報が運動係数情報を含むような第２セグメント再構成モードと、
を含む１組のセグメント再構成モードの１つである請求項４８に記載の方法。
上記１組のセグメント再構成モードは、更に、
上記セグメント再構成情報が上記基準フレームからのピクセル値の指示を含むような第３セグメント再構成モードと、
上記セグメント再構成情報が上記現在フレームからのピクセル値の指示を含むような第４セグメント再構成モードと、
を含む請求項４９に記載の方法。
第１隣接セグメントの上記指示は、上記第２隣接セグメントに対する上記第１隣接セグメントの位置に関する情報を含む請求項４９に記載の方法。
第１隣接セグメントの上記指示は、更に、その第１隣接セグメント内のサブセグメントに関する情報を含む請求項５１に記載の方法。
上記運動係数情報は、少なくとも１つの非ゼロの運動係数値の指示を含む請求項４９に記載の方法。
上記少なくとも１つの非ゼロの運動係数値の指示は、非ゼロの係数パターン指示と、少なくとも１つの非ゼロの係数値とを含む請求項５３に記載の方法。
上記第１セグメント再構成モードは、上記第１隣接セグメントを表わす第１運動フィールドモデルから導出された予想運動フィールドモデルを使用することを含む請求項４９に記載の方法。
上記予想運動フィールドモデルは、上記第１運動フィールドモデルを上記第１隣接セグメントから上記第２隣接セグメントへ投影することにより構成される請求項５５に記載の方法。
上記第２セグメント再構成モードは、精密化運動フィールドモデルを使用することを含む請求項４９に記載の方法。
上記精密化運動フィールドモデルは、少なくとも１つの運動係数値の指示により表わされる請求項５７に記載の方法。
上記精密化運動フィールドモデルは、第２運動フィールドモデルと上記予想運動フィールドモデルとの間の差を表わし、上記第２運動フィールドモデルは、上記基準フレームから導出された上記第２セグメントの表示である請求項５７に記載の方法。
上記精密化運動フィールドモデルは、上記基準フレームから導出された上記第２セグメントの表示である請求項５７に記載の方法。
ビデオシーケンスをエンコードする方法において、ビデオシーケンスは、少なくとも現在ビデオフレーム及び基準ビデオフレームで形成され、現在ビデオフレームは、少なくとも第１隣接セグメント及び第２隣接セグメントを含み、上記現在ビデオフレームの運動補償型予想のための方法の改良が、上記第２隣接セグメントに対する１組のコード化モードを定義し、
１組のコスト関数を計算し、これらコスト関数の各１つは、上記１組のコード化モードの１つに関連され、
上記１組のコスト関数のうち、絶対値が最小のものを選択し、
上記１組のコード化モードのうち、上記最小の絶対値に関連したコード化モードを、上記第２隣接セグメントに対する選択されたコードモード化として定義し、そして
上記第２隣接セグメントに関する情報を上記選択されたコード化モードに基づいてエンコードする、
という段階を含むことを特徴とする方法。
上記エンコードされた情報をデコーダに送信してデコードする段階を更に含む請求項６１に記載の方法。
上記コード化された情報を記憶手段に記憶する段階を更に含む請求項６１に記載の方法。
上記１組のコード化モードは、
上記第１隣接セグメントからの運動フィールドモデルが上記第２隣接セグメントに投影されて、予想運動フィールドモデルを形成すると共に、上記第２隣接セグメントが上記予想運動フィールドモデルにより表わされるような第１コード化モードと、
上記第２隣接セグメントが、上記基準フレームから導出された運動フィールドモデルにより表わされるような第２コード化モードと、
上記第１隣接セグメントからの運動フィールドモデルが上記第２隣接セグメントに投影されて、投影フィールドモデルを形成すると共に、上記第２隣接セグメントが上記予想運動フィールドモデル及び精密化運動フィールドモデルにより表わされるような第３コード化モードと、
を備えた請求項６１に記載の方法。
上記１組のコード化モードは、更に、
上記第２隣接セグメントが上記基準フレームからのピクセル値を使用してエンコードされるような第４コード化モードと、
上記第２隣接セグメントが上記現在フレームからのピクセル値を使用してエンコードされるような第５コード化モードと、
を備えた請求項６４に記載の方法。
上記精密化運動フィールドモデルは、上記基準フレームから導出された上記運動フィールドモデルと上記予想運動フィールドモデルとの間の差を表わす請求項６４に記載の方法。
上記予想運動フィールドモデル、上記精密化運動フィールドモデル、及び上記基準フレームから導出された上記運動フィールドモデルは、１組の基礎関数より成り、各基礎関数は運動係数値が乗算される請求項６４に記載の方法。
上記基礎関数は直交関数である請求項６７に記載の方法。
上記予想運動フィールドモデル、上記精密化運動フィールドモデル、及び上記基準フレームから導出された上記運動フィールドモデルは、アフィン運動フィールドモデルである請求項６８に記載の方法。
上記１組のコスト関数の各１つは、被った像歪の尺度と、上記コード化モードの所与の１つを使用するときに必要とされるデータ量の尺度とを含む請求項６１に記載の方法。
上記１組のコスト関数の各々は、ラグランジュ基準を使用して計算される請求項７０に記載の方法。
上記ラグランジュ基準は、式Ｌ＝Ｄ＋lambdaｘＢを有し、但し、Ｄは、所与の１組の運動係数をエンコードするときに被る歪の尺度であり、Ｂは、運動係数を表わすのに必要なビット数であり、そしてlambdaは、ラグランジュパラメータである請求項７１に記載の方法。
上記予想運動フィールド及び上記精密化運動フィールドは、共通の１組の基礎関数を使用して表わされる請求項６７に記載の方法。
上記精密化運動フィールドモデルは、運動係数を除去することにより近似される請求項６７に記載の方法。
上記現在フレームは、複数の第１隣接セグメントを含み、上記方法は、更に、
上記複数の第１隣接セグメントの各々に対して１つづつの、複数の予想運動フィールドモデルを形成し、そして
上記複数の予想運動フィールドモデルの所与の１つに各々対応する複数の精密化運動フィールドモデルを形成する、
という段階を含む請求項６４に記載の方法。
上記予想運動フィールドモデルは、２つ以上の第１隣接セグメントに基づいて形成される請求項７５に記載の方法。
上記予想運動フィールドモデルは、２つ以上の第１隣接セグメントからの運動フィールドモデルの投影を平均化することにより形成される請求項７６に記載の方法。
上記方法は、更に、上記第１隣接セグメントを複数のサブセグメントに分割し、そして少なくとも１つの上記サブセグメントの運動フィールドモデルを使用して、上記予想フィールド運動モデルを形成することを含む請求項６４に記載の方法。
情報の上記エンコードは、選択されたフィールドモデルに基づくやり方で行われる請求項６１に記載の方法。
上記選択されたコード化モードが上記第２のコード化モードである場合には、上記方法は、更に、上記精密化運動フィールドモデルの全運動係数を、上記基準フレームから導出された上記運動フィールドモデルの上記運動係数に等しくセットすることを含む請求項７９に記載の方法。
情報の上記エンコードは、上記精密化運動フィールドモデルをエンコードする段階を含む請求項８０に記載の方法。
上記選択されたコード化モードが上記第１コード化モードである場合には、情報の上記エンコードは、上記予想運動フィールドモデルをエンコードする段階を含む請求項７９に記載の方法。
上記選択されたコード化モードが上記第３コード化モードである場合には、情報の上記エンコードは、
上記予想運動フィールドモデルをエンコードし、そして
上記精密化運動フィールドモデルをエンコードする、
という段階を含む請求項７９に記載の方法。
上記精密化運動フィールドモデルの上記エンコードは、
上記エンコードされた情報が上記精密化フィールドモデルの上記運動係数を含むことを、第１及び第２値のいずれか１つに運動係数指示子をセットすることにより指示し、
上記精密化フィールドモデルの上記運動係数のいずれが非ゼロ値を有するかを、運動係数指示子をセットすることにより指示し、そして
上記非ゼロ値をエンコードする、
という段階を含む請求項８１に記載の方法。
上記精密化運動フィールドモデルの上記エンコードは、
上記エンコードされた情報が上記精密化フィールドモデルの上記運動係数を含むことを、第１及び第２値のいずれか１つに運動係数指示子をセットすることにより指示し、
上記精密化フィールドモデルの上記運動係数のいずれが非ゼロ値を有するかを、運動係数パターン指示子をセットすることにより指示し、そして
上記非ゼロ値をエンコードする、
という段階を含む請求項８３に記載の方法。
上記非ゼロ係数値の各々は、振幅及び符号を指示することによりエンコードされる請求項８４に記載の方法。
上記予想運動フィールドモデルのエンコードは、上記エンコードされた情報が運動係数値を含まないことを、第１及び第２値のいずれか１つに運動係数指示子をセットすることにより指示することを含む請求項８２に記載の方法。
上記予想運動フィールドモデルのエンコードは、上記予想運動フィールドモデルが形成されたところの上記第１隣接セグメントの、上記第２隣接セグメントに対する相対的な位置を識別する方向を指示することを更に含む請求項８７に記載の方法。
上記予想運動フィールドモデルのエンコードは、上記予想運動フィールドモデルが形成されたところの上記第１隣接セグメントのサブセグメントを、サブセグメント弁別指示子をセットすることにより指示することを更に含む請求項８８に記載の方法。
上記予想運動フィールドモデルのエンコードは、上記エンコードされた情報が運動係数値を含まないことを、第１及び第２値のいずれか１つに運動係数指示子をセットすることにより指示することを含む請求項８３に記載の方法。
上記予想運動フィールドモデルのエンコードは、上記予想運動フィールドモデルが形成されたところの上記第１隣接セグメントの、上記第２隣接セグメントに対する相対的な位置を識別する方向を指示することを更に含む請求項９０に記載の方法。
上記予想運動フィールドモデルのエンコードは、上記予想運動フィールドモデルが形成されたところの上記第１隣接セグメントのサブセグメントを、サブセグメント弁別指示子をセットすることにより指示することを更に含む請求項９１に記載の方法。