JP2011505756A

JP2011505756A - 時間的画像検出

Info

Publication number: JP2011505756A
Application number: JP2010536084A
Authority: JP
Inventors: オーリック、クリストファー・ジェイ; ウェブ、リチャード; ミラー、スコット; シールズ、ジェローム・ディー
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2007-11-30
Filing date: 2008-11-21
Publication date: 2011-02-24
Also published as: WO2009073415A2; WO2009073415A3; EP2223530A2; CN101878650A; US8687693B2; US20120281758A1; CN101878650B; WO2009073415A4

Abstract

ビデオシーケンスフレームのセット中の基準フレームとして連続的に機能するフレームに対して、モーション推定のセットをアクセスさせる。１つのモーション推定は、フレームのセット中の他のフレームに関して時間的に移動させた、フレームのセットの領域に関する基準フレームの各領域のピクセル関連付けたモーションを特徴付ける。付加的なモーション推定は、フレームのセットの１つのフレームとその他のフレームから時間的に移動させた、フレームのセットの２番目のフレームに関連する基準フレームの各領域のピクセルと関連付けたモーションを特徴付ける。前記最初のモーション推定と付加的なモーション推定とに対応して、前記フレームのセット全体にわたる整列した基準フレームに基づいて、時間的画像予測のセットを予測する。時間的画像予測を融合して、この融合に基づいて、前記フレームセット全体にわたって時間的予測基準を生成する。

Description

本発明は、一般的にはビデオ処理に関する。さらに詳細には、本発明の実施の形態は画像の時間的な予測に関する。

動画シーケンスに複数の連続的なフレームが含まれることがある。現代の画像処理アプリケーションでは、動画シーケンスの画像中にモーション（動き）の推定を用いる。ここで使われている、用語「モーション推定」及び「モーションの推定」は、モーションのそのような推定を示す。モーション推定には、動画シーケンスのフレームのセグメント中のフレーム間のモーションを記述するパラメータが含まれる。

画像処理アプリケーションは、動画シーケンスの画像フレームの種々の領域に関連付けられたモーションを推定することができる。アプリケーションには、種々の情報が蓄えられ伝達される（例えば、エンコードされ、伝達され、受信され、そしてデコードされる）、データの量を減少させることに関するビデオ圧縮を含むこと又は伴うことができる。

モーション推定は、ビデオ圧縮アプリケーションにおいて動画シーケンス中の画像フレームを表示するために必要なデータを著しく減少させる技術である。アプリケーションでは、動画シーケンスの１つのフレームから他の１つへ、各フレーム内の画像領域の並進運動のモーション又は他のモーションで、マッピングを試みることができる。例えば、基準フレーム「Ａ」と、フレームＡから続くフレーム「Ｂ］への画像のモーションを記述するモーションマッピングとが与えられると、フレームＡからのモーションマッピングを予測することによりモーション予測フレームＢを形成することができる。フレームＢからモーション予測フレームＢを減算することにより差分フレームＢを作ることができる。

モーションマッピング及び差分フレームＢの両方をエンコードするのに必要なデータの量がフレームＢを直接エンコードするのに必要な量より小さい場合、圧縮が行われる。従って、アプリケーションは、フレームＢと相対的に少ししか違わないモーション予測フレームＢをもたらすモーションマッピングを探求することができる。圧縮に関する目的で、動画シーケンスの画像の外観の実際のモーションを表現するモーションマッピングの精度は、最初に考慮すべきことではないかもしれない。言い換えれば、圧縮を達成するとの観点からは、所定のモーションマッピングにより、モーションマッピング及び差分フレームＢを権コードするのに必要なデータ量を単純に減少させれば十分であるかもしれない。

モーションの推定に用いられるアプリケーションは、動画シーケンスの複数のフレームのそれぞれに現れる画像の外観をある基準に対して整列させることができる。画像の外観が現れる各フレームの領域はモーション推定に従って動かされる。結果として生じた画像の外観を整列させた領域を、例えば公式に従って、融合することができる。正確なモーションの推定は、動画シーケンスの種々のフレームの間で外観を整列させた領域を正確に配置する上で重要である。

本発明を例示として説明するものであって、限定するものではない。添付図における形状について、類似の参照番号は、類似の構成要素を示す。
本発明の一実施の形態による、例示的な手順のフロー線図を示す。本発明の一実施の形態による、例示的なシステムを示す。本発明の一実施の形態による、例示的なシステム構成要素を示す。本発明の一実施の形態による、例示的な動作を示す。本発明の一実施の形態による、例示的なシステム構成要素を示す。本発明の実施の形態を組み込むことができる例示的なコンピュータシステムのプラットフォームを示す。

モーション推定は、画像処理の予測及びモーション補償画像処理の速度を上げるアプリケーションにとって意義深いものとなることがある。時間的な画像予測及びモーション補償処理は、民生用として、商業用として、工業用として、医療用として、研究用として、調査用として、及び他の分野で用いられる、電子的ビデオ装置において重要となることがある。このような装置には、これらに限定されるわけではないが、テレビジョン、デジタル多用途ディスク（ＤＶＤ）及びブルーレイディスク（ＢＤ）やＨＤ−ＤＶＤのような光学的にエンコードされた媒体、グラフィックディスプレー、ケーブル、中継基地や関連する受信器、チューナーその他、医学的、科学的及び他の画像処理システム、及びＨＤＴＶのような高解像度（ＨＤ）媒体を含むことができる。

加えて、時間的画像予測及びモーション補償処理は、より「専門的な」設定と、他の技術に厳しい設定を行う点で重要である。このような専門的で技術的に厳しい設定には、これらに限定されるわけではないが、例えばコンテンツの創作中に、標準定義の素材をアップコンバージョンするような放送局の操作及び設定を行うことが含まれる。しかしモーション推定は、アプリケーション、装置、及び専門的な設定における最適な使用に十分な精度が無いことがある。

時間的画像予測をここに記載する。以下の説明において、説明目的のために多くの詳細な説明を本発明を十分理解してもらうために述べる。しかしながら、本発明はこれらの具体的説明なしで実施することができることは明らかであろう。一方、よく知られた構成及び装置については、発明を不必要に不明瞭にしたり、わかりにくくさせたり、混乱させたりすることをさけるために、完全に詳細まで記述することはしない。

（概要）
ビデオシーケンスの画像が処理される。ビデオシーケンスのフレームのセット中の基準フレームとして連続的に機能する１以上のフレームに、モーション推定のセットがアクセスする。モーション推定のセットには、基準フレームの各領域に第１のモーション推定が含まれる。第１のモーション推定により、少なくとも１つのフレームがフレームセットの他のフレームに関する時間内で移動する、フレームセットの少なくとも１つの領域に関する基準フレームの領域の各ピクセルに関連するモーションが特徴づけられる。モーション推定のセットには、少なくとも１つの付加的なモーション推定も含まれる。この少なくとも１つの付加的なモーション推定は、フレームセットの少なくとも２番目のフレームの領域に関する基準フレームの各領域のピクセルに関連付けられるモーションを特徴付け、フレームセット中で少なくとも２番目のフレームは、他のフレームから少なくとも１つのフレームからの時間内で移動する。第１のそして少なくとも１つの付加的なモーション推定に対応する時間的な画像予測が予測される。時間的な画像予測のセットは、フレームセット全体にわたる基準フレームにおける領域の配列構造に基づく。時間的な画像予測のセットは融合される。時間的な画像予測のセットの融合に基づき、時間的予測基準がフレームセット全体にわたって生成される。

ここに記載の例示的実施の形態は時間的な画像予測に関する。例示的な実施の形態において、ビデオシーケンスの画像が処理される。ビデオシーケンスのフレームのセット内の基準フレームとして連続的に機能する１以上のフレームに、モーション推定のセットがアクセスする。モーション推定のセットには、基準フレームの各領域に対する第１のモーション推定が含まれる。この第１のモーション推定は、フレームセットの少なくとも１つのフレームの領域に関する基準フレームの各領域のピクセルに関連付けられるモーションを特徴付け、フレームセット中で、少なくとも１つのフレームはフレームセットの他のフレーム関する時間内で移動する。モーション推定のセットには、少なくとも１つの付加的なモーション推定も含まれる。この少なくとも１つの付加的なモーション推定は、フレームセットの少なくとも２番目のフレームの領域に関する基準フレームの各領域のピクセルに関連付けられるモーションを特徴付け、フレームセット中で少なくとも２番目のフレームは、他のフレームから少なくとも１つのフレームからの時間内で移動する。第１のそして少なくとも１つの付加的なモーション推定に対応する時間的な画像予測が予測される。時間的な画像予測のセットは、フレームセット全体にわたる基準フレームにおける領域の整列に基づく。時間的な画像予測のセットは融合される。時間的な画像予測のセットの融合に基づき、時間的予測基準がフレームセット全体にわたって生成される。

ビデオシーケンスに対して生成し仕上げの終わった時間的な予測は出力を具備する。１つの実施の形態において、空間的な予測も、現在の機能的な基準フレームのそれぞれから生成することができる。空間的予測を時間的予測と結合し空間的・時間的予測基準を生成することができ、これは代替的又は付加的に出力を具備することができる。融合して時間的予測基準の出力又は空間的・時間的予測基準の出力は、仕上げの終わった出力を具備することができる。

融合した時間的予測基準及び／又は空間的・時間的予測基準の出力は、１以上のビデオアプリケーションに提供される。ビデオアプリケーションは、時間的予測基準又は空間的・時間的予測基準を多くの目的に用いることができる。

ビデオシーケンス（例えばビデオストリーム）及びモーション推定のセットは、例えば記憶媒体から受け取られ又はアクセスすることができる。モーション推定のセットには、単一又は複数の情報源がアクセスすることができる。この情報源には、モーションの推定源、圧縮したモーション推定の源、空間的に正確なモーション推定の源、及び／又は、動画シーケンスの複数のフレームのそれぞれに生じる１以上のが像の外観を、基準フレームに対して本質的に整列させるモーション推定の源を実質的に含むことができる。

種々のモーション推定を本発明の実施の形態と共に用いることができる。モーション推定は、ビデオシーケンスの１以上のフレーム間で１以上の領域と関連付けることができる並進運動のモーションを記述する直交関係にある１対のベクトル成分を含むことができる。モーション推定は、前記ビデオシーケンスの１以上のフレーム間で１以上の領域と関連付けることができる回転運動のモーションを記述する角度成分を含むこともできる。さらに、モーション推定は、ビデオシーケンス中の複雑な又は手の込んだモーションを記述する、付加的なパラメータを含むことができる。例えば、モーション推定は、前記シーケンスの１以上のフレーム間で１以上の領域と関連付けることができる歪みやずれのようなアフィンモーションを記述する６以上のマッピングパラメータを含むことができる。

例示的な実施の形態の説明において、ブロックを、ここでは、フレーム領域の例として用いることがある。同様に、並進運動のモーションを、ここでは、モーションの記述の一例として用いることがある。原則として、そして、単に簡単化、単一化、明確化、及び／又はここにおける記述を短くするために、ブロックをフレーム領域の例として用いることがあり、並進運動のモーションをフレームセット全体の属性であるモーションの一例として用いることがある。しかしながら、ブロック及び並進運動のモーションが、ここで、一例として使われたとしても、このような用い方に限定されるものではないことは明確に了解されるべきである。逆に、本発明の実施の形態は、フレーム領域の関数、及びそれぞれの属性又は説明の仮想的なモーションの属性によく適合している。

１つの実施の形態において、１以上の時間的な画像予測が補間される。これらの時間的な画像予測は、フレームセットの少なくとも１つのフレームの領域に関する基準フレームのピクセルのモーションに関連する。時間的な画像予測は、部分ピクセル位相精度で補間される。時間的なが双予測は、フラクショナルピクセル位相精度（ｆｒａｃｔｉｏｎａｌｐｉｘｅｌｐｈａｓｅａｃｃｕｒａｃｙ）により補間される。この補間に基づき、補間に基づく重み付けが時間的な予測に割り当てられる。時間的な画像予測のセットを融合させることは、重み付けに基づく割り付けられた補間に、少なくとも部分的に基づく時間的な最終予測の計算に含むことができる。

１つの実施の形態において、モーション推定のそれぞれについての精度が推定される。モーション推定に関する精度に基づき、制度に基づく重み付けが割り当てられる。時間的な画像予測のセットを融合させることには、少なくとも部分的には、割り当てられた精度に基づく重み付けに基づき最終の時間的な画像予測を計算することが含まれる。

１つの実施の形態において、ノイズ成分をビデオ画像の圧縮に関連させることができる。ビデオ画像に関連する圧縮ノイズに関する推定を受信することができる。圧縮ノイズに基づく重み付けを、推定したノイズ成分に基づいて、モーション推定の各々に割り当てることができる。時間的な画像予測のセットを融合させることには、少なくとも部分的には、圧縮ノイズに基づく重み付けに基づき最終の時間的な画像予測を計算することが含まれる。

１つの実施の形態において、空間的な予測を、基準フレームの各領域で計算する。従って、時間的な画像予測のセットを融合させることには、多数の時間的予測と空間的な予測とを融合することを含めることができる。従って、例えば、最終的な出力予測としての、ビデオ画像の空間的・時間的予測が生成される。

関連する実施の形態において、空間的な予測に関連する精度を推定する。この空間的な予測に関連する精度に基づき、空間的な予測精度に基づく重み付けが空間的な予測に割り当てられる。従って、時間的な画像予測のセットの融合させることは、少なくとも部分的には、空間的な予測精度に基づく重み付けに基づいてもよい。

１つの実施の形態において、コンピュータシステムは、上述の１以上の特徴を実行することができる。コンピュータシステムには、１以上のプロセッサが含まれ、上述の１以上の特徴を実行するために、ハードウェア、ソフトウェア、ファームウェア、及び／又はこれらの組み合わせた機能を有することができる。コンピュータシステムのプロセッサ及び／又はその他の構成要素は、１以上のコンピュータ読取可能記憶媒体でエンコードすることができ及び／又はコンピュータシステムが受け取った、コンピュータで読取可能なそしてコンピュータで実行可能な命令に従い、上述の特徴を実行する機能をもつ。

１つの実施の形態において、ハードウェア、ソフトウェア、ファームウェア、及び／又はこれらの組み合わせを含み、コンピュータプラットフォームで動作することのできる、デコーダで、上述の１以上の特徴を実行する。

（例示的手順）
ここに記載の例示的手順は、時間的な画像予測に関して行うことができる。実施の形態に組み込むことのできる手順は、ここに示した例示的なステップ及び／又は例示的な手順とは異なる順序で行うステップより多くのステップ又は少ないステップで行うことができる。この例示的手順は、１以上のコンピュータシステム、例えば、１以上のコンピュータ読み取り可能記憶媒体にエンコードされた、機械で読み取ることのできる命令の制御下で実行することができ、又は、特定用途向け集積回路（ＡＳＩＣ）又はプログラマブルＩＣ装置により実行することができる。

本発明の実施の形態による例示的手順のフロー線図を示す。手順１００は、ビデオシーケンスの画像の処理における時間的な画像予測を実行する。ステップ１０１にて、ビデオシーケンスのフレームのセットにおける基準フレームとして連続的に機能する１以上のフレームに、モーション推定（ＭＥ）のセットがアクセスする。モーション推定のセットは、圧縮したビデオストリームと共に受け取り、又は圧縮したビデオシーケンスのデコーディングに組み込み、記憶媒体から取り出すことができる。いくつかのモーション推定はセットを有することができる。モーション推定のセットは、直接モーションの推定を行うことも含めて、他の源（圧縮したビデオシーケンス／ビットストリーム以外の源）から入手することもできる。

モーション推定のセットには、基準フレームの各領域に対する第１のモーション推定が含まれる。第１のモーション推定は、フレームセットの少なくとも１つのフレームの領域に関する基準フレームの各領域のピクセルに関係付けられたモーションを特徴づける。ここで、この少なくとも１つのフレームは、フレームセットの他のフレームに対して時間的に動かされる。モーション推定のセットには、少なくとも１つの付加的なモーション推定が含まれる。この少なくとも１つの付加的なモーション推定は、フレームセットの少なくとも１つの２番目のフレームの領域に関する基準フレームの各領域のピクセルに関係付けられたモーションを特徴づける。ここで、この少なくとも１つの２番目のフレームは、少なくとも１つのフレームから及びフレームセットの他のフレームから時間的に動かされる。

ステップ１０２にて、ブロック又は基準フレームの他の領域は、フレームセットの少なくとも１つの対応する領域に対して整列される。この領域は、２００８年１１月２１日に、表題「モーション推定の時間的平滑化」としてＪｅｒｏｍｅＤ．Ｓｈｉｅｌｄｓ及びＣｈｒｉｓｔｏｐｈｅｒＪ．Ｏｒｌｉｃｋにより出願されたＰＣＴ出願番号（現時点では未定）に記載された技術により整列することができる。なおこの出願は参照としてここにそのすべてを組み込む。

領域の整列に基づき、時間的な画像予測のセットをステップ１０３で予測する。セット中の時間的な画像予測の各々はフレームセット中のフレームに対応する。

ブロック１０４にて、ビデオシーケンスの基準フレームに対して、空間的な予測を計算することができる。この空間的な予測に関する精度を推定することができる。

ブロック１０５にて、各推定に対する重み付けが割り当てられる。例えば、推定した精度に基づき空間的な予測に重み付けが割り当てられる。さらに、時間的な画像予測に重み付けを加えることができる。例えば、正確さの値はモーション推定の各々に関連付けることができる。さらに、ビデオシーケンスの圧縮にノイズを関連付けることができる。圧縮ノイズの成分は、デコードしたビデオシーケンスと共に推定あるいは受け取ることができる。圧縮ノイズの成分の値に基づき、重み付けを時間的な画像予測の各々に割り当てることができる。他の例として、フレームセットの少なくとも１つのフレームの領域に関連する基準フレームのピクセルのモーションに関する値は、時間的な画像予測の補間に用いることができ、フラクショナルピクセル位相値を含むことができる。フラクショナルピクセル補間に基づく重み付けは、現在のフレームのピクセルに関連する時間的な画像予測に割り当てることができる。

ステップ１０６にて、空間的な予測と一緒に時間的な予測を融合させる。ブロック１０７にて、融合した時間的な画像予測に基づき、ビデオシーケンスのフレームに対して、完成された空間的・時間的予測基準を生成する。１つの実施の形態において、空間的な予測が融合した時間的な画像予測と融合させ、ビデオシーケンスのフレームに対して、空間的・時間的予測基準を生成する。

（例示的システム）
図２は、１つの実施の形態による例示的なシステム２００を示す。システム２００は、時間的な画像予測機能を実行する。例えば、システム２００は、図１を参照して上述したような手順１００の一部を実行する働きをすることができる。

システム２００は、コンピュータシステム及び／又はＡＳＩＣ又はプログラマブルＩＣ装置の１以上の構成要素として作ることができる。システム２００は、デコーダ、エンコーダ、専門的なビデオ編集システム及び／又は専門的なビデオ処理システム、科学的、医学的、又は他の画像処理システム、種々のコンピュータ内、通信装置、ネットワーク構成要素、テレビジョン、ＨＤ媒体を含む種々のビデオ媒体再生装置中に配置することができる。

システム２００は、バッファ２０３を有する。ビデオシーケンスのフレームのような画像はバッファ２０３に貯蔵される。バッファ２０３はフレームをモーション補償ユニット２０１に提供する。

バッファ２０３からのビデオシーケンスのフレームとフレームのブロックに関係するモーション推定、精度、及び補間スコアを受信して、及び／又はビデオシーケンスに関連する圧縮ノイズの値と共に、モーション補償ユニット２０１は、そのフレームの時間的予測を予測する。モーション補償ユニット２０１は、精度、及び補間スコア及び圧縮ノイズの値に基づき、モーション推定に重み付けを割り当てる働きをする。モーション補償ユニット２０１は、フレームに対する時間的な予測Ｐ_１、・・・Ｐ_ｉ、及びそれに対応する、割り当てられた重み付けＷ_１、・・・Ｗ_ｉを、融合ユニット２０２に提供する。

融合ユニット２０２は、時間的な予測Ｐ_１、・・・Ｐ_ｉを融合させて、完成された時間的予測基準PＴにする働きをする。時間的な予測Ｐ_１、・・・Ｐ_ｉを融合させて、完成された時間的予測基準PＴにするときに、融合ユニット２０２は、割り当てられた重み付けＷ_１、・・・Ｗ_ｉを用いることができる。

融合ユニット２０２は、以下の式１で与えられるような式により、時間的な予測Ｐ_１、・・・Ｐ_ｉと割り当てられた重み付けＷ_１、・・・Ｗ_ｉから、完成された時間的予測基準PＴを計算する。

時間的な画像予測機能においてシステム２００によって用いられる入力には、元のビデオシーケンス、ビデオシーケンスのフレーム間の相対的なモーションを記述するモーション推定、モーション推定の精度の測度を定めるスコア、及びビデオシーケンス中の圧縮ノイズの推定を含むことができる。システム２００の時間的な画像予測機能では、本質的に、モーション補償を行った時間的に近似するフレーム、例えば、各画像の「時間的に隣接するもの」を結合し、それにより、ノイズリダクション、インターレースの解除、及びスケーリング及び／又はアップコンバージョンのようなアプリケーションにおける高品質のビデオ処理を行う。

システム２００の時間的な画像予測機能の最初の段階は、モーション推定に基づいて時間的に隣接するものを整列させて、時間的予測基準を生成するためのモーション補償したフィルタリングに関連する。次に、時間的予測基準を融合して完成された時間的予測基準Ｐ_Ｔを形成する。重み付けの融合は、モーション予測基準の精度を推定するスコア、予測した画像圧縮ノイズ、及びモーション補償フィルタリングに基づく整列により持ち込まれたノイズを含む、種々のデータに基づくことができる。

空間的予測基準２０４は、バッファ２０３から基準フレームに関する空間的な情報にアクセスする。空間的予測基準２０４は、基準フィールド（例えば、フレーム）から空間的な予測を計算する。空間的予測基準とそれに関連づけられた重み付け（例えば、図５を参照して以下に説明したような）及び完成された時間的予測基準Ｐ_Ｔは、空間的・時間的融合ユニット２０５に供給される。空間的及び時間的予測基準に対する重み付けは、モーション推定に関するスコアと空間的予測基準の質に関するスコアとに基づく。

ビデオ画像シーケンスにおけるモーションの正確な推定は、時間的な画像予測を行うために用いられる。モーションの推定を目的として、基準フレーム（又は「基準フィールド」又は「ビデオシーケンスの１以上のフレーム」）は垂直ブロックの成分のセットのような領域に分割される。本発明の実施の形態は、事実上どのような構成にも適合する領域を持つ関数によく調和する。ブロックはここではこのような領域の例として用いられる。モーション推定は、他のフレームに関してブロック中のピクセルの動きを最も特徴づける基準フレーム中の各ブロックに対して見つけられる。基準フィールドは多くのモーション推定を有し、各モーション推定は、ブロックといろいろな、例えば、基準フレームと元の他のフレームの両方に関する異なる時間における基準フレームに続く他のフレームとの間のモーションを記述する。

モーション推定には、１以上の様々な源からアクセスすることができる。モーション推定は、直接的なモーションの推定により取得することができる。モーション推定は、これらに限定されるわけではないが、圧縮したモーションベクトル又はその他のモーション推定からの予測、空間的な改良、及びモーション推定にフィルタリングを行うことによる平滑化操作を含む技術を組み合わせて取得することもできる。

時間的予測ユニット２０１は、他のフレームから複数の時間的な予測を作るためにモーション推定を用いる。図３は、１つの実施の形態による例示的な時間的予測ユニット２０１を示す。時間的予測ユニット２０１は、重み付け生成基準３０２と機能的に結びついた、位相に基づく補間基準３０１を有する。位相に基づく補間基準３０１は、画像情報及び他のフィールド（例えば、他のフレーム）の各々のモーション推定からピクセルデータを整列させるためにモーション補償補難フィルターを用いる。補間基準３０１は、このようにして時間的予測基準として用いられるフラクショナルピクセル位相データのセットを作る。時間的予測基準重み付け関数は、重み付け生成基準３０２（モーション推定、補間フィルター位相、及び圧縮ノイズに関するスコアと関連づけられた重み付け関数を含む）により、融合する。重み付け生成基準３０２は、有益な重み付け項目から合成重みを生成する。融合基準２０２は、合成重みを用いて時間的予測基準のセットを融合させる。

第１の重み付け項目は、モーション推定に関するスコアを具備することができる。スコアは、有用であると仮定され、モーションの推定の精度に基づき予測したデータの精度の推定を行う。スコアは、差分絶対値の総和（ＳＡＤ）のような、差異に適合する直接ブロック（又は他の領域）とすることができる。スコアが低いことは、よく適合していると解釈することができる。このスコアは、（１／スコア）又は（１／スコア^２）のような、逆数関係の重みと解釈される。逆数関係は、高いスコア、例えば、時間的予測基準を結合させることによる芳しくない適合、より、低いスコア、例えば、高い重み付けを有する良い適合、に好ましい関係を与える。

モーション推定はサブピクセルモーション精度を有することが期待されること、及び予測出力の位置が、例えば、インターレースの解除及びスケーリング又はアプリケーションのアップコンバージョンが、本質的に、現在のフレームに対して相対的に任意的な位置となることの理由で、補間フィルター位相重み項目を両方に用いる。両方の場合において、補間基準３０１の補間フィルター機能は基準ピクセルをシフトさせる。実際の基準ピクセルと必要となるサブピクセルの出力位置との間に必要なシフトをここでは位相と称する。ゼロの位相は実質的にシフトがない（ゼロシフト）ことを意味する。一方、最大位相は、原則として２つの基準ピクセル間の空間的フレーム距離の半分に相当する。２つのピクセル間の距離が値Ｎのとき、最大シフトは実質的にＮ／２である。

実際の補間フィルターの帯域幅応答は、原則的に、完全ではない。従って、最小又はゼロ位相シフトにより、補間のない、あるいは、位相シフトのないピクセルの出力を生じる。この考え方から、位相シフトのない補間されていない出力ピクセルが最善な可能性となり、ここで、半分のピクセルシフトのある出力ピクセルが少なくとも望ましい。重み付け生成基準３０２により、補間基準３０１が予測される出力を生じさせるフィルターの位相に基づいて予測出力Ｐ_ｉの各々の重み付けを調整する。例えば、補間位相アプローチＮ／２だけ、重み付けを減少させる。

当然のことながら、スケーリングするアプリケーション及びインターレースの解除を行うアプリケーションに対して、所定のブロック内の各出力ピクセルは、ブロック中の他のピクセルと同じモーション推定を有するにもかかわらず、一意的な補間位相を持つことができる。従って、位相・重み付けの計算は、必要に応じて、プレピクセルベースで重み付け生成基準３０２により計算される。

基準フレームの圧縮ノイズ推定からの重み付け項目を、重み付け生成基準３０２により適用することもできる。高い圧縮ノイズを有する他のフレームは、重み付けを減少させることができる。

各時間的な予測の相対的な精度は、スコア重みの逆数（１／スコア^２）、水平位相重み及び垂直位相重み（例えば、φＷｘ及びφＷｙ）、及び圧縮ノイズ重みのそれぞれを、例えば、乗算することにより、結合することにより生成される。次いで、時間的な予測のセットが、これらの３つのうちの少なくとも１以上に少なくとも部分的に基づき結合され、完成された時間的な予測Ｐ_Ｔを生成する。

空間的予測Ｐ_Ｓは、各出力ピクセルに対して基準フレームから作られる。完成された時間的予測基準Ｐ_Ｔ及び空間的予測Ｐ_Ｓは、システム２００（図２）から完成された出力予測を具備する空間的・時間的予測を生成するために重み付けの仕組みを介して、結合される。空間的予測基準のための重み付けの仕組みは、十分な時間的情報が広い範囲で使えないとき、効率的な空間的予測基準の利用をもたらす一意的な測度である。この重み付けの仕組みは、モーション推定が十分であるとき、十分な時間的な寄与をもたらすこともできる。

基準フィールドにおける各空間的予測基準の重み付けにより、空間的予測基準は時間的な予測と結合することが可能となる。空間的予測基準の重みを生成する第１のステップとして、空間的予測「スコア」が計算される。空間的予測スコアは、フレーム領域の所定の区域に対する時間的な画像予測に関連する、空間的予測の質を定量化する。時間的な予測の質は、実際のピクセルデータとモーション推定により示された時間的データとの差に関連する。そこで、実施の形態では、以下のように、時間的な画像予測の相対的な質のスコアを定量化することができる。基準フレーム中の画像が詳細に示されていない区域は、相対的に低い、良好な時間的な予測のスコアと関連づけられることを予測することができる。逆に、基準フレーム中の詳細に示されている区域は、相対的に高いが十分であると考えることができる時間的予測基準のスコアを有する。基準フィールドのスコアは、従って、エネルギーの量又は各ブロック又は他の領域における詳細を特徴づけるために作り出される。１つの実施の形態において、時間的予測基準の質のスコアは、それにより時間的予測基準の質を評価することのできる、スライディングスケールとなる。

図４は、１つの実施の形態による例示的動作４００を示す。ブロック又は他の領域内の分散のような測度を、実施の形態によっては用いることができる。時間的な予測スコアと共に比較的厳密に補間する技術は、１つの実施の形態において、ＳＡＤ４１０に基づく。シフトしたブロック４０２に関して、基準ブロック４０１について、ＳＡＤ４１０を計算する。シフトしたブロック４０２は、本質的に元のブロック４０１であり、１ピクセル、例えば、各水平「ｘ」及び垂直「ｙ」方向（フレーム４０１及び４０２間で示した並進運動モーションに対して）だけシフトする。このシフトは、モーションが各ｘ軸及びｙ軸に沿って正確に１ピクセル離れたかどうかのモーションの推定のスコアと同等とみなす。当然のことながら、ブロックは、一例としてここに示すものであり発明を限定するものではない。実施の形態は、フレームのどの領域に対してもよく機能する。

直交関係にある単位ピクセルの距離分だけ離れたモーション推定は、原則的に、「おおざっぱに訂正した」モーション推定である。しかし、おおざっぱに訂正したモーション推定は、いくつかのアプリケーションでは十分でない。１つの実施の形態において、この精度の相違が時間的予測基準のスコアを評価する測度となる。基準フィールドのスコアは、かくして、時間的予測及び空間的予測の重み付けに影響を与えるために、増減することができる。１つの実施の形態において、基準フレームは、プレフィルターすることができ、又は、スコアの計算に先立ちノイズを減少させるための処理を行うことができる。これにより、モーション推定のスコアを作るために用いられるＳＡＤ計算を正確に近似させることができる。

図５は、１つの実施の形態に従い、時間的・空間的に融合させた成分２０５を示す。先に説明したとおり、時間的予測基準Ｐ_Ｔと空間的予測基準Ｐ_Ｓとは、時間的・空間的出力ＳＴを作り出すために、重みＷ_Ｔ及びＷ_Ｓと融合した逆数スコアを用いて、結合される。１つの実施の形態において、時間的・空間的に融合させた成分２０５は、時間的予測基準Ｐ_Ｔと空間的予測基準Ｐ_Ｓとを融合させた重み付けを、以下の式２に従い結合する

最後の出力チェックにおいて、一意的な状況についてのテストのために用いることのできる空間的予測基準と時間的予測基準を比較する。例えば、小さな対象物の速いモーション、又は、ブロック又は他の領域内の複数のモーションのような場合では、出力ピクセルは非常に異なる時間的予測基準と空間的予測基準とを有することがある。このような場合、時間的予測基準はつじつまが合っていても、空間的予測基準には食い違いが生じることがある。このため、ブロック又は他の領域のモーション推定は、それによる影響を受けた出力により、精度が失われることがある。しかし、モーション推定は、そのブロックのピクセルの大部分に対して十分正確かもしれない。このような特殊な場合では、空間的予測基準を出力として選択することができる。

（例示的なコンピュータシステムプラットフォーム）
図６は、本発明の実施の形態を組み込むことのできる例示的なコンピュータシステムプラットフォーム６００を示す。コンピュータシステム６００には、情報通信のためのバス６０２又は他の通信機構、及び、情報を処理するためのバス６０２に接続されたプロセッサ６０４（１以上のプロセッサを表す場合もある）が含まれる。コンピュータシステム６００には、プロセッサ６０４に実行させるために情報と命令を記憶しバス６０２に接続されたランダムアクセスメモリ（ＲＡＭ）又は他のダイナミック記憶装置も含まれる。メインメモリ６０６は、プロセッサ６０４が実行する命令を実行するときの一時的な変数や中間的な情報を記憶するためにも用いることができる。コンピュータシステム６００にはさらに、プロセッサ６０４への固定的な情報や命令を記憶させるためにバス６０２に接続されたリードオンリーメモリ（ＲＯＭ）６０８又は固定的な記憶装置が含まれる。磁気ディスクや光学的ディスクのような、情報や命令を記憶するために記憶装置６１０が設けられバス６０２に接続される。

コンピュータシステム６００は、コンピュータユーザに情報を表示するために、液晶ディスプレイ（ＬＣＤ）、ブラウン管（ＣＲＴ）、フラットパネルディスプレイ、その他のモニターのような、ディスプレイ６１２にバス６０２経由で接続することができる。英数字キー及びその他のキーを含む入力装置６１４が、プロセッサ６０４に情報と命令を通信するために、バス６０２に接続されている。ユーザ入力装置の他の形式として、マウス、トラックボール、又は、プロセッサ６０４に命令情報と選択指令を送信する、ディスプレイ６１２上のカーソルの動きを制御するカーソル命令キーのような、カーソル制御６１６がある。この入力装置は、一般に、装置に平面上の位置を特定させるために、第１の座標軸（例えば、ｘ）及び第２の座標軸（例えば、ｙ）の２つの軸方向に、２の自由度を持つ。

本発明は、モーション推定の平滑化のためにコンピュータシステム６００の使用に関連する。本発明の１つの実施の形態によれば、メインメモリ６０６中に含まれる１以上の命令の１以上のシーケンスを実行するプロセッサ６０４に応答して、コンピュータシステム６００により、外部から書き換え可能なクエリーがなされる。このような命令は、記憶装置６１０のような他のコンピュータ読取可能媒体からメインメモリ６０６に読み込むことができる。メインメモリ６０６中に含まれる命令のシーケンスを実行することにより、ここに記載したプロセスのステップをプロセッサ６０４に行わせる。複数処理の構成となる１以上のプロセッサを、メインメモリ６０６中に含まれる命令のシーケンスを実行するために用いることもできる。代替的な実施の形態において、ハードワイヤードの回路を、本発明を実行するためのソフトウェア命令と組み合わせて、又はソフトウェア命令の代わりに用いることもできる。これにより、本発明の実施の形態は、特定のハードウェア回路とソフトウェアの結合に限定されるものではない。

ここで用いられる用語「コンピュータ読取可能媒体」は、プロセッサ６０４に実行させるための命令を与えるために使われるあらゆる媒体を意味する。このような媒体は、これらに限定されるわけではないが、不揮発性媒体、揮発性媒体、伝達媒体を含む多くの形態をとることができる。不揮発性媒体には、例えば、記憶装置６１０のような磁気ディスクや光学的ディスクが含まれる。揮発性媒体には、メインメモリ６０６のようなダイナミックメモリが含まれる。伝達媒体には、バス６０２を形成する電線を含む、同軸ケーブル、銅線及び他の導体及び光ファイバが含まれる。伝達媒体は、ラジオデータ通信及び赤外線データ通信において生じるような音響波又は電磁波の形態をとることができる。

コンピュータ読取可能媒体の一般的形式として、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他の磁気媒体、ＣＤ−ＲＯＭ、その他の光学的媒体、パンチカード、紙テープ、その他の旧来の穿孔パターによる物理的な媒体、ＲＡＭ、ＰＲＯＭ、及びEPROM、FLASH-EPROM、その他のメモリチップ又はカートリッジ、以下に説明する搬送波、その他のコンピュータで読み取り可能な媒体が挙げられる。

種々の形式のコンピュータ読取可能媒体は、プロセッサ６０４に実行させるための１以上の命令の１以上のシーケンスの収納に用いることができる。例えば、命令をまず最初に、遠隔のコンピュータの磁気ディスクに収納しておくことができる。遠隔のコンピュータは、ダイナミックメモリに命令をロードし、この命令をモデムを用いて電話線で送ることができる。コンピュータシステム６００の近くにあるモデムは、電話線でデータを受け取り、赤外線トランスミッタを用いてデータを赤外線信号に変換することができる。バス６０２に接続した赤外線検出器は、赤外線信号により搬送されたデータを受信しそのデータをバス６０２に流す。バス６０２はメインメモリ６０６にこのデータを送り、このデータからプロセッサ６０４は命令を読取って実行する。メインメモリ６０６が受信した命令は、プロセッサ６０４が実行する前又は後のいずれかに記憶装置６１０に格納することもできる。

コンピュータシステム６００には、バス６０２に接続された通信インターフェース６１８も含まれる。通信インターフェース６１８は、ローカルネットワーク６２２に接続されたネットワークリンク６２０に接続する２方向データ通信を行う。例えば、通信インターフェース６１８は、統合サービスデジタルネットワーク（ＩＳＤＮ）カード、又はデジタル加入者回線、ケーブル、又は電話線の形式に対応するデータ通信接続を行うその他のモデムとすることができる。他の例として、通信インターフェース６１８は、ＬＡＮと互換性のあるデータ通信接続を行うローカルエリアネットワーク（ＬＡＮ）カードとすることができる。無線リンクを組み込むことも可能である。このような実施の形態のいずれにおいても通信インターフェース６１８は、種々の形式の情報を表すデジタルデータストリームを運ぶ電気的信号、電子的信号、又は光学的信号を送信及び受信する。

ネットワークリンク６２０は、通常、他のデータ装置に１以上のネットワークを介してデータ通信を行う。例えば、ネットワークリンク６２０は、ローカルネットワーク６２２を介してホストコンピュータ６２４、又は、インターネットサービスプロバイダ（ＩＳＰ）６２６が運営するデータ装置への接続を行うことができる。一方、ＩＳＰ６２６は、今では一般に“インターネット”と呼ばれる、世界的なパケットデータ通信ネットワークを介してデータ通信サービスを提供する。ローカルネットワーク６２２及びインターネット６２８はどちらも、デジタルデータストリームを運ぶ電気的、電磁的、又は光学的信号を用いる。デジタルデータをコンピュータシステム６００に運びコンピュータシステム６００から受け取る、種々のネットワークを通る信号、及びネットワークリンク８２０上の及び通信インターフェース６１８を通る信号は、情報を伝送する典型的な搬送波の形式となる。

コンピュータシステム６００は、ネットワーク、ネットワークリンク６２０、及び通信インターフェース６１８を介して、プログラムコードを含むメッセージを送ることができ、データを受け取ることができる。インターネットの例では、サーバー６３０は、インターネット６２８、ＩＳＰ６２６、ローカルネットワーク６２２、及び通信インターフェース６１８を介してアプリケーションプログラムの要求コードを伝送することができる。本発明によれば、このようなダウンロードされたアプリケーションは、ここに記載したような、モーション推定の時間的平滑化のためのアプリケーションを提供する。

受け取ったコードは、受け取ったときにプロセッサ６０４で実行することができ、及び／又は記憶装置６１０に格納すること又は、後で実行するために他の不揮発性記憶装置に格納することができる。このようにして、コンピュータシステム６００は、搬送波の形でアプリケーションコードを入手することができる。

コンピュータシステム６００は、電子装置のプラットフォームであり、又は電子装置と共に配置され、又は電子装置の１つの構成要素として実行される。コンピュータシステム６００と共に動作する装置又は設備には、これらに限定されるわけではないが、ＴＶ又はＨＤＴＶ、又は、他の光学的にエンコードされた媒体のＢＤプレーヤー又はプレーヤーアプリケーション、又は、エンコードされた磁気記憶媒体、ソリッドステート記憶媒体（例えばフラッシュメモリ）又はその他の記憶媒体、オーディオ／ビジュアル（Ａ／Ｖ）受信器、メディアサーバー（例えば、中央集中化された個人的メディアサーバー）、医学的画像処理システム、科学的画像処理システム、又は他の科学的画像処理システム、専門的なビデオ編集及び／又は処理システム、ワークステーションコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ハンドヘルドコンピュータ又は他のコンピュータ、ネットワーク通信装置及び／又は携帯電話のような計算装置、携帯情報端末（ＰＤＡ）、携帯エンターテインメント装置、携帯ゲーム装置、又はその類を含むことができる。コンピュータシステム６００の特徴の１つ以上は、その特徴を実行するよう構成した集積回路（ＩＣ）装置に組み込むことができる。ＩＣは、特定用途向け集積回路（ＡＳＩＣ）及び／又は、フィールド・プログラマブル・ゲート・アレー（ＦＰＧＡ）、又はマイクロコントローラーのような、プログラマブルＩＣ装置とすることができる。

（実施例）
１つの実施の形態における方法は、１以上の命令のシーケンスを伝達するコンピュータ読取可能媒体であって、該命令は、１以上のプロセッサに実行させたとき、該１以上のプロセッサに、ビデオシーケンスのフレームのセット中の基準フレームとして連続的に機能する１以上のフレームに対して、前記フレームセットの少なくとも１つのフレームの領域に関連する基準フレームの各領域のピクセルに関係付けられたモーションを特徴付ける基準フレームの各領域に対する第１のモーション推定であって、前記少なくとも１つのフレームは、前記フレームセットの他のフレームに対して時間的に移動することを特徴とする、モーション推定と、前記フレームセットの少なくとも２番目のフレームの領域に関連する基準フレームの各領域のピクセルに関係付けられたモーションを特徴付ける少なくとも１つの付加的なモーション推定であって、前記少なくとも２番目のフレームは、前記フレームセットの少なくとも１つのフレームから及び前記フレームセットの他のフレームから時間的に移動することを特徴とする、モーション推定と、を具備する、モーション推定のセットにアクセスするステップと、前記第１のモーション推定と前記少なくとも１つの付加的なモーション推定に対応するフレームセットについての前記基準フレーム中の領域の整列に基づき、前記フレームセットについて時間的な画像予測を行うステップと、時間的な画像予測のセットを融合するステップと、前記融合するステップに基づき、前記フレームセット全体にわたる時間的予測基準を生成するステップと、を実行させる。

１つの実施の形態における方法又はコンピュータ読取可能媒体は、１以上のビデオアプリケーションに対する時間的予測基準を提供するステップをさらに具備する。

１つの実施の形態における方法又はコンピュータ読取可能媒体は、前記基準フレームのピクセルのモーションに関連付けた少なくとも１つの値と前記少なくとも２番目のフレームとを補間するステップであって、該少なくとも１つの値にはフラクショナルピクセル位相値が含まれていることを特徴とするステップと、該補間するステップに基づき、前記１以上のフレームの少なくとも１つのピクセルに関連付けたモーション推定に、補間に基づく重み付けを割り当てるステップとをさらに具備し、前記融合するステップは、少なくとも部分的には、前記割り当てた補間に基づく重み付けに基づく前記時間的な予測を計算するステップを具備することを特徴とする。

１つの実施の形態における方法又はコンピュータ読取可能媒体は、各モーション推定に関連付けた精度を推定するステップと、関連付けた該推定に基づき、各モーション推定に精度に基づく重み付けを割り当てるステップとをさらに具備し、前記融合するステップは、少なくとも部分的には、前記割り当てた補間に基づく重み付けに基づく前記時間的な予測を計算するステップを具備することを特徴とする。

１つの実施の形態における方法又はコンピュータ読取可能媒体は、ビデオ画像シーケンス中の各フレームの圧縮に関連付けた推定ノイズ成分に基づき、圧縮ノイズに基づく重み付けを前記各モーション推定に割り当てるステップをさらに具備し、前記前記融合するステップは、少なくとも部分的には、圧縮ノイズに基づく重み付けに基づく、完成された時間的予測を計算するステップを具備することを特徴とする。

１つの実施の形態における方法又はコンピュータ読取可能媒体は、推定した圧縮ノイズ成分を推定するステップ、又は、この推定した圧縮ノイズ成分を受け取るステップをさらに具備する。

１つの実施の形態における方法又はコンピュータ読取可能媒体は、ビデオストリーム及びモーション推定のセットを受け取るステップをさらに具備する。

１つの実施の形態における方法又はコンピュータ読取可能媒体は、１以上のフレームのデータの補間に基づいて、１以上のフレームのそれぞれの空間的予測を計算するステップと、ビデオシーケンスに対応する空間的・時間的予測を生成するために前記空間的予測と複数の時間的な予測とを融合するステップとをさらに具備する。

１つの実施の形態における方法又はコンピュータ読取可能媒体は、前記空間的予測に関する精度を推定するステップと、その精度に基づき、空間的予測精度基準の重み付けを前記空間的予測に割り当てるステップとをさらに具備し、前記空間的予測と時間的予測とを融合するステップは、少なくとも部分的には、前記空間的予測精度基準の重み付けに基づくことを特徴とする。

１つの実施の形態における方法又はコンピュータ読取可能媒体において、前記モーション推定の各々は複数の値を具備し、該複数の値は、前記セグメントの１以上のフレーム間の１以上の領域に関する並進運動のモーションを記述する直交関係にある１対のベクトル成分、又は、前記セグメントの１以上のフレーム間の１以上の領域に関する回転運動のモーションを記述する角度成分、又は、前記セグメントの１以上のフレーム間の１以上の領域にアフィンモーションを記述する少なくとも６個のマッピングパラメータのうちの少なくとも１つを具備する。

１つの実施の形態における方法又はコンピュータ読取可能媒体において、前記アクセスするステップは、１以上の源からモーション推定を選択するステップを具備し、該源は、実質的に直接モーションの推定を行う源、又は、圧縮したモーション推定の源、又は、空間的に精密なモーション推定の源、又は、前記動画ビデオシーケンスの複数のフレームの各々に現れる１以上の画像の外観を基準フレームに対して基本的に整列させるモーション推定の源を具備する。

１つの実施の形態におけるシステムは、バスと、該バスに接続されたプロセッサと、該バスに接続され、少なくとも１つのプロセッサにより実行させると、該少なくとも１つのプロセッサに、前記ビデオシーケンスのフレームのセット中の基準フレームとして連続的に機能する１以上のフレームに対して、モーション推定のセットにアクセスするステップであって、該モーション推定のセットには、前記フレームセットの少なくとも１つのフレームの領域に関連する基準フレームの領域の各々のピクセルと関連付けたモーションを特徴付ける基準フレームの各領域に対する第１のモーション推定であって、該少なくとも１つのフレームは、前記フレームセットの他のフレームに関して時間的に移動させられることを特徴とする第１のモーション推定と、前記フレームセットの少なくとも２番目のフレームの領域に関連する基準フレームの領域の各々のピクセルと関連付けたモーションを特徴付ける少なくとも１つの付加的なモーション推定であって、該少なくとも２番目のフレームは、少なくとも１つのフレームから及び前記フレームセットの他のフレームから時間的に移動させられることを特徴とする付加的なモーション推定と、が含まれることを特徴とする、モーション推定のセットにアクセスするステップと、前記第１のモーション推定と前記少なくとも１つの付加的なモーション推定とに対応する、フレームセット全体にわたる基準フレーム内における領域の整列に基づいて、前記フレームセット全体にわたる時間的な画像予測のセットを予測するステップと、該画像予測のセットを融合するステップと、該融合するステップに基づき、前記フレームセット全体にわたる時間的予測基準を生成するステップと、からなるステップを実行させる命令の１以上のシーケンスを有するコンピュータ読取可能媒体と、を具備することを特徴とする。

１つの実施の形態におけるシステムは、前記少なくとも１つのプロセッサと関連付けたバッファを具備し、該バッファは、時間的に意味のある順序でビデオシーケンスのフレームを連続的に貯蔵し、前記少なくとも１つのプロセッサは、前記バッファにおけるビデオシーケンスのフレームにアクセスすることを特徴とする。

１つの実施の形態におけるシステムにおいて、前記命令は、少なくとも１つのプロセッサに、時間的な予測ユニットを機能的に構成させ、該予測ユニットは、整列するステップ及び予測するステップを実行するよう構成された補間基準であって、該補間基準には、前記基準フレームのピクセルのモーションに関連付けた少なくとも１つの値と、前記少なくとも２番目のフレームとを補完するための、値の補間基準が含まれ、前記少なくとも１つの値にはフラクショナルピクセル位相値が含まれていることを特徴とする、補間基準と、重み付け生成基準であって、該重み付け生成基準は、時間的な予測の精度、又は、前記ビデオ画像の圧縮と関連付けた推定ノイズ成分、又は、前記基準フレームと前記少なくとも２番目のフレームのピクセルのモーションと関連付けた補間であって、該補間はフラクショナルピクセル位相値を含むことを特徴とする補間、のうちの少なくとも１つに基づくモーション推定の各々に１つ以上の重み付けを割り当てるよう構成されていることを特徴とする重み付け生成基準と、を具備することを特徴とする。

１つの実施の形態におけるシステムは、前記複数のフレームの各々の画像領域の各々に関連付けた空間的予測のセットを予測するための空間的予測基準をさらに具備する。

１つの実施の形態におけるシステムでは、前記空間的予測基準は、前記空間的予測の精度に基づいて、前記空間的予測の各々に重み付けを割り当てることを特徴とする。

１つの実施の形態におけるシステムでは、前記命令は、少なくとも１つの予測融合基準のうちの少なくとも１つが、少なくとも１つの処理機能の融合を実行し処理関数を生成するような少なくとも１つの予測融合基準を少なくとも１つのプロセッサに構成させ、該少なくとも１つの予測融合基準は、時間的な画像予測のセットと空間的な画像予測セットの各予測に対応する精度の質を計算するための領域スコア計算基準と、１以上の融合基準であって、１以上の空間的予測と、複数の時間的な予測を融合するステップであって、該融合は、前記１以上の空間的予測と、複数の時間的な予測の各々に関連付けた精度の質に基づくことを特徴とするステップと、前記融合に基づいて、１以上の前記ビデオシーケンスに対応する完成された時間的な予測又は空間的・時間的予測を生成するステップと、を具備することを特徴とする１以上の融合基準と、を具備する。

１つの実施の形態における装置は、ビデオシーケンスを処理するために構成した少なくとも１つのプロセッサであって、該処理は、前記ビデオシーケンスのフレームのセット中の基準フレームとして連続的に機能する１以上のフレームに対して、前記フレームセットの少なくとも１つのフレームの領域に関する基準フレームの各領域のピクセルに関連付けたモーションを特徴付ける基準フレームの各領域に対する第１のモーション推定であって、前記少なくとも１つのフレームは前記フレームセットの他のフレームに関する時間を移動させられることを特徴とする、第１のモーション推定と、前記フレームセットの少なくとも２番目のフレームの領域に関する基準フレームの各領域のピクセルに関連付けたモーションを特徴付ける少なくとも１つの付加的なモーション推定であって、前記少なくとも２番目のフレームは前記少なくとも１つのフレーム及び前記フレームセットの他のフレームから時間的に移動させられることを特徴とする、少なくとも１つの付加的なモーション推定と、を含むモーション推定のセットにアクセスするステップと、第１のモーション推定及び少なくとも１つの付加的なモーション推定に対応する、前記フレームセット全体にわたる基準フレーム中の整列した領域に基づき、前記フレームセット全体にわたる時間的な画像予測のセットを予測するステップと、該時間的な画像予測のセットを融合するステップと、該融合するステップに基づき、前記フレームセット全体にわたる時間的予測基準を生成するステップと、を含むことを特徴とする少なくとも１つのプロセッサを具備する。

１つの実施の形態における装置は、前記１以上のフレームからのデータの補間に基づき、前記１以上のフレーム各々の空間的予測を計算するステップと、前記ビデオシーケンスに対応する空間的・時間的予測を生成するために前記時間的な予測に前記空間的予測を融合するステップと、を含むステップをさらに具備する。

１つの実施の形態における装置は、ビデオデコーダ又はエンコーダのうちの少なくとも１つ、又は、ビデオ編集装置、又は、テレビジョン、又は、少なくとも１つの付加的なエンコードされた媒体に対するプレーヤーアプリケーション、又は、エンコードされた記憶媒体に対するプレーヤーアプリケーション、又は、ストリーミングデジタル信号に対するプレーヤーアプリケーション、又は、画像処理アプリケーションからの情報を生成するためのモニター、又は、携帯通信装置、又は、携帯エンターテインメント装置、又は、オーディオ／ビデオ受信装置、又は、メディアサーバー、又は、医学画像処理装置、又は、ゲームプレーイング装置、のうちの少なくとも１つをさらに具備する。

１つの実施の形態におけるシステムは、ビデオ画像のシーケンス中の１以上のフレームに対するモーション推定のセットにアクセスする手段であって、該モーション推定のセットは、前記フレームセットの少なくとも１つのフレームの領域に関する基準フレームの各領域のピクセルに関連付けたモーションを特徴付ける基準フレームの各領域に対する第１のモーション推定であって、前記少なくとも１つのフレームは前記フレームセットの他のフレームに対して時間的に移動させられることを特徴とする、第１のモーション推定と、前記フレームセットの少なくとも２番目のフレームの領域に関する基準フレームの各領域のピクセルに関連付けたモーションを特徴付ける少なくとも１つの付加的なモーション推定であって、前記少なくとも２番目のフレームは前記少なくとも１つのフレーム及び前記フレームセットの他のフレームから時間的に移動させられることを特徴とする、少なくとも１つの付加的なモーション推定と、を含むことを特徴とするモーション推定のセットにアクセスする手段と、第１のモーション推定及び少なくとも１つの付加的なモーション推定に対応する、前記フレームセット全体にわたる基準フレーム中の整列した領域に基づき、前記フレームセット全体にわたる時間的な画像予測のセットを予測する手段と、前記時間的な画像予測のセットを融合する手段と、該融合するステップに基づき、前記フレームセット全体にわたる時間的予測基準を生成する手段と、を含むことを特徴とするモーション推定のセットにアクセスする手段を具備する。

１つの実施の形態におけるシステムは、前記１以上のフレームからのデータの補間に基づいて、前記１以上のフレームの各々に対して空間的予測を計算する手段と、前記ビデオシーケンスに対応する空間的・時間的予測を生成するために前記時間的な予測に前記空間的予測を融合する手段と、をさらに具備する。

１つの実施の形態におけるシステムは、フィルター機能に基づき前記基準フレームと前記少なくとも２番目のフレームのピクセルのモーションと関連付けた値を補間するための手段であって、該値は、フラクショナルピクセル位相値を含むことを特徴とする手段と、重み付け値を生成するための少なくとも１つの手段であって、該重み付け値は、前記時間的な予測の精度、又は、前記ビデオ画像の圧縮に関連付けた推定されるノイズ成分、又は、前記基準フレームと前記少なくとも２番目のフレームのピクセルのモーションと関連付けた値を補間であって、該補間にはフラクショナルピクセル位相値が含まれることを特徴とする補間、又は、前記空間的予測に関連付けた精度、のうちの少なくとも１つが含まれることを特徴とする、重み付け値を生成するための少なくとも１つの手段と、を具備する。

（拡張、等価物、代替物、その他）
前記説明において本発明の実施の形態を、実施形態毎に異なる具体的な詳細を参照しながら説明している。従って、本発明の出願が意図するものは、本発明を、唯一かつ排他的に規定し、その後の補正を含めて具体的に記載した、この出願が発行する特許請求の範囲である。このような特許請求の範囲に含まれる用語を説明するためにここに記載した定義は、特許請求の範囲で使われる用語の意味を規定する。従って、特許請求の範囲に明示していない限定、要素、特性、外観、効果、及び、属性は、いかなる意味でもこの特許請求の範囲を限定するものではない。従って、本明細書及び図面は、限定のためではなく説明のためのものである。

Claims

ビデオシーケンスの画像を処理する方法であって、
ビデオシーケンスのフレームのセット中の基準フレームとして連続的に機能する１以上のフレームに対して、
前記フレームセットの最初のフレームの領域に関連する基準フレームの各領域のピクセルに関係付けられたモーションを特徴付ける基準フレームの各領域に対する第１のモーション推定であって、前記最初のフレームは、前記フレームセットの他のフレームに対して時間的に移動させられることを特徴とする、モーション推定と、
前記フレームセットの２番目のフレームの領域に関連する基準フレームの各領域のピクセルに関係付けられたモーションを特徴付ける少なくとも２番目のモーション推定であって、前記２番目のフレームは、前記フレームセットの最初のフレームから及び前記フレームセットの他のフレームから時間的に移動させられることを特徴とする、モーション推定と、
を具備する、モーション推定のセットにアクセスするステップと、
前記第１のモーション推定と前記２番目の付加的なモーション推定に対応するフレームセット全体にわたる前記基準フレーム中の領域の整列に基づき、前記フレームセット全体にわたる時間的な画像予測を行うステップと、
時間的な画像予測のセットを融合するステップと、
前記融合するステップに基づき、前記フレームセット全体にわたる時間的予測基準を生成するステップと、
を具備することを特徴とする、ビデオシーケンスの画像を処理する方法。
１以上のビデオアプリケーションに対する時間的予測基準を提供するステップをさらに具備することを特徴とする、請求項１に記載の方法。
前記基準フレームのピクセルのモーションに関連付けた少なくとも１つの値と前記２番目のフレームとを補間するステップであって、該少なくとも１つの値にはフラクショナルピクセル位相値が含まれていることを特徴とするステップと、
該補間するステップに基づき、前記１以上のフレームのピクセルに関連付けたモーション推定に、補間に基づく重み付けを割り当てるステップと、
をさらに具備し、
前記融合するステップは、少なくとも部分的には、前記割り当てた補間に基づく重み付けに基づく前記時間的な予測を計算するステップを具備することを特徴とする、請求項１に記載の方法。
各モーション推定に関連付けた精度を推定するステップと、
関連付けた該推定に基づき、各モーション推定に、精度に基づく重み付けを割り当てるステップと、
をさらに具備し、
前記融合するステップは、少なくとも部分的には、前記割り当てた、精度に基づく重み付けに基づく前記時間的な予測を計算するステップを具備することを特徴とする、請求項１に記載の方法。
ビデオ画像シーケンス中の各フレームの圧縮に関連付けた推定ノイズ成分に基づき、圧縮ノイズに基づく重み付けを前記各モーション推定に割り当てるステップをさらに具備し、
前記前記融合するステップは、少なくとも部分的には、圧縮ノイズに基づく重み付けに基づく、完成された時間的予測を計算するステップを具備することを特徴とする、請求項１に記載の方法。
推定した圧縮ノイズ成分を推定するステップ、又は、
該推定した圧縮ノイズ成分を受け取るステップ、
をさらに具備することを特徴とする、請求項５に記載の方法。
ビデオストリーム及びモーション推定のセットを受け取るステップをさらに具備することを特徴とする、請求項１に記載の方法。
１以上のフレームのデータの補間に基づいて、１以上のフレームの各々の空間的予測を計算するステップと、
ビデオシーケンスに対応する空間的・時間的予測を生成するために前記空間的予測と複数の時間的な予測とを融合するステップと、
をさらに具備することを特徴とする、請求項１に記載の方法。
前記空間的予測に関する精度を推定するステップと、
その精度に基づき、空間的予測精度基準の重み付けを前記空間的予測に割り当てるステップと、
をさらに具備し、
前記空間的予測と時間的予測とを融合するステップは、少なくとも部分的には、前記空間的予測精度基準の重み付けに基づくことを特徴とする、請求項８に記載の方法。
前記モーション推定の各々は複数の値を具備し、
該複数の値は、
前記フレームセットの１以上のフレーム間の１以上の領域に関する並進運動のモーションを記述する直交関係にある１対のベクトル成分、又は、
前記フレームセットの１以上のフレーム間の１以上の領域に関する回転運動のモーションを記述する角度成分、又は、
前記フレームセットの１以上のフレーム間の１以上の領域にアフィンモーションを記述する少なくとも６個のマッピングパラメータ、
のうちの少なくとも１つを具備することを特徴とする、請求項１に記載の方法。
前記アクセスするステップは、１以上の源からモーション推定を選択するステップを具備し、該源は、
実質的に直接モーションの推定を行う源、又は、
圧縮したモーション推定の源、又は、
空間的に精密なモーション推定の源、又は、
前記動画ビデオシーケンスの複数のフレームの各々に現れる１以上の画像の外観を基準フレームに対して基本的に整列させるモーション推定の源、
を具備することを特徴とする、請求項１に記載の方法。
ビデオ信号を処理するコンピュータシステムであって、
バスと、
該バスに接続されたプロセッサと、
該バスに接続され、少なくとも１つのプロセッサにより実行させると、該少なくとも１つのプロセッサに、前記ビデオシーケンスのフレームのセット中の基準フレームとして連続的に機能する１以上のフレームに対して、モーション推定のセットにアクセスするステップであって、該モーション推定のセットには、
前記フレームセットの最初のフレームの領域に関連する基準フレームの領域の各々のピクセルと関連付けたモーションを特徴付ける基準フレームの各領域に対する第１のモーション推定であって、該最初のフレームは、前記フレームセットの他のフレームに関して時間的に移動させられることを特徴とする第１のモーション推定と、
前記フレームセットの２番目のフレームの領域に関連する基準フレームの領域の各々のピクセルと関連付けたモーションを特徴付ける少なくとも２番目のモーション推定であって、該２番目のフレームは、前記フレームセットの最初のフレームから及び前記フレームセットの他のフレームから時間的に移動させられることを特徴とする付加的なモーション推定と、
が含まれることを特徴とする、モーション推定のセットにアクセスするステップと、
前記第１のモーション推定と前記２番目のモーション推定とに対応する、フレームセット全体にわたる基準フレーム内における領域の整列に基づいて、前記フレームセット全体にわたる時間的な画像予測のセットを予測するステップと、
該画像予測のセットを融合するステップと、
該融合するステップに基づき、前記フレームセット全体にわたる時間的予測基準を生成するステップと、
からなるステップを実行させる命令の１以上のシーケンスを有するコンピュータ読取可能媒体と、
を具備することを特徴とする、ビデオ信号を処理するコンピュータシステム
前記システムは、
前記少なくとも１つのプロセッサと関連付けたバッファを具備し、
該バッファは、時間的に意味のある順序でビデオシーケンスのフレームを連続的に貯蔵し、
前記少なくとも１つのプロセッサは、前記バッファにおけるビデオシーケンスのフレームにアクセスすることを特徴とする、請求項１２に記載のシステム。
前記命令は、少なくとも１つのプロセッサに、時間的な予測ユニットを機能的に構成させ、該予測ユニットは、
整列するステップ及び予測するステップを実行するよう構成された補間基準であって、
該補間基準には、前記基準フレームのピクセルのモーションに関連付けた少なくとも１つの値と、前記２番目のフレームとを補完するための、値の補間基準が含まれ、前記少なくとも１つの値にはフラクショナルピクセル位相値が含まれていることを特徴とする、補間基準と、
重み付け生成基準であって、
時間的な予測の精度、又は、
前記ビデオ画像の圧縮と関連付けた推定ノイズ成分、又は、
前記基準フレームと前記２番目のフレームのピクセルのモーションと関連付けた補間であって、該補間はフラクショナルピクセル位相値を含むことを特徴とする補間、
のうちの少なくとも１つに基づくモーション推定の各々に１つ以上の重み付けを割り当てるよう構成されていることを特徴とする重み付け生成基準と、
を具備することを特徴とする、請求項１２に記載のシステム。
前記複数のフレームの各々の画像領域の各々に関連付けた空間的予測のセットを予測するための空間的予測基準をさらに具備することを特徴とする、請求項１２に記載のシステム。
前記空間的予測基準は、前記空間的予測の精度に基づいて、前記空間的予測の各々に重み付けを割り当てることを特徴とする、請求項１５に記載のシステム。
前記命令は、１以上の予測融合基準のうちの少なくとも１つが、少なくとも１つの処理機能の融合を実行し処理関数を生成するような少なくとも１つの予測融合基準を少なくとも１つのプロセッサに構成させ、該１以上の予測融合基準は、
時間的な画像予測のセットと空間的な画像予測セットの各予測に対応する精度の質を計算するための領域スコア計算基準と、
１以上の融合基準であって、
１以上の空間的予測と、複数の時間的な予測を融合するステップであって、
該融合は、前記１以上の空間的予測と、複数の時間的な予測の各々に関連付けた精度の質に基づくことを特徴とするステップと、
前記融合に基づいて、１以上の前記ビデオシーケンスに対応する完成された時間的な予測又は空間的・時間的予測を生成するステップと、
を具備することを特徴とする１以上の融合基準と、
を具備することを特徴とする、請求項１６に記載のシステム。
ビデオ処理装置であって、
ビデオシーケンスを処理するために構成した少なくとも１つのプロセッサであって、該処理は、
前記ビデオシーケンスのフレームのセット中の基準フレームとして連続的に機能する１以上のフレームに対して、
前記フレームセットの最初のフレームの領域に関する基準フレームの各領域のピクセルに関連付けたモーションを特徴付ける基準フレームの各領域に対する第１のモーション推定であって、前記最初のフレームは前記フレームセットの他のフレームに対して時間的に移動させられることを特徴とする、第１のモーション推定と、
前記フレームセットの２番目のフレームの領域に関する基準フレームの各領域のピクセルに関連付けたモーションを特徴付ける少なくとも２番目のモーション推定であって、前記２番目のフレームは、前記フレームセットの最初のフレーム及び前記フレームセットの他のフレームから時間的に移動させられることを特徴とする、少なくとも１つの付加的なモーション推定と、
を含むモーション推定のセットにアクセスするステップと、
第１のモーション推定と２番目の付加的なモーション推定に対応する、前記フレームセット全体にわたる基準フレーム中の整列した領域に基づき、前記フレームセット全体にわたる時間的な画像予測のセットを予測するステップと、
該時間的な画像予測のセットを融合するステップと、
該融合するステップに基づき、前記フレームセット全体にわたる時間的予測基準を生成するステップと、
を含むことを特徴とする少なくとも１つのプロセッサ、
を具備することを特徴とするビデオ処理装置。
前記１以上のフレームからのデータの補間に基づき、前記１以上のフレーム各々の空間的予測を計算するステップと、
前記ビデオシーケンスに対応する空間的・時間的予測を生成するために前記時間的な予測に前記空間的予測を融合するステップと、
を含むステップをさらに具備することを特徴とする、請求項１８に記載のビデオ処理装置。
ビデオデコーダ又はエンコーダのうちの少なくとも１つ、又は、
ビデオ編集装置、又は、
テレビジョン、又は、
少なくとも１つの付加的なエンコードされた媒体に対するプレーヤーアプリケーション、又は、
エンコードされた記憶媒体に対するプレーヤーアプリケーション、又は、
ストリーミングデジタル信号に対するプレーヤーアプリケーション、又は、
画像処理アプリケーションからの情報を生成するためのモニター、又は、
携帯通信装置、又は、
携帯エンターテインメント装置、又は、
オーディオ／ビデオ受信装置、又は、
メディアサーバー、又は、
医学画像処理装置、又は、
ゲームプレーイング装置、
のうちの少なくとも１つをさらに具備することを特徴とする、請求項１９に記載のビデオ処理装置。
エンコードした命令を有するコンピュータ読み取り可能な記憶媒体であって、コンピュータシステムの１以上のプロセッサに実行させると、該命令は前記ビデオシーケンスのフレームのセット中の基準フレームとして連続的に機能する１以上のフレームに対して、
モーション推定のセットにアクセスするステップであって、該モーション推定のセットには、
前記フレームセットの最初のフレームの領域に関連する基準フレームの領域の各々のピクセルと関連付けたモーションを特徴付ける基準フレームの各領域に対する第１のモーション推定であって、前記最初のフレームは、前記フレームセットの他のフレームに関して時間的に移動させられることを特徴とする第１のモーション推定と、
前記フレームセットの２番目のフレームの領域に関連する基準フレームの領域の各々のピクセルと関連付けたモーションを特徴付ける少なくとも２番目のモーション推定であって、前記２番目のフレームは、前記フレームセットの最初のフレームから及び前記フレームセットの他のフレームから時間的に移動させられることを特徴とする付加的なモーション推定と、
が含まれることを特徴とする、モーション推定のセットにアクセスするステップと、
前記第１のモーション推定と前記２番目のモーション推定とに対応する、フレームセット全体にわたる基準フレーム内における領域の整列に基づいて、前記フレームセット全体にわたる時間的な画像予測のセットを予測するステップと、
時間的な画像予測のセットを融合するステップと、
該融合するステップに基づき、前記フレームセット全体にわたる時間的予測基準を生成するステップと、
を上記プロセッサに実行させることを特徴とするコンピュータ読み取り可能な記憶媒体。
前記エンコードした命令は、コンピュータシステムの前記少なくとも１つのプロセッサに実行させると、
前記１以上のフレームからのデータの補間に基づいて、前記１以上のフレームの各々に対して空間的予測を計算するステップと、
前記ビデオシーケンスに対応する空間的・時間的予測を生成するために前記複数の時間的な予測に前記空間的予測を融合するステップと、
を、上記少なくとも１つのプロセッサに実行させることを特徴とする請求項２１に記載のコンピュータ読み取り可能な記憶媒体。
モーション推定のセットにアクセスする手段であって、該モーション推定のセットには、
前記フレームセットの最初のフレームの領域に関連する基準フレームの領域の各々のピクセルと関連付けたモーションを特徴付ける基準フレームの各領域に対する第１のモーション推定であって、前記最初のフレームは、前記フレームセットの他のフレームに関して時間的に移動させられることを特徴とする第１のモーション推定と、
前記フレームセットの２番目のフレームの領域に関連する基準フレームの領域の各々のピクセルと関連付けたモーションを特徴付ける少なくとも２番目のモーション推定であって、前記２番目のフレームは、前記フレームセットの最初のフレームから及び前記フレームセットの他のフレームから時間的に移動させられることを特徴とする付加的なモーション推定と、
を具備する、モーション推定のセットにアクセスする手段と、
前記第１のモーション推定と前記２番目のモーション推定に対応する、フレームセット全体にわたる基準フレーム内における領域の整列に基づいて、前記フレームセット全体にわたる時間的な画像予測を行う手段と、
該画像予測のセットを融合する手段と、
該融合するステップに基づき、前記フレームセット全体にわたる時間的予測基準を生成する手段と、
を具備するシステム。
前記１以上のフレームからのデータの補間に基づいて、前記１以上のフレームの各々に対して空間的予測を計算する手段と、
前記ビデオシーケンスに対応する空間的・時間的予測を生成するために前記時間的な予測に前記空間的予測を融合する手段と、
をさらに具備することを特徴とする請求項２３に記載のシステム。
フィルター機能に基づき前記基準フレームと前記２番目のフレームのピクセルのモーションと関連付けた値を補間するための手段であって、該値は、フラクショナルピクセル位相値を含むことを特徴とする手段と、
重み付け値を生成するための少なくとも１つの手段であって、該重み付け値は、
前記時間的な予測の精度、又は、
前記ビデオ画像の圧縮に関連付けた推定されるノイズ成分、又は、
前記基準フレームと前記２番目のフレームのピクセルのモーションと関連付けた値を補間であって、該補間にはフラクショナルピクセル位相値が含まれることを特徴とする補間、又は、
前記空間的予測に関連付けた精度、
のうちの少なくとも１つが含まれることを特徴とする、重み付け値を生成するための少なくとも１つの手段と、
を具備することを特徴とする請求項２４に記載の方法。