JP5089608B2

JP5089608B2 - 視覚信号の補外または補間のためのシステムおよび方法

Info

Publication number: JP5089608B2
Application number: JP2008549007A
Authority: JP
Inventors: ルー、リギャン; シェイニン、ヴァディム
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-01-06
Filing date: 2007-01-03
Publication date: 2012-12-05
Anticipated expiration: 2027-01-03
Also published as: US7965774B2; US20110164682A1; US8594201B2; CN101361369B; JP2009522892A; WO2007077243A2; US20070160144A1; WO2007077243A3; CN101361369A

Description

本発明は、一般に、視覚信号の補外（extrapolation）または補間（interpolation）のためのシステムおよび方法に関する。より具体的に言えば、本発明は、改良された視覚信号の補外または補間のために統計的類似性推定（statistic similarity estimation）を採用する。

イメージ、ビデオ、およびグラフィックスなどの視覚信号の補外および補間は、ビデオ・コーディング、トランスコーディング、エラー隠蔽（error concealment）、前処理、および対話型レンダリングなどを含むが、これらに限定されることのない、様々なコンテキストで、幅広く使用されてきた。

たとえば、ビデオ・コーディング応用例での補外および補間のための技法は、Aaron等によるTowardPractical Wyner-Ziv Coding of Video, PROC. IEEE INT. CONF ON IMAGE PROCESSING、８６９〜８７２ページ、スペイン、バルセロナ、Spet.（２００３年）、Puri等によるPRISM: A New Robust Video Coding Architecture based on DistributedCompression Principles, ALLERTON CONFERENCE ON COMMUNICATION, CONTROL ANDCOMPUTING（２００２年）、およびYaman等によるA Low-Complexity Video Encoder withDecoder Motion Estimation, Proc. ICASSP、カナダ、モントリオール（２００４年）に記載されている。トランスコーディング応用例での補外および補間のための技法は、２０００年５月２日発行のGolinへの「Motion VectorExtrapolation for Transcoding Video Sequences」という名称の米国特許第６０５８１４３号に記載されている。さらにビデオ・デコーディングのためのエラー隠蔽または後処理の応用例での補外および補間のための技法は、Peng等によるBlock-BasedTemporal Error Concealment for Video Packet Using Motion Vector Extrapolation,International Conf on Communications, Circuits, Systems and West Sino Expo、１０〜１４ページ、６月２９日〜７月１日（２００２年）、および、２００１年９月４日発行のOzcelikへの「Methods and Apparatus for Error ConcealmentWhile Decoding a Coded Video Bit Stream」という名称の米国特許第６２８５７１５号に記載されている。ビデオ・コーディング、トランスコーディング、エラー隠蔽、ビデオ・デコーディング、および後処理の応用例で使用される視覚信号の補外および補間の方法は、通常、運動情報に基づくため、それぞれ、運動ベース補外法および運動ベース補間法と呼ばれる。

通常は他の応用例で使用される、非運動ベース補外／補間法は、仮想現実レンダリングに使用されるモデルベースのビュー補外法、事前圧縮に使用されるフィーチャ補外法、およびビデオ・フェーディング・シーン予測法を含む。たとえば、モデルベースのビュー補外法は、２００２年４月２３日発行のAcresへの「Model-BasedView Extrapolation for Interactive Virtual Reality Systems」という名称の米国特許第６３７５５６７号に記載されている。フィーチャ補外法は、１９９９年９月７日発行のChenへの「PrecompressionExtrapolation Method」という名称の米国特許第５９４９９１９号に記載されている。ビデオ・フェーディング・シーン予測は、Koto等によるAdaptiveBi-Predictive Video Coding Temporal Extrapolation, ICIP（２００３年）に記載されている。

運動ベースの補外／補間法の一例が、Ｗｙｎｅｒ−Ｚｉｖビデオ・コーディング技法である。典型的なＷｙｎｅｒ−Ｚｉｖビデオ・コーディング・システムは、ビデオ・エンコーダおよびビデオ・デコーダを含む。ビデオ・エンコーダは、低複雑度および低パワーのエンコーダであるため、運動推定などの計算量の多い信号処理タスクは、代わりにデコーダが実施する。高い効率を達成するため、Ｗｙｎｅｒ−Ｚｉｖデコーダは、デコーダのみが知っているソース情報とサイド情報との間の相関を活用して、受け取ったビデオ信号をデコードし、ビデオを再構築する必要がある。ソース情報とは、エンコーダ側でエンコードされ、デコーディングのためにデコーダに伝送される、ビデオ信号（たとえばピクチャ）であり、サイド情報とは、本質的に、デコードされるピクチャの推定である。Ｗｙｎｅｒ−Ｚｉｖシステムの性能は、サイド情報の信頼性に大きく依存するため、サイド情報を生成するためにデコーダによって使用される機構は、Ｗｙｎｅｒ−Ｚｉｖビデオ・コーディング・システムにおいて非常に重大な役割を果たす。通常、第１にデコーダは、運動ベクトルのセットを生成するために、以前に再構築されたピクチャ上で運動推定を実行し、その後、こうした運動ベクトルを使用して、補外または補間によって現在デコードされているピクチャの推定を生成する。この推定が、現行ピクチャのデコーディングおよび再構築のために、デコーダによってサイド情報として使用される。

図１は、当分野で周知の運動ベースの時間的補外プロセスを示す図である。具体的に言えば、現行ピクチャＮを補外するために、第１に、以前に再構築された少なくとも２つのピクチャ、すなわちピクチャＮ−２およびＮ−１上で、ピクチャＮ−１とピクチャＮ−２の間のピクセルまたはピクセル・ブロックの運動（すなわち「逆」運動）を示す、ピクチャＮ−１内の各ピクセルまたはピクセル・ブロックに関する運動ベクトルのセットを生成するために、運動推定が実行される。次に、基礎となる運動モデルまたは想定に基づいて確立された所定の関数に従って、この運動ベクトルが操作される。たとえば、一定線形変位運動モデルが想定される場合、運動ベクトルは逆であり、図１に示されるように、運動ベクトルに関連付けられたピクセルまたはピクセル・ブロックは、ピクチャＮ−１内のその位置から、現行ピクチャＮの推定において逆運動ベクトルによって定義された位置へと、補外（すなわちマッピング）される。運動ベクトルは、ピクチャＮ−２とピクチャＮ−１との間の運動を示すために、ピクチャＮ−２内の各ピクセルまたはピクセル・ブロックに関して構築することも可能であることに留意されたい。こうした発生事象では、その後、運動ベクトルがシフトされ、運動ベクトルに関連付けられたピクセルまたはピクセル・ブロックが、ピクチャＮ−１内のその位置から、現行ピクチャＮの推定においてスケーリング済み運動ベクトルによって定義された位置へと、補外またはマッピングされるものとする。したがって、前述の運動ベースの時間的補外プロセスは、ピクチャＮ−１（またはピクチャＮ−２）内のすべてのピクセルまたはピクセル・ブロックがマッピングされた後に、現行ピクチャＮの推定を作成する。

図２は、周知の運動ベースの時間的補間プロセスをさらに示す図である。第１に、以前に再構築された少なくとも２つのピクチャ、すなわちピクチャＮ−１およびＮ＋１上で、ピクチャＮ−１からピクチャＮ＋１へのピクセルまたはピクセル・ブロックの運動を示す、ピクチャＮ−１内の各ピクセルまたはピクセル・ブロックに関する運動ベクトルのセットを取得するために、運動推定が実行される。次に、一定線形変位運動モデルに関する基礎となる想定に基づいて、運動ベクトルが（たとえば２分の１に）縮小され、図２に示されるように、運動ベクトルに関連付けられたピクセルまたはピクセル・ブロックが、ピクチャＮ−１あるいはＮ＋１またはそれら両方内のそれらの位置から、現行ピクチャＮの推定においてスケーリング済み運動ベクトルによって定義された位置へと、補間される。運動ベクトルは、ピクチャＮ＋１とピクチャＮ−１との間の運動を示すために、ピクチャＮ＋１内の各ピクセルまたはピクセル・ブロックに関して構築することも可能であることに留意されたい。こうした発生事象では、運動ベクトルは、（たとえば２分の１に）縮小され、運動ベクトルに関連付けられたピクセルまたはピクセル・ブロックは、ピクセルＮ−１あるいはピクチャＮ＋１またはその両方内のそれらの位置から、現行ピクチャＮの推定においてスケーリング済み運動ベクトルによって定義された位置へと、補間されるものとする。前述のような運動ベースの時間的補間プロセスは、ピクチャＮ＋１（またはピクチャＮ−１）内のすべてのピクセルまたはピクセル・ブロックがマッピングされた後に、現行ピクチャＮの推定も作成する。

図３は、周知の運動ベースの補外および補間を達成するために使用される処理ステップを示す流れ図である。具体的に言えば、第１に、運動ベクトルのセットを生成するために、以前に再構築されたピクチャから取得されたピクチャ信号上で、運動推定が実行される。次にこの運動ベクトルは、デコードされるピクチャと以前に再構築されたピクチャとの間の時間的関係に依存して、補外または補間のいずれかによってデコードされるピクチャの推定を生成するために、基礎となる運動モデルまたは想定に従って操作される。

前述の従来の運動ベースの補外法および補間法には、以下を含むいくつかの重大な欠点がある。

１．オブジェクトはピクチャ間で一定運動モデル（通常は一定線形変位モデル）に追従するという基礎となる想定が、実際の視覚信号の場合は当てはまらない。

２．補外または補間の結果、以前に再構築されたピクチャと推定ピクチャとの間で、１対１のマッピングが生じない場合がある。補外または補間されたピクチャ（すなわち推定）内のいくつかのピクセル位置は、以前に再構築されたピクチャからいかなるマッピングも取得しない、すなわち空の穴を残す場合があるが、補外または補間されたピクチャ内の他のピクセル位置は、以前に再構築されたピクチャからの多重マッピングを有する、すなわち重畳スポットを残す場合がある。
米国特許第６０５８１４３号米国特許第６２８５７１５号米国特許第６３７５５６７号米国特許第５９４９９１９号 Aaron等によるTowardPractical Wyner-Ziv Coding of Video, PROC. IEEE INT. CONF ON IMAGE PROCESSING、８６９〜８７２ページ、スペイン、バルセロナ、Spet.（２００３年） Puri等によるPRISM: A NewRobust Video Coding Architecture based on Distributed Compression Principles,ALLERTON CONFERENCE ON COMMUNICATION, CONTROL AND COMPUTING（２００２年） Yaman等によるALow-Complexity Video Encoder with Decoder Motion Estimation, Proc. ICASSP、カナダ、モントリオール（２００４年） Koto等によるAdaptiveBi-Predictive Video Coding Temporal Extrapolation, ICIP（２００３年）

したがって、従来の運動ベースの補外法および補間法の欠点なしに視覚信号を補外および補間するための、改良されたシステムおよび方法を提供することが望ましい。

本発明は、
少なくとも第１および第２の基準ピクチャを提供するステップと、
第１および第２の基準ピクチャのうちの少なくとも１つの、他方に対する動きを示す運動ベクトルを生成するために、第１および第２の基準ピクチャ上で運動推定を実行するステップと、
運動ベクトルを使用して、第１あるいは第２またはその両方の基準ピクチャから、補外または補間によって推定ピクチャを生成するステップと、
推定ピクチャを詳細化するステップと、
を含み、
運動推定または推定ピクチャの詳細化のいずれか、またはその両方の組み合わせにおいて、統計的類似性推定が使用される、
視覚信号の補外または補間のためのコンピュータ・ベースの方法を対象とする。

本発明で使用される基準ピクチャは、補外または補間によって推定ピクチャを構築するために使用可能な、以前に再構築されたピクチャである。

運動推定に統計的類似性推定が使用される場合、第１の基準ピクチャ上のピクセル・ブロックの統計的特徴が計算され、第２の基準ピクチャ上の１つまたは複数のピクセル・ブロックの統計的特徴と比較される。次に、第１の基準ピクチャ上のピクセル・ブロックに対するその統計的類似性に少なくとも部分的に基づいて、第２の基準ピクチャ上で最高に合致するピクセル・ブロックが決定され、第２の基準ピクチャ上で最高に合致するピクセル・ブロックに対するその動きを示す、第１の基準ピクチャ上のピクセル・ブロックに関する運動ベクトルが生成される。

統計的類似性推定が推定ピクチャを詳細化するために使用される場合、推定ピクチャ上の空のピクセル位置を満たすため、または、推定ピクチャ上の同じピクセル位置への多重マッピングを解決するために、使用することができる。

好ましくは、推定ピクチャ上の空のピクセル位置を満たすために、
推定ピクチャ上の空のピクセル位置を取り囲む隣接ブロックに関する統計的特徴を計算するステップと、
推定ピクチャの生成元である基準ピクチャ上で検索領域を識別するステップと、
検索領域内で最高に合致するブロックを検索するステップであって、最高に合致するブロックが、基準ピクチャ上の特定のピクセルを取り囲み、推定ピクチャ上の空のピクセル位置を取り囲む隣接ブロックに対する最高の統計的類似性を有する、検索するステップと、
空のピクセル位置を、基準ピクチャ上の最高に合致するブロックによって取り囲まれた特定のピクセルで満たすステップと、
が実行されるが、この限りではない。

多重マッピングのイベントでは、すなわち、推定ピクチャの生成元である基準ピクチャ上に複数のピクセルが存在し、それらすべてが推定ピクチャ上の特定ピクセル位置に補外または補間する場合、好ましくは、推定ピクチャ上の特定ピクセルに関して最高に合致するピクセルを選択するために、
推定ピクチャ上の特定ピクセル位置を取り囲む隣接ブロックに関する統計的特徴を計算するステップと、
それぞれが基準ピクチャ上の複数ピクセルのうちの１つを取り囲む、複数のピクセル・ブロックに関する統計的特徴を計算するステップと、
基準ピクチャ上の複数ピクセルを取り囲む複数ブロックの中で最高に合致するブロックを識別するステップであって、この最高に合致するブロックが、推定ピクチャ上の特定ピクセル位置を取り囲む隣接ブロックに対する最高の統計的類似性を有する、識別するステップと、
基準ピクチャ上の最高に合致するブロックによって取り囲まれたピクセルを、推定ピクチャ上の特定ピクセル位置に関する最高に合致するピクセルとして選択するステップと、
が実行されるが、この限りではない。

本発明で使用可能な統計的特徴は、ブロック・サンプル平均、ブロック・サンプル分散（variance）、隣接パラメータなどを含むが、これらに限定されることはない。

好ましいが必須ではない本発明の実施形態では、２つのピクセル・ブロック間の統計的類似性は、以下の式に従って統計的類似性指数を計算することによって決定され、

上式で、Ｐはピクセル・ブロックの１つであり、Ｑは他のピクセル・ブロックであり、ＳＳＩ（Ｐ，Ｑ）はブロックＰとＱの間の統計的類似性を示す統計的類似性指数であり、μ（Ｐ）はブロックＰのブロック・サンプル平均であり、μ（Ｑ）はブロックＱのブロック・サンプル平均であり、Ｖａｒ（Ｐ）はブロックＰのブロック・サンプル分散であり、Ｖａｒ（Ｑ）はブロックＱのブロック・サンプル分散であり、Ｃｏｖ（Ｐ，Ｑ）はブロックＰとＱの間の共分散であり、αおよびβは重み付け係数である。

前述の統計的類似性指数は、運動推定のため、推定ピクチャ上で空のピクセルを満たすため、あるいは、多重マッピング問題を解決するため、またはそれらすべてに、使用することが可能である。

本発明の他の態様は、
少なくとも第１および第２の基準ピクチャを取得および格納するための手段と、
第１および第２の基準ピクチャのうちの少なくとも１つの、他方に対する動きを示す運動ベクトルを生成するために、第１および第２の基準ピクチャ上で運動推定を実行するための手段と、
運動ベクトルを使用して、第１または第２の基準ピクチャから、補外または補間によって推定ピクチャを生成するための手段と、
推定ピクチャを詳細化するための手段と、
を備え、
運動推定または推定ピクチャの詳細化のいずれか、またはその両方の組み合わせにおいて、統計的類似性推定が使用される、
視覚信号の補外または補間のためのコンピュータ・ベースのシステムに関する。

本発明の他の態様、特徴、および利点については、以下の開示および添付の特許請求の範囲から、より完全に明らかになろう。

次に、本発明について、添付の図面を参照しながら単なる例として説明する。

本発明は、統計的類似性推定を使用することによる補外および補間のための改良された方法およびシステムを提供する。

具体的に言えば、図４によって示されるように、第１に、運動ベクトルのセットを生成するために、以前に再構築されたピクチャ、すなわち基準ピクチャから取得されたピクチャ信号上で、運動推定が実行され、次に運動ベクトルのセットを使用して、基準ピクチャのうちの１つから補外または補間のいずれかによって推定ピクチャが生成される一方で、運動推定を実行するため、または推定ピクチャを詳細化するため、あるいはその両方の組み合わせのために、統計的類似性推定が使用される。より具体的に言えば、統計的類似性推定は、ブロック・サンプル平均、ブロック・サンプル分散、ブロックを取り囲む近傍の均一性などの隣接パラメータ、および、２つまたはそれ以上のピクセル・ブロック間の共分散を含むが、これらに限定されることのない、２つまたはそれ以上のピクセル・ブロックの統計的特徴を比較することによって、実行される。

図５は、本発明の一実施形態に従った、補外または補間によって推定ピクチャの構築のための運動ベクトルを生成するために、運動推定において統計的類似性推定を使用する例示的処理ステップを示す。

第１に、以下では基準ピクチャと呼ばれる、少なくとも２つの事前にデコードおよび再構築されたピクチャが、デコーダによって取得および格納される。これら２つの基準ピクチャは、補外ベースの推定の場合、Ｎ−１およびＮ−２（または、補間ベースの推定の場合、Ｎ−１およびＮ＋１）と称される。

基準ピクチャＮ−１内の各ピクセル・ブロックの場合、他方の基準ピクチャＮ−２（またはＮ＋１）内で最高の合致を見つけるために、検索プロセスが実行される。基準ピクチャＮ−１内の特定のブロックＢｉに対して、基準ピクチャＮ−２（またはＮ＋１）内の最高に合致するブロックＢ^＊を見つけるために、検索プロセスは、基準ピクチャＮ−２（またはＮ＋１）から同じサイズのピクセル・ブロックＢｐを選択し、ＢｉとＢｐとの間の統計的類似性を示す統計的類似性指数ＳＳＩと、オプションで、ＢｉとＢｐとの間のピクセル値における差異である予測エラーＥと、を計算する。統計的類似性指数ＳＳＩおよび予測エラーＥを組み合わせて、図５に示されるように、基準ピクチャＮ−２（またはＮ＋１）内の最高に合致するブロックＢ^＊を決定することができる。別の方法として、基準ピクチャＮ−２（またはＮ＋１）内の最高に合致するブロックＢ^＊は、統計的類似性指数ＳＳＩにのみ基づいて選択することもできる。

基準ピクチャＮ−２（またはＮ＋１）内の最高に合致するブロックＢ^＊が決定されると、基準ピクチャＮ−１内のブロックＢｉについて、Ｂ^＊に対するブロックＢｉの動きを示す運動ベクトルのセットを生成することができる。運動ベクトルは、ブロックＢｉおよびＢ^＊に関連付けられた様々なパラメータから生成することができる。好ましくは、ブロックＢｉおよびＢ^＊の空間的差異（すなわち水平および垂直座標）を取ることによって生成されるが、この限りではない。次に運動ベクトルは、以下では、ブロックＢｉの推定が常駐する推定ピクチャＮと称される、デコードおよび再構築されるピクチャ内の位置を補外または補間するために、操作（たとえば反転、スケーリング、シフト、またはそれ以外の方法での変更）される。推定ブロックのピクセル値は、ブロックＢｉおよびＢ^＊のピクセル値から、たとえばこれらのブロックのピクセル値を平均すること、またはこうしたピクセル値をそれ以外の方法で操作することによって、導出される。

前述の処理ステップは、基準ピクチャＮ−１内の各ピクセル・ブロックについて反復されるため、基準ピクチャＮ−１内の各ピクセル・ブロックの推定がマッピングされ、それによって完全な推定ピクチャＮが形成される。

さらに図６は、２つのピクセル・ブロックＰとＱの間の統計的類似性を決定するための例示的処理ステップを示す。第１に、ピクセル値、輝度、コントラスト、構造などを含むがこれらに限定されることのない、ブロックＰおよびＱに直接関係する情報が取得される。好ましくは、ブロックＰおよびＱが常駐する近傍に関する情報（すなわち隣接情報）も取得されるが、この限りではない。

次に、ブロックＰおよびＱに直接関係する情報、およびオプションで隣接情報に基づいて、ブロックＰおよびＱに関する様々な統計的特徴が計算され、その後これらは、ブロックＰとＱの間の統計的類似性を決定するために比較される。たとえば、ブロック・サンプル平均、ブロック・サンプル分散、隣接パラメータ、ならびにブロックＰとＱの間の共分散などの統計的特徴が、統計的類似性を決定するために使用することができる。他の周知の統計的特徴も使用可能である。

より具体的に言えば、ブロックＰおよびＱがどちらもブロックサイズｎ×ｍによって特徴付けられるものと想定すると、ブロックＰ内のピクセル値をＰ_ｉｊと称し、ブロックＱ内のピクセル値をＱ_ｉｊと称することが可能であり、ここでｉ＝１、２、．．．、ｎであり、ｊ＝１、２、．．．、ｍである。Ｐに関するブロック・サンプル平均は、以下のように定義され、

Ｑに関するブロック・サンプル平均は、以下のように定義される。

Ｐに関するブロック・サンプル分散は、以下のように定義され、

Ｑに関するブロック・サンプル分散は、以下のように定義される。

ブロックＰおよびＱの共分散は、以下のように推定される。

さらに、ブロックＰおよびＱを取り囲む近傍の均一性などの、ブロックＰおよびＱの隣接パラメータも、ブロックＰとＱの間の統計的類似性を決定するために使用することができる。近傍の均一性は、たとえば、ブロックＰまたはＱの運動ベクトルと、ブロックＰまたはＱを取り囲む１つまたは複数の既存の隣接ブロックの運動ベクトルとの間の差異に基づいて、決定することができる。

ブロックＰおよびＱの統計的特徴は、これら２つのブロックがどのように同様であるかを示す適切な指標を提供する。好ましくは、統計的類似性指数は、図６に示されるように、ブロックＰとＱの間の統計的類似性の定量的測定値を提供するために、ブロックＰおよびＱの統計的特徴に基づいて計算される。統計的特徴は、統計的類似性指数を計算するために、様々な方法で重み付けおよび組み合わせすることが可能である。

好ましいが必須ではない本発明の実施形態では、以下の式を使用することによって、ブロックＰおよびＱに関する統計的類似性指数ＳＳＩを計算することが可能であり、

上式では、前述のように、μ（Ｐ）はブロックＰのブロック・サンプル平均であり、μ（Ｑ）はブロックＱのブロック・サンプル平均であり、Ｖａｒ（Ｐ）はブロックＰのブロック・サンプル分散であり、Ｖａｒ（Ｑ）はブロックＱのブロック・サンプル分散であり、Ｃｏｖ（Ｐ，Ｑ）はブロックＰとＱの間の共分散であり、αおよびβは重み付け係数である。統計的類似性指数の値が小さいほど、２つのブロックはより類似していることになる。

さらに好ましくは、複数の統計的類似性指数を生成するために、複数のピクセル・ブロックの統計的類似性が決定され、これらの指数が正規化されるため、各指数値は０から１の間になる。

前述のように、補外および補間は推定ピクチャに対して１対１のマッピングを生成しないため、推定位置内には、いかなるマッピングも取得しない、すなわち空の穴を残す、ピクセル位置が存在する可能性がある。これに対して推定位置内には、多重マッピングを取得する、すなわち重畳スポットを残す、ピクセル位置も存在する可能性がある。推定ピクチャの品質は、空の穴または重畳スポットの存在によって悪影響を受ける。

したがって本発明は、推定ピクチャを詳細化するために統計的類似性推定を使用すること、すなわち、空のピクセル位置を満たすこと、あるいは多重マッピングを解決すること、またはその両方によって、これらの問題を解決する。

図７は、推定ピクチャＮ上の空のピクセル位置を満たすために、統計的類似性推定をどのように使用するかを示す。

第１に、推定ピクチャＮ上の空のピクセル位置を取り囲む隣接ピクセル・ブロックの統計的特徴が計算される。隣接ブロック内のピクセルの運動ベクトルを使用して、基準ピクチャＮ−１上の初期点を決定することが可能であり、この点から補外または補間によって推定ピクチャが生成される。次に、この初期点を取り囲む適切な検索ウィンドウが識別される。この検索ウィンドウ内で、推定ピクチャＮ上の隣接ブロックに最高に合致するブロックを見つけるために、検索プロセスが実行される。最高に合致するブロックは、推定ピクチャＮ上の隣接ブロックに関して、最高の統計的類似性によって、およびオプションで最低のピクセル値差によって、特徴付けられる。次に、図７に示されるように、基準ピクチャＮ−１上でこの最高に合致するブロックによって取り囲まれた特定のピクセルを使用して、推定ピクチャＮ内の空のピクセル位置が満たされる。

さらに、図８は、基準ピクチャＮ−１上の複数のピクセルが、すべて、推定ピクチャＮ上の同じピクセル位置に（すなわち、補外または補間によって）マッピングするイベントにおいて、推定ピクチャＮ上の特定のピクセル位置に関して最高に合致するピクセルを選択するために、統計的類似性推定をどのように使用するかを示す。

第１に、推定ピクチャＮ上の特定のピクセル位置を取り囲む隣接ピクセル・ブロックの統計的特徴が計算される。次に、それぞれが基準ピクチャＮ−１上の複数のピクセルのうちの１つを取り囲む複数のピクセル・ブロックに関して、統計的特徴が計算される。基準ピクチャＮ−１上のこれら複数のブロックの中で、推定ピクチャＮ上の隣接ブロックに最高に合致する１つのブロックが識別される。前述のように、最高に合致するブロックは、推定ピクチャＮ上の隣接ブロックに関して、最高の統計的類似性によって、およびオプションで最低のピクセル値差によって、特徴付けられる。次に、基準ピクチャＮ−１上のこの最高に合致するブロックによって取り囲まれた特定のピクセルが、推定ピクチャＮ内の特定のピクセル位置に関して最高に合致するピクセルとして選択される。

前述のような様々な計算ステップは、汎用コンピュータ、特定用途向けコンピュータ、中央プロセッサ・ユニット（ＣＰＵ）、マイクロプロセッサ、または、視覚信号データを収集および処理するために配置構成および構築された集積回路を備えることが可能な、コンピュータ・ベースの視覚信号アナライザによって容易に実行可能である。こうした視覚信号アナライザは、好ましくは、本発明に従って、推定ピクチャを生成および詳細化するために、前述の視覚信号の補外法または補間法を計算的に実行するための、視覚信号補外または補間プロトコルを備える。視覚信号補外または補間プロトコルは、汎用コンピュータ、特定用途向けコンピュータ、または中央プロセッサ・ユニット（ＣＰＵ）内で動作可能なソフトウェアなどの、任意の好適な形で具体化することができる。別の方法として、プロトコルは、ファームウェアとして具体化された超小型電子計算モジュールの回路内でハードワイヤード可能であるか、または位相分析のためのインターネット・サイトで動作可能なアプレットとしてオンラインで使用可能であるものとすることができる。

以上、本発明について、例示的な実施形態および特徴を参照しながら本明細書で様々に開示してきたが、前述の実施形態および特徴は本発明を限定することを意図するものでないこと、ならびに、当業者であれば、他の変形、修正、および代替実施形態を容易に思いつくであろうということを理解されよう。したがって本発明は、添付の特許請求の範囲の趣旨および範囲内にあるこうした変形、修正、および代替実施形態を含むものとして、広義に解釈されるものとする。

従来の運動ベースの時間的補外法を示す図である。従来の運動ベースの時間的補間法を示す図である。従来の運動ベースの補外法および補間法で使用される処理ステップを示す流れ図である。本発明の一実施形態に従った、統計的類似性推定を使用することによる、改良された視覚信号の補外または補間のシステムおよび方法を示す流れ図である。本発明の一実施形態に従った、補外または補間によって推定ピクチャの構築のための運動ベクトルを生成するために、運動推定において統計的類似性測定値を使用する例示的処理ステップを示す流れ図である。本発明の一実施形態に従った、２つのピクセル・ブロックＰおよびＱに関して統計的類似性指数を計算するための例示的処理ステップを示す流れ図である。本発明の一実施形態に従った、統計的類似性推定を使用することによって推定ピクチャ上の空のピクセル位置を満たすための方法を示す図である。本発明の一実施形態に従った、統計的類似性推定を使用することによって推定ピクチャ上のピクセル位置に関する多重マッピングを解決するための方法を示す図である。

Claims

視覚信号の補外または補間のためのコンピュータ・ベースの方法であって、
少なくとも第１および第２の基準ピクチャを提供するステップと、
前記第１および第２の基準ピクチャのうちの少なくとも１つの、他方に対する動きを示す運動ベクトルを生成するために、前記第１および第２の基準ピクチャ上で運動推定を実行するステップと、
前記運動ベクトルを使用して、補外または補間によって推定ピクチャを生成するステップと、
前記推定ピクチャを詳細化するステップと、
を含み、
運動推定または前記推定ピクチャの詳細化のいずれか、またはその両方の組み合わせにおいて、統計的類似性推定が使用され、
前記第１の基準ピクチャ上のピクセル・ブロックの統計的特徴が計算され、前記第２の基準ピクチャ上の１つまたは複数のピクセル・ブロックの統計的特徴と比較され、前記第１の基準ピクチャ上の前記ピクセル・ブロックに対するその統計的類似性に少なくとも部分的に基づいて、前記第２の基準ピクチャ上で最高に合致するピクセル・ブロックが決定され、前記第２の基準ピクチャ上で最高に合致するピクセル・ブロックに対するその動きを示す、前記第１の基準ピクチャ上の前記ピクセル・ブロックに関する運動ベクトルが生成され、
前記第１の基準ピクチャ上のピクセル・ブロックと、前記第２の基準ピクチャ上の１つまたは複数のピクセル・ブロックとの間の統計的類似性が、以下の式に従って統計的類似性指数を計算することによって決定され、

上式で、Ｐは前記第１の基準ピクチャ上のピクセル・ブロックであり、Ｑは前記第２の基準ピクチャ上のピクセル・ブロックであり、ＳＳＩ（Ｐ，Ｑ）はブロックＰとＱの間の統計的類似性を示す統計的類似性指数であり、μ（Ｐ）はブロックＰのブロック・サンプル平均であり、μ（Ｑ）はブロックＱのブロック・サンプル平均であり、Ｖａｒ（Ｐ）はブロックＰのブロック・サンプル分散であり、Ｖａｒ（Ｑ）はブロックＱのブロック・サンプル分散であり、Ｃｏｖ（Ｐ，Ｑ）はブロックＰとＱの間の共分散であり、αおよびβは重み付け係数である、方法。
前記統計的類似性指数が正規化される、請求項１に記載の方法。
統計的類似性推定が運動推定で使用される、請求項１に記載の方法。
前記ピクセル・ブロックの統計的特徴が、ブロック・サンプル平均、ブロック・サンプル分散、および隣接パラメータを含む、請求項１に記載の方法。
視覚信号の補外または補間のためのコンピュータ・ベースの方法であって、
少なくとも第１および第２の基準ピクチャを提供するステップと、
前記第１および第２の基準ピクチャのうちの少なくとも１つの、他方に対する動きを示す運動ベクトルを生成するために、前記第１および第２の基準ピクチャ上で運動推定を実行するステップと、
前記運動ベクトルを使用して、補外または補間によって推定ピクチャを生成するステップと、
前記推定ピクチャを詳細化するステップと、
を含み、
運動推定または前記推定ピクチャの詳細化のいずれか、またはその両方の組み合わせにおいて、統計的類似性推定が使用され、
前記推定ピクチャの詳細化ステップで統計的類似性推定が使用され、
統計的類似性推定が前記推定ピクチャ上の空のピクセル位置を満たすために使用され、
前記推定ピクチャ上の前記空のピクセル位置を取り囲む隣接ブロックに関する統計的特徴を計算するステップと、
前記推定ピクチャの生成元である前記基準ピクチャ上で検索領域を識別するステップと、
前記検索領域内で最高に合致するブロックを検索するステップであって、前記最高に合致するブロックが、前記基準ピクチャ上の特定のピクセルを取り囲み、前記推定ピクチャ上の前記空のピクセル位置を取り囲む前記隣接ブロックに対する最高の統計的類似性を有する、ステップと、
前記空のピクセル位置を、前記基準ピクチャ上の前記最高に合致するブロックによって取り囲まれた前記特定のピクセルで満たすステップとを含み、
前記推定ピクチャ上の前記空のピクセル位置を取り囲む前記隣接ブロックと、前記検索領域内の１つまたは複数のピクセル・ブロックとの間の、統計的類似性が、以下の式に従って統計的類似性指数を計算することによって決定され、

上式で、Ｐは前記推定ピクチャ上の前記空のピクセル位置を取り囲む前記隣接ブロックであり、Ｑは前記検索領域内のピクセル・ブロックであり、ＳＳＩ（Ｐ，Ｑ）はブロックＰとＱの間の統計的類似性を示す統計的類似性指数であり、μ（Ｐ）はブロックＰのブロック・サンプル平均であり、μ（Ｑ）はブロックＱのブロック・サンプル平均であり、Ｖａｒ（Ｐ）はブロックＰのブロック・サンプル分散であり、Ｖａｒ（Ｑ）はブロックＱのブロック・サンプル分散であり、Ｃｏｖ（Ｐ，Ｑ）はブロックＰとＱの間の共分散であり、αおよびβは重み付け係数である、方法。
前記隣接ブロックの統計的特徴が、ブロック・サンプル平均、ブロック・サンプル分散、および隣接パラメータを含む、請求項５に記載の方法。
視覚信号の補外または補間のためのコンピュータ・ベースの方法であって、
少なくとも第１および第２の基準ピクチャを提供するステップと、
前記第１および第２の基準ピクチャのうちの少なくとも１つの、他方に対する動きを示す運動ベクトルを生成するために、前記第１および第２の基準ピクチャ上で運動推定を実行するステップと、
前記運動ベクトルを使用して、補外または補間によって推定ピクチャを生成するステップと、
前記推定ピクチャを詳細化するステップと、
を含み、
運動推定または前記推定ピクチャの詳細化のいずれか、またはその両方の組み合わせにおいて、統計的類似性推定が使用され、
前記推定ピクチャの詳細化ステップで統計的類似性推定が使用され、
前記推定ピクチャの生成元である前記基準ピクチャ上の複数のピクセルから、前記推定ピクチャ上の特定のピクセル位置に関する最高に合致するピクセルを選択するために、統計的類似性推定が使用され、前記複数のピクセルはすべて、前記推定ピクチャ上の前記特定のピクセル位置に補外または補間され、
前記推定ピクチャ上の前記特定のピクセル位置を取り囲む隣接ブロックに関する統計的特徴を計算するステップと、
それぞれが前記基準ピクチャ上の前記複数のピクセルのうちの１つを取り囲む、複数のピクセル・ブロックに関する統計的特徴を計算するステップと、
前記基準ピクチャ上の前記複数のピクセルを取り囲む前記複数のブロックの中で最高に合致するブロックを識別するステップであって、前記最高に合致するブロックが、前記推定ピクチャ上の前記特定のピクセル位置を取り囲む前記隣接ブロックに対する最高の統計的類似性を有する、ステップと、
前記基準ピクチャ上の前記最高に合致するブロックによって取り囲まれた前記ピクセルを、前記推定ピクチャ上の前記特定のピクセル位置に関する前記最高に合致するピクセルとして選択するステップと、
をさらに含む、方法。
前記隣接ブロックの統計的特徴が、ブロック・サンプル平均、ブロック・サンプル分散、および隣接パラメータを含む、請求項７に記載の方法。
前記推定ピクチャ上の前記特定のピクセル位置を取り囲む前記隣接ブロックと、前記基準ピクチャ上の前記複数のピクセルを取り囲む前記複数のブロックとの間の、統計的類似性が、以下の式に従って統計的類似性指数を計算することによって決定され、

上式で、Ｐは前記推定ピクチャ上の前記特定のピクセル位置を取り囲む前記隣接ブロックであり、Ｑは前記基準ピクチャ上の前記複数のピクセルを取り囲む前記複数のブロックのうちの１つであり、ＳＳＩ（Ｐ，Ｑ）はブロックＰとＱの間の統計的類似性を示す統計的類似性指数であり、μ（Ｐ）はブロックＰのブロック・サンプル平均であり、μ（Ｑ）はブロックＱのブロック・サンプル平均であり、Ｖａｒ（Ｐ）はブロックＰのブロック・サンプル分散であり、Ｖａｒ（Ｑ）はブロックＱのブロック・サンプル分散であり、Ｃｏｖ（Ｐ，Ｑ）はブロックＰとＱの間の共分散であり、αおよびβは重み付け係数である、請求項７に記載の方法。
視覚信号の補外または補間のためのコンピュータ・ベースのシステムであって、
少なくとも第１および第２の基準ピクチャを取得および格納するための手段と、
前記第１および第２の基準ピクチャのうちの少なくとも１つの、他方に対する動きを示す運動ベクトルを生成するために、前記第１および第２の基準ピクチャ上で運動推定を実行するための手段と、
前記運動ベクトルを使用して、前記第１または第２の基準ピクチャから、補外または補間によって推定ピクチャを生成するための手段と、
前記推定ピクチャを詳細化するための手段と、
を備え、
運動推定または前記推定ピクチャの詳細化のいずれか、またはその両方の組み合わせにおいて、統計的類似性推定が使用され、
統計的類似性推定が前記推定ピクチャを詳細化するために使用され、
前記推定ピクチャの生成元である前記基準ピクチャ上の複数のピクセルから、前記推定ピクチャ上の特定のピクセル位置に関する最高に合致するピクセルを選択するために、統計的類似性推定が使用され、前記複数のピクセルはすべて、前記推定ピクチャ上の前記特定のピクセル位置に補外または補間され、
前記推定ピクチャ上の前記特定のピクセル位置を取り囲む隣接ブロックに関する統計的特徴を計算するための手段と、
それぞれが前記基準ピクチャ上の前記複数のピクセルのうちの１つを取り囲む、複数のブロックに関する統計的特徴を計算するための手段と、
前記基準ピクチャ上の前記複数のピクセルを取り囲む前記複数のブロックの中で最高に合致するブロックを識別するための手段であって、前記最高に合致するブロックが、前記推定ピクチャ上の前記特定のピクセル位置を取り囲む前記隣接ブロックに対する最高の統計的類似性を有する、手段と、
前記基準ピクチャ上の前記最高に合致するブロックによって取り囲まれた前記ピクセルを、前記推定ピクチャ上の前記特定のピクセル位置に関する前記最高に合致するピクセルとして選択するための手段と、
をさらに備える、システム。
統計的類似性推定が運動推定で使用され、前記第１の基準ピクチャ上のピクセル・ブロックの統計的特徴が計算され、前記第２の基準ピクチャ上の１つまたは複数のピクセル・ブロックの統計的特徴と比較され、前記第１の基準ピクチャ上の前記ピクセル・ブロックに対するその統計的類似性に基づいて、前記第２の基準ピクチャ上で最高に合致するピクセル・ブロックが決定され、前記第２の基準ピクチャ上で最高に合致するピクセル・ブロックに対するその動きを示す、前記第１の基準ピクチャ上の前記ピクセル・ブロックに関する運動ベクトルが生成される、請求項１０に記載のシステム。
統計的類似性推定が前記推定ピクチャ上の空のピクセル位置を満たすために使用され、
前記推定ピクチャ上の前記空のピクセル位置を取り囲む隣接ブロックに関する統計的特徴を計算するための手段と、
前記推定ピクチャの生成元である前記基準ピクチャ上で検索領域を識別するための手段と、
前記検索領域内で最高に合致するブロックを検索するための手段であって、前記最高に合致するブロックが、前記基準ピクチャ上の特定のピクセルを取り囲み、前記推定ピクチャ上の前記空のピクセル位置を取り囲む前記隣接ブロックに対する最高の統計的類似性を有する、手段と、
前記空のピクセル位置を、前記基準ピクチャ上の前記最高に合致するブロックによって取り囲まれた前記特定のピクセルで満たすための手段と、
をさらに備える、請求項１０に記載のシステム。
統計的類似性推定が、運動推定と前記推定ピクチャの詳細化との両方で使用される、請求項１０に記載のシステム。