JP2006065863A - 画像マッチングのための適応可能な色情報 - Google Patents
画像マッチングのための適応可能な色情報 Download PDFInfo
- Publication number
- JP2006065863A JP2006065863A JP2005237017A JP2005237017A JP2006065863A JP 2006065863 A JP2006065863 A JP 2006065863A JP 2005237017 A JP2005237017 A JP 2005237017A JP 2005237017 A JP2005237017 A JP 2005237017A JP 2006065863 A JP2006065863 A JP 2006065863A
- Authority
- JP
- Japan
- Prior art keywords
- space
- image
- sample
- tensor
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000003044 adaptive effect Effects 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 135
- 230000009466 transformation Effects 0.000 claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000033001 locomotion Effects 0.000 claims description 17
- 238000000844 transformation Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 12
- 230000002776 aggregation Effects 0.000 abstract 4
- 238000004220 aggregation Methods 0.000 abstract 4
- 238000003672 processing method Methods 0.000 abstract 2
- 239000013598 vector Substances 0.000 description 20
- 230000006870 function Effects 0.000 description 16
- 238000013507 mapping Methods 0.000 description 15
- 238000013459 approach Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 239000003086 colorant Substances 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】2つの信号間の変換の推定を改善するデータ処理方法を提供する。
【解決手段】データを処理する方法が提供される。本方法は、空間の第1のサンプル(1)と第2のサンプル(2)とを比較することにより、信号ペアの集合を提供する工程であって、第1のサンプルおよび第2のサンプルは変換の集合に関連付けられており、各信号ペアが第1および第2のサンプルにおいて実質的に同一な空間の特徴に対応する、工程と、各信号ペアに対して、各サンプルにおける空間の値の差に対応する残差を評価する(51)工程と、その残差から変換の集合の第1の推定を評価する(52)工程と、空間における流れの方向を表すテンソル場を推定する(53)工程であって、テンソル場は空間の少なくとも1点に及ぶ、工程と、第1の推定とテンソル場とから、各信号ペアの残差を再算出する(54)ことにより、変換の集合の推定を改善する工程とを包含する。
【選択図】 図1
【解決手段】データを処理する方法が提供される。本方法は、空間の第1のサンプル(1)と第2のサンプル(2)とを比較することにより、信号ペアの集合を提供する工程であって、第1のサンプルおよび第2のサンプルは変換の集合に関連付けられており、各信号ペアが第1および第2のサンプルにおいて実質的に同一な空間の特徴に対応する、工程と、各信号ペアに対して、各サンプルにおける空間の値の差に対応する残差を評価する(51)工程と、その残差から変換の集合の第1の推定を評価する(52)工程と、空間における流れの方向を表すテンソル場を推定する(53)工程であって、テンソル場は空間の少なくとも1点に及ぶ、工程と、第1の推定とテンソル場とから、各信号ペアの残差を再算出する(54)ことにより、変換の集合の推定を改善する工程とを包含する。
【選択図】 図1
Description
本発明は、2つの信号間の変換の推定を改善するためのデータ処理に関する。各信号は、サンプリングされ、各サンプルは、2つ以上の測定された変量からなると仮定する。例えば、典型的なカラー画像における各ピクセルは、赤、緑、および青の値からなる。
一入力からのサンプルを、もう一方の入力において対応するサンプルにマッチングすることにより、2つの信号間の変換を推定することができる。HornおよびSchunckによる「Determining Optic Flow」、Artificial Intelligence、17、185〜204(1981年)に記載されているように、例えば、連続するビデオフレーム間の画像の特徴(feature)をトラッキングすることにより、物体の動作を推定することができる。一画像と別の画像とにおける対応する点をマッチングすることにより、画像内の対応する点が隣接したフレームにおいて同じ輝度または色を有するという仮定の下において、動作場を推定することができる。上記推定の精度は、画像の内容による制限を受ける。例えば、均一な輝度または色を有する画像の領域は、取り得る動作に関する正確な情報を生じない。それは、そのような領域における各点に対して、隣接したビデオフレームにおいて取り得るマッチが多数あるためである。
しかしながら、特徴のない領域において動作場を推定することができるということが、HornおよびSchunckにおいて示された。シーンが局所的に平滑な表面からなる場合には、その結果生じる動作場も、局所的に平滑である。この平滑さを制限として用いることにより、確かに、特徴のない領域における動作の推定が、近接するがより画像に特徴のある領域において得られた推定と整合する。平滑さへの制限の影響は、隣接した動作の推定の方向が、互いにほぼ平行であるという条件を課す。本質的に、この方法は、マッチングされる特徴間の幾何的なマッピングの平滑さに制限を課す。
Jahneらの「Study of Dynamical Processes with Tensor−Based Spatial Temporal Image Processing Techniques」、Proceedings of European Conference on Computer Vision、pp323〜336(1998年)において、オプティカルフローに対する代わりのアプローチが示されている。ビデオデータの隣接したフレーム間の動作を検出するために、ビデオシーケンスは、(x,y,t)におけるボリュームとして示される。ここで、xおよびyは、ビデオデータの空間の2つの次元であり、tは、時間を示す。このアプローチを用いることにより、運動する全ての特徴は、ボリュームにおいて指向性の構造として現れる。例えば、運動する点は、三次元空間において線をトレースし、運動する端は、指向性の面をスイープする。空間の各点において構造テンソルを評価することにより、上記線および面を検出することができる。この構造テンソルは、Knutssonによる、「Representing Local Structure using Tensors」、Proceedings of the Sixth Scandinavian Conference of Image Analysis、pp244〜251(1989年)において定義されている。この文献において、構造テンソルは、行列により表され、その行列の固有値が、信号の局所的な次元の数の関数である。
RoweisおよびSaulによる、「Nonlinear Dimensionality Reduction by Locally Linear Embedding」、Science、290、2323〜2326ページ(2000年)において、高次元のデータセットの内部構造を復元する方法が示されている。この方法は、所与のデータ点が、高次元空間における最近接の点の線形結合として表され得るという考えに基づく。より低次元表面にあるデータに対しては、元の軸を少なくとも数個省いた局所座標系を構成するために、隣接した点を用い得る。このプロセスの結果は、元のデータの解釈を容易にする「局所線形埋込み(local linear embedding)」である。
MillerおよびTieuによる、「Colour Eigenflows: Statistical Modelling of Joint Colour Changes」、Proceedings of the International Conference on Computer Vision、607〜614ページ(2001年)には、周囲の明暗の変化を考慮した画像分析が開示されている。光源に対する特定の画像における所与の色の変化の態様の統計上のモデルが構成されている。これにより、入力画像を考えると、異なった照明下におけるシーンの見かけを予測することができる。画像の見かけの変化(例えば視点の移動により引き起こされる視差)は、考慮されていない。この統計上のモデルは、測光のマッピングに平滑さの制限を課すことと類似する。
本発明の第1の局面によると、(a)空間の第1のサンプルと第2のサンプルとを比較することにより、信号ペアの集合を提供することであって、第1および第2のサンプルは変換の集合に関連付けられており、各信号ペアが第1および第2のサンプルにおいて実質的に同一な空間の特徴に対応する、ことと、(b)各信号ペアに対して、各サンプルの特徴の位置における空間の値の差に対応する残差を評価することと、(c)その残差から変換の集合の第1の推定を評価することと、(d)空間における流れの方向を表すテンソル場を推定することであって、そのテンソル場は空間の少なくとも1点に及ぶ、ことと、(e)第1の推定とテンソル場とから、各信号ペアの残差(residual)を再算出することにより、変換の集合の推定を改善することとを包含する、データを処理する方法が提供される。
工程(d)および(e)は、少なくとも1回繰り返され得る。
工程(a)は、信号マッチングアルゴリズムを用いて、達成され得る。
残差は、dk=f’(pk)−f”(pk+tk)と等しくあり得る。ここで、f’(pk)およびf”(pk+tk)は、それぞれ点pkおよび点(pk+tk)において測定された、空間において実質的に同一な特徴に対応する信号ペアであり、tkは、変換の集合を表し、kは、各信号ペアの指標である。工程(c)は、|dk|M=(dk TMdk)1/2となるように対称正定値行列Mを定義することと、tkに対して|dk|を最小化することとを包含し得る。
テンソル場を推定する工程は、空間の全ての点に対して行われ得て、変換の集合の前推定から得られた既存のテンソルを内挿することにより、テンソルが決定されていない領域のテンソルを決定することを包含し得る。その内挿は、信号ペアの位置から離れるにつれ値が単調に減少する近傍重み関数(neighbourhood weighting function)に基づき得る。その近傍重み関数は、ガウス関数であり得る。空間の各点における変換の集合を表す行列Mfを算出するために、そのテンソル場が用いられ得る。行列Mfの固有値は、変換の集合の次元の数と適合するように選択され得る。
この方法は、収束条件が満たされるまで、反復され得る。変換の集合の推定における次元の数は、少なくとも1つの制限を受け得る。この制限は、空間の平滑さ、または二色性モデルの制限であり得る。
この方法は、空間の第1および第2のサンプルが第1および第2の画像であり、空間が、赤−緑−青の色空間であり、変換の集合が、画像の各点における空間の差を表す、データに適用され得る。この方法は、画像データに適用され得て、それにより画像認識または画像予測が提供される。推定されたテンソル場は、第1の画像と第2の画像との間の変換モデルを作成するために用いられ得る。
本発明の第2の局面によると、第1および第2の画像の特徴をマッチングするために第1および第2の視差マップを算出することであって、第1および第2の視差マップが、それぞれ第2の画像に対する第1の画像の視差と、第1の画像に対する第2の画像の視差とに対応する、ことと、第1および第2の視差マップから不整合なエントリを除去することにより、クロスチェックされた第3の視差マップを得ることと、変換の集合の第1の推定として第3の視差マップを用いることにより、本発明の第1の局面に従って第3の視差マップを改善することとを包含する、第1の画像と第2の画像との視差を推定する方法が提供される。
本発明の第3の局面によると、ビデオストリームの実質的に隣接した画像ペアに本発明の第1の局面による方法を適用することであって、画像ペアが赤−緑−青の色空間における第1および第2のサンプルに対応する、ことを包含する、ビデオストリームにおける動作を推定する方法が提供される。このような方法において、実質的に隣接した所与の画像ペアに対して空間の各点に及ぶテンソル場を推定する工程は、ビデオストリームの前画像ペアをマッチングするときにおいて、前テンソル場を用いて現テンソル場を推定することを包含し得る。現テンソル場は、前テンソル場から再帰的に推定され得る。
この方法は、音声認識アルゴリズムの一部としてオーディオデータに適用され得る。
本発明のさらなる局面には、コンピュータを制御することにより上記方法を実行するプログラムと、記憶媒体に記憶された場合の上記プログラムと、通信ネットワークを介した上記プログラムの伝送と、上記方法を実行するようにプログラムされたコンピュータとが含まれる。
本発明のさらなる局面によると、空間の第1のサンプルと第2のサンプルとを比較することにより、信号ペアの集合を提供する手段であって、第1および第2のサンプルは(不明な)変換の集合により関連付けられており、各信号ペアが第1および第2のサンプルにおいて実質的に同一な空間の特徴に対応する、手段と、各信号ペアに対して、各サンプルの特徴の位置における空間の特徴の差に対応する残差を評価する手段と、その残差から変換の集合の第1の推定を評価する手段と、空間における流れの方向を表すテンソル場を推定する手段であって、そのテンソル場は空間の各点に及ぶ、手段と、第1の推定とテンソル場とから、各信号ペアの残差を再算出することにより、変換の集合の推定を改善する手段とを備えた、信号をマッチングする装置が提供される。
本発明は、さらに以下の手段を提供する。
(項目1)
(a)空間の第1のサンプル(1)と第2のサンプル(2)とを比較することにより、信号ペアの集合を提供する工程であって、該第1のサンプル(1)および該第2のサンプル(2)は変換の集合に関連付けられており、各信号ペアが該第1および第2のサンプルにおいて実質的に同一な該空間の特徴に対応する、工程と、
(b)各信号ペアに対して、各サンプルの特徴の位置における該空間の値の差に対応する残差を評価する(51)工程と、
(c)該残差から該変換の集合の第1の推定を評価する(52)工程と、
(d)該空間における流れの方向を表すテンソル場を推定する(53)工程であって、該テンソル場は該空間の少なくとも1点に及ぶ、工程と、
(e)該第1の推定と該テンソル場とから、各信号ペアの該残差を再算出する(54)ことにより、該変換の集合の該推定を改善する工程と
を包含する、データを処理する方法。
(a)空間の第1のサンプル(1)と第2のサンプル(2)とを比較することにより、信号ペアの集合を提供する工程であって、該第1のサンプル(1)および該第2のサンプル(2)は変換の集合に関連付けられており、各信号ペアが該第1および第2のサンプルにおいて実質的に同一な該空間の特徴に対応する、工程と、
(b)各信号ペアに対して、各サンプルの特徴の位置における該空間の値の差に対応する残差を評価する(51)工程と、
(c)該残差から該変換の集合の第1の推定を評価する(52)工程と、
(d)該空間における流れの方向を表すテンソル場を推定する(53)工程であって、該テンソル場は該空間の少なくとも1点に及ぶ、工程と、
(e)該第1の推定と該テンソル場とから、各信号ペアの該残差を再算出する(54)ことにより、該変換の集合の該推定を改善する工程と
を包含する、データを処理する方法。
(項目2)
工程(d)および(e)を少なくとも1回繰り返すさらなる工程を包含する、項目1に記載の方法。
工程(d)および(e)を少なくとも1回繰り返すさらなる工程を包含する、項目1に記載の方法。
(項目3)
工程(a)が信号マッチングアルゴリズムを用いることを包含する、項目1または2に記載の方法。
工程(a)が信号マッチングアルゴリズムを用いることを包含する、項目1または2に記載の方法。
(項目4)
上記残差dkがf’(pk)−f”(pk+tk)と等しく、f’(pk)およびf”(pk+tk)は、それぞれ点pkおよび点(pk+tk)において測定された、空間において実質的に同一な特徴に対応する信号ペアであり、tkは上記変換の集合を表し、kは各信号ペアの指標である、項目1〜3のいずれか1項に記載の方法。
上記残差dkがf’(pk)−f”(pk+tk)と等しく、f’(pk)およびf”(pk+tk)は、それぞれ点pkおよび点(pk+tk)において測定された、空間において実質的に同一な特徴に対応する信号ペアであり、tkは上記変換の集合を表し、kは各信号ペアの指標である、項目1〜3のいずれか1項に記載の方法。
(項目5)
工程(c)が|dk|M=(dk TMdk)1/2となるように対称正定値行列Mを定義することと、tkに対して|dk|Mを最小化することとを包含する、項目4に記載の方法。
工程(c)が|dk|M=(dk TMdk)1/2となるように対称正定値行列Mを定義することと、tkに対して|dk|Mを最小化することとを包含する、項目4に記載の方法。
(項目6)
工程(d)が、上記空間における各点に対してテンソル場を推定することを包含する、項目1〜5のいずれか1項に記載の方法。
工程(d)が、上記空間における各点に対してテンソル場を推定することを包含する、項目1〜5のいずれか1項に記載の方法。
(項目7)
工程(d)が、上記変換の集合の前推定から得られた既存のテンソルを内挿することにより、テンソルが決定されていない領域のテンソルを決定することを包含する、項目1〜6のいずれか1項に記載の方法。
工程(d)が、上記変換の集合の前推定から得られた既存のテンソルを内挿することにより、テンソルが決定されていない領域のテンソルを決定することを包含する、項目1〜6のいずれか1項に記載の方法。
(項目8)
上記内挿が近傍重み関数に基づき、該近傍重み関数の値は、各信号ペアの位置から離れるにつれて単調に減少する、項目7に記載の方法。
上記内挿が近傍重み関数に基づき、該近傍重み関数の値は、各信号ペアの位置から離れるにつれて単調に減少する、項目7に記載の方法。
(項目9)
上記近傍重み関数がガウス関数である、項目8に記載の方法。
上記近傍重み関数がガウス関数である、項目8に記載の方法。
(項目10)
上記テンソル場を用いることにより、上記変換の集合を表す行列Mfを上記空間の各点において算出する、項目1〜9のいずれか1項に記載の方法。
上記テンソル場を用いることにより、上記変換の集合を表す行列Mfを上記空間の各点において算出する、項目1〜9のいずれか1項に記載の方法。
(項目11)
上記行列Mfの固有値が上記変換の集合の次元の数に適合するように選択される、項目10に記載の方法。
上記行列Mfの固有値が上記変換の集合の次元の数に適合するように選択される、項目10に記載の方法。
(項目12)
上記方法が、収束条件が満たされるまで反復される、項目2に記載の方法。
上記方法が、収束条件が満たされるまで反復される、項目2に記載の方法。
(項目13)
上記変換の集合における上記推定の次元の数が少なくとも1つの制限を受ける、項目1〜12のいずれか1項に記載の方法。
上記変換の集合における上記推定の次元の数が少なくとも1つの制限を受ける、項目1〜12のいずれか1項に記載の方法。
(項目14)
上記制限が空間の平滑さへの制限である、項目13に記載の方法。
上記制限が空間の平滑さへの制限である、項目13に記載の方法。
(項目15)
上記制限が二色性モデルの制限である、項目13に記載の方法。
上記制限が二色性モデルの制限である、項目13に記載の方法。
(項目16)
上記空間が赤−緑−青の色空間であり、該空間の上記第1および第2のサンプルが第1および第2の画像であり、上記変換の集合が該画像内の各点における空間の差を表す、項目1〜15のいずれか1項に記載の方法。
上記空間が赤−緑−青の色空間であり、該空間の上記第1および第2のサンプルが第1および第2の画像であり、上記変換の集合が該画像内の各点における空間の差を表す、項目1〜15のいずれか1項に記載の方法。
(項目17)
上記第1および第2の画像が立体画像であり、上記空間の差が視差である、項目16に記載の方法。
上記第1および第2の画像が立体画像であり、上記空間の差が視差である、項目16に記載の方法。
(項目18)
項目1〜17のいずれか1項に記載の方法が含まれる、画像を認識する方法。
項目1〜17のいずれか1項に記載の方法が含まれる、画像を認識する方法。
(項目19)
項目1〜17のいずれか1項に記載の方法が含まれる、画像を予測する方法。
項目1〜17のいずれか1項に記載の方法が含まれる、画像を予測する方法。
(項目20)
項目1〜17のいずれか1項に記載の方法が含まれる、第1の画像と第2の画像との間における変換のモデルを作成する方法であって、該モデルが上記推定されたテンソル場を備える、方法。
項目1〜17のいずれか1項に記載の方法が含まれる、第1の画像と第2の画像との間における変換のモデルを作成する方法であって、該モデルが上記推定されたテンソル場を備える、方法。
(項目21)
第1の画像と第2の画像との視差を推定する方法であって、
第1および第2の画像の対応する特徴のための第1および第2の視差マップを算出することであって、それぞれ、該第1視差マップが第2の画像に対する第1の画像の視差を表し、該第2視差マップが第1の画像に対する第2の画像の視差を表す、ことと、
該第1および第2の視差マップから不整合なエントリを除去することにより、クロスチェックされた第3の視差マップを得ることと、
上記変換の集合の上記第1の推定として該第3の視差マップを用いて項目1〜15のいずれか1項に記載の方法を実行することにより、該第3の視差マップを改善することと
を包含する、方法。
第1の画像と第2の画像との視差を推定する方法であって、
第1および第2の画像の対応する特徴のための第1および第2の視差マップを算出することであって、それぞれ、該第1視差マップが第2の画像に対する第1の画像の視差を表し、該第2視差マップが第1の画像に対する第2の画像の視差を表す、ことと、
該第1および第2の視差マップから不整合なエントリを除去することにより、クロスチェックされた第3の視差マップを得ることと、
上記変換の集合の上記第1の推定として該第3の視差マップを用いて項目1〜15のいずれか1項に記載の方法を実行することにより、該第3の視差マップを改善することと
を包含する、方法。
(項目22)
項目1〜17のいずれか1項に記載の方法を実行することを包含するビデオストリームにおける動作を推定する方法であって、上記第1および第2のサンプルが赤−緑−青の色空間のビデオストリームの画像ペアである、方法。
項目1〜17のいずれか1項に記載の方法を実行することを包含するビデオストリームにおける動作を推定する方法であって、上記第1および第2のサンプルが赤−緑−青の色空間のビデオストリームの画像ペアである、方法。
(項目23)
工程(d)が、上記ビデオストリームの前画像ペアをマッチングするときにおいて評価された前テンソル場を用いて現テンソル場を推定する工程を包含する、項目22に記載の方法。
工程(d)が、上記ビデオストリームの前画像ペアをマッチングするときにおいて評価された前テンソル場を用いて現テンソル場を推定する工程を包含する、項目22に記載の方法。
(項目24)
上記現テンソル場が上記前テンソル場から再帰的に推定される、項目23に記載の方法。
上記現テンソル場が上記前テンソル場から再帰的に推定される、項目23に記載の方法。
(項目25)
上記データがオーディオデータである、項目1〜15のいずれか1項に記載の方法を包含した音声認識アルゴリズム。
上記データがオーディオデータである、項目1〜15のいずれか1項に記載の方法を包含した音声認識アルゴリズム。
(項目26)
項目1〜25のいずれか1項に記載の方法を実行するコンピュータを制御するプログラム。
項目1〜25のいずれか1項に記載の方法を実行するコンピュータを制御するプログラム。
(項目27)
記憶媒体に格納された項目26に記載のプログラム。
記憶媒体に格納された項目26に記載のプログラム。
(項目28)
通信ネットワークを介した項目26に記載のプログラムの伝送。
通信ネットワークを介した項目26に記載のプログラムの伝送。
(項目29)
項目1〜25のいずれか1項に記載の方法を実行するようにプログラムされたコンピュータ。
項目1〜25のいずれか1項に記載の方法を実行するようにプログラムされたコンピュータ。
(項目30)
信号をマッチングする装置であって、
(a)空間の第1のサンプルと第2のサンプルとを比較することにより、信号ペアの集合を提供する手段であって、該第1のサンプルおよび該第2のサンプルは変換の集合に関連付けられており、各信号ペアが該第1および第2のサンプルにおいて実質的に同一な該空間の特徴に対応する、手段と、
(b)各信号ペアに対して、各サンプルの特徴の位置における該空間の特徴の差に対応する残差を評価する手段と、
(c)該残差を用いて該変換の集合の第1の推定を評価する手段と、
(d)該空間における流れの方向を表すテンソル場を推定する手段であって、該テンソル場は該空間の各点に及ぶ、手段と、
(e)該第1の推定と該テンソル場とから、各信号ペアの該残差を再算出することにより、該変換の集合の該推定を改善する手段と
を備えた、装置。
信号をマッチングする装置であって、
(a)空間の第1のサンプルと第2のサンプルとを比較することにより、信号ペアの集合を提供する手段であって、該第1のサンプルおよび該第2のサンプルは変換の集合に関連付けられており、各信号ペアが該第1および第2のサンプルにおいて実質的に同一な該空間の特徴に対応する、手段と、
(b)各信号ペアに対して、各サンプルの特徴の位置における該空間の特徴の差に対応する残差を評価する手段と、
(c)該残差を用いて該変換の集合の第1の推定を評価する手段と、
(d)該空間における流れの方向を表すテンソル場を推定する手段であって、該テンソル場は該空間の各点に及ぶ、手段と、
(e)該第1の推定と該テンソル場とから、各信号ペアの該残差を再算出することにより、該変換の集合の該推定を改善する手段と
を備えた、装置。
本発明のより深い理解を目的とし、また、本発明の実施方法を示すために、例として、添付の図を参照する。
以下に説明する方法は、単に一例であり、音声認識などの別の用途にも用いられ得るが、主として、図示した画像のマッチングを参照して説明される。本発明は、概して、いわゆるベクトル値の信号のマッチングに適用可能である。そのような信号は、各点において測定可能な複数の変数を有する入力として考えることができる。例えば、典型的なカラー画像は、各空間位置において、3つの変数、赤と、緑と、青とを有する。本発明の一実施形態の方法は、空間のサンプルの2つの集合(例えば、一シーンから得られた2つの画像)から開始し、2つの画像に対応する特徴を効果的にマッチングする方法を提供する。視点による視野の変化と照明の違いとを含めた種々の理由により、単一の特徴の見かけは、2つの異なったビューで変化し得る。別の用途に加えて、共通の特徴をマッチングすることにより、シーンの変換モデルは、新規な視点により作成され得る画像から定められ得る。そのシーンからの別の画像は認識され得る。また、共通の特徴における動作の推定が推定され得る。
2つのビューにおける対応する特徴の位置を比較することにより、この変換モデルは推定される。この比較を行うために、画像の点は、2つのビューにおいて「マッチ」している必要がある。共通の特徴における見かけの変化は、多次元関数であり、各点を新たな位置および色にマッピングする。位置は、二次元パラメータである。その一方で、色は、三次元パラメータ(赤、緑、青)である。
信号は局所的に不明瞭であり得るために、上記マッピングを正確に推定することは、通常困難である。たとえ正しい解が1つしかない場合においても、取り得る多数のマッピングを区別し得ない。取り得るマッピングの数を低減するために、何らかの方法によりマッピングの選択を制限する必要がある。本発明の実施形態により提供された方法は、新規の形態に制限を課す信号マッチング手順からなる。
次元の数に制限を課す場合には、通常、2つの信号間のマッピングにおける次元の数が信号自身の次元の数よりも低いと想定される。空間マッピングおよび輝度のオフセットにより関連付けられた2つのカラー画像の例を考慮する。輝度のオフセットを三次元の色空間の一次元変換と解釈することができる。この変換のモデルは、構成され得て、空間マッピングの推定に有用に用いられる。色(または、別の従属変数)間の変換はさらに複雑でありうるが、概して、上述した方法により有用なモデルを構成することができる。
本明細書において、用語「空間」は、点の集合を指し、各点は、変数の各集合の値の固有な組み合わせにより決定される。例えば、色空間における各点は、赤、緑、および青の値により決定され得る。
本発明の実施形態の方法と、HornおよびSchunckのアルゴリズムとを比較することは、有用である。両方法とも、信号変換の推定を改善するために制限を課す。HornおよびSchunckの方法は、変換に対して、空間的に平滑であるという制限を課す。このアプローチでは、バイアスのかけられた解が生じる。それは、根底にある変換が必ずしも平滑でないためである。例としては、変化のない背景を越えて運動する物体により作り出された動作場は、物体の境界において不連続である。本発明の実施形態の方法は、変換の従属変数に制限を課す。特に、その従属変数は、変換に対して整合した変化をする必要がある。
例えば、典型的な画像の従属変数は、各空間位置における、赤、緑、および青の値である。2つの入力信号が、わずかに異なった位置から得られた同一物体のビューであると仮定する。一シーンの点の見かけ上の色は、「表面」と「照明」との色の混合物としてモデル化され得る。所与のシーンの点は、例えば照明の効果により、各ビューにおいて異なった色を有し得るが、両色とも同一の表面および照明要素の混合物である必要がある。本方法により、この制限を実行することができる。信号変換の連続部分および不連続部分の両部分に適用されるということが、このアプローチの利点である。
図1のブロック図は、以下に記載される方法の適用例を図示する。データソース10から、データサンプル1および2を得る。データソース10は、例えば視覚可能なシーンであり得、その場合には、サンプル1および2は、そのシーンの画像である。データサンプルドメイン11は、データソース10の部分集合である。サンプル1および2は、変換モデル13を生じるデータ処理12の影響を受けやすい。変換モデル13は、前もって未分析データサンプル3を検出する画像認識システム14を提供するために用いられ得る。もしくは、変換モデル13を予測システム15において用いることにより、データソース10の見かけ上生成されたビューに対応する新規なデータサンプルを作成し得る。
図2a〜2fは、画像マッチングの一般的なアプローチを図示する。図2aおよび2bは、同一のシーンの異なるビューを表す画像f’とf”とを示す。類似した色を有する点を識別することにより、その画像はマッチングされ、その結果の空間の流れが、図2cに示される。ここで留意すべきは、流れが平滑であるということである。2つのさらなるビューが図2dおよび2eに示され、それらは、既に述べたようにマッチングされ得る。しかし、この例において、その結果の空間の流れは平滑でない。
信号マッチングアルゴリズムは、2つの画像間の共通の特徴をマッチングするものと知られるが、本明細書に記載される方法により、算出されたマッピングの精度および完全性が増大する。以下に記載される次元の数への制限を用いることにより、変換の物理学上のモデルと整合したマッピングをすることができるため、精度を改善することができる。不明瞭な領域に対して、次元の数を制限することにより多数の偽の解が除外されるために、完全性を改善することができる。
さらなる制限(例えばHornおよびSchunckに記載された平滑さへの制限)とこの方法とを組み合わせることができる。後者のさらなる詳細について、以下に記載する。もしくは、その方法は、さらなる制限なしに適用され得る。平滑さへの制限に伴う主要な問題は、その制限を選択的に使う必要があるということである。特に、その推定にバイアスがかかるのを避けるために、深部または動作境界を越えて平滑化を適用するべきではない。このことは、信号マッチング問題を大いに複雑にする。それは、点のマッチングとともに不連続な位置を推定する必要があるためである。対照的に、本明細書に記載の次元の数への制限は、信号変換の連続部分と不連続部分の両部分に適用することができる。
この方法は、既存のマッチングアルゴリズムと簡易に組み合わされ得て、必要に応じてその既存のアルゴリズムを作動または停止することができる。この方法により導入された計算オーバーヘッドは、簡易に管理される。新たな計量は、所与のサンプルペアに対して元のユークリッド距離の計算のコストに相当する定数を追加する。マッチング手順の間において構成される表現は、追加の用途を有し得る。例えば、特定のシーンの2つの画像のマッチングを考慮する場合において、その表現は、任意の新規なビューの提供に用いられ得るシーンの測光上のモデルを構成する。そのことは、さらに正確な結果につながる。
以下に、本発明の特定の実施形態をさらに詳細に記載する。
空間Fから得られた値をとる2つの信号は、f’とf”として定義される。この2つの信号は、点pkにおいて測定される。ここで、kは、サンプルの便宜上の指標(インデックス)である。この実施形態の方法は、次式の形態のマッチング問題を解くこととして見なされ得る。
f’(pk)←→f”(pk+tk), k=1...K [1]
ここで、ベクトルtkは、根底にある変換を定義する。記号←→は、2つの信号がそれぞれ点pkおよび点(pk+tk)においてマッチするということを示す。
f’(pk)←→f”(pk+tk), k=1...K [1]
ここで、ベクトルtkは、根底にある変換を定義する。記号←→は、2つの信号がそれぞれ点pkおよび点(pk+tk)においてマッチするということを示す。
本明細書に記載の方法を適用することにより、ベクトル値信号の任意のペアをマッチし得る。また、本明細書に記載の方法は、任意の次元および任意の関数範囲に拡張され得る。しかし、この実施形態は、各信号の領域が点p=(x,y)からなり、各信号の範囲がf’=(r’,g’,b’)かつf”=(r”,g”,b”)となるような、RGB色空間Fとなるカラー画像に関して記載する。例えば、tkが各点pkの視差であり、そのシーンにおける2つのビューf’およびf”のマッピングとして[1]式を解釈することができる。
マッチングアルゴリズムの目的は、根底にある変換ベクトルtkを復元することである。これは、tkの取り得る値に対して誤差dを最小限にすることにより、達成される。ここで、dk=f’(pk)−f”(pk+tk) [2] である。
[2]式は、「残差」ベクトルdkの定義を与える。ノルムdは、通常、ユークリッド距離と等しい。故に、dが列ベクトルである場合にはdTはdの転置ベクトルであり、|d|=(dTd)1/2である。特に次のタイプの計量を考慮することにより、この実施形態の方法は、この定義の一般化を提供する。
|d|M=(dTMd)1/2 [3]
ここで、Mは対称正定値行列である。特に、Mが単位行列である場合には、|d|Mは、ユークリッド距離|d|になる。しかし、一般的に、行列Mは空間F一面にわたり変化し得る。これは、[2]式に定義された所与の不一致dが、Fにおけるf’およびf”の個々の位置により、より小さく見え得るか、またはより大きく見え得るということを意味する。このことの理由は図3a〜3cに示される。図3aは、二次元空間Fにおける二次元の流れdkを図示する。二次元空間の軸は、マッピングの独立な変数を表す。例えば、四角は、矢印により類似した色のマッチングが示されるRGB色空間Fを含むキューブを介したスライスを表し得る。その矢印は、図示された4つの流れベクトルの流れの方向を示す。図3bは、二次元空間における一次元の流れ(すべてのベクトルが揃っている)を示す。流れの局所的な次元の数は、空間内において変わり得る。図3cは、2つの取り得るマッチを図示し、そのマッチは、破線の矢印として示された残差ベクトルにより示される。残差ベクトルの長さは同じである。従って、通常の測定|d|によると、その2つのマッチのもっともらしさは等しい。しかし、その2つの残差の内の1つだけが、図3bに示される既存の一次元の局在的な流れと整合する。[3]式の計量が、この残差に対して「短い」長さを生じることは好ましく、それにより、整合したマッチングが選ばれる。
|d|M=(dTMd)1/2 [3]
ここで、Mは対称正定値行列である。特に、Mが単位行列である場合には、|d|Mは、ユークリッド距離|d|になる。しかし、一般的に、行列Mは空間F一面にわたり変化し得る。これは、[2]式に定義された所与の不一致dが、Fにおけるf’およびf”の個々の位置により、より小さく見え得るか、またはより大きく見え得るということを意味する。このことの理由は図3a〜3cに示される。図3aは、二次元空間Fにおける二次元の流れdkを図示する。二次元空間の軸は、マッピングの独立な変数を表す。例えば、四角は、矢印により類似した色のマッチングが示されるRGB色空間Fを含むキューブを介したスライスを表し得る。その矢印は、図示された4つの流れベクトルの流れの方向を示す。図3bは、二次元空間における一次元の流れ(すべてのベクトルが揃っている)を示す。流れの局所的な次元の数は、空間内において変わり得る。図3cは、2つの取り得るマッチを図示し、そのマッチは、破線の矢印として示された残差ベクトルにより示される。残差ベクトルの長さは同じである。従って、通常の測定|d|によると、その2つのマッチのもっともらしさは等しい。しかし、その2つの残差の内の1つだけが、図3bに示される既存の一次元の局在的な流れと整合する。[3]式の計量が、この残差に対して「短い」長さを生じることは好ましく、それにより、整合したマッチングが選ばれる。
第1の例において、そのアルゴリズムの先の反復からマッチf’(pk)←→f”(pk+tk)が判明した場合において、残差dkの第1のセットを用いて、空間Fの各点におけるMを定義する。この定義は、関連した「残差」ベクトルdkに基づく。そのベクトルの各々は、Fにおける2つの点f’kおよびf”kを関連付ける。
fk=(1/2)(f’k+f”k) [4]
として定義される中点に、f’k=fk−(1/2)dkおよびf”k=fk+(1/2)dkとなるように各残差を関連付けることはもっともである。次いで、判明した残差の各々が、規格化された外積
fk=(1/2)(f’k+f”k) [4]
として定義される中点に、f’k=fk−(1/2)dkおよびf”k=fk+(1/2)dkとなるように各残差を関連付けることはもっともである。次いで、判明した残差の各々が、規格化された外積
この構造テンソル表現は、Knutssonにより異なる状況において提案されている。実際は、dkは方向を表し、その一方で、Δkは配向を表す。
図4a〜4cは、それぞれdkとΔkとして表される局所方向と局所配向との差を示す。図4aは、サンプリングされた一次元の流れdkのベクトル表現である。そのベクトルの平均はゼロである。図4bは、同じサンプリングされた流れのテンソル表現Δkであり、そのテンソルは、元のベクトルの中点に関連付けられる。そのテンソルの平均は、流れを表現する。
次の工程は、Fの各点において、その点におけるΔの値に基づいてMを定義することである。その定義は、通常Fにおける点の部分集合のみが関連したテンソルを有するために、必ずしも即座に可能ではない。しかし、MillerおよびTieuにより記載された方法と類似した方法を用いて、不足したテンソルを「補充する」ことは単純である。局所平均
方向は逆であるが、dと−dとの不一致は、同一配向の流れ構造と整合する。残差ベクトルに直接[6]式の内挿手順を適用する場合において、そのベクトルは互いに相殺する。そのことが、[5]式によるテンソル表現において、dおよび−dが同一のテンソルをマッピングし、互いに逆の方向が[6]式の流れの同一な推定をサポートするということの理由である。
[6]式を用いて、対応する行列Δf *に基づいてFの各点において行列Mfを推定することができる。その根底の考えは、局所的な流れがFの部分空間にある場合において、Mfはこの部分空間において測定された距離を「過小評価する」べきであるということである。それにより、流れの部分空間における任意のマッチが支持される傾向になる。それにより、図3a〜3cに示されるように、信号−信号マッピングにおいて固有な構造を用いる本実施形態の主要な目的が達成される。
行列Mfは、Δf *として同じ規格化済みの固有ベクトルを有するように設定される。それは、その固有ベクトルが流れ場の局所的な構造に揃うためである。その局所的な流れの次元の数は、Δf *の固有値から推定される。局所的な流れが所要の次元の数を有しない場合において、Mfの固有値は1に設定され、それにより、|d|Mは、ユークリッド距離と一致する。局所的な流れが所要の次元の数を有しない場合において、流れを補う固有ベクトルが、適切に低減された固有値に与えられる。詳細な定義は個々のマッチング問題に依存するが、通常、行列MfはΔfの連続関数である。
特定の用途において、Mfの定義は物理学上の理由により得る。例えば、2つのカラー画像のマッチングにおいて、Shaferの二色性モデル(S.A.Shaferによる「Using Color to Separate Reflection Components」、Color Research and Application、10(4)、210〜218、1985年)を用いることができる。このモデルは、2つの要素(材料に特有の「本体」の寄与と、照明に特有の「表面」の寄与)の混合物としての見かけ上の表面を表す。その要素の相対的な割合は、表面の配向および視覚方向に依存する。それにより、同一表面の2つのビューは、同一の二次元部分空間におけるRGB値を生成する必要があるということになる。概要が上述された方法において、この制限を簡単に課すことができる。
例えば、残りの既存のマッチが与えられた場合におけるマッチの確率kを表すために用いられる関数pr(fk|{fn,n≠k})と、二色性モデルとを考える。Δk *の第1と第3の固有値がほぼ等しい場合において、確率は低くあるべきである。それは、この場合が局所構造の不足を示すためである(完全なマッチング|dk|=0の特別な場合も含まれる)。第1と第3の固有値の差が大きい場合において、確率は高くあるべきであり、その固有値の一方が二色性モデルと整合する。それは、この場合が一次元または二次元の局所構造を示すためである。
確率の定義が与えられた場合において、行列MはΔk *として同一の固有ベクトルを有するように定められるが、はじめの2つの固有値はpr(fk|{fn,n≠k})に反比例するように定められる。測光上のパラメータは、実際には推定されない。この例は、二色性モデルの次元の数にシンプルに基づくためである。
マッチング方法における流れの表現の実施形態について、以下に記載する。既存の信号マッチングアルゴリズムが提供されると仮定する。通常の計量|dk|を用いたマッチングにおける第1の試行の残差dkにより、流れ場を初期設定する。次いで、上述したように、完全なテンソル場Δf *を推定する。第2の反復において、新たな計量|dk|Mを用いることによりマッチングを改善することができる。改善されたマッチングの残差は、もとの流れ場に寄与し、テンソルΔf *を再推定する。所与の判定基準を満たすまで、このプロセスを続ける。例えば、Mの固有値が適切に定義された場合において、平均誤差
図5は、本発明のさらなる実施形態を構成する反復ステレオマッチングアルゴリズムの第1の2つのパスを模式的に示す。信号f’およびf”は、立体画ペアの左側および右側の画像である。明確にするために、異なった画像の点の間のマッチングを図の異なった列(それぞれ20と21に示される)に示す。画像の点31は、整合性のマッチングを示すf’およびf”を有する閉ループを形成する。従って、この値を用いてFの最初の推定に寄与する。画像の点30は、閉ループを有さず、最初の推定の提供に用いられない。流れの表現は、第2の反復(k=2)において用いられ、その後に、整合性マッチングされた点の数が増加する。閉ループはマッチを示し、画像の点31は画像の点31’として変化しないが、その一方で、画像の点30が画像の点30’を形成する。次いで、さらなる反復における新たなマッチから流れの場を再算出する。Fに向いた矢印は、マッチングステージを通過した残差の色ベクトルを示す。Fから外に向いた矢印は、新たなマッチング問題におけるピクセルを比較するために用いられる行列Mfを示す。
立体画ペアの2つの画像間における画像−点の両眼視差は、第1の画像の点を含み、かつ、もう一方の画像における、第1の画像と最も類似した領域に位置するピクセルの領域を定めることにより、推定され得る。このアプローチには2つの問題がある。第1の問題は、画像の不明瞭さ(例えば、特徴のない領域)による混同である。第2の問題は、所与のシーンの点が1つのビューにのみ現れ得るために、2つの入力画像に対して非対称であるということである。取り得る視差マップ(disparity map)(すなわち、左−右および右−左)を算出し、全ての不整合なエントリを除去することにより、これらの問題に対処することができる。この手順により、希薄であるが、比較的正確な視差マップが得られる。
上記のクロスチェック手順により保持されたマッチを用いることにより、FにおけるRGBの流れを推定することができる。これは、整合性のマッチは正しい可能性が高く、また、クロスチェック手順にパラメータが事実上含まれていないために、魅力的である。色の流れが一旦推定されると、上述したように、計量|d|Mを用いて視差マップを再算出することできる。固定された反復数回、または収束条件が満たされるまで、このプロセスを続け得る。
さらなる実施形態に従って、入力としてビデオストリームを用いて、上述した両眼の手順を動作推定に適合させることができる。このことは、図6および7に示される。ビデオを一連のフレームf1...fnと見なすことができる。立体画ペアの左側および右側画像との類推により隣接したフレームのペアの各々を扱うことができる。しかし、各フレームペアに対して色の流れ場を独立に推定する必要はない。色の流れの各テンソルΔf *が、ビデオストリームの間において強い一時的な相関を示すということが想定される。その相関を利用する方法は2つある。
一実施形態において、fnおよびfn−1をマッチングするプロセスは、fn−1←→fn−2の対応から算出された流れ場Fを利用し得る。このことは、図6において示され、図6では、流れ場41が、フレームf1およびf2の間において算出され、次いで、フレームf2とf3との間のマッチングに用いられる。同様に、流れ場42および43が、次のマッチングに用いられる。もしくは、図7に示されるように、流れ場は、再帰的に推定され得る。それは、fn←→fn−1の対応から算出されたテンソルが、fn−1←→fn−2からのテンソルと合併され、以下も同様であり、それにより、連続して更新される流れ場44〜46が提供されるということを意味する。このアプローチの有利な点は、原則として、より正確かつより完全な流れ場がもたらされるということである。不利な点は、全ての所与のステージにおいて、流れ場の一部が、関連のない情報を有し得るということである。
図8は、本発明の一実施形態を示すフローチャートである。工程50において、空間からデータサンプルを取得し、工程51において、残差を評価する。工程52において、データサンプルの共通した特徴間における変換の第1の推定を得る。工程53において、テンソル場を推定し、工程54において、テンソル場を用いて残差を再計算し、それにより、2つの信号間のマッチングの推定を改善する。工程55において、マッチングのレベルが完全か否かの決定がなされる。これは、十分なレベルのマッチングが達成されたか否か、または、一定回数の反復が行われたか否かに基づき得る。この方法の出力は、マッチされた信号の集合56である。
上述した方法は、この方法を実行するコンピュータを制御するためのプログラムにおいて実施され得る。記憶媒体(例えば、ハードディスク媒体、フロッピー(登録商標)ディスク媒体、CDまたはDVDの記録媒体、またはフラッシュメモリ記憶製品)にそのプログラムを格納し得る。また、そのプログラムは、通信ネットワーク(例えば、インターネット、または、互いにLANにおいて接続された一群のコンピュータ)を介して伝送され得る。
図9の概略図は、読取専用メモリ(ROM)61およびランダムアクセスメモリ(RAM)62に結合された中央演算処理装置(CPU)60を示す。CPUには、入力/出力機構64を介してデータサンプル63が提供される。次いで、ROM61の一部であり得るプログラム記憶装置65により提供された指示に従って、CPUは、提供されたデータにマッチング手順を施し、入力/出力機構64を介して、出力(換言すると、マッチされたデータサンプル66)を提供する。プログラム自身、または、システムへの全ての入力および/または出力は、例えばインターネットであり得る通信ネットワーク67に/から提供または伝送され得る。
以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。本明細書において引用した文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に援用されるべきであることが理解される。
1,2,3,4 データサンプル
10 データソース
11 データサンプルドメイン
12 データ処理
13 変換モデル
14 認識システム
15 予測システム
10 データソース
11 データサンプルドメイン
12 データ処理
13 変換モデル
14 認識システム
15 予測システム
Claims (30)
- (a)空間の第1のサンプル(1)と第2のサンプル(2)とを比較することにより、信号ペアの集合を提供する工程であって、該第1のサンプル(1)および該第2のサンプル(2)は変換の集合に関連付けられており、各信号ペアが該第1および第2のサンプルにおいて実質的に同一な該空間の特徴に対応する、工程と、
(b)各信号ペアに対して、各サンプルの特徴の位置における該空間の値の差に対応する残差を評価する(51)工程と、
(c)該残差から該変換の集合の第1の推定を評価する(52)工程と、
(d)該空間における流れの方向を表すテンソル場を推定する(53)工程であって、該テンソル場は該空間の少なくとも1点に及ぶ、工程と、
(e)該第1の推定と該テンソル場とから、各信号ペアの該残差を再算出する(54)ことにより、該変換の集合の該推定を改善する工程と
を包含する、データを処理する方法。 - 工程(d)および(e)を少なくとも1回繰り返すさらなる工程を包含する、請求項1に記載の方法。
- 工程(a)が信号マッチングアルゴリズムを用いることを包含する、請求項1または2に記載の方法。
- 前記残差dkがf’(pk)−f”(pk+tk)と等しく、f’(pk)およびf”(pk+tk)は、それぞれ点pkおよび点(pk+tk)において測定された、空間において実質的に同一な特徴に対応する信号ペアであり、tkは前記変換の集合を表し、kは各信号ペアの指標である、請求項1〜3のいずれか1項に記載の方法。
- 工程(c)が|dk|M=(dk TMdk)1/2となるように対称正定値行列Mを定義することと、tkに対して|dk|Mを最小化することとを包含する、請求項4に記載の方法。
- 工程(d)が、前記空間における各点に対してテンソル場を推定することを包含する、請求項1〜5のいずれか1項に記載の方法。
- 工程(d)が、前記変換の集合の前推定から得られた既存のテンソルを内挿することにより、テンソルが決定されていない領域のテンソルを決定することを包含する、請求項1〜6のいずれか1項に記載の方法。
- 前記内挿が近傍重み関数に基づき、該近傍重み関数の値は、各信号ペアの位置から離れるにつれて単調に減少する、請求項7に記載の方法。
- 前記近傍重み関数がガウス関数である、請求項8に記載の方法。
- 前記テンソル場を用いることにより、前記変換の集合を表す行列Mfを前記空間の各点において算出する、請求項1〜9のいずれか1項に記載の方法。
- 前記行列Mfの固有値が前記変換の集合の次元の数に適合するように選択される、請求項10に記載の方法。
- 前記方法が、収束条件が満たされるまで反復される、請求項2に記載の方法。
- 前記変換の集合における前記推定の次元の数が少なくとも1つの制限を受ける、請求項1〜12のいずれか1項に記載の方法。
- 前記制限が空間の平滑さへの制限である、請求項13に記載の方法。
- 前記制限が二色性モデルの制限である、請求項13に記載の方法。
- 前記空間が赤−緑−青の色空間であり、該空間の前記第1および第2のサンプルが第1および第2の画像であり、前記変換の集合が該画像内の各点における空間の差を表す、請求項1〜15のいずれか1項に記載の方法。
- 前記第1および第2の画像が立体画像であり、前記空間の差が視差である、請求項16に記載の方法。
- 請求項1〜17のいずれか1項に記載の方法が含まれる、画像を認識する方法。
- 請求項1〜17のいずれか1項に記載の方法が含まれる、画像を予測する方法。
- 請求項1〜17のいずれか1項に記載の方法が含まれる、第1の画像と第2の画像との間における変換のモデルを作成する方法であって、該モデルが前記推定されたテンソル場を備える、方法。
- 第1の画像と第2の画像との視差を推定する方法であって、
第1および第2の画像の対応する特徴のための第1および第2の視差マップを算出することであって、それぞれ、該第1視差マップが第2の画像に対する第1の画像の視差を表し、該第2視差マップが第1の画像に対する第2の画像の視差を表す、ことと、
該第1および第2の視差マップから不整合なエントリを除去することにより、クロスチェックされた第3の視差マップを得ることと、
前記変換の集合の前記第1の推定として該第3の視差マップを用いて請求項1〜15のいずれか1項に記載の方法を実行することにより、該第3の視差マップを改善することと
を包含する、方法。 - 請求項1〜17のいずれか1項に記載の方法を実行することを包含するビデオストリームにおける動作を推定する方法であって、前記第1および第2のサンプルが赤−緑−青の色空間のビデオストリームの画像ペアである、方法。
- 工程(d)が、前記ビデオストリームの前画像ペアをマッチングするときにおいて評価された前テンソル場を用いて現テンソル場を推定する工程を包含する、請求項22に記載の方法。
- 前記現テンソル場が前記前テンソル場から再帰的に推定される、請求項23に記載の方法。
- 前記データがオーディオデータである、請求項1〜15のいずれか1項に記載の方法を包含した音声認識アルゴリズム。
- 請求項1〜25のいずれか1項に記載の方法を実行するコンピュータを制御するプログラム。
- 記憶媒体に格納された請求項26に記載のプログラム。
- 通信ネットワークを介した請求項26に記載のプログラムの伝送。
- 請求項1〜25のいずれか1項に記載の方法を実行するようにプログラムされたコンピュータ。
- 信号をマッチングする装置であって、
(a)空間の第1のサンプルと第2のサンプルとを比較することにより、信号ペアの集合を提供する手段であって、該第1のサンプルおよび該第2のサンプルは変換の集合に関連付けられており、各信号ペアが該第1および第2のサンプルにおいて実質的に同一な該空間の特徴に対応する、手段と、
(b)各信号ペアに対して、各サンプルの特徴の位置における該空間の特徴の差に対応する残差を評価する手段と、
(c)該残差を用いて該変換の集合の第1の推定を評価する手段と、
(d)該空間における流れの方向を表すテンソル場を推定する手段であって、該テンソル場は該空間の各点に及ぶ、手段と、
(e)該第1の推定と該テンソル場とから、各信号ペアの該残差を再算出することにより、該変換の集合の該推定を改善する手段と
を備えた、装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0418968A GB2417629A (en) | 2004-08-26 | 2004-08-26 | Data processing to detect transformation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006065863A true JP2006065863A (ja) | 2006-03-09 |
Family
ID=33104629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005237017A Withdrawn JP2006065863A (ja) | 2004-08-26 | 2005-08-17 | 画像マッチングのための適応可能な色情報 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7477769B2 (ja) |
JP (1) | JP2006065863A (ja) |
GB (1) | GB2417629A (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8165361B2 (en) * | 2008-01-14 | 2012-04-24 | General Electric Company | System and method for image based multiple-modality cardiac image alignment |
US8693734B2 (en) * | 2011-11-18 | 2014-04-08 | Adobe Systems Incorporated | Detecting poorly conditioned points in bundle adjustment |
GB201218209D0 (en) * | 2012-10-10 | 2012-11-21 | Univ Lancaster | System state classifier |
US20180101773A1 (en) * | 2016-10-07 | 2018-04-12 | Futurewei Technologies, Inc. | Apparatus and method for spatial processing of concepts |
CN109146936B (zh) * | 2018-07-17 | 2021-04-27 | 湖南云顶智能科技有限公司 | 一种图像匹配方法、装置、定位方法及系统 |
US12013352B2 (en) | 2018-09-26 | 2024-06-18 | Northwestern University | Space-time scattering network for inverse design and tomography |
WO2023159073A1 (en) * | 2022-02-15 | 2023-08-24 | Currus Ai Inc. | Methods and systems of sensor fusion in cooperative perception systems |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1395952B1 (en) * | 2001-06-12 | 2007-10-10 | Silicon Optix Inc. | Method and system for processing a non-linear two dimensional spatial transformation |
US7164800B2 (en) * | 2003-02-19 | 2007-01-16 | Eastman Kodak Company | Method and system for constraint-consistent motion estimation |
-
2004
- 2004-08-26 GB GB0418968A patent/GB2417629A/en not_active Withdrawn
-
2005
- 2005-08-17 JP JP2005237017A patent/JP2006065863A/ja not_active Withdrawn
- 2005-08-23 US US11/209,466 patent/US7477769B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
GB2417629A (en) | 2006-03-01 |
US20060045380A1 (en) | 2006-03-02 |
GB0418968D0 (en) | 2004-09-29 |
US7477769B2 (en) | 2009-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7373554B2 (ja) | クロスドメイン画像変換 | |
US8923638B2 (en) | Algorithm selection for structure from motion | |
Turk | Gesture recognition | |
US9196021B2 (en) | Video enhancement using related content | |
JP2006065863A (ja) | 画像マッチングのための適応可能な色情報 | |
US8761509B1 (en) | Method and apparatus for fast computational stereo | |
KR20030062313A (ko) | 영상 변환 및 부호화 기술 | |
WO2021220688A1 (en) | Reinforcement learning model for labeling spatial relationships between images | |
Zhang et al. | Vmrf: View matching neural radiance fields | |
Trujillo et al. | Evolving estimators of the pointwise Hölder exponent with genetic programming | |
Liu et al. | A kronecker product model for repeated pattern detection on 2d urban images | |
Karaoglu et al. | Dynamon: Motion-aware fast and robust camera localization for dynamic nerf | |
Dickinson et al. | Geons | |
Ferens et al. | Hyperpose: Camera pose localization using attention hypernetworks | |
Sankaranarayanan et al. | Go with the flow: Optical flow-based transport operators for image manifolds | |
CN113283469A (zh) | 基于视图的三维模型检索的图嵌入无监督特征学习方法 | |
CN106780331B (zh) | 一种新的基于邻域嵌入的超分辨率方法 | |
CN110490235A (zh) | 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置 | |
Vik et al. | Robust pose estimation and recognition using non-gaussian modeling of appearance subspaces | |
JP3435286B2 (ja) | テンプレートマッチング方法 | |
Dorst | Geometric Algebra | |
Zhang | Geometric Calibration | |
Regression | Face Super Resolution by Tangential and Exponential Kernel Weighted Regression Model | |
Banerjee et al. | Detecting Near-Duplicate Face Images | |
BHARGAV et al. | A Two Stage Image Denoising Algorithm Using Correlative Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20081104 |