JP2004048116A

JP2004048116A - 画像データ符号化および復号のための方法および装置

Info

Publication number: JP2004048116A
Application number: JP2002199318A
Authority: JP
Inventors: Tadamoto Hiraga; 平賀　督基
Original assignee: Monolith Co Ltd
Current assignee: Monolith Co Ltd
Priority date: 2002-07-08
Filing date: 2002-07-08
Publication date: 2004-02-12

Abstract

【課題】再生環境に応じてフレームレートが決定され、かつ、オブジェクト単位でインタラクティブに再生させる軽快な動画フォーマットはなかった。
【解決手段】画像データを入力し（Ｓ１０００）、画像データからオブジェクトを認識し（Ｓ１００２）、オブジェクト単位のレイヤに分離する（Ｓ１００４）。キーフレームを検出し（Ｓ１００６）、複数視点のキーフレーム間では（Ｓ１００８Ｙ）、視点間の対応点情報を生成するとともに（Ｓ１０１０）、時間的に前後のキーフレーム間でも対応点情報を生成する（Ｓ１０１２）。これらのデータをパッケージ化し（Ｓ１０１４）、時系列的に関連づけし（Ｓ１０１６）、レイヤ別のコンポーネントを生成する（Ｓ１０１８）。これらを集合させて符号化データを生成して（Ｓ１０２０）、出力する（Ｓ１０２２）。
【選択図】　　　　図２０

Description

【０００１】
【発明の属する技術分野】
この発明は、画像データ処理技術に関する。この発明はとくに、複数のフレームを含む画像データを符号化または復号する方法と装置に関する。
【０００２】
【従来の技術】
近年、画像圧縮技術は目覚ましい発展を遂げてきた。標準規格としてＪＰＥＧ（Ｊｏｉｎｔ　Ｐｈｏｔｏｇｒａｐｈｉｃ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ）やＭＰＥＧ（Ｍｏｖｉｎｇ　Ｐｉｃｔｕｒｅ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ）があるが、さらにその先を行く技術開発が争われている。とくに動画の圧縮技術に関しては、ブロードバンド環境の整備やＤＶＤの普及に後押しされ、より高画質、より高圧縮を目指した競争が激化している。
【０００３】
コンテンツ制作者の当然の要求である圧縮画像の画質向上が徐々に満たされてきている中、表現上の自由度をさらに向上させるにはインタラクティブ性の充実化が重要な鍵となる。従来はＣＤやＤＶＤといった固定的に記録される媒体によるコンテンツ配信が中心であったものの、最近はインターネット経由や衛星放送による配信の形態へシフトしつつあり、受信側の多様な端末環境に十分に対応できるフォーマットの策定が不可欠となってきている。
【０００４】
【発明が解決しようとする課題】
ここで、例えばＭＰＥＧ４規格によって圧縮された動画は、制作者側で設定したフレームレートで再生されるのみであり、再生側の要求に応じてフレームレートを簡単に変えられるような自由度はもっていない。インターネット放送や衛星放送における受信端末は、専用のハードウエアから携帯電話まで種々であり、その性能は一様でない。どのようなスペックの端末に対しても的確に対応するためには、もはや圧縮技術そのものの課題ではなくフォーマット形式をどう定めるかの問題といえる。
【０００５】
本発明はこうした現状に鑑みてなされたものであり、その目的は、再生環境に関する自由度を向上させる画像符号化と復号の技術およびそのフォーマットの提供にある。
【０００６】
別の目的は、ユーザインタラクティブ性を向上させた画像データのフォーマットを実現することにある。
【０００７】
さらに別の目的は、画像データの効率的圧縮を実現する符号化および復号技術の提供にある。
【０００８】
さらに別の目的は、画質の維持と圧縮率の向上という相反する要望に適う画像符号化および復号技術の提供にある。
【０００９】
【課題を解決するための手段】
本発明のある態様は画像データ符号化方法である。この方法においては、オブジェクト別のレイヤごとに個別の間隔で設定される複数のキーフレームとその表示タイミングを示す時間情報とを組み合わせ、その組み合わせを時系列的に複数関連づけることによって生成されるレイヤ別のコンポーネントを、後に複数のキーフレーム間で画素単位のマッチング計算によって得られる対応点情報をもとに中間フレームを生成することを前提とした符号化データとして出力する。
【００１０】
本発明で処理される画像データは、動画でもよいし、三次元オブジェクトを二次元的に表現した画像でもよい。さらにいえば、フレームとして把握できる任意次元の画像すべてが処理可能である。「オブジェクト」は、画像データにおける描写の対象物であり、例えば人物、動物、木、車、背景などがひとつのオブジェクトとして扱われる。通常は複数のオブジェクトの描写が融合してひとつの画像データが形成される。本態様では、ひとつの画像データをオブジェクト単位に切り分けてそれぞれをレイヤとして扱う。ひとつのレイヤに含まれるオブジェクトの数は問わない。
【００１１】
「間隔」は時間的間隔と空間的間隔のいずれであってもよく、その間隔はオブジェクト別に設定されてもよい。「時間情報」は、そのキーフレームを表示すべきタイミングを決定する情報であり、絶対的な時間と相対的な時間のいずれであってもよい。上記の「間隔」が時間的間隔を示す場合、この時間情報はキーフレームレートに応じた数値になる。
【００１２】
「キーフレーム」はマッチングの対象になる参照フレームをいい、「中間フレーム」は対象にならない非参照フレームをいう。本明細書ではとくに断らない限り、記述の簡潔のために、「フレーム」ということばを、画像の単位として呼ぶ場合と、その単位を構成するデータそのもの、すなわち「フレームデータ」と呼ぶべき場合の両義に用いる。
【００１３】
「コンポーネント」は、特定の時間範囲における複数のキーフレームとそれぞれの時間情報の他、映像と同期してその時間範囲に再生する音声データや所定のイベントを契機にアクセスするネットワーク上のＵＲＬを含んでもよい。
【００１４】
この態様によれば、オブジェクトごとにキーフレームレートを設定できるので、背景などの変化が少ないオブジェクトについてキーフレームレートを低くすれば全体として符号化データの容量を低減できる。また、二つのキーフレームに対して一つの対応点情報があれば中間フレームを理論上いくつでも生成でき、再生側において任意のフレームレートで再生することができる。ここで、ＭＰＥＧ形式の画像データは、差分データの形式ではあるものの中間フレーム自体を内包するため全体のデータサイズが大きく、しかもフレームレートが固定である点で本実施形態より不利である。
【００１５】
本発明の別の態様の画像データ符号化方法は、オブジェクト単位で分離される複数のレイヤを含んだ画像データにおいてそのレイヤごとに個別の間隔で複数のキーフレームを設定する工程と、複数のキーフレーム間で画素単位のマッチングを計算して対応点情報を生成する工程と、キーフレームとその表示タイミングを示す時間情報と対応点情報を組み合わせたパッケージを記憶する工程と、そのパッケージを時系列的に前後のパッケージへ関連づける工程と、その関連づけられた複数のパッケージをレイヤごとに集合させてコンポーネントを生成する工程と、すべてのレイヤのコンポーネントを集合させて画像データの符号化データとして出力する工程と、を含む。
【００１６】
「パッケージ」は、例えば一つのキーフレームと、その表示タイミングを示す情報と、次のキーフレームとの対応点を記述した情報と、を内包するデータであってもよいし、これらへのリンクだけを含んだインデックス的なデータであってもよい。「関連づけ」は、前後のパッケージまたはそのパッケージに含まれるキーフレームに対してリンクやポインタによってなされてもよい。この態様によっても、符号化データのデータサイズを低減でき、任意のフレームレートで再生できる。
【００１７】
本発明のさらに別の態様は画像データ符号化装置である。この装置は、オブジェクト単位で分離される複数のレイヤを含んだ画像データにおいてそのレイヤごとに個別の表示タイミングにて複数のキーフレームを設定するキーフレーム設定部と、その複数のキーフレーム間で画素単位のマッチングを計算して対応点情報を生成するマッチング計算部と、キーフレームとその表示タイミングを示す時間情報と対応点情報を組み合わせたパッケージを記憶するパッケージ設定部と、そのパッケージに対して時系列的に前後のパッケージへの関連づけを記述する関連記述部と、そのパッケージをレイヤごとに集合させてコンポーネントを生成するコンポーネント設定部と、すべてのレイヤのコンポーネントを集合させて符号化データとして出力する符号化データ生成部と、を含む。この態様によっても、符号化データの容量を低減でき、任意のフレームレートで再生できる。以上の各態様に含まれる各ユニットは、ソフトウエア、ハードウエアの任意の組み合わせで実現できる。
【００１８】
本発明のさらに別の態様は画像データ復号方法である。この方法においては、オブジェクト別のレイヤごとに個別の間隔で設定される複数のキーフレームとその表示タイミングを示す時間情報との組み合わせによって生成されるレイヤ別のコンポーネントを取得し、複数のキーフレーム間で画素単位のマッチング計算によって得られる対応点情報をもとに中間フレームを生成し、キーフレームと中間フレームを組み合わせて復号データとして出力する。
【００１９】
ここでいうコンポーネントは対応点情報を含んでいる場合と含んでいない場合の双方を想定できる。含んでいない場合は再生側にてキーフレーム間のマッチング計算を行った対応点情報を生成すればよい。この態様によれば、レイヤ別に任意のフレームレートで中間フレームを生成して再生できる。なお、本明細書において符号化データを画像データに変換する処理を「復号」と表現しているが、必ずしも符号化データに変換される前の画像データと同じ状態に戻すことを意図していない。とくに、元の画像データは複数レイヤに分離されていないが、復号後の画像データは複数レイヤに分離されている点でデータとしては同じではない。ただし、表示内容がほぼ同じになる点では復号といえる。
【００２０】
本発明のさらに別の態様の画像データ復号方法は、オブジェクト単位で分離される複数のレイヤを含んだ画像データの符号化データからレイヤごとに個別の間隔で設定された複数のキーフレームを検出する工程と、それらキーフレームの間における画素単位のマッチングによって得られた対応点情報をもとに、レイヤごとに個別のフレームレートにて中間フレームを生成する工程と、キーフレームと中間フレームの組み合わせを復号データとして出力する工程と、を含む。この態様によってもレイヤ別に任意のフレームレートで再生できる。
【００２１】
本発明のさらに別の態様は画像データ復号装置である。この装置は、オブジェクト単位で分離される複数のレイヤを含んだ画像データの符号化データからレイヤごとに個別の間隔で設定された複数のキーフレームを検出するキーフレーム検出部と、レイヤごとに個別のフレームレートを決定するフレームレート設定部と、キーフレームの間における画素単位のマッチングによって得られた対応点情報をもとにフレームレートにて時系列的な中間フレームを生成する中間フレーム生成部と、キーフレームと時系列的な中間フレームの組み合わせを復号データとして出力する復号データ生成部と、を含む。
【００２２】
この態様によってもレイヤ別に任意のフレームレートで再生できる。以上の各態様に含まれる各ユニットは、ソフトウエア、ハードウエアの任意の組み合わせで実現できる。
【００２３】
本発明のさらに別の態様はコンピュータにて読み取り可能なデータ構造である。このデータ構造は、画像データを識別するためのデータを格納するインデックス領域と、オブジェクト単位で分離された複数のレイヤを認識するためのデータを格納するコンテンツヘッダ領域と、レイヤごとに個別の間隔で設定された複数のキーフレームを含んだコンポーネントを格納するコンポーネント領域と、を含む。それらの領域のデータは画像データの符号化データとして関連づけられているとともに、そのコンポーネント領域には、キーフレームの表示タイミングを示す時間情報と、複数のキーフレーム間における画素単位のマッチングを計算して得られる対応点情報と、をさらに格納する。
【００２４】
なお、以上の任意の構成や工程を任意に組み替えたもの、表示を方法、装置、プログラム、システム、記録媒体などの間で変換したものもまた、本発明の態様として有効である。
【００２５】
【発明の実施の形態】
はじめに、実施の形態で利用する多重解像度特異点フィルタ技術とそれを用いた画像マッチング処理を「前提技術」として詳述する。これらの技術は本出願人がすでに特許第２９２７３５０号を得ている技術であり、本発明との組み合わせに適する。ただし、実施の形態で採用可能な画像マッチング技術はこれに限られない。
図１９以降、前提技術を利用した画像データ符号化および復号技術を具体的に説明する。
［前提技術の背景］
ふたつの画像の自動的なマッチング、つまり画像領域や画素どうしの対応付けは、コンピュータビジョンやコンピュータグラフィックスにおける最も難しくかつ重要なテーマのひとつである。例えば、あるオブジェクトに関して異なる視点からの画像間でマッチングがとれれば、他の視点からの画像を生成することができる。右目画像と左目画像のマッチングが計算できれば、立体画像を用いた写真測量も可能である。顔の画像のモデルと他の顔の画像のマッチングがとれたとき、目、鼻、口といった特徴的な顔の部分を抽出することができる。例えば人の顔と猫の顔の画像間でマッチングが正確にとられたとき、それらの中割画像を自動的に生成することでモーフィングを完全自動化することができる。
【００２６】
しかし従来一般に、ふたつの画像間の対応点は人がいちいち指定しなければならず、多大な作業工数を要した。この問題を解消するために数多くの対応点自動検出方法が提案されている。例えば、エピポーラ直線を用いることによって対応点の候補の数を減らす考えがある。しかし、その場合でも処理はきわめて複雑である。複雑さを低減するために、左目画像の各点の座標は通常右目画像でもほぼ同じ位置にあると想定される。しかし、こうした制約を設けると、大域的特徴及び局所的特徴を同時に満たすマッチングをとることは非常に困難になる。
【００２７】
ボリュームレンダリングでは、ボクセルを構成するために一連の断面画像が用いられる。この場合、従来一般に、上方の断面画像における画素が下方の断面画像の同一箇所にある画素と対応すると仮定され、これらの画素のペアが内挿計算に用いられる。このようにきわめて単純な方法を用いるため、連続する断面間の距離が遠く、オブジェクトの断面形状が大きく変化する場合、ボリュームレンダリングで構築されたオブジェクトは不明瞭になりがちである。
【００２８】
立体写真測量法など、エッジの検出を利用するマッチングアルゴリズムも多い。しかしこの場合、結果的に得られる対応点の数が少ないため、マッチングのとれた対応点間のギャップを埋めるべく、ディスパリティの値を内挿計算しなければならない。一般にあらゆるエッジ検出器は、それらが用いる局所的なウィンドウの中で画素の輝度が変化したとき、これが本当にエッジの存在を示唆するかどうかを判断することが難しい。エッジ検出器は、本来的にすべてハイパスフィルタであり、エッジと同時にノイズも拾ってしまう。
【００２９】
さらに別の手法として、オプティカルフローが知られている。二枚の画像が与えられたとき、オプティカルフローでは画像内のオブジェクト（剛体）の動きを検出する。その際、オブジェクトの各画素の輝度は変化しないと仮定する。オプティカルフローでは例えば（ｕ，ｖ）のベクトル場の滑らかさといった、いくつかの付加的な条件とともに、各画素の動きベクトル（ｕ，ｖ）を計算する。しかし、オプティカルフローでは画像間の大域的な対応関係を検出することはできない。画素の輝度の局所的な変化に注目するのみであり、画像の変位が大きい場合、システムの誤差は顕著になる。
【００３０】
画像の大域的な構造を認識するために、多重解像度フィルタも数多く提案されてきた。それらは線形フィルタと非線形フィルタに分類される。前者の例としてウェーブレットがあるが、線形フィルタは一般に、画像マッチングにはさして有用ではない。なぜなら、極値をとる画素の輝度に関する情報がそれらの位置情報とともに次第に不鮮明になるためである。図１（ａ）と図１（ｂ）は顔の画像に対して平均化フィルタを適用した結果を示している。同図のごとく、極値をとる画素の輝度が平均化によって次第に薄れるとともに、位置も平均化の影響でシフトしていく。その結果、目（輝度の極小点）の輝度や位置の情報は、このような粗い解像度レベルで曖昧になり、この解像度では正しいマッチングを計算することができない。したがって、粗い解像度レベルを設けるのが大域的なマッチングのためでありながら、ここで得られたマッチングは画像の本当の特徴（目、つまり極小点）に正確に対応しない。より精細な解像度レベルで目が鮮明に現れたとしても、大域的なマッチングをとる際に混入した誤差は、もはや取り返しがつかない。入力画像にスムージング処理を加えることにより、テクスチャ領域のステレオ情報が落ちてしまうこともすでに指摘されている。
【００３１】
一方、最近地形学の分野で利用されはじめた非線形フィルタとして一次元の「ふるい（ｓｉｅｖｅ）」演算子がある。この演算子は、所定の大きさの一次元ウィンドウ内の極小値（または極大値）を選択することにより、縮尺と空間の因果関係を保存しながら画像にスムージング処理を加える。その結果得られる画像は元の画像と同じ大きさであるが、小さな波の成分が取り除かれているため、より単純になる。画像の情報を落とすという点で、この演算子は広い意味での「多重解像度フィルタ」に分類することはできるが、実際にはウェーブレットのように画像の解像度を変えながら画像を階層化するわけではなく（つまり狭い意味での多重解像度フィルタではなく）、画像間の対応の検出には利用できない。
【００３２】
［前提技術が解決しようとする課題］
以上をまとめれば以下の課題が認められる。
１．画像の特徴を正確に、かつ比較的簡単な処理で把握する画像処理方法が乏しかった。特に、特徴のある点に関する情報、例えば画素値や位置を維持しながら特徴を抽出できる画像処理方法に関する有効な提案が少なかった。
２．画像の特徴をもとに対応点を自動検出する場合、一般に処理が複雑であるか、ノイズ耐性が低いなどの欠点があった。また、処理に際していろいろな制約を設ける必要があり、大域的特徴及び局所的特徴を同時に満たすマッチングをとることが困難だった。
３．画像の大域的な構造または特徴を認識するために多重解像度フィルタを導入しても、そのフィルタが線形フィルタの場合、画素の輝度情報と位置情報が曖昧になった。その結果、対応点の把握が不正確になりやすかった。非線形フィルタである一次元ふるい演算子は画像を階層化しないため、画像間の対応点の検出には利用できなかった。
４．これらの結果、対応点を正しく把握しようとすれば、結局人手による指定に頼るほか有効な手だてがなかった。
【００３３】
前提技術はこれらの課題の解決を目的としてなされたものであり、画像処理の分野において、画像の特徴の的確な把握を可能にする技術を提供するものである。
【００３４】
［前提技術が課題を解決するための手段］
この目的のために前提技術のある態様は、新たな多重解像度の画像フィルタを提案する。この多重解像度フィルタは画像から特異点を抽出する。したがって、特異点フィルタともよばれる。特異点とは画像上特徴をもつ点をいう。例として、ある領域において画素値（画素値とは、色番号、輝度値など画像または画素に関する任意の数値を指す）が最大になる極大点、最小になる極小点、ある方向については最大だが別の方向については最小になるような鞍点がある。特異点は位相幾何学上の概念であってもよい。ただし、その他どのような特徴を有してもよい。いかなる性質の点を特異点と考えるかは、前提技術にとって本質問題ではない。
【００３５】
この態様では、多重解像度フィルタを用いた画像処理が行われる。まず検出工程において、第一の画像に対し、二次元的な探索を行って特異点が検出される。つぎに生成工程において、検出された特異点を抽出して第一の画像よりも解像度の低い第二の画像が生成される。第二の画像には第一の画像のもつ特異点が引き継がれる。第二の画像は第一の画像よりも解像度が低いため、画像の大域的な特徴の把握に好適である。
【００３６】
前提技術の別の態様は特異点フィルタを用いた画像マッチング方法に関する。この態様では、始点画像と終点画像間のマッチングがとられる。始点画像および終点画像とは、ふたつの画像の区別のために便宜的に与えた名称であり、本質的な違いはない。
【００３７】
この態様では、第一工程にて、始点画像に特異点フィルタを施して解像度の異なる一連の始点階層画像が生成される。第二工程では、終点画像に特異点フィルタを施して解像度の異なる一連の終点階層画像が生成される。始点階層画像、終点階層画像とは、それぞれ始点画像、終点画像を階層化して得られる画像群をいい、それぞれ最低２枚の画像からなる。つぎに第三工程において、始点階層画像と終点階層画像のマッチングが解像度レベルの階層の中で計算される。この態様によれば、多重解像度フィルタによって特異点に関連する画像の特徴が抽出され、および／または明確化されるため、マッチングが容易になる。マッチングのための拘束条件は特に必要としない。
【００３８】
前提技術のさらに別の態様も始点画像と終点画像のマッチングに関する。この態様では、予め複数のマッチング評価項目のそれぞれに関して評価式を設け、それらの評価式を統合して総合評価式を定義し、その総合評価式の極値付近に注目して最適マッチングを探索する。総合評価式は、評価式の少なくもひとつに係数パラメータを掛けたうえでそれらの評価式の総和として定義してもよく、その場合、総合評価式またはいずれかの評価式がほぼ極値をとる状態を検出して前記パラメータを決定してもよい。「極値付近」または「ほぼ極値をとる」としたのは、多少誤差を含んでいてもよいためである。多少の誤差は前提技術にはさして問題とならない。
【００３９】
極値自体も前記パラメータに依存するため、極値の挙動、つまり極値の変化の様子をもとに、最適と考えられるパラメータを決定する余地が生じる。この態様はその事実を利用している。この態様によれば、元来調整の困難なパラメータの決定を自動化する途が拓かれる。
【００４０】
［前提技術の実施の形態］
最初に［１］で前提技術の要素技術を詳述し、［２］で処理手順を具体的に説明する。さらに［３］で前提技術に基づき改良を施した点について述べる。
【００４１】
［１］要素技術の詳細
［１．１］イントロダクション
特異点フィルタと呼ばれる新たな多重解像度フィルタを導入し、画像間のマッチングを正確に計算する。オブジェクトに関する予備知識は一切不要である。画像間のマッチングの計算は、解像度の階層を進む間、各解像度において計算される。その際、粗いレベルから精細なレベルへと順に解像度の階層を辿っていく。計算に必要なパラメータは、人間の視覚システムに似た動的計算によって完全に自動設定される。画像間の対応点を人手で特定する必要はない。
【００４２】
本前提技術は、例えば完全に自動的なモーフィング、物体認識、立体写真測量、ボリュームレンダリング、少ないフレームからの滑らかな動画像の生成などに応用できる。モーフィングに用いる場合、与えられた画像を自動的に変形することができる。ボリュームレンダリングに用いる場合、断面間の中間的な画像を正確に再構築することができる。断面間の距離が遠く、断面の形状が大きく変化する場合でも同様である。
【００４３】
［１．２］特異点フィルタの階層
前提技術に係る多重解像度特異点フィルタは、画像の解像度を落としながら、しかも画像に含まれる各特異点の輝度及び位置を保存することができる。ここで画像の幅をＮ、高さをＭとする。以下簡単のため、Ｎ＝Ｍ＝２^ｎ（ｎは自然数）と仮定する。また、区間［０，Ｎ］⊂ＲをＩと記述する。（ｉ，ｊ）における画像の画素をｐ_{（ｉ，ｊ）}と記述する（ｉ，ｊ∈Ｉ）。
【００４４】
ここで多重解像度の階層を導入する。階層化された画像群は多重解像度フィルタで生成される。多重解像度フィルタは、もとの画像に対して二次元的な探索を行って特異点を検出し、検出された特異点を抽出してもとの画像よりも解像度の低い別の画像を生成する。ここで第ｍレベルにおける各画像のサイズは２^ｍ×２^ｍ（０≦ｍ≦ｎ）とする。特異点フィルタは次の４種類の新たな階層画像をｎから下がる方向で再帰的に構築する。
【００４５】
【数１】

ただしここで、
【００４６】
【数２】

とする。以降これら４つの画像を副画像（サブイメージ）と呼ぶ。ｍｉｎ_{ｘ≦ｔ≦ｘ＋１}、ｍａｘ_{ｘ≦ｔ≦ｘ＋１}をそれぞれα及びβと記述すると、副画像はそれぞれ以下のように記述できる。
【００４７】
Ｐ^{（ｍ，０）}＝α（ｘ）α（ｙ）ｐ^{（ｍ＋１，０）}
　　Ｐ^{（ｍ，１）}＝α（ｘ）β（ｙ）ｐ^{（ｍ＋１，１）}
　　Ｐ^{（ｍ，２）}＝β（ｘ）α（ｙ）ｐ^{（ｍ＋１，２}）
Ｐ^{（ｍ，３）}＝β（ｘ）β（ｙ）ｐ^{（ｍ＋１，３）}
　すなわち、これらはαとβのテンソル積のようなものと考えられる。副画像はそれぞれ特異点に対応している。これらの式から明らかなように、特異点フィルタはもとの画像について２×２画素で構成されるブロックごとに特異点を検出する。その際、各ブロックのふたつの方向、つまり縦と横について、最大画素値または最小画素値をもつ点を探索する。画素値として、前提技術では輝度を採用するが、画像に関するいろいろな数値を採用することができる。ふたつの方向の両方について最大画素値となる画素は極大点、ふたつの方向の両方について最小画素値となる画素は極小点、ふたつの方向の一方について最大画素値となるとともに、他方について最小画素値となる画素は鞍点として検出される。
【００４８】
特異点フィルタは、各ブロックの内部で検出された特異点の画像（ここでは１画素）でそのブロックの画像（ここでは４画素）を代表させることにより、画像の解像度を落とす。特異点の理論的な観点からすれば、α（ｘ）α（ｙ）は極小点を保存し、β（ｘ）β（ｙ）は極大点を保存し、α（ｘ）β（ｙ）及びβ（ｘ）α（ｙ）は鞍点を保存する。
【００４９】
はじめに、マッチングをとるべき始点（ソース）画像と終点（デスティネーション）画像に対して別々に特異点フィルタ処理を施し、それぞれ一連の画像群、すなわち始点階層画像と終点階層画像を生成しておく。始点階層画像と終点階層画像は、特異点の種類に対応してそれぞれ４種類ずつ生成される。
【００５０】
この後、一連の解像度レベルの中で始点階層画像と終点階層画像のマッチングがとれらていく。まずｐ^{（ｍ，０）}を用いて極小点のマッチングがとられる。次に、その結果に基づき、ｐ^{（ｍ，１）}を用いて鞍点のマッチングがとられ、ｐ^{（ｍ，２）}を用いて他の鞍点のマッチングがとられる。そして最後にｐ^{（ｍ，３）}を用いて極大点のマッチングがとられる。
【００５１】
図１（ｃ）と図１（ｄ）はそれぞれ図１（ａ）と図１（ｂ）の副画像ｐ^{（５，０）}を示している。同様に、図１（ｅ）と図１（ｆ）はｐ^{（５，１）}、図１（ｇ）と図１（ｈ）はｐ^{（５，２）}、図１（ｉ）と図１（ｊ）はｐ^{（５，３）}をそれぞれ示している。これらの図からわかるとおり、副画像によれば画像の特徴部分のマッチングが容易になる。まずｐ^{（５，０）}によって目が明確になる。目は顔の中で輝度の極小点だからである。ｐ^{（５，１）}によれば口が明確になる。口は横方向で輝度が低いためである。ｐ^{（５，２）}によれば首の両側の縦線が明確になる。最後に、ｐ^{（５，３）}によって耳や頬の最も明るい点が明確になる。これらは輝度の極大点だからである。
【００５２】
特異点フィルタによれば画像の特徴が抽出できるため、例えばカメラで撮影された画像の特徴と、予め記録しておいたいくつかのオブジェクトの特徴を比較することにより、カメラに映った被写体を識別することができる。
【００５３】
［１．３］画像間の写像の計算
始点画像の位置（ｉ，ｊ）の画素をｐ^（ｎ） _{（ｉ，ｊ）}と書き、同じく終点画像の位置（ｋ，ｌ）の画素をｑ^（ｎ） _{（ｋ，ｌ）}で記述する。ｉ，ｊ，ｋ，ｌ∈Ｉとする。画像間の写像のエネルギー（後述）を定義する。このエネルギーは、始点画像の画素の輝度と終点画像の対応する画素の輝度の差、及び写像の滑らかさによって決まる。最初に最小のエネルギーを持つｐ^{（ｍ，０）}とｑ^{（ｍ，０）}間の写像ｆ^{（ｍ，０）}：ｐ^{（ｍ，０）}→ｑ^{（ｍ，０）}が計算される。ｆ^{（ｍ，０）}に基づき、最小エネルギーを持つｐ^（ｍ，１）、ｑ^{（ｍ，１）}間の写像ｆ^{（ｍ，１）}が計算される。この手続は、ｐ^{（ｍ，３）}とｑ^{（ｍ，３）}の間の写像ｆ^{（ｍ，３）}の計算が終了するまで続く。各写像ｆ^{（ｍ，ｉ）}（ｉ＝０，１，２，…）を副写像と呼ぶことにする。ｆ^{（ｍ，ｉ）}の計算の都合のために、ｉの順序は次式のように並べ替えることができる。並べ替えが必要な理由は後述する。
【００５４】
【数３】

ここでσ（ｉ）∈｛０，１，２，３｝である。
【００５５】
［１．３．１］全単射
始点画像と終点画像の間のマッチングを写像で表現する場合、その写像は両画像間で全単射条件を満たすべきである。両画像に概念上の優劣はなく、互いの画素が全射かつ単射で接続されるべきだからである。しかしながら通常の場合とは異なり、ここで構築すべき写像は全単射のディジタル版である。前提技術では、画素は格子点によって特定される。
【００５６】
始点副画像（始点画像について設けられた副画像）から終点副画像（終点画像について設けられた副画像）への写像は、ｆ^{（ｍ，ｓ）}：Ｉ／２^ｎ−ｍ×Ｉ／２^ｎ−ｍ→Ｉ／２^ｎ−ｍ×Ｉ／２^ｎ−ｍ（ｓ＝０，１，…）によって表される。ここで、ｆ^{（ｍ，ｓ）}（ｉ，ｊ）＝（ｋ，ｌ）は、始点画像のｐ^{（ｍ，ｓ）} _{（ｉ，ｊ）}が終点画像のｑ^{（ｍ，ｓ）} _{（ｋ，ｌ）}に写像されることを意味する。簡単のために、ｆ（ｉ，ｊ）＝（ｋ，ｌ）が成り立つとき画素ｑ_{（ｋ，ｌ）}をｑ_{ｆ（ｉ，ｊ）}と記述する。
【００５７】
前提技術で扱う画素（格子点）のようにデータが離散的な場合、全単射の定義は重要である。ここでは以下のように定義する（ｉ，ｉ’，ｊ，ｊ’，ｋ，ｌは全て整数とする）。まず始めに、始点画像の平面においてＲによって表記される各正方形領域、
【００５８】
【数４】

を考える（ｉ＝０，…，２^ｍ−１、ｊ＝０，…，２^ｍ−１）。ここでＲの各辺（エッジ）の方向を以下のように定める。
【００５９】
【数５】

この正方形は写像ｆによって終点画像平面における四辺形に写像されなければならない。ｆ^{（ｍ，ｓ）}（Ｒ）によって示される四辺形、
【００６０】
【数６】

は、以下の全単射条件を満たす必要がある。
【００６１】
１．四辺形ｆ^{（ｍ，ｓ）}（Ｒ）のエッジは互いに交差しない。
２．ｆ^{（ｍ，ｓ）}（Ｒ）のエッジの方向はＲのそれらに等しい（図２の場合、時計回り）。
３．緩和条件として収縮写像（リトラクション：ｒｅｔｒａｃｔｉｏｎｓ）を許す。
【００６２】
何らかの緩和条件を設けないかぎり、全単射条件を完全に満たす写像は単位写像しかないためである。ここではｆ^{（ｍ，ｓ）}（Ｒ）のひとつのエッジの長さが０、すなわちｆ^{（ｍ，ｓ）}（Ｒ）は三角形になってもよい。しかし、面積が０となるような図形、すなわち１点または１本の線分になってはならない。図２（Ｒ）がもとの四辺形の場合、図２（Ａ）と図２（Ｄ）は全単射条件を満たすが、図２（Ｂ）、図２（Ｃ）、図２（Ｅ）は満たさない。
【００６３】
実際のインプリメンテーションでは、写像が全射であることを容易に保証すべく、さらに以下の条件を課してもよい。つまり始点画像の境界上の各画素は、終点画像において同じ位置を占める画素に写影されるというものである。すなわち、ｆ（ｉ，ｊ）＝（ｉ，ｊ）（ただしｉ＝０，ｉ＝２^ｍ−１，ｊ＝０，ｊ＝２^ｍ−１の４本の線上）である。この条件を以下「付加条件」とも呼ぶ。
【００６４】
［１．３．２］写像のエネルギー
［１．３．２．１］画素の輝度に関するコスト
写像ｆのエネルギーを定義する。エネルギーが最小になる写像を探すことが目的である。エネルギーは主に、始点画像の画素の輝度とそれに対応する終点画像の画素の輝度の差で決まる。すなわち、写像ｆ^{（ｍ，ｓ）}の点（ｉ，ｊ）におけるエネルギーＣ^{（ｍ，ｓ）} _{（ｉ，ｊ）}は次式によって定まる。
【００６５】
【数７】

ここで、Ｖ（ｐ^{（ｍ，ｓ）} _{（ｉ，ｊ）}）及びＶ（ｑ^{（ｍ，ｓ）} _{ｆ（ｉ，ｊ）}）はそれぞれ画素ｐ^{（ｍ，ｓ）} _{（ｉ，ｊ）}及びｑ^{（ｍ，ｓ）} _{ｆ（ｉ，ｊ）}の輝度である。ｆのトータルのエネルギーＣ^{（ｍ，ｓ）}は、マッチングを評価するひとつの評価式であり、つぎに示すＣ^{（ｍ，ｓ）} _{（ｉ，ｊ）}の合計で定義できる。
【００６６】
【数８】

［１．３．２．２］滑らかな写像のための画素の位置に関するコスト
滑らかな写像を得るために、写像に関する別のエネルギーＤｆを導入する。このエネルギーは画素の輝度とは関係なく、ｐ^{（ｍ，ｓ）} _{（ｉ，ｊ）}およびｑ^{（ｍ，ｓ）} _{ｆ（ｉ，ｊ）}の位置によって決まる（ｉ＝０，…，２^ｍ−１，ｊ＝０，…，２^ｍ−１）。点（ｉ，ｊ）における写像ｆ^{（ｍ，ｓ）}のエネルギーＤ^{（ｍ，ｓ）} _{（ｉ，ｊ）}は次式で定義される。
【００６７】
【数９】

ただし、係数パラメータηは０以上の実数であり、また、
【００６８】
【数１０】

【００６９】
【数１１】

とする。ここで、
【００７０】
【数１２】

であり、ｉ’＜０およびｊ’＜０に対してｆ（ｉ’，ｊ’）は０と決める。Ｅ_０は（ｉ，ｊ）及びｆ（ｉ，ｊ）の距離で決まる。Ｅ_０は画素があまりにも離れた画素へ写影されることを防ぐ。ただしＥ_０は、後に別のエネルギー関数で置き換える。Ｅ_１は写像の滑らかさを保証する。Ｅ_１は、ｐ_{（ｉ，ｊ）}の変位とその隣接点の変位の間の隔たりを表す。以上の考察をもとに、マッチングを評価する別の評価式であるエネルギーＤ_ｆは次式で定まる。
【００７１】
【数１３】

［１．３．２．３］写像の総エネルギー
写像の総エネルギー、すなわち複数の評価式の統合に係る総合評価式はλＣ^{（ｍ，ｓ）} _ｆ＋Ｄ^{（ｍ，ｓ）} _ｆで定義される。ここで係数パラメータλは０以上の実数である。目的は総合評価式が極値をとる状態を検出すること、すなわち次式で示す最小エネルギーを与える写像を見いだすことである。
【００７２】
【数１４】

λ＝０及びη＝０の場合、写像は単位写像になることに注意すべきである（すなわち、全てのｉ＝０，…，２^ｍ−１及びｊ＝０，…，２^ｍ−１に対してｆ^{（ｍ，ｓ）}（ｉ，ｊ）＝（ｉ，ｊ）となる）。後述のごとく、本前提技術では最初にλ＝０及びη＝０の場合を評価するため、写像を単位写像から徐々に変形していくことができる。仮に総合評価式のλの位置を変えてＣ^{（ｍ，ｓ）} _ｆ＋λＤ^{（ｍ，ｓ）} _ｆと定義したとすれば、λ＝０及びη＝０の場合に総合評価式がＣ^{（ｍ，ｓ）} _ｆだけになり、本来何等関連のない画素どうしが単に輝度が近いというだけで対応づけられ、写像が無意味なものになる。そうした無意味な写像をもとに写像を変形していってもまったく意味をなさない。このため、単位写像が評価の開始時点で最良の写像として選択されるよう係数パラメータの与えかたが配慮されている。
【００７３】
オプティカルフローもこの前提技術同様、画素の輝度の差と滑らかさを考慮する。しかし、オプティカルフローは画像の変換に用いることはできない。オブジェクトの局所的な動きしか考慮しないためである。前提技術に係る特異点フィルタを用いることによって大域的な対応関係を検出することができる。
【００７４】
［１．３．３］多重解像度の導入による写像の決定
最小エネルギーを与え、全単射条件を満足する写像ｆ_ｍｉｎを多重解像度の階層を用いて求める。各解像度レベルにおいて始点副画像及び終点副画像間の写像を計算する。解像度の階層の最上位（最も粗いレベル）からスタートし、各解像度レベルの写像を、他のレベルの写像を考慮に入れながら決定する。各レベルにおける写像の候補の数は、より高い、つまりより粗いレベルの写像を用いることによって制限される。より具体的には、あるレベルにおける写像の決定に際し、それよりひとつ粗いレベルにおいて求められた写像が一種の拘束条件として課される。
【００７５】
まず、
【００７６】
【数１５】

が成り立つとき、ｐ^{（ｍ−１，ｓ）} _{（ｉ’，ｊ’）}、ｑ^{（ｍ−１，ｓ）} _{（ｉ’，ｊ’）}をそれぞれｐ^{（ｍ，ｓ）} _{（ｉ，ｊ）}、ｑ^{（ｍ，ｓ）} _{（ｉ，ｊ）}のｐａｒｅｎｔと呼ぶことにする。［ｘ］はｘを越えない最大整数である。またｐ^{（ｍ，ｓ）} _{（ｉ，ｊ）}、ｑ^{（ｍ，ｓ）} _{（ｉ，ｊ）}をそれぞれｐ^{（ｍ−１，ｓ）} _{（ｉ’，ｊ’）}、ｑ^{（ｍ−１，ｓ）} _{（ｉ’，ｊ’）}のｃｈｉｌｄと呼ぶ。関数ｐａｒｅｎｔ（ｉ，ｊ）は次式で定義される。
【００７７】
【数１６】

ｐ^{（ｍ，ｓ）} _{（ｉ，ｊ）}とｑ^{（ｍ，ｓ）} _{（ｋ，ｌ）}の間の写像ｆ^{（ｍ，ｓ）}は、エネルギー計算を行って最小になったものを見つけることで決定される。ｆ^{（ｍ，ｓ）}（ｉ，ｊ）＝（ｋ，ｌ）の値はｆ^{（ｍ−１，ｓ）}（ｍ＝１，２，…，ｎ）を用いることによって、以下のように決定される。まず、ｑ^{（ｍ，ｓ）} _{（ｋ，ｌ）}は次の四辺形の内部になければならないという条件を課し、全単射条件を満たす写像のうち現実性の高いものを絞り込む。
【００７８】
【数１７】

ただしここで、
【００７９】
【数１８】

である。こうして定めた四辺形を、以下ｐ^{（ｍ，ｓ）} _{（ｉ，ｊ）}の相続（ｉｎｈｅｒｉｔｅｄ）四辺形と呼ぶことにする。相続四辺形の内部において、エネルギーを最小にする画素を求める。
【００８０】
図３は以上の手順を示している。同図において、始点画像のＡ，Ｂ，Ｃ，Ｄの画素は、第ｍ−１レベルにおいてそれぞれ終点画像のＡ’，Ｂ’，Ｃ’，Ｄ’へ写影される。画素ｐ^{（ｍ，ｓ）} _{（ｉ，ｊ）}は、相続四辺形Ａ’Ｂ’Ｃ’Ｄ’の内部に存在する画素ｑ^{（ｍ，ｓ）} _{ｆ（ｍ）（ｉ，ｊ）}へ写影されなければならない。以上の配慮により、第ｍ−１レベルの写像から第ｍレベルの写像への橋渡しがなされる。
【００８１】
先に定義したエネルギーＥ_０は、第ｍレベルにおける副写像ｆ^（ｍ，０）を計算するために、次式に置き換える。
【００８２】
【数１９】

また、副写像ｆ^{（ｍ，ｓ）}を計算するためには次式を用いる。
【００８３】
【数２０】

こうしてすべての副写像のエネルギーを低い値に保つ写像が得られる。式２０により、異なる特異点に対応する副写像が、副写像どうしの類似度が高くなるように同一レベル内で関連づけられる。式１９は、ｆ^{（ｍ，ｓ）}（ｉ，ｊ）と、第ｍ−１レベルの画素の一部と考えた場合の（ｉ，ｊ）が射影されるべき点の位置との距離を示している。
【００８４】
仮に、相続四辺形Ａ’Ｂ’Ｃ’Ｄ’の内部に全単射条件を満たす画素が存在しない場合は以下の措置をとる。まず、Ａ’Ｂ’Ｃ’Ｄ’の境界線からの距離がＬ（始めはＬ＝１）である画素を調べる。それらのうち、エネルギーが最小になるものが全単射条件を満たせば、これをｆ^{（ｍ，ｓ）}（ｉ，ｊ）の値として選択する。そのような点が発見されるか、またはＬがその上限のＬ^（ｍ）ｍａｘに到達するまで、Ｌを大きくしていく。Ｌ^（ｍ）ｍａｘは各レベルｍに対して固定である。そのような点が全く発見されない場合、全単射の第３の条件を一時的に無視して変換先の四辺形の面積がゼロになるような写像も認め、ｆ^{（ｍ，ｓ）}（ｉ，ｊ）を決定する。それでも条件を満たす点が見つからない場合、つぎに全単射の第１及び第２条件を外す。
【００８５】
多重解像度を用いる近似法は、写像が画像の細部に影響されることを回避しつつ、画像間の大域的な対応関係を決定するために必須である。多重解像度による近似法を用いなければ、距離の遠い画素間の対応関係を見いだすことは不可能である。その場合、画像のサイズはきわめて小さなものに限定しなければならず、変化の小さな画像しか扱うことができない。さらに、通常写像に滑らかさを要求するため、そうした画素間の対応関係を見つけにくくしている。距離のある画素から画素への写像のエネルギーは高いためである。多重解像度を用いた近似法によれば、そうした画素間の適切な対応関係を見いだすことができる。それらの距離は、解像度の階層の上位レベル（粗いレベル）において小さいためである。
【００８６】
［１．４］最適なパレメータ値の自動決定
既存のマッチング技術の主な欠点のひとつに、パレメータ調整の困難さがある。大抵の場合、パラメータの調整は人手作業によって行われ、最適な値を選択することはきわめて難しい。前提技術に係る方法によれば、最適なパラメータ値を完全に自動決定することができる。
【００８７】
前提技術に係るシステムはふたつのパレメータ、λ及びηを含む。端的にいえば、λは画素の輝度の差の重みであり、ηは写像の剛性を示している。これらのパラメータの値は初期値が０であり、まずη＝０に固定してλを０から徐々に増加させる。λの値を大きくしながら、しかも総合評価式（式１４）の値を最小にする場合、各副写像に関するＣ^{（ｍ，ｓ）} _ｆの値は一般に小さくなっていく。このことは基本的にふたつの画像がよりマッチしなければならないことを意味する。しかし、λが最適値を超えると以下の現象が発生する。
【００８８】
１．本来対応すべきではない画素どうしが、単に輝度が近いというだけで誤って対応づけられる。
２．その結果、画素どうしの対応関係がおかしくなり、写像がくずれはじめる。
３．その結果、式１４においてＤ^{（ｍ，ｓ）} _ｆが急激に増加しようとする。
４．その結果、式１４の値が急激に増加しようとするため、Ｄ^{（ｍ，ｓ）} _ｆの急激な増加を抑制するようｆ^{（ｍ，ｓ）}が変化し、その結果Ｃ^{（ｍ，ｓ）} _ｆが増加する。
したがって、λを増加させながら式１４が最小値をとるという状態を維持しつつＣ^{（ｍ，ｓ）} _ｆが減少から増加に転じる閾値を検出し、そのλをη＝０における最適値とする。つぎにηを少しづつ増やしてＣ^{（ｍ，ｓ）} _ｆの挙動を検査し、後述の方法でηを自動決定する。そのηに対応してλも決まる。
【００８９】
この方法は、人間の視覚システムの焦点機構の動作に似ている。人間の視覚システムでは、一方の目を動かしながら左右両目の画像のマッチングがとられる。オブジェクトがはっきりと認識できるとき、その目が固定される。
【００９０】
［１．４．１］λの動的決定
λは０から所定の刻み幅で増加されていき、λの値が変わる度に副写像が評価される。式１４のごとく、総エネルギーはλＣ^{（ｍ，ｓ）} _ｆ＋Ｄ^{（ｍ，ｓ）} _ｆによって定義される。式９のＤ^{（ｍ，ｓ）} _ｆは滑らかさを表すもので、理論的には単位写像の場合に最小になり、写像が歪むほどＥ_０もＥ_１も増加していく。Ｅ_１は整数であるから、Ｄ^{（ｍ，ｓ）} _ｆの最小刻み幅は１である。このため、現在のλＣ^{（ｍ，ｓ）} _{（ｉ，ｊ）}の変化（減少量）が１以上でなければ、写像を変化させることによって総エネルギーを減らすことはできない。なぜなら、写像の変化に伴ってＤ^{（ｍ，ｓ）} _ｆは１以上増加するため、λＣ^{（ｍ，ｓ）} _{（ｉ，ｊ）}が１以上減少しない限り総エネルギーは減らないためである。
【００９１】
この条件のもと、λの増加に伴い、正常な場合にＣ^{（ｍ，ｓ）} _{（ｉ，ｊ）}が減少することを示す。Ｃ^{（ｍ，ｓ）} _{（ｉ，ｊ）}のヒストグラムをｈ（ｌ）と記述する。ｈ（ｌ）はエネルギーＣ^{（ｍ，ｓ）} _{（ｉ，ｊ）}がｌ^２である画素の数である。λｌ^２≧１が成り立つために、例えばｌ^２＝１／λの場合を考える。λがλ_１からλ_２まで微小量変化するとき、
【００９２】
【数２１】

で示されるＡ個の画素が、
【００９３】
【数２２】

のエネルギーを持つより安定的な状態に変化する。ここでは仮に、これらの画素のエネルギーがすべてゼロになると近似している。この式はＣ^{（ｍ，ｓ）} _ｆの値が、
【００９４】
【数２３】

だけ変化することを示し、その結果、
【００９５】
【数２４】

が成立する。ｈ（ｌ）＞０であるから、通常Ｃ^{（ｍ，ｓ）} _ｆは減少する。しかし、λが最適値を越えようとするとき、上述の現象、つまりＣ^{（ｍ，ｓ）} _ｆの増加が発生する。この現象を検出することにより、λの最適値を決定する。
【００９６】
なお、Ｈ（ｈ＞０）及びｋを定数とするとき、
【００９７】
【数２５】

と仮定すれば、
【００９８】
【数２６】

が成り立つ。このときｋ≠−３であれば、
【００９９】
【数２７】

となる。これがＣ^{（ｍ，ｓ）} _ｆの一般式である（Ｃは定数）。
【０１００】
λの最適値を検出する際、さらに安全を見て、全単射条件を破る画素の数を検査してもよい。ここで各画素の写像を決定する際、全単射条件を破る確率をｐ_０と仮定する。この場合、
【０１０１】
【数２８】

が成立しているため、全単射条件を破る画素の数は次式の率で増加する。
【０１０２】
【数２９】

従って、
【０１０３】
【数３０】

は定数である。仮にｈ（ｌ）＝Ｈｌ^ｋを仮定するとき、例えば、
【０１０４】
【数３１】

は定数になる。しかしλが最適値を越えると、上の値は急速に増加する。この現象を検出し、Ｂ_０λ^{３／２＋ｋ／２}／２^ｍの値が異常値Ｂ_{０ｔｈｒｅｓ}を越えるかどうかを検査し、λの最適値を決定することができる。同様に、Ｂ_１λ^{３／２＋ｋ／２}／２^ｍの値が異常値Ｂ_{１ｔｈｒｅｓ}を越えるかどうかを検査することにより、全単射の第３の条件を破る画素の増加率Ｂ_１を確認する。ファクター２^ｍを導入する理由は後述する。このシステムはこれら２つの閾値に敏感ではない。これらの閾値は、エネルギーＣ^{（ｍ，ｓ）} _ｆの観察では検出し損なった写像の過度の歪みを検出するために用いることができる。
【０１０５】
なお実験では、副写像ｆ^{（ｍ，ｓ）}を計算する際、もしλが０．１を越えたらｆ^{（ｍ，ｓ）}の計算は止めてｆ^{（ｍ，ｓ＋１）}の計算に移行した。λ＞０．１のとき、画素の輝度２５５レベル中のわずか「３」の違いが副写像の計算に影響したためであり、λ＞０．１のとき正しい結果を得ることは困難だったためである。
【０１０６】
［１．４．２］ヒストグラムｈ（ｌ）
Ｃ^{（ｍ，ｓ）} _ｆの検査はヒストグラムｈ（ｌ）に依存しない。全単射及びその第３の条件の検査の際、ｈ（ｌ）に影響を受けうる。実際に（λ，Ｃ^{（ｍ，ｓ）} _ｆ）をプロットすると、ｋは通常１付近にある。実験ではｋ＝１を用い、Ｂ_０λ^２とＢ_１λ^２を検査した。仮にｋの本当の値が１未満であれば、Ｂ_０λ^２とＢ_１λ^２は定数にならず、ファクターλ^{（１−ｋ）／２}に従って徐々に増加する。ｈ（ｌ）が定数であれば、例えばファクターはλ^１／２である。しかし、こうした差は閾値Ｂ_{０ｔｈｒｅｓ}を正しく設定することによって吸収することができる。
【０１０７】
ここで次式のごとく始点画像を中心が（ｘ_０，ｙ_０）、半径ｒの円形のオブジェクトであると仮定する。
【０１０８】
【数３２】

一方、終点画像は、次式のごとく中心（ｘ_１，ｙ_１）、半径がｒのオブジェクトであるとする。
【０１０９】
【数３３】

ここでｃ（ｘ）はｃ（ｘ）＝ｘ^ｋの形であるとする。中心（ｘ_０，ｙ_０）及び（ｘ_１，ｙ_１）が十分遠い場合、ヒストグラムｈ（ｌ）は次式の形となる。
【０１１０】
【数３４】

ｋ＝１のとき、画像は背景に埋め込まれた鮮明な境界線を持つオブジェクトを示す。このオブジェクトは中心が暗く、周囲にいくに従って明るくなる。ｋ＝−１のとき、画像は曖昧な境界線を持つオブジェクトを表す。このオブジェクトは中心が最も明るく、周囲にいくに従って暗くなる。一般のオブジェクトはこれらふたつのタイプのオブジェクトの中間にあると考えてもさして一般性を失わない。したがって、ｋは−１≦ｋ≦１として大抵の場合をカバーでき、式２７が一般に減少関数であることが保障される。
【０１１１】
なお、式３４からわかるように、ｒは画像の解像度に影響されること、すなわちｒは２^ｍに比例することに注意すべきである。このために［１．４．１］においてファクター２^ｍを導入した。
【０１１２】
［１．４．３］ηの動的決定
パラメータηも同様の方法で自動決定できる。はじめにη＝０とし、最も細かい解像度における最終的な写像ｆ^（ｎ）及びエネルギーＣ^（ｎ） _ｆを計算する。つづいて、ηをある値Δηだけ増加させ、再び最も細かい解像度における最終写像ｆ^（ｎ）及びエネルギーＣ^（ｎ） _ｆを計算し直す。この過程を最適値が求まるまで続ける。ηは写像の剛性を示す。次式の重みだからである。
【０１１３】
【数３５】

ηが０のとき、Ｄ^（ｎ） _ｆは直前の副写像と無関係に決定され、現在の副写像は弾性的に変形され、過度に歪むことになる。一方、ηが非常に大きな値のとき、Ｄ^（ｎ） _ｆは直前の副写像によってほぼ完全に決まる。このとき副写像は非常に剛性が高く、画素は同じ場所に射影される。その結果、写像は単位写像になる。ηの値が０から次第に増えるとき、後述のごとくＣ^（ｎ） _ｆは徐々に減少する。しかしηの値が最適値を越えると、図４に示すとおり、エネルギーは増加し始める。同図のＸ軸はη、Ｙ軸はＣ_ｆである。
【０１１４】
この方法でＣ^（ｎ） _ｆを最小にする最適なηの値を得ることができる。しかし、λの場合に比べていろいろな要素が計算に影響する結果、Ｃ^（ｎ） _ｆは小さく揺らぎながら変化する。λの場合は、入力が微小量変化するたびに副写像を１回計算しなおすだけだが、ηの場合はすべての副写像が計算しなおされるためである。このため、得られたＣ^（ｎ） _ｆの値が最小であるかどうかを即座に判断することはできない。最小値の候補が見つかれば、さらに細かい区間を設定することによって真の最小値を探す必要がある。
【０１１５】
［１．５］スーパーサンプリング
画素間の対応関係を決定する際、自由度を増やすために、ｆ^{（ｍ，ｓ）}の値域をＲ×Ｒに拡張することができる（Ｒは実数の集合）。この場合、終点画像の画素の輝度が補間され、非整数点、
【０１１６】
【数３６】

における輝度を持つｆ^{（ｍ，ｓ）}が提供される。つまりスーパーサンプリングが行われる。実験では、ｆ^{（ｍ，ｓ）}は整数及び半整数値をとることが許され、
【０１１７】
【数３７】

は、
【０１１８】
【数３８】

によって与えられた。
【０１１９】
［１．６］各画像の画素の輝度の正規化
始点画像と終点画像がきわめて異なるオブジェクトを含んでいるとき、写像の計算に元の画素の輝度がそのままでは利用しにくい。輝度の差が大きいために輝度に関するエネルギーＣ^{（ｍ，ｓ）} _ｆが大きくなりすぎ、正しい評価がしずらいためである。
【０１２０】
例えば、人の顔と猫の顔のマッチングをとる場合を考える。猫の顔は毛で覆われており、非常に明るい画素と非常に暗い画素が混じっている。この場合、ふたつの顔の間の副写像を計算するために、まず副画像を正規化する。すなわち、最も暗い画素の輝度を０、最も明るいそれを２５５に設定し、他の画素の輝度は線形補間によって求めておく。
【０１２１】
［１．７］インプリメンテーション
始点画像のスキャンに従って計算がリニアに進行する帰納的な方法を用いる。始めに、１番上の左端の画素（ｉ，ｊ）＝（０，０）についてｆ^{（ｍ，ｓ）}の値を決定する。次にｉを１ずつ増やしながら各ｆ^{（ｍ，ｓ）}（ｉ，ｊ）の値を決定する。ｉの値が画像の幅に到達したとき、ｊの値を１増やし、ｉを０に戻す。以降、始点画像のスキャンに伴いｆ^{（ｍ，ｓ）}（ｉ，ｊ）を決定していく。すべての点について画素の対応が決まれば、ひとつの写像ｆ^{（ｍ，ｓ）}が決まる。
【０１２２】
あるｐ_{（ｉ，ｊ）}について対応点ｑ_{ｆ（ｉ，ｊ）}が決まれば、つぎにｐ_{（ｉ，ｊ＋１）}の対応点ｑ_{ｆ（ｉ，ｊ＋１）}が決められる。この際、ｑ_{ｆ（ｉ，ｊ＋１）}の位置は全単射条件を満たすために、ｑ_{ｆ（ｉ，ｊ）}の位置によって制限される。したがって、先に対応点が決まる点ほどこのシステムでは優先度が高くなる。つねに（０，０）が最も優先される状態がつづくと、求められる最終の写像に余計な偏向が加わる。本前提技術ではこの状態を回避するために、ｆ^{（ｍ，ｓ）}を以下の方法で決めていく。
【０１２３】
まず（ｓ　ｍｏｄ　４）が０の場合、（０，０）を開始点としｉ及びｊを徐々に増やしながら決めていく。（ｓ　ｍｏｄ　４）が１の場合、最上行の右端点を開始点とし、ｉを減少、ｊを増加させながら決めていく。（ｓ　ｍｏｄ　４）が２のとき、最下行の右端点を開始点とし、ｉ及びｊを減少させながら決めていく。（ｓｍｏｄ　４）が３の場合、最下行の左端点を開始点とし、ｉを増加、ｊを減少させながら決めていく。解像度が最も細かい第ｎレベルには副写像という概念、すなわちパラメータｓが存在しないため、仮にｓ＝０及びｓ＝２であるとしてふたつの方向を連続的に計算した。
【０１２４】
実際のインプリメンテーションでは、全単射条件を破る候補に対してペナルティを与えることにより、候補（ｋ，ｌ）の中からできる限り全単射条件を満たすｆ^{（ｍ，ｓ）}（ｉ，ｊ）（ｍ＝０，…，ｎ）の値を選んだ。第３の条件を破る候補のエネルギーＤ（ｋ、ｌ）にはφを掛け、一方、第１または第２の条件を破る候補にはψを掛ける。今回はφ＝２、ψ＝１０００００を用いた。
【０１２５】
前述の全単射条件のチェックのために、実際の手続として（ｋ，ｌ）＝ｆ^{（ｍ，ｓ）}（ｉ，ｊ）を決定する際に以下のテストを行った。すなわちｆ^{（ｍ，ｓ）}（ｉ，ｊ）の相続四辺形に含まれる各格子点（ｋ，ｌ）に対し、次式の外積のｚ成分が０以上になるかどうかを確かめる。
【０１２６】
【数３９】

ただしここで、
【０１２７】
【数４０】

【０１２８】
【数４１】

である（ここでベクトルは三次元ベクトルとし、ｚ軸は直交右手座標系において定義される）。もしＷが負であれば、その候補についてはＤ^{（ｍ，ｓ）} _{（ｋ，ｌ）}にψを掛けることによってペナルティを与え、できるかぎり選択しないようにする。
【０１２９】
図５（ａ）、図５（ｂ）はこの条件を検査する理由を示している。図５（ａ）はペナルティのない候補、図５（ｂ）はペナルティがある候補をそれぞれ表す。隣接画素（ｉ，ｊ＋１）に対する写像ｆ^{（ｍ，ｓ）}（ｉ，ｊ＋１）を決定する際、Ｗのｚ成分が負であれば始点画像平面上において全単射条件を満足する画素は存在しない。なぜなら、ｑ^{（ｍ，ｓ）} _{（ｋ，ｌ）}は隣接する四辺形の境界線を越えるためである。
【０１３０】
［１．７．１］副写像の順序
インプリメンテーションでは、解像度レベルが偶数のときにはσ（０）＝０、σ（１）＝１、σ（２）＝２、σ（３）＝３、σ（４）＝０を用い、奇数のときはσ（０）＝３、σ（１）＝２、σ（２）＝１、σ（３）＝０、σ（４）＝３を用いた。このことで、副写像を適度にシャッフルした。なお、本来副写像は４種類であり、ｓは０〜３のいずれかである。しかし、実際にはｓ＝４に相当する処理を行った。その理由は後述する。
【０１３１】
［１．８］補間計算
始点画像と終点画像の間の写像が決定された後、対応しあう画素の輝度が補間される。実験では、トライリニア補間を用いた。始点画像平面における正方形ｐ_{（ｉ，ｊ）}ｐ_{（ｉ＋１，ｊ）}ｐ_{（ｉ，ｊ＋１）}ｐ_{（ｉ＋１，ｊ＋１）}が終点画像平面上の四辺形ｑ_{ｆ（ｉ，ｊ）}ｑ_{ｆ（ｉ＋１，ｊ）}ｑ_{ｆ（ｉ，ｊ＋１）}ｑ_{ｆ（ｉ＋１，ｊ＋１）}に射影されると仮定する。簡単のため、画像間の距離を１とする。始点画像平面からの距離がｔ（０≦ｔ≦１）である中間画像の画素ｒ（ｘ，ｙ，ｔ）（０≦ｘ≦Ｎ−１，０≦ｙ≦Ｍ−１）は以下の要領で求められる。まず画素ｒ（ｘ，ｙ，ｔ）の位置（ただしｘ，ｙ，ｔ∈Ｒ）を次式で求める。
【０１３２】
【数４２】

つづいてｒ（ｘ，ｙ，ｔ）における画素の輝度が次の式を用いて決定される。
【０１３３】
【数４３】

ここでｄｘ及びｄｙはパラメータであり、０から１まで変化する。
【０１３４】
［１．９］拘束条件を課したときの写像
いままでは拘束条件がいっさい存在しない場合の写像の決定を述べた。しかし、始点画像と終点画像の特定の画素間に予め対応関係が規定されているとき、これを拘束条件としたうえで写像を決定することができる。
【０１３５】
基本的な考えは、まず始点画像の特定の画素を終点画像の特定の画素に移す大まかな写像によって始点画像を大まかに変形し、しかる後、写像ｆを正確に計算する。
【０１３６】
まず始めに、始点画像の特定の画素を終点画像の特定の画素に射影し、始点画像の他の画素を適当な位置に射影する大まかな写像を決める。すなわち、特定の画素に近い画素は、その特定の画素が射影される場所の近くに射影されるような写像である。ここで第ｍレベルの大まかな写像をＦ^（ｍ）と記述する。
【０１３７】
大まかな写像Ｆは以下の要領で決める。まず、いくつかの画素について写像を特定する。始点画像についてｎ_ｓ個の画素、
【０１３８】
【数４４】

を特定するとき、以下の値を決める。
【０１３９】
【数４５】

始点画像の他の画素の変位量は、ｐ_{（ｉｈ，ｊｈ）}（ｈ＝０，…，ｎ_ｓ−１）の変位に重み付けをして求められる平均である。すなわち画素ｐ_{（ｉ，ｊ）}は、終点画像の以下の画素に射影される。
【０１４０】
【数４６】

ただしここで、
【０１４１】
【数４７】

【０１４２】
【数４８】

とする。
【０１４３】
つづいて、Ｆ^（ｍ）に近い候補写像ｆがより少ないエネルギーを持つように、その写像ｆのエネルギーＤ^{（ｍ，ｓ）} _{（ｉ，ｊ）}を変更する。正確には、Ｄ^{（ｍ，ｓ）} _{（ｉ，ｊ）}は、
【０１４４】
【数４９】

である。ただし、
【０１４５】
【数５０】

であり、κ，ρ≧０とする。最後に、前述の写像の自動計算プロセスにより、ｆを完全に決定する。
【０１４６】
ここで、ｆ^{（ｍ，ｓ）}（ｉ，ｊ）がＦ^（ｍ）（ｉ，ｊ）に十分近いとき、つまりそれらの距離が、
【０１４７】
【数５１】

以内であるとき、Ｅ_２ ^{（ｍ，ｓ）} _{（ｉ，ｊ）}が０になることに注意すべきである。そのように定義した理由は、各ｆ^{（ｍ，ｓ）}（ｉ，ｊ）がＦ^（ｍ）（ｉ，ｊ）に十分近い限り、終点画像において適切な位置に落ち着くよう、その値を自動的に決めたいためである。この理由により、正確な対応関係を詳細に特定する必要がなく、始点画像は終点画像にマッチするように自動的にマッピングされる。
【０１４８】
［２］具体的な処理手順
［１］の各要素技術による処理の流れを説明する。
図６は前提技術の全体手順を示すフローチャートである。同図のごとく、まず多重解像度特異点フィルタを用いた処理を行い（Ｓ１）、つづいて始点画像と終点画像のマッチングをとる（Ｓ２）。ただし、Ｓ２は必須ではなく、Ｓ１で得られた画像の特徴をもとに画像認識などの処理を行ってもよい。
【０１４９】
図７は図６のＳ１の詳細を示すフローチャートである。ここではＳ２で始点画像と終点画像のマッチングをとることを前提としている。そのため、まず特異点フィルタによって始点画像の階層化を行い（Ｓ１０）、一連の始点階層画像を得る。つづいて同様の方法で終点画像の階層化を行い（Ｓ１１）、一連の終点階層画像を得る。ただし、Ｓ１０とＳ１１の順序は任意であるし、始点階層画像と終点階層画像を並行して生成していくこともできる。
【０１５０】
図８は図７のＳ１０の詳細を示すフローチャートである。もとの始点画像のサイズは２^ｎ×２^ｎとする。始点階層画像は解像度が細かいほうから順に作られるため、処理の対象となる解像度レベルを示すパラメータｍをｎにセットする（Ｓ１００）。つづいて第ｍレベルの画像ｐ^{（ｍ，０）}、ｐ^{（ｍ，１）}、ｐ^{（ｍ，２）}、ｐ^{（ｍ，３）}から特異点フィルタを用いて特異点を検出し（Ｓ１０１）、それぞれ第ｍ−１レベルの画像ｐ^{（ｍ−１，０）}、ｐ^{（ｍ−１，１）}、ｐ^{（ｍ−１，２）}、ｐ^{（ｍ−１，３）}を生成する（Ｓ１０２）。ここではｍ＝ｎであるため、ｐ^{（ｍ，０）}＝ｐ^{（ｍ，１）}＝ｐ^{（ｍ，２）}＝ｐ^{（ｍ，３）}＝ｐ^（ｎ）であり、ひとつの始点画像から４種類の副画像が生成される。
【０１５１】
図９は第ｍレベルの画像の一部と、第ｍ−１レベルの画像の一部の対応関係を示している。同図の数値は各画素の輝度を示す。同図のｐ^{（ｍ，ｓ）}はｐ^{（ｍ，０）}〜ｐ^{（ｍ，３）}の４つの画像を象徴するもので、ｐ^{（ｍ−１，０）}を生成する場合には、ｐ^{（ｍ，ｓ）}はｐ^{（ｍ，０）}であると考える。［１．２］で示した規則により、ｐ^{（ｍ−１，０）}は例えば同図で輝度を記入したブロックについて、そこに含まれる４画素のうち「３」、ｐ^{（ｍ−１，１）}は「８」、ｐ^{（ｍ−１，２）}は「６」、ｐ^{（ｍ−１，３）}を「１０」をそれぞれ取得し、このブロックをそれぞれ取得したひとつの画素で置き換える。したがって、第ｍ−１レベルの副画像のサイズは２^ｍ−１×２^ｍ−１になる。
【０１５２】
つづいてｍをデクリメントし（図８のＳ１０３）、ｍが負になっていないことを確認し（Ｓ１０４）、Ｓ１０１に戻ってつぎに解像度の粗い副画像を生成していく。この繰り返し処理の結果、ｍ＝０、すなわち第０レベルの副画像が生成された時点でＳ１０が終了する。第０レベルの副画像のサイズは１×１である。
【０１５３】
図１０はＳ１０によって生成された始点階層画像をｎ＝３の場合について例示している。最初の始点画像のみが４つの系列に共通であり、以降特異点の種類に応じてそれぞれ独立に副画像が生成されていく。なお、図８の処理は図７のＳ１１にも共通であり、同様の手順を経て終点階層画像も生成される。以上で図６のＳ１による処理が完了する。
【０１５４】
前提技術では、図６のＳ２に進むためにマッチング評価の準備をする。図１１はその手順を示している。同図のごとく、まず複数の評価式が設定される（Ｓ３０）。［１．３．２．１］で導入した画素に関するエネルギーＣ^{（ｍ，ｓ）} _ｆと［１．３．２．２］で導入した写像の滑らかさに関するエネルギーＤ^{（ｍ，ｓ）} _ｆがそれである。つぎに、これらの評価式を統合して総合評価式を立てる（Ｓ３１）。［１．３．２．３］で導入した総エネルギーλＣ^{（ｍ，ｓ）} _ｆ＋Ｄ^{（ｍ，ｓ）} _ｆがそれであり、［１．３．２．２］で導入したηを用いれば、
【数５２】

となる。ただし、総和はｉ、ｊについてそれぞれ０、１…、２^ｍ−１で計算する。以上でマッチング評価の準備が整う。
【０１５５】
図１２は図６のＳ２の詳細を示すフローチャートである。［１］で述べたごとく、始点階層画像と終点階層画像のマッチングは互いに同じ解像度レベルの画像どうしでとられる。画像間の大域的なマッチングを良好にとるために、解像度が粗いレベルから順にマッチングを計算する。特異点フィルタを用いて始点階層画像および終点階層画像を生成しているため、特異点の位置や輝度は解像度の粗いレベルでも明確に保存されており、大域的なマッチングの結果は従来に比べて非常に優れたものになる。
【０１５６】
図１２のごとく、まず係数パラメータηを０、レベルパラメータｍを０に設定する（Ｓ２０）。つづいて、始点階層画像中の第ｍレベルの４つの副画像と終点階層画像中の第ｍレベルの４つの副画像のそれぞれの間でマッチングを計算し、それぞれ全単射条件を満たし、かつエネルギーを最小にするような４種類の副写像ｆ^{（ｍ，ｓ）}（ｓ＝０，１，２，３）を求める（Ｓ２１）。全単射条件は［１．３．３］で述べた相続四辺形を用いて検査される。この際、式１７、１８が示すように、第ｍレベルにおける副写像は第ｍ−１レベルのそれらに拘束されるため、より解像度の粗いレベルにおけるマッチングが順次利用されていく。これは異なるレベル間の垂直的参照である。なお、いまｍ＝０であってそれより粗いレベルはないが、この例外的な処理は図１３で後述する。
【０１５７】
一方、同一レベル内における水平的参照も行われる。［１．３．３］の式２０のごとく、ｆ^{（ｍ，３）}はｆ^{（ｍ，２）}に、ｆ^{（ｍ，２）}はｆ^{（ｍ，１）}に、ｆ^{（ｍ，１）}はｆ^{（ｍ，０）}に、それぞれ類似するように決める。その理由は、特異点の種類が違っても、それらがもともと同じ始点画像と終点画像に含まれている以上、副写像がまったく異なるという状況は不自然だからである。式２０からわかるように、副写像どうしが近いほどエネルギーは小さくなり、マッチングが良好とみなされる。
【０１５８】
なお、最初に決めるべきｆ^{（ｍ，０）}については同一のレベルで参照できる副写像がないため、式１９に示すごとくひとつ粗いレベルを参照する。ただし、実験ではｆ^{（ｍ，３）}まで求まった後、これを拘束条件としてｆ^{（ｍ，０）}を一回更新するという手続をとった。これは式２０にｓ＝４を代入し、ｆ^{（ｍ，４）}を新たなｆ^{（ｍ，０）}とすることに等しい。ｆ^{（ｍ，０）}とｆ^{（ｍ，３）}の関連度が低くなり過ぎる傾向を回避するためであり、この措置によって実験結果がより良好になった。この措置に加え、実験では［１．７．１］に示す副写像のシャッフルも行った。これも本来特異点の種類ごとに決まる副写像どうしの関連度を密接に保つ趣旨である。また、処理の開始点に依存する偏向を回避するために、ｓの値にしたがって開始点の位置を変える点は［１．７］で述べたとおりである。
【０１５９】
図１３は第０レベルにおいて副写像を決定する様子を示す図である。第０レベルでは各副画像がただひとつの画素で構成されるため、４つの副写像^{ｆ（０，ｓ）}はすべて自動的に単位写像に決まる。図１４は第１レベルにおいて副写像を決定する様子を示す図である。第１レベルでは副画像がそれぞれ４画素で構成される。同図ではこれら４画素が実線で示されている。いま、ｐ^{（１，ｓ）}の点ｘの対応点をｑ^{（１，ｓ）}の中で探すとき、以下の手順を踏む。
【０１６０】
１．第１レベルの解像度で点ｘの左上点ａ、右上点ｂ、左下点ｃ、右下点ｄを求める。
２．点ａ〜ｄがひとつ粗いレベル、つまり第０レベルにおいて属する画素を探す。図１４の場合、点ａ〜ｄはそれぞれ画素Ａ〜Ｄに属する。ただし、画素Ａ〜Ｃは本来存在しない仮想的な画素である。
３．第０レベルですでに求まっている画素Ａ〜Ｄの対応点Ａ’〜Ｄ’をｑ^{（１，ｓ）}の中にプロットする。画素Ａ’〜Ｃ’は仮想的な画素であり、それぞれ画素Ａ〜Ｃと同じ位置にあるものとする。
４．画素Ａの中の点ａの対応点ａ’が画素Ａ’の中にあるとみなし、点ａ’をプロットする。このとき、点ａが画素Ａの中で占める位置（この場合、右下）と、点ａ’が画素Ａ’の中で占める位置が同じであると仮定する。
５．４と同様の方法で対応点ｂ’〜ｄ’をプロットし、点ａ’〜ｄ’で相続四辺形を作る。
６．相続四辺形の中でエネルギーが最小になるよう、点ｘの対応点ｘ’を探す。対応点ｘ’の候補として、例えば画素の中心が相続四辺形に含まれるものに限定してもよい。図１４の場合、４つの画素がすべて候補になる。
【０１６１】
以上がある点ｘの対応点の決定手順である。同様の処理を他のすべての点について行い、副写像を決める。第２レベル以上のレベルでは、次第に相続四辺形の形が崩れていくと考えられるため、図３に示すように画素Ａ’〜Ｄ’の間隔が空いていく状況が発生する。
【０１６２】
こうして、ある第ｍレベルの４つの副写像が決まれば、ｍをインクリメントし（図１２のＳ２２）、ｍがｎを超えていないことを確かめて（Ｓ２３）、Ｓ２１に戻る。以下、Ｓ２１に戻るたびに次第に細かい解像度のレベルの副写像を求め、最後にＳ２１に戻ったときに第ｎレベルの写像ｆ^（ｎ）を決める。この写像はη＝０に関して定まったものであるから、ｆ^（ｎ）（η＝０）と書く。
【０１６３】
つぎに異なるηに関する写像も求めるべく、ηをΔηだけシフトし、ｍをゼロクリアする（Ｓ２４）。新たなηが所定の探索打切り値η_ｍａｘを超えていないことを確認し（Ｓ２５）、Ｓ２１に戻り、今回のηに関して写像ｆ^（ｎ）（η＝Δη）を求める。この処理を繰り返し、Ｓ２１でｆ^（ｎ）（η＝ｉΔη）（ｉ＝０，１，…）を求めていく。ηがη_ｍａｘを超えたときＳ２６に進み、後述の方法で最適なη＝η_ｏｐｔを決定し、ｆ^（ｎ）（η＝η_ｏｐｔ）を最終的に写像ｆ^（ｎ）とする。
【０１６４】
図１５は図１２のＳ２１の詳細を示すフローチャートである。このフローチャートにより、ある定まったηについて、第ｍレベルにおける副写像が決まる。副写像を決める際、前提技術では副写像ごとに最適なλを独立して決める。
【０１６５】
同図のごとく、まずｓとλをゼロクリアする（Ｓ２１０）。つぎに、そのときのλについて（および暗にηについて）エネルギーを最小にする副写像ｆ^{（ｍ，ｓ）}を求め（Ｓ２１１）、これをｆ^{（ｍ，ｓ）}（λ＝０）と書く。異なるλに関する写像も求めるべく、λをΔλだけシフトし、新たなλが所定の探索打切り値λ_ｍａｘを超えていないことを確認し（Ｓ２１３）、Ｓ２１１に戻り、以降の繰り返し処理でｆ^{（ｍ，ｓ）}（λ＝ｉΔλ）（ｉ＝０，１，…）を求める。λがλ_ｍａｘを超えたときＳ２１４に進み、最適なλ＝λ_ｏｐｔを決定し、ｆ^{（ｍ，ｓ）}（λ＝λ_ｏｐｔ）を最終的に写像ｆ^{（ｍ，ｓ）}とする（Ｓ２１４）。
【０１６６】
つぎに、同一レベルにおける他の副写像を求めるべく、λをゼロクリアし、ｓをインクリメントする（Ｓ２１５）。ｓが４を超えていないことを確認し（Ｓ２１６）、Ｓ２１１に戻る。ｓ＝４になれば上述のごとくｆ^{（ｍ，３）}を利用してｆ^{（ｍ，０）}を更新し、そのレベルにおける副写像の決定を終了する。
【０１６７】
図１６は、あるｍとｓについてλを変えながら求められたｆ^{（ｍ，ｓ）}（λ＝ｉΔλ）（ｉ＝０，１，…）に対応するエネルギーＣ^{（ｍ，ｓ）} _ｆの挙動を示す図である。［１．４］で述べたとおり、λが増加すると通常Ｃ^{（ｍ，ｓ）} _ｆは減少する。しかし、λが最適値を超えるとＣ^{（ｍ，ｓ）} _ｆは増加に転じる。そこで本前提技術ではＣ^{（ｍ，ｓ）} _ｆが極小値をとるときのλをλ_ｏｐｔと決める。同図のようにλ＞λ_ｏｐｔの範囲で再度Ｃ^{（ｍ，ｓ）} _ｆが小さくなっていっても、その時点ではすでに写像がくずれていて意味をなさないため、最初の極小点に注目すればよい。λ_ｏｐｔは副写像ごとに独立して決めていき、最後にｆ^（ｎ）についてもひとつ定まる。
【０１６８】
一方、図１７は、ηを変えながら求められたｆ^（ｎ）（η＝ｉΔη）（ｉ＝０，１，…）に対応するエネルギーＣ^（ｎ） _ｆの挙動を示す図である。ここでもηが増加すると通常Ｃ^（ｎ） _ｆは減少するが、ηが最適値を超えるとＣ^（ｎ） _ｆは増加に転じる。そこでＣ^（ｎ） _ｆが極小値をとるときのηをη_ｏｐｔと決める。図１７は図４の横軸のゼロ付近を拡大した図と考えてよい。η_ｏｐｔが決まればｆ^（ｎ）を最終決定することができる。
【０１６９】
以上、本前提技術によれば種々のメリットが得られる。まずエッジを検出する必要がないため、エッジ検出タイプの従来技術の課題を解消できる。また、画像に含まれるオブジェクトに対する先験的な知識も不要であり、対応点の自動検出が実現する。特異点フィルタによれば、解像度の粗いレベルでも特異点の輝度や位置を維持することができ、オブジェクト認識、特徴抽出、画像マッチングに極めて有利である。その結果、人手作業を大幅に軽減する画像処理システムの構築が可能となる。
【０１７０】
なお、本前提技術について次のような変形技術も考えられる。
（１）前提技術では始点階層画像と終点階層画像の間でマッチングをとる際にパラメータの自動決定を行ったが、この方法は階層画像間ではなく、通常の２枚の画像間のマッチングをとる場合全般に利用できる。
【０１７１】
たとえば２枚の画像間で、画素の輝度の差に関するエネルギーＥ_０と画素の位置的なずれに関するエネルギーＥ_１のふたつを評価式とし、これらの線形和Ｅ_ｔｏｔ＝αＥ_０＋Ｅ_１を総合評価式とする。この総合評価式の極値付近に注目してαを自動決定する。つまり、いろいろなαについてＥ_ｔｏｔが最小になるような写像を求める。それらの写像のうち、αに関してＥ_１が極小値をとるときのαを最適パラメータと決める。そのパラメータに対応する写像を最終的に両画像間の最適マッチングとみなす。
【０１７２】
これ以外にも評価式の設定にはいろいろな方法があり、例えば１／Ｅ_１と１／Ｅ_２のように、評価結果が良好なほど大きな値をとるものを採用してもよい。総合評価式も必ずしも線形和である必要はなく、ｎ乗和（ｎ＝２、１／２、−１、−２など）、多項式、任意の関数などを適宜選択すればよい。
【０１７３】
パラメータも、αのみ、前提技術のごとくηとλのふたつの場合、それ以上の場合など、いずれでもよい。パラメータが３以上の場合はひとつずつ変化させて決めていく。
【０１７４】
（２）本前提技術では、総合評価式の値が最小になるよう写像を決めた後、総合評価式を構成するひとつの評価式であるＣ^{（ｍ，ｓ）} _ｆが極小になる点を検出してパラメータを決定した。しかし、こうした二段回処理の代わりに、状況によっては単に総合評価式の最小値が最小になるようにパラメータを決めても効果的である。その場合、例えばαＥ_０＋βＥ_１を総合評価式とし、α＋β＝１なる拘束条件を設けて各評価式を平等に扱うなどの措置を講じてもよい。パラメータの自動決定の本質は、エネルギーが最小になるようにパラメータを決めていく点にあるからである。
【０１７５】
（３）前提技術では各解像度レベルで４種類の特異点に関する４種類の副画像を生成した。しかし、当然４種類のうち１、２、３種類を選択的に用いてもよい。例えば、画像中に明るい点がひとつだけ存在する状態であれば、極大点に関するｆ^{（ｍ，３）}だけで階層画像を生成しても相応の効果が得られるはずである。その場合、同一レベルで異なる副写像は不要になるため、ｓに関する計算量が減る効果がある。
【０１７６】
（４）本前提技術では特異点フィルタによってレベルがひとつ進むと画素が１／４になった。例えば３×３で１ブロックとし、その中で特異点を探す構成も可能であり、その場合、レベルがひとつ進むと画素は１／９になる。
【０１７７】
（５）始点画像と終点画像がカラーの場合、それらをまず白黒画像に変換し、写像を計算する。その結果求められた写像を用いて始点のカラー画像を変換する。それ以外の方法として、ＲＧＢの各成分について副写像を計算してもよい。
【０１７８】
［３］前提技術の改良点
以上の前提技術を基本とし、マッチング精度を向上させるためのいくつかの改良がなされている。ここではその改良点を述べる。
【０１７９】
［３．１］色情報を考慮に入れた特異点フィルタおよび副画像
画像の色情報を有効に用いるために、特異点フィルタを以下のように変更した。まず色空間としては、人間の直感に最も合致するといわれているＨＩＳを用い、色を輝度に変換する式には、人間の目の感度に最も近いといわれているものを選んだ。
【数５３】

【０１８０】
ここで画素ａにおけるＹ（輝度）をＹ（ａ）、Ｓ（彩度）をＳ（ａ）として、次のような記号を定義する。
【数５４】

【０１８１】
上の定義を用いて以下のような５つのフィルタを用意する。
【数５５】

このうち上から４つのフィルタは改良前の前提技術におけるフィルタとほぼ同じで、輝度の特異点を色情報も残しながら保存する。最後のフィルタは色の彩度の特異点をこちらも色情報を残しながら保存する。
【０１８２】
これらのフィルタによって、各レベルにつき５種類の副画像（サブイメージ）が生成される。なお、最も高いレベルの副画像は元画像に一致する。
【数５６】

【０１８３】
［３．２］エッジ画像およびその副画像
輝度微分（エッジ）の情報をマッチングに利用するため、一次微分エッジ検出フィルタを用いる。このフィルタはあるオペレータＨとの畳み込み積分で実現できる。
【数５７】

ここでＨは演算スピードなども考慮し、以下のようなオペレータを用いた。
【数５８】

【０１８４】
次にこの画像を多重解像度化する。フィルタにより０を中心とした輝度をもつ画像が生成されるため、次のような平均値画像が副画像としては最も適切である。
【数５９】

式５９の画像は後述するＦｏｒｗａｒｄ　Ｓｔａｇｅ、すなわち初回副写像導出ステージの計算の際、エネルギー関数に用いられる。
【０１８５】
エッジの大きさ、すなわち絶対値も計算に必要である。
【数６０】

この値は常に正であるため、多重解像度化には最大値フィルタを用いる。
【数６１】

式６１の画像は後述するＦｏｒｗａｒｄ　Ｓｔａｇｅの計算の際、計算する順序を決定するのに用いられる。
【０１８６】
［３．３］計算処理手順
計算は最も粗い解像度の副画像から順に行う。副画像は５つあるため、各レベルの解像度において計算は複数回行われる。これをターンと呼び、最大計算回数をｔで表すことにする。各ターンは前記Ｆｏｒｗａｒｄ　Ｓｔａｇｅと、副写像再計算ステージであるＲｅｆｉｎｅｍｅｎｔ　Ｓｔａｇｅという二つのエネルギー最小化計算から構成される。図１８は第ｍレベルにおける副写像を決める計算のうち改良点に係るフローチャートである。
【０１８７】
同図のごとく、ｓをゼロクリアする（Ｓ４０）。つぎにＦｏｒｗａｒｄ　Ｓｔａｇｅ（Ｓ４１）において始点画像ｐから終点画像ｑへの写像ｆ^（ ^ｍ，ｓ ^）をエネルギー最小化によって求める。ここで最小化するエネルギーは、対応する画素値によるエネルギーＣと、写像の滑らかさによるエネルギーＤの線形和である。
エネルギーＣは、輝度の差によるエネルギーＣ_Ｉ（前記改良前の前提技術におけるエネルギーＣと等価）と、色相、彩度によるエネルギーＣ_Ｃ、輝度微分（エッジ）の差によるエネルギーＣ_Ｅで構成され、それぞれ次のように表される。
【数６２】

【０１８８】
エネルギーＤは前記改良前の前提技術と同じものを用いる。ただし前記改良前の前提技術において、写像の滑らかさを保証するエネルギーＥ_１を導出する際、隣接する画素のみを考慮していたが、周囲の何画素を考慮するかをパラメータｄで指定できるように改良した。
【数６３】

次のＲｅｆｉｎｅｍｅｎｔ　Ｓｔａｇｅに備えて、このステージでは終点画像ｑから始点画像ｐへの写像ｇ^{（ｍ，ｓ）}も同様に計算する。
Ｒｅｆｉｎｅｍｅｎｔ　Ｓｔａｇｅ（Ｓ４２）ではＦｏｒｗａｒｄ　Ｓｔａｇｅにおいて求めた双方向の写像ｆ^{（ｍ，ｓ）}およびｇ^{（ｍ，ｓ）}を基に、より妥当な写像ｆ’^{（ｍ，ｓ）}を求める。ここでは新たに定義されるエネルギーＭについてエネルギー最小化計算を行う。エネルギーＭは終点画像から始点画像への写像ｇとの整合度Ｍ_０と、もとの写像との差Ｍ_１より構成される。
【数６４】

対称性を損なわないように、終点画像ｑから始点画像ｐへの写像ｇ’^{（ｍ，ｓ）}も同様の方法で求めておく。
【０１８９】
その後、ｓをインクリメントし（Ｓ４３）、ｓがｔを超えていないことを確認し（Ｓ４４）、次のターンのＦｏｒｗａｒｄ　Ｓｔａｇｅ（Ｓ４１）に進む。その際前記Ｅ_０を次のように置き換えてエネルギー最小化計算を行う。
【数６５】

【０１９０】
［３．４］写像の計算順序
写像の滑らかさを表すエネルギーＥ_１を計算する際、周囲の点の写像を用いるため、それらの点がすでに計算されているかどうかがエネルギーに影響を与える。すなわち、どの点から順番に計算するかによって、全体の写像の精度が大きく変化する。そこでエッジの絶対値画像を用いる。エッジの部分は情報量を多く含むため、エッジの絶対値が大きいところから先に写像計算を行う。このことによって、特に二値画像のような画像に対して非常に精度の高い写像を求めることができるようになった。
【０１９１】
［画像データ符号化技術］
以上の前提技術を利用した画像データ符号化技術を説明する。
【０１９２】
（実施の形態）
図１９は、符号化処理を実現する画像データ符号化装置１０の構成である。各機能ブロックは、たとえばＰＣ（パーソナルコンピュータ）にＣＤ−ＲＯＭなどの記録媒体からロードされるプログラムで実現できる。これは後述の復号装置にもいえる。図２０は、画像データ符号化装置１０による処理のフローチャートである。
【０１９３】
キーフレーム設定部１２はネットワーク、ストレージなどから符号化すべき画像データを入力する（Ｓ１０００）。キーフレーム設定部１２は通信機能、ストレージ制御機能、または自身が画像を撮影する光学機器の機能を含んでもよい。キーフレーム設定部１２は、一つのオブジェクトを複数の視点から同時に捉える場合は、捉えられた複数の画像をそのオブジェクトが含まれるレイヤにおける複数のキーフレームとして設定する。その場合、入力される画像データの数は実質的に視点の数と同数となる。キーフレーム設定部１２はオブジェクト認識部１４、レイヤ分離処理部１６、およびキーフレーム検出部１８を含む。
【０１９４】
オブジェクト認識部１４は前提技術を用いて画像データからオブジェクトを認識し（Ｓ１００２）、レイヤ分離処理部１６は画像データをオブジェクトごとのレイヤに分離する（Ｓ１００４）。複数の視点から捉えられた画像データの場合、視点ごとにレイヤ分けされるので画像データの数は実質的に（視点数×レイヤ数）となる。各キーフレームは、少なくともそのレイヤのオブジェクトをカバーできる程度の表示サイズで十分であり、レイヤごとに個別の表示サイズに設定されてもよい。例えば、背景のレイヤは画像データの表示サイズと同じ表示サイズである一方、動きのあるオブジェクトのレイヤの表示サイズは画像データの表示サイズよりも小さい場合が考えられる。その場合、レイヤ分離処理部１６は表示サイズおよびそのフレームを表示すべき位置の座標を検出する。
【０１９５】
キーフレーム検出部１８は入力された画像データからキーフレームとなる画像を検出する（Ｓ１００６）。例えば、複数のフレームのうち、直前のフレームとの画像の差が比較的大きいものをキーフレームとして検出する。キーフレームどうしの差を大きくしない配慮であり、符号化効率を改善するためである。キーフレーム検出部１８の他の例として、一定間隔でフレームを選択してそれらをキーフレームとしてもよい。その場合、処理が単純になる。
【０１９６】
キーフレーム検出部１８は各キーフレームの表示タイミングの間隔、すなわちキーフレームレートをレイヤごとに個別に設定できる。例えばほとんど画像に変化がない背景のレイヤはキーフレームレートを低くし、動きの多いオブジェクトのレイヤはキーフレームレートを高くしてもよい。この場合、データサイズの小さいレイヤだけフレームレートが高くなり、データサイズの大きいレイヤはフレームレートが低くなる。したがって、動きの多い画像であっても画像全体のキーフレームレートを高くする場合に比べてデータサイズを低減できる。
【０１９７】
複数の視点から捉えられた画像データの場合、特定のレイヤにおける同じタイミングのキーフレームが視点の数と同数得られる。キーフレーム検出部１８は、各キーフレームについてその表示すべきタイミングを検出し、そのタイミングを示す時間情報を生成する。途中から表示開始されるオブジェクトのレイヤに対しては、その表示開始のタイミングを検出してこれを記憶する。キーフレーム検出部１８は、キーフレームを圧縮してもよい。
【０１９８】
マッチング計算部２０は、前提技術その他の技術によってキーフレーム間で画素単位のマッチングをとる。例えば複数の視点から捉えられた画像データの場合（Ｓ１００８Ｙ）、空間的マッチング処理部２４は複数視点間における空間的な中間フレームを得るための対応点情報をマッチングにより取得する（Ｓ１０１０）。時間的マッチング処理部２２は、時間軸上で隣り合う二つのキーフレーム間における時間的な中間フレームを得るための対応点情報をマッチングにより取得する（Ｓ１０１２）。
【０１９９】
パッケージ設定部２６は、特定の表示タイミングにおけるキーフレームと、その時間情報と、次のキーフレームとの間の対応点情報と、を組み合わせたパッケージを生成してこれを記憶する（Ｓ１０１４）。複数視点の場合、各視点のキーフレームがひとつのパッケージに同梱されるとともに、視点間の対応点情報もさらに含められる。関連記述部２８は、各パッケージに対して時系列的に前後のパッケージへの関連づけを記述する（Ｓ１０１６）。例えば、前後のパッケージへのシーク位置を示す情報やリンク情報を記述する。
【０２００】
コンポーネント設定部３０と、レイヤごとに関連づけされた複数のパッケージを集合させてひとつのコンポーネントを生成する（Ｓ１０１８）。コンポーネント設定部３０は、各コンポーネントに対してＩＤを付与するとともに、そのＩＤが対応する各パッケージにも記述される。符号化データ生成部３２は、すべてのレイヤのコンポーネントを集合させて最終的な符号化データを生成して（Ｓ１０２０）、これをネットワークまたはストレージへ出力する（Ｓ１０２２）。
【０２０１】
図２１（ａ）〜図２１（ｄ）は、画像データをオブジェクトごとに複数のレイヤに分離する処理を模式的に示す。図２１（ａ）は、初期的に入力される画像データであり、これが図２１（ｂ）〜図２１（ｄ）の各図に分離される。図２１（ｂ）は例えば背景のレイヤであり、その表示サイズは図２１（ａ）の表示サイズと同じである。またこのレイヤは動きが少なく、キーフレームレートも最も低く設定される。
【０２０２】
図２１（ｃ）は三角形で模式的に示されるオブジェクトが含まれるレイヤである。このオブジェクトの動きが領域１００に限定される場合は、このレイヤの表示サイズを領域１００のサイズに設定してもよい。その場合、領域１００の座標もあわせて検出される。図２１（ｄ）は円形で模式的に示されるオブジェクトが含まれるレイヤである。このオブジェクトの動きが領域１０２に限定される場合は、このレイヤの表示サイズを領域１０２のサイズに設定するとともに、その座標をあわせて検出する。図２１（ｃ）および図２１（ｄ）のキーフレームは、オブジェクト以外の部分が透けた透過画像であってもよい。
【０２０３】
図２２（ａ）〜２２（ｅ）は、実施の形態において複数の視点間で空間的な中間フレームを生成する処理を模式的に示す。図２２（ａ）、図２２（ｂ）、図２２（ｃ）、図２２（ｄ）は異なる視点からコーヒーカップを撮影した４枚のキーフレームである。これらを用いると、図２２（ｅ）に示す中間的な視点における中間フレームを生成することができる。図２２（ａ）のキーフレームと図２２（ｂ）のキーフレームが第１画像対を形成し、図２２（ｃ）のキーフレームと図２２（ｄ）のキーフレームが第２画像対を形成する。目的の中間フレームは、第１画像対、第２画像対のいずれか一方では正しく生成できず、両方が揃って生成できる。中間フレームは、複数のキーフレームを縦横二方向について補間することで生成されるためである。これにより、少ないキーフレームから任意の視点における画像やオブジェクトを回転させた擬似的な三次元画像などを実現することができる。この特性は、電子商取引における商品プレゼンテーション、動画像の圧縮、映像効果などにも有用であり、画像データのインタラクティブ性を向上させることができる。
【０２０４】
本図の場合、空間的マッチング処理部２４は第１画像対における対応点情報と第２画像対における対応点情報を生成する。以上が符号化側の処理である。
【０２０５】
一方、図２３は画像データ復号装置５０の構成を示す。また、図２４は画像データ復号装置５０による処理のフローチャートである。画像データ復号装置５０は画像データ符号化装置１０で得られた符号化データをもとの画像データへ復号する。
【０２０６】
キーフレーム検出部５２は、ネットワーク、ストレージその他から符号化データを取得し（Ｓ１０５０）、レイヤごとに個別の間隔で設定された複数のキーフレームを検出する（Ｓ１０５２）。フレームレート設定部５４は、レイヤごとに個別のフレームレートを決定する（Ｓ１０５４）。ここでいうフレームレートは中間フレームの間隔であり、動きの少ない背景などのレイヤはフレームレートを低くし、動きの多いオブジェクトのレイヤはフレームレートを高くしてもよい。また、フレームレートを画像データ復号装置５０自体の処理能力に応じて定めてもよいし、指示受付部６６を介したユーザの指示に基づいて定めてもよい。
【０２０７】
中間フレーム生成部５６は、対応点情報に基づいて中間フレームを生成する。対応点情報は、符号化データから抽出してもよいし、別途マッチング計算によって中間フレーム生成部５６が生成してもよい。中間フレーム生成部５６は、時間的補間部５８および空間的補間部６０を含む。
【０２０８】
ここで、指示受付部６６はどの視点で表示すべきかの指示をユーザから受け取る。指示受付部６６に対して、複数の視点間における中間視点から捉えられる画像を表示すべき旨の指示が与えられた場合（Ｓ１０５６Ｙ）、空間的補間部６０は、符号化データに含まれる複数の視点のキーフレームとその視点間の対応点情報とに基づき、中間視点における空間的な中間フレームを生成する（Ｓ１０５８）。空間的な中間フレームの生成方法は後述する。この中間フレームを、時間軸上における各表示タイミングについて生成するとともに、これらを時系列的に並べて新たなキーフレームとして以後扱う。
【０２０９】
時間的補間部５８は、時間軸上のキーフレームとその間の対応点情報とに基づいて時間的な中間フレームを生成する（Ｓ１０６０）。この中間フレームは、フレームレート設定部５４により設定されたフレームレートにて生成される。復号データ生成部６２は、キーフレームと中間フレームを時系列的に並べた組み合わせを復号データとして生成する（Ｓ１０６２）。
【０２１０】
復号データ生成部６２に含まれるイベント検知部６４は、復号データを出力するためのトリガーとなる所定のイベントを検知する（Ｓ１０６４）。そのイベント検知を条件にして復号データ生成部６２は復号データである画像データの出力を開始する（Ｓ１０６６）。イベントは例えば指示受付部６６を介したユーザからの再生開始の指示であってもよいし、クロックに基づいて発生させてもよい。複数のレイヤのうちいずれかのレイヤに対してだけイベント検知を開始条件にしてもよく、その場合は対象となるレイヤのコンポーネントにその旨が記述されてもよい。これにより、コンテンツのインタラクティブ性が向上し、しかもオブジェクト単位で個別に再生開始タイミングを設定できる。
【０２１１】
図２５は、生成すべき空間的な中間フレームとそのもとになるキーフレームの位置関係を概念的に示す。キーフレームはそれらを撮影した視点位置にしたがって並べられており、生成すべき中間フレームもその仮想的な視点位置に応じて同図の中に位置決めされる。ここでは視点数が９個の場合を示す。
【０２１２】
図では９枚のキーフレームである第１キーフレームＩ１〜第９キーフレームＩ９が示されている。いま指示受付部６６を通し、生成すべき中間フレームの視点位置として同図の中間フレームＩｃの位置が指示されたとき、まずその中間フレームＩｃを取り巻くキーフレーム（以下「注目キーフレーム」という）が第１キーフレームＩ１、第２キーフレームＩ２、第４キーフレームＩ４、第５キーフレームＩ５と特定される。第１キーフレームＩ１と第２キーフレームＩ２が第１画像対、第４キーフレームＩ４と第５キーフレームＩ５が第２画像対と定まる。つづいて、これら４つのキーフレームで形成される四辺形の中で中間フレームＩｃが占める位置を幾何的に求め、補間によって中間フレームの画像を生成する。
【０２１３】
このプロセスにおいて、中間フレームが図２５において占める位置、および注目キーフレームは空間的補間部６０によって特定される。その注目フレーム間の対応点情報が符号化データから抽出される。他の形態としては、空間的補間部６０が第１画像対と第２画像対それぞれの間で前提技術にもとづくマッチング計算を行い、その結果として視点間の対応点情報を取得してもよい。指示受付部６６で取得された中間フレームの位置情報は空間的補間部６０に送られる。空間的補間部６０は、その位置情報とふたつの対応点情報をもとに補間計算を行う。
【０２１４】
図２６は、補間の方法を示す。ここでは、第１キーフレームＩ１、第２キーフレームＩ２、第４キーフレームＩ４、第５キーフレームＩ５をそれぞれ点Ｐ１、Ｐ２、Ｐ４、Ｐ５で模式的に示したとき、それらで定まる四辺形において、中間フレームを模式的に示す点Ｐｃの位置が以下の条件を満たすとする。
「Ｐ１とＰ２を結ぶ辺をｓ：（１−ｓ）に内分する点Ｑと、Ｐ４とＰ５を結ぶ辺をｓ：（１−ｓ）に内分する点Ｒを結ぶ線分を（１−ｔ）：ｔに内分する」
空間的補間部６０は、第１画像対に関する対応点情報をもとにまず点Ｑに当たる画像をｓ：（１−ｓ）の比による補間で生成する。つづいて、第２画像対に関する対応点情報をもとに点Ｒに当たる画像をｓ：（１−ｓ）の比による補間で生成する。最後に、これらふたつの画像を（１−ｔ）：ｔの比による補間で生成する。
【０２１５】
図２７は、符号化データのデータ構造を示す。符号化データ７０は、画像データを識別するためのデータを格納するインデックス領域７２と、各レイヤを認識するためのデータを格納するコンテンツヘッダ領域７４と、各コンポーネントを格納するコンポーネント領域７６と、を含み、それらの領域のデータが画像データの符号化データとして関連づけられている。
【０２１６】
コンポーネント領域７６には、コンポーネント（１）をはじめとするレイヤ別の複数のコンポーネントが格納される。コンポーネント（１）には、パッケージ（１−１）、パッケージ（１−２）をはじめとして時系列的に関連づけられた複数のパッケージが含まれる。各パッケージは、キーフレーム、対応点情報、音声データなどで構成される。たとえば、パッケージ（１）において、キーフレーム（Ｘ）、キーフレーム（Ｙ）、キーフレーム（Ｚ）はＸ、Ｙ、Ｚの３視点に対応するキーフレームである。対応点情報（１−２Ｘ）、対応点情報（１−２Ｙ）、対応点情報（１−２Ｚ）は、次の表示タイミングにおけるキーフレームとの対応点情報であって３視点のそれぞれに対応する。対応点情報（Ｘ−Ｙ）、対応点情報（Ｙ−Ｚ）、対応点情報（Ｚ−Ｘ）は、各視点間の対応点情報である。サウンド（１−１）は音声データである。
【０２１７】
なお、このようにキーフレームと音声データを特定の時間範囲ごとに分けて組み合わせることによって、再生時に画像と音声の同期がとられる。また、音声データもレイヤと対応がとられるので、レイヤごとに個別に音声のタイミングを設定できる上、画像と同様に所定のイベント検知を条件に音声を発する制御も可能となる。
【０２１８】
図２８は、符号化データにおけるインデックス領域の構成を示す。この領域にはテーブル１１０に示される各項目とその値が記述される。例えば、項目１１２には画像データの符号化に用いられる符号化方式のバージョンが記述され、項目１１４には符号化データに音声データが含まれるか否かが記述される。項目１１６には画像データの著作権情報またはその情報へのリンクが記述され、項目１１８には画像データまたはその符号化データの作成日時が記述される。
【０２１９】
図２９は、符号化データにおけるコンテンツヘッダ領域の構成を示す。この領域にはテーブル１２０に示される各項目とその値が記述される。例えば、項目１２２にはこの領域におけるヘッダ情報が記述され、項目１２４には画像データ全体の表示サイズが記述される。項目１２６には画像データ全体の表示時間が記述され、項目１３０には後続のコンポーネント数が記述される。項目１３２には各コンポーネントに対するリンクまたはシーク位置の情報が記述される。
【０２２０】
図３０は、符号化データにおけるコンポーネントの構成を示す。各コンポーネントにはテーブル１４０に示される各項目とその値が記述される。例えば、項目１４２にはこのコンポーネントのヘッダ情報が記述され、項目１４４にはこのコンポーネントのＩＤが記述される。項目１４６にはコンポーネントの種別として、疑似３次元動画、２次元動画などの種類が記述される。項目１４８にはこのコンポーネントに対応するレイヤのＩＤが記述され、項目１５０にはこのコンポーネントを表示すべき座標が記述される。項目１５２にはこのコンポーネントの表示サイズが記述され、項目１５４にはこのコンポーネントの表示開始タイミングが記述される。項目１５６にはこのコンポーネントの表示時間が記述され、項目１５８にはこのコンポーネントに含まれるパッケージのうち初期的に表示すべきパッケージへのリンクまたはシーク位置の情報が記述される。
【０２２１】
項目１６０には後続のＵＲＬパッケージの数が記述され、項目１６２には視点間の距離が記述される。項目１６４には各視点が含まれる空間全体の座標軸サイズが記述され、項目１６６には初期的に表示する視点の座標が記述される。項目１６８には各パッケージへのリンクまたはシーク位置の情報が記述され、項目１７０には各ＵＲＬパッケージへのリンクまたはシーク位置の情報が記述される。
【０２２２】
図３１は、符号化データにおけるパッケージの構成を示す。ここにはテーブル１８０に示される各項目とその値が記述される。例えば、項目１８２にはこのパッケージのヘッダ情報が記述され、項目１８４にはこのパッケージを包含するコンポーネントのＩＤが記述される。項目１８６にはこのパッケージの時間情報が記述される。項目１８８には時間的に前のパッケージへの関連づけとしてリンクまたはシーク位置の情報が記述され、項目１９０には時間的に後のパッケージへの関連づけとしてリンクまたはシーク位置の情報が記述される。
【０２２３】
このパッケージに含まれるキーフレーム、対応点情報、音声データの数は、それぞれ項目１９２、１９４、１９６に記述される。また、各キーフレーム、各対応点情報、各音声データへのリンクまたはシーク位置の情報は、それぞれ項目１９８、２００、２０２に記述される。
【０２２４】
図３２は、符号化データにおけるキーフレーム領域の構成を示す。この領域にはテーブル２１０に示される各項目とその値が記述される。例えば、項目２１２にはこの領域におけるヘッダ情報が記述され、項目２１４にはこのキーフレームを包含するコンポーネントのＩＤが記述される。項目２１６にはこのキーフレームの画像形式が記述される。項目２１８にはキーフレームのデータ自体がこのパッケージに含まれているかまたはキーフレームへのリンクだけが含まれているかがデータ種別として記述される。項目２２０にはこのキーフレームの視点を他の視点と区別するためのＩＤが記述される。項目２２１にはこのキーフレームが透過画像であるか否かが記述される。項目２２２にはこのキーフレームを表示すべき位置を示す座標が記述され、項目２２４にはこのキーフレームの表示サイズが記述される。項目２２６にはこのキーフレームの視点位置が記述される。項目２２８にはこのキーフレームへのリンクまたはシーク位置の情報が記述され、項目２３０にはこのキーフレームのデータサイズが記述される。
【０２２５】
図３３は、符号化データにおける対応点情報領域の構成を示す。この領域にはテーブル２４０に示される各項目とその値が記述される。例えば、項目２４２にはこの領域におけるヘッダ情報が記述され、項目２４４にはこの対応点情報を包含するコンポーネントのＩＤが記述される。項目２４６にはこの対応点情報のデータ形式が記述され、項目２４８にはこの対応点情報のデータ自体がこのパッケージに含まれているかまたは対応点情報へのリンクだけが含まれているかがデータ種別として記述される。項目２５０にはこの対応点情報によって扱われる画素サイズが記述される。項目２５２には始点画像となるキーフレームのＩＤが記述され、項目２５４には終点画像となるキーフレームのＩＤが記述される。項目２５６には対応点情報へのリンクまたはシーク位置の情報が記述され、項目２５８には対応点情報のデータサイズが記述される。
【０２２６】
図３４は、符号化データにおける音声データ領域の構成を示す。この領域にはテーブル２６０に示される各項目とその値が記述される。例えば、項目２６２にはこの領域におけるヘッダ情報が記述され、項目２６４にはこの音声データを包含するコンポーネントのＩＤが記述される。項目２６６にはこの音声データのデータ形式が記述され、項目２６８にはこの音声データ自体がこのパッケージに含まれているかまたは音声データへのリンクだけが含まれているかがデータ種別として記述される。項目２７０には音声データへのリンクまたはシーク位置の情報が記述され、項目２７２には音声データのデータサイズが記述される。
【０２２７】
図３５は、符号化データにおけるＵＲＬデータ領域の構成を示す。この領域にはテーブル２８０に示される各項目とその値が記述される。例えば、項目２８２にはこの領域におけるヘッダ情報が記述され、項目２８４にはこのＵＲＬデータが内包されるコンポーネントのＩＤが記述される。項目２８６にはこのＵＲＬデータのＩＤが記述され、項目２８８にはＵＲＬデータへのリンクまたはシーク位置の情報が記述され、項目２９０にはＵＲＬデータのデータサイズが記述される。
【０２２８】
図３６は、符号化データにおける各領域のヘッダ情報の構成を示す。このヘッダ情報３００は図２９〜図３４の各テーブルに含まれる情報である。項目３０２にはそのヘッダ情報が含まれる領域の種別として、コンテンツヘッダ領域、コンポーネント、パッケージ、キーフレーム領域、音声データ領域、ＵＲＬデータ領域の別が記述される。項目３０４にはその領域のＩＤが記述され、項目３０６にはその領域のデータサイズが記述される。
【０２２９】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、その各構成要素や各処理プロセスの組合せにいろいろな変形が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、変形例を挙げる。
【０２３０】
実施形態のひとつの変形例として、誤差制御の考え方を導入することができる。すなわち、符号化画像データを復号したとき、もとの画像データとの誤差をある範囲に抑える制御である。誤差の評価式として、ふたつの画像間において位置的に対応しあう画素の輝度値の差分の二乗和がある。この誤差をもとに、中間フレームおよびキーフレームの符号化方式や圧縮率を調節したり、キーフレームの選定をやりなおすことができる。たとえば、ある中間フレームに関する誤差が許容値を超えた場合、その中間フレームの近くにキーフレームを新設したり、その中間フレームをはさむふたつのキーフレームの間隔を狭めることができる。
【０２３１】
画像データ符号化装置１０と画像データ復号装置５０は一体化することができる。その場合、一体化された画像符号化・復号装置は、画像を符号化してストレージへ格納し、必要なときにそれを復号して表示等することができる。
【０２３２】
別の変形例として、符号化データにはキーフレーム、対応点情報、音声データの実データを含めずにそれらのリンクだけを含めてもよい。これらのデータのうちいずれかのみを含めない構成としてもよい。また、視点を単一にして時系列的なキーフレームおよび対応点情報だけを含む形式で符号化データを生成してもよいし、逆に複数視点のキーフレームおよびその視点間の対応点情報だけを含んで時系列的な対応点情報をもたない形式で符号化データを生成してもよい。符号化データの構成については当業者に理解されるごとく相当の自由度があり、それらも実施の形態の変形例とする。
【０２３３】
実施の形態では、画素単位のマッチングを中心に説明した。しかし、本発明の画像データ符号化技術はそれに限られない。キーフレーム間でブロックマッチングがなされてもよいし、その他、中間フレームを生成する任意の線形、非線形処理を適用してよい。復号側についても同様のことがいえるが、実装上のひとつのポイントは、符号化側と復号側が原則として同じ方法で得られた中間フレームを想定する点にある。ただし、それとても絶対ではなく、復号側が符号化の際の規則を認識して対応するか、符号化側が復号側の処理を想定して符号化に配慮すればよい。
【図面の簡単な説明】
【図１】図１（ａ）とは図１（ｂ）は、ふたりの人物の顔に平均化フィルタを施して得られる画像、図１（ｃ）と図１（ｄ）は、ふたりの人物の顔に関して前提技術で求められるｐ^{（５，０）}の画像、図１（ｅ）と図１（ｆ）は、ふたりの人物の顔に関して前提技術で求められるｐ^{（５，１）}の画像、図１（ｇ）と図１（ｈ）は、ふたりの人物の顔に関して前提技術で求められるｐ^{（５，２）}の画像、図１（ｉ）と図１（ｊ）は、ふたりの人物の顔に関して前提技術で求められるｐ^{（５，３）}の画像をそれぞれディスプレイ上に表示した中間調画像の写真である。
【図２】図２（Ｒ）はもとの四辺形を示す図、図２（Ａ）、図２（Ｂ）、図２（Ｃ）、図２（Ｄ）、図２（Ｅ）はそれぞれ相続四辺形を示す図である。
【図３】始点画像と終点画像の関係、および第ｍレベルと第ｍ−１レベルの関係を相続四辺形を用いて示す図である。
【図４】パラメータηとエネルギーＣ_ｆの関係を示す図である。
【図５】図５（ａ）、図５（ｂ）は、ある点に関する写像が全単射条件を満たすか否かを外積計算から求める様子を示す図である。
【図６】前提技術の全体手順を示すフローチャートである。
【図７】図６のＳ１の詳細を示すフローチャートである。
【図８】図７のＳ１０の詳細を示すフローチャートである。
【図９】第ｍレベルの画像の一部と、第ｍ−１レベルの画像の一部の対応関係を示す図である。
【図１０】前提技術で生成された始点階層画像を示す図である。
【図１１】図６のＳ２に進む前に、マッチング評価の準備の手順を示す図である。
【図１２】図６のＳ２の詳細を示すフローチャートである。
【図１３】第０レベルにおいて副写像を決定する様子を示す図である。
【図１４】第１レベルにおいて副写像を決定する様子を示す図である。
【図１５】図１２のＳ２１の詳細を示すフローチャートである。
【図１６】あるｆ^{（ｍ，ｓ）}についてλを変えながら求められたｆ^{（ｍ，ｓ）}（λ＝ｉΔλ）に対応するエネルギーＣ^{（ｍ，ｓ）} _ｆの挙動を示す図である。
【図１７】ηを変えながら求められたｆ^（ｎ）（η＝ｉΔη）（ｉ＝０，１，…）に対応するエネルギーＣ^（ｎ） _ｆの挙動を示す図である。
【図１８】改良後の前提技術において第ｍレベルにおける副写像を求めるフローチャートである。
【図１９】実施の形態に係る画像データ符号化装置の構成図である。
【図２０】実施の形態に係る画像データ符号化装置による処理を示すフローチャートである。
【図２１】図２１（ａ）〜２１（ｄ）は、実施の形態において画像データをオブジェクトごとに複数のレイヤに分離する処理を模式的に示す図である。
【図２２】図２２（ａ）〜２２（ｅ）は、実施の形態において複数の視点間で空間的な中間フレームを生成する処理を模式的に示す図である。
【図２３】実施の形態に係る画像データ復号装置の構成図である。
【図２４】実施の形態に係る画像データ復号装置による処理を示すフローチャートである。
【図２５】実施の形態において生成すべき空間的な中間フレームとそのもとになるキーフレームの位置関係を概念的に示す図である。
【図２６】実施の形態において実施される補間処理の方法を示す図である。
【図２７】実施の形態に係る符号化データのデータ構造を示す図である。
【図２８】実施の形態に係る符号化データにおけるインデックス領域の構成を示す図である。
【図２９】実施の形態に係る符号化データにおけるコンテンツヘッダ領域の構成を示す図である。
【図３０】実施の形態に係る符号化データにおけるコンポーネント領域の構成を示す図である。
【図３１】実施の形態に係る符号化データにおけるパッケージ領域の構成を示す図である。
【図３２】実施の形態に係る符号化データにおけるキーフレーム領域の構成を示す図である。
【図３３】実施の形態に係る符号化データにおける対応点情報領域の構成を示す図である。
【図３４】実施の形態に係る符号化データにおける音声データ領域の構成を示す図である。
【図３５】実施の形態に係る符号化データにおけるＵＲＬデータ領域の構成を示す図である。
【図３６】実施の形態に係る符号化データにおける各領域のヘッダの構成を示す図である。
【符号の説明】
１０　画像データ符号化装置、　１２　キーフレーム設定部、　２０　マッチング計算部、　２６　パッケージ設定部、　２８　関連記述部、　３０　コンポーネント設定部、　３２　符号化データ生成部、　５０　画像データ復号装置、５２　キーフレーム検出部、　５４　フレームレート設定部、　５６　中間フレーム生成部、　６２　復号データ生成部、　７０　符号化データ、　７２　インデックス領域、　７４　コンテンツヘッダ領域、　７６　コンポーネント。

Claims

オブジェクト別のレイヤごとに個別の間隔で設定される複数のキーフレームとその表示タイミングを示す時間情報とを組み合わせ、その組み合わせを時系列的に複数関連づけることによって生成されるレイヤ別のコンポーネントを、後に前記複数のキーフレーム間で画素単位のマッチング計算によって得られる対応点情報をもとに中間フレームを生成することを前提とした符号化データとして出力することを特徴とする画像データ符号化方法。
オブジェクト単位で分離される複数のレイヤを含んだ画像データにおいてそのレイヤごとに個別の間隔で複数のキーフレームを設定する工程と、
前記複数のキーフレーム間で画素単位のマッチングを計算して対応点情報を生成する工程と、
前記キーフレームとその表示タイミングを示す時間情報と前記対応点情報を組み合わせたパッケージを記憶する工程と、
前記パッケージを時系列的に前後のパッケージへ関連づける工程と、
前記関連づけられた複数のパッケージをレイヤごとに集合させてコンポーネントを生成する工程と、
すべてのレイヤのコンポーネントを集合させて前記画像データの符号化データとして出力する工程と、
を含むことを特徴とする画像データ符号化方法。
オブジェクト単位で分離される複数のレイヤを含んだ画像データにおいてそのレイヤごとに個別の表示タイミングにて複数のキーフレームを設定するキーフレーム設定部と、
前記複数のキーフレーム間で画素単位のマッチングを計算して対応点情報を生成するマッチング計算部と、
前記キーフレームとその表示タイミングを示す時間情報と前記対応点情報を組み合わせたパッケージを記憶するパッケージ設定部と、
前記パッケージに対して時系列的に前後のパッケージへの関連づけを記述する関連記述部と、
前記パッケージをレイヤごとに集合させてコンポーネントを生成するコンポーネント設定部と、
すべてのレイヤのコンポーネントを集合させて符号化データとして出力する符号化データ生成部と、
を含むことを特徴とする画像データ符号化装置。
前記キーフレーム設定部は、一つのオブジェクトを複数の視点から同時に捉えた複数の画像を前記オブジェクトが含まれるレイヤにおける複数のキーフレームとして設定し、
前記マッチング計算部は、前記複数の視点から捉えたキーフレーム間で前記対応点情報を生成すること特徴とする請求項３に記載の画像データ符号化装置。
前記キーフレーム設定部は、前記レイヤごとに個別の表示開始タイミングを設定することを特徴とする請求項３または４に記載の画像データ符号化装置。
オブジェクト別のレイヤごとに個別の間隔で設定される複数のキーフレームとその表示タイミングを示す時間情報との組み合わせによって生成されるレイヤ別のコンポーネントを取得し、前記複数のキーフレーム間で画素単位のマッチング計算によって得られる対応点情報をもとに中間フレームを生成し、前記キーフレームと前記中間フレームを組み合わせて復号データとして出力することを特徴とする画像データ復号方法。
オブジェクト単位で分離される複数のレイヤを含んだ画像データの符号化データから前記レイヤごとに個別の間隔で設定された複数のキーフレームを検出する工程と、
前記キーフレームの間における画素単位のマッチングによって得られた対応点情報をもとに、前記レイヤごとに個別のフレームレートにて中間フレームを生成する工程と、
前記キーフレームと前記中間フレームの組み合わせを復号データとして出力する工程と、
を含むことを特徴とする画像データ復号方法。
オブジェクト単位で分離される複数のレイヤを含んだ画像データの符号化データから前記レイヤごとに個別の間隔で設定された複数のキーフレームを検出するキーフレーム検出部と、
前記レイヤごとに個別のフレームレートを決定するフレームレート設定部と、
前記キーフレームの間における画素単位のマッチングによって得られた対応点情報をもとに前記フレームレートにて時系列的な中間フレームを生成する中間フレーム生成部と、
前記キーフレームと前記時系列的な中間フレームの組み合わせを復号データとして出力する復号データ生成部と、
を含むことを特徴とする画像データ復号装置。
前記キーフレーム検出部は、一つのオブジェクトを複数の視点から同時に捉えた複数の画像を前記複数のキーフレームとして検出し、
前記中間フレーム生成部は、前記複数の視点間における中間視点から捉えられる画像を表示すべき旨の指示が与えられたときに、位置的に隣接する視点のキーフレーム間における画素単位のマッチングによって得られた対応点情報をもとにその中間視点のキーフレームを生成することを特徴とする請求項８に記載の画像データ復号装置。
前記復号データ生成部は、前記複数のレイヤのうちいずれかのレイヤにおける前記復号データの出力を所定のイベントの検知を条件に開始することを特徴とする請求項８または９に記載の画像データ復号装置。
オブジェクト単位で分離される複数のレイヤを含んだ画像データにおいてそのレイヤごとに個別の間隔で複数のキーフレームを設定する工程と、
前記複数のキーフレーム間で画素単位のマッチングを計算して対応点情報を生成する工程と、
前記キーフレームとその表示タイミングを示す時間情報と前記対応点情報を組み合わせたパッケージを記憶する工程と、
前記パッケージを時系列的に前後のパッケージへ関連づける工程と、
前記関連づけられた複数のパッケージをレイヤごとに集合させてコンポーネントを生成する工程と、
すべてのレイヤのコンポーネントを集合させて前記画像データの符号化データとして出力する工程と、
をコンピュータに実行させることを特徴とするコンピュータプログラム。
オブジェクト単位で分離される複数のレイヤを含んだ画像データの符号化データから前記レイヤごとに個別の間隔で設定された複数のキーフレームを検出する工程と、
前記キーフレームの間における画素単位のマッチングによって得られた対応点情報をもとに、前記レイヤごとに個別のフレームレートにて中間フレームを生成する工程と、
前記キーフレームと前記中間フレームの組み合わせを復号データとして出力する工程と、
をコンピュータに実行させることを特徴とするコンピュータプログラム。
画像データを識別するためのデータを格納するインデックス領域と、
オブジェクト単位で分離された複数のレイヤを認識するためのデータを格納するコンテンツヘッダ領域と、
前記レイヤごとに個別の間隔で設定された複数のキーフレームを含んだコンポーネントを格納するコンポーネント領域と、
を含み、それらの領域のデータが前記画像データの符号化データとして関連づけられているとともに、前記コンポーネント領域には、
前記キーフレームの表示タイミングを示す時間情報と、
前記複数のキーフレーム間における画素単位のマッチングを計算して得られる対応点情報と、
をさらに格納することを特徴とするデータ構造。