JP2007316693A

JP2007316693A - 画像符号化方法および画像符号化装置

Info

Publication number: JP2007316693A
Application number: JP2006142361A
Authority: JP
Inventors: Giyouzo Akiyoshi; 仰三秋吉; Nobuo Akiyoshi; 信雄秋吉
Original assignee: Monolith Co Ltd
Current assignee: Monolith Co Ltd
Priority date: 2006-05-23
Filing date: 2006-05-23
Publication date: 2007-12-06
Also published as: TW200820744A; US20070286500A1

Abstract

【課題】マッチング処理を施す画像の組合せの制作を容易なものとすると共にマッチング処理を実施する装置の負担を軽減する。
【解決手段】制作者ＰＣ１４において、画像入力部２０は、複数の静止画像を並置した状態で１枚の画像として形成された第１キーフレームと、第１キーフレームの複数の静止画像の各々に位置的に対応する複数の静止画像を並置した状態で１枚の画像として形成された第２キーフレームとを取得する。マッチングプロセッサ２２は、第１キーフレームと第２キーフレームとの間で対応しあう点に関する情報である対応点情報を画像マッチング処理により取得する。ストリーム生成部２４は、第１キーフレーム、第２キーフレームおよび対応点情報を符号化データとして出力する。
【選択図】図１９

Description

この発明は、画像符号化技術に関し、特にディジタル画像符号化方法およびディジタル画像符号化装置に関する。

現在、インターネットが一般社会に広く浸透している。企業や個人は自身が制作したＷｅｂページをインターネット上に公開し、ＰＣ（パーソナルコンピュータ）や携帯電話のユーザは気軽にＷｅｂページにアクセスして、動画および静止画を含む様々な画像を閲覧している。このように画像を含むＷｅｂページを制作する場合に、企業や個人は複数の画像を同一のＷｅｂページ上に掲載する場合がある。たとえばインターネットによる電子商取引を行う企業は、多くの場合自身が取り扱う複数の商品の画像を同一のＷｅｂページに上に掲載する。一方、例えば特許文献１に記載されるような画像のマッチング処理技術の開発が進められている。このようなマッチング処理技術を利用して、たとえばＷｅｂページにアニメーション表示を行うことも可能である。
特開平１０−２６９３５５号公報

画像のマッチング処理では複数の画像のマッチングを実施するため、たとえば一つのアニメーション表示を行う場合であっても複数の画像が必要となる。このため、たとえば同一のＷｅｂページに複数のアニメーション表示を行うためにマッチング処理を利用するような場合、アニメーション表示の各々に対してマッチング処理の対象となる複数の画像を制作する必要がある。以下、図２５（ａ）および（ｂ）を例に更に詳細に説明する。

同一のＷｅｂページ上において、図２５（ａ）に示される複数の静止画像から図２５（ｂ）に示される複数の静止画像にマッチング処理によるアニメーション表示を行うと仮定する。図２５（ａ）に示される複数の静止画像には、第１キーフレーム６２、第２キーフレーム６３、および第３キーフレーム６４が含まれている。これらのキーフレームは同一の形状、および大きさの長方形に形成されている。第１キーフレーム６２は、花のつぼみが表された１枚の静止画像である第１画像６８として形成されている。第２キーフレーム６３は、右下に飛行機が表された１枚の静止画像である第２画像６９として形成されている。第３キーフレーム６４は、右側に車が表された１枚の静止画像である第３画像７０として形成されている。

図２５（ｂ）に示される複数の静止画像には、第４キーフレーム６５、第５キーフレーム６６、および第６キーフレーム６７が含まれている。これらのキーフレームは同一の形状、および大きさの長方形に形成されている。第４キーフレーム６５は、花が開いた状態が表された１枚の静止画像である第４画像７１として形成されている。第５キーフレーム６６は、中央に飛行機が表された１枚の静止画像である第５画像７２が含まれている。第６キーフレーム６７は、左側に車が表された１枚の静止画像である第６画像７３として形成されている。

まず、図２５（ａ）に示される例では、同一のＷｅｂページ上に第１キーフレーム６２、第２キーフレーム６３、および第３キーフレーム６４が並置される。また図２５（ｂ）に示される例では、同一のＷｅｂページ上に第４キーフレーム６５、第５キーフレーム６６、および第６キーフレーム６７が並置される。マッチング処理によって第１キーフレーム６２を始点画像、第４キーフレーム６５を終点画像として、花が徐々に開いていくようなアニメーション表示がＷｅｂページ上において実現される。また、第２キーフレーム６３を始点画像、第５キーフレーム６６を終点画像として、飛行機が上昇していくようなアニメーション表示がＷｅｂページ上において実現される。また、第３キーフレーム６４を始点画像、第６キーフレーム６７を終点画像として、自動車が右から左に走行するようなアニメーション表示がＷｅｂページ上において実現される。

上述の例では３組のキーフレーム同士の間でそれぞれマッチング処理が実施される。このように複数組のキーフレーム同士でマッチング処理を実施するためには、少なくともその組数の２倍以上のキーフレームが必要となるため、キーフレームの制作にかける時間や労力が大きなものとなる。また、複数組のキーフレーム同士のマッチング処理を実施する場合、その装置の負担も大きくなる。

本発明はこうした状況に鑑みてなされたものであり、その目的は、マッチング処理を施す画像の組合せの制作を容易なものとすると共にマッチング処理を実施する装置の負担を軽減することにある。

本発明のある態様の画像符号化方法は、以下の工程を備える。

（１）複数の静止画像を並置した状態で１枚の画像として形成された第１キーフレームと、第１キーフレームの複数の静止画像の各々に位置的に対応する複数の静止画像を並置した状態で１枚の画像として形成された第２キーフレームとを取得する工程、
（２）第１キーフレームと第２キーフレームとの間で対応しあう点に関する情報である対応点情報を画像マッチング処理により取得する工程、
（３）第１キーフレーム、第２キーフレームおよび対応点情報を符号化データとして出力する工程。

この態様によれば、たとえば第１キーフレームと第２キーフレームとの間でマッチング処理を実施することによってキーフレーム間で変遷するアニメーション表示をする場合などにおいて、複数の組合せのキーフレーム同士でそれぞれマッチング処理を実施する場合と同様の視覚的な効果を与えることができる。このため、制作者は容易にキーフレームを制作することが可能となる。なお、前述の画像マッチング処理は、例えば本出願人が先に特許第２９２７３５０号にて提案する技術（以下「前提技術」という）が好適である。

第１および第２キーフレームのそれぞれに含まれる複数の静止画像のそれぞれの間には所定の画像分離領域が設けられていてもよい。この「所定の画像分離領域」は、並置された静止画像各々の外周部に設けられてもよい。また、画像分離領域は、複数の静止画像の背景領域を構成してもよい。

背景領域において優勢（dominant）な画素値は、当該背景領域内に置かれた複数の静止画像の所定領域において優勢な画素値の各々と所定の閾値以上異なってもよい。この場合の画素値とは、平均値（モード、メジアン）、最頻値など、画像を特徴づける画素値であってもよい。また、第１キーフレームおよび第２キーフレームの間で画像マッチング処理を実行する工程について、当該工程を１回の課金対象処理として記録する工程をさらに備えてもよい。

なお、本発明は前提技術を必須とはしない。また、以上の各構成、工程を任意に入れ替えたり、方法と装置の間で表現を一部または全部入れ替え、または追加したり、表現をコンピュータプログラム、記録媒体等に変更したものもまた、本発明として有効である。

本発明によれば、マッチング処理を施す画像の組合せの制作を容易なものとすると共にマッチング処理を実施する装置の負担を軽減することができる。

はじめに、実施の形態で利用する多重解像度特異点フィルタ技術とそれを用いた画像マッチング処理を「前提技術」として詳述する。これらの技術は本出願人がすでに特許第２９２７３５０号を得ている技術であり、本発明との組合せに最適である。前提技術のようなマッチング技術を用いることによって、キーフレームに配置された複数の静止画像のうち位置的に対応する静止画像同士の中間画像があたかも作成されたようにキーフレーム全体の中間画像を生成することが可能となるからである。ただし、実施の形態で採用可能な画像マッチング技術はこれに限られない。

図１８以降、前提技術を利用した画像処理技術を具体的に説明する。
[前提技術の背景]
ふたつの画像の自動的なマッチング、つまり画像領域や画素どうしの対応付けは、コンピュータビジョンやコンピュータグラフィックスにおける最も難しくかつ重要なテーマのひとつである。例えば、あるオブジェクトに関して異なる視点からの画像間でマッチングがとれれば、他の視点からの画像を生成することができる。右目画像と左目画像のマッチングが計算できれば、立体画像を用いた写真測量も可能である。顔の画像のモデルと他の顔の画像のマッチングがとれたとき、目、鼻、口といった特徴的な顔の部分を抽出することができる。例えば人の顔と猫の顔の画像間でマッチングが正確にとられたとき、それらの中割画像を自動的に生成することでモーフィングを完全自動化することができる。

しかし従来一般に、ふたつの画像間の対応点は人がいちいち指定しなければならず、多大な作業工数を要した。この問題を解消するために数多くの対応点自動検出方法が提案されている。例えば、エピポーラ直線を用いることによって対応点の候補の数を減らす考えがある。しかし、その場合でも処理はきわめて複雑である。複雑さを低減するために、左目画像の各点の座標は通常右目画像でもほぼ同じ位置にあると想定される。しかし、こうした制約を設けると、大域的特徴及び局所的特徴を同時に満たすマッチングをとることは非常に困難になる。

ボリュームレンダリングでは、ボクセルを構成するために一連の断面画像が用いられる。この場合、従来一般に、上方の断面画像における画素が下方の断面画像の同一箇所にある画素と対応すると仮定され、これらの画素のペアが内挿計算に用いられる。このようにきわめて単純な方法を用いるため、連続する断面間の距離が遠く、オブジェクトの断面形状が大きく変化する場合、ボリュームレンダリングで構築されたオブジェクトは不明瞭になりがちである。

立体写真測量法など、エッジの検出を利用するマッチングアルゴリズムも多い。しかしこの場合、結果的に得られる対応点の数が少ないため、マッチングのとれた対応点間のギャップを埋めるべく、ディスパリティの値を内挿計算しなければならない。一般にあらゆるエッジ検出器は、それらが用いる局所的なウィンドウの中で画素の輝度が変化したとき、これが本当にエッジの存在を示唆するかどうかを判断することが難しい。エッジ検出器は、本来的にすべてハイパスフィルタであり、エッジと同時にノイズも拾ってしまう。

さらに別の手法として、オプティカルフローが知られている。二枚の画像が与えられたとき、オプティカルフローでは画像内のオブジェクト（剛体）の動きを検出する。その際、オブジェクトの各画素の輝度は変化しないと仮定する。オプティカルフローでは例えば（ｕ，ｖ）のベクトル場の滑らかさといった、いくつかの付加的な条件とともに、各画素の動きベクトル（ｕ，ｖ）を計算する。しかし、オプティカルフローでは画像間の大域的な対応関係を検出することはできない。画素の輝度の局所的な変化に注目するのみであり、画像の変位が大きい場合、システムの誤差は顕著になる。

画像の大域的な構造を認識するために、多重解像度フィルタも数多く提案されてきた。それらは線形フィルタと非線形フィルタに分類される。前者の例としてウェーブレットがあるが、線形フィルタは一般に、画像マッチングにはさして有用ではない。なぜなら、極値をとる画素の輝度に関する情報がそれらの位置情報とともに次第に不鮮明になるためである。図１（ａ）と図１（ｂ）は顔の画像に対して平均化フィルタを適用した結果を示している。同図のごとく、極値をとる画素の輝度が平均化によって次第に薄れるとともに、位置も平均化の影響でシフトしていく。その結果、目（輝度の極小点）の輝度や位置の情報は、このような粗い解像度レベルで曖昧になり、この解像度では正しいマッチングを計算することができない。したがって、粗い解像度レベルを設けるのが大域的なマッチングのためでありながら、ここで得られたマッチングは画像の本当の特徴（目、つまり極小点）に正確に対応しない。より精細な解像度レベルで目が鮮明に現れたとしても、大域的なマッチングをとる際に混入した誤差は、もはや取り返しがつかない。入力画像にスムージング処理を加えることにより、テクスチャ領域のステレオ情報が落ちてしまうこともすでに指摘されている。

一方、最近地形学の分野で利用されはじめた非線形フィルタとして一次元の「ふるい（sieve）」演算子がある。この演算子は、所定の大きさの一次元ウィンドウ内の極小値（または極大値）を選択することにより、縮尺と空間の因果関係を保存しながら画像にスムージング処理を加える。その結果得られる画像は元の画像と同じ大きさであるが、小さな波の成分が取り除かれているため、より単純になる。画像の情報を落とすという点で、この演算子は広い意味での「多重解像度フィルタ」に分類することはできるが、実際にはウェーブレットのように画像の解像度を変えながら画像を階層化するわけではなく（つまり狭い意味での多重解像度フィルタではなく）、画像間の対応の検出には利用できない。

[前提技術が解決しようとする課題]
以上をまとめれば以下の課題が認められる。
１．画像の特徴を正確に、かつ比較的簡単な処理で把握する画像処理方法が乏しかった。特に、特徴のある点に関する情報、例えば画素値や位置を維持しながら特徴を抽出できる画像処理方法に関する有効な提案が少なかった。
２．画像の特徴をもとに対応点を自動検出する場合、一般に処理が複雑であるか、ノイズ耐性が低いなどの欠点があった。また、処理に際していろいろな制約を設ける必要があり、大域的特徴及び局所的特徴を同時に満たすマッチングをとることが困難だった。
３．画像の大域的な構造または特徴を認識するために多重解像度フィルタを導入しても、そのフィルタが線形フィルタの場合、画素の輝度情報と位置情報が曖昧になった。その結果、対応点の把握が不正確になりやすかった。非線形フィルタである一次元ふるい演算子は画像を階層化しないため、画像間の対応点の検出には利用できなかった。
４．これらの結果、対応点を正しく把握しようとすれば、結局人手による指定に頼るほか有効な手だてがなかった。

前提技術はこれらの課題の解決を目的としてなされたものであり、画像処理の分野において、画像の特徴の的確な把握を可能にする技術を提供するものである。

[前提技術が課題を解決するための手段]
この目的のために前提技術のある態様は、新たな多重解像度の画像フィルタを提案する。この多重解像度フィルタは画像から特異点を抽出する。したがって、特異点フィルタともよばれる。特異点とは画像上特徴をもつ点をいう。例として、ある領域において画素値（画素値とは、色番号、輝度値など画像または画素に関する任意の数値を指す）が最大になる極大点、最小になる極小点、ある方向については最大だが別の方向については最小になるような鞍点がある。特異点は位相幾何学上の概念であってもよい。ただし、その他どのような特徴を有してもよい。いかなる性質の点を特異点と考えるかは、前提技術にとって本質問題ではない。

この態様では、多重解像度フィルタを用いた画像処理が行われる。まず検出工程において、第一の画像に対し、二次元的な探索を行って特異点が検出される。つぎに生成工程において、検出された特異点を抽出して第一の画像よりも解像度の低い第二の画像が生成される。第二の画像には第一の画像のもつ特異点が引き継がれる。第二の画像は第一の画像よりも解像度が低いため、画像の大域的な特徴の把握に好適である。

前提技術の別の態様は特異点フィルタを用いた画像マッチング方法に関する。この態様では、始点画像と終点画像間のマッチングがとられる。始点画像および終点画像とは、ふたつの画像の区別のために便宜的に与えた名称であり、本質的な違いはない。

この態様では、第一工程にて、始点画像に特異点フィルタを施して解像度の異なる一連の始点階層画像が生成される。第二工程では、終点画像に特異点フィルタを施して解像度の異なる一連の終点階層画像が生成される。始点階層画像、終点階層画像とは、それぞれ始点画像、終点画像を階層化して得られる画像群をいい、それぞれ最低２枚の画像からなる。つぎに第三工程において、始点階層画像と終点階層画像のマッチングが解像度レベルの階層の中で計算される。この態様によれば、多重解像度フィルタによって特異点に関連する画像の特徴が抽出され、および／または明確化されるため、マッチングが容易になる。マッチングのための拘束条件は特に必要としない。

前提技術のさらに別の態様も始点画像と終点画像のマッチングに関する。この態様では、予め複数のマッチング評価項目のそれぞれに関して評価式を設け、それらの評価式を統合して総合評価式を定義し、その総合評価式の極値付近に注目して最適マッチングを探索する。総合評価式は、評価式の少なくもひとつに係数パラメータを掛けたうえでそれらの評価式の総和として定義してもよく、その場合、総合評価式またはいずれかの評価式がほぼ極値をとる状態を検出して前記パラメータを決定してもよい。「極値付近」または「ほぼ極値をとる」としたのは、多少誤差を含んでいてもよいためである。多少の誤差は前提技術にはさして問題とならない。

極値自体も前記パラメータに依存するため、極値の挙動、つまり極値の変化の様子をもとに、最適と考えられるパラメータを決定する余地が生じる。この態様はその事実を利用している。この態様によれば、元来調整の困難なパラメータの決定を自動化する途が拓かれる。

[前提技術の実施の形態]
最初に［１］で前提技術の要素技術の詳述し、［２］で処理手順を具体的に説明する。さらに［３］で実験の結果を報告する。

［１］要素技術の詳細
［１．１］イントロダクション
特異点フィルタと呼ばれる新たな多重解像度フィルタを導入し、画像間のマッチングを正確に計算する。オブジェクトに関する予備知識は一切不要である。画像間のマッチングの計算は、解像度の階層を進む間、各解像度において計算される。その際、粗いレベルから精細なレベルへと順に解像度の階層を辿っていく。計算に必要なパラメータは、人間の視覚システムに似た動的計算によって完全に自動設定される。画像間の対応点を人手で特定する必要はない。

本前提技術は、例えば完全に自動的なモーフィング、物体認識、立体写真測量、ボリュームレンダリング、少ないフレームからの滑らかな動画像の生成などに応用できる。モーフィングに用いる場合、与えられた画像を自動的に変形することができる。ボリュームレンダリングに用いる場合、断面間の中間的な画像を正確に再構築することができる。断面間の距離が遠く、断面の形状が大きく変化する場合でも同様である。

［１．２］特異点フィルタの階層
前提技術に係る多重解像度特異点フィルタは、画像の解像度を落としながら、しかも画像に含まれる各特異点の輝度及び位置を保存することができる。ここで画像の幅をＮ、高さをＭとする。以下簡単のため、Ｎ＝Ｍ＝２ｎ（ｎは自然数）と仮定する。また、区間［０，Ｎ］⊂ＲをＩと記述する。（ｉ，ｊ）における画像の画素をｐ（ｉ，ｊ）と記述する（ｉ，ｊ∈Ｉ）。

ここで多重解像度の階層を導入する。階層化された画像群は多重解像度フィルタで生成される。多重解像度フィルタは、もとの画像に対して二次元的な探索を行って特異点を検出し、検出された特異点を抽出してもとの画像よりも解像度の低い別の画像を生成する。ここで第ｍレベルにおける各画像のサイズは２ｍ×２ｍ（０≦ｍ≦ｎ）とする。特異点フィルタは次の４種類の新たな階層画像をｎから下がる方向で再帰的に構築する。

ただしここで、

とする。以降これら４つの画像を副画像（サブイメージ）と呼ぶ。ｍｉｎｘ≦ｔ≦ｘ＋１、ｍａｘｘ≦ｔ≦ｘ＋１をそれぞれα及びβと記述すると、副画像はそれぞれ以下のように記述できる。

Ｐ（ｍ，０）＝α（ｘ）α（ｙ）ｐ（ｍ＋１，０）
Ｐ（ｍ，１）＝α（ｘ）β（ｙ）ｐ（ｍ＋１，１）
Ｐ（ｍ，２）＝β（ｘ）α（ｙ）ｐ（ｍ＋１，２）
Ｐ（ｍ，３）＝β（ｘ）β（ｙ）ｐ（ｍ＋１，３）
すなわち、これらはαとβのテンソル積のようなものと考えられる。副画像はそれぞれ特異点に対応している。これらの式から明らかなように、特異点フィルタはもとの画像について２×２画素で構成されるブロックごとに特異点を検出する。その際、各ブロックのふたつの方向、つまり縦と横について、最大画素値または最小画素値をもつ点を探索する。画素値として、前提技術では輝度を採用するが、画像に関するいろいろな数値を採用することができる。ふたつの方向の両方について最大画素値となる画素は極大点、ふたつの方向の両方について最小画素値となる画素は極小点、ふたつの方向の一方について最大画素値となるとともに、他方について最小画素値となる画素は鞍点として検出される。

特異点フィルタは、各ブロックの内部で検出された特異点の画像（ここでは１画素）でそのブロックの画像（ここでは４画素）を代表させることにより、画像の解像度を落とす。特異点の理論的な観点からすれば、α（ｘ）α（ｙ）は極小点を保存し、β（ｘ）β（ｙ）は極大点を保存し、α（ｘ）β（ｙ）及びβ（ｘ）α（ｙ）は鞍点を保存する。

はじめに、マッチングをとるべき始点（ソース）画像と終点（デスティネーション）画像に対して別々に特異点フィルタ処理を施し、それぞれ一連の画像群、すなわち始点階層画像と終点階層画像を生成しておく。始点階層画像と終点階層画像は、特異点の種類に対応してそれぞれ４種類ずつ生成される。

この後、一連の解像度レベルの中で始点階層画像と終点階層画像のマッチングがとれらていく。まずｐ（ｍ，０）を用いて極小点のマッチングがとられる。次に、その結果に基づき、ｐ（ｍ，１）を用いて鞍点のマッチングがとられ、ｐ（ｍ，２）を用いて他の鞍点のマッチングがとられる。そして最後にｐ（ｍ，３）を用いて極大点のマッチングがとられる。

図１（ｃ）と図１（ｄ）はそれぞれ図１（ａ）と図１（ｂ）の副画像ｐ（５，０）を示している。同様に、図１（ｅ）と図１（ｆ）はｐ（５，１）、図１（ｇ）と図１（ｈ）はｐ（５，２）、図１（ｉ）と図１（ｊ）はｐ（５，３）をそれぞれ示している。これらの図からわかるとおり、副画像によれば画像の特徴部分のマッチングが容易になる。まずｐ（５，０）によって目が明確になる。目は顔の中で輝度の極小点だからである。ｐ（５，１）によれば口が明確になる。口は横方向で輝度が低いためである。ｐ（５，２）によれば首の両側の縦線が明確になる。最後に、ｐ（５，３）によって耳や頬の最も明るい点が明確になる。これらは輝度の極大点だからである。

特異点フィルタによれば画像の特徴が抽出できるため、例えばカメラで撮影された画像の特徴と、予め記録しておいたいくつかのオブジェクトの特徴を比較することにより、カメラに映った被写体を識別することができる。

［１．３］画像間の写像の計算
始点画像の位置（ｉ，ｊ）の画素をｐ（ｎ）（ｉ，ｊ）と書き、同じく終点画像の位置（ｋ，ｌ）の画素をｑ（ｎ）（ｋ，ｌ）で記述する。ｉ，ｊ，ｋ，ｌ∈Ｉとする。画像間の写像のエネルギー（後述）を定義する。このエネルギーは、始点画像の画素の輝度と終点画像の対応する画素の輝度の差、及び写像の滑らかさによって決まる。最初に最小のエネルギーを持つｐ（ｍ，０）とｑ（ｍ，０）間の写像ｆ（ｍ，０）：ｐ（ｍ，０）→ｑ（ｍ，０）が計算される。ｆ（ｍ，０）に基づき、最小エネルギーを持つｐ（ｍ，１）、ｑ（ｍ，１）間の写像ｆ（ｍ，１）が計算される。この手続は、ｐ（ｍ，３）とｑ（ｍ，３）の間の写像ｆ（ｍ，３）の計算が終了するまで続く。各写像ｆ（ｍ，ｉ）（ｉ＝０，１，２，…）を副写像と呼ぶことにする。ｆ（ｍ，ｉ）の計算の都合のために、ｉの順序は次式のように並べ替えることができる。並べ替えが必要な理由は後述する。

ここでσ（ｉ）∈｛０，１，２，３｝である。

［１．３．１］全単射
始点画像と終点画像の間のマッチングを写像で表現する場合、その写像は両画像間で全単射条件を満たすべきである。両画像に概念上の優劣はなく、互いの画素が全射かつ単射で接続されるべきだからである。しかしながら通常の場合とは異なり、ここで構築すべき写像は全単射のディジタル版である。前提技術では、画素は格子点によって特定される。

始点副画像（始点画像について設けられた副画像）から終点副画像（終点画像について設けられた副画像）への写像は、ｆ（ｍ，ｓ）：Ｉ／２ｎ−ｍ×Ｉ／２ｎ−ｍ→Ｉ／２ｎ−ｍ×Ｉ／２ｎ−ｍ（ｓ＝０，１，…）によって表される。ここで、ｆ（ｍ，ｓ）（ｉ，ｊ）＝（ｋ，ｌ）は、始点画像のｐ（ｍ，ｓ）（ｉ，ｊ）が終点画像のｑ（ｍ，ｓ）（ｋ，ｌ）に写像されることを意味する。簡単のために、ｆ（ｉ，ｊ）＝（ｋ，ｌ）が成り立つとき画素ｑ（ｋ，ｌ）をｑｆ（ｉ，ｊ）と記述する。

前提技術で扱う画素（格子点）のようにデータが離散的な場合、全単射の定義は重要である。ここでは以下のように定義する（ｉ，ｉ’，ｊ，ｊ’，ｋ，ｌは全て整数とする）。まず始めに、始点画像の平面においてＲによって表記される各正方形領域、

を考える（ｉ＝０，…，２ｍ−１、ｊ＝０，…，２ｍ−１）。ここでＲの各辺（エッジ）の方向を以下のように定める。

この正方形は写像ｆによって終点画像平面における四辺形に写像されなければならない。ｆ（ｍ，ｓ）（Ｒ）によって示される四辺形、

は、以下の全単射条件を満たす必要がある。

１．四辺形ｆ（ｍ，ｓ）（Ｒ）のエッジは互いに交差しない。
２．ｆ（ｍ，ｓ）（Ｒ）のエッジの方向はＲのそれらに等しい（図２の場合、時計回り）。
３．緩和条件として収縮写像（リトラクション：retractions）を許す。

何らかの緩和条件を設けないかぎり、全単射条件を完全に満たす写像は単位写像しかないためである。ここではｆ（ｍ，ｓ）（Ｒ）のひとつのエッジの長さが０、すなわちｆ（ｍ，ｓ）（Ｒ）は三角形になってもよい。しかし、面積が０となるような図形、すなわち１点または１本の線分になってはならない。図２（Ｒ）がもとの四辺形の場合、図２（Ａ）と図２（Ｄ）は全単射条件を満たすが、図２（Ｂ）、図２（Ｃ）、図２（Ｅ）は満たさない。

実際のインプリメンテーションでは、写像が全射であることを容易に保証すべく、さらに以下の条件を課してもよい。つまり始点画像の境界上の各画素は、終点画像において同じ位置を占める画素に写影されるというものである。すなわち、ｆ（ｉ，ｊ）＝（ｉ，ｊ）（ただしｉ＝０，ｉ＝２ｍ−１，ｊ＝０，ｊ＝２ｍ−１の４本の線上）である。この条件を以下「付加条件」とも呼ぶ。

［１．３．２］写像のエネルギー
［１．３．２．１］画素の輝度に関するコスト
写像ｆのエネルギーを定義する。エネルギーが最小になる写像を探すことが目的である。エネルギーは主に、始点画像の画素の輝度とそれに対応する終点画像の画素の輝度の差で決まる。すなわち、写像ｆ（ｍ，ｓ）の点（ｉ，ｊ）におけるエネルギーＣ（ｍ，ｓ）（ｉ，ｊ）は次式によって定まる。

ここで、Ｖ（ｐ（ｍ，ｓ）（ｉ，ｊ））及びＶ（ｑ（ｍ，ｓ）ｆ（ｉ，ｊ））はそれぞれ画素ｐ（ｍ，ｓ）（ｉ，ｊ）及びｑ（ｍ，ｓ）ｆ（ｉ，ｊ）の輝度である。ｆのトータルのエネルギーＣ（ｍ，ｓ）は、マッチングを評価するひとつの評価式であり、つぎに示すＣ（ｍ，ｓ）（ｉ，ｊ）の合計で定義できる。

［１．３．２．２］滑らかな写像のための画素の位置に関するコスト
滑らかな写像を得るために、写像に関する別のエネルギーＤｆを導入する。このエネルギーは画素の輝度とは関係なく、ｐ（ｍ，ｓ）（ｉ，ｊ）およびｑ（ｍ，ｓ）ｆ（ｉ，ｊ）の位置によって決まる（ｉ＝０，…，２ｍ−１，ｊ＝０，…，２ｍ−１）。点（ｉ，ｊ）における写像ｆ（ｍ，ｓ）のエネルギーＤ（ｍ，ｓ）（ｉ，ｊ）は次式で定義される。

ただし、係数パラメータηは０以上の実数であり、また、

とする。ここで、

であり、ｉ’＜０およびｊ’＜０に対してｆ（ｉ’，ｊ’）は０と決める。Ｅ０は（ｉ，ｊ）及びｆ（ｉ，ｊ）の距離で決まる。Ｅ０は画素があまりにも離れた画素へ写影されることを防ぐ。ただしＥ０は、後に別のエネルギー関数で置き換える。Ｅ１は写像の滑らかさを保証する。Ｅ１は、ｐ（ｉ，ｊ）の変位とその隣接点の変位の間の隔たりを表す。以上の考察をもとに、マッチングを評価する別の評価式であるエネルギーＤｆは次式で定まる。

［１．３．２．３］写像の総エネルギー
写像の総エネルギー、すなわち複数の評価式の統合に係る総合評価式はλＣ（ｍ，ｓ）ｆ＋Ｄ（ｍ，ｓ）ｆで定義される。ここで係数パラメータλは０以上の実数である。目的は総合評価式が極値をとる状態を検出すること、すなわち次式で示す最小エネルギーを与える写像を見いだすことである。

λ＝０及びη＝０の場合、写像は単位写像になることに注意すべきである（すなわち、全てのｉ＝０，…，２ｍ−１及びｊ＝０，…，２ｍ−１に対してｆ（ｍ，ｓ）（ｉ，ｊ）＝（ｉ，ｊ）となる）。後述のごとく、本前提技術では最初にλ＝０及びη＝０の場合を評価するため、写像を単位写像から徐々に変形していくことができる。仮に総合評価式のλの位置を変えてＣ（ｍ，ｓ）ｆ＋λＤ（ｍ，ｓ）ｆと定義したとすれば、λ＝０及びη＝０の場合に総合評価式がＣ（ｍ，ｓ）ｆだけになり、本来何等関連のない画素どうしが単に輝度が近いというだけで対応づけられ、写像が無意味なものになる。そうした無意味な写像をもとに写像を変形していってもまったく意味をなさない。このため、単位写像が評価の開始時点で最良の写像として選択されるよう係数パラメータの与えかたが配慮されている。

オプティカルフローもこの前提技術同様、画素の輝度の差と滑らかさを考慮する。しかし、オプティカルフローは画像の変換に用いることはできない。オブジェクトの局所的な動きしか考慮しないためである。前提技術に係る特異点フィルタを用いることによって大域的な対応関係を検出することができる。

［１．３．３］多重解像度の導入による写像の決定
最小エネルギーを与え、全単射条件を満足する写像ｆｍｉｎを多重解像度の階層を用いて求める。各解像度レベルにおいて始点副画像及び終点副画像間の写像を計算する。解像度の階層の最上位（最も粗いレベル）からスタートし、各解像度レベルの写像を、他のレベルの写像を考慮に入れながら決定する。各レベルにおける写像の候補の数は、より高い、つまりより粗いレベルの写像を用いることによって制限される。より具体的には、あるレベルにおける写像の決定に際し、それよりひとつ粗いレベルにおいて求められた写像が一種の拘束条件として課される。

まず、

が成り立つとき、ｐ（ｍ−１，ｓ）（ｉ’，ｊ’）、ｑ（ｍ−１，ｓ）（ｉ’，ｊ’）をそれぞれｐ（ｍ，ｓ）（ｉ，ｊ）、ｑ（ｍ，ｓ）（ｉ，ｊ）のｐａｒｅｎｔと呼ぶことにする。［ｘ］はｘを越えない最大整数である。またｐ（ｍ，ｓ）（ｉ，ｊ）、ｑ（ｍ，ｓ）（ｉ，ｊ）をそれぞれｐ（ｍ−１，ｓ）（ｉ’，ｊ’）、ｑ（ｍ−１，ｓ）（ｉ’，ｊ’）のｃｈｉｌｄと呼ぶ。関数ｐａｒｅｎｔ（ｉ，ｊ）は次式で定義される。

ｐ（ｍ，ｓ）（ｉ，ｊ）とｑ（ｍ，ｓ）（ｋ，ｌ）の間の写像ｆ（ｍ，ｓ）は、エネルギー計算を行って最小になったものを見つけることで決定される。ｆ（ｍ，ｓ）（ｉ，ｊ）＝（ｋ，ｌ）の値はｆ（ｍ−１，ｓ）（ｍ＝１，２，…，ｎ）を用いることによって、以下のように決定される。まず、ｑ（ｍ，ｓ）（ｋ，ｌ）は次の四辺形の内部になければならないという条件を課し、全単射条件を満たす写像のうち現実性の高いものを絞り込む。

ただしここで、

である。こうして定めた四辺形を、以下ｐ（ｍ，ｓ）（ｉ，ｊ）の相続（inherited）四辺形と呼ぶことにする。相続四辺形の内部において、エネルギーを最小にする画素を求める。

図３は以上の手順を示している。同図において、始点画像のＡ，Ｂ，Ｃ，Ｄの画素は、第ｍ−１レベルにおいてそれぞれ終点画像のＡ’，Ｂ’，Ｃ’，Ｄ’へ写影される。画素ｐ（ｍ，ｓ）（ｉ，ｊ）は、相続四辺形Ａ’Ｂ’Ｃ’Ｄ’の内部に存在する画素ｑ（ｍ，ｓ）ｆ（ｍ）（ｉ，ｊ）へ写影されなければならない。以上の配慮により、第ｍ−１レベルの写像から第ｍレベルの写像への橋渡しがなされる。

先に定義したエネルギーＥ０は、第ｍレベルにおける副写像ｆ（ｍ，０）を計算するために、次式に置き換える。

また、副写像ｆ（ｍ，ｓ）を計算するためには次式を用いる。

こうしてすべての副写像のエネルギーを低い値に保つ写像が得られる。式２０により、異なる特異点に対応する副写像が、副写像どうしの類似度が高くなるように同一レベル内で関連づけられる。式１９は、ｆ（ｍ，ｓ）（ｉ，ｊ）と、第ｍ−１レベルの画素の一部と考えた場合の（ｉ，ｊ）が射影されるべき点の位置との距離を示している。

仮に、相続四辺形Ａ’Ｂ’Ｃ’Ｄ’の内部に全単射条件を満たす画素が存在しない場合は以下の措置をとる。まず、Ａ’Ｂ’Ｃ’Ｄ’の境界線からの距離がＬ（始めはＬ＝１）である画素を調べる。それらのうち、エネルギーが最小になるものが全単射条件を満たせば、これをｆ（ｍ，ｓ）（ｉ，ｊ）の値として選択する。そのような点が発見されるか、またはＬがその上限のＬ（ｍ）ｍａｘに到達するまで、Ｌを大きくしていく。Ｌ（ｍ）ｍａｘは各レベルｍに対して固定である。そのような点が全く発見されない場合、全単射の第３の条件を一時的に無視して変換先の四辺形の面積がゼロになるような写像も認め、ｆ（ｍ，ｓ）（ｉ，ｊ）を決定する。それでも条件を満たす点が見つからない場合、つぎに全単射の第１及び第２条件を外す。

多重解像度を用いる近似法は、写像が画像の細部に影響されることを回避しつつ、画像間の大域的な対応関係を決定するために必須である。多重解像度による近似法を用いなければ、距離の遠い画素間の対応関係を見いだすことは不可能である。その場合、画像のサイズはきわめて小さなものに限定しなければならず、変化の小さな画像しか扱うことができない。さらに、通常写像に滑らかさを要求するため、そうした画素間の対応関係を見つけにくくしている。距離のある画素から画素への写像のエネルギーは高いためである。多重解像度を用いた近似法によれば、そうした画素間の適切な対応関係を見いだすことができる。それらの距離は、解像度の階層の上位レベル（粗いレベル）において小さいためである。

［１．４］最適なパレメータ値の自動決定
既存のマッチング技術の主な欠点のひとつに、パレメータ調整の困難さがある。大抵の場合、パラメータの調整は人手作業によって行われ、最適な値を選択することはきわめて難しい。前提技術に係る方法によれば、最適なパラメータ値を完全に自動決定することができる。

前提技術に係るシステムはふたつのパレメータ、λ及びηを含む。端的にいえば、λは画素の輝度の差の重みであり、ηは写像の剛性を示している。これらのパラメータの値は初期値が０であり、まずη＝０に固定してλを０から徐々に増加させる。λの値を大きくしながら、しかも総合評価式（式１４）の値を最小にする場合、各副写像に関するＣ（ｍ，ｓ）ｆの値は一般に小さくなっていく。このことは基本的にふたつの画像がよりマッチしなければならないことを意味する。しかし、λが最適値を超えると以下の現象が発生する。

１．本来対応すべきではない画素どうしが、単に輝度が近いというだけで誤って対応づけられる。
２．その結果、画素どうしの対応関係がおかしくなり、写像がくずれはじめる。

３．その結果、式１４においてＤ（ｍ，ｓ）ｆが急激に増加しようとする。
４．その結果、式１４の値が急激に増加しようとするため、Ｄ（ｍ，ｓ）ｆの急激な増加を抑制するようｆ（ｍ，ｓ）が変化し、その結果Ｃ（ｍ，ｓ）ｆが増加する。
したがって、λを増加させながら式１４が最小値をとるという状態を維持しつつＣ（ｍ，ｓ）ｆが減少から増加に転じる閾値を検出し、そのλをη＝０における最適値とする。つぎにηを少しづつ増やしてＣ（ｍ，ｓ）ｆの挙動を検査し、後述の方法でηを自動決定する。そのηに対応してλも決まる。

この方法は、人間の視覚システムの焦点機構の動作に似ている。人間の視覚システムでは、一方の目を動かしながら左右両目の画像のマッチングがとられる。オブジェクトがはっきりと認識できるとき、その目が固定される。

［１．４．１］λの動的決定
λは０から所定の刻み幅で増加されていき、λの値が変わる度に副写像が評価される。式１４のごとく、総エネルギーはλＣ（ｍ，ｓ）ｆ＋Ｄ（ｍ，ｓ）ｆによって定義される。式９のＤ（ｍ，ｓ）ｆは滑らかさを表すもので、理論的には単位写像の場合に最小になり、写像が歪むほどＥ０もＥ１も増加していく。Ｅ１は整数であるから、Ｄ（ｍ，ｓ）ｆの最小刻み幅は１である。このため、現在のλＣ（ｍ，ｓ）（ｉ，ｊ）の変化（減少量）が１以上でなければ、写像を変化させることによって総エネルギーを減らすことはできない。なぜなら、写像の変化に伴ってＤ（ｍ，ｓ）ｆは１以上増加するため、λＣ（ｍ，ｓ）（ｉ，ｊ）が１以上減少しない限り総エネルギーは減らないためである。

この条件のもと、λの増加に伴い、正常な場合にＣ（ｍ，ｓ）（ｉ，ｊ）が減少することを示す。Ｃ（ｍ，ｓ）（ｉ，ｊ）のヒストグラムをｈ（ｌ）と記述する。ｈ（ｌ）はエネルギーＣ（ｍ，ｓ）（ｉ，ｊ）がｌ２である画素の数である。λｌ２≧１が成り立つために、例えばｌ２＝１／λの場合を考える。λがλ１からλ２まで微小量変化するとき、

で示されるＡ個の画素が、

のエネルギーを持つより安定的な状態に変化する。ここでは仮に、これらの画素のエネルギーがすべてゼロになると近似している。この式はＣ（ｍ，ｓ）ｆの値が、

だけ変化することを示し、その結果、

が成立する。ｈ（ｌ）＞０であるから、通常Ｃ（ｍ，ｓ）ｆは減少する。しかし、λが最適値を越えようとするとき、上述の現象、つまりＣ（ｍ，ｓ）ｆの増加が発生する。この現象を検出することにより、λの最適値を決定する。

なお、Ｈ（ｈ＞０）及びｋを定数とするとき、

と仮定すれば、

が成り立つ。このときｋ≠−３であれば、

となる。これがＣ（ｍ，ｓ）ｆの一般式である（Ｃは定数）。

λの最適値を検出する際、さらに安全を見て、全単射条件を破る画素の数を検査してもよい。ここで各画素の写像を決定する際、全単射条件を破る確率をｐ０と仮定する。この場合、

が成立しているため、全単射条件を破る画素の数は次式の率で増加する。

従って、

は定数である。仮にｈ（ｌ）＝Ｈｌｋを仮定するとき、例えば、

は定数になる。しかしλが最適値を越えると、上の値は急速に増加する。この現象を検出し、Ｂ０λ３／２＋ｋ／２／２ｍの値が異常値Ｂ０ｔｈｒｅｓを越えるかどうかを検査し、λの最適値を決定することができる。同様に、Ｂ１λ３／２＋ｋ／２／２ｍの値が異常値Ｂ１ｔｈｒｅｓを越えるかどうかを検査することにより、全単射の第３の条件を破る画素の増加率Ｂ１を確認する。ファクター２ｍを導入する理由は後述する。このシステムはこれら２つの閾値に敏感ではない。これらの閾値は、エネルギーＣ（ｍ，ｓ）ｆの観察では検出し損なった写像の過度の歪みを検出するために用いることができる。

なお実験では、副写像ｆ（ｍ，ｓ）を計算する際、もしλが０．１を越えたらｆ（ｍ，ｓ）の計算は止めてｆ（ｍ，ｓ＋１）の計算に移行した。λ＞０．１のとき、画素の輝度２５５レベル中のわずか「３」の違いが副写像の計算に影響したためであり、λ＞０．１のとき正しい結果を得ることは困難だったためである。

［１．４．２］ヒストグラムｈ（ｌ）
Ｃ（ｍ，ｓ）ｆの検査はヒストグラムｈ（ｌ）に依存しない。全単射及びその第３の条件の検査の際、ｈ（ｌ）に影響を受けうる。実際に（λ，Ｃ（ｍ，ｓ）ｆ）をプロットすると、ｋは通常１付近にある。実験ではｋ＝１を用い、Ｂ０λ２とＢ１λ２を検査した。仮にｋの本当の値が１未満であれば、Ｂ０λ２とＢ１λ２は定数にならず、ファクターλ（１−ｋ）／２に従って徐々に増加する。ｈ（ｌ）が定数であれば、例えばファクターはλ１／２である。しかし、こうした差は閾値Ｂ０ｔｈｒｅｓを正しく設定することによって吸収することができる。

ここで次式のごとく始点画像を中心が（ｘ０，ｙ０）、半径ｒの円形のオブジェクトであると仮定する。

一方、終点画像は、次式のごとく中心（ｘ１，ｙ１）、半径がｒのオブジェクトであるとする。

ここでｃ（ｘ）はｃ（ｘ）＝ｘｋの形であるとする。中心（ｘ０，ｙ０）及び（ｘ１，ｙ１）が十分遠い場合、ヒストグラムｈ（ｌ）は次式の形となる。

ｋ＝１のとき、画像は背景に埋め込まれた鮮明な境界線を持つオブジェクトを示す。このオブジェクトは中心が暗く、周囲にいくに従って明るくなる。ｋ＝−１のとき、画像は曖昧な境界線を持つオブジェクトを表す。このオブジェクトは中心が最も明るく、周囲にいくに従って暗くなる。一般のオブジェクトはこれらふたつのタイプのオブジェクトの中間にあると考えてもさして一般性を失わない。したがって、ｋは−１≦ｋ≦１として大抵の場合をカバーでき、式２７が一般に減少関数であることが保障される。

なお、式３４からわかるように、ｒは画像の解像度に影響されること、すなわちｒは２ｍに比例することに注意すべきである。このために［１．４．１］においてファクター２ｍを導入した。

［１．４．３］ηの動的決定
パラメータηも同様の方法で自動決定できる。はじめにη＝０とし、最も細かい解像度における最終的な写像ｆ（ｎ）及びエネルギーＣ（ｎ）ｆを計算する。つづいて、ηをある値Δηだけ増加させ、再び最も細かい解像度における最終写像ｆ（ｎ）及びエネルギーＣ（ｎ）ｆを計算し直す。この過程を最適値が求まるまで続ける。ηは写像の剛性を示す。次式の重みだからである。

ηが０のとき、Ｄ（ｎ）ｆは直前の副写像と無関係に決定され、現在の副写像は弾性的に変形され、過度に歪むことになる。一方、ηが非常に大きな値のとき、Ｄ（ｎ）ｆは直前の副写像によってほぼ完全に決まる。このとき副写像は非常に剛性が高く、画素は同じ場所に射影される。その結果、写像は単位写像になる。ηの値が０から次第に増えるとき、後述のごとくＣ（ｎ）ｆは徐々に減少する。しかしηの値が最適値を越えると、図４に示すとおり、エネルギーは増加し始める。同図のＸ軸はη、Ｙ軸はＣｆである。

この方法でＣ（ｎ）ｆを最小にする最適なηの値を得ることができる。しかし、λの場合に比べていろいろな要素が計算に影響する結果、Ｃ（ｎ）ｆは小さく揺らぎながら変化する。λの場合は、入力が微小量変化するたびに副写像を１回計算しなおすだけだが、ηの場合はすべての副写像が計算しなおされるためである。このため、得られたＣ（ｎ）ｆの値が最小であるかどうかを即座に判断することはできない。最小値の候補が見つかれば、さらに細かい区間を設定することによって真の最小値を探す必要がある。

［１．５］スーパーサンプリング
画素間の対応関係を決定する際、自由度を増やすために、ｆ（ｍ，ｓ）の値域をＲ×Ｒに拡張することができる（Ｒは実数の集合）。この場合、終点画像の画素の輝度が補間され、非整数点、

における輝度を持つｆ（ｍ，ｓ）が提供される。つまりスーパーサンプリングが行われる。実験では、ｆ（ｍ，ｓ）は整数及び半整数値をとることが許され、

は、

によって与えられた。

［１．６］各画像の画素の輝度の正規化
始点画像と終点画像がきわめて異なるオブジェクトを含んでいるとき、写像の計算に元の画素の輝度がそのままでは利用しにくい。輝度の差が大きいために輝度に関するエネルギーＣ（ｍ，ｓ）ｆが大きくなりすぎ、正しい評価がしずらいためである。

例えば、人の顔と猫の顔のマッチングをとる場合を考える。猫の顔は毛で覆われており、非常に明るい画素と非常に暗い画素が混じっている。この場合、ふたつの顔の間の副写像を計算するために、まず副画像を正規化する。すなわち、最も暗い画素の輝度を０、最も明るいそれを２５５に設定し、他の画素の輝度は線形補間によって求めておく。

［１．７］インプリメンテーション
始点画像のスキャンに従って計算がリニアに進行する帰納的な方法を用いる。始めに、１番上の左端の画素（ｉ，ｊ）＝（０，０）についてｆ（ｍ，ｓ）の値を決定する。次にｉを１ずつ増やしながら各ｆ（ｍ，ｓ）（ｉ，ｊ）の値を決定する。ｉの値が画像の幅に到達したとき、ｊの値を１増やし、ｉを０に戻す。以降、始点画像のスキャンに伴いｆ（ｍ，ｓ）（ｉ，ｊ）を決定していく。すべての点について画素の対応が決まれば、ひとつの写像ｆ（ｍ，ｓ）が決まる。

あるｐ（ｉ，ｊ）について対応点ｑｆ（ｉ，ｊ）が決まれば、つぎにｐ（ｉ，ｊ＋１）の対応点ｑｆ（ｉ，ｊ＋１）が決められる。この際、ｑｆ（ｉ，ｊ＋１）の位置は全単射条件を満たすために、ｑｆ（ｉ，ｊ）の位置によって制限される。したがって、先に対応点が決まる点ほどこのシステムでは優先度が高くなる。つねに（０，０）が最も優先される状態がつづくと、求められる最終の写像に余計な偏向が加わる。本前提技術ではこの状態を回避するために、ｆ（ｍ，ｓ）を以下の方法で決めていく。

まず（ｓｍｏｄ４）が０の場合、（０，０）を開始点としｉ及びｊを徐々に増やしながら決めていく。（ｓｍｏｄ４）が１の場合、最上行の右端点を開始点とし、ｉを減少、ｊを増加させながら決めていく。（ｓｍｏｄ４）が２のとき、最下行の右端点を開始点とし、ｉ及びｊを減少させながら決めていく。（ｓｍｏｄ４）が３の場合、最下行の左端点を開始点とし、ｉを増加、ｊを減少させながら決めていく。解像度が最も細かい第ｎレベルには副写像という概念、すなわちパラメータｓが存在しないため、仮にｓ＝０及びｓ＝２であるとしてふたつの方向を連続的に計算した。

実際のインプリメンテーションでは、全単射条件を破る候補に対してペナルティを与えることにより、候補（ｋ，ｌ）の中からできる限り全単射条件を満たすｆ（ｍ，ｓ）（ｉ，ｊ）（ｍ＝０，…，ｎ）の値を選んだ。第３の条件を破る候補のエネルギーＤ（ｋ、ｌ）にはφを掛け、一方、第１または第２の条件を破る候補にはψを掛ける。今回はφ＝２、ψ＝１０００００を用いた。

前述の全単射条件のチェックのために、実際の手続として（ｋ，ｌ）＝ｆ（ｍ，ｓ）（ｉ，ｊ）を決定する際に以下のテストを行った。すなわちｆ（ｍ，ｓ）（ｉ，ｊ）の相続四辺形に含まれる各格子点（ｋ，ｌ）に対し、次式の外積のｚ成分が０以上になるかどうかを確かめる。

ただしここで、

である（ここでベクトルは三次元ベクトルとし、ｚ軸は直交右手座標系において定義される）。もしＷが負であれば、その候補についてはＤ（ｍ，ｓ）（ｋ，ｌ）にψを掛けることによってペナルティを与え、できるかぎり選択しないようにする。

図５（ａ）、図５（ｂ）はこの条件を検査する理由を示している。図５（ａ）はペナルティのない候補、図５（ｂ）はペナルティがある候補をそれぞれ表す。隣接画素（ｉ，ｊ＋１）に対する写像ｆ（ｍ，ｓ）（ｉ，ｊ＋１）を決定する際、Ｗのｚ成分が負であれば始点画像平面上において全単射条件を満足する画素は存在しない。なぜなら、ｑ（ｍ，ｓ）（ｋ，ｌ）は隣接する四辺形の境界線を越えるためである。

［１．７．１］副写像の順序
インプリメンテーションでは、解像度レベルが偶数のときにはσ（０）＝０、σ（１）＝１、σ（２）＝２、σ（３）＝３、σ（４）＝０を用い、奇数のときはσ（０）＝３、σ（１）＝２、σ（２）＝１、σ（３）＝０、σ（４）＝３を用いた。このことで、副写像を適度にシャッフルした。なお、本来副写像は４種類であり、ｓは０〜３のいずれかである。しかし、実際にはｓ＝４に相当する処理を行った。その理由は後述する。

［１．８］補間計算
始点画像と終点画像の間の写像が決定された後、対応しあう画素の輝度が補間される。実験では、トライリニア補間を用いた。始点画像平面における正方形ｐ（ｉ，ｊ）ｐ（ｉ＋１，ｊ）ｐ（ｉ，ｊ＋１）ｐ（ｉ＋１，ｊ＋１）が終点画像平面上の四辺形ｑｆ（ｉ，ｊ）ｑｆ（ｉ＋１，ｊ）ｑｆ（ｉ，ｊ＋１）ｑｆ（ｉ＋１，ｊ＋１）に射影されると仮定する。簡単のため、画像間の距離を１とする。始点画像平面からの距離がｔ（０≦ｔ≦１）である中間画像の画素ｒ（ｘ，ｙ，ｔ）（０≦ｘ≦Ｎ−１，０≦ｙ≦Ｍ−１）は以下の要領で求められる。まず画素ｒ（ｘ，ｙ，ｔ）の位置（ただしｘ，ｙ，ｔ∈Ｒ）を次式で求める。

つづいてｒ（ｘ，ｙ，ｔ）における画素の輝度が次の式を用いて決定される。

ここでｄｘ及びｄｙはパラメータであり、０から１まで変化する。

［１．９］拘束条件を課したときの写像
いままでは拘束条件がいっさい存在しない場合の写像の決定を述べた。しかし、始点画像と終点画像の特定の画素間に予め対応関係が規定されているとき、これを拘束条件としたうえで写像を決定することができる。

基本的な考えは、まず始点画像の特定の画素を終点画像の特定の画素に移す大まかな写像によって始点画像を大まかに変形し、しかる後、写像ｆを正確に計算する。

まず始めに、始点画像の特定の画素を終点画像の特定の画素に射影し、始点画像の他の画素を適当な位置に射影する大まかな写像を決める。すなわち、特定の画素に近い画素は、その特定の画素が射影される場所の近くに射影されるような写像である。ここで第ｍレベルの大まかな写像をＦ（ｍ）と記述する。

大まかな写像Ｆは以下の要領で決める。まず、いくつかの画素について写像を特定する。始点画像についてｎｓ個の画素、

を特定するとき、以下の値を決める。

始点画像の他の画素の変位量は、ｐ（ｉｈ，ｊｈ）（ｈ＝０，…，ｎｓ−１）の変位に重み付けをして求められる平均である。すなわち画素ｐ（ｉ，ｊ）は、終点画像の以下の画素に射影される。

ただしここで、

とする。

つづいて、Ｆ（ｍ）に近い候補写像ｆがより少ないエネルギーを持つように、その写像ｆのエネルギーＤ（ｍ，ｓ）（ｉ，ｊ）を変更する。正確には、Ｄ（ｍ，ｓ）（ｉ，ｊ）は、

である。ただし、

であり、κ，ρ≧０とする。最後に、前述の写像の自動計算プロセスにより、ｆを完全に決定する。

ここで、ｆ（ｍ，ｓ）（i,j)がＦ（ｍ）（i,j）に十分近いとき、つまりそれらの距離が、

以内であるとき、Ｅ２（ｍ，ｓ）（ｉ，ｊ）が０になることに注意すべきである。そのように定義した理由は、各ｆ（ｍ，ｓ）（i,j）がＦ（ｍ）（i,j）に十分近い限り、終点画像において適切な位置に落ち着くよう、その値を自動的に決めたいためである。この理由により、正確な対応関係を詳細に特定する必要がなく、始点画像は終点画像にマッチするように自動的にマッピングされる。

［２］具体的な処理手順
［１］の各要素技術による処理の流れを説明する。
図６は前提技術の全体手順を示すフローチャートである。同図のごとく、まず多重解像度特異点フィルタを用いた処理を行い（Ｓ１）、つづいて始点画像と終点画像のマッチングをとる（Ｓ２）。ただし、Ｓ２は必須ではなく、Ｓ１で得られた画像の特徴をもとに画像認識などの処理を行ってもよい。

図７は図６のＳ１の詳細を示すフローチャートである。ここではＳ２で始点画像と終点画像のマッチングをとることを前提としている。そのため、まず特異点フィルタによって始点画像の階層化を行い（Ｓ１０）、一連の始点階層画像を得る。つづいて同様の方法で終点画像の階層化を行い（Ｓ１１）、一連の終点階層画像を得る。ただし、Ｓ１０とＳ１１の順序は任意であるし、始点階層画像と終点階層画像を並行して生成していくこともできる。

図８は図７のＳ１０の詳細を示すフローチャートである。もとの始点画像のサイズは２ｎ×２ｎとする。始点階層画像は解像度が細かいほうから順に作られるため、処理の対象となる解像度レベルを示すパラメータｍをｎにセットする（Ｓ１００）。つづいて第ｍレベルの画像ｐ（ｍ，０）、ｐ（ｍ，１）、ｐ（ｍ，２）、ｐ（ｍ，３）から特異点フィルタを用いて特異点を検出し（Ｓ１０１）、それぞれ第ｍ−１レベルの画像ｐ（ｍ−１，０）、ｐ（ｍ−１，１）、ｐ（ｍ−１，２）、ｐ（ｍ−１，３）を生成する（Ｓ１０２）。ここではｍ＝ｎであるため、ｐ（ｍ，０）＝ｐ（ｍ，１）＝ｐ（ｍ，２）＝ｐ（ｍ，３）＝ｐ（ｎ）であり、ひとつの始点画像から４種類の副画像が生成される。

図９は第ｍレベルの画像の一部と、第ｍ−１レベルの画像の一部の対応関係を示している。同図の数値は各画素の輝度を示す。同図のｐ（ｍ，ｓ）はｐ（ｍ，０）〜ｐ（ｍ，３）の４つの画像を象徴するもので、ｐ（ｍ−１，０）を生成する場合には、ｐ（ｍ，ｓ）はｐ（ｍ，０）であると考える。［１．２］で示した規則により、ｐ（ｍ−１，０）は例えば同図で輝度を記入したブロックについて、そこに含まれる４画素のうち「３」、ｐ（ｍ−１，１）は「８」、ｐ（ｍ−１，２）は「６」、ｐ（ｍ−１，３）を「１０」をそれぞれ取得し、このブロックをそれぞれ取得したひとつの画素で置き換える。したがって、第ｍ−１レベルの副画像のサイズは２ｍ−１×２ｍ−１になる。

つづいてｍをデクリメントし（図８のＳ１０３）、ｍが負になっていないことを確認し（Ｓ１０４）、Ｓ１０１に戻ってつぎに解像度の粗い副画像を生成していく。この繰り返し処理の結果、ｍ＝０、すなわち第０レベルの副画像が生成された時点でＳ１０が終了する。第０レベルの副画像のサイズは１×１である。

図１０はＳ１０によって生成された始点階層画像をｎ＝３の場合について例示している。最初の始点画像のみが４つの系列に共通であり、以降特異点の種類に応じてそれぞれ独立に副画像が生成されていく。なお、図８の処理は図７のＳ１１にも共通であり、同様の手順を経て終点階層画像も生成される。以上で図６のＳ１による処理が完了する。

前提技術では、図６のＳ２に進むためにマッチング評価の準備をする。図１１はその手順を示している。同図のごとく、まず複数の評価式が設定される（Ｓ３０）。［１．３．２．１］で導入した画素に関するエネルギーＣ（ｍ，ｓ）ｆと［１．３．２．２］で導入した写像の滑らかさに関するエネルギーＤ（ｍ，ｓ）ｆがそれである。つぎに、これらの評価式を統合して総合評価式を立てる（Ｓ３１）。［１．３．２．３］で導入した総エネルギーλＣ（ｍ，ｓ）ｆ＋Ｄ（ｍ，ｓ）ｆがそれであり、［１．３．２．２］で導入したηを用いれば、
ΣΣ（λＣ（ｍ，ｓ）（ｉ，ｊ）＋ηＥ０（ｍ，ｓ）（ｉ，ｊ）＋Ｅ１（ｍ，ｓ）（ｉ，ｊ））（式５２）
となる。ただし、総和はｉ、ｊについてそれぞれ０、１…、２ｍ−１で計算する。以上でマッチング評価の準備が整う。

図１２は図６のＳ２の詳細を示すフローチャートである。［１］で述べたごとく、始点階層画像と終点階層画像のマッチングは互いに同じ解像度レベルの画像どうしでとられる。画像間の大域的なマッチングを良好にとるために、解像度が粗いレベルから順にマッチングを計算する。特異点フィルタを用いて始点階層画像および終点階層画像を生成しているため、特異点の位置や輝度は解像度の粗いレベルでも明確に保存されており、大域的なマッチングの結果は従来に比べて非常に優れたものになる。

図１２のごとく、まず係数パラメータηを０、レベルパラメータｍを０に設定する（Ｓ２０）。つづいて、始点階層画像中の第ｍレベルの４つの副画像と終点階層画像中の第ｍレベルの４つの副画像のそれぞれの間でマッチングを計算し、それぞれ全単射条件を満たし、かつエネルギーを最小にするような４種類の副写像ｆ（ｍ，ｓ）（ｓ＝０，１，２，３）を求める（Ｓ２１）。全単射条件は［１．３．３］で述べた相続四辺形を用いて検査される。この際、式１７、１８が示すように、第ｍレベルにおける副写像は第ｍ−１レベルのそれらに拘束されるため、より解像度の粗いレベルにおけるマッチングが順次利用されていく。これは異なるレベル間の垂直的参照である。なお、いまｍ＝０であってそれより粗いレベルはないが、この例外的な処理は図１３で後述する。

一方、同一レベル内における水平的参照も行われる。［１．３．３］の式２０のごとく、ｆ（ｍ，３）はｆ（ｍ，２）に、ｆ（ｍ，２）はｆ（ｍ，１）に、ｆ（ｍ，１）はｆ（ｍ，０）に、それぞれ類似するように決める。その理由は、特異点の種類が違っても、それらがもともと同じ始点画像と終点画像に含まれている以上、副写像がまったく異なるという状況は不自然だからである。式２０からわかるように、副写像どうしが近いほどエネルギーは小さくなり、マッチングが良好とみなされる。

なお、最初に決めるべきｆ（ｍ，０）については同一のレベルで参照できる副写像がないため、式１９に示すごとくひとつ粗いレベルを参照する。ただし、実験ではｆ（ｍ，３）まで求まった後、これを拘束条件としてｆ（ｍ，０）を一回更新するという手続をとった。これは式２０にｓ＝４を代入し、ｆ（ｍ，４）を新たなｆ（ｍ，０）とすることに等しい。ｆ（ｍ，０）とｆ（ｍ，３）の関連度が低くなり過ぎる傾向を回避するためであり、この措置によって実験結果がより良好になった。この措置に加え、実験では［１．７．１］に示す副写像のシャッフルも行った。これも本来特異点の種類ごとに決まる副写像どうしの関連度を密接に保つ趣旨である。また、処理の開始点に依存する偏向を回避するために、ｓの値にしたがって開始点の位置を変える点は［１．７］で述べたとおりである。

図１３は第０レベルにおいて副写像を決定する様子を示す図である。第０レベルでは各副画像がただひとつの画素で構成されるため、４つの副写像ｆ（０，ｓ）はすべて自動的に単位写像に決まる。図１４は第１レベルにおいて副写像を決定する様子を示す図である。第１レベルでは副画像がそれぞれ４画素で構成される。同図ではこれら４画素が実線で示されている。いま、ｐ（１，ｓ）の点ｘの対応点をｑ（１，ｓ）の中で探すとき、以下の手順を踏む。

１．第１レベルの解像度で点ｘの左上点ａ、右上点ｂ、左下点ｃ、右下点ｄを求める。
２．点ａ〜ｄがひとつ粗いレベル、つまり第０レベルにおいて属する画素を探す。図１４の場合、点ａ〜ｄはそれぞれ画素Ａ〜Ｄに属する。ただし、画素Ａ〜Ｃは本来存在しない仮想的な画素である。
３．第０レベルですでに求まっている画素Ａ〜Ｄの対応点Ａ’〜Ｄ’をｑ（１，ｓ）の中にプロットする。画素Ａ’〜Ｃ’は仮想的な画素であり、それぞれ画素Ａ〜Ｃと同じ位置にあるものとする。
４．画素Ａの中の点ａの対応点ａ’が画素Ａ’の中にあるとみなし、点ａ’をプロットする。このとき、点ａが画素Ａの中で占める位置（この場合、右下）と、点ａ’が画素Ａ’の中で占める位置が同じであると仮定する。
５．４と同様の方法で対応点ｂ’〜ｄ’をプロットし、点ａ’〜ｄ’で相続四辺形を作る。
６．相続四辺形の中でエネルギーが最小になるよう、点ｘの対応点ｘ’を探す。対応点ｘ’の候補として、例えば画素の中心が相続四辺形に含まれるものに限定してもよい。図１４の場合、４つの画素がすべて候補になる。

以上がある点ｘの対応点の決定手順である。同様の処理を他のすべての点について行い、副写像を決める。第２レベル以上のレベルでは、次第に相続四辺形の形が崩れていくと考えられるため、図３に示すように画素Ａ’〜Ｄ’の間隔が空いていく状況が発生する。

こうして、ある第ｍレベルの４つの副写像が決まれば、ｍをインクリメントし（図１２のＳ２２）、ｍがｎを超えていないことを確かめて（Ｓ２３）、Ｓ２１に戻る。以下、Ｓ２１に戻るたびに次第に細かい解像度のレベルの副写像を求め、最後にＳ２１に戻ったときに第ｎレベルの写像ｆ（ｎ）を決める。この写像はη＝０に関して定まったものであるから、ｆ（ｎ）（η＝０）と書く。

つぎに異なるηに関する写像も求めるべく、ηをΔηだけシフトし、ｍをゼロクリアする（Ｓ２４）。新たなηが所定の探索打切り値ηｍａｘを超えていないことを確認し（Ｓ２５）、Ｓ２１に戻り、今回のηに関して写像ｆ（ｎ）（η＝Δη）を求める。この処理を繰り返し、Ｓ２１でｆ（ｎ）（η＝ｉΔη）（ｉ＝０，１，…）を求めていく。ηがηｍａｘを超えたときＳ２６に進み、後述の方法で最適なη＝ηｏｐｔを決定し、ｆ（ｎ）（η＝ηｏｐｔ）を最終的に写像ｆ（ｎ）とする。

図１５は図１２のＳ２１の詳細を示すフローチャートである。このフローチャートにより、ある定まったηについて、第ｍレベルにおける副写像が決まる。副写像を決める際、前提技術では副写像ごとに最適なλを独立して決める。

同図のごとく、まずｓとλをゼロクリアする（Ｓ２１０）。つぎに、そのときのλについて（および暗にηについて）エネルギーを最小にする副写像ｆ（ｍ，ｓ）を求め（Ｓ２１１）、これをｆ（ｍ，ｓ）（λ＝０）と書く。異なるλに関する写像も求めるべく、λをΔλだけシフトし、新たなλが所定の探索打切り値λｍａｘを超えていないことを確認し（Ｓ２１３）、Ｓ２１１に戻り、以降の繰り返し処理でｆ（ｍ，ｓ）（λ＝ｉΔλ）（ｉ＝０，１，…）を求める。λがλｍａｘを超えたときＳ２１４に進み、最適なλ＝λｏｐｔを決定し、ｆ（ｍ，ｓ）（λ＝λｏｐｔ）を最終的に写像ｆ（ｍ，ｓ）とする（Ｓ２１４）。

つぎに、同一レベルにおける他の副写像を求めるべく、λをゼロクリアし、ｓをインクリメントする（Ｓ２１５）。ｓが４を超えていないことを確認し（Ｓ２１６）、Ｓ２１１に戻る。ｓ＝４になれば上述のごとくｆ（ｍ，３）を利用してｆ（ｍ，０）を更新し、そのレベルにおける副写像の決定を終了する。

図１６は、あるｍとｓについてλを変えながら求められたｆ（ｍ，ｓ）（λ＝ｉΔλ）（ｉ＝０，１，…）に対応するエネルギーＣ（ｍ，ｓ）ｆの挙動を示す図である。［１．４］で述べたとおり、λが増加すると通常Ｃ（ｍ，ｓ）ｆは減少する。しかし、λが最適値を超えるとＣ（ｍ，ｓ）ｆは増加に転じる。そこで本前提技術ではＣ（ｍ，ｓ）ｆが極小値をとるときのλをλｏｐｔと決める。同図のようにλ＞λｏｐｔの範囲で再度Ｃ（ｍ，ｓ）ｆが小さくなっていっても、その時点ではすでに写像がくずれていて意味をなさないため、最初の極小点に注目すればよい。λｏｐｔは副写像ごとに独立して決めていき、最後にｆ（ｎ）についてもひとつ定まる。

一方、図１７は、ηを変えながら求められたｆ（ｎ）（η＝ｉΔη）（ｉ＝０，１，…）に対応するエネルギーＣ（ｎ）ｆの挙動を示す図である。ここでもηが増加すると通常Ｃ（ｎ）ｆは減少するが、ηが最適値を超えるとＣ（ｎ）ｆは増加に転じる。そこでＣ（ｎ）ｆが極小値をとるときのηをηｏｐｔと決める。図１７は図４の横軸のゼロ付近を拡大した図と考えてよい。ηｏｐｔが決まればｆ（ｎ）を最終決定することができる。

以上、本前提技術によれば種々のメリットが得られる。まずエッジを検出する必要がないため、エッジ検出タイプの従来技術の課題を解消できる。また、画像に含まれるオブジェクトに対する先験的な知識も不要であり、対応点の自動検出が実現する。特異点フィルタによれば、解像度の粗いレベルでも特異点の輝度や位置を維持することができ、オブジェクト認識、特徴抽出、画像マッチングに極めて有利である。その結果、人手作業を大幅に軽減する画像処理システムの構築が可能となる。

なお、本前提技術について次のような変形技術も考えられる。
（１）前提技術では始点階層画像と終点階層画像の間でマッチングをとる際にパラメータの自動決定を行ったが、この方法は階層画像間ではなく、通常の２枚の画像間のマッチングをとる場合全般に利用できる。

たとえば２枚の画像間で、画素の輝度の差に関するエネルギーＥ０と画素の位置的なずれに関するエネルギーＥ１のふたつを評価式とし、これらの線形和Ｅｔｏｔ＝αＥ０＋Ｅ１を総合評価式とする。この総合評価式の極値付近に注目してαを自動決定する。つまり、いろいろなαについてＥｔｏｔが最小になるような写像を求める。それらの写像のうち、αに関してＥ１が極小値をとるときのαを最適パラメータと決める。そのパラメータに対応する写像を最終的に両画像間の最適マッチングとみなす。

これ以外にも評価式の設定にはいろいろな方法があり、例えば１／Ｅ１と１／Ｅ２のように、評価結果が良好なほど大きな値をとるものを採用してもよい。総合評価式も必ずしも線形和である必要はなく、ｎ乗和（ｎ＝２、１／２、−１、−２など）、多項式、任意の関数などを適宜選択すればよい。

パラメータも、αのみ、前提技術のごとくηとλのふたつの場合、それ以上の場合など、いずれでもよい。パラメータが３以上の場合はひとつずつ変化させて決めていく。

（２）本前提技術では、総合評価式の値が最小になるよう写像を決めた後、総合評価式を構成するひとつの評価式であるＣ（ｍ，ｓ）ｆが極小になる点を検出してパラメータを決定した。しかし、こうした二段回処理の代わりに、状況によっては単に総合評価式の最小値が最小になるようにパラメータを決めても効果的である。その場合、例えばαＥ０＋βＥ１を総合評価式とし、α＋β＝１なる拘束条件を設けて各評価式を平等に扱うなどの措置を講じてもよい。パラメータの自動決定の本質は、エネルギーが最小になるようにパラメータを決めていく点にあるからである。

（３）前提技術では各解像度レベルで４種類の特異点に関する４種類の副画像を生成した。しかし、当然４種類のうち１、２、３種類を選択的に用いてもよい。例えば、画像中に明るい点がひとつだけ存在する状態であれば、極大点に関するｆ（ｍ，３）だけで階層画像を生成しても相応の効果が得られるはずである。その場合、同一レベルで異なる副写像は不要になるため、ｓに関する計算量が減る効果がある。

（４）本前提技術では特異点フィルタによってレベルがひとつ進むと画素が１／４になった。例えば３×３で１ブロックとし、その中で特異点を探す構成も可能であり、その場合、レベルがひとつ進むと画素は１／９になる。

（５）始点画像と終点画像がカラーの場合、それらをまず白黒画像に変換し、写像を計算する。その結果求められた写像を用いて始点のカラー画像を変換する。それ以外の方法として、ＲＧＢの各成分について副写像を計算してもよい。

［画像符号化と復号に関する実施の形態］
以下、本発明に係る実施の形態（以下「実施形態」という）における以上の前提技術を利用した画像処理技術を具体的に述べる。

（第１の実施形態）
図１８は、画像処理システム１０の一例の全体構成図である。画像処理システム１０には制作者ＰＣ１４（ＰＣ：パーソナル・コンピュータ）、サーバ１６、および閲覧者ＰＣ１８がインターネットやＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）などのネットワーク１２に接続されている。

制作者ＰＣ１４は、ネットワーク１２上に公開するＷｅｂページを制作する制作者が使用するＰＣである。サーバ１６は、制作者ＰＣ１４によって制作されたＷｅｂページを公開する。閲覧者ＰＣ１８は、ネットワーク１２上に公開されているＷｅｂページを閲覧する者が使用するＰＣである。なお、閲覧者ＰＣ１８は携帯電話など、Ｗｅｂページを閲覧することができる他の装置であってもよい。

図１９は、第１の実施形態に係る制作者ＰＣ１４の機能ブロック図である。制作者ＰＣ１４は画像入力部２０、マッチングプロセッサ２２、ストリーム生成部２４、通信部２６、検査部２８、ＵＩ３０を備える。制作者ＰＣ１４は、ＣＰＵ、ハードディスク、ＲＡＭ、ＲＯＭなどのハードウェアを有している。また制作者ＰＣ１４は、Ｗｅｂページを制作するためのプログラム、および画像をアニメーション表示させるための画像符号化プログラムが導入されている。図１９はこれらのハードウェアおよびソフトウェアの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェアおよびソフトウェアの組合せによって様々な形で実現することができる。

画像入力部２０は、キーフレームを取得する。具体的には、画像入力部２０は、制作者ＰＣ１４内に設けられたＲＡＭなどのメモリやハードディスクに格納されたキーフレームを取得する。

マッチングプロセッサ２２は、キーフレーム間で前提技術を用いた対応点計算を行う。ストリーム生成部２４は、キーフレームおよび対応点情報を組み込んで符号化データストリームを生成する。閲覧者ＰＣ１８は、符号化データストリームをネットワーク１２に向かって送信する。このように制作者ＰＣ１４は、画像マッチング処理を実施して画像を符号化する画像符号化装置として機能する。検査部２８は、対応点情報からキーフレーム間の変化量が大きいか否かを検査する。ＵＩ３０は画像処理に関するユーザの要求を受け付ける。

公開するＷｅｂページにおいて複数のアニメーション表示をしたい場合に複数組のキーフレームを用意するのは、Ｗｅｂページの制作者の労力を必要とし、また装置の負担も大きくなるおそれがある。このため本実施形態では、複数のアニメーションをＷｅｂページなどにおいて並置するためのキーフレームのフォームが予め用意されている。

キーフレームフォーム７４などのキーフレームのフォームは、制作者ＰＣ１４にインストールされている画像マッチングソフトウェアにおいて予め用意されている。また、サーバ１６内部の記憶領域にもキーフレームのフォームが格納されており、画像にマッチング処理を施す制作者は、サーバ１６のＷｅｂページにアクセスしてこれらのキーフレームのフォームを自身が使用する制作者ＰＣ１４にダウンロードすることが可能となっている。

このようなキーフレームのフォームの例を図２０（ａ）に示す。キーフレームフォーム７４は横方向に細長い長方形の形状を有している。キーフレームフォーム７４内には、長方形の形状を有する第１画像領域７６、第２画像領域７８、および第３画像領域８０（以下、必要に応じてこれらを総称して「画像領域」という）が横方向に一列に並置されている。これらの画像領域の各々は、キーフレームフォーム７４の外周とこれらの画像領域との間に幅がゼロより大きい所定の間隔部が設けられるよう配置されている。またこれらの画像領域の各々は、これらの画像領域同士の間に幅がゼロより大きい所定の間隔部が設けられるよう配置されている。キーフレームフォーム７４では、これらの画像領域はすべて同一の形状および大きさとなっている。なお、キーフレームフォーム７４は一例であり、キーフレームフォームの形状、大きさ、および画像領域の形状、大きさ、および数などが異なる様々なキーフレームフォームが予め用意されている。

制作者は、キーフレームフォーム７４内に設けられた画像領域の各々に静止画像を配置する。たとえば制作者は、図２０（ｂ）に示すように、第１画像領域７６内に第１画像６８を配置し、第２画像領域７８内に第２画像６９を配置し、第３画像領域８０内に第３画像７０を配置する。こうして複数の静止画像を配置した状態の１枚の画像として第７キーフレーム８２が形成される。また、たとえば制作者は、図２０（ｃ）に示すように、第１画像領域７６内に第４画像７１を配置し、第２画像領域７８内に第５画像７２を配置し、第３画像領域８０内に第６画像７３を配置する。こうして複数の静止画像を配置した状態の１枚の画像として第８キーフレーム８４が形成される。

このように第７キーフレーム８２および第８キーフレーム８４のそれぞれに静止画像を配置することによって、第７キーフレーム８２および第８キーフレーム８４のそれぞれに含まれる静止画像のそれぞれの間に間隔部が設けられる。並置された静止画像の各々の外周部にこのように設けられた静止画像同士の間隔部は、複数の静止画像の背景領域を構成し、静止画像同士を分離する画像分離領域として機能する。

このとき制作者は、間隔部の優勢な画素値は、第１画像６８乃至第６画像７３の外周における優勢な画素値と所定の閾値以上異なるよう、配置する静止画像に応じてキーフレームフォームを選択または作成する。画像入力部２０が第７キーフレーム８２および第８キーフレーム８４を取得すると、マッチングプロセッサ２２は、第７キーフレーム８２と第８キーフレーム８４との間で前提技術を用いた対応点計算を行う。

前提技術では、例えば式４９に示されるように、画素値の値、および画素の位置を利用して対応点を特定する。このように各々の画像の間に間隔部が設けられることによって、対応点を特定すべき画像から他の画像を離間させることができる。また、対応点を特定すべき画像と他の画像との間に画素値が異なる領域を設けることができる。このためこのような他の画像内で対応点が特定され対応点情報が生成されることを抑制することができ、対応する静止画像同士の対応点計算をより正確に行うことが可能となる。

なお、制作者は、自身でキーフレームのフォームを制作することが可能である。この場合制作者は、画像領域同士の間に幅がゼロより大きい所定の間隔を設けるよう画像領域の各々を配置する。この場合、キーフレームフォーム７４の外周と画像領域との間に幅がゼロより大きい所定の間隔を設けるよう画像領域の各々を配置してもよい。

図２１は、第１の実施形態に係るサーバ１６の機能ブロック図である。サーバ１６は、通信部３２、情報受信部３４、情報送信部３６、記憶部３８、および課金部４０を備える。サーバ１６もまた、ＣＰＵ、ハードディスク、ＲＡＭ、ＲＯＭなどのハードウェアを有している。図２１はこれらのハードウェアおよびソフトウェアの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェアおよびソフトウェアの組合せによって様々な形で実現することができる。

情報受信部３４は、制作者ＰＣ１４など外部からネットワーク１２を介して送信された符号化データストリームを通信部３２を介して受信する。また情報受信部３４は、符号化データストリームに含まれる始点画像および終点画像などを表示するためのＷｅｂページ情報を外部からネットワーク１２を介して受信する。記憶部３８は、受信した符号化データストリームおよびＷｅｂページ情報を格納する。サーバ１６は格納されたＷｅｂページ情報を利用してそのＷｅｂページをネットワーク１２上に外部から閲覧可能に公開する。

また、情報受信部３４は、公開しているＷｅｂページのＵＲＬ（Uniform Resource Locator）が指定されることなどによって閲覧者ＰＣ１８など外部からネットワーク１２を介して指定されたＵＲＬのＷｅｂページ情報、およびそのＷｅｂページに表示する始点画像や終点画像などの情報を含む符号化データストリームの送信要求を受信する。情報送信部３６は、このような送信要求を受信した場合に、そのＷｅｂページ情報と共に符号化データストリームを要求元に通信部３２を介して送信する。

課金部４０は、外部から符号化データストリームを受信した場合、１回の符号化データストリームの受信に対して課金対象処理として記録する。すなわち、課金部４０は、制作者ＰＣ１４において２つのキーフレーム同士の間で画像マッチング処理を実行する工程について、その工程を１回の課金対象処理として記録する。さらに換言すると、課金部４０は、記憶部３８に格納された符号化データストリームの数に応じて、その符号化データストリームを生成した制作者ＰＣに対して課金するよう課金処理を実施する。このように課金処理を実施することによって、画像の符号化処理に対して適切に課金することが可能となる。したがってサーバ１６は、外部からの要求に応じて符号化データストリームを要求元に配信する情報配信装置として機能し、また符号化データストリーム生成に対して課金処理を実施する課金装置としても機能する。

図２２は、第１の実施形態に係る閲覧者ＰＣ１８の機能ブロック図である。閲覧者ＰＣ１８は、通信部４２、画像入力部４４、中間画像生成部４６、バッファメモリ４８、表示部５０、検査部５２、およびＵＩ５４を備える。閲覧者ＰＣ１８もまた、ＣＰＵ、ハードディスク、ＲＡＭ、ＲＯＭなどのハードウェアを有している。また閲覧者ＰＣ１８は、Ｗｅｂページを表示するためのプログラム、および画像をアニメーション表示させるための画像復号プログラムが導入されている。図２２はこれらのハードウェアおよびソフトウェアの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェアおよびソフトウェアの組合せによって様々な形で実現することができる。

閲覧者ＰＣ１８の操作者は、サーバ１６のＷｅｂページのＵＲＬを特定することなどによって、Ｗｅｂページ情報および符号化ストリームの送信要求をサーバ１６に送信する。通信部４２は、送信要求に応答してサーバ１６から送信されたＷｅｂページ情報および符号化ストリームを受信し、画像入力部４４は、受信した符号化ストリームを取得する。中間画像生成部４６は、符号化ストリームに含まれるキーフレームのデータおよび対応点情報をもとに補間計算で中間フレームを生成する。バッファメモリ４８は、中間画像生成部４６が中間フレームを生成する際にワークエリアおよび画像出力のタイミング調整のために利用される。検査部５２は、画像入力部４４が取得した符号化ストリームから対応点情報を検出したうえでキーフレーム間の変化量の大きさを検証する。ＵＩ５４は、画像再生に関するユーザの指示を受け付ける。このように閲覧者ＰＣ１８は、受信した符号化ストリームを復号する画像復号装置として機能する。

表示部５０は、指定したＵＲＬのＷｅｂページを表示する際に、このように符号化ストリームを利用して最終的に得られた画像を表示する。具体的には、Ｗｅｂページ上の第７キーフレーム８２および第８キーフレーム８４が配置される箇所において、左側で花が徐々に開いていくようにアニメーション表示され、中央で飛行機が上昇していくようにアニメーション表示され、右側で自動車が右から左に走行するようにアニメーション表示される。

このように図２０（ｂ）および（ｃ）に示されるキーフレームを利用してアニメーション表示をする場合、図２５（ａ）および（ｂ）に示される複数のキーフレームを利用してアニメーション表示をする場合に比べ少ないキーフレーム数で、Ｗｅｂページの閲覧者に同様の視覚的効果を与えることができる。このためキーフレームを作成する者の労力を軽減することができ、またはマッチング処理を実施する制作者ＰＣ１４の処理負担を軽減することが可能となる。また、Ｗｅｂページの閲覧者に同様の視覚的効果を与えつつ課金部４０によって課金される課金額を低減することができる。

（第２の実施形態）
図２３は、第２の実施形態に係るサーバ１６の機能ブロック図である。なお、画像処理システム１０における他の構成要素については第１の実施形態と同様である。第２の実施形態に係るサーバ１６も通信部３２、情報受信部３４、情報送信部３６、および記憶部３８を有する点は第１の実施形態に係るサーバ１６と同様である。

また、第２の実施形態に係るサーバ１６も課金部４０を有する点は第１の実施形態に係るサーバ１６と同様である。しかし、第２の実施形態に係るサーバ１６では、課金部４０は、情報送信部３６が外部に符号化ストリームを送信するたびに、その符号化ストリームを生成元に課金するよう課金処理を実施する。これによって、符号化ストリームの復号処理に対して適切に課金することができる。

（第３の実施形態）
第３の実施形態に係る画像処理システム１０の構成要素は第１の実施形態と同様である。第３の実施形態では、制作者ＰＣ１４のマッチングプロセッサ２２は、生成した対応点情報が適切でない場合にそれを修正する修正部（図示せず）を有している。この修正部の処理を図２４（ａ）および（ｂ）を用いて説明する。

図２４（ａ）は、始点画像である第９キーフレーム８６を示す図であり、図２４（ｂ）は終点画像である第１０キーフレーム８８を示す図である。第９キーフレーム８６は横方向に細長い長方形に形成されている。

第９キーフレーム８６は第１画像領域９０、第２画像領域９２、および第３画像領域９４を有しており、左方向から第１画像領域９０、第２画像領域９２、第３画像領域９４の順に並置されている。各々の画像領域は同一の形状および大きさの長方形に形成されている。第１画像領域９０と第２画像領域９２との間には、両者を離間させるように上下方向に細長い画像分離領域９６が設けられている。第２画像領域９２と第３画像領域９４との間にも両者を離間させるように上下方向に細長い画像分離領域９８が設けられている。第１画像領域９０には第１画像１０２が、第２画像領域９２には第２画像１０４が、第３画像領域９４には第３画像１０６がそれぞれ配置されている。なお、各画像は各画像領域と同一の形状および大きさを有している。

第１０キーフレーム８８も第１画像領域９０、第２画像領域９２、第３画像領域９４、画像分離領域９６、および画像分離領域９８を有する点は第９キーフレーム８６と同様である。第１０キーフレーム８８では、第１画像領域９０に第４画像１０８、第２画像領域９２に第５画像１１０、第３画像領域９４に第６画像１１２がそれぞれ配置されている。なお、ここでも各画像は各画像領域と同一の形状および大きさを有している。

例えば、第１画像１０２の開始点Ｐ１の対応点として第５画像１１０の対応点Ｐ２が特定された場合を考える。第１画像１０２は第４画像１０８に対応しているため、第１画像１０２内の開始点は第４画像１０８内で対応点が特定されるべきである。

マッチングプロセッサ２２の修正部は、特定した対応点の位置と対応する画像領域とを比較して、まず対応する画像内で対応点が特定されたか否かを判定する。図２４（ｂ）の場合、修正部は第４画像１０８内で対応点が特定されたか否かを判定する。図２４（ｂ）のように対応する画像である第４画像１０８でなく第５画像１１０で対応点が特定された場合、修正部は、開始点Ｐ１と同じ位置の点を第４画像１０８内にとり、この点と対応点Ｐ２とを結ぶ直線を引く、修正部は、この直線と第４画像１０８の外周との交点の位置を算出し、この交点を対応点Ｐ３として特定する。以下、マッチングプロセッサ２２は前提技術と同様な方法で正確な対応点を特定し、対応点情報を生成する。このように修正部は、対応する画像以外の画像同士で対応点が生成されることを抑制する。

以上、画像符号化と復号を説明した。この装置も符号化の場合と同様、ユーザインタラクションを確保することにより、画像編集ツールとして機能する。なお、これらの実施の形態は例示であり、いろいろな変形技術もある。以下、そうした例を挙げる。

制作者ＰＣ１４はサーバ１６としての機能を有していてもよい。これによって、制作者ＰＣ１４で符号化ストリームの制作および配信を行うことができる。

図２４において、修正部は、対応点Ｐ３ではなく、開始点Ｐ１と同様の位置の第４画像１０８内の点を対応点として特定してもよい。以下、マッチングプロセッサ２２は前提技術と同様な方法で正確な対応点を特定し、対応点情報を生成する。これによっても、対応する画像以外の画像同士で対応点が生成されることを抑制することができる。

図１（ａ）と図１（ｂ）は、ふたりの人物の顔に平均化フィルタを施して得られる画像、図１（ｃ）と図１（ｄ）は、ふたりの人物の顔に関して前提技術で求められるｐ（５，０）の画像、図１（ｅ）と図１（ｆ）は、ふたりの人物の顔に関して前提技術で求められるｐ（５，１）の画像、図１（ｇ）と図１（ｈ）は、ふたりの人物の顔に関して前提技術で求められるｐ（５，２）の画像、図１（ｉ）と図１（ｊ）は、ふたりの人物の顔に関して前提技術で求められるｐ（５，３）の画像をそれぞれディスプレイ上に表示した中間調画像の写真である。図２（Ｒ）はもとの四辺形を示す図、図２（Ａ）、図２（Ｂ）、図２（Ｃ）、図２（Ｄ）、図２（Ｅ）はそれぞれ相続四辺形を示す図である。始点画像と終点画像の関係、および第ｍレベルと第ｍ−１レベルの関係を相続四辺形を用いて示す図である。パラメータηとエネルギーＣｆの関係を示す図である。図５（ａ）、図５（ｂ）は、ある点に関する写像が全単射条件を満たすか否かを外積計算から求める様子を示す図である。前提技術の全体手順を示すフローチャートである。図６のＳ１の詳細を示すフローチャートである。図７のＳ１０の詳細を示すフローチャートである。第ｍレベルの画像の一部と、第ｍ−１レベルの画像の一部の対応関係を示す図である。前提技術で生成された始点階層画像を示す図である。図６のＳ２に進む前に、マッチング評価の準備の手順を示す図である。図６のＳ２の詳細を示すフローチャートである。第０レベルにおいて副写像を決定する様子を示す図である。第１レベルにおいて副写像を決定する様子を示す図である。図１２のＳ２１の詳細を示すフローチャートである。あるｆ（ｍ，ｓ）についてλを変えながら求められたｆ（ｍ，ｓ）（λ＝ｉΔλ）に対応するエネルギーＣ（ｍ，ｓ）ｆの挙動を示す図である。 ηを変えながら求められたｆ（ｎ）（η＝ｉΔη）（ｉ＝０，１，…）に対応するエネルギーＣ（ｎ）ｆの挙動を示す図である。画像処理システム１０の一例の全体構成図である。第１の実施形態に係る制作者ＰＣの機能ブロック図である。（ａ）はキーフレームフォームを示す図であり、（ｂ）は始点画像として形成された第７キーフレームを示す図であり、（ｃ）は終点画像として形成された第８キーフレームを示す図である。第１の実施形態に係るサーバの機能ブロック図である。第１の実施形態に係る閲覧者ＰＣの機能ブロック図である。第２の実施形態に係るサーバの機能ブロック図である。（ａ）は始点画像として形成された第９キーフレームを示す図であり、（ｂ）は終点画像として形成された第１０キーフレームを示す図である。（ａ）は始点画像として形成された第１キーフレーム乃至第３キーフレームを示す図であり、（ｂ）は終点画像として形成された第４キーフレーム乃至第６キーフレームを示す図である。

符号の説明

１０画像処理システム、１２ネットワーク、１４制作者ＰＣ、１６サーバ、１８閲覧者ＰＣ、４０課金部、７４キーフレームフォーム。

Claims

複数の静止画像を並置した状態で１枚の画像として形成された第１キーフレームと、第１キーフレームの複数の静止画像の各々に位置的に対応する複数の静止画像を並置した状態で１枚の画像として形成された第２キーフレームとを取得する工程と、
第１キーフレームと第２キーフレームとの間で対応しあう点に関する情報である対応点情報を画像マッチング処理により取得する工程と、
第１キーフレーム、第２キーフレームおよび対応点情報を符号化データとして出力する工程と、
を備えることを特徴とする画像符号化方法。
第１および第２キーフレームのそれぞれに含まれる複数の静止画像のそれぞれの間には所定の画像分離領域が設けられていることを特徴とする請求項１に記載の画像符号化方法。
画像分離領域は、複数の静止画像の背景領域を構成することを特徴とする請求項１または２に記載の画像符号化方法。
背景領域において優勢な画素値は、当該背景領域内に置かれた複数の静止画像の所定領域において優勢な画素値の各々と所定の閾値以上異なることを特徴とする請求項１から３のいずれかに記載の画像符号化方法。
第１キーフレームおよび第２キーフレームの間で画像マッチング処理を実行する工程について、当該工程を１回の課金対象処理として記録する工程をさらに備えることを特徴とする請求項１から４のいずれかに記載の画像符号化方法。
複数の静止画像を並置した状態で１枚の画像として形成された第１キーフレームと、第１キーフレームの複数の静止画像の各々に位置的に対応する複数の静止画像を並置した状態で１枚の画像として形成された第２キーフレームとを取得する画像入力部と、
第１キーフレームと第２キーフレームとの間で対応しあう点に関する情報である対応点情報を画像マッチング処理により取得するマッチングプロセッサと、
第１キーフレーム、第２キーフレームおよび対応点情報を符号化データとして出力するストリーム生成部と、
を備えることを特徴とする画像符号化装置。