JP4652698B2

JP4652698B2 - 画像認識装置、画像認識方法及びプログラム

Info

Publication number: JP4652698B2
Application number: JP2004046447A
Authority: JP
Inventors: 優年関根
Original assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Priority date: 2004-02-23
Filing date: 2004-02-23
Publication date: 2011-03-16
Anticipated expiration: 2024-02-23
Also published as: JP2005235089A

Description

本発明は、画像認識装置、画像認識方法及びプログラムに係り、特に、Ｈａａｒウェーブレット変換等のウェーブレット変換により異なる分解能レベルでカラー画像のテンプレート・マッチングを行い、粗い分解能レベルから対象領域を絞り込む画像認識装置、画像認識方法及びプログラムに関する。

一般に、背景から対象領域を分離する方法としては、色情報やコントラストの閾値で分離する方法、ｍｅｄｉａｎｆｉｌｔｅｒによる境界抽出、フラクタルを利用した井田の方法、パラメトリック空間による方法、ウェーブレット変換の多重解像度やマルチ・スケールを利用する方法など多くの方法が提案されている（非特許文献１）。これらの中で、状況を大まかに捉えてから次第に詳細を得ていく方式を多重分解能原理と呼んでいる（非特許文献２）。また、画像処理の計算量を減らす一般的な手法の一つとしてｃｏａｒｓｅｔｏｆｉｎｅｔｅｍｐｌａｔｅｍａｔｃｈｉｎｇ（粗から密の分解能のテンプレート・マッチング）がある。この方法は全入力領域の入力パターンを１／ｋに圧縮して粗くした入力パターンに対して、同じ粗さのｃｏａｒｓｅｔｅｍｐｌａｔｅ（粗い分解能のテンプレート）により対象領域の選択を行う（非特許文献３）。この方法もこの多重分解能原理に基づくものといえる。
なお、本発明者等は、画像認識の前処理手法のひとつであるウェーブレット変換等の変換による信号処理及び解析を行う部分選択変換により、情報量の削減と信号処理の高密度とを同時に達成する技術を出願した（特許文献１）。
ＭＨ．Ｙａｎｇ，Ｄ．Ｊ．Ｋｒｉｅｇｍａｎ，Ｎ．Ａｈｕｊａ，"ＤｅｔｅｃｔｉｎｇＦａｃｅｓｉｎＩｍａｇｅｓ：ＡＳｕｒｖｅｙ"，ＩＥＥＥＴｒａｎｓ．，ＰＡａｎｄＭＩ，ｖｏｌ．２４，ｎｏ．１，ｐｐ．３４−５８，ＪＡＮＵＡＲＹ２００２小川英光、"パターン認識・理解の新たな展開"、電子情報通信学会、東京、１９９４Ｍ．Ｇｈａｒａｖｉ−Ａｌｋｈａｎｓａｒｉ、"ＡＦａｓｔＧｌｏｂａｌｌｙＯｐｔｉｍａｌＡｌｇｏｒｉｔｈｍｆｏｒＴｅｍｐｌａｔｅＭａｔｃｈｉｎｇＵｓｉｎｇＬｏｗ−ＲｅｓｏｌｕｔｉｏｎＰｒｕｎｉｎｇ"、ＩＥＥＥＴｒａｎｓ．ＩｍａｇｅＰｒｏｃｅｓｓ．，ｖｏ．１０，ｎｏ．４，ｐｐ．５２６−５３３，ＡＰＲＩＬ２００１Ｒ．Ｌ．Ｈｕｅ，Ｍ．Ａｂｄｅｌ−Ｍｏｔｔａｌｅｂ，ａｎｄＡ．Ｋ．Ｊａｉｎ，"ＦａｃｅＤｅｔｅｃｔｉｏｎｉｎＣｏｌｏｒＩｍａｇｅｓ"，ＩＥＥＥＴｒａｎｓ．ｏｎＰＡａｎｄＭＩ，ｖｏｌ２４，ｎｏ．５，ｐｐ６９６−７０５，ＭＡＹ２００２特開平１５−１２４８１５号公報

しかしながら、従来のｃｏａｒｓｅｔｏｆｉｎｅｔｅｍｐｌａｔｅｍａｔｃｈｉｎｇの方法では、処理時間が１／ｋ^３に減少する利点があるが、ｃｏａｒｓｅｔｅｍｐｌａｔｅで得られた対象領域がｆｉｎｅｔｅｍｐｌａｔｅ（密な分解能のテンプレート）により得られる領域とずれてしまう場合がある。また、この方法では、対象領域の候補を生成する時の精度が全解像度で同じであり、探索の効率化には限界があった。
本発明は、以上の点に鑑み、粗い解像度レベルでの探索に使うマッチング候補を間引くことにより大幅に効率化を実現することを目的とする。また、本発明は、この間引くことによる候補漏れを防ぐために、詳細なベクトルで、新たに探索領域を再構成することで、大幅な探索時間の削減を得ると同時に、正しくマッチングが行えるようにすることを目的とする。

本発明の第１の解決手段によると、
異なる分解能で画像のテンプレート・マッチングを行い、粗い分解能から密な分解能へマッチングの対象領域を絞り込む画像認識装置において、
入力画像である密な分解能の第ｎ層入力パターンと、第ｎ層入力パターンを多段階に粗い分解能へ圧縮した第ｎ−１〜０層入力パターンと、各層の入力パターンと同一の分解能のテンプレートである第ｎ〜０層特徴パターンとを記憶した記憶部と、
前記記憶部からデータを読み取り及び前記記憶部にデータを書き込み、テンプレート・マッチングを実行する処理部と
を備え、
前記処理部は、第０層入力パターン及び第０層特徴パターンを前記記憶部から読みとる手段と、
前記処理部は、第０層入力パターン及び第０層特徴パターンとの照合を行うための、両パターンが一番一致する領域である注視領域の第０層注視領域ＦＤ^０を記憶部から読み出して設定する手段と、
前記処理部は、レベルの異なる層に注視領域を送るときに分解能の差異に応じた大きさを計算することで第０層注視領域ＦＤ^０に対応する仮の第１層注視領域ＦＤ^１を求めるための逆注視処理を実行し、第１層注視領域ＦＤ^１を前記記憶部に記憶する手段と、
前記処理部は、再帰的に層レベルｊ＝１からｊ＝ｎまでテンプレート・マッチング処理を実行する手段であって、
前記処理部は、前記記憶部から第ｊ層入力パターン及び第ｊ層特徴パターンを読みとる手段と、
前記処理部は、第ｊ層での探索範囲として仮の第ｊ層注視領域ＦＤ^ｊを前記記憶部から読みとり、設定する手段と、
前記処理部は、第ｊ層入力パターンの仮の注視領域ＦＤ^ｊ内で、第ｊ層特徴パターンを走査して両パターンが最も一致する場所を探索し、その場所に基づき第ｊ層特徴パターンを含む所定範囲の領域を第ｊ層注視領域ＦＤ^ｊとして定め、該注視領域を定める情報を前記記憶部に記憶する手段と、
前記処理部は、第ｊ層と第ｊ＋１層の分解能の差異に応じた大きさを計算することで、注視領域ＦＤ^ｊを第ｊ＋１層に逆写像して仮の第ｊ＋１層注視領域ＦＤ^ｊ＋１を求めるための逆注視処理を実行し、該仮の注視領域を定める情報を前記記憶部に記憶する手段と、
前記処理部は、再帰的に照合を行い層レベルｊを増加させて第ｎ層まで進めるようにした
前記テンプレート・マッチングを実行する手段と、
前記処理部は、特定されたマッチングした領域を定める情報を表示部に表示及び／又は出力部により出力する手段と、
を含む画像認識装置が提供される。
本発明の第２の解決手段によると、
入力画像である密な分解能の第ｎ層入力パターンと、第ｎ層入力パターンを多段階に粗い分解能へ圧縮した第ｎ−１〜０層入力パターンと、各層の入力パターンと同一の分解能のテンプレートである第ｎ〜０層特徴パターンとを記憶した記憶部と、
前記記憶部からデータを読み取り及び前記記憶部にデータを書き込み、テンプレート・マッチングを実行する処理部と
を備えた画像認識装置を用いて、コンピュータが、異なる分解能で画像のテンプレート・マッチングを行い、粗い分解能から密な分解能へマッチングの対象領域を絞り込む画像認識プログラム及び画像認識方法において、
前記処理部は、第０層入力パターン及び第０層特徴パターンを前記記憶部から読みとるステップと、
前記処理部は、第０層入力パターン及び第０層特徴パターンとの照合を行うための、両パターンが一番一致する領域である注視領域の第０層注視領域ＦＤ^０を記憶部から読み出して設定するステップと、
前記処理部は、レベルの異なる層に注視領域を送るときに分解能の差異に応じた大きさを計算することで第０層注視領域ＦＤ^０に対応する仮の第１層注視領域ＦＤ^１を求めるための逆注視処理を実行し、第１層注視領域ＦＤ^１を前記記憶部に記憶するステップと、
前記処理部は、再帰的に層レベルｊ＝１からｊ＝ｎまでテンプレート・マッチング処理を実行するステップであって、
前記処理部は、前記記憶部から第ｊ層入力パターン及び第ｊ層特徴パターンを読みとるステップと、
前記処理部は、第ｊ層での探索範囲として仮の第ｊ層注視領域ＦＤ^ｊを前記記憶部から読みとり、設定するステップと、
前記処理部は、第ｊ層入力パターンの仮の注視領域ＦＤ^ｊ内で、第ｊ層特徴パターンを走査して両パターンが最も一致する場所を探索し、その場所に基づき第ｊ層特徴パターンを含む所定範囲の領域を第ｊ層注視領域ＦＤ^ｊとして定め、該注視領域を定める情報を前記記憶部に記憶するステップと、
前記処理部は、第ｊ層と第ｊ＋１層の分解能の差異に応じた大きさを計算することで、注視領域ＦＤ^ｊを第ｊ＋１層に逆写像して仮の第ｊ＋１層注視領域ＦＤ^ｊ＋１を求めるための逆注視処理を実行し、該仮の注視領域を定める情報を前記記憶部に記憶するステップと、
前記処理部は、再帰的に照合を行い層レベルｊを増加させて第ｎ層まで進めるようにした
前記テンプレート・マッチングを実行するステップと、
前記処理部は、特定されたマッチングした領域を定める情報を表示部に表示及び／又は出力部により出力するステップと、
をコンピュータに実行させるための画像認識プログラム及び画像認識方法が提供される。

本発明によると、マッチング精度を大幅に向上することができ、計算量を大幅に減少し高速化することができる。

１．本実施の形態の概要
本実施の形態では、まず、Ｈａａｒウェーブレット変換により入力信号を多段階に圧縮し複数の分解能レベルの画像を作る。テンプレートも同じ様に圧縮して複数の分解能レベルのものを作成する。次に、粗い分解能レベルからテンプレート・マッチングを行い、最もマッチング計算が良い場所を探し、マッチングが良くない場所は、以降、探索領域から削除する。これを繰り返して、逐次的に探索領域を削減する。本発明では、照合（マッチング）を一段階で行うのではなく、多数の分解能レベルでの多重処理として大域から局所的な領域へと処理を行う。マッチングでテンプレートを移動させる刻みとしてはそれぞれの分解能レベルに従って、粗いレベルでは、大きく取り、詳細な分解能レベルでは、細かく移動させる。入力パターンとテンプレートは多重に異なる分解能で表現され、その両者間で定義される誤差を多重に計算する。各層での入力パターンは色情報、エッジ情報の他に、これらから計算したエネルギー値を持つ。このエネルギー値を、より詳細な分解能レベルでの探索領域に対して加算する。こうすることで、粗いレベルでの探索結果を次のレベルの探索領域に反映させることができる。このエネルギー値により、細かい特徴に対する過剰な寄与を緩和する事ができ、結果的に大まかな特徴でのマッチング結果を反映させる効果を実現している。
この方式の妥当性を検討するため、後述のように、目の特徴パターンで顔の部分領域を取り出す実験を行った。照合結果を前段での照合に戻す制御の簡単な例として、前段の対象領域中の画素のエネルギー値を引き上げる簡便法を使い、大まかな領域分割処理を通じて前段での照合に影響を与える機構を組み入れた。簡単な制御例を示すことで、多重分解能原理に基づく方式の実用化の可能性を示した。
以下、２節では入力パターンと出力パターンとの多重照合を出力側から入力側に向けて行う定式化を行い、３節では、多重照合のハードウェア及びアルゴリズムを示し、一例として、Ｈａａｒウェーブレット関数を使った例による実験を構成し、照合とウェーブレット変換のとの関係、出力側からの簡単な制御例を示し、４節でその効果について述べる。

２．多重処理
２．１入力信号空間と特徴空間
図１に、入力信号空間と特徴空間の説明図を示す。
入力信号空間では、有限個のｎ次元ベクトルＩ^ｎ（ｋ）｛ｋ＝０，…，ｋ_ｎ｝の組み合わせで入力パターンを構成する。この入力パターンＩ^ｎ（ｋ）を含む入力信号空間をＵ_ｎ：｛Ｉ^ｎ（０），Ｉ^ｎ（１），．，Ｉ^ｎ（ｋ_ｎ）｝⊆Ｕ_ｎ⊆Ｒ^ｎとする（Ｒは実数全体の集合）。最終段では、パターン処理は高々ｍ（＜ｎ）個の素子で処理するとものとし、ｍ次元ベクトルで表す。この最終パターンＯ^０：｛Ｏ_０ ^０，Ｏ_１ ^０，．．．，Ｏ_ｋ０ ^０｝⊆Ｕ_０⊆Ｒ^ｍで特徴空間を構成する。中間処理での入力パターンを異なる分解能の部分空間列Ｕ_ｊ⊆Ｒ^ｎｊ（．．．Ｕ_ｊ−１⊆Ｕ_ｊ．．．）で表現する。
部分空間Ｕ_ｊで、入力パターンは異なる分解能のパターンに密から粗へと変換されて表現されている。同様に、最終パターンＯ^０からＯ^jのパターンへと粗から密へと変換することを考え、入力パターンと特徴パターンとの間でパターン処理を部分空間Ｕ_ｊで多重に処理することを考える。
そこで、粗い分解能のテンプレートから密な分解能のテンプレートを入力パターンの流れとは逆方向に作る。このテンプレートを特徴パターンと呼ぶ。なお、後述のアルゴリズム等の説明のように、密な分解能の入力パターンから粗な分解能の入力パターンを多段階の層で求めて予め用意しておき、それらの各層と対応して、同様に、特徴パターンについても密な分解能から粗な分解能の特徴パターンを多段階の層で求めて予め用意しておくようにしてもよい。
そこで、入力パターンを処理して、粗い分解能の入力パターンを成する関数列をｆ^ｉ、粗い分解能の特徴パターンから密な分解能の特徴パターンを作る関数列ｇ^ｊを、
とする。

なお、入力パターンＩ、特徴パターンＯは画素値である。画素値としては、色の３成分であるＲＧＢ成分、それを変換したＹＵＶ成分でも構わない。さらに、途中の段階では、実際には、一例として、色成分はウェーブレット係数で表現しているので、それぞれの色成分のウェーブレット係数が画素値として入出力される。
（各パターンのフォーマット）
特徴パターンのフォーマットは、画像全体の情報として、特徴パターン毎に、（解像度の異なる特徴パターンが多数あるので）特徴パターン名（テンプレート名）のデータベースを作って記憶部５に記憶される。そのフィールド（項目）としては、以下に例示する。
｛特徴パターン番号、レベル、高さ、幅、画像ファイル名｝
ここで、画像ファイルには、実際の画像データが入っていて、例えば、画素ごとに、「画素値、エネルギー値、重み」の三つ組みで表すことができる。なお、特に重みは、普通は掛け合わせるが、本実施の形態では、加算量にすると計算を軽くすることができる。
入力パターンも特徴パターンと同様に構成することができる。

２．２構成方法
図２に、変換画像と各層についての説明図を示す。
図示のように、分解能にあわせて部分空間Ｕ_ｊが層状に配置される。層毎に格子Γ上の格子点ｘ_γに演算要素ｃ_γ ^ｊを配置する。Ｎ_ｊ個のウェーブレット基底関数ψ_α ^ｊ（ｘ）を格子Γの演算要素に割り当てる。以後、記号α＝１，２，．．．，Ｎ_ｊは入力パターンに関係する添え字を表し、β＝１，２，．．．，Ｎ_ｊは特徴パターンに関係する添え字を表し、γ＝１，２，．．．，Ｎ_ｊは入力パターンや出力パターンに依存しない添え字を表す。
各ウェーブレット基底関数の台の大きさはＵ_ｊの分解能２^−ｊに対応する。２次元のＨａａｒ関数では、台の大きさは、例えば、四角領域（ｘ_１（２^−ｊｋ，２^−ｊｋ）、ｘ_２（２^−ｊ（ｋ＋１），２^−ｊｋ））、ｘ_３（２^−ｊｋ，２^−ｊ（ｋ＋１））、ｘ_４（２^−ｊ（ｋ＋１），２^−ｊ（ｋ＋１）））で格子が表現される。なお、「台」とは基底関数が０でない値を持つ領域の事を言う。例えば、ウェーブレット関数の大きさを示すもので、Ｕ_０でウェーブレット関数の大きさがＬ_０（０＜ｘ＜Ｌ_０）とすれば、Ｕ_１はＬ_０／２、Ｕ_２はＬ_０／４の領域で０でない値、Ｈａｒｒでは、１／Ｌ_０、２／Ｌ_０、４／Ｌ_０の値を持つ事になる。
この層状配置に沿って、Ｕ_ｊ＋１層のｈ_ｊ＋１番目の入力パターンＩ_{ｈ＿ｊ＋１} ^ｊ＋１は

のように圧縮されながら、Ｕ_ｊ層のｈ_ｊ番目の入力パターンＩ_ｈ＿ｊ ^ｊとなって伝播する。特徴パターンＯ_{ｋ＿ｊ−１} ^ｊ−１は

のように展開されながら入力側に向かって進む。入力パターン{Ｉ_ｈ＿ｎ ^ｎ}と特徴パターン{Ｏ_ｋ＿０ ^０}は多重に異なる分解能ｊで{Ｉ_ｈ＿ｊ ^ｊ}、{Ｏ_ｋ＿ｊ ^ｊ}と記述される。
Ｕ_ｊ層での入力パターンＩ_ｈ ^ｊは、ウェーブレット展開係数をＷ_α ^Ｉｊとしてウェーブレット基底関数{ψ_α ^ｊ}の線形和で記述される。入力パターンＩ_ｈ ^ｊにより選択されたウェーブレット基底関数を表す添え字{α}の集合をλ_ｈ ^ｊ：{α}とする。同様に特徴パターンＯ_ｋ ^ｊに対する添え字βの集合をλ_ｋ ^ｊ：{β}とする。両パターンは部分空間Ｕ_ｊ層ではウェーブレット基底関数ψ_α ^ｊ（ｘ）、ψ_β ^ｊ（ｘ）で展開され、

である。ウェーブレット関数ψ_α ^ｊ（ｘ）、ψ_β ^ｊ（ｘ）は演算要素ｃ_γ ^ｊで計算される。ここで、演算要素ｃ_γ ^ｊは、実際の部分回路で、ウェーブレット変換を行い、ウェーブレット係数を求める演算器、その値を保持するレジスタや局所メモリの記憶要素などを含む回路要素である。なお、ｃ_γ ^ｊの局所メモリには、ウェーブレット係数Ｗ_α ^Ｉｊ、Ｗ_β ^Ｏｊ、要素エネルギーｅ_γ ^ｊ、しきい値ｔｈｒ_γ ^ｊ、ｃ_γ ^ｊの内部状態や制御情報等が保持される。ｃ_γ ^ｊはＵ_ｊ＋１、Ｕ_ｊ−１からの入力を計算しウェーブレット係数Ｗ_α ^Ｉｊ、ｊＷ_β ^Ｏｊを出力する。また、Ｕ_ｊ内で相互結線を通じて相互作用を行う。ここで、ｃ_γ ^ｊの局所メモリとは、計算に必要な値を保持するメモリ素子（ＲＡＭ、レジスタ、ＦＦ）などをいう。

演算要素ｃ_γ ^ｊでは、一例として、以下に挙げる計算・処理で実現することができるが、これに限らず、様々な実現方法によっていろいろな計算・処理を適用することができる。
（１）画素（ｗａｖｅｌｅｔ係数）値を計算するのに画素周辺の画素値から色補正する等の色計算を行う。
（２）画素値を周辺に拡散させて滲ませる処理をする。
（３）画素値の分布からエネルギー値を計算する。
（４）次段のｗａｖｅｌｅｔ係数（Ｈａｒｒでは平均値と差分値）を計算して出力する。
（５）メモリ・アドレスを計算してデータ転送を行う。
（６）テンプレートと入力画像の画素の差分を取り一致度計算を行う。
（７）平均輝度を求め、輝度補正を行う。
（８）隣接画素との結合度を計算する。

２．３入力と特徴パターンとの照合
各層では入力パターンと特徴パターンが入力され照合される。この照合結果は外部に出力される。同時に、入力層に向かって特徴パターンの生成制御を行う。
２．３．１Ｕ_ｊでのパターン変換とマッチング
関数ｆ^ｊ＋１、ｇ^ｊの成分はＵ_ｊでのｃ_γ ^ｊ毎に計算され、ｆ^ｊ＋１＝（．．．，ｆ_α ^ｊ＋１，．．．）、ｇ^ｊ＝（．．．，ｇ_β ^ｊ，．．．）である。ここでは、簡単な例として、入力値がしきい値以上の値を持つとき計算が可能とする。Ｎ_∈（ｘ_ｉ）をｘ_ｉの格子Γ上の隣接格子点の集合とする。ｃ_α ^ｊ、ｃ_β ^ｊの入力領域を、Ｎ’_α＝Ｎ_∈（ｆ^−１（ｘ_α ^ｊ））、Ｎ”_β＝Ｎ_∈（ｇ^−１（ｘ_β ^ｊ））とすれば、ｃ_α ^ｊ，ｃ_β ^ｊでのウェーブレット係数は、

である。Ｕ_ｊ層内のｃ_α ^ｊを介して前層Ｕ_ｊ＋１内のｃ_β ^ｊ＋１を制御するため、Ｕ_ｊ層内での両パターンに対する一致度

の計算をする。
このＤ_βα ^ｊを生成するＯ_β ^ｊはＵ_ｊの分解能で定まる特徴パターンであり、より粗いＯ_β ^ｊ−１から誘導される。

なお、上述の式は、レベルが異なる、ウェーブレット係数Ｗ間の関係式を一般的に表したものである。ウェーブレット変換すると同時に、フィルター処理、選択処理、重み付けなど、補助的な処理も加えて考えることができる。（７）式では、入力パターンは高解像度から低解像度へと逐次的に進行することを示す。ここでは、入力パターンの中にあり、特徴パターンと一致するであろう部分パターンをＮ’_αで暗に指定している。（８）式では、特徴パターンは逆に低解像度から高解像度へと逐次的に進行することを示す。さらに、（９）式では、各解像度レベルでは、一致度が、両パターン間で計算されることを示す。両パターンの一致はＮ’_α、Ｎ”_βで表される。

３．画像認識装置及び方法
３．１ハードウェア
図３は、画像認識装置に関するハードウェアの構成図である。
このハードウェアは、中央処理装置（ＣＰＵ）である処理部１、入力部２、インタフェース部３及び記憶部５を有する。また、処理部１、入力部２、インタフェース部３及び記憶部５は、スター又はバス等の適宜の接続手段で接続されている。記憶部５はウェーブレット変換及びテンプレートマッチング等の計算に必要な各種データを記憶したパラメータファイル５１、入力パターンファイル５２及び特徴パターンファイル５３等の各データを含む。

３．２アルゴリズム
図４に、多重照合には画像認識方法の処理概要についての説明図を示す。
上図は、第ｊ−１層、中図は、第ｊ層、下図は第ｎ層を示し、第ｊ層に対して、第ｊ−１層側が粗い分解能側、ｎ層が密な分解能側を表わす。
第ｊ−１層では、処理部１は、外枠で示された入力パターンを、小さい四角で示された特徴パターンのテンプレートで破線のようにスキャンしてパターンマッチングする領域を求める。ここで、処理部１は、各位置における一致度を計算し、所定範囲の一致度である領域を求める。この例では領域１、２、３がそれぞれ一致する度合いの高い順に示されており、処理部１は領域１を第ｊ−１層の注視領域として設定する（ｇｅｔ_ｆｏｃｕｓ_ｄｏｍａｉｎ）。次に、処理部１は、この領域のテンプレートを拡大し、破線の四角で示されたように、第ｊ層でスキャンする領域（仮の注視領域）として定めて、第ｊ層の処理に渡す（ｂａｃｋ_ｆｏｃｕｓ）。
第ｊ層では、処理部１は、第ｊ−１層から受けた仮の注視領域内を特徴パターンのテンプレートで再びスキャンして、パターンマッチングする領域を求める。この例では、領域１及び２が求められたので、上述と同様に最も一致する度合いの高い領域１を拡大して、破線の四角で示されたように、注視領域を求めて、次の層に渡す。以下、処理部１は、同様に第ｎ層まで再帰的にテンプレートマッチングを実行する。

図５に多重照合による画像認識方法の前処理のフローチャートを示す。
処理部１は、第ｎ層の特徴パターンを記憶部５から読み取り（Ｓ１０１）、その特徴パターンに基づき、第ｎ−１層〜第０層での各特徴パターンＯ^ｊを事前にウェーブレット変換して求め、それらを記憶部５に記憶する（Ｓ１０３）。また、処理部１は、照合に先立って、第ｎ層の入力パターンを記憶部５から読み取り（Ｓ１０５）、その入力パターンに基づき、第ｎ−１層〜第０層での各入力パターンＩ^ｊをウェーブレット変換をして求め、それを記憶部５に記憶する（ｗａｖｅｌｅｔ_ｔｒａｎｓｆｏｒｍ）（Ｓ１０７）。ここで、第ｎ層が最上の解像度、入力パターンの解像度の値を示している。なお、実際には、複数の解像度の異なる特徴パターンとある解像度での入力パターンとの解像度レベルを調節する必要がある場合が考えられるが、この実施の形態では、相互の解像度レベルが整合したと暗黙に仮定している。

図６に、多重照合による画像認識方法のフローチャートを示す。
以下のような前処理の後に、処理部１は、第０層（レベル０）での入力パターン（入力画像）Ｉ^０と特徴パターン（テンプレート）Ｏ^０を記録部から読みとる（Ｓ１５１）。次に、処理部１は、入力パターンＩ^０と特徴パターンＯ^０との照合を行うための注視領域（ｆｏｃｕｓｄｏｍａｉｎ）ＦＤ^０を定める（ｇｅｔ_ｆｏｃｕｓ_ｄｏｍａｉｎ）（Ｓ１５３）。ここで、注視領域とは、特徴パターンのテンプレートと一番一致したところであり、例えば、その一致したテンプレートの位置を中心にして（又はその位置を含み）テンプレートの予め定められた何倍かの大きさの領域を計算して決めることができる。
さらに、処理部１は、領域ＦＤ^０に対応する第１層（レベル１）の探索範囲としての仮の注視領域ＦＤ^１を求める逆注視（ｂａｃｋ_ｆｏｃｕｓ）を行う（Ｓ１５５）。そのためには、処理部１は、例えば、第０層から第１層への領域の伸張度合いに従って注視領域ＦＤ^０を拡張してＦＤ^１とすることができる。また、処理部１は、領域ＦＤ^０に対応する第１層の領域内の演算要素ｃ_γ ^１に対してエネルギー加算を逆注視で行う。

ここで、逆注視とは、第ｊ−１層のＦＤ^ｊ−１をレベルの異なる第ｊ層に送る時に画素の解像度が異なるので、その大きさを計算して領域ＦＤ^ｊを決めるものである。なお、ここでは、圧縮の方向とは逆の方向に注視の方向があるので逆注視という。実際は、例えば、領域の四角形の頂点座標を拡大して求めることができる。この時に、第ｊ層のＦＤ^ｊとして指定されたことの効果を出すためには、例えば、第ｊ層のｃ^ｊのエネルギー項に第ｊ−１層の対応するｃ^ｊ−１のエネルギー値を加算する。
以上の前準備をした後に、処理部１は、テンプレート・マッチング処理（ｔｅｍｐｌａｔｅ_ｍａｔｃｈｉｎｇ）を再帰的に呼び出して照合を行う。テンプレート・マッチングでは、まず、処理部１は、ｊ＝１に初期設定する。次に、処理部１は層（レベル）がｎより大きくないか判断する（Ｓ２０１）。処理部１は、記憶部５から第ｊ層の入力パターンと特徴パターン（テンプレート）を読みとる（Ｓ２０３）。つぎに、処理部１は、第ｊ−１層の注視領域ＦＤ^ｊ−１から第ｊ層での探索範囲として求められた、仮の注視領域ＦＤ^ｊを記憶部５から読み取って、設定する（ｇｅｔ_ｆｏｃｕｓ_ｄｏｍａｉｎ）（Ｓ２０５）。次に、第ｊ層において、領域ＦＤ^ｊ内で、特徴パターンと探索範囲とが一致する場所を走査等により探索して、その場所に基づきテンプレートの位置を中心として又はその位置を含む予め定められた範囲の領域を第ｊ層の注視領域として設定し、位置情報や大きさ等の領域を定める情報を記憶部５に記憶する（Ｓ２０７）。ここで、処理部１は、テンプレートと入力パターンの選択された部分とが関係しているかを調べる。処理部１は、与えられた判定基準を満たさないときテンプレートと関係ないと判定する。ここで、判定基準としては、例えば、次のような処理が挙げられる。

（１）テンプレートとの一致度をしきい値により判断すること（一致度が小さい程一致しているときはしきい値以上、一致度が大きい程一致しているときはしきい値以下）
ここで、一致度については、処理部１は、各処理部１が求めた領域について、一致度に基づき、最適な第ｊ層の注視領域ＦＤ^ｊを比較及び選択し設定する。例えば上述の（９）式のＤ_αβ ^ｊが最小になる場所Ｐを探し注視領域ＦＤ^ｊ候補を定めることができる。
（２）処理部１が、テンプレートを作って、テンプレートと同程度の大きさのものが作れたとき成功と判断すること
ここで、処理部１は、第ｊ層のテンプレートの中で、一番一致している画素と対応している第ｊ層の入力画像の画素を基点にして、第ｊ層の入力画像の画素を上下左右方向にテンプレートの大きさに応じて取り込むようにして新テンプレート領域として拡張していく。処理部１は、この領域を拡張する時に新たに含まれる画素が新テンプレート領域として妥当かどうかを評価する。この評価は与えられた計算式と閾値で行われる。たとえば、画素エネルギーの計算式とその閾値などである。こうして作成した新テンプレートと元のテンプレートとを比較して、類似のものが作成できた時、たとえば、新テンプレートの大きさや新テンプレートと元のテンプレートとの一致度などを比較する。類似性の比較としては、他に、簡単な場合としては色の類似性や変化割合の程度、明暗の類似性や変化割合の程度が考えられる。さらに、複雑な場合には、形状（縦線、横線）などの図形情報、色の組み合わせなどの統計量による判断など、様様なものが考えられる。処理部１は、求めた新テンプレートを記憶部５に、必要に応じて記憶する。なお、新テンプレートを元のテンプレートに置き換えてもよい。

次に、処理部１は、エネルギー加算を行うこと等により、注視領域ＦＤ^ｊを第ｊ＋１層に逆写像して逆注視を行い、第ｊ＋１層の仮の注視領域を定める情報等の計算結果を記憶部５に記憶する（ｂａｃｋ_ｆｏｃｕｓ）（Ｓ２０９）。処理部１は、再帰的に上述のような照合をテンプレート・マッチング（ｔｅｍｐｌａｔｅ_ｍａｔｃｈｉｎｇ）により行いレベルを増加させて（Ｓ２１１）、第ｎ層まで進めれば、照合が成功したと判定し（Ｓ２０１）、テンプレート・マッチング処理を終了する。
次に、処理部１は、以上の計算により特定された領域を記憶部５から読み出し、表示部４に表示及び／又は出力部３により出力する（Ｓ２１３）。なお、処理部１は、中間結果及び最終結果を、必要に応じて、適宜記憶部５に、書き込み及び記憶部５から読み取るようにしてもよい。
また、ステップＳ２０７において、処理部１は注視領域の候補として、不要な領域を取り除くために、一例として、非特許文献３での照合候補を刈り取る式をテンプレートの再構築（ｒｅｓｔｒｕｃｔ_ｔｅｍｐｌａｔｅ）で使用することができる。テンプレートの再構築とは、層の間で制御情報を伝播させてテンプレートを再構築する処理である。このテンプレートの再構築は、上述の判定基準の（２）で説明したテンプレートの再構築のことであり、再構築に成功したかどうかを返り値として返す。
本実施の形態では刈り取る式の否定を取り、照合候補の選択条件を

とする。この条件式を満たせば、次に、エネルギー値の上限・下限のしきい値内に入る領域を切り出して注視領域ＦＤ^ｊの作成を試みる。一方、この式を満たさなければ、照合候補として選択しない。処理部１は、特徴パターンより大きい注視領域ＦＤ^ｊが得られれば、テンプレートの再構築（ｒｅｓｔｒｕｃｔ_ｔｅｍｐｌａｔｅ）が成功したとする。
ここで、「刈り取る式の否定を取る」について補足する。一般に、対象候補から外す事を探索木から刈り取るという。本実施の形態では、（９）式の一致度が大きくなると似ていないことになるので、（１４）式の第ｊ−１層から第ｊ層に変えた時にＤ^ｊが大きくなってしまったら、その領域を候補から外せばよいことになる。その時の不等号は、Ｄ^ｊ＞Ｄ^ｊ−１となる。この条件の否定をとる、すなわち、不等号を反転させると（１４）式になる。

図７に、多重照合システムの擬似コードを示す。このプログラムは上述のフローチャートをコード化した一例である。
なお、このコードではパラメータは次のように対応している。
入力パターン：ｉ０、ｉ１
特徴パターン（テンプレート）：ｏｊ、ｏ１
第ｎ層：Ｌｅｖｅｌ
第ｊ層：ｌｖｌ

図８にテンプレート・マッチングのためのシストリック型アーキテクチャの構成図を示す。また、図９にプロッセッシングエレメントの入力出力を示す説明図を示す。
処理部１によるテンプレート・マッチングは、例えば、このようなシストリック型アーキテクチャにより、並列演算処理を行うことができる。このアーキテクチャは、デジタルクリップフロップＤＦＦ１１、マルチプレクサＭＵＸ１２、プロッセシングエレメントＰＥ１３、比較器１４を備える。ＤＦＦ１１はテンプレートの開始位置をずらす。ＭＵＸ１２は入力画像の開始ブロックを選択する。ＰＥ１３は一致計算をする。各ＰＥ１３において、ａ_ｉｎはテンプレート入力、ｂ_ｉｎは入力画像の入力、ｓｕｍ_ｏｕｔは画素の計算結果（式の各項）をそれぞれ示す。入力画像データ（入力パターン）の各データ、Ｂ１、Ｂ２、Ｂ３は画像の部分並列処理のために分割してある。各ＰＥ１３は、入力パターンファイル５２からの入力画像データと、特徴パターンファイル５３からのテンプレートとの一致計算を行う。例えば、特徴パターンのテンプレート入力ａ_ｉｎ（ｉ）（ｉ＝１、２、・・・、２５６）、入力パターンの画像入力ｂ_ｉｎ（ｉ）とすると、次式により一致度の計算を行い、計算結果をｓｕｍ_ｏｕｔに集積する。この計算は、複数ＰＥによる並列演算処理により、実行される。比較器は、複数ＰＥの中からこの一致度計算により得られたｓｕｍ_ｏｕｔに対して最も一致度の高い位置を選択する。

図８で並べられたＤＦＦ１１のｉ番目をＤＦＦ_ｉとする。ＤＦＦ_ｉはＰＥと同数個あり、その個数分だけ並列に処理をする。テンプレート画像データａ_ｉｎはＤＦＦ_０、ＤＦＦ_１を次々に伝播して、ある時間では、ＤＦＦ列に対して、ａ（Ｉ）、ａ（Ｉ−１）、ａ（Ｉ−２）、ａ（Ｉ−３）、ａ（Ｉ−４）、ａ（Ｉ−５）、・・・と値が伝播している。この状態の時に、入力画像ｂ_ｉｎ（ｊ）は並列に全ＰＥ１３に対して入力される。同時に、全ＤＦＦ１１からも、異なるａ（Ｉ−ｋ）の値がＰＥに入力され、ｂ_ｉｎ（ｊ）とａ（Ｉ−ｋ）との間で（８）式による一致度の計算が行われる。これは、ｂ_ｉｎ（ｊ＋ｋ−Ｉ）にたいして、ａ（０）からのテンプレートとマッチング処理を行う事であり、同時に異なる位置からテンプレート・マッチングを行っている事になる。

４．実験モデル
図１０に、Ｌｅｎｎａ入力画像と目テンプレートの図を示す。
粗い分解能レベルで行った入力パターンと特徴パターンとの照合結果を用いて密な分解能での照合領域を選択する実験を行った。関数ｆにはＨａａｒウェーブレット変換、関数ｇには逆Ｈａａｒ変換を用いる。Ｄ_βα ^ｊで選択された領域に対して、回路のエネルギーｅ_β ^ｊを加算して照合の制御に使用する。入力パターンＩ_α ^４としてはＬｅｎｎａカラー画像（図１０（ａ））を用いる。そのＲＧＢ成分は各８ビットであり、ＲＧＢ成分毎にウェーブレット変換を４回行う。各層（ｊ＝３〜０）でのＲＧＢ成分の（スケーリング係数を含めた）ウェーブレット係数Ｗ_α ^ｊ（Ｒ，Ｇ，Ｂ）を記憶する。特徴パターンＯ_β ^ｊ（図１０（ｂ））は手動で、入力画像の一部を切り出して作成し、入力画像と同様にウェーブレット変換を行い、各層毎に記憶する。

４．１一致度計算
一致度の計算テンプレート・マッチング（ｔｅｍｐｌａｔｅ_ｍａｔｃｈｉｎｇ）にはｃ_γ ^ｊでのＲＧＢ成分から、以下の式

に従って、輝度Ｙ、色差Ｃｒ、Ｃｂ、エネルギーｅ_γ ^ｊを計算して使用する。特徴パターンＯ_β ^ｊと入力画像Ｉ_α ^ｊから取り出した、（左上隅の）座標ｘ_１の部分パターンＩ_α１ ^ｊ（ｘ１）との一致度計算は、各成分の差の絶対値を特徴パターンの画素毎に

を計算し、混合係数Ｋ_ｃで重み付けを行い、差分

を求める。次にｃ_βｋ毎の差分Δの和を求めて一致度

を得る。この一致度が最小となる部分パターンＩ^ｊ _{ｓｅｌｅｃｔｅｄ}（ｘ_ｓ）がＵ_ｊ層で最適であるとして、その領域が選ばれる。この実験で肌色（ｓｋｉｎ−ｃｏｌｏｒ）として認識される領域はＹＣｒＣｂ色空間内に分布している（非特許文献４）。
この文献での肌色領域はＹ軸方向では２１０−４０＝１７０の幅に分布しているのに対し、ＣｒＣｂ平面に射影して得た領域の広がりは（１３０−８０）ｘ（１７０−１３０）＝５０ｘ４０である。この領域の広がりが一致度に寄与し、その比は１７０／５０＝３．４〜１７０／４０＝４．２５である。そこで、ｄＹとｄＣｒ、ｄＣｂとの寄与度を同等にするために導入したのが混合係数Ｋｃである。このＫｃを変化させて実験を行いＫｃ＝４を得た。この値は肌色領域の広がりから予測される値と一致する。また、このＫｃは特徴パターンに依存する調整パラメータと考えられる。Ｌｅｎｎａ画像では、Ｋｃの値を変化させてもＫｃの効果は小さく、いずれの場合でも照合は成功する。しかし、Ｌｅｎｎａ画像と比較して暗い領域と明るい窓領域があり輝度分布に偏りがあるｇｉｒｌ画像（後述の図１３（ａ））では、Ｋｃ＝１．０と輝度の効果を大きくすると輝度値が大きい窓領域が誤認識される。他方、Ｋｃ＝１０と色差の効果を大きくすると赤いマフラーと首の領域が誤認識される場合がある。

４．２実験結果
非特許文献３では、候補の刈り取りを行い計算量を削減することのみが検討課題であり、生き残った候補の中から正しい候補が得られるものと考えている。したがって、層毎に独立して一致度計算を行うので、粗い特徴パターンで大まかに正しい候補を選ぶという多重分解能原理を十分に反映していない。本実施の形態の逆注視の機構は、ｊ層の一致度計算にｊ−１層の一致度計算結果を直接反映させるものである。この機能を確かめるために、逆注視（ｂａｃｋ_ｆｏｃｕｓ）の効果がある場合と、非特許文献３と同じように無い場合との比較を行った。
図１１に、目テンプレートによる注視領域の探索の図を示す。この図は、逆注視の効果を示す比較結果を表す。
この図は、注視領域設定（ｇｅｔ＿ｆｏｃｕｓ＿ｄｏｍａｉｎ）で最適位置を得た結果の場所に一致度計算に使用した特徴パターンを置いたものである。この図では、粗い第０層から第３層まで順に注視領域設定（ｇｅｔ_ｆｏｃｕｓ_ｄｏｍａｉｎ）で得た場所Ｐで、目のテンプレートを重ねて表示してある。左列（ａ）−（ｄ）が逆注視が無い場合であり、右列（ｅ）−（ｈ）が逆注視がある場合である。左側の列は、逆注視処理（ｂａｃｋ＿ｆｏｃｕｓ）をしないで各レベルで、各解像度の特徴パターンで探索した結果である。一方、右側の列は、その注視領域を逆注視処理（ｂａｃｋ＿ｆｏｃｕｓ）で次のレベルの注視領域として指定して、その注視領域内で探索を注視領域設定（ｇｅｔ＿ｆｏｃｕｓ＿ｄｏｍａｉｎ）で行い、得られた最適位置を次のレベルのために注視領域を再計算して、また、逆注視処理（ｂａｃｋ＿ｆｏｃｕｓ）する、と繰り返した結果である。このように、右列では前層で得られた注視領域からのエネルギー値加算により注視領域の制御が成功している。

図１２は、図１１の処理で得られた注視領域の再構成の説明図を示す。この図は、逆注視処理（ｂａｃｋ＿ｆｏｃｕｓ）で次のレベルでの探索領域として指定するために再計算した結果である。左列（ａ）−（ｄ）が逆注視が無い場合であり、右列（ｅ）−（ｈ）が逆注視がある場合である。図（ｆ）のレベルで探索を開始する時点では、図（ｅ）のレベルで示した注視領域で最適な位置を探す。最適な位置が定まると、図（ｆ）で示した注視領域を特徴パターンを元に再構成して図（ｇ）のレベルでの探索領域とする。この再構成の方法は、例えば、実際には、画像として連結している部分を切り出すアルゴリズムを独自に考案して使うことができ、この時に、エネルギー値の変化量や閾値処理をしながら、領域を拡大させる処理をする。
このように、逆注視効果がある右列の場合には入力レベル第３層の入力パターンで顔上半部の注視領域の再構成に成功している。他方、逆注視が無い非特許文献３の手法（左列）では、顔上半部の再構成に失敗している。枝刈後に残った候補の中で一致度が最小のものを選ぶだけなので、計算時間は短縮されてはいるが、候補選択には寄与していないためである。
図１３に、ＧｉｒｌとＢａｌｏｏｎ入力画像で得た注視領域の図を示す。このアルゴリズムの頑健性を見るために、Ｌｅｎｎａの目のテンプレートを使って、Ｇｉｒｌ及びＢａｌｏｏｎの入力パターンに対して実験を行った。注視領域としては図（ａ）、（ｂ）が期待通り得られた。

５．おわりに
ｇｅｔ_ｆｏｃｕｓ_ｄｏｍａｉｎでは照合に最適な場所を（１２）式で探しているが、輝度Ｙと共に色差情報Ｃ_ｒ、Ｃ_ｂによる効果が寄与している。他方、再構成時には、エネルギー値に組み込まれた輝度Ｙの他にエッジ成分であるウェーブレット係数が寄与している。逆注視効果無しでは、エネルギー値の変動が大きいために微小領域しか得られない。他方、逆注視効果有りでは、粗い層から平均化されたエネルギーが加算されたので、エッジ成分を含めたエネルギー変化が緩和されたと考えられる。同時に、探索範囲を限定することで多重分解能原理を反映させると共に、注視領域の全領域に対する割合だけ照合処理時間が改善されている。たとえば、図１２−（ｇ）では、ほぼ１／９程度になる。しかし、一般的には、各層での計算量のオーダーは１／ｋ^３（ｋ＝２）と非特許文献３とほぼ同等かそれ以下である。今回の実験では手動で作成したテンプレートにより本発明の効果が確認できた。
本発明の画像認識方法又は画像認識の装置・システムは、その各手順をコンピュータに実行させるための画像認識プログラム、画像認識プログラムを記録したコンピュータ読み取り可能な記録媒体、画像認識プログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、等により提供されることができる。

本発明は、画像認識、音声認識など、認識装置を必要とする分野、画像データからデータを取り出すデータ・マイニング分野、大量のシミュレーションデータを解析して分析を行う分野等に適用可能である。

入力信号空間と特徴空間の説明図である。変換画像と各層についての説明図である。画像認識装置に関するハードウェアの構成図である。多重照合には画像認識方法の処理概要についての説明図である。多重照合による画像認識方法の前処理のフローチャート図である。多重照合による画像認識方法のフローチャート図である。多重照合システムの擬似コードを示す図である。テンプレート・マッチングのためのシストリック型アーキテクチャの構成図である。プロッセッシングエレメントの入力出力を示す説明図である。Ｌｅｎｎａ入力画像と目テンプレートの図である。目テンプレートによる注視領域の深索図である。図１１の処理で得られた注視領域の再構成の説明図である。ＧｉｒｌとＢａｌｏｏｎ入力画像で得た注視領域の図である。

符号の説明

１処理部
２入力部
３出力部
４表示部
５記憶部
５１パラメータファイル
５２入力パターンファイル
５３特徴パターンファイル

Claims

異なる分解能で画像のテンプレート・マッチングを行い、粗い分解能から密な分解能へマッチングの対象領域を絞り込む画像認識装置において、
入力画像である密な分解能の第ｎ層入力パターンと、第ｎ層入力パターンを多段階に粗い分解能へ圧縮した第ｎ−１〜０層入力パターンと、入力パターンの部分パターンに対応する予め定められたテンプレートを圧縮又は展開した、各層の入力パターンと同一の分解能の、入力パターンの部分パターンに対応する、テンプレート・マッチングのための第ｎ〜０層特徴パターンとを記憶した記憶部と、
前記記憶部からデータを読み取り及び前記記憶部にデータを書き込み、テンプレート・マッチングを実行する処理部と
を備え、
前記処理部は、第０層入力パターン及び第０層特徴パターンを前記記憶部から読みとる手段と、
前記処理部は、第０層入力パターン内で第０層特徴パターンを走査して、走査した各位置での画素に対して、特徴パターンと入力パターンについて、ウェーブレット関数の演算要素でのＲＧＢ成分から、輝度及び色差をそれぞれ計算し、特徴パターンと入力パターンとの輝度の差の絶対値及び色差の差の絶対値を特徴パターンの画素毎に計算し、輝度の差の絶対値と色差の差の絶対値を混合係数Ｋｃで重み付した値とを加算して画素毎の入力パターンと特徴パターンの差分を求め、特徴パターン全体の該差分の和を求めて一致度を求め、該一致度に基づき第０層入力パターン内で第０層特徴パターンが一番一致する領域である第０層注視領域ＦＤ^０を設定する手段と、
前記処理部は、レベルの異なる層に注視領域を送るときに分解能の差異に従って該注視領域を拡大して第０層注視領域ＦＤ^０に対応する仮の第１層注視領域ＦＤ^１を求めるための逆注視処理を実行し、該仮の第１層注視領域ＦＤ^１を定める情報を前記記憶部に記憶する手段と、
前記処理部は、再帰的に層レベルｊ＝１からｊ＝ｎまでテンプレート・マッチング処理を実行する手段であって、該テンプレート・マッチング処理を実行する手段は、
（１）前記処理部は、前記記憶部から第ｊ層入力パターン及び第ｊ層特徴パターンを読みとる手段と、
（２）前記処理部は、第ｊ層での探索範囲として仮の第ｊ層注視領域ＦＤ^ｊを定める情報を前記記憶部から読みとり、設定する手段と、
（３）前記処理部は、第ｊ層入力パターンの仮の第ｊ層注視領域ＦＤ^ｊ内で、第ｊ層特徴パターンを走査して、走査した各位置での画素に対して、特徴パターンと入力パターンについて、ウェーブレット関数の演算要素でのＲＧＢ成分から、輝度及び色差をそれぞれ計算し、特徴パターンと入力パターンとの輝度の差の絶対値及び色差の差の絶対値を特徴パターンの画素毎に計算し、輝度の差の絶対値と色差の差の絶対値を混合係数Ｋｃで重み付した値とを加算して画素毎の入力パターンと特徴パターンの差分を求め、特徴パターン全体の該差分の和を求めて一致度を求め、該一致度に基づき第ｊ層入力パターン内で第ｊ層特徴パターンが最も一致する場所を探索し、該一致する場所に基づき第ｊ層特徴パターンを含む所定範囲の領域を第ｊ層注視領域ＦＤ^ｊとして定め、該注視領域を定める情報を前記記憶部に記憶する手段と、
（４）前記処理部は、第ｊ層と第ｊ＋１層の分解能の差異に従って第ｊ層注視領域を拡大して該第ｊ層注視領域ＦＤ^ｊに対応する仮の第ｊ＋１層注視領域ＦＤ^ｊ＋１を求めるための逆注視処理を実行し、該仮の第ｊ＋１層注視領域を定める情報を前記記憶部に記憶する手段と、
を含み、再帰的に照合を行い層レベルｊを増加させて第ｎ層まで進めるようにした前記テンプレート・マッチング処理を実行する手段と、
前記処理部は、第ｎ層での探索結果に従い、マッチングした領域を定める情報を表示部に表示及び／又は出力部により出力する手段と、
を含む画像認識装置。
前記処理部は、第ｎ層の特徴パターンを前記記憶部から読み取る手段と、
前記処理部は、第ｎ−１層〜第０層での各特徴パターンを多段階にウェーブレット変換して求め、それらを前記記憶部に記憶する手段と、
前記処理部は、第ｎ層の入力パターンを前記記憶部から読み取る手段と、
前記処理部は、第ｎ−１層〜第０層での各入力パターンを多段階にウェーブレット変換をして求め、それらを前記記憶部に記憶する手段と、
を含む請求項１に記載の画像認識装置。
前記処理部は、Ｈａａｒウェーブレット変換により解像度の異なる各層の入力パターン及び特徴パターンを計算するようにした請求項１に記載の画像認識装置。
前記処理部は、第ｊ層注視領域を、一致したテンプレートの位置を中心にして又は一致したテンプレートの位置を含み、テンプレートの予め定められた倍数の大きさの領域を計算して、仮の第ｊ＋１層注視領域を決めるようにした請求項１に記載の画像認識装置。
前記処理部は、テンプレート・マッチングのために、シストリック型アーキテクチャを用いることで、部分並列演算処理を実行する請求項１に記載の画像認識装置。
入力画像である密な分解能の第ｎ層入力パターンと、第ｎ層入力パターンを多段階に粗い分解能へ圧縮した第ｎ−１〜０層入力パターンと、入力パターンの部分パターンに対応する予め定められたテンプレートを圧縮又は展開した、各層の入力パターンと同一の分解能の、入力パターンの部分パターンに対応する、テンプレート・マッチングのための第ｎ〜０層特徴パターンとを記憶した記憶部と、
前記記憶部からデータを読み取り及び前記記憶部にデータを書き込み、テンプレート・マッチングを実行する処理部と
を備えた画像認識装置を用いて、異なる分解能で画像のテンプレート・マッチングを行い、粗い分解能から密な分解能へマッチングの対象領域を絞り込む画像認識方法において、
前記処理部は、第０層入力パターン及び第０層特徴パターンを前記記憶部から読みとるステップと、
前記処理部は、第０層入力パターン内で第０層特徴パターンを走査して、走査した各位置での画素に対して、特徴パターンと入力パターンについて、ウェーブレット関数の演算要素でのＲＧＢ成分から、輝度及び色差をそれぞれ計算し、特徴パターンと入力パターンとの輝度の差の絶対値及び色差の差の絶対値を特徴パターンの画素毎に計算し、輝度の差の絶対値と色差の差の絶対値を混合係数Ｋｃで重み付した値とを加算して画素毎の入力パターンと特徴パターンの差分を求め、特徴パターン全体の該差分の和を求めて一致度を求め、該一致度に基づき第０層入力パターン内で第０層特徴パターンが一番一致する領域である第０層注視領域ＦＤ^０を設定するステップと、
前記処理部は、レベルの異なる層に注視領域を送るときに分解能の差異に従って該注視領域を拡大して第０層注視領域ＦＤ^０に対応する仮の第１層注視領域ＦＤ^１を求めるための逆注視処理を実行し、該仮の第１層注視領域ＦＤ^１を定める情報を前記記憶部に記憶するステップと、
前記処理部は、再帰的に層レベルｊ＝１からｊ＝ｎまでテンプレート・マッチング処理を実行するステップであって、該テンプレート・マッチング処理を実行するステップは、
（１）前記処理部は、前記記憶部から第ｊ層入力パターン及び第ｊ層特徴パターンを読みとるステップと、
（２）前記処理部は、第ｊ層での探索範囲として仮の第ｊ層注視領域ＦＤ^ｊを定める情報を前記記憶部から読みとり、設定するステップと、
（３）前記処理部は、第ｊ層入力パターンの仮の第ｊ層注視領域ＦＤ^ｊ内で、第ｊ層特徴パターンを走査して、走査した各位置での画素に対して、特徴パターンと入力パターンについて、ウェーブレット関数の演算要素でのＲＧＢ成分から、輝度及び色差をそれぞれ計算し、特徴パターンと入力パターンとの輝度の差の絶対値及び色差の差の絶対値を特徴パターンの画素毎に計算し、輝度の差の絶対値と色差の差の絶対値を混合係数Ｋｃで重み付した値とを加算して画素毎の入力パターンと特徴パターンの差分を求め、特徴パターン全体の該差分の和を求めて一致度を求め、該一致度に基づき第ｊ層入力パターン内で第ｊ層特徴パターンが最も一致する場所を探索し、該一致する場所に基づき第ｊ層特徴パターンを含む所定範囲の領域を第ｊ層注視領域ＦＤ^ｊとして定め、該注視領域を定める情報を前記記憶部に記憶するステップと、
（４）前記処理部は、第ｊ層と第ｊ＋１層の分解能の差異に従って第ｊ層注視領域を拡大して該第ｊ層注視領域ＦＤ^ｊに対応する仮の第ｊ＋１層注視領域ＦＤ^ｊ＋１を求めるための逆注視処理を実行し、該仮の第ｊ＋１層注視領域を定める情報を前記記憶部に記憶するステップと
を含み、前記処理部が、再帰的に照合を行い層レベルｊを増加させて第ｎ層まで進めるようにした前記テンプレート・マッチング処理を実行するステップと、
前記処理部は、第ｎ層での探索結果に従い、マッチングした領域を定める情報を表示部に表示及び／又は出力部により出力するステップと、
を含む画像認識方法。
異なる分解能で画像のテンプレート・マッチングを行い、粗い分解能から密な分解能へマッチングの対象領域を絞り込む、コンピュータで実行される画像認識プログラムであって、
前記コンピュータの処理部が、入力画像である密な分解能の第ｎ層入力パターンと、第ｎ層入力パターンを多段階に粗い分解能へ圧縮した第ｎ−１〜０層入力パターンと、入力パターンの部分パターンに対応する予め定められたテンプレートを圧縮又は展開した、各層の入力パターンと同一の分解能の、入力パターンの部分パターンに対応する、テンプレート・マッチングのための第ｎ〜０層特徴パターンとを記憶した記憶部から、第０層入力パターン及び第０層特徴パターンを読みとるステップと、
前記処理部が、第０層入力パターン内で第０層特徴パターンを走査して、走査した各位置での画素に対して、特徴パターンと入力パターンについて、ウェーブレット関数の演算要素でのＲＧＢ成分から、輝度及び色差をそれぞれ計算し、特徴パターンと入力パターンとの輝度の差の絶対値及び色差の差の絶対値を特徴パターンの画素毎に計算し、輝度の差の絶対値と色差の差の絶対値を混合係数Ｋｃで重み付した値とを加算して画素毎の入力パターンと特徴パターンの差分を求め、特徴パターン全体の該差分の和を求めて一致度を求め、該一致度に基づき第０層入力パターン内で第０層特徴パターンが一番一致する領域である第０層注視領域ＦＤ^０を設定するステップと、
前記処理部が、レベルの異なる層に注視領域を送るときに分解能の差異に従って該注視領域を拡大して第０層注視領域ＦＤ^０に対応する仮の第１層注視領域ＦＤ^１を求めるための逆注視処理を実行し、該仮の第１層注視領域ＦＤ^１を定める情報を前記記憶部に記憶するステップと、
前記処理部が、再帰的に層レベルｊ＝１からｊ＝ｎまでテンプレート・マッチング処理を実行するステップであって、該テンプレート・マッチング処理を実行するステップは、
（１）前記処理部が、前記記憶部から第ｊ層入力パターン及び第ｊ層特徴パターンを読みとるステップと、
（２）前記処理部が、第ｊ層での探索範囲として仮の第ｊ層注視領域ＦＤ^ｊを定める情報を前記記憶部から読みとり、設定するステップと、
（３）前記処理部が、第ｊ層入力パターンの仮の第ｊ層注視領域ＦＤ^ｊ内で、第ｊ層特徴パターンを走査して、走査した各位置での画素に対して、特徴パターンと入力パターンについて、ウェーブレット関数の演算要素でのＲＧＢ成分から、輝度及び色差をそれぞれ計算し、特徴パターンと入力パターンとの輝度の差の絶対値及び色差の差の絶対値を特徴パターンの画素毎に計算し、輝度の差の絶対値と色差の差の絶対値を混合係数Ｋｃで重み付した値とを加算して画素毎の入力パターンと特徴パターンの差分を求め、特徴パターン全体の該差分の和を求めて一致度を求め、該一致度に基づき第ｊ層入力パターン内で第ｊ層特徴パターンが最も一致する場所を探索し、該一致する場所に基づき第ｊ層特徴パターンを含む所定範囲の領域を第ｊ層注視領域ＦＤ^ｊとして定め、該注視領域を定める情報を前記記憶部に記憶するステップと、
（４）前記処理部が、第ｊ層と第ｊ＋１層の分解能の差異に従って第ｊ層注視領域を拡大して該第ｊ層注視領域ＦＤ^ｊに対応する仮の第ｊ＋１層注視領域ＦＤ^ｊ＋１を求めるための逆注視処理を実行し、該仮の第ｊ＋１層注視領域を定める情報を前記記憶部に記憶するステップと
を含み、前記処理部が、再帰的に照合を行い層レベルｊを増加させて第ｎ層まで進めるようにした前記テンプレート・マッチング処理を実行するステップと、
前記処理部が、第ｎ層での探索結果に従い、マッチングした領域を定める情報を表示部に表示及び／又は出力部により出力するステップと、
をコンピュータに実行させるための画像認識プログラム。