JP2004062719A - Image processor - Google Patents
Image processor Download PDFInfo
- Publication number
- JP2004062719A JP2004062719A JP2002222712A JP2002222712A JP2004062719A JP 2004062719 A JP2004062719 A JP 2004062719A JP 2002222712 A JP2002222712 A JP 2002222712A JP 2002222712 A JP2002222712 A JP 2002222712A JP 2004062719 A JP2004062719 A JP 2004062719A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- conversion
- partial
- partial conversion
- transformation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、画像処理装置、特に画像データからのパターン検出が容易となるように行う前処理に関する。
【0002】
【従来の技術】
計算機を用いて、画像データから、特定のパターンを識別するためには、パターンそのものの形状の検出を確実に行う必要と、含まれているパターンのサイズや回転角度等が様々であることに対応する必要とがある。
【0003】
前者に対する従来例としては、線形部分空間法、サポートベクトルマシン(SVM)法、カーネル非線形部分空間法などがある。線形部分空間法では、複数のカテゴリ毎に部分空間を定め、未知のパターンがどの部分空間に最も関連しているかを評価し、そのパターンの属するカテゴリを判定している。しかし、この方法においては、カテゴリが多く、パターンの次元が低い場合には、検出精度が低下してしまう。また、非線形性をもつパターン分布に対する識別精度も低いという問題がある。
【0004】
SVM法は、カーネル関数を媒介に定義した非線形変換により、低次元のパターンを高次元に写像することで、非線形性をもつパターン分布の識別を可能とする方法である。しかし、2つのカテゴリの分類しか行うことができない点や、必要な計算量が多い点に問題を抱える。
【0005】
カーネル非線形部分空間法は、これらの問題を解決するパターン識別方法として考案され、特開2002−90274公報に開示されている。この方法は、SVM法と同様に、カーネル関数を用いて定義した非線形変換によりパターンを高次元空間に写像し、この高次元空間上で部分空間法を実施している。
【0006】
後者、つまり、様々なサイズや回転角度をもったパターンに対しては、従来は、非常に多くの学習サンプルを用いることで対応してきた。すなわち、上で述べた各パターン識別法などは、一般に特徴的なパターンをもつ学習サンプルを用いて、その特徴を示すカテゴリの分布を定めていく学習をおこなう。そこで、この学習サンプルとして、サイズや角度が様々に変えられたパターンを用いるだけでなく、サイズと角度を組み合わせた変形がなされた非常に多くのパターンについても用いる必要があった。
【0007】
【発明が解決しようとする課題】
しかしながら、前記カーネル非線形部分空間法では、部分空間を張る基底ベクトルが、全学習サンプルの非線形空間への写像に基づいて定義されるため、学習サンプルが多くなると、依然として多くの計算が必要となる問題があった。また、上で述べたように、従来は、汎用的なパターン識別を行うためには、非常に多くの学習サンプルをもちいなければならない問題があった。本発明の課題は、画像中で、サイズや回転角度などが様々であることが多い人間や動物の顔パターンを、高速かつ高精度に識別する手段を確立する点にある。
【0008】
【課題を解決するための手段】
本発明の画像処理装置は、与えられた画像データ中の顔パターンに対してパターン識別手段が識別を行えるように、識別が実施可能となる条件下へと画像データを正規化変換する画像処理装置において、正規化変換を分割した複数の部分変換に対しそれぞれ設けられ、並列配置された部分変換検出手段と、各部分変換検出手段に設けられた部分変換評価手段であって、学習サンプルを用いた学習結果と画像データとの比較に基づいて、画像データを正規化するために必要となる部分変換の大きさ、及び、その変換にともなう推定誤差を評価する部分変換評価手段と、全ての部分変換評価手段の中で最も小さい推定誤差を与える部分変換検出手段を判定し、それに対応する部分変換を画像データに施す変換実施手段と、を備え、前記部分変換評価手段における学習結果と画像データとの比較は、非線形変換によって定義された空間において行われ、前記変換実施手段は、画像データに対して少なくとも一回実行されることを特徴とする。
【0009】
また、本発明の画像処理装置は、部分変換検出手段が検出する部分変換には、サイズ、回転、シフトの少なくともひとつが含まれることを特徴とする。
【0010】
また、本発明の画像処理装置は、非線形変換はニューラルネットワークを用いた計算手段によって与えられることを特徴とする。
【0011】
また、本発明の画像処理装置は、非線形変換はカーネル関数を用いた計算手段によって与えられることを特徴とする。
【0012】
また、本発明の画像処理装置は、画像データに空間フィルタを施して粗視化する粗視化手段を有し、部分変換検出手段においては粗視化された画像データが用いられることを特徴とする。
【0013】
また、本発明の画像処理装置は、各部分変換検出手段の演算は装置内に設けられた並列演算装置により並列的に処理されることを特徴とする。
【0014】
また、本発明の画像処理方法は、与えられた画像データ中の顔パターンに対してパターン識別方法により識別を行えるように、識別が実施可能となる条件下へと画像データを正規化変換する画像処理方法において、正規化変換を分割した複数の部分変換に対しそれぞれ設けられ、並列配置された部分変換検出工程段と、各部分変換検出工程に設けられた部分変換評価工程であって、学習サンプルを用いた学習結果と画像データとの比較に基づいて、画像データを正規化するために必要となる部分変換の大きさ、及び、その変換にともなう推定誤差を評価する部分変換評価工程と、全ての部分変換評価工程の中で最も小さい推定誤差を与える部分変換検出工程を判定し、それに対応する部分変換を画像データに施す変換実施工程と、を備え、前記部分変換評価工程における学習結果と画像データとの比較は、非線形変換によって定義された空間において行われ、前記変換実施工程は、画像データに対して少なくとも一回実行されることを特徴とする。
【0015】
また、本発明の画像処理プログラムは、コンピュータに、与えられた画像データ中の顔パターンに対してパターン識別手順が識別を行えるように、識別が実施可能となる条件下へと画像データを正規化変換させる画像処理プログラムにおいて、正規化変換を分割した複数の部分変換に対しそれぞれ設けられ、並列配置された部分変換検出手順と、各部分変換検出手順に設けられた部分変換評価手順であって、学習サンプルを用いた学習結果と画像データとの比較に基づいて、画像データを正規化するために必要となる部分変換の大きさ、及び、その変換にともなう推定誤差を評価する部分変換評価手順と、全ての部分変換評価手順の中で最も小さい推定誤差を与える部分変換検出手順を判定し、それに対応する部分変換を画像データに施す変換実施手順と、を含み、前記部分変換評価手順における学習結果と画像データとの比較は、非線形変換によって定義された空間において行われ、前記変換実施手順は、画像データに対して少なくとも一回実行されることを特徴とする。
【0016】
【発明の実施の形態】
以下に、本発明の好適な実施形態を図面を用いて説明する。図中、同一構成となるものについては説明を省略する。
【0017】
図1のブロック図は、本発明の実施の形態に係る装置の構成を示している。装置は、演算を行うCPU2をはじめ、記憶部4、利用者の指示入力部6、表示部8、データ入力部10、データ出力部12、およびアプリケーションソフトウエア入力部14を含む構成となっており、これらはデータを通信する通信網によって結ばれている。すなわち、この装置は、一般的なコンピュータ上で、本発明のアルゴリズムを記載したアプリケーションソフトウエアを実行することで実現される。利用者は、CD−ROM等の記憶媒体や、ネットワークを介して頒布されたアプリケーションソフトウエアを、そのアプリケーションソフトウエア入力部14を用いてコンピュータに入力し、キーボード等の指示入力部6を使ってCPU2に実行させる。CPU2の動作は、オペレーティングシステム(OS)と呼ばれるソフトウエアの管理下にあり、利用者ならびにアプリケーションソフトウエアの指示は、このOSを通じてCPU2に伝えられる。本実施形態のアプリケーションソフトウエアやOSを始めとする演算実行上必要な情報は、メモリやハードディスク等からなる記憶部4によって一時的または恒久的に保持される。また、実行にあたって必要となる画像データは、CCDカメラ、スキャナ、CD−ROM等の記憶媒体、あるいはネットワークによるデータ取得等のデータ入力部10を通して得られる。そして、必要な演算は、そして、必要な演算がCPU2によって成されると、処理された画像データは、MO等の記憶媒体、ネットワークによるデータ転送、プリンタ等のデータ出力部12を通じて出力される。また、利用者は、ディスプレイなどの表示部8によって、処理前後の画像データ等を見ることができる。
【0018】
図2は、CPU2によって行われる画像処理演算の概略を示すブロック図である。データ入力部10から入力された画像データは、画像正規化部20によって正規化変換を受け、さらにパターン識別部100によって詳細なパターンの識別をされる。なお、ここで言う正規化とは、顔パターンの大きさ、回転角度、位置、明るさなどの条件を、パターン識別部100の想定する状態(これを正規形と呼ぶことにする)へと変換することである。
【0019】
画像正規化部20で行われる正規化のための変換は基本的な部分変換からなる要素に分割されており、各部分変換をどのように行えばよいかは、それぞれの部分変換に対応した部分変換検出部26が算出する。図示した例では、画像データのサイズ(拡大と縮小)に関係したサイズ部分変換検出部26a、画像データの回転角度に関係した回転部分変換検出部26b、画像データのシフト(平行移動)に関係したシフト部分変換検出部26cの3つの部分変換検出部26を備える。これらの部分変換検出部26は、後で詳しく述べるように、画像データに粗視化のための空間フィルタを施して得た粗視データに対して部分変換の状態検出を行い、その結果を正規化処理部28に渡す。そして、正規化処理部28は、変換にともなう誤差が最も小さいと判定された変換を画像データに施す。この一連の過程は、通常何度か繰り返され、最終的には、サイズ、回転、シフトの全てについて正規化が行われることになる。もちろん、顔パターンの状況によっては、繰り返しを行わないことも可能である。
【0020】
パターン識別部100は、画像正規化部20によって正規化が行われた画像データに対し、空間フィルタを用いて様々な解像度の粗視データへと粗視化する処理を行い、さらにこの粗視データに対し、顔パターンの識別を行う顔識別部102を実行する。図示した例においては、主成分分析のモードを適当な次元だけ足し合わせる粗視化がなされており、25次元の粗視データに対する顔識別部102aと、100次元の粗視データに対する顔識別部102bをはじめ、その間の解像度にも複数の顔識別部102が設けられている。また、最も高い次元である100次元の粗視データに対し、顔パターン以外が含まれることを判定する反例検出部104が設けられている。後で詳細に記すように、顔パターンの識別は解像度が一番低い25次元の顔識別部102aから行われ、顔パターンがある可能性が高いと判定された場合には、次に低い解像度の顔識別部102が判定に用いられる。そして、最も解像度が高い100次元においても、顔パターンのある可能性が高いと判定された場合には、最後に反例検出が行われる。
【0021】
以下では、画像正規化部20とパターン識別部100の詳細な説明を行う。
【0022】
図3のブロック図は、画像正規化部20の構成の概略を示している。入力された画像データは、記憶部4に設けられた画像保持部30に保持される。そして、正規化用粗視化部32において、この画像データに対し空間解像度を落として大まかな特徴を取り出す粗視化を行い粗視データを得る。この粗視化のために用いる空間フィルタ手段は特に限定されないが、例えば、適当な画像データに対する主成分分析で得たモード成分のうち寄与率の大きな所定次元数のモード成分の和を算出する方法や、フーリエ分解を行い所定の解像度以上のモード成分を取り出す方法などを用いる。粗視化を行う理由は、データ量を減少させ、次に述べる正規化が高速で実行可能になることにある。
【0023】
続いて粗視データは、並列的に複数配置された部分変換検出部26に送られる。各部分変換検出部26では、図4に模式的に示したように、粗視データを画像空間G内のベクトルxであるとみなし、パターン識別のための非線形変換によって作られる空間Fに写像する。この空間Fに写像されたベクトルを写像ベクトルと呼ぶことにし、Φ(x)と書く。部分変換検出部26は、例えば、サイズと、回転と、シフトについて検出する場合には、サイズ部分変換検出部26a、回転部分変換検出部26b、シフト部分変換検出部26cからなる。そして、各部分変換検出部26には、正規化用部分空間学習部34、正規化用部分空間射影部36、部分変換評価部37が含まれ、さらに部分変換評価部37には変換の大きさ評価部38と推定誤差評価部40が含まれる。空間F内には、正規化用部分空間学習部34が学習サンプルを用いて事前に学習サンプルに特徴的なカテゴリを表す部分空間Ωを構築しており、写像ベクトルΦ(x)は、正規化用部分空間射影部36によって、この部分空間Ωに射影される。この射影されたベクトルを射影ベクトルと呼びΦ’(x)と表記する。そして、変換の大きさ評価部38は、射影ベクトルΦ’(x)が部分空間Ωを張る基底ベクトルのうちのどれに近いかを評価して、変換に必要な大きさを算出する。例えば、サイズ部分変換検出部26aにおいては、学習時に、基底ベクトルΦ1は約1.5倍の大きさをもつ学習サンプルの近傍にあり、他の基底ベクトルΦ2は約2倍の大きさをもつ学習サンプルの近傍にあるといった対応関係を示すルックアップテーブルを作成している。変換の大きさ検出部38aは、このルックアップテーブルを参照して、現在の顔パターンを正規形に変換するためには何倍に拡大すればよいのかを算出することができる。また、推定誤差評価部40は、写像ベクトルΦ(x)と射影ベクトルΦ’(x)の距離Eを基にして推定誤差を算出する。これは、距離Eが近ければ射影に含まれる誤差は小さく、距離Eが大きければ射影結果は大きな誤差を含むであろうと判断されることを意味する。
【0024】
これらの結果は、変換判定部42と変換実施部44とを含む正規化処理部28に渡される。そして、変換判定部42は、どの部分変換検出部26の推定誤差が最小となるかを判定する。例えば、回転部分変換検出部26bの推定誤差が一番小さいときには、変換実施部44が、対応する変換の大きさ(すなわち回転させる角度)の分だけもとの画像データを回転させ、画像保持部30のもつ画像を更新する。更新された画像データは、必要に応じて、さらに複数回、同様の正規化を施される。繰り返しの基準は様々に考えられるが、例えば、あらかじめ所定の回数を設定する方法や、実空間において適当な対比データとから算出した相関、あるいは前記変換の大きさ評価手段が求めた値を所定の閾値と比較する方法などを用いることも可能である。
【0025】
次に、部分変換検出部26において用意される空間Fをカーネル関数を用いて構築する手段について、数学的表現を交えて詳細に説明する。カーネル関数を用いる方法において特徴的なことは、上で述べた写像ベクトルΦ(x)の作成方法が陽に示されないことである。
【0026】
粗視データを表す画像空間G上のd次元ベクトルxを、dF次元の空間Fに写像する式(1)の非線形写像は、適当なカーネル関数k(x,y)を選ぶことで、式(2)の関係を満たすように決められる。
【0027】
【数1】
ここで、φi(x)は適当なカーネル関数の固有関数であり、対応する固有値をλiである(i=1,...,n)。
【0028】
次に、粗視データのカテゴリを分類するm次元部分空間Ωを、空間Fに張る方法及びその学習方法を説明する。まず、部分空間Ωの基底ベクトルの初期値として、画像空間G上のm個のベクトルx1,...,xm(以下ではプレイメージと呼ぶ)に対応した部分空間Ω上のベクトルΦ1,...,Φmを適当に決める。具体的には、例えば、一様乱数を発生させてランダムに与える。ここで、画像空間上の学習サンプルを示すd次元ベクトルxを用いて、この部分空間Ωを修正するように、プレイメージを学習させることを考える。学習サンプルのベクトルxの空間Fへの写像Φ(x)を部分空間Ωに射影したベクトルΦ’(x)は、基底ベクトルの一次結合で表現される。その結合係数をαiとすると、この射影と、もとの写像ベクトルΦ(x)との距離Eは式(3)−(5)で表される。
【0029】
【数2】
ここで、式(5)への変形には、カーネル関数の定義式(2)を用いている。また、係数αiは、射影の定義に従いEが最小の値をとるように、式(6)で与えられる。行列Kは、k(xi,xj)を(i,j)成分とする行列である。
【0030】
プレイメージの学習では、部分空間Ωと学習サンプルxiとの距離を最も減少させる方向にプレイメージをΔxi動かす。このΔxiは最急降下法によって式(7)で与えられる。
【0031】
【数3】
ここで、ηは学習係数であり、正の定数である。また、行列gab(x)は、非線形写像によって空間Fに埋め込まれている多様体の計量テンソルであり、カーネル関数を用いて式(8)で与えられている。この学習は、高次元空間の線形最適化問題なので、非線形最適化問題に比べ収束性が良く、短時間で終了する。
【0032】
次にカーネル関数の学習方法について記す。カーネル関数としては、初期には、ガウス関数カーネルや、多項式カーネルなどの既知の関数を与える。学習中には、カーネル関数を式(9)の等角写像によって変形する。
【0033】
【数4】
その学習則は、学習サンプルに対する係数αiのばらつきが、どの係数αiに対しても均一になるようにC(x)を与えるものとする。具体的には、係数αiのばらつきが既定値に対して大きい場合は、係数αiに対応する部分空間の基底ベクトルのプレイメージxi近傍に関して、C(x)の値を大きくする。これにより、xiの近傍は空間Fにおいて、式(10)のように拡大される。
【0034】
【数5】
したがって、係数αiを大きな値とする学習サンプルの数は相対的に減少し、係数αiの学習サンプルに対するばらつきは減少する。逆に係数αiのばらつきが既定値に対して小さい場合は、係数αiに対応する基底ベクトルのプレイメージxi近傍に関してC(x)の値を小さくする。なお、ここで述べた方法では、C(x)は部分空間Ωの基底のプレイメージに対してしか適用できないが、プレイメージ近傍に関してはプレイメージにおけるC(x)の値を式(11)のように外挿することで変更が可能となる。
【0035】
【数6】
ここで、学習に用いる学習サンプルの与え方について説明する。例えば、回転に関する正規化を行う場合には、画像中において正規化の対象となる顔パターンが画像の中心位置に正立(頭が上に、顎が下に配置される)する画像データを複数枚用意し、これらに対し−180度から180度までの範囲で一様乱数を用いて与えた角度、または等間隔に与えた角度に回転させる。また、シフトについては、同じく顔パターンが画像の中心位置に正立した画像を複数枚用意し、縦方向および横方向に、例えば半値幅が適当なピクセル数をもつガウス分布の乱数に従ってシフトさせる。乱数で与える代わりに確率密度が一様となるように規則的に与えても良い。サイズの場合にも、同様にして、顔パターンが画像の中心位置に正立した画像を拡大および縮小させれば良い。このようにして学習を行うことで、学習サンプルのもつ変換の大きさ(例えば回転の場合にはその角度)と、学習サンプルの部分空間への射影の関係が明らかになる。具体的には、例えば係数α1が大きければ90度程度回転したものであるといった関係が導かれる。これを詳細に調べ、ルックアップテーブルや、適切な関数を作成することで、変換の大きさ評価部38の評価手段が確立する。
【0036】
以上の学習手続きにより、非線形変換で写像される空間Fに、粗視データをカテゴリ分けする部分空間Ωが張られる。学習の過程においては、プレイメージの学習およびカーネル関数の学習を交互に複数回反復するのが望ましいが、学習サンプルがあまり複雑でない場合には、どちらかの方法を1回だけ行うなどの簡略化をすることも可能である。
【0037】
最後に、学習が完了し正規化が行われる段階において、画像正規化部20が実行される手順の主要部分を図5に示したフローチャートを用いて説明する。画像データが入力される(S1)と、正規化用粗視化部32は空間フィルタを用いて粗視データを作成する(S2)。粗視データは、サイズ部分変換検出部26a、回転部分変換検出部26b、シフト部分変換検出部26cに送られる。正規化用部分空間射影部36は、式(6)で定義される射影の一次結合の係数αiを求める(S3)。このαiの求め方は、必ずしも式(6)の定義に従う必要はなく、適当な反復法を用いて式(5)のEが最小となるように求めても良い。次に、変換の大きさ評価部38が、こうして得られたαiをルックアップテーブルと比較する等して変換の大きさを求め(S4)、推定誤差評価部40は、Eの大きさ、あるいはEの単調増加関数値を推定誤差として算出する(S5)。正規化処理部28における変換判定部42は、推定誤差が最小となる部分変換検出部26を判定し(S6)、もとの画像データに対して、対応する変換の大きさで、変換を行う。こうして得られた画像データは、適当な判断基準に従って、再変換されるか否かが決められる(S8)。なお、先にも述べたように、この一連の演算において、式(1)で定義される非線形変換は直接は用いられず、したがって、その形状を知る必要もない。
【0038】
図6に、サイズ、回転、シフトの各要素からなる正規化をおこなった結果を示す。この実験は、図の右側の写真で示したように、目の近傍を写した2つの写真が正規化されていく様子を、一回の変換毎に追跡したものである。右上の一連の写真では、初期(左上)に反転している写真が、最初のステップで約90度半時計回りに回転され、次のステップでやや左にシフトされ、といった変換を受け、最後には正立した所望の大きさに正規化されている。左側の3次元のグラフは、この正規化の過程における、サイズ(倍率)、角度(度)、距離(ピクセル)を逐次追跡したものである。左上の黒丸は、初期の写真が、180度の回転と、1.3倍程度の拡大と、若干のシフトを受けていることを示している。そして、一回の変換毎に3つの座標軸のいずれか一つに沿って移動し、最終的に右側の正規化された位置に移っている。右下の一連の写真、及び対応する左のグラフの白丸も同様の流れを示しており、この場合には、拡大を中心に正規化が行われている。なお、ここでは、顔パターン全体ではなく目の近傍に限定しているが、顔パターン全体とした場合にも基本的な効果は全くかわらない。ただし、顔パターン全体とした場合には、図示した例とは、学習サンプルを変えなければならないことは言うまでもない。
【0039】
なお、正規化用粗視化部32で用いる空間フィルタの解像度には任意性があるが、ここで示した例では、主成分分析の方法により25次元程度の粗視化を行っている。また、空間Fに張る部分空間Ωの次元もいろいろな値を取ることが可能であるが、ここでは25次元とした。学習サンプルの数は、検出に必要な精度にもよるが、例えば、100人程度の顔パターンを、各部分変換検出部26で、一人につき100通り程度変化させればよい。この結果、部分変換検出部26を3つ用いた場合には、全学習サンプル数は3万程度になる。一方、本実施の形態を用いずに同じ自由度を与えると、全学習サンプル数は100万程度になってしまう。したがって、本実施形態を用いることで学習サンプル数を格段に軽減できることがわかる。また、部分変換検出部26の検出する部分変換は、ここでは、サイズ、回転、シフトとした。これらの要素は、特に限定されないが、単純な変換をおこなうと変換が容易となる。すなわち、サイズおよび回転については、一次変換で記述できる形式を用い、シフトについては剪断性をもたない一様な平行移動を用いると良い。もちろん、扱うパターンの特性に応じて、これよりも複雑な変換を割り当てることもできる。また、画像データの輝度に関する変換等を割り当てることも可能である。
【0040】
上に説明した非線形変換は、カーネル関数を用いて定義された。しかし、非線形変換の構築方法には任意性がある。ここではニューラルネットワークのアルゴリズムに従ったオートエンコーダを用いて非線形変換を行う方法について説明する。
【0041】
図7に、オートエンコーダの概略を示す。オートエンコーダは、多層のパーセプトロンの一種であり、入力層60のニューロン数と、出力層62のニューロン数が同じで、中間層64のニューロン数はこれよりも少なくなっている。
【0042】
このオートエンコーダを部分変換検出部26として用いるためには、次のようにする。まず、カーネル関数を用いる場合と同様にして作成した学習サンブルを入力層60へ入力するとともに、同じ値を教師信号として出力層62に与え、恒等写像を実現するように各シナプスの重みを学習させる。この学習は通常のバックプロパゲーション法で行うことができる。
【0043】
こうして学習されたオートエンコーダの出力層62の出力は、非線形変換による写像が作る空間Fを表現しているとみなすことができる。また、オートエンコーダの中間層64のニューロンの出力は、空間F内に張られたカテゴリを分類する部分空間Ωへの射影に相当する。したがって、入力層60に粗視データを入力し、中間層64の出力を得ることで、正規化用部分空間射影部36を実現することができる。また、学習時に、学習サンプルの特徴と中間層64の出力との関係を調べ、ルックアップテーブルを作成することで、変換の大きさ評価部38を実施することができる。さらに、推定誤差評価部40が評価する推定誤差は、入力層60のベクトルと出力層62のベクトルとの距離、あるいはその単調増加の関数によって算出可能である。この距離が変換の精度に対応していることは、距離が短いほど空間Fへの写像が入力を精度よく近似できていることから明らかである。
【0044】
以上に、画像正規化部20によって、画像データを正規化する様子を説明した。ここからは、画像正規化部20が出力した画像データから顔パターンを識別する、パターン識別部100について説明する。
【0045】
図8は、パターン識別部100の構成を示すブロック図である。パターン識別部100は、複数の空間解像度をもつ識別用粗視化部106と、各識別用粗視化部106に接続された顔識別部102、そして反例検出部104からなる。識別用粗視化部106は、画像正規化部20における正規化用粗視化部32と同様に、画像データに空間フィルタを施して粗視データを出力する役割を果たしている。その解像度は自由に設定でき、ここでは最低次元を25次元、最高次元を100次元とし、その間にも複数の識別用粗視化部106を設けている。顔識別部102は、各識別用粗視化部106に設けられており、顔パターンの識別を行う。
【0046】
入力された画像データは、まず、空間解像度が最も低い識別用粗視化部106aに入力され、図示した例においては、25次元の粗視データに変換される。そして、粗視データは、顔識別部102aに入力される。顔識別部102aは、識別用部分空間学習部108a、識別用部分空間射影部110a、および識別用判定部112aを含んでおり、画像正規化部20で説明した部分変換検出部26とよく似た動作を行う。すなわち、入力された粗視データは、カーネル関数で定義される非線形変換によって空間Fに式(1)のように写像される。この空間Fでは、識別用部分空間学習部108aによって事前に学習が行われており、学習サンプルの顔パターンを特徴づける部分空間Ωが張られている。識別用部分空間射影部110aは、空間Fに写像された写像ベクトルを、この部分空間Ωに射影する。これにより、射影された射影ベクトルの一次結合の係数αiが決められ、射影の垂線の長さEが式(5)から得られる。識別用判定部112aは、両者の位置関係、すなわちEの大きさを適当な閾値などで評価して、このデータを部分空間Ωのカテゴリに含めるか否かを判定する。閾値の決定は、適当なサンプルデータに対する正答率に基づくなどして決めればよい。判定の結果、顔パターンが含まれている可能性が高いと判断されると、次に解像度の低い識別用粗視化部106及び、対応する顔識別部102が実行される。
【0047】
反例検出部104は、顔識別部102と同様の構成をしており、反例用部分空間学習部114、反例用部分空間射影部116、および反例用判定部118を含んでいる。顔識別部102との違いは、反例用部分空間学習部114によって、顔以外のパターンが学習される点である。すなわち、顔以外のパターンを含む学習サンプルを用いて、顔以外のパターンが含まれることを特徴とする部分空間Ωが形成される。反例用部分空間射影部116が非線形変換の写像をこの部分空間Ωに射影する点と、反例用判定部118が写像ベクトルと射影ベクトルの位置関係に基づいて分類を行う点は同じである。
【0048】
顔識別部102と、反例検出部104の学習の方法も、画像正規化部において説明した方法と同様である。すなわち、顔識別部102においては、識別したい顔パターンの学習サンプルを複数用意し、それをもとに、部分空間の基底ベクトルに対応するプレイメージの更新と、カーネルの変形を行う。なお、このパターン識別部100は、通常、画像正規化部20によって正規化された画像データに対してパターン認識を行う。したがって、顔パターンは正規化されていることが期待できるので、学習サンプルはサイズ、回転角度、シフト等に関して正規化されたものだけを用いればよい。反例検出部104の学習サンプルとしては顔パターン以外のものを用いればよい。ただし、一般に顔識別部102によって識別しにくいものを学習させることで効果を発揮するので、正規化された顔パターンに類似した紛らわしいものを中心に学習させておくとよい。
【0049】
図10に、ここで述べた識別を試験的に実施した結果を示す。左側は、本発明を用いずに、50次元に粗視化されたデータに対してのみ検出を実行している。一方、右側は、本実施例を用いた場合で、25次元、50次元、100次元の3つの解像度に、顔識別部102を用いて階層的に検出を行った結果である。ただし、反例検出部104は含めていない。使用した画像データは、ひとつの画像データの中に複数の顔を含んでおり、その中から顔パターンを検出したものである。いずれも90%の確率で顔を検出できる。横軸は、ひとつの画像データの中から顔以外のパターンを誤って見つけた個数であり、縦軸はその比率を示している。従来の方法では、間違いが無かった比率は63パーセントで、間違いが1つだけ合った比率は22パーセントであった。本発明では、この値はそれぞれ、82パーセントと14パーセントになっている。この結果、画像一つあたりの誤検出率は、0.40個から、0.24個に向上している。もちろん、100次元の高解像度での検出には多くの計算時間を必要とするが、本実施形態では、25次元の解像度において顔パターンが含まれる可能性が低いと判定した場合にはそれ以上の解像度での検出を行わないので、無駄な計算時間を必要とせず、効率的で高精度な検出が達成できている。なお、図示はしないが、この実験においてさらに、顔パターンが含まれないことを検出する反例検出部104を各解像度に含めた場合には、誤検出率はほぼ0になり、その有効性が確認できている。
【0050】
最後に、本実施の形態における特徴的な点を列挙しておく。本実施の形態の画像正規化部20により、入力された画像データにおける顔パターンの正規化を、非常に少ない学習サンプルをもとに学習しただけで、実現することができる。また、回転、拡大と縮小、平行移動などに分類して正規化を行うため、対応した学習サンプルだけを用いて学習させればよく、非常に効率的な学習が可能となる。また、正規化をニューラルネットワークを用いて行うため、非線形性をもつパターン分布に対しても容易に正規化を行うことができる。また、正規化をカーネル関数で定義された非線形変換を利用して行うため、非線形性をもつパターン分布に対しても精度よく正規化を行うことができる。また、並列計算機を用いて正規化を行えば、迅速な正規化の実行が可能となる。
【0051】
本実施の形態のパターン識別部100により、本質的に非線形性を有する顔パターンの特徴を、非線形変換を用いて高精度に識別できる。また、低分解能から高分解能へと階層化された判定を行うため、顔パターンが含まれないと容易に判定できるものに時間をかけることなく高速に識別できる。また、反例を検出する手段を併用することで、判定の精度が向上する。また、カーネル関数で定義される非線形変換を用いてパターンの識別が行われるので、信頼性の高い識別が可能となる。また、カテゴリを表す部分空間を、非常に高速に構築することができる。また、学習サンプルをもちいて部分空間における基底ベクトルを効率良く張り直すことができる。また、学習サンプルを用いてカーネル関数を容易に変形できるので、パターンの識別の向上を容易に図る事が可能となる。また、並列計算機を用いることで、各解像度におけるパターンの識別を効率良く計算することができる。
【0052】
これら画像正規化部20とパターン識別部100は、お互いに補完しあうことで、非常に高精度で高速な顔パターンの識別が可能になる。
【図面の簡単な説明】
【図1】本実施形態の計算機の構成を示す概略図である。
【図2】画像正規化部およびパターン識別部の概略を示すブロック図である。
【図3】画像正規化部の詳細を示すブロック図である。
【図4】非線形変換の様子を表す模式図である。
【図5】画像正規化部の処理手順を示すフローチャートである。
【図6】画像正規化部の試験結果を示す図である。
【図7】画像正規化部に用いるオートエンコーダの概略図である。
【図8】パターン識別部の概略を示すブロック図である。
【図9】パターン識別部の処理手順を示すフローチャートである。
【図10】パターン識別部の試験結果を示す図である。
【符号の説明】
20 画像正規化部、26 部分変換検出部、28 正規化処理部、100 パターン識別部、102 顔識別部、104 反例検出部。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an image processing apparatus, and more particularly, to a pre-processing performed to facilitate pattern detection from image data.
[0002]
[Prior art]
In order to identify a specific pattern from image data using a computer, it is necessary to reliably detect the shape of the pattern itself, and the size and rotation angle of the included pattern are various. Need to be done.
[0003]
Conventional examples of the former include a linear subspace method, a support vector machine (SVM) method, and a kernel non-linear subspace method. In the linear subspace method, a subspace is determined for each of a plurality of categories, an unknown pattern is most closely related to which subspace, and a category to which the pattern belongs is determined. However, in this method, when the number of categories is large and the dimension of the pattern is low, the detection accuracy is reduced. Further, there is a problem that the identification accuracy for a pattern distribution having nonlinearity is low.
[0004]
The SVM method is a method for mapping a low-dimensional pattern to a high dimension by a non-linear transformation defined through a kernel function, thereby enabling a pattern distribution having nonlinearity to be identified. However, there are problems in that only two categories can be classified and that a large amount of calculation is required.
[0005]
The kernel nonlinear subspace method has been devised as a pattern identification method for solving these problems, and is disclosed in Japanese Patent Application Laid-Open No. 2002-90274. In this method, similar to the SVM method, a pattern is mapped to a high-dimensional space by a non-linear transformation defined using a kernel function, and a subspace method is performed on the high-dimensional space.
[0006]
The latter, that is, patterns having various sizes and rotation angles, have conventionally been handled by using an extremely large number of learning samples. That is, each of the above-described pattern identification methods and the like generally uses a learning sample having a characteristic pattern to perform learning for determining the distribution of categories indicating the characteristic. Therefore, it is necessary to use not only patterns whose sizes and angles are variously changed but also a very large number of patterns deformed by combining sizes and angles as learning samples.
[0007]
[Problems to be solved by the invention]
However, in the kernel non-linear subspace method, since the basis vectors spanning the subspace are defined based on the mapping of all learning samples to the non-linear space, a problem that a large number of learning samples still require a large number of calculations. was there. Further, as described above, conventionally, there has been a problem that an extremely large number of learning samples must be used in order to perform general-purpose pattern identification. An object of the present invention is to establish a means for identifying a face pattern of a human or an animal, which often has various sizes and rotation angles in an image, at high speed and with high accuracy.
[0008]
[Means for Solving the Problems]
The image processing apparatus according to the present invention is provided with an image processing apparatus that normalizes and converts image data into a condition under which identification can be performed so that pattern identification means can identify a face pattern in given image data. In the above, a partial transformation detecting means provided for each of a plurality of partial transformations obtained by dividing the normalized transformation and arranged in parallel, and a partial transformation evaluating means provided in each partial transformation detecting means, wherein a learning sample is used. Based on a comparison between the learning result and the image data, a partial conversion evaluation means for evaluating the magnitude of the partial conversion required to normalize the image data and an estimation error accompanying the conversion, and all the partial conversions A conversion unit that determines a partial conversion detecting unit that gives the smallest estimation error among the evaluation units and performs a corresponding partial conversion on the image data. Comparison of the learning result and the image data in the unit is carried out in a space defined by the non-linear transformation, the transformation implementation means, characterized in that it is performed at least once for the image data.
[0009]
Further, the image processing apparatus according to the present invention is characterized in that the partial conversion detected by the partial conversion detecting means includes at least one of size, rotation, and shift.
[0010]
Further, the image processing apparatus according to the present invention is characterized in that the non-linear transformation is given by calculation means using a neural network.
[0011]
Further, the image processing apparatus according to the present invention is characterized in that the non-linear conversion is given by calculation means using a kernel function.
[0012]
Further, the image processing apparatus of the present invention has a coarse-graining means for applying a spatial filter to image data to coarsen the image data, and the coarse-grained image data is used in the partial conversion detecting means. I do.
[0013]
Further, the image processing apparatus according to the present invention is characterized in that the operation of each partial conversion detecting means is processed in parallel by a parallel operation device provided in the apparatus.
[0014]
Further, the image processing method according to the present invention is an image processing method which normalizes and converts image data to a condition under which identification can be performed so that a face pattern in given image data can be identified by a pattern identification method. In the processing method, a partial conversion detection step provided for each of a plurality of partial conversions obtained by dividing the normalized conversion and arranged in parallel, and a partial conversion evaluation step provided for each partial conversion detection step, wherein a learning sample Based on a comparison between the learning result using the image data and the image data, the size of the partial conversion required to normalize the image data, and a partial conversion evaluation step of evaluating an estimation error accompanying the conversion, Determining a partial conversion detection step that gives the smallest estimation error in the partial conversion evaluation step, and performing a corresponding partial conversion on the image data. Comparison of the learning result and the image data in the partial conversion evaluation step is performed in a space defined by the non-linear transformation, the transformation implementation process is characterized in that it is performed at least once for the image data.
[0015]
Further, the image processing program according to the present invention normalizes the image data to a condition under which identification can be performed so that the computer can identify the face pattern in the given image data by the pattern identification procedure. In the image processing program to be converted, a partial conversion detection procedure provided for each of the plurality of partial conversions obtained by dividing the normalization conversion, and a partial conversion evaluation procedure provided in each partial conversion detection procedure, Based on a comparison between the learning result using the learning sample and the image data, a partial conversion evaluation procedure for evaluating the magnitude of the partial conversion required to normalize the image data, and an estimation error accompanying the conversion, A partial conversion detection procedure that gives the smallest estimation error among all the partial conversion evaluation procedures is determined, and the corresponding partial conversion is performed on the image data. And a comparison between the learning result and the image data in the partial conversion evaluation procedure is performed in a space defined by a non-linear transformation, and the conversion execution procedure is performed at least once on the image data. It is characterized by that.
[0016]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings. In the figure, description of components having the same configuration will be omitted.
[0017]
FIG. 1 is a block diagram showing a configuration of an apparatus according to an embodiment of the present invention. The apparatus is configured to include a
[0018]
FIG. 2 is a block diagram schematically illustrating an image processing operation performed by the
[0019]
The conversion for normalization performed by the
[0020]
The
[0021]
Hereinafter, the
[0022]
The block diagram of FIG. 3 shows the outline of the configuration of the
[0023]
Subsequently, the coarse-grained data is sent to a plurality of partial conversion detection units 26 arranged in parallel. Each partial conversion detecting section 26 regards the coarse-grained data as a vector x in the image space G and maps the coarse-grained data to a space F created by a non-linear conversion for pattern identification, as schematically shown in FIG. . The vector mapped in the space F is called a mapped vector, and is written as Φ (x). For example, when detecting the size, rotation, and shift, the partial conversion detection unit 26 includes a size partial
[0024]
These results are passed to the
[0025]
Next, means for constructing the space F prepared by the partial conversion detection unit 26 using a kernel function will be described in detail using mathematical expressions. A characteristic feature of the method using the kernel function is that the method of creating the above-described mapping vector Φ (x) is not explicitly shown.
[0026]
The d-dimensional vector x in the image space G representing the coarse-grained data is represented by d F The nonlinear mapping of Expression (1) that maps to the dimensional space F is determined so as to satisfy the relationship of Expression (2) by selecting an appropriate kernel function k (x, y).
[0027]
(Equation 1)
Where φ i (X) is the eigenfunction of the appropriate kernel function, and the corresponding eigenvalue is λ i (I = 1,..., N).
[0028]
Next, a method of extending the m-dimensional subspace Ω for classifying the coarse-grained data category into the space F and a learning method thereof will be described. First, m vectors x in the image space G are used as initial values of base vectors of the subspace Ω. 1 ,. . . , X m (Hereinafter referred to as pre-image) corresponding to the vector Φ on the subspace Ω 1 ,. . . , Φ m Is determined appropriately. Specifically, for example, a uniform random number is generated and given randomly. Here, let us consider learning a pre-image so as to correct the subspace Ω using a d-dimensional vector x indicating a learning sample in the image space. A vector Φ ′ (x) obtained by projecting the mapping Φ (x) of the vector x of the learning sample onto the space F onto the subspace Ω is represented by a linear combination of base vectors. The coupling coefficient is α i Then, the distance E between this projection and the original mapping vector Φ (x) is expressed by Expressions (3)-(5).
[0029]
(Equation 2)
Here, the definition expression (2) of the kernel function is used for the transformation into the expression (5). Also, the coefficient α i Is given by equation (6) so that E takes the minimum value according to the definition of projection. The matrix K is k (x i , X j ) Are (i, j) components.
[0030]
In pre-image learning, the subspace Ω and the learning sample x i Δx in the direction that reduces the distance to i move. This Δx i Is given by equation (7) by the steepest descent method.
[0031]
[Equation 3]
Here, η is a learning coefficient and is a positive constant. Also, the matrix g ab (X) is a metric tensor of the manifold embedded in the space F by the nonlinear mapping, and is given by Expression (8) using a kernel function. Since this learning is a linear optimization problem in a high-dimensional space, it has better convergence than the nonlinear optimization problem, and is completed in a short time.
[0032]
Next, the kernel function learning method will be described. As the kernel function, a known function such as a Gaussian function kernel or a polynomial kernel is initially provided. During the learning, the kernel function is transformed by the conformal mapping of the equation (9).
[0033]
(Equation 4)
The learning rule is a coefficient α for the learning sample. i Which coefficient α i C (x) is given so as to be uniform. Specifically, the coefficient α i Is larger than the default value, the coefficient α i Pre-image x of the basis vector of the subspace corresponding to i In the vicinity, the value of C (x) is increased. This gives x i Is expanded in the space F as shown in Expression (10).
[0034]
(Equation 5)
Therefore, the coefficient α i The number of learning samples with large values decreases relatively, and the coefficient α i Of the learning sample for the learning sample is reduced. Conversely, the coefficient α i Is smaller than the default value, the coefficient α i Preimage x of the basis vector corresponding to i The value of C (x) is reduced for the neighborhood. Note that in the method described here, C (x) can be applied only to the pre-image of the basis of the subspace Ω, but in the vicinity of the pre-image, the value of C (x) in the pre-image is calculated by the equation (11). By extrapolating as described above, the change can be made.
[0035]
(Equation 6)
Here, how to provide a learning sample used for learning will be described. For example, when performing normalization related to rotation, a plurality of image data in which the face pattern to be normalized in the image is erected at the center position of the image (the head is placed above and the chin is placed below) Sheets are prepared and rotated at an angle given by using a uniform random number in the range of -180 degrees to 180 degrees or at an angle given at equal intervals. For the shift, a plurality of images having the face pattern erected at the center position of the image are prepared, and the image is shifted in the vertical and horizontal directions, for example, according to a Gaussian distribution random number having a half-width having an appropriate number of pixels. Instead of using random numbers, they may be provided regularly so that the probability density becomes uniform. Similarly, in the case of size, an image in which the face pattern is erected at the center position of the image may be enlarged and reduced. By performing the learning in this manner, the relationship between the magnitude of the transformation of the learning sample (for example, the angle in the case of rotation) and the projection of the learning sample onto the subspace becomes clear. Specifically, for example, the coefficient α 1 Is larger than 90 degrees, the relationship is derived. By examining this in detail and creating a look-up table and an appropriate function, the evaluation means of the transform size evaluation unit 38 is established.
[0036]
By the learning procedure described above, the subspace Ω for classifying the coarse-grained data is set in the space F mapped by the non-linear transformation. In the learning process, it is desirable to alternately repeat the pre-image learning and kernel function learning multiple times, but if the learning sample is not very complicated, simplification such as performing either method only once It is also possible to do.
[0037]
Finally, the main part of the procedure executed by the
[0038]
FIG. 6 shows a result of normalization including each element of size, rotation, and shift. In this experiment, as shown in the photograph on the right side of the figure, the normalization of two photographs of the vicinity of the eye was tracked for each conversion. In the series of photos in the upper right, the initial (upper left) inverted photo is rotated about 90 degrees counterclockwise in the first step, shifted slightly left in the next step, and finally converted. Has been normalized to the desired upright size. The three-dimensional graph on the left is obtained by sequentially tracking the size (magnification), angle (degree), and distance (pixel) in the normalization process. The black circle in the upper left indicates that the initial photo has been rotated 180 degrees, magnified about 1.3 times, and slightly shifted. Then, it moves along any one of the three coordinate axes for each conversion, and finally moves to the right-side normalized position. A series of photographs in the lower right and the corresponding white circles in the left graph show a similar flow, in which case normalization is performed centering on enlargement. Here, although the whole face pattern is limited to the vicinity of the eyes, the basic effect does not change at all even when the whole face pattern is used. However, when the entire face pattern is used, it is needless to say that the learning sample must be changed from the illustrated example.
[0039]
Although the resolution of the spatial filter used in the normalization coarse-
[0040]
The non-linear transformation described above was defined using a kernel function. However, the method of constructing the non-linear transformation is arbitrary. Here, a method of performing a non-linear conversion using an auto-encoder according to a neural network algorithm will be described.
[0041]
FIG. 7 shows an outline of the auto encoder. The auto encoder is a kind of a multi-layer perceptron. The number of neurons in the
[0042]
In order to use this auto encoder as the partial conversion detection unit 26, the following is performed. First, a learning sample created in the same manner as in the case of using the kernel function is input to the
[0043]
The output of the
[0044]
The manner in which the image data is normalized by the
[0045]
FIG. 8 is a block diagram illustrating a configuration of the
[0046]
The input image data is first input to the coarse-
[0047]
The counter example detection unit 104 has the same configuration as the face identification unit 102, and includes a counter example
[0048]
The learning method of the face identification unit 102 and the counter example detection unit 104 is the same as the method described in the image normalization unit. That is, the face identification unit 102 prepares a plurality of learning samples of the face pattern to be identified, and updates the pre-image corresponding to the base vector of the subspace and deforms the kernel based on the learning samples. The
[0049]
FIG. 10 shows the results of the above-described identification performed on a trial basis. On the left, detection is performed only on data coarse-grained into 50 dimensions without using the present invention. On the other hand, the right side shows the result of hierarchical detection using the face identification unit 102 at three resolutions of 25 dimensions, 50 dimensions, and 100 dimensions in the case of using this embodiment. However, the counter example detection unit 104 is not included. The used image data includes a plurality of faces in one image data, and a face pattern is detected from the plurality of faces. In each case, a face can be detected with a probability of 90%. The horizontal axis represents the number of erroneous patterns other than the face found in one piece of image data, and the vertical axis represents the ratio. In the conventional method, the ratio of no errors was 63%, and the ratio of only one error was 22%. In the present invention, this value is 82 percent and 14 percent, respectively. As a result, the erroneous detection rate per image is improved from 0.40 to 0.24. Of course, detection at 100-dimensional high resolution requires a lot of calculation time. However, in this embodiment, if it is determined that the possibility that a face pattern is included at 25-dimensional resolution is low, further Since detection is not performed at the resolution, efficient and highly accurate detection can be achieved without using unnecessary calculation time. Although not shown, in this experiment, when the counterexample detection unit 104 for detecting that a face pattern is not included is included in each resolution, the false detection rate becomes almost 0, and its effectiveness is confirmed. is made of.
[0050]
Lastly, characteristic points in the present embodiment are listed. With the
[0051]
The
[0052]
The
[Brief description of the drawings]
FIG. 1 is a schematic diagram illustrating a configuration of a computer according to an embodiment.
FIG. 2 is a block diagram schematically illustrating an image normalization unit and a pattern identification unit.
FIG. 3 is a block diagram illustrating details of an image normalization unit.
FIG. 4 is a schematic diagram illustrating a state of nonlinear conversion.
FIG. 5 is a flowchart illustrating a processing procedure of an image normalization unit.
FIG. 6 is a diagram illustrating test results of an image normalization unit.
FIG. 7 is a schematic diagram of an auto encoder used for an image normalization unit.
FIG. 8 is a block diagram schematically illustrating a pattern identification unit.
FIG. 9 is a flowchart illustrating a processing procedure of a pattern identification unit.
FIG. 10 is a diagram showing test results of a pattern identification unit.
[Explanation of symbols]
20 image normalization section, 26 partial conversion detection section, 28 normalization processing section, 100 pattern identification section, 102 face identification section, 104 counterexample detection section.
Claims (8)
正規化変換を分割した複数の部分変換に対しそれぞれ設けられ、並列配置された部分変換検出手段と、
各部分変換検出手段に設けられた部分変換評価手段であって、学習サンプルを用いた学習結果と画像データとの比較に基づいて、画像データを正規化するために必要となる部分変換の大きさ、及び、その変換にともなう推定誤差を評価する部分変換評価手段と、
全ての部分変換評価手段の中で最も小さい推定誤差を与える部分変換検出手段を判定し、それに対応する部分変換を画像データに施す変換実施手段と、
を備え、
前記部分変換評価手段における学習結果と画像データとの比較は、非線形変換によって定義された空間において行われ、
前記変換実施手段は、画像データに対して少なくとも一回実行されることを特徴とする画像処理装置。In an image processing apparatus that normalizes and converts image data to a condition that enables identification, so that pattern identification means can identify a face pattern in given image data,
Partial conversion detection means provided for each of a plurality of partial conversions obtained by dividing the normalization conversion and arranged in parallel;
A partial conversion evaluation unit provided in each of the partial conversion detection units, the size of the partial conversion required for normalizing the image data based on a comparison between the learning result using the learning sample and the image data. And, a partial conversion evaluation means for evaluating an estimation error accompanying the conversion,
A conversion execution unit that determines a partial conversion detection unit that gives the smallest estimation error among all the partial conversion evaluation units, and performs a corresponding partial conversion on the image data,
With
The comparison between the learning result and the image data in the partial conversion evaluation unit is performed in a space defined by the non-linear conversion,
An image processing apparatus according to claim 1, wherein said conversion executing means is executed at least once for image data.
部分変換検出手段が検出する部分変換には、サイズ、回転、シフトの少なくともひとつが含まれることを特徴とする画像処理装置。The image processing device according to claim 1,
The image processing apparatus according to claim 1, wherein the partial conversion detected by the partial conversion detecting means includes at least one of size, rotation, and shift.
非線形変換はニューラルネットワークを用いた計算手段によって与えられることを特徴とする画像処理装置。The image processing device according to claim 1,
An image processing apparatus characterized in that the non-linear transformation is given by calculation means using a neural network.
非線形変換はカーネル関数を用いた計算手段によって与えられることを特徴とする画像処理装置。The image processing device according to claim 1,
An image processing apparatus characterized in that the non-linear transformation is given by calculation means using a kernel function.
画像データに空間フィルタを施して粗視化する粗視化手段を有し、
部分変換検出手段においては粗視化された画像データが用いられることを特徴とする画像処理装置。An image processing apparatus according to claim 1, wherein
A coarse-graining means for applying a spatial filter to the image data for coarse-graining,
An image processing apparatus characterized in that coarse-grained image data is used in the partial conversion detecting means.
各部分変換検出手段の演算は、装置内に設けられた並列演算装置により並列的に処理されることを特徴とする画像処理装置。An image processing apparatus according to claim 1, wherein:
An image processing apparatus, wherein the operation of each partial conversion detecting means is processed in parallel by a parallel operation device provided in the apparatus.
正規化変換を分割した複数の部分変換に対しそれぞれ設けられ、並列配置された部分変換検出工程段と、
各部分変換検出工程に設けられた部分変換評価工程であって、学習サンプルを用いた学習結果と画像データとの比較に基づいて、画像データを正規化するために必要となる部分変換の大きさ、及び、その変換にともなう推定誤差を評価する部分変換評価工程と、
全ての部分変換評価工程の中で最も小さい推定誤差を与える部分変換検出工程を判定し、それに対応する部分変換を画像データに施す変換実施工程と、
を備え、
前記部分変換評価工程における学習結果と画像データとの比較は、非線形変換によって定義された空間において行われ、
前記変換実施工程は、画像データに対して少なくとも一回実行されることを特徴とする画像処理方法。In an image processing method for normalizing and converting image data to a condition where identification can be performed so that identification can be performed on a face pattern in given image data by a pattern identification method,
A partial transformation detection step provided for each of the plurality of partial transformations obtained by dividing the normalized transformation, and arranged in parallel;
A partial conversion evaluation step provided in each partial conversion detection step, the size of the partial conversion required to normalize the image data based on a comparison between the learning result using the learning sample and the image data. And, a partial conversion evaluation step of evaluating an estimation error due to the conversion,
A conversion execution step of determining a partial conversion detection step that gives the smallest estimation error among all the partial conversion evaluation steps, and performing a corresponding partial conversion on the image data,
With
The comparison between the learning result and the image data in the partial conversion evaluation step is performed in a space defined by the non-linear conversion,
The image processing method according to claim 1, wherein the converting is performed at least once on the image data.
与えられた画像データ中の顔パターンに対してパターン識別手順が識別を行えるように、識別が実施可能となる条件下へと画像データを正規化変換させる画像処理プログラムにおいて、
正規化変換を分割した複数の部分変換に対しそれぞれ設けられ、並列配置された部分変換検出手順と、
各部分変換検出手順に設けられた部分変換評価手順であって、学習サンプルを用いた学習結果と画像データとの比較に基づいて、画像データを正規化するために必要となる部分変換の大きさ、及び、その変換にともなう推定誤差を評価する部分変換評価手順と、
全ての部分変換評価手順の中で最も小さい推定誤差を与える部分変換検出手順を判定し、それに対応する部分変換を画像データに施す変換実施手順と、
を含み、
前記部分変換評価手順における学習結果と画像データとの比較は、非線形変換によって定義された空間において行われ、
前記変換実施手順は、画像データに対して少なくとも一回実行されることを特徴とする画像処理プログラム。On the computer,
In an image processing program for normalizing and converting image data to a condition that enables identification, so that a pattern identification procedure can identify a face pattern in given image data,
A partial transformation detection procedure provided for each of the plurality of partial transformations obtained by dividing the normalization transformation and arranged in parallel;
A partial conversion evaluation procedure provided for each partial conversion detection procedure, the size of the partial conversion required to normalize the image data based on a comparison between the learning result using the learning sample and the image data. , And a partial conversion evaluation procedure for evaluating an estimation error accompanying the conversion,
A conversion execution procedure of determining a partial conversion detection procedure that gives the smallest estimation error among all the partial conversion evaluation procedures, and performing a corresponding partial conversion on the image data,
Including
The comparison between the learning result and the image data in the partial conversion evaluation procedure is performed in a space defined by the non-linear conversion,
The image processing program according to claim 1, wherein the conversion execution procedure is executed at least once for the image data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002222712A JP4238537B2 (en) | 2002-07-31 | 2002-07-31 | Image processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002222712A JP4238537B2 (en) | 2002-07-31 | 2002-07-31 | Image processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004062719A true JP2004062719A (en) | 2004-02-26 |
JP4238537B2 JP4238537B2 (en) | 2009-03-18 |
Family
ID=31942666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002222712A Expired - Fee Related JP4238537B2 (en) | 2002-07-31 | 2002-07-31 | Image processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4238537B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009098713A (en) * | 2007-10-12 | 2009-05-07 | Canon Inc | Data conversion method and device, pattern identification method and device, and program |
JP2013206458A (en) * | 2012-03-28 | 2013-10-07 | Mitsubishi Electric Corp | Object classification based on external appearance and context in image |
JP2019512797A (en) * | 2016-03-21 | 2019-05-16 | ザ プロクター アンド ギャンブル カンパニー | System and method for providing customized product recommendations |
WO2019116494A1 (en) | 2017-12-14 | 2019-06-20 | 日本電気株式会社 | Learning device, learning method, sorting method, and storage medium |
WO2019116496A1 (en) | 2017-12-14 | 2019-06-20 | 日本電気株式会社 | Learning device, learning method and storage medium |
WO2019116497A1 (en) | 2017-12-14 | 2019-06-20 | 日本電気株式会社 | Identification device, identification method, and storage medium |
WO2023248593A1 (en) * | 2022-06-20 | 2023-12-28 | 株式会社日立製作所 | Image estimation method, evaluation value estimation method, and image estimation device |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6448204B2 (en) | 2014-03-28 | 2019-01-09 | キヤノン株式会社 | Object detection apparatus, object detection method, and program |
-
2002
- 2002-07-31 JP JP2002222712A patent/JP4238537B2/en not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009098713A (en) * | 2007-10-12 | 2009-05-07 | Canon Inc | Data conversion method and device, pattern identification method and device, and program |
JP2013206458A (en) * | 2012-03-28 | 2013-10-07 | Mitsubishi Electric Corp | Object classification based on external appearance and context in image |
JP2019512797A (en) * | 2016-03-21 | 2019-05-16 | ザ プロクター アンド ギャンブル カンパニー | System and method for providing customized product recommendations |
WO2019116494A1 (en) | 2017-12-14 | 2019-06-20 | 日本電気株式会社 | Learning device, learning method, sorting method, and storage medium |
WO2019116496A1 (en) | 2017-12-14 | 2019-06-20 | 日本電気株式会社 | Learning device, learning method and storage medium |
WO2019116497A1 (en) | 2017-12-14 | 2019-06-20 | 日本電気株式会社 | Identification device, identification method, and storage medium |
US11176420B2 (en) | 2017-12-14 | 2021-11-16 | Nec Corporation | Identification device, identification method, and storage medium |
US11270163B2 (en) | 2017-12-14 | 2022-03-08 | Nec Corporation | Learning device, learning method, and storage medium |
US11526691B2 (en) | 2017-12-14 | 2022-12-13 | Nec Corporation | Learning device, learning method, and storage medium |
WO2023248593A1 (en) * | 2022-06-20 | 2023-12-28 | 株式会社日立製作所 | Image estimation method, evaluation value estimation method, and image estimation device |
Also Published As
Publication number | Publication date |
---|---|
JP4238537B2 (en) | 2009-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5709410B2 (en) | Pattern processing apparatus and method, and program | |
JP7040278B2 (en) | Training method and training device for image processing device for face recognition | |
Davies et al. | Statistical models of shape: Optimisation and evaluation | |
JP5406705B2 (en) | Data correction apparatus and method | |
JP7094702B2 (en) | Image processing device and its method, program | |
JP4571628B2 (en) | Face recognition system and method | |
US20040022432A1 (en) | Parameter estimation apparatus and data collating apparatus | |
JP4376145B2 (en) | Image classification learning processing system and image identification processing system | |
JP2005327076A (en) | Parameter estimation method, parameter estimation device and collation method | |
JP2007122218A (en) | Image analyzing device | |
US20080317382A1 (en) | Adaptive Point-Based Elastic Image Registration | |
US7593566B2 (en) | Data recognition device | |
JP2009230703A (en) | Object detection method, object detection device, and object detection program | |
JP2010524111A (en) | Generalized statistical template matching based on geometric transformation | |
JP2003281541A (en) | Authentication device and method | |
JP2006004003A (en) | Image processor and image processing method, recording medium and program | |
JP5704909B2 (en) | Attention area detection method, attention area detection apparatus, and program | |
JP4238537B2 (en) | Image processing device | |
CN107784284A (en) | Face identification method and system | |
Ghadhban et al. | Segments interpolation extractor for finding the best fit line in Arabic offline handwriting recognition words | |
JP2005165923A (en) | Detection device and detection method | |
JP7552287B2 (en) | OBJECT DETECTION METHOD, OBJECT DETECTION DEVICE, AND COMPUTER PROGRAM | |
JP3994819B2 (en) | Image identification device, image identification method, and image identification program | |
JP7567371B2 (en) | Method for performing class classification processing using machine learning model, information processing device, and computer program | |
US20210374504A1 (en) | Method, apparatus, and non-temporary computer-readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050622 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080902 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081208 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120109 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140109 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |