JP2004062721A - 画像識別装置 - Google Patents
画像識別装置 Download PDFInfo
- Publication number
- JP2004062721A JP2004062721A JP2002222723A JP2002222723A JP2004062721A JP 2004062721 A JP2004062721 A JP 2004062721A JP 2002222723 A JP2002222723 A JP 2002222723A JP 2002222723 A JP2002222723 A JP 2002222723A JP 2004062721 A JP2004062721 A JP 2004062721A
- Authority
- JP
- Japan
- Prior art keywords
- face
- identification
- resolution
- pattern
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
【解決手段】画像データに空間解像度の異なる空間フィルタを施す識別用粗視化部106を備え、各空間解像度には顔パターンを識別する顔識別部102が設けられている。この顔識別部102においては、非線形変換で定義される空間内に効率良い学習により張られた部分空間を利用して、顔パターンの識別を高精度に行う。識別は、空間解像度の最も低いものから、高いものへと階層的に行う。さらに、この一連の識別の前または後ろには、顔以外のパターンを検出する反例検出部104が設けられ、顔以外のパターンを検出することで、精度の向上を図っている。
【選択図】 図8
Description
【発明の属する技術分野】
本発明は、画像識別装置、特に画像データからのパターンの識別を効率良く行う画像識別装置に関する。
【0002】
【従来の技術】
計算機を用いて、画像データから、特定のパターンを識別するためには、パターンそのものの形状の検出を確実に行う必要と、含まれているパターンのサイズや回転角度等が様々であることに対応する必要とがある。
【0003】
前者に対する従来例としては、線形部分空間法、サポートベクトルマシン(SVM)法、カーネル非線形部分空間法などがある。線形部分空間法では、複数のカテゴリ毎に部分空間を定め、未知のパターンがどの部分空間に最も関連しているかを評価し、そのパターンの属するカテゴリを判定している。しかし、この方法においては、カテゴリが多く、パターンの次元が低い場合には、検出精度が低下してしまう。また、非線形性をもつパターン分布に対する識別精度も低いという問題がある。
【0004】
SVM法は、カーネル関数を媒介に定義した非線形変換により、低次元のパターンを高次元に写像することで、非線形性をもつパターン分布の識別を可能とする方法である。しかし、2つのカテゴリの分類しか行うことができない点や、必要な計算量が多い点に問題を抱える。
【0005】
カーネル非線形部分空間法は、これらの問題を解決するパターン識別方法として考案され、特開2002−90274公報に開示されている。この方法は、SVM法と同様に、カーネル関数を用いて定義した非線形変換によりパターンを高次元に写像し、この高次元非線形空間上で部分空間法を実施している。
【0006】
後者について、すなわち、様々なサイズや回転角度をもったパターンを検出するためには、従来は、非常に多くの学習サンプルを用いることで対応してきた。すなわち、上で述べた各パターン識別法などは、一般に特徴的なパターンをもつ学習サンプルを用いて、その特徴を示すカテゴリの分布を定めていく学習をおこなう。そこで、この学習サンプルとして、サイズや角度が様々に変えられたパターンを用いるだけでなく、サイズと角度を組み合わせた変形がなされた非常に多くのパターンについても用いる必要があった。
【0007】
【発明が解決しようとする課題】
しかしながら、前記カーネル非線形部分空間法では、部分空間を張る基底ベクトルが、全学習サンプルの非線形空間への写像に基づいて定義されるため、学習サンプルが多くなると、依然として多くの計算が必要となる問題があった。本発明の課題は、画像中の人間や動物の顔パターンを、高速かつ高精度に識別する手段を確立する点にある。
【0008】
【課題を解決するための手段】
本発明の画像識別装置は、画像データに含まれる顔パターンを、顔パターンに対する正規化変換がなされた画像データから識別する画像識別装置であって、
画像データに空間解像度の異なる空間フィルタを施して複数の粗視データを生成する粗視化手段と、各解像度に設けられ、粗視データから顔パターンの特徴を識別する顔識別手段であって、その解像度の粗視データをその解像度で学習されたカテゴリと比較し、非線形変換によって定められる空間上で所定の位置関係にある場合には、対応する画像データにカテゴリの表す顔パターンが含まれている可能性が高いと判断する顔識別手段と、を備え、解像度の一番低い顔識別手段を起点として、ある解像度の顔識別手段によって顔パターンが含まれている可能性が高いと判断されたときは次に解像度の低い顔識別手段を実行することで、複数解像度を利用して階層的な顔パターンの識別を行う階層的顔パターン識別手段を有することを特徴とする。
【0009】
また、本発明の画像識別装置は、画像データまたは所定の解像度の粗視データに対し、顔パターンが含まれないことを検出する反例検出手段を、階層的顔パターン識別手段の前または後ろに有し、反例検出手段は、顔パターン以外を含む学習サンプルを用いた学習により、顔識別手段と同様にして、顔パターン以外が含まれている可能性が高いと検出することを特徴とする。
【0010】
また、本発明の画像識別装置は、非線形変換はカーネル関数を用いた計算手段によって与えられることを特徴とする。
【0011】
また、本発明の画像識別装置は、カテゴリは、複数の学習データを非線形変換して得られたベクトルの組を基底ベクトルとする部分空間によって構築されることを特徴とする。また、本発明の画像識別装置は、部分空間を張る基底ベクトルは、新たな学習サンプルの非線形変換による写像が与えられた時に、この写像とそれまでに生成されている部分空間との関連性が高くなるように更新されることを特徴とする。
【0012】
また、本発明の画像識別装置は、非線形変換を定義するカーネル関数は、学習サンプルの非線形変換による写像と、部分空間との関連性に応じて変形されることを特徴とする。また、本発明の画像識別装置は、各解像度に対応した顔検出手段は装置内に設けられた並列演算装置により並列的に処理されることを特徴とする。
【0013】
また、本発明の画像識別方法は、画像データに含まれる顔パターンを、顔パターンに対する正規化変換がなされた画像データから識別する画像識別方法であって、画像データに空間解像度の異なる空間フィルタを施して複数の粗視データを生成する粗視化工程と、各解像度に設けられ、粗視データから顔パターンの特徴を識別する顔識別工程であって、その解像度の粗視データをその解像度で学習されたカテゴリと比較し、非線形変換によって定められる空間上で所定の位置関係にある場合には、対応する画像データにカテゴリの表す顔パターンが含まれている可能性が高いと判断する顔識別工程と、を備え、解像度の一番低い顔識別工程を起点として、ある解像度の顔識別工程によって顔パターンが含まれている可能性が高いと判断されたときは次に解像度の低い顔識別工程を実行することで、複数解像度を利用して階層的な顔パターンの識別を行う階層的顔パターン識別工程を有することを特徴とする。
【0014】
【発明の実施の形態】
以下に、本発明の好適な実施形態を図面を用いて説明する。図中、同一構成となるものについては説明を省略する。
【0015】
図1のブロック図は、本発明の実施の形態に係る装置の構成を示している。装置は、演算を行うCPU2をはじめ、記憶部4、利用者の指示入力部6、表示部8、データ入力部10、データ出力部12、およびアプリケーションソフトウエア入力部14を含む構成となっており、これらはデータを通信する通信網によって結ばれている。すなわち、この装置は、一般的なコンピュータ上で、本発明のアルゴリズムを記載したアプリケーションソフトウエアを実行することで実現される。利用者は、CD−ROM等の記憶媒体や、ネットワークを介して頒布されたアプリケーションソフトウエアを、そのアプリケーションソフトウエア入力部14を用いてコンピュータに入力し、キーボード等の指示入力部6を使ってCPU2に実行させる。CPU2の動作は、オペレーティングシステム(OS)と呼ばれるソフトウエアの管理下にあり、利用者ならびにアプリケーションソフトウエアの指示は、このOSを通じてCPU2に伝えられる。本実施形態のアプリケーションソフトウエアやOSを始めとする演算実行上必要な情報は、メモリやハードディスク等からなる記憶部4によって一時的または恒久的に保持される。また、実行にあたって必要となる画像データは、CCDカメラ、スキャナ、CD−ROM等の記憶媒体、あるいはネットワークによるデータ取得等のデータ入力部10を通して得られる。そして、必要な演算は、そして、必要な演算がCPU2によって成されると、処理された画像データは、MO等の記憶媒体、ネットワークによるデータ転送、プリンタ等のデータ出力部12を通じて出力される。また、利用者は、ディスプレイなどの表示部8によって、処理前後の画像データ等を見ることができる。
【0016】
図2は、CPU2によって行われる画像処理演算の概略を示すブロック図である。データ入力部10から入力された画像データは、画像正規化部20によって正規化変換を受け、さらにパターン識別部100によって詳細なパターンの識別をされる。なお、ここで言う正規化とは、顔パターンの大きさ、回転角度、位置、明るさなどの条件を、パターン識別部100の想定する状態(これを正規形と呼ぶことにする)へと変換することである。
【0017】
画像正規化部20で行われる正規化のための変換は基本的な部分変換からなる要素に分割されており、各部分変換をどのように行えばよいかは、それぞれの部分変換に対応した部分変換検出部26が算出する。図示した例では、画像データのサイズ(拡大と縮小)に関係したサイズ部分変換検出部26a、画像データの回転角度に関係した回転部分変換検出部26b、画像データのシフト(平行移動)に関係したシフト部分変換検出部26cの3つの部分変換検出部26を備える。これらの部分変換検出部26は、後で詳しく述べるように、画像データに粗視化のための空間フィルタを施して得た粗視データに対して部分変換の状態検出を行い、その結果を正規化処理部28に渡す。そして、正規化処理部28は、変換にともなう誤差が最も小さいと判定された変換を画像データに施す。この一連の過程は、通常何度か繰り返され、最終的には、サイズ、回転、シフトの全てについて正規化が行われることになる。もちろん、顔パターンの状況によっては、繰り返しを行わないことも可能である。
【0018】
パターン識別部100は、画像正規化部20によって正規化が行われた画像データに対し、空間フィルタを用いて様々な解像度の粗視データへと粗視化する処理を行い、さらにこの粗視データに対し、顔パターンの識別を行う顔識別部102を実行する。図示した例においては、主成分分析のモードを適当な次元だけ足し合わせる粗視化がなされており、25次元の粗視データに対する顔識別部102aと、100次元の粗視データに対する顔識別部102bをはじめ、その間の解像度にも複数の顔識別部102が設けられている。また、最も高い次元である100次元の粗視データに対し、顔パターン以外が含まれることを判定する反例検出部104が設けられている。後で詳細に記すように、顔パターンの識別は解像度が一番低い25次元の顔識別部102aから行われ、顔パターンがある可能性が高いと判定された場合には、次に低い解像度の顔識別部102が判定に用いられる。そして、最も解像度が高い100次元においても、顔パターンのある可能性が高いと判定された場合には、最後に反例検出が行われる。
【0019】
以下では、画像正規化部20とパターン識別部100の詳細な説明を行う。
【0020】
図3のブロック図は、画像正規化部20の構成の概略を示している。入力された画像データは、記憶部4に設けられた画像保持部30に保持される。そして、正規化用粗視化部32において、この画像データに対し空間解像度を落として大まかな特徴を取り出す粗視化を行い粗視データを得る。この粗視化のために用いる空間フィルタ手段は特に限定されないが、例えば、適当な画像データに対する主成分分析で得たモード成分のうち寄与率の大きな所定次元数のモード成分の和を算出する方法や、フーリエ分解を行い所定の解像度以上のモード成分を取り出す方法などを用いる。粗視化を行う理由は、データ量を減少させ、次に述べる正規化が高速で実行可能になることにある。
【0021】
続いて粗視データは、並列的に複数配置された部分変換検出部26に送られる。各部分変換検出部26では、図4に模式的に示したように、粗視データを画像空間G内のベクトルxであるとみなし、パターン識別のための非線形変換によって作られる空間Fに写像する。この空間Fに写像されたベクトルを写像ベクトルと呼ぶことにし、Φ(x)と書く。部分変換検出部26は、例えば、サイズと、回転と、シフトについて検出する場合には、サイズ部分変換検出部26a、回転部分変換検出部26b、シフト部分変換検出部26cからなる。そして、各部分変換検出部26には、正規化用部分空間学習部34、正規化用部分空間射影部36、部分変換評価部37が含まれ、さらに部分変換評価部37には変換の大きさ評価部38と推定誤差評価部40が含まれる。空間F内には、正規化用部分空間学習部34が学習サンプルを用いて事前に学習サンプルに特徴的なカテゴリを表す部分空間Ωを構築しており、写像ベクトルΦ(x)は、正規化用部分空間射影部36によって、この部分空間Ωに射影される。この射影されたベクトルを射影ベクトルと呼びΦ’(x)と表記する。そして、変換の大きさ評価部38は、射影ベクトルΦ’(x)が部分空間Ωを張る基底ベクトルのうちのどれに近いかを評価して、変換に必要な大きさを算出する。例えば、サイズ部分変換検出部26aにおいては、学習時に、基底ベクトルΦ1は約1.5倍の大きさをもつ学習サンプルの近傍にあり、他の基底ベクトルΦ2は約2倍の大きさをもつ学習サンプルの近傍にあるといった対応関係を示すルックアップテーブルを作成している。変換の大きさ評価部38aは、このルックアップテーブルを参照して、現在の顔パターンを正規形に変換するためには何倍に拡大すればよいのかを算出することができる。また、推定誤差評価部40は、写像ベクトルΦ(x)と射影ベクトルΦ’(x)の距離Eを基にして推定誤差を算出する。これは、距離Eが近ければ射影に含まれる誤差は小さく、距離Eが大きければ射影結果は大きな誤差を含むであろうと判断されることを意味する。
【0022】
これらの結果は、変換判定部42と変換実施部44とを含む正規化処理部28に渡される。そして、変換判定部42は、どの部分変換検出部26の推定誤差が最小となるかを判定する。例えば、回転部分変換検出部26bの推定誤差が一番小さいときには、変換実施部44が、対応する変換の大きさ(すなわち回転させる角度)の分だけもとの画像データを回転させ、画像保持部30のもつ画像を更新する。更新された画像データは、必要に応じて、さらに複数回、同様の正規化を施される。繰り返しの基準は様々に考えられるが、例えば、あらかじめ所定の回数を設定する方法や、実空間において適当な対比データとから算出した相関、あるいは前記変換の大きさ評価手段が求めた値を所定の閾値と比較する方法などを用いることも可能である。
【0023】
次に、部分変換検出部26において用意される空間Fをカーネル関数を用いて構築する手段について、数学的表現を交えて詳細に説明する。カーネル関数を用いる方法において特徴的なことは、上で述べた写像ベクトルΦ(x)の作成方法が陽に示されないことである。
【0024】
粗視データを表す画像空間G上のd次元ベクトルxを、dF次元の空間Fに写像する式(1)の非線形写像は、適当なカーネル関数k(x,y)を選ぶことで、式(2)の関係を満たすように決められる。
【0025】
【数1】
ここで、φi(x)は適当なカーネル関数の固有関数であり、対応する固有値をλiである(i=1,...,n)。
【0026】
次に、粗視データのカテゴリを分類するm次元部分空間Ωを、空間Fに張る方法及びその学習方法を説明する。まず、部分空間Ωの基底ベクトルの初期値として、画像空間G上のm個のベクトルx1,...,xm(以下ではプレイメージと呼ぶ)に対応した部分空間Ω上のベクトルΦ1,...,Φmを適当に決める。具体的には、例えば、一様乱数を発生させてランダムに与える。ここで、画像空間上の学習サンプルを示すd次元ベクトルxを用いて、この部分空間Ωを修正するように、プレイメージを学習させることを考える。学習サンプルのベクトルxの空間Fへの写像Φ(x)を部分空間Ωに射影したベクトルΦ’(x)は、基底ベクトルの一次結合で表現される。その結合係数をαiとすると、この射影と、もとの写像ベクトルΦ(x)との距離Eは式(3)−(5)で表される。
【0027】
【数2】
ここで、式(5)への変形には、カーネル関数の定義式(2)を用いている。また、係数αiは、射影の定義に従いEが最小の値をとるように、式(6)で与えられる。行列Kは、k(xi,xj)を(i,j)成分とする行列である。
【0028】
プレイメージの学習では、部分空間Ωと学習サンプルxiとの距離を最も減少させる方向にプレイメージをΔxi動かす。このΔxiは最急降下法によって式(7)で与えられる。
【0029】
【数3】
ここで、ηは学習係数であり、正の定数である。また、行列gab(x)は、非線形写像によって空間Fに埋め込まれている多様体の計量テンソルであり、カーネル関数を用いて式(8)で与えられている。この学習は、高次元空間の線形最適化問題なので、非線形最適化問題に比べ収束性が良く、短時間で終了する。
【0030】
次にカーネル関数の学習方法について記す。カーネル関数としては、初期には、ガウス関数カーネルや、多項式カーネルなどの既知の関数を与える。学習中には、カーネル関数を式(9)の等角写像によって変形する。
【0031】
【数4】
その学習則は、学習サンプルに対する係数αiのばらつきが、どの係数αiに対しても均一になるようにC(x)を与えるものとする。具体的には、係数αiのばらつきが既定値に対して大きい場合は、係数αiに対応する部分空間の基底ベクトルのプレイメージxi近傍に関して、C(x)の値を大きくする。これにより、xiの近傍は空間Fにおいて、式(10)のように拡大される。
【0032】
【数5】
したがって、係数αiを大きな値とする学習サンプルの数は相対的に減少し、係数αiの学習サンプルに対するばらつきは減少する。逆に係数αiのばらつきが既定値に対して小さい場合は、係数αiに対応する基底ベクトルのプレイメージxi近傍に関してC(x)の値を小さくする。なお、ここで述べた方法では、C(x)は部分空間Ωの基底のプレイメージに対してしか適用できないが、プレイメージ近傍に関してはプレイメージにおけるC(x)の値を式(11)のように外挿することで変更が可能となる。
【0033】
【数6】
ここで、学習に用いる学習サンプルの与え方について説明する。例えば、回転に関する正規化を行う場合には、画像中において正規化の対象となる顔パターンが画像の中心位置に正立(頭が上に、顎が下に配置される)する画像データを複数枚用意し、これらに対し−180度から180度までの範囲で一様乱数を用いて与えた角度、または等間隔に与えた角度に回転させる。また、シフトについては、同じく顔パターンが画像の中心位置に正立した画像を複数枚用意し、縦方向および横方向に、例えば半値幅が適当なピクセル数をもつガウス分布の乱数に従ってシフトさせる。乱数で与える代わりに確率密度が一様となるように規則的に与えても良い。サイズの場合にも、同様にして、顔パターンが画像の中心位置に正立した画像を拡大および縮小させれば良い。このようにして学習を行うことで、学習サンプルのもつ変換の大きさ(例えば回転の場合にはその角度)と、学習サンプルの部分空間への射影の関係が明らかになる。具体的には、例えば係数α1が大きければ90度程度回転したものであるといった関係が導かれる。これを詳細に調べ、ルックアップテーブルや、適切な関数を作成することで、変換の大きさ評価部38の評価手段が確立する。
【0034】
以上の学習手続きにより、非線形変換で写像される空間Fに、粗視データをカテゴリ分けする部分空間Ωが張られる。学習の過程においては、プレイメージの学習およびカーネル関数の学習を交互に複数回反復するのが望ましいが、学習サンプルがあまり複雑でない場合には、どちらかの方法を1回だけ行うなどの簡略化をすることも可能である。
【0035】
最後に、学習が完了し正規化が行われる段階において、画像正規化部20が実行される手順の主要部分を図5に示したフローチャートを用いて説明する。画像データが入力される(S1)と、正規化用粗視化部32は空間フィルタを用いて粗視データを作成する(S2)。粗視データは、サイズ部分変換検出部26a、回転部分変換検出部26b、シフト部分変換検出部26cに送られる。正規化用部分空間射影部36は、式(6)で定義される射影の一次結合の係数αiを求める(S3)。このαiの求め方は、必ずしも式(6)の定義に従う必要はなく、適当な反復法を用いて式(5)のEが最小となるように求めても良い。次に、変換の大きさ評価部38が、こうして得られたαiをルックアップテーブルと比較する等して変換の大きさを求め(S4)、推定誤差評価部40は、Eの大きさ、あるいはEの単調増加関数値を推定誤差として算出する(S5)。正規化処理部28における変換判定部42は、推定誤差が最小となる部分変換検出部26を判定し(S6)、もとの画像データに対して、対応する変換の大きさで、変換を行う。こうして得られた画像データは、適当な判断基準に従って、再変換されるか否かが決められる(S8)。なお、先にも述べたように、この一連の演算において、式(1)で定義される非線形変換は直接は用いられず、したがって、その形状を知る必要もない。
【0036】
図6に、サイズ、回転、シフトの各要素からなる正規化をおこなった結果を示す。この実験は、図の右側の写真で示したように、目の近傍を写した2つの写真が正規化されていく様子を、一回の変換毎に追跡したものである。右上の一連の写真では、初期(左上)に反転している写真が、最初のステップで約90度半時計回りに回転され、次のステップでやや左にシフトされ、といった変換を受け、最後には正立した所望の大きさに正規化されている。左側の3次元のグラフは、この正規化の過程における、サイズ(倍率)、角度(度)、距離(ピクセル)を逐次追跡したものである。左上の黒丸は、初期の写真が、180度の回転と、1.3倍程度の拡大と、若干のシフトを受けていることを示している。そして、一回の変換毎に3つの座標軸のいずれか一つに沿って移動し、最終的に右側の正規化された位置に移っている。右下の一連の写真、及び対応する左のグラフの白丸も同様の流れを示しており、この場合には、拡大を中心に正規化が行われている。なお、ここでは、顔パターン全体ではなく目の近傍に限定しているが、顔パターン全体とした場合にも基本的な効果は全くかわらない。ただし、顔パターン全体とした場合には、図示した例とは、学習サンプルを変えなければならないことは言うまでもない。
【0037】
なお、正規化用粗視化部32で用いる空間フィルタの解像度には任意性があるが、ここで示した例では、主成分分析の方法により25次元程度の粗視化を行っている。また、空間Fに張る部分空間Ωの次元もいろいろな値を取ることが可能であるが、ここでは25次元とした。学習サンプルの数は、検出に必要な精度にもよるが、例えば、100人程度の顔パターンを、各部分変換検出部26で、一人につき100通り程度変化させればよい。この結果、部分変換検出手段26を3つ用いた場合には、全学習サンプル数は3万程度になる。一方、本実施の形態を用いずに同じ自由度を与えると、全学習サンプル数は100万程度になってしまう。したがって、本実施形態を用いることで学習サンプル数を格段に軽減できることがわかる。また、部分変換検出部26の検出する部分変換は、ここでは、サイズ、回転、シフトとした。これらの要素は、特に限定されないが、単純な変換をおこなうと変換が容易となる。すなわち、サイズおよび回転については、一次変換で記述できる形式を用い、シフトについては剪断性をもたない一様な平行移動を用いると良い。もちろん、扱うパターンの特性に応じて、これよりも複雑な変換を割り当てることもできる。また、画像データの輝度に関する変換等を割り当てることも可能である。
【0038】
上に説明した非線形変換は、カーネル関数を用いて定義された。しかし、非線形変換の構築方法には任意性がある。ここではニューラルネットワークのアルゴリズムに従ったオートエンコーダを用いて非線形変換を行う方法について説明する。
【0039】
図7に、オートエンコーダの概略を示す。オートエンコーダは、多層のパーセプトロンの一種であり、入力層60のニューロン数と、出力層62のニューロン数が同じで、中間層64のニューロン数はこれよりも少なくなっている。
【0040】
このオートエンコーダを部分変換検出部26として用いるためには、次のようにする。まず、カーネル関数を用いる場合と同様にして作成した学習サンブルを入力層60へ入力するとともに、同じ値を教師信号として出力層62に与え、恒等写像を実現するように各シナプスの重みを学習させる。この学習は通常のバックプロパゲーション法で行うことができる。
【0041】
こうして学習されたオートエンコーダの出力層62の出力は、非線形変換による写像が作る空間Fを表現しているとみなすことができる。また、オートエンコーダの中間層64のニューロンの出力は、空間F内に張られたカテゴリを分類する部分空間Ωへの射影に相当する。したがって、入力層60に粗視データを入力し、中間層64の出力を得ることで、正規化用部分空間射影部36を実現することができる。また、学習時に、学習サンプルの特徴と中間層64の出力との関係を調べ、ルックアップテーブルを作成することで、変換の大きさ評価部38を実施することができる。さらに、推定誤差評価部40が評価する推定誤差は、入力層60のベクトルと出力層62のベクトルとの距離、あるいはその単調増加の関数によって算出可能である。この距離が変換の精度に対応していることは、距離が短いほど空間Fへの写像が入力を精度よく近似できていることから明らかである。
【0042】
以上に、画像正規化部20によって、画像データを正規化する様子を説明した。ここからは、画像正規化部20が出力した画像データから顔パターンを識別する、パターン識別部100について説明する。
【0043】
図8は、パターン識別部100の構成を示すブロック図である。パターン識別部100は、複数の空間解像度をもつ識別用粗視化部106と、各識別用粗視化部106に接続された顔識別部102、そして反例検出部104からなる。識別用粗視化部106は、画像正規化部20における正規化用粗視化部32と同様に、画像データに空間フィルタを施して粗視データを出力する役割を果たしている。その解像度は自由に設定でき、ここでは最低次元を25次元、最高次元を100次元とし、その間にも複数の識別用粗視化部106を設けている。顔識別部102は、各識別用粗視化部106に設けられており、顔パターンの識別を行う。
【0044】
入力された画像データは、まず、空間解像度が最も低い識別用粗視化部106aに入力され、図示した例においては、25次元の粗視データに変換される。そして、粗視データは、顔識別部102aに入力される。顔識別部102aは、識別用部分空間学習部108a、識別用部分空間射影部110a、および識別用判定部112aを含んでおり、画像正規化部20で説明した部分変換検出部26とよく似た動作を行う。すなわち、入力された粗視データは、カーネル関数で定義される非線形変換によって空間Fに式(1)のように写像される。この空間Fでは、識別用部分空間学習部108aによって事前に学習が行われており、学習サンプルの顔パターンを特徴づける部分空間Ωが張られている。識別用部分空間射影部110aは、空間Fに写像された写像ベクトルを、この部分空間Ωに射影する。これにより、射影された射影ベクトルの一次結合の係数αiが決められ、射影の垂線の長さEが式(5)から得られる。識別用判定部112aは、両者の位置関係、すなわちEの大きさを適当な閾値などで評価して、このデータを部分空間Ωのカテゴリに含めるか否かを判定する。閾値の決定は、適当なサンプルデータに対する正答率に基づくなどして決めればよい。判定の結果、顔パターンが含まれている可能性が高いと判断されると、次に解像度の低い識別用粗視化部106及び、対応する顔識別部102が実行される。
【0045】
反例検出部104は、顔識別部102と同様の構成をしており、反例用部分空間学習部114、部分空間射影部116、および反例用判定部118を含んでいる。顔識別部102との違いは、反例用部分空間学習部114によって、顔以外のパターンが学習される点である。すなわち、顔以外のパターンを含む学習サンプルを用いて、顔以外のパターンが含まれることを特徴とする部分空間Ωが形成される。部分空間射影部116が非線形変換の写像をこの部分空間Ωに射影する点と、反例用判定部118が写像ベクトルと射影ベクトルの位置関係に基づいて分類を行う点は同じである。
【0046】
顔識別部102と、反例検出部104の学習の方法も、画像正規化部において説明した方法と同様である。すなわち、顔識別部102においては、識別したい顔パターンの学習サンプルを複数用意し、それをもとに、部分空間の基底ベクトルに対応するプレイメージの更新と、カーネルの変形を行う。なお、このパターン識別部100は、通常、画像正規化部20によって正規化された画像データに対してパターン認識を行う。したがって、顔パターンは正規化されていることが期待できるので、学習サンプルはサイズ、回転角度、シフト等に関して正規化されたものだけを用いればよい。反例検出部104の学習サンプルとしては顔パターン以外のものを用いればよい。ただし、一般に顔識別部102によって識別しにくいものを学習させることで効果を発揮するので、正規化された顔パターンに類似した紛らわしいものを中心に学習させておくとよい。
【0047】
図10に、ここで述べた識別を試験的に実施した結果を示す。左側は、本発明を用いずに、50次元に粗視化されたデータに対してのみ検出を実行している。一方、右側は、本実施例を用いた場合で、25次元、50次元、100次元の3つの解像度に、顔識別部102を用いて階層的に検出を行った結果である。ただし、反例検出部104は含めていない。使用した画像データは、ひとつの画像データの中に複数の顔を含んでおり、その中から顔パターンを検出したものである。いずれも90%の確率で顔を検出できる。横軸は、ひとつの画像データの中から顔以外のパターンを誤って見つけた個数であり、縦軸はその比率を示している。従来の方法では、間違いが無かった比率は63パーセントで、間違いが1つだけ合った比率は22パーセントであった。本発明では、この値はそれぞれ、82パーセントと14パーセントになっている。この結果、画像一つあたりの誤検出率は、0.40個から、0.24個に向上している。もちろん、100次元の高解像度での検出には多くの計算時間を必要とするが、本実施形態では、25次元の解像度において顔パターンが含まれる可能性が低いと判定した場合にはそれ以上の解像度での検出を行わないので、無駄な計算時間を必要とせず、効率的で高精度な検出が達成できている。なお、図示はしないが、この実験においてさらに、顔パターンが含まれないことを検出する反例検出部104を各解像度に含めた場合には、誤検出率はほぼ0になり、その有効性が確認できている。
【0048】
最後に、本実施の形態における特徴的な点を列挙しておく。本実施の形態の画像正規化部20により、入力された画像データにおける顔パターンの正規化を、非常に少ない学習サンプルをもとに学習しただけで、実現することができる。また、回転、拡大と縮小、平行移動などに分類して正規化を行うため、対応した学習サンプルだけを用いて学習させればよく、非常に効率的な学習が可能となる。また、正規化をニューラルネットワークを用いて行うため、非線形性をもつパターン分布に対しても容易に正規化を行うことができる。また、正規化をカーネル関数で定義された非線形変換を利用して行うため、非線形性をもつパターン分布に対しても精度よく正規化を行うことができる。また、並列計算機を用いて正規化を行えば、迅速な正規化の実行が可能となる。
【0049】
本実施の形態のパターン識別部100により、本質的に非線形性を有する顔パターンの特徴を、非線形変換を用いて高精度に識別できる。また、低分解能から高分解能へと階層化された判定を行うため、顔パターンが含まれないと容易に判定できるものに時間をかけることなく高速に識別できる。また、反例を検出する手段を併用することで、判定の精度が向上する。また、カーネル関数で定義される非線形変換を用いてパターンの識別が行われるので、信頼性の高い識別が可能となる。また、カテゴリを表す部分空間を、非常に高速に構築することができる。また、学習サンプルをもちいて部分空間における基底ベクトルを効率良く張り直すことができる。また、学習サンプルを用いてカーネル関数を容易に変形できるので、パターンの識別の向上を容易に図る事が可能となる。また、並列計算機を用いることで、各解像度におけるパターンの識別を効率良く計算することができる。
【0050】
これら画像正規化部20とパターン識別部100は、お互いに補完しあうことで、非常に高精度で高速な顔パターンの識別が可能になる。
【図面の簡単な説明】
【図1】本実施形態の計算機の構成を示す概略図である。
【図2】画像正規化部およびパターン識別部の概略を示すブロック図である。
【図3】画像正規化部の詳細を示すブロック図である。
【図4】非線形変換の様子を表す模式図である。
【図5】画像正規化部の処理手順を示すフローチャートである。
【図6】画像正規化部の試験結果を示す図である。
【図7】画像正規化部に用いるオートエンコーダの概略図である。
【図8】パターン識別部の概略を示すブロック図である。
【図9】パターン識別部の処理手順を示すフローチャートである。
【図10】パターン識別部の試験結果を示す図である。
【符号の説明】
20 画像正規化部、26 部分変換検出部、28 正規化処理部、100 パターン識別部、102 顔識別部、104 反例検出部。
Claims (9)
- 画像データに含まれる顔パターンを、顔パターンに対する正規化変換がなされた画像データから識別する画像識別装置であって、
画像データに空間解像度の異なる空間フィルタを施して複数の粗視データを生成する粗視化手段と、
各解像度に設けられ、粗視データから顔パターンの特徴を識別する顔識別手段であって、その解像度の粗視データをその解像度で学習されたカテゴリと比較し、非線形変換によって定められる空間上で所定の位置関係にある場合には、対応する画像データにカテゴリの表す顔パターンが含まれている可能性が高いと判断する顔識別手段と、
を備え、
解像度の一番低い顔識別手段を起点として、ある解像度の顔識別手段によって顔パターンが含まれている可能性が高いと判断されたときは次に解像度の低い顔識別手段を実行することで、複数解像度を利用して階層的な顔パターンの識別を行う階層的顔パターン識別手段を有することを特徴とする画像識別装置。 - 請求項1記載の画像識別装置であって、
画像データまたは所定の解像度の粗視データに対し、顔パターンが含まれないことを検出する反例検出手段を、階層的顔パターン識別手段の前または後ろに有し、
反例検出手段は、顔パターン以外を含む学習サンプルを用いた学習により、顔識別手段と同様にして、顔パターン以外が含まれている可能性が高いと検出することを特徴とする画像識別装置。 - 請求項1または2記載の画像識別装置であって、
非線形変換はカーネル関数を用いた計算手段によって与えられることを特徴とする画像識別装置。 - 請求項3記載の画像識別装置であって、
カテゴリは、複数の学習データを非線形変換して得られたベクトルの組を基底ベクトルとする部分空間によって構築されることを特徴とする画像識別装置。 - 請求項4記載の画像識別装置であって、
部分空間を張る基底ベクトルは、新たな学習サンプルの非線形変換による写像が与えられた時に、この写像とそれまでに生成されている部分空間との関連性が高くなるように更新されることを特徴とする画像識別装置。 - 請求項4記載の画像識別装置であって、
非線形変換を定義するカーネル関数は、学習サンプルの非線形変換による写像と、部分空間との関連性に応じて変形されることを特徴とする画像識別装置。 - 請求項1乃至6のいずれか1記載の画像識別装置であって、各解像度に対応した顔検出手段は、装置内に設けられた並列演算装置により並列的に処理されることを特徴とする画像識別装置。
- 画像データに含まれる顔パターンを、顔パターンに対する正規化変換がなされた画像データから識別する画像識別方法であって、
画像データに空間解像度の異なる空間フィルタを施して複数の粗視データを生成する粗視化工程と、
各解像度に設けられ、粗視データから顔パターンの特徴を識別する顔識別工程であって、その解像度の粗視データをその解像度で学習されたカテゴリと比較し、非線形変換によって定められる空間上で所定の位置関係にある場合には、対応する画像データにカテゴリの表す顔パターンが含まれている可能性が高いと判断する顔識別工程と、
を備え、
解像度の一番低い顔識別工程を起点として、ある解像度の顔識別工程によって顔パターンが含まれている可能性が高いと判断されたときは次に解像度の低い顔識別工程を実行することで、複数解像度を利用して階層的な顔パターンの識別を行う階層的顔パターン識別工程を有することを特徴とする画像識別方法。 - コンピュータに、
画像データに含まれる顔パターンを、顔パターンに対する正規化変換がなされた画像データから識別させる画像識別プログラムであって、
画像データに空間解像度の異なる空間フィルタを施して複数の粗視データを生成する粗視化手順と、
各解像度に設けられ、粗視データから顔パターンの特徴を識別する顔識別手順であって、その解像度の粗視データをその解像度で学習されたカテゴリと比較し、非線形変換によって定められる空間上で所定の位置関係にある場合には、対応する画像データにカテゴリの表す顔パターンが含まれている可能性が高いと判断する顔識別手順と、
を備え、
解像度の一番低い顔識別手順を起点として、ある解像度の顔識別手順によって顔パターンが含まれている可能性が高いと判断されたときは次に解像度の低い顔識別手順を実行することで、複数解像度を利用して階層的な顔パターンの識別を実行させる階層的顔パターン識別手順を有することを特徴とする画像識別プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002222723A JP3994819B2 (ja) | 2002-07-31 | 2002-07-31 | 画像識別装置、画像識別方法、画像識別プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002222723A JP3994819B2 (ja) | 2002-07-31 | 2002-07-31 | 画像識別装置、画像識別方法、画像識別プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004062721A true JP2004062721A (ja) | 2004-02-26 |
JP3994819B2 JP3994819B2 (ja) | 2007-10-24 |
Family
ID=31942674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002222723A Expired - Fee Related JP3994819B2 (ja) | 2002-07-31 | 2002-07-31 | 画像識別装置、画像識別方法、画像識別プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3994819B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005250863A (ja) * | 2004-03-04 | 2005-09-15 | Univ Waseda | 領域検出方法およびそのシステム |
US8019128B2 (en) | 2007-01-31 | 2011-09-13 | Brother Kogyo Kabushiki Kaisha | Face detection device |
JP2015187759A (ja) * | 2014-03-26 | 2015-10-29 | キヤノン株式会社 | 画像検索装置、画像検索方法 |
CN114299279A (zh) * | 2021-12-01 | 2022-04-08 | 北京昭衍新药研究中心股份有限公司 | 基于脸部检测和识别的无标记群体恒河猴运动量估计方法 |
-
2002
- 2002-07-31 JP JP2002222723A patent/JP3994819B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005250863A (ja) * | 2004-03-04 | 2005-09-15 | Univ Waseda | 領域検出方法およびそのシステム |
US8019128B2 (en) | 2007-01-31 | 2011-09-13 | Brother Kogyo Kabushiki Kaisha | Face detection device |
JP2015187759A (ja) * | 2014-03-26 | 2015-10-29 | キヤノン株式会社 | 画像検索装置、画像検索方法 |
CN114299279A (zh) * | 2021-12-01 | 2022-04-08 | 北京昭衍新药研究中心股份有限公司 | 基于脸部检测和识别的无标记群体恒河猴运动量估计方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3994819B2 (ja) | 2007-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7040278B2 (ja) | 顔認識のための画像処理装置の訓練方法及び訓練装置 | |
JP5709410B2 (ja) | パターン処理装置及びその方法、プログラム | |
JP5406705B2 (ja) | データ補正装置及び方法 | |
Davies et al. | Statistical models of shape: Optimisation and evaluation | |
JP4321350B2 (ja) | パラメタ推定方法、パラメタ推定装置および照合方法 | |
JP4376145B2 (ja) | 画像分類学習処理システム及び画像識別処理システム | |
JP2008033424A (ja) | 画像処理装置、画像処理方法、プログラム及び記憶媒体 | |
US7593566B2 (en) | Data recognition device | |
CN114005169A (zh) | 人脸关键点检测方法、装置、电子设备及存储介质 | |
Parde et al. | Deep convolutional neural network features and the original image | |
JP2006004003A (ja) | 画像処理装置および方法、記録媒体、並びにプログラム | |
CN114654902B (zh) | 利用机器学习模型来执行印刷介质的判别处理的方法以及系统 | |
JP5704909B2 (ja) | 注目領域検出方法、注目領域検出装置、及びプログラム | |
CN107784284A (zh) | 人脸识别方法及系统 | |
JP4238537B2 (ja) | 画像処理装置 | |
Ghadhban et al. | Segments interpolation extractor for finding the best fit line in Arabic offline handwriting recognition words | |
JP7552287B2 (ja) | 物体検出方法、物体検出装置、及び、コンピュータープログラム | |
JP3994819B2 (ja) | 画像識別装置、画像識別方法、画像識別プログラム | |
US20210374504A1 (en) | Method, apparatus, and non-temporary computer-readable medium | |
JP2000090274A (ja) | パターン識別方法及びパターン識別プログラムを記録した記録媒体 | |
JP2023005937A (ja) | 機械学習モデルを用いて被判別データのクラス判別処理を実行する方法、情報処理装置、及び、コンピュータープログラム | |
KR102640081B1 (ko) | 시선 예측 방법 및 그 장치 | |
JP7537213B2 (ja) | 情報処理装置、演算方法、及び、コンピュータープログラム | |
CN113705430B (zh) | 基于检测模型的表格检测方法、装置、设备及存储介质 | |
WO2024043109A1 (ja) | 画像処理方法、画像処理装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070417 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070710 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070723 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110810 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120810 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120810 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130810 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |