JP2007072530A - 画像処理装置、画像処理方法、及び撮像装置 - Google Patents

画像処理装置、画像処理方法、及び撮像装置 Download PDF

Info

Publication number
JP2007072530A
JP2007072530A JP2005255614A JP2005255614A JP2007072530A JP 2007072530 A JP2007072530 A JP 2007072530A JP 2005255614 A JP2005255614 A JP 2005255614A JP 2005255614 A JP2005255614 A JP 2005255614A JP 2007072530 A JP2007072530 A JP 2007072530A
Authority
JP
Japan
Prior art keywords
feature
conversion
detected
holding
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005255614A
Other languages
English (en)
Inventor
Katsuhiko Mori
克彦 森
Masakazu Matsugi
優和 真継
Hiroshi Torii
寛 鳥居
Hiroshi Sato
博 佐藤
Hirosuke Mitarai
裕輔 御手洗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005255614A priority Critical patent/JP2007072530A/ja
Publication of JP2007072530A publication Critical patent/JP2007072530A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 検出精度を維持しつつ、より低コストに被写体検出処理を行えるようにすること。
【解決手段】 画像入力部(12)と、画像入力部から入力された画像から所定の認識対象を検出する被写体検出部(13)とからなる画像処理装置であって、被写体検出部は、基準データを保持する基準データ保持部(22)と、学習済みデータを保持する学習済みデータ保持部(24)と、検出する特徴の種類と変換量とに基づいて、基準データ保持部と学習済みデータ保持部のいずれかを選択する選択部(21)と、前記変換量に基づいて、基準データ保持部に保持された基準データを変換する基準データ変換部(23)とを有し、選択部が基準データ保持部を選択した場合は、基準データ変換部が変換したデータを用いて、また、選択部が学習済みデータ保持部を選択した場合は、学習済みデータを用いて前記特徴を検出し、該検出した特徴に基づいて前記認識対象を検出する。
【選択図】 図2

Description

本発明は、入力画像中の被写体を検出する画像処理装置及び方法、及び撮像装置に関し、特に、被写体の回転やサイズ変動に対応して被写体を検出する画像処理装置及び方法、及び撮像装置に関するものである。
従来より、画像認識や音声認識の分野においては、特定の認識対象に特化した認識処理アルゴリズムをコンピュータソフト、或いは専用並列画像処理プロセッサを用いたハードウェアにより実行するものが知られている。そして実行される認識処理アルゴリズムは、認識対象及び背景を含む画像から、認識対象を検出する。
特に、顔を特定の認識対象として検出するものとしては、例えば、特許文献1〜5に開示されているものがある。
特許文献1では、入力画像に対して、標準顔と呼ばれるテンプレートを使って顔領域を探索し、その後、眼、鼻孔、口といった特徴点候補に対して、部分テンプレートを使用して、人物を認証する。
特許文献2では、顔画像から眼と口候補群を求め、それらを組み合わせた顔候補群と予め記憶してある顔構造とを照合し、眼と口に対応する領域を発見する。この技術においては、入力画像中の顔の数は1つもしくは少数であり、また顔の大きさもある程度大きなサイズであることを想定している。つまり、ほとんどの領域が顔であって、背景が少ない画像が入力画像として想定されている。
特許文献3では、眼、鼻、口候補をそれぞれ複数求め、予め用意されている特徴点間の位置関係から、顔を検出する。
特許文献4では、顔の各部品の形状データと入力画像との一致度を調べる際に形状データを変更させ、また、各顔部品の探索領域は、以前に求めた部品の位置関係を基に決定する。この技術では、虹彩、口、鼻等の形状データを保持しておき、まず2つの虹彩を求め、続いて口、鼻等を求める際に、その虹彩の位置に基づいて、口、鼻等の顔部品の探索領域を限定する。つまり、このアルゴリズムでは、虹彩(眼)、口、鼻といった顔を構成する顔部品を並列的に検出するのではなく、虹彩(眼)を最初に見つけ、その結果を使用して、順に口、鼻という顔部品を検出している。
特許文献5では、複数の判定要素取得領域を設定した領域モデルを入力画像中で移動させ、各移動先の位置で、それら判定要素取得領域内で判定要素の有無を判定し、顔を認識する。
また、デジタルカメラやセキュリティカメラへの応用を考えた場合、画像中の顔の位置やサイズ、回転に依存しない検出方法が望まれており、そのため、いくつかの手法が提案されている。例えば、非特許文献1では、次のような神経回路網が開示されている。まず、サイズ変動に対応するために、入力画像を離散的に解像度変換した画像から特定の大きさの領域を切り出す。さらに、面内回転に対応するために、検出器の前半にRouter Networkと呼ばれる回転角度を検出する神経回路網を使用して、切り出された画像の回転角度を求める。神経回路網は、更に、その検出された角度に基づいて切り出された画像を変換した後、基準角度の時の顔を検出する。
この他にも、以下のような方法で検出することが可能である。まず、顔のサイズや面内回転に対応するために、基準のサイズかつ基準の角度の検出が可能な基準検出器に対して、入力画像の解像度を変換する。さらに、様々な回転角度で変換した画像を複数用意し、それら複数の画像に対して基準検出器を用いて検出する。また反対に、特定のサイズかつ特定の回転量の顔が検出できる検出器を複数種類用意し、それら複数の検出器を用いて、入力画像に対して検出を行うことも可能である。
特開平9−251534号公報 特許2767814号公報 特開平9−44676号公報 特許2973676号公報 特開平11−283036号公報 "Rotation Invariant Neural Network-Based Face Detection", H.A.Rowley, S.Baluja, T.Kanade, 1998, Computer Vision and Pattern Recognition (CVPR ’98)
しかしながら、特許文献1〜5に記載の従来例に示す方法では、回転に対応するには入力画像を回転させるか、各特徴を検出する際に使用するテンプレートやモデルを回転に応じて用意する、または回転させて使用することになる。入力画像を回転させると、画像サイズが大きな場合は、回転処理に時間がかかることになる。また、各特徴を検出する際に使用するテンプレートやモデルを回転に応じて用意すると、回転の間隔によっては膨大な数のテンプレートやモデルを用意する必要がある。また、各特徴を検出する際に使用するテンプレートやモデルを回転させて利用すると、回転角度によっては検出精度が劣化することがある。
また、非特許文献1に示す方法では、Router Networkで検出した回転量が誤っている場合は、切り出された画像中の顔の角度が基準角度と異なることになってしまう。
また、複数の検出器を用いる構成では、多くのメモリを必要とし、装置構成が複雑化し、装置のコストが大きくなってしまうという問題があった。
本発明は上記問題点を鑑みてなされたものであり、検出精度を維持しつつ、より低コストに被写体検出処理を行えるようにすることを目的とする。
上記目的を達成するために、画像入力手段と、前記画像入力手段から入力された画像から所定の認識対象を検出する検出手段とからなる本発明の画像処理装置は、前記検出手段は、基準データを保持する第1の保持手段と学習済みデータを保持する第2の保持手段と、検出する特徴の種類と変換量とに基づいて、前記第1の保持手段と前記第2の保持手段のいずれかを選択する選択手段と、前記変換量に基づいて、前記第1の保持手段に保持された基準データを変換する変換手段とを有し、前記選択手段が前記第1の保持手段を選択した場合は、前記変換手段が変換したデータを用いて、また、前記選択手段が前記第2の保持手段を選択した場合は、前記学習済みデータを用いて前記特徴を検出し、該検出した特徴に基づいて前記認識対象を検出する。
また、基準データを保持する第1の保持手段と、学習済みデータを保持する第2の保持手段とを有する画像処理装置における本発明の画像処理方法は、画像入力工程と、検出する特徴の種類と変換量とに基づいて、前記第1の保持手段と前記第2の保持手段のいずれかを選択する選択工程と、前記選択工程で前記第1の保持手段が選択された場合に、前記変換量に基づいて、前記第1の保持手段に保持された基準データを変換する変換工程と、前記選択工程で前記第1の保持手段を選択した場合は、前記変換工程で変換したデータを用いて、また、前記選択工程で前記第2の保持手段を選択した場合は、前記学習済みデータを用いて、前記画像入力工程で入力された画像から前記特徴を検出し、該検出した特徴に基づいて前記認識対象を検出する検出工程とを有する。
本発明によれば、検出精度を維持しつつ、より低コストに被写体検出処理を行うことが可能になる。
以下、添付図面を参照して本発明を実施するための最良の形態を詳細に説明する。
<第1の実施形態>
図1は本発明の第1の実施形態における画像処理装置の機能構成を示す図である。図1中、11は制御部、12は画像入力部、13は被写体検出部、14は被写体検出結果保持部、15は結果統合部を示す。
制御部11は、このシステム全体の制御を行う手段であり、画像入力部12、被写体検出部13、被写体検出結果保持部14、結果統合部15と接続されており、各部が適切なタイミングで動作するように制御する。画像入力部12は、制御部11からの制御信号に基づいて画像を入力し、入力した画像を被写体検出部13に出力する。
被写体検出部13は、画像入力部12から入力された画像に対して、制御部11から入力される変換量に基づいて、検出すべき特徴を順に検出し、当該検出した特徴に基づいて、最終的に入力された変換量に対応した被写体(認識対象)を検出する処理を行う。なお変換量は、サイズ変動の割合及び回転角度を含み、検出処理に使用するデータを選択及び変換する際に使用する値である。例えば回転であれば、45度、90度等の値が相当する。被写体検出部13は検出処理を行って、画像中の被写体の有無を検出し、そして、被写体が存在する場合には、その数、位置、大きさ、回転量を検出する。そして、その検出結果を被写体検出結果保持部14へ出力する。なお、被写体検出部13の詳細構成及び処理は、詳細に後述する。
被写体検出結果保持部14は、被写体検出部13の検出結果を一時的に保持し、制御部11の制御信号に基づいて、その保持された結果を結果統合部15へ出力する。
結果統合部15は、被写体検出部13で検出された複数の被写体検出結果を統合して、最終的な検出結果として出力する。この統合処理としては様々な処理の方法が考えられる。その、一例として、全ての検出結果の内、所定の閾値以上のものを被写体と設定する。
図2は、被写体検出部13の構成を示す図である。図2において、21は選択部、22は基準データ保持部、23は基準データ変換部、24は学習済みデータ保持部、25は検出処理部、26は中間結果保持部である。
選択部21は、制御部11から入力される変換量を示すデータ(変換量データ)と検出する特徴の種類を指示するデータ(特徴データ)とから、変換量と検出する特徴の種類を判断する。そして、この判断結果に基づいて、基準データ保持部22(即ち、基準データ保持部22に保持されている基準データ)と、学習済みデータ保持部24(即ち、学習済みデータ保持部24に保持されている学習済みデータ)のいずれかを選択する。
基準データ保持部22と学習済みデータ保持部24は共に、検出処理部25で検出処理を行う際に使用するデータを保持している。基準データ保持部22は基準となるデータを保持しており、基本的に、基準データ変換部23において、基準データ保持部22が保持するデータを、制御部11から入力される変換量に基づいて変換して、検出処理部25で使用する。一方、学習済みデータ保持部24が保持するデータは変換せずに、そのまま検出処理部25で使用する。
検出処理部25は、基準データ変換部23で変換されたデータまたは学習済みデータ保持部24が保持するデータを使用して、画像入力部1から入力された画像から、制御部11から特徴データによって指示された種類の特徴を検出する。そして、特徴の検出結果は、中間結果保持部26に保持される。
この検出処理部25で行う処理について図3を用いて説明する。ここでは、検出する被写体を顔として説明するが、本発明は被写体が顔である場合に限定されるものではない。
図3は、局所特徴を階層的に検出し、その検出結果を統合し、次の階層の局所特徴を検出する、という処理を繰り返して、最終的に被写体である顔を検出する動作を、模式的に示すものである。最初にプリミティブな特徴である1次特徴を検出し、その1次特徴の検出結果(検出レベルと位置関係)を用いて2次特徴を検出する。そして、2次特徴の検出結果を用いて3次特徴を検出し、最後にその3次特徴の検出結果を用いて4次特徴である顔を検出する。
図3(a)に検出すべき1次特徴の例を示す。最初に、縦特徴101、横特徴102、右上がり斜め特徴103、右下がり斜め特徴104といった特徴を検出する。なお、縦特徴101は縦方向の、横特徴102は横方向の、また、右上がり斜め特徴103は右上がり斜め方向の、右下がり斜め特徴104は右下がり斜め方向のエッジセグメントを表す。この1次特徴の検出結果は、各特徴毎に、入力画像と同等の大きさの検出結果画像という形で出力される。つまり、この例であれば4種類の検出結果画像が得られ、各特徴の検出結果画像の各位置の値から、入力画像の任意の位置に各特徴が存在するか否かを判断することができる。この検出結果は、中間結果保持部26に一時保存される。
図3(b)は2次特徴の例を示す。2次特徴の検出では、右空きV字特徴201、左空きV字特徴202、水平平行線特徴203、垂直平行線特徴204を検出する。この際に、右空きV字特徴201の検出は、中間結果保持部26に一時保存された右上がり斜め特徴103と右下がり斜め特徴104の検出結果を利用して行われる。また、左空きV字特徴202の検出は、右下がり斜め特徴104と右上がり斜め特徴103の検出結果を利用して行われる。また、水平平行線特徴203の検出は横特徴102の検出結果を、垂直平行線特徴204の検出は縦特徴101の検出結果をそれぞれ利用して行われる。1次特徴の検出結果と同様に、この2次特徴の検出結果は各特徴毎に入力画像と同等の大きさの検出結果画像という形で出力され、中間結果保持部26に一時保存される。つまり、この例であれば4種類の検出結果画像が得られる。
図3(c)は3次特徴の例を示す。3次特徴の検出では、眼特徴301、口特徴302を検出する。この際に、眼特徴301の検出は、中間結果保持部26に一時保存された右空きV字特徴201と左空きV字特徴202と水平平行線特徴203と垂直平行線特徴204の検出結果を利用して行われる。また、口特徴302の検出は、右空きV字特徴201と左空きV字特徴202と水平平行線特徴203の検出結果を利用して行われる。ここでも、3次特徴の検出結果は各特徴毎に入力画像と同等の大きさの検出結果画像という形で出力され、中間結果保持部26に一時保存される。つまり、この例であれば2種類の検出結果画像が得られる。
図3(d)は4次特徴の例を示す。4次特徴の検出では、顔特徴401を検出する。この際に、中間結果保持部26に一時保存された眼特徴301と口特徴302の検出結果を利用して検出を行う。
上記のように、検出処理部25では、まずプリミティブな局所特徴を検出し、さらにその検出結果を用いることで、階層的に局所特徴を検出し、最終的に被写体である顔を検出する。
上記の検出手法を並列階層処理により画像認識を行う神経回路網を用いて実現することも可能である。例えば、“Convolutional Spiking Neural Network Model for Robust Face Detection”, M.Matsugu,K.Mori,et.al, 2002,Internatinal Conference On Neural Information Processing (ICONIP02)に記述がされている。ここで、図4を参照して神経回路網の処理内容を簡単に説明する。この神経回路網は、入力データ中の局所領域において、対象または幾何学的特徴などの認識(検出)に関与する情報を階層的に扱うものである。その基本構造はいわゆるConvolutionalネットワーク構造(“Convolutional Networks for Images Speech, and Time Series” in Handbook of Brain Theory and Neural Networks LeCun, Y. and Bengio, Y., 1995, (M. Arbib, Ed.), MIT Press, pp.255-258)である。最終層(最上位層)では検出したい被写体の有無と、被写体が存在すればその入力データ上の位置情報が得られる。
データ入力層801は、画像データを入力する層である。最初の特徴検出層802(1,0)では、データ入力層801より入力された画像パターンの局所的な低次の特徴を、全画面の各位置を中心とした局所領域において、同一箇所で複数のスケールレベル又は解像度で複数の特徴カテゴリの数だけ検出する。なお、全画面の各位置を中心とした局所領域は、全画面にわたる所定のサンプリング点の各点を中心とする局所領域であってもよい。また、局所的な低次の特徴は、特定方向成分、特定空間周波数成分などの幾何学的特徴の他、色成分特徴を含んでもよい。
特徴統合層803(2,0)は、所定の受容野構造を有し、特徴検出層802(1,0)からの同一受容野内にある複数のニューロン素子出力の統合(局所平均化、最大出力検出等によるサブサンプリングなどの演算)を行う。なお、受容野とは直前の層の出力素子との結合範囲を意味し、受容野構造とはその結合荷重の分布を意味する。この統合処理は、特徴検出層802(1,0)からの出力を空間的にぼかすことで、位置ずれや変形などを許容する役割を有する。また、特徴統合層内のニューロンの各受容野は同一層内のニューロン間で共通の構造を有している。
上述した各層と同様に、後続の層である各特徴検出層802((1,1)、(1,2)、…、(1,N))は、各特徴検出モジュールにおいて複数の異なる特徴の検出を行う。また、同じく後続の層である各特徴統合層803((2,1)、(2,2)、…、(2,N))は、前段の特徴検出層からの複数特徴に関する検出結果の統合を行う。但し、前者の特徴検出層は同一チャネルに属する前段の特徴統合層の細胞素子出力を受けるように結合(配線)されている。特徴統合層で行う処理であるサブサンプリングは、同一特徴カテゴリの特徴検出細胞集団からの局所的な領域(当該特徴統合層ニューロンの局所受容野)からの出力についての平均化などを行うものである。
図3に示した各特徴を検出するために、図4の各特徴検出層の検出に使用する受容野構造をその特徴を検出するためのものにすることで、各特徴の検出可能となる。
また、最終層の顔検出層における顔の検出用として、各サイズや各回転量に適した受容野構造を用意してもよい。その場合、顔特徴の検出において、顔が存在するという結果を得たときにどの受容野構造を用いて検出したかによって、その顔の大きさや向き等の顔データを得ることができる。
検出処理部25が上記の神経回路網で構成されている場合、図2に示す各構成は、以下の機能を有することになる。
基準データ保持部22及び学習済みデータ保持部24に保持されているデータは、図4の各特徴検出層の検出に使用する受容野構造に相当し、図3に示す各特徴を検出するために使用される。
また、図3、図4を参照して説明したように、検出処理部25では、後段の階層の各特徴を検出するために、前段の階層の検出結果を使用する。そのため、中間結果保持部26には、各階層の各局所特徴の検出結果が保持され、さらに後段の階層の各特徴の検出を行う際に使用される。
本発明では、被写体の回転やサイズに対応した検出のために、上記各特徴を検出する際に使用するデータを大きく2つに分類している。1つは基準の受容野構造であって、回転やサイズの変動に対応する際には、その基準の受容野構造を変換して対応する。もう一つは、既定の回転やサイズの変動に対応する受容野構造である。この分類は、検出する各特徴に依存するだけではなく、回転やサイズの変換量にも依存する。例えば、同じ基準データに対しても、回転量が数度と小さければ、基準データを変換して作成した受容野構造を使用しても検出精度の劣化を抑えて検出ができるかもしれないが、数十度になると、検出精度が大きく劣化する可能性がある。また、同じ回転量でも、検出する特徴によっては、低周波が多く、回転の影響を受けにくく、検出精度の劣化が抑えられることもある。また、アプリケーションによって、必要な検出精度が異なるということもあり、この設定は基本的には、予め検証用の画像を使って、検出精度が所望の値になるように設定しておくのが望ましい。
そこで、本実施の形態では、図5に示すようなテーブルT100を予め作成し、選択部21は、このテーブルT100を使用する。テーブルT100は、変換量と検出する特徴の種類に対して、検出に使用するデータを示している。図5に示すテーブルT100の例では、例えば、特徴の種類を示す特徴番号が0番で、変換量がサイズ0.5倍、回転0.0度の時は、選択部21は基準データ保持部22に保持されているデータを選択する。また、特徴番号が0番で、変換量がサイズ0.7倍、回転45.0度の時は、選択部21は学習済みデータ保持部24に保持されているデータを選択する。このように、選択部21は、制御部11から入力される変換量と検出する特徴の種類と、このテーブルT100を使用して、基準データ保持部22に保持されているデータと学習済みデータ保持部24に保持されているデータのいずれかから、検出に使用するデータを選択する。
ここで、図6を使用して、このテーブルの作成方法について説明する。
図6は、特徴の種類及び変換量に応じて選択するデータを決めるために用いられる、図5に示すようなテーブルを作成するためのフローチャートである。なお、予め、検出する特徴を含む画像の、変換前の画像と変換後の画像の両方を含む評価画像データベースが作成されているものとする。ここでは一例として、図3(b)に示す2次特徴である右空きV字特徴201を検出する特徴とし、変換量は、基準データに対して、相対的にサイズ1.0倍、回転+30.0度とする。
ステップS301で、検出する特徴用の基準データを設定する。この基準データは、サイズ1.0倍、回転0.0度の変換量の時のデータとする。
ステップS302で、基準データを変換する。変換は、例えばアフィン変換を使用する。受容野構造の重み係数値を小画像の輝度値(負も含む)とみなして計算する。受容野の水平方向の軸をX軸、垂直方向の軸をY軸、受容野に垂直な方向をZ軸とし、X軸、Y軸、Z軸それぞれの軸回りの回転角を(ψ、φ、θ)とする。アフィン変換後の対応する座標を(Xa, Ya)、アフィン変換前の座標を(Xb, Yb)とすると、前の画像に対して、後の画像が、θ回転、(dx, dy)平行移動、m倍拡大したとすると、
Xa=(cosθ・Xb+sinθ・Yb−dx)・m=A・Xb+B・Yb+C …(1)
Ya=(−sinθ・Xb+cosθ・Yb−dy)・m=−B・Xb+A・Yb+D …(2)
(ただし、A=m・cosθ、B=m・sinθ、C=−m・dx、D=−m・dy)
となる。
このとき、Xa、Yaは実数値になり、周囲4点の重み係数値から、その点の重み係数値を作成する。例えば、線形補間により作成することができる。このように、ステップS302では、変換した受容野構造をアフィン変換を利用して作成する。なお、今回の変換量は、基準データに対して相対的にサイズ1.0倍、回転+30.0度で、サイズの変更は不要なので、回転のみの変換となる。
次に、ステップS303で評価画像データベースから1枚画像を入力する。
ステップS304において、入力された評価画像について、変換前画像に対しては基準データを用いて、変換後画像に対してはステップS302で変換された変換データを用いて、それぞれ検出を行う。
ステップS305で、基準データと変換データを用いて検出した検出値の比較を行う。具体的には、次式を使用して比較を行う。
Ei = ‖Out_T ー Out_B‖ …(3)
(Ei:ある評価画像での検出結果値の差の絶対値、Out_B:基準データを使用したときの検出結果値、Out_T:変換データを使用したときの検出結果値)
ステップS306では、評価画像データベース中の既定枚数の画像に対して、評価が終了したか判定し、終了していなければステップS303に戻って上記処理を繰り返し、終了していれば、次のステップS307に進む。
ステップS307では、既定枚数の評価画像に対する、基準データと変換データの評価を行う。具体的には、以下の式を用いて、既定枚数の評価画像に対する、基準データと変換データの評価を行う。
E = ΣEi …(4)
(E:既定枚数の評価画像に対する検出結果値の差の絶対値和)
そして、
E < Eth …(5)
(Eth:判定しきい値)
であれば、基準データを変換処理すると判定し、
E ≧ Eth …(6)
であれば、評価画像データベースの画像を使用して、受容野構造を学習すると判定する。
この設定方法は、基準データを用いた場合と変換データを用いた場合とで、検出結果が大きく異なる場合は、変換ではなくその変換量に対応した学習が必要であり、反対にほぼ同じ検出結果になれば、変換しても良いということを示している。
なお、検出処理部25は、階層的に特徴を検出していくため、このテーブルの作成においても、低次特徴から高次特徴へ順に設定していくのが望ましい。
受容野構造の学習は、1層ずつ学習するのであれば、デルタルールで学習可能であり、また複数層を一度に学習するのであれば、バックプロパゲーションが使用できる。学習方法が説明してある論文の一例として、以下の文献がある。「選択的モジュール起動を用いた Convolutional Neural Networkによる変動にロバストな顔検出システム」、御手洗、森、真継、FIT2003。
続いて、図1及び図2に示す構成の動作を、図7及び図8のフローチャートを用いて説明する。
まず、検出する全特徴の種類の数、変換する全変換量の数、及び、図6を参照して説明した図5に示すテーブルの設定を行う(ステップS101)。そしてステップS102では、制御部11からの制御信号に基づいて画像入力部12が画像を入力する。入力された画像は被写体検出部13に入力される。
ステップS103では、実際の変換量に対応付けられたIndexを0に初期化し、ステップS104では、特徴の種類に対応付けられた特徴番号を0に初期化する。そして、ステップS105では、入力された画像に対して、被写体検出部13で、被写体を検出する処理を行う。
ここで、ステップS105で行われる特徴検出処理を図8のフローチャートを用いて説明する。
ステップS201において、選択部21は変換量Indexから変換量を求め、その変換量と特徴番号に基づいて、図5に示すようなテーブルT100から、選択すべきデータを決定する。
その選択すべきデータが、基準データ保持部22に保持されているデータの場合は、ステップS202で、特徴番号が示す特徴を検出するための基準データを読み出す。そして、ステップS203で、変換Indexが示す変換量に従って、基準データ変換部23は読み出した基準データを変換する。
一方、ステップS201で、選択すべきデータが、学習済みデータ保持部24に保持されているデータと判断されると、ステップS204で、変換量Indexが示す変換量の時に、特徴番号が示す特徴を検出するためのデータを読み出す。
ステップS205では、ステップS203で基準データ変換部23により変換されたデータまたは、ステップS204で学習済みデータ保持部24から読み出されたデータを使用して、変換Indexが示す変換量の時に、特徴番号が示す特徴を検出する。
上述したようにしてステップS105の特徴検出処理が終了すると、ステップS106で、現在の変換量Indexにおいて全種類の特徴の検出が終了したかを判定する。終了していなければ、制御部11はステップS109で特徴番号を+1して、次の特徴番号に対応する特徴を検出する。
ステップS106で現在の変換量Indexにおいて全種類の特徴の検出が終了したと判断するとステップS107に進み、変換すべき全変換量が終了したか判定する。終了していなければ、制御部11はステップS110で変換量Indexを+1して、次の変換量Indexに対応する変換量で検出を行う。
ステップS107で変換すべき全変換量での検出が終了していると判断されるとステップS108に進み最終特徴である被写体を検出するべく、ステップS105の検出結果を統合する。例えば、ステップS105で検出された全ての検出結果の内、所定のしきい値以上のものを検出された被写体とする。
上記のように、予め検出結果に基づいて設定されたテーブルに基づいて、階層的に行う被写体の検出処理に、基準データを変換量に基づいて変換したデータを用いるか、または、当該変換量の時に特徴番号が示す特徴学習済みデータを用いるかを決定する。これにより、変換量と検出する特徴の種類に適したデータを用いて被写体の検出処理を行うことが可能になり、全変換量に対応する検出器を用意する場合と比較して、使用メモリを削減することができると共に、検出精度を維持することができる。また、画像をアフィン変換する場合と比較して、処理コストを削減することができる。
続いて、上記画像処理装置を撮像装置に搭載し、検出された被写体に合わせて撮影を行う場合について、図9を参照して説明する。図9は本第1の実施形態に係る画像処理装置を撮像装置に用いた場合の構成を示すブロック図である。
図9中の撮像装置51は、撮影レンズおよびズーム撮影用駆動制御機構を含む結像光学系52、CCD又はCMOSイメージセンサー53、撮像パラメータの計測部54、映像信号処理回路55、記憶部56、撮像動作の制御、撮像条件の制御などの制御用信号を発生する制御信号発生部57、EVFなどファインダーを兼ねた表示ディスプレイ58、ストロボ発光部59、記録媒体60などを具備し、更に上述した画像処理装置を被写体検出装置61として備える。
この撮像装置51は、例えば撮像した画像中から人物の顔画像の検出(存在位置、サイズ、回転角度の検出)を被写体検出装置61により行う。そして、その人物の位置情報等が被写体検出装置61から制御信号発生部57に入力されると、制御信号発生部57は、撮像パラメータの計測部54からの出力に基づき、その人物の画像を最適に撮影する制御信号を発生する。
上述した画像処理装置を、このように撮像装置に用いることで、顔検出結果に基づく画質の良い撮影を行うことができるようになる。なお、上記説明では、上述した処理装置を被写体検出装置61として備える場合について説明したが、上述したアルゴリズムをプログラムとして実装し、CPUで動作させる処理手段として、撮像装置51に搭載することも可能である。
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。
第2の実施形態は、第1の実施形態で示した基準データ変換部23で行われる変換処理を変換量に応じて変更することにより、システム全体のパフォーマンスを向上させることを目的とする。なお、本第2の実施形態で用いる画像処理装置の概略構成は図1に示すものと同様であるため、ここでは説明を省略する。ただし、被写体検出部13の構成が図2に示すものと異なるため、以下、被写体検出部13について説明する。
図10は本第2の実施形態における被写体検出部13の構成を示すブロック図である。図2に示した第1の実施形態の被写体検出部13の構成と比較して、選択部31と基準データ変換部33が異なっている。その他は図2の構成と同様であるため、同じ参照番号を付して説明を省略する。また、本題2の実施形態では、選択部31で参照するテーブルも図5に示すテーブルではなく、図11に示すテーブルを使用する。図11のテーブルは、図5のテーブルと比較して、基準データを使用する場合に、変換方法を更に指定してあるところが異なる。
続いて、図10に示す被写体検出部13の動作を、図12のフローチャートを参照して説明する。なお、図12に示す処理は、図7のステップS105で図8の処理の代わりに実行される。
ステップS401において、選択部31は変換量Indexから変換量を求め、その変換量と特徴番号に基づいて、図11に示すようなテーブルT400から、選択すべきデータ等を決定する。
その選択すべきデータが、基準データ保持部22に保持されているデータの場合は、ステップS402で、特徴番号が示す特徴を検出するための基準データ及び変換方法を読み出す。
第1の実施形態では、変換処理方法としてアフィン変換を用いるものとして説明した。これに対し、本第2の実施形態では変換方法を複数用意し、その中から、各変換量においていずれの方法を用いるかを予め設定しておく。具体的には、変換量が回転90度の場合は、水平アドレスと垂直アドレスを変更して読み出すことで、実質的に受容野構造を90度回転させることができる。このように、アドレス読み出しだけでアフィン変換が実現できる場合は、図11に示すように、アドレスの読み出しを変換方法として用いるようにする。なお、本発明で使用可能な変換方法はこれらに限るものではなく、検出する特徴の種類及び変換量に適した変換方法を適宜利用すればよい。
次に、ステップS403で、変換Indexが示す変換量及び変換方法に従って、基準データ変換部33は読み出した基準データを変換する。例えば、図11に示したテーブルにおいて、変換量がサイズ1.0倍、回転90.0度の時は、基準データとアドレス変換とが指定されているため、選択部31は、基準データ変換部33に、変換方法がアドレス変換という情報を送付する。すると、基準データ変換部33は、その時の変換量を使用して、アドレス変換を行う。
一方、ステップS401で、選択すべきデータが、学習済みデータ保持部24に保持されているデータと判断されると、ステップS404で、変換Indexが示す変換量の時に、特徴番号が示す特徴を検出するためのデータを読み出す。
ステップS405では、ステップS403で基準データ変換部33により変換されたデータまたは、ステップS404で学習済みデータ保持部24から読み出されたデータを使用して、変換Indexが示す変換量の時に、特徴番号が示す特徴を検出する。
上記の通り本第2の実施形態によれば、変換量に応じて使用するデータ及び変換方法を選択することで、より効率的に被写体の検出処理を行うことができる。
<他の実施形態>
本発明の目的は、以下の様にして達成することも可能である。まず、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行する。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、以下のようにして達成することも可能である。即ち、読み出したプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合である。ここでプログラムコードを記憶する記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、ROM、RAM、磁気テープ、不揮発性のメモリカード、CD−ROM、CD−R、DVD、光ディスク、光磁気ディスク、MOなどが考えられる。また、LAN(ローカル・エリア・ネットワーク)やWAN(ワイド・エリア・ネットワーク)などのコンピュータネットワークを、プログラムコードを供給するために用いることができる。
本発明の第1の実施形態における画像処理装置の構成を示すブロック図である。 本発明の第1の実施形態における被写体検出部の構成を示すブロック図である。 階層的被写体検出方法を示す模式図である。 階層的神経回路網を示す図である。 本発明の第1の実施形態における選択テーブルである。 本発明の第1の実施形態のテーブル作成処理を示すフローチャートである。 本発明の第1の実施形態における被写体検出処理を示すフローチャートである。 本発明の第1の実施形態における特徴検出処理を示すフローチャートである。 本発明の画像処理装置を備える撮像装置の構成を示すブロック図である。 本発明の第2の実施形態における被写体検出部の構成を示すブロック図である。 本発明の第2の実施形態における選択テーブルである。 本発明の第2の実施形態における特徴検出処理を示すフローチャートである。
符号の説明
11 制御部
12 画像入力部
13 被写体検出部
14 被写体検出結果保持部
15 結果統合部
21、31 選択部
22 基準データ保持部
23、33 基準データ変換部
24 学習済みデータ保持部
25 検出処理部
26 中間結果保持部

Claims (13)

  1. 画像入力手段と、前記画像入力手段から入力された画像から所定の認識対象を検出する検出手段とからなる画像処理装置であって、
    前記検出手段は、
    基準データを保持する第1の保持手段と
    学習済みデータを保持する第2の保持手段と、
    検出する特徴の種類と変換量とに基づいて、前記第1の保持手段と前記第2の保持手段のいずれかを選択する選択手段と、
    前記変換量に基づいて、前記第1の保持手段に保持された基準データを変換する変換手段と
    を有し、前記選択手段が前記第1の保持手段を選択した場合は、前記変換手段が変換したデータを用いて、また、前記選択手段が前記第2の保持手段を選択した場合は、前記学習済みデータを用いて前記特徴を検出し、該検出した特徴に基づいて前記認識対象を検出することを特徴とする画像処理装置。
  2. 前記検出手段は、所定の階層的処理により前記認識対象を検出し、前記選択手段は前記所定の階層的処理で検出する特徴毎に、前記第1の保持手段または前記第2の保持手段のいずれかを選択することを特徴とする請求項1に記載の画像処理装置。
  3. 前記選択手段は、前記所定の階層的処理で検出する各特徴の種類と変換量とに基づいて、前記第1の保持手段と前記第2の保持手段のいずれかを選択することを特徴とする請求項2に記載の画像処理装置。
  4. 前記選択手段は、前記所定の階層的処理で検出する各特徴毎に、各特徴の種類と変換量を用いて予め検出した結果から決定した選択基準に基づいて、前記第1の保持手段と前記第2の保持手段のいずれかを選択することを特徴とする請求項2に記載の画像処理装置。
  5. 前記変換手段は複数の異なる変換方法により変換を行うことが可能であり、前記変換量に基づいて前記変換方法のいずれかを選択し、選択した前記変換方法により、前記第1の保持手段に保持された基準データを変換することを特徴とする請求項1乃至4のいずれかに記載の画像処理装置。
  6. 撮像装置であって、請求項1乃至5のいずれかに記載の画像処理装置を有し、前記検出手段により検出された被写体に基づいて撮像パラメータを求め、当該撮像パラメータを用いて画像を撮影することを特徴とする撮像装置。
  7. 基準データを保持する第1の保持手段と、学習済みデータを保持する第2の保持手段とを有する画像処理装置における画像処理方法であって、
    画像入力工程と、
    検出する特徴の種類と変換量とに基づいて、前記第1の保持手段と前記第2の保持手段のいずれかを選択する選択工程と、
    前記選択工程で前記第1の保持手段が選択された場合に、前記変換量に基づいて、前記第1の保持手段に保持された基準データを変換する変換工程と、
    前記選択工程で前記第1の保持手段を選択した場合は、前記変換工程で変換したデータを用いて、また、前記選択工程で前記第2の保持手段を選択した場合は、前記学習済みデータを用いて、前記画像入力工程で入力された画像から前記特徴を検出し、該検出した特徴に基づいて前記認識対象を検出する検出工程と
    を有することを特徴とする画像処理方法。
  8. 前記検出工程では、所定の階層的処理により前記認識対象を検出し、前記選択工程では前記所定の階層的処理で検出する特徴毎に、前記第1の保持手段または前記第2の保持手段のいずれかを選択することを特徴とする請求項7に記載の画像処理方法。
  9. 前記選択工程では、前記所定の階層的処理で検出する各特徴の種類と変換量とに基づいて、前記第1の保持手段と前記第2の保持手段のいずれかを選択することを特徴とする請求項8に記載の画像処理方法。
  10. 前記選択工程では、前記所定の階層的処理で検出する各特徴毎に、各特徴の種類と変換量を用いて予め検出した結果から決定した選択基準に基づいて、前記第1の保持手段と前記第2の保持手段のいずれかを選択することを特徴とする請求項8に記載の画像処理方法。
  11. 前記変換工程では複数の異なる変換方法により変換を行うことが可能であり、前記変換量に基づいて前記変換方法のいずれかを選択し、選択した前記変換方法により、前記第1の保持手段に保持された基準データを変換することを特徴とする請求項7乃至10のいずれかに記載の画像処理方法。
  12. 請求項7乃至11のいずれかに記載の画像処理方法を実現するためのプログラムコードを有することを特徴とする情報処理装置が実行可能なプログラム。
  13. 請求項12に記載のプログラムを記憶したことを特徴とする情報処理装置が読み取り可能な記憶媒体。
JP2005255614A 2005-09-02 2005-09-02 画像処理装置、画像処理方法、及び撮像装置 Withdrawn JP2007072530A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005255614A JP2007072530A (ja) 2005-09-02 2005-09-02 画像処理装置、画像処理方法、及び撮像装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005255614A JP2007072530A (ja) 2005-09-02 2005-09-02 画像処理装置、画像処理方法、及び撮像装置

Publications (1)

Publication Number Publication Date
JP2007072530A true JP2007072530A (ja) 2007-03-22

Family

ID=37933948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005255614A Withdrawn JP2007072530A (ja) 2005-09-02 2005-09-02 画像処理装置、画像処理方法、及び撮像装置

Country Status (1)

Country Link
JP (1) JP2007072530A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016115248A (ja) * 2014-12-17 2016-06-23 株式会社デンソー 演算処理装置
JP2017157138A (ja) * 2016-03-04 2017-09-07 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016115248A (ja) * 2014-12-17 2016-06-23 株式会社デンソー 演算処理装置
JP2017157138A (ja) * 2016-03-04 2017-09-07 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム

Similar Documents

Publication Publication Date Title
CN110163114B (zh) 一种人脸角度及人脸模糊度分析方法、系统和计算机设备
JP4619927B2 (ja) 顔検出方法および装置並びにプログラム
JP5629803B2 (ja) 画像処理装置、撮像装置、画像処理方法
JP4743823B2 (ja) 画像処理装置、撮像装置、画像処理方法
JP5247480B2 (ja) オブジェクト識別装置及びオブジェクト識別方法
US20190228276A1 (en) License plate reader using optical character recognition on plural detected regions
US7689034B2 (en) Learning method for detectors, face detection method, face detection apparatus, and face detection program
US7577297B2 (en) Pattern identification method, device thereof, and program thereof
JP5256806B2 (ja) 目標画像検出方法及び画像検出装置
US8050465B2 (en) Real-time face tracking in a digital image acquisition device
JP4479756B2 (ja) 画像処理装置及び画像処理方法、並びにコンピュータ・プログラム
US8577099B2 (en) Method, apparatus, and program for detecting facial characteristic points
MX2012010602A (es) Aparato para el reconocimiento de la cara y metodo para el reconocimiento de la cara.
JP2008033424A (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JP2007047965A (ja) デジタル画像の対象物検出方法および装置並びにプログラム
JP2005092759A (ja) 画像処理装置、画像処理方法、および赤目検出方法ならびにプログラム
JP2005242640A (ja) 対象物検出方法および装置並びにプログラム
JP2008102611A (ja) 画像処理装置
JP2008003749A (ja) 特徴点検出装置および方法並びにプログラム
JP2007074142A (ja) 撮像装置及びその制御方法、及び画像処理装置及び方法
JP2004199673A (ja) 画像処理方法及び装置
JP4816874B2 (ja) パラメータ学習装置、パラメータ学習方法、およびプログラム
JP2007072530A (ja) 画像処理装置、画像処理方法、及び撮像装置
JP2006202276A (ja) 画像処理方法および装置並びにプログラム
JP4789526B2 (ja) 画像処理装置、画像処理方法

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081104