JP2012027572A

JP2012027572A - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP2012027572A
Application number: JP2010163588A
Authority: JP
Inventors: Yasushi Shu; 寧周
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-07-21
Filing date: 2010-07-21
Publication date: 2012-02-09
Also published as: US8873800B2; CN102346858A; US20120020550A1

Abstract

【課題】オブジェクトの存在する環境によらず、より高精度にオブジェクトを検出する。
【解決手段】認識部３５は、所定のオブジェクトについての学習画像に対する学習により得られた学習結果に基づいて、時間的に連続する複数のフレームからなる入力画像の所定フレームにおけるオブジェクトを認識し、パラメータ設定部３７は、所定フレームにおいて認識されたオブジェクトの領域の画像であるオブジェクト画像と学習画像の画像情報の差分に応じて、入力画像の所定フレームより時間的に後の後フレームに対して施される処理に用いられるパラメータを設定する。そして、認識部３５は、パラメータ設定部３７により設定されたパラメータに基づいて処理が施された後フレームにおけるオブジェクトを認識する。本発明は、画像処理装置に適用することができる。
【選択図】図１

Description

本発明は、画像処理装置および方法、並びにプログラムに関し、特に、オブジェクトの存在する環境によらず、より高精度にオブジェクトを検出することができるようにする画像処理装置および方法、並びにプログラムに関する。

従来、所定のオブジェクト（対象物体）についての学習画像を用いて学習した結果得られる認識器に基づいて、入力画像におけるオブジェクトを認識（検出）するシステムがある。

このようなシステムにおいては、より多くの学習画像を用いて学習するほど、オブジェクトの検出精度を向上することができる。

また、学習画像の数が少ない場合であっても、複数の認識器を生成し、生成した複数の認識器からいくつかの認識器を選択し、選択した認識器に基づいて最終的な統合認識器を生成することで、オブジェクトの検出精度を高めるようにする手法が提案されている（例えば、特許文献１参照）。

特開２０１０−６１４１５号公報

しかしながら、入力画像が得られる環境が、学習画像が得られた環境と異なる場合、オブジェクトの検出精度は、その期待値を大きく下回る恐れがある。

例えば、学習画像が得られたときの照明環境と、入力画像が得られるときの照明環境が異なる場合、それぞれの画像における色や明るさが異なってしまうため、学習により得られた認識器では、入力画像におけるオブジェクトを精度よく検出できない可能性がある。

本発明は、このような状況に鑑みてなされたものであり、オブジェクトの存在する環境によらず、より高精度にオブジェクトを検出することができるようにするものである。

本発明の一側面の画像処理装置は、所定のオブジェクトについての学習画像に対する学習により得られた学習結果に基づいて、時間的に連続する複数のフレームからなる入力画像の所定フレームにおける前記オブジェクトを認識する認識手段と、前記所定フレームにおいて認識された前記オブジェクトの領域の画像であるオブジェクト画像と前記学習画像の画像情報の差分に応じて、前記入力画像の前記所定フレームより時間的に後の後フレームに対して施される処理に用いられるパラメータを設定する設定手段とを備え、前記認識手段は、前記設定手段により設定された前記パラメータに基づいて前記処理が施された前記後フレームにおける前記オブジェクトを認識する。

前記画像処理装置には、前記入力画像に対して所定の画像処理を施す処理手段をさらに設け、前記設定手段には、前記オブジェクト画像と前記学習画像の前記画像情報の差分に応じて、前記処理手段により前記後フレームに対して施される画像処理に用いられる画像処理パラメータを設定させ、前記処理手段には、前記設定手段により設定された前記画像処理パラメータに基づいて、前記後フレームに対して前記画像処理を施させ、前記認識手段には、前記処理手段により前記画像処理が施された前記後フレームにおける前記オブジェクトを認識させることができる。

前記設定手段には、前記オブジェクト画像と前記学習画像の前記画像情報の差分に応じて、前記認識手段により前記後フレームに対して施される認識処理に用いられる認識処理パラメータを設定させ、前記認識手段には、前記設定手段により設定された前記認識処理パラメータに基づいて、前記後フレームにおける前記オブジェクトを認識させることができる。

前記画像処理装置には、被写体を撮像することで前記入力画像を取得する撮像手段をさらに設け、前記設定手段には、前記オブジェクト画像と前記所定フレームにおける前記学習画像の前記画像情報の差分に応じて、前記撮像手段による撮像に関する撮像パラメータを設定させ、前記撮像手段には、前記設定手段により設定された前記撮像パラメータに基づいて、前記入力画像を取得させ、前記認識手段には、前記撮像手段により取得された前記後フレームにおける前記オブジェクトを認識させることができる。

本発明の一側面の画像処理方法は、所定のオブジェクトについての学習画像に対する学習により得られた学習結果に基づいて、入力画像の所定フレームにおける前記オブジェクトを認識する認識手段と、前記所定フレームにおいて認識された前記オブジェクトの領域の画像であるオブジェクト画像と前記学習画像の画像情報の差分に応じて、前記入力画像の前記所定フレームより時間的に後の後フレームに対して施される処理に用いられるパラメータを設定する設定手段とを備える画像処理装置の画像処理方法であって、前記認識手段が、所定のオブジェクトについての学習画像に対する学習により得られた学習結果に基づいて、入力画像の所定フレームにおける前記オブジェクトを認識する認識ステップと、前記設定手段が、前記所定フレームにおいて認識された前記オブジェクトの領域の画像であるオブジェクト画像と前記学習画像の画像情報の差分に応じて、前記入力画像の前記所定フレームより時間的に後の後フレームに対して施される処理に用いられるパラメータを設定する設定ステップとを含み、前記認識ステップは、前記設定ステップにおいて設定された前記パラメータに基づいて前記処理が施された前記後フレームにおける前記オブジェクトを認識する。

本発明の一側面のプログラムは、所定のオブジェクトについての学習画像に対する学習により得られた学習結果に基づいて、入力画像の所定フレームにおける前記オブジェクトを認識する認識ステップと、前記所定フレームにおいて認識された前記オブジェクトの領域の画像であるオブジェクト画像と前記学習画像の画像情報の差分に応じて、前記入力画像の前記所定フレームより時間的に後の後フレームに対して施される処理に用いられるパラメータを設定する設定ステップとを含む処理をコンピュータに実行させ、前記認識ステップは、前記設定ステップにおいて設定された前記パラメータに基づいて前記処理が施された前記後フレームにおける前記オブジェクトを認識する。

本発明の一側面においては、所定のオブジェクトについての学習画像に対する学習により得られた学習結果に基づいて、入力画像の所定フレームにおけるオブジェクトが認識され、所定フレームにおいて認識されたオブジェクトの領域の画像であるオブジェクト画像と学習画像の画像情報の差分に応じて、入力画像の所定フレームより時間的に後の後フレームに対して施される処理に用いられるパラメータが設定され、設定されたパラメータに基づいて処理が施された後フレームにおけるオブジェクトが認識される。

本発明の一側面によれば、オブジェクトの存在する環境によらず、より高精度にオブジェクトを検出することが可能となる。

本発明を適用した画像処理装置の一実施の形態の構成を示すブロック図である。図１の画像処理装置のオブジェクト検出処理について説明するフローチャートである。入力画像の例を示す図である。画像処理装置の他の構成を示すブロック図である。図４の画像処理装置のオブジェクト検出処理について説明するフローチャートである。本発明を適用した撮像装置の一実施の形態の構成を示すブロック図である。図６の撮像装置のオブジェクト検出処理について説明するフローチャートである。撮像装置の他の構成を示すブロック図である。図８の撮像装置のオブジェクト検出処理について説明するフローチャートである。コンピュータのハードウェアの構成例を示すブロック図である。

以下、本発明の実施の形態について図を参照して説明する。なお、説明は以下の順序で行う。
１．第１の実施の形態（オブジェクト画像と平均学習画像との差分に応じて、画像処理パラメータを設定する構成）
２．第２の実施の形態（オブジェクト画像と平均学習画像との差分に応じて、認識処理パラメータを設定する構成）
３．第３の実施の形態（オブジェクト画像と平均学習画像との差分に応じて、撮像パラメータを設定する構成）
４．第４の実施の形態（オブジェクト画像と平均学習画像との差分に応じて、画像処理パラメータ、認識処理パラメータ、および撮像パラメータを設定する構成）

＜１．第１の実施の形態＞
［画像処理装置の構成］
図１は、本発明を適用した画像処理装置の一実施の形態の機能的な構成を示している。

図１の画像処理装置１１は、入力された画像から、例えば、人間や、顔や手などの人間の体の一部であるオブジェクト（対象物体）を検出し、その結果を外部の装置に出力する。

画像処理装置１１は、学習部３１、記憶部３２、画像入力部３３、画像処理部３４、認識部３５、出力部３６、およびパラメータ設定部３７から構成される。

学習部３１は、入力された学習画像から、その学習画像の画素のいくつかを、学習画像上における所定のオブジェクトの特徴点として抽出する。学習部３１は、入力された学習画像に基づいて、例えばステアラブルフィルタ（Steerable Filter）を用いたフィルタ処理により、抽出した特徴点毎に、所定のオブジェクトを表す特徴量であって、入力画像上におけるオブジェクトの有無を認識する処理を行うときに用いられる認識用特徴量を計算する。そして、学習部３１は、入力された学習画像および認識用特徴量に基づいて、例えば、AdaboostやGenetic Algorithm（GA）を用いた統計的学習処理により、認識部３５において入力画像上における所定のオブジェクトの有無を認識するための認識器を生成する。

AdaBoostでは、検出しようとするオブジェクトの含まれる学習画像と、オブジェクトの含まれていない学習画像とがサンプルとして用いられて弱認識器（Weak Learnerとも称される）が生成され、多数の弱認識器が組み合わされて強い認識器が構築される。このようにして得られた強い認識器を用いれば、任意の画像からオブジェクトを検出することができるようになる。

また、学習部３１は、認識用特徴量に基づいて、その認識用特徴量の平均値から、学習画像上における所定のオブジェクトの平均的な画像である平均学習画像を生成する。学習部３１は、生成した認識用特徴量、認識器、および平均学習画像を記憶部３２に供給し、記憶させる。

画像入力部３３は、図示せぬ編集装置や記録装置から供給される、オブジェクトを認識しようとする画像を、入力画像として画像処理部３４に供給する。

画像処理部３４は、画像入力部３３から供給された入力画像に対して、所定の画像処理を施し、認識部３５に供給する。

認識部３５は、オブジェクトを認識しようとしている入力画像に対して、学習部３１と同様の処理を行うことにより、入力画像上の所定のオブジェクトを表す特徴量を計算する。認識部３５は、記憶部３２に記憶されている認識用特徴量および認識器を読み出し、計算した特徴量のうちの、認識用特徴量に対応する特徴量および認識器に基づいて、画像処理部３４から供給された入力画像上における所定のオブジェクトを認識（検出）する。認識部３５は、入力画像上における所定のオブジェクトを認識した認識結果を、出力部３６およびパラメータ設定部３７に供給する。

出力部３６は、認識部３５から供給された検出結果を、図示せぬ表示装置等に供給する。

パラメータ設定部３７は、認識部３５における所定のオブジェクトの認識に応じて、記憶部３２から、平均学習画像を読み出し、入力画像上の、認識部３５において認識されたオブジェクトの領域と比較する。パラメータ設定部３７は、その比較結果に応じて、画像処理部３４における画像処理に用いられるパラメータを設定する。

［画像処理装置のオブジェクト検出処理について］
次に、図２のフローチャートを参照して、画像処理装置１１のオブジェクト検出処理について説明する。オブジェクト検出処理は、図示せぬ編集装置や記録装置から、時間的に連続する複数のフレームからなる画像、すなわち、動画像が、画像処理装置１１に供給されると開始される。なお、画像処理装置１１は、予め、人間の手の画像を学習画像として学習しているものとする。すなわち、以下において説明するオブジェクト検出処理によれば、入力画像における人間の手が検出されるものとする。

ステップＳ１１において、画像入力部３３は、図示せぬ編集装置や記録装置から供給される、オブジェクトを認識しようとする画像（動画像の１フレーム目）を、入力画像として画像処理部３４に供給する。

ステップＳ１２において、画像処理部３４は、予め決められた画像処理用のパラメータである画像処理パラメータに基づいて、画像入力部３３から供給された入力画像の１フレーム目に対して、所定の画像処理を施し、認識部３５に供給する。

ステップＳ１３において、認識部３５は、入力画像に基づいて、例えば、ステアラブルフィルタを用いたフィルタ処理により、入力画像上のオブジェクトを表す特徴量を計算する。また、認識部３５は、記憶部３２に記憶されている認識用特徴量および認識器を読み出す。そして、認識部３５は、計算した特徴量のうちの読み出した認識用特徴量に対応する特徴量および認識器に基づいて、画像処理部３４から供給された入力画像上におけるオブジェクトを認識する。認識部３５は、入力画像上におけるオブジェクトを認識した認識結果を、入力画像とともに、出力部３６およびパラメータ設定部３７に供給する。

なお、オブジェクトを認識する手法としては、仏INRIAのN.Dalalらによって提案されたHOG（Histograms of Oriented Gradients）特徴量とSVM（Support Vector machine）で認識する手法（”Histograms of Oriented Gradients for Human Detection”, CVPR, 2005参照）等を用いるようにしてもよい。

図３は、入力画像の例を示している。

図３の上側に示される入力画像P(n)は、時間的に連続する複数のフレームからなる入力画像におけるｎフレーム目の画像を示しており、ここでは、ｎ＝１とする。１フレーム目の入力画像である入力画像P(1)においては、被写体である人間が手を広げている。また、図３の下側に示される入力画像P(n+1)は、ｎフレーム目の画像より時間的に１フレーム後の、（ｎ＋１）フレーム目の画像を示している。

このような入力画像P(1)に対して、認識部３５は、人間の手についての認識用特徴量および認識器に基づいて、入力画像P(1)上における手を認識する。認識部３５は、入力画像P(1)上における手を認識した認識結果として、図３の入力画像P(1)上に示される、オブジェクトとしての人間の手を囲む枠R(1)の表示用情報を、入力画像P(1)とともに、出力部３６およびパラメータ設定部３７に供給する。

ステップＳ１４において、出力部３６は、認識部３５から供給された入力画像P(1)および認識結果（枠R(1)の表示用情報）を、図示せぬ表示装置等に供給する。これにより、図示せぬ表示装置においては、図３の上側に示されるような、認識されたオブジェクトである手が枠で囲まれた画像が表示される。

ステップＳ１５において、パラメータ設定部３７は、認識部３５から入力画像および認識結果が供給されると、記憶部３２から、平均学習画像を読み出し、入力画像上の、認識部３５において認識されたオブジェクトの領域（枠R(1)内の領域）部分の画像（以下、オブジェクト画像という）と平均学習画像の画像情報を比較する。具体的には、パラメータ設定部３７は、オブジェクト画像と平均学習画像の画素毎の、輝度情報および色情報を比較する。

ステップＳ１６において、パラメータ設定部３７は、オブジェクト画像と平均学習画像の画像情報の差分が、所定の閾値より大きいか否かを判定する。具体的には、パラメータ設定部３７は、オブジェクト画像と平均学習画像の輝度情報の差分および色情報の差分が、それぞれについて予め定められた閾値より大きいか否かを判定する。

ここで、図３の上側に示された入力画像P(1)におけるオブジェクト画像（手の領域部分）は、平均学習画像と比較して十分暗い画像であるものとする。これにより、ステップＳ１６において、画像情報の差分が所定の閾値より大きいと判定された場合、すなわち、オブジェクト画像と平均学習画像の輝度情報の差分および色情報の差分の両方が、それぞれについての閾値より大きいと判定された場合、処理はステップＳ１７に進む。

ステップＳ１７において、パラメータ設定部３７は、画像情報の差分に応じて、画像処理部３４における画像処理に用いられる画像処理パラメータを設定（更新）し、画像処理部３４に供給する。具体的には、パラメータ設定部３７は、画像処理部３４において、オブジェクト画像の輝度情報および色情報のそれぞれが、平均学習画像の輝度情報および色情報のそれぞれに近づく画像処理が行われるような画像処理パラメータを設定し、画像処理部３４に供給する。

ステップＳ１８において、画像入力部３３は、次の入力画像（２フレーム目）が入力されるか否かを判定する。

ステップＳ１８において、次の入力画像が入力されると判定された場合、処理はステップＳ１１に戻り、２フレーム目の入力画像に対して、ステップＳ１１以降の処理が実行される。

２回目のステップＳ１１において、画像入力部３３は、図示せぬ編集装置や記録装置から供給される画像（動画像の２フレーム目）を、入力画像として画像処理部３４に供給する。

２回目のステップＳ１２において、画像処理部３４は、画像処理パラメータに基づいて、画像入力部３３から供給された、図３の下側に示される２フレーム目の入力画像P(2)（ｎ＝１である入力画像P(n+1)）に対して、画像処理を施し、認識部３５に供給する。

ここで、１回目のステップＳ１７において、パラメータ設定部３７によって画像処理パラメータが設定（更新）されているので、画像処理部３４は、その設定された画像処理パラメータに基づいて、２フレーム目の入力画像P(2)に対して画像処理を施す。すなわち、画像処理部３４は、新たに設定された画像処理パラメータに基づいて、２フレーム目の入力画像P(2)上におけるオブジェクト画像の輝度情報および色情報のそれぞれが、記憶部３２に記憶されている平均学習画像の輝度情報および色情報のそれぞれに近づくように、入力画像に対して画像処理を施す。

具体的には、パラメータ設定部３７によって、画像処理パラメータが、オブジェクト画像の輝度ヒストグラムの重心、最大値、および最小値のそれぞれを、平均学習画像の輝度ヒストグラムの重心、最大値、および最小値のそれぞれにマッチングさせるための投影関数として設定され、画像処理部３４は、設定された投影関数を用いて、２フレーム目の入力画像に対して画像処理を施す。

さらに、パラメータ設定部３７によって、画像処理パラメータが、オブジェクト画像の平均色を、平均学習画像の平均色にマッチングさせるための投影関数として設定され、画像処理部３４は、設定された投影関数を用いて、２フレーム目の入力画像に対して画像処理を施す。また、ここでは、パラメータ設定部３７によって設定された画像処理パラメータに応じて、入力画像に対してホワイトバランス補正が行われるようにしてもよい。なお、色情報についての処理は、入力画像がグレースケール画像である場合は省略される。

ここで、画像処理部３４は、更新された画像処理パラメータに基づいて、入力画像全体に対して画像処理を施すようにもできるが、パラメータ設定部３７から、１フレーム前の入力画像P(n)上のオブジェクト画像（枠R(n)内の領域部分）の位置を表す座標情報を取得し、その座標情報に対応する現フレームの入力画像P(n+1)上の領域（図３の入力画像P(n+1)において破線で示される領域）のみに対して画像処理を施すようにもできる。これにより、画像処理における演算量を抑えることができるようになる。

２回目のステップＳ１３において、認識部３５は、記憶部３２に記憶されている認識用特徴量および認識器を読み出し、読み出した認識用特徴量および認識器に基づいて、画像処理部３４から供給された入力画像（２フレーム目）上におけるオブジェクトを認識する。認識部３５は、入力画像上におけるオブジェクトを認識した認識結果を、入力画像とともに、出力部３６およびパラメータ設定部３７に供給する。

具体的には、認識部３５は、入力画像P(2)上における手を認識し、その認識結果として、入力画像P(2)において認識された手を囲む枠R(2)（図示せず）の表示用情報を、入力画像P(2)とともに、出力部３６およびパラメータ設定部３７に供給する。

２回目のステップＳ１４において、出力部３６は、認識部３５から供給された入力画像P(2)および認識結果（枠R(2)の表示用情報）を、図示せぬ表示装置等に供給する。

２回目のステップＳ１５において、パラメータ設定部３７は、認識部３５から入力画像および認識結果が供給されると、記憶部３２から、平均学習画像を読み出し、入力画像上のオブジェクト画像と平均学習画像の画像情報を比較する。

２回目のステップＳ１６において、パラメータ設定部３７は、オブジェクト画像と平均学習画像の画像情報の差分が、所定の閾値より大きいか否かを判定する。具体的には、パラメータ設定部３７は、オブジェクト画像と平均学習画像の輝度情報の差分および色情報の差分が、それぞれについての閾値より大きいか否かを判定する。

ここで、入力画像P(2)におけるオブジェクト画像（手の領域部分）が、平均学習画像と比較して、まだ十分暗い画像であるとすると、２回目のステップＳ１６においても、画像情報の差分が所定の閾値より大きいと判定される。すなわち、オブジェクト画像と平均学習画像の輝度情報の差分および色情報の差分の両方が、それぞれについての閾値より大きいとされ、処理は２回目のステップＳ１７に進む。

２回目のステップＳ１７において、パラメータ設定部３７は、画像情報の差分に応じて、画像処理部３４における画像処理に用いられる画像処理パラメータを設定（更新）し、画像処理部３４に供給する。具体的には、パラメータ設定部３７は、画像処理部３４において、オブジェクト画像の輝度情報および色情報のそれぞれが、平均学習画像の輝度情報および色情報のそれぞれに近づく画像処理が行われるような画像処理パラメータを設定し、画像処理部３４に供給する。

このように、ステップＳ１６において画像情報の差分が所定の閾値より大きいと判定されると、ステップＳ１７において、オブジェクト画像の画像情報が、平均学習画像の画像情報に近づく画像処理が行われるような画像処理パラメータが設定される。そして、ステップＳ１８において、次の入力画像（次フレーム）が入力されると判定されている間は、ステップＳ１１乃至Ｓ１８の処理が繰り返される。

ところで、ステップＳ１６において、オブジェクト画像と平均学習画像の画像情報の差分が、所定の閾値より大きくないと判定された場合、すなわち、オブジェクト画像と平均学習画像の輝度情報の差分および色情報の差分のいずれかが、それぞれについての閾値より大きくないと判定された場合、ステップＳ１７の処理はスキップされ、処理はステップＳ１８に進む。

そして、ステップＳ１８において、次の入力画像が入力されないと判定された場合、すなわち、図示せぬ編集装置や記録装置から画像が供給されなくなった場合、処理は終了する。

以上の処理によれば、入力画像の所定フレームにおけるオブジェクト画像と平均学習画像の画像情報の差分が所定の閾値より大きい間は、入力画像の次フレームにおけるオブジェクト画像と平均学習画像の画像情報の差分を小さくさせる画像処理を行うように、画像処理パラメータが設定される。これにより、入力画像の次フレームに対しては、その次フレーム上のオブジェクト画像の画像情報が、平均学習画像の画像情報に近づくような画像処理が施される。結果として、オブジェクト画像の画像情報と、平均学習画像の画像情報との差分が小さくなるので、オブジェクトの認識精度を高めることができる。また、オブジェクト画像の画像情報が、平均学習画像の画像情報に近づくような画像処理が施されるので、例えば、様々な照明環境に応じた輝度情報や色情報を有する学習画像に対して学習を行う必要はない。このようにして、オブジェクトの存在する環境によらず、より高精度にオブジェクトを検出することが可能となる。

以上においては、入力画像上のオブジェクト画像の画像情報が、平均学習画像の画像情報に近づくような画像処理を施すことで、オブジェクト画像の画像情報と、平均学習画像の画像情報との差分を小さくする構成について説明した。以下においては、入力画像上のオブジェクト画像の画像情報が、平均学習画像の画像情報に近づくような認識処理を施すことで、オブジェクト画像の画像情報と、平均学習画像の画像情報との差分を小さくする構成について説明する。

＜２．第２の実施の形態＞
［画像処理装置の構成］
図４は、入力画像上のオブジェクト画像の画像情報が、平均学習画像の画像情報に近づくような認識処理を施すようにした画像処理装置の機能構成例を示している。

図４の画像処理装置１１１は、学習部３１、記憶部３２、画像入力部３３、画像処理部３４、認識部３５、出力部３６、およびパラメータ設定部１３１から構成される。

なお、図４の画像処理装置１１１においては、図１の画像処理装置１１に設けられたものと同様の機能を備える構成については、同一名称および同一符号を付するものとし、その説明は、適宜省略するものとする。

すなわち、図４の画像処理装置１１１において、図１の画像処理装置１１と異なるのは、パラメータ設定部３７に代えてパラメータ設定部１３１を設けた点である。

パラメータ設定部１３１は、認識部３５における所定のオブジェクトの認識に応じて、記憶部３２から、平均学習画像を読み出し、入力画像上の、認識部３５において認識されたオブジェクトの領域と比較する。パラメータ設定部１３１は、その比較結果に応じて、認識部３５における認識処理に用いられるパラメータを設定する。

［画像処理装置のオブジェクト検出処理について］
次に、図５のフローチャートを参照して、画像処理装置１１１のオブジェクト検出処理について説明する。

なお、図５のフローチャートの１回目の（１フレーム目の入力画像に対する）ステップＳ３１乃至Ｓ３６の処理は、図２のフローチャートの１回目のステップＳ１１乃至Ｓ１６の処理と基本的に同様であるので、その説明は省略する。

ステップＳ３６において、画像情報の差分が所定の閾値より大きいと判定された場合、すなわち、オブジェクト画像と平均学習画像の輝度情報の差分および色情報の差分の両方が、それぞれについての閾値より大きいと判断された場合、処理はステップＳ３７に進む。

ステップＳ３７において、パラメータ設定部１３１は、画像情報の差分に応じて、認識部３５における認識処理に用いられる認識処理パラメータを設定し、認識部３５に供給する。具体的には、例えば、パラメータ設定部３７は、認識部３５において用いられる、オブジェクト画像の特徴量としての輝度情報および色情報のそれぞれを、認識用特徴量としての輝度情報および色情報のそれぞれに近づけて認識処理が行われるような認識処理パラメータを設定し、認識部３５に供給する。

ステップＳ３８において、画像入力部３３は、次の入力画像（２フレーム目）が入力されるか否かを判定する。

ステップＳ３８において、次の入力画像が入力されると判定された場合、処理はステップＳ３１に戻り、２フレーム目の入力画像に対して、ステップＳ３１以降の処理が実行される。

２回目のステップＳ３１において、画像入力部３３は、図示せぬ編集装置や記録装置から供給される画像（動画像の２フレーム目）を、入力画像として画像処理部３４に供給する。

２回目のステップＳ３２において、画像処理部３４は、予め設定されている画像処理パラメータに基づいて、画像入力部３３から供給された２フレーム目の入力画像に対して、所定の画像処理を施し、認識部３５に供給する。

２回目のステップＳ３３において、認識部３５は、入力画像に基づいて、画像処理部３４から供給された入力画像（２フレーム目）上における所定のオブジェクトを認識する。認識部３５は、入力画像上におけるオブジェクト認識した認識結果を、入力画像とともに、出力部３６およびパラメータ設定部１３１に供給する。

ここで、１回目のステップＳ３７において、パラメータ設定部１３１によって認識処理パラメータが設定されているので、認識部３５は、その設定された認識処理パラメータに基づいて、２フレーム目の入力画像に対して認識処理を施す。すなわち、認識部３５は、新たに設定された認識処理パラメータに基づいて、２フレーム目の入力画像上におけるオブジェクト画像の特徴量としての輝度情報および色情報のそれぞれを、記憶部３２に記憶されている認識用特徴量としての輝度情報および色情報のそれぞれに近づけて、入力画像に対して認識処理を施す。

２回目のステップＳ３４において、出力部３６は、認識部３５から供給された入力画像および認識結果（認識されたオブジェクトを囲む枠の表示用情報）を、図示せぬ表示装置等に供給する。

２回目のステップＳ３５において、パラメータ設定部１３１は、認識部３５から入力画像および認識結果が供給されると、記憶部３２から、平均学習画像を読み出し、入力画像上のオブジェクト画像と平均学習画像の画像情報を比較する。

２回目のステップＳ３６において、パラメータ設定部１３１は、オブジェクト画像と平均学習画像の画像情報の差分が、所定の閾値より大きいか否かを判定する。具体的には、パラメータ設定部１３１は、オブジェクト画像と平均学習画像の輝度情報の差分および色情報の差分が、それぞれについての閾値より大きいか否かを判定する。

ここで、オブジェクト画像と平均学習画像の輝度情報の差分および色情報の差分の両方が、それぞれについての閾値より大きいと判定された場合、処理は２回目のステップＳ３７に進む。

２回目のステップＳ３７において、パラメータ設定部１３１は、画像情報の差分に応じて、認識部３５における認識処理に用いられる認識処理パラメータを設定し、認識部３５に供給する。

このように、ステップＳ３６において画像情報の差分が所定の閾値より大きいと判定されると、ステップＳ３７において、オブジェクト画像の特徴量としての画像情報を、認識特徴量としての画像情報に近づけて認識処理が行われるような認識処理パラメータが設定される。そして、ステップＳ３８において、次の入力画像（次フレーム）が入力されると判定されている間は、ステップＳ３１乃至Ｓ３８の処理が繰り返される。

ところで、ステップＳ３６において、オブジェクト画像と平均学習画像の画像情報の差分が、所定の閾値より大きくないと判定された場合、すなわち、オブジェクト画像と平均学習画像の輝度情報の差分および色情報の差分のいずれかが、それぞれについての閾値より大きくないと判定された場合、ステップＳ３７の処理はスキップされ、処理はステップＳ３８に進む。

そして、ステップＳ３８において、次の入力画像が入力されないと判定された場合、すなわち、図示せぬ編集装置や記録装置から画像が供給されなくなった場合、処理は終了する。

以上の処理によれば、入力画像の所定フレームにおけるオブジェクト画像と平均学習画像の画像情報の差分が所定の閾値より大きい間は、入力画像の次フレームにおけるオブジェクト画像と平均学習画像の画像情報の差分を小さくさせて認識処理を行うように、認識処理パラメータが設定される。これにより、入力画像の次フレームに対しては、その次フレーム上のオブジェクト画像の特徴量としての画像情報を、認識用特徴量としての画像情報に近づけて認識処理が施される。結果として、オブジェクト画像の画像情報と、平均学習画像の画像情報との差分が小さくなるので、オブジェクトの認識精度を高めることができる。また、オブジェクト画像の画像情報が、平均学習画像の画像情報に近づくような画像処理が施されるので、例えば、様々な照明環境に応じた輝度情報や色情報を有する学習画像に対して学習を行う必要はない。このようにして、オブジェクトの存在する環境によらず、より高精度にオブジェクトを検出することが可能となる。

なお、以上においては、入力画像上のオブジェクト画像の特徴量としての画像情報を、認識用特徴量としての画像情報に近づけるようにしたが、逆に、認識用特徴量としての画像情報を、入力画像上のオブジェクト画像の特徴量としての画像情報に近づけるようにしてもよい。

また、以上においては、図示せぬ編集装置や記録装置から供給される動画像におけるオブジェクトを検出する画像処理装置において、入力画像（動画像）上のオブジェクト画像と平均学習画像の画像情報の差分に応じて、所定の処理パラメータを設定（更新）する構成について説明してきたが、以下においては、被写体を撮像する撮像手段を備える撮像装置において、撮像手段により取得された画像上のオブジェクト画像と平均学習画像の画像情報の差分に応じて、撮像手段の撮像パラメータを設定する構成について説明する。

＜３．第３の実施の形態＞
［撮像装置の構成］
図６は、撮像手段により取得された画像上のオブジェクト画像と平均学習画像の画像情報の差分に応じて、撮像手段の撮像パラメータを設定するようにした撮像装置の機能構成例を示している。

図６の撮像装置２１１は、学習部３１、記憶部３２、画像処理部３４、認識部３５、撮像部２３１、表示部２３２、およびパラメータ設定部２３３から構成される。

なお、図６の撮像装置２１１においては、図１の画像処理装置１１に設けられたものと同様の機能を備える構成については、同一名称および同一符号を付するものとし、その説明は、適宜省略するものとする。

すなわち、図６の撮像装置２１１において、図１の画像処理装置１１と異なるのは、画像入力部３３、出力部３６、およびパラメータ設定部３７に代えて、撮像部２３１、表示部２３２、パラメータ設定部２３３を設けた点である。

撮像部２３１は、例えばレンズ、絞り、およびメカシャッタ等の光学素子よりなる光学部と、CCD（Charge Coupled Device）やCMOS（Complementary Metal Oxide Semiconductor）センサ等の光電素子とを有している。撮像部２３１は、図示せぬ制御部の制御の下、光学部に対して、焦点位置や露出の調整を行う。また、撮像部２３１は、光電素子により、光学部を介して供給された入射光を光電変換し、画像データを生成する。撮像部２３１は、生成した画像データを、入力画像として画像処理部３４に供給する。

表示部２３２は、図示せぬ制御部の制御の下、画像処理部３４から、認識部３５を介して供給される入力画像を、リアルタイムな画像であるスルー画として表示する。ユーザは、表示部２３２にリアルタイムに表示されるスルー画を確認しながら、撮像する画像の構図を決定することで、シャッタ操作を行い、撮像した画像を図示せぬ記録媒体等に記録させることができる。

パラメータ設定部２３３は、認識部３５における所定のオブジェクトの認識に応じて、記憶部３２から、平均学習画像を読み出し、入力画像上の、認識部３５において認識されたオブジェクトの領域と比較する。パラメータ設定部２３３は、その比較結果に応じて、撮像部２３１における撮像に関わる撮像パラメータを設定する。

［撮像装置のオブジェクト検出処理について］
次に、図７のフローチャートを参照して、撮像装置２１１のオブジェクト検出処理について説明する。撮像装置２１１において、ユーザの操作により撮像モードが選択されると、撮像が可能な撮像モードとなり、オブジェクト検出処理が開始される。なお、上述した画像処理装置１１や画像処理装置１１１と同様に、撮像装置２１１は、予め、人間の手の画像を学習画像として学習しているものとする。

なお、図７のフローチャートのステップＳ５２乃至Ｓ５６の処理は、図２のフローチャートのステップＳ１２乃至Ｓ１６の処理と基本的に同様であるので、その説明は適宜省略する。

ステップＳ５１において、撮像部２３１は、ユーザの操作や自動露出機能等に応じて設定されている撮像パラメータに応じて生成される画像データを、１フレーム目の入力画像として取得し、画像処理部３４に供給する。

なお、ステップＳ５４においては、表示部２３２は、認識部３５から供給された入力画像および認識結果（認識されたオブジェクトを囲む枠の表示用情報）を表示する。これにより、ユーザは、表示部２３２に表示されるスルー画とともに、認識されているオブジェクトを確認することができる。

さて、ステップＳ５６において、画像情報の差分が所定の閾値より大きいと判定された場合、すなわち、オブジェクト画像と平均学習画像の輝度情報の差分が、予め定められた閾値より大きいと判断された場合、処理はステップＳ５７に進む。

ステップＳ５７において、パラメータ設定部２３３は、画像情報の差分に応じて、撮像部２３１の撮像パラメータを設定し、撮像部２３１に供給する。具体的には、パラメータ設定部２３３は、撮像部２３１において、入力画像上におけるオブジェクト画像の輝度情報が、平均学習画像の輝度情報に近づくように露出が調整されるような撮像パラメータを設定し、撮像部２３１に供給する。

ステップＳ５８において、画像処理部３４は、撮像モードが継続されることで、撮像部２３１により次の入力画像（２フレーム目）が取得されるか否かを判定する。

ステップＳ５８において、撮像モードが継続されると判定された場合、処理はステップＳ５１に戻り、ステップＳ５１以降の処理が実行される。

２回目のステップＳ５１において、撮像部２３１は、撮像パラメータに応じて生成される２フレーム目の画像データを、入力画像として画像処理部３４に供給する。

ここで、１回目のステップＳ５７において、パラメータ設定部２３３によって撮像パラメータが設定されているので、撮像部２３１は、設定された撮像パラメータに基づいて、絞りを調整し、生成される画像データを、２フレーム目の入力画像として取得し、画像処理部３４に供給する。すなわち、撮像部２３１は、設定された撮像パラメータに基づいて、２フレーム目の入力画像上におけるオブジェクト画像の輝度情報が、記憶部３２に記憶されている平均学習画像の輝度情報に近づくようにして、入力画像を取得する。

そして、２回目のステップＳ５２以降の処理は、１回目のそれぞれの処理と同様にして行われる。

このように、ステップＳ５６において画像情報の差分が所定の閾値より大きいと判定されると、ステップＳ５７において、オブジェクト画像の画像情報が、平均学習画像の画像情報に近づくような入力画像を取得するための撮像パラメータが設定される。そして、ステップＳ５８において、撮像モードが継続されていると判定されている間は、ステップＳ５１乃至Ｓ５８の処理が繰り返される。

ところで、ステップＳ５６において、オブジェクト画像と平均学習画像の画像情報の差分が、所定の閾値より大きくないと判定された場合、すなわち、オブジェクト画像と平均学習画像の輝度情報の差分が、それについての閾値より大きくないと判定された場合、ステップＳ５７の処理はスキップされ、処理はステップＳ５８に進む。

そして、ステップＳ５８において、撮像モードが継続されないと判定された場合、例えば、ユーザの操作により、撮像モードの終了が指示される等した場合、処理は終了する。

以上の処理によれば、入力画像の所定フレームにおけるオブジェクト画像と平均学習画像の画像情報の差分が所定の閾値より大きい間は、入力画像の次フレームにおけるオブジェクト画像と平均学習画像の画像情報の差分を小さくさせるような撮像を行うように、撮像パラメータが設定される。これにより、入力画像の次フレームに対しては、その次フレーム上のオブジェクト画像の画像情報が、平均学習画像の画像情報に近づくような撮像が行われる。結果として、オブジェクト画像の画像情報と、平均学習画像の画像情報との差分が小さくなるので、オブジェクトの認識精度を高めることができる。また、オブジェクト画像の画像情報が、平均学習画像の画像情報に近づくような画像処理が施されるので、例えば、様々な照明環境に応じた輝度情報を有する学習画像に対して学習を行う必要はない。このようにして、オブジェクトの存在する環境によらず、より高精度にオブジェクトを検出することが可能となる。

以上においては、被写体を撮像する撮像手段を備える撮像装置において、撮像手段により取得された入力画像上のオブジェクト画像と平均学習画像の画像情報の差分に応じて、撮像手段の撮像パラメータを設定する構成について説明してきたが、オブジェクト画像と平均学習画像の画像情報の差分に応じて、撮像パラメータの他に、画像処理パラメータや認識処理パラメータをさらに設定するようにしてもよい。

＜４．第４の実施の形態＞
［撮像装置の構成］
図８は、撮像手段により取得された入力画像上のオブジェクト画像と平均学習画像の画像情報の差分に応じて、撮像手段の撮像パラメータに加え、画像処理パラメータや認識処理パラメータを設定するようにした撮像装置の機能構成例を示している。

図８の撮像装置３１１は、学習部３１、記憶部３２、画像処理部３４、認識部３５、撮像部２３１、表示部２３２、およびパラメータ設定部３３１から構成される。

なお、図８の撮像装置３１１においては、図６の撮像装置２１１に設けられたものと同様の機能を備える構成については、同一名称および同一符号を付するものとし、その説明は、適宜省略するものとする。

すなわち、図８の撮像装置３１１において、図６の撮像装置２１１と異なるのは、パラメータ設定部２３３に代えてパラメータ設定部３３１を設けた点である。

パラメータ設定部３３１は、図６のパラメータ設定部２３３と同様の機能を備える他、
図１のパラメータ設定部３７と同様の機能、および図４のパラメータ設定部１３１と同様の機能をさらに備える。すなわち、パラメータ設定部３３１は、認識部３５における所定のオブジェクトの認識に応じて、記憶部３２から、平均学習画像を読み出し、入力画像上の、認識部３５において認識されたオブジェクトの領域と比較する。そして、パラメータ設定部３３１は、その比較結果に応じて、撮像パラメータ、画像処理パラメータ、および認識処理パラメータを設定する。

［撮像装置のオブジェクト検出処理について］
次に、図９のフローチャートを参照して、撮像装置３１１のオブジェクト検出処理について説明する。

なお、図９のフローチャートのステップＳ７１，Ｓ７４乃至Ｓ７６，Ｓ７８の処理は、図７のフローチャートのステップＳ５１，Ｓ５４乃至Ｓ５６，Ｓ５８の処理と基本的に同様であるので、その説明は省略する。

また、図９のフローチャートのステップＳ７２の処理は、図１のフローチャートのステップＳ１２の処理と、図９のフローチャートのステップＳ７３の処理は、図５のフローチャートのステップＳ３３の処理と、それぞれ基本的に同様であるので、その説明は省略する。

すなわち、ステップＳ７７において、パラメータ設定部３３１は、画像情報の差分に応じて、撮像部２３１の撮像パラメータ、画像処理部３４における画像処理パラメータ、および、認識部３５における認識処理パラメータの各パラメータを設定し、認識部３５に供給する。

以上の処理によれば、入力画像の所定フレームにおけるオブジェクト画像と平均学習画像の画像情報の差分が所定の閾値より大きい間は、入力画像の次フレームにおけるオブジェクト画像と平均学習画像の画像情報の差分を小さくさせる撮像、画像処理、および認識処理を行うように、撮像パラメータ、画像処理パラメータ、および認識処理パラメータが設定される。これにより、入力画像の次フレームに対しては、その次フレーム上のオブジェクト画像の画像情報が、平均学習画像の画像情報に近づくような撮像、画像処理、および認識処理が行われる。結果として、オブジェクト画像の画像情報と、平均学習画像の画像情報との差分が小さくなるので、オブジェクトの認識精度を高めることができる。また、オブジェクト画像の画像情報が、平均学習画像の画像情報に近づくような画像処理が施されるので、例えば、様々な照明環境に応じた輝度情報や色情報を有する学習画像に対して学習を行う必要はない。このようにして、オブジェクトの存在する環境によらず、より高精度にオブジェクトを検出することが可能となる。

なお、以上においては、画像情報が、輝度情報や色情報であるものとして説明してきたが、画像情報は、入力画像および平均学習画像のそれぞれに含まれ、比較することが可能な情報であればよい。

また、検出の対象物体となるオブジェクトは、人間の手以外であってもよく、人間自体や人間の顔、犬や馬などの動物、自動車などの無生物であってもよい。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等に、プログラム記録媒体からインストールされる。

図１０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）９０１，ROM（Read Only Memory）９０２，RAM（Random Access Memory）９０３は、バス９０４により相互に接続されている。

バス９０４には、さらに、入出力インタフェース９０５が接続されている。入出力インタフェース９０５には、キーボード、マウス、マイクロホン等よりなる入力部９０６、ディスプレイ、スピーカ等よりなる出力部９０７、ハードディスクや不揮発性のメモリ等よりなる記憶部９０８、ネットワークインタフェース等よりなる通信部９０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等のリムーバブルメディア９１１を駆動するドライブ９１０が接続されている。

以上のように構成されるコンピュータでは、CPU９０１が、例えば、記憶部９０８に記憶されているプログラムを、入出力インタフェース９０５およびバス９０４を介して、RAM９０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU９０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリ等よりなるパッケージメディアであるリムーバブルメディア９１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア９１１をドライブ９１０に装着することにより、入出力インタフェース９０５を介して、記憶部９０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部９０９で受信し、記憶部９０８にインストールすることができる。その他、プログラムは、ROM９０２や記憶部９０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１画像処理装置，３４画像処理部，３５認識部，３７パラメータ設定部，１１１画像処理装置，１３１パラメータ設定部，２１１撮像装置，２３１撮像部，２３３パラメータ設定部，３１１撮像装置，３３１パラメータ設定部

Claims

所定のオブジェクトについての学習画像に対する学習により得られた学習結果に基づいて、時間的に連続する複数のフレームからなる入力画像の所定フレームにおける前記オブジェクトを認識する認識手段と、
前記所定フレームにおいて認識された前記オブジェクトの領域の画像であるオブジェクト画像と前記学習画像の画像情報の差分に応じて、前記入力画像の前記所定フレームより時間的に後の後フレームに対して施される処理に用いられるパラメータを設定する設定手段と
を備え、
前記認識手段は、前記設定手段により設定された前記パラメータに基づいて前記処理が施された前記後フレームにおける前記オブジェクトを認識する
画像処理装置。
前記入力画像に対して所定の画像処理を施す処理手段をさらに備え、
前記設定手段は、前記オブジェクト画像と前記学習画像の前記画像情報の差分に応じて、前記処理手段により前記後フレームに対して施される画像処理に用いられる画像処理パラメータを設定し、
前記処理手段は、前記設定手段により設定された前記画像処理パラメータに基づいて、前記後フレームに対して前記画像処理を施し、
前記認識手段は、前記処理手段により前記画像処理が施された前記後フレームにおける前記オブジェクトを認識する
請求項１に記載の画像処理装置。
前記設定手段は、前記オブジェクト画像と前記学習画像の前記画像情報の差分に応じて、前記認識手段により前記後フレームに対して施される認識処理に用いられる認識処理パラメータを設定し、
前記認識手段は、前記設定手段により設定された前記認識処理パラメータに基づいて、前記後フレームにおける前記オブジェクトを認識する
請求項１に記載の画像処理装置。
被写体を撮像することで前記入力画像を取得する撮像手段をさらに備え、
前記設定手段は、前記オブジェクト画像と前記所定フレームにおける前記学習画像の前記画像情報の差分に応じて、前記撮像手段による撮像に関する撮像パラメータを設定し、
前記撮像手段は、前記設定手段により設定された前記撮像パラメータに基づいて、前記入力画像を取得し、
前記認識手段は、前記撮像手段により取得された前記後フレームにおける前記オブジェクトを認識する
請求項１に記載の画像処理装置。
所定のオブジェクトについての学習画像に対する学習により得られた学習結果に基づいて、入力画像の所定フレームにおける前記オブジェクトを認識する認識手段と、
前記所定フレームにおいて認識された前記オブジェクトの領域の画像であるオブジェクト画像と前記学習画像の画像情報の差分に応じて、前記入力画像の前記所定フレームより時間的に後の後フレームに対して施される処理に用いられるパラメータを設定する設定手段と
を備える画像処理装置の画像処理方法において、
前記認識手段が、所定のオブジェクトについての学習画像に対する学習により得られた学習結果に基づいて、入力画像の所定フレームにおける前記オブジェクトを認識する認識ステップと、
前記設定手段が、前記所定フレームにおいて認識された前記オブジェクトの領域の画像であるオブジェクト画像と前記学習画像の画像情報の差分に応じて、前記入力画像の前記所定フレームより時間的に後の後フレームに対して施される処理に用いられるパラメータを設定する設定ステップと
を含み、
前記認識ステップは、前記設定ステップにおいて設定された前記パラメータに基づいて前記処理が施された前記後フレームにおける前記オブジェクトを認識する
画像処理方法。
所定のオブジェクトについての学習画像に対する学習により得られた学習結果に基づいて、入力画像の所定フレームにおける前記オブジェクトを認識する認識ステップと、
前記所定フレームにおいて認識された前記オブジェクトの領域の画像であるオブジェクト画像と前記学習画像の画像情報の差分に応じて、前記入力画像の前記所定フレームより時間的に後の後フレームに対して施される処理に用いられるパラメータを設定する設定ステップと
を含む処理をコンピュータに実行させ、
前記認識ステップは、前記設定ステップにおいて設定された前記パラメータに基づいて前記処理が施された前記後フレームにおける前記オブジェクトを認識する
プログラム。