(第1の実施形態)
次に、図面を参照して、本発明の第1の実施形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。但し、図面は模式的なものであり、厚みと平面寸法との関係、各層の厚みの比率等は現実のものとは異なることに留意すべきである。したがって、具体的な厚みや寸法は以下の説明を参酌して判断すべきものである。又、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることは勿論である。
又、以下に示す第1の実施形態は、本発明の技術的思想を具体化するための装置や方法を例示するものであって、本発明の技術的思想は、構成部品の材質、形状、構造、配置等を下記のものに特定するものでない。本発明の技術的思想は、特許請求の範囲に記載された請求項が規定する技術的範囲内において、種々の変更を加えることができる。
特に、以下の第1の実施形態の説明では、便宜上図2や図3に示した画像処理部17が、図1に示した撮像装置の構成要素として説明されるが、例示に過ぎない。ステレオ画像を取得するために2台以上の撮像装置を用いる手法、タイムオブフライト(TOF)型イメージセンサを使う撮像装置、或いは赤外光の反射の角度から距離を計算するパターン照射の手法を用いた撮像装置等、図1に示した構成以外の種々の撮像装置や撮像システムの一部として、図2等に示した画像処理部17と実質的に同一又は等価かつ均等な機能を有する画像処理部が採用可能である。又、図2等に示した画像処理部17は、孤立したデバイスや汎用の画像処理装置として機能させることも可能である。この場合は、図2等に示した画像処理部17は、単独の「画像処理装置」として機能することになる。
(撮像装置の構成)
本発明の第1の実施形態に係る撮像装置は、図1に例示的に示すように、単一の撮像光学系(11,32)と、撮像光学系(11,32)の光軸に沿って入射する被写体の像を撮像する撮像素子12aと、撮像素子12aから出力された画像データをデジタルデータに変換するA/D変換回路13と、A/D変換回路13がデジタルデータに変換した画像データを格納する記憶部14と、記憶部14から画像データを受信する制御部16と、制御部16を介して画像データを受信して画像データを処理する受信する画像処理部17と、制御部16に接続された駆動部15、メディアコントローラ等のメモリカード・インターフェイス23、操作部21、LCD駆動回路20、モータドライバ31b,31c,31d、ストロボ制御回路36及びオートフォーカス(AF)センサ18を備える。LCD駆動回路20にはLCDからなる表示部19が接続され、ストロボ制御回路36にはストロボ装置35が接続されている。
第1の実施形態に係る撮像装置の制御部16は、制御部16に接続された画像処理部17、駆動部15、記憶部14,メモリカード・インターフェイス23、操作部21、LCD駆動回路20、AFセンサ18、モータドライバ31b,31c,31d、ストロボ制御装置のそれぞれの動作や処理を制御する命令や電気信号を出力する。図示を省略しているが、制御部16には、画像処理部17、駆動部15、記憶部14,メモリカード・インターフェイス23、操作部21、LCD駆動回路20、AFセンサ18、モータドライバ31b,31c,31d、ストロボ制御装置のそれぞれの動作をそれぞれ実行させる命令出力回路の他、オートホワイトバランス(AWB)調整を施すWB調整命令出力回路等の種々の論理回路等が論理的なハードウェア資源として組み込まれている。
撮像光学系(11,32)を構成する撮影レンズ11は、図1に示すように、主レンズ11aと、主レンズ11aに隣接したズームレンズ11bと、ズームレンズ11bに隣接したフォーカスレンズ11cとを備える。ズームレンズ11bにはズームモータ30bが、フォーカスレンズ11cにはフォーカスモータ30cが接続されている。フォーカスレンズ11cと撮像素子12aの間には撮像光学系(11,32)を構成する絞り32が配置されている。例えば、5枚の絞り羽根からなる絞り32には、絞り羽根を駆動するアイリスモータ33が接続されている。ズームモータ30b、フォーカスモータ30c及びアイリスモータ33はステッピングモータからなり、制御部16に接続されたモータドライバ31b,31c,31dから送信される駆動パルスにより動作制御され、レリーズボタン等の操作部21からの信号により撮像準備処理を行う。ズームモータ30bは、ズームレンズ11bを例えば13段階でワイド側又はテレ側に移動させ、撮影レンズ11のズーミングを行う。フォーカスモータ30cは、被写体距離やズームレンズ11bの変倍に応じてフォーカスレンズ11cを移動させ、撮像条件が最適となるように撮影レンズ11の焦点調整を行う。アイリスモータ33は、絞り32の絞り羽根を動作させて絞り32の開口面積を変化し、例えば、絞り値F2.8〜F11まで1AV刻みで5段階に撮影レンズ11の露光調整を行う。撮影レンズ11は図1に例示する構成に限定されるものではなく、例えば、撮像装置に対して着脱できる交換式レンズであっても構わない。撮影レンズ11は、主レンズ11a、ズームレンズ11b及びフォーカスレンズ11c等の複数の光学レンズ群から構成されることにより、被写体光束をその焦点面近傍に配置された撮像素子12aの表面に結像させる。
シリコン(Si)等の半導体チップからなる撮像素子12aは、ガラスやセラミックからなるチップ搭載基板(パッケージ基板)12bに搭載されている。撮像素子12aには、タイミングジェネレータ(TG)34が接続され、タイミングジェネレータ34は駆動部15を介して制御部16に接続されている。制御部16から駆動部15を介して送られる信号により、タイミングジェネレータ(TG)34がタイミング信号(クロックパルス)を発生し、タイミング信号はチップ搭載基板12bを介して撮像素子12aを構成する半導体チップ上に周辺回路として設けられた駆動回路からの電子シャッタ用信号として各行のピクセルに送られる。即ち制御部16は駆動部15を介してタイミングジェネレータ34を制御し、撮像素子12aの電子シャッタのシャッタ速度を制御する。なお、タイミングジェネレータ34は、撮像素子12aを構成する半導体チップ上の周辺回路として、モノリシックに集積化しても構わない。
撮像素子12aを構成する半導体チップの中央の画素エリアから出力された撮像信号は、半導体チップの周辺部に周辺回路として設けられた相関二重サンプリング回路(CDS)に入力され、撮像素子12aの各ピクセルの蓄積電荷量に正確に対応したR、G、Bの画像データとして撮像素子12aから出力される。撮像素子12aから出力された画像データは、図示を省略した増幅器で増幅され、A/D変換回路13でデジタルデータに変換される。
撮像素子12aは、二次元マトリクス状に配列された複数の光電変換素子を画素として有するイメージセンサである。撮像素子12aとしては、例えばCCDイメージセンサ、CMOSイメージセンサ等が採用可能である。撮像素子12aは、駆動部15によりタイミング制御されて、撮像素子12aの受光面上に結像された被写体像を画像信号に変換してA/D変換回路13へ出力する。
第1の実施形態に係る撮像装置の画像処理部17は、図2に示すように、図1の撮像光学系(11,32)を通して被写体が撮像された、第1及び第2視点方向の視差画像データ並びに非視差画像データを取得する画像取得部171と、第1及び第2視点方向の視差画像データからステレオ画像を生成する処理を実行するステレオ画像生成処理部172と、非視差画像データからカラー画像を生成する処理を実行するカラー画像生成処理部173と、撮像光学系(11,32)を通して被写体が撮像された第1及び第2視点方向の視差画像データから被写体の視差画像の撮像位置からの距離情報を算出する算出部174と、非視差画像データと距離情報のそれぞれから特徴量を抽出する抽出部175と、抽出された特徴量と階層的な機械学習(統計的学習手法)の結果による探索処理を実行して対象物検出をする検出部176と、検出部176が実行した各スケールで検出した被写体候補ウィンドウを、全スケールでの探索終了後に統合処理を実行する統合処理部177と、統合処理された結果を検出結果として出力する処理を実行する検出結果出力部178とを論理構成を示すハードウェア資源として備える。なお、本明細書では、第1視点方向と第2視点方向の間で立体的な視差が生じている画像を「視差画像」、異なる視点方向の間の視差が生じていない画像を「非視差画像」と呼び、対応するそれらのデータを、それぞれ「視差画像データ」、視差が生じていない画像を「非視差画像データ」と呼ぶ。
図示を省略しているが、第1の実施形態に係る撮像装置の画像処理部17は、ホワイトバランス調整に用いるWB制御量を算出するWB制御量演算回路、画面全体のG信号を積算し、又は画面中央部と周辺部とで異なる重みづけをしたG信号を積算し、その積算値を出力する自動露出(AE)検出用論理演算回路、AE検出用論理演算回路が出力した積算値からAEに必要な被写体の明るさ(撮影Ev値)を算出する撮影Ev値算出回路、更には、階調変換処理回路、ホワイトバランス補正処理回路、γ補正処理回路等の、各種画像処理や画像処理に伴う演算を画像データに対し施す種々の論理回路(ハードウェア・モジュール)を、論理構成上のハードウェア資源として備えることも可能である。
第1の実施の形態に係る画像処理部17は、画像処理エンジン等があれば実現可能である。又、特徴量生成や識別処理に演算負荷が高い場合、ハードウェアに実装してもよい。例えば、マイクロチップとして実装されたマイクロプロセッサ(MPU)等を使用してコンピュータシステムで画像処理部17を構成することも可能である。又、コンピュータシステムを構成する画像処理部17として、算術演算機能を強化し信号処理に特化したデジタルシグナルプロセッサ(DSP)や、メモリや周辺回路を搭載し組み込み機器制御を目的としたマイクロコントローラ(マイコン)等を用いてもよい。或いは、現在の汎用コンピュータのメインCPUを画像処理部17に用いてもよい。
更に、画像処理部17の一部の構成又はすべての構成をフィールド・プログラマブル・ゲート・アレイ(FPGA)のようなプログラマブル・ロジック・デバイス(PLD)で構成してもよい。更に、画像処理部17は、CPUコア風のアレイとPLD風のプログラム可能なコアを同じチップに搭載した構造でもよい。このCPUコア風のアレイは、予めPLD内部に搭載されたハードマクロCPUと、PLDの論理ブロックを用いて構成したソフトマクロCPUを含む。つまりPLDの内部においてソフトウェア処理とハードウェア処理を混在させた構成でもよい。したがって、画像処理部17を構成する画像取得部171、ステレオ画像生成処理部172、カラー画像生成処理部173、算出部174、抽出部175、検出部176等はソフトウェアプログラム上の仮想的なハードウェア資源として存在しても、実際のゲートアレイとしてのハードウェア資源としても存在しうる。
そして、第1の実施形態に係る撮像装置の画像処理部17は、図2に示すように、ステレオ画像記憶装置141と、カラー画像記憶装置142と、距離情報記憶装置143と、特徴情報記憶装置144と、探索処理データ記憶装置145と、出力画像記憶装置146とを更に備える。画像処理部17は、図1に示した記憶部14、図2に示したステレオ画像記憶装置141と、カラー画像記憶装置142と、距離情報記憶装置143と、特徴情報記憶装置144と、探索処理データ記憶装置145をワークスペースとして種々の画像処理を施し、画像データを生成し、生成された画像データは出力画像記憶装置146に格納される。
画像処理部17の一部の構成又はすべての構成をFPGAのようなPLDで構成した場合は、ステレオ画像記憶装置141、カラー画像記憶装置142、距離情報記憶装置143、特徴情報記憶装置144、探索処理データ記憶装置145及び出力画像記憶装置146等は、PLDを構成する論理ブロックの一部に含まれる記憶部ブロック等のメモリ要素として構成することができる。即ち、図2に示したステレオ画像記憶装置141、カラー画像記憶装置142、距離情報記憶装置143、特徴情報記憶装置144、探索処理データ記憶装置145及び出力画像記憶装置146等は、個別の半導体記憶装置の一部を占めるワーキング記憶部として存在してもよく、記憶部14の一部の記憶領域を利用して存在してもよい。或いは、図示を省略したHDD等の他のメモリを用いた仮想記憶部として存在してもよく、PLDを構成する論理ブロックの一部に含まれるメモリブロック等として存在してもよい。又、出力画像記憶装置146はメモリカード・インターフェイス23を介して着脱可能に接続されるメモリカード22で構成してもよい。
図2に示した第1の実施形態に係る撮像装置の算出部174は、撮像光学系(11,32)を通して撮像された第1視点方向の視差画像、及び第2視点方向の視差画像を用いて、第1視点方向の視差画像と第2視点方向の視差画像の間の視差量を算出し、距離情報を生成する。算出部174は、通常のデプス生成に用いられる手法と同様のオプティカルフローベースの手法であるブロックマッチング法又は勾配法等を用いて、撮像光学系(11,32)を通して同時に撮像された第1視点方向の視差画像、及び第2視点方向の視差画像を用いることができる。勾配法としては、逐次近似フィルタを用いた全変分法等の他、ルーカス・カナデ(Lucas-Kanade)法やホーン・シャンク(Horn-Shunck)法等が採用可能である。
又、抽出部175は、図2に示すように、画像情報から特徴量を抽出する第1特徴抽出回路175aと、距離情報から特徴量を抽出する第2特徴抽出回路175bとを備える。第1特徴抽出回路175aがカラー画像から抽出する特徴量(局所特徴量)としては、一般被写体認識に用いられるRGB表色系,YCC表色系,HSV表色系、或いはCIEが定めるLUV表色系やLAB表色系等の色情報、勾配強度(GM)の情報、勾配方向ヒストグラム(HOG)の情報が採用される。入力画像を複数のピクセル(画素)に分割した場合において、GMは、あるピクセルの輝度値をI(x, y) としたとき、
fx(x,y)=I(x+1,y)-I(x-1,y) ........(1)
fy(x,y)=I(x,y+1)-I(x,y-1) ........(2)
と、勾配fx(x,y)及び勾配fy(x,y)の強度を定義する。そして、x,y方向の勾配fx(x,y),勾配fy(x,y)からエッジの強度の値として、
GM=(fx(x,y)2 +fy(x,y)2)1/2 ...........(3)
で、GMが与えられる。輝度差が高いほどGMの値が高い。
HOGは、以下の式(4)でfy(x,y)/fx(x,y)の比からエッジである勾配の向く角度θ(x,y)を算出した場合において、式(5)が与える角度θ(x,y)が属するビン(bin)の領域内での要素数のヒストグラムである。人の形状は,手足の動きや姿勢などの見えの変化が激しいという問題がある。このような局所的な変化を吸収するように,できるだけ共通した情報を抽出するHOGは、局所的な形状変化や照明変動に頑健な特徴量である。例えば、0°から180°までを20°ずつ、9方向に分割してヒストグラムを作成すればよい。式(5)では、あるビンの数kに属する方向成分θ'をクロネッカー(Kronecker)のデルタ関数δ(θ'=k)で表現して、微小領域内で積算することを表現している:
θ(x,y)=arctan(fy(x,y)/fx(x,y)) .....(4)
HOG(k) = Σδ(θ'=k), k∈{1,2,...,K) ...(5)
以上のように、第1特徴抽出回路175aは、式(1)〜(5)を用いて、色特徴、勾配強度特徴、勾配方向特徴の内少なくとも一つを局所特徴量として抽出する。
一方、第2特徴抽出回路175bは、入力画像を被写体の撮像位置からの距離を輝度で表した画像データであるデプスマップとして、デプス情報(距離情報)に対しても、式(6)〜(10)に示すように、同様の演算が可能である。即ち、デプス情報(距離情報)の勾配強度(GMD)は、あるピクセルのデプスをD(x, y) としたとき、以下の式(6)でdx(x,y)を、式(7)でdy(x,y)を定義する:
dx(x,y)=D(x+1,y)-D(x-1,y) ........(6)
dy(x,y)=D(x,y+1)-D(x,y-1) ........(7)
式(6),(7)のようにdx(x,y)及びdy(x,y)の強度を定義すると、x,y方向でエッジ検出したデプス情報(距離情報)のエッジの強度である勾配強度GMDが、
GMD = (dx(x,y)2 +dy(x,y)2)1/2 ...........(8)
で与えられる。
そして、デプス情報(距離情報)のエッジの方向のヒストグラムである勾配方向ヒストグラムHOGDを算出するためには、先ず、以下の式(9)でdy(x,y)/dx(x,y)の比から勾配の向く角度θD(x,y)を算出する。そして、角度θD(x,y)が属するビン(bin)の領域内での要素数のヒストグラムを式(10)で算出すればよい。式(10)では、あるビンの数kに属する方向成分θD'をクロネッカーのデルタ関数δ(θD'=k)で表現して微小領域内で積算してデプス情報(距離情報)のHOGD(k)を求めていることを表現している:
θD(x,y)=arctan(dy(x,y)/dx(x,y)) .....(9)
HOGD(k) = Σδ(θD'=k), k∈{1,2,...,KD) ...(10)
デプス情報(距離情報)を用いた認識の場合、有用なのは、オブジェクト(対象物)背景間の視差量であるので、第1の実施形態に係る撮像装置の画像処理部17では、デプス情報(距離情報)の勾配強度GMDやデプス情報(距離情報)の勾配方向ヒストグラムHOGD等の特徴量が意味をなす。つまり、第1の実施形態に係る画像処理部17の第2特徴抽出回路175bは、デプスマップ固有の特徴量演算を第1特徴抽出回路175aが実行するカラー画像の特徴量演算部分と共用化できるので、第2特徴抽出回路175bがデプスマップ固有の特徴量演算部分となるハードウェア資源を別に設ける必要はない。
第1の実施形態に係る画像処理部17の第2特徴抽出回路175bにおけるデプスマップからの演算処理は、基本的に第1特徴抽出回路175aが実行するカラー画像に対する演算処理と同様であるが、式(10)の勾配方向ヒストグラムHOGDにおいて設定するヒストグラムのビン数kは、式(5)のカラー画像の場合と異なった値でよい。最も認識性能が出るビン数は画像の表現力と関係するためである。いずれにせよ、第2特徴抽出回路175bは、式(6)〜(10)を用いて、奥行の特徴量、奥行差の特徴量の内少なくとも一つを抽出する。
図2に示した画像処理部17の検出部176は、抽出された複数の特徴量を組み合わせて、画像中の探索点毎にオブジェクト(対象物)(正解画像)と非オブジェクト(非対象物)(不正解画像)の判別を機械学習の手法(統計的学習手法)で行う。検出部176における対象物と非対象物の判別に用いる機械学習にはアダブースト(Adaboost:適応的なブースト)やサポートベクターマシン(SVM)等の識別器が好適である。又、複数の特徴の内対象物と非対象物の判別率の高い個々の特徴、又はその組み合わせた特徴対から直列的な処理で判定、スコアリングして機械学習(統計的学習)を実行する。
図2に示した検出部176は、図3に示すように、正解画像と不正解画像の画像群を入力する画像入力部176aと、分類に用いるすべてのサンプルの重みを初期化して均一化する重み初期化部176bと、ランダムに正解画像と不正解画像から特徴量を選択し、それぞれの特徴の分類効率を算出する特徴量選択部176cと、最も分類効率の高い特徴量と、そのときの閾値を選択し出力する特徴量閾値選択部176dと、うまく識別できなかったサンプルの重みを増大させ、分類させるときに用いる重みを更新する(ブーストする)重み更新部176eと、予定のツリー(決定木)の数分生成しているか、決定木の数を判定する決定木数判定部176fと、識別処理が困難な不正解画像サンプルを「識別困難画像サンプル」として抽出し、データセットを更新するデータセット更新部176gとを論理構成を示すハードウェア資源として備える。
検出部176による識別処理の具体例を図13及び図14に示す。図14は、深さ2の増強ツリー(決定木)が、カスケード状に1024段直列に接続した状態を例示するものである。図14では、誤分類率に応じて適応的に(adaptive)、重みを変えながら1024段のブースティングがなされる。図13に示すように、特徴量選択部176cが各増強決定木の各ノードに、図13の左上に示した参照すべき特徴量のそれぞれが選択されるが、各判別器において特徴量と閾値Th0,Th1,Th2、及びスコア(-1.2,1.2);(-0.4,0.4)が紐づけられて、図14に示すように、複数の判別器が直列接続されている。特徴量選択部176cが選択した特徴量が、特徴量閾値選択部176dが選択した閾値Th0,Th1,Th2より大きいか小さいかで次の判別器の参照すべきノードが決定される。この直列接続された判別器のそれぞれにおいて、ノードの末端まで到達したスコアを積算し、次の判別器の増強決定木でも積算していく。この積算したスコアが0以下になった時点で、その検出ウィンドウ(領域)での探索を終了する。このためアダブーストのアルゴリズムはサポートベクターマシンと比較して高速な識別処理が可能である。ここでスコアの値が図13に示すように(-1.2,1.2);(-0.4,0.4)と可変になっているのが、ソフトカスケード処理という。可変になっていない(+1,−1)のカスケード処理(直列接続処理)でもよいが、ソフトカスケードの方が性能がよい。
画像処理部17は、他にも、撮像素子12aの画素配列に即して、入力される画像信号から非視差画像データとしての2D画像データ及び視差画像データを生成する処理や、選択された画像フォーマットに従って画像データを調整する処理も実行する。検出結果出力部178によって、生成された画像データは、LCD駆動回路20により表示信号に変換され、表示部19に表示される。更に、生成された画像データはメモリカード・インターフェイス23を介して着脱可能に装着されているメモリカード22に記録される。
図1に示したAFセンサ18は、被写体空間に対して複数の測距点が設定された位相差センサであり、それぞれの測距点において被写体像のデフォーカス量を検出する。一連の撮像シーケンスは、操作部21がユーザの操作を受け付けて、制御部16へ操作信号を出力することにより開始される。撮像シーケンスに付随するAF,自動露出(AE)、オートホワイトバランス(AWB)等の各種動作は、制御部16に制御されて実行される。例えば、制御部16は、AFセンサ18の検出信号を解析して、撮影レンズ11の一部を構成するフォーカスレンズ11cを移動させる合焦制御を実行する。
−−撮像素子の構造−−
図4(a)に示すように、第1の実施形態に係る撮像素子12aは、カラーフィルタ部F1(i-1),F1i,F1(i+1),F1(i+2)と開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3とが別体で構成されている。図4(a)に示すように、撮像素子12aは、被写体側から順に、マイクロレンズMLi-1,MLi,MLi+1,MLi+2、カラーフィルタ部F1(i-1),F1i,F1(i+1),F1(i+2)、開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3、配線層51及び光電変換素子Di-1,Di,Di+1,Di+2が配列されて構成されている。光電変換素子Di-1,Di,Di+1,Di+2は、入射する光を電気信号に変換するフォトダイオードにより構成される。光電変換素子Di-1,Di,Di+1,Di+2は、半導体チップ52の表面に二次元マトリクス状に複数配列されている。
光電変換素子Di-1,Di,Di+1,Di+2により変換された画像信号、光電変換素子Di-1,Di,Di+1,Di+2を制御する制御信号等は、配線層51に設けられた配線M1q,M1(q+1),M1(q+2),…… ;M2(q-1),M2q,M2(q+1),……を介して送受信される。又、各光電変換素子Di-1,Di,Di+1,Di+2に一対一に対応して設けられた開口部APj,APj+2を有する開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3が、配線層に接して設けられている。開口部APj,APj+2は対応する光電変換素子Di-1,Di,Di+1,Di+2毎にシフトさせて、相対的な位置が厳密に定められている。この開口部APj,APj+2を備える開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3の作用により、光電変換素子Di-1,Di,Di+1,Di+2が受光する被写体光束に視差が生じる。
一方、視差を生じさせない光電変換素子Di-1,Di,Di+1,Di+2上には、開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3が存在しない。視差を生じさせることはないが、実質的には配線M1q,M1(q+1),M1(q+2),…… ;M2(q-1),M2q,M2(q+1),……によって形成される開口Oiが入射する被写体光束を規定するので、配線M1q,M1(q+1),M1(q+2),…… ;M2(q-1),M2q,M2(q+1),……を、視差を生じさせない有効光束の全体を通過させる開口マスクと捉えることもできる。開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3は、各光電変換素子Di-1,Di,Di+1,Di+2に対応して別個独立に配列してもよいし、カラーフィルタ部F1(i-1),F1i,F1(i+1),F1(i+2)の製造プロセスと同様に複数の光電変換素子Di-1,Di,Di+1,Di+2に対して一括して形成してもよい。
カラーフィルタ部F1(i-1),F1i,F1(i+1),F1(i+2)は、開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3上に設けられている。カラーフィルタ部F1(i-1),F1i,F1(i+1),F1(i+2)は、各光電変換素子Di-1,Di,Di+1,Di+2に対して特定の波長帯域を透過させるように着色された、光電変換素子Di-1,Di,Di+1,Di+2のそれぞれに一対一に対応して設けられるフィルタである。カラー画像を出力するには、互いに異なる少なくとも2種類のカラーフィルタ部が配列されればよいが、より高画質のカラー画像を取得するには3種類以上のカラーフィルタ部を配列するとよい。例えば赤色波長帯を透過させる赤フィルタ、緑色波長帯を透過させる緑フィルタ、及び青色波長帯を透過させる青フィルタを格子状に配列するとよい。
図4(a)に示すように、マイクロレンズMLi-1,MLi,MLi+1,MLi+2は、カラーフィルタ部F1(i-1),F1i,F1(i+1),F1(i+2)上に設けられている。マイクロレンズMLi-1,MLi,MLi+1,MLi+2は、入射する被写体光束のより多くを光電変換素子Di-1,Di,Di+1,Di+2へ導くための集光レンズである。マイクロレンズMLi-1,MLi,MLi+1,MLi+2は、光電変換素子Di-1,Di,Di+1,Di+2のそれぞれに一対一に対応して設けられている。マイクロレンズMLi-1,MLi,MLi+1,MLi+2は、撮影レンズ11の瞳中心と光電変換素子Di-1,Di,Di+1,Di+2の相対的な位置関係を考慮して、より多くの被写体光束が光電変換素子Di-1,Di,Di+1,Di+2に導かれるようにその光軸がシフトされていることが好ましい。更に、開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3の開口部APj,APj+2の位置と共に、特定の被写体光束がより多く入射するように配置位置が調整されてもよい。
このように、各々の光電変換素子Di-1,Di,Di+1,Di+2に対応して一対一に設けられる開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3、カラーフィルタ部F1(i-1),F1i,F1(i+1),F1(i+2)及びマイクロレンズMLi-1,MLi,MLi+1,MLi+2の一単位を画素と呼ぶ。特に、本明細書では、視差を生じさせる開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3が設けられた画素を「視差画素」、視差を生じさせる開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3が設けられていない画素を「非視差画素」と呼ぶ。例えば、撮像素子12aの有効画素領域が24mm×16mm程度の場合、画素数は1200万程度以上までに及ぶ。
なお、集光効率、光電変換効率がよいイメージセンサの場合は、マイクロレンズMLi-1,MLi,MLi+1,MLi+2を設けなくてもよい。又、裏面照射型イメージセンサの場合は、配線層51が光電変換素子Di-1,Di,Di+1,Di+2とは反対側に設けられる。
カラーフィルタ部F1(i-1),F1i,F1(i+1),F1(i+2)と開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3の組み合わせには、様々なバリエーションが存在する。図4(a)において、開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3の開口部APj,APj+2に色成分を持たせれば、カラーフィルタ部F1(i-1),F1i,F1(i+1),F1(i+2)と開口マスクSp-1,Sp,Sp+1,Sp+2,Sp+3を一体的に形成することができる。又、特定の画素を被写体の輝度情報を取得する画素として特化させる場合、その画素には、対応するカラーフィルタ部F1(i-1),F1i,F1(i+1),F1(i+2)を設けなくてもよい。或いは、可視光のすべての波長帯域を透過させるように、着色を施さない透明フィルタを配列してもよい。
又、図4(b)は、撮像素子12aの変形例として、カラーフィルタ部F2iと開口マスク部Sp-1,Sp,Sp+1,Sp+2,Sp+3が一体的に構成されたスクリーンフィルタを備える撮像素子の断面外略図である。輝度情報を取得する画素を視差画素とする場合、つまり、視差画像をモノクロ画像として出力するのであれば、図4(b)として示す撮像素子の構成を採用しうる。即ち、カラーフィルタとして機能するカラーフィルタ部F2iと、開口部APj,APj+2を有する開口マスク部Sp-1,Sp,Sp+1,Sp+2,Sp+3とが一体的に構成されたスクリーンフィルタを、マイクロレンズMLi-1,MLi,MLi+1,MLi+2と配線層51の間に配設することができる。
スクリーンフィルタは、カラーフィルタ部F2iにおいて例えば青緑赤の着色が施され、開口マスク部Sp-1,Sp,Sp+1,Sp+2,Sp+3において開口部APj,APj+2以外のマスク部分が黒の着色が施されて形成される。スクリーンフィルタを採用する撮像素子は、撮像素子12aに比較して、マイクロレンズMLi-1,MLi,MLi+1,MLi+2から光電変換素子Di-1,Di,Di+1,Di+2までの距離が短いので、被写体光束の集光効率が高い。
−−撮像素子の繰り返しパターンの機能−−
図5は第1の実施形態に係る撮像素子12aの内撮像光軸と直交する中心に配列されている繰り返しパターン110tの光電変換素子群を示し、図6は周辺部分に周期的に配列されている繰り返しパターン110uの光電変換素子群を模式的に示している。図5及び図6における被写体OBJ1は、撮影レンズ11に対して合焦位置に存在する。図7は、図5に対応して、撮影レンズ11に対して非合焦位置に存在する被写体OBJ2を捉えた場合の関係を模式的に示している。
先ず、撮影レンズ11が合焦状態に存在する被写体OBJ1を捉えている場合は、図5及び図6に示すように、被写体光束は、撮影レンズ11の瞳を通過して撮像素子12aへ導かれるが、被写体光束が通過する全体の断面領域に対して、6つの部分領域Pa〜Pfが規定されている。そして、例えば図5(b)に示した繰り返しパターン(周期的な配列パターン)110tを構成する光電変換素子群の紙面左端の画素は、図5(a)の部分領域Pfから射出された被写体光束の主光線Rfのみが光電変換素子Dt(i-3)へ到達するように、開口マスクSp-3,Sp-2の開口部APt(j-3)の位置が定められている。図5(b)に示した繰り返しパターン110tの場合、右端の画素に向かって、部分領域Peに対応して開口部APt(j-2)の位置が、部分領域Pdに対応して開口部APt(j-1),の位置が、部分領域Pcに対応して開口部APtjの位置が、部分領域Pbに対応して開口部APt(j+1)の位置が、部分領域Paに対応して開口部APt(j+2)の位置がそれぞれ定められている。
即ち、撮影レンズ11の部分領域Pfと左端画素の光電変換素子Dt(i-3)の相対的な位置関係によって定義される、部分領域Pfから射出される被写体光束の主光線Rfの傾きにより、開口部APt(j-3),APt(j-2),APt(j-1),APtj,APt(j+1),APt(j+2),APt(j+3)の位置が定められている。そして、合焦位置に存在する被写体OBJ1からの被写体光束の主光線Rfを、開口部APt(j-3)を介して光電変換素子Dt(i-3)が受光する場合、その被写体光束は、点線で図示するように、光電変換素子Dt(i-3)上で結像する。同様に、繰り返しパターン110tの右端の画素に向かって、主光線Reの傾きにより開口部APt(j-2)の位置が、主光線Rdの傾きにより開口部APt(j-1)の位置が、主光線Rcの傾きにより開口部APtjの位置が、主光線Rbの傾きにより開口部APt(j+1)の位置が、主光線Raの傾きにより開口部APt(j+2)がそれぞれ定められている。図5に示すように、合焦位置に存在する被写体OBJ1の内、光軸と交差する被写体OBJ1上の微小領域Otから放射される光束は、撮影レンズ11の瞳を通過して、繰り返しパターン110tを構成する光電変換素子群の各画素に到達する。即ち、繰り返しパターン110tを構成する光電変換素子群の各画素は、それぞれ撮影レンズ11の6つの部分領域Pa〜Pfを介して、一つの微小領域Otから放射される光束を受光している。微小領域Otは、繰り返しパターン110tを構成する光電変換素子群の各画素の位置ずれに対応する分だけの広がりを有するが、実質的には、ほぼ同一の物点と近似することができる。
同様に、図6(b)に示した繰り返しパターン(周期的な配列パターン)110uを構成する光電変換素子群の紙面左端の画素は、図6(a)の部分領域Pfから射出された被写体光束の主光線Rfのみが光電変換素子Du(i-3)へ到達するように、開口マスクSu(p-3),Su(p-2)の開口部APj-3,の位置が定められている。そして、繰り返しパターン110uも右端の画素に向かって、部分領域Peに対応して開口部APu(j-2)の位置が、部分領域Pdに対応して開口部APu(j-1)の位置が、部分領域Pcに対応して開口部APujの位置が、部分領域Pbに対応して開口部APu(j+1)の位置が、部分領域Paに対応して開口部APu(j+2)の位置がそれぞれ定められている。図6で示すように、合焦位置に存在する被写体OBJ1の内、光軸から離間した被写体OBJ1上の微小領域Ouから放射される光束は、撮影レンズ11の瞳を通過して、繰り返しパターン110uを構成する光電変換素子群の各画素に到達する。即ち、繰り返しパターン110uを構成する光電変換素子群の各画素は、それぞれ6つの部分領域Pa〜Pfを介して、一つの微小領域Ouから放射される光束を受光している。微小領域Ouも、微小領域Otと同様に、繰り返しパターン110uを構成する光電変換素子群の各画素の位置ずれに対応する分だけの広がりを有するが、実質的には、ほぼ同一の物点と近似することができる。
つまり、被写体OBJ1が合焦位置に存在する限りは、撮像素子12a上における繰り返しパターン110t、110uの位置に応じて、光電変換素子群が捉える微小領域が異なり、且つ、光電変換素子群を構成する各画素は互いに異なる部分領域を介して同一の微小領域を捉えている。そして、それぞれの繰り返しパターン110t、110uにおいて、対応する画素同士は同じ部分領域からの被写体光束を受光している。つまり、図5及び図6においては、例えば繰り返しパターン110t、110uのそれぞれの左端画素の光電変換素子Du(i-3)は、撮影レンズ11の同じ部分領域Pfからの被写体光束を受光している。
撮像光軸ζと直交する中心に配列されている図5に示した繰り返しパターン110tにおいて左端画素の光電変換素子Dt(i-3)が部分領域Pfからの被写体光束を受光する開口部APt(j-3)の位置と、図6に示すように、撮像光軸ζの中心からずれた周辺部分に配列されている繰り返しパターン110uにおいて左端画素の光電変換素子Du(i-3)が部分領域Pfからの被写体光束を受光する開口部APu(j-3)の位置は厳密には異なる。しかしながら、機能的な観点からは、部分領域Pfからの被写体光束を受光するための開口マスクという点で、これらを同一種類の開口マスクとして扱うことができる。したがって、図5及び図6の例では、撮像素子12a上に配列される視差画素のそれぞれは、6種類の開口マスクの一つを備えるといえる。
図7に示す撮影レンズ11が非合焦状態に存在する被写体OBJ2を捉えている場合も、非合焦位置に存在する被写体OBJ2からの被写体光束は、撮影レンズ11の瞳の6つの部分領域Pa〜Pfを通過して、撮像素子12aへ到達する。但し、非合焦位置に存在する被写体OBJ2からの被写体光束は、光電変換素子Ds(i-1),Dsi,Ds(i+1),Ds(i+2)上ではなく他の位置で結像する。例えば、図7に示すように、被写体OBJ2が被写体OBJ1よりも撮像素子12aに対して遠い位置に存在すると、被写体光束は、光電変換素子Ds(i-1),Dsi,Ds(i+1),Ds(i+2)よりも被写体OBJ2側で結像する。逆に、被写体OBJ2が被写体OBJ1よりも撮像素子12aに対して近い位置に存在すると、被写体光束は、光電変換素子Ds(i-1),Dsi,Ds(i+1),Ds(i+2)よりも被写体OBJ2とは反対側で結像する。
したがって、図7に示す非合焦位置に存在する被写体OBJ2の内、微小領域Ot'から放射される被写体光束は、6つの部分領域Pa〜Pfのいずれを通過するかにより、異なる組の繰り返しパターン110sにおける対応画素に到達する。例えば、撮影レンズ11の部分領域Pdを通過した被写体光束は、図7(b)に示すように、主光線Rd'として、繰り返しパターン(周期的な配列パターン)110sに含まれる、開口部APs(j-1)を有する光電変換素子Ds(i-1)へ入射する。そして、微小領域Ot'から放射された被写体光束であっても、他の部分領域を通過した被写体光束は、繰り返しパターン110sに含まれる光電変換素子Ds(i-1)へは入射せず、他の繰り返しパターンにおける対応する開口部を有する光電変換素子Dsi,Ds(i+1),Ds(i+2),……へ入射する。換言すると、繰り返しパターン110sを構成する各光電変換素子Ds(i-1),Dsi,Ds(i+1),Ds(i+2)へ到達する被写体光束は、被写体OBJ2の互いに異なる微小領域から放射された被写体光束である。即ち、開口部APs(j-1)に対応するDs(i-1)へは主光線をRd'とする被写体光束が入射し、他の開口部に対応する光電変換素子Dsi,Ds(i+1),Ds(i+2)へは主光線をRa+、Rb+、Rc+、Re+、Rf+とする被写体光束が入射するが、これらの被写体光束は、被写体OBJ2の互いに異なる微小領域から放射された被写体光束である。
すると、撮像素子12aの全体で見た場合、例えば、開口部APt(j-3),APt(j-2),APt(j-1),APtj,APt(j+1),APt(j+2)に対応する光電変換素子Dt(i-1),Dti,Dt(i+1),Dt(i+2)で捉えた被写体像Aと、開口部APu(j-3),APu(j-2),APu(j-1),APuj,APu(j+1),APu(j+2),APu(j+3)に対応する光電変換素子Du(i-1),Dui,Du(i+1),Du(i+2)で捉えた被写体像Dは、合焦位置に存在する被写体に対する像であれば互いにずれがなく、非合焦位置に存在する被写体に対する像であればずれが生じることになる。そして、そのずれは、非合焦位置に存在する被写体が合焦位置に対してどちら側にどれだけずれているかにより、又、部分領域Paと部分領域Pdの距離により、方向と量が定まる。つまり、被写体像Aと被写体像Dは、互いに視差像となる。この関係は、他の開口部に対しても同様であるので、開口部APt(j-3),APt(j-2),APt(j-1),APtj,APt(j+1),APt(j+2)からAPu(j-3),APu(j-2),APu(j-1),APuj,APu(j+1),APu(j+2),APu(j+3)に対応して、6つの視差像が形成されることになる。
したがって、このように構成されたそれぞれの繰り返しパターン110t,110uにおいて、互いに対応する画素の出力を寄せ集めると、視差画像が得られる。つまり、6つの部分領域Pa〜Pfうちの特定の部分領域から射出された被写体光束を受光した画素の出力は、視差画像を形成する。
図8に示すカラーフィルタ配列のパターンは、4つの画素からなる通常のベイヤー配列の内のGr画素を緑フィルタが割り当てられるG画素として維持する一方、Gb画素をW画素に変更したパターンである。以下において、それぞれの4つの画素の単位を「画素ブロック」と呼ぶ。画素ブロックの内のW画素は、可視光のおよそすべての波長帯域を透過させるように、着色を施さない透明フィルタを配列してカラーフィルタ部が割り当てられないようにしてもよい。図8に示すようなW画素を含むカラーフィルタ配列を採用すれば、撮像素子が出力するカラー情報の精度は若干低下するものの、W画素が受光する光量はカラーフィルタ部が設けられている場合に比較して多いので、精度の高い輝度情報を取得できる。図8の左上に太い実線で囲んで示した繰り返しパターン(周期的な配列パターン)110eは、W画素を含む画素ブロックのパターンを左右に2組連続して、8画素をユニットとした周期的な繰り返しパターンである。8画素のユニットの内、左側の画素ブロックのW画素に視差L画素を、右側の画素ブロックのW画素に視差R画素を割り当てている。図8に示すような配列において、撮像素子12aは、視差画像をモノクロ画像として出力し、2D画像をカラー画像として出力することができる。図8に示した繰り返しパターン110eは例示であり、図8に示したトポロジーに限定されるものではない。いずれの画素を視差画素とするか、或いは非視差画素とするかにより、様々な特徴を有する繰り返しパターンのユニットが設定できる。
図8に示すパターン110eを基礎として、視差L画素の出力が、撮像素子12a上の相対的な位置関係を維持しながら寄せ集められて、L画像データが生成される。一つの繰り返しパターン110eを構成する8画素に含まれる視差L画素は一つであるので、L画像データを形成する各視差L画素は、それぞれ異なる繰り返しパターン110eから寄せ集められる。即ち、寄せ集められたそれぞれの視差L画素の出力は、被写体の互いに異なる微小領域から放射された光が光電変換された結果であるので、L画像データは、特定の視点(L視点)から被写体を捉えた一つの視差画像データとなる。そして、視差L画素は、W画素に割り振られているので、L画像データは、カラー情報を持たず、モノクロ画像として生成される。
同様に、図8に示すパターン110eを基礎として、視差R画素の出力が、撮像素子12a上の相対的な位置関係を維持しながら寄せ集められて、R画像データが生成される。寄せ集められたそれぞれの視差R画素の出力は、被写体の互いに異なる微小領域から放射された光が光電変換された結果であるので、R画像データは、特定の視点(R視点)から被写体を捉えた一つの視差画像データとなる。そして、視差R画素は、W画素に割り振られているので、R画像データは、カラー情報を持たず、モノクロ画像として生成される。
被写体が合焦位置に存在するときには図5及び図6に示したように、一つの繰り返しパターン110eにおいて、視差L画素と視差R画素は、被写体の同一の微小領域から放射される光束を受光する。又、被写体が非合焦位置に存在するときには図7に示したように、一つの繰り返しパターン110eにおいて、視差L画素と視差R画素は、被写体の互いにずれた微小領域から放射される光束を受光する。そのずれは、被写体位置の合焦位置に対する相対関係と瞳の部分領域の関係とから、方向と量が定まる。したがって、L画像データとR画像データのそれぞれにおいて、視差L画素と視差R画素が撮像素子12a上の相対的な位置関係を維持しながら寄せ集められていれば、それぞれが視差画像を形成する。このような画像処理は、画像処理部17のステレオ画像生成処理部172によって実行される。
従来、デプス情報(距離情報)を取得するには、2台以上の撮像装置や、特殊な機器が必要であった。又、そのような従来のデプス取得デバイスを用いた場合に、被写体認識が可能となるデプスレンジには制限があった。第1の実施形態に係る撮像素子12aによれば、視差L画素と視差R画素が撮像素子12a上の相対的な位置関係を維持しながら集積化され配置されているので、通常のカメラ撮影と同様の撮影レンジでのデプス取得が可能になる。第1の実施形態に係る撮像素子12aによれば、更にそのデプスマップを用いた被写体認識が可能になる。
第1の実施形態に係る撮像素子12aから生成されるステレオ画像は、撮像素子12aの繰り返しパターン110t、110u、110s、110eが不変なためキャリブレーションは不要である。更に、第1の実施形態に係る撮像素子12aからはステレオ画像のみならず、非視差画像データであるカラー画像も同時に取得可能であるため、デプスマップのみならず、カラー情報も用いることで、機械学習手法(統計的学習手法)により、双方の被写体判別性の高い部分から構築された(よい所取りをした)被写体検出器を構築できる。又、学習に用いる特徴量を、デプスマップ、カラー画像で共用化できる。したがって、第1の実施形態に係る撮像素子12aを用いることにより、第1の実施形態に係る撮像装置に搭載する認識フレームワークとして簡便な設計が実現できる。
通常の対象物検出で問題になるのは、オブジェクトクラス内の分散が大きく、クラス間の分散が小さい場合である。対象物検出が最も容易になる場合は、オブジェクトクラス内の分散が小さく、クラス間の分散が大きい場合である。以下の画像処理方法の説明から具体的に理解できる事項ではあるが、オブジェクトクラス内の分散が大きい場合であっても、本発明の第1の実施の形態に係る画像処理装置によれば、「被写体判別」と「被写体追尾」を容易にする高精度な被写体認識が簡単に実現できる。
即ち、画像情報のみを用いた場合、例えば人を検出する場合、様々な服のガラや彩色等が存在するため、クラス内分散が大きくなってしまい、判別精度が低下する一因となってしまう。第1の実施の形態に係る画像処理装置によれば、画像処理部17の検出部176が、算出部174が算出したデプス情報(距離情報)を、画像情報と共に用いているので、被写体は背景と比べてある一定のデプス値に位置するため服のガラや彩色等は無視できる。このため、第1の実施の形態に係る画像処理装置によれば、高精度な被写体認識が可能になる。
本発明の第1の実施の形態に係る画像処理装置によれば、デプス情報(D情報)と非視差画像データであるカラー画像情報(RGB情報)の双方を特徴量として検出部176が採用し、D情報とRGB情報の双方のいい所取りをした高精度な機械学習を検出部176が実行しているので、高精度な被写体認識が可能になるという顕著な効果を奏することができる。
(画像処理方法)
図9に示すフローチャート及び図10に示す画像データフロー図(DFD)を用いて、本発明の第1の実施の形態に係る画像処理方法を説明する。なお、以下に述べる画像処理方法は、一例であり、特許請求の範囲に記載した趣旨の範囲内であれば、この変形例を含めて、これ以外の種々の製造方法により、実現可能であることは勿論である。又、以下の説明で、便宜上「先ず」「次に」等の文言が用いられているが、第1の実施の形態に係る画像処理方法をこの順で実施することが必須であることを意味するものではない。
(a) 先ず、図1に示した操作部21を操作することにより、ステップS11において、図4〜図8に例示したような視差画素の繰り返しパターン110t、110u、110s、110eのユニットを有する撮像素子12aを備えた撮像装置で被写体の像を撮像させ、図1の記憶部14に画像データを格納させる。図2に示した画像処理部17の画像取得部171は、記憶部14から画像データを読み出し、図10に示すような第1視点方向の視差画像である左視差画像IM1及び第2視点方向の視差画像である右視差画像IM2を画像情報(撮像情報)として取得する。なお、第1の実施の形態に係る画像処理方法では、左視点方向画像(第1視点方向画像)IM1及び右視点方向画像(第2視点方向画像)IM2が、図1に示すような単一の撮像光学系(11,32)を通して取得される場合を例示的に説明するが、第1及び第2視点方向の視差画像の取得に係る技術は、図1に示したような構成の撮像装置による画像の取得に限定されるものではない。
(b) 次に、ステップS12において、画像処理部17のステレオ画像生成処理部172は、第1視点方向(左視点方向)の画像情報と第2視点方向(右視点方向)の画像情報の各々で補間処理を行い、ステレオ画像を生成する。生成されたステレオ画像は、ステレオ画像記憶装置141に格納する。図8に例示的に示したカラーフィルタ配列の例では、繰り返しパターン110eのユニットを構成している8画素の内、左側の画素ブロックのW画素に視差L画素を、右側の画素ブロックのW画素に視差R画素を割り当てているので、撮像素子12aは、第1及び第2視点方向の視差画像をモノクロ画像として出力し、2D画像をカラー画像として出力することができる。即ち、ステップS13において、画像処理部17のカラー画像生成処理部173は、色情報も含めて補間処理をすることで図10に示すようなカラー画像IM6を得ることができる。即ち、図8に示したカラーフィルタ配列の繰り返しパターン110eでは、非視差画素の出力が、撮像素子12a上の相対的な位置関係を維持しながら寄せ集められて、カラー画像IM6が生成される。このとき、画素ブロックを構成している4画素の内のW画素は視差画素であるので、非視差画素のみで構成されるベイヤー配列からの出力に対して、Gb画素の出力に相当する出力が欠落する。生成されたカラー画像IM6は、カラー画像記憶装置142に格納する。
そこで、第1の実施の形態に係る画像処理方法においては、この欠落した出力の値として、G画素の出力値を代入する。つまり、カラー画像生成処理部173を用いてG画素の出力で補間処理を施せば、ベイヤー配列の出力に対する画像処理を採用してカラーの2D画像データを生成してカラー画像IM6を得ることができる。なお、カラー画像生成処理部173を用いてカラー画像のステレオ画像も得ることができるが、視差マップ生成のためには、輝度情報のみで十分であるため、撮像素子12aがRGBから構成される場合、G面のみを用いて、ステレオ画像を生成するとする。カラー情報まで補間するよりも、その方が高速でもある。
(c) 次に、ステップS14において、画像処理部17の算出部174は、ステレオ画像生成処理部172が生成した2枚のステレオ画像を、ステレオ画像記憶装置141から読み出して、図10に示すようなデプスマップIM3を生成する。デプスマップIM3はステレオ画像間の対応画素の視差を示している。前述したように、算出部174は、ブロックマッチング法や勾配法を用いてデプスマップIM3を生成する。生成されたデプスマップIM3は、距離情報記憶装置143に格納する。
(d) 次に、画像処理部17の抽出部175の第2特徴抽出回路175bはステップS15において、式(6)〜(10)に即した処理を用いて、算出部174が生成したデプスマップIM3を距離情報記憶装置143から読み出して、特徴量抽出を行い、図10に示すような認識で用いるための特徴マップIM4及びIM5を生成する。特徴マップIM5には手前側の2人と奥の1人の人物に対し、式(6)〜(8)を用いてエッジ検出がされている。手前側の2人の人物のエッジに位置する画素が白線で明瞭に示されているが、奥の1人の人物のエッジは明確でない。生成された特徴マップIM4及びIM5等は、特徴情報記憶装置144に格納する。更に、抽出部175の第1特徴抽出回路175aは、ステップS16において、式(1)〜(5)に即した処理を用いて、カラー画像生成処理部173が生成した非視差画像データであるカラー画像IM6から特徴量抽出を行い、モノクロの特徴マップIM7及びIM8を生成する。式(1)〜(3)を用いてエッジ検出したモノクロの特徴マップIM8では、手前側の2人の人物のエッジが白線で明瞭に示されているが、奥の1人の人物のエッジは、上半身の部分がぼんやりしている。生成された特徴マップIM7及びIM8等も特徴情報記憶装置144に格納する。
(e) 次に、画像処理部17の検出部176は、ステップS17において、第1特徴抽出回路175a及び第2特徴抽出回路175bが生成した特徴量マップを用いて機械学習の手法でウィンドウサーチをする。このステップS17においては、図10の左下に模式的に示すように、矩形の検出ウィンドウ(領域)を網羅的な走査(ラスタスキャン)して探索処理を実行する。ステップS17における探索処理は図11に示すように、大きさと解像度を変えて階層的に実施する。図11では4枚の平面図として左から順に大きくなるように特徴量マップA1,A2,A3,A4を横に並べて表現している。図11に示すように、同一の画像を解像度が異なるように、例えば21/2倍ずつスケールの異なる4層の特徴量マップA1,A2,A3,A4と生成して、画像ピラミッドを構成する。大きさと解像度が異なる各スケールの特徴量マップA1,A2,A3,A4に対し、それぞれの特徴量マップA1,A2,A3,A4の左上に示したような矩形の検出ウィンドウ(領域)を用いてウィンドウサーチを実施する。検出部176は更にステップS18において、網羅的なウィンドウサーチをしながら各検出ウィンドウ(領域)内に、被写体が存在しないか識別処理をしていく。各検出ウィンドウ(領域)での探索結果は、探索処理データ記憶装置145に格納する。
(f) 次に、ステップS19において、各検出ウィンドウ(領域)で検出したオブジェクト(対象物)に関し、大きさの異なる全スケールでの全画素の探索が終了したか否かを判定する。ステップS19において、検出部176が全スケールでの全画素の探索が終了していないと判定した場合は、ステップS17に戻り、全スケールでの探索を実行する。ステップS19において、検出部176が全スケールでの全画素の探索が終了したと判定した場合は、探索結果を探索処理データ記憶装置145に格納した後、ステップS20に進む。全スケールでの探索終了後、ステップS20において、画像処理部17の統合処理部177が、探索処理データ記憶装置145から各検出ウィンドウ(領域)での探索結果を読み出し、大きさの異なる各スケールで検出した検出ウィンドウ(被写体候補ウインドウ)を図11の右下に示すように、統合処理する。検出ウィンドウ(被写体候補ウインドウ)を統合処理した結果は、図10に示すような最終検出結果画像IM9等として出力画像記憶装置146に格納する。更に、ステップS20において、画像処理部17の検出結果出力部178は、出力画像記憶装置146から最終検出結果画像IM9を読み出し、図1に示したLCD駆動回路20に電気信号を送信し、LCD駆動回路20によって表示部19に最終検出結果の画像IM9を出力させる。図10の最終検出結果画像IM9は、本来カラー画像であるが、線画で画像IM9を表現しているので最終検出結果の特徴が不明瞭になっているが、画像IM9において、太い黒い線(帯)で示した3つの矩形の枠が検出されたオブジェクト(対象物)を示す物体検出枠である。
−−アダブーストによる機械学習−−
図12に示すフローチャートに記載された手順を参照しながら、本発明の第1の実施の形態に係る検出部176を用いたアダブーストによる増強決定木の作成手順と、その統計的学習の手法に必要なアルゴリズムを説明する:
(a) 先ず、ステップS21において、図3に示した検出部176の画像入力部176aは、正解画像と不正解画像の画像群を入力し、対応するデプス情報(距離情報)のデータや、それぞれの画像から抽出した特徴量と共に、探索処理データ記憶装置145に格納する。例えば、図15に示すように、画像入力部176aは、検出対象とする正解画像と不正解画像の大規模データセットを入力して探索処理データ記憶装置145に格納する。図15に示す例では、上段側に示した人検出の画像が検出対象となる正解画像で、下段側に示した人以外の画像が検出対象にはならない不正解画像である。図15の上段、下段のそれぞれのデータは左半分が色情報のデータで、右半分が対応するデプス情報(距離情報)のデータである。
(b) 次に、ステップS22において、検出部176の重み初期化部176bは、アダブーストの機械学習の分類に用いるすべてのサンプルの重みを初期化して均一化する。初期化された重みは、探索処理データ記憶装置145を検出部176のワークスペースとするように探索処理データ記憶装置145に格納する。
(c) 次に、ステップS23において、検出部176の特徴量選択部176cは、探索処理データ記憶装置145から正解画像と不正解画像の特徴量を読み出し、ランダムに正解画像と不正解画像から特徴量を選択し、それぞれの特徴量の分類効率を算出する。算出した分類効率は、探索処理データ記憶装置145に格納する。図12のフローチャートで示されるような第1の実施の形態に係る機械学習の学習プロセスにおいては、正解画像/不正解画像判別に有用な特徴量が自動的に選択される。画像入力部176aによって入力された各データには、図15に示すように色情報のみならず、対応するデプス情報(距離情報)も付帯しているので、ステップS23において、特徴量選択部176cは有用であれば、探索処理データ記憶装置145からデプス情報(距離情報)を読み出し、デプス情報(距離情報)から特徴量を選択し、増強決定木に自動的に組み込む。
(d) 次に、ステップS24において、検出部176の特徴量閾値選択部176dは、最も分類効率の高い特徴量と、そのときの閾値を、機械学習的に選択し、探索処理データ記憶装置145をワークスペースとして、探索処理データ記憶装置145に、選択された最も分類効率の高い特徴量とそのときの閾値を格納する。
(e) 次に、ステップS25において、検出部176の重み更新部176eは、うまく識別できなかったサンプルの重み(ブースト重量)を増大させ、分類させるときに用いる重みを更新(ブースト)し、探索処理データ記憶装置145に格納する。アダブーストの統計的機械学習では、このように誤分類率に応じて適応的に重みを増強するブースティングを、探索処理データ記憶装置145をワークスペースとして繰り返す。
(f) 増強決定木の作成は機械学習的に行われるが、ステップS26において、検出部176の決定木数判定部176fは、予定の決定木の数分が生成されたかを、判定する。ステップS26で予定の決定木の数分が生成されたと判定された場合はステップS27に進む。ステップS26で予定の決定木の数分が生成されていないと判定された場合は、ステップS23に戻る。
(g) 次に、ステップS27において、検出部176のデータセット更新部176gは、識別処理が困難な不正解画像サンプルを、「識別困難画像サンプル」として抽出し、データセットを更新し、探索処理データ記憶装置145に格納する。
(h) 次に、ステップS28において、決定木数判定部176fは、予定の決定木の数分が生成されたか、又は分類エラーが閾値以下であるかを判定する。ステップS28で予定の決定木の数分が生成された、又は分類エラーが閾値以下であると判定された場合は、探索結果を探索処理データ記憶装置145に格納した後、図12に示すフローチャートの処理を終了する。ステップS28で予定の決定木の数分が生成されていない、又は分類エラーが閾値以下ではないと判定された場合は、ステップS22に戻り、新たなデータセットを用いて、機械学習の分類に用いるすべてのサンプルの重みを初期化して均一化する。
実際に、この機械学習により生成した検出器による、実験結果を図16及び図17(b)に示す。図16は検出エラー・トレードオフ(DET)曲線を示しており、横軸が画像一枚当たりの誤検出率(False Positive Per Image:FPPI) で、縦軸が未検出率である。図16に示すDET曲線の場合、原点に近いほど高精度であることを表しており、DET曲線の下の面積が小さいほど被写体認識の性能がよいことになる。
図16において、全体の面積に対するDET曲線の下の面積の比率は、実線で示した非視差画像データであるRGB情報のみからなる検出結果に対応する面積の比率が74%であるのに対し、破線で示した、デプス情報(距離情報)を組み込んだRGBD情報の検出結果を示す面積の比率が68%である。よって、デプス情報(距離情報)を組み込んだRGBD情報の方が被写体認識の性能がよくなっていることが図16のDET曲線から分かる。
図17(a)は、非視差画像データであるRGB情報のみによる結果であり、図17(b)はRGBD情報による検出結果を示す。図17(a)及び(b)において、破線で示す矩形の枠が正解像検出枠で、実線で示す矩形の枠が物体検出枠である。図17(a)に示すようなRGB情報のみによる対象物検出では、オブジェクトクラス内の分散が大きく、クラス間の分散が小さい場合は被写体認識が困難であった。図17(a)及び(b)に示すように、サッカー選手を検出する場合、サッカー選手の様々なユニフォームの模様等が存在するため、クラス内分散が大きくなってしまい、RGB情報のみによる場合は、被写体の判別精度を向上させるのは困難である。
第1の実施の形態に係る画像処理方法によれば、画像処理部17の検出部176の特徴量選択部176cが、算出部174が算出したデプス情報(距離情報)を特徴量として選択し、デプス情報(距離情報)を加えたRGBD情報を特徴量として用いたているので、図17(b)に示すように、被写体であるサッカー選手のそれぞれを高精度に判別し認識することができる。即ち、図17(b)に示すように、デプス情報(距離情報)を加えたRGBD情報を用い場合は、被写体であるサッカー選手は、背景と比べてある一定のデプス値に位置するため、服の模様や彩色等は無視できる。このため、図17(b)に示すようにRGBD情報を用いた方が、実線で示した物体検出枠が多くなる。又、図17(b)の右上に示すように、破線で示示した正解像検出枠と実線で示した物体検出枠との一致が、図17(a)の右上に比して良いことが分かる。よって、図17(a)に示すデプス情報(距離情報)を用いないRGB情報のみによる場合に比して、デプス情報(距離情報)を用いたことにより、被写体認識の性能が上がっていることが理解できる。このように、第1の実施の形態に係る画像処理方法によれば、競技場の照明変動、サッカー選手の姿勢の変化、視点の違いによるサッカー選手のシルエットの見えの違い、画像上のサッカー選手の同士の重なりによるオクルージョン等があっても、容易且つ高精度に特定のサッカー選手を検出し、識別することが可能になる。
比較のために示すと、デプス面の情報を用いないで対象物検出した結果を撮像装置に表示する場合は、図18(a)に示すように同一の色の矩形枠等で表示することになる。しかし、第1の実施の形態に係る画像処理方法によれば、図18(b)や図18(c)のように、デプス面の情報を可視化できる(なお、図18(a)及び図18(b)は本来カラー画像であるが、便宜上線画で表現している。)。例えば、図18(b)のように、奥行方向で色の異なる3次元のボクセルで検出オブジェクト(検出対象物)を包絡してもよい。図18(b)では左側と中央の2人の人物に対して画面の手前側を意味する赤色のボクセルが設けられ、中央の人物の直ぐ右側の人物に画面の奥方向を意味する青色のボクセルが付加されている。ボクセルは3次元構造であるので、ボクセルの深度方向の長さは、検出領域内のデプスマップの分散値に比例する量で描画可能である。又、被写体が位置するデプス位置については、検出領域内のデプスマップの平均値に比例する量で描画可能である。
図18(b)は本来カラー画像であり、そのカラー画像において、算出部174が算出したデプス位置に対応するデフォーカス情報を、画面に色分けして表示することができる。即ち、図18(b)の画面の左端に示すような色相スケール(色分けバー)を用いて、デフォーカス情報や距離情報を色分けして表示することができる。例えば、上端が赤で下端が紫となる赤→黄→緑→青→紫の色相スケールを表示させることができる。このとき、色相スケールが表示する各色をデプス情報(距離情報)に対応させ、図18(b)の画面の中に示されるボクセルを赤→黄→緑→青→紫で色分けしてデプス情報(距離情報)を表示すれば、色によってデプス情報(距離情報)が判断できる。図18(b)に示すように、デプス情報(距離情報)に対応させて色分けした3次元のボクセルをオブジェクト(対象物)に付加して表示することにより、ユーザは意中の対象物(オブジェクト)が、被写界深度内に存在するのか認知することが容易になり、適切な撮像条件を設定しやすくなる。又、着目したオブジェクト(対象物)以外の他のオブジェクト(対象物)との、デプス方向の関連性を認知しやすくなる。
図18(c)では、モノクロのデプスマップが画面の全体に表示されている例を示している。しかし、図示を省略しているが、第1の実施の形態に係る画像処理方法では、図18(c)に示したデプスマップそのものを、非視差画像データであるカラー画像とオーバーレイさせて描画表示してもよい。
以上のように、本発明の第1の実施の形態に係る画像処理方法によれば、被写体の模様や彩色等に影響を受けないで被写体を高精度に判別できるので、「被写体判別」と「被写体追尾」を容易にする高精度な被写体認識を簡単に実現可能な画像処理方法が提供できる。
(画像処理プログラム)
図9や図12に示した一連の機械学習(統計的学習手法)を伴う画像処理方法の操作は、図9や図12と等価なアルゴリズムの画像処理プログラムにより、図1〜図3に示した画像処理部(画像処理装置)17を制御して実行させることができる。本発明の第1の実施の形態に係る画像処理プログラムは、具体的には:
(a)画像取得部171に第1及び第2視点方向の視差画像データ、並びに非視差画像データを取得させる命令;
(b)算出部174に第1及び第2視点方向の視差画像データから距離情報を算出させる命令;
(c)抽出部175に非視差画像データと距離情報のそれぞれから特徴量を抽出させる命令;
(d)検出部176に抽出された特徴量を用いて機械学習により対象物検出させる命令
等の一連の命令を含んでおり、これらの一連の命令によって、画像処理部(画像処理装置)17に、図9や図12に示した一連の機械学習(統計的学習手法)を伴う画像処理方法の操作を実行させればよい。
本発明の第1の実施の形態に係る画像処理プログラムは、画像処理部(画像処理装置)17がその一部となって構成するコンピュータシステムのプログラム記憶装置(図示省略)に記憶させればよい。又、このプログラムは、コンピュータ読取り可能な記録媒体に保存し、この記録媒体を情報処理装置のプログラム記憶装置に読み込ませることによっても、或いはインターネット等の情報処理ネットワークや通信ネットワークを経由してプログラム記憶装置に読み込ませることによっても、本発明の一連の機械学習を伴う画像処理の操作を実行することができる。
−−AF/AE調整−−
図18(b)や図18(c)に示したような第1の実施の形態に係る画像処理方法によって得られた被写体判別情報は、オートエリアAF/AEに適用可能である。即ち、非視差画像データが含む色情報と算出部174が算出した距離情報を帰還パラメータとして用いて、第1の実施の形態に係る制御部16が、撮像光学系(11,32)を構成するフォーカスレンズ11cの位置及び絞り32の開口面積を帰還制御して、焦点距離及び露出を自動調整することができる。よって、第1の実施の形態に係る画像処理方法は、例えば、人物を重視したAF/AEを行うことができる。又、図17に示すように、サッカーの試合における選手の動きを捉えてダイナミックAF/AEに反映させることが可能になる。第1の実施の形態に係る画像処理方法によれば、被写体がフォーカスポイントから外れても、常に被写体にピントが合った画像を撮影する被写体追尾をして3D−トラッキングを実現することも可能になる。
図1に示した第1の実施の形態に係る画像処理装置のAFセンサ18は、被写体空間に対して二次元マトリクス状且つ離散的に配置される複数、例えば11点の測距点を有するように設定できる。このとき、AFセンサ18は、それぞれの測距点に対応するデフォーカス量を独立に出力する。第1の実施の形態に係る画像処理装置の 制御部16は、画像処理部17の算出部174のアルゴリズムにより選択された合焦測距点のデフォーカス量を検出して、合焦に至るフォーカスレンズ11cの移動量及び移動方向を決定する。更に制御部16は、これらの情報に従ってフォーカスレンズ11cを移動させる。フォーカスレンズ11cの移動が完了すると、制御部16は、AFセンサ18により合焦測距点のデフォーカス量を再度検出して、合焦測距点に対応するオブジェクト(対象物)にピントが合ったことを確認する。
例えば、操作部21のシャッタボタンの第1段階の押下(半押し)があると、制御部16は、AF動作及びAE動作を開始させ、フォーカスモータ30cを介して撮影レンズ11内のフォーカスレンズ11cが合焦位置にくるように制御する。又、操作部21のシャッタボタンの半押し時にA/D変換回路13から出力される画像データは記憶部14を経て、画像処理部17のAE検出用論理演算回路(図示省略)に取り込まれる。
このとき、撮影予定距離に対応したフォーカスレンズ11cのレンズ位置がフォーカスレンズ11cの移動範囲内に基準位置として設定してもよい。 基準位置が設定されると、制御部16は基準位置に対応するレンズ位置にフォーカスレンズ11cを移動する。そして、撮影Ev値算出回路は、基準位置で得られた画像データから被写体の輝度値を検出して制御部16に送信する。制御部16は、図示を省略したEEPROM等の記憶装置に予め記憶されている閾値とこの輝度値とを比較する。制御部16によって輝度値が閾値以上と判定された場合は、探索範囲設定部はAFセンサ18から送信されたズームレンズ11bの位置データPと予め用意した対応テーブルを用いてフォーカスモータ30cの駆動量を求め、基準位置を中心にして探索範囲を設定する。「対応テーブル」には、レンズ情報として、フォーカスレンズ11c位置と合焦被写体距離の対応関係が記録されている。
制御部16は、ピントが合ったことを確認できたら、スーパーインポーズ表示等により合焦測距点を明滅させ、合焦動作完了をユーザに告知する。又、制御部16は、合焦測距点のデフォーカス量を再度検出すると同時に、他の測距点のデフォーカス量も検出する。制御部16は、それぞれの測距点におけるデフォーカス量から、被写体までの距離を算出できる。具体的には、現在のフォーカスレンズ11cの位置を入力することにより、合焦被写体までの距離を得る。この距離は被写体となる第1オブジェクト(第1対象物)までの距離に相当する。オートフォーカスにおいては、あるデフォーカス量に対して、合焦位置までフォーカスレンズ11cをどれだけ移動させればよいかの移動量変換関数を利用している。そこで、この移動量関数を利用して、非合焦測距点におけるデフォーカス量から、フォーカスレンズ11cの移動量を算出する。そして、現在のフォーカスレンズ11cの位置に算出した移動量を加算した値を対応テーブルに入力することにより、他の被写体となる第2オブジェクト(第2対象物)及び第3オブジェクト(第3対象物)までの距離を得る。第1の実施の形態に係る画像処理方法においては、絶対距離を用いる場合に、このようにAFセンサ18の出力であるデフォーカス情報から算出された距離情報を参照しながら、画像処理部17の算出部174が決定したデフォーカス量等に基づき、AF調整をすることができる。
画像処理部17のAE検出用論理演算回路では、画面全体のG信号を積算し、又は画面中央部と周辺部とで異なる重みづけをしたG信号を積算し、その積算値を制御部16に出力する。画像処理部17の撮影Ev値算出回路は、AE検出用論理演算回路から入力した積算値から被写体の明るさ(撮影Ev値)を算出し、この撮影Ev値に基づいて絞り32の絞り値及び撮像素子12aの電子シャッタ(シャッタスピード)を所定のプログラム線図に従って決定する。制御部16は、撮影Ev値算出回路がその決定した絞り値に基づいて、モータドライバ31dを介してアイリスモータ33を介して絞り32を制御するとともに、決定したシャッタスピードに基づいてタイミングジェネレータ34を介して撮像素子12aでの電荷蓄積時間等を制御する。なお、ストロボ制御回路36は、撮影Ev値算出回路によって得られた撮影Ev値に基づいて、被写体輝度が低いときにはストロボ装置35に発光信号を送信する。ストロボ装置35はこの発光信号に基づいてストロボを発光させる。
画像処理部17のAF処理部は、左視点方向画像データ(第1視点方向画像データ)及び右視点方向画像データ(第2視点方向画像データ)の少なくとも一方の画像データの内の所定の繰り返しパターンのフォーカス領域内の画像データの高周波成分を抽出し、この高周波成分を積分することにより合焦状態を示すAF評価値を算出する。このAF評価値が極大となるように撮影レンズ11内のフォーカスレンズ11cを制御することによりAF制御が行われる。又、左視点方向画像データ及び右視点方向画像データの内の所定のフォーカス領域内の画素に対応する画像データの位相差を検出し、この位相差を示す情報に基づいてデフォーカス量を求めて、このデフォーカス量が0になるように撮影レンズ11内のフォーカスレンズ11cを制御することによりAF制御を行ってもよい。
一般に、左視点方向画像データ及び右視点方向画像データの視差とF値(被写体の明るさ)とは視差が大きくなるとF値が小さくなる傾向がある。所定の明るさ(所定のF値)の場合には、ズーム位置がワイド側の場合には視差が小さく、ズーム位置がテレ側の場合には視差が大きい。焦点距離以外の条件を一定に、焦点距離を変化させた場合には、例えば図6の点線上を移動する。即ち焦点距離が小さい場合にはF値が小さく(被写体が明るい)且つ視差が小さく、焦点距離が大きくなるにつれてF値が大きく(被写体が暗い)且つ視差が大きくなる。適切な視差に対して、視差が小さい場合、大きい場合ともに、左視点方向画像データ及び右視点方向画像データから生成される立体視画像は適切な立体視ができない。
図5等から分かるように、光電変換素子に入射する光の中心が内側へ移動すると、左視点方向画像の光電変換素子に入射する光の中心と右視点方向画像の光電変換素子に入射する光の中心との距離が小さくなる。即ち、左視点方向画像データと右視点方向画像データとの視差が小さくなる。焦点距離が所定の値より大きい場合、即ちテレである場合には、光電変換素子に入射する光の量が少なく暗くなる。操作部21のシャッタボタンが全押しされると、制御部16は、AF/AE調整を伴って、撮影、記録処理を開始することができる。即ち、第1の実施の形態に係る画像処理装置によれば、測光結果と画像処理部17の算出部174が決定したデフォーカス量等に基づき、シャッタ速度、絞り値等を決定して、撮像素子12aに所望の光量を入射させることができる。
−−オートホワイトバランス(AWB)−−
又、非視差画像データが含む色情報と算出部174が算出した距離情報を帰還パラメータとして用いて、第1の実施の形態に係る制御部16が、撮像光学系(11,32)を構成するフォーカスレンズ11cの位置及び絞り32の開口面積を帰還制御して、ホワイトバランスを自動調整してオートホワイトバランス(AWB)調整することができる。具体的には、第1の実施の形態に係る画像処理方法においては、画像処理部17のWB制御量演算回路(図示省略。)が、複数の領域毎にホワイトバランス調整に用いるWB制御量を算出する。一般的に基準となる色温度は、画像中の白領域について、色差信号R−Y、B−Yと輝度信号Yを用いた、(R−Y)/Y、(B−Y)/Yの平均値の演算結果から推定される。ホワイトバランス調整とは、これらの色差信号が0になるように補正することである。ここで、輝度信号Yは、ベイヤー配列の場合、Y=(R+Gr+Gb+B)/4で与えられる。図8に示したカラーフィルタ配列の場合であれば、Y=(R+2G+B)/4で与えられる。
第1の実施の形態に係る画像処理方法においては、例えば、算出部174が抽出した輪郭に囲まれた領域毎にWB制御量を算出するようにすることができる。WB制御量演算回路は、ある領域において白抽出領域に含まれる画素ブロック数NBが予め設定されたブロック数NB0以下であると算出したら、その領域を、WB制御量の算出ができない小さすぎる被写体領域であると判断する。予め設定されるブロック数NB0としては、例えば、画像全体のブロック数に対する割合として規定される。WB制御量演算回路により小さすぎる被写体領域が存在すると判断されたら、算出部174は、その領域を区分帯が隣り合う領域に併合して、輪郭を修正する。
WB制御量演算回路は、領域KのWB制御量として(ΔRK,ΔBK)を算出する。具体的には、領域Kにおいて、
ΔRK=Σ(R−Y)/NB、 ...........(11)
ΔBK=Σ(B−Y)/NB ...........(12)
のように、算出する。
WB制御量演算回路が算出したWB制御量(ΔRK,ΔBK)を用いて、制御部16のWB調整命令出力回路(図示省略。)は、2D画像データにAWB調整を施す。具体的には、WB調整命令出力回路は、領域Kに含まれる各R画素、B画素の値を補正することによりホワイトバラスを調整する。例えば、
R'=R−γΔRK、 ...........(13)
B'=B−γΔBK ...........(14)
のように、補正値が算出される。ここで、γは補正係数であり、通常は1が採用されるが、ゲイン補正のフィードバックが効きすぎるときに1以下の小数値を採用する。このように、距離情報に従って区分された領域毎にAWB調整を実行すれば、被写体の特徴を適切に表現する色味を実現することが期待できる。特に奥行方向に沿って各々の被写体の照射環境が変化するようなシーンでは有効である。
特に、第1の実施の形態に係る画像処理方法においては、一つの領域に複数の被写体が含まれる場合には、画素毎にWB制御量を算出する。その際、奥行方向の距離に従って区分された区分帯を用いる。例えば、撮像装置から予め定められた第1オブジェクト(第1対象物)までの距離区分を第1レンジとし、第1レンジに続く第2オブジェクト(第2対象物)までの距離区分を第2レンジ,第2レンジに続く第2オブジェクト(第2対象物)までの距離区分を第3レンジ、第3レンジから無限遠までの区分を第4レンジというように、距離を区分する。区分帯の区分幅は、装着されるフォーカスレンズ11cの焦点距離等に応じて、適宜変更されてもよい。
区分帯には、例えばその区分の中央値をレンジ代表距離として定義することができる。例えば、第1レンジに対応する第1領域には第1レンジ代表距離が、第2レンジに対応する第2領域には第2レンジ代表距離が、第3レンジに対応する第3領域には第3レンジ代表距離が、第4レンジに対応する第4領域には第4レンジ代表距離が定義される。
算出部174は、各画素に対して距離を算出するので、WB制御量演算回路は、各画素に適用するWB制御量を、画素の距離を利用して算出する。具体的には、対象となる画素Pの距離をDpとし、Dpが第3レンジの距離Dcと第4レンジの距離Ddの間に存在する場合、その内分比に従って第3領域のWB制御量Wcと第4領域のWB制御量Wdを内分した値を画素PにおけるWB制御量Wpとして算出する。つまり、
Wp={(Wd−Wc)/(Dd−Dc)}・Dp+(Dd・Wc−Dc・Wd)/(Dd−Dc) ...........(15)
で、画素PにおけるWB制御量Wpを算出する。このようにして、画像処理部17のWB制御量演算回路が、すべての画素に対して各々WB制御量を算出する。そして、制御部16のWB調整命令出力回路が、その値を利用して各画素に対してAWB調整を実行する。すると、領域の境界で不連続となるWB制御量が算出されないので、観察者に違和感を与えない、滑らかで自然な色味を提供することができる。
第1の実施の形態に係る画像処理方法においては、AF情報を利用して距離情報を絶対距離に換算して処理を実行できる。しかし、視差画像データにおけるそれぞれの被写体像間のずれ量は、相対的な距離差に比例するので、画像処理部17は、絶対距離を用いなくても距離に応じたAWB調整を行うことができる。又、第1の実施の形態に係る画像処理方法によれば、各画素が距離情報を有するので、換言すればデプスマップを生成するので、AWB調整において、距離情報を加味した視覚効果を付与することもできる。
(その他の実施の形態)
上記のように、本発明は第1の実施形態によって記載したが、この開示の一部をなす論述及び図面は本発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。
既に述べた第1の実施形態の説明においては、図2や図3に示した画像処理部17は、図1に示した撮像装置の構成要素として示したが例示に過ぎない。第1の実施形態の説明のような、単一の撮像光学系(11,32)を経由した光束が視差L画素と視差R画素を有する撮像素子12aに入射することにより、ステレオ画像を取得する撮像装置に限定されず、ステレオ画像を取得するために2台以上の撮像装置を用いる手法、TOF型イメージセンサを使う撮像装置、或いは赤外光の反射の角度から距離を計算するパターン照射の手法を用いた撮像装置等、図1に示した構成以外の種々の撮像装置や撮像システムの一部として、図2等に示した画像処理部17を採用することが可能である。但し、第1の実施形態に係る撮像素子12aを用いた場合は、撮像素子12aの繰り返しパターン110t、110u、110s、110eが不変なためキャリブレーションは不要であるという有利な効果や、撮像素子12aからはステレオ画像のみならず、非視差画像データであるカラー画像も同時に取得可能であるため、機械学習に用いる特徴量としてデプスマップとカラー画像とを簡単に取得できるという有利な効果がある。
又、図2等に示した画像処理部17は、図1に示した撮像装置の構成要素として示したが、孤立したデバイスや汎用の画像処理装置として機能させることも可能である。図2等に示した画像処理部17を単独の画像処理装置として機能させる場合は、画像データを入力する画像データ入力インターフェイスの他、操作者からの画像以外のデータや命令などの入力を受け付ける入力部と、画像処理結果を出力する出力部及び表示部と、画像処理に必要な所定のデータなどを格納したデータ記憶部と、画像処理プログラムなどを格納したプログラム記憶部等を更に含む構成としてもよい。画像データはLAN等の情報処理システムから入力するようにしてもよく、複数の携帯電話や携帯情報端末等から左視点方向画像データと右視点方向画像データを個別にワイヤレスで入力するようにしてもよい。
上記のように、画像処理部17を単独の画像処理装置として機能させる場合、画像以外のデータ等を入力する入力部はキーボード、マウス、ライトペン又はフレキシブルディスク装置などで構成してもよい。入力部より画像処理の実行者は、入出力データを指定したり、特定の画素のデプス情報(距離情報)の誤差の程度を設定したりするようにしてもよい。更に、入力部より出力データの形態等の画像処理パラメータを設定することも可能で、又、画像処理に伴う演算の実行や中止等の指示の入力も可能である。又、出力部及び表示部は、それぞれプリンタ装置及びディスプレイ装置等により構成してもよい。出力部は入出力データや画像処理結果や画像処理パラメータ等を表示し、データ記憶部は入出力データや画像処理パラメータ及びその履歴や演算途中のデータ等を記憶するようにしてもよい。
画像処理部17を単独の画像処理装置として機能させる場合においても、図9や図12に示した一連の機械学習を伴う画像処理の操作は、図9や図12と等価なアルゴリズムのプログラムにより、図1〜図3に示した撮像装置の画像処理部17と等価なハードウェア資源と機能を制御して実行できる。このプログラムは、本発明の画像処理装置が構成するコンピュータシステムのプログラム記憶装置(図示省略)に記憶させればよい。又、このプログラムは、コンピュータ読取り可能な記録媒体に保存し、この記録媒体を画像処理装置のプログラム記憶装置に読み込ませることにより、本発明の一連の機械学習を伴う画像処理の操作を実行することができる。ここで、「コンピュータ読取り可能な記録媒体」とは、例えばコンピュータの外部メモリ装置、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのプログラムを記録することができるような媒体などを意味する。具体的には、フレキシブルディスク、CD−ROM,MOディスク、カセットテープ、オープンリールテープなどが「コンピュータ読取り可能な記録媒体」に含まれる。
画像処理部17を単独の画像処理装置として機能させる場合、例えば、画像処理装置の本体は、フレキシブルディスク装置(フレキシブルディスクドライブ)及び光ディスク装置(光ディスクドライブ)を内蔵若しくは外部接続するように構成できる。フレキシブルディスクドライブに対してはフレキシブルディスクを、又光ディスクドライブに対してはCD−ROMをその挿入口から挿入し、所定の読み出し操作を行うことにより、これらの記録媒体に格納されたプログラムを画像処理装置を構成するプログラム記憶装置にインストールすることができる。又、所定のドライブ装置を接続することにより、例えばROMや、磁気テープ装置としてのカセットテープを用いることもできる。更に、インターネット等の情報処理ネットワークを介して、このプログラムをプログラム記憶装置に格納することが可能である。
既に述べた第1の実施形態の説明においては、検出対象とするオブジェクト(対象物)が人である場合について説明したが例示に過ぎない。人の画像は、衣服の模様や色彩、人の体格、向き、姿勢などの個人差、視点の変化、照明の影響により、見えの変化が大きくなるために第1の実施形態の説明における検出対象として例示するに好適であるためである。しかしながら、本発明の撮像装置や画像処理装置の検出対象は、人のパーツ(人体パーツ)であってもよく、人以外のペット、乗り物、動物等のオブジェクト(対象物)でも、全く同一のフレームワークで適用可能である。その場合も、模様や彩色が多様でオブジェクトクラス内の分散が大きく、クラス間の分散が小さいようなオブジェクト(対象物)に適用すると、デプス情報(距離情報)を用いた本発明の特徴や効果がより有効且つ顕著に発揮できる。したがって、本発明の画像処理方法、画像処理装置、撮像装置は、人以外のオブジェクト(対象物)であっても、多数のオブジェクト(対象物)に共通する特徴を抽出することが難しくなり、その結果、正しくオブジェクト(対象物)を検出することが難しくなるような被撮像物を検出対象とする場合に有利な効果を発揮するものである。
又、既に述べた第1の実施形態の説明においては、RGBの可視光の画像データを機械学習の手法で処理して画像認識する場合を例示的に説明したが可視光に限定されるものではない。本発明の撮像装置や画像処理装置の技術的思想は、赤外線やX線等他の波長領域の電磁波や超音波等を用いた撮像装置や画像処理装置に対しても、これらの他の波長領域の電磁波や超音波等に固有の特徴量を採用して機械学習することにより、適用可能である。その場合、RGBに対応した異なる3つの波長帯域の電磁波や超音波等を用いれば、擬似的なカラー画像を取得することも可能である。
このように、本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。したがって、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
(第2の実施形態)
第2の実施形態に係る撮像装置および画像処理部17は、第1の実施形態に係る撮像装置および画像処理部17と同様の構成を有している(図1、図2、図3参照)。第2の実施形態では、主に、デプスマップの生成を行わずに被写体検出を行う点で、第1の実施形態と異なる。第1の実施形態では、第1特徴抽出回路175aは画像情報から特徴量を抽出し、第2特徴抽出回路175bは距離情報から特徴量を抽出する例について説明した。これに対して、第2の実施形態では、第1特徴抽出回路175aは視差画像データから複数の第1特徴量を抽出し、第2特徴抽出回路175bは複数の第1特徴量から第2特徴量を算出する。第1特徴量および第2特徴量の詳細については後述する。なお、以下の説明において、第1の実施形態と同一である点については説明を省略する。
(画像処理方法)
図19に示すフローチャート及び図20に示す画像データフロー図(DFD)を用いて、第2の実施形態に係る画像処理方法を説明する。
ステップS110において、撮像装置で被写体の像を撮像させ、記憶部14に画像データを格納させる。画像処理部17は、記憶部14から画像データを読み出し、第1視点方向(左視点方向)の視差画像及び第2視点方向(右視点方向)の視差画像を画像情報(撮像情報)として取得する。
ステップS120において、画像処理部17は、ステレオ画像生成処理部172およびカラー画像生成処理部173を用いて、左視点方向の画像情報と右視点方向の画像情報の各々で、色情報も含めて補間処理をする。画像処理部17は、色情報も含めて補間処理をすることで、図20に示すような左視差画像IM21及び右視差画像IM22を、カラー画像のステレオ画像として取得する。なお、輝度情報のみで十分に被写体認識を行うことができる場合は、G面のみを用いて、ステレオ画像を生成するようにしてもよい。カラー情報まで補間するよりも、その方が高速でもある。また、第1の実施形態ではステレオ画像からデプスマップの生成を行ったが、第2の実施形態ではデプスマップの生成を行わない。
ステップS130において、抽出部175の第1特徴抽出回路175aは、左視差画像IM21及び右視差画像IM22の各々から特徴量抽出を行い、モノクロの特徴マップIM24、IM25、IM27及びIM28を生成する。抽出部175は、第1の実施形態の場合と同様に式(1)〜(5)に即した処理等を用いて、色情報等の特徴量を抽出する。第2の実施形態では、視差画像データから抽出される色情報等の特徴量を、低次元特徴量と呼ぶ。低次元特徴量は、例えば色情報、勾配強度の情報、勾配方向ヒストグラム、バイナリパターン情報などの特徴量である。すなわち、抽出部175は、左視差画像IM21及び右視差画像IM22それぞれから低次元特徴を抽出する。エッジ検出された特徴マップIM25およびIM28では、手前側の2人の人物のエッジが白線で明瞭に示されているが、奥の1人の人物のエッジは、上半身の部分がぼんやりしている。生成された特徴マップは、特徴情報記憶装置144に記憶される。ここで、第1の実施形態ではデプスマップから特徴マップの生成を行ったが、第2の実施形態ではデプスマップを用いた特徴マップの生成は行わない。
ステップS140において、画像処理部17は、抽出部175が生成した特徴量マップを用いて機械学習の手法でウィンドウサーチをする。ステップS140における探索処理では、第1の実施形態の場合と同様に、大きさと解像度が異なる各スケールの特徴量マップに対し、矩形の検出ウィンドウ(領域)を用いてウィンドウサーチを実施する。抽出部175の第2特徴抽出回路175bは、各検出ウィンドウにおいて、低次元特徴量を用いて中次元特徴量を生成する。中次元特徴量は、低次元特徴量を用いて算出される特徴量である。より具体的には、中次元特徴量は、少なくとも2つの低次元特徴量を用いて、加算、減算、乗算、除算等の演算を行って算出される。また、抽出される複数の低次元特徴量のうちの最大値または最小値となる低次元特徴量を、中次元特徴量として用いるようにしてもよい。
ステップS150において、検出部176は、網羅的なウィンドウサーチをしながら各検出ウィンドウ内に、被写体が存在しないか識別処理をしていく。検出部176は、低次元特徴量から生成される中次元特徴量と、後述する中次元特徴量を用いた機械学習の結果により、画像データの中の被写体検出を行う。各検出ウィンドウでの探索結果は、探索処理データ記憶装置145に格納する。
ステップS160において、各検出ウィンドウで検出したオブジェクト(対象物)に関し、大きさの異なる全スケールでの全画素の探索が終了したか否かを判定する。ステップS160において、検出部176が全スケールでの全画素の探索が終了していないと判定した場合は、ステップS140に戻り、全スケールでの探索を実行する。ステップS160において、検出部176が全スケールでの全画素の探索が終了したと判定した場合は、探索結果を探索処理データ記憶装置145に格納した後、ステップS170に進む。
ステップS170において、画像処理部17の統合処理部177は、各スケールで検出した検出ウィンドウ(被写体候補ウインドウ)を、統合処理する。統合処理部177は、例えば被写体検出候補ウィンドウを重ね合わせて最終的な検出結果を生成する。検出ウィンドウを統合処理した結果は、図20に示すような最終検出結果画像IM29等として出力画像記憶装置146に格納する。さらに、ステップS170において、画像処理部17の検出結果出力部178は、LCD駆動回路20によって表示部19に最終検出結果の画像IM29を出力させる。図20の最終検出結果画像IM29は、本来カラー画像であるが、線画で画像IM29を表現しているので最終検出結果の特徴が不明瞭になっているが、図20において、太い黒い線(帯)で示した3つの矩形の枠は、検出されたオブジェクトを示す物体検出枠である。
検出部176による識別処理の具体例を、図21に示す例を用いて説明する。図21は、深さ2の増強ツリー(決定木)が、カスケード状に1024段直列に接続した状態を例示するものである。図21に示すように、各増強決定木の各ノードに、中次元特徴値と閾値Th0,Th1,Th2、及びスコア(-1.2,1.2);(-0.4,0.4)が紐づけられている。特徴量選択部176cが選択した中次元特徴量が、特徴量閾値選択部176dが選択した閾値Th0,Th1,Th2より大きいか小さいかで参照すべきノードが決定される。この直列接続された判別器のそれぞれにおいて、ノードの末端まで到達したスコアを積算(加算)し、次の判別器の増強決定木でも積算していく。この積算したスコアが0以下になった時点で、その検出ウィンドウ(領域)での探索を終了する。
中次元特徴は、大元の低次元特徴の(Color, GradMag, HOG等)から生成される。図21に示すように、例えば、2枚の視差画像から生成された特徴マップから、被写体判別性のよい低次元特徴量のペアが選択される。図21の右上に示すように、それら2つの特徴値の単純演算の結果を中次元特徴とする。これにより視差情報を含めた、2枚の画像間の共起性を検出器に組み込むことができる。このとき、2つの特徴ペアのみでなく、中次元特徴の生成関数も被写体識別が良いものを選ぶようにする。つまり厳密には、決定木の各ノードに対応付けられているものは、特徴のペア、中次元特徴を生成する関数(図21ではf0,f1,f2)、および閾値である。図21において、中次元特徴量の生成関数fiの入力X及びYは、Color, GradMag, HOG等のいずれかの低次元特徴量である。また、X及びYの添え字a及びbは、左視差画像及び右視差画像のうちのいずれかを示す。
同一の光学系から得られた視差画像を用いた場合やステレオカメラを用いた場合は、2枚の左/右視差画像間のデプスマップは水平方向のずれ量に対応する。第2の実施形態では、このずれ量を大まかに推定し被写体認識に利用するプロセスそのものを、機械学習の中に組み込む。第2の実施形態では、上述したように、特徴選択をする際に、左、右視差画像から少なくとも2点以上の特徴を選択し、それらを用いて演算を行うことで中次元特徴を生成する。中次元特徴は、例えば左、右視差画像から抽出される低次元特徴を用いて生成されるため、視差画像データにおけるそれぞれの被写体像間のずれ量に基づく特徴量となる。第2の実施形態に係る画像処理装置では、中次元特徴値を用いて被写体判別を実施することで、デプスマップ生成プロセスを省略することができる。
−−アダブーストによる機械学習−−
図22に示すフローチャートに記載された手順を参照しながら、第2の実施形態に係る検出部176を用いたアダブーストによる増強決定木の作成手順と、その統計的学習の手法に必要なアルゴリズムを説明する。
ステップS210において、検出部176の画像入力部176aは、正解画像と不正解画像の画像群を入力し、それぞれの画像から低次元特徴量を抽出する。正解画像と不正解画像の画像群、および抽出された特徴量は、探索処理データ記憶装置145に記憶させる。
ステップS220において、検出部176の重み初期化部176bは、アダブーストの機械学習の分類に用いるすべての画像サンプルの重みを初期化して均一化する。初期化された重みは、探索処理データ記憶装置145に格納する。
ステップS230において、検出部176の特徴量選択部176cは、探索処理データ記憶装置145から正解画像と不正解画像の特徴量を読み出し、ランダムに正解画像と不正解画像から低次元特徴量のペアを選択する。
ステップS240において、特徴量選択部176cは、ランダムに低次元特徴量のペアから中次元特徴を生成する関数を選択する。さらに、特徴量選択部176cは、生成された中次元特徴のそれぞれの分類効率を算出する。算出した分類効率は、探索処理データ記憶装置145に格納する。
ステップS250において、検出部176の特徴量閾値選択部176dは、正解画像と不正解画像がより良く分類されるように最も分類効率の高い中次元特徴量と、その中次元特徴量の算出に用いた低次元特徴ペア、中次元特徴量の生成関数、および閾値を選択する。閾値は、正解画像と不正解画像を分類するための中次元特徴量の閾値等である。選択された最も分類効率の高い特徴量とそのときの閾値等は、探索処理データ記憶装置145に格納する。このように、第2の実施形態に係る機械学習の学習プロセスにおいては、正解画像/不正解画像判別に有用な特徴ペア、中次元特徴の生成関数等が自動的に選択される。
ステップS260において、検出部176の重み更新部176eは、うまく識別できなかったサンプルの重みを増大させて、分類させるときに用いる重みを更新する。更新された分類の重みは、探索処理データ記憶装置145に格納する。
ステップS270において、検出部176の決定木数判定部176fは、予定の決定木の数分が生成されたかを判定する。ステップS270で予定の決定木の数分が生成されたと判定された場合はステップS280に進む。ステップS270で予定の決定木の数分が生成されていないと判定された場合は、ステップS230に戻る。
ステップS280において、検出部176のデータセット更新部176gは、識別処理が困難な不正解画像サンプルを、「識別困難画像サンプル」として抽出して、データセットを更新する。更新されたデータセットは、探索処理データ記憶装置145に格納する。
ステップS290において、決定木数判定部176fは、分類エラーが閾値以下であるかを判定する。ステップS290で分類エラーが閾値以下であると判定された場合は、探索結果を探索処理データ記憶装置145に格納した後、図21に示すフローチャートの処理を終了する。ステップS290で分類エラーが閾値以下ではないと判定された場合は、ステップS220に戻り、新たなデータセットを用いて、機械学習の分類に用いるすべてのサンプルの重みを初期化して均一化する。
第2の実施形態に係る機械学習により生成した検出器による、被写体検出の実験結果を図23の実線として示す。図23は、人物シーンに対して上半身認識実験を行い、実験結果であるDETカーブを示したものである。横軸が画像一枚当たりの誤検出率(False Positive Per Image:FPPI) であり、縦軸が未検出率(Miss Rate)である。
図23において、破線は、デプス情報を用いずにカラー情報のみで対象物検出を行う画像処理方法により被写体検出を行った場合のDETカーブである。実線は、視差画像を用いる第2の実施形態に係る画像処理方法により被写体検出を行った場合のDETカーブである。破線で示したカラー情報のみを用いて被写体検出を行った場合は、全体の面積に対するDET曲線の下の面積の比率は66%である。これに対して、実線で示した第2の実施形態による画像処理方法を用いて被写体検出を行った場合は、全体の面積に対するDET曲線の下の面積の比率は51%である。よって、第2の実施形態による画像処理方法の方が被写体認識の性能がよくなっていることが分かる。第2の実施形態による画像処理方法では、カラー情報のみによる被写体検出から15%も被写体認識の性能が向上している。第2の実施形態によるアルゴリズムを用いた場合の被写体認識の性能は、現状において、カラー情報だけを用いたアルゴリズムによる被写体検出の中の世界トップレベルに匹敵する性能である。
上述した実施形態によれば、次の作用効果が得られる。
(1)画像処理部17(画像処理装置)は、被写体を撮像した視差画像データから複数の第1特徴量を抽出する第1特徴抽出回路175a(第1特徴量抽出部)と、第1特徴抽出回路175aにより抽出された複数の第1特徴量から第2特徴量を算出する第2特徴抽出回路175b(第2特徴量算出部)と、第2特徴抽出回路175bにより算出された第2特徴量と機械学習の結果とにより、被写体を撮像した画像データ中の対象物の検出を行う検出部176と、を備える。第2の実施形態では、画像処理部17は、視差画像データから低次元特徴量を抽出し、低次元特徴量から算出される中次元特徴量を用いて被写体検出を行う。このようにしたので、図23に示すように被写体を高精度に検出することができる。
(2)中次元特徴量は、視差画像データにおけるそれぞれの被写体像間のずれ量に基づく特徴量となる。このため、第1の実施形態で示したようなデプスマップ生成プロセスを省略することができる。また、デプスマップの生成をしないことで、演算コストの低減、処理全体の高速化を図ることができる。
(3)視差画像データは、1つの光学系により撮像した視差画像データである。このため、画像処理部17は、被写体像間のずれ量に基づく中次元特徴量を算出し、中次元特徴量を用いて被写体検出を行うことができる。
(4)第1特徴抽出回路175aは、第1特徴量として、視差画像データから色に関する特徴量、輝度に関する特徴量のうちの少なくとも一つを抽出する。このようにしたので、色情報、勾配強度の情報、勾配方向ヒストグラム、バイナリパターン情報などの低次元特徴量を用いて、中次元特徴量を算出することができる。
(5)第2特徴抽出回路175bは、少なくとも2つの第1特徴量を用いて、加算、減算、乗算、除算のうちのいずれかの演算を行うことで、第2特徴量を算出する。第2の実施形態では、2つの低次元特徴量の単純演算の結果を中次元特徴量とする。このため、被写体判別を高速に行うことができる。
(6)第2特徴抽出回路175bは、複数の第1特徴量において最大値または最小値となる第1特徴量を第2特徴量とする。中次元特徴が比較的単純な方法によって生成されるため、被写体判別を高速に行うことができる。
(7)機械学習の結果は、複数の第2特徴量を用いた機械学習の結果を有する。検出部176は、第2特徴量と複数の第2特徴量を用いた機械学習の結果とにより、対象物の検出を行う。第2の実施形態では、第2特徴量を用いて機械学習を行い、分類効率の高い特徴量を選択して被写体検出器を構築する。第2特徴量と構築した被写体検出器を用いることにより、被写体を高精度に検出することができる。