JP6916415B2

JP6916415B2 - 画像処理装置、撮像装置

Info

Publication number: JP6916415B2
Application number: JP2016132798A
Authority: JP
Inventors: 悠一伊藤
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2021-08-11
Anticipated expiration: 2036-07-04
Also published as: JP2018007078A

Description

本発明は画像処理装置、撮像装置に関する。

左視点方向画像と右視点方向画像を取得する撮像手段とを備えて、立体画像を取得する立体撮像装置が知られている（特許文献１参照）。従来の立体撮像装置で得た視差画像だけを用いて被写体の検出を行った場合に、被写体が検出できない場合があるという問題があった。

特開２０１１−１９９７５５号公報

第１の態様による画像処理装置は、被写体を撮像した視差画像データから複数の第１特徴量を抽出する第１特徴量抽出部と、前記第１特徴量抽出部により抽出された前記複数の第１特徴量から第２特徴量を算出する第２特徴量算出部と、対象物と前記対象物の前記第２特徴量との機械学習の結果と、前記第２特徴量算出部により算出された前記第２特徴量とにより、前記被写体を撮像した画像データ中の対象物の検出を行う検出部と、を備え、前記第２特徴量算出部は、少なくとも２つの前記第１特徴量を用いて、加算、減算、乗算、除算のうちのいずれかの演算を行うことで、前記第２特徴量を算出する。

第２の態様による画像処理装置は、被写体を撮像した視差画像データから複数の第１特徴量を抽出する第１特徴量抽出部と、前記第１特徴量抽出部により抽出された前記複数の第１特徴量から第２特徴量を算出する第２特徴量算出部と、対象物と前記対象物の前記第２特徴量との機械学習の結果と、前記第２特徴量算出部により算出された前記第２特徴量とにより、前記被写体を撮像した画像データ中の対象物の検出を行う検出部と、を備え、前記第２特徴量算出部は、前記複数の第１特徴量において最大値または最小値となる前記第１特徴量を前記第２特徴量とする。

第３の態様による画像処理方法は、被写体を撮像した視差画像データから複数の第１特徴量を抽出する第１特徴量抽出部と、前記第１特徴量抽出部により抽出された前記複数の第１特徴量から第２特徴量を算出する第２特徴量算出部と、前記第２特徴量により前記被写体を撮像した画像データ中の対象物の検出を行う検出部と、を備え、前記第２特徴量算出部は、少なくとも２つの前記第１特徴量を用いて、加算、減算、乗算、除算のうちのいずれかの演算を行うことで、前記第２特徴量を算出する。

第４の態様による画像処理装置は、被写体を撮像した視差画像データから複数の第１特徴量を抽出する第１特徴量抽出部と、前記第１特徴量抽出部により抽出された前記複数の第１特徴量から第２特徴量を算出する第２特徴量算出部と、前記第２特徴量により前記被写体を撮像した画像データ中の対象物の検出を行う検出部と、を備え、前記第２特徴量算出部は、前記複数の第１特徴量において最大値または最小値となる前記第１特徴量を前記第２特徴量とする。

第５の態様による撮像装置は、撮像光学系を介して、被写体の視差画像データと前記被写体の画像データとを撮像する撮像素子と、前記視差画像データから複数の第１特徴量を抽出する第１特徴量抽出部と、前記第１特徴量抽出部により抽出された前記複数の第１特徴量から第２特徴量を算出する第２特徴量算出部と、前記第２特徴量により、前記画像データ中の対象物の検出を行う検出部と、を備え、前記第２特徴量算出部は、少なくとも２つの前記第１特徴量を用いて、加算、減算、乗算、除算のうちのいずれかの演算を行うことで、前記第２特徴量を算出する。
第６の態様による撮像装置は、撮像光学系を介して、被写体の視差画像データと前記被写体の画像データとを撮像する撮像素子と、前記視差画像データから複数の第１特徴量を抽出する第１特徴量抽出部と、前記第１特徴量抽出部により抽出された前記複数の第１特徴量から第２特徴量を算出する第２特徴量算出部と、前記第２特徴量により、前記画像データ中の対象物の検出を行う検出部と、を備え、前記第２特徴量算出部は、前記複数の第１特徴量において最大値または最小値となる前記第１特徴量を前記第２特徴量とする。

本発明の第１の実施形態に係る撮像装置の主要部の概略を模式的に説明するブロック図である。第１の実施形態に係る撮像装置に用いられる画像処理部の論理的なハードウェア構成における主要部の概略を模式的に説明するブロック図である（図２の画像処理部が単独のデバイスとして機能するときは、「画像処理装置」の称呼が付与される。）。図２に示した画像処理部（画像処理装置）を構成する検出部の論理的なハードウェア構成の詳細を説明するブロック図である。第１の実施形態に係る撮像装置に用いられる撮像素子の一部の構造の概略を模式的に説明する断面図である。図４に示した撮像素子に設けられる繰り返しパターン（周期的な配列パターン）が光軸の中心にある場合で、繰り返しパターンを構成する各光電変換素子と、この各光電変換素子のそれぞれに到達する被写体光束との関係から、視差画像が形成される原理を説明する模式図である（撮影レンズが合焦状態に存在する被写体を捉えている場合。）。撮像素子の繰り返しパターンが光軸の中心から離れた位置にある場合で、繰り返しパターンを構成する各光電変換素子と、この各光電変換素子のそれぞれに到達する被写体光束との関係から、視差画像が形成される原理を説明する模式図である（撮影レンズが合焦状態に存在する被写体を捉えている場合。）。撮像素子に設けられる繰り返しパターンを構成する各光電変換素子と、この各光電変換素子のそれぞれに到達する被写体光束との関係から、視差画像が形成される原理を説明する模式図である（撮影レンズが非合焦状態に存在する被写体を捉えている場合。）。図４に示した撮像素子に設けられる繰り返しパターンの一例を説明する平面図である。本発明の第１の実施形態に係る画像処理方法の概略を説明するフローチャートである。図９のフローチャートに対応する、第１の実施形態に係る画像処理方法の概略を説明する画像データフロー図である。第１の実施形態に係る画像処理方法の説明としての、各スケールでウィンドウサーチによる探索処理を示す図である。第１の実施の形態に係る画像処理方法に用いるアダブーストの機械学習プロセスとしての、増強決定木の作成手順を説明するフローチャートである。アダブーストの機械学習プロセスに用いる深さ２の増強ツリー（決定木）を説明する図である。図１３に示した増強ツリー（決定木）が、カスケード状に１０２４段直列に接続した状態を説明する模式図である。第１の実施の形態に係る画像処理方法において、検出部に入力される正解画像と不正解画像の画像群の例を説明する模式図である。第１の実施の形態に係る画像処理方法による実験結果（破線）を、実線で示したＲＧＢ情報のみからなる検出結果と共に示す検出エラー・トレードオフ（ＤＥＴ）曲線である。図１７（ａ）は、ＲＧＢ情報のみによってサッカー選手を検出した結果を比較例として示す図であり、図１７（ｂ）は、図１７（ａ）と同一のシーンを、第１の実施の形態に係る画像処理方法によって取得した結果を物体検出枠と共に示す図である。図１８（ａ）は、比較のために、デプス面の情報を伴わないで対象物を検出した結果を撮像装置の画面（表示部）に表示する態様を示す図である。図１８（ｂ）は、第１の実施の形態に係る画像処理方法により得られたデプス面の情報を可視化して、撮像装置の画面に表示する場合の一例を示す図である。図１８（ｃ）は、第１の実施の形態に係る画像処理方法により得られたデプスマップを撮像装置の画面に表示した態様を示す図である。本発明の第２の実施形態に係る画像処理方法の概略を説明するフローチャートである。図１９のフローチャートに対応する、第２の実施形態に係る画像処理方法の概略を説明する画像データフロー図である。第２の実施形態に係る画像処理方法に用いるアダブーストの機械学習プロセスに用いる決定木を説明する図である。第２の実施形態に係る画像処理方法に用いるアダブーストの機械学習プロセスとしての、増強決定木の作成手順を説明するフローチャートである。第２の実施形態に係る画像処理方法による実験結果（実線）を、破線で示したＲＧＢ情報のみからなる検出結果と共に示すＤＥＴ曲線である。

（第１の実施形態）
次に、図面を参照して、本発明の第１の実施形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。但し、図面は模式的なものであり、厚みと平面寸法との関係、各層の厚みの比率等は現実のものとは異なることに留意すべきである。したがって、具体的な厚みや寸法は以下の説明を参酌して判断すべきものである。又、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることは勿論である。

又、以下に示す第１の実施形態は、本発明の技術的思想を具体化するための装置や方法を例示するものであって、本発明の技術的思想は、構成部品の材質、形状、構造、配置等を下記のものに特定するものでない。本発明の技術的思想は、特許請求の範囲に記載された請求項が規定する技術的範囲内において、種々の変更を加えることができる。

特に、以下の第１の実施形態の説明では、便宜上図２や図３に示した画像処理部１７が、図１に示した撮像装置の構成要素として説明されるが、例示に過ぎない。ステレオ画像を取得するために２台以上の撮像装置を用いる手法、タイムオブフライト（ＴＯＦ）型イメージセンサを使う撮像装置、或いは赤外光の反射の角度から距離を計算するパターン照射の手法を用いた撮像装置等、図１に示した構成以外の種々の撮像装置や撮像システムの一部として、図２等に示した画像処理部１７と実質的に同一又は等価かつ均等な機能を有する画像処理部が採用可能である。又、図２等に示した画像処理部１７は、孤立したデバイスや汎用の画像処理装置として機能させることも可能である。この場合は、図２等に示した画像処理部１７は、単独の「画像処理装置」として機能することになる。

（撮像装置の構成）
本発明の第１の実施形態に係る撮像装置は、図１に例示的に示すように、単一の撮像光学系（１１，３２）と、撮像光学系（１１，３２）の光軸に沿って入射する被写体の像を撮像する撮像素子１２ａと、撮像素子１２ａから出力された画像データをデジタルデータに変換するＡ／Ｄ変換回路１３と、Ａ／Ｄ変換回路１３がデジタルデータに変換した画像データを格納する記憶部１４と、記憶部１４から画像データを受信する制御部１６と、制御部１６を介して画像データを受信して画像データを処理する受信する画像処理部１７と、制御部１６に接続された駆動部１５、メディアコントローラ等のメモリカード・インターフェイス２３、操作部２１、ＬＣＤ駆動回路２０、モータドライバ３１ｂ，３１ｃ，３１ｄ、ストロボ制御回路３６及びオートフォーカス（ＡＦ）センサ１８を備える。ＬＣＤ駆動回路２０にはＬＣＤからなる表示部１９が接続され、ストロボ制御回路３６にはストロボ装置３５が接続されている。

第１の実施形態に係る撮像装置の制御部１６は、制御部１６に接続された画像処理部１７、駆動部１５、記憶部１４，メモリカード・インターフェイス２３、操作部２１、ＬＣＤ駆動回路２０、ＡＦセンサ１８、モータドライバ３１ｂ，３１ｃ，３１ｄ、ストロボ制御装置のそれぞれの動作や処理を制御する命令や電気信号を出力する。図示を省略しているが、制御部１６には、画像処理部１７、駆動部１５、記憶部１４，メモリカード・インターフェイス２３、操作部２１、ＬＣＤ駆動回路２０、ＡＦセンサ１８、モータドライバ３１ｂ，３１ｃ，３１ｄ、ストロボ制御装置のそれぞれの動作をそれぞれ実行させる命令出力回路の他、オートホワイトバランス（ＡＷＢ）調整を施すＷＢ調整命令出力回路等の種々の論理回路等が論理的なハードウェア資源として組み込まれている。

撮像光学系（１１，３２）を構成する撮影レンズ１１は、図１に示すように、主レンズ１１ａと、主レンズ１１ａに隣接したズームレンズ１１ｂと、ズームレンズ１１ｂに隣接したフォーカスレンズ１１ｃとを備える。ズームレンズ１１ｂにはズームモータ３０ｂが、フォーカスレンズ１１ｃにはフォーカスモータ３０ｃが接続されている。フォーカスレンズ１１ｃと撮像素子１２ａの間には撮像光学系（１１，３２）を構成する絞り３２が配置されている。例えば、５枚の絞り羽根からなる絞り３２には、絞り羽根を駆動するアイリスモータ３３が接続されている。ズームモータ３０ｂ、フォーカスモータ３０ｃ及びアイリスモータ３３はステッピングモータからなり、制御部１６に接続されたモータドライバ３１ｂ，３１ｃ，３１ｄから送信される駆動パルスにより動作制御され、レリーズボタン等の操作部２１からの信号により撮像準備処理を行う。ズームモータ３０ｂは、ズームレンズ１１ｂを例えば１３段階でワイド側又はテレ側に移動させ、撮影レンズ１１のズーミングを行う。フォーカスモータ３０ｃは、被写体距離やズームレンズ１１ｂの変倍に応じてフォーカスレンズ１１ｃを移動させ、撮像条件が最適となるように撮影レンズ１１の焦点調整を行う。アイリスモータ３３は、絞り３２の絞り羽根を動作させて絞り３２の開口面積を変化し、例えば、絞り値Ｆ２．８〜Ｆ１１まで１ＡＶ刻みで５段階に撮影レンズ１１の露光調整を行う。撮影レンズ１１は図１に例示する構成に限定されるものではなく、例えば、撮像装置に対して着脱できる交換式レンズであっても構わない。撮影レンズ１１は、主レンズ１１ａ、ズームレンズ１１ｂ及びフォーカスレンズ１１ｃ等の複数の光学レンズ群から構成されることにより、被写体光束をその焦点面近傍に配置された撮像素子１２ａの表面に結像させる。

シリコン（Ｓｉ）等の半導体チップからなる撮像素子１２ａは、ガラスやセラミックからなるチップ搭載基板（パッケージ基板）１２ｂに搭載されている。撮像素子１２ａには、タイミングジェネレータ（ＴＧ）３４が接続され、タイミングジェネレータ３４は駆動部１５を介して制御部１６に接続されている。制御部１６から駆動部１５を介して送られる信号により、タイミングジェネレータ（ＴＧ）３４がタイミング信号（クロックパルス）を発生し、タイミング信号はチップ搭載基板１２ｂを介して撮像素子１２ａを構成する半導体チップ上に周辺回路として設けられた駆動回路からの電子シャッタ用信号として各行のピクセルに送られる。即ち制御部１６は駆動部１５を介してタイミングジェネレータ３４を制御し、撮像素子１２ａの電子シャッタのシャッタ速度を制御する。なお、タイミングジェネレータ３４は、撮像素子１２ａを構成する半導体チップ上の周辺回路として、モノリシックに集積化しても構わない。

撮像素子１２ａを構成する半導体チップの中央の画素エリアから出力された撮像信号は、半導体チップの周辺部に周辺回路として設けられた相関二重サンプリング回路（ＣＤＳ）に入力され、撮像素子１２ａの各ピクセルの蓄積電荷量に正確に対応したＲ、Ｇ、Ｂの画像データとして撮像素子１２ａから出力される。撮像素子１２ａから出力された画像データは、図示を省略した増幅器で増幅され、Ａ／Ｄ変換回路１３でデジタルデータに変換される。

撮像素子１２ａは、二次元マトリクス状に配列された複数の光電変換素子を画素として有するイメージセンサである。撮像素子１２ａとしては、例えばＣＣＤイメージセンサ、ＣＭＯＳイメージセンサ等が採用可能である。撮像素子１２ａは、駆動部１５によりタイミング制御されて、撮像素子１２ａの受光面上に結像された被写体像を画像信号に変換してＡ／Ｄ変換回路１３へ出力する。

第１の実施形態に係る撮像装置の画像処理部１７は、図２に示すように、図１の撮像光学系（１１，３２）を通して被写体が撮像された、第１及び第２視点方向の視差画像データ並びに非視差画像データを取得する画像取得部１７１と、第１及び第２視点方向の視差画像データからステレオ画像を生成する処理を実行するステレオ画像生成処理部１７２と、非視差画像データからカラー画像を生成する処理を実行するカラー画像生成処理部１７３と、撮像光学系（１１，３２）を通して被写体が撮像された第１及び第２視点方向の視差画像データから被写体の視差画像の撮像位置からの距離情報を算出する算出部１７４と、非視差画像データと距離情報のそれぞれから特徴量を抽出する抽出部１７５と、抽出された特徴量と階層的な機械学習（統計的学習手法）の結果による探索処理を実行して対象物検出をする検出部１７６と、検出部１７６が実行した各スケールで検出した被写体候補ウィンドウを、全スケールでの探索終了後に統合処理を実行する統合処理部１７７と、統合処理された結果を検出結果として出力する処理を実行する検出結果出力部１７８とを論理構成を示すハードウェア資源として備える。なお、本明細書では、第１視点方向と第２視点方向の間で立体的な視差が生じている画像を「視差画像」、異なる視点方向の間の視差が生じていない画像を「非視差画像」と呼び、対応するそれらのデータを、それぞれ「視差画像データ」、視差が生じていない画像を「非視差画像データ」と呼ぶ。

図示を省略しているが、第１の実施形態に係る撮像装置の画像処理部１７は、ホワイトバランス調整に用いるＷＢ制御量を算出するＷＢ制御量演算回路、画面全体のＧ信号を積算し、又は画面中央部と周辺部とで異なる重みづけをしたＧ信号を積算し、その積算値を出力する自動露出（ＡＥ）検出用論理演算回路、ＡＥ検出用論理演算回路が出力した積算値からＡＥに必要な被写体の明るさ（撮影Ｅｖ値）を算出する撮影Ｅｖ値算出回路、更には、階調変換処理回路、ホワイトバランス補正処理回路、γ補正処理回路等の、各種画像処理や画像処理に伴う演算を画像データに対し施す種々の論理回路（ハードウェア・モジュール）を、論理構成上のハードウェア資源として備えることも可能である。

第１の実施の形態に係る画像処理部１７は、画像処理エンジン等があれば実現可能である。又、特徴量生成や識別処理に演算負荷が高い場合、ハードウェアに実装してもよい。例えば、マイクロチップとして実装されたマイクロプロセッサ（ＭＰＵ）等を使用してコンピュータシステムで画像処理部１７を構成することも可能である。又、コンピュータシステムを構成する画像処理部１７として、算術演算機能を強化し信号処理に特化したデジタルシグナルプロセッサ（ＤＳＰ）や、メモリや周辺回路を搭載し組み込み機器制御を目的としたマイクロコントローラ（マイコン）等を用いてもよい。或いは、現在の汎用コンピュータのメインＣＰＵを画像処理部１７に用いてもよい。

更に、画像処理部１７の一部の構成又はすべての構成をフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）のようなプログラマブル・ロジック・デバイス（ＰＬＤ）で構成してもよい。更に、画像処理部１７は、ＣＰＵコア風のアレイとＰＬＤ風のプログラム可能なコアを同じチップに搭載した構造でもよい。このＣＰＵコア風のアレイは、予めＰＬＤ内部に搭載されたハードマクロＣＰＵと、ＰＬＤの論理ブロックを用いて構成したソフトマクロＣＰＵを含む。つまりＰＬＤの内部においてソフトウェア処理とハードウェア処理を混在させた構成でもよい。したがって、画像処理部１７を構成する画像取得部１７１、ステレオ画像生成処理部１７２、カラー画像生成処理部１７３、算出部１７４、抽出部１７５、検出部１７６等はソフトウェアプログラム上の仮想的なハードウェア資源として存在しても、実際のゲートアレイとしてのハードウェア資源としても存在しうる。

そして、第１の実施形態に係る撮像装置の画像処理部１７は、図２に示すように、ステレオ画像記憶装置１４１と、カラー画像記憶装置１４２と、距離情報記憶装置１４３と、特徴情報記憶装置１４４と、探索処理データ記憶装置１４５と、出力画像記憶装置１４６とを更に備える。画像処理部１７は、図１に示した記憶部１４、図２に示したステレオ画像記憶装置１４１と、カラー画像記憶装置１４２と、距離情報記憶装置１４３と、特徴情報記憶装置１４４と、探索処理データ記憶装置１４５をワークスペースとして種々の画像処理を施し、画像データを生成し、生成された画像データは出力画像記憶装置１４６に格納される。

画像処理部１７の一部の構成又はすべての構成をＦＰＧＡのようなＰＬＤで構成した場合は、ステレオ画像記憶装置１４１、カラー画像記憶装置１４２、距離情報記憶装置１４３、特徴情報記憶装置１４４、探索処理データ記憶装置１４５及び出力画像記憶装置１４６等は、ＰＬＤを構成する論理ブロックの一部に含まれる記憶部ブロック等のメモリ要素として構成することができる。即ち、図２に示したステレオ画像記憶装置１４１、カラー画像記憶装置１４２、距離情報記憶装置１４３、特徴情報記憶装置１４４、探索処理データ記憶装置１４５及び出力画像記憶装置１４６等は、個別の半導体記憶装置の一部を占めるワーキング記憶部として存在してもよく、記憶部14の一部の記憶領域を利用して存在してもよい。或いは、図示を省略したＨＤＤ等の他のメモリを用いた仮想記憶部として存在してもよく、ＰＬＤを構成する論理ブロックの一部に含まれるメモリブロック等として存在してもよい。又、出力画像記憶装置１４６はメモリカード・インターフェイス２３を介して着脱可能に接続されるメモリカード２２で構成してもよい。

図２に示した第１の実施形態に係る撮像装置の算出部１７４は、撮像光学系（１１，３２）を通して撮像された第１視点方向の視差画像、及び第２視点方向の視差画像を用いて、第１視点方向の視差画像と第２視点方向の視差画像の間の視差量を算出し、距離情報を生成する。算出部１７４は、通常のデプス生成に用いられる手法と同様のオプティカルフローベースの手法であるブロックマッチング法又は勾配法等を用いて、撮像光学系（１１，３２）を通して同時に撮像された第１視点方向の視差画像、及び第２視点方向の視差画像を用いることができる。勾配法としては、逐次近似フィルタを用いた全変分法等の他、ルーカス・カナデ(Lucas-Kanade)法やホーン・シャンク(Horn-Shunck）法等が採用可能である。

又、抽出部１７５は、図２に示すように、画像情報から特徴量を抽出する第１特徴抽出回路１７５ａと、距離情報から特徴量を抽出する第２特徴抽出回路１７５ｂとを備える。第１特徴抽出回路１７５ａがカラー画像から抽出する特徴量（局所特徴量）としては、一般被写体認識に用いられるＲＧＢ表色系，ＹＣＣ表色系，ＨＳＶ表色系、或いはＣＩＥが定めるＬＵＶ表色系やＬＡＢ表色系等の色情報、勾配強度（ＧＭ）の情報、勾配方向ヒストグラム（ＨＯＧ）の情報が採用される。入力画像を複数のピクセル（画素）に分割した場合において、ＧＭは、あるピクセルの輝度値をI(x, y) としたとき、

ｆ_x(x,y)=I(x+1,y)-I(x-1,y) ........（１）
ｆ_y(x,y)=I(x,y+1)-I(x,y-1) ........（２）

と、勾配ｆ_x(x,y)及び勾配ｆ_y(x,y)の強度を定義する。そして、ｘ，ｙ方向の勾配ｆ_x(x,y)，勾配ｆ_y(x,y)からエッジの強度の値として、

ＧＭ=(ｆ_x(x,y)² +ｆ_y(x,y)²)^1/2...........（３）

で、ＧＭが与えられる。輝度差が高いほどＧＭの値が高い。

ＨＯＧは、以下の式（４）でｆ_y(x,y)／ｆ_x(x,y)の比からエッジである勾配の向く角度θ(x,y)を算出した場合において、式（５）が与える角度θ(x,y)が属するビン(bin)の領域内での要素数のヒストグラムである。人の形状は，手足の動きや姿勢などの見えの変化が激しいという問題がある。このような局所的な変化を吸収するように，できるだけ共通した情報を抽出するＨＯＧは、局所的な形状変化や照明変動に頑健な特徴量である。例えば、０°から１８０°までを２０°ずつ、９方向に分割してヒストグラムを作成すればよい。式（５）では、あるビンの数ｋに属する方向成分θ'をクロネッカー(Kronecker)のデルタ関数δ(θ'=k)で表現して、微小領域内で積算することを表現している：

θ(x,y)=arctan(ｆ_y(x,y)/ｆ_x(x,y)) .....（４）
HOG(k) = Σδ(θ'=k)， k∈{1,2,...,K) ...（５）

以上のように、第１特徴抽出回路１７５ａは、式（１）〜（５）を用いて、色特徴、勾配強度特徴、勾配方向特徴の内少なくとも一つを局所特徴量として抽出する。

一方、第２特徴抽出回路１７５ｂは、入力画像を被写体の撮像位置からの距離を輝度で表した画像データであるデプスマップとして、デプス情報（距離情報）に対しても、式（６）〜（１０）に示すように、同様の演算が可能である。即ち、デプス情報（距離情報）の勾配強度（ＧＭ_D）は、あるピクセルのデプスをD(x, y) としたとき、以下の式（６）でｄ_x(x,y)を、式（７）でｄ_y(x,y)を定義する：

ｄ_x(x,y)=D(x+1,y)-D(x-1,y) ........（６）
ｄ_y(x,y)=D(x,y+1)-D(x,y-1) ........（７）

式（６），（７）のようにｄ_x(x,y)及びｄ_y(x,y)の強度を定義すると、ｘ，ｙ方向でエッジ検出したデプス情報（距離情報）のエッジの強度である勾配強度ＧＭ_Dが、

ＧＭ_D= (ｄ_x(x,y)² +ｄ_y(x,y)²)^1/2...........（８）

で与えられる。

そして、デプス情報（距離情報）のエッジの方向のヒストグラムである勾配方向ヒストグラムＨＯＧ_Dを算出するためには、先ず、以下の式（９）でｄ_y(x,y)／ｄ_x(x,y)の比から勾配の向く角度θ_D(x,y)を算出する。そして、角度θ_D(x,y)が属するビン(bin)の領域内での要素数のヒストグラムを式（１０）で算出すればよい。式（１０）では、あるビンの数ｋに属する方向成分θ_D'をクロネッカーのデルタ関数δ(θ_D'=k)で表現して微小領域内で積算してデプス情報（距離情報）のHOG_D(k)を求めていることを表現している：

θ_D(x,y)=arctan(ｄ_y(x,y)/ｄ_x(x,y)) .....（９）
HOG_D(k) = Σδ(θ_D'=k)， k∈{1,2,...,K_D) ...（１０）

デプス情報（距離情報）を用いた認識の場合、有用なのは、オブジェクト（対象物）背景間の視差量であるので、第１の実施形態に係る撮像装置の画像処理部１７では、デプス情報（距離情報）の勾配強度ＧＭ_Dやデプス情報（距離情報）の勾配方向ヒストグラムＨＯＧ_D等の特徴量が意味をなす。つまり、第１の実施形態に係る画像処理部１７の第２特徴抽出回路１７５ｂは、デプスマップ固有の特徴量演算を第１特徴抽出回路１７５ａが実行するカラー画像の特徴量演算部分と共用化できるので、第２特徴抽出回路１７５ｂがデプスマップ固有の特徴量演算部分となるハードウェア資源を別に設ける必要はない。

第１の実施形態に係る画像処理部１７の第２特徴抽出回路１７５ｂにおけるデプスマップからの演算処理は、基本的に第１特徴抽出回路１７５ａが実行するカラー画像に対する演算処理と同様であるが、式（１０）の勾配方向ヒストグラムＨＯＧ_Dにおいて設定するヒストグラムのビン数ｋは、式（５）のカラー画像の場合と異なった値でよい。最も認識性能が出るビン数は画像の表現力と関係するためである。いずれにせよ、第２特徴抽出回路１７５ｂは、式（６）〜（１０）を用いて、奥行の特徴量、奥行差の特徴量の内少なくとも一つを抽出する。

図２に示した画像処理部１７の検出部１７６は、抽出された複数の特徴量を組み合わせて、画像中の探索点毎にオブジェクト（対象物）（正解画像）と非オブジェクト（非対象物）（不正解画像）の判別を機械学習の手法（統計的学習手法）で行う。検出部１７６における対象物と非対象物の判別に用いる機械学習にはアダブースト(Adaboost：適応的なブースト）やサポートベクターマシン（ＳＶＭ）等の識別器が好適である。又、複数の特徴の内対象物と非対象物の判別率の高い個々の特徴、又はその組み合わせた特徴対から直列的な処理で判定、スコアリングして機械学習（統計的学習）を実行する。

図２に示した検出部１７６は、図３に示すように、正解画像と不正解画像の画像群を入力する画像入力部１７６ａと、分類に用いるすべてのサンプルの重みを初期化して均一化する重み初期化部１７６ｂと、ランダムに正解画像と不正解画像から特徴量を選択し、それぞれの特徴の分類効率を算出する特徴量選択部１７６ｃと、最も分類効率の高い特徴量と、そのときの閾値を選択し出力する特徴量閾値選択部１７６ｄと、うまく識別できなかったサンプルの重みを増大させ、分類させるときに用いる重みを更新する（ブーストする）重み更新部１７６ｅと、予定のツリー(決定木）の数分生成しているか、決定木の数を判定する決定木数判定部１７６ｆと、識別処理が困難な不正解画像サンプルを「識別困難画像サンプル」として抽出し、データセットを更新するデータセット更新部１７６ｇとを論理構成を示すハードウェア資源として備える。

検出部１７６による識別処理の具体例を図１３及び図１４に示す。図１４は、深さ２の増強ツリー（決定木）が、カスケード状に１０２４段直列に接続した状態を例示するものである。図１４では、誤分類率に応じて適応的に(adaptive)、重みを変えながら１０２４段のブースティングがなされる。図１３に示すように、特徴量選択部１７６ｃが各増強決定木の各ノードに、図１３の左上に示した参照すべき特徴量のそれぞれが選択されるが、各判別器において特徴量と閾値Th0,Th1,Th2、及びスコア(-1.2，１.2)；(-0.4，0.4)が紐づけられて、図１４に示すように、複数の判別器が直列接続されている。特徴量選択部１７６ｃが選択した特徴量が、特徴量閾値選択部１７６ｄが選択した閾値Th0,Th1,Th2より大きいか小さいかで次の判別器の参照すべきノードが決定される。この直列接続された判別器のそれぞれにおいて、ノードの末端まで到達したスコアを積算し、次の判別器の増強決定木でも積算していく。この積算したスコアが０以下になった時点で、その検出ウィンドウ（領域）での探索を終了する。このためアダブーストのアルゴリズムはサポートベクターマシンと比較して高速な識別処理が可能である。ここでスコアの値が図１３に示すように(-1.2，１.2)；(-0.4，0.4)と可変になっているのが、ソフトカスケード処理という。可変になっていない（＋１，−１）のカスケード処理（直列接続処理）でもよいが、ソフトカスケードの方が性能がよい。

画像処理部１７は、他にも、撮像素子１２ａの画素配列に即して、入力される画像信号から非視差画像データとしての２Ｄ画像データ及び視差画像データを生成する処理や、選択された画像フォーマットに従って画像データを調整する処理も実行する。検出結果出力部１７８によって、生成された画像データは、ＬＣＤ駆動回路２０により表示信号に変換され、表示部１９に表示される。更に、生成された画像データはメモリカード・インターフェイス２３を介して着脱可能に装着されているメモリカード２２に記録される。

図１に示したＡＦセンサ１８は、被写体空間に対して複数の測距点が設定された位相差センサであり、それぞれの測距点において被写体像のデフォーカス量を検出する。一連の撮像シーケンスは、操作部２１がユーザの操作を受け付けて、制御部１６へ操作信号を出力することにより開始される。撮像シーケンスに付随するＡＦ，自動露出（ＡＥ）、オートホワイトバランス（ＡＷＢ）等の各種動作は、制御部１６に制御されて実行される。例えば、制御部１６は、ＡＦセンサ１８の検出信号を解析して、撮影レンズ１１の一部を構成するフォーカスレンズ１１ｃを移動させる合焦制御を実行する。

−−撮像素子の構造−−
図４（ａ）に示すように、第１の実施形態に係る撮像素子１２ａは、カラーフィルタ部Ｆ_1(i-1)，Ｆ_1i，Ｆ_1(i+1)，Ｆ_1(i+2)と開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3とが別体で構成されている。図４（ａ）に示すように、撮像素子１２ａは、被写体側から順に、マイクロレンズＭＬ_i-1，ＭＬ_i，ＭＬ_i+1，ＭＬ_i+2、カラーフィルタ部Ｆ_1(i-1)，Ｆ_1i，Ｆ_1(i+1)，Ｆ_1(i+2)、開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3、配線層５１及び光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2が配列されて構成されている。光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2は、入射する光を電気信号に変換するフォトダイオードにより構成される。光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2は、半導体チップ５２の表面に二次元マトリクス状に複数配列されている。

光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2により変換された画像信号、光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2を制御する制御信号等は、配線層５１に設けられた配線Ｍ_1q，Ｍ_1(q+1)，Ｍ_1(q+2)，…… ；Ｍ_2(q-1)，Ｍ_2q，Ｍ_2(q+1)，……を介して送受信される。又、各光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2に一対一に対応して設けられた開口部ＡＰ_j，ＡＰ_j+2を有する開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3が、配線層に接して設けられている。開口部ＡＰ_j，ＡＰ_j+2は対応する光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2毎にシフトさせて、相対的な位置が厳密に定められている。この開口部ＡＰ_j，ＡＰ_j+2を備える開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3の作用により、光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2が受光する被写体光束に視差が生じる。

一方、視差を生じさせない光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2上には、開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3が存在しない。視差を生じさせることはないが、実質的には配線Ｍ_1q，Ｍ_1(q+1)，Ｍ_1(q+2)，…… ；Ｍ_2(q-1)，Ｍ_2q，Ｍ_2(q+1)，……によって形成される開口Ｏ_iが入射する被写体光束を規定するので、配線Ｍ_1q，Ｍ_1(q+1)，Ｍ_1(q+2)，…… ；Ｍ_2(q-1)，Ｍ_2q，Ｍ_2(q+1)，……を、視差を生じさせない有効光束の全体を通過させる開口マスクと捉えることもできる。開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3は、各光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2に対応して別個独立に配列してもよいし、カラーフィルタ部Ｆ_1(i-1)，Ｆ_1i，Ｆ_1(i+1)，Ｆ_1(i+2)の製造プロセスと同様に複数の光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2に対して一括して形成してもよい。

カラーフィルタ部Ｆ_1(i-1)，Ｆ_1i，Ｆ_1(i+1)，Ｆ_1(i+2)は、開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3上に設けられている。カラーフィルタ部Ｆ_1(i-1)，Ｆ_1i，Ｆ_1(i+1)，Ｆ_1(i+2)は、各光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2に対して特定の波長帯域を透過させるように着色された、光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2のそれぞれに一対一に対応して設けられるフィルタである。カラー画像を出力するには、互いに異なる少なくとも２種類のカラーフィルタ部が配列されればよいが、より高画質のカラー画像を取得するには３種類以上のカラーフィルタ部を配列するとよい。例えば赤色波長帯を透過させる赤フィルタ、緑色波長帯を透過させる緑フィルタ、及び青色波長帯を透過させる青フィルタを格子状に配列するとよい。

図４（ａ）に示すように、マイクロレンズＭＬ_i-1，ＭＬ_i，ＭＬ_i+1，ＭＬ_i+2は、カラーフィルタ部Ｆ_1(i-1)，Ｆ_1i，Ｆ_1(i+1)，Ｆ_1(i+2)上に設けられている。マイクロレンズＭＬ_i-1，ＭＬ_i，ＭＬ_i+1，ＭＬ_i+2は、入射する被写体光束のより多くを光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2へ導くための集光レンズである。マイクロレンズＭＬ_i-1，ＭＬ_i，ＭＬ_i+1，ＭＬ_i+2は、光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2のそれぞれに一対一に対応して設けられている。マイクロレンズＭＬ_i-1，ＭＬ_i，ＭＬ_i+1，ＭＬ_i+2は、撮影レンズ１１の瞳中心と光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2の相対的な位置関係を考慮して、より多くの被写体光束が光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2に導かれるようにその光軸がシフトされていることが好ましい。更に、開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3の開口部ＡＰ_j，ＡＰ_j+2の位置と共に、特定の被写体光束がより多く入射するように配置位置が調整されてもよい。

このように、各々の光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2に対応して一対一に設けられる開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3、カラーフィルタ部Ｆ_1(i-1)，Ｆ_1i，Ｆ_1(i+1)，Ｆ_1(i+2)及びマイクロレンズＭＬ_i-1，ＭＬ_i，ＭＬ_i+1，ＭＬ_i+2の一単位を画素と呼ぶ。特に、本明細書では、視差を生じさせる開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3が設けられた画素を「視差画素」、視差を生じさせる開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3が設けられていない画素を「非視差画素」と呼ぶ。例えば、撮像素子１２ａの有効画素領域が２４ｍｍ×１６ｍｍ程度の場合、画素数は１２００万程度以上までに及ぶ。

なお、集光効率、光電変換効率がよいイメージセンサの場合は、マイクロレンズＭＬ_i-1，ＭＬ_i，ＭＬ_i+1，ＭＬ_i+2を設けなくてもよい。又、裏面照射型イメージセンサの場合は、配線層５１が光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2とは反対側に設けられる。
カラーフィルタ部Ｆ_1(i-1)，Ｆ_1i，Ｆ_1(i+1)，Ｆ_1(i+2)と開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3の組み合わせには、様々なバリエーションが存在する。図４（ａ）において、開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3の開口部ＡＰ_j，ＡＰ_j+2に色成分を持たせれば、カラーフィルタ部Ｆ_1(i-1)，Ｆ_1i，Ｆ_1(i+1)，Ｆ_1(i+2)と開口マスクＳ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3を一体的に形成することができる。又、特定の画素を被写体の輝度情報を取得する画素として特化させる場合、その画素には、対応するカラーフィルタ部Ｆ_1(i-1)，Ｆ_1i，Ｆ_1(i+1)，Ｆ_1(i+2)を設けなくてもよい。或いは、可視光のすべての波長帯域を透過させるように、着色を施さない透明フィルタを配列してもよい。

又、図４（ｂ）は、撮像素子１２ａの変形例として、カラーフィルタ部Ｆ_2iと開口マスク部Ｓ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3が一体的に構成されたスクリーンフィルタを備える撮像素子の断面外略図である。輝度情報を取得する画素を視差画素とする場合、つまり、視差画像をモノクロ画像として出力するのであれば、図４（ｂ）として示す撮像素子の構成を採用しうる。即ち、カラーフィルタとして機能するカラーフィルタ部Ｆ_2iと、開口部ＡＰ_j，ＡＰ_j+2を有する開口マスク部Ｓ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3とが一体的に構成されたスクリーンフィルタを、マイクロレンズＭＬ_i-1，ＭＬ_i，ＭＬ_i+1，ＭＬ_i+2と配線層５１の間に配設することができる。

スクリーンフィルタは、カラーフィルタ部Ｆ_2iにおいて例えば青緑赤の着色が施され、開口マスク部Ｓ_p-1，Ｓ_p，Ｓ_p+1，Ｓ_p+2，Ｓ_p+3において開口部ＡＰ_j，ＡＰ_j+2以外のマスク部分が黒の着色が施されて形成される。スクリーンフィルタを採用する撮像素子は、撮像素子１２ａに比較して、マイクロレンズＭＬ_i-1，ＭＬ_i，ＭＬ_i+1，ＭＬ_i+2から光電変換素子Ｄ_i-1，Ｄ_i，Ｄ_i+1，Ｄ_i+2までの距離が短いので、被写体光束の集光効率が高い。

−−撮像素子の繰り返しパターンの機能−−
図５は第１の実施形態に係る撮像素子１２ａの内撮像光軸と直交する中心に配列されている繰り返しパターン１１０ｔの光電変換素子群を示し、図６は周辺部分に周期的に配列されている繰り返しパターン１１０ｕの光電変換素子群を模式的に示している。図５及び図６における被写体ＯＢＪ₁は、撮影レンズ１１に対して合焦位置に存在する。図７は、図５に対応して、撮影レンズ１１に対して非合焦位置に存在する被写体ＯＢＪ₂を捉えた場合の関係を模式的に示している。

先ず、撮影レンズ１１が合焦状態に存在する被写体ＯＢＪ₁を捉えている場合は、図５及び図６に示すように、被写体光束は、撮影レンズ１１の瞳を通過して撮像素子１２ａへ導かれるが、被写体光束が通過する全体の断面領域に対して、６つの部分領域Ｐａ〜Ｐｆが規定されている。そして、例えば図５（ｂ）に示した繰り返しパターン（周期的な配列パターン）１１０ｔを構成する光電変換素子群の紙面左端の画素は、図５（ａ）の部分領域Ｐｆから射出された被写体光束の主光線Ｒｆのみが光電変換素子Ｄ_t(i-3)へ到達するように、開口マスクＳ_p-3，Ｓ_p-2の開口部ＡＰ_t(j-3)の位置が定められている。図５（ｂ）に示した繰り返しパターン１１０ｔの場合、右端の画素に向かって、部分領域Ｐｅに対応して開口部ＡＰ_t(j-2)の位置が、部分領域Ｐｄに対応して開口部ＡＰ_t(j-1)，の位置が、部分領域Ｐｃに対応して開口部ＡＰ_tjの位置が、部分領域Ｐｂに対応して開口部ＡＰ_t(j+1)の位置が、部分領域Ｐａに対応して開口部ＡＰ_t(j+2)の位置がそれぞれ定められている。

即ち、撮影レンズ１１の部分領域Ｐｆと左端画素の光電変換素子Ｄ_t(i-3)の相対的な位置関係によって定義される、部分領域Ｐｆから射出される被写体光束の主光線Ｒｆの傾きにより、開口部ＡＰ_t(j-3)，ＡＰ_t(j-2)，ＡＰ_t(j-1)，ＡＰ_tj，ＡＰ_t(j+1)，ＡＰ_t(j+2)，ＡＰ_t(j+3)の位置が定められている。そして、合焦位置に存在する被写体ＯＢＪ₁からの被写体光束の主光線Ｒｆを、開口部ＡＰ_t(j-3)を介して光電変換素子Ｄ_t(i-3)が受光する場合、その被写体光束は、点線で図示するように、光電変換素子Ｄ_t(i-3)上で結像する。同様に、繰り返しパターン１１０ｔの右端の画素に向かって、主光線Ｒｅの傾きにより開口部ＡＰ_t(j-2)の位置が、主光線Ｒｄの傾きにより開口部ＡＰ_t(j-1)の位置が、主光線Ｒｃの傾きにより開口部ＡＰ_tjの位置が、主光線Ｒｂの傾きにより開口部ＡＰ_t(j+1)の位置が、主光線Ｒａの傾きにより開口部ＡＰ_t(j+2)がそれぞれ定められている。図５に示すように、合焦位置に存在する被写体ＯＢＪ₁の内、光軸と交差する被写体ＯＢＪ₁上の微小領域Ｏｔから放射される光束は、撮影レンズ１１の瞳を通過して、繰り返しパターン１１０ｔを構成する光電変換素子群の各画素に到達する。即ち、繰り返しパターン１１０ｔを構成する光電変換素子群の各画素は、それぞれ撮影レンズ１１の６つの部分領域Ｐａ〜Ｐｆを介して、一つの微小領域Ｏｔから放射される光束を受光している。微小領域Ｏｔは、繰り返しパターン１１０ｔを構成する光電変換素子群の各画素の位置ずれに対応する分だけの広がりを有するが、実質的には、ほぼ同一の物点と近似することができる。

同様に、図６（ｂ）に示した繰り返しパターン（周期的な配列パターン）１１０ｕを構成する光電変換素子群の紙面左端の画素は、図６（ａ）の部分領域Ｐｆから射出された被写体光束の主光線Ｒｆのみが光電変換素子Ｄ_u(i-3)へ到達するように、開口マスクＳ_u(p-3)，Ｓ_u(p-2)の開口部ＡＰ_j-3，の位置が定められている。そして、繰り返しパターン１１０ｕも右端の画素に向かって、部分領域Ｐｅに対応して開口部ＡＰ_u(j-2)の位置が、部分領域Ｐｄに対応して開口部ＡＰ_u(j-1)の位置が、部分領域Ｐｃに対応して開口部ＡＰ_ujの位置が、部分領域Ｐｂに対応して開口部ＡＰ_u(j+1)の位置が、部分領域Ｐａに対応して開口部ＡＰ_u(j+2)の位置がそれぞれ定められている。図６で示すように、合焦位置に存在する被写体ＯＢＪ₁の内、光軸から離間した被写体ＯＢＪ₁上の微小領域Ｏｕから放射される光束は、撮影レンズ１１の瞳を通過して、繰り返しパターン１１０ｕを構成する光電変換素子群の各画素に到達する。即ち、繰り返しパターン１１０ｕを構成する光電変換素子群の各画素は、それぞれ６つの部分領域Ｐａ〜Ｐｆを介して、一つの微小領域Ｏｕから放射される光束を受光している。微小領域Ｏｕも、微小領域Ｏｔと同様に、繰り返しパターン１１０ｕを構成する光電変換素子群の各画素の位置ずれに対応する分だけの広がりを有するが、実質的には、ほぼ同一の物点と近似することができる。

つまり、被写体ＯＢＪ₁が合焦位置に存在する限りは、撮像素子１２ａ上における繰り返しパターン１１０ｔ、１１０ｕの位置に応じて、光電変換素子群が捉える微小領域が異なり、且つ、光電変換素子群を構成する各画素は互いに異なる部分領域を介して同一の微小領域を捉えている。そして、それぞれの繰り返しパターン１１０ｔ、１１０ｕにおいて、対応する画素同士は同じ部分領域からの被写体光束を受光している。つまり、図５及び図６においては、例えば繰り返しパターン１１０ｔ、１１０ｕのそれぞれの左端画素の光電変換素子Ｄ_u(i-3)は、撮影レンズ１１の同じ部分領域Ｐｆからの被写体光束を受光している。

撮像光軸ζと直交する中心に配列されている図５に示した繰り返しパターン１１０ｔにおいて左端画素の光電変換素子Ｄ_t(i-3)が部分領域Ｐｆからの被写体光束を受光する開口部ＡＰ_t(j-3)の位置と、図６に示すように、撮像光軸ζの中心からずれた周辺部分に配列されている繰り返しパターン１１０ｕにおいて左端画素の光電変換素子Ｄ_u(i-3)が部分領域Ｐｆからの被写体光束を受光する開口部ＡＰu_(j-3)の位置は厳密には異なる。しかしながら、機能的な観点からは、部分領域Ｐｆからの被写体光束を受光するための開口マスクという点で、これらを同一種類の開口マスクとして扱うことができる。したがって、図５及び図６の例では、撮像素子１２ａ上に配列される視差画素のそれぞれは、６種類の開口マスクの一つを備えるといえる。

図７に示す撮影レンズ１１が非合焦状態に存在する被写体ＯＢＪ₂を捉えている場合も、非合焦位置に存在する被写体ＯＢＪ₂からの被写体光束は、撮影レンズ１１の瞳の６つの部分領域Ｐａ〜Ｐｆを通過して、撮像素子１２ａへ到達する。但し、非合焦位置に存在する被写体ＯＢＪ₂からの被写体光束は、光電変換素子Ｄ_s(i-1)，Ｄ_si，Ｄ_s(i+1)，Ｄ_s(i+2)上ではなく他の位置で結像する。例えば、図７に示すように、被写体ＯＢＪ₂が被写体ＯＢＪ₁よりも撮像素子１２ａに対して遠い位置に存在すると、被写体光束は、光電変換素子Ｄ_s(i-1)，Ｄ_si，Ｄ_s(i+1)，Ｄ_s(i+2)よりも被写体ＯＢＪ₂側で結像する。逆に、被写体ＯＢＪ₂が被写体ＯＢＪ₁よりも撮像素子１２ａに対して近い位置に存在すると、被写体光束は、光電変換素子Ｄ_s(i-1)，Ｄ_si，Ｄ_s(i+1)，Ｄ_s(i+2)よりも被写体ＯＢＪ₂とは反対側で結像する。

したがって、図７に示す非合焦位置に存在する被写体ＯＢＪ₂の内、微小領域Ｏｔ'から放射される被写体光束は、６つの部分領域Ｐａ〜Ｐｆのいずれを通過するかにより、異なる組の繰り返しパターン１１０ｓにおける対応画素に到達する。例えば、撮影レンズ１１の部分領域Ｐｄを通過した被写体光束は、図７（ｂ）に示すように、主光線Ｒｄ'として、繰り返しパターン（周期的な配列パターン）１１０ｓに含まれる、開口部ＡＰ_s(j-1)を有する光電変換素子Ｄ_s(i-1)へ入射する。そして、微小領域Ｏｔ'から放射された被写体光束であっても、他の部分領域を通過した被写体光束は、繰り返しパターン１１０ｓに含まれる光電変換素子Ｄ_s(i-1)へは入射せず、他の繰り返しパターンにおける対応する開口部を有する光電変換素子Ｄ_si，Ｄ_s(i+1)，Ｄ_s(i+2)，……へ入射する。換言すると、繰り返しパターン１１０ｓを構成する各光電変換素子Ｄ_s(i-1)，Ｄ_si，Ｄ_s(i+1)，Ｄ_s(i+2)へ到達する被写体光束は、被写体ＯＢＪ₂の互いに異なる微小領域から放射された被写体光束である。即ち、開口部ＡＰ_s(j-1)に対応するＤ_s(i-1)へは主光線をＲｄ'とする被写体光束が入射し、他の開口部に対応する光電変換素子Ｄ_si，Ｄ_s(i+1)，Ｄ_s(i+2)へは主光線をＲａ＋、Ｒｂ＋、Ｒｃ＋、Ｒｅ＋、Ｒｆ＋とする被写体光束が入射するが、これらの被写体光束は、被写体ＯＢＪ₂の互いに異なる微小領域から放射された被写体光束である。

すると、撮像素子１２ａの全体で見た場合、例えば、開口部ＡＰ_t(j-3)，ＡＰ_t(j-2)，ＡＰ_t(j-1)，ＡＰ_tj，ＡＰ_t(j+1)，ＡＰ_t(j+2)に対応する光電変換素子Ｄ_t(i-1)，Ｄ_ti，Ｄ_t(i+1)，Ｄ_t(i+2)で捉えた被写体像Ａと、開口部ＡＰ_u(j-3)，ＡＰ_u(j-2)，ＡＰ_u(j-1)，ＡＰ_uj，ＡＰ_u(j+1)，ＡＰ_u(j+2)，ＡＰ_u(j+3)に対応する光電変換素子Ｄ_u(i-1)，Ｄ_ui，Ｄ_u(i+1)，Ｄ_u(i+2)で捉えた被写体像Ｄは、合焦位置に存在する被写体に対する像であれば互いにずれがなく、非合焦位置に存在する被写体に対する像であればずれが生じることになる。そして、そのずれは、非合焦位置に存在する被写体が合焦位置に対してどちら側にどれだけずれているかにより、又、部分領域Ｐａと部分領域Ｐｄの距離により、方向と量が定まる。つまり、被写体像Ａと被写体像Ｄは、互いに視差像となる。この関係は、他の開口部に対しても同様であるので、開口部ＡＰ_t(j-3)，ＡＰ_t(j-2)，ＡＰ_t(j-1)，ＡＰ_tj，ＡＰ_t(j+1)，ＡＰ_t(j+2)からＡＰu_(j-3)，ＡＰ_u(j-2)，ＡＰ_u(j-1)，ＡＰ_uj，ＡＰ_u(j+1)，ＡＰ_u(j+2)，ＡＰ_u(j+3)に対応して、６つの視差像が形成されることになる。

したがって、このように構成されたそれぞれの繰り返しパターン１１０ｔ，１１０ｕにおいて、互いに対応する画素の出力を寄せ集めると、視差画像が得られる。つまり、６つの部分領域Ｐａ〜Ｐｆうちの特定の部分領域から射出された被写体光束を受光した画素の出力は、視差画像を形成する。

図８に示すカラーフィルタ配列のパターンは、４つの画素からなる通常のベイヤー配列の内のＧｒ画素を緑フィルタが割り当てられるＧ画素として維持する一方、Ｇｂ画素をＷ画素に変更したパターンである。以下において、それぞれの４つの画素の単位を「画素ブロック」と呼ぶ。画素ブロックの内のＷ画素は、可視光のおよそすべての波長帯域を透過させるように、着色を施さない透明フィルタを配列してカラーフィルタ部が割り当てられないようにしてもよい。図８に示すようなＷ画素を含むカラーフィルタ配列を採用すれば、撮像素子が出力するカラー情報の精度は若干低下するものの、Ｗ画素が受光する光量はカラーフィルタ部が設けられている場合に比較して多いので、精度の高い輝度情報を取得できる。図８の左上に太い実線で囲んで示した繰り返しパターン（周期的な配列パターン）１１０ｅは、Ｗ画素を含む画素ブロックのパターンを左右に２組連続して、８画素をユニットとした周期的な繰り返しパターンである。８画素のユニットの内、左側の画素ブロックのＷ画素に視差Ｌ画素を、右側の画素ブロックのＷ画素に視差Ｒ画素を割り当てている。図８に示すような配列において、撮像素子１２ａは、視差画像をモノクロ画像として出力し、２Ｄ画像をカラー画像として出力することができる。図８に示した繰り返しパターン１１０ｅは例示であり、図８に示したトポロジーに限定されるものではない。いずれの画素を視差画素とするか、或いは非視差画素とするかにより、様々な特徴を有する繰り返しパターンのユニットが設定できる。

図８に示すパターン１１０ｅを基礎として、視差Ｌ画素の出力が、撮像素子１２ａ上の相対的な位置関係を維持しながら寄せ集められて、Ｌ画像データが生成される。一つの繰り返しパターン１１０ｅを構成する８画素に含まれる視差Ｌ画素は一つであるので、Ｌ画像データを形成する各視差Ｌ画素は、それぞれ異なる繰り返しパターン１１０ｅから寄せ集められる。即ち、寄せ集められたそれぞれの視差Ｌ画素の出力は、被写体の互いに異なる微小領域から放射された光が光電変換された結果であるので、Ｌ画像データは、特定の視点（Ｌ視点）から被写体を捉えた一つの視差画像データとなる。そして、視差Ｌ画素は、Ｗ画素に割り振られているので、Ｌ画像データは、カラー情報を持たず、モノクロ画像として生成される。

同様に、図８に示すパターン１１０ｅを基礎として、視差Ｒ画素の出力が、撮像素子１２ａ上の相対的な位置関係を維持しながら寄せ集められて、Ｒ画像データが生成される。寄せ集められたそれぞれの視差Ｒ画素の出力は、被写体の互いに異なる微小領域から放射された光が光電変換された結果であるので、Ｒ画像データは、特定の視点（Ｒ視点）から被写体を捉えた一つの視差画像データとなる。そして、視差Ｒ画素は、Ｗ画素に割り振られているので、Ｒ画像データは、カラー情報を持たず、モノクロ画像として生成される。

被写体が合焦位置に存在するときには図５及び図６に示したように、一つの繰り返しパターン１１０ｅにおいて、視差Ｌ画素と視差Ｒ画素は、被写体の同一の微小領域から放射される光束を受光する。又、被写体が非合焦位置に存在するときには図７に示したように、一つの繰り返しパターン１１０ｅにおいて、視差Ｌ画素と視差Ｒ画素は、被写体の互いにずれた微小領域から放射される光束を受光する。そのずれは、被写体位置の合焦位置に対する相対関係と瞳の部分領域の関係とから、方向と量が定まる。したがって、Ｌ画像データとＲ画像データのそれぞれにおいて、視差Ｌ画素と視差Ｒ画素が撮像素子１２ａ上の相対的な位置関係を維持しながら寄せ集められていれば、それぞれが視差画像を形成する。このような画像処理は、画像処理部１７のステレオ画像生成処理部１７２によって実行される。

従来、デプス情報（距離情報）を取得するには、２台以上の撮像装置や、特殊な機器が必要であった。又、そのような従来のデプス取得デバイスを用いた場合に、被写体認識が可能となるデプスレンジには制限があった。第１の実施形態に係る撮像素子１２ａによれば、視差Ｌ画素と視差Ｒ画素が撮像素子１２ａ上の相対的な位置関係を維持しながら集積化され配置されているので、通常のカメラ撮影と同様の撮影レンジでのデプス取得が可能になる。第１の実施形態に係る撮像素子１２ａによれば、更にそのデプスマップを用いた被写体認識が可能になる。

第１の実施形態に係る撮像素子１２ａから生成されるステレオ画像は、撮像素子１２ａの繰り返しパターン１１０ｔ、１１０ｕ、１１０ｓ、１１０ｅが不変なためキャリブレーションは不要である。更に、第１の実施形態に係る撮像素子１２ａからはステレオ画像のみならず、非視差画像データであるカラー画像も同時に取得可能であるため、デプスマップのみならず、カラー情報も用いることで、機械学習手法（統計的学習手法）により、双方の被写体判別性の高い部分から構築された（よい所取りをした）被写体検出器を構築できる。又、学習に用いる特徴量を、デプスマップ、カラー画像で共用化できる。したがって、第１の実施形態に係る撮像素子１２ａを用いることにより、第１の実施形態に係る撮像装置に搭載する認識フレームワークとして簡便な設計が実現できる。

通常の対象物検出で問題になるのは、オブジェクトクラス内の分散が大きく、クラス間の分散が小さい場合である。対象物検出が最も容易になる場合は、オブジェクトクラス内の分散が小さく、クラス間の分散が大きい場合である。以下の画像処理方法の説明から具体的に理解できる事項ではあるが、オブジェクトクラス内の分散が大きい場合であっても、本発明の第１の実施の形態に係る画像処理装置によれば、「被写体判別」と「被写体追尾」を容易にする高精度な被写体認識が簡単に実現できる。

即ち、画像情報のみを用いた場合、例えば人を検出する場合、様々な服のガラや彩色等が存在するため、クラス内分散が大きくなってしまい、判別精度が低下する一因となってしまう。第１の実施の形態に係る画像処理装置によれば、画像処理部１７の検出部１７６が、算出部１７４が算出したデプス情報（距離情報）を、画像情報と共に用いているので、被写体は背景と比べてある一定のデプス値に位置するため服のガラや彩色等は無視できる。このため、第１の実施の形態に係る画像処理装置によれば、高精度な被写体認識が可能になる。

本発明の第１の実施の形態に係る画像処理装置によれば、デプス情報（Ｄ情報）と非視差画像データであるカラー画像情報（ＲＧＢ情報）の双方を特徴量として検出部１７６が採用し、Ｄ情報とＲＧＢ情報の双方のいい所取りをした高精度な機械学習を検出部１７６が実行しているので、高精度な被写体認識が可能になるという顕著な効果を奏することができる。

（画像処理方法）
図９に示すフローチャート及び図１０に示す画像データフロー図（ＤＦＤ）を用いて、本発明の第１の実施の形態に係る画像処理方法を説明する。なお、以下に述べる画像処理方法は、一例であり、特許請求の範囲に記載した趣旨の範囲内であれば、この変形例を含めて、これ以外の種々の製造方法により、実現可能であることは勿論である。又、以下の説明で、便宜上「先ず」「次に」等の文言が用いられているが、第１の実施の形態に係る画像処理方法をこの順で実施することが必須であることを意味するものではない。

(a) 先ず、図１に示した操作部２１を操作することにより、ステップＳ１１において、図４〜図８に例示したような視差画素の繰り返しパターン１１０ｔ、１１０ｕ、１１０ｓ、１１０ｅのユニットを有する撮像素子１２ａを備えた撮像装置で被写体の像を撮像させ、図１の記憶部１４に画像データを格納させる。図２に示した画像処理部１７の画像取得部１７１は、記憶部１４から画像データを読み出し、図１０に示すような第１視点方向の視差画像である左視差画像ＩＭ₁及び第２視点方向の視差画像である右視差画像ＩＭ_２を画像情報（撮像情報）として取得する。なお、第１の実施の形態に係る画像処理方法では、左視点方向画像（第１視点方向画像）ＩＭ₁及び右視点方向画像（第２視点方向画像）ＩＭ_２が、図１に示すような単一の撮像光学系（１１，３２）を通して取得される場合を例示的に説明するが、第１及び第２視点方向の視差画像の取得に係る技術は、図１に示したような構成の撮像装置による画像の取得に限定されるものではない。

(b) 次に、ステップＳ１２において、画像処理部１７のステレオ画像生成処理部１７２は、第１視点方向（左視点方向）の画像情報と第２視点方向（右視点方向）の画像情報の各々で補間処理を行い、ステレオ画像を生成する。生成されたステレオ画像は、ステレオ画像記憶装置１４１に格納する。図８に例示的に示したカラーフィルタ配列の例では、繰り返しパターン１１０ｅのユニットを構成している８画素の内、左側の画素ブロックのＷ画素に視差Ｌ画素を、右側の画素ブロックのＷ画素に視差Ｒ画素を割り当てているので、撮像素子１２ａは、第１及び第２視点方向の視差画像をモノクロ画像として出力し、２Ｄ画像をカラー画像として出力することができる。即ち、ステップＳ１３において、画像処理部１７のカラー画像生成処理部１７３は、色情報も含めて補間処理をすることで図１０に示すようなカラー画像ＩＭ₆を得ることができる。即ち、図８に示したカラーフィルタ配列の繰り返しパターン１１０ｅでは、非視差画素の出力が、撮像素子１２ａ上の相対的な位置関係を維持しながら寄せ集められて、カラー画像ＩＭ₆が生成される。このとき、画素ブロックを構成している４画素の内のＷ画素は視差画素であるので、非視差画素のみで構成されるベイヤー配列からの出力に対して、Ｇｂ画素の出力に相当する出力が欠落する。生成されたカラー画像ＩＭ₆は、カラー画像記憶装置１４２に格納する。

そこで、第１の実施の形態に係る画像処理方法においては、この欠落した出力の値として、Ｇ画素の出力値を代入する。つまり、カラー画像生成処理部１７３を用いてＧ画素の出力で補間処理を施せば、ベイヤー配列の出力に対する画像処理を採用してカラーの２Ｄ画像データを生成してカラー画像ＩＭ₆を得ることができる。なお、カラー画像生成処理部１７３を用いてカラー画像のステレオ画像も得ることができるが、視差マップ生成のためには、輝度情報のみで十分であるため、撮像素子１２ａがＲＧＢから構成される場合、Ｇ面のみを用いて、ステレオ画像を生成するとする。カラー情報まで補間するよりも、その方が高速でもある。

(c) 次に、ステップＳ１４において、画像処理部１７の算出部１７４は、ステレオ画像生成処理部１７２が生成した２枚のステレオ画像を、ステレオ画像記憶装置１４１から読み出して、図１０に示すようなデプスマップＩＭ₃を生成する。デプスマップＩＭ₃はステレオ画像間の対応画素の視差を示している。前述したように、算出部１７４は、ブロックマッチング法や勾配法を用いてデプスマップＩＭ₃を生成する。生成されたデプスマップＩＭ₃は、距離情報記憶装置１４３に格納する。

(ｄ) 次に、画像処理部１７の抽出部１７５の第２特徴抽出回路１７５ｂはステップＳ１５において、式（６）〜（１０）に即した処理を用いて、算出部１７４が生成したデプスマップＩＭ₃を距離情報記憶装置１４３から読み出して、特徴量抽出を行い、図１０に示すような認識で用いるための特徴マップＩＭ₄及びＩＭ₅を生成する。特徴マップＩＭ₅には手前側の２人と奥の１人の人物に対し、式（６）〜（８）を用いてエッジ検出がされている。手前側の２人の人物のエッジに位置する画素が白線で明瞭に示されているが、奥の１人の人物のエッジは明確でない。生成された特徴マップＩＭ₄及びＩＭ₅等は、特徴情報記憶装置１４４に格納する。更に、抽出部１７５の第１特徴抽出回路１７５ａは、ステップＳ１６において、式（１）〜（５）に即した処理を用いて、カラー画像生成処理部１７３が生成した非視差画像データであるカラー画像ＩＭ₆から特徴量抽出を行い、モノクロの特徴マップＩＭ₇及びＩＭ₈を生成する。式（１）〜（３）を用いてエッジ検出したモノクロの特徴マップＩＭ₈では、手前側の２人の人物のエッジが白線で明瞭に示されているが、奥の１人の人物のエッジは、上半身の部分がぼんやりしている。生成された特徴マップＩＭ₇及びＩＭ₈等も特徴情報記憶装置１４４に格納する。

（ｅ）次に、画像処理部１７の検出部１７６は、ステップＳ１７において、第１特徴抽出回路１７５ａ及び第２特徴抽出回路１７５ｂが生成した特徴量マップを用いて機械学習の手法でウィンドウサーチをする。このステップＳ１７においては、図１０の左下に模式的に示すように、矩形の検出ウィンドウ（領域）を網羅的な走査（ラスタスキャン）して探索処理を実行する。ステップＳ１７における探索処理は図１１に示すように、大きさと解像度を変えて階層的に実施する。図１１では４枚の平面図として左から順に大きくなるように特徴量マップＡ₁，Ａ₂，Ａ₃，Ａ₄を横に並べて表現している。図１１に示すように、同一の画像を解像度が異なるように、例えば２^1/2倍ずつスケールの異なる４層の特徴量マップＡ₁，Ａ₂，Ａ₃，Ａ₄と生成して、画像ピラミッドを構成する。大きさと解像度が異なる各スケールの特徴量マップＡ₁，Ａ₂，Ａ₃，Ａ₄に対し、それぞれの特徴量マップＡ₁，Ａ₂，Ａ₃，Ａ₄の左上に示したような矩形の検出ウィンドウ（領域）を用いてウィンドウサーチを実施する。検出部１７６は更にステップＳ１８において、網羅的なウィンドウサーチをしながら各検出ウィンドウ（領域）内に、被写体が存在しないか識別処理をしていく。各検出ウィンドウ（領域）での探索結果は、探索処理データ記憶装置１４５に格納する。

(ｆ) 次に、ステップＳ１９において、各検出ウィンドウ（領域）で検出したオブジェクト（対象物）に関し、大きさの異なる全スケールでの全画素の探索が終了したか否かを判定する。ステップＳ１９において、検出部１７６が全スケールでの全画素の探索が終了していないと判定した場合は、ステップＳ１７に戻り、全スケールでの探索を実行する。ステップＳ１９において、検出部１７６が全スケールでの全画素の探索が終了したと判定した場合は、探索結果を探索処理データ記憶装置１４５に格納した後、ステップＳ２０に進む。全スケールでの探索終了後、ステップＳ２０において、画像処理部１７の統合処理部１７７が、探索処理データ記憶装置１４５から各検出ウィンドウ（領域）での探索結果を読み出し、大きさの異なる各スケールで検出した検出ウィンドウ（被写体候補ウインドウ）を図１１の右下に示すように、統合処理する。検出ウィンドウ（被写体候補ウインドウ）を統合処理した結果は、図１０に示すような最終検出結果画像ＩＭ₉等として出力画像記憶装置１４６に格納する。更に、ステップＳ２０において、画像処理部１７の検出結果出力部１７８は、出力画像記憶装置１４６から最終検出結果画像ＩＭ₉を読み出し、図１に示したＬＣＤ駆動回路２０に電気信号を送信し、ＬＣＤ駆動回路２０によって表示部１９に最終検出結果の画像ＩＭ₉を出力させる。図１０の最終検出結果画像ＩＭ₉は、本来カラー画像であるが、線画で画像ＩＭ₉を表現しているので最終検出結果の特徴が不明瞭になっているが、画像ＩＭ₉において、太い黒い線（帯）で示した３つの矩形の枠が検出されたオブジェクト（対象物）を示す物体検出枠である。

−−アダブーストによる機械学習−−
図１２に示すフローチャートに記載された手順を参照しながら、本発明の第１の実施の形態に係る検出部１７６を用いたアダブーストによる増強決定木の作成手順と、その統計的学習の手法に必要なアルゴリズムを説明する：

(a) 先ず、ステップＳ２１において、図３に示した検出部１７６の画像入力部１７６ａは、正解画像と不正解画像の画像群を入力し、対応するデプス情報（距離情報）のデータや、それぞれの画像から抽出した特徴量と共に、探索処理データ記憶装置１４５に格納する。例えば、図１５に示すように、画像入力部１７６ａは、検出対象とする正解画像と不正解画像の大規模データセットを入力して探索処理データ記憶装置１４５に格納する。図１５に示す例では、上段側に示した人検出の画像が検出対象となる正解画像で、下段側に示した人以外の画像が検出対象にはならない不正解画像である。図１５の上段、下段のそれぞれのデータは左半分が色情報のデータで、右半分が対応するデプス情報（距離情報）のデータである。

(b) 次に、ステップＳ２２において、検出部１７６の重み初期化部１７６ｂは、アダブーストの機械学習の分類に用いるすべてのサンプルの重みを初期化して均一化する。初期化された重みは、探索処理データ記憶装置１４５を検出部１７６のワークスペースとするように探索処理データ記憶装置１４５に格納する。

(c) 次に、ステップＳ２３において、検出部１７６の特徴量選択部１７６ｃは、探索処理データ記憶装置１４５から正解画像と不正解画像の特徴量を読み出し、ランダムに正解画像と不正解画像から特徴量を選択し、それぞれの特徴量の分類効率を算出する。算出した分類効率は、探索処理データ記憶装置１４５に格納する。図１２のフローチャートで示されるような第１の実施の形態に係る機械学習の学習プロセスにおいては、正解画像／不正解画像判別に有用な特徴量が自動的に選択される。画像入力部１７６ａによって入力された各データには、図１５に示すように色情報のみならず、対応するデプス情報（距離情報）も付帯しているので、ステップＳ２３において、特徴量選択部１７６ｃは有用であれば、探索処理データ記憶装置１４５からデプス情報（距離情報）を読み出し、デプス情報（距離情報）から特徴量を選択し、増強決定木に自動的に組み込む。

(ｄ) 次に、ステップＳ２４において、検出部１７６の特徴量閾値選択部１７６ｄは、最も分類効率の高い特徴量と、そのときの閾値を、機械学習的に選択し、探索処理データ記憶装置１４５をワークスペースとして、探索処理データ記憶装置１４５に、選択された最も分類効率の高い特徴量とそのときの閾値を格納する。

(e) 次に、ステップＳ２５において、検出部１７６の重み更新部１７６ｅは、うまく識別できなかったサンプルの重み（ブースト重量）を増大させ、分類させるときに用いる重みを更新（ブースト）し、探索処理データ記憶装置１４５に格納する。アダブーストの統計的機械学習では、このように誤分類率に応じて適応的に重みを増強するブースティングを、探索処理データ記憶装置１４５をワークスペースとして繰り返す。

(ｆ) 増強決定木の作成は機械学習的に行われるが、ステップＳ２６において、検出部１７６の決定木数判定部１７６ｆは、予定の決定木の数分が生成されたかを、判定する。ステップＳ２６で予定の決定木の数分が生成されたと判定された場合はステップＳ２７に進む。ステップＳ２６で予定の決定木の数分が生成されていないと判定された場合は、ステップＳ２３に戻る。

(g) 次に、ステップＳ２７において、検出部１７６のデータセット更新部１７６ｇは、識別処理が困難な不正解画像サンプルを、「識別困難画像サンプル」として抽出し、データセットを更新し、探索処理データ記憶装置１４５に格納する。

(h) 次に、ステップＳ２８において、決定木数判定部１７６ｆは、予定の決定木の数分が生成されたか、又は分類エラーが閾値以下であるかを判定する。ステップＳ２８で予定の決定木の数分が生成された、又は分類エラーが閾値以下であると判定された場合は、探索結果を探索処理データ記憶装置１４５に格納した後、図１２に示すフローチャートの処理を終了する。ステップＳ２８で予定の決定木の数分が生成されていない、又は分類エラーが閾値以下ではないと判定された場合は、ステップＳ２２に戻り、新たなデータセットを用いて、機械学習の分類に用いるすべてのサンプルの重みを初期化して均一化する。

実際に、この機械学習により生成した検出器による、実験結果を図１６及び図１７（ｂ）に示す。図１６は検出エラー・トレードオフ（ＤＥＴ）曲線を示しており、横軸が画像一枚当たりの誤検出率(False Positive Per Image：ＦＰＰＩ) で、縦軸が未検出率である。図１６に示すＤＥＴ曲線の場合、原点に近いほど高精度であることを表しており、ＤＥＴ曲線の下の面積が小さいほど被写体認識の性能がよいことになる。

図１６において、全体の面積に対するＤＥＴ曲線の下の面積の比率は、実線で示した非視差画像データであるＲＧＢ情報のみからなる検出結果に対応する面積の比率が７４％であるのに対し、破線で示した、デプス情報（距離情報）を組み込んだＲＧＢＤ情報の検出結果を示す面積の比率が６８％である。よって、デプス情報（距離情報）を組み込んだＲＧＢＤ情報の方が被写体認識の性能がよくなっていることが図１６のＤＥＴ曲線から分かる。

図１７（ａ）は、非視差画像データであるＲＧＢ情報のみによる結果であり、図１７（ｂ）はＲＧＢＤ情報による検出結果を示す。図１７（ａ）及び（ｂ）において、破線で示す矩形の枠が正解像検出枠で、実線で示す矩形の枠が物体検出枠である。図１７（ａ）に示すようなＲＧＢ情報のみによる対象物検出では、オブジェクトクラス内の分散が大きく、クラス間の分散が小さい場合は被写体認識が困難であった。図１７（ａ）及び（ｂ）に示すように、サッカー選手を検出する場合、サッカー選手の様々なユニフォームの模様等が存在するため、クラス内分散が大きくなってしまい、ＲＧＢ情報のみによる場合は、被写体の判別精度を向上させるのは困難である。

第１の実施の形態に係る画像処理方法によれば、画像処理部１７の検出部１７６の特徴量選択部１７６ｃが、算出部１７４が算出したデプス情報（距離情報）を特徴量として選択し、デプス情報（距離情報）を加えたＲＧＢＤ情報を特徴量として用いたているので、図１７（ｂ）に示すように、被写体であるサッカー選手のそれぞれを高精度に判別し認識することができる。即ち、図１７（ｂ）に示すように、デプス情報（距離情報）を加えたＲＧＢＤ情報を用い場合は、被写体であるサッカー選手は、背景と比べてある一定のデプス値に位置するため、服の模様や彩色等は無視できる。このため、図１７（ｂ）に示すようにＲＧＢＤ情報を用いた方が、実線で示した物体検出枠が多くなる。又、図１７（ｂ）の右上に示すように、破線で示示した正解像検出枠と実線で示した物体検出枠との一致が、図１７（ａ）の右上に比して良いことが分かる。よって、図１７（ａ）に示すデプス情報（距離情報）を用いないＲＧＢ情報のみによる場合に比して、デプス情報（距離情報）を用いたことにより、被写体認識の性能が上がっていることが理解できる。このように、第１の実施の形態に係る画像処理方法によれば、競技場の照明変動、サッカー選手の姿勢の変化、視点の違いによるサッカー選手のシルエットの見えの違い、画像上のサッカー選手の同士の重なりによるオクルージョン等があっても、容易且つ高精度に特定のサッカー選手を検出し、識別することが可能になる。

比較のために示すと、デプス面の情報を用いないで対象物検出した結果を撮像装置に表示する場合は、図１８（ａ）に示すように同一の色の矩形枠等で表示することになる。しかし、第１の実施の形態に係る画像処理方法によれば、図１８（ｂ）や図１８（ｃ）のように、デプス面の情報を可視化できる（なお、図１８（ａ）及び図１８（ｂ）は本来カラー画像であるが、便宜上線画で表現している。）。例えば、図１８（ｂ）のように、奥行方向で色の異なる３次元のボクセルで検出オブジェクト（検出対象物）を包絡してもよい。図１８（ｂ）では左側と中央の２人の人物に対して画面の手前側を意味する赤色のボクセルが設けられ、中央の人物の直ぐ右側の人物に画面の奥方向を意味する青色のボクセルが付加されている。ボクセルは３次元構造であるので、ボクセルの深度方向の長さは、検出領域内のデプスマップの分散値に比例する量で描画可能である。又、被写体が位置するデプス位置については、検出領域内のデプスマップの平均値に比例する量で描画可能である。

図１８（ｂ）は本来カラー画像であり、そのカラー画像において、算出部１７４が算出したデプス位置に対応するデフォーカス情報を、画面に色分けして表示することができる。即ち、図１８（ｂ）の画面の左端に示すような色相スケール（色分けバー）を用いて、デフォーカス情報や距離情報を色分けして表示することができる。例えば、上端が赤で下端が紫となる赤→黄→緑→青→紫の色相スケールを表示させることができる。このとき、色相スケールが表示する各色をデプス情報（距離情報）に対応させ、図１８（ｂ）の画面の中に示されるボクセルを赤→黄→緑→青→紫で色分けしてデプス情報（距離情報）を表示すれば、色によってデプス情報（距離情報）が判断できる。図１８（ｂ）に示すように、デプス情報（距離情報）に対応させて色分けした３次元のボクセルをオブジェクト（対象物）に付加して表示することにより、ユーザは意中の対象物（オブジェクト）が、被写界深度内に存在するのか認知することが容易になり、適切な撮像条件を設定しやすくなる。又、着目したオブジェクト（対象物）以外の他のオブジェクト（対象物）との、デプス方向の関連性を認知しやすくなる。

図１８（ｃ）では、モノクロのデプスマップが画面の全体に表示されている例を示している。しかし、図示を省略しているが、第１の実施の形態に係る画像処理方法では、図１８（ｃ）に示したデプスマップそのものを、非視差画像データであるカラー画像とオーバーレイさせて描画表示してもよい。

以上のように、本発明の第１の実施の形態に係る画像処理方法によれば、被写体の模様や彩色等に影響を受けないで被写体を高精度に判別できるので、「被写体判別」と「被写体追尾」を容易にする高精度な被写体認識を簡単に実現可能な画像処理方法が提供できる。

（画像処理プログラム）
図９や図１２に示した一連の機械学習（統計的学習手法）を伴う画像処理方法の操作は、図９や図１２と等価なアルゴリズムの画像処理プログラムにより、図１〜図３に示した画像処理部（画像処理装置）１７を制御して実行させることができる。本発明の第１の実施の形態に係る画像処理プログラムは、具体的には：
(a)画像取得部１７１に第１及び第２視点方向の視差画像データ、並びに非視差画像データを取得させる命令；
(b)算出部１７４に第１及び第２視点方向の視差画像データから距離情報を算出させる命令；
(c)抽出部１７５に非視差画像データと距離情報のそれぞれから特徴量を抽出させる命令；
(d)検出部１７６に抽出された特徴量を用いて機械学習により対象物検出させる命令
等の一連の命令を含んでおり、これらの一連の命令によって、画像処理部（画像処理装置）１７に、図９や図１２に示した一連の機械学習（統計的学習手法）を伴う画像処理方法の操作を実行させればよい。

本発明の第１の実施の形態に係る画像処理プログラムは、画像処理部（画像処理装置）１７がその一部となって構成するコンピュータシステムのプログラム記憶装置（図示省略）に記憶させればよい。又、このプログラムは、コンピュータ読取り可能な記録媒体に保存し、この記録媒体を情報処理装置のプログラム記憶装置に読み込ませることによっても、或いはインターネット等の情報処理ネットワークや通信ネットワークを経由してプログラム記憶装置に読み込ませることによっても、本発明の一連の機械学習を伴う画像処理の操作を実行することができる。

−−ＡＦ／ＡＥ調整−−
図１８（ｂ）や図１８（ｃ）に示したような第１の実施の形態に係る画像処理方法によって得られた被写体判別情報は、オートエリアＡＦ／ＡＥに適用可能である。即ち、非視差画像データが含む色情報と算出部１７４が算出した距離情報を帰還パラメータとして用いて、第１の実施の形態に係る制御部１６が、撮像光学系（１１，３２）を構成するフォーカスレンズ１１ｃの位置及び絞り３２の開口面積を帰還制御して、焦点距離及び露出を自動調整することができる。よって、第１の実施の形態に係る画像処理方法は、例えば、人物を重視したＡＦ／ＡＥを行うことができる。又、図１７に示すように、サッカーの試合における選手の動きを捉えてダイナミックＡＦ／ＡＥに反映させることが可能になる。第１の実施の形態に係る画像処理方法によれば、被写体がフォーカスポイントから外れても、常に被写体にピントが合った画像を撮影する被写体追尾をして３Ｄ−トラッキングを実現することも可能になる。

図１に示した第１の実施の形態に係る画像処理装置のＡＦセンサ１８は、被写体空間に対して二次元マトリクス状且つ離散的に配置される複数、例えば１１点の測距点を有するように設定できる。このとき、ＡＦセンサ１８は、それぞれの測距点に対応するデフォーカス量を独立に出力する。第１の実施の形態に係る画像処理装置の制御部１６は、画像処理部１７の算出部１７４のアルゴリズムにより選択された合焦測距点のデフォーカス量を検出して、合焦に至るフォーカスレンズ１１ｃの移動量及び移動方向を決定する。更に制御部１６は、これらの情報に従ってフォーカスレンズ１１ｃを移動させる。フォーカスレンズ１１ｃの移動が完了すると、制御部１６は、ＡＦセンサ１８により合焦測距点のデフォーカス量を再度検出して、合焦測距点に対応するオブジェクト（対象物）にピントが合ったことを確認する。

例えば、操作部２１のシャッタボタンの第１段階の押下（半押し）があると、制御部１６は、ＡＦ動作及びＡＥ動作を開始させ、フォーカスモータ３０ｃを介して撮影レンズ１１内のフォーカスレンズ１１ｃが合焦位置にくるように制御する。又、操作部２１のシャッタボタンの半押し時にＡ／Ｄ変換回路１３から出力される画像データは記憶部１４を経て、画像処理部１７のＡＥ検出用論理演算回路（図示省略）に取り込まれる。

このとき、撮影予定距離に対応したフォーカスレンズ１１ｃのレンズ位置がフォーカスレンズ１１ｃの移動範囲内に基準位置として設定してもよい。基準位置が設定されると、制御部１６は基準位置に対応するレンズ位置にフォーカスレンズ１１ｃを移動する。そして、撮影Ｅｖ値算出回路は、基準位置で得られた画像データから被写体の輝度値を検出して制御部１６に送信する。制御部１６は、図示を省略したＥＥＰＲＯＭ等の記憶装置に予め記憶されている閾値とこの輝度値とを比較する。制御部１６によって輝度値が閾値以上と判定された場合は、探索範囲設定部はＡＦセンサ１８から送信されたズームレンズ１１ｂの位置データＰと予め用意した対応テーブルを用いてフォーカスモータ３０ｃの駆動量を求め、基準位置を中心にして探索範囲を設定する。「対応テーブル」には、レンズ情報として、フォーカスレンズ１１ｃ位置と合焦被写体距離の対応関係が記録されている。

制御部１６は、ピントが合ったことを確認できたら、スーパーインポーズ表示等により合焦測距点を明滅させ、合焦動作完了をユーザに告知する。又、制御部１６は、合焦測距点のデフォーカス量を再度検出すると同時に、他の測距点のデフォーカス量も検出する。制御部１６は、それぞれの測距点におけるデフォーカス量から、被写体までの距離を算出できる。具体的には、現在のフォーカスレンズ１１ｃの位置を入力することにより、合焦被写体までの距離を得る。この距離は被写体となる第１オブジェクト（第１対象物）までの距離に相当する。オートフォーカスにおいては、あるデフォーカス量に対して、合焦位置までフォーカスレンズ１１ｃをどれだけ移動させればよいかの移動量変換関数を利用している。そこで、この移動量関数を利用して、非合焦測距点におけるデフォーカス量から、フォーカスレンズ１１ｃの移動量を算出する。そして、現在のフォーカスレンズ１１ｃの位置に算出した移動量を加算した値を対応テーブルに入力することにより、他の被写体となる第２オブジェクト（第２対象物）及び第３オブジェクト（第３対象物）までの距離を得る。第１の実施の形態に係る画像処理方法においては、絶対距離を用いる場合に、このようにＡＦセンサ１８の出力であるデフォーカス情報から算出された距離情報を参照しながら、画像処理部１７の算出部１７４が決定したデフォーカス量等に基づき、ＡＦ調整をすることができる。

画像処理部１７のＡＥ検出用論理演算回路では、画面全体のＧ信号を積算し、又は画面中央部と周辺部とで異なる重みづけをしたＧ信号を積算し、その積算値を制御部１６に出力する。画像処理部１７の撮影Ｅｖ値算出回路は、ＡＥ検出用論理演算回路から入力した積算値から被写体の明るさ（撮影Ｅｖ値）を算出し、この撮影Ｅｖ値に基づいて絞り３２の絞り値及び撮像素子１２ａの電子シャッタ（シャッタスピード）を所定のプログラム線図に従って決定する。制御部１６は、撮影Ｅｖ値算出回路がその決定した絞り値に基づいて、モータドライバ３１ｄを介してアイリスモータ３３を介して絞り３２を制御するとともに、決定したシャッタスピードに基づいてタイミングジェネレータ３４を介して撮像素子１２ａでの電荷蓄積時間等を制御する。なお、ストロボ制御回路３６は、撮影Ｅｖ値算出回路によって得られた撮影Ｅｖ値に基づいて、被写体輝度が低いときにはストロボ装置３５に発光信号を送信する。ストロボ装置３５はこの発光信号に基づいてストロボを発光させる。

画像処理部１７のＡＦ処理部は、左視点方向画像データ（第１視点方向画像データ）及び右視点方向画像データ（第２視点方向画像データ）の少なくとも一方の画像データの内の所定の繰り返しパターンのフォーカス領域内の画像データの高周波成分を抽出し、この高周波成分を積分することにより合焦状態を示すＡＦ評価値を算出する。このＡＦ評価値が極大となるように撮影レンズ１１内のフォーカスレンズ１１ｃを制御することによりＡＦ制御が行われる。又、左視点方向画像データ及び右視点方向画像データの内の所定のフォーカス領域内の画素に対応する画像データの位相差を検出し、この位相差を示す情報に基づいてデフォーカス量を求めて、このデフォーカス量が０になるように撮影レンズ１１内のフォーカスレンズ１１ｃを制御することによりＡＦ制御を行ってもよい。

一般に、左視点方向画像データ及び右視点方向画像データの視差とＦ値（被写体の明るさ）とは視差が大きくなるとＦ値が小さくなる傾向がある。所定の明るさ（所定のＦ値）の場合には、ズーム位置がワイド側の場合には視差が小さく、ズーム位置がテレ側の場合には視差が大きい。焦点距離以外の条件を一定に、焦点距離を変化させた場合には、例えば図６の点線上を移動する。即ち焦点距離が小さい場合にはＦ値が小さく（被写体が明るい）且つ視差が小さく、焦点距離が大きくなるにつれてＦ値が大きく（被写体が暗い）且つ視差が大きくなる。適切な視差に対して、視差が小さい場合、大きい場合ともに、左視点方向画像データ及び右視点方向画像データから生成される立体視画像は適切な立体視ができない。

図５等から分かるように、光電変換素子に入射する光の中心が内側へ移動すると、左視点方向画像の光電変換素子に入射する光の中心と右視点方向画像の光電変換素子に入射する光の中心との距離が小さくなる。即ち、左視点方向画像データと右視点方向画像データとの視差が小さくなる。焦点距離が所定の値より大きい場合、即ちテレである場合には、光電変換素子に入射する光の量が少なく暗くなる。操作部２１のシャッタボタンが全押しされると、制御部１６は、ＡＦ／ＡＥ調整を伴って、撮影、記録処理を開始することができる。即ち、第１の実施の形態に係る画像処理装置によれば、測光結果と画像処理部１７の算出部１７４が決定したデフォーカス量等に基づき、シャッタ速度、絞り値等を決定して、撮像素子１２ａに所望の光量を入射させることができる。

−−オートホワイトバランス（ＡＷＢ）−−
又、非視差画像データが含む色情報と算出部１７４が算出した距離情報を帰還パラメータとして用いて、第１の実施の形態に係る制御部１６が、撮像光学系（１１，３２）を構成するフォーカスレンズ１１ｃの位置及び絞り３２の開口面積を帰還制御して、ホワイトバランスを自動調整してオートホワイトバランス（ＡＷＢ）調整することができる。具体的には、第１の実施の形態に係る画像処理方法においては、画像処理部１７のＷＢ制御量演算回路（図示省略。）が、複数の領域毎にホワイトバランス調整に用いるＷＢ制御量を算出する。一般的に基準となる色温度は、画像中の白領域について、色差信号Ｒ−Ｙ、Ｂ−Ｙと輝度信号Ｙを用いた、（Ｒ−Ｙ）／Ｙ、（Ｂ−Ｙ）／Ｙの平均値の演算結果から推定される。ホワイトバランス調整とは、これらの色差信号が０になるように補正することである。ここで、輝度信号Ｙは、ベイヤー配列の場合、Ｙ＝（Ｒ＋Ｇr＋Ｇb＋Ｂ）／４で与えられる。図８に示したカラーフィルタ配列の場合であれば、Ｙ＝（Ｒ＋２Ｇ＋Ｂ）／４で与えられる。

第１の実施の形態に係る画像処理方法においては、例えば、算出部１７４が抽出した輪郭に囲まれた領域毎にＷＢ制御量を算出するようにすることができる。ＷＢ制御量演算回路は、ある領域において白抽出領域に含まれる画素ブロック数Ｎ_Bが予め設定されたブロック数Ｎ_B0以下であると算出したら、その領域を、ＷＢ制御量の算出ができない小さすぎる被写体領域であると判断する。予め設定されるブロック数Ｎ_B0としては、例えば、画像全体のブロック数に対する割合として規定される。ＷＢ制御量演算回路により小さすぎる被写体領域が存在すると判断されたら、算出部１７４は、その領域を区分帯が隣り合う領域に併合して、輪郭を修正する。

ＷＢ制御量演算回路は、領域KのＷＢ制御量として（ΔＲ_K，ΔＢ_K）を算出する。具体的には、領域Kにおいて、

ΔＲ_K＝Σ（Ｒ−Ｙ）／Ｎ_B、 ...........（１１）
ΔＢ_K＝Σ（Ｂ−Ｙ）／Ｎ_B...........（１２）

のように、算出する。

ＷＢ制御量演算回路が算出したＷＢ制御量（ΔＲ_K，ΔＢ_K）を用いて、制御部１６のＷＢ調整命令出力回路（図示省略。）は、２Ｄ画像データにＡＷＢ調整を施す。具体的には、ＷＢ調整命令出力回路は、領域Kに含まれる各Ｒ画素、Ｂ画素の値を補正することによりホワイトバラスを調整する。例えば、

Ｒ'＝Ｒ−γΔＲ_K、 ...........（１３）
Ｂ'＝Ｂ−γΔＢ_K ...........（１４）

のように、補正値が算出される。ここで、γは補正係数であり、通常は１が採用されるが、ゲイン補正のフィードバックが効きすぎるときに1以下の小数値を採用する。このように、距離情報に従って区分された領域毎にＡＷＢ調整を実行すれば、被写体の特徴を適切に表現する色味を実現することが期待できる。特に奥行方向に沿って各々の被写体の照射環境が変化するようなシーンでは有効である。

特に、第１の実施の形態に係る画像処理方法においては、一つの領域に複数の被写体が含まれる場合には、画素毎にＷＢ制御量を算出する。その際、奥行方向の距離に従って区分された区分帯を用いる。例えば、撮像装置から予め定められた第１オブジェクト（第１対象物）までの距離区分を第１レンジとし、第１レンジに続く第２オブジェクト（第２対象物）までの距離区分を第２レンジ，第２レンジに続く第２オブジェクト（第２対象物）までの距離区分を第３レンジ、第３レンジから無限遠までの区分を第４レンジというように、距離を区分する。区分帯の区分幅は、装着されるフォーカスレンズ１１ｃの焦点距離等に応じて、適宜変更されてもよい。

区分帯には、例えばその区分の中央値をレンジ代表距離として定義することができる。例えば、第１レンジに対応する第１領域には第１レンジ代表距離が、第２レンジに対応する第２領域には第２レンジ代表距離が、第３レンジに対応する第３領域には第３レンジ代表距離が、第４レンジに対応する第４領域には第４レンジ代表距離が定義される。

算出部１７４は、各画素に対して距離を算出するので、ＷＢ制御量演算回路は、各画素に適用するＷＢ制御量を、画素の距離を利用して算出する。具体的には、対象となる画素Ｐの距離をＤｐとし、Ｄｐが第３レンジの距離Ｄｃと第４レンジの距離Ｄｄの間に存在する場合、その内分比に従って第３領域のＷＢ制御量Ｗｃと第４領域のＷＢ制御量Ｗｄを内分した値を画素ＰにおけるＷＢ制御量Ｗｐとして算出する。つまり、

Ｗｐ＝｛（Ｗｄ−Ｗｃ）／（Ｄｄ−Ｄｃ）｝・Ｄｐ＋（Ｄｄ・Ｗｃ−Ｄｃ・Ｗｄ）／（Ｄｄ−Ｄｃ） ...........（１５）

で、画素ＰにおけるＷＢ制御量Ｗｐを算出する。このようにして、画像処理部１７のＷＢ制御量演算回路が、すべての画素に対して各々ＷＢ制御量を算出する。そして、制御部１６のＷＢ調整命令出力回路が、その値を利用して各画素に対してＡＷＢ調整を実行する。すると、領域の境界で不連続となるＷＢ制御量が算出されないので、観察者に違和感を与えない、滑らかで自然な色味を提供することができる。

第１の実施の形態に係る画像処理方法においては、ＡＦ情報を利用して距離情報を絶対距離に換算して処理を実行できる。しかし、視差画像データにおけるそれぞれの被写体像間のずれ量は、相対的な距離差に比例するので、画像処理部１７は、絶対距離を用いなくても距離に応じたＡＷＢ調整を行うことができる。又、第１の実施の形態に係る画像処理方法によれば、各画素が距離情報を有するので、換言すればデプスマップを生成するので、ＡＷＢ調整において、距離情報を加味した視覚効果を付与することもできる。

（その他の実施の形態）
上記のように、本発明は第１の実施形態によって記載したが、この開示の一部をなす論述及び図面は本発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。

既に述べた第１の実施形態の説明においては、図２や図３に示した画像処理部１７は、図１に示した撮像装置の構成要素として示したが例示に過ぎない。第１の実施形態の説明のような、単一の撮像光学系（１１，３２）を経由した光束が視差Ｌ画素と視差Ｒ画素を有する撮像素子１２ａに入射することにより、ステレオ画像を取得する撮像装置に限定されず、ステレオ画像を取得するために２台以上の撮像装置を用いる手法、ＴＯＦ型イメージセンサを使う撮像装置、或いは赤外光の反射の角度から距離を計算するパターン照射の手法を用いた撮像装置等、図１に示した構成以外の種々の撮像装置や撮像システムの一部として、図２等に示した画像処理部１７を採用することが可能である。但し、第１の実施形態に係る撮像素子１２ａを用いた場合は、撮像素子１２ａの繰り返しパターン１１０ｔ、１１０ｕ、１１０ｓ、１１０ｅが不変なためキャリブレーションは不要であるという有利な効果や、撮像素子１２ａからはステレオ画像のみならず、非視差画像データであるカラー画像も同時に取得可能であるため、機械学習に用いる特徴量としてデプスマップとカラー画像とを簡単に取得できるという有利な効果がある。

又、図２等に示した画像処理部１７は、図１に示した撮像装置の構成要素として示したが、孤立したデバイスや汎用の画像処理装置として機能させることも可能である。図２等に示した画像処理部１７を単独の画像処理装置として機能させる場合は、画像データを入力する画像データ入力インターフェイスの他、操作者からの画像以外のデータや命令などの入力を受け付ける入力部と、画像処理結果を出力する出力部及び表示部と、画像処理に必要な所定のデータなどを格納したデータ記憶部と、画像処理プログラムなどを格納したプログラム記憶部等を更に含む構成としてもよい。画像データはＬＡＮ等の情報処理システムから入力するようにしてもよく、複数の携帯電話や携帯情報端末等から左視点方向画像データと右視点方向画像データを個別にワイヤレスで入力するようにしてもよい。

上記のように、画像処理部１７を単独の画像処理装置として機能させる場合、画像以外のデータ等を入力する入力部はキーボード、マウス、ライトペン又はフレキシブルディスク装置などで構成してもよい。入力部より画像処理の実行者は、入出力データを指定したり、特定の画素のデプス情報（距離情報）の誤差の程度を設定したりするようにしてもよい。更に、入力部より出力データの形態等の画像処理パラメータを設定することも可能で、又、画像処理に伴う演算の実行や中止等の指示の入力も可能である。又、出力部及び表示部は、それぞれプリンタ装置及びディスプレイ装置等により構成してもよい。出力部は入出力データや画像処理結果や画像処理パラメータ等を表示し、データ記憶部は入出力データや画像処理パラメータ及びその履歴や演算途中のデータ等を記憶するようにしてもよい。

画像処理部１７を単独の画像処理装置として機能させる場合においても、図９や図１２に示した一連の機械学習を伴う画像処理の操作は、図９や図１２と等価なアルゴリズムのプログラムにより、図１〜図３に示した撮像装置の画像処理部１７と等価なハードウェア資源と機能を制御して実行できる。このプログラムは、本発明の画像処理装置が構成するコンピュータシステムのプログラム記憶装置（図示省略）に記憶させればよい。又、このプログラムは、コンピュータ読取り可能な記録媒体に保存し、この記録媒体を画像処理装置のプログラム記憶装置に読み込ませることにより、本発明の一連の機械学習を伴う画像処理の操作を実行することができる。ここで、「コンピュータ読取り可能な記録媒体」とは、例えばコンピュータの外部メモリ装置、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのプログラムを記録することができるような媒体などを意味する。具体的には、フレキシブルディスク、ＣＤ−ＲＯＭ，ＭＯディスク、カセットテープ、オープンリールテープなどが「コンピュータ読取り可能な記録媒体」に含まれる。

画像処理部１７を単独の画像処理装置として機能させる場合、例えば、画像処理装置の本体は、フレキシブルディスク装置（フレキシブルディスクドライブ）及び光ディスク装置（光ディスクドライブ）を内蔵若しくは外部接続するように構成できる。フレキシブルディスクドライブに対してはフレキシブルディスクを、又光ディスクドライブに対してはＣＤ−ＲＯＭをその挿入口から挿入し、所定の読み出し操作を行うことにより、これらの記録媒体に格納されたプログラムを画像処理装置を構成するプログラム記憶装置にインストールすることができる。又、所定のドライブ装置を接続することにより、例えばＲＯＭや、磁気テープ装置としてのカセットテープを用いることもできる。更に、インターネット等の情報処理ネットワークを介して、このプログラムをプログラム記憶装置に格納することが可能である。

既に述べた第１の実施形態の説明においては、検出対象とするオブジェクト（対象物）が人である場合について説明したが例示に過ぎない。人の画像は、衣服の模様や色彩、人の体格、向き、姿勢などの個人差、視点の変化、照明の影響により、見えの変化が大きくなるために第１の実施形態の説明における検出対象として例示するに好適であるためである。しかしながら、本発明の撮像装置や画像処理装置の検出対象は、人のパーツ（人体パーツ）であってもよく、人以外のペット、乗り物、動物等のオブジェクト（対象物）でも、全く同一のフレームワークで適用可能である。その場合も、模様や彩色が多様でオブジェクトクラス内の分散が大きく、クラス間の分散が小さいようなオブジェクト（対象物）に適用すると、デプス情報（距離情報）を用いた本発明の特徴や効果がより有効且つ顕著に発揮できる。したがって、本発明の画像処理方法、画像処理装置、撮像装置は、人以外のオブジェクト（対象物）であっても、多数のオブジェクト（対象物）に共通する特徴を抽出することが難しくなり、その結果、正しくオブジェクト（対象物）を検出することが難しくなるような被撮像物を検出対象とする場合に有利な効果を発揮するものである。

又、既に述べた第１の実施形態の説明においては、ＲＧＢの可視光の画像データを機械学習の手法で処理して画像認識する場合を例示的に説明したが可視光に限定されるものではない。本発明の撮像装置や画像処理装置の技術的思想は、赤外線やＸ線等他の波長領域の電磁波や超音波等を用いた撮像装置や画像処理装置に対しても、これらの他の波長領域の電磁波や超音波等に固有の特徴量を採用して機械学習することにより、適用可能である。その場合、ＲＧＢに対応した異なる３つの波長帯域の電磁波や超音波等を用いれば、擬似的なカラー画像を取得することも可能である。

このように、本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。したがって、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

（第２の実施形態）
第２の実施形態に係る撮像装置および画像処理部１７は、第１の実施形態に係る撮像装置および画像処理部１７と同様の構成を有している（図１、図２、図３参照）。第２の実施形態では、主に、デプスマップの生成を行わずに被写体検出を行う点で、第１の実施形態と異なる。第１の実施形態では、第１特徴抽出回路１７５ａは画像情報から特徴量を抽出し、第２特徴抽出回路１７５ｂは距離情報から特徴量を抽出する例について説明した。これに対して、第２の実施形態では、第１特徴抽出回路１７５ａは視差画像データから複数の第１特徴量を抽出し、第２特徴抽出回路１７５ｂは複数の第１特徴量から第２特徴量を算出する。第１特徴量および第２特徴量の詳細については後述する。なお、以下の説明において、第１の実施形態と同一である点については説明を省略する。

（画像処理方法）
図１９に示すフローチャート及び図２０に示す画像データフロー図（ＤＦＤ）を用いて、第２の実施形態に係る画像処理方法を説明する。

ステップＳ１１０において、撮像装置で被写体の像を撮像させ、記憶部１４に画像データを格納させる。画像処理部１７は、記憶部１４から画像データを読み出し、第１視点方向（左視点方向）の視差画像及び第２視点方向（右視点方向）の視差画像を画像情報（撮像情報）として取得する。

ステップＳ１２０において、画像処理部１７は、ステレオ画像生成処理部１７２およびカラー画像生成処理部１７３を用いて、左視点方向の画像情報と右視点方向の画像情報の各々で、色情報も含めて補間処理をする。画像処理部１７は、色情報も含めて補間処理をすることで、図２０に示すような左視差画像ＩＭ２１及び右視差画像ＩＭ２２を、カラー画像のステレオ画像として取得する。なお、輝度情報のみで十分に被写体認識を行うことができる場合は、Ｇ面のみを用いて、ステレオ画像を生成するようにしてもよい。カラー情報まで補間するよりも、その方が高速でもある。また、第１の実施形態ではステレオ画像からデプスマップの生成を行ったが、第２の実施形態ではデプスマップの生成を行わない。

ステップＳ１３０において、抽出部１７５の第１特徴抽出回路１７５ａは、左視差画像ＩＭ２１及び右視差画像ＩＭ２２の各々から特徴量抽出を行い、モノクロの特徴マップＩＭ２４、ＩＭ２５、ＩＭ２７及びＩＭ２８を生成する。抽出部１７５は、第１の実施形態の場合と同様に式（１）〜（５）に即した処理等を用いて、色情報等の特徴量を抽出する。第２の実施形態では、視差画像データから抽出される色情報等の特徴量を、低次元特徴量と呼ぶ。低次元特徴量は、例えば色情報、勾配強度の情報、勾配方向ヒストグラム、バイナリパターン情報などの特徴量である。すなわち、抽出部１７５は、左視差画像ＩＭ２１及び右視差画像ＩＭ２２それぞれから低次元特徴を抽出する。エッジ検出された特徴マップＩＭ２５およびＩＭ２８では、手前側の２人の人物のエッジが白線で明瞭に示されているが、奥の１人の人物のエッジは、上半身の部分がぼんやりしている。生成された特徴マップは、特徴情報記憶装置１４４に記憶される。ここで、第１の実施形態ではデプスマップから特徴マップの生成を行ったが、第２の実施形態ではデプスマップを用いた特徴マップの生成は行わない。

ステップＳ１４０において、画像処理部１７は、抽出部１７５が生成した特徴量マップを用いて機械学習の手法でウィンドウサーチをする。ステップＳ１４０における探索処理では、第１の実施形態の場合と同様に、大きさと解像度が異なる各スケールの特徴量マップに対し、矩形の検出ウィンドウ（領域）を用いてウィンドウサーチを実施する。抽出部１７５の第２特徴抽出回路１７５ｂは、各検出ウィンドウにおいて、低次元特徴量を用いて中次元特徴量を生成する。中次元特徴量は、低次元特徴量を用いて算出される特徴量である。より具体的には、中次元特徴量は、少なくとも２つの低次元特徴量を用いて、加算、減算、乗算、除算等の演算を行って算出される。また、抽出される複数の低次元特徴量のうちの最大値または最小値となる低次元特徴量を、中次元特徴量として用いるようにしてもよい。

ステップＳ１５０において、検出部１７６は、網羅的なウィンドウサーチをしながら各検出ウィンドウ内に、被写体が存在しないか識別処理をしていく。検出部１７６は、低次元特徴量から生成される中次元特徴量と、後述する中次元特徴量を用いた機械学習の結果により、画像データの中の被写体検出を行う。各検出ウィンドウでの探索結果は、探索処理データ記憶装置１４５に格納する。

ステップＳ１６０において、各検出ウィンドウで検出したオブジェクト（対象物）に関し、大きさの異なる全スケールでの全画素の探索が終了したか否かを判定する。ステップＳ１６０において、検出部１７６が全スケールでの全画素の探索が終了していないと判定した場合は、ステップＳ１４０に戻り、全スケールでの探索を実行する。ステップＳ１６０において、検出部１７６が全スケールでの全画素の探索が終了したと判定した場合は、探索結果を探索処理データ記憶装置１４５に格納した後、ステップＳ１７０に進む。

ステップＳ１７０において、画像処理部１７の統合処理部１７７は、各スケールで検出した検出ウィンドウ（被写体候補ウインドウ）を、統合処理する。統合処理部１７７は、例えば被写体検出候補ウィンドウを重ね合わせて最終的な検出結果を生成する。検出ウィンドウを統合処理した結果は、図２０に示すような最終検出結果画像ＩＭ２９等として出力画像記憶装置１４６に格納する。さらに、ステップＳ１７０において、画像処理部１７の検出結果出力部１７８は、ＬＣＤ駆動回路２０によって表示部１９に最終検出結果の画像ＩＭ２９を出力させる。図２０の最終検出結果画像ＩＭ２９は、本来カラー画像であるが、線画で画像ＩＭ２９を表現しているので最終検出結果の特徴が不明瞭になっているが、図２０において、太い黒い線（帯）で示した３つの矩形の枠は、検出されたオブジェクトを示す物体検出枠である。

検出部１７６による識別処理の具体例を、図２１に示す例を用いて説明する。図２１は、深さ２の増強ツリー（決定木）が、カスケード状に１０２４段直列に接続した状態を例示するものである。図２１に示すように、各増強決定木の各ノードに、中次元特徴値と閾値Th0,Th1,Th2、及びスコア(-1.2，１.2)；(-0.4，0.4)が紐づけられている。特徴量選択部１７６ｃが選択した中次元特徴量が、特徴量閾値選択部１７６ｄが選択した閾値Th0,Th1,Th2より大きいか小さいかで参照すべきノードが決定される。この直列接続された判別器のそれぞれにおいて、ノードの末端まで到達したスコアを積算（加算）し、次の判別器の増強決定木でも積算していく。この積算したスコアが０以下になった時点で、その検出ウィンドウ（領域）での探索を終了する。

中次元特徴は、大元の低次元特徴の(Color, GradMag, HOG等)から生成される。図２１に示すように、例えば、２枚の視差画像から生成された特徴マップから、被写体判別性のよい低次元特徴量のペアが選択される。図２１の右上に示すように、それら２つの特徴値の単純演算の結果を中次元特徴とする。これにより視差情報を含めた、２枚の画像間の共起性を検出器に組み込むことができる。このとき、２つの特徴ペアのみでなく、中次元特徴の生成関数も被写体識別が良いものを選ぶようにする。つまり厳密には、決定木の各ノードに対応付けられているものは、特徴のペア、中次元特徴を生成する関数（図２１ではf0,f1,f2）、および閾値である。図２１において、中次元特徴量の生成関数fiの入力X及びYは、Color, GradMag, HOG等のいずれかの低次元特徴量である。また、X及びYの添え字a及びbは、左視差画像及び右視差画像のうちのいずれかを示す。

同一の光学系から得られた視差画像を用いた場合やステレオカメラを用いた場合は、２枚の左/右視差画像間のデプスマップは水平方向のずれ量に対応する。第２の実施形態では、このずれ量を大まかに推定し被写体認識に利用するプロセスそのものを、機械学習の中に組み込む。第２の実施形態では、上述したように、特徴選択をする際に、左、右視差画像から少なくとも２点以上の特徴を選択し、それらを用いて演算を行うことで中次元特徴を生成する。中次元特徴は、例えば左、右視差画像から抽出される低次元特徴を用いて生成されるため、視差画像データにおけるそれぞれの被写体像間のずれ量に基づく特徴量となる。第２の実施形態に係る画像処理装置では、中次元特徴値を用いて被写体判別を実施することで、デプスマップ生成プロセスを省略することができる。

−−アダブーストによる機械学習−−
図２２に示すフローチャートに記載された手順を参照しながら、第２の実施形態に係る検出部１７６を用いたアダブーストによる増強決定木の作成手順と、その統計的学習の手法に必要なアルゴリズムを説明する。

ステップＳ２１０において、検出部１７６の画像入力部１７６ａは、正解画像と不正解画像の画像群を入力し、それぞれの画像から低次元特徴量を抽出する。正解画像と不正解画像の画像群、および抽出された特徴量は、探索処理データ記憶装置１４５に記憶させる。

ステップＳ２２０において、検出部１７６の重み初期化部１７６ｂは、アダブーストの機械学習の分類に用いるすべての画像サンプルの重みを初期化して均一化する。初期化された重みは、探索処理データ記憶装置１４５に格納する。

ステップＳ２３０において、検出部１７６の特徴量選択部１７６ｃは、探索処理データ記憶装置１４５から正解画像と不正解画像の特徴量を読み出し、ランダムに正解画像と不正解画像から低次元特徴量のペアを選択する。

ステップＳ２４０において、特徴量選択部１７６ｃは、ランダムに低次元特徴量のペアから中次元特徴を生成する関数を選択する。さらに、特徴量選択部１７６ｃは、生成された中次元特徴のそれぞれの分類効率を算出する。算出した分類効率は、探索処理データ記憶装置１４５に格納する。

ステップＳ２５０において、検出部１７６の特徴量閾値選択部１７６ｄは、正解画像と不正解画像がより良く分類されるように最も分類効率の高い中次元特徴量と、その中次元特徴量の算出に用いた低次元特徴ペア、中次元特徴量の生成関数、および閾値を選択する。閾値は、正解画像と不正解画像を分類するための中次元特徴量の閾値等である。選択された最も分類効率の高い特徴量とそのときの閾値等は、探索処理データ記憶装置１４５に格納する。このように、第２の実施形態に係る機械学習の学習プロセスにおいては、正解画像／不正解画像判別に有用な特徴ペア、中次元特徴の生成関数等が自動的に選択される。

ステップＳ２６０において、検出部１７６の重み更新部１７６ｅは、うまく識別できなかったサンプルの重みを増大させて、分類させるときに用いる重みを更新する。更新された分類の重みは、探索処理データ記憶装置１４５に格納する。

ステップＳ２７０において、検出部１７６の決定木数判定部１７６ｆは、予定の決定木の数分が生成されたかを判定する。ステップＳ２７０で予定の決定木の数分が生成されたと判定された場合はステップＳ２８０に進む。ステップＳ２７０で予定の決定木の数分が生成されていないと判定された場合は、ステップＳ２３０に戻る。

ステップＳ２８０において、検出部１７６のデータセット更新部１７６ｇは、識別処理が困難な不正解画像サンプルを、「識別困難画像サンプル」として抽出して、データセットを更新する。更新されたデータセットは、探索処理データ記憶装置１４５に格納する。

ステップＳ２９０において、決定木数判定部１７６ｆは、分類エラーが閾値以下であるかを判定する。ステップＳ２９０で分類エラーが閾値以下であると判定された場合は、探索結果を探索処理データ記憶装置１４５に格納した後、図２１に示すフローチャートの処理を終了する。ステップＳ２９０で分類エラーが閾値以下ではないと判定された場合は、ステップＳ２２０に戻り、新たなデータセットを用いて、機械学習の分類に用いるすべてのサンプルの重みを初期化して均一化する。

第２の実施形態に係る機械学習により生成した検出器による、被写体検出の実験結果を図２３の実線として示す。図２３は、人物シーンに対して上半身認識実験を行い、実験結果であるDETカーブを示したものである。横軸が画像一枚当たりの誤検出率(False Positive Per Image：ＦＰＰＩ) であり、縦軸が未検出率(Miss Rate)である。

図２３において、破線は、デプス情報を用いずにカラー情報のみで対象物検出を行う画像処理方法により被写体検出を行った場合のＤＥＴカーブである。実線は、視差画像を用いる第２の実施形態に係る画像処理方法により被写体検出を行った場合のＤＥＴカーブである。破線で示したカラー情報のみを用いて被写体検出を行った場合は、全体の面積に対するＤＥＴ曲線の下の面積の比率は６６％である。これに対して、実線で示した第２の実施形態による画像処理方法を用いて被写体検出を行った場合は、全体の面積に対するＤＥＴ曲線の下の面積の比率は５１％である。よって、第２の実施形態による画像処理方法の方が被写体認識の性能がよくなっていることが分かる。第２の実施形態による画像処理方法では、カラー情報のみによる被写体検出から１５％も被写体認識の性能が向上している。第２の実施形態によるアルゴリズムを用いた場合の被写体認識の性能は、現状において、カラー情報だけを用いたアルゴリズムによる被写体検出の中の世界トップレベルに匹敵する性能である。

上述した実施形態によれば、次の作用効果が得られる。
（１）画像処理部１７（画像処理装置）は、被写体を撮像した視差画像データから複数の第１特徴量を抽出する第１特徴抽出回路１７５ａ（第１特徴量抽出部）と、第１特徴抽出回路１７５ａにより抽出された複数の第１特徴量から第２特徴量を算出する第２特徴抽出回路１７５ｂ（第２特徴量算出部）と、第２特徴抽出回路１７５ｂにより算出された第２特徴量と機械学習の結果とにより、被写体を撮像した画像データ中の対象物の検出を行う検出部１７６と、を備える。第２の実施形態では、画像処理部１７は、視差画像データから低次元特徴量を抽出し、低次元特徴量から算出される中次元特徴量を用いて被写体検出を行う。このようにしたので、図２３に示すように被写体を高精度に検出することができる。
（２）中次元特徴量は、視差画像データにおけるそれぞれの被写体像間のずれ量に基づく特徴量となる。このため、第１の実施形態で示したようなデプスマップ生成プロセスを省略することができる。また、デプスマップの生成をしないことで、演算コストの低減、処理全体の高速化を図ることができる。

（３）視差画像データは、１つの光学系により撮像した視差画像データである。このため、画像処理部１７は、被写体像間のずれ量に基づく中次元特徴量を算出し、中次元特徴量を用いて被写体検出を行うことができる。
（４）第１特徴抽出回路１７５ａは、第１特徴量として、視差画像データから色に関する特徴量、輝度に関する特徴量のうちの少なくとも一つを抽出する。このようにしたので、色情報、勾配強度の情報、勾配方向ヒストグラム、バイナリパターン情報などの低次元特徴量を用いて、中次元特徴量を算出することができる。

（５）第２特徴抽出回路１７５ｂは、少なくとも２つの第１特徴量を用いて、加算、減算、乗算、除算のうちのいずれかの演算を行うことで、第２特徴量を算出する。第２の実施形態では、２つの低次元特徴量の単純演算の結果を中次元特徴量とする。このため、被写体判別を高速に行うことができる。
（６）第２特徴抽出回路１７５ｂは、複数の第１特徴量において最大値または最小値となる第１特徴量を第２特徴量とする。中次元特徴が比較的単純な方法によって生成されるため、被写体判別を高速に行うことができる。
（７）機械学習の結果は、複数の第２特徴量を用いた機械学習の結果を有する。検出部１７６は、第２特徴量と複数の第２特徴量を用いた機械学習の結果とにより、対象物の検出を行う。第２の実施形態では、第２特徴量を用いて機械学習を行い、分類効率の高い特徴量を選択して被写体検出器を構築する。第２特徴量と構築した被写体検出器を用いることにより、被写体を高精度に検出することができる。

１１…撮影レンズ
１１０ｅ，１１０ｓ，１１０ｔ，１１０ｕ…繰り返しパターン
１１ａ…主レンズ
１１ｂ…ズームレンズ
１１ｃ…フォーカスレンズ
１２ａ…撮像素子
１２ｂ…チップ搭載基板
１３…Ａ／Ｄ変換回路
１４…記憶部
１５…駆動部
１６…制御部
１７…画像処理部
１８…センサ
１８…ＡＦセンサ
１９…表示部
２０…ＬＣＤ駆動回路
２１…操作部
２２…メモリカード
２３…インターフェイス
３０ｂ…ズームモータ
３０ｃ…フォーカスモータ
３１ｂ，３１ｃ，３１ｄ…モータドライバ
３３…アイリスモータ
３４…タイミングジェネレータ
５１…配線層
５２…半導体チップ
１４１…ステレオ画像記憶装置
１４２…カラー画像記憶装置
１４３…距離情報記憶装置
１４４…特徴情報記憶装置
１４５…探索処理データ記憶装置
１４６…出力画像記憶装置
１７１…画像取得部
１７２…ステレオ画像生成処理部
１７３…カラー画像生成処理部
１７４…算出部
１７５…抽出部
１７５ａ…第１特徴抽出回路
１７５ｂ…第２特徴抽出回路
１７６…検出部
１７６ａ…画像入力部
１７６ｂ…初期化部
１７６ｃ…特徴量選択部
１７６ｄ…特徴量閾値選択部
１７６ｅ…更新部
１７６ｆ…決定木数判定部
１７６ｇ…データセット更新部
１７７…統合処理部
１７８…検出結果出力部

Claims

被写体を撮像した視差画像データから複数の第１特徴量を抽出する第１特徴量抽出部と、
前記第１特徴量抽出部により抽出された前記複数の第１特徴量から第２特徴量を算出する第２特徴量算出部と、
対象物と前記対象物の前記第２特徴量との機械学習の結果と、前記第２特徴量算出部により算出された前記第２特徴量とにより、前記被写体を撮像した画像データ中の対象物の検出を行う検出部と、を備え、
前記第２特徴量算出部は、少なくとも２つの前記第１特徴量を用いて、加算、減算、乗算、除算のうちのいずれかの演算を行うことで、前記第２特徴量を算出する、画像処理装置。
被写体を撮像した視差画像データから複数の第１特徴量を抽出する第１特徴量抽出部と、
前記第１特徴量抽出部により抽出された前記複数の第１特徴量から第２特徴量を算出する第２特徴量算出部と、
対象物と前記対象物の前記第２特徴量との機械学習の結果と、前記第２特徴量算出部により算出された前記第２特徴量とにより、前記被写体を撮像した画像データ中の対象物の検出を行う検出部と、を備え、
前記第２特徴量算出部は、前記複数の第１特徴量において最大値または最小値となる前記第１特徴量を前記第２特徴量とする、画像処理装置。
被写体を撮像した視差画像データから複数の第１特徴量を抽出する第１特徴量抽出部と、
前記第１特徴量抽出部により抽出された前記複数の第１特徴量から第２特徴量を算出する第２特徴量算出部と、
前記第２特徴量により前記被写体を撮像した画像データ中の対象物の検出を行う検出部と、を備え、
前記第２特徴量算出部は、少なくとも２つの前記第１特徴量を用いて、加算、減算、乗算、除算のうちのいずれかの演算を行うことで、前記第２特徴量を算出する、画像処理装置。
被写体を撮像した視差画像データから複数の第１特徴量を抽出する第１特徴量抽出部と、
前記第１特徴量抽出部により抽出された前記複数の第１特徴量から第２特徴量を算出する第２特徴量算出部と、
前記第２特徴量により前記被写体を撮像した画像データ中の対象物の検出を行う検出部と、を備え、
前記第２特徴量算出部は、前記複数の第１特徴量において最大値または最小値となる前記第１特徴量を前記第２特徴量とする、画像処理装置。
前記視差画像データは、１つの光学系により撮像した視差画像データである請求項１から４のいずれか一項に記載の画像処理装置。
前記第１特徴量抽出部は、前記第１特徴量として、前記視差画像データから色に関する特徴量、輝度に関する特徴量のうちの少なくとも一つを抽出する請求項１から５のいずれか一項に記載の画像処理装置。
前記機械学習の結果は、複数の前記第２特徴量を用いた機械学習の結果を有し、
前記検出部は、前記第２特徴量と前記複数の前記第２特徴量を用いた機械学習の結果とにより、前記対象物の検出を行う請求項１または２に記載の画像処理装置。
撮像光学系を介して、被写体の視差画像データと前記被写体の画像データとを撮像する撮像素子と、
前記視差画像データから複数の第１特徴量を抽出する第１特徴量抽出部と、
前記第１特徴量抽出部により抽出された前記複数の第１特徴量から第２特徴量を算出する第２特徴量算出部と、
前記第２特徴量により、前記画像データ中の対象物の検出を行う検出部と、を備え、
前記第２特徴量算出部は、少なくとも２つの前記第１特徴量を用いて、加算、減算、乗算、除算のうちのいずれかの演算を行うことで、前記第２特徴量を算出する、撮像装置。
撮像光学系を介して、被写体の視差画像データと前記被写体の画像データとを撮像する撮像素子と、
前記視差画像データから複数の第１特徴量を抽出する第１特徴量抽出部と、
前記第１特徴量抽出部により抽出された前記複数の第１特徴量から第２特徴量を算出する第２特徴量算出部と、
前記第２特徴量により、前記画像データ中の対象物の検出を行う検出部と、を備え、
前記第２特徴量算出部は、前記複数の第１特徴量において最大値または最小値となる前記第１特徴量を前記第２特徴量とする、撮像装置。