JP5375401B2

JP5375401B2 - 画像処理装置及び方法

Info

Publication number: JP5375401B2
Application number: JP2009171227A
Authority: JP
Inventors: 一記喜多
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2009-07-22
Filing date: 2009-07-22
Publication date: 2013-12-25
Anticipated expiration: 2029-07-22
Also published as: JP2011029763A

Description

本発明は、画像処理装置及び方法に関し、特に、複数のシーンの中から、撮影状況に適したシーンを識別する技術に関する。

従来より、カメラの撮影モードや撮影条件を設定する機能として、例えば「ピクチャモード」や「ＢＥＳＴＳＨＯＴ（登録商標）」などの機能が利用されている。「ピクチャモード」とは、複数のシーンの中からユーザが所望するシーンを、ユーザ操作に応じて選択する機能をいう。「ＢＥＳＴＳＨＯＴ」とは、シーン別の複数の見本画像の中から１枚が選択されると、選択された１枚に対応する撮影条件を設定する機能をいう。

一方、撮影距離やレンズ焦点距離などの撮影条件に基づいて、最適な露出プログラムモード（シーンのモード）を自動的に選択するという手法が、特許文献１に開示されている。特許文献１の手法によると、例えば撮影距離が遠い場合には「風景」のシーンが選択される。これに対して、例えば撮影距離が近い場合には「近接」のシーンが選択される。また、例えば撮影距離が所定範囲内であって、撮影倍率が所定範囲内の場合には、「人物」などのシーンが選択される。

特開平０９−２８１５４１号公報

しかしながら、「ピクチャモード」や「ＢＥＳＴＳＨＯＴ」の機能を用いる場合、ユーザの撮影意図や多様なシーンに対応するためにシーンの種類を細分化すると、それに伴い、ユーザの操作負担が増大してしまう。すなわち、ユーザは、細分化により増加した多数の種類のシーンの中から、所望の種類を手動で選択しなければならない。このように、ユーザにとっては、非常に手間と時間がかかる煩雑な操作が必要になる。

一方、特許文献１の手法を用いる場合、シーンが自動的に識別されるために、ユーザの操作負担はある程度軽減される。しかしながら、撮影シーンや被写体の状態は千差万別なので、多様なシーンや被写体を正確に識別することは実際上困難である。このため、特許文献１の手法では、シーンの誤識別が発生する。また、特許文献１の手法とは、限定された数少ない種類の中から１つの種類を識別する手法にしか過ぎない。したがって、特許文献１の手法では、多様な撮影意図やシーンに対応できず、紋切型の撮影条件しか設定することができない。

以上まとめると、ユーザの操作負担を軽減しつつ、撮影状況にとって適切なシーンを識別することが要求されているが、かかる要求に十分に応えられていない状況である。

そこで、本発明は、ユーザの操作負担を軽減しつつ、撮影状況にとって適切なシーンを識別することを目的とする。

本発明の第１の観点によると、主要被写体を含む入力画像に対して、前記主要被写体に対応する画像領域を推定する推定部と、前記主要被写体に関する距離情報を取得する第１の取得部と、前記推定部により推定された前記主要被写体に対応する画像領域、及び、前記第１の取得部により取得された前記距離情報を用いて、前記主要被写体の３次元的な配置位置に関する３次元配置情報を生成する生成部と、一つのシーンにおける主要被写体の３次元配置情報をシーン毎に記憶している記憶部と、前記生成部により生成された３次元配置情報と前記記憶部に記憶されているシーン毎の３次元配置情報をそれぞれ比較して、前記記憶部に記憶されている複数シーンの中から、前記入力画像と一致するシーンの候補を選択する選択部とを備える画像処理装置を提供する。

本発明の第３の観点によると、前記主要被写体の所定の状態に関する状態情報を取得する第２の取得部をさらに備え、前記選択部は、前記シーンの候補を選択する場合に、さらに、前記第２の取得部により取得された前記状態情報を用いる画像処理装置を提供する。

本発明の第４の観点によると、前記第２の取得部は、前記状態情報として、前記主要被写体の輝度分布を取得する画像処理装置を提供する。

本発明の第５の観点によると、前記入力画像に前記主要被写体として含まれる人物の顔を検出する検出部をさらに備え、前記選択部は、前記シーンの候補を選択する場合に、さらに、前記検出部により検出された前記人物の顔を用いる画像処理装置を提供する。

本発明の第６の観点によると、前記主要被写体を撮影する撮影部をさらに備え、前記入力画像は、前記撮影部により前記主要被写体が撮影された結果得られる画像である画像処理装置を提供する。

本発明の第７の観点によると、前記選択部により選択された前記シーンの候補の中から、１つのシーンを決定する決定部と、前記決定部により決定された前記シーンを用いて、前記撮影部に対する撮影条件を設定する設定部とをさらに備える画像処理装置を提供する。
本発明の第８の観点によると、前記生成部により生成された３次元配置情報と前記記憶部に記憶されているシーン毎の３次元配置情報は、画像における主要被写体の水平方向及び垂直方向に対応する情報と、奥行き方向に対応する情報であることを特徴とする請求項１乃至７のうちの何れかに記載の画像処理装置を提供する。

本発明の第９の観点によると、一つのシーンにおける主要被写体の３次元配置情報をシーン毎に記憶している記憶部を備えた画像処理装置の画像処理方法であって、主要被写体を含む入力画像に対して、前記主要被写体に対応する画像領域を推定する推定ステップと、前記主要被写体に関する距離情報を取得する取得ステップと、前記推定ステップの処理により推定された前記主要被写体に対応する画像領域、及び、前記取得ステップの処理により取得された前記距離情報を用いて、前記主要被写体の３次元的な配置位置に関する３次元配置情報を生成する生成ステップと、前記生成ステップの処理により生成された３次元配置情報と前記記憶部に記憶されているシーン毎の３次元配置情報をそれぞれ比較して、前記記憶部に記憶されている複数シーンの中から、前記入力画像と一致するシーンの候補を選択する選択ステップとを含む画像処理方法を提供する。

本発明によれば、ユーザの操作負担を軽減しつつ、撮影状況にとって適切なシーンを識別することができる

本発明の第１実施形態に係る画像処理装置のハードウェアの構成図である。本発明の第１実施形態におけるシーン自動識別処理の概略を説明する図である。本発明の第１実施形態における撮影モード処理の流れの一例を示すフローチャートである。本発明の第１実施形態に係る画像処理装置の液晶ディスプレイの表示例を示す図である。本発明の第１実施形態に係る画像処理装置に予め記憶されたテーブル情報の一例を示す図である。本発明の第１実施形態における撮影モード処理のうちのシーン自動識別処理の流れの詳細例を示すフローチャートである。本発明の第１実施形態における撮影モード処理のうちの注目点領域推定処理の流れの詳細例を示すフローチャートである。本発明の第１実施形態における撮影モード処理のうちの特徴量マップ作成処理の流れの一例を示すフローチャートである。本発明の第１実施形態における撮影モード処理のうちの特徴量マップ作成処理の流れの別の例を示すフローチャートである。図９の特徴量マップ作成処理が適用された場合の図７の注目点領域推定処理の結果の具体例を示す図である。シーン比較照合処理の流れの詳細例を示すフローチャートである。処理対象画像データについての主要被写体の３次元配置情報の構成例を示す図である。

〔第１実施形態〕
以下、本発明の第１実施形態を図面に基づいて説明する。
図１は、本発明の第１実施形態に係る画像処理装置１００のハードウェアの構成を示す図である。画像処理装置１００は、例えばデジタルカメラにより構成することができる。

画像処理装置１００は、光学レンズ装置１と、シャッタ装置２と、アクチュエータ３と、ＣＭＯＳセンサ４と、ＡＦＥ５と、ＴＧ６と、ＤＲＡＭ７と、ＤＳＰ８と、ＣＰＵ９と、ＲＡＭ１０と、ＲＯＭ１１と、液晶表示コントローラ１２と、液晶ディスプレイ１３と、操作部１４と、メモリカード１５と、測距センサ１６と、測光センサ１７と、を備える。

光学レンズ装置１は、例えばフォーカスレンズやズームレンズなどで構成される。フォーカスレンズは、ＣＭＯＳセンサ４の受光面に被写体像を結像させるためレンズである。

シャッタ装置２は、例えばシャッタ羽根などから構成される。シャッタ装置２は、ＣＭＯＳセンサ４へ入射する光束を遮断する機械式のシャッタとして機能する。シャッタ装置２はまた、ＣＭＯＳセンサ４へ入射する光束の光量を調節する絞りとしても機能する。アクチュエータ３は、ＣＰＵ９による制御にしたがって、シャッタ装置２のシャッタ羽根を開閉させる。

ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサ４は、例えばＣＭＯＳ型のイメージセンサなどから構成される。ＣＭＯＳセンサ４には、光学レンズ装置１からシャッタ装置２を介して被写体像が入射される。そこで、ＣＭＯＳセンサ４は、ＴＧ６から供給されるクロックパルスにしたがって、一定時間毎に被写体像を光電変換（撮影）して画像信号を蓄積し、蓄積した画像信号をアナログ信号として順次出力する。

ＡＦＥ（ＡｎａｌｏｇＦｒｏｎｔＥｎｄ）５には、ＣＭＯＳセンサ４からアナログの画像信号が供給される。そこで、ＡＦＥ５は、ＴＧ６から供給されるクロックパルスにしたがって、アナログの画像信号に対し、Ａ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換処理などの各種信号処理を施す。各種信号処理の結果、ディジタル信号が生成され、ＡＦＥ５から出力される。

ＴＧ（ＴｉｍｉｎｇＧｅｎｅｒａｔｏｒ）６は、ＣＰＵ９による制御にしたがって、一定時間毎にクロックパルスをＣＭＯＳセンサ４とＡＦＥ５とにそれぞれ供給する。

ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７は、ＡＦＥ５により生成されるディジタル信号や、ＤＳＰ８により生成される画像データを一時的に記憶する。

ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）８は、ＣＰＵ９による制御にしたがって、ＤＲＡＭ７に記憶されたディジタル信号に対して、ホワイトバランス補正処理、γ補正処理、ＹＣ変換処理などの各種画像処理を施す。各種画像処理の結果、輝度信号と色差信号とでなる画像データが生成される。なお、以下、かかる画像データをフレーム画像データと称し、このフレーム画像データにより表現される画像をフレーム画像と称する。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９は、画像処理装置１００全体の動作を制御する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０は、ＣＰＵ９が各処理を実行する際にワーキングエリアとして機能する。ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１は、画像処理装置１００が各処理を実行するのに必要なプログラムやデータを記憶する。ＣＰＵ９は、ＲＡＭ１０をワーキングエリアとして、ＲＯＭ１１に記憶されているプログラムとの協働により各種処理を実行する。

液晶表示コントローラ１２は、ＣＰＵ９による制御にしたがって、ＤＲＡＭ７やメモリカード１５に記憶されているフレーム画像データをアナログ信号に変換して、液晶ディスプレイ１３に供給する。液晶ディスプレイ１３は、液晶表示コントローラ１２から供給されてくるアナログ信号に対応する画像として、フレーム画像を表示する。

また、液晶表示コントローラ１２は、ＣＰＵ９による制御にしたがって、ＲＯＭ１１などに予め記憶されている各種画像データをアナログ信号に変換して、液晶ディスプレイ１３に供給する。液晶ディスプレイ１３は、液晶表示コントローラ１２から供給されてくるアナログ信号に対応する画像を表示する。例えば本実施の形態では、各種シーンを特定可能な情報（以下、シーン情報と称する）の画像データがＲＯＭ１１に記憶されている。このため、図４を参照して後述するように、各種シーン情報が液晶ディスプレイ１３に適宜表示される。

操作部１４は、ユーザから各種ボタンの操作を受け付ける。操作部１４は、電源釦、十字釦、決定釦、メニュー釦、レリーズ釦などを備える。操作部１４は、ユーザから受け付けた各種ボタンの操作に対応する信号を、ＣＰＵ９に供給する。ＣＰＵ９は、操作部１４からの信号に基づいてユーザの操作内容を解析し、その操作内容に応じた処理を実行する。

メモリカード１５は、ＤＳＰ８により生成されたフレーム画像データを記録する。測距センサ１６は、ＣＰＵ９による制御にしたがって、被写体までの距離を検出する。測光センサ１７は、ＣＰＵ９による制御にしたがって、被写体の輝度（明るさ）を検出する。

このような構成を有する画像処理装置１００の動作モードとしては、撮影モードや再生モードを含む各種モードが存在する。ただし、以下、説明の簡略上、撮影モード時における処理（以下、撮影モード処理と称する）についてのみ説明する。なお、以下、撮影モード処理の主体は主にＣＰＵ９であるとする。

次に、図１の画像処理装置１００の撮影モード処理のうち、撮影条件の設定要素の１つであるシーンを自動的に識別する処理の概略について説明する。なお、以下、かかる処理を、シーン自動識別処理と称する。
図２は、シーン自動識別処理の概略を説明する図である。

図１の画像処理装置１００のＣＰＵ９は、撮影モードを開始させると、ＣＭＯＳセンサ４による撮影を継続させ、その間にＤＳＰ８により逐次生成されるフレーム画像データを、ＤＲＡＭ７に一時的に記憶させる。なお、以下、かかるＣＰＵ９の一連の処理を、スルー撮像と称する。
また、ＣＰＵ９は、液晶表示コントローラ１２などを制御して、スルー撮像時にＤＲＡＭ７に記録された各フレーム画像データを順次読み出して、それぞれに対応するフレーム画像を液晶ディスプレイ１３に表示させる。なお、以下、かかるＣＰＵ９の一連の処理を、スルー表示と称する。
以下の説明では、スルー撮像及びスルー表示により、例えば図２に示されるフレーム画像５１が液晶ディスプレイ１３に表示されているとする。

この場合、ステップＳａにおいて、ＣＰＵ９は、注目点領域推定処理として、例えば次のような処理を実行する。
すなわち、ＣＰＵ９は、フレーム画像５１に対応するフレーム画像データから複数種類の特徴量を抽出して、複数種類毎に特徴量マップをそれぞれ作成する。次に、ＣＰＵ９は、複数種類毎の特徴量マップを統合することで、顕著性マップを生成する。そして、ＣＰＵ９は、顕著性マップを用いて、フレーム画像５１の中から、人間の視覚的注意を引く可能性の高い画像領域（以下、注目点領域と称する）を推定する。例えば図２の例では、人物の被写体に対応する注目点領域６１と、風景（建築物）の被写体に対応する注目点領域６２とが推定されている。
ステップＳａの注目点領域推定処理は、後述する図６のステップＳ２７の処理に対応する。注目点領域推定処理の詳細については、図７乃至図１０を参照して後述する。

また、ステップＳｂにおいて、ＣＰＵ９は、測距処理として、例えば測距センサ１６などを制御して次のような処理を実行する。
すなわち、図２に示されるように、測距センサ１６は、ｎ個（ｎは２以上の整数値）の測距枠Ｄ１乃至Ｄｎ毎に、枠内に含まれる被写体までの距離を検出する。ＣＰＵ９は、測距センサ１６による測距枠Ｄ１乃至Ｄｎ毎の各検出結果を示す情報（以下、測距情報と称する）を、距離情報として取得する。例えば図２の例では、測距枠Ｄ１乃至Ｄｎ毎に距離情報７１がそれぞれ取得されている。
このように、距離情報としては、本実施の形態では測距情報が採用されている。しかしながら、距離情報は、特にこれに限定されず、その他、焦点レンズ駆動位置を示す情報（以下、焦点レンズ位置情報と称する）や、オートフォーカス枠の合焦コントラスト情報（以下、合焦情報と称する）であっても構わない。
ステップＳｂの処理は、後述する図６のステップＳ２２の処理に対応する。

次に、ステップＳｃにおいて、ＣＰＵ９は、３次元配置情報生成処理として、例えば次のような処理を実行する。
すなわち、ＣＰＵ９は、注目点領域に含まれる被写体を、主要被写体として認定する。例えば図２の例では、注目点領域６１に含まれる人物と、注目点領域６２に含まれる風景（建築物）とが、主要被写体として認定される。次に、ＣＰＵ９は、距離情報を用いて、各主要被写体までの３次元的な配置位置をそれぞれ認識し、それらの認識結果を示す情報を生成する。なお、以下、かかる認識結果を示す情報を、主要被写体の３次元配置情報と称する。例えば図２の例では、主要被写体の３次元配置情報９１が生成されている。ここでいう３次元とは、フレーム画像５１における水平方向及び垂直方向に対応する２次元と、距離情報７１に基づく奥行き方向に対応する１次元とをあわせた３次元をいう。
ステップＳｃの処理は、後述する図６のステップＳ２８の処理に対応する。

次に、ステップＳｄにおいて、ＣＰＵ９は、シーン比較照合処理として、例えば次のような処理を実行する。
すなわち、１のシーンにおける物体（主要被写体となり得るオブジェクト）の３次元的な配置位置に関する各種条件を示す情報（以下、３次元配置条件情報と称する）が、複数のシーン毎にＲＯＭ１１などに予め記憶されているとする。例えば図２の例では、シーン別の３次元配置条件情報９２がＲＯＭ１１などに予め記憶されているとする。
この場合、ＣＰＵ９は、主要被写体の３次元配置情報９１と、複数シーンの各３次元配置条件情報９２のそれぞれとを、１つずつ比較照合していく。そして、ＣＰＵ９は、比較照合の結果に基づいて、複数シーンの中から、撮影条件を設定するために用いるシーンの候補（以下、シーン候補と称する）をＰ個選択する。なお、Ｐは、１以上の整数値であって、設計者などが任意に設定し得る整数値である。

具体的には例えば、所定の１シーンの３次元配置条件情報９２には、複数の条件が含まれているとする。この場合、ＣＰＵ９は、主要被写体の３次元配置情報９１が複数の条件をそれぞれ満たすか否かを判定する。ＣＰＵ９は、複数の条件の全てを満たすと判断した場合、主要被写体の３次元配置情報９１に対応するフレーム画像５１に対して、その所定の１シーンは一致シーンであると認定する。また、ＣＰＵ９は、複数の条件のうちの一部（一定数以上の条件）を満たすと判断した場合、フレーム画像５１に対して、その所定の１シーンは類似シーンであると認定する。その際、ＣＰＵ９は、満たすと判定した条件の個数などに基づいて、その所定の１シーンについてのフレーム画像５１に対する一致度を求める。
このようにして、ＣＰＵ９は、複数シーンの中から、一致シーン又は類似シーンを検索することができる。そこで、ＣＰＵ９は、検索したシーンの中から、例えば一致度が上位Ｐ番目までのシーンを、シーン候補として選択する。
なお、シーンの比較照合の手法自体は、ここで説明した内容の手法に特に限定されず、任意の手法を採用することができる。
ステップＳｄのシーン比較照合処理は、後述する図６のステップＳ２９の処理に対応する。シーン比較照合処理の詳細については、図１１を参照して後述する。

このようなステップＳｄのシーン比較照合処理が実行された後、必要に応じて、ステップＳｅの細分類識別処理が実行される。

なお、細分類識別処理の前には、ステップＳｄのシーン比較照合処理に加えて、次のようなステップＳｆの測光処理も実行されているとする。
すなわち、図２に示されるように、測光センサ１７は、ｍ個（ｍは２以上の整数値）の測光枠ＢＶ１乃至ＢＶｍ毎に、枠内に含まれる被写体の輝度分布を検出する。ＣＰＵ９は、測光センサ１７による測光枠ＢＶ１乃至ＢＶｍ毎の各検出結果を示す情報（以下、測光情報と称する）を、輝度情報として取得する。例えば図２の例では、測光枠ＢＶ１乃至ＢＶｍ毎に輝度情報８１が取得されている。
このように、輝度情報としては、本実施の形態では測光情報が採用されている。しかしながら、輝度情報は、特にこれに限定されず、その他、フレーム画像データの輝度データに基づく情報などであっても構わない。

ここで、図２に示されるように、ステップＳｆの測光距離が実行された結果として、測光枠ＢＶ１乃至ＢＶｍ毎に輝度情報８１が取得されているとする。また、ステップＳｄのシーン比較照合処理が実行された結果として、Ｐ＝３個のシーン候補１０１乃至１０３が選択されたとする。ただし、「風景と人物」のシーン候補１０１が一致シーンであり、「逆光」のシーン候補１０２と「夜景と人物」のシーン候補１０３とがそれぞれ類似シーンであるとする。

この場合、一致シーンであるシーン候補１０１が、フレーム画像５１に対して最高の一致度を有するので、ステップＳｄのシーン比較照合処理の直後の段階では第１候補となる。しかしながら、一致度は、上述のごとく、主要被写体の３次元配置に基づいて求められたものであり、輝度情報の考慮がなされていない。そこで、ステップＳｅの細分類識別処理として、例えば次のような輝度情報を考慮した処理が実行される。
すなわち、ＣＰＵ９は、測光枠ＢＶ１乃至ＢＶｍ毎の輝度情報８１に基づいて、例えばフレーム画像５１全体の平均輝度を算出する。そして、ＣＰＵ９は、例えば平均輝度が所定の閾値よりも高い（明るい）場合、「風景と人物」のシーン候補１０１を第１候補として選択する。これに対して、ＣＰＵ９は、例えば平均輝度が所定の閾値よりも低い（暗い）場合、「夜景と人物」のシーン候補１０３を第１候補として選択する。
さらにまた、ＣＰＵ９は、測光枠ＢＶ１乃至ＢＶｍ毎の輝度情報８１に基づいて、例えば人物などの主要被写体の輝度、並びに、それ以外の背景領域の平均輝度及び最大輝度をそれぞれ算出する。そして、ＣＰＵ９は、例えば、主要被写体の輝度が背景領域の平均輝度より低い（暗い）場合、又は、主要被写体の輝度が背景領域の最大輝度よりも著しく低い（暗い）場合、「逆光シーン」のシーン候補１０２を第１候補として選択する。これに対して、ＣＰＵ９は、それ以外の場合、例えば上述した平均輝度に基づいて、「風景と人物」のシーン候補１０１又は「夜景と人物」のシーン候補１０３を第１候補として選択する。
このように、ステップＳｅの細分類識別処理が実行されると、主要被写体の３次元配置のみならず、輝度情報も考慮されて、シーン候補がさらに細かく分類されて選択される。その結果、第１候補としてより適切なシーン候補が選択される。

なお、ステップＳｅの細分類識別処理に適用する手法（以下、細分類識別手法と称する）自体は、上述した輝度情報を用いた手法に特に限定されず、多数のシーンを細かく分類識別することが可能な任意の手法を採用することができる。例えば、撮影距離Ｄ、又は、撮影距離Ｄと最短撮影距離Ｄｍｉｎとの比であるΔＤ＝Ｄ／Ｄｍｉｎを用いる手法は、細分類識別手法として採用可能である。また例えば、レンズ焦点距離ｆ、又は、レンズ焦点距離ｆと撮影距離Ｄとの比で決まる撮影倍率Ｍ＝ｆ／Ｄを用いる手法は、細分類識別手法として採用可能である。

なお、ステップＳｅの細分類識別処理と、その前処理のステップＳｆの測光処理とは、説明の便宜上、図６のシーン自動識別処理からは省略されている。しかしながら、ＣＰＵ９は、例えば、ステップＳｆの測光処理を事前に実行した上で、ステップＳ２９の処理後の適当なタイミングに、ステップＳｅの細分類識別処理を実行することができる。

以上、図２を参照して、画像処理装置１００が実行するシーン自動識別処理の概略について説明した。次に、図３乃至図１２を参照して、シーン自動識別処理を含む撮影モード処理全体について説明する。

図３は、撮影モード処理の流れの一例を示すフローチャートである。

撮影モード処理は、ユーザが撮影モードを選択する所定の操作を操作部１４に対して行った場合、その操作を契機として開始される。すなわち、次のような処理が実行される。

ステップＳ１において、ＣＰＵ９は、スルー撮像とスルー表示を行う。

ステップＳ２において、ＣＰＵ９は、シーン自動識別処理を実行することで、Ｐ個のシーン候補を選択する。シーン自動識別処理については、その概略は図２を参照して上述した通りであり、その詳細は図６を参照して後述する。

なお、図３には図示されていないが、例えば、画像処理装置１００には、シーンの自動識別モード、シーンの手動識別モード、及び、マニュアル露出モードが画像処理装置１００に搭載されている場合がある。このような場合、ＣＰＵ９は、シーンの自動識別モードが選択されたときにのみ、シーン自動識別処理を実行するようにしても良い。すなわち、ＣＰＵ９は、シーンの手動識別モード又はマニュアル露出モードが選択された場合、シーン自動識別処理の実行を禁止して、選択されたモードに対応する処理を実行するようにしても良い。

ステップＳ３において、ＣＰＵ９は、液晶表示コントローラ１２などを制御することで、選択されたＰ個のシーン候補を液晶ディスプレイ１３に表示させる。正確には、Ｐ個のシーン候補毎に、各々を特定可能なシーン特定情報が、例えば一致度が高い順に液晶ディスプレイ１３に表示される。

図４は、ステップＳ３の処理後の液晶ディスプレイ１３の表示例を示している。
図４に示されるように、液晶ディスプレイ１３には、主表示領域１１１と、サブ表示領域１１２とが設けられている。図４の例では、フレーム画像５１が主表示領域１１１に表示されている。また、シーン情報１２１乃至１２３が、上からその順番でサブ表示領域１１２に表示されている。
すなわち、シーン情報１２１乃至１２３が、フレーム画像５１に対して選択されたＰ＝３個のシーン候補をそれぞれ特定する情報である。具体的には、シーン情報１２１は、一致度が第１位のシーン候補（第１候補）を特定すべく、第１候補のシーン名称及び見本画像から構成されている。同様に、シーン情報１２２は、一致度が第２位のシーン候補（第２候補）を特定すべく、第２候補のシーン名称及び見本画像から構成されている。シーン情報１２３は、一致度が第３位のシーン候補（第３候補）を特定すべく、第３候補のシーン名称及び見本画像から構成されている。
なお、シーン情報の構成は、対応するシーン候補を特定可能な構成であれば足り、図４の例に限定されない。その他例えば、シーン候補の説明文をシーン情報として採用することもできる。

図３に戻り、ステップＳ４において、ＣＰＵ９は、Ｐ個のシーン候補の中から選択シーンを決定する。
具体的には例えば、図４の例では、サブ表示領域１１２に、シーンモードの選択マーク１３１が表示されている。したがって、ユーザは、操作部１４を操作することで、選択マーク１３１を、シーン情報１２１乃至１２３のうち所望の１つを指し示す位置に移動させることができる。そして、ユーザは、操作部１４に対して決定操作をすることで、シーン情報１２１乃至１２３のうち、選択マーク１３１が指し示すシーン情報を選択することができる。この場合、ＣＰＵ９は、ユーザにより選択されたシーン情報に対応するシーン候補を、選択シーンとして決定する。例えば図４の例では、選択マーク１３１が指し示すシーン情報１２１に対応するシーン候補（第１候補）が、選択シーンとして決定される。

図３に戻り、ステップＳ５において、ＣＰＵ９は、選択シーンに基づいて、撮影条件を設定する。

図５は、シーン毎の各種情報が格納されたテーブル情報の一例を示している。
例えば本実施の形態では、図５に示されるテーブル情報がＲＯＭ１１に予め記憶されているとする。
図５のテーブル情報には、「ＩＤ」、「シーン情報」、「３次元配置条件情報」、「撮影条件設定情報」、及び「画像補正条件設定情報」という各項目が設けられている。また、図５のテーブル情報において、所定の１行は所定の１シーンに対応している。
したがって、同一行の各項目には、所定の１シーンについての同名称の情報、すなわち、ＩＤ（Ｉｄｅｎｔｉｔｙ）、シーン情報、３次元配置条件情報、撮影条件設定情報、及び、画像補正条件設定情報のそれぞれが格納されている。

この場合、例えば上述した図４の例と同様にシーン情報１２１がユーザにより選択されたとすると、ＣＰＵ９は、図３のステップＳ４の処理として、３行目の「風景と人物」のシーンを選択シーンとして決定する。次に、ＣＰＵ９は、ステップＳ５の処理として、３行目の「風景と人物」のシーンの「撮影条件設定情報」の項目に格納された情報をＲＯＭ１１から読み出して、その情報に基づいて撮影条件を設定する。

ステップＳ６において、ＣＰＵ９は、レリーズ釦が半押しの状態であるか否かを判定する。
ユーザがレリーズ釦を半押ししていない場合、ステップＳ６においてＮＯであると判定され、処理はステップＳ１に戻され、それ以降の処理が繰り返される。すなわち、ユーザがレリーズ釦を半押しするまでの間、ステップＳ１乃至Ｓ６のループ処理が繰り返し実行される。

その後、ユーザがレリーズ釦を半押しすると、ステップＳ６においてＹＥＳであると判定されて、処理はステップＳ７に進む。ステップＳ７において、ＣＰＵ９は、撮影条件などに基づいてＡＦ（ＡｕｔｏｍａｔｉｃＦｏｃｕｓ）処理（オートフォーカス処理）を実行する。

ステップＳ８において、ＣＰＵ９は、レリーズ釦が全押しの状態であるか否かを判定する。

ユーザがレリーズ釦を全押ししていない場合、ステップＳ８においてＮＯであると判定され、処理はステップＳ１６に進む。ステップＳ１６において、ＣＰＵ９は、レリーズ釦が解除されたか否かを判定する。ユーザの指などがレリーズ釦から離された場合、ステップＳ１６においてＹＥＳであると判定されて、撮影モード処理は終了となる。これに対して、ユーザの指などがレリーズ釦から離されていない場合、ステップＳ１６においてＮＯであると判定されて、処理はステップＳ８に戻され、それ以降の処理が繰り返される。すなわち、レリーズ釦の半押し状態が継続している限り、ステップＳ８ＮＯ，Ｓ１６ＮＯのループ処理が繰り返し実行される。

その後、ユーザがレリーズ釦を全押しすると、ステップＳ８においてＹＥＳであると判定されて、処理はステップＳ９に進む。ステップＳ９において、ＣＰＵ９は、ＡＷＢ（ＡｕｔｏｍａｔｉｃＷｈｉｔｅＢａｌａｎｃｅ）処理（オートホワイトバランス処理）を実行する。ステップＳ１０において、ＣＰＵ９は、ＡＥ（ＡｕｔｏｍａｔｉｃＥｘｐｏｓｕｒｅ）処理（自動露出処理）を実行する。すなわち、測光センサ１７による測光情報や撮影条件などに基づいて、絞り、露出時間、ストロボ条件などが設定される。

ステップＳ１１において、ＣＰＵ９は、ＴＧ６やＤＳＰ８などを制御して、撮影条件などに基づいて露出及び撮影処理を実行する。この露出及び撮影処理により、撮影条件などにしたがってＣＭＯＳセンサ４により撮影された被写体像は、フレーム画像データとしてＤＲＡＭ７に記憶される。なお、以下、かかるフレーム画像データを撮影画像データと称し、また、撮影画像データにより表現される画像を撮影画像と称する。

ステップＳ１２において、ＣＰＵ９は、ＤＳＰ８などを制御して、撮影画像データに対して補正及び変更処理を施す。すなわち、ＣＰＵ９は、撮影条件などに基づいて、撮影画像データに対して、補正又は変更に必要な各種画像処理を適宜施す。例えば、ＣＰＵ９は、図５のテーブル情報において、選択シーンに対応する行の「画像補正条件設定情報」の項目に格納された情報をＲＯＭ１１から読み出す。そして、ＣＰＵ９は、その読み出した情報に基づいて、撮影画像データに対して補正処理を施す。

ステップＳ１３において、ＣＰＵ９は、液晶表示コントローラ１２などを制御して、撮影画像のレビュー表示処理を実行する。また、ステップＳ１４において、ＣＰＵ９は、ＤＳＰ８などを制御して撮影画像データの圧縮符号化処理を実行する。その結果、符号化画像データが得られることになる。そこで、ステップＳ１５において、ＣＰＵ９は、符号化画像データの保存記録処理を実行する。これにより、符号化画像データがメモリカード１５などに記録され、撮影モード処理が終了となる。

次に、撮影モード処理のうち、ステップＳ２のシーン自動識別処理の詳細例について説明する。

図６は、シーン自動識別処理の流れの詳細例を示すフローチャートである。

ステップＳ２１において、ＣＰＵ９は、スルー撮像により得られたフレーム画像データを、処理対象画像データとして入力する。

ステップＳ２２において、ＣＰＵ９は、測距処理を実行する。すなわち、上述した図２のステップＳｂに対応する処理が実行される。これにより、上述したように、処理対象画像データにおける各測距枠毎の距離情報が得られることになる。

ステップＳ２３において、ＣＰＵ９は、識別済ＦＬＡＧが１であるか否かを判定する。識別済ＦＬＡＧとは、前回のフレーム画像データについてシーン候補が選択済（識別済）であるか否かを示すフラグをいう。したがって、識別済ＦＬＡＧ＝０の場合、前回のフレーム画像データについてシーン候補が未選択である。このため、識別済ＦＬＡＧ＝０の場合、ステップＳ２３においてＮＯであると判定されて、ステップＳ２７乃至Ｓ２９の処理が実行され、その結果、処理対象画像データに対するシーン候補が選択される。ステップＳ２７乃至Ｓ２９の処理の詳細については後述する。

これに対して、識別済ＦＬＡＧ＝１の場合、前回のフレーム画像データについてシーン候補が選択済であるため、処理対象画像データに対するシーン候補の選択が不要になる場合もある。すなわち、ＣＰＵ９は、ステップＳ２７乃至Ｓ２９の処理を実行するか否かを判断する必要がある。このため、識別済ＦＬＡＧ＝１の場合、ステップＳ２３においてＹＥＳであると判定されて、処理はステップＳ２４に進み、次のような処理が実行される。

すなわち、ステップＳ２４において、ＣＰＵ９は、処理対象画像データと前回のフレーム画像データとを比較する。ステップＳ２５において、ＣＰＵ９は、撮影条件又は被写体状態に、所定以上の変化があるか否かを判定する。撮影条件及び被写体状態に所定以上の変化がない場合、ステップＳ２５においてＮＯであると判定されて、ステップＳ２７乃至Ｓ２９の処理は実行されずに、シーン自動識別処理は終了となる。

これに対して、撮影条件と被写体状態のうち少なくとも一方に所定以上の変化がある場合、ステップＳ２５においてＹＥＳであると判定されて、処理はステップＳ２６に進む。ステップＳ２６において、ＣＰＵ９は、識別済ＦＬＡＧを０に変更する。これにより、次のようなステップＳ２７乃至Ｓ２９の処理が実行される。

ステップＳ２７において、ＣＰＵ９は、注目点領域推定処理を実行する。すなわち、上述した図２のステップＳａに対応する処理が実行される。これにより、上述したように、処理対象画像データについての注目点領域が得られることになる。なお、注目点領域推定処理の詳細例については、図７乃至図１０を参照して後述する。

ステップＳ２８において、ＣＰＵ９は、注目点領域と、ステップＳ２２の処理の結果得られた各距離情報とに基づいて、処理対象画像データについての主要被写体の３次元配置情報を生成する。すなわち、上述した図２のステップＳｃに対応する処理が実行される。

ステップＳ２９において、ＣＰＵ９は、処理対象画像データについての主要被写体の３次元配置情報を用いて、シーン比較照合処理を施す。すなわち、上述した図２のステップＳｄに対応する処理が実行される。これにより、上述したように、処理対象画像データに対してＰ個のシーン候補が選択される。その後、シーン自動識別処理は終了し、すなわち、図３のステップＳ２の処理は終了し、上述したステップＳ３以降の処理が実行される。なお、シーン比較照合処理の詳細例については、図１１を参照して後述する。

次に、図６のシーン自動識別処理のうち、ステップＳ２７（図２のステップＳａ）の注目点領域処理の詳細例について説明する。

上述したように、注目点領域推定処理では、注目点領域の推定のために、顕著性マップが作成される。したがって、注目点領域推定処理に対して、例えば、Ｔｒｅｉｓｍａｎの特徴統合理論や、Ｉｔｔｉ及びＫｏｃｈらによる顕著性マップを適用することができる。
なお、Ｔｒｅｉｓｍａｎの特徴統合理論については、「Ａ．Ｍ．ＴｒｅｉｓｍａｎａｎｄＧ．Ｇｅｌａｄｅ，“Ａｆｅａｔｕｒｅ―ｉｎｔｅｇｒａｔｉｏｎｔｈｅｏｒｙｏｆａｔｔｅｎｔｉｏｎ”，ＣｏｇｎｉｔｉｖｅＰｓｙｃｈｏｌｏｇｙ，Ｖｏｌ．１２，Ｎｏ．１，ｐｐ．９７−１３６，１９８０．」を参照すると良い。
また、Ｉｔｔｉ及びＫｏｃｈらによる顕著性マップについては、「Ｌ．Ｉｔｔｉ，Ｃ．Ｋｏｃｈ，ａｎｄＥ．Ｎｉｅｂｕｒ，“ＡＭｏｄｅｌｏｆＳａｌｉｅｎｃｙ−ＢａｓｅｄＶｉｓｕａｌＡｔｔｅｎｔｉｏｎｆｏｒＲａｐｉｄＳｃｅｎｅＡｎａｌｙｓｉｓ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＶＯｌ．２０，Ｎｏ１１，Ｎｏｖｅｍｂｅｒ１９９８．」を参照すると良い。

図７は、Ｔｒｅｉｓｍａｎの特徴統合理論やＮｉｔｔｉ及びＫｏｃｈらによる顕著性マップを適用した場合における、注目点領域推定処理の流れの詳細例を示すフローチャートである。

ステップＳ４１において、ＣＰＵ９は、処理対象画像データを取得する。なお、ここで取得される処理対象画像データとは、図６のステップＳ２１の処理で入力された処理対象画像データを意味する。

ステップＳ４２において、ＣＰＵ９は、ガウシアン解像度ピラミット（ＧａｕｓｓｉａｎＲｅｓｏｌｕｔｉｏｎＰｙｒａｍｉｄ）を作成する。具体的には例えば、ＣＰＵ９は、処理対象画像データ｛（ｘ，ｙ）の位置の画素データ｝をＩ（０）＝Ｉ（ｘ，ｙ）として、ガウシアンフィルタ処理とダウンサンプリング処理とを順次繰り返し実行する。その結果として、階層型のスケール画像データＩ（Ｌ）（例えばＬ∈｛０・・・８｝）の組が生成される。この階層型のスケール画像データＩ（Ｌ）の組が、ガウシアン解像度ピラミッドと称されている。ここで、スケールＬ＝ｋ（ここではｋは１乃至８のうちの何れかの整数値）の場合、スケール画像データＩ（ｋ）は、１／２^ｋの縮小画像（ｋ＝０の場合は原画像）を示す。

ステップＳ４２において、ＣＰＵ９は、各特徴量マップ作成処理を開始する。すなわち、ＣＰＵ９は、処理対象画像データについて、例えば色、方位、輝度などの複数種類の特徴量のコントラストから、複数種類の特徴量マップを作成することができる。このような複数種類のうち所定の１種類の特徴量マップを作成するまでの一連の処理が、ここでは、特徴量マップ作成処理と称されている。各特徴量マップ作成処理の詳細例については、図８や図９を参照して後述する。

ステップＳ４４において、ＣＰＵ９は、全ての特徴量マップ作成処理が終了したか否かを判定する。各特徴量マップ作成処理のうち１つでも処理が終了していない場合、ステップＳ４４において、ＮＯであると判定されて、処理はステップＳ４４に再び戻される。すなわち、各特徴量マップ作成処理の全処理が終了するまでの間、ステップＳ４４の判定処理が繰り返し実行される。そして、各特徴量マップ作成処理の全処理が終了して、全ての特徴量マップが作成されると、ステップＳ４４においてＹＥＳであると判定されて、処理はステップＳ４５に進む。

ステップＳ４５において、ＣＰＵ９は、各特徴量マップを線形和で結合して、顕著性マップＳ（ＳａｌｉｅｎｃｙＭａｐ）を求める。

ステップＳ４６において、ＣＰＵ９は、顕著性マップＳを用いて、処理対象画像データから注目領域を推定する。すなわち、一般に、主要被写体となる人物や撮影対象（ｏｂｊｅｃｔｓ）となる物体の多くは、背景（ｂａｃｋｇｒｏｕｎｄ）領域に比べ、顕著性（ｓａｌｉｅｎｃｙ）が高いと考えられる。そこで、ＣＰＵ９は、顕著性マップＳを用いて、処理対象画像データから顕著性（ｓａｌｉｅｎｃｙ）が高い領域を認識する。そして、ＣＰＵ９は、その認識結果に基づいて、人間の視覚的注意を引く可能性の高い領域、すなわち、注目点領域を推定する。このようにして、注目点領域が推定されると、注目点領域推定処理は終了する。すなわち、図６のステップＳ２７の処理は終了し、処理はステップＳ２８に進む。図２の例でいえば、ステップＳａの処理は終了し、処理はステップＳｃに進む。

次に、各特徴量マップ作成処理の具体例について説明する。

図８は、輝度、色、及び、方向性の特徴量マップ作成処理の流れの一例を示すフローチャートである。

図８Ａは、輝度の特徴量マップ作成処理の一例を示している。

ステップＳ６１において、ＣＰＵ９は、処理対象画像データに対応する各スケール画像から、各注目画素を設定する。例えば各注目画素ｃ∈｛２，３，４｝が設定されたとして、以下の説明を行う。各注目画素ｃ∈｛２，３，４｝とは、スケールｃ∈｛２，３，４｝のスケール画像データＩ（ｃ）上の演算対象として設定された画素をいう。

ステップＳ６２において、ＣＰＵ９は、各注目画素ｃ∈｛２，３，４｝の各スケール画像の輝度成分を求める。

ステップＳ６３において、ＣＰＵ９は、各注目画素の周辺画素ｓ＝ｃ＋δの各スケール画像の輝度成分を求める。各注目画素の周辺画素ｓ＝ｃ＋δとは、例えばδ∈｛３，４｝とすると、スケールｓ＝ｃ＋δのスケール画像Ｉ（ｓ）上の、注目画素（対応点）の周辺に存在する画素をいう。

ステップＳ６４において、ＣＰＵ９は、各スケール画像について、各注目画素ｃ∈｛２，３，４｝における輝度コントラストを求める。例えば、ＣＰＵ９は、各注目画素ｃ∈｛２，３，４｝と、各注目画素の周辺画素ｓ＝ｃ＋δ（例えばδ∈｛３，４｝）のスケール間差分を求める。ここで、注目画素ｃをＣｅｎｔｅｒと呼称し、注目画素の周辺画素ｓをＳｕｒｒｏｕｎｄと呼称すると、求められたスケール間差分は、輝度のＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄスケール間差分と呼称することができる。この輝度のＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄスケール間差分は、注目画素ｃが白で周辺画素ｓが黒の場合又はその逆の場合には大きな値をとるという性質がある。したがって、輝度のＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄスケール間差分は、輝度コントラストを表わすことになる。なお、以下、かかる輝度コントラストをＩ（ｃ，ｓ）と記述する。

ステップＳ６５において、ＣＰＵ９は、処理対象画像データに対応する各スケール画像において、注目画素に設定されていない画素が存在するか否かを判定する。そのような画素が存在する場合、ステップＳ６５においてＹＥＳであると判定されて、処理はステップＳ６１に戻され、それ以降の処理が繰り返される。

すなわち、処理対象画像データに対応する各スケール画像の各画素に対して、ステップＳ６１乃至Ｓ６５の処理がそれぞれ施されて、各画素の輝度コントラストＩ（ｃ，ｓ）が求められる。ここで、各注目画素ｃ∈｛２，３，４｝、及び、周辺画素ｓ＝ｃ＋δ（例えばδ∈｛３，４｝）が設定される場合、ステップＳ６１乃至Ｓ６５の１回の処理で、（注目画素ｃの３通り）×（周辺画素ｓの２通り）＝６通りの輝度コントラストＩ（ｃ，ｓ）が求められる。ここで、所定のｃと所定のｓについて求められた輝度コントラストＩ（ｃ，ｓ）の画像全体の集合体を、以下、輝度コントラストＩの特徴量マップと称する。輝度コントラストＩの特徴量マップは、ステップＳ６１乃至Ｓ６５のループ処理の繰り返しの結果、６通り求められることになる。このようにして、６通りの輝度コントラストＩの特徴量マップが求められると、ステップＳ６５においてＮＯであると判定されて、処理はステップＳ６６に進む。

ステップＳ６６において、ＣＰＵ９は、輝度コントラストＩの各特徴量マップを正規化した上で結合することで、輝度の特徴量マップを作成する。これにより、輝度の特徴量マップ作成処理は終了する。なお、以下、輝度の特徴量マップを、他の特徴量マップと区別すべく、ＦＩと記述する。

図８Ｂは、色の特徴量マップ作成処理の一例を示している。

図８Ｂの色の特徴量マップ作成処理は、図８Ａの輝度の特徴量マップ作成処理と比較すると、処理の流れは基本的に同様であり、処理対象が異なるだけである。すなわち、図８ＢのステップＳ８１乃至Ｓ８６のそれぞれの処理は、図８ＡのステップＳ６１乃至Ｓ６６のそれぞれに対応する処理であり、各ステップの処理対象が図８Ａとは異なるだけである。したがって、図８Ｂの色の特徴量マップ作成処理については、処理の流れの説明は省略し、以下、処理対象についてのみ簡単に説明する。

すなわち、図８ＡのステップＳ６２とＳ６３の処理対象は、輝度成分であったのに対して、図８ＢのステップＳ８２とＳ８３の処理対象は、色成分である。
また、図８ＡのステップＳ６４の処理では、輝度のＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄスケール間差分が、輝度コントラストＩ（ｃ，ｓ）として求められた。これに対して、図８ＢのステップＳ８４の処理では、色相（Ｒ／Ｇ，Ｂ／Ｙ）のＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄスケール間差分が、色相コントラストとして求められる。なお、色成分のうち、赤の成分がＲで示され、緑の成分がＧで示され、青の成分がＢで示され、黄の成分がＹで示されている。また、以下、色相Ｒ／Ｇについての色相コントラストを、ＲＧ（ｃ，ｓ）と記述し、色相Ｂ／Ｙについての色相コントラストを、ＢＹ（ｃ，ｓ）と記述する。
ここで、上述の例にあわせて、注目画素ｃが３通り存在して、周辺画素ｓが２通り存在するとする。この場合、図８ＡのステップＳ６１乃至Ｓ６５のループ処理の結果、６通りの輝度コントラストＩの特徴量マップが求められた。これに対して、図８ＢのステップＳ８１乃至Ｓ８５のループ処理の結果、６通りの色相コントラストＲＧの特徴量マップと、６通りの色相コントラストＢＹの特徴量マップとが求められる。
最終的に、図８ＡのステップＳ６６の処理で、輝度の特徴量マップＦＩが求められた。これに対して、図８ＢのステップＳ８６の処理で、色の特徴量マップが求められる。なお、以下、色の特徴量マップを、他の特徴量マップと区別すべく、ＦＣと記述する。

図８Ｃは、方向性の特徴量マップ作成処理の一例を示している。

図８Ｃの方向性の特徴量マップ作成処理は、図８Ａの輝度の特徴量マップ作成処理と比較すると、処理の流れは基本的に同様であり、処理対象が異なるだけである。すなわち、図８ＣのステップＳ１０１乃至Ｓ１０６のそれぞれの処理は、図８ＡのステップＳ６１乃至Ｓ６６のそれぞれに対応する処理であり、各ステップの処理対象が図８Ａとは異なるだけである。したがって、図８Ｃの方向性の特徴量マップ作成処理については、処理の流れの説明は省略し、以下、処理対象についてのみ簡単に説明する。

すなわち、ステップＳ１０２とＳ１０２３の処理対象は、方向成分である。ここで、方向成分とは、輝度成分に対してガウスフィルタφを畳み込んだ結果得られる各方向の振幅成分をいう。ここでいう方向とは、ガウスフィルタφのパラメターとして存在する回転角θにより示される方向をいう。例えば回転角θとしては、０°，４５°，９０°，１３５°の４方向を採用することができる。
また、ステップＳ１０４の処理では、方向性のＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄスケール間差分が、方向性コントラストとして求められる。なお、以下、方向性コントラストを、Ｏ（ｃ，ｓ，θ）と記述する。
ここで、上述の例にあわせて、注目画素ｃが３通り存在して、周辺画素ｓが２通り存在するとする。この場合、ステップＳ１０１乃至Ｓ１０５のループ処理の結果、回転角θ毎に、６通りの方向性コントラストＯの特徴量マップが求められる。例えば回転角θとして、０°，４５°，９０°，１３５°の４方向が採用されている場合には、２４通り（＝６×４通り）の方向性コントラストＯの特徴量マップが求められる。
最終的に、ステップＳ１０６の処理で、方向性の特徴量マップが求められる。なお、以下、方向性の特徴量マップを、他の特徴量マップと区別すべく、ＦＯと記述する。

以上説明した図８の特徴量マップ作成処理のより詳細な処理内容については、例えば、「Ｌ．Ｉｔｔｉ，Ｃ．Ｋｏｃｈ，ａｎｄＥ．Ｎｉｅｂｕｒ，“ＡＭｏｄｅｌｏｆＳａｌｉｅｎｃｙ−ＢａｓｅｄＶｉｓｕａｌＡｔｔｅｎｔｉｏｎｆｏｒＲａｐｉｄＳｃｅｎｅＡｎａｌｙｓｉｓ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＶＯｌ．２０，Ｎｏ１１，Ｎｏｖｅｍｂｅｒ１９９８．」を参照すると良い。

なお、特徴量マップ作成処理は、図８の例に特に限定されない。例えば、特徴量マップ作成処理として、明度、彩度、色相、及びモーションの各特徴量を用いて、それぞれの特徴量マップを作成する処理を採用することもできる。

また例えば、特徴量マップ作成処理として、マルチスケールのコントラスト、Ｃｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラム、及び、色空間分布の各特徴量を用いて、それぞれの特徴量マップを作成する処理を採用することもできる。

図９は、マルチスケールのコントラスト、Ｃｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラム、及び、色空間分布の特徴量マップ作成処理の一例を示すフローチャートである。

図９Ａは、マルチスケールのコントラストの特徴量マップ作成処理の一例を示している。
ステップＳ１２１において、ＣＰＵ９は、マルチスケールのコントラストの特徴量マップを求める。これにより、マルチスケールのコントラストの特徴量マップ作成処理は終了となる。
なお、以下、マルチスケールのコントラストの特徴量マップを、他の特徴量マップと区別すべく、Ｆｃと記述する。

図９Ｂは、Ｃｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラムの特徴量マップ作成処理の一例を示している。

ステップＳ１４１において、ＣＰＵ９は、異なるアスペクト比毎に、矩形領域の色ヒストグラムと、周辺輪郭の色ヒストグラムとを求める。アスペクト比自体は、特に限定されず、例えば｛０．５，０．７５，１．０，１．５，２．０｝などを採用することができる。

ステップＳ１４２において、ＣＰＵ９は、異なるアスペクト比毎に、矩形領域の色ヒストグラムと、周辺輪郭の色ヒストグラムとのカイ２乗距離を求める。ステップＳ１４３において、ＣＰＵ９は、カイ２乗距離が最大となる矩形領域の色ヒストグラムを求める。

ステップＳ１４４において、ＣＰＵ９は、カイ２乗距離が最大となる矩形領域の色ヒストグラムを用いて、Ｃｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラムの特徴量マップを作成する。これにより、Ｃｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラムの特徴量マップ作成処理は終了となる。
なお、以下、Ｃｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラムの特徴量マップを、他の特徴量マップと区別すべく、Ｆｈと記述する。

図９Ｃは、色空間分布の特徴量マップ作成処理の一例を示している。

ステップＳ１６１において、ＣＰＵ９は、色空間分布について、水平方向の分散を計算する。また、ステップＳ１６２において、ＣＰＵ９は、色空間分布について、垂直方向の分散を計算する。そして、ステップＳ１６３において、ＣＰＵ９は、水平方向の分散と垂直方向の分散とを用いて、色の空間的な分散を求める。

ステップＳ１６４において、ＣＰＵ９は、色の空間的な分散を用いて、色空間分布の特徴量マップを作成する。これにより、色空間分布の特徴量マップ作成処理は終了となる。
なお、以下、色空間分布の特徴量マップを、他の特徴量マップと区別すべく、Ｆｓと記述する。

以上説明した図９の特徴量マップ作成処理のより詳細な処理内容については、例えば、「Ｔ．Ｌｉｕ，Ｊ．Ｓｕｎ，Ｎ．Ｚｈｅｎｇ，Ｘ．Ｔａｎｇ，Ｈ．Ｓｕｍ，“ＬｅａｒｎｉｎｇｔｏＤｅｔｅｃｔＡＳａｌｉｅｎｔＯｂｊｅｃｔ”，ＣＶＰＲ０７，ｐｐ．１−８，２００７．」を参照すると良い。

図１０は、図９の特徴量マップ作成処理が適用された場合における、図７の注目点領域推定処理の結果の具体例を示している。

図７のステップＳ４１の処理の結果として、図１０に示されるようなフレーム画像１５１に対応するフレーム画像データが、処理対象画像データとして取得されたとする。この場合、図９Ａのマルチスケールのコントラストの特徴量マップ作成処理の結果、図１０に示されるような特徴量マップＦｃが作成される。また、図９ＢのＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラムの特徴量マップ作成処理の結果、図１０に示されるような特徴量マップＦｈが作成される。また、図９Ｃの色空間分布の特徴量マップ作成処理の結果、図１０に示されるような特徴量マップＦｓが作成される。

次に、ステップＳ４５の処理で、これらの特徴量マップＦｃ，Ｆｈ，Ｆｓが線形和で結合され、その結果、図１０に示されるような顕著性マップＳが求められる。そして、ステップＳ４６の処理で、この顕著性マップＳを用いて、図１０に示されるような注目点領域１５２が推定される。

この場合、ＣＰＵ９は、例えば、フレーム画像１５１と注目点領域１５２とに基づいて、オートフォーカス用の枠（以下、ＡＦ枠と称する）として、図１０に示されるような枠１５３を推定することができる。ＡＦ枠１５３は、例えば図３のステップＳ７のＡＦ処理において用いられる。

図１０に示されるように、顕著性マップＳにより推定された注目点領域１５２だけを用いても、ＡＦ枠１５３の推定精度は良好であるといえる。しかしながら、シーン候補を識別する場合には、注目点領域１５２だけを用いると、図示はしないが、十分な識別精度を得ることができない。注目点領域１５２だけでは、不足点や難点があり、異なるシーンであっても、注目点領域１５２の２次元的な形状としては、同じような絵柄の領域であると誤認識される可能性があるからである。
すなわち、顕著性マップＳを用いた場合、視覚的注意を引きそうな対象は大略推定することが可能である。しかしながら、例えば、乱雑で複雑な背景や、コントラストが低い情景に対して顕著性マップＳを用いた場合、誤推定する可能性がある。したがって、このような誤推定を抑制するためには、顕著性マップＳの精度や解像度を向上させる必要がある。ところが、小型のデジタルカメラなどで構成される画像処理装置１００に対して顕著性マップＳを適用する場合、逆に、計算処理能力や要求処理時間といった制限が課される。したがって、このような場合、顕著性マップＳを生成するためには、撮像画像サイズや画像更新の周期を間引きしたり、特徴数や階層数などを削減したりする必要が生じる。その結果、顕著性マップＳの精度や解像度は、向上するどころかむしろ低下してしまうことになる。
以上まとめると、小型のデジタルカメラなどで構成される画像処理装置１００に対して顕著性マップＳを適用する場合、顕著性マップＳのみを用いて実現可能となるレベルは、ＡＦ枠の候補を推定する（合焦枠を自動選択する）レベル程度である。すなわち、顕著性マップＳのみを用いてシーンの自動識別をした場合、十分な性能、精度、信頼性などを得ることができない。

このため、シーンの自動識別の性能、精度、信頼性などを向上させるべく、本実施の形態では、注目点領域が推定された後さらに、図６のステップ２８の処理が実行される。すなわち、注目点領域のみならず、各分割領域毎（上述の例では各測距枠毎）の距離情報も考慮されて、主要被写体の３次元配置情報が生成される。そして、ステップＳ２９のシーン比較照合処理で、このような主要被写体の３次元配置情報が、各シーンの立体的な被写体配置パターン（３次元配置条件情報）と比較照合される。これにより、比較照合処理の結果選択されたＰ個のシーン候補は、スルー撮像のフレーム画像にとって適したシーンとなる。

図１１は、このようなシーン比較照合処理の流れの詳細例を示すフローチャートである。

ステップＳ１８１において、ＣＰＵ９は、シーン照合用の一次メモリをリセットする。なお、一次メモリの構築場所は、特に限定されないが、例えば本実施の形態では、図１のＲＡＭ１０であるとする。

ステップＳ１８２において、ＣＰＵ９は、複数シーンの中から所定の１シーンを、処理対象シーンとして設定する。

ステップＳ１８３において、ＣＰＵ９は、予め記録されている処理対象シーンの３次元配置条件情報を読み出す。例えば本実施の形態では、上述したように、図５のテーブル情報がＲＯＭ１１に予め記憶されている。そこで、ＣＰＵ９は、そのテーブル情報の「３次元配置条件情報」の項目に格納されている情報のうち、処理対象シーンに対応する行に格納されている情報を読み出す。

ステップＳ１８３において、ＣＰＵ９は、処理対象画像データについての主要被写体の３次元配置情報と、処理対象シーンの３次元配置条件情報とを比較照合する。

図１２は、ステップＳ１８３の処理で比較照合される主要被写体の３次元配置情報の構成例を示している。
図１２に示される主要被写体の３次元配置情報は、「画素座標」、「特徴量マップ」、「注目点領域（顕著性マップ）」、「距離／合焦情報（奥行き情報）」、「輝度情報など被写体情報」、及び「顔検出領域か否か」という各項目から構成されている。
図１２に示される主要被写体の３次元配置情報において、所定の１行は、処理対象画像データを構成する各画素値のうち所定の１つに対応している。したがって、同一行の各項目には、例えば、所定の１画素についての、画素位置（画素座標）、各特徴量マップのデータ、何れの注目点領域に属するのかについての情報、距離情報（測距情報）、測光情報、及び、顔検出領域か否かを示す情報がそれぞれ格納されている。なお、顔検出については、第２実施形態の説明として後述する。

図１１に戻り、ステップＳ１８５において、ＣＰＵ９は、ステップＳ１８４の比較照合の処理結果に基づいて、処理対象シーンは処理対象画像データと一致シーンであるか否かを判定する。

一致シーンであると判定された場合、すなわち、ステップＳ１８５においてＹＥＳであると判定された場合、処理はステップＳ１８６に進む。ステップＳ１８６において、ＣＰＵ９は、処理対象シーンのＩＤと一致度を一次メモリに記憶する。なお、処理対象シーンのＩＤは、図５のテーブル情報のうち、処理対象シーンに対応する行の「ＩＤ」の項目に格納されている。また、処理対象シーンの一致度は、ステップＳ１８４の比較照合の処理において、上述したように算出されている。その後、処理はステップＳ１９１に進む。ただし、ステップＳ１９１以降の処理については後述する。

これに対して、一致シーンでないと判定された場合、すなわち、ステップＳ１８５においてＮＯであると判定された場合、処理はステップＳ１８７に進む。ステップＳ１８７において、ＣＰＵ９は、ステップＳ１８４の比較照合の処理結果に基づいて、処理対象シーンは処理対象画像データと類似シーンであるか否かを判定する。

類似シーンでないと判定された場合、すなわち、ステップＳ１８７においてＮＯであると判定された場合、処理はステップＳ１９１に進む。ただし、ステップＳ１９１以降の処理については後述する。

これに対して、類似シーンであると判定された場合、すなわち、ステップＳ１８７においてＹＥＳであると判定された場合、処理はステップＳ１８８に進む。ステップＳ１８８において、ＣＰＵ９は、処理対象シーンと、前回までの最類似シーンとの一致度を比較する。前回までの最類似シーンとは、ステップＳ１８８の処理前の段階で、一致度が最も高かった類似シーンをいう。なお、本実施の形態では、前回までの最類似シーンのＩＤと一致度は例えば一次メモリ内に記憶されているとする。

ステップＳ１８９において、ＣＰＵ９は、ステップＳ１８８の比較の処理結果に基づいて、処理対象シーンが最類似シーンであるか否かを判定する。

処理対象シーンの一致度が、前回までの最類似シーンの一致度未満であった場合、ステップＳ１８９においてＮＯであると判定されて、処理はステップＳ１９１に進む。ただし、ステップＳ１９１以降の処理については後述する。

これに対して、処理対象シーンの一致度が、前回までの最類似シーンの一致度以上であった場合、ステップＳ１８９においてＹＥＳであると判定されて、処理はステップＳ１９０に進む。ステップＳ１９０において、ＣＰＵ９は、一次メモリ内の最類似シーンのＩＤと一致度とを、処理対象シーンのＩＤと一致度とに更新する。なお、一次メモリ内に最類似シーンのＩＤと一致度とが記憶されていない場合には、処理対象シーンのＩＤと一致度が、最類似シーンのＩＤと一致度として一次メモリに新たに記憶される。これにより、処理はステップＳ１９１に進む。

ステップＳ１９１において、ＣＰＵ９は、全シーンが処理対象シーンに設定されたか否かを判定する。処理対象シーンに設定されていないシーンが１つでも存在する場合、ステップＳ１９１においてＮＯであると判定されて、処理はステップ１８２に戻され、それ以降の処理が繰り返し実行される。すなわち、複数のシーンのそれぞれに対して、ステップＳ１８１乃至Ｓ１９１の処理が繰り返し実行される。そして、最終シーンに対する処理がステップＳ１９１まで進むと、ステップＳ１９１においてＹＥＳであると判定されて、処理はステップＳ１９２に進む。

ステップＳ１９２において、ＣＰＵ９は、一致シーン又は類似シーンが１つ以上あるか否かを判定する。

１以上のシーンのＩＤが一次メモリに記憶されている場合、ステップＳ１９２においてＹＥＳであると判定されて、処理はステップＳ１９３に進む。ステップＳ１９３において、ＣＰＵ９は、一致シーン又は類似シーンのうち、一致度が高い上位Ｐ個のシーンを、シーン候補として選択して出力する。例えば、Ｐ＝３の場合には、図４を参照して上述したように、３つのシーン候補の各シーン情報１２１乃至１２３が液晶ディスプレイ１３に表示される。次に、ステップＳ１９４において、ＣＰＵ９は、識別済ＦＬＡＧを１に設定する。

これに対して、シーンのＩＤが一次メモリに１つも記憶されていない場合、ステップＳ１９２においてＮＯであると判定されて、処理はステップＳ１９５に進む。ステップＳ１９５において、ＣＰＵ９は、識別失敗メッセージ、又は、デフォルト指定のシーン候補を出力する。次に、ステップＳ１９６において、ＣＰＵ９は、識別済ＦＬＡＧを０に設定する。

識別済ＦＬＡＧが、ステップＳ１９４の処理により１に設定されるか、又は、ステップＳ１９６の処理により０に設定されると、シーン比較照合処理は終了となる。すなわち、図６のステップＳ２９（図２のステップＳｄ）の処理が終了し、結果として、シーン自動識別処理全体も終了となる。したがって、図３の撮影モード処理においては、処理はステップＳ２からステップＳ３に進むことになる。

以上説明したように、第１実施形態に係る画像処理装置１００のＣＰＵ９は、主要被写体を含む入力画像に対して、入力画像から抽出された複数の特徴量に基づく顕著性マップを用いて、注目点領域を推定する機能を有している。ＣＰＵ９は、主要被写体に関する距離情報を取得する機能を有している。ＣＰＵ９は、注目点領域及び距離情報に基づいて、主要被写体の３次元配置情報を生成する機能を有している。ＣＰＵ９は、主要被写体の３次元配置情報と、複数シーン毎に予め生成されている３次元配置条件情報とを用いて、複数シーンの中から、画像データと一致するシーン候補を選択する機能を有している。

その結果、ユーザにとっては、従来のように撮影モードやピクチャモードを逐一選択するといった煩雑な操作をせずとも、情景中の条件に一致するようなシーン候補が自動的に識別されて提示される。したがって、ユーザにとっては、提示されたシーン候補の中から所望の１枚を選択シーンとして決定するといった簡便な操作をするだけで、選択シーンにとって最適な撮影条件などが自動的に設定される。このように、ユーザにとっては、従来に比較して使い勝手が向上する。すなわち、ユーザの操作負担が従来より軽減しつつ、撮影状況（情景中の条件）にとって適切なシーンを識別（選択）することが可能になる。

また、シーン候補の選択で用いられる注目点領域は、顕著性マップに基づいて生成される。顕著性マップは、人間の視覚野や視覚特性をモデルに模擬（シミュレーション）する手法にしたがって推定される。したがって、視野内に多数の物体があったり、高彩度で複雑な背景やごちゃごちゃと乱雑な背景があったりするような場合でも、人間が視覚的注意を向ける確率が高い注目点領域が抽出されるので、主要被写体の推定が可能になる。ただし、上述のごとく、注目点領域だけを用いた場合、主要被写体の推定が誤っている可能性もある。すなわち、注目点領域だけを用いた場合、ＡＦ枠の推定程度に対しては十分な精度を得ることができるものの、シーンの識別に対しては十分な精度を得ることができない。このため、第１実施形態においては、さらに、注目点領域のみならず距離情報も考慮したシーン候補が選択される。これにより、シーンの識別精度を、注目点領域だけを用いた場合と比較して向上させることができる。

また、主要被写体の３次元配置情報とは、主要被写体の２次元的な配置（注目点領域に基づく位置情報）と奥行き（距離情報）とから生成された情報である。したがって、主要被写体の３次元配置情報を用いることで、シーンを細かく分類して識別することが可能になる。さらに、複数の主要被写体毎の３次元配置情報を用いることで、シーンをより一段と細かく分類して識別することが可能になる。さらにまた、撮影画像に対してシーン候補が選択される場合、その撮影画像は如何なる撮影シーンなのか、その撮影画像には如何なる被写体が含まれているのか、３次元的な被写体分布の形状やパターンは如何なるものなのかなどを認識することが可能になる。そして、このような認識結果を用いることで、より具体的に、すなわち意味論的にシーン候補を類推して選択できるようになる。

さらに、第１実施形態の画像処理装置１００のＣＰＵ９は、主要被写体の輝度分布など、主要被写体の状態に関する状態情報を取得する機能を有している。したがって、ＣＰＵ９は、シーン候補を選択する場合、主要被写体の３次元配置情報と３次元配置条件情報とに加えてさらに、被写体の状態情報を用いることができる。

これにより、より多種多様なシーンを細かく分類識別することが可能になる。したがって、多数の具体的なシーン毎に、それぞれ最適な撮影条件や画像補正条件などを自動的に設定して、シーンに最適な撮影を行うことが容易に実現可能になる。また、主要被写体の状態情報をシーンの識別に加えることは、シーンの識別に必要な判断要素が増えることを意味するので、識別精度をより一段と向上させることが可能になる。

〔第２実施形態〕
次に、本発明の第２実施形態を説明する。
なお、本発明の第２実施形態に係る画像処理装置のハードウェアの構成は、第１実施形態に係る画像処理装置１００の図１のハードウェアの構成と基本的に同様である。また、ＣＰＵ９の機能も、第１実施形態のＣＰＵ９が有する上述した各種機能をそのまま有している。

第２実施形態に係る画像処理装置１００は、さらに、画像に含まれる人物の顔（領域）を検出する顔検出機能を有している。なお、顔の検出手法自体は、特に限定されず、任意の手法を採用できる。また、顔検出機能の搭載場所は、特に限定されず任意の場所で良い。ただし、以下の説明では、顔検出機能はＣＰＵ９に搭載されているとする。

この場合、第２実施形態に係るＣＰＵ９は、シーン候補を選択する場合、被写体の３次元配置情報と３次元配置条件情報とに加えてさらに、人物の顔の検出結果を用いることができる。

具体的には例えば、ＣＰＵ９は、所定の注目点領域内で人物の顔を検出した場合、その所定の注目点領域を人物の被写体の領域と判定する。そして、ＣＰＵ９は、このような判定をした場合には、「人物」などの人物が含まれるシーンを、シーン候補として選択する。

これに対して例えば、ＣＰＵ９は、各注目点領域の何れにおいても人物の顔を検出できなかった場合、各注目点領域を人物以外の被写体や物体の領域と判定する。そして、ＣＰＵ９は、このような判定をした場合には、「風景」や「オート撮影モード」などの人物が含まれないシーンを、シーン候補として選択する。

なお、ＣＰＵ９は、注目点領域として推定されなかった領域において人物の顔を検出した場合、その人物の顔の検出領域又はその周辺領域から輪郭を抽出する。そして、ＣＰＵ９は、輪郭を抽出した領域を、人物の顔を含む注目点領域として推定することもできる。すなわち、ＣＰＵ９は、このように追加推定された注目点領域も、シーンの候補の選択に利用することができる。

また、ＣＰＵ９は、人物の顔の検出領域（以下、顔検出領域と称する）を含まない注目点領域（以下、顔無注目点領域と称する）についても、他の領域の中に、顔検出領域を含む注目点領域（以下、顔有注目点領域と称する）が１以上あった場合、例えば次のような処理を実行する。すなわち、ＣＰＵ９は、顔有注目点領域と顔検出領域との重複領域において、所定の特徴量を抽出する。この場合の抽出手法は特に限定されず、例えば、マルチコントラスト特徴、色特徴、色空間分布特徴、輪郭形状などを採用することができる。次に、ＣＰＵ９は、その特徴量を、顔検出領域以外の領域において、同一種類の特徴量と比較する。ＣＰＵ９は、一定以上に類似する領域が見つかった場合、その領域を顔検出領域とみなす。そして、ＣＰＵ９は、顔検出領域とみなされた領域を含む顔無注目点領域を、顔有注目点領域とみなす。その後は、ＣＰＵ９は、顔有注目点領域（みなされた領域含む）を人物の被写体の領域と判定して、その判定結果に基づいて、シーン候補を選択する。

このように、第２実施形態では、シーン候補を選択するために、人物の顔の検出結果を利用することができる。これにより、一部の注目点領域の主要被写体の種別を具体的に判定した上で、撮影シーンの分類や識別ができる。その結果、シーンの識別がより一段と効率的かつ的確に行える。

また、注目点領域を推定する技術には、多数の物体があっても注目点領域が大略分かるという長所が存在する半面、何の物体であるのかまでは確定できないという短所や、人物の周囲などでは注目点領域が拡散してしまうという短所などが存在する。一方、顔検出の技術には、人物の顔の多くを的確に識別できるという長所が存在する半面、顔以外は識別できないという短所や、顔の向きや状態によっては認識できないという短所などが存在する。第２実施形態では、シーン識別のために、注目点領域を推定する技術と顔検出の技術とを組み合わせて用いているので、互いの短所を補い合うことができ、その結果、シーン識別の精度や信頼性をより一段と向上させることができる。

なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良などは本発明に含まれるものである。
例えば、上述した第１実施形態と第２実施形態では、本発明が適用される画像処理装置は、デジタルカメラとして構成される例として説明した。しかしながら、本発明は、デジタルカメラに特に限定されず、オブジェクトを含む画像と一致するシーンを識別する機能を有する電子機器一般に適用することができる。具体的には例えば、本発明は、ビデオカメラ、携帯型ナビゲーション装置、ポータブルゲーム機などに適用可能である。

また、第１実施形態と第２実施形態とを組み合わせても良い。例えば、シーンの識別は、被写体の３次元配置情報と３次元配置条件情報との比較結果、被写体の状態情報、及び、人物の顔の検出結果を組み合わせて行うこともできる。

上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータなどにネットワークや記録媒体からインストールされる。コンピュータは、専用のハードウェアに組み込まれているコンピュータであっても良い。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであっても良い。
このようなプログラムを含む記録媒体は、図示はしないが、ユーザにプログラムを提供するために装置本体とは別に配布されるリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体などで構成される。リムーバブルメディアは、例えば、磁気ディスク（フロッピディスクを含む）、光ディスク、又は光磁気ディスクなどにより構成される。光ディスクは、例えば、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）などにより構成される。光磁気ディスクは、ＭＤ（Ｍｉｎｉ−Ｄｉｓｋ）などにより構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図１のＲＯＭ１１や、図示せぬハードディスクなどで構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。

１００・・・画像処理装置、１・・・光学レンズ装置、２・・・シャッタ装置、３・・・アクチュエータ、４・・・ＣＭＯＳセンサ、５・・・ＡＦＥ、６・・・ＴＧ、７・・・ＤＲＡＭ、８・・・ＤＳＰ、９・・・ＣＰＵ、１０・・・ＲＡＭ、１１・・・ＲＯＭ、１２・・・液晶表示コントローラ、１３・・・液晶ディスプレイ、１４・・・操作部、１５・・・メモリカード、１６・・・測距センサ、１７・・・測光センサ

Claims

主要被写体を含む入力画像に対して、前記主要被写体に対応する画像領域を推定する推定部と、
前記主要被写体に関する距離情報を取得する第１の取得部と、
前記推定部により推定された前記主要被写体に対応する画像領域、及び、前記第１の取得部により取得された前記距離情報を用いて、前記主要被写体の３次元的な配置位置に関する３次元配置情報を生成する生成部と、
一つのシーンにおける主要被写体の３次元配置情報をシーン毎に記憶している記憶部と、
前記生成部により生成された３次元配置情報と前記記憶部に記憶されているシーン毎の３次元配置情報をそれぞれ比較して、前記記憶部に記憶されている複数シーンの中から、前記入力画像と一致するシーンの候補を選択する選択部と
を備える画像処理装置。
前記推定部は、主要被写体を含む入力画像に対して、前記入力画像から抽出された複数の特徴量に基づく顕著性マップを用いて注目点領域を推定することにより、前記主要被写体に対応する画像領域を推定する
請求項１に記載の画像処理装置。
前記主要被写体の所定の状態に関する状態情報を取得する第２の取得部をさらに備え、前記選択部は、前記シーンの候補を選択する場合に、さらに、前記第２の取得部により取得された前記状態情報を用いる
請求項１に記載の画像処理装置。
前記第２の取得部は、前記状態情報として、前記主要被写体の輝度分布を取得する
請求項３に記載の画像処理装置。
前記入力画像に前記主要被写体として含まれる人物の顔を検出する検出部をさらに備え、
前記選択部は、前記シーンの候補を選択する場合に、さらに、前記検出部により検出された前記人物の顔を用いる
請求項１乃至４のうちの何れかに記載の画像処理装置。
前記主要被写体を撮影する撮影部をさらに備え、
前記入力画像は、前記撮影部により前記主要被写体が撮影された結果得られる画像である
請求項１乃至５のうちの何れかに記載の画像処理装置。
前記選択部により選択された前記シーンの候補の中から、１つのシーンを決定する決定部と、
前記決定部により決定された前記シーンを用いて、前記撮影部に対する撮影条件を設定する設定部と
をさらに備える請求項６に記載の画像処理装置。
前記生成部により生成された３次元配置情報と前記記憶部に記憶されているシーン毎の３次元配置情報は、画像における主要被写体の水平方向及び垂直方向に対応する情報と、奥行き方向に対応する情報であることを特徴とする請求項１乃至７のうちの何れかに記載の画像処理装置。
一つのシーンにおける主要被写体の３次元配置情報をシーン毎に記憶している記憶部を備えた画像処理装置の画像処理方法であって、
主要被写体を含む入力画像に対して、前記主要被写体に対応する画像領域を推定する推定ステップと、
前記主要被写体に関する距離情報を取得する取得ステップと、
前記推定ステップの処理により推定された前記主要被写体に対応する画像領域、及び、前記取得ステップの処理により取得された前記距離情報を用いて、前記主要被写体の３次元的な配置位置に関する３次元配置情報を生成する生成ステップと、
前記生成ステップの処理により生成された３次元配置情報と前記記憶部に記憶されているシーン毎の３次元配置情報をそれぞれ比較して、前記記憶部に記憶されている複数シーンの中から、前記入力画像と一致するシーンの候補を選択する選択ステップと
を含む画像処理方法。