JP5040734B2

JP5040734B2 - 画像処理装置、画像記録方法およびプログラム

Info

Publication number: JP5040734B2
Application number: JP2008055575A
Authority: JP
Inventors: 要小川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-03-05
Filing date: 2008-03-05
Publication date: 2012-10-03
Anticipated expiration: 2028-03-05
Also published as: JP2009212980A; US8115816B2; CN101527794A; US20090225173A1

Description

本発明は、画像処理装置に関し、特に、画像から動物等の対象物を検出することが可能な画像処理装置および画像記録方法ならびに当該方法をコンピュータに実行させるプログラムに関する。

近年、人物等の被写体を撮像して撮像画像を生成し、この撮像画像を記録するデジタルスチルカメラ等の撮像装置が普及している。また、近年では、犬や猫等の動物に関心を持つ人が増えつつあり、これらの動物を自宅内で飼う家庭も多く存在する。

ここで、デジタルスチルカメラ等の撮像装置を用いて記録された撮像画像については、画像データとして保存することができるとともに、画像データの消去も容易であるため、最近では、興味のある対象物を頻繁に撮影する人も多く存在する。例えば、自宅内で飼っている動物を撮像することも広く行われている。

しかしながら、撮像の対象となる被写体が犬や猫等の動物である場合には、その動物が撮影者からの指示を理解できないため、撮影者がその動物に撮像装置を向けた場合でも、その動物が撮影者の好みの姿勢となるとは限らない。例えば、犬の顔の正面を撮影するため、撮影者が撮像装置をその犬の正面に向けた場合でも、その犬が顔の正面を撮像装置に向けてくれるとは限らない。また、その犬の顔の正面に撮影者が撮像装置を向けた場合でも、その犬が他の方向を向いてしまうおそれも考えられる。このため、例えば、犬や猫等の動物の顔の正面を撮影する場合には、その動物の顔の正面を撮像装置側に向かせることが重要となる。

そこで、例えば、ユーザによりレリーズボタンが半押しされると、被写体となるペットが興味を持つ音をカメラから出力し、そのペットがカメラに向いたと判断したユーザによりレリーズボタンが全押しされると、この全押しの際の被写体像を銀塩フィルムに露光させるカメラが提案されている（例えば、特許文献１参照。）。
特開２００２−１０７８０７号公報（図５）

上述の従来技術によれば、被写体となるペットが興味を持つ音を出力することにより、そのペットの興味をカメラ側に向かせる可能性を高めることができる。そして、そのペットの正面がカメラ側に向いた際に、ユーザがレリーズボタンを全押しすることにより、正面を向いたペットの撮像画像を記録することができる。

しかしながら、犬や猫等の動物は、少しの音の変化等に興味を持ち、その顔を撮像装置側に向けることが考えられるものの、すぐに別の方向を向いてしまうおそれもある。また、犬や猫等の動物は、落ち着きのない動きをすることが多く、レリーズボタンを全押しする適切なタイミングをユーザが捕らえることが困難であるおそれがある。

このように、撮影者からの指示を理解できない動物についてその顔の正面の撮像画像を記録するためには、その動物の顔が撮像装置側に向いた際における適切なタイミングで撮像画像を記録することが重要である。また、撮影者からの指示を理解できない赤ちゃんについても、同様に、赤ちゃんの顔が撮像装置側に向いた際における適切なタイミングで撮像画像を記録することが重要である。

そこで、本発明は、撮影者からの指示を理解できない対象物の画像を適切に記録することを目的とする。

本発明は、上記課題を解決するためになされたものであり、その第１の側面は、入力される入力画像に所定の対象物が含まれているか否かを判定するための複数の判定情報から、ユーザによる操作入力に基づいて少なくとも一つの判定情報を選択する選択手段と、上記入力画像から上記選択された判定情報に係る対象物を検出する検出手段と、上記検出手段により上記選択された判定情報に係る対象物が検出されたタイミングに基づいて、上記入力画像を記録手段に記録させる記録制御手段と、上記記録制御手段により入力画像が記録された際における当該入力画像の評価を行う画像評価手段と、上記画像評価手段による評価結果に応じて、上記選択された判定情報に係る対象物に関連付けられている音声情報を出力させる音声出力制御手段とを具備する画像処理装置および画像記録方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、ユーザによる操作入力に基づいて選択された対象物に係る判定情報を用いてその対象物を入力画像から検出すると、その対象物が検出されたタイミングに基づいて入力画像を記録させ、その記録時における入力画像の評価を行い、この評価結果に応じて音声情報を出力させるという作用をもたらす。
また、この第１の側面において、上記対象物には、上記画像評価手段により求められる複数の評価結果毎に異なる音声情報が関連付けられ、上記音声出力制御手段は、上記記録制御手段により入力画像が記録された際には、上記選択された判定情報に係る対象物に関連付けられている音声情報のうちから、当該入力画像に係る上記画像評価手段による評価結果に関連付けられている音声情報を出力させるようにしてもよい。これにより、入力画像が記録された際には、その入力画像に係る評価結果に関連付けられている音声情報を出力させるという作用をもたらす。

また、この第１の側面において、上記音声出力制御手段は、上記検出手段により上記選択された判定情報に係る対象物が検出されたタイミングに基づいて、上記選択された判定情報に係る対象物に関連付けられている音声情報を出力させるようにしてもよい。これにより、入力画像が記録された際に、検出された対象物に関連付けられている音声情報を出力させるという作用をもたらす。この場合において、上記対象物を動物の顔とし、上記音声情報を上記動物の鳴き声とするようにしてもよい。これにより、動物の顔を入力画像から検出すると、この検出された動物の鳴き声を出力させるという作用をもたらす。また、この場合において、上記対象物を人間の赤ちゃんの顔とし、上記音声情報を人間の赤ちゃんを呼びかける声とするようにしてもよい。これにより、赤ちゃんの顔を入力画像から検出すると、この赤ちゃんを呼びかける声を出力させるという作用をもたらす。

また、この第１の側面において、上記操作入力に基づいて複数の対象物のうちから複数の対象物を指定する指定手段をさらに具備し、上記記録制御手段は、上記指定された複数の対象物のうちの少なくとも一つの対象物が検出されたタイミングに基づいて上記入力画像を記録させるようにしてもよい。これにより、指定された複数の対象物のうちの少なくとも一つの対象物が検出されたタイミングに基づいて入力画像を記録させるという作用をもたらす。

また、この第１の側面において、上記操作入力を受け付けるためのタッチパネルをさらに具備するようにしてもよい。これにより、タッチパネルを用いて対象物が指定されるという作用をもたらす。

また、この第１の側面において、上記入力画像は撮像手段の撮像に基づいて生成され、上記検出された対象物に基づいて所定のパラメータを設定することにより、上記撮像手段を制御する撮像制御手段をさらに具備するようにしてもよい。これにより、検出された対象物に基づいて、所定のパラメータを設定することにより撮像制御を行うという作用をもたらす。

また、本発明の第２の側面は、ユーザによる操作入力に基づいて複数の対象物から少なくとも一つを選択する選択手段と、上記選択された対象物と当該対象物の向きとを、入力画像から検出する対象物検出手段と、上記選択された対象物が検出されたタイミングに基づいて、上記複数の対象物のそれぞれに関連付けられている音声情報のうちから、上記検出された対象物と当該対象物の向きとに関連付けられている音声情報を出力させる音声出力制御手段と、上記検出された対象物に係る上記音声情報が出力された後に上記入力画像を記録手段に記録させる記録制御手段とを具備する画像処理装置および画像記録方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、選択された対象物を入力画像から検出すると、この検出された対象物とその対象物の向きとに係る音声情報を出力させ、この音声情報が出力された後に入力画像を記録させるという作用をもたらす。

また、この第２の側面において、上記対象物検出手段は、上記選択された対象物の向きとして上記選択された対象物の正面または側面を上記入力画像から検出し、上記音声出力制御手段は、上記選択された対象物の側面が検出された際には上記選択された対象物と当該対象物の側面とに関連付けられている音声情報を出力させ、上記選択された対象物の正面が検出された際には上記選択された対象物と当該対象物の正面とに関連付けられている音声情報を出力させ、上記記録制御手段は、上記選択された対象物と当該対象物の正面とに関連付けられている音声情報が出力された後に上記入力画像を記録させるようにしてもよい。これにより、選択された対象物の正面または側面を入力画像から検出すると、この正面または側面が検出された対象物に係る音声情報を出力させ、選択された対象物の正面が検出された際に、この正面が検出された対象物に係る音声情報が出力されると、入力画像を記録させるという作用をもたらす。この場合において、上記音声出力制御手段は、上記選択された対象物の側面が検出された後に当該対象物の正面が検出されると当該正面が検出された対象物に係る上記音声情報を出力させるようにしてもよい。これにより、選択された対象物の側面が検出された後にその対象物の正面が検出されると、その対象物に係る音声情報を出力させるという作用をもたらす。

また、この第２の側面において、上記記録制御手段は、上記検出された対象物に係る上記音声情報が出力された直後における上記入力画像を記録させるようにしてもよい。これにより、検出された対象物に係る音声情報が出力された直後における入力画像を記録させるという作用をもたらす。

また、この第２の側面において、上記音声出力制御手段は、上記操作入力を受け付けた際に上記選択された対象物に関連付けられている音声情報を出力させ、上記選択された対象物が検出された際に上記検出された対象物に関連付けられている音声情報を出力させるようにしてもよい。これにより、操作入力が受け付けられた際に、選択された対象物に係る音声情報を出力させ、また、選択された対象物が検出された際に、この検出された対象物に係る音声情報を出力させるという作用をもたらす。

また、この第２の側面において、上記選択手段は、上記操作入力に基づいて複数の対象物を選択し、上記音声出力制御手段は、上記選択された複数の対象物のうちの少なくとも一つの対象物が検出された際に上記検出された対象物に関連付けられている音声情報を出力させるようにしてもよい。これにより、選択された複数の対象物のうちの少なくとも一つの対象物が検出された際に、この検出された対象物に係る音声情報を出力させるという作用をもたらす。

本発明によれば、撮影者からの指示を理解できない対象物の画像を適切に記録することができるという優れた効果を奏し得る。

次に本発明の実施の形態について図面を参照して詳細に説明する。

図１は、本発明の実施の形態における撮像装置１００の一構成例を示すブロック図である。撮像装置１００は、レンズ１１１と、撮像部１１２と、システム制御部１２０と、記憶装置部１３０と、外部Ｉ／Ｆ部１４０と、記録部１５０と、音声記憶部１６０と、操作入力部１７０と、表示部１８０と、音声出力部１９０と、カメラ制御部２００とを備える。撮像装置１００は、例えば、被写体を撮像して画像データを生成し、この画像データについて画像解析により各特徴量を抽出し、この抽出された各特徴量を用いて各種画像処理を施すことが可能なデジタルスチルカメラによって実現することができる。

レンズ１１１は、被写体からの光を集光する複数のレンズ（ズームレンズ、フォーカスレンズ等）から構成され、入射された被写体からの光がこれらのレンズを介して撮像部１１２に供給される。

撮像部１１２は、電子シャッター機能を有する撮像素子（図示せず）と、この撮像素子の出力信号を処理して撮像画像を生成する信号処理部（図示せず）とを備える。すなわち、撮像部１１２において、レンズ１１１を介して入射された被写体の光学像が撮像素子の撮像面に結像され、この状態で撮像素子が撮像動作を行い、信号処理部が撮像信号に対して信号処理を行うことにより、撮像画像が生成される。そして、生成された撮像画像が記憶装置部１３０に供給されて保存される。なお、撮像画像の生成に用いられるカメラパラメータ（撮像パラメータ）が、カメラ制御部２００により順次決定される。

カメラ制御部２００は、記憶装置部１３０を介して撮像部１１２から供給される撮像画像、および、システム制御部１２０からの制御に基づいて、撮像部１１２を制御するものである。なお、カメラ制御部２００については、図２を参照して詳細に説明する。

システム制御部１２０は、撮像装置１００全体の制御を行うものである。例えば、システム制御部１２０は、操作入力部１７０により受け付けられたユーザからの操作入力に応じた制御を行う。また、システム制御部１２０は、表示部１８０に表示されるメニュー画面等の表示、記録部１５０に対する撮像画像の記録や読出し、外部Ｉ／Ｆ部１４０を介した外部コンピュータやネットワークとの通信等を制御する。さらに、システム制御部１２０は、撮像動作中のモニタリング時には、撮像部１１２により生成された撮像画像を表示部１８０に表示させる制御を行う。また、システム制御部１２０は、指定対象物自動撮影モードが設定されている場合において、指定された対象物の検出の有無に基づいて、音声記憶部１６０に記憶されている音声情報の音声出力部１９０からの出力制御（効果音の再生制御）、および、撮像画像の記録部１５０への記録制御を行う。ここで、指定対象物自動撮影モードは、ユーザにより指定された対象物が撮像画像から検出された際には、その指定された対象物に関する音声情報を出力するとともに、この検出の際の撮像画像を記録する撮影モードである。この指定対象物自動撮影モードについては、図１３、図１４等を参照して詳細に説明する。

記憶装置部１３０は、撮像装置１００のシステム上で撮像画像等を一時的に保存するための主記憶装置であり、例えば、ＤＲＡＭ（Dynamic Random Access Memory）により構成される。すなわち、撮像装置１００内における各部間の撮像画像のやりとりは、主に記憶装置部１３０を介して行われる。

外部Ｉ／Ｆ（インターフェース）部１４０は、ＵＳＢ（Universal Serial Bus）等の入出力端子を備える外部Ｉ／Ｆインターフェースであり、外部コンピュータとの接続やネットワーク接続のためのＩ／Ｆを提供する。

記録部１５０は、システム制御部１２０の制御に基づいて、撮像部１１２により生成された撮像画像を記録するものである。また、記録部１５０は、システム制御部１２０の制御に基づいて、記録されている撮像画像を読み出してシステム制御部１２０に供給する。なお、記録部１５０は、例えば、フラッシュメモリ等の記録媒体を用いることができる。また、記録部１５０は、撮像装置１００に内蔵するようにしてもよく、着脱可能に撮像装置１００に装着されるようにしてもよい。

音声記憶部１６０は、各種の音声情報を記憶するものであり、記憶されている音声情報がシステム制御部１２０の制御に基づいて音声出力部１９０から出力される。なお、音声記憶部１６０については、図６を参照して詳細に説明する。

操作入力部１７０は、シャッターボタン１７１（図３等に示す）等の筐体外部に備えられている外部操作部材であり、ユーザからの操作入力を受けると、受け付けられた操作入力に応じた信号をシステム制御部１２０に出力する。

表示部１８０は、システム制御部１２０の制御に基づいて、各種画像を表示する表示部である。例えば、表示部１８０は、撮像部１１２により生成された撮影画像、記録部１５０から読み出された撮像画像、ユーザに提供されるメニュー画面（例えば、図７に示す「自動撮影の対象物指定メニュー」画面）等を表示する。

音声出力部１９０は、システム制御部１２０の制御に基づいて、音声記憶部１６０に記憶されている音声情報を出力するものである。音声出力部１９０は、例えば、スピーカにより実現することができる。

図２は、本発明の実施の形態におけるカメラ制御部２００の機能構成例を示すブロック図である。なお、図２では、カメラ制御部２００の機能構成例とともに、図１に示すレンズ１１１および外部Ｉ／Ｆ部１４０以外の構成についても図示する。カメラ制御部２００は、シーケンス制御部２１０と、カメラパラメータ制御部２２０と、対象物検出部２３０と、記憶装置Ｉ／Ｆ２４０とを備える。ここで、記憶装置部１３０およびカメラパラメータ制御部２２０の間、また、記憶装置部１３０および対象物検出部２３０の間で行われる撮像画像のやりとりは、記憶装置Ｉ／Ｆ２４０を介して行われる。

シーケンス制御部２１０は、システム制御部１２０からの撮影待機命令で起動し、撮像部１１２により生成される撮像画像を記録可能な状態を保持するものである。この撮影待機状態では、撮像部１１２により生成される撮像画像が、記憶装置部１３０に順次記憶される。例えば、１／６０秒の間隔で、記憶装置部１３０に記憶される撮像画像が順次更新される。また、シーケンス制御部２１０は、カメラパラメータ制御部２２０に対して、記憶装置部１３０に記憶されている現在の撮像画像（撮像部１１２により現在生成された撮像画像）に基づいて、カメラパラメータを決定するように制御を行う。また、シーケンス制御部２１０は、対象物検出部２３０に対して、記憶装置部１３０に記憶されている現在の撮像画像について、操作入力部１７０においてユーザにより指定された対象物を検出するように制御を行う。ここで、シーケンス制御部２１０は、指定された対象物を検出したことを示す対象物検出情報が対象物検出部２３０から出力された場合には、撮像部１１２に撮像画像の記録指示を出力し、撮像画像の記録制御を行うとともに、指定された対象物が検出された旨をシステム制御部１２０に出力する。この指定された対象物が検出された旨が出力されると、システム制御部１２０が、その指定された対象物に関する音声情報を出力するとともに、現在の撮像画像を記録部１５０に記録する。

カメラパラメータ制御部２２０は、シーケンス制御部２１０からのトリガに基づいて、記憶装置Ｉ／Ｆ２４０を介して、記憶装置部１３０に記憶されている現在の撮像画像を取得し、この現在の撮像画像を評価して、シャッター速度、露出、ホワイトバランス等のカメラパラメータを決定するものである。そして、カメラパラメータ制御部２２０は、決定されたカメラパラメータを用いて、撮像部１１２に対する撮像制御を行う。また、カメラパラメータ制御部２２０は、指定対象物自動撮影モードが設定されている場合において、現在の撮像画像から、指定された対象物が検出された場合には、指定された対象物および現在の撮像画像の評価に基づいてシャッター速度、露出、ホワイトバランス等のカメラパラメータを決定する。例えば、犬が指定された場合において、犬の顔が検出された場合には、検出された犬の顔の撮像画像における位置および大きさに基づいて、この犬の顔に最適なカメラパラメータが決定される。

対象物検出部２３０は、シーケンス制御部２１０からのトリガに基づいて、記憶装置Ｉ／Ｆ２４０を介して、記憶装置部１３０に記憶されている現在の撮像画像を取得し、この現在の撮像画像について、操作入力部１７０においてユーザにより指定された対象物の検出を行い、指定された対象物が検出された場合には、検出された対象物の撮像画像における位置、大きさ、その対象物の度合いを表すスコアを含む対象物検出情報をシーケンス制御部２１０に出力する。なお、この対象物の検出は、例えば、矩形特徴（RECTANGLE FEATURE）を用いた検出器によって実現することができる（例えば、特開２００５−１５７６７９を参照）。また、対象物検出部２３０については、図４を参照して詳細に説明する。

図３は、本発明の実施の形態における撮像装置１００の外観を示す斜視図である。図３（ａ）は、撮像装置１００の正面（すなわち、被写体に向けられるレンズ１１１の面）側の外観を示す図であり、図３（ｂ）は、撮像装置１００の背面（すなわち、撮影者に向けられる液晶パネル１８１の面）側の外観を示す図である。

撮像装置１００は、レンズ１１１と、シャッターボタン１７１と、液晶パネル１８１と、音声出力部１９０とを備える。なお、撮像装置１００には、電源スイッチ等の他の操作部材が操作入力部１７０として備えられているが、ここでの図示および説明は省略する。また、レンズ１１１および音声出力部１９０は、図１に示すものと同じであるため、同一の符号を付して、ここでの詳細な説明を省略する。なお、レンズ１１１を構成する複数のレンズの一部または全部と、音声出力部１９０とは撮像装置１００の筐体に内蔵されている。

液晶パネル１８１は、撮像部１１２により生成された撮像画像等を表示する液晶パネルである。また、液晶パネル１８１は、各種の選択ボタン等を表示し、これらの選択ボタン等の領域を指等で触ることにより操作入力を行うことが可能なタッチパネルである。すなわち、液晶パネル１８１は、図１に示す表示部１８０および操作入力部１７０に対応する。なお、これらの選択ボタンの表示例については、図７を参照して詳細に説明する。

シャッターボタン１７１は、撮像画像を記録する際に撮影者により押下されるボタンである。撮像装置１００を用いて撮影者が通常の撮像操作（いわゆる、写真撮影）を行う場合には、液晶パネル１８１に表示されている被写体を確認した後に、撮影者がシャッターボタン１７１を押下する。シャッターボタン１７１が押下されると、シャッターボタン１７１押下に応じた信号がシステム制御部１２０に供給される。シャッターボタン１７１押下に応じた信号が供給されると、システム制御部１２０は、シャッターボタン１７１押下に応じた信号を受け取った際における撮像画像を記録部１５０に記録させる。また、指定対象物自動撮影モードが設定されている場合において、シャッターボタン１７１が押下された場合には、システム制御部１２０は、指定された対象物の検出動作を開始する指示をカメラ制御部２００に指示する。

図４は、本発明の実施の形態における対象物検出部２３０の機能構成例を示すブロック図である。対象物検出部２３０は、画像取得部２３１と、画像縮小部２３２と、画像取出部２３３と、対象物検出辞書データベース３００と、対象物検出辞書メモリ２３５と、対象物判定部２３６と、判定結果出力部２３７とを備える。

画像取得部２３１は、記憶装置Ｉ／Ｆ２４０を介して、記憶装置部１３０に記憶されている撮像画像を取得するものであり、取得された撮像画像を画像縮小部２３２に出力する。

画像縮小部２３２は、画像取得部２３１から出力された撮像画像について、予め定められている割合で順次縮小させることにより、大きさの異なる複数の画像を生成するものであり、生成された各画像を画像取出部２３３に順次出力する。なお、この撮像画像の縮小については、図９を参照して詳細に説明する。

画像取出部２３３は、画像縮小部２３２から出力された各画像について、画像毎に所定領域の画像を順次取り出すものであり、取り出された画像を対象物判定部２３６に出力する。なお、この画像の取り出しについては、図８および図９を参照して詳細に説明する。

対象物検出辞書データベース３００は、画像取出部２３３から出力された画像について、対象物判定部２３６による対象物判定処理を行うための複数の対象物検出辞書を記憶するデータベースであり、記憶されている各対象物検出辞書が対象物検出辞書メモリ２３５に順次供給される。なお、これらの各対象物検出辞書については、図５を参照して詳細に説明する。

対象物検出辞書メモリ２３５は、対象物検出辞書データベース３００に記憶されている複数の対象物検出辞書のうちの１つの対象物検出辞書を記憶する作業用メモリであり、記憶されている対象物検出辞書の内容を対象物判定部２３６に供給する。

対象物判定部２３６は、対象物検出辞書データベース３００に記憶されている対象物検出辞書を用いて、画像取出部２３３から出力された画像が対象物を含むか否かを判定する対象物判定処理を行うものであり、この判定結果を判定結果出力部２３７に出力する。この判定結果として、例えば、検出された対象物の撮像画像における位置および大きさと、その対象物の度合いを表すスコアとが出力される。ここで、対象物判定処理では、操作入力部１７０においてユーザにより指定された対象物がシーケンス制御部２１０から指示され、このユーザにより指定された対象物に関する対象物検出辞書が用いられる。そして、対象物検出辞書データベース３００に記憶されている複数の対象物検出辞書のうちの指定された対象物検出辞書が対象物検出辞書メモリ２３５に順次供給され、対象物検出辞書メモリ２３５には１つの対象物検出辞書が順次記憶される。そして、対象物検出辞書メモリ２３５に記憶された１つの対象物検出辞書を用いて、対象物判定処理が順次行われる。具体的には、対象物判定部２３６は、画像取出部２３３から出力された画像における輝度値を抽出し、この抽出された輝度値と対象物検出辞書とを用いて対象物判定処理を行う。なお、対象物判定部２３６による対象物判定処理については、図１０を参照して詳細に説明する。

判定結果出力部２３７は、画像取出部２３３から出力された画像が対象物を含むと判定された判定結果が対象物判定部２３６から出力された場合には、撮像画像から対象物が検出された旨を示す対象物検出情報をシーケンス制御部２１０に出力するものである。この対象物検出情報には、例えば、検出された対象物の撮像画像における位置および大きさと、その対象物の度合いを表すスコアとが含まれる。

図５は、本発明の実施の形態における対象物検出辞書データベース３００に記憶されている対象物検出辞書を概略的に示す図である。ここでは、対象物として、犬の顔および猫の顔を検出する場合を例にして説明する。図５では、画像取出部２３３により取り出された画像に犬の顔が含まれているか否かを判定する犬検出辞書３１０と、画像取出部２３３により取り出された画像に猫の顔が含まれているか否かを判定する猫検出辞書３２０とを対象物検出辞書の例として示す。これらの対象物検出辞書は、画像取出部２３３により取り出された画像について、矩形特徴を用いた対象物判定処理を対象物判定部２３６が行うための判定情報である。以下では、主に、犬検出辞書３１０について説明するが、猫検出辞書３２０についても各項目に格納される各値が異なる以外の点については犬検出辞書３１０と同様である。

犬検出辞書３１０には、種類（ｔｙｐｅ）３１１と、位置（ｘ，ｙ）３１２と、幅（ｗ）３１３と、高さ（ｈ）３１４と、閾値（θ）３１５と、符号（ｐ）３１６と、重み（α）３１７との組合せがｔ組格納されている。

種類３１１には、対象物判定処理に用いられる矩形特徴の種類が格納されている。この矩形特徴は、互いに隣接する２つの矩形から構成される矩形特徴であり、位置３１２により判定対象画像上における位置が決定され、幅３１３および高さ３１４により大きさが決定される。なお、この矩形特徴については、図１０を参照して詳細に説明する。

位置３１２には、判定対象画像上における矩形特徴の位置が格納される。位置３１２には、例えば、画像取出部２３３により取り出された画像上をｘｙ座標（平面座標）とした場合における座標点（ｘ，ｙ）が格納される。

幅３１３には、判定対象画像上における矩形特徴の幅の値が格納される。

高さ３１４には、判定対象画像上における矩形特徴の高さの値が格納される。

閾値３１５には、矩形特徴を構成する１つの矩形に含まれる各画素の輝度値の総和と、他の矩形に含まれる各画素の輝度値の総和との差分値に関する閾値が格納される。

符号３１６には、対象物の度合いを表すスコアの算出に用いられる弱仮説ｈ（ｉ）を求める際に用いられる値（「１」または「−１」）が格納される。

重み３１７には、対象物の度合いを表すスコアの算出に用いられる重みが格納される。なお、これらの各値を用いて行われる対象物の度合いを表すスコアの算出については、図１０を参照して詳細に説明する。

また、これらの各値は、例えば、アダブースト（ＡｄａＢｏｏｓｔ）等の機械学習アルゴリズムにより学習されたもののうちで、最も効果的な上位１０００乃至２０００組の組合せを用いて設定される。このように、各対象物検出辞書の形式が同一であるため、複数の判定処理を同一のアルゴリズムで行うことができる。また、判定処理に用いられる対象物検出辞書は、判定対象画像が対象物を含むか否かを判定する際の判定基準のみに関するデータを保持する判定情報であり、画像そのものを保持するものではない。このため、記憶容量を削減することができるとともに、判定処理を迅速に行うことができる。

図６は、本発明の実施の形態における音声記憶部１６０に記憶されている内容を概略的に示す図である。音声記憶部１６０には、対象物１６１および音声情報１６２が関連付けて記憶されている。

対象物１６１は、自動撮影を行う対象物として指定可能な対象物であり、例えば、「犬」および「猫」が格納される。

音声情報１６２は、音声出力部１９０から音声を出力させるための音声情報である。図６では、例えば、「犬」に関連付けて格納される音声情報を「ワンワン」で表し、「猫」に関連付けて格納される音声情報を「ニャーニャー」で表す。例えば、対象物１６１に格納されている対象物が、対象物検出部２３０により検出された際に、検出された対象物に関連付けて格納されている音声情報に対応する音声が音声出力部１９０から出力される。

図７は、本発明の実施の形態における液晶パネル１８１に表示されるメニュー画面の一例を示す図である。図７に示す「自動撮影の対象物指定メニュー」画面は、自動撮影を行う対象物を指定するメニュー画面であり、「犬」指定ボタン３３１と、「猫」指定ボタン３３２と、「犬／猫」指定ボタン３３３と、「ＯＦＦ」指定ボタン３３４とが設けられている。

「犬」指定ボタン３３１は、自動撮影を行う対象物として犬を指定する場合に押下されるボタンであり、「猫」指定ボタン３３２は、自動撮影を行う対象物として猫を指定する場合に押下されるボタンである。また、「犬／猫」指定ボタン３３３は、自動撮影を行う対象物として犬または猫を指定する場合に押下されるボタンである。すなわち、「犬／猫」指定ボタン３３３が押下された場合には、撮像画像から犬または猫が検出された場合に自動撮影が行われる。また、「ＯＦＦ」指定ボタン３３４は、図７に示す「自動撮影の対象物指定メニュー」画面を消去する場合に押下されるボタンである。

本発明の実施の形態では、図７に示す「自動撮影の対象物指定メニュー」画面を液晶パネル１８１に表示させた状態で、「犬」指定ボタン３３１、「猫」指定ボタン３３２、「犬／猫」指定ボタン３３３の何れかを押下する選択操作をユーザが行うことにより、押下された指定ボタンに応じた対象物を自動的に撮影する指定対象物自動撮影モードを設定することができる。そして、この指定対象物自動撮影モードが設定されている状態で、ユーザがシャッターボタン１７１を押下することにより、指定された対象物の検出動作が開始され、指定された対象物が撮像画像から検出されると、指定された対象物に関連する音声が出力されて撮像画像が記録される。すなわち、指定された対象物を含む撮像画像の撮影が自動的に行われる。

次に、対象物を検出する対象物検出方法について図面を参照して詳細に説明する。

図８は、本発明の実施の形態における対象物判定部２３６による対象物判定処理の対象となる画像を取り出す画像取出方法の概略を示す図である。図８（ａ）には、画像縮小部２３２により縮小処理が施された画像４００を示し、図８（ｂ）には、対象物判定処理の対象となる画像を画像４００から取り出す場合における画像取出方法の概略を示す。なお、この画像の取出しは、画像取出部２３３により行われる。

図８（ａ）に示す画像４００は、山を背景にして草原に寝ている犬を被写体とする撮像画像が縮小処理された画像である。この画像４００から対象物判定処理の対象となる画像を取り出す場合には、図８（ｂ）に示すように、画像４００の左上隅に取出枠４０１が配置され、取出枠４０１内に含まれる画像が取り出される。続いて、取出枠が右側方向（矢印４１１乃至４１６に示す方向）に１画素シフトされて、取出枠内に含まれる画像が取り出される。同様にして、取出枠が１画素ずつ右側方向に順次シフトされて、取出枠内に含まれる画像が順次取り出される。そして、画像４００の右端となる取出枠４０２の位置にシフトされて取出枠４０２内に含まれる画像が取り出されると、取出枠が１画素下側にシフトされるとともに画像４００の左端に移動される。続いて、画像４００の左端に移動直後の取出枠内に含まれる画像が取り出された後に、取出枠が１画素ずつ右側方向に順次シフトされて、取出枠内に含まれる画像が順次取り出される。以下、同様に取出枠内に含まれる画像が順次取り出される。そして、画像４００の右端および下端となる取出枠４０４の位置にシフトされて取出枠４０４内に含まれる画像が取り出されると、対象物判定処理の対象となる画像の画像４００からの取出処理を終了する。

図９は、本発明の実施の形態における対象物判定部２３６による対象物判定処理の対象となる画像を取り出す画像取出方法の概略を示す図である。図９（ａ）乃至（ｅ）には、画像縮小部２３２により順次縮小処理が施された画像４２１乃至４２５を示す。また、図９（ａ）乃至（ｅ）の左側の画像では、取出枠４３０の最初の配置位置を示し、図９（ａ）乃至（ｅ）の右側の画像では、取出枠４３０の最後の配置位置を示す。ここで、取出枠４３０の最初の配置位置から最後の配置位置までの移動については、図８（ｂ）に示す移動と同様である。また、取出枠４３０の大きさは、図９に示すように、取出の対象となる画像の大きさにかかわらず一定である。そして、画像縮小部２３２により縮小処理が施された画像の大きさが、取出枠４３０よりも小さくなるまで、画像の取出処理が行われる。

次に、判定対象画像について対象物検出辞書を用いて判定処理をする例について図面を参照して詳細に説明する。

図１０は、本発明の実施の形態における判定対象画像と、判定処理に用いられる矩形特徴とを示す図である。図１０（ａ）には、画像取出部２３３により取り出されて判定対象となる判定対象画像４５０を示し、図１０（ｂ）および（ｃ）には、判定処理に用いられる２種類の矩形特徴を示す。この例では、図１０（ａ）に示す判定対象画像４５０の左上隅を原点とし、左右方向をｘ軸、上下方向をｙ軸として、判定対象画像４５０について犬検出辞書３１０（図５に示す）を用いた判定処理をする場合について説明する。また、この判定処理では、図１０（ｂ）および（ｃ）に示す２種類の矩形特徴を用いる例について説明する。

図１０（ａ）に示す判定対象画像４５０は、撮像部１１２により生成された撮像画像について画像縮小部２３２により縮小処理が施された画像から、画像取出部２３３により取り出された画像であり、所定の解像度に正規化処理が施された画像である。ここで、撮像部１１２により生成された撮像画像は、例えば、３２０画素×２４０画素である。この場合に、正規化処理として、例えば、４８画素×４８画素の解像度に変換する正規化処理が施される。また、判定対象画像４５０上に配置された矩形特徴４６０および４７０は、図１０（ｂ）および（ｃ）に示す矩形特徴４６０および４７０に対応するものである。

図１０（ｂ）および（ｃ）に示す矩形特徴４６０および４７０は、互いに隣接する２つの矩形（黒塗りおよび白塗りで示す２つの矩形）から構成される矩形特徴である。また、これらの矩形特徴が判定対象画像上に配置され、２つの矩形の領域内に含まれる輝度値の差分値に基づいて対象物の判定が行われる。

具体的に、判定に用いられる矩形特徴４６０または４７０の種類については、犬検出辞書３１０の種類３１１に格納されている。また、判定対象画像４５０上に矩形特徴４６０および４７０を配置すべき位置については、犬検出辞書３１０の位置３１２に格納されている。すなわち、判定対象画像４５０上に矩形特徴４６０が配置される場合には、矩形特徴４６０の左上隅の点４６１が、犬検出辞書３１０の位置３１２に格納されている座標点（ｘ，ｙ）の位置になるように、矩形特徴４６０が配置される。また、矩形特徴４７０についても同様に、矩形特徴４７０の左上隅の点４７１が、犬検出辞書３１０の位置３１２に格納されている座標点（ｘ，ｙ）の位置になるように、判定対象画像４５０上に矩形特徴４７０が配置される。

また、矩形特徴４６０および４７０の大きさについては、犬検出辞書３１０の幅３１３および高さ３１４に格納されている値に基づいて決定される。すなわち、矩形特徴４６０の横幅ｗ１は、犬検出辞書３１０の幅３１３に格納されている値とし、矩形特徴４６０の高さｈ１は、犬検出辞書３１０の高さ３１４に格納されている値とする。また、矩形特徴４７０についても同様に、矩形特徴４７０の横幅ｗ２は、犬検出辞書３１０の幅３１３に格納されている値とし、矩形特徴４６０の高さｈ２は、犬検出辞書３１０の高さ３１４に格納されている値とする。

このように、判定対象画像４５０上の位置および大きさが決定された矩形特徴について、この矩形特徴を構成する２つの矩形の領域内に含まれる画素の輝度値の合計値が領域毎に算出され、領域毎に算出された輝度値の合計値の差分値が特徴量Ｆ（ｉ）として算出される。ここで、ｉは、犬検出辞書３１０の各レコードを表す値であり、１≦ｉ≦ｔとなる。そして、特徴量Ｆ（ｉ）と犬検出辞書３１０の閾値３１５に格納されている閾値θ（ｉ）とが比較され、特徴量Ｆ（ｉ）が閾値θ（ｉ）よりも小さいか否かと、符号３１６に格納されている値ｐ（ｉ）（値ｐ（ｉ）＝１または−１）とに応じて、弱仮説（Weak Learner）ｈ（ｉ）が算出される。具体的に、弱仮説ｈ（ｉ）は、次式を用いて算出される。
（１）値ｐ（ｉ）＝１の場合
特徴量Ｆ（ｉ）＜閾値θ（ｉ）であれば、弱仮説ｈ（ｉ）＝１
特徴量Ｆ（ｉ）≧閾値θ（ｉ）であれば、弱仮説ｈ（ｉ）＝−１
（２）値ｐ（ｉ）＝−１の場合
特徴量Ｆ（ｉ）＜閾値θ（ｉ）であれば、弱仮説ｈ（ｉ）＝−１
特徴量Ｆ（ｉ）≧閾値θ（ｉ）であれば、弱仮説ｈ（ｉ）＝１

続いて、算出された弱仮説ｈ（ｉ）と重み３１７に格納されている値α（ｉ）とを乗算することにより、ｈ（ｉ）α（ｉ）が算出される。これらの算出処理を犬検出辞書３１０の１行目からｔ行目まで繰り返し行い、ｈ（ｉ）α（ｉ）の合計値がスコアＳとして算出される。具体的に、スコアＳは、次式を用いて算出される。

式１により算出されたスコアＳに基づいて、判定対象画像４５０に犬の正面顔が含まれているか否かが判定される。具体的には、スコアＳ≧０の場合には、判定対象画像４５０に犬の正面顔が含まれていると判定される。一方、スコアＳ＜０の場合には、判定対象画像４５０に犬の正面顔が含まれていないと判定される。

次に、具体的な計算方法について説明する。

例えば、犬検出辞書３１０の１行目に格納されている各値に基づいて決定される矩形特徴を、図１０（ａ）に示す矩形特徴４６０とする。すなわち、犬検出辞書３１０の１行目の種類３１１に格納されている矩形特徴の種類が図１０（ｂ）に示す矩形特徴４６０であり、犬検出辞書３１０の１行目の位置３１２、幅３１３および高さ３１４に格納されている各値に基づいて、図１０（ａ）に示す矩形特徴４６０の位置および大きさが決定される。同様に、例えば、犬検出辞書３１０の２行目に格納されている各値に基づいて決定される矩形特徴を、図１０（ａ）に示す矩形特徴４７０とする。すなわち、犬検出辞書３１０の２行目の種類３１１に格納されている矩形特徴の種類が図１０（ｃ）に示す矩形特徴４７０であり、犬検出辞書３１０の２行目の位置３１２、幅３１３および高さ３１４に格納されている各値に基づいて、図１０（ａ）に示す矩形特徴４７０の位置および大きさが決定される。

最初に、判定を行うためのスコアＳの値に０がセットされ、犬検出辞書３１０の１行目に格納されている各値を用いた演算が行われる。具体的には、犬検出辞書３１０の１行目の種類３１１、位置３１２、幅３１３および高さ３１４に格納されている各値に基づいて決定された矩形特徴４６０を構成する２つの矩形４６２および４６３の領域内に含まれる輝度値の合計値が領域毎に算出される。ここで、矩形４６２の領域内に含まれる輝度値の合計値をＡ（１）とし、矩形４６３の領域内に含まれる輝度値の合計値をＢ（１）とした場合に、次式を用いて、領域毎に算出された輝度値の合計値の差分値が特徴量Ｆ（１）として算出される。
Ｆ（１）＝Ａ（１）−Ｂ（１）

続いて、算出された特徴量Ｆ（１）と、犬検出辞書３１０の１行目の閾値３１５に格納されている閾値θ（１）とが比較され、特徴量Ｆ（１）が閾値θ（１）よりも小さいか否かと、犬検出辞書３１０の１行目の符号３１６に格納されている値ｐ（１）とに応じて、弱仮説ｈ（１）が算出される。なお、弱仮説ｈ（１）は、上述した式を用いて算出される。

続いて、算出された弱仮説ｈ（１）と、犬検出辞書３１０の１行目の重み３１７に格納されている値α（１）とを乗算することにより、ｈ（１）α（１）が算出される。そして、算出されたｈ（１）α（１）がスコアＳに加算される。

続いて、犬検出辞書３１０の２行目に格納されている各値を用いて、上述した各演算を繰り返す。具体的には、犬検出辞書３１０の２行目の種類３１１、位置３１２、幅３１３および高さ３１４に格納されている各値に基づいて決定された矩形特徴４７０を構成する２つの矩形４７２および４７３について、矩形４７２の領域内に含まれる輝度値の合計値Ａ（２）と、矩形４７３の領域内に含まれる輝度値の合計値Ｂ（２）が算出され、次式を用いて、特徴量Ｆ（２）が算出される。
Ｆ（２）＝Ａ（２）−Ｂ（２）

続いて、算出された特徴量Ｆ（２）と、犬検出辞書３１０の２行目の閾値３１５に格納されている閾値θ（２）とが比較され、特徴量Ｆ（２）が閾値θ（２）よりも小さいか否かと、犬検出辞書３１０の２行目の符号３１６に格納されている値ｐ（２）とに応じて、弱仮説ｈ（２）が算出される。

続いて、算出された弱仮説ｈ（２）と、犬検出辞書３１０の２行目の重み３１７に格納されている値α（２）とを乗算することにより、ｈ（２）α（２）が算出される。そして、算出されたｈ（２）α（２）がスコアＳに加算される。

続いて、犬検出辞書３１０の３行目以降、ｔ行目までに格納されている各値を順次用いて、上述した各演算を繰り返す。そして、犬検出辞書３１０のｔ行目に格納されている各値を用いた各演算が終了した後に、スコアＳの値が０以上であるか否かが判断される。

例えば、上述の機械学習アルゴリズムによって学習時における犬の顔判定成功の学習サンプルを正側とし、犬の顔判定失敗時の学習サンプルを負側として学習した場合において、犬検出辞書３１０の１乃至ｔ行目に格納されている各値を用いた各演算の終了後におけるスコアＳの値が０以上であれば、判定対象画像に犬の顔が含まれていると判定される。また、他の対象物検出辞書についても、同様に考えることができる。例えば、猫検出辞書３２０を用いた判定において、猫の顔判定成功の学習サンプルを正側として学習した場合、スコアＳの値が０以上であれば、判定対象画像に猫が含まれていると判定される。

なお、本発明の実施の形態では、対象物検出辞書を用いた判定として、スコアＳおよび０を比較する判定例について説明するが、０以外の値を用いて判定するようにしてもよい。すなわち、スコアＳと比較する値については、適宜調整することができる。

このように、判定対象画像の解像度を同一の解像度とし、判定に用いる矩形特徴を特定の種類とすることによって、複数の対象物検出辞書を切り替え可能とすることができ、複数の対象物について同一のアルゴリズムで判定を行うことができる。なお、この例では、２種類の矩形特徴の何れかを用いる例について説明したが、１種類または３種類以上の矩形特徴を用いる場合についても本発明の実施の形態を適用することができる。

図１１は、本発明の実施の形態における液晶パネル１８１に表示される撮像画像の一例を示す図である。図１１に示す撮像画像４８０は、図９に示す画像４２１乃至４２５に対応する画像である。また、図１１（ａ）には、対象物検出部２３０による犬検出処理前の撮像画像４８０を示し、図１１（ｂ）には、対象物検出部２３０による犬検出処理後の撮像画像４８０を示す。液晶パネル１８１に表示されている撮像画像４８０において犬が検出された場合には、図１１（ｂ）に示すように、検出された犬の顔の位置にマーカ４８１が付される。

次に、指定対象物自動撮影モードが設定されている場合における撮像画像の記録について図面を参照して詳細に説明する。

図１２は、本発明の実施の形態における撮像装置１００を用いて犬を撮影する場合における液晶パネル１８１の表示例を示す図である。図１２（ａ）では、撮像装置１００のレンズ１１１側を向いていない犬が液晶パネル１８１に表示されている状態を示し、図１２（ｂ）では、撮像装置１００のレンズ１１１側を向いている犬が液晶パネル１８１に表示されている場合を示す。図１２（ｂ）に示す場合には、犬の顔の正面が撮像画像に含まれるため、撮像画像から検出された犬の顔の周りにマーカ５００が付されるとともに、撮像画像が記録される。

ここで、本発明の実施の形態では、撮像画像から犬の顔が検出されて撮像画像が記録される際に、犬に関連付けて音声記憶部１６０に記憶されている音声情報（ワンワン）を音声出力部１９０から出力し、犬がさらにレンズ１１１側を向くようにする。また、例えば、図７に示す「自動撮影の対象物指定メニュー」において、「犬」指定ボタン３３１がユーザにより押下されて指定対象物自動撮影モードが設定されている状態で、シャッターボタン１７１が押下されると、犬に関連付けて音声記憶部１６０に記憶されている音声情報（ワンワン）を音声出力部１９０から出力し、撮像画像から犬が検出された際にも音声情報（ワンワン）を音声出力部１９０から出力して、撮像画像を記録することができる。これらの撮像画像の記録については、図１３および図１４を参照して詳細に説明する。

図１３および図１４は、本発明の実施の形態における撮像装置１００を用いて犬を撮影する場合を模式的に示す図である。図１３（ａ）および図１４（ａ）では、床に寝ている犬５１０を撮影するため、撮像装置１００を三脚１０１に固定して犬５１０の正面に設置したものの、犬５１０の顔がレンズ１１１側を向いていない状態を示す。ここでは、図７に示す「自動撮影の対象物指定メニュー」において、「犬」指定ボタン３３１がユーザにより押下されて指定対象物自動撮影モードが設定されている状態で、シャッターボタン１７１がユーザにより押下される例を示す。

図１３では、犬５１０の顔が検出されると、犬に関連付けて音声記憶部１６０に記憶されている音声情報（ワンワン）が音声出力部１９０から出力され、撮像画像を記録する例を示す。すなわち、図１３（ａ）に示すように、シャッターボタン１７１が指１０２により押下されると、対象物検出部２３０が撮像画像から犬を検出する犬検出処理を開始する。ここで、指定対象物自動撮影モードが設定されている状態で、シャッターボタン１７１が押下された場合には、犬５１０の顔を検出するまで撮像画像の記録が行われない。そして、図１３（ｂ）に示すように、対象物検出部２３０により犬５１０の顔が検出されると、音声情報（ワンワン）が音声出力部１９０から出力される。続いて、図１３（ｃ）に示すように、音声情報（ワンワン）が音声出力部１９０から出力された際に撮像画像が記録される。なお、音声出力部１９０からの音声出力と撮像画像の記録とは、ほぼ同時にするようにしてもよく、音声出力部１９０から音声出力後、一定時間経過後に撮像画像を記録するようにしてもよい。

ここで、犬の顔を検出する場合には、人間の顔を検出する場合とは異なり、検出精度が必ずしも高くない。このため、図１３（ｂ）に示すように、犬５１０が撮像装置１００側を向いたことにより犬５１０の顔が検出された場合でも、犬５１０の目線がレンズ１１１に向かった状態で正面を向いているとは限らない。そこで、この例では、図１３（ｂ）に示すように、犬５１０の顔が検出された場合には、この検出の際に犬に関連する音声情報（ワンワン）を出力して犬５１０の興味を撮像装置１００側に向けさせて、犬５１０の顔がさらにレンズ１１１側に向いた瞬間に撮像画像を記録する。これにより、ユーザからの指示を理解できない犬５１０の顔の正面の撮像画像を記録する場合に、犬５１０の顔が撮像装置１００側に向いた際における適切なタイミングで撮像画像を記録することができる。

図１４では、シャッターボタン１７１が指１０２により押下された場合、および、犬５１０の顔が検出された場合に、犬に関連付けて音声記憶部１６０に記憶されている音声情報（ワンワン）を音声出力部１９０から出力する例を示す。すなわち、図１４（ａ）に示すように、シャッターボタン１７１が指１０２により押下されると、指定された犬に関連付けて音声記憶部１６０に記憶されている音声情報（ワンワン）を音声出力部１９０から出力するとともに、対象物検出部２３０が撮像画像から犬を検出する犬検出処理を開始する。なお、シャッターボタン１７１押下の際に、音声情報（ワンワン）を音声出力部１９０から出力する点以外は、図１３と同様であるため、ここでの説明を省略する。これにより、ユーザからの指示を理解できない犬５１０の顔の正面の撮像画像を記録する場合に、犬５１０の顔が正面を向いていない状態でも、犬に関連する音声情報（ワンワン）を出力して犬５１０の興味を引くことにより、犬５１０の顔が撮像装置１００側に向きやすくすることができる。すなわち、２段階で音声情報（ワンワン）を出力することにより、適切なタイミングで撮像画像を記録することができる。

また、図１３および図１４に示すように、撮像画像の記録の際に犬に関連する音声情報（ワンワン）を出力することにより、犬５１０の興味を引くことができるとともに、ユーザに対しても撮像画像を記録したことを通知することができる。

なお、図１４（ａ）に示すシャッター押下時に出力される音声情報については、例えば、犬検出時における音声情報と同じ出力としてもよいし、犬検出時における出力時間よりも長い時間とするようにしてもよい。例えば、音声情報（ワンワン）を一定時間繰り返すようにしてもよい。また、犬に関する異なる２つの音声情報（例えば、高音のワンワン、低音のワンワン）を音声記憶部１６０に記憶しておき、図１４（ａ）に示すシャッター押下時における音声情報の出力と、図１４（ｂ）に示す犬検出時における音声情報の出力とを異なるようにしてもよい。このように、２段階で異なる音を出力することにより、犬５１０の興味をさらに引くことができる。

次に、本発明の実施の形態における撮像装置１００の動作について図面を参照して説明する。

図１５は、本発明の実施の形態における撮像装置１００による撮像画像記録処理の処理手順を示すフローチャートである。この処理手順は、ユーザにより指定された対象物が検出された場合に、撮像画像を自動的に記録するものである。

最初に、指定対象物自動撮影モードが設定されているか否かが判断される（ステップＳ９０１）。すなわち、図７に示す「自動撮影の対象物指定メニュー」画面において、「犬」指定ボタン３３１、「猫」指定ボタン３３２、「犬／猫」指定ボタン３３３の何れかが押下されたか否かが判断される。指定対象物自動撮影モードが設定されている場合には（ステップＳ９０１）、シャッターボタン１７１が押下されたか否かが判断される（ステップＳ９０２）。シャッターボタン１７１が押下された場合には（ステップＳ９０２）、撮像部１１２が撮像画像の生成を開始し（ステップＳ９０３）、生成された撮像画像について、対象物検出部２３０が対象物検出処理を行う（ステップＳ９２０）。この対象物検出処理については、図１６を参照して詳細に説明する。なお、指定対象物自動撮影モードが設定されていない場合（ステップＳ９０１）、または、シャッターボタン１７１が押下されない場合には（ステップＳ９０２）、撮像画像記録処理の動作を終了する。

続いて、対象物検出部２３０が、撮像部１１２により生成された撮像画像から、指定された対象物を検出したか否かが判断される（ステップＳ９０４）。撮像部１１２により生成された撮像画像から、指定された対象物が検出された場合には（ステップＳ９０４）、検出された対象物に関連付けて格納されている音声情報に対応する音声が音声出力部１９０から出力される（ステップＳ９０５）。続いて、現在の撮像画像が記録部１５０に記録される（ステップＳ９０６）。ここで、図７に示す「自動撮影の対象物指定メニュー」画面において、「犬／猫」指定ボタン３３３が押下されている場合には、対象物検出部２３０により犬または猫の何れかの顔が検出されると、検出された犬または猫に関連付けて格納されている音声情報に対応する音声が出力され（ステップＳ９０５）、現在の撮像画像が記録部１５０に記録される（ステップＳ９０６）。なお、この例では、指定された動物（犬または猫）が撮像画像から検出されると、この検出された動物の音声が出力されて現在の撮像画像が記録される場合を示すが、指定された動物が撮像画像から検出された際に現在の撮像画像を記録し、この記録の際にその検出された動物の音声を出力するようにしてもよい。これにより、その動物の顔がレンズ１１１側に向いた瞬間の適切なタイミングで撮像画像を確実に記録することができ、撮像画像が記録されたことをユーザに迅速に通知することができる。

一方、対象物検出部２３０が、撮像部１１２により生成された撮像画像から、指定された対象物を検出していない場合には（ステップＳ９０４）、対象物検出処理を繰り返す（ステップＳ９０３、Ｓ９２０）。

図１６は、本発明の実施の形態における撮像装置１００による撮像画像記録処理の処理手順のうちの対象物検出処理手順（図１５に示すステップＳ９２０の処理手順）を示すフローチャートである。

最初に、記憶装置部１３０に記憶されている現在の撮像画像が取得される（ステップＳ９２１）。続いて、取得された撮像画像上の左上隅に取出枠が配置され（ステップＳ９２２）、この取出枠内の画像が取り出される（ステップＳ９２３）。続いて、対象物検出辞書データベース３００に記憶されている複数の対象物検出辞書のうちで、指定された対象物に関する対象物検出辞書が１つ取り出され、対象物検出辞書メモリ２３５に記憶される（ステップＳ９２４）。続いて、対象物検出辞書メモリ２３５に記憶されている対象物検出辞書を用いて、取出枠内から取り出された画像について判定処理が実行される（ステップＳ９４０）。なお、この判定処理については、図１７を参照して詳細に説明する。

続いて、取出枠内から取り出された画像に対象物が含まれていると判定されたか否かが判断される（ステップＳ９２５）。取出枠内から取り出された画像に対象物が含まれていると判定された場合には（ステップＳ９２５）、判定結果として対象物を検出した旨を示す対象物検出情報が出力される（ステップＳ９３４）。取出枠内から取り出された画像に対象物が含まれていると判定されない場合には（ステップＳ９２５）、対象物検出辞書データベース３００に記憶されている複数の対象物検出辞書のうちで、指定された対象物に関する他の対象物検出辞書が存在するか否かが判断される（ステップＳ９２６）。指定された対象物に関する他の対象物検出辞書が存在する場合には（ステップＳ９２６）、ステップＳ９２４に戻り、対象物判定処理を繰り返す（ステップＳ９２４、Ｓ９２５、Ｓ９４０）。例えば、図７に示す「自動撮影の対象物指定メニュー」画面において、「犬／猫」指定ボタン３３３が押下されている場合において、犬検出辞書３１０を用いた判定処理のみが実行された場合には、猫検出辞書３２０を用いた判定処理が実行される。なお、図７に示す「自動撮影の対象物指定メニュー」画面において、「犬」指定ボタン３３１または「猫」指定ボタン３３２が押下されている場合には、指定された対象物に関する他の対象物検出辞書は存在しない。

指定された対象物に関する他の対象物検出辞書が存在しない場合には（ステップＳ９２６）、対象物判定処理の対象となった画像は取出枠よりも小さいか否かが判断される（ステップＳ９２７）。対象物判定処理の対象となった画像が取出枠よりも小さい場合には（ステップＳ９２７）、対象物判定処理の対象となった画像をこれ以上縮小して対象物判定処理する必要がないため、判定結果として対象物を検出しない旨を示す対象物無検出情報が出力される（ステップＳ９３３）。

対象物判定処理の対象となった画像が取出枠よりも小さくない場合には（ステップＳ９２７）、取出枠が配置された画像上において、その取出枠はその画像の右端に存在するか否かが判断される（ステップＳ９２８）。その取出枠が画像の右端に存在しない場合には（ステップＳ９２８）、その画像上において取出枠が１画素右側にシフトして配置され（ステップＳ９２９）、ステップＳ９２３に戻る。一方、その取出枠が画像の右端に存在する場合には（ステップＳ９２８）、取出枠が配置された画像上において、その取出枠はその画像の下端に存在するか否かが判断される（ステップＳ９３０）。その取出枠が画像の下端に存在しない場合には（ステップＳ９３０）、その画像上において取出枠が１画素下側にシフトされるとともに、その画像の左端に配置され（ステップＳ９３１）、ステップＳ９２３に戻る。その取出枠が画像の下端に存在する場合には（ステップＳ９３０）、その取出枠が右下隅に配置された画像が所定倍率で縮小処理され（ステップＳ９３２）、縮小処理後の画像上の左上隅に取出枠が配置される（ステップＳ９２２）。

なお、この例では、判定対象画像に対象物が含まれていると判定されると、他の判定対象画像を判定処理することなく、現在の撮像画像から対象物が検出されたと判定する例について説明したが、判定対象画像に対象物が含まれていると判定された場合でも、判定対象画像が取出枠よりも小さくなるまで判定処理を繰り返し行い、この判定結果に基づいて、現在の撮像画像から対象物が検出されたと判定するようにしてもよい。また、複数の対象物が指定されている場合には、この指定された全ての対象物の対象物検出辞書を用いた判定処理を繰り返し行い、この判定結果に基づいて、現在の撮像画像から対象物が検出されたと判定するようにしてもよい。

図１７は、本発明の実施の形態における撮像装置１００による対象物検出処理の処理手順のうちの判定処理手順（図１６に示すステップＳ９４０の処理手順）を示すフローチャートである。

最初に、スコアＳが「０」に初期化され（ステップＳ９４１）、変数ｉが「１」に初期化される（ステップＳ９４２）。続いて、対象物検出辞書メモリ２３５に記憶されている対象物検出辞書のｉ行目に格納されている種類３１１、位置３１２、幅３１３および高さ３１４の各値に基づいて、取出枠内から取り出された判定対象画像上に矩形特徴が決定され、この矩形特徴を構成する２つの矩形の領域内に含まれる輝度値の合計値Ａ（ｉ）およびＢ（ｉ）が算出される（ステップＳ９４３）。続いて、算出された合計値Ａ（ｉ）およびＢ（ｉ）の差分値が、特徴量Ｆ（ｉ）として算出される（ステップＳ９４４）。

続いて、対象物検出辞書メモリ２３５に記憶されている対象物検出辞書のｉ行目の符号３１６の値が「ｐ（ｉ）＝１」であるか否かが判断される（ステップＳ９４５）。「ｐ（ｉ）＝１」である場合には（ステップＳ９４５）、算出された特徴量Ｆ（ｉ）が、対象物検出辞書メモリ２３５に記憶されている対象物検出辞書のｉ行目の閾値３１５に格納されている閾値θ（ｉ）よりも小さいか否かが判断される（ステップＳ９４６）。算出された特徴量Ｆ（ｉ）が閾値θ（ｉ）よりも小さい場合には（ステップＳ９４６）、弱仮説ｈ（ｉ）＝１と算出される（ステップＳ９４７）。一方、算出された特徴量Ｆ（ｉ）が閾値θ（ｉ）よりも小さくない場合には（ステップＳ９４６）、弱仮説ｈ（ｉ）＝−１と算出される（ステップＳ９４８）。

また、対象物検出辞書メモリ２３５に記憶されている対象物検出辞書のｉ行目の符号３１６の値が「ｐ（ｉ）＝１」でない場合には（ステップＳ９４５）、「ｐ（ｉ）＝−１」の場合である。この場合には、算出された特徴量Ｆ（ｉ）が閾値θ（ｉ）よりも小さいか否かが判断され（ステップＳ９４９）、算出された特徴量Ｆ（ｉ）が閾値θ（ｉ）よりも小さい場合には、弱仮説ｈ（１）＝−１と算出される（ステップＳ９５０）。一方、算出された特徴量Ｆ（ｉ）が閾値θ（ｉ）よりも小さくない場合には（ステップＳ９４９）、弱仮説ｈ（ｉ）＝１と算出される（ステップＳ９５１）。

続いて、対象物検出辞書メモリ２３５に記憶されている対象物検出辞書のｉ行目の重み３１７に格納されている値α（１）と算出された弱仮説ｈ（ｉ）が乗算され、この乗算により求められた値ｈ（１）α（１）がスコアＳに加算される（ステップＳ９５２）。

続いて、変数ｉに「１」が加算され（ステップＳ９５３）、変数ｉがｔよりも大きいか否かが判断される（ステップＳ９５４）。変数ｉがｔよりも大きくない場合には（ステップＳ９５４）、対象物検出辞書メモリ２３５に記憶されている対象物検出辞書の各行の値についての判定処理が終了していないため、ステップＳ９４３に戻り、同一の対象物検出辞書を用いた判定処理を繰り返す（ステップＳ９４３乃至Ｓ９５３）。一方、変数ｉがｔよりも大きい場合には（ステップＳ９５４）、対象物検出辞書メモリ２３５に記憶されている対象物検出辞書の各行の値についての判定処理が終了しているため、ステップＳ９５５に進み、スコアＳの値が０以上であるか否かが判断される（ステップＳ９５５）。

スコアＳの値が０以上である場合には（ステップＳ９５５）、判定対象画像は対象物を含むと判定される（ステップＳ９５６）。一方、スコアＳの値が０よりも小さい場合には（ステップＳ９５５）、判定対象画像は対象物を含まないと判定される（ステップＳ９５７）。

図１８は、本発明の実施の形態における撮像装置１００による撮像画像記録処理の処理手順を示すフローチャートである。この処理手順は、図１５に示す処理手順の一部を変形したものであり、ステップＳ９６１の処理手順を追加した点以外は、図１５に示す処理手順と同様である。このため、ステップＳ９６１以外の処理手順についての詳細な説明は省略する。

指定対象物自動撮影モードが設定されている場合において（ステップＳ９０１）、シャッターボタン１７１が押下された場合には（ステップＳ９０２）、指定された対象物に関連付けて記憶されている音声情報に対応する音声が出力される（ステップＳ９６１）。ここで、図７に示す「自動撮影の対象物指定メニュー」画面において、「犬／猫」指定ボタン３３３が押下されている場合には、犬および猫に関連付けて記憶されている音声情報に対応する音声を同時に出力するようにしてもよく、交互に出力するようにしてもよい。また、何れか一方のみを出力するようにしてもよい。

以上では、図７に示す「自動撮影の対象物指定メニュー」画面において、「犬」指定ボタン３３１が押下されている場合において、犬の顔の正面が検出された場合には、犬に関連する音声情報を出力する例について説明した。ここで、例えば、犬の顔の正面が、撮像装置１００側を向く前の状態でも、撮像装置１００側にある程度向いている場合には、音声情報を出力することにより、犬の顔の正面が、撮像装置１００側を向く可能性をさらに高めることができると考えられる。そこで、以下では、犬または猫の顔の側面および正面を検出した場合に、検出された対象物に関連する音声情報を出力する例について説明する。

図１９は、本発明の実施の形態における対象物検出辞書データベース３００に記憶されている対象物検出辞書を概略的に示す図である。ここでは、対象物検出辞書データベース３００には、犬の正面顔検出辞書６０１と、猫の正面顔検出辞書６０２と、犬の側面顔検出辞書６０３と、猫の側面顔検出辞書６０４とが記憶されている例について説明する。ここで、犬の正面顔検出辞書６０１は、犬の正面顔を検出するための対象物検出辞書であり、猫の正面顔検出辞書６０２は、猫の正面顔を検出するための対象物検出辞書であり、犬の側面顔検出辞書６０３は、犬の側面顔を検出するための対象物検出辞書であり、猫の側面顔検出辞書６０４は、猫の側面顔を検出するための対象物検出辞書である。なお、犬の正面顔検出辞書６０１、猫の正面顔検出辞書６０２、犬の側面顔検出辞書６０３および猫の側面顔検出辞書６０４は、各項目に格納される各値が異なる以外の点については、図５に示す犬検出辞書３１０および猫検出辞書３２０と同様であるため、ここでの詳細な説明については省略する。

例えば、図７に示す「自動撮影の対象物指定メニュー」画面において、「犬」指定ボタン３３１が押下されて、指定対象物自動撮影モードが設定されている場合には、犬の正面顔検出辞書６０１および犬の側面顔検出辞書６０３を用いて、犬の顔の正面および側面を検出することが可能である。

図２０は、本発明の実施の形態における撮像装置１００を用いて犬を撮影する場合における液晶パネル１８１の表示例を示す図である。図２０（ａ）では、犬の顔の側面が液晶パネル１８１に表示されている状態を示し、図２０（ｂ）では、犬の顔の正面が液晶パネル１８１に表示されている場合を示す。なお、図２０（ａ）に示す場合には、犬の顔の側面が撮像画像に含まれるため、撮像画像から検出された犬の顔の周りにマーカ６１１が付されるとともに、音声情報（ワンワン）が音声出力部１９０から出力される。また、図２０（ｂ）に示す場合には、犬の顔の正面が撮像画像に含まれるため、撮像画像から検出された犬の顔の周りにマーカ６１２が付されるとともに、音声情報（ワンワン）が音声出力部１９０から出力されて撮像画像が記録される。これらの撮像画像の記録については、図２１および図２２を参照して詳細に説明する。

図２１および図２２は、本発明の実施の形態における撮像装置１００を用いて犬を撮影する場合を模式的に示す図である。図２１（ａ）では、床に寝ている犬５１０を撮影するため、撮像装置１００を三脚１０１に固定して犬５１０の正面に設置したものの、犬５１０の顔がレンズ１１１とは反対側を向いている状態を示す。ここでは、図７に示す「自動撮影の対象物指定メニュー」において、「犬」指定ボタン３３１がユーザにより押下されて指定対象物自動撮影モードが設定されている状態で、シャッターボタン１７１がユーザにより押下される例を示す。

図２１（ａ）に示すように、シャッターボタン１７１が指１０２により押下されると、対象物検出部２３０が撮像画像から犬を検出する犬検出処理を開始する。ここで、指定対象物自動撮影モードが設定されている状態で、シャッターボタン１７１が押下された場合には、犬５１０の顔を検出するまで撮像画像の記録が行われない。そして、図２１（ｂ）に示すように、対象物検出部２３０により犬５１０の顔の側面が検出されると、音声情報（ワンワン）が音声出力部１９０から出力される。なお、犬５１０の顔の側面が検出された場合には、音声情報（ワンワン）が出力されるのみで、撮像画像は記録されない。また、図２２（ａ）に示すように、対象物検出部２３０により犬５１０の顔の正面が検出されると、音声情報（ワンワン）が音声出力部１９０から出力される。続いて、図２２（ｂ）に示すように、音声情報（ワンワン）が音声出力部１９０から出力された直後に撮像画像が記録される。

このように、犬５１０の顔の側面が検出された場合には、犬５１０がレンズ１１１側に顔を向き始めていることが考えられる。そこで、この検出の際に犬に関連する音声情報（ワンワン）を出力して犬５１０の興味をレンズ１１１側に引くようにして、犬５１０がレンズ１１１側に顔を向ける可能性を高める。そして、犬５１０の顔の正面が検出された場合には、この検出の際に犬に関連する音声情報（ワンワン）を出力して犬５１０の興味をさらに引くようにして、犬５１０の顔がさらにレンズ１１１側に向くようにして撮像画像を記録する。このように、犬の顔の側面が検出された場合と、犬の顔の正面が検出された場合との２段階で、犬に関連する音声情報（ワンワン）を出力することにより、犬５１０の興味をレンズ１１１側にさらに引くことができ、犬５１０がレンズ１１１側に顔を向く可能性を高めることができる。

また、図１４と同様に、犬に関する異なる２つの音声情報（例えば、高音のワンワン、低音のワンワン）を音声記憶部１６０に記憶しておき、犬の顔の側面が検出された場合における音声情報の出力と、犬の顔の正面が検出された場合における音声情報の出力とを異なるようにしてもよい。このように、２段階で異なる音を出力することにより、犬５１０の興味をさらに引くことができる。

図２３は、本発明の実施の形態における撮像装置１００による撮像画像記録処理の処理手順を示すフローチャートである。この処理手順は、図１５に示す処理手順の一部を変形したものであり、ステップＳ９０４およびＳ９０５の代わりに、ステップＳ９７１およびＳ９７４を設け、さらに、ステップＳ９７２およびＳ９７３の処理手順を追加した点以外は、図１５に示す処理手順と同様である。このため、ステップＳ９７１乃至Ｓ９７４以外の処理手順についての詳細な説明は省略する。

撮像部１１２により生成された撮像画像について対象物検出処理が行われ（ステップＳ９２０）、対象物検出部２３０が、撮像部１１２により生成された撮像画像から、指定された対象物の正面を検出したか否かが判断される（ステップＳ９７１）。撮像部１１２により生成された撮像画像から、指定された対象物の正面が検出されていない場合には（ステップＳ９７１）、対象物検出部２３０が、撮像部１１２により生成された撮像画像から、指定された対象物の側面を検出したか否かが判断される（ステップＳ９７２）。撮像部１１２により生成された撮像画像から、指定された対象物の側面が検出された場合には（ステップＳ９７２）、側面が検出された対象物に関連付けて格納されている音声情報に対応する音声が音声出力部１９０から出力され（ステップＳ９７３）、ステップＳ９０３に戻る。一方、撮像部１１２により生成された撮像画像から、指定された対象物の正面が検出されていない場合には（ステップＳ９７２）、ステップＳ９０３に戻る。

また、撮像部１１２により生成された撮像画像から、指定された対象物の正面が検出された場合には（ステップＳ９７１）、正面が検出された対象物に関連付けて格納されている音声情報に対応する音声が音声出力部１９０から出力され（ステップＳ９７４）、現在の撮像画像が記録部１５０に記録される（ステップＳ９０６）。

以上では、撮像画像を記録する際に対象物の興味をひきつけるため、検出された対象物に関連する音声情報を出力して撮像画像を記録する例について説明した。このように、指定された対象物に関連する音声情報を出力することにより、その対象物の興味をひきつけることができるとともに、撮像画像を記録したことをユーザに通知することができる。ここで、例えば、記録された撮像画像のブレの有無に応じた通知を行うことができれば、この通知を受け取ったユーザが再撮影の有無等を迅速に判断することができると考えられる。そこで、以下では、撮像画像を記録する際における撮像画像のブレの有無に応じて異なる音声情報を出力することにより、記録された撮像画像がブレているか否かをユーザに通知する例について説明する。

図２４は、本発明の実施の形態における音声記憶部７００に記憶されている内容を概略的に示す図である。この例では、撮像装置１００において、音声記憶部１６０の代わりに音声記憶部７００を設けた例について説明する。音声記憶部７００には、対象物７０１および音声情報７０２が関連付けて記憶されている。

対象物７０１は、自動撮影を行う対象物として指定可能な対象物であり、例えば、「犬」および「猫」が格納される。この対象物７０１は、図６に示す対象物１６１に対応する。

音声情報７０２は、音声出力部１９０から音声を出力させるための音声情報であり、対象物に関連付けて「ブレ無し」および「ブレ有り」の２つの音声情報が格納される。なお、図２４では、例えば、「犬」に関連付けて格納される「ブレ無し」の音声情報を「ワンワン」で表すとともに「ブレ有り」の音声情報を「キャイーン」で表し、「猫」に関連付けて格納される「ブレ無し」の音声情報を「ニャーニャー」で表すとともに「ブレ有り」の音声情報を「ギャーギャー」で表す。この例では、対象物が検出された場合に出力される音声情報として「ブレ無し」の音声情報を用いる例について説明する。

図２５は、本発明の実施の形態における撮像装置１００を用いて犬を撮影する場合を模式的に示す図である。図２５に示す例は、撮像画像を記録する際における撮像画像のブレの有無に応じて異なる音声情報を出力する点（図２５（ｃ）に示す）以外は、図１３に示す例と同じである。このため、図２５（ｃ）について詳細に説明し、その他の点についての詳細な説明を省略する。

図２５（ｂ）に示すように、対象物検出部２３０により犬５１０の顔が検出されると、「ブレ無し」の音声情報（ワンワン）が音声出力部１９０から出力される。続いて、図２５（ｃ）に示すように、音声情報（ワンワン）が音声出力部１９０から出力された直後に撮像画像が記録される。この撮像画像が記録される際に、この撮像画像におけるブレの有無が判定され、ブレがあると判定されると、図２５（ｃ）に示すように、「ブレ有り」の音声情報（キャイーン）が音声出力部１９０から出力される。なお、撮像画像におけるブレの有無の判定は、例えば、記憶装置Ｉ／Ｆ２４０を介して記憶装置部１３０から取得された現在の撮像画像をカメラパラメータ制御部２２０が評価することにより行うことができる。すなわち、現在の撮像画像における周波数成分のうちで、比較的高い周波数成分が多い場合には、ブレていない画像であると判定し、現在の撮像画像における周波数成分のうちで、比較的高い周波数成分が少ない場合には、ブレている画像であると判定することができる。

このように、犬の顔が検出された際に「ブレ無し」の音声情報（ワンワン）を出力し、記録時における撮像画像にブレがあると判定されると、「ブレ有り」の音声情報（キャイーン）を出力することにより、犬５１０の顔の正面の撮像画像を記録したが、この撮像画像がブレていることをユーザに迅速に通知することができる。また、撮影時における通常のシャッター音の代わりに、ブレの有無に応じた対象物に関連する音声情報を出力することにより、撮影に対する面白みを高めることができる。なお、撮像画像におけるブレの有無の判定以外の評価を行い、この撮像画像の評価結果に応じて音声情報を出力するようにしてもよい。例えば、合焦の程度を表す評価値、指定された対象物にどれだけ近いかの度合いを示す評価値、撮像画像における被写体の明るさを示す評価値等を算出し、これらの評価値を評価結果として用いることができる。例えば、これらの評価値が全て高い値となった場合には、音声情報（ワンワン）を出力し、これらの評価値のうちで何れかが低い価となった場合には、音声情報（キャイーン）を出力することができる。

図２６は、本発明の実施の形態における撮像装置１００による撮像画像記録処理の処理手順を示すフローチャートである。この処理手順は、図１５に示す処理手順の一部を変形したものであり、ステップＳ９０５の代わりに、ステップＳ９８１を設け、さらに、ステップＳ９８２乃至Ｓ９８４の処理手順を追加した点以外は、図１５に示す処理手順と同様である。このため、ステップＳ９８１乃至Ｓ９８４以外の処理手順についての詳細な説明は省略する。

対象物検出部２３０が、撮像部１１２により生成された撮像画像から、指定された対象物を検出したか否かが判断され（ステップＳ９０４）、撮像部１１２により生成された撮像画像から、指定された対象物が検出された場合には、検出された対象物に関連付けて格納されている「ブレ無し」の音声情報に対応する音声が音声出力部１９０から出力される（ステップＳ９８１）。

また、記録部１５０に記録された現在の撮像画像のブレの有無が判定される（ステップＳ９８２）。記録部１５０に記録された現在の撮像画像にブレが有ると判定された場合には（ステップＳ９８２）、検出された対象物に関連付けて格納されている「ブレ有り」の音声情報に対応する音声が音声出力部１９０から出力される（ステップＳ９８３）。一方、記録部１５０に記録された現在の撮像画像にブレが無いと判定された場合には（ステップＳ９８２）、検出された対象物に関連付けて格納されている「ブレ無し」の音声情報に対応する音声が音声出力部１９０から出力される（ステップＳ９８４）。

以上で示したように、本発明の実施の形態では、例えば、ユーザからの指示を理解できない動物の顔が検出された際に撮像画像を記録するため、その動物の顔がレンズ１１１側に向いた瞬間の適切なタイミングで撮像画像を記録することができる。また、その動物の顔が検出された際にその動物に関連する音声情報を出力してその動物の興味を撮像装置１００側に向けさせることにより、その動物の顔がさらにレンズ１１１側に向いた瞬間に撮像画像を記録することができる。これにより、その動物の顔の正面の撮像画像を記録する場合に、その動物の顔が撮像装置１００側に向いた際における適切なタイミングで撮像画像を記録することができる。すなわち、撮影者からの指示を理解できない対象物の撮像画像を適切に記録することができる。また、撮像画像の記録の際にその動物に関連する音声情報を出力することにより、その動物の興味を引くことができるとともに、ユーザに対しても撮像画像を記録したことを通知することができる。また、動物の撮影時にその動物に関連する音声を出力することにより、娯楽的な側面も備える撮像装置を提供することができる。

また、撮像画像が対象物を含むか否かを判定するための判定情報として、対象物検出辞書データベース３００に記憶されている対象物検出辞書を用いるため、判定処理時における辞書の入替が可能である。このため、複数の対象物を指定された場合についても、複数の対象物を検出することが可能である。また、例えば、犬の目は白部分が少ないため、犬の視線の同定までは困難であることが多い。このため、犬の正面顔を検出することは困難であることが多い。そこで、本発明の実施の形態では、矩形特徴を用いた判定処理を行うことにより、検出が困難である対象物の検出精度を向上させることができる。

なお、本発明の実施の形態に示す各図では、音声記憶部１６０に記憶されている音声情報を１回または２回繰り返して出力する例を示すが、一定時間繰り返して出力するようにしてもよい。また、出力時間をユーザが設定可能とするようにしてもよい。また、音声記憶部１６０に記憶されている音声情報を、ユーザが記憶可能とするようにしてもよい。例えば、ユーザが飼っている犬の鳴き声や同種の犬の鳴き声等を録音して音声記憶部１６０に記憶しておき、この泣き声を用いて自動撮影を行うようにしてもよい。

また、本発明の実施の形態では、１回のシャッターボタンの押下操作により、１枚の撮像画像を記録する例について説明したが、１回のシャッターボタンの押下操作により、一定枚数（例えば、６枚）の撮像画像を連続して記録するようにしてもよい。また、記録される撮像画像が一定枚数に達するまで、対象物が検出される毎に撮像画像を記録するようにしてもよい。

また、本発明の実施の形態では、対象物として「犬」および「猫」を例にして説明したが、哺乳類等の他の動物を対象物とする場合についても本発明の実施の形態を適用することができる。また、人間の赤ちゃんを対象物とする場合についても本発明の実施の形態を適用することができる。ここで、人間の赤ちゃんを対象物とする場合には、赤ちゃんに関連する音声情報として、例えば、赤ちゃんを呼ぶ母親の声を用いることができる。

なお、対象物の検出精度を高めるため、例えば、対象物の種類毎に対象物検出辞書を設けるようにしてもよい。犬の場合には、例えば、日本国内における一般的な犬の顔（例えば、小麦色（キツネ色）で柴犬型の顔）を検出するための対象物検出辞書、「チワワ」を検出するための対象物検出辞書等を設けることができる。

また、本発明の実施の形態では、撮像画像が対象物を含むか否かを判定するための判定情報として、対象物検出辞書データベース３００に記憶されている対象物検出辞書を用いる例について説明したが、撮像画像が対象物を含むか否かを判定することができる他の判定処理を用いるようにしてもよい。例えば、矩形特徴の代わりに、判定対象画像上の２点間の輝度値の差分値を用いる判定器を用いた判定処理を行うことができる。

また、静止画および動画を撮像するカムコーダ（camcorder：camera and recorder）や撮像機能を備える携帯電話機の各種の撮像装置に本発明の実施の形態を適用することができる。

なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、特許請求の範囲における発明特定事項とそれぞれ対応関係を有するが、これに限定されるものではなく本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。

なお、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。

本発明の実施の形態における撮像装置１００の一構成例を示すブロック図である。本発明の実施の形態におけるカメラ制御部２００の機能構成例を示すブロック図である。本発明の実施の形態における撮像装置１００の外観を示す斜視図である。本発明の実施の形態における対象物検出部２３０の機能構成例を示すブロック図である。本発明の実施の形態における対象物検出辞書データベース３００に記憶されている対象物検出辞書を概略的に示す図である。本発明の実施の形態における音声記憶部１６０に記憶されている内容を概略的に示す図である。本発明の実施の形態における液晶パネル１８１に表示されるメニュー画面の一例を示す図である。本発明の実施の形態における対象物判定部２３６による対象物判定処理の対象となる画像を取り出す画像取出方法の概略を示す図である。本発明の実施の形態における対象物判定部２３６による対象物判定処理の対象となる画像を取り出す画像取出方法の概略を示す図である。本発明の実施の形態における判定対象画像と、判定処理に用いられる矩形特徴とを示す図である。本発明の実施の形態における液晶パネル１８１に表示される撮像画像の一例を示す図である。本発明の実施の形態における撮像装置１００を用いて犬を撮影する場合における液晶パネル１８１の表示例を示す図である。本発明の実施の形態における撮像装置１００を用いて犬を撮影する場合を模式的に示す図である。本発明の実施の形態における撮像装置１００を用いて犬を撮影する場合を模式的に示す図である。本発明の実施の形態における撮像装置１００による撮像画像記録処理の処理手順を示すフローチャートである。本発明の実施の形態における撮像装置１００による撮像画像記録処理の処理手順のうちの対象物検出処理手順を示すフローチャートである。本発明の実施の形態における撮像装置１００による対象物検出処理の処理手順のうちの判定処理手順を示すフローチャートである。本発明の実施の形態における撮像装置１００による撮像画像記録処理の処理手順を示すフローチャートである。本発明の実施の形態における対象物検出辞書データベース３００に記憶されている対象物検出辞書を概略的に示す図である。本発明の実施の形態における撮像装置１００を用いて犬を撮影する場合における液晶パネル１８１の表示例を示す図である。本発明の実施の形態における撮像装置１００を用いて犬を撮影する場合を模式的に示す図である。本発明の実施の形態における撮像装置１００を用いて犬を撮影する場合を模式的に示す図である。本発明の実施の形態における撮像装置１００による撮像画像記録処理の処理手順を示すフローチャートである。本発明の実施の形態における音声記憶部７００に記憶されている内容を概略的に示す図である。本発明の実施の形態における撮像装置１００を用いて犬を撮影する場合を模式的に示す図である。本発明の実施の形態における撮像装置１００による撮像画像記録処理の処理手順を示すフローチャートである。

符号の説明

１００撮像装置
１０１三脚
１１１レンズ
１１２撮像部
１２０システム制御部
１３０記憶装置部
１４０外部Ｉ／Ｆ部
１５０記録部
１６０音声記憶部
１７０操作入力部
１７１シャッターボタン
１８０表示部
１８１液晶パネル
１９０音声出力部
２００カメラ制御部
２１０シーケンス制御部
２２０カメラパラメータ制御部
２３０対象物検出部
２３１画像取得部
２３２画像縮小部
２３３画像取出部
２３５対象物検出辞書メモリ
２３６対象物判定部
２３７判定結果出力部
２４０記憶装置Ｉ／Ｆ
３００対象物検出辞書データベース
７００音声記憶部

Claims

入力される入力画像に所定の対象物が含まれているか否かを判定するための複数の判定情報から、ユーザによる操作入力に基づいて少なくとも一つの判定情報を選択する選択手段と、
前記入力画像から前記選択された判定情報に係る対象物を検出する検出手段と、
前記検出手段により前記選択された判定情報に係る対象物が検出されたタイミングに基づいて、前記入力画像を記録手段に記録させる記録制御手段と、
前記記録制御手段により入力画像が記録された際における当該入力画像の評価を行う画像評価手段と、
前記画像評価手段による評価結果に応じて、前記選択された判定情報に係る対象物に関連付けられている音声情報を出力させる音声出力制御手段と
を具備する画像処理装置。
前記対象物には、前記画像評価手段により求められる複数の評価結果毎に異なる音声情報が関連付けられ、
前記音声出力制御手段は、前記記録制御手段により入力画像が記録された際には、前記選択された判定情報に係る対象物に関連付けられている音声情報のうちから、当該入力画像に係る前記画像評価手段による評価結果に関連付けられている音声情報を出力させる
請求項１記載の画像処理装置。
前記音声出力制御手段は、前記検出手段により前記選択された判定情報に係る対象物が検出されたタイミングに基づいて、前記選択された判定情報に係る対象物に関連付けられている音声情報を出力させる請求項１記載の画像処理装置。
前記対象物は、動物の顔であり、
前記音声情報は、前記動物の鳴き声である
請求項１記載の画像処理装置。
前記対象物は、人間の赤ちゃんの顔であり、
前記音声情報は、人間の赤ちゃんを呼びかける声である
請求項１記載の画像処理装置。
前記操作入力に基づいて複数の対象物のうちから複数の対象物を指定する指定手段をさらに具備し、
前記記録制御手段は、前記指定された複数の対象物のうちの少なくとも一つの対象物が検出されたタイミングに基づいて前記入力画像を記録させる
請求項１記載の画像処理装置。
前記操作入力を受け付けるためのタッチパネルをさらに具備する請求項１記載の画像処理装置。
前記入力画像は撮像手段の撮像に基づいて生成され、
前記検出された対象物に基づいて所定のパラメータを設定することにより、前記撮像手段を制御する撮像制御手段をさらに具備する
請求項１記載の画像処理装置。
ユーザによる操作入力に基づいて複数の対象物から少なくとも一つを選択する選択手段と、
前記選択された対象物と当該対象物の向きとを、入力画像から検出する対象物検出手段と、
前記選択された対象物が検出されたタイミングに基づいて、前記複数の対象物のそれぞれに関連付けられている音声情報のうちから、前記検出された対象物と当該対象物の向きとに関連付けられている音声情報を出力させる音声出力制御手段と、
前記検出された対象物に係る前記音声情報が出力された後に前記入力画像を記録手段に記録させる記録制御手段と
を具備する画像処理装置。
前記対象物検出手段は、前記選択された対象物の向きとして前記選択された対象物の正面または側面を前記入力画像から検出し、
前記音声出力制御手段は、前記選択された対象物の側面が検出された際には前記選択された対象物と当該対象物の側面とに関連付けられている音声情報を出力させ、前記選択された対象物の正面が検出された際には前記選択された対象物と当該対象物の正面とに関連付けられている音声情報を出力させ、
前記記録制御手段は、前記選択された対象物と当該対象物の正面とに関連付けられている音声情報が出力された後に前記入力画像を記録させる
請求項９記載の画像処理装置。
前記音声出力制御手段は、前記選択された対象物の側面が検出された後に当該対象物の正面が検出されると当該正面が検出された対象物に係る前記音声情報を出力させる請求項１０記載の画像処理装置。
前記記録制御手段は、前記検出された対象物に係る前記音声情報が出力された直後における前記入力画像を記録させる請求項９記載の画像処理装置。
前記音声出力制御手段は、前記操作入力を受け付けた際に前記選択された対象物に関連付けられている音声情報を出力させ、前記選択された対象物が検出された際に前記検出された対象物に関連付けられている音声情報を出力させる請求項９記載の画像処理装置。
前記選択手段は、前記操作入力に基づいて複数の対象物を選択し、
前記音声出力制御手段は、前記選択された複数の対象物のうちの少なくとも一つの対象物が検出された際に前記検出された対象物に関連付けられている音声情報を出力させる
請求項９記載の画像処理装置。
入力される入力画像に所定の対象物が含まれているか否かを判定するための複数の判定情報から、ユーザによる操作入力に基づいて少なくとも一つの判定情報が選択されている場合に、前記入力画像から前記選択された判定情報に係る対象物を検出する検出手順と、
前記検出手順で前記選択された判定情報に係る対象物が検出されたタイミングに基づいて、前記入力画像を記録手段に記録させる記録制御手順と、
前記記録制御手順で入力画像が記録された際における当該入力画像の評価を行う画像評価手順と、
前記画像評価手順での評価結果に応じて、前記選択された判定情報に係る対象物に関連付けられている音声情報を出力させる音声出力制御手順と
を具備する画像記録方法。
入力される入力画像に所定の対象物が含まれているか否かを判定するための複数の判定情報から、ユーザによる操作入力に基づいて少なくとも一つの判定情報が選択されている場合に、前記入力画像から前記選択された判定情報に係る対象物を検出する検出手順と、
前記検出手順で前記選択された判定情報に係る対象物が検出されたタイミングに基づいて、前記入力画像を記録手段に記録させる記録制御手順と、
前記記録制御手順で入力画像が記録された際における当該入力画像の評価を行う画像評価手順と、
前記画像評価手順での評価結果に応じて、前記選択された判定情報に係る対象物に関連付けられている音声情報を出力させる音声出力制御手順と
をコンピュータに実行させるプログラム。