JP2013007851A

JP2013007851A - 撮像装置

Info

Publication number: JP2013007851A
Application number: JP2011139817A
Authority: JP
Inventors: Susumu Honma; 行本間
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2011-06-23
Filing date: 2011-06-23
Publication date: 2013-01-10

Abstract

【課題】撮影者が意図する対象に合焦された撮影画像を、容易に取得することができる撮像装置を提供する。
【解決手段】
光学系による画像を取得する画像取得部（１３）と、前記画像に含まれる顔画像である第１顔画像（６８）を認識する顔画像認識部（５６）と、周囲環境の音声の特徴に関する第１音声情報（８０）を取得する音声取得部（２８）と、特定の顔画像の特徴に関する第２顔情報（７２〜７８）と、特定の音声の特徴に関する第２音声情報（８２〜８８）とを、予め互いに関連付けて記憶する記憶部（３２）と、前記音声取得部で取得された前記第１音声情報と、前記記憶部に記憶された前記第２音声情報との類似性に基づき、前記第１音声情報と前記第２音声情報とを関連付ける音声判定部（５４）と、前記音声判定部による関連付けの結果と、前記顔画像認識部による認識の結果とを用いて、前記光学系の合焦位置を制御する合焦位置制御部（５２）と、を有する撮像装置。
【選択図】図１

Description

本発明は、撮像装置に関する。

近年、オートフォーカス機能付きのカメラとして、ファインダー視野内の顔画像を認識し、所定の特徴を有する顔画像に対して自動的に焦点を合わせるカメラが提案されている。また、被写体の音声を複数のマイクで取得し、それぞれのマイクが取得した音声の位相差から被写体までの距離を算出し、オートフォーカスを行うカメラも提案されている（特許文献１等参照）。

顔認識を行うカメラは、視野内に含まれる被写体の中から、撮影者が合焦対象としたい人物を自動的に抽出し、撮影者の意図する人物の顔に合焦した撮影画像を得ることができる。また、音声から被写体までの距離を算出するカメラでは、例えば被写体の明るさが足りないような場合でも、被写体までの距離を適切に算出することができる。

特開２００３−９８４２２号公報

顔認識により人物を抽出する従来のカメラは、同一の人物であっても状況によって顔画像が変化するために、撮影者の意図する人物の顔を認識できない場合がある。特に、被写体の向きや、被写体がサングラスやマスクを付けている場合など、被写体の顔の一部が隠れているような場合には、認識不能や誤認識が生じやすいという問題を有している。また、音声から被写体までの距離を算出する従来のカメラでは、音を発する対象が多く存在するような環境での撮影においては、目的とする対象以外が発した音声に反応することにより、意図しない対象に対して合焦してしまう等の問題がある。

本発明に係る撮像装置は、このような課題に鑑みてなされたものであり、その目的は、撮影者が意図する対象に合焦された撮影画像を、容易に取得することができる撮像装置を提供することである。

上記目的を達成するために、本発明に係る撮像装置は、
光学系による画像を取得する画像取得部（１３）と、
前記画像に含まれる顔画像（６７〜６９）である第１顔画像を認識する顔画像認識部（５６）と、
周囲環境の音声の特徴に関する第１音声情報（８０）を取得する音声取得部（２８）と、
特定の顔画像の特徴に関する第２顔情報（７２〜７８）と、特定の音声の特徴に関する第２音声情報（８２〜８８）とを、予め互いに関連付けて記憶する記憶部（３２）と、
前記音声取得部で取得された前記第１音声情報と、前記記憶部に記憶された前記第２音声情報との類似性に基づき、前記第１音声情報と前記第２音声情報とを関連付ける音声判定部（５４）と、
前記音声判定部による関連付けの結果と、前記顔画像認識部による認識の結果とを用いて、前記光学系の合焦位置を制御する合焦位置制御部（５２）と、
を有する。

また、例えば、前記顔画像認識部で認識された前記第１顔画像の特徴と、前記記憶部に記憶された前記第２顔情報の類似性から、前記第１顔画像と前記第２顔情報とを関連付ける顔判定部（６２）を有しても良く、
前記合焦位置制御部は、前記顔判定部によって関連付けられた前記第２顔情報と、前記音声判定部によって関連付けられた前記第２音声情報とが、前記記憶部において予め関連付けられている場合に、前記顔判定部によって前記第２顔情報に関連付けられた前記第１顔画像に合焦させるように制御を行っても良い。

また、例えば、前記記憶部は、予め互いに関連付けられた前記第２顔情報及び前記第２音声情報の組合せ（Ａ〜Ｄ）を複数有していても良く、
複数の前記組合せの中から、撮影者が１以上の前記組合せを選択するための入力部（２４）をさらに有しても良く、
前記合焦位置制御部は、前記音声判定部によって前記第１音声情報に関連付けられた前記第２音声情報が、前記入力部を介して選択された前記組合せに係る前記第２音声情報に含まれる場合に、前記合焦位置を制御しても良い。

また、例えば、前記周辺環境の音声が発生した方向に関する方向情報を取得する音声方向取得部（３４，３６）を有しても良く、
前記合焦位置制御部は、前記音声方向取得部で取得された前記方向情報を用いて制御を行っても良い。

また、例えば、前記画像取得部が取得する前記画像は、自動的に逐次取得及び消去されるスルー画と、撮影者によって入力されるタイミング信号に応じて取得及び保存される保存画とを含んでも良く、
前記顔画像認識部は、前記画像取得部で取得された前記スルー画を用いて前記第１顔画像を認識しても良く、
前記合焦位置制御部は、前記保存画の取得動作中又は前記保存画を取得するための準備動作中において、前記合焦位置を制御しても良い。

なお上述の説明では、本発明をわかりやすく説明するために実施形態を示す図面の符号に対応づけて説明したが、本発明は、これに限定されるものでない。後述の実施形態の構成を適宜改良してもよく、また、少なくとも一部を他の構成物に代替させてもよい。さらに、その配置について特に限定のない構成要件は、実施形態で開示した配置に限らず、その機能を達成できる位置に配置することができる。

図１は、本発明の一実施形態に係るカメラの概略ブロック図である。図２は、図１に示す記憶部に記憶された第２顔情報及び第２音声情報の概念図である。図３は、図１に示す画像取得部で取得される画像の一例を表す概念図である。図４は、図１に示す画像取得部で取得される第１音声情報の一例を表す概念図である。図５は、合焦位置に関する制御動作の第１の例を表すフローチャートである。図６は、合焦位置に関する制御動作の第２の例を表すフローチャートである。図７は、本発明の第２実施形態に係るカメラの概略ブロック図である。図８は、合焦位置に関する制御動作の第３の例を表すフローチャートである。

第１実施形態
図１は、本発明の第１実施形態に係るカメラ１０の概略ブロック図である。カメラ１０は、複数のレンズを含む撮影光学系１２、撮像素子１４等を含む画像取得部１３、レンズ駆動部２６、カメラ１０全体を制御するＣＰＵ４０等を有する。またカメラ１０は、画像等を表示する表示部２２、ＡＦセンサ３０、音声取得部２８、記憶部３２等を有する。

カメラ１０の撮影光学系１２は、通常複数のレンズ群によって構成されており、画像取得部１３における撮像素子１４等に被写体光を導く。また、撮影光学系１２は、撮影光学系１２の合焦距離を変化させるためのフォーカシングレンズを有している。レンズ駆動部２６は、モータ等によって構成され、フォーカシングレンズを光軸方向に駆動し、撮影光学系１２の合焦距離を変化させる。

画像取得部１３は、撮像素子１４と、インターフェース回路１６と、画像処理コントローラ２０を有する。撮像素子１４は、被写体光を光電変換し、画像信号を生成する。撮像素子１４は、例えばＣＣＤやＣＭＯＳ等の固体撮像素子で構成されるが特に限定されない。画像処理コントローラ２０およびインターフェース回路１６は、ＣＰＵ４０からの信号に基づき、撮像素子１４によって撮像された画像の画像処理を制御する。

画像取得部１３が取得する画像には、スルー画と保存画とが含まれる。スルー画は、例えばカメラ１０が撮影モードで起動している間は、保存画の取得動作を実施している間を除き、自動的に取得される。スルー画は、所定の時間間隔で逐次取得され、画像取得部１３は、取得したスルー画をＣＰＵ４０に出力する。

ＣＰＵ４０は、画像取得部１３によって取得したスルー画を表示部２２に表示させたり、スルー画に対して顔認識等の処理を行うことができる。スルー画は、表示部２２に表示された後、又はＣＰＵ４０によって演算処理が行われた後は、自動的に逐次消去される。

保存画は、不図示のレリーズスイッチや撮影開始スイッチ等からの入力に応じて取得され、ＣＰＵ４０によって記憶部３２又はカメラ１０に着脱可能に取り付けられるメモリカード（不図示）等に保存される。画像取得部１３によって取得される保存画は、静止画であっても良く、動画であっても良い。保存画は、スルー画に比べてデータ容量が大きいことが一般的であるが、特に限定されない。なお、本実施形態に係る画像取得部１３は、スルー画と保存画を同一の撮像素子１４を用いて取得するが、画像取得部１３としてはこれに限定されず、スルー画と保存画を別個の撮像素子を用いて取得するものであっても良い。

表示部２２は、画像、操作メニュー、設定情報等を表示させるための部材であり、液晶パネル等によって構成される。例えば、表示部２２は、ＣＰＵ４０からの制御を受けて、画像取得部１３で取得されたスルー画や保存画等を表示することができ、また合焦位置等の情報を、これらの画像に重ねて表示することもできる。さらに、表示部２２は、ＣＰＵ４０からの制御を受けて、記憶部３２に保存されている各種の情報を表示することができる。

入力部２４は、撮影者による信号入力を可能にし、入力された信号をＣＰＵ４０に出力するための部材であり、カメラ１０の筐体表面に設置されたスイッチ、ボタン又はダイアル等を含む。また、入力部２４は、表示部２２の表面に設置されたタッチパネル等を含むものであっても良い。ＣＰＵ４０は、例えば表示部２２に画像又は文字等の各種情報を表示することにより、入力部２４を介して選択信号を入力することを、カメラ１０の撮影者に対して促すことができる。

ＡＦセンサ３０は、合焦しているか否かを検出するためのセンサであり、例えばＣＣＤセンサ等によって構成される。例えば、ＣＰＵ４０は、ＡＦセンサ３０からの出力により、撮影視野内の特定の部分に対して撮影光学系１２が合焦しているか否かを判断する。さらに、ＣＰＵ４０は、撮影視野内の特定の部分に対して撮影光学系１２が合焦していないと判断した場合は、レンズ駆動部２６を制御してフォーカシングレンズを移動させることにより、合焦制御を行う。なお、撮影視野内のどの部分に対して撮影光学系１２を合焦させるかということに関する合焦位置の制御については、後ほど詳述する。

音声取得部２８は、カメラ１０の周辺環境の音声に関する情報を取得する。音声取得部２８は、音声を構成する空気振動を電気信号に変換し、音声の特徴に関する第１音声情報を取得する。音声取得部２８は、例えば、マイクと、マイクからの電気信号を解析し、音声の特徴を抽出する処理回路とを有している。音声取得部２８によって取得される第１音声情報には、ＷＡＶデータのような音声データそのものや、音声データの周波数特性などを抽出したデータ等が含まれる。

記憶部３２は、各種のデータを記憶することが可能であり、不揮発性メモリ等によって構成される。ＣＰＵ４０は、必要に応じて記憶部３２に格納されたデータを読み出し、ＣＰＵ４０で行う演算処理に使用することができる。また、ＣＰＵ４０は、記憶部３２に新たなデータを記憶させたり、記憶部３２に格納されたデータを更新することも可能である。

記憶部３２には、特定の顔画像に関する第２顔情報と、特定の音声の特徴に関する第２音声情報とが記憶される。図２は、記憶部４２に記憶された第２顔情報７２〜７８と第２音声情報８２〜８８を示す概念図である。第２顔情報７２〜７８は、特定の人の顔の画像が有する個別的な特徴に関する情報であり、顔画像自体、顔の輪郭形状、目、鼻、口の形状、大きさ、配置等に関する情報が例示されるが、顔の認識に有益な情報であれば特に限定されない。第２顔情報７２〜７８は、特定の人の顔の画像データであっても良く、顔の特徴に関する数値データ又は関数データ等であっても良い。また、第２顔情報７２〜７８は、画像取得部１３で取得された画像等に基づきＣＰＵ４０が抽出したものであっても良く、データとしてカメラ１０に対して入力されたものであってもよい。

第２音声情報８２〜８８は、特定の人の声が有する個別的な特徴に関する情報であり、音声波形の強度、周波数特性、時間変化などに関する情報が例示されるが、声の認識に有用な情報であれば特に限定されない。第２音声情報８２〜８８は、特定の人の声の波形データそのものであっても良く、声の特徴に関する数値データ又は関数データ等であっても良い。また、第２音声情報８２〜８８は、音声取得部２８によって取得された音声情報を基にＣＰＵ４０が抽出したものであっても良く、データとしてカメラ１０に対して入力されたものであっても良い。

記憶部３２は、第２顔情報７２〜７８と第２音声情報８２〜８８とを、撮影開始前に、予め互いに関連付けて記憶する。図２に示すように、それぞれの第２顔情報７２〜７８は、これと同一の人物に係る第２音声情報８２〜８８に対して関連付けられている。例えば、第２顔情報７２は特定の女性に関する顔情報であり、これと関連付けられた第２音声情報８２は、第２顔情報７２に係る特定の女性と同一人物に関する音声情報である。

記憶部３２は、互いに関連付けられた第２顔情報７２〜７８及び第２音声情報８２〜８８の組合せＡ〜Ｄを複数有している。図２に示す例では、記憶部３２は、特定の女性に関する組合せＡ、特定の男の子に関する組合せＢ、特定の男性に関する組合せＣ及び特定の女の子に関する組合せＤの４つの組合せを有している。

後述する合焦位置制御部５２によって合焦位置を制御する場合、記憶部３２は、顔画像認識部５６がスルー画から顔画像を認識する前に、第２顔情報７２〜７８及び第２音声情報８２〜８８を予め関連付けて記憶しておく。これにより、合焦位置制御部５２は、顔画像認識部５６による認識の結果に加えて、記憶部３２に関連付けて記憶された第２顔情報７２〜７８及び第２音声情報８２〜８８を用いて、合焦位置の制御を行うことができる。

図１に示すＣＰＵ４０は、各種の演算処理を行い、カメラ１０全体の制御を行う。ＣＰＵ４０は、合焦位置制御部５２、音声判定部５４、顔画像認識部５６及び顔判定部６２等として機能する。

顔画像認識部５６は、画像取得部１３によって取得された画像に含まれる顔画像である第１顔画像を認識する。例えば、静止画の撮影準備動作等においては、顔画像認識部５６は、画像取得部１３によって取得されたスルー画を解析し、スルー画に含まれる人物の顔（第１顔画像）を認識する。また、例えば、動画の撮影時等においては、顔画像認識部５６は、画像取得部１３によって取得された保存画を解析し、保存画に含まれる第１顔画像を認識することも可能である。

顔画像認識部５６による第１顔画像の認識結果には、第１顔画像の位置に関する情報と、第１顔画像の個別的な特徴に関する情報とが含まれる。例えば、顔画像認識部５６は、顔画像の一般的特徴に基づいて、スルー画に含まれる顔画像を検索し、第１顔画像の位置を認識する。また、顔画像認識部５６は、第１顔画像における顔の輪郭形状、目、鼻、口の形状、大きさ、配置等など、第１顔画像の特徴を認識する。なお、顔画像認識部５６による認識結果は、記憶部３２に一時的に保存されても良い。

顔判定部６２は、顔画像認識部５６で認識された第１顔画像の特徴と、記憶部３２に記憶された第２顔情報７２〜７８（図２参照）を比較する。さらに、顔判定部６２は、第１顔画像の特徴と第２顔情報７２〜７８との類似性に基づき、第１顔画像と第２顔情報とを関連付ける。例えば、顔判定部６２は、第１顔画像の特徴と、記憶部３２に記憶されたいずれかの第２顔情報７２〜７８とが、同一人物に係るものであると判断できるほど類似している場合には、その第２顔情報と第１顔画像とを関連付ける。なお、顔判定部６２による判定結果についても、顔画像認識部５６の認識結果と同様に、記憶部３２に一時的に保存されても良い。

音声判定部５４は、音声取得部２８で取得された第１音声情報と、記憶部３２に記憶された第２音声情報８２〜８８とを比較する。さらに、音声判定部５４は、第１音声情報と第２音声情報８２〜８８の類似性に基づき、第１音声情報と第２音声情報とを関連付ける。例えば、音声判定部５４は、第１音声情報と、記憶部３２に記憶されたいずれかの第２音声情報とが、同一人物に係るものであると判断できるほど類似している場合には、その第２音声情報と第１音声情報とを関連付ける。

合焦位置制御部５２は、レンズ駆動部２６の駆動を制御することによって、撮影光学系１２の合焦位置を制御する。合焦位置制御部５２は、ＡＦセンサ３０からの情報を用いて、撮影光学系１２が撮影視野内の特定の部分に対して合焦するように、レンズ駆動部２６を制御し、オートフォーカスを行う。

合焦位置制御部５２は、音声判定部５４による関連付けの結果と、画像認識部５６による認識の結果とを用いて、記憶部３２に予め記憶された第２顔情報及び第２音声情報に係る特定の人物の顔に合焦するように、撮影光学系１２の合焦位置を制御することができる。この場合、合焦位置制御部５２は、顔画像認識部５６の認識結果や顔判定部６２による関連付けの結果に加えて、音声判定部５４による関連付けの結果を用いることにより、撮影者の意図に合致する合焦動作を行うことができる。

例えば、合焦位置制御部５２は、音声判定部５４による関連付けの結果を用いることにより、顔画像認識部５６や顔判定部６２のみによる場合に比べて、顔画像の人物特定精度を向上させることができる。なぜなら、顔判定部６２で行われる顔画像の特徴に関する類似性の判定精度は、スルー画等から認識された第１顔画像が横顔であったり、第１顔画像の一部が他の物の影になる等の影響により、低下する場合がある。しかし、音声判定部５４で行われる音声の特徴に関する類似性の判定精度は、音声が好適に取得できる限り、顔を隠す障害物や顔の向き等による影響をほとんど受けない。そのため、カメラ１０は、合焦制御において意図しない人物に合焦したり、意図する人物に合焦しないなどの問題を低減することができる。

また、合焦位置制御部５２は、音声判定部５４による関連付けの結果を用いることにより、合焦位置の切り替えを好適に行うことができる。例えば、カメラ１０は、撮影時に合焦させる対象として、複数の人物を指定することが可能である。この場合、顔画像認識部５６及び顔判定部６２により、合焦の対象となる人物が視野内に複数存在すると認定される状況が発生し得る。この時、合焦位置制御部５２は、音声判定部５４による関連付けの結果に基づき、合焦の対象となる人物であって現在発言中であると認められる人物に、合焦させる制御を行うことが可能である。

図５は、カメラ１０で行われる合焦位置に関する制御動作の第１の例を表すフローチャートである。図５に示す第１の例では、カメラ１０のＣＰＵ４０は、撮影者によって予め選択された特定の人物に対して合焦するように、合焦位置を制御することができる。ステップＳ００１では、カメラ１０は、一連の合焦動作を開始する。ステップＳ００１は、例えばカメラ１０の電源がＯＮになったタイミングや、カメラ１０が静止画の撮影待機状態になったタイミング等で実施される。

ステップＳ００２では、カメラ１０は、撮影時において合焦してほしい被写体（人物）を選択するように、撮影者に求める。カメラ１０の記憶部３２には、図２に示すように、第２顔情報７２〜７８及び第２音声情報８２〜８８が互いに関連付けられて保存されている。撮影者は、この組合せＡ〜Ｄの中から、撮影時において合焦してほしい人物に関する組合せＡ〜Ｄを選択し、入力部２４を介して選択結果を入力する。図５に示す例では、撮影者が、図２に示す女の子に関する組合せＤを選択したと仮定し、その後の処理を説明する。なお、ステップＳ００２において、ＣＰＵ４０は、各組合せＡ〜Ｄに対応する人物の顔画像のサムネイル画像を、表示部２２に一覧表示するなどして、撮影者の選択を促しても良い。また、ステップＳ００２において選択される組合せＡ〜Ｄの数は、１つに限定されず、複数であっても良い。

ステップＳ００３では、カメラ１０は、合焦対象を特定するために使用する情報の取得を行う。ステップＳ００３において、カメラ１０の画像取得部１３は、スルー画を取得し、ＣＰＵ４０に出力する。さらに、ＣＰＵ４０の顔画像認識部５６は、取得されたスルー画から、スルー画に含まれる顔画像である第１顔画像を認識する。図３は、合焦開始直前に、画像取得部１３によって取得された画像６４（スルー画）の一例を表したものである。図３に示す例では、ステップＳ００３において、顔画像認識部５６が、第１顔画像６７、第１顔画像６８及び第１顔画像６９を、画像６４から認識する。

また、ステップＳ００３では、第１顔画像の認識と並行して、音声取得部２８が、カメラ１０の周辺環境の音声の特徴に関する第１音声情報を取得する。音声取得部２８は、取得した第１音声情報を、ＣＰＵ４０に出力する。図４は、音声取得部２８で取得された第１音声情報８０の一例を示す概念図である。なお、ＣＰＵ４０は、顔画像認識部５６によって認識された第１顔画像（位置及び特徴）や、音声取得部２８によって取得された第１音声情報を、記憶部３２に記憶させることができる。

ステップＳ００４では、カメラ１０のＣＰＵ４０は、撮影者からの合焦開始信号が入力されたか否かを判断する。合焦開始信号には、保存画の取得を開始する旨の信号や、保存画を取得するための準備動作を開始する旨の信号などが含まれる。ステップＳ００４において、合焦開始信号を検出した場合は、ＣＰＵ４０は、ステップＳ００５〜ステップＳ０１２の処理へ進む。これに対して、撮影者からの合焦開始信号が検出されない場合は、ＣＰＵ４０は、ステップＳ００３の処理を継続する。

ステップＳ００５〜ステップＳ０１２では、ＣＰＵ４０は、ステップＳ００３で取得した第１顔画像及び第１音声情報を用いて、撮影視野内におけるどの位置に、合焦させるべき対象が存在するかを、決定する。さらに、ＣＰＵ４０は、決定された対象に合焦させるように、レンズ駆動部２６を制御して、撮影光学系１２の合焦位置を制御する。

ステップＳ００５では、ＣＰＵ４０の顔判定部６２が、スルー画から認識された第１顔画像と、合焦対象として選択された第２顔情報とのマッチングを実施する。すなわち、顔判定部６２は、ステップＳ００３で認識された第１顔画像６７〜６９（図３参照）の特徴と、ステップＳ００２で選択された組合せＤに係る第２顔情報７８とを比較し、両者が同一又は酷似しているか否かを、判断する。ステップＳ００５におけるマッチングの閾値は、スルー画から取得された第１顔画像が、合焦対象として設定された人物のものであることが確実であるか否かを判断できる値に設定される。

ステップＳ００５において、ステップＳ００３で取得された何れかの第１顔画像６７〜６９と、ステップＳ００２で選択された第２顔情報７８は、同一又は酷似していると判断された場合は、ＣＰＵ４０は、ステップＳ０１１の処理を行う。この場合、ステップＳ０１１では、ＣＰＵ４０の合焦位置制御部５２が、第２顔情報７８と同一又は酷似していると判断された第１顔画像（例えば、図３における第１顔画像６８）の位置を、合焦させるべき対象が存在する位置であると決定する。さらに、ステップＳ０１１では、合焦位置制御部５２が、決定された第１顔画像６８に対応する被写体に合焦させるように、レンズ駆動部２６を制御して、撮影光学系１２の合焦位置を制御する。

ステップＳ００５において、何れの第１顔画像６７〜６９も、ステップＳ００２で選択された第２顔情報７８と同一でもなく、酷似してもいないと判断された場合は、ＣＰＵ４０は、ステップＳ００６に示す処理へ進む。

ステップＳ００６では、ＣＰＵ４０の顔判定部６２が、スルー画から認識された第１顔画像と、合焦対象として選択された第２顔情報とのマッチングを再実施する。ただし、ステップＳ００６は、ステップＳ００５より類似性の閾値を下げて、マッチングを実施する。すなわち、顔判定部６２は、ステップＳ００３で認識された第１顔画像６７〜６９（図３参照）の特徴と、ステップＳ００２で選択された組合せＤに係る第２顔情報７８とを比較し、両者が類似しているか否かを判断する。ステップＳ００６におけるマッチングは、ステップＳ００５におけるマッチングより類似性の閾値を下げて実施されるため、第１顔画像の一部が遮蔽物によって遮られているような場合でも、比較可能な一部の特徴が類似している場合には、顔判定部６２は、第１顔画像と第２顔情報７８とが類似していると判断することができる。

ステップＳ００５において、顔判定部６２が、何れの第１顔画像６７〜６９も、ステップＳ００２で選択された第２顔情報７８と類似していないと判断した場合、ＣＰＵ４０は、ステップＳ０１２に示す処理へ進む。ステップＳ０１２では、ＣＰＵ４０の合焦位置制御部５２は、例えば視野範囲の中心位置など、第１顔画像の位置とは関連のないデフォルト位置を、合焦させるべき対象が存在する位置であると決定する。さらに、ステップＳ０１２では、合焦位置制御部５２が、決定された対象に合焦させるようにレンズ駆動部２６を制御して、撮影光学系１２の合焦位置を制御する。

ステップＳ００６においては、顔判定部６２が、ステップＳ００３で取得された何れかの第１顔画像６７〜６９と、ステップＳ００２で選択された第２顔情報７８が類似していると判断した場合は、ＣＰＵ４０は、ステップＳ００７の処理を行う。ステップＳ００７では、顔判定部６２は、ステップＳ００２で選択された第２顔情報７８と、この第２顔情報７８に類似していると判断した第１顔画像（例えば、図３における第１顔画像６８）とを、互いに関連付ける。また、顔判定部６２は、関連付けの結果を、記憶部３２に一時的に記憶させる。

ステップＳ００８では、ＣＰＵ４０の音声判定部５４が、音声取得部２８によって取得された第１音声情報と、合焦対象として選択された第２音声情報とのマッチングを実施する。すなわち、音声判定部５４は、ステップＳ００３で取得された第１音声情報８０（図４参照）と、ステップＳ００２で選択された組合せＤに係る第２音声情報８８とを比較し、両者が類似しているか否かを判断する。

ステップＳ００８において、第１音声情報８０が、ステップＳ００２で選択された第２音声情報８８と類似していないと判断された場合、ＣＰＵ４０は、ステップＳ０１２に示す処理へ進む。ステップＳ０１２では、上述したように、ＣＰＵ４０の合焦位置制御部５２が、デフォルト位置の対象に合焦させるように、撮影光学系１２の合焦位置を制御する。

ステップＳ００８において、第１音声情報８０がステップＳ００２で選択された第２音声情報８８に類似していると判断された場合、ＣＰＵ４０は、ステップＳ００９に示す処理へ進む。ステップＳ００９では、音声判定部５４は、ステップＳ００２で選択された第２音声情報８８と、この第２音声情報８８に類似していると判断した第１音声情報８０とを、互いに関連付ける。また、音声判定部５４は、関連付けの結果を、記憶部３２に一時的に記憶させる。

ステップＳ０１０では、ステップＳ００７において第１顔画像６８に関連付けられた第２顔情報７８と、ステップＳ００９において第１音声情報８０に関連付けられた第２音声情報８８とが、同一人物のものであるか否かを判断する。なお、ステップＳ００２で合焦対象として選択された人物が１人である場合には、ステップＳ０１０の処理を行わず、ステップＳ００９から直接ステップＳ０１１に進んでも良い。なぜなら、合焦対象として選択された人物が１人である場合には、ステップＳ０１０における判断結果は確実に「ＹＥＳ」となるからである。

ステップＳ０１０では、ＣＰＵ４０の合焦位置制御部５２は、ステップＳ００７で関連付けられた第２顔情報７８と、ステップＳ００９で関連付けられた第２音声情報８８とが、記憶部３２において予め関連付けられているか否かを判断する。上述したように、記憶部３２において、それぞれの第２顔情報７２〜７８は、これと同一の人物に係る第２音声情報８２〜８８に対して、予め関連付けられて記憶されている。そのため、記憶部３２における関連付けを調査することにより、ステップＳ００７で関連付けられた第２顔情報７８とステップＳ００９で関連付けられた第２音声情報８８とが、同一人物のものであるか否かを判断することができる。

ステップＳ０１０において、第２顔情報７８と第２音声情報８８とが記憶部３２において予め関連付けられておらず、第２顔情報７８と第２音声情報８８とが同一人物に係るものでないと判断された場合、ＣＰＵ４０は、ステップＳ０１２に示す処理へ進む。ステップＳ０１２における処理は、上述したとおりである。

ステップＳ０１０において、第２顔情報７８と第２音声情報８８とが記憶部３２において予め関連付けられており、第２顔情報７８と第２音声情報８８とが同一人物に係るものであると判断された場合、ＣＰＵ４０は、ステップＳ０１１に示す処理へ進む。この場合、ステップＳ０１１では、ＣＰＵ４０の合焦位置制御部５２が、ステップＳ００６において合焦対象に類似していると判断された第１顔画像（例えば、図３における第１顔画像６８）の位置を、合焦させるべき対象が存在する位置であると決定する。さらに、ステップＳ０１１では、合焦位置制御部５２が、決定された対象に合焦させるようにレンズ駆動部２６を制御して、撮影光学系１２の合焦位置を制御する。

図５に示す第１の例では、カメラ１０は、顔画像認識部５６の認識結果及び顔判定部６２による判定結果だけでなく、音声判定部５４による判定結果を用いて、撮影光学系１２の合焦位置を制御する。環境音が合焦対象に係る人物の音声を含んでいると判断される場合には、カメラ１０は、スルー画も合焦対象に係る人物の顔画像を含んでいる可能性が高いと推認することができる。したがって、カメラ１０は、画像による判定だけでは、第１顔画像が合焦対象に係る人物のものであるとは言い切れないような場合にでも、音声判定部５４の判定を併用することにより、第１顔画像がより高い確率で合焦対象に係る人物のものであると判断できる。このように、カメラ１０は、顔画像認識部５６や顔判定部６２のみによる場合に比べて、顔画像の人物特定精度を向上させることができる。

図６は、カメラ１０で行われる合焦位置に関する制御動作の第２の例を表すフローチャートである。図６に示す第２の例では、カメラ１０のＣＰＵ４０は、発言している人物に対して合焦するように、合焦位置を制御することができる。ステップＳ１０１では、カメラ１０は、一連の合焦動作を開始する。ステップＳ１０１は、例えばカメラ１０において動画の撮影開始スイッチがＯＮになったタイミング等で実施される。

ステップＳ１０２では、カメラ１０は、合焦対象を特定するために使用する画像の取得と、当該画像に含まれる第１顔画像の認識を実施する。動画録画時を例に説明を行うと、ステップＳ１０２において、カメラ１０の画像取得部１３は、保存画（動画）を取得し、ＣＰＵ４０に出力する。ＣＰＵ４０は、保存画を記憶部３２に保存させる処理と並行して、保存画に含まれる第１顔画像の認識を実施する。すなわち、ＣＰＵ４０の顔画像認識部５６は、第１の例において図３を用いて説明したのと同様に、画像６４に含まれる第１顔画像６７〜６９を、保存画から認識する。

ステップＳ１０３では、ＣＰＵ４０の顔判定部６２が、保存画から認識された第１顔画像６７〜６９と、記憶部３２に記憶された第２顔情報とのマッチングを実施する。すなわち、顔判定部６２は、ステップＳ１０２で認識された各顔画像の特徴と、記憶部３２に記憶された第２顔情報７２〜７８（図２参照）とを比較し、両者が類似しているか否かを判断する。さらに、顔判定部６２は、第１顔画像６７〜６９を、これと類似していると判断した第２顔情報７２〜７８に関連付け、関連付けの結果を記憶部３２に保存する。顔判定部６２は、画像６４から認識された第１顔画像６７〜６９が複数ある場合には、全ての第１顔画像６７〜６９についてマッチングを行い、なるべく多くの第１顔画像６７〜６９を、記憶部３２に記憶された第２顔情報７２〜７８に対して関連付けることが好ましい。

ステップＳ１０４では、ＣＰＵ４０が、音声取得部２８によって第１音声情報８０（図４参照）が取得されたか否かを検出する。ステップＳ１０４において第１音声情報８０の取得が検出されない場合、ＣＰＵ４０は、ステップＳ１０９の処理へ進む。ステップＳ１０９では、ＣＰＵ４０は、合焦動作を停止する旨の信号が入力されたか否かを検出する。そして、合焦動作の停止信号が入力されている場合は、ＣＰＵ４０は、ステップＳ１１０へ進み、合焦動作を終了する。また、合焦動作の停止信号が入力されていない場合には、ＣＰＵ４０はステップＳ１０２の処理へ戻り、画像の取得、顔画像の認識及びマッチングを繰り返す。

ステップＳ１０４において第１音声情報８０の取得が検出された場合、ＣＰＵ４０は、ステップＳ１０５の処理へ進む。ステップＳ１０５では、ＣＰＵ４０の音声判定部５４が、取得された第１音声情報８０と、記憶部３２に保存された第２音声情報８２〜８８のマッチングを実施する。すなわち、音声判定部５４は、ステップＳ１０４で検出された第１音声情報８０と、記憶部３２に記憶された第２音声情報８２〜８８（図２参照）とを比較し、第１音声情報８０が何れかの第２音声情報８２〜８８と類似しているか否かを判断する。

ステップＳ１０４において、取得された第１音声情報８０が何れの第２音声情報８２〜８８とも類似していないと判断された場合は、ＣＰＵ４０はステップＳ１０２の処理へ戻る。これに対して、取得された第１音声情報８０が何れかの第２音声情報８２〜８８に類似していると判断された場合は、ＣＰＵ４０は、ステップＳ１０６の処理へ進む。

ステップＳ１０６では、ＣＰＵ４０の音声判定部５４は、ステップＳ１０５において類似していると判断された第１音声情報８０と第２音声情報（たとえば、図２における第２音声情報８８）を、互いに関連付ける。また、音声判定部５４は、関連づけの結果を記憶部３２に保存させる。

ステップＳ１０７では、ステップＳ１０６において第１音声情報８０に関連付けられた第２音声情報８８が、ステップＳ１０３において第１顔画像と関連付けられた何れかの第２顔情報に対して、記憶部３２において予め関連付けられているか否かについて判断を行う。上述したように、記憶部３２において、それぞれの第２顔情報７２〜７８は、これと同一の人物に係る第２音声情報８２〜８８に対して、予め関連付けられて記憶されている。そのため、記憶部３２における関連付けを調査することにより、ステップＳ１０６で関連付けられた第２音声情報８８と同一人物のものであると考えられる顔画像（第１顔画像６８）が、ステップＳ１０２において画像から認識されているか否かを判断することができる。

ステップＳ１０７において、取得された第２音声情報８８が、ステップＳ１０３において関連付けられた何れの第２顔情報とも、記憶部３２において予め関連付けられておらず、取得された第１音声情報８０と同一人物に係る第１顔画像が認識されていないと判断された場合、ＣＰＵ４０は、ステップＳ１０２の処理へ戻る。

これに対して、取得された第２音声情報８８が、ステップＳ１０３において関連付けられた何れかの第２顔情報と、記憶部３２において予め関連付けられており、取得された第１音声情報８０と同一人物に係る第１顔画像６８が、ステップＳ１０２において認識されていると判断された場合、ＣＰＵ４０は、ステップＳ１０８の処理へ進む。ステップＳ１０８では、ＣＰＵ４０の合焦位置制御部５２が、ステップＳ１０４において取得された第１音声情報８０と同一人物に係る第１顔画像６８の位置を、合焦させるべき対象が存在する位置であると決定する。さらに、ステップＳ１０８では、合焦位置制御部５２が、決定された対象に合焦させるようにレンズ駆動部２６を制御して、撮影光学系１２の合焦位置を制御する。ステップＳ１０８の処理を終えた後、ＣＰＵ４０は、ステップＳ１０２の処理へ戻り、画像の取得、顔画像の認識及びマッチングを行う。

このように、カメラ１０は、第２顔情報及び第２音声情報８８に関するデータベースを用いて、顔情報及び音声情報のマッチングを行うことにより、発言中であると認められる人物に合焦させる制御を行うことが可能である。なお、第２の例に示すような合焦動作は、保存画である静止画の取得開始前に実施されても良く、保存画である動画の取得と並行して実施されても良い。

図７は、本発明の第２実施形態に係るカメラ７０の概略ブロック図である。カメラ７０は、カメラ７０に備えられる音声取得部が、２つのマイク（第１マイク３４及び第２マイク３６）を有する点で、図１に示すカメラ１０と異なる。ただし、カメラ７０のその他の構成は、カメラ１０と同様である。

第１マイク３４及び第２マイク３６を有する音声取得部は、音声が発生した方向に関する方向情報を取得する音声方向取得部としても機能する。すなわち、カメラ７０の音声取得部は、第１マイク３４から取得された音声と、第２マイク３６から取得された音声の位相差から、音声が発生した方向に関する方向情報を取得することができる。第１マイク３４及び第２マイク３６を用いて取得された方向情報は、ＣＰＵ４０に入力される。ＣＰＵ４０の合焦位置制御部５２は、取得された方向情報を用いて、撮影光学系１２の合焦位置を制御する。

図８は、カメラ７０で行われる合焦位置に関する制御動作の例（第３の例）を表すフローチャートである。図８に示す第３の例では、カメラ７０のＣＰＵ４０は、図５に示す第１の例と同様に、撮影者によって予め選択された特定の人物に対して合焦するように、合焦位置を制御することができる。ステップＳ２０１では、カメラ７０は、一連の合焦動作を開始する。ステップＳ２０１は、例えばカメラ７０が静止画の撮影状態になったタイミング等で実施される。

ステップＳ２０２では、カメラ７０は、撮影時において合焦してほしい被写体（人物）を選択するように、撮影者に求める。ステップＳ２０２における処理は、第１の例におけるステップＳ００２における処理と同様である。

ステップＳ２０３では、カメラ７０は、図３に示すような画像６４（スルー画）の取得を開始する。カメラ７０の画像取得部１３は、取得したスルー画を、ＣＰＵ４０に出力する。

ステップＳ２０４では、カメラ７０のＣＰＵ４０が、第１音声情報及び方向情報の取得を検出する。ＣＰＵ４０は、第１マイク３４及び第２マイク３６を含む音声取得部により、周辺環境の音声に関する第１音声情報８０（図４参照）や、第１音声情報が発生した方向に関する方向情報が、取得されたか否かを検出する。

ステップＳ２０４において第１音声情報８０及び方向情報の取得が検出されない場合、ＣＰＵ４０は、ステップＳ２１０の処理へ進む。ステップＳ２１０では、ＣＰＵ４０は、合焦動作を停止する旨の信号が入力されたか否かを検出する。そして、合焦動作の停止信号が入力されている場合は、ＣＰＵ４０は、ステップＳ２１１へ進み、合焦動作を終了する。また、合焦動作の停止信号が入力されていない場合には、ＣＰＵ４０はステップＳ２０３の処理へ戻り、スルー画の取得及び第１音声情報の検出を繰り返す。

ステップＳ２０４において第１音声情報８０及び方向情報の取得が検出された場合、ＣＰＵ４０は、ステップＳ２０５の処理へ進む。ステップＳ２０５では、ＣＰＵ４０の音声判定部５４が、取得された第１音声情報８０と、合焦対象として選択された第２音声情報とのマッチングを実施する。すなわち、音声判定部５４は、ステップＳ２０４で取得が検出された第１音声情報８０と類似する第２音声情報８２〜８８を、ステップＳ２０２で選択された組合せに係る第２音声情報８２〜８８の中から検索する。

ステップＳ２０６では、ＣＰＵ４０の音声判定部５４は、ステップＳ２０５のマッチングによって、取得された第１音声情報８０と類似する第２音声情報が検出されたか否かを判断する。ステップＳ２０６において、第１音声情報８０と類似する第２音声情報が検出されていないと認められた場合には、ＣＰＵ４０は、ステップＳ２０３の処理へ戻る。

ステップＳ２０６において、目的とする第２音声情報が検出されたと認められる場合、ＣＰＵ４０は、ステップＳ２０７の処理へ進む。ステップＳ２０７では、ＣＰＵ４０の顔画像認識部５６及び顔判定部６２が、ステップＳ２０３で取得されたスルー画の中から、第１音声情報８０に関する人物と同一人物の顔画像を検策する。

顔画像認識部５６は、まず、スルー画の中から、第１顔画像を認識する。この際、顔画像認識部５６は、ステップＳ２０４で検出された方向情報を用いて、スルー画のうち、第１音声情報８０に係る音声が発生した方向に関する部分から、優先して認識処理を行うことができる。このような部分には、その音声を発生した人物の顔画像が存在する可能性が高いため、顔画像認識部５６は、第１音声情報８０に関する人物と同一人物の顔画像を、スルー画から容易に検出することができる。

第１顔画像が認識されると、顔判定部６２は、認識された第１顔画像が、ステップＳ２０４で検出した第１音声情報８０に関する人物と同一人物の顔画像であるか否かを判断する。記憶部３２には、ステップＳ２０６において第１音声情報と類似していると判断された第２音声情報に関連付けられて、第２音声情報の人物と同一人物に関する第２顔情報が保存されている。顔判定部６２は、この第２顔情報と、スルー画から認識された第１顔画像の特徴が類似しているか否かを判断する。このような処理を繰り返すことにより、顔画像認識部５６及び顔判定部６２は、スルー画の中から、第１音声情報８０に関する人物と同一人物の顔画像を検策する。

ステップＳ２０８では、ＣＰＵ４０の顔判定部６２は、ステップＳ２０７の検索処理によって、スルー画の中から、第１音声情報８０に関する人物と同一人物の顔画像が検出されたか否かを判断する。ステップＳ２０８において、目的とする第１顔画像が検出されていないと認められた場合には、ＣＰＵ４０は、ステップＳ２０３の処理へ戻る。

ステップＳ２０８において、目的とする第１顔画像が検出されたと認められる場合、ＣＰＵ４０は、ステップＳ２０９の処理へ進む。ステップＳ２０９では、ＣＰＵ４０の合焦位置制御部５２が、第１音声情報８０と同一人物のものであると認められる第１顔画像が検出された位置を、合焦させるべき対象が存在する位置であると決定する。さらに、ステップＳ２０９では、合焦位置制御部５２が、決定された対象に合焦させるようにレンズ駆動部２６を制御して、撮影光学系１２の合焦位置を制御する。ステップＳ２０９の処理を終えた後、ＣＰＵ４０は、ステップＳ２０４の処理へ戻り、スルー画の取得を行う。

このように、カメラ７０は、周辺環境の音声に関する第１音声情報と、音声の発生した方向に関する方向情報とを用いることにより、精度良く目的とする人物に合焦させる合焦動作を行うことが可能である。

１０，７０…カメラ
１２…撮影光学系
１３…画像取得部
１４…撮像素子
１６…インターフェース回路
２０…画像処理コントローラ
２２…表示部
２４…入力部
２６…レンズ駆動部
３２…記憶部
３０…ＡＦセンサ
２８…音声取得部
３４…第１マイク
３６…第２マイク
４０…ＣＰＵ
５２…合焦位置制御部
５４…音声判定部
５６…顔画像認識部
６２…顔判定部
６４…画像
６７，６８，６９…第１顔画像
７２，７４，７６，７８…第２顔情報
８０…第１音声情報
８２，８４，８６，８８…第２音声情報

Claims

光学系による画像を取得する画像取得部と、
前記画像に含まれる顔画像である第１顔画像を認識する顔画像認識部と、
周囲環境の音声の特徴に関する第１音声情報を取得する音声取得部と、
特定の顔画像の特徴に関する第２顔情報と、特定の音声の特徴に関する第２音声情報とを、予め互いに関連付けて記憶する記憶部と、
前記音声取得部で取得された前記第１音声情報と、前記記憶部に記憶された前記第２音声情報との類似性に基づき、前記第１音声情報と前記第２音声情報とを関連付ける音声判定部と、
前記音声判定部による関連付けの結果と、前記顔画像認識部による認識の結果とを用いて、前記光学系の合焦位置を制御する合焦位置制御部と、
を有する撮像装置。
前記顔画像認識部で認識された前記第１顔画像の特徴と、前記記憶部に記憶された前記第２顔情報の類似性から、前記第１顔画像と前記第２顔情報とを関連付ける顔判定部を有し、
前記合焦位置制御部は、前記顔判定部によって関連付けられた前記第２顔情報と、前記音声判定部によって関連付けられた前記第２音声情報とが、前記記憶部において予め関連付けられている場合に、前記顔判定部によって前記第２顔情報に関連付けられた前記第１顔画像に合焦させるように制御を行うことを特徴とする請求項１に記載の撮像装置。
前記記憶部は、予め互いに関連付けられた前記第２顔情報及び前記第２音声情報の組合せを複数有しており、
複数の前記組合せの中から、撮影者が１以上の前記組合せを選択するための入力部をさらに有し、
前記合焦位置制御部は、前記音声判定部によって前記第１音声情報に関連付けられた前記第２音声情報が、前記入力部を介して選択された前記組合せに係る前記第２音声情報に含まれる場合に、前記合焦位置を制御することを特徴とする請求項１又は請求項２に記載の撮像装置。
前記周辺環境の音声が発生した方向に関する方向情報を取得する音声方向取得部を有し、
前記合焦位置制御部は、前記音声方向取得部で取得された前記方向情報を用いて制御を行うことを特徴とする請求項１から請求項３までのいずれかに記載の撮像装置。
前記画像取得部が取得する前記画像は、自動的に逐次取得及び消去されるスルー画と、撮影者によって入力されるタイミング信号に応じて取得及び保存される保存画とを含み、
前記顔画像認識部は、前記画像取得部で取得された前記スルー画を用いて前記第１顔画像を認識し、
前記合焦位置制御部は、前記保存画の取得動作中又は前記保存画を取得するための準備動作中において、前記合焦位置を制御することを特徴とする請求項１から請求項４までのいずれかに記載の撮像装置。