JP2013007851A - 撮像装置 - Google Patents

撮像装置 Download PDF

Info

Publication number
JP2013007851A
JP2013007851A JP2011139817A JP2011139817A JP2013007851A JP 2013007851 A JP2013007851 A JP 2013007851A JP 2011139817 A JP2011139817 A JP 2011139817A JP 2011139817 A JP2011139817 A JP 2011139817A JP 2013007851 A JP2013007851 A JP 2013007851A
Authority
JP
Japan
Prior art keywords
image
face
information
unit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011139817A
Other languages
English (en)
Inventor
Susumu Honma
行 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP2011139817A priority Critical patent/JP2013007851A/ja
Publication of JP2013007851A publication Critical patent/JP2013007851A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】撮影者が意図する対象に合焦された撮影画像を、容易に取得することができる撮像装置を提供する。
【解決手段】
光学系による画像を取得する画像取得部(13)と、前記画像に含まれる顔画像である第1顔画像(68)を認識する顔画像認識部(56)と、周囲環境の音声の特徴に関する第1音声情報(80)を取得する音声取得部(28)と、特定の顔画像の特徴に関する第2顔情報(72〜78)と、特定の音声の特徴に関する第2音声情報(82〜88)とを、予め互いに関連付けて記憶する記憶部(32)と、前記音声取得部で取得された前記第1音声情報と、前記記憶部に記憶された前記第2音声情報との類似性に基づき、前記第1音声情報と前記第2音声情報とを関連付ける音声判定部(54)と、前記音声判定部による関連付けの結果と、前記顔画像認識部による認識の結果とを用いて、前記光学系の合焦位置を制御する合焦位置制御部(52)と、を有する撮像装置。
【選択図】図1

Description

本発明は、撮像装置に関する。
近年、オートフォーカス機能付きのカメラとして、ファインダー視野内の顔画像を認識し、所定の特徴を有する顔画像に対して自動的に焦点を合わせるカメラが提案されている。また、被写体の音声を複数のマイクで取得し、それぞれのマイクが取得した音声の位相差から被写体までの距離を算出し、オートフォーカスを行うカメラも提案されている(特許文献1等参照)。
顔認識を行うカメラは、視野内に含まれる被写体の中から、撮影者が合焦対象としたい人物を自動的に抽出し、撮影者の意図する人物の顔に合焦した撮影画像を得ることができる。また、音声から被写体までの距離を算出するカメラでは、例えば被写体の明るさが足りないような場合でも、被写体までの距離を適切に算出することができる。
特開2003−98422号公報
顔認識により人物を抽出する従来のカメラは、同一の人物であっても状況によって顔画像が変化するために、撮影者の意図する人物の顔を認識できない場合がある。特に、被写体の向きや、被写体がサングラスやマスクを付けている場合など、被写体の顔の一部が隠れているような場合には、認識不能や誤認識が生じやすいという問題を有している。また、音声から被写体までの距離を算出する従来のカメラでは、音を発する対象が多く存在するような環境での撮影においては、目的とする対象以外が発した音声に反応することにより、意図しない対象に対して合焦してしまう等の問題がある。
本発明に係る撮像装置は、このような課題に鑑みてなされたものであり、その目的は、撮影者が意図する対象に合焦された撮影画像を、容易に取得することができる撮像装置を提供することである。
上記目的を達成するために、本発明に係る撮像装置は、
光学系による画像を取得する画像取得部(13)と、
前記画像に含まれる顔画像(67〜69)である第1顔画像を認識する顔画像認識部(56)と、
周囲環境の音声の特徴に関する第1音声情報(80)を取得する音声取得部(28)と、
特定の顔画像の特徴に関する第2顔情報(72〜78)と、特定の音声の特徴に関する第2音声情報(82〜88)とを、予め互いに関連付けて記憶する記憶部(32)と、
前記音声取得部で取得された前記第1音声情報と、前記記憶部に記憶された前記第2音声情報との類似性に基づき、前記第1音声情報と前記第2音声情報とを関連付ける音声判定部(54)と、
前記音声判定部による関連付けの結果と、前記顔画像認識部による認識の結果とを用いて、前記光学系の合焦位置を制御する合焦位置制御部(52)と、
を有する。
また、例えば、前記顔画像認識部で認識された前記第1顔画像の特徴と、前記記憶部に記憶された前記第2顔情報の類似性から、前記第1顔画像と前記第2顔情報とを関連付ける顔判定部(62)を有しても良く、
前記合焦位置制御部は、前記顔判定部によって関連付けられた前記第2顔情報と、前記音声判定部によって関連付けられた前記第2音声情報とが、前記記憶部において予め関連付けられている場合に、前記顔判定部によって前記第2顔情報に関連付けられた前記第1顔画像に合焦させるように制御を行っても良い。
また、例えば、前記記憶部は、予め互いに関連付けられた前記第2顔情報及び前記第2音声情報の組合せ(A〜D)を複数有していても良く、
複数の前記組合せの中から、撮影者が1以上の前記組合せを選択するための入力部(24)をさらに有しても良く、
前記合焦位置制御部は、前記音声判定部によって前記第1音声情報に関連付けられた前記第2音声情報が、前記入力部を介して選択された前記組合せに係る前記第2音声情報に含まれる場合に、前記合焦位置を制御しても良い。
また、例えば、前記周辺環境の音声が発生した方向に関する方向情報を取得する音声方向取得部(34,36)を有しても良く、
前記合焦位置制御部は、前記音声方向取得部で取得された前記方向情報を用いて制御を行っても良い。
また、例えば、前記画像取得部が取得する前記画像は、自動的に逐次取得及び消去されるスルー画と、撮影者によって入力されるタイミング信号に応じて取得及び保存される保存画とを含んでも良く、
前記顔画像認識部は、前記画像取得部で取得された前記スルー画を用いて前記第1顔画像を認識しても良く、
前記合焦位置制御部は、前記保存画の取得動作中又は前記保存画を取得するための準備動作中において、前記合焦位置を制御しても良い。
なお上述の説明では、本発明をわかりやすく説明するために実施形態を示す図面の符号に対応づけて説明したが、本発明は、これに限定されるものでない。後述の実施形態の構成を適宜改良してもよく、また、少なくとも一部を他の構成物に代替させてもよい。さらに、その配置について特に限定のない構成要件は、実施形態で開示した配置に限らず、その機能を達成できる位置に配置することができる。
図1は、本発明の一実施形態に係るカメラの概略ブロック図である。 図2は、図1に示す記憶部に記憶された第2顔情報及び第2音声情報の概念図である。 図3は、図1に示す画像取得部で取得される画像の一例を表す概念図である。 図4は、図1に示す画像取得部で取得される第1音声情報の一例を表す概念図である。 図5は、合焦位置に関する制御動作の第1の例を表すフローチャートである。 図6は、合焦位置に関する制御動作の第2の例を表すフローチャートである。 図7は、本発明の第2実施形態に係るカメラの概略ブロック図である。 図8は、合焦位置に関する制御動作の第3の例を表すフローチャートである。
第1実施形態
図1は、本発明の第1実施形態に係るカメラ10の概略ブロック図である。カメラ10は、複数のレンズを含む撮影光学系12、撮像素子14等を含む画像取得部13、レンズ駆動部26、カメラ10全体を制御するCPU40等を有する。またカメラ10は、画像等を表示する表示部22、AFセンサ30、音声取得部28、記憶部32等を有する。
カメラ10の撮影光学系12は、通常複数のレンズ群によって構成されており、画像取得部13における撮像素子14等に被写体光を導く。また、撮影光学系12は、撮影光学系12の合焦距離を変化させるためのフォーカシングレンズを有している。レンズ駆動部26は、モータ等によって構成され、フォーカシングレンズを光軸方向に駆動し、撮影光学系12の合焦距離を変化させる。
画像取得部13は、撮像素子14と、インターフェース回路16と、画像処理コントローラ20を有する。撮像素子14は、被写体光を光電変換し、画像信号を生成する。撮像素子14は、例えばCCDやCMOS等の固体撮像素子で構成されるが特に限定されない。画像処理コントローラ20およびインターフェース回路16は、CPU40からの信号に基づき、撮像素子14によって撮像された画像の画像処理を制御する。
画像取得部13が取得する画像には、スルー画と保存画とが含まれる。スルー画は、例えばカメラ10が撮影モードで起動している間は、保存画の取得動作を実施している間を除き、自動的に取得される。スルー画は、所定の時間間隔で逐次取得され、画像取得部13は、取得したスルー画をCPU40に出力する。
CPU40は、画像取得部13によって取得したスルー画を表示部22に表示させたり、スルー画に対して顔認識等の処理を行うことができる。スルー画は、表示部22に表示された後、又はCPU40によって演算処理が行われた後は、自動的に逐次消去される。
保存画は、不図示のレリーズスイッチや撮影開始スイッチ等からの入力に応じて取得され、CPU40によって記憶部32又はカメラ10に着脱可能に取り付けられるメモリカード(不図示)等に保存される。画像取得部13によって取得される保存画は、静止画であっても良く、動画であっても良い。保存画は、スルー画に比べてデータ容量が大きいことが一般的であるが、特に限定されない。なお、本実施形態に係る画像取得部13は、スルー画と保存画を同一の撮像素子14を用いて取得するが、画像取得部13としてはこれに限定されず、スルー画と保存画を別個の撮像素子を用いて取得するものであっても良い。
表示部22は、画像、操作メニュー、設定情報等を表示させるための部材であり、液晶パネル等によって構成される。例えば、表示部22は、CPU40からの制御を受けて、画像取得部13で取得されたスルー画や保存画等を表示することができ、また合焦位置等の情報を、これらの画像に重ねて表示することもできる。さらに、表示部22は、CPU40からの制御を受けて、記憶部32に保存されている各種の情報を表示することができる。
入力部24は、撮影者による信号入力を可能にし、入力された信号をCPU40に出力するための部材であり、カメラ10の筐体表面に設置されたスイッチ、ボタン又はダイアル等を含む。また、入力部24は、表示部22の表面に設置されたタッチパネル等を含むものであっても良い。CPU40は、例えば表示部22に画像又は文字等の各種情報を表示することにより、入力部24を介して選択信号を入力することを、カメラ10の撮影者に対して促すことができる。
AFセンサ30は、合焦しているか否かを検出するためのセンサであり、例えばCCDセンサ等によって構成される。例えば、CPU40は、AFセンサ30からの出力により、撮影視野内の特定の部分に対して撮影光学系12が合焦しているか否かを判断する。さらに、CPU40は、撮影視野内の特定の部分に対して撮影光学系12が合焦していないと判断した場合は、レンズ駆動部26を制御してフォーカシングレンズを移動させることにより、合焦制御を行う。なお、撮影視野内のどの部分に対して撮影光学系12を合焦させるかということに関する合焦位置の制御については、後ほど詳述する。
音声取得部28は、カメラ10の周辺環境の音声に関する情報を取得する。音声取得部28は、音声を構成する空気振動を電気信号に変換し、音声の特徴に関する第1音声情報を取得する。音声取得部28は、例えば、マイクと、マイクからの電気信号を解析し、音声の特徴を抽出する処理回路とを有している。音声取得部28によって取得される第1音声情報には、WAVデータのような音声データそのものや、音声データの周波数特性などを抽出したデータ等が含まれる。
記憶部32は、各種のデータを記憶することが可能であり、不揮発性メモリ等によって構成される。CPU40は、必要に応じて記憶部32に格納されたデータを読み出し、CPU40で行う演算処理に使用することができる。また、CPU40は、記憶部32に新たなデータを記憶させたり、記憶部32に格納されたデータを更新することも可能である。
記憶部32には、特定の顔画像に関する第2顔情報と、特定の音声の特徴に関する第2音声情報とが記憶される。図2は、記憶部42に記憶された第2顔情報72〜78と第2音声情報82〜88を示す概念図である。第2顔情報72〜78は、特定の人の顔の画像が有する個別的な特徴に関する情報であり、顔画像自体、顔の輪郭形状、目、鼻、口の形状、大きさ、配置等に関する情報が例示されるが、顔の認識に有益な情報であれば特に限定されない。第2顔情報72〜78は、特定の人の顔の画像データであっても良く、顔の特徴に関する数値データ又は関数データ等であっても良い。また、第2顔情報72〜78は、画像取得部13で取得された画像等に基づきCPU40が抽出したものであっても良く、データとしてカメラ10に対して入力されたものであってもよい。
第2音声情報82〜88は、特定の人の声が有する個別的な特徴に関する情報であり、音声波形の強度、周波数特性、時間変化などに関する情報が例示されるが、声の認識に有用な情報であれば特に限定されない。第2音声情報82〜88は、特定の人の声の波形データそのものであっても良く、声の特徴に関する数値データ又は関数データ等であっても良い。また、第2音声情報82〜88は、音声取得部28によって取得された音声情報を基にCPU40が抽出したものであっても良く、データとしてカメラ10に対して入力されたものであっても良い。
記憶部32は、第2顔情報72〜78と第2音声情報82〜88とを、撮影開始前に、予め互いに関連付けて記憶する。図2に示すように、それぞれの第2顔情報72〜78は、これと同一の人物に係る第2音声情報82〜88に対して関連付けられている。例えば、第2顔情報72は特定の女性に関する顔情報であり、これと関連付けられた第2音声情報82は、第2顔情報72に係る特定の女性と同一人物に関する音声情報である。
記憶部32は、互いに関連付けられた第2顔情報72〜78及び第2音声情報82〜88の組合せA〜Dを複数有している。図2に示す例では、記憶部32は、特定の女性に関する組合せA、特定の男の子に関する組合せB、特定の男性に関する組合せC及び特定の女の子に関する組合せDの4つの組合せを有している。
後述する合焦位置制御部52によって合焦位置を制御する場合、記憶部32は、顔画像認識部56がスルー画から顔画像を認識する前に、第2顔情報72〜78及び第2音声情報82〜88を予め関連付けて記憶しておく。これにより、合焦位置制御部52は、顔画像認識部56による認識の結果に加えて、記憶部32に関連付けて記憶された第2顔情報72〜78及び第2音声情報82〜88を用いて、合焦位置の制御を行うことができる。
図1に示すCPU40は、各種の演算処理を行い、カメラ10全体の制御を行う。CPU40は、合焦位置制御部52、音声判定部54、顔画像認識部56及び顔判定部62等として機能する。
顔画像認識部56は、画像取得部13によって取得された画像に含まれる顔画像である第1顔画像を認識する。例えば、静止画の撮影準備動作等においては、顔画像認識部56は、画像取得部13によって取得されたスルー画を解析し、スルー画に含まれる人物の顔(第1顔画像)を認識する。また、例えば、動画の撮影時等においては、顔画像認識部56は、画像取得部13によって取得された保存画を解析し、保存画に含まれる第1顔画像を認識することも可能である。
顔画像認識部56による第1顔画像の認識結果には、第1顔画像の位置に関する情報と、第1顔画像の個別的な特徴に関する情報とが含まれる。例えば、顔画像認識部56は、顔画像の一般的特徴に基づいて、スルー画に含まれる顔画像を検索し、第1顔画像の位置を認識する。また、顔画像認識部56は、第1顔画像における顔の輪郭形状、目、鼻、口の形状、大きさ、配置等など、第1顔画像の特徴を認識する。なお、顔画像認識部56による認識結果は、記憶部32に一時的に保存されても良い。
顔判定部62は、顔画像認識部56で認識された第1顔画像の特徴と、記憶部32に記憶された第2顔情報72〜78(図2参照)を比較する。さらに、顔判定部62は、第1顔画像の特徴と第2顔情報72〜78との類似性に基づき、第1顔画像と第2顔情報とを関連付ける。例えば、顔判定部62は、第1顔画像の特徴と、記憶部32に記憶されたいずれかの第2顔情報72〜78とが、同一人物に係るものであると判断できるほど類似している場合には、その第2顔情報と第1顔画像とを関連付ける。なお、顔判定部62による判定結果についても、顔画像認識部56の認識結果と同様に、記憶部32に一時的に保存されても良い。
音声判定部54は、音声取得部28で取得された第1音声情報と、記憶部32に記憶された第2音声情報82〜88とを比較する。さらに、音声判定部54は、第1音声情報と第2音声情報82〜88の類似性に基づき、第1音声情報と第2音声情報とを関連付ける。例えば、音声判定部54は、第1音声情報と、記憶部32に記憶されたいずれかの第2音声情報とが、同一人物に係るものであると判断できるほど類似している場合には、その第2音声情報と第1音声情報とを関連付ける。
合焦位置制御部52は、レンズ駆動部26の駆動を制御することによって、撮影光学系12の合焦位置を制御する。合焦位置制御部52は、AFセンサ30からの情報を用いて、撮影光学系12が撮影視野内の特定の部分に対して合焦するように、レンズ駆動部26を制御し、オートフォーカスを行う。
合焦位置制御部52は、音声判定部54による関連付けの結果と、画像認識部56による認識の結果とを用いて、記憶部32に予め記憶された第2顔情報及び第2音声情報に係る特定の人物の顔に合焦するように、撮影光学系12の合焦位置を制御することができる。この場合、合焦位置制御部52は、顔画像認識部56の認識結果や顔判定部62による関連付けの結果に加えて、音声判定部54による関連付けの結果を用いることにより、撮影者の意図に合致する合焦動作を行うことができる。
例えば、合焦位置制御部52は、音声判定部54による関連付けの結果を用いることにより、顔画像認識部56や顔判定部62のみによる場合に比べて、顔画像の人物特定精度を向上させることができる。なぜなら、顔判定部62で行われる顔画像の特徴に関する類似性の判定精度は、スルー画等から認識された第1顔画像が横顔であったり、第1顔画像の一部が他の物の影になる等の影響により、低下する場合がある。しかし、音声判定部54で行われる音声の特徴に関する類似性の判定精度は、音声が好適に取得できる限り、顔を隠す障害物や顔の向き等による影響をほとんど受けない。そのため、カメラ10は、合焦制御において意図しない人物に合焦したり、意図する人物に合焦しないなどの問題を低減することができる。
また、合焦位置制御部52は、音声判定部54による関連付けの結果を用いることにより、合焦位置の切り替えを好適に行うことができる。例えば、カメラ10は、撮影時に合焦させる対象として、複数の人物を指定することが可能である。この場合、顔画像認識部56及び顔判定部62により、合焦の対象となる人物が視野内に複数存在すると認定される状況が発生し得る。この時、合焦位置制御部52は、音声判定部54による関連付けの結果に基づき、合焦の対象となる人物であって現在発言中であると認められる人物に、合焦させる制御を行うことが可能である。
図5は、カメラ10で行われる合焦位置に関する制御動作の第1の例を表すフローチャートである。図5に示す第1の例では、カメラ10のCPU40は、撮影者によって予め選択された特定の人物に対して合焦するように、合焦位置を制御することができる。ステップS001では、カメラ10は、一連の合焦動作を開始する。ステップS001は、例えばカメラ10の電源がONになったタイミングや、カメラ10が静止画の撮影待機状態になったタイミング等で実施される。
ステップS002では、カメラ10は、撮影時において合焦してほしい被写体(人物)を選択するように、撮影者に求める。カメラ10の記憶部32には、図2に示すように、第2顔情報72〜78及び第2音声情報82〜88が互いに関連付けられて保存されている。撮影者は、この組合せA〜Dの中から、撮影時において合焦してほしい人物に関する組合せA〜Dを選択し、入力部24を介して選択結果を入力する。図5に示す例では、撮影者が、図2に示す女の子に関する組合せDを選択したと仮定し、その後の処理を説明する。なお、ステップS002において、CPU40は、各組合せA〜Dに対応する人物の顔画像のサムネイル画像を、表示部22に一覧表示するなどして、撮影者の選択を促しても良い。また、ステップS002において選択される組合せA〜Dの数は、1つに限定されず、複数であっても良い。
ステップS003では、カメラ10は、合焦対象を特定するために使用する情報の取得を行う。ステップS003において、カメラ10の画像取得部13は、スルー画を取得し、CPU40に出力する。さらに、CPU40の顔画像認識部56は、取得されたスルー画から、スルー画に含まれる顔画像である第1顔画像を認識する。図3は、合焦開始直前に、画像取得部13によって取得された画像64(スルー画)の一例を表したものである。図3に示す例では、ステップS003において、顔画像認識部56が、第1顔画像67、第1顔画像68及び第1顔画像69を、画像64から認識する。
また、ステップS003では、第1顔画像の認識と並行して、音声取得部28が、カメラ10の周辺環境の音声の特徴に関する第1音声情報を取得する。音声取得部28は、取得した第1音声情報を、CPU40に出力する。図4は、音声取得部28で取得された第1音声情報80の一例を示す概念図である。なお、CPU40は、顔画像認識部56によって認識された第1顔画像(位置及び特徴)や、音声取得部28によって取得された第1音声情報を、記憶部32に記憶させることができる。
ステップS004では、カメラ10のCPU40は、撮影者からの合焦開始信号が入力されたか否かを判断する。合焦開始信号には、保存画の取得を開始する旨の信号や、保存画を取得するための準備動作を開始する旨の信号などが含まれる。ステップS004において、合焦開始信号を検出した場合は、CPU40は、ステップS005〜ステップS012の処理へ進む。これに対して、撮影者からの合焦開始信号が検出されない場合は、CPU40は、ステップS003の処理を継続する。
ステップS005〜ステップS012では、CPU40は、ステップS003で取得した第1顔画像及び第1音声情報を用いて、撮影視野内におけるどの位置に、合焦させるべき対象が存在するかを、決定する。さらに、CPU40は、決定された対象に合焦させるように、レンズ駆動部26を制御して、撮影光学系12の合焦位置を制御する。
ステップS005では、CPU40の顔判定部62が、スルー画から認識された第1顔画像と、合焦対象として選択された第2顔情報とのマッチングを実施する。すなわち、顔判定部62は、ステップS003で認識された第1顔画像67〜69(図3参照)の特徴と、ステップS002で選択された組合せDに係る第2顔情報78とを比較し、両者が同一又は酷似しているか否かを、判断する。ステップS005におけるマッチングの閾値は、スルー画から取得された第1顔画像が、合焦対象として設定された人物のものであることが確実であるか否かを判断できる値に設定される。
ステップS005において、ステップS003で取得された何れかの第1顔画像67〜69と、ステップS002で選択された第2顔情報78は、同一又は酷似していると判断された場合は、CPU40は、ステップS011の処理を行う。この場合、ステップS011では、CPU40の合焦位置制御部52が、第2顔情報78と同一又は酷似していると判断された第1顔画像(例えば、図3における第1顔画像68)の位置を、合焦させるべき対象が存在する位置であると決定する。さらに、ステップS011では、合焦位置制御部52が、決定された第1顔画像68に対応する被写体に合焦させるように、レンズ駆動部26を制御して、撮影光学系12の合焦位置を制御する。
ステップS005において、何れの第1顔画像67〜69も、ステップS002で選択された第2顔情報78と同一でもなく、酷似してもいないと判断された場合は、CPU40は、ステップS006に示す処理へ進む。
ステップS006では、CPU40の顔判定部62が、スルー画から認識された第1顔画像と、合焦対象として選択された第2顔情報とのマッチングを再実施する。ただし、ステップS006は、ステップS005より類似性の閾値を下げて、マッチングを実施する。すなわち、顔判定部62は、ステップS003で認識された第1顔画像67〜69(図3参照)の特徴と、ステップS002で選択された組合せDに係る第2顔情報78とを比較し、両者が類似しているか否かを判断する。ステップS006におけるマッチングは、ステップS005におけるマッチングより類似性の閾値を下げて実施されるため、第1顔画像の一部が遮蔽物によって遮られているような場合でも、比較可能な一部の特徴が類似している場合には、顔判定部62は、第1顔画像と第2顔情報78とが類似していると判断することができる。
ステップS005において、顔判定部62が、何れの第1顔画像67〜69も、ステップS002で選択された第2顔情報78と類似していないと判断した場合、CPU40は、ステップS012に示す処理へ進む。ステップS012では、CPU40の合焦位置制御部52は、例えば視野範囲の中心位置など、第1顔画像の位置とは関連のないデフォルト位置を、合焦させるべき対象が存在する位置であると決定する。さらに、ステップS012では、合焦位置制御部52が、決定された対象に合焦させるようにレンズ駆動部26を制御して、撮影光学系12の合焦位置を制御する。
ステップS006においては、顔判定部62が、ステップS003で取得された何れかの第1顔画像67〜69と、ステップS002で選択された第2顔情報78が類似していると判断した場合は、CPU40は、ステップS007の処理を行う。ステップS007では、顔判定部62は、ステップS002で選択された第2顔情報78と、この第2顔情報78に類似していると判断した第1顔画像(例えば、図3における第1顔画像68)とを、互いに関連付ける。また、顔判定部62は、関連付けの結果を、記憶部32に一時的に記憶させる。
ステップS008では、CPU40の音声判定部54が、音声取得部28によって取得された第1音声情報と、合焦対象として選択された第2音声情報とのマッチングを実施する。すなわち、音声判定部54は、ステップS003で取得された第1音声情報80(図4参照)と、ステップS002で選択された組合せDに係る第2音声情報88とを比較し、両者が類似しているか否かを判断する。
ステップS008において、第1音声情報80が、ステップS002で選択された第2音声情報88と類似していないと判断された場合、CPU40は、ステップS012に示す処理へ進む。ステップS012では、上述したように、CPU40の合焦位置制御部52が、デフォルト位置の対象に合焦させるように、撮影光学系12の合焦位置を制御する。
ステップS008において、第1音声情報80がステップS002で選択された第2音声情報88に類似していると判断された場合、CPU40は、ステップS009に示す処理へ進む。ステップS009では、音声判定部54は、ステップS002で選択された第2音声情報88と、この第2音声情報88に類似していると判断した第1音声情報80とを、互いに関連付ける。また、音声判定部54は、関連付けの結果を、記憶部32に一時的に記憶させる。
ステップS010では、ステップS007において第1顔画像68に関連付けられた第2顔情報78と、ステップS009において第1音声情報80に関連付けられた第2音声情報88とが、同一人物のものであるか否かを判断する。なお、ステップS002で合焦対象として選択された人物が1人である場合には、ステップS010の処理を行わず、ステップS009から直接ステップS011に進んでも良い。なぜなら、合焦対象として選択された人物が1人である場合には、ステップS010における判断結果は確実に「YES」となるからである。
ステップS010では、CPU40の合焦位置制御部52は、ステップS007で関連付けられた第2顔情報78と、ステップS009で関連付けられた第2音声情報88とが、記憶部32において予め関連付けられているか否かを判断する。上述したように、記憶部32において、それぞれの第2顔情報72〜78は、これと同一の人物に係る第2音声情報82〜88に対して、予め関連付けられて記憶されている。そのため、記憶部32における関連付けを調査することにより、ステップS007で関連付けられた第2顔情報78とステップS009で関連付けられた第2音声情報88とが、同一人物のものであるか否かを判断することができる。
ステップS010において、第2顔情報78と第2音声情報88とが記憶部32において予め関連付けられておらず、第2顔情報78と第2音声情報88とが同一人物に係るものでないと判断された場合、CPU40は、ステップS012に示す処理へ進む。ステップS012における処理は、上述したとおりである。
ステップS010において、第2顔情報78と第2音声情報88とが記憶部32において予め関連付けられており、第2顔情報78と第2音声情報88とが同一人物に係るものであると判断された場合、CPU40は、ステップS011に示す処理へ進む。この場合、ステップS011では、CPU40の合焦位置制御部52が、ステップS006において合焦対象に類似していると判断された第1顔画像(例えば、図3における第1顔画像68)の位置を、合焦させるべき対象が存在する位置であると決定する。さらに、ステップS011では、合焦位置制御部52が、決定された対象に合焦させるようにレンズ駆動部26を制御して、撮影光学系12の合焦位置を制御する。
図5に示す第1の例では、カメラ10は、顔画像認識部56の認識結果及び顔判定部62による判定結果だけでなく、音声判定部54による判定結果を用いて、撮影光学系12の合焦位置を制御する。環境音が合焦対象に係る人物の音声を含んでいると判断される場合には、カメラ10は、スルー画も合焦対象に係る人物の顔画像を含んでいる可能性が高いと推認することができる。したがって、カメラ10は、画像による判定だけでは、第1顔画像が合焦対象に係る人物のものであるとは言い切れないような場合にでも、音声判定部54の判定を併用することにより、第1顔画像がより高い確率で合焦対象に係る人物のものであると判断できる。このように、カメラ10は、顔画像認識部56や顔判定部62のみによる場合に比べて、顔画像の人物特定精度を向上させることができる。
図6は、カメラ10で行われる合焦位置に関する制御動作の第2の例を表すフローチャートである。図6に示す第2の例では、カメラ10のCPU40は、発言している人物に対して合焦するように、合焦位置を制御することができる。ステップS101では、カメラ10は、一連の合焦動作を開始する。ステップS101は、例えばカメラ10において動画の撮影開始スイッチがONになったタイミング等で実施される。
ステップS102では、カメラ10は、合焦対象を特定するために使用する画像の取得と、当該画像に含まれる第1顔画像の認識を実施する。動画録画時を例に説明を行うと、ステップS102において、カメラ10の画像取得部13は、保存画(動画)を取得し、CPU40に出力する。CPU40は、保存画を記憶部32に保存させる処理と並行して、保存画に含まれる第1顔画像の認識を実施する。すなわち、CPU40の顔画像認識部56は、第1の例において図3を用いて説明したのと同様に、画像64に含まれる第1顔画像67〜69を、保存画から認識する。
ステップS103では、CPU40の顔判定部62が、保存画から認識された第1顔画像67〜69と、記憶部32に記憶された第2顔情報とのマッチングを実施する。すなわち、顔判定部62は、ステップS102で認識された各顔画像の特徴と、記憶部32に記憶された第2顔情報72〜78(図2参照)とを比較し、両者が類似しているか否かを判断する。さらに、顔判定部62は、第1顔画像67〜69を、これと類似していると判断した第2顔情報72〜78に関連付け、関連付けの結果を記憶部32に保存する。顔判定部62は、画像64から認識された第1顔画像67〜69が複数ある場合には、全ての第1顔画像67〜69についてマッチングを行い、なるべく多くの第1顔画像67〜69を、記憶部32に記憶された第2顔情報72〜78に対して関連付けることが好ましい。
ステップS104では、CPU40が、音声取得部28によって第1音声情報80(図4参照)が取得されたか否かを検出する。ステップS104において第1音声情報80の取得が検出されない場合、CPU40は、ステップS109の処理へ進む。ステップS109では、CPU40は、合焦動作を停止する旨の信号が入力されたか否かを検出する。そして、合焦動作の停止信号が入力されている場合は、CPU40は、ステップS110へ進み、合焦動作を終了する。また、合焦動作の停止信号が入力されていない場合には、CPU40はステップS102の処理へ戻り、画像の取得、顔画像の認識及びマッチングを繰り返す。
ステップS104において第1音声情報80の取得が検出された場合、CPU40は、ステップS105の処理へ進む。ステップS105では、CPU40の音声判定部54が、取得された第1音声情報80と、記憶部32に保存された第2音声情報82〜88のマッチングを実施する。すなわち、音声判定部54は、ステップS104で検出された第1音声情報80と、記憶部32に記憶された第2音声情報82〜88(図2参照)とを比較し、第1音声情報80が何れかの第2音声情報82〜88と類似しているか否かを判断する。
ステップS104において、取得された第1音声情報80が何れの第2音声情報82〜88とも類似していないと判断された場合は、CPU40はステップS102の処理へ戻る。これに対して、取得された第1音声情報80が何れかの第2音声情報82〜88に類似していると判断された場合は、CPU40は、ステップS106の処理へ進む。
ステップS106では、CPU40の音声判定部54は、ステップS105において類似していると判断された第1音声情報80と第2音声情報(たとえば、図2における第2音声情報88)を、互いに関連付ける。また、音声判定部54は、関連づけの結果を記憶部32に保存させる。
ステップS107では、ステップS106において第1音声情報80に関連付けられた第2音声情報88が、ステップS103において第1顔画像と関連付けられた何れかの第2顔情報に対して、記憶部32において予め関連付けられているか否かについて判断を行う。上述したように、記憶部32において、それぞれの第2顔情報72〜78は、これと同一の人物に係る第2音声情報82〜88に対して、予め関連付けられて記憶されている。そのため、記憶部32における関連付けを調査することにより、ステップS106で関連付けられた第2音声情報88と同一人物のものであると考えられる顔画像(第1顔画像68)が、ステップS102において画像から認識されているか否かを判断することができる。
ステップS107において、取得された第2音声情報88が、ステップS103において関連付けられた何れの第2顔情報とも、記憶部32において予め関連付けられておらず、取得された第1音声情報80と同一人物に係る第1顔画像が認識されていないと判断された場合、CPU40は、ステップS102の処理へ戻る。
これに対して、取得された第2音声情報88が、ステップS103において関連付けられた何れかの第2顔情報と、記憶部32において予め関連付けられており、取得された第1音声情報80と同一人物に係る第1顔画像68が、ステップS102において認識されていると判断された場合、CPU40は、ステップS108の処理へ進む。ステップS108では、CPU40の合焦位置制御部52が、ステップS104において取得された第1音声情報80と同一人物に係る第1顔画像68の位置を、合焦させるべき対象が存在する位置であると決定する。さらに、ステップS108では、合焦位置制御部52が、決定された対象に合焦させるようにレンズ駆動部26を制御して、撮影光学系12の合焦位置を制御する。ステップS108の処理を終えた後、CPU40は、ステップS102の処理へ戻り、画像の取得、顔画像の認識及びマッチングを行う。
このように、カメラ10は、第2顔情報及び第2音声情報88に関するデータベースを用いて、顔情報及び音声情報のマッチングを行うことにより、発言中であると認められる人物に合焦させる制御を行うことが可能である。なお、第2の例に示すような合焦動作は、保存画である静止画の取得開始前に実施されても良く、保存画である動画の取得と並行して実施されても良い。
図7は、本発明の第2実施形態に係るカメラ70の概略ブロック図である。カメラ70は、カメラ70に備えられる音声取得部が、2つのマイク(第1マイク34及び第2マイク36)を有する点で、図1に示すカメラ10と異なる。ただし、カメラ70のその他の構成は、カメラ10と同様である。
第1マイク34及び第2マイク36を有する音声取得部は、音声が発生した方向に関する方向情報を取得する音声方向取得部としても機能する。すなわち、カメラ70の音声取得部は、第1マイク34から取得された音声と、第2マイク36から取得された音声の位相差から、音声が発生した方向に関する方向情報を取得することができる。第1マイク34及び第2マイク36を用いて取得された方向情報は、CPU40に入力される。CPU40の合焦位置制御部52は、取得された方向情報を用いて、撮影光学系12の合焦位置を制御する。
図8は、カメラ70で行われる合焦位置に関する制御動作の例(第3の例)を表すフローチャートである。図8に示す第3の例では、カメラ70のCPU40は、図5に示す第1の例と同様に、撮影者によって予め選択された特定の人物に対して合焦するように、合焦位置を制御することができる。ステップS201では、カメラ70は、一連の合焦動作を開始する。ステップS201は、例えばカメラ70が静止画の撮影状態になったタイミング等で実施される。
ステップS202では、カメラ70は、撮影時において合焦してほしい被写体(人物)を選択するように、撮影者に求める。ステップS202における処理は、第1の例におけるステップS002における処理と同様である。
ステップS203では、カメラ70は、図3に示すような画像64(スルー画)の取得を開始する。カメラ70の画像取得部13は、取得したスルー画を、CPU40に出力する。
ステップS204では、カメラ70のCPU40が、第1音声情報及び方向情報の取得を検出する。CPU40は、第1マイク34及び第2マイク36を含む音声取得部により、周辺環境の音声に関する第1音声情報80(図4参照)や、第1音声情報が発生した方向に関する方向情報が、取得されたか否かを検出する。
ステップS204において第1音声情報80及び方向情報の取得が検出されない場合、CPU40は、ステップS210の処理へ進む。ステップS210では、CPU40は、合焦動作を停止する旨の信号が入力されたか否かを検出する。そして、合焦動作の停止信号が入力されている場合は、CPU40は、ステップS211へ進み、合焦動作を終了する。また、合焦動作の停止信号が入力されていない場合には、CPU40はステップS203の処理へ戻り、スルー画の取得及び第1音声情報の検出を繰り返す。
ステップS204において第1音声情報80及び方向情報の取得が検出された場合、CPU40は、ステップS205の処理へ進む。ステップS205では、CPU40の音声判定部54が、取得された第1音声情報80と、合焦対象として選択された第2音声情報とのマッチングを実施する。すなわち、音声判定部54は、ステップS204で取得が検出された第1音声情報80と類似する第2音声情報82〜88を、ステップS202で選択された組合せに係る第2音声情報82〜88の中から検索する。
ステップS206では、CPU40の音声判定部54は、ステップS205のマッチングによって、取得された第1音声情報80と類似する第2音声情報が検出されたか否かを判断する。ステップS206において、第1音声情報80と類似する第2音声情報が検出されていないと認められた場合には、CPU40は、ステップS203の処理へ戻る。
ステップS206において、目的とする第2音声情報が検出されたと認められる場合、CPU40は、ステップS207の処理へ進む。ステップS207では、CPU40の顔画像認識部56及び顔判定部62が、ステップS203で取得されたスルー画の中から、第1音声情報80に関する人物と同一人物の顔画像を検策する。
顔画像認識部56は、まず、スルー画の中から、第1顔画像を認識する。この際、顔画像認識部56は、ステップS204で検出された方向情報を用いて、スルー画のうち、第1音声情報80に係る音声が発生した方向に関する部分から、優先して認識処理を行うことができる。このような部分には、その音声を発生した人物の顔画像が存在する可能性が高いため、顔画像認識部56は、第1音声情報80に関する人物と同一人物の顔画像を、スルー画から容易に検出することができる。
第1顔画像が認識されると、顔判定部62は、認識された第1顔画像が、ステップS204で検出した第1音声情報80に関する人物と同一人物の顔画像であるか否かを判断する。記憶部32には、ステップS206において第1音声情報と類似していると判断された第2音声情報に関連付けられて、第2音声情報の人物と同一人物に関する第2顔情報が保存されている。顔判定部62は、この第2顔情報と、スルー画から認識された第1顔画像の特徴が類似しているか否かを判断する。このような処理を繰り返すことにより、顔画像認識部56及び顔判定部62は、スルー画の中から、第1音声情報80に関する人物と同一人物の顔画像を検策する。
ステップS208では、CPU40の顔判定部62は、ステップS207の検索処理によって、スルー画の中から、第1音声情報80に関する人物と同一人物の顔画像が検出されたか否かを判断する。ステップS208において、目的とする第1顔画像が検出されていないと認められた場合には、CPU40は、ステップS203の処理へ戻る。
ステップS208において、目的とする第1顔画像が検出されたと認められる場合、CPU40は、ステップS209の処理へ進む。ステップS209では、CPU40の合焦位置制御部52が、第1音声情報80と同一人物のものであると認められる第1顔画像が検出された位置を、合焦させるべき対象が存在する位置であると決定する。さらに、ステップS209では、合焦位置制御部52が、決定された対象に合焦させるようにレンズ駆動部26を制御して、撮影光学系12の合焦位置を制御する。ステップS209の処理を終えた後、CPU40は、ステップS204の処理へ戻り、スルー画の取得を行う。
このように、カメラ70は、周辺環境の音声に関する第1音声情報と、音声の発生した方向に関する方向情報とを用いることにより、精度良く目的とする人物に合焦させる合焦動作を行うことが可能である。
10,70…カメラ
12…撮影光学系
13…画像取得部
14…撮像素子
16…インターフェース回路
20…画像処理コントローラ
22…表示部
24…入力部
26…レンズ駆動部
32…記憶部
30…AFセンサ
28…音声取得部
34…第1マイク
36…第2マイク
40…CPU
52…合焦位置制御部
54…音声判定部
56…顔画像認識部
62…顔判定部
64…画像
67,68,69…第1顔画像
72,74,76,78…第2顔情報
80…第1音声情報
82,84,86,88…第2音声情報

Claims (5)

  1. 光学系による画像を取得する画像取得部と、
    前記画像に含まれる顔画像である第1顔画像を認識する顔画像認識部と、
    周囲環境の音声の特徴に関する第1音声情報を取得する音声取得部と、
    特定の顔画像の特徴に関する第2顔情報と、特定の音声の特徴に関する第2音声情報とを、予め互いに関連付けて記憶する記憶部と、
    前記音声取得部で取得された前記第1音声情報と、前記記憶部に記憶された前記第2音声情報との類似性に基づき、前記第1音声情報と前記第2音声情報とを関連付ける音声判定部と、
    前記音声判定部による関連付けの結果と、前記顔画像認識部による認識の結果とを用いて、前記光学系の合焦位置を制御する合焦位置制御部と、
    を有する撮像装置。
  2. 前記顔画像認識部で認識された前記第1顔画像の特徴と、前記記憶部に記憶された前記第2顔情報の類似性から、前記第1顔画像と前記第2顔情報とを関連付ける顔判定部を有し、
    前記合焦位置制御部は、前記顔判定部によって関連付けられた前記第2顔情報と、前記音声判定部によって関連付けられた前記第2音声情報とが、前記記憶部において予め関連付けられている場合に、前記顔判定部によって前記第2顔情報に関連付けられた前記第1顔画像に合焦させるように制御を行うことを特徴とする請求項1に記載の撮像装置。
  3. 前記記憶部は、予め互いに関連付けられた前記第2顔情報及び前記第2音声情報の組合せを複数有しており、
    複数の前記組合せの中から、撮影者が1以上の前記組合せを選択するための入力部をさらに有し、
    前記合焦位置制御部は、前記音声判定部によって前記第1音声情報に関連付けられた前記第2音声情報が、前記入力部を介して選択された前記組合せに係る前記第2音声情報に含まれる場合に、前記合焦位置を制御することを特徴とする請求項1又は請求項2に記載の撮像装置。
  4. 前記周辺環境の音声が発生した方向に関する方向情報を取得する音声方向取得部を有し、
    前記合焦位置制御部は、前記音声方向取得部で取得された前記方向情報を用いて制御を行うことを特徴とする請求項1から請求項3までのいずれかに記載の撮像装置。
  5. 前記画像取得部が取得する前記画像は、自動的に逐次取得及び消去されるスルー画と、撮影者によって入力されるタイミング信号に応じて取得及び保存される保存画とを含み、
    前記顔画像認識部は、前記画像取得部で取得された前記スルー画を用いて前記第1顔画像を認識し、
    前記合焦位置制御部は、前記保存画の取得動作中又は前記保存画を取得するための準備動作中において、前記合焦位置を制御することを特徴とする請求項1から請求項4までのいずれかに記載の撮像装置。
JP2011139817A 2011-06-23 2011-06-23 撮像装置 Pending JP2013007851A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011139817A JP2013007851A (ja) 2011-06-23 2011-06-23 撮像装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011139817A JP2013007851A (ja) 2011-06-23 2011-06-23 撮像装置

Publications (1)

Publication Number Publication Date
JP2013007851A true JP2013007851A (ja) 2013-01-10

Family

ID=47675265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011139817A Pending JP2013007851A (ja) 2011-06-23 2011-06-23 撮像装置

Country Status (1)

Country Link
JP (1) JP2013007851A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010530A (zh) * 2017-11-30 2018-05-08 武汉东信同邦信息技术有限公司 一种基于语音识别技术的学生发言检测跟踪装置
JP7347597B2 (ja) 2018-06-20 2023-09-20 カシオ計算機株式会社 動画編集装置、動画編集方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006101186A (ja) * 2004-09-29 2006-04-13 Nikon Corp カメラ
JP2010148132A (ja) * 2010-01-20 2010-07-01 Casio Computer Co Ltd 撮像装置、画像検出装置及びプログラム
JP2010192956A (ja) * 2009-02-16 2010-09-02 Nikon Corp 撮像装置および話し手認識方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006101186A (ja) * 2004-09-29 2006-04-13 Nikon Corp カメラ
JP2010192956A (ja) * 2009-02-16 2010-09-02 Nikon Corp 撮像装置および話し手認識方法
JP2010148132A (ja) * 2010-01-20 2010-07-01 Casio Computer Co Ltd 撮像装置、画像検出装置及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010530A (zh) * 2017-11-30 2018-05-08 武汉东信同邦信息技术有限公司 一种基于语音识别技术的学生发言检测跟踪装置
JP7347597B2 (ja) 2018-06-20 2023-09-20 カシオ計算機株式会社 動画編集装置、動画編集方法及びプログラム

Similar Documents

Publication Publication Date Title
JP5713055B2 (ja) 撮像装置、撮像方法及びプログラム
JP6184189B2 (ja) 被写体検出装置およびその制御方法、撮像装置、被写体検出装置の制御プログラムおよび記憶媒体
JP5171468B2 (ja) 撮像装置及び撮像装置の制御方法
JP4732299B2 (ja) 特定被写体像の検出方法およびデジタルカメラ
JP2010015024A (ja) 撮像装置、その制御方法、プログラム及び記憶媒体
JP2010034685A (ja) デジタルカメラ
JP2009141475A (ja) カメラ
JP2017034569A (ja) 撮像装置及びその制御方法
JP5109853B2 (ja) 電子カメラ
US11496668B2 (en) Image capture apparatus and control method thereof
JP2013007851A (ja) 撮像装置
JP4996568B2 (ja) 撮像装置および撮像装置の制御方法
JP2003289468A (ja) 撮像装置
JP2007328213A (ja) 撮像装置、および撮像装置制御方法、並びにコンピュータ・プログラム
JP2001290072A (ja) 測距装置
JP5510999B2 (ja) 撮像装置及びプログラム
JP2012185343A (ja) 撮影装置
JP6196790B2 (ja) 情報機器及び情報機器の制御方法
WO2011114400A1 (ja) 電子機器
JP2021087026A (ja) 撮像装置、撮像装置の制御方法及びそのプログラム
JP2015126369A (ja) 撮像装置
JP7307565B2 (ja) 撮像装置、制御方法、およびプログラム
JP5420034B2 (ja) 撮像装置、その制御方法、プログラム及び記憶媒体
JP2013074428A (ja) 自分撮り判断装置、撮像装置、プログラム及び自分撮り判断方法
KR20100097531A (ko) 촬영설정을 가이드 하는 디지털 촬영장치 및 그 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140619

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150407

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150901