JP2022003753A

JP2022003753A - 撮像装置

Info

Publication number: JP2022003753A
Application number: JP2020108235A
Authority: JP
Inventors: 宏樹春日井; Hiroki Kasugai; 真一山本; Shinichi Yamamoto
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2022-01-11
Also published as: US20210400204A1; US11490001B2

Abstract

【課題】音声を取得しながら撮像を行う撮像装置において、ユーザの意図に沿って被写体の音声を収音し易くすることができる撮像装置を提供する。
【解決手段】撮像装置は、被写体を撮像して画像データを生成する撮像部と、撮像部による撮像中に収音される音声を示す音声信号を取得する音声取得部と、ユーザの指示を受けて、音声取得部の指向性を自動で変える動作モードであるオートモードに自装置を設定する設定部と、音声信号において被写体からの音声を収音する収音エリアを制御する制御部とを備え、制御部は、設定部がオートモードに設定している場合、音声取得部の指向性を自装置の撮影状態に連動して変えることで、被写体を含めるように収音エリアを制御する。
【選択図】図１

Description

本開示は、音声を取得しながら撮像を行う撮像装置に関する。

特許文献１は、顔検出機能を有するビデオカメラを開示している。特許文献１のビデオカメラは、ズーム比率及び撮影した画面内の人物の顔の大きさに応じて、マイクの指向角を変化させる。これにより、当該ビデオカメラは、ビデオカメラと被写体映像の距離に、マイクの指向角を関連付けて制御することで、映像と音声の整合をとりつつ、被写体の声をより確実に捉えるようにマイクの指向角を変化させる制御の実現を図っている。この際、当該ビデオカメラは、人物（被写体）の顔の位置及び大きさを検出し、検出した顔部分に枠（顔検出枠）を付けて表示するとともに、顔検出枠の大きさ（顔の大きさ）の情報を利用する。

特開２０１０−２８３７０６号公報

本開示は、音声を取得しながら撮像を行う撮像装置において、ユーザの意図に沿って被写体の音声を収音し易くすることができる撮像装置を提供する。

本開示において、撮像装置は、被写体を撮像して画像データを生成する撮像部と、撮像部による撮像中に収音される音声を示す音声信号を取得する音声取得部と、ユーザの指示を受けて、音声取得部の指向性を自動で変える動作モードであるオートモードに自装置を設定する設定部と、音声信号において被写体からの音声を収音する収音エリアを制御する制御部とを備え、制御部は、設定部がオートモードに設定している場合、音声取得部の指向性を自装置の撮影状態に連動して変えることで、被写体を含めるように収音エリアを制御する。

本開示に係る撮像装置によると、音声を取得しながら撮像を行う撮像装置において、ユーザの意図に沿って被写体の音声を収音し易くすることができる。

本開示の実施の形態１に係るデジタルカメラ１００の構成を示す図デジタルカメラ１００の背面を例示する図自分撮り時のデジタルカメラ１００の状態を例示する図縦撮り時のデジタルカメラ１００の状態を例示する図デジタルカメラ１００におけるビーム形成部１７２の構成を例示する図デジタルカメラ１００において収音エリアを例示する図デジタルカメラ１００における設定メニューの表示例を示す図デジタルカメラ１００において更なる収音エリアを例示する図デジタルカメラ１００のオートモードの動作の概要を説明するための図実施の形態１に係るデジタルカメラ１００のフォーカスモードの動作を例示するフローチャートデジタルカメラ１００のフォーカスモードの動作の概要を説明するための図実施の形態１に係るデジタルカメラ１００の収音対象の選別処理（図１０のＳ３）を例示するフローチャートデジタルカメラ１００における収音対象の選別処理を説明するための図デジタルカメラ１００における収音エリアの決定処理（図１０のＳ４）を例示するフローチャートデジタルカメラ１００における収音エリアの決定処理を説明するための図デジタルカメラ１００における顔認識を用いた収音制御（図１０のＳ５）を例示するフローチャート収音エリアの決定処理によって得られる管理情報を説明するための図デジタルカメラ１００における水平画角および合焦距離からゲインを求める関係を例示する図デジタルカメラ１００における顔認識を用いない収音制御（図１０のＳ６）を例示するフローチャート実施の形態１に係るデジタルカメラ１００のオートモードの動作を例示するフローチャート実施の形態１のオートモードにおける横撮り時と縦撮り時の収音制御を説明するための図実施の形態２に係るデジタルカメラ１００の表示例を示す図実施の形態２のデジタルカメラ１００におけるマニュアル操作を説明するための図実施の形態２のデジタルカメラ１００におけるマニュアル操作時の動作を例示するフローチャート変形例のデジタルカメラ１００Ａにおけるマイク１６１Ａの配置を例示する図変形例のオートモードにおける縦撮り時の収音制御を説明するための図デジタルカメラ１００における顔認識に連動した収音制御の動作例を説明するための図

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、発明者（ら）は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

（実施の形態１)
実施の形態１では、本開示に係る撮像装置の一例として、画像認識技術に基づいて被写体を検出し、検出した被写体の大きさに応じた収音エリアの制御、及び収音する音声を強調する収音ゲインの制御を行うデジタルカメラについて説明する。

〔１−１．構成〕

図１は、本実施形態に係るデジタルカメラ１００の構成を示す図である。本実施形態のデジタルカメラ１００は、イメージセンサ１１５と、画像処理エンジン１２０と、表示モニタ１３０と、コントローラ１３５とを備える。さらに、デジタルカメラ１００は、バッファメモリ１２５と、カードスロット１４０と、フラッシュメモリ１４５と、操作部１５０と、通信モジュール１６０とを備える。また、デジタルカメラ１００は、マイク１６１と、マイク用のアナログ／デジタル（Ａ／Ｄ）コンバータ１６５と、音声処理エンジン１７０とを備える。また、デジタルカメラ１００は、例えば光学系１１０及びレンズ駆動部１１２を備える。さらに、デジタルカメラ１００は、例えば磁気センサ１３２と、加速度センサ１３７とを備える。

図２は、デジタルカメラ１００の背面を例示する。図２では、デジタルカメラ１００の３軸方向Ｘ，Ｙ，Ｚと共に、重力方向Ｇを例示している。Ｘ，ＹおよびＺ軸は、それぞれデジタルカメラ１００の水平画角方向、垂直画角方向および光学系１１０におけるレンズの光軸方向に対応する。図２の例では、デジタルカメラ１００のＹ軸方向が重力方向Ｇに沿った向き即ち横向きとなっている。

本実施形態のデジタルカメラ１００は、ユーザが自身を撮影する自分撮りをしたり、デジタルカメラ１００を縦向きに用いる縦撮りをしたりして利用可能である。図３は、自分撮り時のデジタルカメラ１００の状態を例示する。図４は、縦撮り時のデジタルカメラ１００の状態を例示する。

図１に戻り、光学系１１０は、フォーカスレンズ、ズームレンズ、光学式手ぶれ補正レンズ（ＯＩＳ）、絞り、シャッタ等を含む。フォーカスレンズは、イメージセンサ１１５上に形成される被写体像のフォーカス状態を変化させるためのレンズである。ズームレンズは、光学系で形成される被写体像の倍率を変化させるためのレンズである。フォーカスレンズ等は、それぞれ１枚又は複数枚のレンズで構成される。

レンズ駆動部１１２は、光学系１１０におけるフォーカスレンズ等を駆動する。レンズ駆動部１１２はモータを含み、コントローラ１３５の制御に基づいてフォーカスレンズを光学系１１０の光軸に沿って移動させる。レンズ駆動部１１２においてフォーカスレンズを駆動する構成は、ＤＣモータ、ステッピングモータ、サーボモータ、または超音波モータなどで実現できる。

イメージセンサ１１５は、光学系１１０を介して形成された被写体像を撮像して、撮像データを生成する。撮像データは、イメージセンサ１１５による撮像画像を示す画像データを構成する。イメージセンサ１１５は、所定のフレームレート（例えば、３０フレーム／秒）で新しいフレームの画像データを生成する。イメージセンサ１１５における、撮像データの生成タイミングおよび電子シャッタ動作は、コントローラ１３５によって制御される。イメージセンサ１１５は、ＣＭＯＳイメージセンサ、ＣＣＤイメージセンサ、またはＮＭＯＳイメージセンサなど、種々のイメージセンサを用いることができる。

イメージセンサ１１５は、動画像、静止画像の撮像動作、スルー画像の撮像動作等を実行する。スルー画像は主に動画像であり、ユーザが例えば静止画像の撮像のための構図を決めるために表示モニタ１３０に表示される。
スルー画像、動画像及び静止画像は、それぞれ本実施形態における撮像画像の一例である。イメージセンサ１１５は、本実施形態における撮像部の一例である。

画像処理エンジン１２０は、イメージセンサ１１５から出力された撮像データに対して各種の処理を施して画像データを生成したり、画像データに各種の処理を施して、表示モニタ１３０に表示するための画像を生成したりする。各種処理としては、ホワイトバランス補正、ガンマ補正、ＹＣ変換処理、電子ズーム処理、圧縮処理、伸張処理等が挙げられるが、これらに限定されない。画像処理エンジン１２０は、ハードワイヤードな電子回路で構成してもよいし、プログラムを用いたマイクロコンピュータ、プロセッサなどで構成してもよい。

本実施形態において、画像処理エンジン１２０は、撮像画像の画像認識によって人の顔といった被写体の検出機能を実現する顔認識部１２２を含む。顔認識部１２２は、例えば、ルールベースの画像認識処理によって顔検出を行い、検出情報を出力する。顔検出は、種々の画像認識アルゴリズムによって行われてもよい。検出情報は、被写体の検出結果に対応する位置情報を含む。位置情報は、例えば処理対象の画像Ｉｍ上の水平位置及び垂直位置で規定され、例えば検出された被写体として人の顔を矩形状に囲む領域を示す（図１１参照）。

表示モニタ１３０は、種々の情報を表示する表示部の一例である。例えば、表示モニタ１３０は、イメージセンサ１１５で撮像され、画像処理エンジン１２０で画像処理された画像データが示す画像（スルー画像）を表示する。また、表示モニタ１３０は、ユーザがデジタルカメラ１００に対して種々の設定を行うためのメニュー画面等を表示する。表示モニタ１３０は、例えば、液晶ディスプレイデバイスまたは有機ＥＬデバイスで構成できる。

本実施形態のデジタルカメラ１００は、例えば図２，３に示すように、表示モニタ１３０の位置を変更可能な可動式で構成される。図２の例では、表示モニタ１３０が、デジタルカメラ１００の背面側（−Ｚ側）に表示面を向けた位置にある。こうした表示モニタ１３０の位置を以下「通常位置」という。図３の例では、表示モニタ１３０が、デジタルカメラ１００の前面側（＋Ｚ側）即ち被写体側に表示面を向けた位置にある。こうした表示モニタ１３０の位置を以下「自分撮り位置」という。

磁気センサ１３２は、表示モニタ１３０が通常位置にあるか又は自分撮り位置にあるかを検知する検知部の一例である。磁気センサ１３２は、例えば表示モニタ１３０の位置の検出結果を示す検出信号をコントローラ１３５に出力する。

可動式の表示モニタ１３０としては、例えばバリアングル式またはチルト式を採用できる。例えば、表示モニタ１３０を回動可能にデジタルカメラ１００の本体に連結するヒンジ１３１が設けられる。磁気センサ１３２は、例えばヒンジ１３１内部に設けられ、図２，３に対応する２状態を有するスイッチ等で構成される。

加速度センサ１３７は、例えば３軸方向Ｘ，Ｙ，Ｚの内の１つ又は複数の角速度を検出して、検出信号をコントローラ１３５に出力する。加速度センサ１３７は、重力加速度の検出状態に基づき、デジタルカメラ１００の姿勢が、図２に例示したような横向きか、又は図４に例示したような縦向きかを検出する姿勢検出部の一例である。

操作部１５０は、デジタルカメラ１００の外装に設けられた操作釦や操作レバー等のハードキーの総称であり、使用者による操作を受け付ける。操作部１５０は、例えば、レリーズ釦、モードダイヤル、タッチパネル、カーソルボタン、ジョイスティックを含む。操作部１５０はユーザによる操作を受け付けると、ユーザ操作に対応した操作信号をコントローラ１３５に送信する。操作部１５０は、例えば図２に示すように、レリーズボタン１５１、選択ボタン１５２、決定ボタン１５３、機能ボタン１５４およびタッチパネル１５５等を含む。

コントローラ１３５は、デジタルカメラ１００全体の動作を統括制御する。コントローラ１３５はＣＰＵ等を含み、ＣＰＵがプログラム（ソフトウェア）を実行することで所定の機能を実現する。コントローラ１３５は、ＣＰＵに代えて、所定の機能を実現するように設計された専用の電子回路で構成されるプロセッサを含んでもよい。すなわち、コントローラ１３５は、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＤＳＵ、ＦＰＧＡ、ＡＳＩＣ等の種々のプロセッサで実現できる。コントローラ１３５は１つまたは複数のプロセッサで構成してもよい。また、コントローラ１３５は、画像処理エンジン１２０などと共に１つの半導体チップで構成してもよい。

バッファメモリ１２５は、画像処理エンジン１２０やコントローラ１３５のワークメモリとして機能する記録媒体である。バッファメモリ１２５は、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより実現される。フラッシュメモリ１４５は不揮発性の記録媒体である。また、図示していないが、コントローラ１３５は各種の内部メモリを有してもよく、例えばＲＯＭを内蔵してもよい。ＲＯＭには、コントローラ１３５が実行する様々なプログラムが記憶されている。また、コントローラ１３５は、ＣＰＵの作業領域として機能するＲＡＭを内蔵してもよい。

カードスロット１４０は、着脱可能なメモリカード１４２が挿入される手段である。カードスロット１４０は、メモリカード１４２を電気的及び機械的に接続可能である。メモリカード１４２は、内部にフラッシュメモリ等の記録素子を備えた外部メモリである。メモリカード１４２は、画像処理エンジン１２０で生成される画像データなどのデータを格納できる。

通信モジュール１６０は、通信規格ＩＥＥＥ８０２．１１またはＷｉ−Ｆｉ規格等に準拠した通信を行う通信モジュール（回路）である。デジタルカメラ１００は、通信モジュール１６０を介して、他の機器と通信することができる。デジタルカメラ１００は、通信モジュール１６０を介して、他の機器と直接通信を行ってもよいし、アクセスポイント経由で通信を行ってもよい。通信モジュール１６０は、インターネット等の通信ネットワークに接続可能であってもよい。

マイク１６１は、音を収音する収音部の一例である。マイク１６１は、収音した音声を電気信号であるアナログ信号に変換して出力する。本実施形態のマイク１６１は、３つのマイクロフォン素子１６１Ｌ，１６１Ｃ及び１６１Ｒを含む。マイク１６１は、２つ又は４つ以上のマイクロフォン素子から構成されてもよい。

マイク用のＡ／Ｄコンバータ１６５は、マイク１６１からのアナログ信号をデジタル信号の音声データに変換する。マイク用のＡ／Ｄコンバータ１６５は、本実施形態における音声取得部の一例である。なお、マイク１６１は、デジタルカメラ１００の外部にあるマイクロフォン素子を含んでもよい。この場合、デジタルカメラ１００は音声取得部として、外部のマイク１６１に対するインタフェース回路を備える。

音声処理エンジン１７０は、マイク用のＡ／Ｄコンバータ１６５等の音声取得部から出力された音声データを受信して、受信した音声データに対して種々の音声処理を施す。音声処理エンジン１７０は、本実施形態における音声処理部の一例である。

本実施形態の音声処理エンジン１７０は、例えば図１に示すように、ビーム形成部１７２と、ゲイン調整部１７４とを備える。ビーム形成部１７２は、音声の指向性を制御する機能を実現する。ビーム形成部１７２の詳細については後述する。ゲイン調整部１７４は、入力される音声データに、例えばコントローラ１３５によって設定される収音ゲインを乗じる乗算処理を行って、音声を増幅する。ゲイン調整部１７４は、入力の音声データに負のゲインを乗じて音声を抑圧する処理を行ってもよい。収音ゲイン調整部１４はさらに、入力される音声データの周波数特性及びステレオ特性を変化させる機能を有してもよい。収音ゲインの設定についての詳細は後述する。

〔１−１−１．ビーム形成部について〕
本実施形態におけるビーム形成部１７２の詳細を、以下説明する。

ビーム形成部１７２は、マイク１６１が収音する音声の指向性を制御するビームフォーミングを行う。本実施形態におけるビーム形成部１７２の構成例を図５に示す。

図５に示すように、ビーム形成部１７２は、例えばフィルタＤ１〜Ｄ３と加算器１７３を備え、各マイクロフォン素子１６１Ｌ，１６１Ｃ及び１６１Ｒで収音された音声の遅延期間を調整して、その重み付き和を出力する。ビーム形成部１７２によると、マイク１６１の収音指向性の方向および範囲を制御して、マイク１６１が収音する物理的な範囲を設定できる。

ビーム形成部１７２は、図示では１つの加算器１７３により１チャネルの出力を行うが、２つ以上の加算器を備え、例えばステレオ出力のような各チャネルで異なる出力を行う構成であってもよい。また、加算器１７３の他に減算器を用いて、特に感度が低い方向である死角を特定方向に有する指向性を形成してもよいし、環境に適応して処理を変える適応ビームフォーミングを行ってもよい。また、音声信号の周波数帯域によって異なる処理を適用してもよい。

図５では、マイクロフォン素子１６１Ｌ，１６１Ｃ及び１６１Ｒを直線的に配置した例を示しているが、各マイクロフォン素子の配置は、これに限らない。例えば、三角形状に配置する場合であっても、フィルタＤ１〜Ｄ３の遅延期間及び重みを適宜調整して、マイク１６１の収音指向性を制御できる。また、ビーム形成部１７２は、収音指向性の制御に公知の手法を適用してもよい。例えば、ＯＺＯＡｕｄｉｏといった音声処理技術を用いて、指向性を形成する処理を行い、併せて音声の雑音を抑制する処理等を実行してもよい。

上記のようなビーム形成部１７２により設定可能なデジタルカメラ１００の収音エリアについて説明する。

〔１−１−２．収音エリアについて〕
図６は、デジタルカメラ１００において定義される収音エリアの例を示す。図６は、収音エリアを、デジタルカメラ１００を中心とする円の扇形領域によって例示している。本実施形態のデジタルカメラ１００では、水平画角方向は、マイクロフォン素子１６１Ｒ，１６１Ｃおよび１６１Ｒが並ぶ方向と一致する。

図６（Ａ）は、角度範囲４０１（例えば７０°）において、デジタルカメラ１００の前方（すなわち撮影方向）に収音エリアを向ける「前方中心収音エリア」４１を示す。図６（Ｂ）は、角度範囲４０１において、デジタルカメラ１００の左方に収音エリアを向ける「左半分収音エリア」４２を示す。図６（Ｃ）は、角度範囲４０１において、デジタルカメラ１００の右方に収音エリアを向ける「右半分収音エリア」４３を示す。図６（Ｄ）は、角度範囲４０１より大きい角度範囲４０２（例えば１６０°）において、デジタルカメラ１００の前方に収音エリアを向ける「前方収音エリア」４４を示す。これらの収音エリアは、本実施形態における複数の所定エリアの一例であり、角度範囲４０１及び４０２は、第１の角度範囲及び第２の角度範囲の一例である。

本実施形態のデジタルカメラ１００は、被写体が撮像画像の中心部分に位置するとき、図６（Ａ）の前方中心収音エリア４１を用いる。また、被写体が撮像画像の左半分に位置するとき、図６（Ｂ）の左半分収音エリア４２を用い、被写体が撮像画像の右半分に位置するとき、図６（Ｃ）の右半分収音エリア４３を用いる。さらに、被写体が撮像画像の全体に位置するとき、主に図６（Ｄ）の前方収音エリア４４を用いる。

図１１（Ｂ）の例では、収音対象の被写体Ｒ１及びＲ３が撮像画像の中心部分に位置するため、前方中心収音エリア４１が用いられる。図１１（Ｃ）の例では、収音対象の被写体Ｒ１及びＲ２が撮像画像の左半分に位置するため、左半分収音エリア４２が用いられる。

デジタルカメラ１００のマイク１６１といった撮像装置の収音部において、マイクロフォン素子の数および配置は、素子の搭載スペース等の事情により制約を受ける。例えば、ユーザが複数の被写体について音声を記録したい撮影場面において、マイクロフォン素子数の制約により収音指向性を十分に狭められない場合がある。こうした場合でも、本実施形態のデジタルカメラ１００は、ユーザの撮影場面を想定して収音エリアを定義しておき、顔認識を用いて収音エリアを決定することで、ユーザの意図に沿った収音エリアを提供することができる。

〔１−１−３．マイク設定について〕
デジタルカメラ１００におけるマイク１６１の収音エリアに関する設定について、図７〜図８を用いて説明する。

図７は、デジタルカメラ１００における設定メニューの表示例を示す。本実施形態のデジタルカメラ１００は、マイク１６１の収音エリアを制御する動作モード（即ち収音モード）として、例えば図７に示すように、「オート」、「サラウンド」、「フロント」、「フォーカス」及び「ナレーション」というモードを有する。

フォーカスモードは、デジタルカメラ１００による顔認識及び画角に連動して、自動的にマイク１６１の指向性を変え、収音エリアを調整する動作モードである。例えば、フォーカスモードは上述した各種収音エリア４１〜４４を切り替えて用いることにより実現できる。フォーカスモードを４つの収音エリア４１〜４４で敢えて大まかに実現することにより、被写体の僅かな動きによって頻繁に収音指向性が変化するような事態を回避し、ユーザの聴感上の煩わしさを低減することができる。デジタルカメラ１００において更なる収音エリアを図８に例示する。

図８（Ａ）は、サラウンドモードの収音エリア４５を例示する。サラウンドモードは、デジタルカメラ１００の左右前後に渡る広い範囲の音を収音するための動作モードである。サラウンドモードの収音エリア４５は、例えばＸＺ平面の全周３６０°といった角度範囲を有する。

図８（Ｂ）は、フロントモードの収音エリア４６を例示する。フロントモードは、デジタルカメラ１００の前方の音を収音するための動作モードである。フロントモードの収音エリア４６は、デジタルカメラ１００から＋Ｚ側に向いており、例えば上述した前方収音エリア４４以上の角度範囲を有する。

図８（Ｃ）は、ナレーションモードの収音エリア４７を例示する。ナレーションモードは、デジタルカメラ１００の後方の音を収音するための動作モードである。ナレーションモードの収音エリア４７は、デジタルカメラ１００から−Ｚ側に向けて形成される。ナレーションモードが設定された状態で、表示モニタ１３０が自分撮り位置にあることが検出された場合、デジタルカメラ１００は、フォーカスモードの動作を実行してもよい。

オートモードは、デジタルカメラ１００の撮影状態に連動して、自動的にマイク１６１の指向性を変え、収音エリアを調整する動作モードである。デジタルカメラ１００の撮影状態は、例えばフォーカスモードで考慮される顔認識等に加えて、自分撮りか否か、及び縦撮りか横撮りかなども含む。

以上のような各種の収音モードを設定するマイク設定は、例えばデジタルカメラ１００の設定メニューにおける動画メニューの１つとして設けられる。ユーザは、タッチパネル１５５のタッチ操作あるいは各種ボタン１５２，１５３の押下操作により、設定メニューから所望の収音モードを選択可能である。又、マイク設定は、予め機能ボタン１５４等に割り当てられてもよい。オートモード等の特定の収音モードの設定が、機能ボタン１５４等に割り当てられてもよい。

〔１−２．動作〕
以上のように構成されるデジタルカメラ１００の動作について説明する。以下では、デジタルカメラ１００による動画撮影時の動作を説明する。

デジタルカメラ１００は順次、光学系１１０を介して形成された被写体像をイメージセンサ１１５で撮像して撮像データを生成する。画像処理エンジン１２０は、イメージセンサ１１５により生成された撮像データに対して各種処理を施して画像データを生成し、バッファメモリ１２５に記録する。また、画像処理エンジン１２０の顔認識部１２２は、撮像データが示す画像に基づき、被写体の領域を検出して、例えば検出情報をコントローラ１３５に出力する。

本実施形態のデジタルカメラ１００は、顔認識部１２２に入力された撮像画像において、画像認識処理により顔検出を行い、検出情報に基づいてオートフォーカス（ＡＦ）制御の対象とする被写体を特定する動作モードである顔認識モードを備える。

以上の撮像動作と同時並行で、デジタルカメラ１００は、マイク１６１において収音を行う。マイク用のＡ／Ｄコンバータ１６５から収音結果の音声データを音声処理エンジン１７０にて処理する。音声処理エンジン１７０は、処理後の音声データＡｏｕｔをバッファメモリ１２５に記録する。

コントローラ１３５は、バッファメモリ１２５を介して、画像処理エンジン１２０から受け付ける画像データと音声処理エンジン１７０から受け付ける音声データとの間で、同期を取って動画をメモリカード１４２に記録する。また、コントローラ１３５は逐次、表示モニタ１３０にスルー画像を表示させる。ユーザは、表示モニタ１３０のスルー画像により随時、撮影の構図等を確認することができる。動画撮影の動作は、操作部１５０におけるユーザの操作に応じて開始／終了される。

以上のようなデジタルカメラ１００の動画撮影においては、様々な撮影状態においてユーザが収音したい種々の状況が考えられる。例えば撮影者とその同伴者など、仲間内で会話をする被写体のグループに注目して行われる場合がある。この場合、音声についても、当該被写体のグループの発声を明瞭に収音したいとのニーズが考えられる。

本実施形態のデジタルカメラ１００は、例えば上述したフォーカスモードの動作として、画像処理エンジン１２０における顔認識部１２２の検出情報によって被写体を検出し、ＡＦ対象の被写体が決定されたときに、音声処理エンジン１７０において、当該被写体および撮影する空間で当該被写体の周囲にいる被写体について収音する音声を強調する処理を実行する。このように、画像処理エンジン１２０の顔認識と音声処理エンジン１７０の音声強調等とを連動させて、上記のような会話をする被写体のグループによる音声を強調した収音を精度良く実現する。

さらに、本実施形態のデジタルカメラ１００は、オートモードの動作として、上記のようなフォーカスモードの動作に加えて、さらに様々な撮影状態に応じて適切な収音制御を実現する。図９を用いて、オートモードの動作の概要を説明する。

図９は、デジタルカメラ１００のオートモードと各種収音モードとの対応関係を例示する。オートモードのデジタルカメラ１００は、例えば横撮りの状態で顔認識が為されたときは、フォーカスモードと同様の動作を行う。

一方、顔認識が為されていないときは、例えば自撮りでない状態（図２参照）であれば、デジタルカメラ１００は、サラウンドモードと同様の動作を行う、すなわちサラウンドモードの収音エリア４５を採用する。また、顔認識が為されず、自分撮りが行われる状態（図３参照）では、デジタルカメラ１００は、フロントモードと同様の動作を行う。

また、縦撮りの場合、顔認識が為されていないときの動作は、上述した横撮りの場合と同様である。一方、縦撮りにおいて顔認識が為された場合、本実施形態のデジタルカメラ１００は、フォーカスモードの代わりに、フロントモードと同様の動作を行う。

以上のようなオートモードの動作によると、図９に示すように、種々の撮影状態に応じて各種の収音モードの動作を組み合わせることにより、それぞれの撮影状態において適切な収音制御を実現し易くすることができる。

〔１−２−１．フォーカスモードの動作〕
図１０及び図１１を用いて、本実施形態に係るデジタルカメラ１００のフォーカスモードの動作の概要を説明する。

図１０は、本実施形態に係るデジタルカメラ１００のフォーカスモードの動作を例示するフローチャートである。図１０のフローチャートに示す各処理は、例えばデジタルカメラ１００がフォーカスモードに設定された状態において所定の周期で繰り返し実行される。所定の周期は、例えば動画のフレーム周期である。図１１は、本実施形態に係るデジタルカメラ１００のフォーカスモードの動作の概要を説明するための図である。

コントローラ１３５は、顔認識部１２２による検出情報に基づいてＡＦ対象を特定し、ＡＦ制御を実行する（Ｓ１）。ＡＦ対象は、ＡＦ制御の対象とする被写体の画像上の領域を示す。図１１（Ａ）は、顔認識部１２２の検出情報において被写体が検出された領域を示す顔領域Ｒ１，Ｒ２及びＲ３を含む撮像画像Ｉｍを例示する。顔領域Ｒ１，Ｒ２及びＲ３は、本実施形態における被写体領域の一例である。例えば顔領域Ｒ１がＡＦ対象の顔領域６０として特定される。

次にコントローラ１３５は、ＡＦ対象として特定された顔領域が存在するか否かを判断する（Ｓ２）。具体的には、コントローラ１３５は、顔領域が検出されていて、かつＡＦ対象が顔領域であるか否かを判断する。

ＡＦ対象の顔領域６０がある場合（Ｓ２でＹＥＳ）、コントローラ１３５は、検出情報における被写体からマイク１６１の収音対象を選別する処理を実行する（Ｓ３）。収音対象は、マイク１６１により音声を強調して収音する対象とする被写体である。ＡＦ対象として特定された顔領域Ｒ１（６０）は、収音対象になる。図１１（Ｂ）は、図１１（Ａ）に示す検出情報に基づき、顔領域Ｒ１及びＲ３を収音対象に決定し、一方で顔領域Ｒ２を収音対象としない例を示す。

本実施形態のデジタルカメラ１００は、収音対象の選別処理（Ｓ３）において、ＡＦ対象の顔領域Ｒ１（６０）に加え、撮像画像Ｉｍにおいて顔領域Ｒ１と同程度の顔の大きさを示す顔Ｒ３を、更なる収音対象として決定する。一方で、顔領域Ｒ１と異なる大きさの顔領域Ｒ２は収音対象から外される。これにより、人物２１と人物２３がデジタルカメラ１００から同程度の距離にいて（すなわち、Ｚ軸方向の距離の差が小さい）、人物２２は異なる距離にいることを反映して、例えば仲間内で会話する被写体のグループを収音対象とすることができる。収音対象の選別処理（Ｓ３）についての詳細は後述する。

次に、コントローラ１３５は、決定した収音対象に基づいて、収音エリアを決定する処理を行う（Ｓ４）。収音エリアの決定処理（Ｓ４）は、決定した全ての収音対象を含む収音エリアを決定する。図１１（Ｂ）の例において、収音エリアを収音対象の顔領域Ｒ１及びＲ３を含むように前方中心収音エリア４１（図６（Ａ））に決定されている。収音エリアの決定処理（Ｓ４）についての詳細は後述する。

次に、コントローラ１３５は、決定した収音対象及び収音エリアに基づいて、顔認識を用いて収音の制御を行う（Ｓ５）。顔認識を用いた収音制御（Ｓ５）は、コントローラ１３５が決定した収音対象、収音エリア及び収音ゲインを含む収音パラメータを、音声処理エンジン１７０に設定することによって行われる。音声処理エンジン１７０は、収音パラメータに応じた収音指向性及び収音ゲインを実現する。

一方、例えば顔認識モードの動作中に顔領域が検出されない等、ＡＦ対象の顔領域６０がない場合（Ｓ２でＮＯ）、コントローラ１３５は、顔認識を用いない収音制御（Ｓ６）を行う。顔認識を用いた、または用いない収音制御（Ｓ５，Ｓ６）についての詳細は後述する。

コントローラ１３５は、ステップＳ５またはＳ６の収音制御を実行後、ステップＳ１以降の処理を繰り返す。

以上の処理によると、本実施形態のデジタルカメラ１００は、顔認識により検出した被写体から収音対象を選別し、収音対象を全て含む収音エリアを決定して、顔認識を用いた収音制御を行う。これにより、例えば仲間内で会話をする被写体のグループについて、音声を強調して収音することができる。

なお、顔認識によるＡＦ制御（Ｓ１）において、検出情報に基づくＡＦ対象の特定は、例えば表示モニタ１３０に表示させたスルー画像上に顔領域を示す枠表示等を行い、操作部１５０によりユーザが枠表示を選択する操作を受けて実行することができる。

図１１（Ｃ）は、図１１（Ａ），（Ｂ）とは異なる位置に人物２１〜２３がいる場合の撮像画像Ｉｍの例を示す。デジタルカメラ１００は、図１１（Ｂ）の例と同様に、まず、例えば顔領域Ｒ１をＡＦ対象の顔領域６０として特定し（Ｓ１）、収音対象に決定する。図１１（Ｃ）の例において、収音対象の選別処理（Ｓ３）は、撮像画像Ｉｍ上で顔領域Ｒ１と同程度の顔の大きさである顔領域Ｒ２を収音対象に決定し、顔領域Ｒ３を収音対象から外す。収音エリアの決定処理（Ｓ４）は、収音対象として決定された顔領域Ｒ１及びＲ２を含む左半分収音エリア４２（図６（Ｂ））を収音エリアに決定する。顔認識を用いた収音制御（Ｓ５）は、左半分収音エリア４２に指向性を制御して人物２１及び２２の音声を明瞭に収音するように、収音パラメータを設定することによって行われる。

〔１−２−２．収音対象の選別処理〕
図１０のステップＳ３における収音対象の選別処理の詳細を、図１２〜図１３を用いて説明する。

図１２は、デジタルカメラ１００の収音対象の選別処理（Ｓ３）を例示するフローチャートである。図１２に示すフローチャートによる各処理は、図１０のステップＳ１１でＹＥＳに進んだとき、例えばデジタルカメラ１００のコントローラ１３５によって実行される。

図１３は、デジタルカメラ１００における収音対象の選別処理（Ｓ３）を説明するための図である。以下では、図１１（Ａ），（Ｂ）の例で収音対象を決定する動作について説明する。

図１２のフローチャートにおいて、コントローラ１３５は、図１０のステップＳ１において特定したＡＦ対象の顔領域に対応する被写体を収音対象に決定する（Ｓ１０）。このとき、コントローラ１３５は、顔認識部１２２から取得した検出情報に基づいて、ＡＦ対象の顔領域の大きさ（即ち顔幅Ｗ）を、他の被写体から収音対象を選別する基準に設定する。

図１３（Ａ）は、図１１（Ａ），（Ｂ）の例において収音対象が選別される場合を例示する。顔幅Ｗ１，Ｗ２，Ｗ３は、撮像画像Ｉｍにおける顔領域Ｒ１，Ｒ２，Ｒ３の大きさをＸ軸方向の幅で示す。図１３（Ａ）の例において、コントローラ１３５は、ＡＦ対象の顔領域Ｒ１の顔幅Ｗ１を、基準の顔幅Ｗに設定する（Ｓ１０）。設定した顔幅Ｗは、例えばコントローラ１３５のＲＡＭ等に保持される。

次に、コントローラ１３５は、ＡＦ対象の他に検出された被写体があるか否かを判断する（Ｓ１１）。具体的には、コントローラ１３５は、顔認識部１２２の検出情報がＡＦ対象の顔領域の他に顔領域を含むか否かを判断する。

ＡＦ対象の他に検出された被写体がある場合（Ｓ１１でＹＥＳ）、コントローラ１３５は、収音対象の候補である収音候補として、一つの被写体ｉを選択する（Ｓ１２）。図１３（Ａ）の例では、検出情報はＡＦ対象の顔領域Ｒ１の他の顔領域Ｒ２及びＲ３が、ステップＳ１２ごとに順次、収音候補の被写体ｉに対応付けて選択される。

コントローラ１３５は、選択した被写体ｉの顔幅Ｗｉと、基準の顔幅Ｗとを比較する演算を行う（Ｓ１３）。具体的には、コントローラ１３５は、基準の顔幅Ｗに対する被写体ｉの顔幅Ｗｉの割合Ｗｉ／Ｗを算出する。図１３（Ａ）の例において、顔領域Ｒ２を収音候補とする選択時（Ｓ１２）には、その顔幅Ｗ２についての割合Ｗ２／Ｗが算出される（Ｓ１３）。

コントローラ１３５は、収音候補の顔幅Ｗｉと基準の顔幅Ｗ間の割合Ｗｉ／Ｗが、所定範囲内であるか否かを判断する（Ｓ１４）。所定範囲は、例えば収音候補の顔幅Ｗｉが相対的に基準の顔幅Ｗｉと同程度であるとみなす範囲を規定する観点から、「１」よりも大きい上限値と、「１」よりも小さい下限値で規定される。なお、所定範囲を設定するためのユーザインタフェースが提供されてもよく、例えばユーザが操作部１５０により設定した所定範囲がバッファメモリ１２５等に保持されてもよい。

コントローラ１３５は、顔幅の割合Ｗｉ／Ｗが所定範囲内であると判断すると（Ｓ１４でＹＥＳ）、被写体ｉを収音対象とすることを決定する（Ｓ１５）。

一方、コントローラ１３５は、顔幅の割合Ｗｉ／Ｗが所定範囲内でないと判断すると（Ｓ１４でＮＯ）、コントローラ１３５は、被写体ｉを収音対象としないことを決定する（Ｓ１６）。図１３（Ａ）の例において、割合Ｗ２／Ｗは所定範囲の下限値を下回り、顔領域Ｒ２を収音対象としないことが決定される。

コントローラ１３５は、被写体ｉを収音対象とするか否かを決定すると（Ｓ１５またはＳ１６）、例えば被写体ｉについて決定した結果をバッファメモリ１２５に記録する（Ｓ１７）。次に、コントローラ１３５は、収音候補として選択済みの被写体とは他の被写体について、ステップＳ１１以降の処理を再び行う。

図１３（Ａ）の例では、顔領域Ｒ２の他に顔領域Ｒ３が検出情報に含まれる（Ｓ１１でＹＥＳ）。コントローラ１３５は、顔領域Ｒ３に対応する被写体を選択する（Ｓ１２）と、顔領域Ｒ２の場合と同様に、基準の顔幅Ｗに対する顔幅Ｗ３の割合Ｗ３／Ｗを算出する（Ｓ１３）。図１３（Ａ）の例では、割合Ｗ３／Ｗは「１」近傍に算出される。コントローラ１３５は、算出した顔幅の割合Ｗ３／Ｗが収音対象の所定範囲内であると判断して（Ｓ１４でＹＥＳ）、顔領域Ｒ３に対応する被写体を収音対象として決定する（Ｓ１５）。

コントローラ１３５は、収音候補として選択されていない被写体がなくなるまで（ステップＳ１１でＮＯ）、ステップＳ１１〜Ｓ１７の処理を繰り返す。その後、コントローラ１３５は、収音対象の選別処理（Ｓ３）を終了して、図１０のステップＳ４に進む。

以上の処理によると、顔認識により検出した被写体について、ＡＦ対象として特定した顔領域Ｒ１を基準とする相対的な顔領域Ｒ２，Ｒ３の大きさ比較が行われる。これにより、相対的な顔領域Ｒ３の大きさがＡＦ対象の顔領域Ｒ１と同程度である被写体を選別して収音対象に決定することができる。

図１３（Ｂ）は、図１１（Ｃ）の例において収音対象が選別される場合を例示する。図１３（Ｂ）の例において、顔領域Ｒ１は、図１３（Ａ）の例と同様にＡＦ対象として特定されている。このことから、コントローラ１３５は、顔領域Ｒ１を収音対象に決定し、顔幅Ｗ１を基準の顔幅Ｗに設定する（Ｓ１０）。

図１３（Ｂ）の例では、顔領域Ｒ２の顔幅Ｗ２は、基準の顔幅Ｗ（＝Ｗ１）と同程度の大きさである。一方、顔領域Ｒ３の顔幅Ｗ３は、他の顔幅Ｗ１及びＷ２と比較して大きい。本例において、コントローラ１３５は、割合Ｗ２／Ｗが所定範囲内であると判断して（Ｓ１４でＹＥＳ）、顔領域Ｒ２の被写体を収音対象として決定する（Ｓ１５）。一方、割合Ｗ３／Ｗが所定範囲の上限値を上回るため（Ｓ１４でＮＯ）、顔領域Ｒ３の被写体は収音対象としないことが決定される（Ｓ１６）。よって、本例の収音対象は、顔領域Ｒ１及びＲ２に対応する２つの被写体に決定される（図１１（Ｃ）参照）。

図１３（Ｃ）は、図１１（Ｃ）と同様の撮影画像Ｉｍにおいて顔領域Ｒ３がＡＦ対象の顔領域６０として特定された（図１０のＳ１）場合を例示する。コントローラ１３５は、顔領域Ｒ３を収音対象に決定し、顔幅Ｗ３を基準の顔幅Ｗに設定する（Ｓ１０）。図１３（Ｃ）の例において、割合Ｗ２／Ｗ及びＷ１／Ｗが所定範囲の下限値を下回るため（Ｓ１４でＮＯ）、顔領域Ｒ１及びＲ２に対応する被写体を収音対象としないことが決定される（Ｓ１６）。よって、本例の収音対象は、顔領域Ｒ３に対応する１つの被写体に決定される。

以上のように、本実施形態のデジタルカメラ１００は、画像認識により検出した複数の被写体から、ＡＦ対象と同程度の大きさである被写体を収音対象として決定することで、後述するユーザの意図に沿った収音エリアの決定に利用することができる。

〔１−２−３．収音エリアの決定処理〕
図１０のステップＳ４における収音エリアの決定処理の詳細を、図１４〜図１５を用いて説明する。

図１４は、本実施形態のデジタルカメラ１００における収音エリアの決定処理（Ｓ４）を例示するフローチャートである。図１４に示すフローチャートによる各処理は、図１０のステップＳ３を実行した後、例えばデジタルカメラ１００のコントローラ１３５によって実行される。

図１５は、デジタルカメラ１００における収音エリアの決定処理（Ｓ４）を説明するための図である。図１５（Ａ），（Ｂ）は、それぞれ図１３（Ａ），（Ｂ）の例に続いて、収音エリアを決定する場合を例示する。図１５（C）は、図１５（Ａ），（Ｂ）とは更に別の場合を例示する。図１５（Ａ）〜（Ｃ）において、中心位置ｘ０は、Ｘ軸方向における撮像画像Ｉｍの中心の位置を示し、画像幅Ｗｈは、Ｘ軸方向における撮像画像Ｉｍの幅を示す。画像範囲は、撮像画像Ｉｍ上で中心位置ｘ０を基準に、Ｘ座標−ｘｈからｘｈの範囲ｘ０±ｘｈと規定される。Ｘ座標ｘｈは、ｘｈ＝Ｗｈ／２（＞０）で定義される。

図１４のフローチャートにおいて、コントローラ１３５は、全ての収音対象について、顔領域の中心等の位置が撮像画像Ｉｍの中心範囲にあるか否かを判断する（Ｓ２０）。中心範囲は、撮像画像Ｉｍにおいて前方中心収音エリア４１に対応付けられる範囲である。

中心範囲は、例えば図１５（Ａ）に示すように、撮像画像Ｉｍ上で中心位置ｘ０を基準に、Ｘ座標−ｘｅからｘｅの範囲ｘ０±ｘｅとして規定される。Ｘ座標ｘｅは、所定の画角θｅと、画像幅Ｗｈに対応する水平画角θｈとに基づき、例えばｘｅ＝ｘｈ×θｅ／θｈ（＞０）で定義される。所定の画角θｅは、例えば１人の人物を含める観点から予め設定され、例えば３０°等である。コントローラ１３５は、例えば光学系１１０のズームレンズのズーム倍率等から現在の水平画角θｈを取得して、中心範囲ｘ０±ｘｅを算出する。

水平画角θｈが大きい広角撮影においては、Ｘ座標ｘｅが小さくなり中心範囲ｘ０±ｘｅは狭い。一方、水平画角θｈが小さい望遠撮影においては、Ｘ座標ｘｅが大きくなり中心範囲ｘ０±ｘｅは広い。これにより、撮像する物理的な範囲と距離に対応した収音エリアの決定を実現しやすくすることができる。

全収音対象の顔領域の位置が中心範囲内にある場合（Ｓ２０でＹＥＳ）、コントローラ１３５は、収音エリアを前方中心収音エリア４１に決定する（Ｓ２１）。図１５（Ａ）の例では、収音対象は顔領域Ｒ１及びＲ３に対応する。それぞれの顔領域Ｒ１及びＲ３の中心の位置ｘ１及びｘ３は、いずれもｘ０±ｘｅの範囲内にある（Ｓ２０でＹＥＳ）。よって、収音エリアが前方中心収音エリア４１に決定される（Ｓ２１，図１１（Ｂ）参照）。

一方、少なくとも一つ以上の収音対象の顔領域の位置が中心範囲内にない場合（Ｓ２０でＮＯ）、前方中心収音エリア４１以外の収音エリアが用いられる。この場合、コントローラ１３５は、全ての収音対象について、例えば顔領域の位置が撮像画像Ｉｍにおける左右いずれか半分の範囲のみにあるか否かを判断する（Ｓ２２）。左半分の範囲はＸ軸方向の中心位置ｘ０よりもＸ座標が小さい範囲であり、右半分の範囲は中心位置ｘ０よりもＸ座標が大きい範囲である。

全ての収音対象について、顔領域の位置が撮像画像Ｉｍにおける左半分または右半分の範囲のみにある場合（Ｓ２２でＹＥＳ）、コントローラ１３５は、さらに全収音対象の顔領域の位置が撮像画像Ｉｍにおける左半分の範囲内であるか否かを判断する（Ｓ２３）。

全収音対象の顔領域の位置が撮像画像Ｉｍにおける左半分の範囲内である場合（Ｓ２３でＹＥＳ）、コントローラ１３５は、収音エリアを左半分収音エリア４２に決定する（Ｓ２４）。図１５（Ｂ）の例では、収音対象は顔領域Ｒ１及びＲ２に対応する。顔領域Ｒ１の位置ｘ１及び顔領域Ｒ２の位置ｘ２が、Ｘ軸方向の中心位置ｘ０より左（すなわち、Ｘ座標が小さい）側にあるため（Ｓ２３でＹＥＳ）、収音エリアは左半分収音エリア４２に決定される（Ｓ２４，図１１（Ｃ）参照）。

一方、全収音対象の顔領域の位置が撮像画像Ｉｍにおける右半分の範囲内であって、左半分の範囲内でない（Ｓ２３でＮＯ）、コントローラ１３５は、収音エリアを右半分収音エリア４３に決定する（Ｓ２５）。

また、全ての収音対象の顔領域の位置が、撮像画像Ｉｍにおける左右いずれか半分の範囲のみにはない場合（Ｓ２２でＮＯ）、コントローラ１３５は、収音エリアを前方収音エリア４４に決定する（Ｓ２６）。図６（Ｄ），（Ａ）に示すように、前方収音エリア４４は、前方中心収音エリア４１の角度範囲４０１より広い角度範囲４０２を有する。すなわち、前方収音エリア４４は、撮像画像ＩｍにおいてＸ軸方向に広い範囲に位置する収音対象の被写体を含む。

図１５（Ｃ）の例では、収音対象は、顔領域Ｒ１，Ｒ２及びＲ３に対応する。顔領域Ｒ１〜Ｒ３の中心の位置ｘ１，ｘ２及びｘ３は、中心範囲ｘ０±ｘｅ外の位置ｘ１及びｘ２を含み（Ｓ２０でＮＯ）、且つ、左半分の範囲内の位置ｘ１と右半分の範囲内の位置ｘ２及びｘ３とを含む（Ｓ２２，Ｓ２３でＮＯ）。したがって、本例において収音エリアは、前方収音エリア４４に決定される（Ｓ２６）。

コントローラ１３５は、収音エリアを決定すると（Ｓ２１，Ｓ２４〜Ｓ２６）、決定した収音エリアをバッファメモリ１２５等に管理情報として記録する（Ｓ２７）。これにより、収音エリアの決定処理（Ｓ４）は終了し、図１０のステップＳ５に進む。

以上の処理によると、収音対象として決定した被写体の撮像画像上での位置に応じて、予め定義した複数の収音エリアから、全ての収音対象を含むように収音エリアが決定される。これにより、動画撮影において、ユーザの意図に沿った収音対象の被写体を含むように、収音エリアを決定することができる。

図１７は、収音エリアの決定処理（Ｓ４）によって得られる管理情報を説明するための図である。図１７（Ａ）は、図１３（Ａ）及び図１５（Ａ）の例において、収音対象の選別処理（Ｓ３）及び収音エリアの決定処理（Ｓ４）を実行した段階で得られる管理情報を例示する。図１７（Ｂ）は、図１３（Ｂ）及び図１５（Ｂ）の例における管理情報を例示する。

管理情報は、例えば収音対象の選別処理（Ｓ３）によって決定される「収音対象」、収音エリアの決定処理（Ｓ４）によって決定される「収音エリア」、「水平画角」及び「合焦距離」を関連付けて管理する。なお、合焦距離は、例えば顔認識によるＡＦ制御（Ｓ１）を実行する際に取得される。例えば、コントローラ１３５は、合焦時における光学系１１０の各種レンズの位置或いは焦点距離に基づいて、対応する合焦距離を取得してもよい。また、デジタルカメラ１００は、ＤＦＤ（ＤｅｐｔｈｆｒｏｍＤｅｆｏｃｕｓ）技術または測距センサによる測定により、合焦距離を検出してもよい。

なお、本実施形態のデジタルカメラ１００は、前方中心収音エリアの判断（Ｓ２０）で用いる中心範囲の画角θｅを設定可能であり、例えばコントローラ１３５のＲＯＭ等に記録される。また、画角θｅを設定するためのユーザインタフェースが提供され、例えばユーザが操作部１５０により設定した値がバッファメモリ１２５等に保持されてもよい。

〔１−２−４．収音制御〕
（１）図１０のステップＳ５について
図１０のステップＳ５における顔認識を用いた収音制御の詳細を、図１６〜図１８を用いて説明する。

収音パラメータ設定による収音制御において、本実施形態のデジタルカメラ１００は、例えばＡＦ対象の顔領域に対応する被写体について動画音声を強調するように、収音ゲインの設定を行う。収音ゲインは、例えば周波数フィルタ特性およびステレオセパレーション特性を有する。デジタルカメラ１００は、例えばデジタルカメラ１００が動画の撮影中に、ＡＦ対象の顔領域に合焦したときの水平画角及び合焦距離に基づき、収音ゲインを算出する。収音ゲインは、例えば算出される値が大きいほど人の声以外の周波数帯を抑制したりステレオ効果を制御したりして収音ズーム効果を生じさせるように規定される。

図１６は、顔認識を用いた収音制御（Ｓ５）を例示するフローチャートである。図１６のフローチャートに示す各処理は、図１０のステップＳ４を実行した後、例えばデジタルカメラ１００のコントローラ１３５によって実行される。

デジタルカメラ１００は、図１７に示す管理情報が保持された状態で、ステップＳ５の処理を開始する。

コントローラ１３５は、例えばバッファメモリ１２５から水平画角を取得して、水平画角に基づくゲインＧｈを算出する（Ｓ３０）。図１８（Ａ）は、水平画角からゲインＧｈを求める関係を例示する。図１８（Ａ）の例で、ゲインＧｈは、予め定めたゲインの最大値Ｇｍａｘと最小値Ｇｍｉｎの間で、水平画角が小さくなるほど増加する。これにより、ズーム等で水平画角が小さいほど収音時にゲインを大きくして、望遠側で撮影される被写体の音声を強調することができる。

コントローラ１３５は、ステップＳ３０と同様に合焦距離を取得して、合焦距離に基づくゲインＧｄを算出する（Ｓ３１）。図１８（Ｂ）は、合焦距離からゲインＧｄを求める関係を例示する。図１８（Ｂ）の例で、ゲインＧｄは、予め定めたゲインの最大値Ｇｍａｘと最小値Ｇｍｉｎの間で、合焦距離が大きくなるほど増加する。これにより、デジタルカメラ１００から遠い被写体に合焦するときほど収音時にゲインを大きくして、遠い被写体ほど音声を強調することができる。

コントローラ１３５は、算出した水平画角による収音ゲインＧｈと、合焦距離による収音ゲインＧｄと比較し、いずれか大きいゲインを収音ゲインＧとする（Ｓ３２）。これにより、例えば望遠の水平画角または遠い合焦距離で撮影を行うユーザの意図に沿って被写体の音声を強調するように、収音ゲインＧを算出することができる。

コントローラ１３５は、過去の所定回数（例えば５回）にわたり算出された収音ゲインＧ及び決定された収音エリアが、互いに同じであるか否かを判断する（Ｓ３３）。例えば収音ゲインＧは、図１０のステップＳ１〜Ｓ５の実行周期における所定回数の範囲内で、算出される毎に上記の管理情報と共に記憶される。コントローラ１３５は、過去の所定回数の収音ゲインＧおよび収音エリアが同じであると判断した場合と（Ｓ３３でＹＥＳ）、ステップＳ３４に進む。

コントローラ１３５は、ステップＳ３の収音対象の選別処理により決定した収音対象と、ステップＳ４の収音エリアの決定処理により決定した収音エリアと、ステップＳ３２で算出した収音ゲインＧを、音声処理エンジン１７０に収音パラメータとして設定する（Ｓ３４）。音声処理エンジン１７０は、ビーム形成部１７２及びゲイン調整部１７４により、設定された収音パラメータに応じた収音エリア及び収音ゲインを実現する。

収音パラメータの設定（Ｓ３４）後、コントローラ１３５は、顔認識を用いた収音制御の処理（Ｓ５）を終了する。また、コントローラ１３５は、過去の所定回数の収音ゲインＧおよび収音エリアが同じでないと判断した場合（Ｓ３３でＮＯ）、ステップＳ３４の処理を行わずに図１０のステップＳ５の処理を終了する。その後、図１０のステップＳ１以降の処理が繰り返される。

以上の処理によると、算出した収音ゲインと、顔認識に基づいて決定された収音対象及び収音エリアを、収音パラメータに設定して、ＡＦ対象を含む収音対象の被写体の音声を明瞭に収音しやすくする収音エリア及び収音ゲインを実現することができる。

なお、ステップＳ３０とＳ３１の実行順序は、本フローチャートの順に限らず、例えばステップＳ３１でゲインＧｄを算出してから、ステップＳ３０でゲインＧｈを算出してもよく、またはステップＳ３０とＳ３１を並列に実行してもよい。

また、以上のステップＳ３３によると、収音エリア及び収音ゲインＧが所定回数（例えば５回）変化しない場合のみ、収音パラメータが設定する処理（Ｓ３４）が実行される。これにより、被写体の動きなどにより過度に頻繁に収音エリア及び収音ゲインＧが変更されることを防ぎ、顔認識を用いた収音制御（Ｓ５）をユーザの意図に沿って精度よく実現することができる。

（２）図１０のステップＳ６について
図１０のステップＳ６における顔認識を用いない収音制御（Ｓ６）の詳細を、図１９を用いて説明する。

図１９は、顔認識を用いない収音制御（Ｓ６）を例示するフローチャートである。図１９のフローチャートに示す各処理は、顔領域が検出されない等、図１０のステップＳ２においてＡＦ対象の顔領域がない（Ｓ２でＮＯ）場合に、例えばデジタルカメラ１００のコントローラ１３５によって実行される。

まず、コントローラ１３５は、収音エリアを、例えば前方収音エリア４４に決定する（Ｓ４０）。

次に、コントローラ１３５は、水平画角に基づくゲインＧｈをステップＳ３０と同様に算出して、収音ゲインＧとする（Ｓ４１）。さらに、コントローラ１３５は、ステップＳ３３と同様に、過去の所定回数にわたり算出された収音ゲインＧ及び決定された収音エリアが、互いに同じであるか否かを判断する（Ｓ４２）。

コントローラ１３５は、過去の所定回数の収音ゲインＧおよび収音エリアが同じであると判断した場合（Ｓ４２でＹＥＳ）、収音エリアと収音ゲインＧを収音パラメータに設定し（Ｓ４３）、顔認識を用いない収音制御（Ｓ６）を終了する。また、コントローラ１３５は、過去の所定回数の収音ゲインＧおよび収音エリアが同じでないと判断した場合（Ｓ４２でＮＯ）、ステップＳ４３の処理を行わずに図１０のステップＳ６を終了する。ステップＳ６の終了後、ステップＳ１以降の処理が繰り返される。

以上の処理によると、ＡＦ対象の顔領域がない場合でも、デジタルカメラ１００の前方における広い範囲の音声を収音するように、また、ズーム等で水平画角が小さいほど収音ゲインを大きくするようにして、撮像される範囲の音声を明瞭に収音しやすくすることができる。

なお、デジタルカメラ１００の動作モードに応じて、デジタルカメラ１００の周囲３６０°の角度範囲を有する全体収音エリアが定義され、ステップＳ４０において全体収音エリアに決定されてもよい。このとき、例えば全体収音エリアのみが収音パラメータに設定されてもよい。

〔１−２−５．オートモードの動作〕
本実施形態に係るデジタルカメラ１００のオートモードの動作の詳細を、図２０〜図２１を用いて説明する。

図２０は、実施の形態１に係るデジタルカメラ１００のオートモードの動作を例示するフローチャートである。図２０のフローチャートに示す各処理は、例えば図１０と同様にコントローラ１３５により、デジタルカメラ１００がオートモードに設定された状態において実行される。

図２０に示すように、オートモードのデジタルカメラ１００において、コントローラ１３５は、例えば磁気センサ１３２の検出信号に基づいて、表示モニタ１３０が自分撮り位置であるか否かを判断する（Ｓ５１）。コントローラ１３５は、表示モニタ１３０が自分撮り位置でないと判断すると（Ｓ５１でＮＯ）、非顔認識時の収音エリアをサラウンドモードの収音エリア４５に設定する（Ｓ５２）。一方、表示モニタ１３０が自分撮り位置であると判断すると（Ｓ５１でＹＥＳ）、コントローラ１３５は、非顔認識時の収音エリアをフロントモードの収音エリア４６に設定する（Ｓ５３）。

コントローラ１３５は、上述したフォーカスモードと同様に、顔認識の処理を行う（Ｓ１，Ｓ２）。例えば、ＡＦ対象の顔領域が検出された場合（Ｓ２でＹＥＳ）、コントローラ１３５は、加速度センサ１３７の検出信号に基づいて、デジタルカメラ１００が縦撮りの姿勢か否かを判断する（Ｓ５４）。コントローラ１３５は、縦撮りでないと判断すると（Ｓ５４でＮＯ）、フォーカスモードと同様のステップＳ３〜Ｓ５の処理を行い、収音制御を実行する。一方、コントローラ１３５は、縦撮りと判断すると（Ｓ５４でＹＥＳ）、フロントモードの収音エリア４６を採用して、収音制御を実行する（Ｓ５５）。

また、ＡＦ対象の顔領域が検出されなかった場合（Ｓ２でＮＯ）、コントローラ１３５は、ステップＳ５２，Ｓ５３の設定結果に基づいて、顔認識を用いない収音制御を行う（Ｓ６Ａ）。ステップＳ６Ａの収音制御は、非顔認識時の収音エリアとして設定された収音エリアを用いて、上述したステップＳ６と同様に行われる。

以上の処理によると、各種の撮影状態に連動してマイク１６１の指向性を調整するオートモードの動作を実現できる。オートモードにおける横撮り時と縦撮り時の収音制御について、図２１を用いて更に説明する。

図２１（Ａ）は、横撮り時の撮像画像Ｉｍと収音エリア４１〜４３との関係を例示する。図２１（Ｂ）は、縦撮り時にステップＳ５５を行わなかった場合を例示する。図２１（Ｃ）は、縦撮り時にステップＳ５５を行った場合を例示する。

図２１（Ａ）に例示するように、横取り時においては、収音エリアと顔領域Ｒ１〜Ｒ３と収音エリア４１〜４３とは同軸上の関係にあり、収音エリア４１〜４３の切り替えによって所望の顔領域Ｒ１〜Ｒ３の位置に合わせるような意図通りの収音制御が可能である。しかしながら、縦撮り時においては、図２１（Ｂ）に示すように、収音エリア４１〜４３と顔領域Ｒ１〜Ｒ３との関係が合わなくなる。このことから、所望の顔領域Ｒ１〜Ｒ３の位置に対して意図通りの収音制御ができず、寧ろ意図に反した収音制御が生じてしまう事態が考えられる。

そこで、本実施形態では、縦撮り時には図２１（Ｃ）に示すように、収音エリアをフロントモードの収音エリア４６に固定する。これにより、撮像中の範囲にわたり収音可能な範囲を確保して、意図に反した収音制御が生じるような事態を回避できる。

〔１−３．効果等〕
本実施形態において、デジタルカメラ１００は、撮像部の一例のイメージセンサ１１５と、音声取得部の一例のマイク１６１と、設定部の一例の操作部１５０と、制御部の一例のコントローラ１３５とを備える。イメージセンサ１１５は、被写体を撮像して画像データを生成する。マイク１６１は、撮像部による撮像中に収音される音声を示す音声信号を取得する。操作部１５０は、ユーザの指示を受けて、音声取得部の指向性を自動で変える動作モードであるオートモードに自装置を設定する。コントローラ１３５は、音声信号において被写体からの音声を収音する収音エリアを制御する。コントローラ１３５は、オートモードに設定されている場合、マイク１６１の指向性を自装置の撮影状態に連動して変えることで、被写体を含めるように収音エリアを制御する。これにより、様々な撮影状態に応じて適切な収音制御が実現でき、音声を取得しながら撮像を行う際に、ユーザの意図に沿って被写体の音声を収音し易くすることができる。

本実施形態のデジタルカメラ１００は、画像データにおいて被写体の顔領域を検出する顔検出部の一例の顔認識部１２２を備える。コントローラ１３５は、オートモードに設定されている場合、顔認識部１２２によって検出された顔領域に基づいて音声信号における収音対象とする被写体を決定し、収音対象に決定した被写体を含めるように、収音エリアを制御する。これにより、被写体の各種顔認識のような撮影状態に応じて収音制御を行い、ユーザの意図に沿った収音を行い易くできる。

本実施形態において、コントローラ１３５は、オートモードに設定されている場合、自装置が縦向きか又は横向きかで撮影する撮影状態に連動して、音声取得部の指向性を変えるように、収音エリアを制御する。これにより、縦撮りか横撮りかといった撮影状態に応じて収音制御を行い、ユーザの意図に沿った収音を行い易くできる。

本実施形態において、コントローラ１３５は、オートモードに設定されている場合、撮影者が自身を撮影するか否かの撮影状態に連動して、音声取得部の指向性を変えるように、収音エリアを制御する。これにより、自分撮りか否かといった撮影状態に応じて収音制御を行い、ユーザの意図に沿った収音を行い易くできる。

本実施形態のデジタルカメラ１００は、表示部の一例の表示モニタ１３０と、検知部の一例の磁気センサ１３２とをさらに備える。表示モニタ１３０は、被写体の画像等を表示する表示面を有し、当該表示面を被写体側に変位可能に構成される。磁気センサ１３２は、表示モニタ１３０が被写体側に表示面を変位したか否かを検知する。本実施形態の設定部は、磁気センサ１３２が、表示モニタ１３０が被写体側に表示面を変位したことを検知すると、オートモードに設定するものであってもよい。例えば、コントローラ１３５が磁気センサ１３２からの検出信号に応じて、表示モニタ１３０が自分撮り位置にあるときに自動的にデジタルカメラ１００オートモードに設定してもよい。

本実施形態のデジタルカメラ１００において、設定部は、ユーザの指示に応じて、オートモードのほかに音声取得部の指向性が互いに異なる複数の動作モードうちの少なくとも１つに設定可能である。例えば、サラウンドモード、フロントモード、或いはナビゲーションモードに設定可能であり、更にフォーカスモードに設定可能であってもよい。

本実施形態のデジタルカメラ１００において、コントローラ１３５は、設定部がオートモードに設定している場合にイメージセンサ１１５によって撮像が開始されると、表示モニタ１３０に被写体と共にオートモードに設定されていることを示す情報を表示させてもよい。例えば、コントローラ１３５は、表示モニタ１３０にオートモード専用のアイコン等を表示させてもよい。

（実施の形態２）
以下、図面を用いて実施の形態２を説明する。実施の形態１では、動画撮影時等に収音対象を選別して決定するデジタルカメラ１００について説明した。実施の形態２では、実施の形態１のような動作時に、決定された収音対象に関する情報をユーザに可視化するデジタルカメラ１００について説明する。

以下、実施の形態１に係るデジタルカメラ１００と同様の構成、動作の説明は適宜省略して、本実施形態に係るデジタルカメラ１００を説明する。

〔２−１．概要〕
図２２を用いて、本実施形態に係るデジタルカメラ１００が各種情報を表示する動作の概要を説明する。

図２２は、本実施形態に係るデジタルカメラ１００の表示例を示す。図２２の表示例は、デジタルカメラ１００が図１１（Ｂ）に例示するように収音対象を決定した場合に、表示部１３０においてリアルタイムに表示される一例を示す。本表示例において、デジタルカメラ１００は表示モニタ１３０に、ＡＦ対象の被写体を示すＡＦ枠１１及びＡＦ対象以外の検出された被写体を示す検出枠１３に加えて、収音対象の被写体を示す収音アイコン１２を、撮像画像Ｉｍ上に重畳して表示している。

本実施形態のデジタルカメラ１００は、収音アイコン１２を、ＡＦ枠１１及び検出枠１３に組み合わせて用いることで、ＡＦ対象のような主要被写体とそれ以外に検出した被写体が、ＡＦ対象及び／または収音対象に決定されているか否かをユーザに可視化する。

例えば図２２の表示例において、デジタルカメラ１００は、図１１（Ｂ）の例で顔領域Ｒ１（６０）に対応する被写体をＡＦ対象かつ収音対象として決定したことから、人物２１にＡＦ枠１１と収音アイコン１２を表示する。また、デジタルカメラ１００は、図１１（Ｂ）の例で顔領域Ｒ３に対応する被写体をＡＦ対象以外の収音対象として決定したことから、人物２３に検出枠１３と収音アイコン１２を表示する。さらに、デジタルカメラ１００は、収音アイコン１２を伴わない検出枠１３の表示により、図１１（Ｂ）の例で顔領域Ｒ２に対応するＡＦ対象以外の被写体を収音対象としない決定をしたことをユーザに可視化する。

本実施形態のデジタルカメラ１００において、ユーザは、ＡＦ枠１１または検出枠１３のいずれか一方の表示により、検出した被写体がＡＦ対象か否かを確認できる。ユーザはまた、収音アイコン１２の有無により、収音対象か否かを確認できる。ＡＦ枠１１と収音アイコン１２との組み合わせは、本実施形態における第１の識別情報の一例である。検出枠１３と収音アイコン１２との組み合わせは、本実施形態における第２の識別情報の一例である。検出枠１３は、第３の識別情報の一例である。

以上のように、本実施形態に係るデジタルカメラ１００は、検出情報が含む被写体から決定した収音対象及びＡＦ対象の被写体を区別する表示を行う。これによりユーザは、デジタルカメラ１００が検出した被写体のうち収音対象の被写体を把握して、例えば意図に沿った被写体が収音対象として決定されているか否かを確認することができる。

図２３（Ａ），（Ｂ）は、本実施形態のデジタルカメラ１００におけるマニュアル操作を説明するための図である。図２３（Ａ）は、特定の人物２２が、顔認識部１２２により検出されていない状態を例示する。例えば、撮影者が人物２２の音声を収音したくても、人物２２の顔がデジタルカメラ１００に対して横向き又は後ろ向きであることにより、顔認識が為されない場合が想定される。また、撮影者が収音したい音源が、人物でないような場合も想定される。こうした場合を考慮して、本実施形態のデジタルカメラ１００は、収音エリアを手動で設定可能にするマニュアル操作を入力可能に動作する。

図２３（Ｂ）は、デジタルカメラ１００における収音エリアのマニュアル操作を例示する。例えば、収音エリアのマニュアル操作は、タッチ操作として実装される。図２４は、デジタルカメラ１００におけるマニュアル操作時の動作を例示するフローチャートである。本フローチャートに示す処理は、例えば上述したオートモード又はフォーカスモードの処理とは独立に実行されてもよいし、オートモード又はフォーカスモードの処理時に割り込んで実行されてもよい。

まず、デジタルカメラ１００のコントローラ１３５は、撮影者などのユーザによるマニュアル操作を受け付ける（Ｓ６１）。コントローラ１３５は、例えば図２３（Ｂ）に示すように、マニュアル操作時において、表示モニタ１３０に収音エリアの指定範囲４８を表示する。この例はマニュアル操作がオートモード又はフォーカスモードの処理時に割り込んで実施される場合である。

図２３（Ｂ）の例では、撮影者がタッチ操作により、収音エリアの指定範囲４８が、顔認識されなかった人物２２を含むように調整するマニュアル操作を入力している。コントローラ１３５は、入力されたマニュアル操作に基づき、収音エリアの指定範囲４８を決定する（Ｓ６２）。マニュアル操作として収音範囲とする始点と終点をタッチ操作で入力すれば、始点と終点を含む所定サイズの収音範囲４８が表示される。この状態で表示モニタ１３０に表示される確定ボタンをタッチ操作すれば、収音範囲４８が確定される。

コントローラ１３５は、決定した収音エリアの指定範囲４８をマイク１６１の収音制御に反映する（Ｓ６３）。これにより、指定範囲４８に対応する収音エリアからの音声を強調するように、収音制御が実行される。

〔２−３．効果等〕
以上のように、本実施形態のデジタルカメラ１００は、被写体を撮像して画像データを生成するイメージセンサ１１５と、イメージセンサ１１５による撮像中に収音される音声を示す音声信号を取得するマイク１６１と、被写体の画像を表示する表示モニタ１３０とを備える。本実施形態のデジタルカメラ１００は、表示モニタ１３０に表示された被写体を、被写体からの音声を収音する収音エリアに設定するユーザ操作を入力する操作部１５０等の入力部と、音声信号において収音エリアを制御するコントローラ１３５とを備える。コントローラ１３５は、収音エリアを設定するユーザ操作が入力されると、ユーザ操作に基づいて、マイク１６１の指向性を変えることで被写体を含めるように、収音エリアを制御する。こうしたマニュアル操作により、収音エリアを制御でき、ユーザの意図に沿った収音を行い易くすることができる。

本実施形態のデジタルカメラ１００において、表示モニタ１３０は、実施形態１と同様に、被写体側に表示面を変位可能に構成されてもよい。表示モニタ１３０が、被写体側に表示面が変位された状態において、ユーザ操作がなされてもよい。即ち、デジタルカメラ１００において自分撮りを行う際に、上述したマニュアル操作が入力されてもよい。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、上記の各実施の形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記の各実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

実施の形態１では、マイク１６１に３つのマイクロフォン素子１６１Ｌ，１６１Ｃ及び１６１Ｒを用いる例を説明した。４つのマイクロフォン素子を用いる変形例を、図２５〜図２６を用いて説明する。

図２５は、本変形例のデジタルカメラ１００Ａにおけるマイク１６１Ａの配置を例示する。本変形例において、デジタルカメラ１００Ａのマイク１６１Ａは、互いにＸＺ平面上にある３つのマイクロフォン素子１６１Ｌ，１６１Ｃ及び１６１Ｒに加えて、４つ目のマイクロフォン素子１６１Ｂを含む。４つ目のマイクロフォン素子１６１Ｂは、Ｙ方向における位置が他のマイクロフォン素子１６１Ｌ〜１６１Ｒとは異なるように配置される。

図２６は、本変形例において縦撮り時の撮像画像Ｉｍと収音エリア４１Ａ〜４３Ａとの関係を例示する。上記のマイク１６１Ａの構成によると、デジタルカメラ１００のＹ軸方向においても収音エリアを変えることができる。このため、縦撮り時の収音制御時には、４つ目のマイクロフォン素子１６１Ｂを用いた収音エリアを利用することにより、例えば図２６に示すように、縦撮り時にも顔認識に追従するような収音制御を実現できる。例えば、本変形例のデジタルカメラ１００Ａのコンロトーラ１３５は、図２０と同様の処理において、ステップＳ５５の代わりに、上記のような４つ目のマイクロフォン素子１６１Ｂを用いた収音制御を行う。これにより、縦撮り時においても、収音エリア４１Ａ〜４３Ａを用いて所望の顔領域Ｒ１〜Ｒ３の位置に合わせるような意図通りの収音制御が可能となる。

また、上記各実施形態において説明した収音制御においては、顔認識と連動して収音エリアを遷移させる期間に緩急を設けることにより、聴感上の違和感をより抑制することができる。この動作例について、図２７を用いて説明する。

図２７では、デジタルカメラ１００において顔認識の有無に連動して収音指向性の幅（即ち収音エリアの角度範囲）を変化させる動作例を示す。本動作例では、時刻ｔ１においてデジタルカメラ１００の顔認識部１２２により被写体の顔が検出されている。すると、誤検出防止制御（即ちチャタリング）が行われる（図１６のＳ３３参照）。

例えば顔認識が一瞬だけ為されたり、顔認識した被写体が横を向いてしまったりしたときに収音指向性を変化させると、収音結果を聴くユーザが聴感上の違和感を覚える事態が考えられる。これに対して、上述した誤検出防止制御によると、被写体の顔認識の位置を常に監視し、一定時間収音エリアにいるときに収音指向性を変化させる。これにより、上記のような聴感上の違和感を回避可能になる。

また、デジタルカメラ１００のコントローラ１３５は、時刻ｔ１からチャタリング後に、収音指向性を狭めるように収音エリアを遷移させる。収音指向性を狭める際の遷移期間は、例えば比較的短く設定される。これにより、画像認識において被写体の顔が検出された際に、検出された顔に向けて収音指向性がフォーカスされるように速やかな変化を与え、収音結果を聴くユーザに聴感上、良好な印象を与えることができる。また、例えば、前方中心収音エリア４１と左半分収音エリア４２など同じ角度範囲の収音エリアの遷移についても、上記と同様に比較的速やかに行われる。

図２７の例においては、例えば被写体が移動したり顔を横向きにしたりする等により、時刻ｔ２において、顔認識部１２２により被写体の顔が検出されなくなっている。この際も、チャタリング制御の後に、デジタルカメラ１００は収音指向性を遷移させる。ここで、収音指向性の範囲を広げるときの遷移期間は、上述した狭めるときの遷移期間よりも長く設定される。これにより、広い範囲からの音が聴こえ出す状況が突然に起こることで生じ得るような聴感上の違和感をユーザに与えることを回避することができる。寧ろ、収音指向性の範囲を広げるときの遷移を遅く実行することにより、ユーザの聴感上の違和感を抑制することができる。

さらに、本例では時刻ｔ３において、収音指向性を広げる遷移期間中に、顔認識が再び為されている。この場合、デジタルカメラ１００は、割り込み制御として収音指向性を広げきる前に、再び狭める制御に切り替わる。これにより、被写体の顔認識が断続的で有る場合に、顔認識が為された被写体に対して収音指向性を向ける制御が速やかに行われ、ユーザの聴感上の違和感をさらに抑制することができる。

上記の各実施形態においては、収音対象の検出に顔認識部１２２を用いた。本実施形態において、収音対象の検出は顔認識部１２２に限らず、例えばこれに代えて、又は加えて、人間の全体又は少なくとも一部を画像認識する人体認識を用いてもよい。また、収音対象は、必ずしも人物でなくてもよく、例えば各種の動物であってもよい。この場合、動物の一部又は全体の画像認識により、収音対象の検出が行われてもよい。

また、実施の形態２に係る第１の識別情報、第２の識別情報、及び第３の識別情報は、ＡＦ枠１１の有無において主要被写体か否かを識別し、収音アイコン１２の有無において収音対象か否かを識別した。本実施形態において、第１〜第３の識別情報は、特にこれに限らず、例えば３種類の枠表示であってもよい。図２２は、本実施形態における３種類の枠表示を例示する。図２２の例では、ＡＦ対象かつ収音対象の被写体を示す枠表示１１Ａ、ＡＦ対象以外で収音対象の被写体を示す枠表示１３Ａ及び収音対象でない被写体を示す枠表示１３Ｂにより、ＡＦ対象及びそれ以外の被写体の表示と収音対象の表示とが一体的に為されている。

上記の実施形態１，２では、オートモードの動作とマニュアル操作とをそれぞれ説明したが、これらは組み合わせてもよい。すなわち、本実施形態のデジタルカメラ１００は、被写体の画像を表示する表示部としての表示モニタ１３５と、表示モニタ１３５に表示された被写体を、被写体からの音声を収音する収音エリアに設定するユーザ操作を入力する入力部としての操作部１５０とを備えてもよい。コントローラ１３５は、収音エリアを設定するユーザ操作が入力されると、ユーザ操作に基づいて、マイク１６１の指向性を変えることで被写体を含めるように、収音エリアを制御してもよい。こうした場合、表示モニタ１３５は特に可動式でなくてもよく、例えば上述した通常位置などに固定される固定式であってもよい。

実施の形態１〜２では、図１０のフローチャートにおいて、デジタルカメラ１００が内蔵するマイク１６１について、顔認識を用いた又は用いない収音制御（Ｓ５又はＳ６）を行う動作例を説明した。本実施形態のデジタルカメラ１００は、内蔵のマイク１６１に代えて、外付けのマイク（以下「マイク１６１ａという」）を備えてもよい。マイク１６１ａは、デジタルカメラ１００の外部にあるマイクロフォン素子を含み、３つ以上のマイクロフォン素子を備える。本実施形態においてコントローラ１３５は、マイク１６１ａについて、予めマイクロフォン素子の配置に関する情報をバッファメモリ１２５等に保持しておくことにより、実施の形態１と同様にステップＳ５又はＳ６を実行することができる。この場合においても、実施の形態１と同様に決定した収音対象及び／または収音エリアに応じて、被写体の音声を明瞭に得やすくすることができる。

また、実施の形態１〜２では、図１６のフローチャートにおいて、デジタルカメラ１００の撮像範囲に対応する水平画角に基づき、ゲインＧｈを算出（Ｓ３０）する動作例を説明した。この場合の水平画角は、図１４のフローチャートにおける前方中心収音エリアの判定（Ｓ２０）に用いる水平画角θｈと同一である。本実施形態において、ゲインＧｈの算出に、ステップＳ２０における水平画角θｈと異なる用いる水平画角を用いてもよい。例えば、撮像画像上で全ての収音対象の被写体を含むＸ軸方向の幅に対応する角度範囲を、ステップＳ３０における水平画角とする。これにより、収音対象が映る画角に応じて、遠くの被写体の声をより明瞭に収音するように、ゲインＧｈを算出することができる。

また、実施の形態１〜２では、顔認識部１２２が人の顔を検出した。本実施形態において、顔認識部１２２は、例えば動物の顔を検出してもよい。動物の顔は、動物の種別によって大きさが多様であることが考えられる。この場合でも、例えば収音対象を選別するための所定範囲（Ｓ１４参照）を拡大することにより、実施の形態１と同様に収音対象を選別することができる。さらに、顔認識部１２２が動物の種別ごとに顔を検出し、種別に応じてステップＳ１４における所定範囲を設定してもよい。

また、実施の形態１〜２では、顔認識部１２２を備えるデジタルカメラ１００を説明した。本実施形態において、顔認識部１２２は、外部サーバに設けられてもよい。この場合、デジタルカメラ１００は、通信モジュール１６０を介して、外部サーバに撮像画像の画像データを送信し、外部サーバから顔認識部１２２による処理結果の検出情報を受信してもよい。このようなデジタルカメラ１００においては、通信モジュール１６０が検出部として機能する。

また、実施の形態１〜２では、光学系１１０及びレンズ駆動部１１２を備えるデジタルカメラ１００を例示した。本実施形態の撮像装置は、光学系１１０及びレンズ駆動部１１２を備えなくてもよく、例えば交換レンズ式のカメラであってもよい。

また、実施の形態１〜２では、撮像装置の例としてデジタルカメラを説明したが、これに限定されない。本開示の撮像装置は、画像撮影機能を有する電子機器（例えば、ビデオカメラ、スマートフォン、タブレット端末等）であればよい。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、音声を取得しながら撮像を行う撮像装置に適用可能である。

１００デジタルカメラ
１１５イメージセンサ
１２０画像処理エンジン
１２２顔認識部
１２５バッファメモリ
１３０表示モニタ
１３２磁気センサ
１３５コントローラ
１３７加速度センサ
１４５フラッシュメモリ
１５０操作部
１１ＡＦ枠
１２収音アイコン
１３検出枠

Claims

被写体を撮像して画像データを生成する撮像部と、
前記撮像部による撮像中に収音される音声を示す音声信号を取得する音声取得部と、
ユーザの指示を受けて、前記音声取得部の指向性を自動で変える動作モードであるオートモードに自装置を設定する設定部と、
前記音声信号において前記被写体からの音声を収音する収音エリアを制御する制御部と
を備え、
前記制御部は、前記設定部が前記オートモードに設定している場合、前記音声取得部の指向性を自装置の撮影状態に連動して変えることで、前記被写体を含めるように前記収音エリアを制御する、撮像装置。
前記画像データにおいて前記被写体の顔領域を検出する顔検出部を備え、
前記制御部は、前記設定部が前記オートモードに設定している場合、前記顔検出部によって検出された前記顔領域に基づいて前記音声信号における収音対象とする被写体を決定し、前記収音対象に決定した被写体を含めるように、前記収音エリアを制御する、請求項１記載の撮像装置。
前記制御部は、前記設定部が前記オートモードに設定している場合、自装置が縦向きか又は横向きかで撮影する撮影状態に連動して、前記音声取得部の指向性を変えるように、前記収音エリアを制御する、請求項１記載の撮像装置。
前記制御部は、前記設定部が前記オートモードに設定している場合、撮影者が自身を撮影するか否かの撮影状態に連動して、前記音声取得部の指向性を変えるように、前記収音エリアを制御する、請求項１記載の撮像装置。
前記被写体の画像を表示する表示面を有し、当該表示面を前記被写体側に変位可能な表示部と、
前記表示部が前記被写体側に前記表示面を変位したか否かを検知する検知部と
をさらに備え、
前記設定部は、前記検知部が、前記表示部が前記被写体側に前記表示面を変位したことを検知すると、前記オートモードに設定する、請求項１記載の撮像装置。
前記設定部は、前記ユーザの指示に応じて、前記オートモードのほかに前記音声取得部の指向性が互いに異なる複数の動作モードうちの少なくとも１つに設定可能である、請求項１記載の撮像装置。
前記被写体の画像を表示する表示部と、
前記表示部に表示された被写体を、前記被写体からの音声を収音する収音エリアに設定するユーザ操作を入力する入力部と
をさらに備え、
前記制御部は、前記収音エリアを設定するユーザ操作が入力されると、前記ユーザ操作に基づいて、前記音声取得部の指向性を変えることで前記被写体を含めるように、前記収音エリアを制御する、請求項１記載の撮像装置。
被写体を撮像して画像データを生成する撮像部と、
前記撮像部による撮像中に収音される音声を示す音声信号を取得する音声取得部と、
前記被写体の画像を表示する表示部と、
前記表示部に表示された被写体を、前記被写体からの音声を収音する収音エリアに設定するユーザ操作を入力する入力部と、
前記音声信号において前記収音エリアを制御する制御部とを備え、
前記制御部は、前記収音エリアを設定するユーザ操作が入力されると、前記ユーザ操作に基づいて、前記音声取得部の指向性を変えることで前記被写体を含めるように、前記収音エリアを制御する、撮像装置。
前記表示部は、前記被写体側に表示面を変位可能に構成され、
前記表示部が、前記被写体側に前記表示面が変位された状態において、前記ユーザ操作がなされる、請求項８記載の撮像装置。