JP6793369B1 - 撮像装置 - Google Patents

撮像装置 Download PDF

Info

Publication number
JP6793369B1
JP6793369B1 JP2019209798A JP2019209798A JP6793369B1 JP 6793369 B1 JP6793369 B1 JP 6793369B1 JP 2019209798 A JP2019209798 A JP 2019209798A JP 2019209798 A JP2019209798 A JP 2019209798A JP 6793369 B1 JP6793369 B1 JP 6793369B1
Authority
JP
Japan
Prior art keywords
sound
subject
sound collection
area
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019209798A
Other languages
English (en)
Other versions
JP2021082968A (ja
Inventor
宏樹 春日井
宏樹 春日井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2019209798A priority Critical patent/JP6793369B1/ja
Priority to US16/950,954 priority patent/US11445106B2/en
Application granted granted Critical
Publication of JP6793369B1 publication Critical patent/JP6793369B1/ja
Publication of JP2021082968A publication Critical patent/JP2021082968A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • H04N23/671Focus control based on electronic image sensor signals in combination with active ranging signals, e.g. using light or sound signals emitted toward objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/958Computational photography systems, e.g. light-field imaging systems for extended depth of field imaging
    • H04N23/959Computational photography systems, e.g. light-field imaging systems for extended depth of field imaging by adjusting depth of field during image capture, e.g. maximising or setting range based on scene characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音声を取得しながら撮像を行う撮像装置において、ユーザの意図に沿って被写体の音声を明瞭に得やすくすることができる撮像装置を提供する。【解決手段】撮像装置(100)は、被写体を撮像して画像データを生成する撮像部(115)と、撮像部による撮像中に収音される音声を示す音声データを取得する音声取得部(165)と、画像データにおいて前記被写体に対応する被写体領域を検出する検出部(122)と、音声信号において被写体からの音声を収音する収音エリアを制御する制御部(135)とを備える。制御部は、検出部によって検出された被写体領域の大きさに応じて、音声信号における収音対象とする被写体を決定し、収音対象に決定した被写体を含めるように、収音エリアを制御する。【選択図】図4

Description

本開示は、音声を取得しながら撮像を行う撮像装置に関する。
特許文献1は、映像と対になる音声に、映像の撮影意図に沿うような補正を施す音声補正装置を備える撮像装置を開示している。特許文献1の音声補正装置は、撮影画角内で検出された人数の情報を入力し、人数の情報に応じて、映像と対になって記録又は再生される音声に音声補正処理(音源分離処理、ステレオ化処理、指向性処理、音声強調処理など)を施す。音声補正処理において、さらに必要に応じて、顔・口等の動き情報、顔・人物検出位置情報や、焦点情報、ズーム倍率情報を基に音声補正制御方法を決定する。これにより、当該音声補正装置を備える撮像装置は、映像の撮影意図に沿うような音声補正を施すことを図っている。
特開2009−156888号公報
本開示は、音声を取得しながら撮像を行う撮像装置において、ユーザの意図に沿って被写体の音声を明瞭に得やすくすることができる撮像装置を提供する。
本開示において、撮像装置は、被写体を撮像して画像データを生成する撮像部と、撮像部による撮像中に収音される音声を示す音声データを取得する音声取得部と、画像データにおいて前記被写体に対応する被写体領域を検出する検出部と、音声信号において被写体からの音声を収音する収音エリアを制御する制御部とを備える。制御部は、検出部によって検出された被写体領域の大きさに応じて、音声信号における収音対象とする被写体を決定し、収音対象に決定した被写体を含めるように、収音エリアを制御する。
本開示に係る撮像装置によると、画像データにおける検出部の検出結果に基づき、検出した被写体領域の大きさに応じて、収音エリアを制御する。これにより、撮像装置においてユーザの意図に沿った被写体の音声を明瞭に得やすくすることができる。
本開示の実施の形態1に係るデジタルカメラ100の構成を示す図 デジタルカメラ100におけるビーム形成部172の構成を例示する図 デジタルカメラ100において収音エリアを例示する図 デジタルカメラ100の動作を例示するフローチャート デジタルカメラ100の動作の概要を説明するための図 デジタルカメラ100の収音対象の選別処理(図4のS3)を例示するフローチャート デジタルカメラ100における収音対象の選別処理を説明するための図 デジタルカメラ100における収音エリアの決定処理(図4のS4)を例示するフローチャート デジタルカメラ100における収音エリアの決定処理を説明するための図 デジタルカメラ100における顔認識を用いた収音制御(図4のS5)を例示するフローチャート 収音エリアの決定処理によって得られる管理情報を説明するための図 デジタルカメラ100における水平画角および合焦距離からゲインを求める関係を例示する図 デジタルカメラ100における顔認識を用いない収音制御(図4のS6)を例示するフローチャート
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、発明者(ら)は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。
(実施の形態1)
実施の形態1では、本開示に係る撮像装置の一例として、画像認識技術に基づいて被写体を検出し、検出した被写体の大きさに応じた収音エリアの制御、及び収音する音声を強調する収音ゲインの制御を行うデジタルカメラについて説明する。
〔1−1.構成〕
図1は、本実施形態に係るデジタルカメラ100の構成を示す図である。本実施形態のデジタルカメラ100は、イメージセンサ115と、画像処理エンジン120と、表示モニタ130と、コントローラ135とを備える。さらに、デジタルカメラ100は、バッファメモリ125と、カードスロット140と、フラッシュメモリ145と、操作部150と、通信モジュール155とを備える。また、デジタルカメラ100は、マイク161と、マイク用のアナログ/デジタル(A/D)コンバータ165と、音声処理エンジン170とを備える。また、デジタルカメラ100は、例えば光学系110及びレンズ駆動部112を備える。
光学系110は、フォーカスレンズ、ズームレンズ、光学式手ぶれ補正レンズ(OIS)、絞り、シャッタ等を含む。フォーカスレンズは、イメージセンサ115上に形成される被写体像のフォーカス状態を変化させるためのレンズである。ズームレンズは、光学系で形成される被写体像の倍率を変化させるためのレンズである。フォーカスレンズ等は、それぞれ1枚又は複数枚のレンズで構成される。
レンズ駆動部112は、光学系110におけるフォーカスレンズ等を駆動する。レンズ駆動部112はモータを含み、コントローラ135の制御に基づいてフォーカスレンズを光学系110の光軸に沿って移動させる。レンズ駆動部112においてフォーカスレンズを駆動する構成は、DCモータ、ステッピングモータ、サーボモータ、または超音波モータなどで実現できる。
イメージセンサ115は、光学系110を介して形成された被写体像を撮像して、撮像データを生成する。撮像データは、イメージセンサ115による撮像画像を示す画像データを構成する。イメージセンサ115は、所定のフレームレート(例えば、30フレーム/秒)で新しいフレームの画像データを生成する。イメージセンサ115における、撮像データの生成タイミングおよび電子シャッタ動作は、コントローラ135によって制御される。イメージセンサ115は、CMOSイメージセンサ、CCDイメージセンサ、またはNMOSイメージセンサなど、種々のイメージセンサを用いることができる。
イメージセンサ115は、動画像、静止画像の撮像動作、スルー画像の撮像動作等を実行する。スルー画像は主に動画像であり、ユーザが例えば静止画像の撮像のための構図を決めるために表示モニタ130に表示される。
スルー画像、動画像及び静止画像は、それぞれ本実施形態における撮像画像の一例である。イメージセンサ115は、本実施形態における撮像部の一例である。
画像処理エンジン120は、イメージセンサ115から出力された撮像データに対して各種の処理を施して画像データを生成したり、画像データに各種の処理を施して、表示モニタ130に表示するための画像を生成したりする。各種処理としては、ホワイトバランス補正、ガンマ補正、YC変換処理、電子ズーム処理、圧縮処理、伸張処理等が挙げられるが、これらに限定されない。画像処理エンジン120は、ハードワイヤードな電子回路で構成してもよいし、プログラムを用いたマイクロコンピュータ、プロセッサなどで構成してもよい。
本実施形態において、画像処理エンジン120は、撮像画像の画像認識によって人の顔といった被写体の検出機能を実現する顔認識部122を含む。顔認識部122は、例えば、ルールベースの画像認識処理によって顔検出を行う。顔検出は、種々の画像認識アルゴリズムによって行われてもよい。
表示モニタ130は、種々の情報を表示する表示部の一例である。例えば、表示モニタ130は、イメージセンサ115で撮像され、画像処理エンジン120で画像処理された画像データが示す画像(スルー画像)を表示する。また、表示モニタ130は、ユーザがデジタルカメラ100に対して種々の設定を行うためのメニュー画面等を表示する。表示モニタ130は、例えば、液晶ディスプレイデバイスまたは有機ELデバイスで構成できる。
操作部150は、デジタルカメラ100の外装に設けられた操作釦や操作レバー等のハードキーの総称であり、使用者による操作を受け付ける。操作部150は、例えば、レリーズ釦、モードダイヤル、タッチパネルを含む。操作部150はユーザによる操作を受け付けると、ユーザ操作に対応した操作信号をコントローラ135に送信する。
コントローラ135は、デジタルカメラ100全体の動作を統括制御する。コントローラ135はCPU等を含み、CPUがプログラム(ソフトウェア)を実行することで所定の機能を実現する。コントローラ135は、CPUに代えて、所定の機能を実現するように設計された専用の電子回路で構成されるプロセッサを含んでもよい。すなわち、コントローラ135は、CPU、MPU、GPU、DSU、FPGA、ASIC等の種々のプロセッサで実現できる。コントローラ135は1つまたは複数のプロセッサで構成してもよい。また、コントローラ135は、画像処理エンジン120などと共に1つの半導体チップで構成してもよい。
バッファメモリ125は、画像処理エンジン120やコントローラ135のワークメモリとして機能する記録媒体である。バッファメモリ125は、DRAM(Dynamic Random Access Memory)などにより実現される。フラッシュメモリ145は不揮発性の記録媒体である。また、図示していないが、コントローラ135は各種の内部メモリを有してもよく、例えばROMを内蔵してもよい。ROMには、コントローラ135が実行する様々なプログラムが記憶されている。また、コントローラ135は、CPUの作業領域として機能するRAMを内蔵してもよい。
カードスロット140は、着脱可能なメモリカード142が挿入される手段である。カードスロット140は、メモリカード142を電気的及び機械的に接続可能である。メモリカード142は、内部にフラッシュメモリ等の記録素子を備えた外部メモリである。メモリカード142は、画像処理エンジン120で生成される画像データなどのデータを格納できる。
通信モジュール155は、通信規格IEEE802.11またはWi−Fi規格等に準拠した通信を行う通信モジュール(回路)である。デジタルカメラ100は、通信モジュール155を介して、他の機器と通信することができる。デジタルカメラ100は、通信モジュール155を介して、他の機器と直接通信を行ってもよいし、アクセスポイント経由で通信を行ってもよい。通信モジュール155は、インターネット等の通信ネットワークに接続可能であってもよい。
マイク161は、音を収音する収音部の一例である。マイク161は、収音した音声を電気信号であるアナログ信号に変換して出力する。本実施形態のマイク161は、3つのマイクロフォン素子161L,161C及び161Rを含む。マイク161は、2つ又は4つ以上のマイクロフォン素子から構成されてもよい。
マイク用のA/Dコンバータ165は、マイク161からのアナログ信号をデジタル信号の音声データに変換する。マイク用のA/Dコンバータ165は、本実施形態における音声取得部の一例である。なお、マイク161は、デジタルカメラ100の外部にあるマイクロフォン素子を含んでもよい。この場合、デジタルカメラ100は音声取得部として、外部のマイク161に対するインタフェース回路を備える。
音声処理エンジン170は、マイク用のA/Dコンバータ165等の音声取得部から出力された音声データを受信して、受信した音声データに対して種々の音声処理を施す。音声処理エンジン170は、本実施形態における音声処理部の一例である。
本実施形態の音声処理エンジン170は、例えば図1に示すように、ビーム形成部172と、ゲイン調整部174とを備える。ビーム形成部172は、音声の指向性を制御する機能を実現する。ビーム形成部172の詳細については後述する。ゲイン調整部174は、入力される音声データに、例えばコントローラ135によって設定される収音ゲインを乗じる乗算処理を行って、音声を増幅する。ゲイン調整部174は、入力の音声データに負のゲインを乗じて音声を抑圧する処理を行ってもよい。収音ゲイン調整部14はさらに、入力される音声データの周波数特性及びステレオ特性を変化させる機能を有してもよい。収音ゲインの設定についての詳細は後述する。
〔1−1−1.ビーム形成部について〕
本実施形態におけるビーム形成部172の詳細を、以下説明する。
ビーム形成部172は、マイク161が収音する音声の指向性を制御するビームフォーミングを行う。本実施形態におけるビーム形成部172の構成例を図2に示す。
図2に示すように、ビーム形成部172は、例えばフィルタD1〜D3と加算器173を備え、各マイクロフォン素子161L,161C及び161Rで収音された音声の遅延期間を調整して、その重み付き和を出力する。ビーム形成部172によると、マイク161の収音指向性の方向および範囲を制御して、マイク161が収音する物理的な範囲を設定できる。
ビーム形成部172は、図示では1つの加算器173により1チャネルの出力を行うが、2つ以上の加算器を備え、例えばステレオ出力のような各チャネルで異なる出力を行う構成であってもよい。また、加算器173の他に減算器を用いて、特に感度が低い方向である死角を特定方向に有する指向性を形成してもよいし、環境に適応して処理を変える適応ビームフォーミングを行ってもよい。また、音声信号の周波数帯域によって異なる処理を適用してもよい。
図2では、マイクロフォン素子161L,161C及び161Rを直線的に配置した例を示しているが、各マイクロフォン素子の配置は、これに限らない。例えば、三角形状に配置する場合であっても、フィルタD1〜D3の遅延期間及び重みを適宜調整して、マイク161の収音指向性を制御できる。また、ビーム形成部172は、収音指向性の制御に公知の手法を適用してもよい。例えば、OZO Audioといった音声処理技術を用いて、指向性を形成する処理を行い、併せて音声の雑音を抑制する処理等を実行してもよい。
上記のようなビーム形成部172により設定可能なデジタルカメラ100の収音エリアについて説明する。
〔1−1−2.収音エリアについて〕
図3は、デジタルカメラ100において定義される収音エリアの例を示す。図3は、収音エリアを、デジタルカメラ100を中心とする円の扇形領域によって例示しており、X,YおよびZ軸は、それぞれデジタルカメラ100の水平画角方向、垂直画角方向および光学系110におけるレンズの光軸方向に対応する。本実施形態のデジタルカメラ100では、水平画角方向は、マイクロフォン素子161R,161Cおよび161Rが並ぶ方向と一致する。
図3(A)は、角度範囲401(例えば70°)において、デジタルカメラ100の前方(すなわち撮影方向)に収音エリアを向ける「前方中心収音エリア」41を示す。図3(B)は、角度範囲401において、デジタルカメラ100の左方に収音エリアを向ける「左半分収音エリア」42を示す。図3(C)は、角度範囲401において、デジタルカメラ100の右方に収音エリアを向ける「右半分収音エリア」43を示す。図3(D)は、角度範囲401より大きい角度範囲402(例えば160°)において、デジタルカメラ100の前方に収音エリアを向ける「前方収音エリア」44を示す。これらの収音エリアは、本実施形態における複数の所定エリアの一例であり、角度範囲401及び402は、第1の角度範囲及び第2の角度範囲の一例である。
本実施形態のデジタルカメラ100は、被写体が撮像画像の中心部分に位置するとき、図3(A)の前方中心収音エリア41を用いる。また、被写体が撮像画像の左半分に位置するとき、図3(B)の左半分収音エリア42を用い、被写体が撮像画像の右半分に位置するとき、図3(C)の右半分収音エリア43を用いる。さらに、被写体が撮像画像の全体に位置するとき、主に図3(D)の前方収音エリア44を用いる。
図5(B)の例では、収音対象の被写体R1及びR3が撮像画像の中心部分に位置するため、前方中心収音エリア41が用いられる。図5(C)の例では、収音対象の被写体R1及びR2が撮像画像の左半分に位置するため、左半分収音エリア42が用いられる。
デジタルカメラ100のマイク161といった撮像装置の収音部において、マイクロフォン素子の数および配置は、素子の搭載スペース等の事情により制約を受ける。例えば、ユーザが複数の被写体について音声を記録したい撮影場面において、マイクロフォン素子数の制約により収音指向性を十分に狭められない場合がある。こうした場合でも、本実施形態のデジタルカメラ100は、ユーザの撮影場面を想定して収音エリアを定義しておき、顔認識を用いて収音エリアを決定することで、ユーザの意図に沿った収音エリアを提供することができる。
〔1−2.動作〕
以上のように構成されるデジタルカメラ100の動作について説明する。以下では、デジタルカメラ100による動画撮影時の動作を説明する。
デジタルカメラ100は順次、光学系110を介して形成された被写体像をイメージセンサ115で撮像して撮像データを生成する。画像処理エンジン120は、イメージセンサ115により生成された撮像データに対して各種処理を施して画像データを生成し、バッファメモリ125に記録する。また、画像処理エンジン120の顔認識部122は、撮像データが示す画像に基づき、被写体の領域を検出して、例えば検出情報をコントローラ135に出力する。
本実施形態のデジタルカメラ100は、顔認識部122に入力された撮像画像において、画像認識処理により顔検出を行い、検出情報に基づいてオートフォーカス(AF)制御の対象とする被写体を特定する動作モードである顔認識モードを備える。
以上の撮像動作と同時並行で、デジタルカメラ100は、マイク161において収音を行う。マイク用のA/Dコンバータ165から収音結果の音声データを音声処理エンジン170にて処理する。音声処理エンジン170は、処理後の音声データAoutをバッファメモリ125に記録する。
コントローラ135は、バッファメモリ125を介して、画像処理エンジン120から受け付ける画像データと音声処理エンジン170から受け付ける音声データとの間で、同期を取って動画をメモリカード142に記録する。また、コントローラ135は逐次、表示モニタ130にスルー画像を表示させる。ユーザは、表示モニタ130のスルー画像により随時、撮影の構図等を確認することができる。動画撮影の動作は、操作部150におけるユーザの操作に応じて開始/終了される。
以上のようなデジタルカメラ100の動画撮影は、例えば撮影者とその同伴者など、仲間内で会話をする被写体のグループに注目して行われる場合がある。この場合、音声についても、当該被写体のグループの発声を明瞭に収音したいとのニーズが考えられる。
本実施形態のデジタルカメラ100は、画像処理エンジン120における顔認識部122の検出情報によって被写体を検出し、フォーカス対象の被写体が決定されたときに、音声処理エンジン170において、当該被写体および撮影する空間で当該被写体の周囲にいる被写体について収音する音声を強調する処理を実行する。このように、画像処理エンジン120の顔認識と音声処理エンジン170の音声強調等とを連動させて、上記のような会話をする被写体のグループによる音声を強調した収音を精度良く実現する。
〔1−2−1.動作の概要〕
図4及び図5を用いて、本実施形態に係るデジタルカメラ100の動作の概要を説明する。
図4は、本実施形態に係るデジタルカメラ100の動作を例示するフローチャートである。図4のフローチャートに示す各処理は、例えばデジタルカメラ100の動作モードが顔認識モードであるとき、動画の撮影中に所定の周期で繰り返し実行される。所定の周期は、例えば動画のフレーム周期である。図5は、本実施形態に係るデジタルカメラ100の動作の概要を説明するための図である。
コントローラ135は、顔認識部122による検出情報に基づいてAF対象を特定し、AF制御を実行する(S1)。AF対象は、AF制御の対象とする被写体の画像上の領域を示す。図5(A)は、顔認識部122の検出情報において被写体が検出された領域を示す顔領域R1,R2及びR3を含む撮像画像Imを例示する。顔領域R1,R2及びR3は、本実施形態における被写体領域の一例である。例えば顔領域R1がAF対象の顔領域60として特定される。
次にコントローラ135は、AF対象として特定された顔領域が存在するか否かを判断する(S2)。具体的には、コントローラ135は、顔領域が検出されていて、かつAF対象が顔領域であるか否かを判断する。
AF対象の顔領域60がある場合(S2でYES)、コントローラ135は、検出情報における被写体からマイク161の収音対象を選別する処理を実行する(S3)。収音対象は、マイク161により音声を強調して収音する対象とする被写体である。AF対象として特定された顔領域R1(60)は、収音対象になる。図5(B)は、図5(A)に示す検出情報に基づき、顔領域R1及びR3を収音対象に決定し、一方で顔領域R2を収音対象としない例を示す。
本実施形態のデジタルカメラ100は、収音対象の選別処理(S3)において、AF対象の顔領域R1(60)に加え、撮像画像Imにおいて顔領域R1と同程度の顔の大きさを示す顔R3を、更なる収音対象として決定する。一方で、顔領域R1と異なる大きさの顔領域R2は収音対象から外される。これにより、人物21と人物23がデジタルカメラ100から同程度の距離にいて(すなわち、Z軸方向の距離の差が小さい)、人物22は異なる距離にいることを反映して、例えば仲間内で会話する被写体のグループを収音対象とすることができる。収音対象の選別処理(S3)についての詳細は後述する。
次に、コントローラ135は、決定した収音対象に基づいて、収音エリアを決定する処理を行う(S4)。収音エリアの決定処理(S4)は、決定した全ての収音対象を含む収音エリアを決定する。図5(B)の例において、収音エリアを収音対象の顔領域R1及びR3を含むように前方中心収音エリア41(図3(A))に決定されている。収音エリアの決定処理(S4)についての詳細は後述する。
次に、コントローラ135は、決定した収音対象及び収音エリアに基づいて、顔認識を用いて収音の制御を行う(S5)。顔認識を用いた収音制御(S5)は、コントローラ135が決定した収音対象、収音エリア及び収音ゲインを含む収音パラメータを、音声処理エンジン170に設定することによって行われる。音声処理エンジン170は、収音パラメータに応じた収音指向性及び収音ゲインを実現する。
一方、例えば顔認識モードの動作中に顔領域が検出されない等、AF対象の顔領域60がない場合(S2でNO)、コントローラ135は、顔認識を用いない収音制御(S6)を行う。顔認識を用いた、または用いない収音制御(S5,S6)についての詳細は後述する。
コントローラ135は、ステップS5またはS6の収音制御を実行後、ステップS1以降の処理を繰り返す。
以上の処理によると、本実施形態のデジタルカメラ100は、顔認識により検出した被写体から収音対象を選別し、収音対象を全て含む収音エリアを決定して、顔認識を用いた収音制御を行う。これにより、例えば仲間内で会話をする被写体のグループについて、音声を強調して収音することができる。
なお、顔認識によるAF制御(S1)において、検出情報に基づくAF対象の特定は、例えば表示モニタ130に表示させたスルー画像上に顔領域を示す枠表示等を行い、操作部150によりユーザが枠表示を選択する操作を受けて実行することができる。
図5(C)は、図5(A),(B)とは異なる位置に人物21〜23がいる場合の撮像画像Imの例を示す。デジタルカメラ100は、図5(B)の例と同様に、まず、例えば顔領域R1をAF対象の顔領域60として特定し(S1)、収音対象に決定する。図5(C)の例において、収音対象の選別処理(S3)は、撮像画像Im上で顔領域R1と同程度の顔の大きさである顔領域R2を収音対象に決定し、顔領域R3を収音対象から外す。収音エリアの決定処理(S4)は、収音対象として決定された顔領域R1及びR2を含む左半分収音エリア42(図3(B))を収音エリアに決定する。顔認識を用いた収音制御(S5)は、左半分収音エリア42に指向性を制御して人物21及び22の音声を明瞭に収音するように、収音パラメータを設定することによって行われる。
〔1−2−2.収音対象の選別処理〕
図4のステップS3における収音対象の選別処理の詳細を、図6〜7を用いて説明する。
図6は、デジタルカメラ100の収音対象の選別処理(S3)を例示するフローチャートである。図6に示すフローチャートによる各処理は、図4のステップS11でYESに進んだとき、例えばデジタルカメラ100のコントローラ135によって実行される。
図7は、デジタルカメラ100における収音対象の選別処理(S3)を説明するための図である。以下では、図5(A),(B)の例で収音対象を決定する動作について説明する。
図6のフローチャートにおいて、コントローラ135は、図4のステップS1において特定したAF対象の顔領域に対応する被写体を収音対象に決定する(S10)。このとき、コントローラ135は、顔認識部122から取得した検出情報に基づいて、AF対象の顔領域の大きさ(即ち顔幅W)を、他の被写体から収音対象を選別する基準に設定する。
図7(A)は、図5(A),(B)の例において収音対象が選別される場合を例示する。顔幅W1,W2,W3は、撮像画像Imにおける顔領域R1,R2,R3の大きさをX軸方向の幅で示す。図7(A)の例において、コントローラ135は、AF対象の顔領域R1の顔幅W1を、基準の顔幅Wに設定する(S10)。設定した顔幅Wは、例えばコントローラ135のRAM等に保持される。
次に、コントローラ135は、AF対象の他に検出された被写体があるか否かを判断する(S11)。具体的には、コントローラ135は、顔認識部122の検出情報がAF対象の顔領域の他に顔領域を含むか否かを判断する。
AF対象の他に検出された被写体がある場合(S11でYES)、コントローラ135は、収音対象の候補である収音候補として、一つの被写体iを選択する(S12)。図7(A)の例では、検出情報はAF対象の顔領域R1の他の顔領域R2及びR3が、ステップS12ごとに順次、収音候補の被写体iに対応付けて選択される。
コントローラ135は、選択した被写体iの顔幅Wiと、基準の顔幅Wとを比較する演算を行う(S13)。具体的には、コントローラ135は、基準の顔幅Wに対する被写体iの顔幅Wiの割合Wi/Wを算出する。図7(A)の例において、顔領域R2を収音候補とする選択時(S12)には、その顔幅W2についての割合W2/Wが算出される(S13)。
コントローラ135は、収音候補の顔幅Wiと基準の顔幅W間の割合Wi/Wが、所定範囲内であるか否かを判断する(S14)。所定範囲は、例えば収音候補の顔幅Wiが相対的に基準の顔幅Wiと同程度であるとみなす範囲を規定する観点から、「1」よりも大きい上限値と、「1」よりも小さい下限値で規定される。なお、所定範囲を設定するためのユーザインタフェースが提供されてもよく、例えばユーザが操作部150により設定した所定範囲がバッファメモリ125等に保持されてもよい。
コントローラ135は、顔幅の割合Wi/Wが所定範囲内であると判断すると(S14でYES)、被写体iを収音対象とすることを決定する(S15)。
一方、コントローラ135は、顔幅の割合Wi/Wが所定範囲内でないと判断すると(S14でNO)、コントローラ135は、被写体iを収音対象としないことを決定する(S16)。図7(A)の例において、割合W2/Wは所定範囲の下限値を下回り、顔領域R2を収音対象としないことが決定される。
コントローラ135は、被写体iを収音対象とするか否かを決定すると(S15またはS16)、例えば被写体iについて決定した結果をバッファメモリ125に記録する(S17)。次に、コントローラ135は、収音候補として選択済みの被写体とは他の被写体について、ステップS11以降の処理を再び行う。
図7(A)の例では、顔領域R2の他に顔領域R3が検出情報に含まれる(S11でYES)。コントローラ135は、顔領域R3に対応する被写体を選択する(S12)と、顔領域R2の場合と同様に、基準の顔幅Wに対する顔幅W3の割合W3/Wを算出する(S13)。図7(A)の例では、割合W3/Wは「1」近傍に算出される。コントローラ135は、算出した顔幅の割合W3/Wが収音対象の所定範囲内であると判断して(S14でYES)、顔領域R3に対応する被写体を収音対象として決定する(S15)。
コントローラ135は、収音候補として選択されていない被写体がなくなるまで(ステップS11でNO)、ステップS11〜S17の処理を繰り返す。その後、コントローラ135は、収音対象の選別処理(S3)を終了して、図4のステップS4に進む。
以上の処理によると、顔認識により検出した被写体について、AF対象として特定した顔領域R1を基準とする相対的な顔領域R2,R3の大きさ比較が行われる。これにより、相対的な顔領域R3の大きさがAF対象の顔領域R1と同程度である被写体を選別して収音対象に決定することができる。
図7(B)は、図5(C)の例において収音対象が選別される場合を例示する。図7(B)の例において、顔領域R1は、図7(A)の例と同様にAF対象として特定されている。このことから、コントローラ135は、顔領域R1を収音対象に決定し、顔幅W1を基準の顔幅Wに設定する(S10)。
図7(B)の例では、顔領域R2の顔幅W2は、基準の顔幅W(=W1)と同程度の大きさである。一方、顔領域R3の顔幅W3は、他の顔幅W1及びW2と比較して大きい。本例において、コントローラ135は、割合W2/Wが所定範囲内であると判断して(S14でYES)、顔領域R2の被写体を収音対象として決定する(S15)。一方、割合W3/Wが所定範囲の上限値を上回るため(S14でNO)、顔領域R3の被写体は収音対象としないことが決定される(S16)。よって、本例の収音対象は、顔領域R1及びR2に対応する2つの被写体に決定される(図5(C)参照)。
図7(C)は、図5(C)と同様の撮影画像Imにおいて顔領域R3がAF対象の顔領域60として特定された(図4のS1)場合を例示する。コントローラ135は、顔領域R3を収音対象に決定し、顔幅W3を基準の顔幅Wに設定する(S10)。図7(C)の例において、割合W2/W及びW1/Wが所定範囲の下限値を下回るため(S14でNO)、顔領域R1及びR2に対応する被写体を収音対象としないことが決定される(S16)。よって、本例の収音対象は、顔領域R3に対応する1つの被写体に決定される。
以上のように、本実施形態のデジタルカメラ100は、画像認識により検出した複数の被写体から、AF対象と同程度の大きさである被写体を収音対象として決定することで、後述するユーザの意図に沿った収音エリアの決定に利用することができる。
〔1−2−4.収音エリアの決定処理〕
図4のステップS4における収音エリアの決定処理の詳細を、図8〜9を用いて説明する。
図8は、本実施形態のデジタルカメラ100における収音エリアの決定処理(S4)を例示するフローチャートである。図8に示すフローチャートによる各処理は、図4のステップS3を実行した後、例えばデジタルカメラ100のコントローラ135によって実行される。
図9は、デジタルカメラ100における収音エリアの決定処理(S4)を説明するための図である。図9(A),(B)は、それぞれ図7(A),(B)の例に続いて、収音エリアを決定する場合を例示する。図9(C)は、図9(A),(B)とは更に別の場合を例示する。図9(A)〜(C)において、中心位置x0は、X軸方向における撮像画像Imの中心の位置を示し、画像幅Whは、X軸方向における撮像画像Imの幅を示す。画像範囲は、撮像画像Im上で中心位置x0を基準に、X座標−xhからxhの範囲x0±xhと規定される。X座標xhは、xh=Wh/2(>0)で定義される。
図8のフローチャートにおいて、コントローラ135は、全ての収音対象について、顔領域の中心等の位置が撮像画像Imの中心範囲にあるか否かを判断する(S20)。中心範囲は、撮像画像Imにおいて前方中心収音エリア41に対応付けられる範囲である。
中心範囲は、例えば図9(A)に示すように、撮像画像Im上で中心位置x0を基準に、X座標−xeからxeの範囲x0±xeとして規定される。X座標xeは、所定の画角θeと、画像幅Whに対応する水平画角θhとに基づき、例えばxe=xh×θe/θh(>0)で定義される。所定の画角θeは、例えば1人の人物を含める観点から予め設定され、例えば30°等である。コントローラ135は、例えば光学系110のズームレンズのズーム倍率等から現在の水平画角θhを取得して、中心範囲x0±xeを算出する。
水平画角θhが大きい広角撮影においては、X座標xeが小さくなり中心範囲x0±xeは狭い。一方、水平画角θhが小さい望遠撮影においては、X座標xeが大きくなり中心範囲x0±xeは広い。これにより、撮像する物理的な範囲と距離に対応した収音エリアの決定を実現しやすくすることができる。
全収音対象の顔領域の位置が中心範囲内にある場合(S20でYES)、コントローラ135は、収音エリアを前方中心収音エリア41に決定する(S21)。図9(A)の例では、収音対象は顔領域R1及びR3に対応する。それぞれの顔領域R1及びR3の中心の位置x1及びx3は、いずれもx0±xeの範囲内にある(S20でYES)。よって、収音エリアが前方中心収音エリア41に決定される(S21,図5(B)参照)。
一方、少なくとも一つ以上の収音対象の顔領域の位置が中心範囲内にない場合(S20でNO)、前方中心収音エリア41以外の収音エリアが用いられる。この場合、コントローラ135は、全ての収音対象について、例えば顔領域の位置が撮像画像Imにおける左右いずれか半分の範囲のみにあるか否かを判断する(S22)。左半分の範囲はX軸方向の中心位置x0よりもX座標が小さい範囲であり、右半分の範囲は中心位置x0よりもX座標が大きい範囲である。
全ての収音対象について、顔領域の位置が撮像画像Imにおける左半分または右半分の範囲のみにある場合(S22でYES)、コントローラ135は、さらに全収音対象の顔領域の位置が撮像画像Imにおける左半分の範囲内であるか否かを判断する(S23)。
全収音対象の顔領域の位置が撮像画像Imにおける左半分の範囲内である場合(S23でYES)、コントローラ135は、収音エリアを左半分収音エリア42に決定する(S24)。図9(B)の例では、収音対象は顔領域R1及びR2に対応する。顔領域R1の位置x1及び顔領域R2の位置x2が、X軸方向の中心位置x0より左(すなわち、X座標が小さい)側にあるため(S23でYES)、収音エリアは左半分収音エリア42に決定される(S24,図5(C)参照)。
一方、全収音対象の顔領域の位置が撮像画像Imにおける右半分の範囲内であって、左半分の範囲内でない(S23でNO)、コントローラ135は、収音エリアを右半分収音エリア43に決定する(S25)。
また、全ての収音対象の顔領域の位置が、撮像画像Imにおける左右いずれか半分の範囲のみにはない場合(S22でNO)、コントローラ135は、収音エリアを前方収音エリア44に決定する(S26)。図3(D),(A)に示すように、前方収音エリア44は、前方中心収音エリア41の角度範囲401より広い角度範囲402を有する。すなわち、前方収音エリア44は、撮像画像ImにおいてX軸方向に広い範囲に位置する収音対象の被写体を含む。
図9(C)の例では、収音対象は、顔領域R1,R2及びR3に対応する。顔領域R1〜R3の中心の位置x1,x2及びx3は、中心範囲x0±xe外の位置x1及びx2を含み(S20でNO)、且つ、左半分の範囲内の位置x1と右半分の範囲内の位置x2及びx3とを含む(S22,S23でNO)。したがって、本例において収音エリアは、前方収音エリア44に決定される(S26)。
コントローラ135は、収音エリアを決定すると(S21,S24〜S26)、決定した収音エリアをバッファメモリ125等に管理情報として記録する(S27)。これにより、収音エリアの決定処理(S4)は終了し、図4のステップS5に進む。
以上の処理によると、収音対象として決定した被写体の撮像画像上での位置に応じて、予め定義した複数の収音エリアから、全ての収音対象を含むように収音エリアが決定される。これにより、動画撮影において、ユーザの意図に沿った収音対象の被写体を含むように、収音エリアを決定することができる。
図11は、収音エリアの決定処理(S4)によって得られる管理情報を説明するための図である。図11(A)は、図7(A)及び図9(A)の例において、収音対象の選別処理(S3)及び収音エリアの決定処理(S4)を実行した段階で得られる管理情報を例示する。図11(B)は、図7(B)及び図9(B)の例における管理情報を例示する。
管理情報は、例えば収音対象の選別処理(S3)によって決定される「収音対象」、収音エリアの決定処理(S4)によって決定される「収音エリア」、「水平画角」及び「合焦距離」を関連付けて管理する。なお、合焦距離は、例えば顔認識によるAF制御(S1)を実行する際に取得される。例えば、コントローラ135は、合焦時における光学系110の各種レンズの位置或いは焦点距離に基づいて、対応する合焦距離を取得してもよい。また、デジタルカメラ100は、DFD(Depth from Defocus)技術または測距センサによる測定により、合焦距離を検出してもよい。
なお、本実施形態のデジタルカメラ100は、前方中心収音エリアの判断(S20)で用いる中心範囲の画角θeを設定可能であり、例えばコントローラ135のROM等に記録される。また、画角θeを設定するためのユーザインタフェースが提供され、例えばユーザが操作部150により設定した値がバッファメモリ125等に保持されてもよい。
〔1−2−5.収音制御〕
(1)図4のステップS5について
図4のステップS5における顔認識を用いた収音制御の詳細を、図10〜12を用いて説明する。
収音パラメータ設定による収音制御において、本実施形態のデジタルカメラ100は、例えばAF対象の顔領域に対応する被写体について動画音声を強調するように、収音ゲインの設定を行う。収音ゲインは、例えば周波数フィルタ特性およびステレオセパレーション特性を有する。デジタルカメラ100は、例えばデジタルカメラ100が動画の撮影中に、AF対象の顔領域に合焦したときの水平画角及び合焦距離に基づき、収音ゲインを算出する。収音ゲインは、例えば算出される値が大きいほど人の声以外の周波数帯を抑制したりステレオ効果を制御したりして収音ズーム効果を生じさせるように規定される。
図10は、顔認識を用いた収音制御(S5)を例示するフローチャートである。図10のフローチャートに示す各処理は、図4のステップS4を実行した後、例えばデジタルカメラ100のコントローラ135によって実行される。
デジタルカメラ100は、図11に示す管理情報が保持された状態で、ステップS5の処理を開始する。
コントローラ135は、例えばバッファメモリ125から水平画角を取得して、水平画角に基づくゲインGhを算出する(S30)。図12(A)は、水平画角からゲインGhを求める関係を例示する。図12(A)の例で、ゲインGhは、予め定めたゲインの最大値Gmaxと最小値Gminの間で、水平画角が小さくなるほど増加する。これにより、ズーム等で水平画角が小さいほど収音時にゲインを大きくして、望遠側で撮影される被写体の音声を強調することができる。
コントローラ135は、ステップS30と同様に合焦距離を取得して、合焦距離に基づくゲインGdを算出する(S31)。図12(B)は、合焦距離からゲインGdを求める関係を例示する。図12(B)の例で、ゲインGdは、予め定めたゲインの最大値Gmaxと最小値Gminの間で、合焦距離が大きくなるほど増加する。これにより、デジタルカメラ100から遠い被写体に合焦するときほど収音時にゲインを大きくして、遠い被写体ほど音声を強調することができる。
コントローラ135は、算出した水平画角による収音ゲインGhと、合焦距離による収音ゲインGdと比較し、いずれか大きいゲインを収音ゲインGとする(S32)。これにより、例えば望遠の水平画角または遠い合焦距離で撮影を行うユーザの意図に沿って被写体の音声を強調するように、収音ゲインGを算出することができる。
コントローラ135は、過去の所定回数(例えば5回)にわたり算出された収音ゲインG及び決定された収音エリアが、互いに同じであるか否かを判断する(S33)。例えば収音ゲインGは、図4のステップS1〜S5の実行周期における所定回数の範囲内で、算出される毎に上記の管理情報と共に記憶される。コントローラ135は、過去の所定回数の収音ゲインGおよび収音エリアが同じであると判断した場合と(S33でYES)、ステップS34に進む。
コントローラ135は、ステップS3の収音対象の選別処理により決定した収音対象と、ステップS4の収音エリアの決定処理により決定した収音エリアと、ステップS32で算出した収音ゲインGを、音声処理エンジン170に収音パラメータとして設定する(S34)。音声処理エンジン170は、ビーム形成部172及びゲイン調整部174により、設定された収音パラメータに応じた収音エリア及び収音ゲインを実現する。
収音パラメータの設定(S34)後、コントローラ135は、顔認識を用いた収音制御の処理(S5)を終了する。また、コントローラ135は、過去の所定回数の収音ゲインGおよび収音エリアが同じでないと判断した場合(S33でNO)、ステップS34の処理を行わずに図4のステップS5の処理を終了する。その後、図4のステップS1以降の処理が繰り返される。
以上の処理によると、算出した収音ゲインと、顔認識に基づいて決定された収音対象及び収音エリアを、収音パラメータに設定して、AF対象を含む収音対象の被写体の音声を明瞭に収音しやすくする収音エリア及び収音ゲインを実現することができる。
なお、ステップS30とS31の実行順序は、本フローチャートの順に限らず、例えばステップS31でゲインGdを算出してから、ステップS30でゲインGhを算出してもよく、またはステップS30とS31を並列に実行してもよい。
また、以上のステップS33によると、収音エリア及び収音ゲインGが所定回数(例えば5回)変化しない場合のみ、収音パラメータが設定する処理(S34)が実行される。これにより、被写体の動きなどにより過度に頻繁に収音エリア及び収音ゲインGが変更されることを防ぎ、顔認識を用いた収音制御(S5)をユーザの意図に沿って精度よく実現することができる。
(2)図4のステップS6について
図4のステップS6における顔認識を用いない収音制御(S6)の詳細を、図13を用いて説明する。
図13は、顔認識を用いない収音制御(S6)を例示するフローチャートである。図13のフローチャートに示す各処理は、顔領域が検出されない等、図4のステップS2においてAF対象の顔領域がない(S2でNO)場合に、例えばデジタルカメラ100のコントローラ135によって実行される。
まず、コントローラ135は、収音エリアを、例えば前方収音エリア44に決定する(S40)。
次に、コントローラ135は、水平画角に基づくゲインGhをステップS30と同様に算出して、収音ゲインGとする(S41)。さらに、コントローラ135は、ステップS33と同様に、過去の所定回数にわたり算出された収音ゲインG及び決定された収音エリアが、互いに同じであるか否かを判断する(S42)。
コントローラ135は、過去の所定回数の収音ゲインGおよび収音エリアが同じであると判断した場合(S42でYES)、収音エリアと収音ゲインGを収音パラメータに設定し(S43)、顔認識を用いない収音制御(S6)を終了する。また、コントローラ135は、過去の所定回数の収音ゲインGおよび収音エリアが同じでないと判断した場合(S42でNO)、ステップS43の処理を行わずに図4のステップS6を終了する。ステップS6の終了後、ステップS1以降の処理が繰り返される。
以上の処理によると、AF対象の顔領域がない場合でも、デジタルカメラ100の前方における広い範囲の音声を収音するように、また、ズーム等で水平画角が小さいほど収音ゲインを大きくするようにして、撮像される範囲の音声を明瞭に収音しやすくすることができる。
なお、デジタルカメラ100の動作モードに応じて、デジタルカメラ100の周囲360°の角度範囲を有する全体収音エリアが定義され、ステップS40において全体収音エリアに決定されてもよい。このとき、例えば全体収音エリアのみが収音パラメータに設定されてもよい。
〔1−3.効果等〕
以上のように、実施の形態1のデジタルカメラ100は、撮像部の一例としてイメージセンサ115と、音声取得部の一例としてマイク用のA/Dコンバータ165と、検出部の一例として顔認識部122と、制御部の一例としてコントローラ135とを備える。イメージセンサ115は、被写体を撮像して画像データを生成する。マイク用のA/Dコンバータ165は、イメージセンサ115による撮像中に収音される音声を示す音声信号を取得する。顔認識部122は、イメージセンサ115によって生成された画像データにおいて、被写体に対応する被写体領域の一例として顔領域R1,R2及びR3を検出する。コントローラ135は、音声信号において被写体からの音声を収音する収音エリアを制御する。コントローラ135は、顔認識部122によって検出された被写体領域、すなわち顔領域R1〜R3の大きさである顔幅W1,W2及びW3に応じて、音声信号における収音対象とする被写体を決定し(S3)、収音対象に決定した被写体を含めるように、収音エリアを制御する(S4〜S5)。
以上のデジタルカメラ100によると、顔認識部122によって検出された被写体領域の大きさに応じて、収音対象の被写体を決定し、収音対象の被写体を含めるように収音エリアを制御した音声信号が得られる。これにより、収音対象の被写体による音声を明瞭に得やすくすることができる。
本実施形態において、顔認識部122によって複数の被写体領域が検出されたとき、コントローラ135は、複数の被写体領域のうちの特定の被写体領域の大きさと、他の被写体領域の大きさとを比較して、比較結果に基づき各々の被写体領域に対応する被写体を収音対象とするか否かを決定する(S3)。特定の被写体領域は、例えばAF対象の顔領域60のように、AF制御の対象とする被写体領域である。これにより、複数の被写体から、特定の被写体領域の大きさを基準として、収音対象とする被写体と、収音対象としない被写体とを選別することができる。
本実施形態において、コントローラ135は、複数の被写体領域のうちの一の被写体領域の大きさが、特定の被写体領域の大きさ(例えば顔幅W)を基準とする所定範囲内である場合に、当該一の被写体領域に対応する被写体を収音対象とすることを決定する(S15)。コントローラ135は、一の被写体領域の大きさが、所定範囲内ではない場合に、当該一の被写体領域に対応する被写体を収音対象としないことを決定する(S16)。
例えば、図7(A)の例における顔領域R3を一の被写体領域とする場合の大きさである顔幅W3は、特定の被写体領域すなわちAF対象の顔領域60の大きさである顔幅W(=W1)を基準とする所定範囲内であり、当該顔領域R3に対応する被写体を収音対象とすることが決定される(S15)。一方、同例における顔領域R2を一の被写体領域とする場合の大きさである顔幅W2は、所定範囲内ではなく、当該顔領域R2に対応する被写体を収音対象としないことが決定される(S16)。このように、複数の被写体から、被写体領域の大きさに応じて、収音対象とする被写体と、収音対象としない被写体との選別を実現することができる。
本実施形態において、コントローラ135は、収音対象に決定した被写体を含めるように、複数の所定エリアの中で収音エリアを切り替える(S20〜S26)。これにより、被写体ごとの音声を明瞭に得るように収音指向性の幅を制御することが困難な場合においても、収音エリアに含まれる収音対象の被写体の音声を明瞭に得やすくすることができる。
本実施形態において、複数の所定エリアは、第1の角度範囲401においてデジタルカメラ100の前方に向いた収音エリアの一例として前方中心収音エリア41と、左方に向いた収音エリアの一例として左半分収音エリア42と、右方に向いた収音エリアの一例として右半分収音エリア43と、第1の角度範囲401よりも大きい第2の角度範囲402を有する収音エリアの一例として前方収音エリア44とを含む。なお、複数の所定エリアは、これらの収音エリアに限らず、第2の角度範囲402よりも大きい角度範囲を有する全体収音エリアを含んでもよい。
本実施形態において、コントローラ135は、撮像における合焦距離および画角の少なくとも一方に基づいて、音声信号が示す音声を強調するゲインを制御する(図12参照)。本実施形態における画角は、例えば撮像画像Imの画像幅Whに対応する水平画角θhである。これにより、例えばデジタルカメラ100による広角または望遠での撮影に応じてゲインを制御し、音声を強調することができる。
本実施形態において、顔認識部122は、被写体領域として画像データにおける人の顔領域R1〜R3を検出する。なお、被写体領域は、人の顔領域に限らず、例えば動物の顔領域が検出されてもよい。また、被写体領域の大きさは、顔幅に限らず、例えば撮像画像Imにおける顔領域R1〜R3のY軸方向の幅、または顔領域R1〜R3の面積であってもよい。
本実施形態において、デジタルカメラ100は、収音部の一例としてマイク161をさらに備える。A/Dコンバータ165は、マイク161の収音結果を示す音声信号を取得する。なお、A/Dコンバータ165は、マイク161に限らず、デジタルカメラ100の外部にあるマイクから音声信号を取得してもよい。
(他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態1を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
上記の実施の形態1では、図4のフローチャートにおいて、デジタルカメラ100が内蔵するマイク161について、顔認識を用いた又は用いない収音制御(S5又はS6)を行う動作例を説明した。本実施形態のデジタルカメラ100は、内蔵のマイク161に代えて、マイク161aを備える。マイク161aは、デジタルカメラ100の外部にあるマイクロフォン素子を含み、3つ以上のマイクロフォン素子を備える。本実施形態では、マイク161aについて、実施の形態1と同様にステップS5又はS6を実行する。この場合においても、実施の形態1と同様に決定した収音対象及び/または収音エリアに応じて、被写体の音声を明瞭に得やすくすることができる。
また、上記の実施の形態1では、図10のフローチャートにおいて、デジタルカメラ100の撮像範囲に対応する水平画角に基づき、ゲインGhを算出(S30)する動作例を説明した。この場合の水平画角は、図8のフローチャートにおける前方中心収音エリアの判定(S20)に用いる水平画角θhと同一である。本実施形態において、ゲインGhの算出に、ステップS20における水平画角θhと異なる用いる水平画角を用いてもよい。例えば、撮像画像上で全ての収音対象の被写体を含むX軸方向の幅に対応する角度範囲を、ステップS30における水平画角とする。これにより、収音対象が映る画角に応じて、遠くの被写体の声をより明瞭に収音するように、ゲインGhを算出することができる。
また、上記の実施の形態1では、顔認識部122が人の顔を検出した。本実施形態において、顔認識部122は、例えば動物の顔を検出してもよい。動物の顔は、動物の種別によって大きさが多様であることが考えられる。この場合でも、例えば収音対象を選別するための所定範囲(S14参照)を拡大することにより、実施の形態1と同様に収音対象を選別することができる。さらに、顔認識部122が動物の種別ごとに顔を検出し、種別に応じてステップS14における所定範囲を設定してもよい。
また、上記の各実施形態において、顔認識部122を備えるデジタルカメラ100を説明した。本実施形態において、顔認識部122は、外部サーバに設けられてもよい。この場合、デジタルカメラ100は、通信モジュール155を介して、外部サーバに撮像画像の画像データを送信し、外部サーバから顔認識部122による処理結果の検出情報を受信してもよい。このようなデジタルカメラ100においては、通信モジュール155が検出部として機能する。
また、上記の各実施形態では、光学系110及びレンズ駆動部112を備えるデジタルカメラ100を例示した。本実施形態の撮像装置は、光学系110及びレンズ駆動部112を備えなくてもよく、例えば交換レンズ式のカメラであってもよい。
また、上記の各実施形態では、撮像装置の例としてデジタルカメラを説明したが、これに限定されない。本開示の撮像装置は、画像撮影機能を有する電子機器(例えば、ビデオカメラ、スマートフォン、タブレット端末等)であればよい。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
本開示は、音声を取得しながら撮像を行う撮像装置に適用可能である。
100 デジタルカメラ
115 イメージセンサ
120 画像処理エンジン
122 顔認識部
125 バッファメモリ
130 表示モニタ
135 コントローラ
145 フラッシュメモリ
150 操作部

Claims (5)

  1. 被写体を撮像して画像データを生成する撮像部と、
    前記撮像部による撮像中に収音される音声を示す音声信号を取得する音声取得部と、
    前記画像データにおいて前記被写体に対応する被写体領域を検出する検出部と、
    前記音声信号において前記被写体からの音声を収音する収音エリアを制御する制御部とを備え、
    前記検出部によって、複数の被写体領域が検出されたとき、
    前記制御部は、
    前記複数の被写体領域のうちの一の被写体領域の大きさが、特定の被写体領域の大きさを基準とする所定範囲内である場合に、当該一の被写体領域に対応する被写体を前記音声信号における収音対象とすることを決定し、
    前記一の被写体領域の大きさが、前記所定範囲内ではない場合に、当該一の被写体領域に対応する被写体を前記収音対象としないことを決定する
    撮像装置。
  2. 記制御部は、前記収音対象に決定した被写体を含めるように、複数の所定エリアの中で前記収音エリアを切り替える
    請求項1に記載の撮像装置。
  3. 前記制御部は、前記撮像における合焦距離および画角の内の少なくとも一方に基づいて、前記音声信号が示す音声を強調するゲインを制御する
    請求項1又は2に記載の撮像装置。
  4. 前記検出部は、前記被写体領域として前記画像データにおける人の顔領域を検出する
    請求項1又は2に記載の撮像装置。
  5. 音声を収音する収音部をさらに備え、
    前記音声取得部は、前記収音部の収音結果を示す音声信号を取得する
    請求項1又は2に記載の撮像装置。
JP2019209798A 2019-11-20 2019-11-20 撮像装置 Active JP6793369B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019209798A JP6793369B1 (ja) 2019-11-20 2019-11-20 撮像装置
US16/950,954 US11445106B2 (en) 2019-11-20 2020-11-18 Imaging apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019209798A JP6793369B1 (ja) 2019-11-20 2019-11-20 撮像装置

Publications (2)

Publication Number Publication Date
JP6793369B1 true JP6793369B1 (ja) 2020-12-02
JP2021082968A JP2021082968A (ja) 2021-05-27

Family

ID=73544845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019209798A Active JP6793369B1 (ja) 2019-11-20 2019-11-20 撮像装置

Country Status (2)

Country Link
US (1) US11445106B2 (ja)
JP (1) JP6793369B1 (ja)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2157781B1 (en) * 2007-06-22 2013-08-07 Panasonic Corporation Camera device and imaging method
JP2009065587A (ja) * 2007-09-10 2009-03-26 Sanyo Electric Co Ltd 音声記録装置及び音声再生装置
US8218033B2 (en) 2007-09-10 2012-07-10 Sanyo Electric Co., Ltd. Sound corrector, sound recording device, sound reproducing device, and sound correcting method
JP2009156888A (ja) 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP5214394B2 (ja) * 2008-10-09 2013-06-19 オリンパスイメージング株式会社 カメラ
JP2010200084A (ja) 2009-02-26 2010-09-09 Nikon Corp 撮像装置
JP2010232755A (ja) 2009-03-26 2010-10-14 Kddi Corp ハンズフリー通話装置、指向性調整方法、指向性調整プログラム
JP2011041096A (ja) * 2009-08-14 2011-02-24 Nec Corp 携帯端末、並びにこれに用いる集音制御方法及びプログラム
JP2011071962A (ja) * 2009-08-28 2011-04-07 Sanyo Electric Co Ltd 撮像装置及び再生装置
JP5748422B2 (ja) 2010-06-29 2015-07-15 株式会社ザクティ 電子機器
JP2014200058A (ja) * 2013-03-11 2014-10-23 パナソニック株式会社 電子機器

Also Published As

Publication number Publication date
US20210152733A1 (en) 2021-05-20
JP2021082968A (ja) 2021-05-27
US11445106B2 (en) 2022-09-13

Similar Documents

Publication Publication Date Title
JP6739064B1 (ja) 撮像装置
JP2008271241A (ja) 撮像装置、画像処理装置、撮像方法、及び画像処理方法
KR101710626B1 (ko) 디지털 촬영 장치 및 이의 제어 방법
JP2012002951A (ja) 撮像装置、合焦位置検出方法および合焦位置検出プログラム
JP5267609B2 (ja) 撮像装置及びそのプログラム
JP2019079024A (ja) 撮像装置、制御方法、およびプログラム
JP2011035771A (ja) 撮像装置、編集装置および撮像システム
JP5299034B2 (ja) 撮影装置
US10412321B2 (en) Imaging apparatus and image synthesis method
JP2017129828A (ja) 撮像装置および撮像方法
JP2011217103A (ja) 複眼撮影方法および装置
JP7209358B2 (ja) 撮像装置
KR101665175B1 (ko) 화상 취득 장치, 화상 취득 방법 및 기록매체
JP2010279054A (ja) 撮像装置、画像処理装置、撮像方法、及び画像処理方法
JP4767904B2 (ja) 撮像装置及び撮像方法
US11490001B2 (en) Imaging apparatus
JP6793369B1 (ja) 撮像装置
JP2014122978A (ja) 撮像装置、音声認識方法、及びプログラム
JP2019021966A (ja) 収音装置および収音方法
JP2017060133A (ja) 電子機器、撮像制御方法、画像処理方法及びプログラム
JP4771524B2 (ja) 撮像装置及びそのプログラム
JP2014131188A (ja) 撮像装置、その制御方法、および制御プログラム
JP2013223223A (ja) 録音装置
JP7271316B2 (ja) 撮像装置及びその制御方法
JP5603671B2 (ja) 電子機器、撮像方法、及び画像変換プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191127

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191127

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201027

R151 Written notification of patent or utility model registration

Ref document number: 6793369

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151