JP5510559B2

JP5510559B2 - 音声制御装置および撮像装置

Info

Publication number: JP5510559B2
Application number: JP2012549747A
Authority: JP
Inventors: 栄二吉松
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2010-12-20
Filing date: 2011-12-14
Publication date: 2014-06-04
Anticipated expiration: 2031-12-14
Also published as: JPWO2012086485A1; US20130311174A1; EP2658281A1; CN103270773A; WO2012086485A1

Description

本発明は、音声制御装置および撮像装置に関する。

音声録音時の録音レベル調整として、音声入力レベルに応じて録音ゲインを自動調整する自動レベルコントロール（ＡＬＣ）を行う音声信号処理装置が知られている。ＡＬＣは、人の会話内容を重視するような場合（例えば、会議の録音）には有効である。これに対して、例えば音楽会のような臨場感や音のつながりが重視される場での録音は、ＡＬＣを使用せずに録音ゲインを一定値に固定するゲイン固定が効果的である。

日本国特開２００５−１６７３８０

従来、ＡＬＣとゲイン固定を状況に応じて自動的に切換可能な録音装置はない。

本発明の第１の態様によれば、音声制御装置は、音声取得時の周囲の状況を判別する状況判別部と、音声取得部により取得される音声に対して、前記状況判別部による判別結果に基づいて音声レベルが一定となるようにゲインを自動的に制御する自動レベル制御と、ゲインを一定値に固定するゲイン固定制御とのいずれかを適用する制御部とを備え、前記制御部は、使用者の音声が前記音声取得部により取得された場合は、前記状況判別部による判別結果によらず前記自動レベル制御を適用し、被写体の音声が前記音声取得部により取得された場合は、前記状況判別部による判別結果に基づいて前記自動レベル制御と前記ゲイン固定制御とのいずれかを適用する。

本発明によれば、取得する音声に対してユーザが特に意識しなくても適当な制御を実行することができる。

本発明の第１の実施形態における撮像装置の制御ブロック図である。動画撮影時の処理手順を示すメインのフローチャートである。録音方式選択処理の詳細を示すフローチャートである。ゲイン固定処理の詳細を示すフローチャートである。第２の実施形態における動画撮影時の処理手順を示すメインのフローチャートである。第３の実施の形態における撮像装置の外観図であり、（ａ）は正面図、（ｂ）が背面図である。第３の実施の形態における撮像装置の制御ブロック図である。第３の実施の形態の録音選択処理の詳細を示すフローチャートである。第４の実施の形態における撮像装置の上面外観図である。第４の実施の形態における撮像装置の制御ブロック図である。第４の実施の形態の録音選択処理の詳細を示すフローチャートである。

図面を参照して、一実施形態の撮像装置としてデジタルカメラ１００を例に説明する。なお、撮像装置は、音声録音を伴う動画撮影が可能なあらゆる機器を含み、例としては、カムコーダ、デジタルカメラ、携帯電話機などが挙げられる。

−第１の実施の形態−
図１は第１の実施形態におけるデジタルカメラ１００の概略ブロック図である。撮影レンズ１を透過した被写体光束は、撮像素子２で撮像される。被写体光束を撮像した撮像素子２は、撮像信号を出力する。その撮像信号は画像処理回路３で種々の処理が施され、画像データに変換される。撮影モード設定時には、撮像素子２による撮像が繰り返し行われ、その都度画像処理回路３で得られた画像データが液晶モニタ等の表示装置７に逐次更新表示される。

上記の状況において、録画開始操作（例えば、録画ボタンの押圧操作）がなされると、撮像素子２は動画撮影を開始し、録画停止操作（例えば、録画ボタンの押圧解除）がなされると動画撮影を停止する。この間に撮像素子２から出力された撮像信号は、画像処理回路３で動画データに変換される。また動画撮影時には、マイク９を介して音声が入力され、音声信号として出力される。その音声信号は音声処理回路８で増幅等の処理が施され、所定の音声データに変換される。生成された動画データと音声データは、互いに組み合わされて動画ファイルを構成し、動画ファイルは記録回路１３を介してメモリカード等の記録媒体５０に記録される。

再生モードでは、記録媒体５０に記録された動画ファイルが読み出され、読み出された動画ファイルは画像処理回路３を介して表示装置７へ出力される。その結果、表示装置７には、動画ファイルに対応する動画が再生される。またこのとき、動画ファイルを構成する音声データはスピーカ駆動回路５を介してスピーカ６へ出力される。その結果、音声データに対応する音声がスピーカ６から出力される。

ＣＰＵ１１は、操作部１２からの入力に応答して上記各回路や不図示の回路を制御し、動画撮影や再生を始めとする種々の処理を行う。なお、ＣＰＵ１１は、マイク９により音声が入力された時のデジタルカメラ１００の周囲の状況を判別する状況判別部１１１を機能的に備える。操作部１２は、上記録画ボタンや電源ボタン、録音レベル設定ボタン、後述する手動による録音方式の設定操作を行うための録音方式設定ボタン、再生操作や情報入力等で用いる各種操作部材等を含む。

次に、上記デジタルカメラ１００における録音制御について説明する。
音声処理回路８は、公知のオートレベルコントロール（以下、ＡＬＣ）機能を備えている。ＡＬＣ機能は、動画撮影時の録音レベルがほぼ一定となるように、マイク９から出力された音声信号の音声入力レベルに応じて録音ゲインを自動調整する機能である。音声処理回路８は、ＡＬＣ機能により、音声入力レベルが大きいときは録音ゲインを低くし、音声入力レベルが小さいときは録音ゲインを高くする。例えば会議の場では、人によってマイク９からの距離が異なり、また声の大小も人によって異なる。このような場合には、音声処理回路８は、上記ＡＬＣ機能を用いることで、全員の声をほぼ同じ録音レベルとすることができる。その結果、再生モードにおいて、全員の声をほぼ同レベルの音量で再生することができる。

一方、音声処理回路８は、ＡＬＣ機能をキャンセルして録音ゲインを一定値（固定値）に固定すること（以下、ゲイン固定）も可能である。ＡＬＣ機能をキャンセルする場合として、たとえば、風景や音楽会、スポーツの撮影といった、臨場感や音のつながりを大切にしたい場合がある。そして、本デジタルカメラ１００の大きな特徴は、上記ＡＬＣ機能かゲイン固定かをＣＰＵ１１が状況に応じて自動的に選択する点にある。しかも、ゲイン固定を選択した場合は、その固定値をもＣＰＵ１１が自動で決定する。

図２〜図４は動画撮影時の手順を示すフローチャートである。図２〜図４の処理はＣＰＵ１１でプログラムを実行して行われる。このプログラムは、メモリ（不図示）に格納されており、録画開始操作がなされると、ＣＰＵ１１によってプログラムが起動され、実行される。
ステップＳ１でＣＰＵ１１は撮像素子２に動画撮影を開始させる。ステップＳ２では、ＣＰＵ１１は、動画撮影における録音方式を選択する。その詳細は後述するが、ここでは上記「ＡＬＣ」、「ゲイン固定（ゲイン高）」、「ゲイン固定（ゲイン低）」の３つのうちのいずれかが選択され、以降、その録音方式を用いた音声データの取得が動画撮影に同期してなされる。なお、録音方式の選択は、動画撮影開始に先立って行うようにしてもよい。

ステップＳ３では、ＣＰＵ１１は録画停止操作がなされたか否かを判定する。録画停止操作がなされていない場合には、ＣＰＵ１１はステップＳ３を否定し、ステップＳ５で、撮影者により操作部１２を用いて手動による録音方式の設定操作がなされたか否かを判定する。手動による録音方式の設定操作がなされていない場合には、ＣＰＵ１１はステップＳ５を否定しステップＳ４に戻る。手動による録音方式の設定操作がなされ、操作部１２から指示信号が入力されている場合には、ＣＰＵ１１はステップＳ５を肯定し、ステップＳ６において、上記録音方式の設定操作に基づいて録音方式を設定する。すなわち、撮影者の手動操作による録音方式の設定は、ステップＳ２の自動選択に優先される。ここで、手動による録音方式設定は、例えば、「ＡＬＣ」、「ゲイン固定（ゲイン高）」、「ゲイン固定（ゲイン中）」、「ゲイン固定（ゲイン低）」、「録音なし」からいずれかが選択されることにより行われる。

なお、自動設定、手動設定に拘わらず、現在の設定内容を表示装置７の画面にアイコン等で表示することが望ましい。

録画停止操作が行われた場合、ＣＰＵ１１はステップＳ３を肯定し、ステップＳ４で撮像素子２に動画撮影を停止させて処理を終了する。動画撮影によって得られた動画ファイル（音声データを含む）は、記録媒体５０に記録される。

図３は録音方式選択処理（ステップＳ２）の詳細を示すフローチャートである。
ステップＳ２１では、ＣＰＵ１１は画像処理回路３に指令して、動画撮影開始後の動画像データに対し、顔認識処理を行わせる。これは、公知のアルゴリズムによって画像中の人物の顔を認識する機能であり、本来は、フォーカスや露出の自動制御に用いられるものである。ここでは、顔認識結果を録音方式の選択にも用いる。

ステップＳ２２では、ＣＰＵ１１は、顔認識処理により顔が検出されたか否かを判定する。顔が検出されると、ＣＰＵ１１はステップＳ２２を肯定してステップＳ２３に進む。ステップＳ２３では、音楽会の撮影か否かを判別するために、ＣＰＵ１１は画像処理回路３に指令して、画像認識技術を用いて楽器検出を行う。これは、例えばテンプレートマッング等の手法により、画像中に楽器が存在するか否かを判別するものである。一例として、画像処理回路３によって、人物の腰の辺りにギター形状の物体が認識された場合は、ＣＰＵ１１の状況判別部１１１は音楽会の撮影と判断する。この場合、臨場感を重視すべき状況なので、ＣＰＵ１１はステップＳ２７でゲイン固定処理を行う。なお、ゲイン固定処理の詳細については、図４を用いて後述する。

ステップＳ２３で画像認識技術によって楽器が検出されなかった場合は、ＣＰＵ１１はステップＳ２３を否定して、ステップＳ２５へ進む。ステップＳ２５では、ＣＰＵ１１は、ステップＳ２２の顔認識処理によって複数の顔が検出されたか否かを判定する。複数の顔が検出されている場合には、ＣＰＵ１１はステップＳ２５を肯定してステップＳ２６に進む。ステップＳ２６では、ＣＰＵ１１は、画像処理回路３に指令して、公知の動体検出を行わせ、被写体（すなわち検出された複数の顔に対応する人物）にある程度以上の動きがあるか否かを判定する。ステップＳ２６が肯定された場合、つまり複数の人物が大きく動いている場合は、状況判別部１１１は何らかのスポーツの撮影と判断する。この場合、臨場感を重視すべき状況なので、ＣＰＵ１１はステップＳ２７で後述するゲイン固定処理を行う。

一方、ステップＳ２６が否定された場合、つまり複数の人物が存在するが殆ど動きがない場合は、状況判別部１１１は会議の撮影と判断する。この場合、臨場感よりも人物の会話内容を重視すべき状況なので、ＣＰＵ１１はステップＳ２８でＡＬＣ機能を選択する。ＡＬＣ機能が選択された場合は、ＣＰＵ１１は録画終了まで定期的に音声入力レベルをチェックし、音声処理回路８は、録音レベルがほぼ一定となるように録音ゲインを自動調整する。

ステップＳ２５が否定された場合（人物が一人の場合）は、撮影者と被写体人物とで会話がなされる可能性が高い。この場合も会話内容が重要であるとして、ＣＰＵ１１はステップＳ２８でＡＬＣを選択する。

一方、ステップＳ２２で顔が検出されないと判断した場合は、状況判別部１１１はステップＳ２４で風景の撮影か否かを判定する。この場合、状況判別部１１１は、撮影レンズ１の焦点距離や被写体距離、画像の輝度分布や色情報等に基づいて判断する。あるいは、撮影者が「風景モード」を選択している場合に、状況判別部１１１は風景撮影と判断するようにしてもよい。

ステップＳ２４で風景撮影と判断した場合は、臨場感を重視すべき状況なので、ＣＰＵ１１はステップＳ２７のゲイン固定処理を行う。ステップＳ２４が否定された場合、つまり人物の撮影でもなく風景の撮影でもない場合は、判別部１１１は人物の会話はないかも知れないが、周囲の音声の内容が重要となるケースが多いと判断する。したがって、ＣＰＵ１１はステップＳ２８でＡＬＣ機能を選択する。

図４はゲイン固定処理の詳細を示すフローチャートである。ステップＳ２７１ではＣＰＵ１１は音声信号の入力レベルが所定値以上か否かを判定する。音声信号の入力レベルが所定値以上の場合、ＣＰＵ１１はステップＳ２７１を肯定してステップＳ２７２に進み、録音ゲインの固定値を「低」に設定する。音声信号の入力レベルが所定値未満の場合、ＣＰＵ１１はステップＳ２７１を否定してステップＳ２７３に進み、録音ゲインの固定値を「高」に設定する。このように、音声入力レベルに応じて録音ゲインを設定するようにしたので、再生音声が聞き取りにくかったり、音割れが発生するといった不都合が回避できる。

なお、録音ゲインの固定値を２者択一としたが、３種類以上の選択肢を設け、音声入力レベルが高いほど録音レベルの固定値を低く設定するようにしてもよい。逆にゲイン固定値は１種類（選択の余地なし）としてもよい。

また、録音ゲインの固定値の選択にあたって撮影画角を加味してもよい。例えば、望遠側で撮影しているときは、被写体すなわち音源が遠い位置にある可能性が高いため、録音ゲインを高くする。

以上で説明した第１の実施の形態によれば、以下の作用効果が得られる。
（１）デジタルカメラ１００は、マイク９と、状況判別部１１１と、ＣＰＵ１１とを備える。マイク９は周囲の音声を取得し、状況判別部１１１は、マイク９による音声取得時の周囲の状況を判別する。そして、ＣＰＵ１１は、マイク９により取得される音声に対して、ゲインを自動的に制御する自動レベル制御と、ゲインを一定値に固定するゲイン固定制御とのいずれかを適用するようにした。自動レベル制御では、ＣＰＵ１１は、状況判別部１１１による判別結果に基づいて、音声レベルが一定となるようにゲインを自動的に制御する。したがって、録音にあたってＡＬＣ機能かゲイン固定かを装置が自動的に選択するようにしたので、撮影者が特に意識しなくても最適な録音方式で録音が行える。

（２）状況判別部１１１によって音声内容を重視すべき状況であると判別されたとき、ＣＰＵ１１１は自動レベル制御を適用するようにした。この結果、例えば会議の場のように人によってマイク９からの距離が異なり、また声の大小も人によって異なるときでも、全員の声をほぼ同じ録音レベルとすることができる。その結果、再生モードにおいて、全員の声をほぼ同レベルの音量で再生することができる。

（３）状況判別部１１１によって臨場感を重視すべき状況であると判別されたとき、ＣＰＵ１１はゲイン固定制御を適用するようにした。したがって、たとえば、風景や音楽会、スポーツの撮影といった、臨場感や音のつながりを大切にしたい場合の録音に好適となる。

（４）操作部１２は、撮影者による操作に応じて、自動レベル制御とゲイン固定制御とのいずれかを指示する。そして、操作部１２により自動レベル制御とゲイン固定制御とのいずれかが指示されているとき、ＣＰＵ１１は、指示部による指示を優先して自動レベル制御とゲイン固定制御とのいずれかを適用するようにした。したがって、自動レベル制御およびゲイン固定制御のうち、撮影者が所望するゲインによって録音を行うことができる。

−第２の実施の形態−
図５を参照して、本発明による第２の実施の形態を説明する。以下の説明では、第１の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第１の実施の形態と同じである。本実施の形態では、次の点で、第１の実施の形態と異なる。すなわち、前回の動画撮影時と今回の動画撮影時との時間間隔が短く、かつ前回と今回とでホワイトバランスの差が小さい場合は、前回と同様のシーンを継続して撮影しているとの判断の下に、録音方式を無条件で前回と同じにする点である。これにより、同一シーンでありながら録音方式が異なることによる違和感をなくすことができる。

図５は第２の実施形態における動画撮影時の処理手順（図２に相当）を示している。なお、図２と同様のステップには同一のステップ番号を付す。
図５において、ステップＳ１でＣＰＵ１１が撮像素子２に動画撮影を開始させ、ステップＳ５１でＣＰＵ１１は内蔵時計から現在日時Ｔ１を取得する。ステップＳ５２では、ＣＰＵ１１はメモリ１０から前回の録画終了日時Ｔ２を読み出し、ステップＳ５３でＴ１−Ｔ２、すなわち前回の録画停止から今回の録画開始までの時間を所定時間Ｔ（例えば、３０分）と比較する。

Ｔ１−Ｔ２が所定時間Ｔを下回る場合は、ＣＰＵ１１はステップＳ５３を肯定し、ステップＳ５４に進み、現在のホワイトバランス設定Ｗ１を取得する。ホワイトバランスは、「自動」の場合は環境光センサ等の出力に基づいて自動設定され、「手動」の場合は撮影者によって選択設定される。ステップＳ５５では、ＣＰＵ１１はメモリ１０から前回録画時のホワイトバランス設定Ｗ２を読み出し、ステップＳ５６ではＷ１−Ｗ２を所定値Ｗと比較する。Ｗ１−Ｗ２が所定値Ｗを下回る場合は、状況判別部１１１は前回と同様のシーンの撮影と判断し、ステップＳ５６を肯定してステップＳ５７へ進む。ステップＳ５７でＣＰＵ１１は、メモリ１０から前回の録音方式を読み出し、その録音方式を今回の録音方式として設定する。一方、ステップＳ５３またはＳ５６が否定された場合はステップＳ２に進み、ＣＰＵ１１は、図３で説明した手順により録音方式を選択する。

ステップＳ３で録画停止操作が確認されると、ＣＰＵ１１はステップＳ３を肯定してステップＳ５８へ進む。ステップＳ５８で、ＣＰＵ１１は現在の時刻をＴ２として、現在のホワイトバランスをＷ２としてそれぞれ記憶するとともに、現在の録画方式を記憶してステップＳ４に進む。

なお以上では、前回と同様のシーンか否かの判断に、前回録画終了時からの時間およびホワイトバランスを用いているが、ホワイトバランスに代えて、あるいは加えて、輝度分布や色情報を用いてもよい。また、ＧＰＳ受信機等により位置情報を取得可能な装置では、前回の撮影位置と今回の撮影位置との距離が所定値未満のときに同様のシーンと判断するようにしてもよい。

以上で説明した第２の実施の形態によれば、第１の実施の形態により得られた（１）〜（４）の作用効果に加えて、以下の作用効果が得られる。
状況判別部１１１は、前回録音時の状況と今回録音時の状況との変化を検出し、前回録音時の状況と今回録音時の状況とが変化していないと状況判別部１１１により判別されたとき、ＣＰＵ１１は、今回録音時の制御として前回録音時の制御を適用するようにした。したがって、例えば風景の撮影から連続して会議の撮影に移行したような場合、自動的にゲイン固定からＡＬＣ機能に切換わるので、撮影者の手動による煩雑な切換操作を省くことができる。

−第３の実施の形態−
図面を参照して、本発明による第３の実施の形態を説明する。以下の説明では、第１の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第１の実施の形態と同じである。本実施の形態では、カメラ前面と背面とにそれぞれマイクを有する点と、録音方式選択処理とが、第１の実施の形態と異なる。

図６は第３の実施形態におけるデジタルカメラ１００の正面図および背面図であり、図７は第３の実施の形態のデジタルカメラ１００の制御系のブロック図である。カメラ本体の前面には、撮影レンズ１が設けられるとともに、右上にはマイク孔ＭＨ１が設けられている。カメラ本体の背面には、液晶モニタ等の表示装置７が設けられるとともに、左下にマイク孔ＭＨ２が設けられている。

静止画撮影の場合は、レリーズ操作に伴って撮像素子２による撮像が行われ、撮像素子２から撮像信号が出力される。撮像信号を用いて画像処理回路３によって生成された画像データは、コンピュータで扱うことが可能な静止画像ファイルとして、記録回路１３によりメモリカード等の記録媒体５０に記録される。

動画撮影の場合は、録画開始操作に伴って撮像素子２による動画撮影が開始され、録画停止操作で動画撮影が停止する。この間に撮像素子２から出力された撮像信号は、画像処理回路３で動画データに変換される。また動画撮影時には、前面マイク９ａ、背面マイク９ｂ（図７参照）を介して音声が入力され、音声信号が出力される。その音声信号は音声処理回路８で増幅等の処理が施され、所定の音声データに変換される。

ここで、前面マイク９ａは、カメラ前面のマイク孔ＭＨ１に対向して配置され、これは主に被写体側の音声入力に用いられる。背面マイク９ｂは、カメラ背面のマイク孔ＭＨ２に対向して配置され、これは主に撮影者側の音声入力に用いられる。撮影者側の音声は、例えば撮影者自身が発した状況説明等の声である。撮影者は、例えばメニュー画面等において、動画撮影時のマイク使用形態を選択することができる。選択肢としては、「前面／背面マイク９ａ、９ｂの双方を使用する」、「前面マイク９ａのみを使用する」、「背面マイク９ｂのみを使用する」、「いずれのマイクも使用しない」がある。マイクの使用（不使用）とは、そのマイクから入力される音声を録音する（しない）ことを意味する。

上記生成された動画データと音声データは、互いに組み合わされて動画ファイルを構成し、動画ファイルは記録回路１３を介して記録媒体５０に記録される。

ＣＰＵ１１は、操作部１２からの入力に応答して、第１の実施の形態と同様に上記各回路や不図示の回路を制御し、静止画撮影や動画撮影、それらの再生を始めとする種々の処理を行う。

第３の実施の形態におけるデジタルカメラ１００の動画撮影時の手順について説明する。録画開始操作が行われると、ＣＰＵ１１は、図２のフローチャートに示す処理を実行する。ただし、第１の実施の形態のデジタルカメラ１００とは、ステップＳ２の録音方式選択処理が異なる。なお、ゲイン固定処理については、図４に示す処理と同様である。以下、第３の実施の形態における録音方式選択処理について説明する。

図８は録音方式選択処理（ステップＳ２）の詳細を示すフローチャートである。
ステップＳ３１では、ＣＰＵ１１は、背面マイク９ｂを使用するか否かを判定する。マイクの使用／不使用は、上述した撮影者による設定の内容によって判断する。ＣＰＵ１１は、背面マイク９ｂを使用すると判断した場合、ステップＳ３１を肯定してステップＳ３２に進み、背面マイク９ｂからの入力音声に対してＡＬＣ機能を選択する。すなわち、背面マイク９ｂから入力される音声信号は、主に撮影者が発した状況説明等の声に対応するものであり、その発声内容は重要である。したがって、撮影者の声の大きさが変動した場合でも一定のレベルで再生できるように、ＣＰＵ１１はＡＬＣ機能を選択する。ＡＬＣ機能が選択された場合は、ＣＰＵ１１は録画終了まで定期的に音声入力レベルをチェックし、音声処理回路８は、録音レベルがほぼ一定となるように録音ゲインを自動調整する。

ＣＰＵ１１は、ステップＳ３１を否定した場合は、背面マイク９ｂからの入力音声を録音しないこととしてステップＳ３３に進み、前面マイク９ａを使用するか否かを判断する。ＣＰＵ１１は、前面マイク９ａを使用しないと判断した場合、ステップＳ３３を否定して、前面マイク９ａからの入力音声を録音しないこととしてリターンする。ＣＰＵ１１は、ステップＳ３３を肯定した場合、すなわち前面マイク９ａを使用する場合はステップＳ２１に進む。ステップＳ２１以降は、前面マイク９ａから入力される音声信号に対する録音方式選択に係る処理であり、ＣＰＵ１１は、図３のフローチャートを用いて説明した内容と同様の処理を行う。

以上で説明した第３の実施の形態によれば、第１の実施の形態により得られた（１）〜（４）の作用効果に加えて、以下の作用効果が得られる。
マイク９は、撮影者の方向に指向性を有する前面マイク９ａと、撮影者の方向とは異なる方向に指向性を有する背面マイク９ｂとを含む。ＣＰＵ１１は、前面マイク９ａにより取得される音声に対して、状況判別部１１１による判別結果に基づいて、音声レベルが一定となるようにゲインを自動的に制御する自動レベル制御と、ゲインを一定値に固定するゲイン固定制御とのいずれかを選択する。さらに、ＣＰＵ１１は、背面マイク９ｂにより取得される音声に対して、状況判別部１１１による判別結果によらず自動レベル制御により制御するようにした。したがって、主に撮影者が発した状況説明等の内容が重要と思われる発生内容については、撮影者の声の大きさが変動した場合でも一定のレベルで再生することができる。

−第４の実施の形態−
図９〜図１１を参照して、本発明による第４の実施の形態を説明する。以下の説明では、第３の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第３の実施の形態と同じである。本実施の形態では、カメラ上面にマイクを有する点と、録音方式選択処理とが、第３の実施の形態と異なる。

図９は第４の実施形態におけるデジタルカメラ１００の上面図、図１０はその制御ブロック図である。このデジタルカメラ１００は単一のマイク９しか有しておらず、被写体側および撮影者側の双方の音声を効率よく拾うために、マイク９はカメラ上面に設けたマイク孔ＭＨ３に対向して設けられる。

本実施形態においても、撮影者の発した声を録音する場合は第３の実施の形態と同様にＡＬＣ機能を用い、一方、被写体側の音声を録音する場合は、ＡＬＣ機能とゲイン固定のいずれかを状況に応じて選択する。ただし、本実施形態では単一のマイク９しか有していないため、入力音声が撮影者の声か否かを音声解析により判別する必要がある。

音声判別を行うために、デジタルカメラ１００に声紋分析機能を組み込むとともに、撮影者の声を登録するための登録モードを設ける。すなわち、ＣＰＵ１１は、マイク９により取得された音声が、所定人物の音声か否かを判別する音声判別部１１２を機能的に備える。登録モードが設定されると、ＣＰＵ１１は、撮影者に声を発するよう要請するメッセージを表示装置７に表示する。撮影者が声を発すると、ＣＰＵ１１の音声判別部１１２は、マイク９から出力された音声信号に対応する音声データに対して声紋分析を行い、その分析結果を撮影者の声の特徴パターンとしてメモリ１０に登録する。なお、複数人の特徴パターンを登録することができる。

図１１は第４の実施形態における録音方式選択処理の詳細を示している。これは第３の実施形態の図８に相当するもので、図８と同様のステップには同一のステップ番号を付してある。なお、図２、図４の制御は第４の実施形態でも適用される。

図１１において、ステップＳ４１では、音声判別部１１２は、マイク９を介して入力された音声信号に対応する音声データに対して声紋分析を行い、入力音声の特徴パターンを取得する。ステップＳ４２では、音声判別部１１２は、取得した音声の特徴パターンと、予めメモリに登録された同特徴パターンとを比較する。そして、登録されたいずれかの特徴パターンと取得した特徴パターンの差が所定値未満の場合は、音声判別部１１２はマイク９からの入力音声は撮影者の声であると判断し、ステップＳ４３でＡＬＣ機能を選択する。一方、登録されている全ての特徴パターンに対し、上記差が所定値以上の場合は、音声判別部１１２はマイク９からの入力音声は撮影者の声ではない（被写体側の音声である可能性が高い）と判断し、上述したステップＳ２１以降の処理を行う。

以上で説明した第４の実施の形態によれば、第１の実施の形態により得られた（１）〜（４）の作用効果に加えて、以下の作用効果が得られる。
マイク９により取得された音声が、所定人物の音声か否かを判別する音声判別部１１２を備える。音声判別部１１２により所定人物の音声ではないと判別されたとき、マイク９により取得される音声に対して、状況判別部１１１による判別結果に基づいて音声レベルが一定となるようにゲインを自動的に制御する自動レベル制御と、ゲインを一定値に固定するゲイン固定制御とのいずれかを適用する。さらに、音声判別部１１２により所定人物の音声であると判別されたとき、マイク９により取得される音声に対して、ＣＰＵ１１は、状況判別部１１１による判別結果によらず自動レベル制御を適用するようにした。したがって、主に撮影者が発した状況説明等の内容が重要と思われる発生内容については、撮影者の声の大きさが変動した場合でも一定のレベルで再生することができる。

以上で説明した第１〜第４の実施の形態を、以下のように変形できる。
（１）ＡＬＣ機能かゲイン固定かの選択手順は図３、図８、図１１に限定されない。例えば、事前にシーンモードを設定可能な装置では、シーンモードとして「ポートレートモード」が選択されている場合は、撮影者と被写体人物との間での会話を考慮し、ＣＰＵ１１はＡＬＣ機能を選択するようにしてもよい。また、人物の顔が検出された場合は、一人か複数人かで制御を変えるようにした。これに対して、人物の動きが検出された場合（スポーツである可能性が高いとき）は、人数に拘わらず臨場感を重要視し、ＣＰＵ１１はゲイン固定を選択するようにしてもよい。

（２）さらに、ＣＰＵ１１は、ＡＬＣ機能かゲイン固定かの選択処理を、動画撮影中も定期的に行うようにしてもよい。これによれば、例えば風景の撮影から連続して会議の撮影に移行したような場合、自動的にゲイン固定からＡＬＣ機能に切換わり、撮影者が手動によって切換える必要がなくなる。

（３）以上では動画撮影に伴う録音について説明したが、例えば静止画撮影時に一定時間だけ周囲の音声を録音可能なデジタルカメラがあり、その際の録音にも上述と同様の録音方式選択制御を用いることができる。また、撮像手段を備えたものであれば、動画や静止画の撮影を伴わない単なる録音時にも上記の制御を適用できる。

（４）デジタルカメラ１００がマイク９を備えるものに代えて、マイク９がデジタルカメラ１００に着脱可能に構成されていてもよい。

上記では、種々の実施の形態および変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。

次の優先権基礎出願の開示内容は引用文としてここに組み込まれる。
日本国特許出願２０１０年第２８２９１４号（２０１０年１２月２０日出願）
日本国特許出願２０１０年第２８２９１５号（２０１０年１２月２０日出願）

Claims

音声取得時の周囲の状況を判別する状況判別部と、
音声取得部により取得される音声に対して、前記状況判別部による判別結果に基づいて音声レベルが一定となるようにゲインを自動的に制御する自動レベル制御と、ゲインを一定値に固定するゲイン固定制御とのいずれかを適用する制御部とを備え、
前記制御部は、使用者の音声が前記音声取得部により取得された場合は、前記状況判別部による判別結果によらず前記自動レベル制御を適用し、被写体の音声が前記音声取得部により取得された場合は、前記状況判別部による判別結果に基づいて前記自動レベル制御と前記ゲイン固定制御とのいずれかを適用する音声制御装置。
請求項１に記載の音声制御装置において、
前記音声取得部は、使用者の方向に指向性を有する第１取得部と、前記使用者の方向とは異なる方向に指向性を有する第２取得部とを有し、
前記制御部は、前記第１取得部により取得される音声に対して、前記状況判別部による判別結果によらず前記自動レベル制御を適用し、前記第２取得部により取得される音声に対して、前記状況判別部による判別結果に基づいて前記自動レベル制御と前記ゲイン固定制御とのいずれかを適用する音声制御装置。
請求項１に記載の音声制御装置において、
前記音声取得部により取得された音声が、所定人物の音声か否かを判別する音声判別部をさらに備え、
前記制御部は、前記音声判別部により前記所定人物の音声であると判別されたとき、前記音声取得部により前記使用者の音声が取得されたと判断して、前記音声取得部により取得される音声に対して、前記状況判別部による判別結果によらず前記自動レベル制御を適用し、前記音声判別部により前記所定人物の音声ではないと判別されたとき、前記音声取得部により前記被写体の音声が取得されたと判断し、前記音声取得部により取得される音声に対して、前記状況判別部による判別結果に基づいて前記自動レベル制御と前記ゲイン固定制御とのいずれかを適用する音声制御装置。
請求項１乃至３のいずれか一項に記載の音声制御装置において、
前記状況判別部は、前回録音時の状況と今回録音時の状況との変化を検出し、
前記制御部は、前記前回録音時の状況と前記今回録音時の状況とが変化していないと前記状況判別部により判別されたとき、前記今回録音時の制御として前記前回録音時の制御を適用する音声制御装置。
請求項１乃至４のいずれか一項に記載の音声制御装置において、
前記制御部は、前記被写体の音声が前記音声取得部により取得された場合、前記状況判別部により音声内容を重視すべき状況であると判別されたとき、前記自動レベル制御を適用する音声制御装置。
請求項１乃至５のいずれか一項に記載の音声制御装置において、
前記制御部は、前記被写体の音声が前記音声取得部により取得された場合、前記状況判別部により臨場感を重視すべき状況であると判別されたとき、前記ゲイン固定制御を適用する音声制御装置。
請求項１乃至６のいずれか一項に記載の音声制御装置において、
使用者による操作に応じて、前記自動レベル制御と前記ゲイン固定制御とのいずれかを指示する指示部をさらに備え、
前記指示部により前記自動レベル制御と前記ゲイン固定制御とのいずれかが指示されているとき、前記制御部は、前記指示部による指示を優先して前記自動レベル制御と前記ゲイン固定制御とのいずれかを適用する音声制御装置。
請求項１乃至７のいずれか一項に記載の音声制御装置において、
前記制御部は、前記ゲイン固定制御を適用するとき、音声レベルに応じたゲインを用いる音声制御装置。
請求項１乃至８のいずれか一項に記載の音声制御装置において、
前記音声取得部により取得された音声を記録媒体に記録する記録制御部をさらに備える音声制御装置。
請求項１乃至９のいずれか一項に記載の音声制御装置と、
被写体を撮像する撮像部を備え、
前記状況判別部は、前記撮像部により撮像された画像から人物の顔を検出し、複数の前記人物の顔を検出した場合には、当該複数の人物が動体か否かを判別し、
前記制御部は、前記被写体の音声が前記音声取得部により取得された場合、前記状況判別部により前記複数の人物が動体と判別されたときには、前記ゲイン固定制御を適用し、前記状況判別部により前記複数の人物が動体ではないと判別されたときには、前記自動レベル制御を適用する撮像装置。