JP5510559B2 - 音声制御装置および撮像装置 - Google Patents

音声制御装置および撮像装置 Download PDF

Info

Publication number
JP5510559B2
JP5510559B2 JP2012549747A JP2012549747A JP5510559B2 JP 5510559 B2 JP5510559 B2 JP 5510559B2 JP 2012549747 A JP2012549747 A JP 2012549747A JP 2012549747 A JP2012549747 A JP 2012549747A JP 5510559 B2 JP5510559 B2 JP 5510559B2
Authority
JP
Japan
Prior art keywords
voice
control
unit
gain
situation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012549747A
Other languages
English (en)
Other versions
JPWO2012086485A1 (ja
Inventor
栄二 吉松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP2012549747A priority Critical patent/JP5510559B2/ja
Publication of JPWO2012086485A1 publication Critical patent/JPWO2012086485A1/ja
Application granted granted Critical
Publication of JP5510559B2 publication Critical patent/JP5510559B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Description

本発明は、音声制御装置および撮像装置に関する。
音声録音時の録音レベル調整として、音声入力レベルに応じて録音ゲインを自動調整する自動レベルコントロール(ALC)を行う音声信号処理装置が知られている。ALCは、人の会話内容を重視するような場合(例えば、会議の録音)には有効である。これに対して、例えば音楽会のような臨場感や音のつながりが重視される場での録音は、ALCを使用せずに録音ゲインを一定値に固定するゲイン固定が効果的である。
日本国特開2005−167380
従来、ALCとゲイン固定を状況に応じて自動的に切換可能な録音装置はない。
本発明の第1の態様によれば、音声制御装置は、音声取得時の周囲の状況を判別する状況判別部と、音声取得部により取得される音声に対して、前記状況判別部による判別結果に基づいて音声レベルが一定となるようにゲインを自動的に制御する自動レベル制御と、ゲインを一定値に固定するゲイン固定制御とのいずれかを適用する制御部とを備え、前記制御部は、使用者の音声が前記音声取得部により取得された場合は、前記状況判別部による判別結果によらず前記自動レベル制御を適用し、被写体の音声が前記音声取得部により取得された場合は、前記状況判別部による判別結果に基づいて前記自動レベル制御と前記ゲイン固定制御とのいずれかを適用する。
本発明によれば、取得する音声に対してユーザが特に意識しなくても適当な制御を実行することができる。
本発明の第1の実施形態における撮像装置の制御ブロック図である。 動画撮影時の処理手順を示すメインのフローチャートである。 録音方式選択処理の詳細を示すフローチャートである。 ゲイン固定処理の詳細を示すフローチャートである。 第2の実施形態における動画撮影時の処理手順を示すメインのフローチャートである。 第3の実施の形態における撮像装置の外観図であり、(a)は正面図、(b)が背面図である。 第3の実施の形態における撮像装置の制御ブロック図である。 第3の実施の形態の録音選択処理の詳細を示すフローチャートである。 第4の実施の形態における撮像装置の上面外観図である。 第4の実施の形態における撮像装置の制御ブロック図である。 第4の実施の形態の録音選択処理の詳細を示すフローチャートである。
図面を参照して、一実施形態の撮像装置としてデジタルカメラ100を例に説明する。なお、撮像装置は、音声録音を伴う動画撮影が可能なあらゆる機器を含み、例としては、カムコーダ、デジタルカメラ、携帯電話機などが挙げられる。
−第1の実施の形態−
図1は第1の実施形態におけるデジタルカメラ100の概略ブロック図である。撮影レンズ1を透過した被写体光束は、撮像素子2で撮像される。被写体光束を撮像した撮像素子2は、撮像信号を出力する。その撮像信号は画像処理回路3で種々の処理が施され、画像データに変換される。撮影モード設定時には、撮像素子2による撮像が繰り返し行われ、その都度画像処理回路3で得られた画像データが液晶モニタ等の表示装置7に逐次更新表示される。
上記の状況において、録画開始操作(例えば、録画ボタンの押圧操作)がなされると、撮像素子2は動画撮影を開始し、録画停止操作(例えば、録画ボタンの押圧解除)がなされると動画撮影を停止する。この間に撮像素子2から出力された撮像信号は、画像処理回路3で動画データに変換される。また動画撮影時には、マイク9を介して音声が入力され、音声信号として出力される。その音声信号は音声処理回路8で増幅等の処理が施され、所定の音声データに変換される。生成された動画データと音声データは、互いに組み合わされて動画ファイルを構成し、動画ファイルは記録回路13を介してメモリカード等の記録媒体50に記録される。
再生モードでは、記録媒体50に記録された動画ファイルが読み出され、読み出された動画ファイルは画像処理回路3を介して表示装置7へ出力される。その結果、表示装置7には、動画ファイルに対応する動画が再生される。またこのとき、動画ファイルを構成する音声データはスピーカ駆動回路5を介してスピーカ6へ出力される。その結果、音声データに対応する音声がスピーカ6から出力される。
CPU11は、操作部12からの入力に応答して上記各回路や不図示の回路を制御し、動画撮影や再生を始めとする種々の処理を行う。なお、CPU11は、マイク9により音声が入力された時のデジタルカメラ100の周囲の状況を判別する状況判別部111を機能的に備える。操作部12は、上記録画ボタンや電源ボタン、録音レベル設定ボタン、後述する手動による録音方式の設定操作を行うための録音方式設定ボタン、再生操作や情報入力等で用いる各種操作部材等を含む。
次に、上記デジタルカメラ100における録音制御について説明する。
音声処理回路8は、公知のオートレベルコントロール(以下、ALC)機能を備えている。ALC機能は、動画撮影時の録音レベルがほぼ一定となるように、マイク9から出力された音声信号の音声入力レベルに応じて録音ゲインを自動調整する機能である。音声処理回路8は、ALC機能により、音声入力レベルが大きいときは録音ゲインを低くし、音声入力レベルが小さいときは録音ゲインを高くする。例えば会議の場では、人によってマイク9からの距離が異なり、また声の大小も人によって異なる。このような場合には、音声処理回路8は、上記ALC機能を用いることで、全員の声をほぼ同じ録音レベルとすることができる。その結果、再生モードにおいて、全員の声をほぼ同レベルの音量で再生することができる。
一方、音声処理回路8は、ALC機能をキャンセルして録音ゲインを一定値(固定値)に固定すること(以下、ゲイン固定)も可能である。ALC機能をキャンセルする場合として、たとえば、風景や音楽会、スポーツの撮影といった、臨場感や音のつながりを大切にしたい場合がある。そして、本デジタルカメラ100の大きな特徴は、上記ALC機能かゲイン固定かをCPU11が状況に応じて自動的に選択する点にある。しかも、ゲイン固定を選択した場合は、その固定値をもCPU11が自動で決定する。
図2〜図4は動画撮影時の手順を示すフローチャートである。図2〜図4の処理はCPU11でプログラムを実行して行われる。このプログラムは、メモリ(不図示)に格納されており、録画開始操作がなされると、CPU11によってプログラムが起動され、実行される。
ステップS1でCPU11は撮像素子2に動画撮影を開始させる。ステップS2では、CPU11は、動画撮影における録音方式を選択する。その詳細は後述するが、ここでは上記「ALC」、「ゲイン固定(ゲイン高)」、「ゲイン固定(ゲイン低)」の3つのうちのいずれかが選択され、以降、その録音方式を用いた音声データの取得が動画撮影に同期してなされる。なお、録音方式の選択は、動画撮影開始に先立って行うようにしてもよい。
ステップS3では、CPU11は録画停止操作がなされたか否かを判定する。録画停止操作がなされていない場合には、CPU11はステップS3を否定し、ステップS5で、撮影者により操作部12を用いて手動による録音方式の設定操作がなされたか否かを判定する。手動による録音方式の設定操作がなされていない場合には、CPU11はステップS5を否定しステップS4に戻る。手動による録音方式の設定操作がなされ、操作部12から指示信号が入力されている場合には、CPU11はステップS5を肯定し、ステップS6において、上記録音方式の設定操作に基づいて録音方式を設定する。すなわち、撮影者の手動操作による録音方式の設定は、ステップS2の自動選択に優先される。ここで、手動による録音方式設定は、例えば、「ALC」、「ゲイン固定(ゲイン高)」、「ゲイン固定(ゲイン中)」、「ゲイン固定(ゲイン低)」、「録音なし」からいずれかが選択されることにより行われる。
なお、自動設定、手動設定に拘わらず、現在の設定内容を表示装置7の画面にアイコン等で表示することが望ましい。
録画停止操作が行われた場合、CPU11はステップS3を肯定し、ステップS4で撮像素子2に動画撮影を停止させて処理を終了する。動画撮影によって得られた動画ファイル(音声データを含む)は、記録媒体50に記録される。
図3は録音方式選択処理(ステップS2)の詳細を示すフローチャートである。
ステップS21では、CPU11は画像処理回路3に指令して、動画撮影開始後の動画像データに対し、顔認識処理を行わせる。これは、公知のアルゴリズムによって画像中の人物の顔を認識する機能であり、本来は、フォーカスや露出の自動制御に用いられるものである。ここでは、顔認識結果を録音方式の選択にも用いる。
ステップS22では、CPU11は、顔認識処理により顔が検出されたか否かを判定する。顔が検出されると、CPU11はステップS22を肯定してステップS23に進む。ステップS23では、音楽会の撮影か否かを判別するために、CPU11は画像処理回路3に指令して、画像認識技術を用いて楽器検出を行う。これは、例えばテンプレートマッング等の手法により、画像中に楽器が存在するか否かを判別するものである。一例として、画像処理回路3によって、人物の腰の辺りにギター形状の物体が認識された場合は、CPU11の状況判別部111は音楽会の撮影と判断する。この場合、臨場感を重視すべき状況なので、CPU11はステップS27でゲイン固定処理を行う。なお、ゲイン固定処理の詳細については、図4を用いて後述する。
ステップS23で画像認識技術によって楽器が検出されなかった場合は、CPU11はステップS23を否定して、ステップS25へ進む。ステップS25では、CPU11は、ステップS22の顔認識処理によって複数の顔が検出されたか否かを判定する。複数の顔が検出されている場合には、CPU11はステップS25を肯定してステップS26に進む。ステップS26では、CPU11は、画像処理回路3に指令して、公知の動体検出を行わせ、被写体(すなわち検出された複数の顔に対応する人物)にある程度以上の動きがあるか否かを判定する。ステップS26が肯定された場合、つまり複数の人物が大きく動いている場合は、状況判別部111は何らかのスポーツの撮影と判断する。この場合、臨場感を重視すべき状況なので、CPU11はステップS27で後述するゲイン固定処理を行う。
一方、ステップS26が否定された場合、つまり複数の人物が存在するが殆ど動きがない場合は、状況判別部111は会議の撮影と判断する。この場合、臨場感よりも人物の会話内容を重視すべき状況なので、CPU11はステップS28でALC機能を選択する。ALC機能が選択された場合は、CPU11は録画終了まで定期的に音声入力レベルをチェックし、音声処理回路8は、録音レベルがほぼ一定となるように録音ゲインを自動調整する。
ステップS25が否定された場合(人物が一人の場合)は、撮影者と被写体人物とで会話がなされる可能性が高い。この場合も会話内容が重要であるとして、CPU11はステップS28でALCを選択する。
一方、ステップS22で顔が検出されないと判断した場合は、状況判別部111はステップS24で風景の撮影か否かを判定する。この場合、状況判別部111は、撮影レンズ1の焦点距離や被写体距離、画像の輝度分布や色情報等に基づいて判断する。あるいは、撮影者が「風景モード」を選択している場合に、状況判別部111は風景撮影と判断するようにしてもよい。
ステップS24で風景撮影と判断した場合は、臨場感を重視すべき状況なので、CPU11はステップS27のゲイン固定処理を行う。ステップS24が否定された場合、つまり人物の撮影でもなく風景の撮影でもない場合は、判別部111は人物の会話はないかも知れないが、周囲の音声の内容が重要となるケースが多いと判断する。したがって、CPU11はステップS28でALC機能を選択する。
図4はゲイン固定処理の詳細を示すフローチャートである。ステップS271ではCPU11は音声信号の入力レベルが所定値以上か否かを判定する。音声信号の入力レベルが所定値以上の場合、CPU11はステップS271を肯定してステップS272に進み、録音ゲインの固定値を「低」に設定する。音声信号の入力レベルが所定値未満の場合、CPU11はステップS271を否定してステップS273に進み、録音ゲインの固定値を「高」に設定する。このように、音声入力レベルに応じて録音ゲインを設定するようにしたので、再生音声が聞き取りにくかったり、音割れが発生するといった不都合が回避できる。
なお、録音ゲインの固定値を2者択一としたが、3種類以上の選択肢を設け、音声入力レベルが高いほど録音レベルの固定値を低く設定するようにしてもよい。逆にゲイン固定値は1種類(選択の余地なし)としてもよい。
また、録音ゲインの固定値の選択にあたって撮影画角を加味してもよい。例えば、望遠側で撮影しているときは、被写体すなわち音源が遠い位置にある可能性が高いため、録音ゲインを高くする。
以上で説明した第1の実施の形態によれば、以下の作用効果が得られる。
(1)デジタルカメラ100は、マイク9と、状況判別部111と、CPU11とを備える。マイク9は周囲の音声を取得し、状況判別部111は、マイク9による音声取得時の周囲の状況を判別する。そして、CPU11は、マイク9により取得される音声に対して、ゲインを自動的に制御する自動レベル制御と、ゲインを一定値に固定するゲイン固定制御とのいずれかを適用するようにした。自動レベル制御では、CPU11は、状況判別部111による判別結果に基づいて、音声レベルが一定となるようにゲインを自動的に制御する。したがって、録音にあたってALC機能かゲイン固定かを装置が自動的に選択するようにしたので、撮影者が特に意識しなくても最適な録音方式で録音が行える。
(2)状況判別部111によって音声内容を重視すべき状況であると判別されたとき、CPU111は自動レベル制御を適用するようにした。この結果、例えば会議の場のように人によってマイク9からの距離が異なり、また声の大小も人によって異なるときでも、全員の声をほぼ同じ録音レベルとすることができる。その結果、再生モードにおいて、全員の声をほぼ同レベルの音量で再生することができる。
(3)状況判別部111によって臨場感を重視すべき状況であると判別されたとき、CPU11はゲイン固定制御を適用するようにした。したがって、たとえば、風景や音楽会、スポーツの撮影といった、臨場感や音のつながりを大切にしたい場合の録音に好適となる。
(4)操作部12は、撮影者による操作に応じて、自動レベル制御とゲイン固定制御とのいずれかを指示する。そして、操作部12により自動レベル制御とゲイン固定制御とのいずれかが指示されているとき、CPU11は、指示部による指示を優先して自動レベル制御とゲイン固定制御とのいずれかを適用するようにした。したがって、自動レベル制御およびゲイン固定制御のうち、撮影者が所望するゲインによって録音を行うことができる。
−第2の実施の形態−
図5を参照して、本発明による第2の実施の形態を説明する。以下の説明では、第1の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第1の実施の形態と同じである。本実施の形態では、次の点で、第1の実施の形態と異なる。すなわち、前回の動画撮影時と今回の動画撮影時との時間間隔が短く、かつ前回と今回とでホワイトバランスの差が小さい場合は、前回と同様のシーンを継続して撮影しているとの判断の下に、録音方式を無条件で前回と同じにする点である。これにより、同一シーンでありながら録音方式が異なることによる違和感をなくすことができる。
図5は第2の実施形態における動画撮影時の処理手順(図2に相当)を示している。なお、図2と同様のステップには同一のステップ番号を付す。
図5において、ステップS1でCPU11が撮像素子2に動画撮影を開始させ、ステップS51でCPU11は内蔵時計から現在日時T1を取得する。ステップS52では、CPU11はメモリ10から前回の録画終了日時T2を読み出し、ステップS53でT1−T2、すなわち前回の録画停止から今回の録画開始までの時間を所定時間T(例えば、30分)と比較する。
T1−T2が所定時間Tを下回る場合は、CPU11はステップS53を肯定し、ステップS54に進み、現在のホワイトバランス設定W1を取得する。ホワイトバランスは、「自動」の場合は環境光センサ等の出力に基づいて自動設定され、「手動」の場合は撮影者によって選択設定される。ステップS55では、CPU11はメモリ10から前回録画時のホワイトバランス設定W2を読み出し、ステップS56ではW1−W2を所定値Wと比較する。W1−W2が所定値Wを下回る場合は、状況判別部111は前回と同様のシーンの撮影と判断し、ステップS56を肯定してステップS57へ進む。ステップS57でCPU11は、メモリ10から前回の録音方式を読み出し、その録音方式を今回の録音方式として設定する。一方、ステップS53またはS56が否定された場合はステップS2に進み、CPU11は、図3で説明した手順により録音方式を選択する。
ステップS3で録画停止操作が確認されると、CPU11はステップS3を肯定してステップS58へ進む。ステップS58で、CPU11は現在の時刻をT2として、現在のホワイトバランスをW2としてそれぞれ記憶するとともに、現在の録画方式を記憶してステップS4に進む。
なお以上では、前回と同様のシーンか否かの判断に、前回録画終了時からの時間およびホワイトバランスを用いているが、ホワイトバランスに代えて、あるいは加えて、輝度分布や色情報を用いてもよい。また、GPS受信機等により位置情報を取得可能な装置では、前回の撮影位置と今回の撮影位置との距離が所定値未満のときに同様のシーンと判断するようにしてもよい。
以上で説明した第2の実施の形態によれば、第1の実施の形態により得られた(1)〜(4)の作用効果に加えて、以下の作用効果が得られる。
状況判別部111は、前回録音時の状況と今回録音時の状況との変化を検出し、前回録音時の状況と今回録音時の状況とが変化していないと状況判別部111により判別されたとき、CPU11は、今回録音時の制御として前回録音時の制御を適用するようにした。したがって、例えば風景の撮影から連続して会議の撮影に移行したような場合、自動的にゲイン固定からALC機能に切換わるので、撮影者の手動による煩雑な切換操作を省くことができる。
−第3の実施の形態−
図面を参照して、本発明による第3の実施の形態を説明する。以下の説明では、第1の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第1の実施の形態と同じである。本実施の形態では、カメラ前面と背面とにそれぞれマイクを有する点と、録音方式選択処理とが、第1の実施の形態と異なる。
図6は第3の実施形態におけるデジタルカメラ100の正面図および背面図であり、図7は第3の実施の形態のデジタルカメラ100の制御系のブロック図である。カメラ本体の前面には、撮影レンズ1が設けられるとともに、右上にはマイク孔MH1が設けられている。カメラ本体の背面には、液晶モニタ等の表示装置7が設けられるとともに、左下にマイク孔MH2が設けられている。
静止画撮影の場合は、レリーズ操作に伴って撮像素子2による撮像が行われ、撮像素子2から撮像信号が出力される。撮像信号を用いて画像処理回路3によって生成された画像データは、コンピュータで扱うことが可能な静止画像ファイルとして、記録回路13によりメモリカード等の記録媒体50に記録される。
動画撮影の場合は、録画開始操作に伴って撮像素子2による動画撮影が開始され、録画停止操作で動画撮影が停止する。この間に撮像素子2から出力された撮像信号は、画像処理回路3で動画データに変換される。また動画撮影時には、前面マイク9a、背面マイク9b(図7参照)を介して音声が入力され、音声信号が出力される。その音声信号は音声処理回路8で増幅等の処理が施され、所定の音声データに変換される。
ここで、前面マイク9aは、カメラ前面のマイク孔MH1に対向して配置され、これは主に被写体側の音声入力に用いられる。背面マイク9bは、カメラ背面のマイク孔MH2に対向して配置され、これは主に撮影者側の音声入力に用いられる。撮影者側の音声は、例えば撮影者自身が発した状況説明等の声である。撮影者は、例えばメニュー画面等において、動画撮影時のマイク使用形態を選択することができる。選択肢としては、「前面/背面マイク9a、9bの双方を使用する」、「前面マイク9aのみを使用する」、「背面マイク9bのみを使用する」、「いずれのマイクも使用しない」がある。マイクの使用(不使用)とは、そのマイクから入力される音声を録音する(しない)ことを意味する。
上記生成された動画データと音声データは、互いに組み合わされて動画ファイルを構成し、動画ファイルは記録回路13を介して記録媒体50に記録される。
CPU11は、操作部12からの入力に応答して、第1の実施の形態と同様に上記各回路や不図示の回路を制御し、静止画撮影や動画撮影、それらの再生を始めとする種々の処理を行う。
第3の実施の形態におけるデジタルカメラ100の動画撮影時の手順について説明する。録画開始操作が行われると、CPU11は、図2のフローチャートに示す処理を実行する。ただし、第1の実施の形態のデジタルカメラ100とは、ステップS2の録音方式選択処理が異なる。なお、ゲイン固定処理については、図4に示す処理と同様である。以下、第3の実施の形態における録音方式選択処理について説明する。
図8は録音方式選択処理(ステップS2)の詳細を示すフローチャートである。
ステップS31では、CPU11は、背面マイク9bを使用するか否かを判定する。マイクの使用/不使用は、上述した撮影者による設定の内容によって判断する。CPU11は、背面マイク9bを使用すると判断した場合、ステップS31を肯定してステップS32に進み、背面マイク9bからの入力音声に対してALC機能を選択する。すなわち、背面マイク9bから入力される音声信号は、主に撮影者が発した状況説明等の声に対応するものであり、その発声内容は重要である。したがって、撮影者の声の大きさが変動した場合でも一定のレベルで再生できるように、CPU11はALC機能を選択する。ALC機能が選択された場合は、CPU11は録画終了まで定期的に音声入力レベルをチェックし、音声処理回路8は、録音レベルがほぼ一定となるように録音ゲインを自動調整する。
CPU11は、ステップS31を否定した場合は、背面マイク9bからの入力音声を録音しないこととしてステップS33に進み、前面マイク9aを使用するか否かを判断する。CPU11は、前面マイク9aを使用しないと判断した場合、ステップS33を否定して、前面マイク9aからの入力音声を録音しないこととしてリターンする。CPU11は、ステップS33を肯定した場合、すなわち前面マイク9aを使用する場合はステップS21に進む。ステップS21以降は、前面マイク9aから入力される音声信号に対する録音方式選択に係る処理であり、CPU11は、図3のフローチャートを用いて説明した内容と同様の処理を行う。
以上で説明した第3の実施の形態によれば、第1の実施の形態により得られた(1)〜(4)の作用効果に加えて、以下の作用効果が得られる。
マイク9は、撮影者の方向に指向性を有する前面マイク9aと、撮影者の方向とは異なる方向に指向性を有する背面マイク9bとを含む。CPU11は、前面マイク9aにより取得される音声に対して、状況判別部111による判別結果に基づいて、音声レベルが一定となるようにゲインを自動的に制御する自動レベル制御と、ゲインを一定値に固定するゲイン固定制御とのいずれかを選択する。さらに、CPU11は、背面マイク9bにより取得される音声に対して、状況判別部111による判別結果によらず自動レベル制御により制御するようにした。したがって、主に撮影者が発した状況説明等の内容が重要と思われる発生内容については、撮影者の声の大きさが変動した場合でも一定のレベルで再生することができる。
−第4の実施の形態−
図9〜図11を参照して、本発明による第4の実施の形態を説明する。以下の説明では、第3の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第3の実施の形態と同じである。本実施の形態では、カメラ上面にマイクを有する点と、録音方式選択処理とが、第3の実施の形態と異なる。
図9は第4の実施形態におけるデジタルカメラ100の上面図、図10はその制御ブロック図である。このデジタルカメラ100は単一のマイク9しか有しておらず、被写体側および撮影者側の双方の音声を効率よく拾うために、マイク9はカメラ上面に設けたマイク孔MH3に対向して設けられる。
本実施形態においても、撮影者の発した声を録音する場合は第3の実施の形態と同様にALC機能を用い、一方、被写体側の音声を録音する場合は、ALC機能とゲイン固定のいずれかを状況に応じて選択する。ただし、本実施形態では単一のマイク9しか有していないため、入力音声が撮影者の声か否かを音声解析により判別する必要がある。
音声判別を行うために、デジタルカメラ100に声紋分析機能を組み込むとともに、撮影者の声を登録するための登録モードを設ける。すなわち、CPU11は、マイク9により取得された音声が、所定人物の音声か否かを判別する音声判別部112を機能的に備える。登録モードが設定されると、CPU11は、撮影者に声を発するよう要請するメッセージを表示装置7に表示する。撮影者が声を発すると、CPU11の音声判別部112は、マイク9から出力された音声信号に対応する音声データに対して声紋分析を行い、その分析結果を撮影者の声の特徴パターンとしてメモリ10に登録する。なお、複数人の特徴パターンを登録することができる。
図11は第4の実施形態における録音方式選択処理の詳細を示している。これは第3の実施形態の図8に相当するもので、図8と同様のステップには同一のステップ番号を付してある。なお、図2、図4の制御は第4の実施形態でも適用される。
図11において、ステップS41では、音声判別部112は、マイク9を介して入力された音声信号に対応する音声データに対して声紋分析を行い、入力音声の特徴パターンを取得する。ステップS42では、音声判別部112は、取得した音声の特徴パターンと、予めメモリに登録された同特徴パターンとを比較する。そして、登録されたいずれかの特徴パターンと取得した特徴パターンの差が所定値未満の場合は、音声判別部112はマイク9からの入力音声は撮影者の声であると判断し、ステップS43でALC機能を選択する。一方、登録されている全ての特徴パターンに対し、上記差が所定値以上の場合は、音声判別部112はマイク9からの入力音声は撮影者の声ではない(被写体側の音声である可能性が高い)と判断し、上述したステップS21以降の処理を行う。
以上で説明した第4の実施の形態によれば、第1の実施の形態により得られた(1)〜(4)の作用効果に加えて、以下の作用効果が得られる。
マイク9により取得された音声が、所定人物の音声か否かを判別する音声判別部112を備える。音声判別部112により所定人物の音声ではないと判別されたとき、マイク9により取得される音声に対して、状況判別部111による判別結果に基づいて音声レベルが一定となるようにゲインを自動的に制御する自動レベル制御と、ゲインを一定値に固定するゲイン固定制御とのいずれかを適用する。さらに、音声判別部112により所定人物の音声であると判別されたとき、マイク9により取得される音声に対して、CPU11は、状況判別部111による判別結果によらず自動レベル制御を適用するようにした。したがって、主に撮影者が発した状況説明等の内容が重要と思われる発生内容については、撮影者の声の大きさが変動した場合でも一定のレベルで再生することができる。
以上で説明した第1〜第4の実施の形態を、以下のように変形できる。
(1)ALC機能かゲイン固定かの選択手順は図3、図8、図11に限定されない。例えば、事前にシーンモードを設定可能な装置では、シーンモードとして「ポートレートモード」が選択されている場合は、撮影者と被写体人物との間での会話を考慮し、CPU11はALC機能を選択するようにしてもよい。また、人物の顔が検出された場合は、一人か複数人かで制御を変えるようにした。これに対して、人物の動きが検出された場合(スポーツである可能性が高いとき)は、人数に拘わらず臨場感を重要視し、CPU11はゲイン固定を選択するようにしてもよい。
(2)さらに、CPU11は、ALC機能かゲイン固定かの選択処理を、動画撮影中も定期的に行うようにしてもよい。これによれば、例えば風景の撮影から連続して会議の撮影に移行したような場合、自動的にゲイン固定からALC機能に切換わり、撮影者が手動によって切換える必要がなくなる。
(3)以上では動画撮影に伴う録音について説明したが、例えば静止画撮影時に一定時間だけ周囲の音声を録音可能なデジタルカメラがあり、その際の録音にも上述と同様の録音方式選択制御を用いることができる。また、撮像手段を備えたものであれば、動画や静止画の撮影を伴わない単なる録音時にも上記の制御を適用できる。
(4)デジタルカメラ100がマイク9を備えるものに代えて、マイク9がデジタルカメラ100に着脱可能に構成されていてもよい。
上記では、種々の実施の形態および変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。
次の優先権基礎出願の開示内容は引用文としてここに組み込まれる。
日本国特許出願2010年第282914号(2010年12月20日出願)
日本国特許出願2010年第282915号(2010年12月20日出願)

Claims (10)

  1. 音声取得時の周囲の状況を判別する状況判別部と、
    音声取得部により取得される音声に対して、前記状況判別部による判別結果に基づいて音声レベルが一定となるようにゲインを自動的に制御する自動レベル制御と、ゲインを一定値に固定するゲイン固定制御とのいずれかを適用する制御部とを備え
    前記制御部は、使用者の音声が前記音声取得部により取得された場合は、前記状況判別部による判別結果によらず前記自動レベル制御を適用し、被写体の音声が前記音声取得部により取得された場合は、前記状況判別部による判別結果に基づいて前記自動レベル制御と前記ゲイン固定制御とのいずれかを適用する音声制御装置。
  2. 請求項1に記載の音声制御装置において、
    前記音声取得部は、使用者の方向に指向性を有する第1取得部と、前記使用者の方向とは異なる方向に指向性を有する第2取得部とを有し
    前記制御部は、前記第1取得部により取得される音声に対して、前記状況判別部による判別結果によらず前記自動レベル制御を適用し、前記第2取得部により取得される音声に対して、前記状況判別部による判別結果に基づいて前記自動レベル制御と前記ゲイン固定制御とのいずれかを適用する音声制御装置。
  3. 請求項1に記載の音声制御装置において、
    前記音声取得部により取得された音声が、所定人物の音声か否かを判別する音声判別部をさらに備え、
    前記制御部は、前記音声判別部により前記所定人物の音声であると判別されたとき、前記音声取得部により前記使用者の音声が取得されたと判断して、前記音声取得部により取得される音声に対して、前記状況判別部による判別結果によらず前記自動レベル制御を適用し、前記音声判別部により前記所定人物の音声ではないと判別されたとき、前記音声取得部により前記被写体の音声が取得されたと判断し、前記音声取得部により取得される音声に対して、前記状況判別部による判別結果に基づいて前記自動レベル制御と前記ゲイン固定制御とのいずれかを適用する音声制御装置。
  4. 請求項1乃至3のいずれか一項に記載の音声制御装置において、
    前記状況判別部は、前回録音時の状況と今回録音時の状況との変化を検出し、
    前記制御部は、前記前回録音時の状況と前記今回録音時の状況とが変化していないと前記状況判別部により判別されたとき、前記今回録音時の制御として前記前回録音時の制御を適用する音声制御装置。
  5. 請求項1乃至4のいずれか一項に記載の音声制御装置において、
    前記制御部は、前記被写体の音声が前記音声取得部により取得された場合、前記状況判別部により音声内容を重視すべき状況であると判別されたとき、前記自動レベル制御を適用する音声制御装置。
  6. 請求項1乃至5のいずれか一項に記載の音声制御装置において、
    前記制御部は、前記被写体の音声が前記音声取得部により取得された場合、前記状況判別部により臨場感を重視すべき状況であると判別されたとき、前記ゲイン固定制御を適用する音声制御装置。
  7. 請求項1乃至6のいずれか一項に記載の音声制御装置において、
    使用者による操作に応じて、前記自動レベル制御と前記ゲイン固定制御とのいずれかを指示する指示部をさらに備え、
    前記指示部により前記自動レベル制御と前記ゲイン固定制御とのいずれかが指示されているとき、前記制御部は、前記指示部による指示を優先して前記自動レベル制御と前記ゲイン固定制御とのいずれかを適用する音声制御装置。
  8. 請求項1乃至7のいずれか一項に記載の音声制御装置において、
    前記制御部は、前記ゲイン固定制御を適用するとき、音声レベルに応じたゲインを用いる音声制御装置。
  9. 請求項1乃至8のいずれか一項に記載の音声制御装置において、
    前記音声取得部により取得された音声を記録媒体に記録する記録制御部をさらに備える音声制御装置。
  10. 請求項1乃至9のいずれか一項に記載の音声制御装置と、
    被写体を撮像する撮像部を備え、
    前記状況判別部は、前記撮像部により撮像された画像から人物の顔を検出し、複数の前記人物の顔を検出した場合には、当該複数の人物が動体か否かを判別し、
    前記制御部は、前記被写体の音声が前記音声取得部により取得された場合、前記状況判別部により前記複数の人物が動体と判別されたときには、前記ゲイン固定制御を適用し、前記状況判別部により前記複数の人物が動体ではないと判別されたときには、前記自動レベル制御を適用する撮像装置。
JP2012549747A 2010-12-20 2011-12-14 音声制御装置および撮像装置 Active JP5510559B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012549747A JP5510559B2 (ja) 2010-12-20 2011-12-14 音声制御装置および撮像装置

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2010282915 2010-12-20
JP2010282915 2010-12-20
JP2010282914 2010-12-20
JP2010282914 2010-12-20
PCT/JP2011/078878 WO2012086485A1 (ja) 2010-12-20 2011-12-14 音声制御装置および撮像装置
JP2012549747A JP5510559B2 (ja) 2010-12-20 2011-12-14 音声制御装置および撮像装置

Publications (2)

Publication Number Publication Date
JPWO2012086485A1 JPWO2012086485A1 (ja) 2014-05-22
JP5510559B2 true JP5510559B2 (ja) 2014-06-04

Family

ID=46313761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012549747A Active JP5510559B2 (ja) 2010-12-20 2011-12-14 音声制御装置および撮像装置

Country Status (5)

Country Link
US (1) US20130311174A1 (ja)
EP (1) EP2658281A1 (ja)
JP (1) JP5510559B2 (ja)
CN (1) CN103270773A (ja)
WO (1) WO2012086485A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI458362B (zh) * 2012-06-22 2014-10-21 Wistron Corp 自動調整音量的聲音播放方法及電子設備
JP2014109601A (ja) * 2012-11-30 2014-06-12 Ntt Docomo Inc 音声処理システム、音声処理装置、音声処理方法及びプログラム
CN104092932A (zh) * 2013-12-03 2014-10-08 腾讯科技(深圳)有限公司 一种声控拍摄方法及装置
JP2015130547A (ja) * 2014-01-06 2015-07-16 パナソニックIpマネジメント株式会社 記録装置
CN111050269B (zh) * 2018-10-15 2021-11-19 华为技术有限公司 音频处理方法和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6178216A (ja) * 1984-09-26 1986-04-21 Fujitsu Ltd 音声増幅器制御方式
JPH0117854Y2 (ja) * 1980-11-04 1989-05-24
JPH056926U (ja) * 1991-07-03 1993-01-29 株式会社ケンウツド 音声認識装置用音量調整回路
JPH0888525A (ja) * 1994-09-19 1996-04-02 Murata Mach Ltd 無声音検出による自動利得制御装置
JPH10200352A (ja) * 1996-11-20 1998-07-31 Starkey Lab Inc 利得圧縮増幅器及び補聴器
JP2001237920A (ja) * 2000-02-23 2001-08-31 Hitachi Kokusai Electric Inc 入力レベル調整回路
JP2002261553A (ja) * 2001-03-02 2002-09-13 Ricoh Co Ltd 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
JP2008129108A (ja) * 2006-11-17 2008-06-05 Sanyo Electric Co Ltd オートゲインコントロール装置、音声記録装置、映像・音声記録装置および通話装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63309097A (ja) * 1987-06-11 1988-12-16 Matsushita Electric Ind Co Ltd 収音装置
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
JPH114289A (ja) * 1997-06-11 1999-01-06 Brother Ind Ltd Tad装置
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
JPH11220346A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd 自動利得制御回路
US7131136B2 (en) * 2002-07-10 2006-10-31 E-Watch, Inc. Comprehensive multi-media surveillance and response system for aircraft, operations centers, airports and other commercial transports, centers and terminals
JP3854833B2 (ja) * 2001-09-10 2006-12-06 キヤノン株式会社 撮像装置およびその信号処理方法およびプログラム及び記憶媒体
JP2003345395A (ja) * 2002-05-29 2003-12-03 Sanyo Electric Co Ltd 音声記録装置
US7343283B2 (en) * 2002-10-23 2008-03-11 Motorola, Inc. Method and apparatus for coding a noise-suppressed audio signal
JP4016206B2 (ja) 2003-11-28 2007-12-05 ソニー株式会社 音声信号処理装置及び音声信号処理方法
JP2005210180A (ja) * 2004-01-20 2005-08-04 Sony Corp 入力信号処理装置、録音装置、録音方法
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
EP1580882B1 (en) * 2004-03-19 2007-01-10 Harman Becker Automotive Systems GmbH Audio enhancement system and method
US8290181B2 (en) * 2005-03-19 2012-10-16 Microsoft Corporation Automatic audio gain control for concurrent capture applications
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
KR101513028B1 (ko) * 2007-07-02 2015-04-17 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
US8031062B2 (en) * 2008-01-04 2011-10-04 Smith Alexander E Method and apparatus to improve vehicle situational awareness at intersections
US8340379B2 (en) * 2008-03-07 2012-12-25 Inneroptic Technology, Inc. Systems and methods for displaying guidance data based on updated deformable imaging data
JP5385687B2 (ja) 2009-06-08 2014-01-08 日立オートモティブシステムズ株式会社 ヒュージング方法、圧着接続端子及びそれを用いた回転電機
JP5240076B2 (ja) 2009-06-08 2013-07-17 住友電装株式会社 操作装置
BR122020024236B1 (pt) * 2009-10-20 2021-09-14 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio, método para prover uma representação decodificada de um conteúdo de áudio e programa de computador para uso em aplicações de baixo retardamento
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0117854Y2 (ja) * 1980-11-04 1989-05-24
JPS6178216A (ja) * 1984-09-26 1986-04-21 Fujitsu Ltd 音声増幅器制御方式
JPH056926U (ja) * 1991-07-03 1993-01-29 株式会社ケンウツド 音声認識装置用音量調整回路
JPH0888525A (ja) * 1994-09-19 1996-04-02 Murata Mach Ltd 無声音検出による自動利得制御装置
JPH10200352A (ja) * 1996-11-20 1998-07-31 Starkey Lab Inc 利得圧縮増幅器及び補聴器
JP2001237920A (ja) * 2000-02-23 2001-08-31 Hitachi Kokusai Electric Inc 入力レベル調整回路
JP2002261553A (ja) * 2001-03-02 2002-09-13 Ricoh Co Ltd 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
JP2008129108A (ja) * 2006-11-17 2008-06-05 Sanyo Electric Co Ltd オートゲインコントロール装置、音声記録装置、映像・音声記録装置および通話装置

Also Published As

Publication number Publication date
JPWO2012086485A1 (ja) 2014-05-22
US20130311174A1 (en) 2013-11-21
EP2658281A1 (en) 2013-10-30
CN103270773A (zh) 2013-08-28
WO2012086485A1 (ja) 2012-06-28

Similar Documents

Publication Publication Date Title
JP5510559B2 (ja) 音声制御装置および撮像装置
KR101710626B1 (ko) 디지털 촬영 장치 및 이의 제어 방법
JP5809891B2 (ja) 撮影装置
KR102057467B1 (ko) 표시 제어장치 및 그 제어 방법
JP2012100216A (ja) カメラおよび動画撮影プログラム
JP5299034B2 (ja) 撮影装置
EP3812837B1 (en) Imaging apparatus
JP2011061461A (ja) 撮像装置、指向性制御方法及びそのプログラム
JP2009171301A (ja) 撮像装置、携帯端末及びカメラ制御方法
JP2009218900A (ja) 撮像装置、動画記録再生方法、および、プログラム
JP4931198B2 (ja) 撮像装置及び撮像装置の制御方法
JP2011188374A (ja) 撮影機器
JP2014122978A (ja) 撮像装置、音声認識方法、及びプログラム
JP2008211333A (ja) 撮像装置及びその制御方法、並びに映像再生装置及びその制御方法
JP2008242714A (ja) 撮影装置、楽譜撮影方法、及び楽譜撮影プログラム
JP2014230018A (ja) 撮影装置、撮像システム、撮像装置の制御方法、プログラム、および、記憶媒体
JP5638897B2 (ja) 撮像装置
JP2012100214A (ja) 撮像装置、補正プログラム及び記録媒体
JP2009055448A (ja) 撮影装置
KR101464532B1 (ko) 디지털 영상 처리 장치 및 이의 제어 방법
JP2018191023A (ja) 撮像システム
JP2016208200A (ja) 撮像装置
JP2010124034A (ja) 撮像装置
JP2006217111A (ja) 動画撮影装置、及び動画撮影方法
JP2010034838A (ja) 電子カメラ

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140310

R150 Certificate of patent or registration of utility model

Ref document number: 5510559

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250