JP2011101110A - 撮像装置 - Google Patents

撮像装置 Download PDF

Info

Publication number
JP2011101110A
JP2011101110A JP2009253154A JP2009253154A JP2011101110A JP 2011101110 A JP2011101110 A JP 2011101110A JP 2009253154 A JP2009253154 A JP 2009253154A JP 2009253154 A JP2009253154 A JP 2009253154A JP 2011101110 A JP2011101110 A JP 2011101110A
Authority
JP
Japan
Prior art keywords
subject
face
voice
area
voice input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009253154A
Other languages
English (en)
Inventor
Norikatsu Niinami
紀克 新浪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2009253154A priority Critical patent/JP2011101110A/ja
Priority to US12/909,317 priority patent/US8456542B2/en
Publication of JP2011101110A publication Critical patent/JP2011101110A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Abstract

【課題】被写体である人物の声を鮮明に記録する撮像装置を提供する。
【解決手段】被写体を撮像する撮像手段と、音声を入力する音声入力手段と、撮像手段により撮像された被写体が発声を行っているかどうかを判定する発声判定手段と、を有し、発声判定手段により被写体が発声を行っていると判定されたときに、被写体の特性を判定し、音声入力手段により入力された音声のうち、被写体の特性に適した帯域を強調して記録する。
【選択図】図3

Description

本発明は、音声を記録する撮像装置に関する。
ビデオカメラなどの撮像装置では動画とともに音声も記録される。通常、音声を記録する際、被写体の発した声などの録音したい音声だけでなく、周囲の雑音なども一緒に記録されてしまう。このため、被写体の声などの記録したい音声を鮮明に記録することができないことがあった。
そこで、例えば、特許文献1では、発話者の口の開きを検出することにより、発声の行われた期間を検知し、この発声期間は記録する音声帯域を制限することにより、発話者の声をより良く認識できるようにする方法が開示されている。
しかしながら、特許文献1に開示された方法では、音声認識処理をする際に、発話者が大人であるか、子供であるかは考慮していない。通常、大人と子供とでは、発声される周波数帯が異なる。このため、特許文献1により開示された方法では、発話者の声が周囲の雑音に埋もれてしまい、声を鮮明に記録できないことがあった。
そこで本発明は、上記問題点に鑑みてなされたもので、被写体である人物の声を鮮明に記録する撮像装置を提供することを目的とする。
上記課題を解決するため、本発明における撮像装置は、被写体を撮像する撮像手段と、音声を入力する音声入力手段と、前記撮像手段により撮像された被写体が発声を行っているかどうかを判定する発声判定手段と、を有し、前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記被写体の特性を判定し、前記音声入力手段により入力された音声のうち、前記被写体の特性に適した帯域を強調して記録することを特徴とする。
また、本発明における撮像装置は、被写体を撮像する撮像手段と、音声を入力する音声入力手段と、前記撮像手段により撮像された被写体の顔を検出する顔検出手段と、前記顔検出手段により前記被写体の顔が検出されたときに、当該検出された顔のエリアから唇のエリアを検出する唇検出手段と、前記唇検出手段により前記顔のエリアから前記唇のエリアが検出されたときに、前記顔のエリアの動き量と前記唇のエリアの動き量と検出する動き量検出手段と、前記動き量検出手段により検出された前記顔のエリアの動き量と前記唇のエリアの動き量とに基づき、前記撮像手段により撮像された被写体が発声を行っているかどうかを判定する発声判定手段と、を有し、前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記音声入力手段により入力された音声のうちの所定の帯域を強調して記録することを特徴とする。
本発明により、被写体である人物の声を鮮明に記録することができる。
本発明の実施形態に係る撮像装置の構成を示す図である。 本発明の実施形態に係る撮像装置における処理動作を示す図である。 本発明の実施形態に係る撮像装置における処理動作を示す図である。 本発明の実施形態に係る撮像装置における処理動作を示す図である。
次に、発明を実施するための形態について図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る撮像装置の構成を示す図である。この撮像装置は、フォーカスレンズ1と、撮像素子2と、増幅器3と、A/D変換器4と、画像信号処理部5と、画像音声記録再生処理部6と、CPU(Central Processing Unit)7と、撮像素子駆動部(TG)8と、フォーカスレンズ駆動部9と、音声記録用マイク10と、音声信号処理前増幅器11と、音声信号A/D変換器12と、音声信号処理部13と、音声信号処理後増幅器14と、を備えて構成されている。
フォーカスレンズ1は、対象物の像を結像するレンズである。撮像素子2は、素子上に結像された像を電気信号(画像信号)に変換する。増幅器3は、信号を増幅する。A/D変換器4は、アナログ信号をデジタル信号に変換する。画像信号処理部5は、画像信号に後述する処理を施す。撮像素子駆動部8は、撮像素子2を駆動する。フォーカスレンズ駆動部9は、フォーカスレンズ1を駆動する。
図1に示す構成では、対象物の像がフォーカスレンズ1により撮像素子2に結像し、撮像素子2は、このフォーカスレンズにより結像された対象物の像を電気信号(画像信号)に変換し、増幅器3に出力する。増幅器3は、撮像素子2から出力された画像信号を増幅し、A/D変換器4は、この増幅された画像信号をデジタル信号に変換することにより、デジタル化された画像信号を生成する。画像信号処理部5は、このデジタル化された画像信号に後述する処理を施す。また、撮像素子駆動部8は、CPU7の制御により撮像素子2を駆動する。フォーカスレンズ駆動部9は、CPU7の制御によりフォーカスレンズ1を駆動する。つまり、図1に示す構成により、対象物の像の画像信号に処理を施すことができる。また、連続して撮像を行うことにより、撮像された画像信号それぞれを動画を構成するフレーム画像として記録することが可能になる。
音声記録用マイク10は、外部の音声を音声信号に変換する。つまり、音声記録用マイク10は、外部の音声を音声信号として、撮像装置に入力する音声入力手段として機能する。音声信号処理前増幅器11は、音声信号を増幅する。音声信号A/D変換器12は、アナログの音声信号をデジタル化された音声信号に変換する。音声信号処理部13は、音声信号に後述する処理を施す。音声信号処理後増幅器14は、音声信号を増幅する。
図1に示す構成では、外部の音声がマイク10により音声信号として入力され、音声信号処理前増幅器11は、このマイク10から入力された音声信号を増幅する。音声信号A/D変換器12は、音声信号処理前増幅器11により増幅された音声信号をデジタル信号に変換することによりデジタル化された音声信号を生成する。音声信号処理部13は、この音声信号A/D変換器によりデジタル化された音声信号に後述する処理を施す。音声処理後増幅器14は、この音声信号処理部13により処理が施された音声信号を増幅する。つまり、図1に示す構成により、外部の音声の音声信号に処理を施すことができる。
画像音声記録再生処理部6は、画像信号処理部5により処理が施された画像信号と、音声信号処理部13に処理された後に音声信号処理後増幅器14により増幅された音声信号と、を合成し、画像音声データとして記録する。また、画像音声記録再生処理部6は、この記録された画像音声データを再生するようにしても良い。
CPU7は、フォーカスレンズ駆動部9を制御することによりフォーカスレンズ1を駆動する。また、CPU7は、撮像素子駆動部8を制御することにより撮像素子1を駆動する。また、CPU7は、増幅器3、画像信号処理部5、音声信号処理前増幅器11、音声信号処理部13、音声信号処理後増幅器14などを制御するようにしても良い。
音声信号処理部13は、被写体の声などを明確に認識できるように、音声信号に処理を施す。被写体の声などを明確に認識できるように、音声信号に処理を施す方法としては、いろいろと考えられる。例えば、音声信号処理部13は、入力された音声信号のうちで、出力する音声信号を被写体の声などに適した帯域に制限するようにすると良い。このようにすることにより、人の声などを明確に認識することができる音声信号を出力することが可能になる。
音声信号処理部13は、出力する音声信号の帯域を制限する方法としてはいろいろと考えられる。例えば、音声信号処理部13は、帯域を制限するフィルタ回路である帯域制限フィルタ回路(Band-Pass Filter:BPF)を備えるようにし、帯域制限フィルタ回路により、音声の帯域制限を行うようにすると良い。または、音声信号処理部13は、音声信号を記録し、この記録された音声信号から必要な帯域に関わる信号部分だけを抽出することにより出力する音声信号を生成するようにしても良い。また、音声信号処理部13は、音声信号からある帯域の信号を増幅し、それ以外の帯域の信号を減衰することにより帯域制限を行うようにしても良い。
また、音声信号処理部13は、フィルタ特性を変えることができるように、例えば、大人の声の帯域に最適化したフィルタ特性と、子供の声の帯域に最適化したフィルタ特性と、を切り替えることができるようにする。つまり、音声信号処理部13は、制限する帯域を切り替えることにより、大人の声に適した帯域に制限した音声信号を出力することや、子供の声に適した帯域に制限した音声信号を出力することができるようにすると良い。
大人の声の周波数帯は、100〜8000Hzであるため、大人の声を鮮明に記録するためには、入力された音声信号から、100〜8000Hzの音声信号だけを抽出し、出力するようにすると良い。また、子供の声の周波数帯は、150〜10000Hzであるため、大人の声を鮮明に記録するためには、入力された音声信号から、150〜10000Hzの音声信号だけを抽出し、出力するようにすると良い。また、他の周波数帯の音声信号だけを抽出し、出力できるようにしても良い。例えば、動物の声や、車や飛行機のエンジン音などを抽出し、出力できるようにしても良い。
画像信号処理部5は、入力された画像データ(画像信号)から、被写体中の顔を検出する顔検出手段を備えている。被写体中の顔を検出する方法としては、いろいろと考えられる。例えば、あらかじめ顔の特徴付ける情報を記憶しておき、被写体がこの情報と一致したときに顔を検出したと判断する方法などが考えられる。また、画像信号処理部5は、顔以外のものを検出できるようにしても良い。例えば、動物や車、飛行機などの特徴を記憶しておき、被写体がこの特徴と一致したときに車や飛行機を検出したと判断できるようにしても良い。
また、画像信号処理部5は、検出された顔のエリアのサイズを測定する顔サイズ測定手段を備えている。顔のエリアのサイズを測定する方法としてはいろいろと考えられるが、例えば、顔のエリアが画像フレームに占める割合を算出する方法でも良いし、単純に、顔のエリアの面積を算出する方法でも良い。
また、画像信号処理部5は、検出された顔のエリアから唇のエリアを検出する唇検出手段も備えている。唇のエリアを検出する方法もいろいろと考えられるが、例えば、唇の特徴を記憶しておき、この特徴と一致したときに唇を検出したと判断する方法などが考えられる。この唇検出手段により、顔のエリアにおける唇の有無や、唇のあるエリアを検出することができるようになる。
また、画像信号処理部5は、画像フレーム間での顔エリアの動き量と、唇エリアの動き量を検出する動き量検出手段も備える。顔エリアの動き量、唇エリアの動き量としては、いろいろと考えられるが、例えば、連続する2つの画像フレームにおける顔エリアの移動量(ベクトル量)と唇エリアの移動量(ベクトル量)をそれぞれ、顔エリアの動き量と唇エリアの動き量としても良い。
そして、画像信号処理部5は、この動き量検出手段により検出された顔エリアの動き量と唇エリアの動き量とに基づいて、被写体が声を発しているかどうかを判定する発声判定手段も備える。この動き量検出手段により検出された顔エリアの動き量と唇エリアの動き量とに基づいて、被写体が声を発しているかどうかを判定する方法としてはいろいろと考えられるが、例えば、次のように行うと良い。
顔エリアの動き量をFm、唇エリアの動き量をMmとしたときに、
|Fm−Mm|>SubA
であるならば、「被写体は発声している」と判定し、
|Fm−Mm|≦SubB
であるならば、「被写体は発声していない」と判定する。ここで、SubA、SubBは、SubB≦SubAを満たす定数である。しかし、撮影画角を変更することにより、顔エリアの画面上に占める領域の大きさが変化するため、SubA、SubBは撮影画角により大きさを変える。
また、
SubB<|Fm―Mm|≦SubA ・・・(1)
であるならば、直前のフレームの判定結果を継続する。つまり、上記の式(1)が満たされているときは、直前のフレームでの判定が、「被写体は発声している」であったならば、「被写体は発声している」と判定し、直前のフレームでの判定が、「被写体は発声していない」であったならば、「被写体は発声していない」と判定する。
上記の方法により、「被写体が発声している」と判定されたときは、音声信号処理部13により、人の声に適した帯域に制限するようにするようにすると良い。例えば、画像信号処理部5は、発声判定手段により「被写体が発声している」と判定されたときは、CPU7に通知をし、CPU7はこの通知を受けたときは、音声信号を帯域制限するように音声信号処理部13を制御するようにすれば良い。このようにすることにより、人の声を明確に認識することができる音声信号を出力することが可能になる。つまり、人の声を明確に認識することができる音声信号を記録することが可能になる。
また、上記では、2つの定数を使用し、3つに場合分けをしたが、定数を1つだけ使用し、2つに場合分けするようにしても良い。つまり、|Fm−Mm|の値が所定の定数より大きいときは、「被写体は発声している」と判定し、|Fm−Mm|の値が所定の定数より小さいときは、「被写体は発声していない」と判定するようにしても良い。
また、本発明の実施形態に係る撮像装置は、被写体までの距離を測定する距離測定手段を備えるようにする。被写体までの距離を測定する方法としては、いろいろと考えられる。例えば、赤外線を発光する発光部と受光する受光部とを備えるようにし、発光部から発光され、被写体により反射された赤外線を受光部により受光することにようにすることにより距離を測定することができる。また、画像を利用し、被写体までの距離を測定する方法としては、例えば、位相差検出方式や、コントラスト検出方式、パッシブ光方式などがある。例えば、オートフォーカス機能を撮像装置は、これらの方法により、被写体までの距離の測定を行っている。よって、オートフォーカス機能を備えた撮像装置であれば、被写体までの距離の測定するときに、オートフォーカス機能により出力される被写体の焦点距離を使用することにすれば良い。
この距離測定手段により測定された被写体までの距離を使用し、フォーカスレンズ1の位置を制御することにより、被写体に焦点を合わせた撮像を行うことが可能になる。つまり、距離測定手段により測定された被写体までの距離をCPU7に出力し、CPU7が、この被写体までの距離に基づき、被写体に焦点が合うように、フォーカスレンズ駆動部9を制御し、フォーカスレンズ1を駆動するようにすることにより、被写体に焦点を合わせた撮像を行うことが可能になる。
CPU7は、距離測定手段により測定された被写体までの距離と、画像信号処理部5の顔サイズ測定手段により測定された被写体の顔のエリアのサイズと、に基づいて、被写体の顔のサイズを算出する。
CPU7は、この算出された被写体の顔のサイズに基づいて、被写体が子供であるのか大人であるのかの判断を行う。被写体の顔のサイズに基づいて、被写体が子供であるのか大人であるのかの判断を行う方法としてはいろいろと考えられるが、例えば、次のように行うと良い。
被写体の顔のサイズをFとしたときに、
F>α
であるならば、「被写体は大人である」と判定し、
F≦β
であるならば、「被写体は子供である」と判定する。ここで、α、βは、β≦αを満たす定数であり、判定を行うための閾値である。α、βの値は、例えば、あらかじめ、多くの大人の顔のサイズと多くの子供の顔のサイズを統計的に解析することにより求めるようにすると良い。また、α、βの値は、被写体までの距離などにより変更するようにしても良い。
また、
β<F≦α ・・・(2)
であるならば、直前のフレームの判定結果を継続する。つまり、上記の式(2)が満たされているときは、直前のフレームでの判定が、「被写体は大人である」であったならば、「被写体は大人である」と判定し、直前のフレームでの判定が、「被写体は子供である」であったならば、「被写体は子供である」と判定する。
上記の方法により、「被写体は大人である」と判定されたときは、音声信号処理部13により、大人の声に適した帯域に制限するようにすると良い。また、「被写体は子供である」と判定されたときは、音声信号処理部13により、子供の声に適した帯域に制限するようにすると良い。例えば、CPU7は、「被写体は大人である」と判定したときは、音声信号を大人の声に適した帯域に制限するように音声信号処理部13を制御し、「被写体は子供である」と判定したときは、音声信号を子供の声に適した帯域に制限するように音声信号処理部13を制御するようにすれば良い。このようにすることにより、人の声をより明確に認識することができる音声信号を出力することが可能になる。つまり、人の声をより明確に認識することができる音声信号を記録することが可能になる。
デジタルカメラやビデオカメラなどにより動画を撮影する際に、上記の方法を使用することにより、被写体の声を明確に認識できるような音声記録を確実に行えるようになる。
また、上記では、2つの定数を使用し、3つに場合分けをしたが、定数を1つだけ使用し、2つに場合分けするようにしても良い。つまり、Fの値が所定の定数より大きいときは、「被写体は大人である」と判定し、Fの値が所定の定数より小さいときは、「被写体は子供である」と判定するようにしても良い。
また、画角内に大人と子供の両方が入っているときは、大人と子供のうちの主要被写体の方に適した帯域に制限しても良いし、人の声全般に適した帯域に制限するようにしても良い。大人と子供のうち、主要被写体を決定する方法としてはいろいろと考えられるが、オートフォーカス機能を備えた撮像装置であれば、オートフォーカス機能により主要被写体と判定された被写体を主要被写体と決定すれば良い。また、オートフォーカス機能により、大人と子供の両方が主要被写体であると判定されたときは、大人の声に適した帯域に制限するようにしても良いし、人の声全般に適した帯域に制限するようにしても良い。
また、本発明の実施形態に係る撮像装置は、撮影を行っている場所が屋外であるかどうかを判定する屋外判定手段を備えるようにすると良い。撮影を行っている場所が屋外であるかどうかを判定する方法としてはいろいろと考えられる。例えば、オートホワイトバランス機能を備えた撮像装置において行われる方法を使用することにより、撮影を行っている場所が屋外であるかどうかを判定することが可能になる。
オートホワイトバランス機能を備えた撮像装置では、画像信号におけるR成分、B成分、G成分の比率から、撮影時の光源の推測を行うことでホワイトバランスの調整を行っている。つまり、画像信号におけるR成分、B成分、G成分の比率から、撮影時の光源の推測を行うことが可能である。よって、オートホワイトバランス機能を備えた撮像装置と同様の方法により、光源が太陽光であると推測されたならば、「撮影は屋外で行われている」と判定することが可能になる。また、光源が太陽光以外であると推測されるならば、「撮影は屋外で行われていない」と判定することが可能になる。
そして、本発明の実施形態に係る撮像装置は、この屋外判定手段により「撮影は屋外で行われている」と判定されたときには風などによるノイズを除去するノイズ除去手段を備えるようにすると良い。風などによるノイズを除去する方法としてはいろいろと考えられる。例えば、音声信号処理前増幅器11のゲインを通常の増幅率より小さく設定し、音声信号処理後増幅器14の増幅率を通常より大きくすることで風によるノイズを小さくすることができる。このようにすることにより、屋外で撮影を行った場合でも、人の声を明確に認識することができる音声信号を記録することが可能になる。
図2は、本発明の実施形態に係る撮像装置における処理動作を示す図である。顔検出手段により、被写体中の顔を検出する(S101)。被写体中の顔が検出されなかったときは(S101、No)、音声信号処理部13により帯域制限を行わない(S102)。つまり、音声信号処理部13は入力された音声信号に何の処理も行わずに出力するようにする。
被写体中の顔が検出されたときは(S101、Yes)、唇検出手段により、検出された顔のエリアから唇を検出する(S103)。顔のエリアから唇が検出されなかったときは(S103、No)、音声信号処理部13により帯域制限を行わない(S102)。つまり、音声信号処理部13は入力された音声信号に何の処理も行わずに出力するようにする。
顔のエリアから唇が検出されたときは(S103、Yes)、動き量検出手段により、顔エリアの動き量と唇エリアの動き量とを検出する(S104)。この動き検出手段により検出された顔エリアの動き量と唇エリアの動き量とに基づき、発声判定手段により被写体が発声しているかどうかの判定を行う(S105)。「被写体は発声している」と判定されたときは(S105、Yes)、音声信号処理部13により帯域制限を行う(S106)。「被写体は発声していない」と判定されたときは(S105、No)、音声信号処理部13により帯域制限を行わない(S102)。つまり、音声信号処理部13は入力された音声信号に何の処理も行わずに出力するようにする。
このようにすることにより、被写体の声を強調することができ、人の声をより鮮明に記録することが可能になる。また、図2に示した処理動作は、例えば、フレームごとに行われるようにすると良い。このようにすることにより、被写体が発声している期間を正確に知ることができ、被写体が発声している期間だけ帯域制限を行うことができるようになる。
図3は、本発明の実施形態に係る撮像装置における処理動作を示す図である。顔検出手段により、被写体中の顔を検出する(S201)。被写体中の顔が検出されなかったときは(S201、No)、音声信号処理部13により帯域制限を行わない(S202)。つまり、音声信号処理部13は入力された音声信号に何の処理も行わずに出力するようにする。
被写体中の顔が検出されたときは(S201、Yes)、唇検出手段により、検出された顔のエリアから唇を検出する(S203)。顔のエリアから唇が検出されなかったときは(S203、No)、音声信号処理部13により帯域制限を行わない(S202)。つまり、音声信号処理部13は入力された音声信号に何の処理も行わずに出力するようにする。
顔のエリアから唇が検出されたときは(S203、Yes)、動き量検出手段により、顔エリアの動き量と唇エリアの動き量とを検出する(S204)。この動き検出手段により測定された顔エリアの動き量と唇エリアの動き量とに基づき、発声判定手段により被写体が発声しているかどうかの判定を行う(S205)。「被写体は発声していない」と判定されたときは(S205、No)、音声信号処理部13により帯域制限を行わない(S202)。つまり、音声信号処理部13は入力された音声信号に何の処理も行わずに出力するようにする。
「被写体は発声している」と判定されたときは(S205、Yes)、CPU7は、距離測定手段により測定された被写体までの距離と、画像信号処理部5の顔サイズ測定手段により検出された被写体の顔のエリアのサイズと、に基づいて、被写体の顔のサイズを算出し、この算出された被写体の顔のサイズに基づいて、被写体が大人であるのか子供であるのかの判定を行う(S206)。「被写体は大人である」と判定されたときは(S206、Yes)、音声信号処理部13により大人の声に適した帯域制限を行う(S207)。「被写体は子供である」と判定されたときは(S206、No)、音声信号処理部13により子供の声に適した帯域制限を行う(S208)。
このようにすることにより、被写体の声に適した帯域の音声だけを記録することができ、人の声をより鮮明に記録することが可能になる。また、図3に示した処理動作は、例えば、フレームごとに行われるようにすると良い。このようにすることにより、被写体が発声している期間を正確に知ることができ、被写体が発声している期間だけ帯域制限を行うことができるようになる。
図4は、本発明の実施形態に係る撮像装置における処理動作を示す図である。屋外判定手段により撮影場所が屋外であるかどうかを判定する(S301)。「撮影は屋外で行われている」と判定されたときは(S301、Yes)、ノイズ除去手段により風のノイズを除去する(S302)。
このようにすることにより、風のノイズなどを記録せずに被写体の声を記録することができ、人の声をより鮮明に記録することが可能になる。また、図4に示した処理動作は、例えば、フレームごとに行われるようにすると良い。このようにすることにより、屋外である期間だけノイズの除去を行うことができるようになる。
また、図4に示した処理動作を図2の処理動作の後に連続して行うようにすると良い。このようにすることにより、人の声をより鮮明に記録することが可能になる。また、この連続した処理動作を、例えば、フレームごとに行われるようにすると良い。
また、図4に示した処理動作を図3の処理動作の後に連続して行うようにすると良い。このようにすることにより、人の声をより鮮明に記録することが可能になる。また、この連続した処理動作を、例えば、フレームごとに行われるようにすると良い。
上述した実施形態における処理動作は、ハードウェア、または、ソフトウェア、あるいは、両者の複合構成によって実行することも可能である。
なお、ソフトウェアによる処理を実行する場合には、処理シーケンスを記録したプログラムが格納されているROM(Read Only Memory)から、専用のハードウェアに組み込まれているコンピュータ内のメモリ(RAM)にプログラムを読み込んで実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは、記録媒体としてのハードディスクやROMに予め記録しておくことが可能である。あるいは、プログラムは、フロッピー(登録商標)ディスク等の磁気ディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)等の光ディスク、MO(Magneto Optical)ディスク等の光磁気ディスクなどのリムーバブル記録媒体に、一時的、あるいは、永続的に格納(記録)しておくことが可能である。
このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することが可能である。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送したりし、コンピュータでは、転送されてきたプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることが可能である。
また、上記実施形態で説明した処理動作に従って時系列的に実行されるのみならず、処理を実行する装置の処理能力、あるいは、必要に応じて並列的にあるいは個別に実行するように構築することも可能である。
また、上記実施形態で説明したシステムは、複数の装置の論理的集合構成にしたり、各装置の機能を混在させたりするように構築することも可能である。
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範囲な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更が可能である。
また、本発明における撮像装置は、前記撮像手段により撮像された被写体の顔を検出する顔検出手段と、前記顔検出手段により前記被写体の顔が検出されたときに、当該検出された顔のエリアから唇のエリアを検出する唇検出手段と、前記唇検出手段により前記顔のエリアから前記唇のエリアが検出されたときに、前記顔のエリアの動き量と前記唇のエリアの動き量と検出する動き量検出手段と、を有し、前記発生判定手段は、前記動き量検出手段により検出された前記顔のエリアの動き量と前記唇のエリアの動き量とに基づき、前記被写体が発声を行っているかどうかを判定するようにしても良い。
また、本発明における撮像装置は、前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記被写体が大人であるか子供であるかを判定する被写体判定手段を有し、前記被写体判定手段により前記被写体が大人であると判定されたときは、前記音声入力手段により入力された音声のうち、大人の声に適した帯域を強調して記録し、前記被写体判定手段により前記被写体が子供であると判定されたときは、前記音声入力手段により入力された音声のうち、子供の声に適した帯域を強調して記録するようにしても良い。
また、本発明における撮像装置は、前記被写体までの距離を測定する距離測定手段と、前記顔検出手段により検出された前記被写体の顔のエリアのサイズを測定する顔サイズ測定手段と、前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記距離測定手段により測定された前記被写体までの距離と前記顔サイズ測定手段により測定された前記被写体の顔のエリアのサイズとの基づき、前記被写体の顔のサイズを算出する顔サイズ算出手段と、前記顔サイズ算出手段により算出された顔のサイズに基づき、前記被写体が大人であるか子供であるかを判定する被写体判定手段と、を有し、前記被写体判定手段により前記被写体が大人であると判定されたときは、前記音声入力手段により入力された音声のうち、大人の声に適した帯域を強調して記録し、前記被写体判定手段により前記被写体が子供であると判定されたときは、前記音声入力手段により入力された音声のうち、子供の声に適した帯域を強調して記録するようにしても良い。
また、本発明における撮像装置は、撮影が屋外で行われているかどうかを判定する屋外判定手段を、有し、前記屋外判定手段により撮影が屋外で行われていると判定されたときは、ノイズの除去を行うようにしても良い。
1 フォーカスレンズ
2 撮像素子
3 増幅器
4 A/D変換器
5 画像信号処理部
6 画像音声記録再生処理部
7 CPU
8 撮像素子駆動部
9 フォーカスレンズ駆動部
10 音声記録用マイク
11 音声信号処理前増幅器
12 音声信号A/D変換器
13 音声信号処理部
14 音声信号処理後増幅器
特開2000−187499号公報

Claims (6)

  1. 被写体を撮像する撮像手段と、
    音声を入力する音声入力手段と、
    前記撮像手段により撮像された被写体が発声を行っているかどうかを判定する発声判定手段と、を有し、
    前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記被写体の特性を判定し、前記音声入力手段により入力された音声のうち、前記被写体の特性に適した帯域を強調して記録することを特徴とする撮像装置。
  2. 前記撮像手段により撮像された被写体の顔を検出する顔検出手段と、
    前記顔検出手段により前記被写体の顔が検出されたときに、当該検出された顔のエリアから唇のエリアを検出する唇検出手段と、
    前記唇検出手段により前記顔のエリアから前記唇のエリアが検出されたときに、前記顔のエリアの動き量と前記唇のエリアの動き量と検出する動き量検出手段と、を有し、
    前記発生判定手段は、前記動き量検出手段により検出された前記顔のエリアの動き量と前記唇のエリアの動き量とに基づき、前記被写体が発声を行っているかどうかを判定することを特徴とする請求項1に記載の撮像装置。
  3. 前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記被写体が大人であるか子供であるかを判定する被写体判定手段を有し、
    前記被写体判定手段により前記被写体が大人であると判定されたときは、前記音声入力手段により入力された音声のうち、大人の声に適した帯域を強調して記録し、前記被写体判定手段により前記被写体が子供であると判定されたときは、前記音声入力手段により入力された音声のうち、子供の声に適した帯域を強調して記録することを特徴とする請求項1または2に記載の撮像装置。
  4. 前記被写体までの距離を測定する距離測定手段と、
    前記顔検出手段により検出された前記被写体の顔のエリアのサイズを測定する顔サイズ測定手段と、
    前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記距離測定手段により測定された前記被写体までの距離と前記顔サイズ測定手段により測定された前記被写体の顔のエリアのサイズとの基づき、前記被写体の顔のサイズを算出する顔サイズ算出手段と、
    前記顔サイズ算出手段により算出された顔のサイズに基づき、前記被写体が大人であるか子供であるかを判定する被写体判定手段と、を有し、
    前記被写体判定手段により前記被写体が大人であると判定されたときは、前記音声入力手段により入力された音声のうち、大人の声に適した帯域を強調して記録し、前記被写体判定手段により前記被写体が子供であると判定されたときは、前記音声入力手段により入力された音声のうち、子供の声に適した帯域を強調して記録することを特徴とする請求項2に記載の撮像装置。
  5. 撮影が屋外で行われているかどうかを判定する屋外判定手段を、有し、
    前記屋外判定手段により撮影が屋外で行われていると判定されたときは、ノイズの除去を行うことを特徴とする請求項1から4のいずれか1項に記載の撮像装置。
  6. 被写体を撮像する撮像手段と、
    音声を入力する音声入力手段と、
    前記撮像手段により撮像された被写体の顔を検出する顔検出手段と、
    前記顔検出手段により前記被写体の顔が検出されたときに、当該検出された顔のエリアから唇のエリアを検出する唇検出手段と、
    前記唇検出手段により前記顔のエリアから前記唇のエリアが検出されたときに、前記顔のエリアの動き量と前記唇のエリアの動き量と検出する動き量検出手段と、
    前記動き量検出手段により検出された前記顔のエリアの動き量と前記唇のエリアの動き量とに基づき、前記撮像手段により撮像された被写体が発声を行っているかどうかを判定する発声判定手段と、を有し、
    前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記音声入力手段により入力された音声のうちの所定の帯域を強調して記録することを特徴とする撮像装置。
JP2009253154A 2009-11-04 2009-11-04 撮像装置 Pending JP2011101110A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009253154A JP2011101110A (ja) 2009-11-04 2009-11-04 撮像装置
US12/909,317 US8456542B2 (en) 2009-11-04 2010-10-21 Imaging apparatus that determines a band of sound and emphasizes the band in the sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009253154A JP2011101110A (ja) 2009-11-04 2009-11-04 撮像装置

Publications (1)

Publication Number Publication Date
JP2011101110A true JP2011101110A (ja) 2011-05-19

Family

ID=43925040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009253154A Pending JP2011101110A (ja) 2009-11-04 2009-11-04 撮像装置

Country Status (2)

Country Link
US (1) US8456542B2 (ja)
JP (1) JP2011101110A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013013066A (ja) * 2011-05-27 2013-01-17 Canon Inc 音検出装置及びその制御方法、プログラム
JP2013172313A (ja) * 2012-02-21 2013-09-02 Nikon Corp 情報処理装置及び情報処理プログラム
JP2020156076A (ja) * 2019-03-13 2020-09-24 パナソニックIpマネジメント株式会社 撮像装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2533924A (en) * 2014-12-31 2016-07-13 Nokia Technologies Oy An apparatus, a method, a circuitry, a multimedia communication system and a computer program product for selecting field-of-view of interest
US10579879B2 (en) * 2016-08-10 2020-03-03 Vivint, Inc. Sonic sensing
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018159759A (ja) 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US11463615B2 (en) * 2019-03-13 2022-10-04 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus
EP3719529A1 (en) 2019-03-20 2020-10-07 Ricoh Company, Ltd. Range finding device and range finding method
CN113596409B (zh) * 2021-08-17 2022-04-01 深圳市威视达康科技有限公司 一种摄像头自动布撤防方法、控制器及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0356291U (ja) * 1989-10-02 1991-05-30
JPH0515587U (ja) * 1991-07-31 1993-02-26 ミノルタカメラ株式会社 ビデオ装置
JP2003195883A (ja) * 2001-12-26 2003-07-09 Toshiba Corp 雑音除去装置およびその装置を備えた通信端末
JP2008011264A (ja) * 2006-06-29 2008-01-17 Canon Inc 撮像装置及びその制御方法及びプログラム及び記憶媒体
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP2009527801A (ja) * 2006-02-21 2009-07-30 株式会社ソニー・コンピュータエンタテインメント 話者適応を用いた音声認識とピッチによる登録

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100270293B1 (ko) * 1991-11-26 2000-10-16 사토 게니치로 녹음장치 및 이것을 이용한 비디오 장치
US6483532B1 (en) * 1998-07-13 2002-11-19 Netergy Microelectronics, Inc. Video-assisted audio signal processing system and method
JP2000187499A (ja) 1998-12-24 2000-07-04 Fujitsu Ltd 音声入力装置及び音声入力方法
JP4441879B2 (ja) * 2005-06-28 2010-03-31 ソニー株式会社 信号処理装置および方法、プログラム、並びに記録媒体
US7483061B2 (en) * 2005-09-26 2009-01-27 Eastman Kodak Company Image and audio capture with mode selection
US8218033B2 (en) * 2007-09-10 2012-07-10 Sanyo Electric Co., Ltd. Sound corrector, sound recording device, sound reproducing device, and sound correcting method
JP2010016621A (ja) * 2008-07-03 2010-01-21 Sony Corp 画像データ処理装置と画像データ処理方法およびプログラムと記録媒体
JP2010045626A (ja) * 2008-08-13 2010-02-25 Hoya Corp 撮像装置
JP2010111275A (ja) * 2008-11-06 2010-05-20 Alpine Electronics Inc 車載用警告装置、警告方法および警告プログラム
JP5219761B2 (ja) * 2008-12-02 2013-06-26 キヤノン株式会社 撮像装置
EP2416559A4 (en) * 2009-03-31 2017-08-23 Panasonic Intellectual Property Corporation of America Image capturing device, integrated circuit, image capturing method, program, and recording medium
JP2011071962A (ja) * 2009-08-28 2011-04-07 Sanyo Electric Co Ltd 撮像装置及び再生装置
JP5597956B2 (ja) * 2009-09-04 2014-10-01 株式会社ニコン 音声データ合成装置
US20120050570A1 (en) * 2010-08-26 2012-03-01 Jasinski David W Audio processing based on scene type

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0356291U (ja) * 1989-10-02 1991-05-30
JPH0515587U (ja) * 1991-07-31 1993-02-26 ミノルタカメラ株式会社 ビデオ装置
JP2003195883A (ja) * 2001-12-26 2003-07-09 Toshiba Corp 雑音除去装置およびその装置を備えた通信端末
JP2009527801A (ja) * 2006-02-21 2009-07-30 株式会社ソニー・コンピュータエンタテインメント 話者適応を用いた音声認識とピッチによる登録
JP2008011264A (ja) * 2006-06-29 2008-01-17 Canon Inc 撮像装置及びその制御方法及びプログラム及び記憶媒体
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013013066A (ja) * 2011-05-27 2013-01-17 Canon Inc 音検出装置及びその制御方法、プログラム
JP2013172313A (ja) * 2012-02-21 2013-09-02 Nikon Corp 情報処理装置及び情報処理プログラム
JP2020156076A (ja) * 2019-03-13 2020-09-24 パナソニックIpマネジメント株式会社 撮像装置
JP7217471B2 (ja) 2019-03-13 2023-02-03 パナソニックIpマネジメント株式会社 撮像装置

Also Published As

Publication number Publication date
US20110102619A1 (en) 2011-05-05
US8456542B2 (en) 2013-06-04

Similar Documents

Publication Publication Date Title
JP2011101110A (ja) 撮像装置
JP4441879B2 (ja) 信号処理装置および方法、プログラム、並びに記録媒体
KR101063032B1 (ko) 노이즈 저감 방법 및 장치
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
KR101739942B1 (ko) 오디오 노이즈 제거 방법 및 이를 적용한 영상 촬영 장치
JP2008197577A (ja) 音声処理装置、音声処理方法およびプログラム
JP4715738B2 (ja) 発話検出装置及び発話検出方法
JP2010130487A (ja) 撮像装置、情報処理方法、プログラムおよび記憶媒体
JP6610725B2 (ja) 音処理装置および音処理プログラム
JP2011254400A (ja) 画像音声記録装置
JP2011114465A (ja) 音声処理装置及び電子カメラ
JP2012114842A5 (ja) 撮像装置とその制御方法並びに音声処理装置及び方法
JP2011139306A (ja) 撮像装置及び再生装置
JP2014122978A (ja) 撮像装置、音声認識方法、及びプログラム
JP5638897B2 (ja) 撮像装置
JP5645373B2 (ja) 音声処理装置、音声処理方法
JP2013178458A (ja) 信号処理装置及び信号処理プログラム
JP2011124850A (ja) 撮像装置並びにその制御方法及びプログラム
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP6381366B2 (ja) 音声処理装置、音声処理方法、及び、プログラム
US20240107226A1 (en) Image pickup apparatus capable of efficiently retrieving subject generating specific sound from image, control method for image pickup apparatus, and storage medium
JP5171370B2 (ja) 音声処理装置及び電子機器並びに音声処理方法
JP2013131894A (ja) 撮像装置と撮像環境判別方法およびプログラム
JP5146666B2 (ja) 撮像装置
JP5072714B2 (ja) 音声記録装置及び音声再生装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130723

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131119