JP2011101110A

JP2011101110A - 撮像装置

Info

Publication number: JP2011101110A
Application number: JP2009253154A
Authority: JP
Inventors: Norikatsu Niinami; 紀克新浪
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2009-11-04
Filing date: 2009-11-04
Publication date: 2011-05-19
Also published as: US20110102619A1; US8456542B2

Abstract

【課題】被写体である人物の声を鮮明に記録する撮像装置を提供する。
【解決手段】被写体を撮像する撮像手段と、音声を入力する音声入力手段と、撮像手段により撮像された被写体が発声を行っているかどうかを判定する発声判定手段と、を有し、発声判定手段により被写体が発声を行っていると判定されたときに、被写体の特性を判定し、音声入力手段により入力された音声のうち、被写体の特性に適した帯域を強調して記録する。
【選択図】図３

Description

本発明は、音声を記録する撮像装置に関する。

ビデオカメラなどの撮像装置では動画とともに音声も記録される。通常、音声を記録する際、被写体の発した声などの録音したい音声だけでなく、周囲の雑音なども一緒に記録されてしまう。このため、被写体の声などの記録したい音声を鮮明に記録することができないことがあった。

そこで、例えば、特許文献１では、発話者の口の開きを検出することにより、発声の行われた期間を検知し、この発声期間は記録する音声帯域を制限することにより、発話者の声をより良く認識できるようにする方法が開示されている。

しかしながら、特許文献１に開示された方法では、音声認識処理をする際に、発話者が大人であるか、子供であるかは考慮していない。通常、大人と子供とでは、発声される周波数帯が異なる。このため、特許文献１により開示された方法では、発話者の声が周囲の雑音に埋もれてしまい、声を鮮明に記録できないことがあった。

そこで本発明は、上記問題点に鑑みてなされたもので、被写体である人物の声を鮮明に記録する撮像装置を提供することを目的とする。

上記課題を解決するため、本発明における撮像装置は、被写体を撮像する撮像手段と、音声を入力する音声入力手段と、前記撮像手段により撮像された被写体が発声を行っているかどうかを判定する発声判定手段と、を有し、前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記被写体の特性を判定し、前記音声入力手段により入力された音声のうち、前記被写体の特性に適した帯域を強調して記録することを特徴とする。

また、本発明における撮像装置は、被写体を撮像する撮像手段と、音声を入力する音声入力手段と、前記撮像手段により撮像された被写体の顔を検出する顔検出手段と、前記顔検出手段により前記被写体の顔が検出されたときに、当該検出された顔のエリアから唇のエリアを検出する唇検出手段と、前記唇検出手段により前記顔のエリアから前記唇のエリアが検出されたときに、前記顔のエリアの動き量と前記唇のエリアの動き量と検出する動き量検出手段と、前記動き量検出手段により検出された前記顔のエリアの動き量と前記唇のエリアの動き量とに基づき、前記撮像手段により撮像された被写体が発声を行っているかどうかを判定する発声判定手段と、を有し、前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記音声入力手段により入力された音声のうちの所定の帯域を強調して記録することを特徴とする。

本発明により、被写体である人物の声を鮮明に記録することができる。

本発明の実施形態に係る撮像装置の構成を示す図である。本発明の実施形態に係る撮像装置における処理動作を示す図である。本発明の実施形態に係る撮像装置における処理動作を示す図である。本発明の実施形態に係る撮像装置における処理動作を示す図である。

次に、発明を実施するための形態について図面を参照して詳細に説明する。

図１は、本発明の実施形態に係る撮像装置の構成を示す図である。この撮像装置は、フォーカスレンズ１と、撮像素子２と、増幅器３と、Ａ／Ｄ変換器４と、画像信号処理部５と、画像音声記録再生処理部６と、ＣＰＵ（Central Processing Unit）７と、撮像素子駆動部（ＴＧ）８と、フォーカスレンズ駆動部９と、音声記録用マイク１０と、音声信号処理前増幅器１１と、音声信号Ａ／Ｄ変換器１２と、音声信号処理部１３と、音声信号処理後増幅器１４と、を備えて構成されている。

フォーカスレンズ１は、対象物の像を結像するレンズである。撮像素子２は、素子上に結像された像を電気信号（画像信号）に変換する。増幅器３は、信号を増幅する。Ａ／Ｄ変換器４は、アナログ信号をデジタル信号に変換する。画像信号処理部５は、画像信号に後述する処理を施す。撮像素子駆動部８は、撮像素子２を駆動する。フォーカスレンズ駆動部９は、フォーカスレンズ１を駆動する。

図１に示す構成では、対象物の像がフォーカスレンズ１により撮像素子２に結像し、撮像素子２は、このフォーカスレンズにより結像された対象物の像を電気信号（画像信号）に変換し、増幅器３に出力する。増幅器３は、撮像素子２から出力された画像信号を増幅し、Ａ／Ｄ変換器４は、この増幅された画像信号をデジタル信号に変換することにより、デジタル化された画像信号を生成する。画像信号処理部５は、このデジタル化された画像信号に後述する処理を施す。また、撮像素子駆動部８は、ＣＰＵ７の制御により撮像素子２を駆動する。フォーカスレンズ駆動部９は、ＣＰＵ７の制御によりフォーカスレンズ１を駆動する。つまり、図１に示す構成により、対象物の像の画像信号に処理を施すことができる。また、連続して撮像を行うことにより、撮像された画像信号それぞれを動画を構成するフレーム画像として記録することが可能になる。

音声記録用マイク１０は、外部の音声を音声信号に変換する。つまり、音声記録用マイク１０は、外部の音声を音声信号として、撮像装置に入力する音声入力手段として機能する。音声信号処理前増幅器１１は、音声信号を増幅する。音声信号Ａ／Ｄ変換器１２は、アナログの音声信号をデジタル化された音声信号に変換する。音声信号処理部１３は、音声信号に後述する処理を施す。音声信号処理後増幅器１４は、音声信号を増幅する。

図１に示す構成では、外部の音声がマイク１０により音声信号として入力され、音声信号処理前増幅器１１は、このマイク１０から入力された音声信号を増幅する。音声信号Ａ／Ｄ変換器１２は、音声信号処理前増幅器１１により増幅された音声信号をデジタル信号に変換することによりデジタル化された音声信号を生成する。音声信号処理部１３は、この音声信号Ａ／Ｄ変換器によりデジタル化された音声信号に後述する処理を施す。音声処理後増幅器１４は、この音声信号処理部１３により処理が施された音声信号を増幅する。つまり、図１に示す構成により、外部の音声の音声信号に処理を施すことができる。

画像音声記録再生処理部６は、画像信号処理部５により処理が施された画像信号と、音声信号処理部１３に処理された後に音声信号処理後増幅器１４により増幅された音声信号と、を合成し、画像音声データとして記録する。また、画像音声記録再生処理部６は、この記録された画像音声データを再生するようにしても良い。

ＣＰＵ７は、フォーカスレンズ駆動部９を制御することによりフォーカスレンズ１を駆動する。また、ＣＰＵ７は、撮像素子駆動部８を制御することにより撮像素子１を駆動する。また、ＣＰＵ７は、増幅器３、画像信号処理部５、音声信号処理前増幅器１１、音声信号処理部１３、音声信号処理後増幅器１４などを制御するようにしても良い。

音声信号処理部１３は、被写体の声などを明確に認識できるように、音声信号に処理を施す。被写体の声などを明確に認識できるように、音声信号に処理を施す方法としては、いろいろと考えられる。例えば、音声信号処理部１３は、入力された音声信号のうちで、出力する音声信号を被写体の声などに適した帯域に制限するようにすると良い。このようにすることにより、人の声などを明確に認識することができる音声信号を出力することが可能になる。

音声信号処理部１３は、出力する音声信号の帯域を制限する方法としてはいろいろと考えられる。例えば、音声信号処理部１３は、帯域を制限するフィルタ回路である帯域制限フィルタ回路（Band-Pass Filter：BPF）を備えるようにし、帯域制限フィルタ回路により、音声の帯域制限を行うようにすると良い。または、音声信号処理部１３は、音声信号を記録し、この記録された音声信号から必要な帯域に関わる信号部分だけを抽出することにより出力する音声信号を生成するようにしても良い。また、音声信号処理部１３は、音声信号からある帯域の信号を増幅し、それ以外の帯域の信号を減衰することにより帯域制限を行うようにしても良い。

また、音声信号処理部１３は、フィルタ特性を変えることができるように、例えば、大人の声の帯域に最適化したフィルタ特性と、子供の声の帯域に最適化したフィルタ特性と、を切り替えることができるようにする。つまり、音声信号処理部１３は、制限する帯域を切り替えることにより、大人の声に適した帯域に制限した音声信号を出力することや、子供の声に適した帯域に制限した音声信号を出力することができるようにすると良い。

大人の声の周波数帯は、１００〜８０００Ｈｚであるため、大人の声を鮮明に記録するためには、入力された音声信号から、１００〜８０００Ｈｚの音声信号だけを抽出し、出力するようにすると良い。また、子供の声の周波数帯は、１５０〜１００００Ｈｚであるため、大人の声を鮮明に記録するためには、入力された音声信号から、１５０〜１００００Ｈｚの音声信号だけを抽出し、出力するようにすると良い。また、他の周波数帯の音声信号だけを抽出し、出力できるようにしても良い。例えば、動物の声や、車や飛行機のエンジン音などを抽出し、出力できるようにしても良い。

画像信号処理部５は、入力された画像データ（画像信号）から、被写体中の顔を検出する顔検出手段を備えている。被写体中の顔を検出する方法としては、いろいろと考えられる。例えば、あらかじめ顔の特徴付ける情報を記憶しておき、被写体がこの情報と一致したときに顔を検出したと判断する方法などが考えられる。また、画像信号処理部５は、顔以外のものを検出できるようにしても良い。例えば、動物や車、飛行機などの特徴を記憶しておき、被写体がこの特徴と一致したときに車や飛行機を検出したと判断できるようにしても良い。

また、画像信号処理部５は、検出された顔のエリアのサイズを測定する顔サイズ測定手段を備えている。顔のエリアのサイズを測定する方法としてはいろいろと考えられるが、例えば、顔のエリアが画像フレームに占める割合を算出する方法でも良いし、単純に、顔のエリアの面積を算出する方法でも良い。

また、画像信号処理部５は、検出された顔のエリアから唇のエリアを検出する唇検出手段も備えている。唇のエリアを検出する方法もいろいろと考えられるが、例えば、唇の特徴を記憶しておき、この特徴と一致したときに唇を検出したと判断する方法などが考えられる。この唇検出手段により、顔のエリアにおける唇の有無や、唇のあるエリアを検出することができるようになる。

また、画像信号処理部５は、画像フレーム間での顔エリアの動き量と、唇エリアの動き量を検出する動き量検出手段も備える。顔エリアの動き量、唇エリアの動き量としては、いろいろと考えられるが、例えば、連続する２つの画像フレームにおける顔エリアの移動量（ベクトル量）と唇エリアの移動量（ベクトル量）をそれぞれ、顔エリアの動き量と唇エリアの動き量としても良い。

そして、画像信号処理部５は、この動き量検出手段により検出された顔エリアの動き量と唇エリアの動き量とに基づいて、被写体が声を発しているかどうかを判定する発声判定手段も備える。この動き量検出手段により検出された顔エリアの動き量と唇エリアの動き量とに基づいて、被写体が声を発しているかどうかを判定する方法としてはいろいろと考えられるが、例えば、次のように行うと良い。

顔エリアの動き量をＦｍ、唇エリアの動き量をＭｍとしたときに、
｜Ｆｍ−Ｍｍ｜＞ＳｕｂＡ
であるならば、「被写体は発声している」と判定し、
｜Ｆｍ−Ｍｍ｜≦ＳｕｂＢ
であるならば、「被写体は発声していない」と判定する。ここで、ＳｕｂＡ、ＳｕｂＢは、ＳｕｂＢ≦ＳｕｂＡを満たす定数である。しかし、撮影画角を変更することにより、顔エリアの画面上に占める領域の大きさが変化するため、ＳｕｂＡ、ＳｕｂＢは撮影画角により大きさを変える。

また、
ＳｕｂＢ＜｜Ｆｍ―Ｍｍ｜≦ＳｕｂＡ・・・（１）
であるならば、直前のフレームの判定結果を継続する。つまり、上記の式（１）が満たされているときは、直前のフレームでの判定が、「被写体は発声している」であったならば、「被写体は発声している」と判定し、直前のフレームでの判定が、「被写体は発声していない」であったならば、「被写体は発声していない」と判定する。

上記の方法により、「被写体が発声している」と判定されたときは、音声信号処理部１３により、人の声に適した帯域に制限するようにするようにすると良い。例えば、画像信号処理部５は、発声判定手段により「被写体が発声している」と判定されたときは、ＣＰＵ７に通知をし、ＣＰＵ７はこの通知を受けたときは、音声信号を帯域制限するように音声信号処理部１３を制御するようにすれば良い。このようにすることにより、人の声を明確に認識することができる音声信号を出力することが可能になる。つまり、人の声を明確に認識することができる音声信号を記録することが可能になる。

また、上記では、２つの定数を使用し、３つに場合分けをしたが、定数を１つだけ使用し、２つに場合分けするようにしても良い。つまり、｜Ｆｍ−Ｍｍ｜の値が所定の定数より大きいときは、「被写体は発声している」と判定し、｜Ｆｍ−Ｍｍ｜の値が所定の定数より小さいときは、「被写体は発声していない」と判定するようにしても良い。

また、本発明の実施形態に係る撮像装置は、被写体までの距離を測定する距離測定手段を備えるようにする。被写体までの距離を測定する方法としては、いろいろと考えられる。例えば、赤外線を発光する発光部と受光する受光部とを備えるようにし、発光部から発光され、被写体により反射された赤外線を受光部により受光することにようにすることにより距離を測定することができる。また、画像を利用し、被写体までの距離を測定する方法としては、例えば、位相差検出方式や、コントラスト検出方式、パッシブ光方式などがある。例えば、オートフォーカス機能を撮像装置は、これらの方法により、被写体までの距離の測定を行っている。よって、オートフォーカス機能を備えた撮像装置であれば、被写体までの距離の測定するときに、オートフォーカス機能により出力される被写体の焦点距離を使用することにすれば良い。

この距離測定手段により測定された被写体までの距離を使用し、フォーカスレンズ１の位置を制御することにより、被写体に焦点を合わせた撮像を行うことが可能になる。つまり、距離測定手段により測定された被写体までの距離をＣＰＵ７に出力し、ＣＰＵ７が、この被写体までの距離に基づき、被写体に焦点が合うように、フォーカスレンズ駆動部９を制御し、フォーカスレンズ１を駆動するようにすることにより、被写体に焦点を合わせた撮像を行うことが可能になる。

ＣＰＵ７は、距離測定手段により測定された被写体までの距離と、画像信号処理部５の顔サイズ測定手段により測定された被写体の顔のエリアのサイズと、に基づいて、被写体の顔のサイズを算出する。

ＣＰＵ７は、この算出された被写体の顔のサイズに基づいて、被写体が子供であるのか大人であるのかの判断を行う。被写体の顔のサイズに基づいて、被写体が子供であるのか大人であるのかの判断を行う方法としてはいろいろと考えられるが、例えば、次のように行うと良い。

被写体の顔のサイズをＦとしたときに、
Ｆ＞α
であるならば、「被写体は大人である」と判定し、
Ｆ≦β
であるならば、「被写体は子供である」と判定する。ここで、α、βは、β≦αを満たす定数であり、判定を行うための閾値である。α、βの値は、例えば、あらかじめ、多くの大人の顔のサイズと多くの子供の顔のサイズを統計的に解析することにより求めるようにすると良い。また、α、βの値は、被写体までの距離などにより変更するようにしても良い。

また、
β＜Ｆ≦α ・・・（２）
であるならば、直前のフレームの判定結果を継続する。つまり、上記の式（２）が満たされているときは、直前のフレームでの判定が、「被写体は大人である」であったならば、「被写体は大人である」と判定し、直前のフレームでの判定が、「被写体は子供である」であったならば、「被写体は子供である」と判定する。

上記の方法により、「被写体は大人である」と判定されたときは、音声信号処理部１３により、大人の声に適した帯域に制限するようにすると良い。また、「被写体は子供である」と判定されたときは、音声信号処理部１３により、子供の声に適した帯域に制限するようにすると良い。例えば、ＣＰＵ７は、「被写体は大人である」と判定したときは、音声信号を大人の声に適した帯域に制限するように音声信号処理部１３を制御し、「被写体は子供である」と判定したときは、音声信号を子供の声に適した帯域に制限するように音声信号処理部１３を制御するようにすれば良い。このようにすることにより、人の声をより明確に認識することができる音声信号を出力することが可能になる。つまり、人の声をより明確に認識することができる音声信号を記録することが可能になる。

デジタルカメラやビデオカメラなどにより動画を撮影する際に、上記の方法を使用することにより、被写体の声を明確に認識できるような音声記録を確実に行えるようになる。

また、上記では、２つの定数を使用し、３つに場合分けをしたが、定数を１つだけ使用し、２つに場合分けするようにしても良い。つまり、Ｆの値が所定の定数より大きいときは、「被写体は大人である」と判定し、Ｆの値が所定の定数より小さいときは、「被写体は子供である」と判定するようにしても良い。

また、画角内に大人と子供の両方が入っているときは、大人と子供のうちの主要被写体の方に適した帯域に制限しても良いし、人の声全般に適した帯域に制限するようにしても良い。大人と子供のうち、主要被写体を決定する方法としてはいろいろと考えられるが、オートフォーカス機能を備えた撮像装置であれば、オートフォーカス機能により主要被写体と判定された被写体を主要被写体と決定すれば良い。また、オートフォーカス機能により、大人と子供の両方が主要被写体であると判定されたときは、大人の声に適した帯域に制限するようにしても良いし、人の声全般に適した帯域に制限するようにしても良い。

また、本発明の実施形態に係る撮像装置は、撮影を行っている場所が屋外であるかどうかを判定する屋外判定手段を備えるようにすると良い。撮影を行っている場所が屋外であるかどうかを判定する方法としてはいろいろと考えられる。例えば、オートホワイトバランス機能を備えた撮像装置において行われる方法を使用することにより、撮影を行っている場所が屋外であるかどうかを判定することが可能になる。

オートホワイトバランス機能を備えた撮像装置では、画像信号におけるＲ成分、Ｂ成分、Ｇ成分の比率から、撮影時の光源の推測を行うことでホワイトバランスの調整を行っている。つまり、画像信号におけるＲ成分、Ｂ成分、Ｇ成分の比率から、撮影時の光源の推測を行うことが可能である。よって、オートホワイトバランス機能を備えた撮像装置と同様の方法により、光源が太陽光であると推測されたならば、「撮影は屋外で行われている」と判定することが可能になる。また、光源が太陽光以外であると推測されるならば、「撮影は屋外で行われていない」と判定することが可能になる。

そして、本発明の実施形態に係る撮像装置は、この屋外判定手段により「撮影は屋外で行われている」と判定されたときには風などによるノイズを除去するノイズ除去手段を備えるようにすると良い。風などによるノイズを除去する方法としてはいろいろと考えられる。例えば、音声信号処理前増幅器１１のゲインを通常の増幅率より小さく設定し、音声信号処理後増幅器１４の増幅率を通常より大きくすることで風によるノイズを小さくすることができる。このようにすることにより、屋外で撮影を行った場合でも、人の声を明確に認識することができる音声信号を記録することが可能になる。

図２は、本発明の実施形態に係る撮像装置における処理動作を示す図である。顔検出手段により、被写体中の顔を検出する（Ｓ１０１）。被写体中の顔が検出されなかったときは（Ｓ１０１、Ｎｏ）、音声信号処理部１３により帯域制限を行わない（Ｓ１０２）。つまり、音声信号処理部１３は入力された音声信号に何の処理も行わずに出力するようにする。

被写体中の顔が検出されたときは（Ｓ１０１、Ｙｅｓ）、唇検出手段により、検出された顔のエリアから唇を検出する（Ｓ１０３）。顔のエリアから唇が検出されなかったときは（Ｓ１０３、Ｎｏ）、音声信号処理部１３により帯域制限を行わない（Ｓ１０２）。つまり、音声信号処理部１３は入力された音声信号に何の処理も行わずに出力するようにする。

顔のエリアから唇が検出されたときは（Ｓ１０３、Ｙｅｓ）、動き量検出手段により、顔エリアの動き量と唇エリアの動き量とを検出する（Ｓ１０４）。この動き検出手段により検出された顔エリアの動き量と唇エリアの動き量とに基づき、発声判定手段により被写体が発声しているかどうかの判定を行う（Ｓ１０５）。「被写体は発声している」と判定されたときは（Ｓ１０５、Ｙｅｓ）、音声信号処理部１３により帯域制限を行う（Ｓ１０６）。「被写体は発声していない」と判定されたときは（Ｓ１０５、Ｎｏ）、音声信号処理部１３により帯域制限を行わない（Ｓ１０２）。つまり、音声信号処理部１３は入力された音声信号に何の処理も行わずに出力するようにする。

このようにすることにより、被写体の声を強調することができ、人の声をより鮮明に記録することが可能になる。また、図２に示した処理動作は、例えば、フレームごとに行われるようにすると良い。このようにすることにより、被写体が発声している期間を正確に知ることができ、被写体が発声している期間だけ帯域制限を行うことができるようになる。

図３は、本発明の実施形態に係る撮像装置における処理動作を示す図である。顔検出手段により、被写体中の顔を検出する（Ｓ２０１）。被写体中の顔が検出されなかったときは（Ｓ２０１、Ｎｏ）、音声信号処理部１３により帯域制限を行わない（Ｓ２０２）。つまり、音声信号処理部１３は入力された音声信号に何の処理も行わずに出力するようにする。

被写体中の顔が検出されたときは（Ｓ２０１、Ｙｅｓ）、唇検出手段により、検出された顔のエリアから唇を検出する（Ｓ２０３）。顔のエリアから唇が検出されなかったときは（Ｓ２０３、Ｎｏ）、音声信号処理部１３により帯域制限を行わない（Ｓ２０２）。つまり、音声信号処理部１３は入力された音声信号に何の処理も行わずに出力するようにする。

顔のエリアから唇が検出されたときは（Ｓ２０３、Ｙｅｓ）、動き量検出手段により、顔エリアの動き量と唇エリアの動き量とを検出する（Ｓ２０４）。この動き検出手段により測定された顔エリアの動き量と唇エリアの動き量とに基づき、発声判定手段により被写体が発声しているかどうかの判定を行う（Ｓ２０５）。「被写体は発声していない」と判定されたときは（Ｓ２０５、Ｎｏ）、音声信号処理部１３により帯域制限を行わない（Ｓ２０２）。つまり、音声信号処理部１３は入力された音声信号に何の処理も行わずに出力するようにする。

「被写体は発声している」と判定されたときは（Ｓ２０５、Ｙｅｓ）、ＣＰＵ７は、距離測定手段により測定された被写体までの距離と、画像信号処理部５の顔サイズ測定手段により検出された被写体の顔のエリアのサイズと、に基づいて、被写体の顔のサイズを算出し、この算出された被写体の顔のサイズに基づいて、被写体が大人であるのか子供であるのかの判定を行う（Ｓ２０６）。「被写体は大人である」と判定されたときは（Ｓ２０６、Ｙｅｓ）、音声信号処理部１３により大人の声に適した帯域制限を行う（Ｓ２０７）。「被写体は子供である」と判定されたときは（Ｓ２０６、Ｎｏ）、音声信号処理部１３により子供の声に適した帯域制限を行う（Ｓ２０８）。

このようにすることにより、被写体の声に適した帯域の音声だけを記録することができ、人の声をより鮮明に記録することが可能になる。また、図３に示した処理動作は、例えば、フレームごとに行われるようにすると良い。このようにすることにより、被写体が発声している期間を正確に知ることができ、被写体が発声している期間だけ帯域制限を行うことができるようになる。

図４は、本発明の実施形態に係る撮像装置における処理動作を示す図である。屋外判定手段により撮影場所が屋外であるかどうかを判定する（Ｓ３０１）。「撮影は屋外で行われている」と判定されたときは（Ｓ３０１、Ｙｅｓ）、ノイズ除去手段により風のノイズを除去する（Ｓ３０２）。

このようにすることにより、風のノイズなどを記録せずに被写体の声を記録することができ、人の声をより鮮明に記録することが可能になる。また、図４に示した処理動作は、例えば、フレームごとに行われるようにすると良い。このようにすることにより、屋外である期間だけノイズの除去を行うことができるようになる。

また、図４に示した処理動作を図２の処理動作の後に連続して行うようにすると良い。このようにすることにより、人の声をより鮮明に記録することが可能になる。また、この連続した処理動作を、例えば、フレームごとに行われるようにすると良い。

また、図４に示した処理動作を図３の処理動作の後に連続して行うようにすると良い。このようにすることにより、人の声をより鮮明に記録することが可能になる。また、この連続した処理動作を、例えば、フレームごとに行われるようにすると良い。

上述した実施形態における処理動作は、ハードウェア、または、ソフトウェア、あるいは、両者の複合構成によって実行することも可能である。

なお、ソフトウェアによる処理を実行する場合には、処理シーケンスを記録したプログラムが格納されているＲＯＭ（Read Only Memory）から、専用のハードウェアに組み込まれているコンピュータ内のメモリ（ＲＡＭ）にプログラムを読み込んで実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。

例えば、プログラムは、記録媒体としてのハードディスクやＲＯＭに予め記録しておくことが可能である。あるいは、プログラムは、フロッピー（登録商標）ディスク等の磁気ディスク、ＣＤ（Compact Disc）、ＤＶＤ(Digital Versatile Disc)等の光ディスク、ＭＯ（Magneto Optical）ディスク等の光磁気ディスクなどのリムーバブル記録媒体に、一時的、あるいは、永続的に格納（記録）しておくことが可能である。

このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することが可能である。

なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、ＬＡＮ（Local Area Network）、インターネットといったネットワークを介して、コンピュータに有線で転送したりし、コンピュータでは、転送されてきたプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることが可能である。

また、上記実施形態で説明した処理動作に従って時系列的に実行されるのみならず、処理を実行する装置の処理能力、あるいは、必要に応じて並列的にあるいは個別に実行するように構築することも可能である。

また、上記実施形態で説明したシステムは、複数の装置の論理的集合構成にしたり、各装置の機能を混在させたりするように構築することも可能である。

以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範囲な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更が可能である。

また、本発明における撮像装置は、前記撮像手段により撮像された被写体の顔を検出する顔検出手段と、前記顔検出手段により前記被写体の顔が検出されたときに、当該検出された顔のエリアから唇のエリアを検出する唇検出手段と、前記唇検出手段により前記顔のエリアから前記唇のエリアが検出されたときに、前記顔のエリアの動き量と前記唇のエリアの動き量と検出する動き量検出手段と、を有し、前記発生判定手段は、前記動き量検出手段により検出された前記顔のエリアの動き量と前記唇のエリアの動き量とに基づき、前記被写体が発声を行っているかどうかを判定するようにしても良い。

また、本発明における撮像装置は、前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記被写体が大人であるか子供であるかを判定する被写体判定手段を有し、前記被写体判定手段により前記被写体が大人であると判定されたときは、前記音声入力手段により入力された音声のうち、大人の声に適した帯域を強調して記録し、前記被写体判定手段により前記被写体が子供であると判定されたときは、前記音声入力手段により入力された音声のうち、子供の声に適した帯域を強調して記録するようにしても良い。

また、本発明における撮像装置は、前記被写体までの距離を測定する距離測定手段と、前記顔検出手段により検出された前記被写体の顔のエリアのサイズを測定する顔サイズ測定手段と、前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記距離測定手段により測定された前記被写体までの距離と前記顔サイズ測定手段により測定された前記被写体の顔のエリアのサイズとの基づき、前記被写体の顔のサイズを算出する顔サイズ算出手段と、前記顔サイズ算出手段により算出された顔のサイズに基づき、前記被写体が大人であるか子供であるかを判定する被写体判定手段と、を有し、前記被写体判定手段により前記被写体が大人であると判定されたときは、前記音声入力手段により入力された音声のうち、大人の声に適した帯域を強調して記録し、前記被写体判定手段により前記被写体が子供であると判定されたときは、前記音声入力手段により入力された音声のうち、子供の声に適した帯域を強調して記録するようにしても良い。

また、本発明における撮像装置は、撮影が屋外で行われているかどうかを判定する屋外判定手段を、有し、前記屋外判定手段により撮影が屋外で行われていると判定されたときは、ノイズの除去を行うようにしても良い。

１フォーカスレンズ
２撮像素子
３増幅器
４Ａ／Ｄ変換器
５画像信号処理部
６画像音声記録再生処理部
７ＣＰＵ
８撮像素子駆動部
９フォーカスレンズ駆動部
１０音声記録用マイク
１１音声信号処理前増幅器
１２音声信号Ａ／Ｄ変換器
１３音声信号処理部
１４音声信号処理後増幅器

特開２０００−１８７４９９号公報

Claims

被写体を撮像する撮像手段と、
音声を入力する音声入力手段と、
前記撮像手段により撮像された被写体が発声を行っているかどうかを判定する発声判定手段と、を有し、
前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記被写体の特性を判定し、前記音声入力手段により入力された音声のうち、前記被写体の特性に適した帯域を強調して記録することを特徴とする撮像装置。
前記撮像手段により撮像された被写体の顔を検出する顔検出手段と、
前記顔検出手段により前記被写体の顔が検出されたときに、当該検出された顔のエリアから唇のエリアを検出する唇検出手段と、
前記唇検出手段により前記顔のエリアから前記唇のエリアが検出されたときに、前記顔のエリアの動き量と前記唇のエリアの動き量と検出する動き量検出手段と、を有し、
前記発生判定手段は、前記動き量検出手段により検出された前記顔のエリアの動き量と前記唇のエリアの動き量とに基づき、前記被写体が発声を行っているかどうかを判定することを特徴とする請求項１に記載の撮像装置。
前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記被写体が大人であるか子供であるかを判定する被写体判定手段を有し、
前記被写体判定手段により前記被写体が大人であると判定されたときは、前記音声入力手段により入力された音声のうち、大人の声に適した帯域を強調して記録し、前記被写体判定手段により前記被写体が子供であると判定されたときは、前記音声入力手段により入力された音声のうち、子供の声に適した帯域を強調して記録することを特徴とする請求項１または２に記載の撮像装置。
前記被写体までの距離を測定する距離測定手段と、
前記顔検出手段により検出された前記被写体の顔のエリアのサイズを測定する顔サイズ測定手段と、
前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記距離測定手段により測定された前記被写体までの距離と前記顔サイズ測定手段により測定された前記被写体の顔のエリアのサイズとの基づき、前記被写体の顔のサイズを算出する顔サイズ算出手段と、
前記顔サイズ算出手段により算出された顔のサイズに基づき、前記被写体が大人であるか子供であるかを判定する被写体判定手段と、を有し、
前記被写体判定手段により前記被写体が大人であると判定されたときは、前記音声入力手段により入力された音声のうち、大人の声に適した帯域を強調して記録し、前記被写体判定手段により前記被写体が子供であると判定されたときは、前記音声入力手段により入力された音声のうち、子供の声に適した帯域を強調して記録することを特徴とする請求項２に記載の撮像装置。
撮影が屋外で行われているかどうかを判定する屋外判定手段を、有し、
前記屋外判定手段により撮影が屋外で行われていると判定されたときは、ノイズの除去を行うことを特徴とする請求項１から４のいずれか１項に記載の撮像装置。
被写体を撮像する撮像手段と、
音声を入力する音声入力手段と、
前記撮像手段により撮像された被写体の顔を検出する顔検出手段と、
前記顔検出手段により前記被写体の顔が検出されたときに、当該検出された顔のエリアから唇のエリアを検出する唇検出手段と、
前記唇検出手段により前記顔のエリアから前記唇のエリアが検出されたときに、前記顔のエリアの動き量と前記唇のエリアの動き量と検出する動き量検出手段と、
前記動き量検出手段により検出された前記顔のエリアの動き量と前記唇のエリアの動き量とに基づき、前記撮像手段により撮像された被写体が発声を行っているかどうかを判定する発声判定手段と、を有し、
前記発声判定手段により前記被写体が発声を行っていると判定されたときに、前記音声入力手段により入力された音声のうちの所定の帯域を強調して記録することを特徴とする撮像装置。