JP5214394B2

JP5214394B2 - カメラ

Info

Publication number: JP5214394B2
Application number: JP2008262448A
Authority: JP
Inventors: 博飯塚; 浩輔松原; 修野中
Original assignee: Olympus Imaging Corp
Current assignee: Olympus Imaging Corp
Priority date: 2008-10-09
Filing date: 2008-10-09
Publication date: 2013-06-19
Anticipated expiration: 2028-10-09
Also published as: JP2010093603A

Description

本発明は、カメラに関し、詳しくは、撮影時に周囲の環境音を録音可能なカメラに関する。

近年、大画面テレビが普及してきており、撮影画像を大画面テレビに再生表示して楽しむことが行われている。また、テレビの画質も向上してきており、消費電力も低減されてきていることから、撮影画像をポスターのように表示し、画像をインテリアとして楽しむことも行われている。さらに、デジタル画像を表示するためのデジタルフォトフレームも普及してきている。このように、最近では、生活を撮影画像で彩ることが行われている。

インテリア感覚での表示にあたっては、画像は押しつけがましいものではなく、雄大な風景や美しい花鳥風月など、癒されるものが求められており、従来のような動画とは異なる撮影方法や、また表示方法が必要となってきている。

また、インタリア感覚で撮影画像を表示するにあたって、撮影時に録音された音声を再生すると、一層、癒される。撮影時に音声を録音することは従来よりも種々提案されている。例えば、特許文献１には、ビデオカメラでの録音にあたって、ズーム撮影時に臨場感を高めるために、ズームレンズのフォーカシングに同期してマイクロフォンの指向性を被写体にフォーカシングするビデオカメラの録音装置が開示されている。また、特許文献２には、画像知識データベースの情報を用いて、分割された画像から画像内の物体や、その物体の動き（位置）や、カメラの操作等を解析し、物体が発していると考えられる音源を音情報から分離し、分離された音源を映像に適した音場空間に再配置するようにした装置および方法が開示されている。
特開平５−３０８５５３号公報特開２０００−２９５７００号公報

これまでのカメラは、例えば、運動会や学芸会において、わが子の声を録音できるような用途を想定している。特許文献１に開示されたビデオカメラの録音装置では、指向特性を制御するマイクロフォンを備え、被写体へのフォーカシングに同期してマイクロフォンの指向特性を変えることにより、被写体に音声を合わせるようにしている。また、特許文献２に開示の装置では、臨場感を高めるための音声再生であって、癒されるような環境音の録音や再生を行うものではない。

何か思い出にふけるような癒しの画像、音声再生では、画像と音源が一致している必要は必ずしもない。近くを見ていても広い背景の環境音を聴いていることが多い。例えば、海を眺めながら潮騒を聴いているような状況では、視点が変わり画像が変化しても、顔の向きに合わせて音声が変化する必要はない。また海辺で貝殻を見ている時は、貝殻の方向の音を聴きたいわけではなく、あくまでも主たるものは潮騒である。ユーザは広い画像を見渡そうとして、顔を動かすかもしれないが、聴覚の指向性ははるかに広く、よほどのことがない限り、いちいち音源の方向を見る必要はない。

本発明は、このような事情を鑑みてなされたものであり、撮影者の見ている範囲と撮影者が聴いている範囲の差異を考慮して、雰囲気豊かな音響効果を有するカメラを提供することを目的とする。

上記目的を達成するため第１の発明に係わるカメラは、被写体を撮像し、画像データを出力する撮像部と、被写体方向からの音声の収音範囲を変更可能な収音変更部と、上記撮像部で得た画像データに基づき、画像の中から人物の顔部分を検出することによって、上記画像中に人物がいるか否かの判定を行う顔検出部と、上記顔検出部によって、所定時間にわたって画像内に人物がいると判定した場合には上記収音変更部によって収音範囲を狭くし、一方、所定時間にわたって画像内に人物がいないと判定した場合には上記収音変更部によって収音範囲を広く変更する制御部と、を有し、上記顔検出部は、さらに上記人物の表情の画像を検知し、上記制御部は、上記顔検出部によって検知された上記表情の変化に従って上記収音変更部における上記収音範囲の切り換え速度を変更する。

本発明によれば、撮影者の見ている範囲と撮影者が聴いている範囲の差異を考慮して、雰囲気豊かな音響効果を有するカメラを提供することができる。

以下、図面に従って本発明を適用したデジタルカメラを用いて好ましい実施形態について説明する。本実施形態に係わるデジタルカメラは、画像に加えて、雰囲気豊かな音響効果を有する音声を記録するようにしている。カメラのユーザは、前述したように見ている範囲の音を常に聴いているわけではない。記憶の再現では、厳密な音の方向の再現より、思い出にふけることができるような音声再生ができ、記憶の中の音声を無理なく再現できることが再現できる音声収音が望ましい。本実施形態においては、撮影シーンに応じて最適な収音を行い、撮影時に撮影者が聴いて記憶に残っているような環境音の記録や再生を行うようにしている。また、慌ただしく音声が切り替わることがなく、落ち着いて記憶をひもとくができ、癒し効果のある画像や音声の再生を可能としている。さらに、撮影時の環境の雰囲気を伝えるために、撮影者の目と耳の指向性の差異を考慮し、そのときの情景を視覚でも聴覚でも思い出せるようにしている。

図１は、本発明の第１実施形態に係わるカメラ１０と外部機器２０の構成を示すブロック図である。カメラ１０は、デジタルカメラであり、信号処理及び制御部１、撮像部２、顔検出部３、記録部４、操作判定部６、音声収録部７、表示部８、時計部９、および通信部１２を有する。

カメラ１０内の信号処理及び制御部１は、カメラ１０専用の信号処理ＬＳＩ等から構成され、カメラ１０全体を制御するとともに撮像部２から出力される画像データの画像処理を行う。撮像部２は、撮影レンズ２ａ（図２（ａ）参照）やこの撮影レンズ２ａによって形成された被写体像を画像データに変換する撮像素子等から構成される。

記録部４は、撮像部２から出力される画像データを、信号処理及び制御部１によって画像処理や圧縮処理された後に記録する。顔検出部３は、撮像部２から出力される画像データを用いて、画像の中に人物の顔画像が含まれるかを判定する。また、顔検出部３は、顔画像が含まれた場合、顔の陰影パターンの変化を検出することによって、人物の表情も判定することが可能である。

音声収録部７は、ステレオマイク７ａを有しており、前方周囲の音声を記録する。また、この音声収録部７は、ステレオマイクからの音声信号を信号処理し、音声の収録範囲を変更することができる。音声収録部７から出力される音声データは、信号処理及び制御部１で信号処理を行った後、画像データと共に記録部４に記録される。

操作判定部６は、レリーズ釦等の操作部材とこれに連動するスイッチ等を有する。操作判定部６によって判定された操作状態は、信号処理及び制御部１に送られ、信号処理及び制御部１は、操作状態に応じた処理を実行する。時計部９は、日時等のカレンダー・計時機能を有し、撮影時の撮影日時情報等を出力する。撮影日時情報は、画像データと共に記録部４に記録される。

表示部８は、撮像部２から出力される画像データに基づいて、被写体像をフレーミング用にライブビュー表示し、また、記録部４に記録されている画像データを再生表示する。通信部１２は、テレビ等の外部機器２０との送信や受信を行う。通信手段としては、無線ＬＡＮ、近接無線通信、赤外線通信、ＵＳＢケーブル等による有線通信等によって行い、カメラ１０で撮影した画像データや音声データを送信可能である。また、近年は、ハイビジョンのディプレイに画像・音声を送信するためにＨＤＭＩ等も利用される傾向にあり、通信部１２は、ＨＤＭＩ端子を備え、これによる有線通信でも良い。

テレビやフォトスタンド等の外部機器２０は、信号処理及び制御部２１、通信部２２、表示・再生部２３、表示優先部２４、およびリモコン受信部２５を有する。信号処理及び制御部２１は、カメラ１０の信号処理及び制御部１と同様、外部機器２０専用の信号処理ＬＳＩ等から構成され、外部機器２０全体を制御するとともに、通信部２２を介して受信した画像データや音声データの再生表示の制御を行う。

通信部２２は、カメラ１０との通信を行い、カメラ１０から画像データや音声データを受信する。カメラ１０の通信部１２と同様、無線ＬＡＮ、近接無線通信、赤外線通信、ＵＳＢケーブル、ＨＤＭＩケーブル等による有線通信等による通信が可能である。表示優先部２４は、画像の優先度を判定する。すなわち、カメラ１０に内蔵する表示部８に最初に表示する優先画像か否かの判定を行う。

表示・再生部２３は、薄型の大画面モニタとスピーカを有し、カメラ１０から受信した画像データや音声データの再生表示を行う。再生にあたっては、信号処理及び制御部２１は、表示優先部２４における優先画像か否かの判定結果に応じて、再生制御を行う。なお、外部機器２０がテレビである場合には、通常のテレビ放送等の表示も行う。

リモコン受信部２５は、赤外線通信により、リモコン装置より指示信号を受信する。リモコン装置によって、例えば、指定された画像や音声をカメラ１０から受け取ったり、再生したり、中断することが可能となっている。

次に、図２を用いて、このカメラ１０の使用方法について説明する。ユーザ１５は、図２（ａ）に示すように、カメラ１０を構え、撮影レンズ２ａを通して被写体像を撮影すると共に、ステレオマイク７ａによって、前方からの音声も記録可能となっている。

このようにして撮影された画像や音声は、図２（ｂ）に示すように、カメラ１０の通信部１２、および外部機器２０の通信部２２を介して、外部機器２０に送信される。外部機器２０は、受信した画像や音声を、表示・再生部２３で再生表示する。このように表示される画像は、従来のようなアルバムを見るような鑑賞ではなく、図２（ｃ）に示すように、あたかもインテリアのように表示される画像である。

次に、図３を用いて、本実施形態におけるカメラ１０による撮影と音声記録について説明する。図３（ａ）は、カメラ１０によって撮影および音声収録を行っている様子を示している。ユーザ１５は、最初、カメラ１０ｂの位置で撮影を開始し、カメラ１０ａの位置に向けてカメラ１０を動かしている。このとき、カメラ１０ａの位置で画像を撮影すると、図３（ｂ）に示すような画像が得られ、カメラ１０ｂの位置で画像を撮影すると、図３（ｃ）に示すような画像が得られる。

図３（ｂ）（ｃ）に示すような海辺の広々とした情景を、連写または動画で撮影する際に併せて録音すると、カメラ１０の前方の収音範囲３３ａ、３３ｂの音が重点的に収録されることになる。しかし、この範囲では、顔は動かさず、人間の目１５ａ、１５ｂのみを動かすことが可能である。つまり、カメラ１０は画面の移り変わりに応じて、前方の音声を有して収音するが、撮影者の耳１５ｃは、可聴範囲３５の音を聴いている場合がある。

このような状況下で録音した音声が、カメラ１０の動きに応じて落ち着きなく変化すると、図２（ｃ）に示したようなインテリアとして画像と音声を楽しむには相応しくない。そこで、本実施形態においては、収音すべき対象がない限り、収音の指向性はなるべく広くとり、環境音を重視したカメラとしている。図３（ａ）におけるカメラ１０ａの位置や、図３（ｂ）における被写体の人物が何か話している時だけ、収音する範囲を狭め、その声を録音するようにしている。

次に、本実施形態における動作を、図４に示すフローチャートを用いて説明する。このフローチャートは、カメラ１０の信号処理及び制御部１が司る。

図４に示すカメラ制御のフローに入ると、まず、撮影モードか否かの判定を行う（Ｓ１０１）。このカメラ１０は、撮影モードと再生モードを有している。ステップＳ１０１における判定の結果、撮影モードであった場合には、画像の取り込みを行い、顔検出を行う（Ｓ１０２）。このステップでは、ライブビュー表示用に撮像部２から出力されている画像データを取得し、この取得した画像データを用いて、顔検出部３は顔検出を行う。続いて、画像表示を行う（Ｓ１０３）。ここでは、ステップＳ１０２で取得した画像データに基づいて、表示部８に被写体像を表示する。撮影者はこの被写体像を見ながらフレーミングを行うことができる。

画像表示を行うと、次に、顔を検出したか否かの判定を行う（Ｓ１０４）。ステップＳ１０２において顔検出を行っているが、このとき画像の中から顔の部分を検出できたか否かをこのステップで判定する。この判定の結果、顔を検出したと判定した場合には、顔の位置と表情を判定する（Ｓ１０５）。ここで、検出した顔位置は、ピント合わせや露出制御の際に利用する。また、この顔位置に応じて、ステップＳ１１１〜Ｓ１１３において行う収音範囲を初期設定しても良い。

顔位置や表情判定を行うと、またはステップＳ１０４における判定の結果において、顔が存在しなかったと判定した場合には、次に、記録を開始するか否かの判定を行う（Ｓ１０６）。ここでは、レリーズ釦の操作状態を検出し、動画撮影やパノラマ撮影等を開始するか否かを判定する。この判定の結果、記録開始でなかった場合には、ステップＳ１０１に戻り、前述の動作を実行する。

ステップＳ１０６における判定の結果、記録開始であった場合には、画面中央に所定の大きさ以上の顔または所定数以上の顔が存在するか否かの判定を行う（Ｓ１１１）。ここで、所定以上の大きさの顔として、本実施形態においては、画面の幅の１／５以上の大きさとするが、これ以外の大きさでも良い。顔の大きさや顔の数に応じて、収音範囲の切り換えを行うことから、判定値は主要被写体であるか否かの判定のできる値であれば良い。

ステップＳ１１１における判定の結果、画面の中央に所定以上の大きさの顔、または所定数以上の顔が存在していれば、収音範囲を狭くする（Ｓ１１２）。この場合の画像は、人物が主題であり、この人物が何か話した場合に録音できるように、収音範囲を狭くする。一方、ステップＳ１１１における判定の結果が、Ｎｏであった場合には、収音範囲を広くする。ここでは、周囲の環境音を重視した収音を行う。

ステップＳ１１１〜Ｓ１１３における収音の初期設定を行うと、撮影・収音記録を行う（Ｓ１１４）。このサブルーチン内では、画像と音声の記録を連続的に行うと共に、併せて顔検知等を随時行い、この顔検知結果に応じて収音範囲を変更する。撮影・収音動作は、このサブルーチン内において終了判定がなされまで続行する。この撮影・収音記録のサブルーチンについては、図５に示すフローを用いて後述する。

ステップＳ１０１における判定の結果、撮影モードが設定されていなかった場合には、再生モードが設定されているか否かの判定を行う（Ｓ１２１）。この判定の結果、再生モードが設定されていなかった場合には、ステップＳ１０１に戻る。一方、ステップＳ１２１における判定の結果、再生モードが設定されていた場合には、再生を行う（Ｓ１２２）。このステップでは、記録部４から記録されている撮影画像を読み出し、表示部８にサムネイル形式で画像を表示し、画像が選択されると、その画像を拡大表示する。また、画像の表示と共に、音声データが一緒に記録されていた場合には、これを再生する。なお、カメラ１０内にスピーカが設けられていない場合には、画像再生のみとし音声再生は行わない。

再生を行うと、次に、送信を行うか否かの判定を行う（Ｓ１４１）。ここでは、テレビ等の外部機器２０に画像送信するために、送信指示用の操作部材が操作されたか否かの判定を行う。この判定の結果、送信であった場合には、表示画像の送信を行う（Ｓ１４２）。このステップでは、ステップＳ１２２において表示中の画像を、外部機器２０に送信する。なお、複数の画像を選択した場合には、これらの画像をまとめて送信しても良い。表示画像を送信すると、ステップＳ１４１における判定の結果、送信でなかった場合、またはステップＳ１１４における撮影・収音記録が終わると、カメラ制御のフローを終了し、パワーオンのままであれば、ステップＳ１０１に戻り、前述の動作を実行する。

次に、ステップＳ１１４における撮影・収音記録のサブルーチンについて、図５に示すフローチャートを用いて説明する。

このフローに入ると、まず、画面中央に顔が存在しているか否かの判定を行う（Ｓ１）。この判定の結果、画面中央に顔が存在していた場合には、画面中央の顔を認識してから所定時間が経過したか否かを判定する（Ｓ２）。ステップＳ１およびＳ２において、画面中央に所定時間にわたって人物の顔があるか否かを判定している。両判定を満足した場合には、その人物が主要被写体であると考えられるので、ステップＳ３以下で収音範囲を狭めるための処理を行う。

ステップＳ２における判定の結果、所定時間が経過すると、現在の収音範囲が広いか否かの判定を行う（Ｓ３）。この判定の結果、収音範囲が広かった場合には、次に、収音範囲が狭範囲側の限界に達しているか否かの判定を行う（Ｓ４）。この判定の結果、限界に達していなければ、表情変化があったか否かの判定を行う（Ｓ５）。顔検出部３は表情変化も検出するので、このステップでは、画面中央の人物の顔に表情変化があったか否かの判定を行う。

ステップＳ５における判定の結果、表情変化があった場合には、収音範囲を狭くする（Ｓ７）。一方、判定の結果、表情変化がなかった場合には、収音範囲を徐々に狭くする（Ｓ６）。口を開く等の表情変化があると、主要被写体の人物が何か話す可能性があることから、収音範囲を速く狭くする。一方、表情変化がない場合には、何も話さないかもしれないし、逆に何か話すかもしれないことから、徐々に収音範囲を狭くしている。

ステップＳ１における判定の結果、画面中央に人物の顔が存在していなかった場合には、所定時間が経過したか否かの判定を行う（Ｓ１１）。ここでは、画面中央に顔が存在していなくても、画面中央以外にいる別の人に主題を合わせるシーンを想定しており、ステップＳ１１において所定時間経過後に可聴範囲から画面範囲に収音範囲を狭くするようにしている。

ステップＳ１１における判定の結果、所定時間が経過すると、次に、現在の収音範囲が狭いか否かを判定する（Ｓ１２）。この判定の結果、収音範囲が狭かった場合には、広範囲側の限界に達しているか否かの判定を行う（Ｓ１３）。この判定の結果、限界に達していなかった場合には、収音範囲を徐々に広くしていく（Ｓ１４）。徐々に広げていくのは、急激な音の変化を抑え、インテリアとして画像を表示するのに相応しい音声再生を可能とするためである。

ステップＳ２、Ｓ３、Ｓ１１、Ｓ１２における判定の結果がＮｏであった場合には、またはステップＳ４、Ｓ１３における判定の結果がＹｅｓであった場合には、またはステップＳ６、Ｓ７、Ｓ１４における処理を行うと、次に、撮影・収音記録を終了するか否かの判定を行う（Ｓ１０）。前述したように、ステップＳ１０６において、レリーズ釦が操作されることにより、撮影を開始しており、このステップでは、レリーズ釦の操作が終了したか否かの判定を行う。

ステップＳ１０における判定の結果、終了でなかった場合には、ステップＳ１に戻り、前述の動作を実行する。一方、判定の結果、終了であった場合には、元のフローに戻る。

以上説明したように、本実施形態に係わるカメラ１０は、撮影画面範囲よりも広い可聴範囲における環境音の収音を重視しており、大きな音の変化を抑えることにより、繰り返し鑑賞に耐えられる画像・音声コンテンツを撮影することが可能としている。また、画面に人物の顔が存在するような場合には、環境音から収音の指向性を狭め人物の話したこと等を記録できるようにしている。さらに、顔の表情も判定し、表情変化がある場合には、収音の指向性を狭めるのを速くし、急に話し出しても録音することが可能としている。

なお、本実施形態においては、人物が被写体になる場合、その人物が主被写体になることが多いという統計上の理由から、人物の顔を優先させるようにしていた。しかし、これに限らず、ペットの顔や、鳥のさえずる様子等を判定し、この場合に、収音指向性を限定するようにしても勿論かまわない。

また、環境音重視の収音はオンオフできるようにしても良い。オンオフできるようにすることにより、例えば、列車が通り過ぎ、余韻を残すようなシーンでは、環境音重視の設定を解除し、列車が通り過ぎていく様子を録音できるように、マイクの指向性を狭くし、ステレオ感を強調することもできる。

次に、収音範囲を変化させるための音声収録部７の構成と動作について説明する。音声収録部７は、図６に示すように、ステレオマイク７ａ、ＡＤ変換器４２、加算・乗算器４３から構成される。

ステレオマイク７ａは、右側マイク４１ａと左側マイク４１ｂとから構成され、カメラ本体１０の前面側に配置される。ステレオマイク７ａはＡＤコンバータ４２に接続され、音声信号がデジタル化される。すなわち、右側マイク４１ａはＡＤコンバータ４２ａに、また左側マイク４１ｂはＡＤコンバータ４２ｂに、それぞれ接続されデジタル音声データを出力する。

ＡＤコンバータ４２の出力端は、加算・乗算器４３に接続され、左右の音声の差分が演算される。すなわち、右側マイク４１ａの音声データを出力するＡＤコンバータ４２ａは、加算器４３ａのマイナス側入力端と、加算器４３ｄのプラス側入力端に接続される。また、左側マイク４１ｂの音声データを出力するＡＤコンバータ４２ｂは、加算器４３ａのプラス側入力端と、加算器４３ｄのマイナス側入力端に接続される。

加算器４３ａの出力は乗算器４３ｂの入力端に接続され、加算器４３ｄの出力端は乗算器４３ｅの入力端に、それぞれ接続される。乗算器４３ｂと乗算器４３ｅの制御端は、信号処理及び制御部１に接続され、乗算器４３ｂ、４３ｅのゲインを入力する。加算器４３ｃの入力端は、ＡＤコンバータ４２ａの出力端と乗算器４３ｂの出力端が接続される。加算器４３ｆの入力端は、ＡＤコンバータ４２ｂの出力端と、乗算器４３ｅの出力端が接続される。

加算・乗算器４３の出力端は、音声収録部７としての出力部であり、記録部４に接続される。すなわち、加算器４３ｃの出力端と、加算器４３ｆの出力端は、それぞれ、右側音声データ、左側音声データを出力し、これらの出力端を介して各音声データは記録部４に記録される。

このように音声収録部７は構成されており、ステレオ入力した音声データの左右のバランスを制御し、音声の指向性を狭くしたり、広くしたりすることができる。音声収録部７の２つのマイク４１ａ、４１ｂによって入力した音声信号は、ＡＤコンバータ４２ａ、４２ｂによってデジタル音声データに変換され、加算器４３ａによって、（左側の音声データ）−（右側の音声データ）が演算され、加算器４３ｄによって、（右側の音声データ）−（左側の音声データ）が演算される。すなわち、加算器４３ａ、４３ｂによって、左右の音声データの差分が演算される。ここで、演算された差分は左右の音の差異であり、この差異を減らすことにより中央部の音を強調することができ、この加算演算はそのための前処理である。

加算器４３ａ、４３ｄで求められた差分は、それぞれ乗算器４３ｂ、４３ｅにおいて信号処理及び制御部１からのゲインに基づいて乗算し、この乗算結果を、加算器４３ｃ、４３ｆにおいて、右側の音声データと左側の音声データに、それぞれ加算する。なお、加算器４３ａ、４３ｄの出力がマイナスなので、実質的には減算することになる。このため、加算器４３ｃ、４３ｆから出力される左右の音声データは、左右の広がりを抑えた音声出力となる。ここで、乗算器４３ｂ、４３ｅにおけるゲインを大きくすれば、広がり感をなくすことができ、ゲインを小さくすれば広がり感を広げることができる。信号処理及び制御部１は、ステップＳ６、Ｓ７、Ｓ１４のタイミングにおいて、乗算器４３ｂ、４３ｅに対してゲインを制御することにより、広がり感を変えることができる。

このように、本実施形態においては、一対の同じ性能のマイクを用いて、収音の範囲を広げたり、狭めたりすることができる。指向性が広い場合には雰囲気の豊かな環境音を豊富に取り入れることができ、また指向性が狭い場合には、特定の被写体にフォーカスした音声を記録することができる。

なお、同じ性能の一対のマイクを設ける以外にも、例えば、指向性の広いマイクと、指向性の狭いマイクを設けるようにしても良い。また、再生時に必ずしもステレオである必要はなく、単に画面中央部の音を強調したり、強調しないように切り換える等、行っても良い。さらに、左右のみ２チャンネルステレオに限定されるものではなく、５．１ｃｈ等の録音を行うようにしても良い。さらに、左右に限らず、上下用のマイクを設けるようにしても良い。

以上説明したように、本発明の第１実施形態によれば、撮影視野の変更に伴う音声の不要な変化を抑え、落ち着いて再生表示できる画像・音声コンテンツの撮影可能なカメラを提供することができる。また、撮影時の環境の雰囲気を伝えるために、撮影者の目と耳の指向性の差異を考慮し、そのときの情景を視覚でも聴覚でも思い出せるようにしている。

次に、本発明の第２実施形態について、図７乃至図９を用いて説明する。本発明の第１実施形態においては、カメラ１０の画像から被写体中の顔を検出して環境音を重視した音声収録となる広範囲での収音にするか、主被写体の音声を収録するように指向性を狭めていた。第２実施形態においては、カメラの背面にも撮影者を撮像するサブカメラ（背面カメラ）を配置し、撮影者の注視方向を考慮して指向性を切り換えるようにしている。本実施形態における構成は、第１実施形態の構成と大部分が重複しているので、相違点を中心に説明し、同様の構成については同一の符号を付して説明を省略する。

図７は、第２実施形態におけるカメラ１０の構成を示すブロック図である。図１に示した第１実施形態の構成と異なるのは、撮像部２ａ（背面カメラ）を有している点である。この撮像部２ａは、光学系や撮像素子を有し、図８に示すように、カメラ１０の背面に配置されている。撮像部２ａは、撮影者１６の顔の画像を撮像し、信号処理及び制御部１と顔検出部３に出力する。顔検出部３は、撮像部２ａから画像データを入力し、撮影者１６の注視方向を検出する。

この第２実施形態においては、図８に示すように、カメラ１０を向けた方向３７ではなく、別の方向３８に、例えば、鳥のさえずりが聞こえてきた場合に、画面中央の収音を弱め、環境音を重視し、鳥の声を効果的に記録することも可能である。すなわち、撮像部（背面カメラ）２ａと顔検出部３によって、撮影者１６の顔検知を行い、撮影者１６が別の方向３８を見ていた場合には環境音を重視するように、一方、撮影者１６が表示部８の方向３９を見ていたい場合には、収音の指向性が狭くなるように、音声収録部７による音声収録範囲の制御を行う。

次に、本実施形態の動作について、図９に示すフローチャートを用いて説明する。第１実施形態における図４に示したカメラ制御のフローは共通であり、ステップＳ１１４の撮影・収音記録のサブルーチンを図９に置き換えただけである。図９のフローでは、撮像部（背面カメラ）２ａによって、撮影者１６の興味がどこにあるかを判定し、収音範囲や方向を切替えるようにしている。

図９に示す撮影・収音記録のフローに入ると、まず、前方注視しているか否かの判定を行う（Ｓ１ａ）。このステップでは、撮像部２ａからの画像データに基づいて、顔検出部３が撮影者１６の注視方向を検出するので、この検出結果に応じて判定する。この判定の結果、撮影者１６が、前方を注視していた場合、すなわち表示部８の方向３９を注視していた場合には、次に、所定時間が経過しているか否かを判定する（Ｓ２）。このステップでは、撮影者１６がカメラ１０の表示部８を注視するようになってからの経過時間が所定時間を経過したか否かの判定を行う。単に、一時的に撮影者１６が前方の表示部８を見るだけの場合もあることから、所定時間の間、注視していたか否かを判定している。

ステップＳ２における判定の結果、所定時間が経過した場合には、撮影者１６がカメラ１０の表示部８を所定時間に亘って注視していたことから、撮影者１６は画面の中だけに興味があるとして、収音範囲を視野に合わせて狭めていく。まず、現在の収音範囲が広いか否かの判定を行う（Ｓ３）。この判定の結果、収音範囲が広かった場合には、次に、収音範囲が広範囲側の限界に達しているか否かの判定を行う（Ｓ４）。この判定の結果、限界に達していなければ、収音範囲を徐々に画面中央に狭くしていく（Ｓ６ａ）。

また、ステップＳ３における判定の結果、収音範囲が広くなかった場合には、収音範囲が周辺か否かを判定する（Ｓ８）。例えば、鳥を注視していた場合、この鳥が飛び去ってしまい、見えなくなると、撮影者は、再度、表示部８の画面モニタを見るので、そのときには、ステップＳ３における判定は、収音範囲は狭いと判定される。このあと、ステップＳ８の判定を行い、その結果、収音範囲が周囲となり、後述するステップＳ１３に進み、ステップＳ１４において、収音範囲を徐々に広くし、その後、徐々に収音範囲を狭くする。一方、ステップＳ８における判定の結果、収音範囲が周辺でなかった場合には、ステップＳ１０に進む。

ステップＳ１ａにおける判定の結果、前方を注視していなかった場合、すなわち、撮影者１６が表示部８を見ていなかった場合には、次に、収音範囲が狭いか否かを判定する（Ｓ１２）。前方を注視していない場合には、撮影者の興味は画面外にもあることを示しており、ステップＳ１３以下において収音範囲を広げ、環境音を重視した録音を行う。ステップＳ１２における判定の結果、収音範囲が狭かった場合には、広範囲側の限界か否かを判定する（Ｓ１３）。この判定の結果、限界に達していなければ、収音範囲を徐々に広げる（Ｓ１４）。

ステップＳ１３における判定の結果、限界に達していた場合には、注視方向が一定か否かの判定を行う（Ｓ２１）。ここでは、撮影者１６の顔を撮像部２ａによってモニタし、顔検出部３による検出の結果、同じ方向を見続けているか否かを判定する。この判定の結果、注視方向が一定の場合には、注視方向を収音する（Ｓ２２）。このステップでは、注視している方向の収音を強調する。すなわち、注視方向が右側であれば、右側マイク４１ａの収音を強調し、注視方向が左側であれば、左側マイク４１ｂの収音を強調する。

ステップＳ２、Ｓ４、Ｓ８、Ｓ１２、Ｓ２１における判定がＮｏであった場合、またはステップＳ１３、Ｓ２２における処理を実行すると、次に、終了か否かの判定を行う（Ｓ１０）。ここでは、第１実施形態と同様、レリーズ釦の操作状態を検出し、これに基づいて判定する。この判定の結果、終了でなかった場合には、ステップＳ１ａに戻り、前述の動作を行い、一方、判定の結果、終了であった場合には、元のフローに戻る。

このように、本実施形態においては、画像と音声を別々にし、撮影者が映しかった画像と聴きたかった音声を記録することが可能となる。したがって、撮影者が見ているものと聴いているものが異なるようなシーンであっても、撮影者の意図に沿った撮影を行うことができる。例えば、木の葉がそよいでいる様子を映しながら、別の木に停まっている鳥のさえずりを聴いている状況はよくあり、このような状況を的確に記録することができる。なお、本実施形態と第１実施形態を組み合わせ、例えば、画面中央に人物がおり、撮影者が別の場所を見ている場合であっても、中央を重視するような収音を行うことが考えられる。

次に、本発明の第３実施形態について、図１０および図１１を用いて説明する。本発明の第１および第２実施形態では、撮影時に、周囲の音も含めて広範囲（環境音重視）で行う収音か、被写体に向けて指向性を狭くする収音との間で収音を制御していた。この第３実施形態においては、撮影時にはステレオで録音し、音声の再生時に、環境音重視で再生するか、被写体に向け指向性を狭くした再生かを、画面のシーンやユーザのしぐさを判定し、切り換えるようにしている。

図１０は、音声収録部７の構成を示すブロック図である。この音声収録部７は再生時には、左右の音声再生のバランスを調整する。図６に示した第１実施形態における構成と比較し、ＡＤコンバータ４２と加算・乗算器４３の間に記録部４を接続している点が相違しているが、各回路内の構成は、第１実施形態における音声収録部７と同じである。

すなわち、右側マイク４１ａの音声信号をＡＤ変換するＡＤコンバータ４２ａの出力端は記録部４に接続され、このＡＤコンバータ４２ａによってＡＤ変換された音声データは、加算器４３ａ、４３ｃ、４３ｄに出力される。また、左側マイク４１ｂの音声信号をＡＤ変換するＡＤコンバータ４２ｂの出力端は記録部４に接続され、このＡＤコンバータ４２ｂによってＡＤ変換された音声データは、加算器４３ａ、４３ｄ、４３ｆに出力される。

上述した第１および第２実施形態においては、音声収録部７は撮影時に収音範囲を変更していたが、本実施形態においては、撮影時には、ステレオマイク７ａからの音声信号をＡＤコンバータによってデジタル化し、この音声データの収音範囲を変更することなく、そのまま記録部４に記録する。そして、再生時に記録部４から読み出された音声データに基づいて、加算・乗算器４３によって音声再生のバランスを制御している。

次に、本実施形態における動作について図１１に示すフローチャートを用いて説明する。このフローに入ると、ステップＳ１０１〜Ｓ１０４は、図４に示したカメラ制御のフローと同様であるので、詳しい説明を省略するが、撮影モードであった場合には、画像データを取り込み（Ｓ１０２）、この画像データを用いてライブビュー表示を行い（Ｓ１０３）、また顔判定を行う（Ｓ１０４）。

ステップＳ１０４における顔判定の結果、顔が存在していれば、その顔の位置を判定する（Ｓ１０５ｂ）。顔の位置判定を行うと、または顔判定の結果、顔が存在しなかった場合には、第１実施形態と同様、レリーズ釦が操作状態を判定し、記録を開始するか否かの判定を行う（Ｓ１０６）。この判定の結果、記録開始でなかった場合には、ステップＳ１０１に戻り、前述の動作を実行する。

ステップＳ１０６における判定の結果、記録開始であった場合には、正面撮影でステレオ録音を開始する（Ｓ１１５）。このステップでの撮影は、カメラ１０の正面の方向を撮影する正面撮影であり、動画撮影やパノラマ撮影等、連続的な撮影による画像データを記録部４に記録する。また、画像の記録と併せてステレオマイク７ａによって、左右の音を別々に記録部４に記録する。

正面撮影およびステレオ録音と共に、背面画像特徴記録も行う（Ｓ１１６）。ここでは、撮像部２ａから出力されるカメラ１００の背面側の撮影者の画像データに基づいて、撮影者の変化の特徴、例えば、どこを見ているか等について検出し、この検出された変化の特徴を記録部４に記録する。

続いて、記録終了か否かの判定を行う（Ｓ１１９）。このステップでは、レリーズ釦の操作状態を検出し、これに基づいて判定する。この判定の結果、記録終了でなかった場合には、ステップＳ１１５に戻り、撮影を続行する。一方、ステップＳ１１９における判定の結果、記録終了であった場合には、カメラ制御のフローを終了し、再び、ステップＳ１０１から実行する。

ステップＳ１０１における判定の結果、撮影モードでなかった場合には、再生モードか否かの判定を行う（Ｓ１２１）。この判定の結果、再生モードが設定されていなかった場合には、ステップＳ１０１に戻る。一方、再生モードが設定されていた場合には、撮影者が注視しているか否かの判定を行う（Ｓ１３１）。ステップＳ１１６において背面画像を用いて撮影者の注視方向が記録されているので、このステップでは、この記録されている注視方向に基づいて、撮影者が表示部８のモニタ画面を注視しているか否かを判定する。

ステップＳ１３１における判定の結果、撮影者が注視していなかった場合には、画像の再生と共に広い範囲の音を再生する（Ｓ１３３）。このステップでは、環境音重視で、すなわちステレオマイク７ａで収音した幅広い範囲の音声を再生する。一方、ステップＳ１３１における判定の結果、撮影者が注視していた場合には、画像の再生と共に注視方向を強調した音声再生を行う（Ｓ１３２）。すなわち、撮影者が注視していた画面の方向に音源があるように、音性収録部によって左右の音量のバランスの制御を行う。このような再生時に音を調整する方法であれば、中央の人物が話し出した時に収音が間に合わず遅れてしまうという不具合を防止することができる。

ステップＳ１３２やＳ１３３における音声再生を行うと、次に、再生の終了か否かの判定を行う（Ｓ１３４）。この判定の結果、再生終了でなければ、ステップＳ１３１に戻り、再生を続行する。一方、判定の結果、再生終了であった場合には、次に、送信するか否かの判定を行う（Ｓ１４１）。このステップでは、ステップＳ１２１以下において再生表示をした画像を、外部機器２０において再生表示すべく送信するか否かの判定である。

ステップＳ１４１における判定の結果、送信であった場合には、表示画像の送信を行う（Ｓ１４２）。ここでは、通信部１２を介してテレビやフォトスタンド等の外部機器２０に、選択された表示画像を送信する。これによって、図２（ｃ）に示すような状況で、画像や音声をインテリアとして飾れるコンテンツとすることができる。このコンテンツは、音声も再現するので、思い出の追想にふさわしいものとなっている。

なお、画像の送信前に、環境音か指向性の狭くすることや、音声の左右のバランス等、音声再生についてユーザが補正できるようにしても良い。表示画像を送信すると、または、ステップＳ１４１における判定の結果、送信でなかった場合には、カメラ制御のフローを終了し、再び、ステップＳ１０１から実行する。

このように、本発明の第３実施形態においては、撮影時には、音声については、そのままステレオ録音し、再生時に、左右の音量のバランスや音源の位置を制御するようにしている。このため、撮影場所において急激な状況変化があっても、撮影後に適切に調節を行うことができる。

次に、本発明の第４実施形態について、図１２乃至図１４を用いて説明する。第１〜第３実施形態においては、被写体像の中に顔部分が含まれているか否か、または撮影者の注視している位置に基づいて、音声の収音範囲や再生時の音源位置等の音声制御を行っていた。本実施形態においては、被写体が注視している方向を検出し、この検出結果に基づいて音声制御を行うようにしている。

例えば、図１２（ｂ）に示すようなシーンを想定してみる。このシーンでは、被写体１７は、海を見ており波の砕ける音を聴いている。カメラ１０ａの位置で撮影した画像は、画角３１ｃを考慮すると、撮影画像３２となる。このような状況において、被写体１７が聴いている音、この例では、波の砕ける音が記録されていることが望ましい。

そこで、本実施形態では、撮影者と被写体１７が聴いている音を記録するようにしている。カメラ１０ａ、ユーザ（撮影者）の耳１５ｃ、被写体１７、被写体の聴いている波１８が、図１２に示した位置関係にある場合であって、収音範囲３３ｃが図示した範囲であれば、この収音範囲３３ｃが、ユーザ（撮影者）１５と被写体１７が共通して聴いている範囲となる。図１２の例では、ステレオ録音する場合に、右側（被写体１７が見ている方向）の音声を強調して記録するか、または再生時に右側の音声を強調して再生すれば良い。

本実施形態の構成は、図１に示したカメラ１０と同様な構成でよく、顔検出部３が、被写体１７の顔の向きを判定する機能を有するようにする。その他の構成は、図１と同様であるので、詳しい説明は省略する。

次に、本実施形態における動作を図１３に示すカメラ制御のフローチャートを用いて説明する。このフローに入ると、第１実施形態と同様に、まず、撮影モードか否かの判定を行い（Ｓ１０１）、撮影モードであった場合には、次に、画像を取り込むと共に顔検出を行う（Ｓ１０２）。続いて、取り込んだ画像を用いて表示部８にライブビュー表示を行い（Ｓ１０３）、顔判定を行う（Ｓ１０４ａ）。

ステップＳ１０４ａにおける顔判定の結果、顔が存在すれば、顔の位置判定を行う（Ｓ１０５ｂ）。これらの撮影時の顔検出では、被写体１７の顔の位置を判定しておき、撮影に入ってすぐに、被写体の顔がどちらを向いているかを判定しやすくし、またどこの露出やピントを合わせるべきかを即座に判定できるようにしておく。例えば、被写体１７が撮影前にカメラ１０を見ていれば顔を検知しやすいが、撮影開始後にカメラ１０の反対側を向いてしまうと、顔を検出するのが困難となることから、記録開始前から判定しておき、記録開始後でも顔の向きを記録できるようにしている。

顔位置判定を行うと、またはステップＳ１０４ａにおける判定の結果、顔が存在しなかった場合には、次に、第１実施形態と同様に、記録開始か否かの判定を行う（Ｓ１０６）。この判定の結果、記録開始でなかった場合には、ステップＳ１０１に戻り、前述の動作を実行する。

一方、ステップＳ１０６における判定の結果、記録開始であった場合には、次に、撮影を開始し、ステレオ録音を行い、被写体の注視方向を記録する（Ｓ１１７）。続いて、顔検出部３によって検出された被写体の注視方向に基づいて、音声強調録音を行う（Ｓ１１８）。また、ステレオ録音のみでも良いが、本実施形態においては、被写体の注視方向に基づいて、収音の向きを変更した結果も同時に記録する。これによって、再生時に、どちらの音声でも選択再生が可能となる。

次に、記録終了か否かの判定を行う（Ｓ１１９）。記録開始はレリーズ釦の操作によって行っており、記録終了もレリーズ釦の操作状態に基づいて判定する。この判定の結果、記録終了でなかった場合には、撮影、すなわち画像と音声の記録を続行する。一方、判定の結果、記録終了であった場合には、撮影を終了し、再び、ステップＳ１０１に戻り、前述の動作を実行する。

ステップＳ１０１における判定の結果、撮影モードでなかった場合には、次に、再生モードか否かの判定を行う（Ｓ１１１）。この判定の結果、再生モードでなかった場合には、ステップＳ１０１に戻り、モード判定を繰り返す。一方、判定の結果、再生モードであった場合には、次に、注視方向のデータが有るか否かの判定を行う（Ｓ１３１）。このステップでは、画像データの再生を開始すると共に、ステップＳ１１７において画像と共に記録した注視方向の記録が有るか否かの判定を行う。

ステップＳ１３１における判定の結果、注視方向データがなかった場合には、広い範囲、すなわち環境音重視で音声の再生を行う（Ｓ１３３）。一方、注視方向のデータが有った場合には、その注視方向の音声を強調した再生を行う（Ｓ１３２）。これによって、被写体となった人物が、そのときの事を回想するに、聴いていた音声が再生されるので、容易に思い出に浸ることができる。

音声再生を行うと、次に、再生終了か否かの判定を行（Ｓ１３４）。この判定の結果、再生終了でなかった場合には、ステップＳ１３１に戻り、画像と音声の再生を続行する。一方、再生終了であった場合には、次に、外部機器２０へ画像の送信か否かの判定を行う（Ｓ１４１）。この判定の結果、送信であった場合には、表示画像の送信を行う（Ｓ１４２）。第２実施形態における図９のフローで説明したように、これによって、テレビ等の外部機器２０において、インテリアのようにして撮影画像を楽しむことができる。表示画像の送信を行うと、またはステップＳ１４１における判定の結果、送信でなかった場合には、カメラ制御のフローを終了し、再び、ステップＳ１０１から実行する。

次に、本実施形態における音声収録部７の構成を、図１４に示すブロック図を用いて説明する。本実施形態における音声収録部７は、図６に示した第１実施形態における音声収録部７に比較し、加算器４３ａ、４３ｄの極性が逆になっている以外は、図６と同じであるので、相違点を中心に説明する。すなわち、右側マイク４１ａからの音声信号をＡＤ変換するＡＤコンバータ４２ａの出力端は、加算器４３ａのプラス側端と、加算器４３ｄのマイナス側端に接続されている。また、左側マイク４１ｂからの音声信号をＡＤ変換するＡＤコンバータ４２ｂの出力端は、加算器４３ａのマイナス側端と、加算器４３ｄのプラス側端に接続されている。これ以外の構成は、図６と同じである。

このような構成であることから、加算器４３ａ、４３ｄから出力される差分は、プラスとなり、乗算器４３ｂ、４３ｅに印加するゲインが大きければ大きいほど強調の度合が大きくなる。つまり、左または右の広がりを強調した音声出力を得ることができる。したがって、乗算器４３ａまたは乗算器４３ｅのゲインを大きくすることにより、左または右の収音を大きくすることができる。

前述した図１３におけるカメラ制御のフロー中のステップＳ１１８において、注視方向に応じて、乗算器４３ｂまたは乗算器４３ｅのゲインを変更する制御を行うことにより、注視方向に応じた収音を行うことができる。このように、本実施形態においては、一対の同一の性能のマイクを備え、収音の範囲を左右に偏らすことを簡単に行うことができる。

本実施形態においては、撮影時の被写体の聴いている音声を検出し、この音声を記録するようにしている。このため、画像に合った音声を記録し再生することが可能となる。

以上、説明したように本発明の実施形態においては、撮影者や被写体の聴いている音声を検出し、この音声を記録し、または再生するようにしている。このため、撮影者の見ている範囲と撮影者が聴いている範囲の差異を考慮して、雰囲気豊かな音響効果を有する画像を再生することができる。また、音声をたよりに、撮影時の様子を落ち着いて思い出すことも可能となる。さらに、撮影時の環境の雰囲気を伝えるために、撮影者の目と耳の指向性の差異を考慮し、そのときの情景を視覚でも聴覚でも思い出せるようにしている。

なお、本発明の各実施形態においては、再生表示する場合には、カメラ１０の表示部８、またはカメラ１０から外部機器２０に送信して行っていた。しかし、これに限らず、例えば、記録部４で記録された記録媒体を直接、テレビやパーソナルコンピュータに装填するようにしても良い。

また、本発明の各実施形態においては、撮影のための機器として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラのような動画用のカメラでもよく、さらに、携帯電話や携帯情報端末（ＰＤＡ：Personal Digital Assist）等に内蔵されるカメラでも構わない。いずれにしても、画像と共に音声を記録することのできる撮影のための機器であれば、本発明を適用することができる。

本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１実施形態に係わるカメラと外部機器の構成を示すブロック図である。本発明の第１実施形態に係るカメラの使用状態を説明する図であり、（ａ）は撮影時の様子を示し、（ｂ）はテレビ等の外部機器に画像を転送する様子を示し、（ｃ）は転送した画像を再生表示している様子を示す図である。本発明の第１実施形態に係わるカメラにおいて、画像と音声の記録について説明する図であり、（ａ）は、カメラによって撮影および音声収録を行っている様子を示し、（ｂ）はカメラ１０ａの位置で撮影した画像を示し、（ｃ）はカメラ１０ｂの位置で撮影した画像を示す図である。本発明の第１実施形態に係わるカメラにおけるカメラ制御の動作を示すフローチャートである。本発明の第１実施形態における撮影・収音記録の動作を示すフローチャートである。本発明の第１実施形態に係わるカメラにおいて音声収録部７の構成を示すブロック図である。本発明の第２実施形態に係わるカメラの構成を示すブロック図である。本発明の第２実施形態において、カメラを使用する状態を示す図である。本発明の第２実施形態における撮影・収音記録の動作を示すフローチャートである。本発明の第３実施形態に係わるカメラにおいて音声収録部７の構成を示すブロック図である。本発明の第３実施形態に係わるカメラの構成を示すブロック図である。本発明の第４実施形態に係わるカメラにおいて、画像と音声の記録について説明する図であり、（ａ）は、カメラによって撮影および音声収録を行っている様子を示し、（ｂ）は被写体のいるシーンの中でカメラ１０ａの位置で撮影した画像を示す図である。本発明の第４実施形態に係わるカメラの構成を示すブロック図である。本発明の第４実施形態に係わるカメラにおいて音声収録部７の構成を示すブロック図である。

符号の説明

１・・・信号処理及び制御部、２・・・撮像部、３・・・顔検出部、４・・・記録部、６・・・操作判定部、７・・・音声収録部、８・・・表示部、９・・・時計部、１０・・・カメラ、１０ａ・・・カメラ、１０ｂ・・・カメラ、１２・・・通信部、１５・・・ユーザ（撮影者）、１５ａ・・・目、１５ｂ・・・目、１５ｃ・・・耳、１６・・・撮影者、１７・・・被写体、１８・・・被写体が聴いている波、２０・・・外部機器、２１・・・信号処理及び制御部、２２・・・通信部、２３・・・表示・再生部、２４・・・表示優先部、２５・・・リモコン受信部、３１ａ・・・画角、３１ｂ・・・画角、３１ｃ・・・画角、３２・・・撮影画像、３３ａ・・・収音範囲、３３ｂ・・・収音範囲、３３ｃ・・・収音範囲、３５・・・可聴範囲、３７・・・方向、３８・・・方向、３９・・・方向、４１ａ・・・右側マイク、４１ｂ・・・左側マイク、４２ａ・・・ＡＤコンバータ、４２ｂ・・・ＡＤコンバータ、４３ａ・・・加算器、４３ｂ・・・加算器、４３ｃ・・・乗算器、４３ｄ・・・加算器、４３ｅ・・・乗算器、４３ｆ・・・加算器

Claims

被写体を撮像し、画像データを出力する撮像部と、
被写体方向からの音声の収音範囲を変更可能な収音変更部と、
上記撮像部で得た画像データに基づき、画像の中から人物の顔部分を検出することによって、上記画像中に人物がいるか否かの判定を行う顔検出部と、
上記顔検出部によって、所定時間にわたって画像内に人物がいると判定した場合には上記収音変更部によって収音範囲を狭くし、一方、所定時間にわたって画像内に人物がいないと判定した場合には上記収音変更部によって収音範囲を広く変更する制御部と、
を有し、
上記顔検出部は、さらに上記人物の表情の画像を検知し、
上記制御部は、上記顔検出部によって検知された上記表情の変化に従って上記収音変更部における上記収音範囲の切り換え速度を変更する、
ことを特徴とするカメラ。