以下、図面に従って本発明を適用したデジタルカメラを用いて好ましい実施形態について説明する。本実施形態に係わるデジタルカメラは、画像に加えて、雰囲気豊かな音響効果を有する音声を記録するようにしている。カメラのユーザは、前述したように見ている範囲の音を常に聴いているわけではない。記憶の再現では、厳密な音の方向の再現より、思い出にふけることができるような音声再生ができ、記憶の中の音声を無理なく再現できることが再現できる音声収音が望ましい。本実施形態においては、撮影シーンに応じて最適な収音を行い、撮影時に撮影者が聴いて記憶に残っているような環境音の記録や再生を行うようにしている。また、慌ただしく音声が切り替わることがなく、落ち着いて記憶をひもとくができ、癒し効果のある画像や音声の再生を可能としている。さらに、撮影時の環境の雰囲気を伝えるために、撮影者の目と耳の指向性の差異を考慮し、そのときの情景を視覚でも聴覚でも思い出せるようにしている。
図1は、本発明の第1実施形態に係わるカメラ10と外部機器20の構成を示すブロック図である。カメラ10は、デジタルカメラであり、信号処理及び制御部1、撮像部2、顔検出部3、記録部4、操作判定部6、音声収録部7、表示部8、時計部9、および通信部12を有する。
カメラ10内の信号処理及び制御部1は、カメラ10専用の信号処理LSI等から構成され、カメラ10全体を制御するとともに撮像部2から出力される画像データの画像処理を行う。撮像部2は、撮影レンズ2a(図2(a)参照)やこの撮影レンズ2aによって形成された被写体像を画像データに変換する撮像素子等から構成される。
記録部4は、撮像部2から出力される画像データを、信号処理及び制御部1によって画像処理や圧縮処理された後に記録する。顔検出部3は、撮像部2から出力される画像データを用いて、画像の中に人物の顔画像が含まれるかを判定する。また、顔検出部3は、顔画像が含まれた場合、顔の陰影パターンの変化を検出することによって、人物の表情も判定することが可能である。
音声収録部7は、ステレオマイク7aを有しており、前方周囲の音声を記録する。また、この音声収録部7は、ステレオマイクからの音声信号を信号処理し、音声の収録範囲を変更することができる。音声収録部7から出力される音声データは、信号処理及び制御部1で信号処理を行った後、画像データと共に記録部4に記録される。
操作判定部6は、レリーズ釦等の操作部材とこれに連動するスイッチ等を有する。操作判定部6によって判定された操作状態は、信号処理及び制御部1に送られ、信号処理及び制御部1は、操作状態に応じた処理を実行する。時計部9は、日時等のカレンダー・計時機能を有し、撮影時の撮影日時情報等を出力する。撮影日時情報は、画像データと共に記録部4に記録される。
表示部8は、撮像部2から出力される画像データに基づいて、被写体像をフレーミング用にライブビュー表示し、また、記録部4に記録されている画像データを再生表示する。通信部12は、テレビ等の外部機器20との送信や受信を行う。通信手段としては、無線LAN、近接無線通信、赤外線通信、USBケーブル等による有線通信等によって行い、カメラ10で撮影した画像データや音声データを送信可能である。また、近年は、ハイビジョンのディプレイに画像・音声を送信するためにHDMI等も利用される傾向にあり、通信部12は、HDMI端子を備え、これによる有線通信でも良い。
テレビやフォトスタンド等の外部機器20は、信号処理及び制御部21、通信部22、表示・再生部23、表示優先部24、およびリモコン受信部25を有する。信号処理及び制御部21は、カメラ10の信号処理及び制御部1と同様、外部機器20専用の信号処理LSI等から構成され、外部機器20全体を制御するとともに、通信部22を介して受信した画像データや音声データの再生表示の制御を行う。
通信部22は、カメラ10との通信を行い、カメラ10から画像データや音声データを受信する。カメラ10の通信部12と同様、無線LAN、近接無線通信、赤外線通信、USBケーブル、HDMIケーブル等による有線通信等による通信が可能である。表示優先部24は、画像の優先度を判定する。すなわち、カメラ10に内蔵する表示部8に最初に表示する優先画像か否かの判定を行う。
表示・再生部23は、薄型の大画面モニタとスピーカを有し、カメラ10から受信した画像データや音声データの再生表示を行う。再生にあたっては、信号処理及び制御部21は、表示優先部24における優先画像か否かの判定結果に応じて、再生制御を行う。なお、外部機器20がテレビである場合には、通常のテレビ放送等の表示も行う。
リモコン受信部25は、赤外線通信により、リモコン装置より指示信号を受信する。リモコン装置によって、例えば、指定された画像や音声をカメラ10から受け取ったり、再生したり、中断することが可能となっている。
次に、図2を用いて、このカメラ10の使用方法について説明する。ユーザ15は、図2(a)に示すように、カメラ10を構え、撮影レンズ2aを通して被写体像を撮影すると共に、ステレオマイク7aによって、前方からの音声も記録可能となっている。
このようにして撮影された画像や音声は、図2(b)に示すように、カメラ10の通信部12、および外部機器20の通信部22を介して、外部機器20に送信される。外部機器20は、受信した画像や音声を、表示・再生部23で再生表示する。このように表示される画像は、従来のようなアルバムを見るような鑑賞ではなく、図2(c)に示すように、あたかもインテリアのように表示される画像である。
次に、図3を用いて、本実施形態におけるカメラ10による撮影と音声記録について説明する。図3(a)は、カメラ10によって撮影および音声収録を行っている様子を示している。ユーザ15は、最初、カメラ10bの位置で撮影を開始し、カメラ10aの位置に向けてカメラ10を動かしている。このとき、カメラ10aの位置で画像を撮影すると、図3(b)に示すような画像が得られ、カメラ10bの位置で画像を撮影すると、図3(c)に示すような画像が得られる。
図3(b)(c)に示すような海辺の広々とした情景を、連写または動画で撮影する際に併せて録音すると、カメラ10の前方の収音範囲33a、33bの音が重点的に収録されることになる。しかし、この範囲では、顔は動かさず、人間の目15a、15bのみを動かすことが可能である。つまり、カメラ10は画面の移り変わりに応じて、前方の音声を有して収音するが、撮影者の耳15cは、可聴範囲35の音を聴いている場合がある。
このような状況下で録音した音声が、カメラ10の動きに応じて落ち着きなく変化すると、図2(c)に示したようなインテリアとして画像と音声を楽しむには相応しくない。そこで、本実施形態においては、収音すべき対象がない限り、収音の指向性はなるべく広くとり、環境音を重視したカメラとしている。図3(a)におけるカメラ10aの位置や、図3(b)における被写体の人物が何か話している時だけ、収音する範囲を狭め、その声を録音するようにしている。
次に、本実施形態における動作を、図4に示すフローチャートを用いて説明する。このフローチャートは、カメラ10の信号処理及び制御部1が司る。
図4に示すカメラ制御のフローに入ると、まず、撮影モードか否かの判定を行う(S101)。このカメラ10は、撮影モードと再生モードを有している。ステップS101における判定の結果、撮影モードであった場合には、画像の取り込みを行い、顔検出を行う(S102)。このステップでは、ライブビュー表示用に撮像部2から出力されている画像データを取得し、この取得した画像データを用いて、顔検出部3は顔検出を行う。続いて、画像表示を行う(S103)。ここでは、ステップS102で取得した画像データに基づいて、表示部8に被写体像を表示する。撮影者はこの被写体像を見ながらフレーミングを行うことができる。
画像表示を行うと、次に、顔を検出したか否かの判定を行う(S104)。ステップS102において顔検出を行っているが、このとき画像の中から顔の部分を検出できたか否かをこのステップで判定する。この判定の結果、顔を検出したと判定した場合には、顔の位置と表情を判定する(S105)。ここで、検出した顔位置は、ピント合わせや露出制御の際に利用する。また、この顔位置に応じて、ステップS111〜S113において行う収音範囲を初期設定しても良い。
顔位置や表情判定を行うと、またはステップS104における判定の結果において、顔が存在しなかったと判定した場合には、次に、記録を開始するか否かの判定を行う(S106)。ここでは、レリーズ釦の操作状態を検出し、動画撮影やパノラマ撮影等を開始するか否かを判定する。この判定の結果、記録開始でなかった場合には、ステップS101に戻り、前述の動作を実行する。
ステップS106における判定の結果、記録開始であった場合には、画面中央に所定の大きさ以上の顔または所定数以上の顔が存在するか否かの判定を行う(S111)。ここで、所定以上の大きさの顔として、本実施形態においては、画面の幅の1/5以上の大きさとするが、これ以外の大きさでも良い。顔の大きさや顔の数に応じて、収音範囲の切り換えを行うことから、判定値は主要被写体であるか否かの判定のできる値であれば良い。
ステップS111における判定の結果、画面の中央に所定以上の大きさの顔、または所定数以上の顔が存在していれば、収音範囲を狭くする(S112)。この場合の画像は、人物が主題であり、この人物が何か話した場合に録音できるように、収音範囲を狭くする。一方、ステップS111における判定の結果が、Noであった場合には、収音範囲を広くする。ここでは、周囲の環境音を重視した収音を行う。
ステップS111〜S113における収音の初期設定を行うと、撮影・収音記録を行う(S114)。このサブルーチン内では、画像と音声の記録を連続的に行うと共に、併せて顔検知等を随時行い、この顔検知結果に応じて収音範囲を変更する。撮影・収音動作は、このサブルーチン内において終了判定がなされまで続行する。この撮影・収音記録のサブルーチンについては、図5に示すフローを用いて後述する。
ステップS101における判定の結果、撮影モードが設定されていなかった場合には、再生モードが設定されているか否かの判定を行う(S121)。この判定の結果、再生モードが設定されていなかった場合には、ステップS101に戻る。一方、ステップS121における判定の結果、再生モードが設定されていた場合には、再生を行う(S122)。このステップでは、記録部4から記録されている撮影画像を読み出し、表示部8にサムネイル形式で画像を表示し、画像が選択されると、その画像を拡大表示する。また、画像の表示と共に、音声データが一緒に記録されていた場合には、これを再生する。なお、カメラ10内にスピーカが設けられていない場合には、画像再生のみとし音声再生は行わない。
再生を行うと、次に、送信を行うか否かの判定を行う(S141)。ここでは、テレビ等の外部機器20に画像送信するために、送信指示用の操作部材が操作されたか否かの判定を行う。この判定の結果、送信であった場合には、表示画像の送信を行う(S142)。このステップでは、ステップS122において表示中の画像を、外部機器20に送信する。なお、複数の画像を選択した場合には、これらの画像をまとめて送信しても良い。表示画像を送信すると、ステップS141における判定の結果、送信でなかった場合、またはステップS114における撮影・収音記録が終わると、カメラ制御のフローを終了し、パワーオンのままであれば、ステップS101に戻り、前述の動作を実行する。
次に、ステップS114における撮影・収音記録のサブルーチンについて、図5に示すフローチャートを用いて説明する。
このフローに入ると、まず、画面中央に顔が存在しているか否かの判定を行う(S1)。この判定の結果、画面中央に顔が存在していた場合には、画面中央の顔を認識してから所定時間が経過したか否かを判定する(S2)。ステップS1およびS2において、画面中央に所定時間にわたって人物の顔があるか否かを判定している。両判定を満足した場合には、その人物が主要被写体であると考えられるので、ステップS3以下で収音範囲を狭めるための処理を行う。
ステップS2における判定の結果、所定時間が経過すると、現在の収音範囲が広いか否かの判定を行う(S3)。この判定の結果、収音範囲が広かった場合には、次に、収音範囲が狭範囲側の限界に達しているか否かの判定を行う(S4)。この判定の結果、限界に達していなければ、表情変化があったか否かの判定を行う(S5)。顔検出部3は表情変化も検出するので、このステップでは、画面中央の人物の顔に表情変化があったか否かの判定を行う。
ステップS5における判定の結果、表情変化があった場合には、収音範囲を狭くする(S7)。一方、判定の結果、表情変化がなかった場合には、収音範囲を徐々に狭くする(S6)。口を開く等の表情変化があると、主要被写体の人物が何か話す可能性があることから、収音範囲を速く狭くする。一方、表情変化がない場合には、何も話さないかもしれないし、逆に何か話すかもしれないことから、徐々に収音範囲を狭くしている。
ステップS1における判定の結果、画面中央に人物の顔が存在していなかった場合には、所定時間が経過したか否かの判定を行う(S11)。ここでは、画面中央に顔が存在していなくても、画面中央以外にいる別の人に主題を合わせるシーンを想定しており、ステップS11において所定時間経過後に可聴範囲から画面範囲に収音範囲を狭くするようにしている。
ステップS11における判定の結果、所定時間が経過すると、次に、現在の収音範囲が狭いか否かを判定する(S12)。この判定の結果、収音範囲が狭かった場合には、広範囲側の限界に達しているか否かの判定を行う(S13)。この判定の結果、限界に達していなかった場合には、収音範囲を徐々に広くしていく(S14)。徐々に広げていくのは、急激な音の変化を抑え、インテリアとして画像を表示するのに相応しい音声再生を可能とするためである。
ステップS2、S3、S11、S12における判定の結果がNoであった場合には、またはステップS4、S13における判定の結果がYesであった場合には、またはステップS6、S7、S14における処理を行うと、次に、撮影・収音記録を終了するか否かの判定を行う(S10)。前述したように、ステップS106において、レリーズ釦が操作されることにより、撮影を開始しており、このステップでは、レリーズ釦の操作が終了したか否かの判定を行う。
ステップS10における判定の結果、終了でなかった場合には、ステップS1に戻り、前述の動作を実行する。一方、判定の結果、終了であった場合には、元のフローに戻る。
以上説明したように、本実施形態に係わるカメラ10は、撮影画面範囲よりも広い可聴範囲における環境音の収音を重視しており、大きな音の変化を抑えることにより、繰り返し鑑賞に耐えられる画像・音声コンテンツを撮影することが可能としている。また、画面に人物の顔が存在するような場合には、環境音から収音の指向性を狭め人物の話したこと等を記録できるようにしている。さらに、顔の表情も判定し、表情変化がある場合には、収音の指向性を狭めるのを速くし、急に話し出しても録音することが可能としている。
なお、本実施形態においては、人物が被写体になる場合、その人物が主被写体になることが多いという統計上の理由から、人物の顔を優先させるようにしていた。しかし、これに限らず、ペットの顔や、鳥のさえずる様子等を判定し、この場合に、収音指向性を限定するようにしても勿論かまわない。
また、環境音重視の収音はオンオフできるようにしても良い。オンオフできるようにすることにより、例えば、列車が通り過ぎ、余韻を残すようなシーンでは、環境音重視の設定を解除し、列車が通り過ぎていく様子を録音できるように、マイクの指向性を狭くし、ステレオ感を強調することもできる。
次に、収音範囲を変化させるための音声収録部7の構成と動作について説明する。音声収録部7は、図6に示すように、ステレオマイク7a、AD変換器42、加算・乗算器43から構成される。
ステレオマイク7aは、右側マイク41aと左側マイク41bとから構成され、カメラ本体10の前面側に配置される。ステレオマイク7aはADコンバータ42に接続され、音声信号がデジタル化される。すなわち、右側マイク41aはADコンバータ42aに、また左側マイク41bはADコンバータ42bに、それぞれ接続されデジタル音声データを出力する。
ADコンバータ42の出力端は、加算・乗算器43に接続され、左右の音声の差分が演算される。すなわち、右側マイク41aの音声データを出力するADコンバータ42aは、加算器43aのマイナス側入力端と、加算器43dのプラス側入力端に接続される。また、左側マイク41bの音声データを出力するADコンバータ42bは、加算器43aのプラス側入力端と、加算器43dのマイナス側入力端に接続される。
加算器43aの出力は乗算器43bの入力端に接続され、加算器43dの出力端は乗算器43eの入力端に、それぞれ接続される。乗算器43bと乗算器43eの制御端は、信号処理及び制御部1に接続され、乗算器43b、43eのゲインを入力する。加算器43cの入力端は、ADコンバータ42aの出力端と乗算器43bの出力端が接続される。加算器43fの入力端は、ADコンバータ42bの出力端と、乗算器43eの出力端が接続される。
加算・乗算器43の出力端は、音声収録部7としての出力部であり、記録部4に接続される。すなわち、加算器43cの出力端と、加算器43fの出力端は、それぞれ、右側音声データ、左側音声データを出力し、これらの出力端を介して各音声データは記録部4に記録される。
このように音声収録部7は構成されており、ステレオ入力した音声データの左右のバランスを制御し、音声の指向性を狭くしたり、広くしたりすることができる。音声収録部7の2つのマイク41a、41bによって入力した音声信号は、ADコンバータ42a、42bによってデジタル音声データに変換され、加算器43aによって、(左側の音声データ)−(右側の音声データ)が演算され、加算器43dによって、(右側の音声データ)−(左側の音声データ)が演算される。すなわち、加算器43a、43bによって、左右の音声データの差分が演算される。ここで、演算された差分は左右の音の差異であり、この差異を減らすことにより中央部の音を強調することができ、この加算演算はそのための前処理である。
加算器43a、43dで求められた差分は、それぞれ乗算器43b、43eにおいて信号処理及び制御部1からのゲインに基づいて乗算し、この乗算結果を、加算器43c、43fにおいて、右側の音声データと左側の音声データに、それぞれ加算する。なお、加算器43a、43dの出力がマイナスなので、実質的には減算することになる。このため、加算器43c、43fから出力される左右の音声データは、左右の広がりを抑えた音声出力となる。ここで、乗算器43b、43eにおけるゲインを大きくすれば、広がり感をなくすことができ、ゲインを小さくすれば広がり感を広げることができる。信号処理及び制御部1は、ステップS6、S7、S14のタイミングにおいて、乗算器43b、43eに対してゲインを制御することにより、広がり感を変えることができる。
このように、本実施形態においては、一対の同じ性能のマイクを用いて、収音の範囲を広げたり、狭めたりすることができる。指向性が広い場合には雰囲気の豊かな環境音を豊富に取り入れることができ、また指向性が狭い場合には、特定の被写体にフォーカスした音声を記録することができる。
なお、同じ性能の一対のマイクを設ける以外にも、例えば、指向性の広いマイクと、指向性の狭いマイクを設けるようにしても良い。また、再生時に必ずしもステレオである必要はなく、単に画面中央部の音を強調したり、強調しないように切り換える等、行っても良い。さらに、左右のみ2チャンネルステレオに限定されるものではなく、5.1ch等の録音を行うようにしても良い。さらに、左右に限らず、上下用のマイクを設けるようにしても良い。
以上説明したように、本発明の第1実施形態によれば、撮影視野の変更に伴う音声の不要な変化を抑え、落ち着いて再生表示できる画像・音声コンテンツの撮影可能なカメラを提供することができる。また、撮影時の環境の雰囲気を伝えるために、撮影者の目と耳の指向性の差異を考慮し、そのときの情景を視覚でも聴覚でも思い出せるようにしている。
次に、本発明の第2実施形態について、図7乃至図9を用いて説明する。本発明の第1実施形態においては、カメラ10の画像から被写体中の顔を検出して環境音を重視した音声収録となる広範囲での収音にするか、主被写体の音声を収録するように指向性を狭めていた。第2実施形態においては、カメラの背面にも撮影者を撮像するサブカメラ(背面カメラ)を配置し、撮影者の注視方向を考慮して指向性を切り換えるようにしている。本実施形態における構成は、第1実施形態の構成と大部分が重複しているので、相違点を中心に説明し、同様の構成については同一の符号を付して説明を省略する。
図7は、第2実施形態におけるカメラ10の構成を示すブロック図である。図1に示した第1実施形態の構成と異なるのは、撮像部2a(背面カメラ)を有している点である。この撮像部2aは、光学系や撮像素子を有し、図8に示すように、カメラ10の背面に配置されている。撮像部2aは、撮影者16の顔の画像を撮像し、信号処理及び制御部1と顔検出部3に出力する。顔検出部3は、撮像部2aから画像データを入力し、撮影者16の注視方向を検出する。
この第2実施形態においては、図8に示すように、カメラ10を向けた方向37ではなく、別の方向38に、例えば、鳥のさえずりが聞こえてきた場合に、画面中央の収音を弱め、環境音を重視し、鳥の声を効果的に記録することも可能である。すなわち、撮像部(背面カメラ)2aと顔検出部3によって、撮影者16の顔検知を行い、撮影者16が別の方向38を見ていた場合には環境音を重視するように、一方、撮影者16が表示部8の方向39を見ていたい場合には、収音の指向性が狭くなるように、音声収録部7による音声収録範囲の制御を行う。
次に、本実施形態の動作について、図9に示すフローチャートを用いて説明する。第1実施形態における図4に示したカメラ制御のフローは共通であり、ステップS114の撮影・収音記録のサブルーチンを図9に置き換えただけである。図9のフローでは、撮像部(背面カメラ)2aによって、撮影者16の興味がどこにあるかを判定し、収音範囲や方向を切替えるようにしている。
図9に示す撮影・収音記録のフローに入ると、まず、前方注視しているか否かの判定を行う(S1a)。このステップでは、撮像部2aからの画像データに基づいて、顔検出部3が撮影者16の注視方向を検出するので、この検出結果に応じて判定する。この判定の結果、撮影者16が、前方を注視していた場合、すなわち表示部8の方向39を注視していた場合には、次に、所定時間が経過しているか否かを判定する(S2)。このステップでは、撮影者16がカメラ10の表示部8を注視するようになってからの経過時間が所定時間を経過したか否かの判定を行う。単に、一時的に撮影者16が前方の表示部8を見るだけの場合もあることから、所定時間の間、注視していたか否かを判定している。
ステップS2における判定の結果、所定時間が経過した場合には、撮影者16がカメラ10の表示部8を所定時間に亘って注視していたことから、撮影者16は画面の中だけに興味があるとして、収音範囲を視野に合わせて狭めていく。まず、現在の収音範囲が広いか否かの判定を行う(S3)。この判定の結果、収音範囲が広かった場合には、次に、収音範囲が広範囲側の限界に達しているか否かの判定を行う(S4)。この判定の結果、限界に達していなければ、収音範囲を徐々に画面中央に狭くしていく(S6a)。
また、ステップS3における判定の結果、収音範囲が広くなかった場合には、収音範囲が周辺か否かを判定する(S8)。例えば、鳥を注視していた場合、この鳥が飛び去ってしまい、見えなくなると、撮影者は、再度、表示部8の画面モニタを見るので、そのときには、ステップS3における判定は、収音範囲は狭いと判定される。このあと、ステップS8の判定を行い、その結果、収音範囲が周囲となり、後述するステップS13に進み、ステップS14において、収音範囲を徐々に広くし、その後、徐々に収音範囲を狭くする。一方、ステップS8における判定の結果、収音範囲が周辺でなかった場合には、ステップS10に進む。
ステップS1aにおける判定の結果、前方を注視していなかった場合、すなわち、撮影者16が表示部8を見ていなかった場合には、次に、収音範囲が狭いか否かを判定する(S12)。前方を注視していない場合には、撮影者の興味は画面外にもあることを示しており、ステップS13以下において収音範囲を広げ、環境音を重視した録音を行う。ステップS12における判定の結果、収音範囲が狭かった場合には、広範囲側の限界か否かを判定する(S13)。この判定の結果、限界に達していなければ、収音範囲を徐々に広げる(S14)。
ステップS13における判定の結果、限界に達していた場合には、注視方向が一定か否かの判定を行う(S21)。ここでは、撮影者16の顔を撮像部2aによってモニタし、顔検出部3による検出の結果、同じ方向を見続けているか否かを判定する。この判定の結果、注視方向が一定の場合には、注視方向を収音する(S22)。このステップでは、注視している方向の収音を強調する。すなわち、注視方向が右側であれば、右側マイク41aの収音を強調し、注視方向が左側であれば、左側マイク41bの収音を強調する。
ステップS2、S4、S8、S12、S21における判定がNoであった場合、またはステップS13、S22における処理を実行すると、次に、終了か否かの判定を行う(S10)。ここでは、第1実施形態と同様、レリーズ釦の操作状態を検出し、これに基づいて判定する。この判定の結果、終了でなかった場合には、ステップS1aに戻り、前述の動作を行い、一方、判定の結果、終了であった場合には、元のフローに戻る。
このように、本実施形態においては、画像と音声を別々にし、撮影者が映しかった画像と聴きたかった音声を記録することが可能となる。したがって、撮影者が見ているものと聴いているものが異なるようなシーンであっても、撮影者の意図に沿った撮影を行うことができる。例えば、木の葉がそよいでいる様子を映しながら、別の木に停まっている鳥のさえずりを聴いている状況はよくあり、このような状況を的確に記録することができる。なお、本実施形態と第1実施形態を組み合わせ、例えば、画面中央に人物がおり、撮影者が別の場所を見ている場合であっても、中央を重視するような収音を行うことが考えられる。
次に、本発明の第3実施形態について、図10および図11を用いて説明する。本発明の第1および第2実施形態では、撮影時に、周囲の音も含めて広範囲(環境音重視)で行う収音か、被写体に向けて指向性を狭くする収音との間で収音を制御していた。この第3実施形態においては、撮影時にはステレオで録音し、音声の再生時に、環境音重視で再生するか、被写体に向け指向性を狭くした再生かを、画面のシーンやユーザのしぐさを判定し、切り換えるようにしている。
図10は、音声収録部7の構成を示すブロック図である。この音声収録部7は再生時には、左右の音声再生のバランスを調整する。図6に示した第1実施形態における構成と比較し、ADコンバータ42と加算・乗算器43の間に記録部4を接続している点が相違しているが、各回路内の構成は、第1実施形態における音声収録部7と同じである。
すなわち、右側マイク41aの音声信号をAD変換するADコンバータ42aの出力端は記録部4に接続され、このADコンバータ42aによってAD変換された音声データは、加算器43a、43c、43dに出力される。また、左側マイク41bの音声信号をAD変換するADコンバータ42bの出力端は記録部4に接続され、このADコンバータ42bによってAD変換された音声データは、加算器43a、43d、43fに出力される。
上述した第1および第2実施形態においては、音声収録部7は撮影時に収音範囲を変更していたが、本実施形態においては、撮影時には、ステレオマイク7aからの音声信号をADコンバータによってデジタル化し、この音声データの収音範囲を変更することなく、そのまま記録部4に記録する。そして、再生時に記録部4から読み出された音声データに基づいて、加算・乗算器43によって音声再生のバランスを制御している。
次に、本実施形態における動作について図11に示すフローチャートを用いて説明する。このフローに入ると、ステップS101〜S104は、図4に示したカメラ制御のフローと同様であるので、詳しい説明を省略するが、撮影モードであった場合には、画像データを取り込み(S102)、この画像データを用いてライブビュー表示を行い(S103)、また顔判定を行う(S104)。
ステップS104における顔判定の結果、顔が存在していれば、その顔の位置を判定する(S105b)。顔の位置判定を行うと、または顔判定の結果、顔が存在しなかった場合には、第1実施形態と同様、レリーズ釦が操作状態を判定し、記録を開始するか否かの判定を行う(S106)。この判定の結果、記録開始でなかった場合には、ステップS101に戻り、前述の動作を実行する。
ステップS106における判定の結果、記録開始であった場合には、正面撮影でステレオ録音を開始する(S115)。このステップでの撮影は、カメラ10の正面の方向を撮影する正面撮影であり、動画撮影やパノラマ撮影等、連続的な撮影による画像データを記録部4に記録する。また、画像の記録と併せてステレオマイク7aによって、左右の音を別々に記録部4に記録する。
正面撮影およびステレオ録音と共に、背面画像特徴記録も行う(S116)。ここでは、撮像部2aから出力されるカメラ100の背面側の撮影者の画像データに基づいて、撮影者の変化の特徴、例えば、どこを見ているか等について検出し、この検出された変化の特徴を記録部4に記録する。
続いて、記録終了か否かの判定を行う(S119)。このステップでは、レリーズ釦の操作状態を検出し、これに基づいて判定する。この判定の結果、記録終了でなかった場合には、ステップS115に戻り、撮影を続行する。一方、ステップS119における判定の結果、記録終了であった場合には、カメラ制御のフローを終了し、再び、ステップS101から実行する。
ステップS101における判定の結果、撮影モードでなかった場合には、再生モードか否かの判定を行う(S121)。この判定の結果、再生モードが設定されていなかった場合には、ステップS101に戻る。一方、再生モードが設定されていた場合には、撮影者が注視しているか否かの判定を行う(S131)。ステップS116において背面画像を用いて撮影者の注視方向が記録されているので、このステップでは、この記録されている注視方向に基づいて、撮影者が表示部8のモニタ画面を注視しているか否かを判定する。
ステップS131における判定の結果、撮影者が注視していなかった場合には、画像の再生と共に広い範囲の音を再生する(S133)。このステップでは、環境音重視で、すなわちステレオマイク7aで収音した幅広い範囲の音声を再生する。一方、ステップS131における判定の結果、撮影者が注視していた場合には、画像の再生と共に注視方向を強調した音声再生を行う(S132)。すなわち、撮影者が注視していた画面の方向に音源があるように、音性収録部によって左右の音量のバランスの制御を行う。このような再生時に音を調整する方法であれば、中央の人物が話し出した時に収音が間に合わず遅れてしまうという不具合を防止することができる。
ステップS132やS133における音声再生を行うと、次に、再生の終了か否かの判定を行う(S134)。この判定の結果、再生終了でなければ、ステップS131に戻り、再生を続行する。一方、判定の結果、再生終了であった場合には、次に、送信するか否かの判定を行う(S141)。このステップでは、ステップS121以下において再生表示をした画像を、外部機器20において再生表示すべく送信するか否かの判定である。
ステップS141における判定の結果、送信であった場合には、表示画像の送信を行う(S142)。ここでは、通信部12を介してテレビやフォトスタンド等の外部機器20に、選択された表示画像を送信する。これによって、図2(c)に示すような状況で、画像や音声をインテリアとして飾れるコンテンツとすることができる。このコンテンツは、音声も再現するので、思い出の追想にふさわしいものとなっている。
なお、画像の送信前に、環境音か指向性の狭くすることや、音声の左右のバランス等、音声再生についてユーザが補正できるようにしても良い。表示画像を送信すると、または、ステップS141における判定の結果、送信でなかった場合には、カメラ制御のフローを終了し、再び、ステップS101から実行する。
このように、本発明の第3実施形態においては、撮影時には、音声については、そのままステレオ録音し、再生時に、左右の音量のバランスや音源の位置を制御するようにしている。このため、撮影場所において急激な状況変化があっても、撮影後に適切に調節を行うことができる。
次に、本発明の第4実施形態について、図12乃至図14を用いて説明する。第1〜第3実施形態においては、被写体像の中に顔部分が含まれているか否か、または撮影者の注視している位置に基づいて、音声の収音範囲や再生時の音源位置等の音声制御を行っていた。本実施形態においては、被写体が注視している方向を検出し、この検出結果に基づいて音声制御を行うようにしている。
例えば、図12(b)に示すようなシーンを想定してみる。このシーンでは、被写体17は、海を見ており波の砕ける音を聴いている。カメラ10aの位置で撮影した画像は、画角31cを考慮すると、撮影画像32となる。このような状況において、被写体17が聴いている音、この例では、波の砕ける音が記録されていることが望ましい。
そこで、本実施形態では、撮影者と被写体17が聴いている音を記録するようにしている。カメラ10a、ユーザ(撮影者)の耳15c、被写体17、被写体の聴いている波18が、図12に示した位置関係にある場合であって、収音範囲33cが図示した範囲であれば、この収音範囲33cが、ユーザ(撮影者)15と被写体17が共通して聴いている範囲となる。図12の例では、ステレオ録音する場合に、右側(被写体17が見ている方向)の音声を強調して記録するか、または再生時に右側の音声を強調して再生すれば良い。
本実施形態の構成は、図1に示したカメラ10と同様な構成でよく、顔検出部3が、被写体17の顔の向きを判定する機能を有するようにする。その他の構成は、図1と同様であるので、詳しい説明は省略する。
次に、本実施形態における動作を図13に示すカメラ制御のフローチャートを用いて説明する。このフローに入ると、第1実施形態と同様に、まず、撮影モードか否かの判定を行い(S101)、撮影モードであった場合には、次に、画像を取り込むと共に顔検出を行う(S102)。続いて、取り込んだ画像を用いて表示部8にライブビュー表示を行い(S103)、顔判定を行う(S104a)。
ステップS104aにおける顔判定の結果、顔が存在すれば、顔の位置判定を行う(S105b)。これらの撮影時の顔検出では、被写体17の顔の位置を判定しておき、撮影に入ってすぐに、被写体の顔がどちらを向いているかを判定しやすくし、またどこの露出やピントを合わせるべきかを即座に判定できるようにしておく。例えば、被写体17が撮影前にカメラ10を見ていれば顔を検知しやすいが、撮影開始後にカメラ10の反対側を向いてしまうと、顔を検出するのが困難となることから、記録開始前から判定しておき、記録開始後でも顔の向きを記録できるようにしている。
顔位置判定を行うと、またはステップS104aにおける判定の結果、顔が存在しなかった場合には、次に、第1実施形態と同様に、記録開始か否かの判定を行う(S106)。この判定の結果、記録開始でなかった場合には、ステップS101に戻り、前述の動作を実行する。
一方、ステップS106における判定の結果、記録開始であった場合には、次に、撮影を開始し、ステレオ録音を行い、被写体の注視方向を記録する(S117)。続いて、顔検出部3によって検出された被写体の注視方向に基づいて、音声強調録音を行う(S118)。また、ステレオ録音のみでも良いが、本実施形態においては、被写体の注視方向に基づいて、収音の向きを変更した結果も同時に記録する。これによって、再生時に、どちらの音声でも選択再生が可能となる。
次に、記録終了か否かの判定を行う(S119)。記録開始はレリーズ釦の操作によって行っており、記録終了もレリーズ釦の操作状態に基づいて判定する。この判定の結果、記録終了でなかった場合には、撮影、すなわち画像と音声の記録を続行する。一方、判定の結果、記録終了であった場合には、撮影を終了し、再び、ステップS101に戻り、前述の動作を実行する。
ステップS101における判定の結果、撮影モードでなかった場合には、次に、再生モードか否かの判定を行う(S111)。この判定の結果、再生モードでなかった場合には、ステップS101に戻り、モード判定を繰り返す。一方、判定の結果、再生モードであった場合には、次に、注視方向のデータが有るか否かの判定を行う(S131)。このステップでは、画像データの再生を開始すると共に、ステップS117において画像と共に記録した注視方向の記録が有るか否かの判定を行う。
ステップS131における判定の結果、注視方向データがなかった場合には、広い範囲、すなわち環境音重視で音声の再生を行う(S133)。一方、注視方向のデータが有った場合には、その注視方向の音声を強調した再生を行う(S132)。これによって、被写体となった人物が、そのときの事を回想するに、聴いていた音声が再生されるので、容易に思い出に浸ることができる。
音声再生を行うと、次に、再生終了か否かの判定を行(S134)。この判定の結果、再生終了でなかった場合には、ステップS131に戻り、画像と音声の再生を続行する。一方、再生終了であった場合には、次に、外部機器20へ画像の送信か否かの判定を行う(S141)。この判定の結果、送信であった場合には、表示画像の送信を行う(S142)。第2実施形態における図9のフローで説明したように、これによって、テレビ等の外部機器20において、インテリアのようにして撮影画像を楽しむことができる。表示画像の送信を行うと、またはステップS141における判定の結果、送信でなかった場合には、カメラ制御のフローを終了し、再び、ステップS101から実行する。
次に、本実施形態における音声収録部7の構成を、図14に示すブロック図を用いて説明する。本実施形態における音声収録部7は、図6に示した第1実施形態における音声収録部7に比較し、加算器43a、43dの極性が逆になっている以外は、図6と同じであるので、相違点を中心に説明する。すなわち、右側マイク41aからの音声信号をAD変換するADコンバータ42aの出力端は、加算器43aのプラス側端と、加算器43dのマイナス側端に接続されている。また、左側マイク41bからの音声信号をAD変換するADコンバータ42bの出力端は、加算器43aのマイナス側端と、加算器43dのプラス側端に接続されている。これ以外の構成は、図6と同じである。
このような構成であることから、加算器43a、43dから出力される差分は、プラスとなり、乗算器43b、43eに印加するゲインが大きければ大きいほど強調の度合が大きくなる。つまり、左または右の広がりを強調した音声出力を得ることができる。したがって、乗算器43aまたは乗算器43eのゲインを大きくすることにより、左または右の収音を大きくすることができる。
前述した図13におけるカメラ制御のフロー中のステップS118において、注視方向に応じて、乗算器43bまたは乗算器43eのゲインを変更する制御を行うことにより、注視方向に応じた収音を行うことができる。このように、本実施形態においては、一対の同一の性能のマイクを備え、収音の範囲を左右に偏らすことを簡単に行うことができる。
本実施形態においては、撮影時の被写体の聴いている音声を検出し、この音声を記録するようにしている。このため、画像に合った音声を記録し再生することが可能となる。
以上、説明したように本発明の実施形態においては、撮影者や被写体の聴いている音声を検出し、この音声を記録し、または再生するようにしている。このため、撮影者の見ている範囲と撮影者が聴いている範囲の差異を考慮して、雰囲気豊かな音響効果を有する画像を再生することができる。また、音声をたよりに、撮影時の様子を落ち着いて思い出すことも可能となる。さらに、撮影時の環境の雰囲気を伝えるために、撮影者の目と耳の指向性の差異を考慮し、そのときの情景を視覚でも聴覚でも思い出せるようにしている。
なお、本発明の各実施形態においては、再生表示する場合には、カメラ10の表示部8、またはカメラ10から外部機器20に送信して行っていた。しかし、これに限らず、例えば、記録部4で記録された記録媒体を直接、テレビやパーソナルコンピュータに装填するようにしても良い。
また、本発明の各実施形態においては、撮影のための機器として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラのような動画用のカメラでもよく、さらに、携帯電話や携帯情報端末(PDA:Personal Digital Assist)等に内蔵されるカメラでも構わない。いずれにしても、画像と共に音声を記録することのできる撮影のための機器であれば、本発明を適用することができる。
本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
1・・・信号処理及び制御部、2・・・撮像部、3・・・顔検出部、4・・・記録部、6・・・操作判定部、7・・・音声収録部、8・・・表示部、9・・・時計部、10・・・カメラ、10a・・・カメラ、10b・・・カメラ、12・・・通信部、15・・・ユーザ(撮影者)、15a・・・目、15b・・・目、15c・・・耳、16・・・撮影者、17・・・被写体、18・・・被写体が聴いている波、20・・・外部機器、21・・・信号処理及び制御部、22・・・通信部、23・・・表示・再生部、24・・・表示優先部、25・・・リモコン受信部、31a・・・画角、31b・・・画角、31c・・・画角、32・・・撮影画像、33a・・・収音範囲、33b・・・収音範囲、33c・・・収音範囲、35・・・可聴範囲、37・・・方向、38・・・方向、39・・・方向、41a・・・右側マイク、41b・・・左側マイク、42a・・・ADコンバータ、42b・・・ADコンバータ、43a・・・加算器、43b・・・加算器、43c・・・乗算器、43d・・・加算器、43e・・・乗算器、43f・・・加算器