JP2016208200A

JP2016208200A - 撮像装置

Info

Publication number: JP2016208200A
Application number: JP2015086328A
Authority: JP
Inventors: 裕子山内; Hiroko Yamauchi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-04-21
Filing date: 2015-04-21
Publication date: 2016-12-08

Abstract

【課題】撮影者の声を認識し、その期間の音量を視聴者の意図に合わせて調節する撮像装置を提供する。【解決手段】音声信号を入力する音声入力手段１１３と、被写体を撮像して第一の動画ファイルを出力する第一の撮像光学系１０１と、第一の撮像光学系を操作する人物を撮像して第二の動画ファイルを出力する第二の撮像光学系１０２と、第二の撮像光学系から人物の口唇領域を検出し、第一の撮像光学系を操作する人物が声を発しているかを認識する撮影者発声認識手段を具備する。撮影者発声認識手段により撮影者が声を発していると認識した期間は、音声入力手段に入力される音声信号を調節する音声信号調節手段を備える。【選択図】図１（ａ）

Description

本発明は、通常の撮像装置にさらに撮影者も撮影可能な撮像系を有する撮像装置に関し、特に被写体から発せられる音声と撮影者から発せられる音声のバランスを自由に調節できる撮影モードを提供する技術に関する。

従来から、カムコーダ等で撮影された動画において、ＢＧＭ（ＢａｃｋｇｒｏｕｎｄＭｕｓｉｃ）や効果音等を付加する編集作業が行われている。またその際に、撮影時に録音された音声を残すべく、音声信号より人の声を認識し録音された音声やＢＧＭの音量を調節する編集作業が行われている。

特許文献１には、撮影時の画像と録音された音声信号から人の顔と声を認識し、それぞれが認識された区間の音量を調節する技術が開示されている。

特開２０１０−１０７８０号公報

上述の特許文献に開示された従来技術では、画像に人の顔が映っているか、音声信号に人の声が入っているかという情報を用いているのみであるため、誰が声を発しているかまで判断することはできない。例えば、人物を撮影しながら撮影者がなにか声を発した場合でも、それが被写体の声なのか、撮影者の声なのかは判断できない。

そのため音量の調節も一律で行われるが、被写体に対し撮影者の方がカメラ近くおり、その分大きな音量で録音されることになる。このとき、被写体と撮影者が会話をしていた場合にはバランスが低下するし、撮影者の声の方をはっきり聞きたいもしくは被写体の声の方をはっきり聞きたいと言った要望には応えることができない。

そこで、本発明の目的は、人の声でも特に撮影者の声を認識し、その期間の音量を視聴者の意図に合わせて調節することを可能にした撮像装置及びその制御方法を提供することにある。

上記の目的を達成するために、本発明の撮像装置は、音声信号を入力する音声入力手段と、被写体を撮像して第一の動画ファイルを出力する第一の撮像光学系と、前記第一の撮像光学系を操作する人物を撮像して第二の動画ファイルを出力する撮像光学系と、前記第二の撮像光学系から人物の口唇領域を検出し、前記第一の撮像光学系を操作する人物が声を発しているかを認識する撮影者発声認識手段を具備し、前記撮影者発声認識手段により撮影者が声を発していると認識した期間は、前記音声入力手段に入力される音声信号を調節する音声信号調節手段を備えることを特徴とする。

本発明によれば、撮影者の声が含まれる動画において、視聴者の用途に合わせて音量を調節する撮像装置を提供することができる。

本発明の実施形態に係る撮像装置の全体構成を示すブロック図である。本発明の実施形態に係る撮像装置の全体構成を示すブロック図である。本発明に係る人物の口唇画像から、声を発しているかの判断を行う手段について説明する図である。本発明に係る撮影者の声と考えられる周波数帯の音量を調節する手段について説明する図である。本発明に係る撮影者の声の周波数を決定する手段について説明する図である。本発明に係る撮影者の声の周波数を決定する手段について説明する図である。本発明に係る撮影者の声の周波数を決定する手段について説明する図である。本発明に係る撮影者の声の周波数を決定する手段について説明する図である。本発明の第１の実施形態における動画撮影時に撮影者の画像から録音レベルを調節する処理の一例を示すフローチャートである。本発明の第１の実施形態における動画撮影時に撮影者の画像から録音レベルを調節する処理の一例を示すフローチャートである。本発明の第１の実施形態における動画撮影時に撮影者の画像から録音レベルを調節する処理の一例を示すフローチャートである。本発明の第２の実施形態における動画再生時に撮影者の画像から再生音レベルを調節する処理の一例を示すフローチャートである。本発明の第２の実施形態における動画再生時に撮影者の画像から再生音レベルを調節する処理の一例を示すフローチャートである。本発明の第３の実施形態における動画撮影時もしくは動画再生時での画面表示の例である。

以下に、本発明の好ましい実施の形態を、添付図面に基づいて詳細に説明する。

図１（ａ）、（ｂ）は本発明の実施形態にかかわる撮像装置の構成例を示す図である。

図１に示す撮像装置は、複数の撮像光学系である第１の撮像光学系１０１、第２の撮像光学系１０２と、制御部１０３と、映像信号処理部１０４と、表示部１０５と、撮影者発声認識部１０６と、外部入出力端子部１０７と、ズームスイッチ１０８と、シャッタレリーズスイッチ１０９と、記憶部１１０と、電源部１１１と、音量信号処理部１１２と、マイク１１３とスピーカ１１４を備える。

第１の撮像光学系１０１と第２の撮像光学系１０２とは、同じ構成を有する。具体的には、第１の撮像光学系１０１は、光学ユニット１１５、撮像素子１１６、撮像信号処理部１１７を備える。また第２の撮像光学系１０２は、光学ユニット１１８、撮像素子１１９、撮像信号処理部１２０を備える。

第１の撮像系１０１は主に被写体の撮影を行うため、画像データを撮像する画像撮像手段としての機能を有する。第１の撮像系１０１が備える光学系は３群構成である。第１の撮像系１０１が有する光学ユニット１１５は、対物レンズ１２１、ズームレンズ１２２、シャッタ・絞りユニット１２３、シフトレンズ１２４、フォーカスレンズ１２５、ズーム駆動制御部１２６、シャッタ・絞り駆動制御部１２７、シフトレンズ駆動制御部１２８、フォーカス駆動制御部１２９からなる。

図１（ｂ）を用い説明する。対物レンズ１２１は、被写体に焦点を合わせるためのものである。ズームレンズ１２２は、ズーム制御に関与する１群レンズである。シフトレンズ１２３は振れ補正を実行する２群レンズである。フォーカスレンズ１２４は、焦点調節処理を実行する３群レンズである。ズームレンズ１２２は、光軸方向に沿って位置を変更可能に構成されており、倍率変更を行う。ズーム駆動制御部１２６は、ズームレンズ１２２を駆動する。ズームレンズ１２２の後段に配置されているシャッタ・絞りユニット１２３は、露光量を調節する。

シャッタ・絞り駆動制御部１２７は、シャッタ・絞りユニット１２３を駆動制御して、露光量の調節すなわち露出調節処理を行う露出調節手段である。シフトレンズ１２４は、光軸に対して略垂直な平面内での位置を変更することが可能に配置されており、振れ補正光学系を構成する。シフトレンズ駆動制御部１２８は、シフトレンズ１２４を駆動制御する。フォーカスレンズ１２５は、ピント調節用レンズである。フォーカスレンズ１２５は光軸方向に沿って位置を変更可能に構成されている。フォーカス駆動制御部２２９は、フォーカスレンズ１２５を駆動制御して、焦点調節処理を実行する焦点調節手段としての機能を有する。

第２の撮像系１０２は、第１の撮像系１０１と同一の光軸上を逆向きに配置することで主に撮影者の撮影を行い、撮影者が声を発しているかを認識するための処理機能を有する。第２の撮像系１０２が備える光学ユニット１１８は、第１の撮像系１０１と同様に３群構成としても良いが、ここでは対物レンズのみとする。

撮像素子１１６および１１９は、光学ユニット１１５および１１８を通ってきた光像を受光して、受光した光像を電気信号に変換する。ここで、第１の撮像光学系１０１で用いられている撮像素子１１９は本発明の撮像手段であり、映像信号生成手段に相当する。また第２の撮像光学系１０２で用いられている撮像素子１１８は撮影者が発声しているかどうかを認識するための画像を撮像する撮像素子である。撮像信号処理部１１７および１２０は、撮像素子１１６および１１９がそれぞれ出力した電気信号を映像信号に変換し、変換した映像信号を画像データとして出力する。

撮像信号処理部１１７および１２０が出力した画像データに対して、映像信号処理部１０４は所定の処理を施して表示部１０５に表示可能な画像信号とし、該画像信号を出力する。撮影者発声認識部１０６は、撮像信号処理部１２０から得られた発話者の口唇部分の映像から、当該発話者が発話した発話内容を識別し、その情報を制御部１０３に伝えるもので、画像処理部１３０と、動作測定部１３１を備えている。

画像処理部１３０は、撮像信号処理部１２０で撮影された口唇部分の映像を構成する画像の画素値の差に基づいて、当該口唇部分における予め設定した特徴点の位置を抽出するものである。ここで、図２を参照して、抽出する特徴点について説明する。図２に示すように、口唇部分の特徴点は、口唇部分の上端Ａ点、下端Ｂ点、左端Ｃ点、右端Ｄ点の４点である。なお、各点は、口唇部分を示す赤色の画素値を有する画素と、顔面部分を示す肌色の画素値を有する画素との画素値の差が最大となる画素（境界となる画素）、つまり、口唇上部（上唇）及び口唇下部（下唇）の最端座標に位置する画素が対象となっている。

また、この実施形態では、画像処理部１３０は、図２に示したように４点を特徴点として抽出しているが、これに限定されるものではなく、任意個数（４点未満でもよいし、５点以上でもよい）の点を特徴点として抽出してもよい。例えば、口唇部分の映像として、発話者の顔面下部が撮影されている場合、下顎の頂点を特徴点として抽出してもよい。この場合、顎部の肌色の画素値を有する画素と首部の肌色の画素値を有する画素との画素値の差（輝度の差）が最大となる画素で、且つ、最下端に位置する画素を抽出すればよい。

そして、この画像処理部１３０は、撮像系１０２から映像が継続して入力される限り、各画像について、特徴点を抽出し続ける。つまり、画像処理部１３０は、１つの画像について、４点を抽出し、映像を構成する複数の画像ごとに抽出していき、抽出した特徴点を、口唇部分の映像を撮影していた時刻に沿った時系列データとして、出力することとなる。

動作測定部１３１は、画像処理部１３０で抽出された特徴点の位置について、当該特徴点の位置の変化を、口唇動作の履歴である動作履歴として測定するものである。そして、この動作測定部１３１では、画像処理部１３０で抽出された４点（又は５点）の特徴点それぞれについて、特徴点それぞれの変化について、動作履歴を測定する。なお、画像処理部１３０に口唇部分の映像が継続して入力され、特徴点が抽出された際に、一定時間、特徴点の変化が無い場合、つまり、口唇部分の映像には変化がない（動きがない）場合、この動作測定部５によって、発話者は発話していないと判定される。

制御部１０３はシステム全体を制御する。具体的には、制御部１０３は、各々の撮像光学系が備えるズーム駆動制御部１２６、シャッタ・絞り駆動制御部１２７、シフトレンズ駆動制御部１２８、フォーカス駆動制御部１２９、撮像素子１１６および１１９、撮像信号処理部１１７および１２０、映像信号処理部１０４、撮影者発声認識部１０６の処理を制御する。また、制御部１０３は、表示部１０５、外部入出力端子部１０、記憶部１１８、音声信号処理部１２０を制御する。制御部１０３は、図示を省略するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等により解釈及び実行されるプログラムに従って処理を実行する。

本実施形態に特有の動作として、制御部１０３は、前述した撮影者発声認識部１０６の認識結果に基づいて、音声信号処理部１１２に指令を出す。また、制御部１０３は、表示部１０５に指示して、映像信号処理部１０４が出力した画像信号を表示画面上に画面表示させる。表示部１０５は、撮像光学系毎に画像信号を画面表示する。表示部１０５は、制御部１０３の指示に従った画面表示処理を実行する。

ズームスイッチ１０８は、ズームレンズ１０３を操作する操作手段である。ズームスイッチ０８は、ユーザの操作入力に応じて、操作信号を入力し、入力した操作信号を制御部１０３に送信する。

外部入出力端子部１１７は、図示を省略する外部装置との間の通信を媒介する。具体的には、外部入出力端子部１１７には、映像信号及び音声信号が入力される。また、映像信号及び音声信号が外部入出力端子部１１７から出力される。

シャッタレリーズスイッチ１０９は、押し込み量に応じて、第１スイッチ( 以下「ＳＷ１」と記述)及び第２スイッチ（以下「ＳＷ２」と記述）が順にオン状態となるように構成されている。具体的には、ユーザがシャッタレリーズボタン１０９を約半分押し込んだ場合に、ＳＷ１がオン状態となる。ユーザが、更に、シャッタレリーズボタン１０９を最後まで深く押し込んだ場合に、ＳＷ２がオン状態となる。そして、ＳＷ１、ＳＷ２がオン状態となったことを示す信号が制御部１０３に送信される。

記憶部１１０には、撮像信号処理部１１７および１２０が出力した画像データ、映像信号処理部１０４が出力した画像信号等が記憶される。なお、記憶部１１０には、制御部１０３によって解釈されて実行される、本実施形態の撮像装置の制御プログラムを記憶するためのメモリ装置も含まれる。

電源部１１１は、図１に示す撮像装置の各構成部に対して、必要に応じて電源電圧を供給する。

マイク１１３は音声信号入力部であり、外部の音を録音する際に用いられる。スピーカ１１４は音声信号出力部であり、動画再生時など外部に音声を出力する際に用いられる。マイク１１３およびスピーカ１１４はそれぞれ、音声処理部１１２に接続される。音声処理部１１２は、マイク1１３など外部から入力された音声信号に、デジタル変換処理やエンコード処理等の種々の信号処理を施し、デジタル音声信号として制御部1０３へ入力する。また、制御部１０３より音声出力ために音声信号が送られてきた場合には、アナログ変換等の種々の信号処理を施し、当該音声信号をスピーカ１１４などに出力する。

また音声出力の際、音声処理部１１２は制御部１０３からの指示に従い音量を調節しながら出力する。特に撮影者が声を発したとされる期間に関しては、動画撮影もしくは再生を行いながら随時調節を行う。単純にその期間の音量を上げ下げして調節しても良いし、撮影者の声と考えられる周波数帯のみを調節しても良い。後者の方法をとれば、仮に被写体と撮影者が同時に声を発した場合でも、撮影者の声のみを調節することができる。

前述撮影者声と考えられる周波数帯のみを調節する方法について、図３を用いて説明する。３０１は撮像光学系１０２により撮影された撮影者の顔画像である。顔画像３０１はａ、ｂ、ｃ、ｄ、ｅとフレームが進むとする。ここで、撮影者の顔画像３０１の中から、３０１ｃから３０１ｄの期間で撮影者が発声していると判断されたとする。このとき、発声したとされるフレーム３０１ｃとその直前のフレーム３０１ｂの音を周波数であらわしたものが３０２ｂと３０２ｃである。この３０２ｂと３０２ｃを比較し、差異のある周波数帯を調節する。ここでは差異が見られる周波数帯Ａを調節する。また、このとき一般的に人の声の周波数帯であるとされる１００Ｈｚから７００Ｈｚのみの差異を見ると限定しても良い。直前のフレームも撮影者が声を発していたと認識されていた場合には、直前のフレームにて決定した周波数帯を継続して調節対象とする。

ただし、この方法では撮影者と被写体が同時に発声した場合に、被写体の声までも調節対象となってしまう。被写体の声でなくとも、周りの音声等も撮影者の声と認識されてしまうことが考えられる。

図４（ａ）は撮影者と被写体が同時に発声したときの音を周波数で表した一例である。３００Ｈｚと６００Ｈｚにそれぞれピークがあるとする。そこで、撮影者が声を発していないと認識されたフレーム、声を発したと認識されたフレームそれぞれから平均値を算出し、その差分から撮影者の声であると考えられる周波数を決定する。図４（ｂ）は撮影者が声を発していないと認識されたフレームの平均、図４（ｃ）は声を発したと認識されたフレームの平均である。また図４（ｄ）は、図４（ｂ）と図４（ｃ）の差分をとったものである。これより、最も値の大きい周波数Ｃが撮影者の声であると判断し、図４（ａ）の例でも周波数Cに近いと考えられる６００Ｈｚの方のピークを調節する。またここで説明した差分から撮影者の声の周波数を求める方法は撮影時に随時行っても良いし、動画記録終了後に声を発したと認識されたフレームを見直し、撮影者の声の周波数と比較して逸脱するものがあったら声を発していないと情報を修正する処理にも利用できる。

本実施形態の撮像装置の制御方法は、図１に示す撮像装置が備える各処理部によって実現される。また、図１に示す撮像装置の機能は、ＣＰＵとその上で実行されるコンピュータプログラムにより実現される。このコンピュータプログラムは、コンピュータが読み取り可能な記録媒体に格納することができ、この記録媒体に記録して提供され、又は、通信インタフェースを介してネットワークを利用した送受信により提供される。

次に、図１に示す撮像装置による、自動焦点調節（ＡＦ）処理、自動露出（ＡＥ）処理、及び、ズーム駆動制御処理について説明する。上述したように、シャッタレリーズスイッチ１０９の押し込み量に応じて、ＳＷ１及びＳＷ２が順にオン状態となる。シャッタレリーズスイッチ１０９のＳＷ１がオン状態となったことを示す信号が制御部１０３に入力されると、制御部１０３が、フォーカス駆動制御部１２９に指示して、制御部１０３が決定した指標を対象としてＡＦ処理を実行させる。制御部１０３から指示を受けたフォーカス駆動制御部１２９は、フォーカスレンズを駆動することによって、上記指標を対象としたＡＦ処理を実行する。また、制御部２０３が、シャッタ・絞り駆動制御部１２７に指示して、制御部１０３が決定した指標を対象として、ＡＥ処理を実行させる。具体的には、シャッタ・絞り駆動制御部１２７が、シャッタ・絞りユニット１２３を駆動して、露光量を適正な値に設定する。

ＳＷ２がオン状態となり、ＳＷ２がオン状態となったことを示す信号が制御部１０３に入力されると、制御部１０３が、撮像素子１１６および１１９に指示して、撮像素子１１６および１１９が受光した光像を電気信号に変換させる。撮像信号処理部１１７および１２０が、上記電気信号に基づいて画像データを出力する。映像信号処理部１０４が、撮像信号処理部１１７および１２０から得られる画像データに基づいて、表示部１０５に表示する画像信号を出力する。制御部１０３は、撮像信号処理部１１７および１２０が出力した画像データ、映像信号処理部１０４が出力した画像信号を記憶部１１０に記憶する。

ユーザがズームスイッチ１０８を操作すると、その操作信号が制御部１０３に入力され、制御部１０３がズーム駆動制御部１２６に指示を与える。ズーム駆動制御部１２６は、制御部１０３によって指示されたズーム位置へズームレンズ１２２を移動させる。これによって、ズーム駆動制御処理が実行される。

以下、図５を参照して、本発明の第１の実施例による、動画撮影時に録音レベルの調節を行う方法について説明する。

図５は撮像装置の動作処理について説明するフローチャートである。なお図中の「ＹＥＳ」は肯定的な判断結果を示し、「ＮＯ」は否定的な判断結果を示す。

図５（ａ）は本発明の実施形態にかかわる撮像装置における動画撮影時に録音レベルの調節を行う処理例を示すフローチャートであり、撮影者発声認識処理と、撮影者発声Ｆｌａｇ補正処理を含む。当該撮影者発声認識の処理例については図５（ｂ）に示す。つまり図５（ｂ）は得られた撮影者の画像から撮影者が声を発しているかを認識する処理を例示したフローチャートである。当該撮影者発声Ｆｌａｇ補正処理については図５（ｃ）に示す。つまり図５（ｃ）は、撮影者発声認識処理に撮影者発声Ｆｌａｇが１とされたフレームに対し、認識に誤りがないかを判断し、誤りがある場合には補正する処理を示したフローチャートである。

まず、図１に示す撮像装置の制御部１０３が、ユーザの操作入力に従って撮影モードに設定されたことを確認し、撮影処理を開始する。

先ず、ステップＳ５０１では、撮影者の声を大きく録音するか、小さく録音するか、またどの程度調節するか等の音量調節の仕方を選択する。

ステップＳ５０２では、本発明の撮像手段である撮像光学系１０１の撮像素子１１６の駆動を開始する。

続くステップＳ５０３では、シャッタレリーズスイッチ１０９のＳＷ１がオン状態になったか否かを制御部１０３が判断する。その結果、ＳＷ１のオン状態が検知された場合（Ｓ５０３でＹＥＳの場合）には、ステップＳ５０４に進み、またＳＷ１のオフ状態が検知された場合（Ｓ５０３でＮＯの場合）には、Ｓ５０３での判定が繰り返される。

ステップＳ５０４において、焦点調節やシャッタースピードの決定等の撮影準備をＡＥ及びＡＦにて行い、ステップＳ５０５において、撮影者発声Ｆｌａｇを０に初期化し、ステップＳ５０６において、撮影者発声認識処理を行う撮像光学系１０２の撮像素子１１９の駆動を開始する。

ステップＳ５０７において、制御部１０３がシャッタレリーズスイッチ１０９のＳＷ２がオン状態になったかを判断する。制御部１０３が、ＳＷ２がオン状態になったと判断した場合（Ｓ５０７でＹＥＳの場合）には、ステップＳ５０８に進み動画の記録を開始する。制御部１０３が、ＳＷ２がオン状態でない、すなわち、オフ状態であると判断した場合（Ｓ５０７でＮＯの場合）には、上記ステップＳ５０７に戻り、ＳＷ２がＯＮ状態であるかを判断する。

ステップＳ５０８において、撮影者発声認識部１０６が撮影者が声を発したかの認識処理を行い、続くステップＳ５０９において、撮影者発声Ｆｌａｇの補正処理を行い、ステップＳ５１０において、音声信号処理部１１２がマイク１１３から入力される音の録音レベルを調節する。撮影者発声認識処理の具体的内容については、図５（ｂ）を用いて後で詳細に説明する。撮影者発声Ｆｌａｇ補正処理の具体的内容については、図５（ｃ）を用いて後で詳細に説明する。

ステップＳ５１１において、撮影者発声Ｆｌａｇの値を見る。撮影者発声Ｆｌａｇが０である、すなわち画像フレームにて撮影者が声を発していないと判断された場合（Ｓ５１１でＮＯの場合）には、動画撮影を継続し、ステップＳ５０9に戻り撮影者発声認識処理を行う。撮影者発声Ｆｌａｇが１である、すなわち画像フレームにて撮影者が声を発していると判断された場合（Ｓ５１１でＹＥＳの場合）には、ステップＳ５１４に進み、動画撮影を終了し、ステップＳ５１５において、記憶部１１０に画像を保存し、撮影を終了する。

図５（ｂ）は図５（ａ）のステップＳ５０９における撮影者発声認識処理の一例を示す。

先ず、ステップＳ５１６において、撮影者発声認識部１０６は画像処理部１３０によって、撮像信号処理部１２０から得られた口唇部分の映像から特徴点を抽出する。続くステップＳ５１７において、撮影者発声認識部１０６は、動作測定部１３１によって、画像処理部１３０で抽出された特徴点の変化を、動作履歴（動作履歴グラフ）として測定する。

ステップＳ５１８では、動作履歴から一定時間内に変化があるかどうかを判断する。一定時間内に変化があった場合（Ｓ１０２でＹＥＳの場合）、制御部１０３は撮影者が声を発したと判断し、続くステップＳ５１9において撮影者発声Ｆｌａｇを１にして、処理を終了する。逆に一定時間内に特徴点の変化が無い場合、つまり、口唇部分の映像には変化がない（動きがない）場合、制御部１０３は撮影者が声を発していないと判断し、続くステップＳ５２０において、撮影者発声Ｆｌａｇを０にして、処理を終了する。

図５（ｃ）は図５（ａ）のステップＳ５１０における撮影者発声Ｆｌａｇ補正処理の一例を示す。

先ず、ステップＳ５２１において、制御部１０３が撮影者発声Ｆｌａｇを確認する。制御部１０３が、撮影者発声Ｆｌａｇが1ではない、すなわち撮影者が声を発してないと判断した場合（Ｓ５２１でＮＯの場合）には、そのまま処理を終了する。制御部１０３が、撮影者発声Ｆｌａｇが１である、すなわち撮影者が声を発したと判定した場合（Ｓ５２１でＹＥＳの場合）には、続くステップＳ５２２にて、制御部１０３が調節対象の周波数帯を決定する。決定の方法は前述のとおりである。

ステップＳ５２３において、撮影した動画ファイルの先頭から直前までの撮影者発声Ｆｌａgが０のフレームの音声信号の平均を、ステップＳ５２４にて撮影者発声Ｆｌａｇが１のフレームの音声信号の平均を算出し、続くステップＳ５２５において、その差分を算出する。その結果に基づき、ステップＳ５２６において、撮影者の声と考えられる周波数を決定する。

ステップＳ５２７において、ステップＳ５２２で求めた調節対象の周波数帯と、ステップＳ５２６において求めた撮影者の声の周波数に乖離があるかを判断する。この判断は、調節対象の周波数帯の中のピーク値と、撮影者の声と考えられる周波数がどれくらいずれているかを見て行う方法があるし、それ以外の方法を用いても良い。調節対象の周波数帯と撮影者の声の周波数に乖離がないと判断された場合（Ｓ５２７でＮＯの場合）には、そのまま処理を終了するが、乖離があると判断された場合（Ｓ５２７でＹＥＳの場合）には、ステップＳ５２８にて撮影者発声Ｆｌａｇを０にし、処理を終了する。

以下、図６を参照して、本発明の第２の実施例による、動画撮影時に録音レベルの調節を行う方法について説明する。なお図中の「ＹＥＳ」は肯定的な判断結果を示し、「ＮＯ」は否定的な判断結果を示す。動画再生の際には、撮影者発声Ｆｌａｇを見て、再生音レベルを調節する。また動画撮影の際、撮影者発声Ｆｌａｇは撮影者が声を発していると認識したフレームに都度付与しても良いし、声を発したタイミングもしくはフレームを記憶部１１０に記憶しておき、動画記録の際に管理ファイルとして一緒に記録しても良い。

図６（ａ）は本発明の実施形態にかかわる撮像装置における動画再生時に再生音レベルの調節を行う処理例を示すフローチャートであり、撮影処理と、撮影者発声認識処理と、撮影者発声Ｆｌａｇ補正処理を含む。当該撮影処理については図６（ｂ）に示す。つまり図６（ｂ）は撮像装置が撮影モードに設定されたときの処理動作を例示したフローチャートである。当該撮影者発声認識処理および当該撮影者発声Ｆｌａｇ補正処理については、実施例１で説明した通りである。

先ず、ステップＳ６０１において、図１に示す撮像装置の制御部１０３がユーザの操作入力に従って再生モードに設定されているかを確認する。制御部１０３が再生モードであると判断した場合（Ｓ６０１でＹＥＳの場合）には、ステップＳ６０２に続く。制御部１０３が再生モードでない、すなわち撮影モードであると判断した場合（Ｓ６０１でＮＯの場合）には、ステップ６０３において撮影処理を行う。なお具体的内容については図６（ｂ）を用いて後で詳細に説明する。

ステップＳ６０２では、撮影者の声を大きく再生するか、小さく再生するか、またどの程度調節するか等の音量調節の仕方を選択する。このステップでなくとも、動画再生しながら随時変更しても良い。

ステップＳ６０４では、記憶部１１０に保存されている動画の再生を開始する。続くステップＳ６０５では、制御部１０３が再生中の動画が音調節モードで撮影されたものであるかを判断する。制御部１０３が音調節モードではないと判断した場合（Ｓ６０５でＮＯの場合）には、ステップＳ６０8に進む。制御部１０３が音調節モードであると判断した場合（ステップＳ６０5においてＹＥＳの場合）には、続くステップＳ６０６において制御部１０３は、再生中のフレームの撮影者発声Ｆｌａｇを確認する。撮影者発声Ｆｌａｇが１である、すなわち撮影者が声を発していると判断した場合（Ｓ６０６でＹＥＳの場合）は、そのフレームでは撮影者の発した声が録音されているため、続くステップＳ６０７において、再生者の用途に応じて再生音レベルを調節する処理を行う。撮影者発声Ｆｌａｇが０である、すなわち撮影者が声を発していないと判断した場合（Ｓ６０６でＮＯの場合）は、ステップＳ６０8に進む。調節の仕方に関してはステップＳ６０２の処理に従う。

続くステップＳ６０８では、制御部１０３が再生中の動画が終了したかどうかを判断する。制御部１０３が動画が終了したと判断した場合（Ｓ６０８でＹＥＳの場合）には、そこで処理を終了する。制御部１０３が動画がまだ続くと判断した場合（Ｓ６０８でＮＯの場合）には、ステップＳ６０５の処理に戻る。

図６（ｂ）は図６（ａ）のステップＳ６０３における撮影処理の一例を示す。

先ず、ステップＳ６０９では、本発明の撮像手段である撮像光学系１０１の撮像素子１１６の駆動を開始する。

続くステップＳ６１０では、シャッタレリーズスイッチ１０９のＳＷ１がオン状態になったか否かを制御部１０３が判断する。その結果、ＳＷ１のオン状態が検知された場合（Ｓ６１０でＹＥＳの場合）には、ステップＳ６１１進み、またＳＷ１のオフ状態が検知された場合（Ｓ６１０でＮＯの場合）には、Ｓ６１０での判定が繰り返される。

ステップ６１１において、焦点調節やシャッタースピードの決定等の撮影準備をＡＥ及びＡＦにて行い、ステップ６１２において、撮影者発声Ｆｌａｇを０に初期化し、ステップＳ６１３において、撮影者発声認識を行う撮像光学系１０２の撮像素子１１９の駆動を開始する。

ステップＳ６１４において、制御部１０３がシャッタレリーズスイッチ１０９のＳＷ２がオン状態になったかを判断する。制御部１０３が、ＳＷ２がオン状態になったと判断した場合（Ｓ６１４でＹＥＳの場合）には、ステップＳ６１５に進み動画の記録を開始する。制御部１０３が、ＳＷ２がオン状態でない、すなわち、オフ状態であると判断した場合（Ｓ６１４でＮＯの場合）には、上記ステップＳ６１４に戻り、ＳＷ２がＯＮ状態であるかを判断する。

ステップＳ６１６において、撮影者発声認識部１０６が撮影者が声を発したかの認識処理を行い、続くステップＳ６１７において、撮影者発声Ｆｌａｇの補正処理を行う。撮影者発声認識処理および撮影者発声Ｆｌａｇ補正処理の具体的内容については、実施例１で説明した通りである。

ステップ６１８において、再び、制御部１０３がシャッタレリーズスイッチ１０９のＳＷ２がオン状態になったかを判断する。制御部１０３が、ＳＷ２がオン状態になったと判断した場合（Ｓ６１８でＹＥＳの場合）には、ステップ６１９に進み、動画撮影を終了し、ステップ６２０において、記憶部１１０に画像を保存し、撮影処理を終了する。制御部１０３が、ＳＷ２がオン状態でない、すなわち、オフ状態であると判断した場合（Ｓ６１８でＮＯの場合）には、動画記録を続け、撮影者発声認識処理を行う。

以下、図７を参照して、本発明の第３の実施例による、画面表示の方法について説明する。

これまでにも説明した通り、撮影者発声認識処理は撮影者の顔画像を撮影したそのデータを元に行う。このとき動画データには撮像光学系１０２で撮影した撮影者の顔データを付与しても良いし、付与しなくとも良い。また、撮影者の顔データを付与する場合には、撮影者発声認識部１０６が撮影者が声を発したと認識したタイミングで前記撮影者の顔データに効果をつけても良いし、もしくは撮影者が見て分かるようなアイコンを表示させても良い。

撮影者の顔データを付与する場合の画面表示例について、図７を用いて説明する。図７は撮像装置における再生画面表示の例である。図に示す７０１は本発明における撮像装置である。７０２は、撮影者を撮影するための撮像光学系１０２である。７０３は表示部１０５であり、通常撮像光学系１０１により撮影された画像を表示する。７０４は撮像光学系１０２により撮影された画像である。７０５は撮影者が発声したと認識したタイミングで表示するアイコンである。

撮影者が声を発していないと認識された場合（撮影者発声Ｆｌａｇが０の場合）の画面表示例が７０１ａである。撮影者が声を発したと認識された場合（撮影者発声Ｆｌａｇが１の場合）の画面表示例が７０１ｂである。この例では、撮影者が声を発したと認識すると、撮影者の画像７０４を大きく表示し、かつアイコン７０５を表示させている。他にも、撮影者の画像７０４を点滅させるなどの効果を付与しても良い。また、効果をつける際には、撮影者の声のトーンや、大きさから効果を変化させても良い。

実施例３により、再生時にどのタイミングで撮影者が声を発したと認識されたかが視覚的にも分かるようになる。そこで、もし視聴者が意図しないタイミングで撮影者が声を発したと認識されていた場合には、撮像装置７０１の操作からも撮影者発声Ｆｌａｇの修正や音調節の設定ができるようにしても良い。例えば、動画再生中にシャッタレリーズスイッチ１０９が押された場合、そのシーンの撮影者発声Ｆｌａｇを１にする。ズームスイッチ１０８が操作された場合、撮影者発声Ｆｌａｇが１のフレームの音量を調節できる。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

１０１撮像光学系１、１０２撮像光学系２、１０３制御部、
１０４映像信号処理部、１０５表示部、１０６撮影者発声認識部、
１０７外部入出力端子部、１０８ズームスイッチ、
１０９シャッタレリーズスイッチ、１１０記憶部、１１１電源部、
１１２音声信号処理部、１１３マイク、１１４スピーカ、
１１５撮像光学系１に含まれる光学ユニット１、
１１６撮像光学系１に含まれる撮像素子１、
１１７撮像光学系１に含まれる撮像信号処理部１、
１１８撮像光学系２に含まれる光学ユニット２、
１１９撮像光学系１に含まれる撮像素子２、
１２０撮像光学系１に含まれる撮像信号処理部２、
１３０画像処理部、１３１動作測定部

Claims

第一の動画像を撮影する第一の撮影手段と、
第二の動画像を撮影する第二の撮影手段と、
前記第二の撮影手段は前記第一の撮影手段を操作する人物を撮影し、
前記第二の動画像から人物の口唇領域を検出し、撮影者が声を発しているかを認識する撮影者発声認識手段と、
音声信号を入力する音声入力手段と、
前記音声入力手段により入力された音声を処理する音声処理手段と、
前記音声信号を前記第一の動画像に記録する音声記録手段を具備し、
前記撮影者発声認識手段により撮影者が声を発していると認識した期間は、前記音声入力手段に入力される音声信号を調節する音声信号調節手段を備えることを特徴とする撮像装置。
第一の動画像を撮影する第一の撮影手段と、
第二の動画像を撮影する第二の撮影手段と、
前記第二の撮影手段は前記第一の撮影手段を操作する人物を撮影し、
前記第二の動画像から人物の口唇領域を検出し、撮影者が声を発しているかを認識する撮影者発声認識手段と、
音声信号を入力する音声入力手段と、
前記音声入力手段により入力された音声を処理する音声処理手段と、
前記音声信号を前記第一の動画像に記録する音声記録手段を具備し、
前記撮影者発声認識手段により撮影者が声を発していると認識した期間は、声を発したという情報を付与する撮影者発声情報付与手段を備えることを特徴とする撮像装置。
前記撮影者発声情報付与手段は前記撮影者発声認識手段により撮影者が声を発していると認識した画像フレームに付与することを特徴とする請求項２に記載の撮像装置。
前記第一の動画像に撮影時の詳細情報を記録できる管理ファイルを具備し、
前記撮影者発声情報付与手段は前記撮影者発声認識手段により撮影者が声を発していると認識した期間を特定し、前記管理ファイルに付与することを特徴とする請求項２に記載の撮像装置。
前記撮影手段により撮影された動画像を表示する表示手段と
前記第一の動画像を再生する際に前記撮影者発声情報を元に前記音声出力手段から出力される音声信号を調節する音声信号調節手段を持つこと特徴とする再生装置。
前記表示手段は前記撮影者発声認識手段により撮影者が声を発していると認識した期間前記第一の動画像に前記第二の動画像を組み込み表示することを特徴とする請求項１又は請求項２に記載の撮像装置。
前記撮影手段により撮影された動画像を表示する表示手段を具備し、
前記表示手段は前記第一の動画像に前記第二の動画像を組み込み第三の動画像を表示する動画像組込手段を有することを特徴とする請求項１又は請求項２に記載の撮像装置。
前記動画組込手段は前記音声入力手段に入力された音声の大きさに応じて第二の動画像の大きさを変える、動画組込変更手段を有することを特徴とする請求項１又は請求項２に記載の撮像装置。
前記表示手段は、前記撮影者発声認識手段により撮影者が声を発していないと認識した期間は前記第一の動画像を表示し、前記撮影者発声認識手段により撮影者が声を発していると認識した期間は前記第三の動画像を表示することを特徴とする請求項８に記載の撮像装置。
前記撮影した動画像を記録する記録手段を具備し、
前記記録手段は前記第一の動画像と前記第二の動画像をそれぞれ記録することを特徴とする請求項1又は請求項２に記載の撮像装置。
前記撮影した動画像を記録する記録手段を具備し、
前記記録手段は前記表示手段により表示された動画像と同様に前記第一の動画像に前記第二の動画像を組み込み記録することを特徴とする請求項１又は請求項２に記載の撮像装置。
前記撮影者発声認識手段により撮影者が声を発していると認識した期間、それを撮影者に知らせる撮影者発声認識通知手段を具備することを特徴とする請求項１又は請求項２に記載の撮像装置。
前記撮影者発声認識通知手段は前記表示手段により通知することを特徴とする請求項１２に記載の撮像装置。