JP2011254400A

JP2011254400A - 画像音声記録装置

Info

Publication number: JP2011254400A
Application number: JP2010128215A
Authority: JP
Inventors: Kanako Hoshino; 可奈子星野
Original assignee: Olympus Imaging Corp
Current assignee: Olympus Imaging Corp
Priority date: 2010-06-03
Filing date: 2010-06-03
Publication date: 2011-12-15

Abstract

【課題】再生時に聞き取りやすい音量で且つ不自然さを感じさせることなく画像と連携した音声を記録できる画像音声記録装置を提供すること。
【解決手段】マイク１０６を介して入力された音声信号はフィルタ１０７２において人物音声信号と背景音声信号とに分離される。人物音声信号から検出される音量に基づいてゲイン値設定部１０７４によって可変増幅器１０７３のゲイン値αが設定され、可変増幅器１０７３による人物音声信号の増幅が行われる。ゲイン値設定部１０７６によって被写体距離に応じたゲイン値βが設定され、可変増幅器１０７５による人物音声信号のさらなる増幅が行われる。可変増幅器１０７５で増幅された人物音声信号は合成部１０７７において背景音声信号と合成される。この合成音声信号に基づいて合成音声データが生成され、この合成音声データが画像データとともに記録部１０５に記録される。
【選択図】図２

Description

本発明は、画像及び音声を記録する画像音声記録装置に関する。

近年、デジタルカメラ等では、動画像を記録できるものが増えてきており、これに伴って音声の記録も行えるようになっている。このような画像と音声の双方を記録できる画像音声記録装置においては、複数の異なる距離に同時に音源が存在する場合に、至近の音源からの音声が不自然に大きな音量となり、遠方の音源からの音声が小さな音量となって記録される場合があった。これに対し特許文献１では、マイクロホンを介して入力された音声信号の音圧（音量）がある一定レベルとなるように音声信号の増幅を行うことで、音源までの距離や音圧によらずに一定の音量での音声の記録再生を行えるようにしている。

特開２００３−２５９４７９号公報

特許文献１の手法では、再生時に聞き取りやすい音量で音声の記録を行える一方で、音源までの距離や音源の音量の情報が反映されなくなるため、かえって不自然さを与えてしまう場合も考えられる。
本発明は、上記の事情に鑑みてなされたもので、再生時に聞き取りやすい音量で且つ不自然さを感じさせることなく画像と連携した音声を記録できる画像音声記録装置を提供することを目的とする。

上記の目的を達成するために、本発明の一態様の画像音声記録再生装置は、被写体の像を受光して電気信号に変換し、前記被写体の像に基づく画像データを出力する撮像部と、前記被写体までの距離を検出する距離検出部と、音源からの音声を電気信号に変換する音声検出部と、前記音声信号を、人物を音源とする音声に基づく人物音声信号と背景を音源とする音声に基づく背景音声信号とに分離する音声分離部と、前記人物音声信号における音量が所定の音量となるように前記人物音声信号を第１のゲイン値で増幅する第１の増幅部と、前記第１の増幅部で増幅された人物音声信号を前記被写体距離に応じた第２のゲイン値で増幅する第２の増幅部と、前記第２の増幅部で増幅された人物音声信号と前記背景音声信号とを合成し、合成音声データを生成する合成部と、前記合成によって得られた合成音声データを前記画像データとともに記録する記録部とを具備することを特徴とする。

本発明によれば、再生時に聞き取りやすい音量で且つ不自然さを感じさせることなく画像と連携した音声を記録できる。

本発明の一実施形態に係る画像音声記録装置の一例としてのデジタルカメラの構成を示す図。音声処理部の構成を示す図。フィルタの動作を説明するための図。ゲイン値αの設定について示す図。有音部及び無音部について示す図。撮影状況毎のゲイン値βの設定の例を示す図である。被写体距離に応じたゲイン値βの設定について示す図。

以下、図面を参照して本発明の実施形態を説明する。
図１は、本発明の一実施形態に係る画像音声記録装置の一例としてのデジタルカメラの構成を示す図である。図１に示すデジタルカメラ（以下、単にカメラと記す）１００は、撮像部１０１と、バス１０２と、画像処理部１０３と、表示部１０４と、記録部１０５と、マイクロホン（マイク）１０６と、音声処理部１０７と、スピーカ１０８と、顔検出部１０９と、被写体距離検出部１１０と、制御部１１１と、操作部１１２とを有している。

撮像部１０１は、レンズや撮像素子、アナログ/デジタル（Ａ/Ｄ）変換部等を有しており、被写体の像を受光して電気信号（画像信号）に変換し、この画像信号をデジタル信号に変換して被写体の像に基づく画像データを生成する。バス１０２は、カメラ１００の内部で発生した各種データを撮像装置内の各ブロックに転送するための転送路である。画像処理部１０３は、階調補正回路や圧縮伸張回路等を備え、撮像部１０１で得られた画像データに対して各種の画像処理を施す。表示部１０４は、例えば液晶ディスプレイであり、各種の画像を表示する。記録部１０５は、例えばカメラ１００に対して着脱可能なメモリカードからなる記録媒体であり、画像処理部１０３で処理された画像データと音声処理部１０７で処理された音声データとを含む動画像データ等が記録される。音声検出部としての機能を有するマイク１０６は、カメラ１００の外部に配置された音源からの音声を電気信号（音声信号）に変換する。音声処理部１０７は、マイク１０６で得られた音声信号に対して増幅処理を施した上でデジタル信号に変換してこれによって得られる音声データに対して各種の音声処理を施したり、記録部１０５に記録された音声データから音声信号を復元したりする処理を行う。スピーカ１０８は、音声処理部１０７によって復元された音声信号に基づく音声を再生する。顔検出部１０９は、撮像部１０１を介して得られる画像データから、撮影時の主要被写体である人物の顔領域を検出する。顔の検出は、例えば顔の特徴を示す部分（目や鼻、口等）を画像データ中から検出することで行う。被写体距離検出部１１０は被写体距離を検出する。この被写体距離検出部１１０は、例えばアクティブ方式のＡＦセンサを用いることができる。この他、撮像部１０１を介して得られる画像データから被写体距離を検出するようにしても良い。制御部１１１は、撮像部１０１の動作制御や表示部１０４の動作制御等の、カメラ１００の各種シーケンスを統括的に制御する。操作部１１２は、ユーザがカメラ１００を操作するための各種の操作部材である。

図２に、音声処理部１０７の構成を示す。音声処理部１０７は、プリアンプ１０７１と、フィルタ１０７２と、可変増幅器１０７３及び１０７５と、ゲイン値設定部１０７４及び１０７６と、合成部１０７７とを有している。
プリアンプ１０７１は、マイク１０６を介して入力された音声信号を予め設定されているゲイン値に従って増幅する。音声分離部としての機能を有するフィルタ１０７２は、人物を音源とする人物音声信号と背景を音源とする背景音声信号とにプリアンプ１０７１で増幅された音声信号を分離し、人物音声信号を可変増幅器１０７３とゲイン値設定部１０７４とに出力するとともに、背景音声信号を合成部１０７７に出力する。フィルタ１０７２は、例えば図３のような人の音声の周波数帯域（１００〜３００Ｈｚ程度）を有する音声信号を人物音声信号として抽出する帯域通過フィルタ等で構成される。可変増幅器１０７３は、フィルタ１０７２で分離された人物音声信号をゲイン値（第１のゲイン値）α倍に増幅する。ゲイン値設定部１０７４は、フィルタ１０７２から入力された人物音声信号から人物を音源とする音声の音量（入力された音声信号の振幅に対応）を検出し、検出した音量に従って可変増幅器１０７３のゲイン値αを設定する。可変増幅器１０７３とゲイン値設定部１０７４とによって第１の増幅部の機能が実現される。可変増幅器１０７５は、可変増幅器１０７３によって増幅された人物音声信号をゲイン値（第２のゲイン値）β倍に増幅する。ゲイン値設定部１０７６は、制御部１１１から入力されたシーンモードの設定と、顔検出部１０９による顔検出結果と、被写体距離検出部１１０による被写体距離検出結果とに従って可変増幅器１０７５のゲイン値βを設定する。可変増幅器１０７５とゲイン値設定部１０７６とによって第２の増幅部の機能が実現される。合成部１０７７は、可変増幅器１０７５から出力された人物音声信号とフィルタ１０７２から出力された背景音声信号とを合成した後、この合成音声信号をデジタル化し、各種の音声処理（圧縮処理等）を施して合成音声データを生成する。

以下、図１及び図２に示した本実施形態の画像音声記録装置の動作について説明する。ここで、以下の説明においては動画撮影時の動作について説明する。しかしながら、本実施形態における画像音声記録装置は静止画像を単独で記録したり、音声を単独で記録したり、静止画像と音声を連携させて記録したり等もできる。

まず、動画撮影に先立ってシーンモードの設定が行われる。シーンモードは、ユーザが細かな設定を行うことなく特定のシーンに適した撮影を行えるようにするための動作モードである。シーンモードの設定は、例えばユーザの操作部１１２の操作によって行われる。以下においては、カメラ１００が、シーンモードとして、人物撮影に適したポートレートモードと風景撮影に適した風景モードとを有している例を説明する。例えばポートレートモードであれば、撮影時において顔検出が行われ、顔検出結果に従って被写体である人物の顔にフォーカスや露出を合わせる等の処理が行われる。

シーンモードの設定後、ユーザの操作部１１２の操作によって動画撮影の実行が指示されると、制御部１１１は、シーンモードに対応した設定で撮像部１０１とマイク１０６の動作を開始させる。撮像部１０１の撮像素子で得られた画像信号はＡ/Ｄ変換部でデジタル化される。画像処理部１０３は撮像部１０１を介して得られた画像データに対して種々の画像処理を施す。この画像処理は、従来周知の処理であり、例えばＭＰＥＧ方式の圧縮処理等が含まれる。

一方、音声処理部１０７はマイク１０６を介して得られた音声信号に対して音声処理を施す。プリアンプ１０７１はマイク１０６を介して得られた音声信号を固定のゲイン値に従って増幅する。プリアンプ１０７１のゲイン値はそれほど大きな値とする必要はないが、最低限、フィルタ１０７２における分離が可能な程度の音声信号を生成できるゲイン値とする。プリアンプ１０７１から出力された音声信号はフィルタ１０７２に入力される。フィルタ１０７２は、入力された音声信号を人物音声信号と背景音声信号とに分離し、人物音声信号を可変増幅器１０７３とゲイン値設定部１０７４とに入力し、背景音声信号を合成部１０７７に入力する。

ゲイン値設定部１０７４は、入力された人物音声信号から検出される音量（振幅）から、入力された人物音声信号が有音部であるか無音部であるかを判断する。入力された人物音声信号が有音部であるか否かは、例えば図４に示すように、入力された人物音声信号から検出される音量（振幅）が第１の所定値以上であるか否かによって判断する。さらに、本実施形態では、入力された人物音声信号が撮影者を音源としたものであるか否かの判断も行う。入力された人物音声信号が撮影者を音源としたものであるか否かは、例えば図４に示すように、入力された人物音声信号から検出される音量（振幅）が第１の所定値よりも十分大きい第２の閾値以上であるか否かによって判断する。通常、撮影者はカメラ１００から最も近くに存在しているので、最も大きい音量の音声が撮影者の音声としてカメラ１００に入力される可能性が高い。したがって、本実施形態では、音量が第２の閾値以上となった場合にはその音声を撮影者が発したものであると考える。

入力された人物音声信号が有音部である場合に、ゲイン値設定部１０７４は、人物音声信号から検出される音量（振幅）が所定の音量（振幅）となるようにゲイン値αを設定する。即ち、ゲイン値設定部１０７４は、図４に示すように、音量が大きくなるほどゲイン値αを小さくし、音量が小さくなるほどゲイン値αを大きくする。

なお、ゲイン値設定部１０７４は、有音部が検出されてから次に無音部が検出されるまでの期間（図５の有音部の期間）のゲイン値αを設定し、無音部が検出された時点でゲイン値αを１倍に戻し、その後に再び有音部が検出された場合にゲイン値αを更新するように構成することが望ましい。このようにすることで、例えば複数の人物が混在するような撮影シーンにおいて、人物毎の適切な人物音声信号の増幅処理を行うことが可能となる。

ゲイン値設定部１０７４によってゲイン値αが設定されると、可変増幅器１０７３は、ゲイン値α倍だけ人物音声信号を増幅する。このような増幅がなされた人物音声信号を記録部１０５に記録した場合には、常に聞き取り易い音量の人物音声信号を記録することが可能となる。

また、入力された人物音声信号が無音部である場合に、ゲイン値設定部１０７４は、ゲイン値αを１倍に設定する。これは、ノイズ音等の不要な音声が増幅されるのを防止するための処理である。
さらに、ゲイン値設定部１０７４は、入力された人物音声信号が有音部であるのか、無音部であるのか、撮影者を音源としたものであるのかを示す情報と、可変増幅器１０７３に設定したゲイン値αとをゲイン値設定部１０７６に送信する。

ゲイン値設定部１０７６は、ゲイン値設定部１０７４から入力された情報に従って、入力された人物音声信号が有音部であるのか、無音部であるのか、撮影者を音源としたものであるのかを判断する。そして、ゲイン値設定部１０７６は、この判断結果と、シーンモードと、顔検出結果と、被写体距離とに従ってゲイン値βを設定する。

図６は、ゲイン値設定部１０７６における撮影状況毎のゲイン値βの設定の例を示す図である。図６に示した例は、それぞれ、（１）人物のみの撮影シーンで且つ音源に人物が含まれている撮影状況、（２）人物のみの撮影シーンで且つ音源に人物が含まれていない撮影状況、（３）風景のみの撮影シーンで且つ音源に人物が含まれている撮影状況、（４）人物と風景の混在シーンで且つ音源に人物が含まれている撮影状況、を示している。

まず、ゲイン値設定部１０７６はシーンモードの判別を行う。シーンモードがポートレートモード場合にはゲイン値の設定に顔検出結果を利用する。この際、ゲイン値設定部１０７６は、顔検出部１０９の顔検出結果から、撮影シーンに人物（顔）が含まれているか否かを判定する。

入力された人物音声信号が有音部で且つ撮影シーンに顔が含まれていた場合に、ゲイン値設定部１０７６は、被写体距離に応じてゲイン値βを設定する。即ち、ゲイン値設定部１０７６は、図７に示すように、被写体距離が大きくなるほどゲイン値βを小さくする。ここで、複数の顔が検出されていた場合には、被写体距離のみからでは、現在、可変増幅器１０７５に入力されている人物音声信号がどの距離の人物を音源としたものであるかを判別することはできない。この場合、ゲイン値設定部１０７６は、ゲイン値αの大小から、現在、入力されている人物音声信号がどの距離の人物を音源としたものであるかを判別する。通常は、遠距離の被写体の場合には音量が小さくなってゲイン値αが大きくなり、近距離の被写体の場合には音量が大きくなってゲイン値αが小さくなると考えられる。したがって、ゲイン値αの大小から、人物音声信号がどの距離の人物を音源としたものであるかを判別することが可能である。

また、入力された人物音声信号が有音部で且つ撮影シーンに顔が含まれていない場合、或いは入力された人物音声信号が撮影者を音源としたものである場合には、ゲイン値設定部１０７６は、顔の有無や被写体距離によらずにゲイン値βを１倍よりも低い値に設定する。さらに、入力された人物音声信号が無音部の場合、ゲイン値設定部１０７６は、ゲイン値βを１倍に設定する。

また、シーンモードが風景モードの場合に、ゲイン値設定部１０７６は、顔の有無や被写体距離によらずにゲイン値βを１倍に設定する。
なお、ゲイン値設定部１０７６も、有音部が検出されてから次に無音部が検出されるまでの期間（図５の有音部の期間）のゲイン値βを設定し、無音部が検出された時点でゲイン値βを１倍にし、その後に再び有音部が検出された場合にゲイン値βを更新するように構成することが望ましい。

以上のようにして、ゲイン値設定部１０７６によってゲイン値βが設定されると、可変増幅器１０７５はゲイン値β倍だけ人物音声信号を増幅する。合成部１０７７は、可変増幅器１０７５によって増幅がなされた人物音声信号を背景音声信号と合成（信号の加算）する。さらに、合成部１０７７は、合成音声信号をデジタル信号に変換する。その後に、合成部１０７７は、デジタル変換により得られた合成音声データに対して種々の音声処理を施す。この音声処理は、音声のＭＥＰＧ圧縮等の従来周知の処理を適用できる。合成部１０７７の処理の後、制御部１１１は、画像処理部１０３から出力される画像データと音声処理部１０７から出力される音声データとから動画像データを生成し、この動画像データを記録部１０５に記録する。

例えば、（１）の撮影状況でシーンモードがポートレートモードの場合には２人の人物のそれぞれの被写体距離に応じたゲイン値βが設定される。図６では、近距離の被写体に対するゲイン値β１が１.５倍に設定され、近距離の被写体に対するゲイン値β２が１倍に設定された例を示している。ここで、近距離の被写体を音源とする人物音声信号をＶｉｎ１とし、人物音声信号Ｖｉｎ１に対して設定されたゲイン値αをα１とすると、可変増幅器１０７５の出力がＶｉｎ１×α１×１.５となる。一方、遠距離の被写体を音源とする人物音声信号をＶｉｎ２とし、人物音声信号Ｖｉｎ２に対して設定されたゲイン値αをα２とすると、可変増幅器１０７５の出力がＶｉｎ２×α２×１（ただしＶｉｎ１の振幅×α１＝Ｖｉｎ２の振幅×α２）となる。また、（１）の撮影状況でシーンモードが風景モードの場合には２人の人物のそれぞれに対するゲイン値が１倍に設定される。この場合、近距離の被写体を音源とする人物音声信号Ｖｉｎ１に対しては、可変増幅器１０７５の出力がＶｉｎ１×α１×１となる。また、遠距離の被写体を音源とする人物音声信号Ｖｉｎ２に対しては、可変増幅器１０７５の出力がＶｉｎ２×α１×１となる。

（２）の撮影状況では人物音声信号が入力されないため、可変増幅器１０７３及び可変増幅器１０７５による増幅が行われない。この場合には背景音声のみが記録される。（３）の撮影状況では人物（顔）が検出されないため、ゲイン値βが１倍よりも小さな値に設定される。図６では、１/８倍に設定された例を示している。（４）の撮影状況では（１）と同様のゲイン値βの設定がなされる。

以上説明したように、本実施形態においては、可変増幅器１０７３において音量に応じた増幅を行い、また、可変増幅器１０７５において被写体距離や撮影シーンに応じた増幅を行うことで、再生時に聞き取りやすい音量で且つ被写体距離に応じた音量の人物音声信号と背景音声信号とを合成してなる合成音声データを画像データと連携させて記録できる。これにより、動画像データの再生時にユーザに不自然さを感じさせる可能性を低減できる。

また、人物音声信号と背景音声信号とを分離し、人物音声信号のみの増幅を行うことで、人物の音声が背景音にまぎれてしまう可能性を低減できる。
さらに、撮影者の音声や人物が検出できない（風景のみの）シーンにおいては、人物音声信号の振幅を小さくするような増幅を行うことで、風景撮影であるのに不要な人物音声の音量が大きくなる等がなく、より撮影シーンに則した音声記録を行うことが可能である。

ここで、説明を分かり易くするため、上述した例においては、２つの可変増幅器１０７３、１０７５を用いて人物音声信号の増幅を行う例を示している。しかしながら、２つの可変増幅器１０７３、１０７５の代わりに、（α×β）倍の増幅を行う１つの可変増幅器を用いるようにしても良い。また、上述した例においては、シーンモードの設定と、顔検出結果と、被写体距離検出結果とに従ってゲイン値βを設定するようにしているが、これ以外の条件を加えても良い。例えば、顔検出部１０９において口の動きを検出するようにして、口の動きが多い人物に対応した人物音声信号に対してはゲイン値βを大きくし、口の動きが少ない人物に対応した人物音声信号に対してはゲイン値βを小さくする等の設定を行うようにしても良い。また、上述した例では人物音声信号の増幅のみを例示しているが、例えばポートレートモードではノイズ除去処理を行うようにしたり、風景モードでは各種の特殊フィルタ処理を行う等、増幅以外の処理を組み合わせても良い。

以上実施形態に基づいて本発明を説明したが、本発明は上述した実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形や応用が可能なことは勿論である。
さらに、上記した実施形態には種々の段階の発明が含まれており、開示される複数の構成要件の適当な組合せにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、上述したような課題を解決でき、上述したような効果が得られる場合には、この構成要件が削除された構成も発明として抽出され得る。

１００…デジタルカメラ（カメラ）、１０１…撮像部、１０２…バス、１０３…画像処理部、１０４…表示部、１０５…記録部、１０６…マイクロホン（マイク）、１０７…音声処理部、１０８…スピーカ、１０９…顔検出部、１１０…被写体距離検出部、１１１…制御部、１１２…操作部、１０７１…プリアンプ、１０７２…フィルタ、１０７３，１０７５…可変増幅器、１０７４，１０７６…ゲイン値設定部、１０７７…合成部

Claims

被写体の像を受光して電気信号に変換し、前記被写体の像に基づく画像データを出力する撮像部と、
前記被写体までの被写体距離を検出する被写体距離検出部と、
音源からの音声を電気信号に変換する音声検出部と、
前記音声信号を、人物を音源とする音声に基づく人物音声信号と背景を音源とする音声に基づく背景音声信号とに分離する音声分離部と、
前記人物音声信号における音量が所定の音量となるように前記人物音声信号を第１のゲイン値で増幅する第１の増幅部と、
前記第１の増幅部で増幅された人物音声信号を前記被写体距離に応じた第２のゲイン値で増幅する第２の増幅部と、
前記第２の増幅部で増幅された人物音声信号と前記背景音声信号とを合成し、合成音声データを生成する合成部と、
前記合成によって得られた合成音声データを前記画像データとともに記録する記録部と、
を具備することを特徴とする画像音声記録装置。
前記第１の増幅部及び前記第２の増幅部は、それぞれ、前記人物音声信号における無音部と有声部を検出し、有音部が検出されてから次に無音部が検出されるまでの前記第１のゲイン値及び前記第２のゲイン値を設定することを特徴とする請求項１に記載の画像音声記録装置。
前記画像データ中の人物を検出する人物検出部をさらに具備し、
前記第２の増幅部は、前記人物検出部によって人物が検出された場合には、前記被写体距離に応じて前記第２のゲイン値を設定し、前記人物検出部によって人物が検出されない場合には、前記人物音声信号における音量が前記所定の音量よりも小さい音量となるように前記第２のゲイン値を設定することを特徴とする請求項１又は２に記載の画像音声記録装置。