本発明の実施の形態について、以下に図面を参照して説明する。以下の実施の形態においては、本発明の音声記録装置として、映像及び音声を撮影するビデオムービーやデジタルスチルカメラなどの撮像装置を例に挙げて説明するが、映像及び音声を符号化して情報として記録するものであれば、例えば、携帯電話などのように、撮影機能以外の別の機能を備えるものであっても構わない。
(撮像装置の構成)
まず、撮像装置の内部構成について、図面を参照して説明する。図1は、撮像装置の内部構成を示すブロック図である。
図1の撮像装置は、入射される光を電気信号に変換するCCD(Charge Coupled Device)やCMOS(Complimentary Metal Oxide Semiconductor)センサなどの固体撮像素子(イメージセンサ)1と、被写体の光学像をイメージセンサ1に結像させるズームレンズとズームレンズの焦点距離すなわち光学ズーム倍率を変化させるモータとズームレンズの焦点を被写体に合わせるためのモータとを有するレンズ部2と、イメージセンサ1から出力されるアナログ信号である画像信号をデジタル信号に変換するAFE(Analog Front End)3と、撮像装置の前方の左右方向から入力された音声を独立して電気信号に変換するステレオマイク4と、AFE3からのデジタル信号となる画像信号に対して、階調補正等の各種画像処理を施す画像処理部5と、ステレオマイク4からのアナログ信号である音声信号に対してデジタル信号に変換するとともに音声符号化方式を決定するための判定を行う音声処理部6と、画像処理部5からの画像信号及び音声処理部6からの音声信号それぞれに対して圧縮符号化処理を施す圧縮処理部7と、圧縮処理部7で圧縮符号化された圧縮符号化信号をSDカードなどの外部メモリ22に記録するドライバ部8と、ドライバ部8で外部メモリ22から読み出した圧縮符号化信号を伸長して復号する伸長処理部9と、伸長処理部9で復号されて得られた画像信号をアナログ信号に変換する画像出力回路部10と、画像出力回路部10で変換された信号を出力する画像出力端子11と、画像出力回路部10からの信号に基づく画像の表示を行うLCD等を有するディスプレイ部12と、伸長処理部9からの音声信号をアナログ信号に変換する音声出力回路部13と、音声出力回路部13で変換された信号を出力する音声出力端子14と、音声出力回路部13からの音声信号に基づいて音声を再生出力するスピーカ部15と、各ブロックの動作タイミングを一致させるためのタイミング制御信号を出力するタイミングジェネレータ16と、撮像装置内全体の駆動動作を制御するCPU(Central Processing Unit)17と、各動作のための各プログラムを記憶するとともにプログラム実行時のデータの一時保管を行うメモリ18と、静止画撮影用のシャッターボタンを含むユーザからの指示が入力される操作部19と、CPU17と各ブロックとの間でデータのやりとりを行うためのバス回線20と、メモリ18と各ブロックとの間でデータのやりとりを行うためのバス回線21と、を備える。レンズ部2は、画像処理部5で検出した画像信号に応じてCPU17が、モータを駆動して焦点、絞りの制御を行うものである。
(1)動画撮影
このように構成される撮像装置における動画撮影時の基本動作について、図2のフローチャートを参照して説明する。まず、ユーザが音声記録装置を動画撮影用に設定して電源をONにすると(STEP201)、撮像装置の駆動モード、即ち、イメージセンサ1の駆動モードが、プレビューモードに設定される(STEP202)。このプレビューモードとは、撮影対象となる画像を記録することなくディスプレイ部12に表示するモードであり、撮影対象を定め、構図を決定するために用いることができる。
そして、STEP202のプレビューモードでは、イメージセンサ1の光電変換動作によって得られたアナログ信号である画像信号がAFE3でデジタル信号に変換された後に、画像処理部5で各種画像処理が施される。画像処理部5で画像処理が施された画像信号は、圧縮処理部7で圧縮符号化が成された後、現時点の画像に対する画像信号として、外部メモリ22に一時的に記録される。この外部メモリ22に記憶された画像信号は、ドライバ部8を経て伸長処理部9で伸長された後、画像出力回路部10に与えられて、操作部19によって設定されるレンズ部2のズーム倍率での画角の画像がディスプレイ部12に表示される。このプレビューモードの設定に続いて、撮影モードの入力待ち状態となり、人物撮影に適したモードや移動物の撮影に適したモード、逆光での撮影に適したモード等、撮像装置の機能に応じたモードが選択される。
そして、このプレビューモードの設定後の入力待ち状態のときに、撮影モードが入力されない場合は、通常撮影用のモードが選択されたものとする(STEP203)。その後、操作部19の動画撮影用ボタン(シャッターボタン兼用でも構わない)が押下されて、撮像動作を行うことが指示されると(STEP204でYes)、イメージセンサ1で取得された映像及びステレオマイク4で取得された音声による動画の撮像動作が開始される(STEP205)。
そして、ユーザによって光学ズームでのズーム倍率の変更が指示されたか否かが確認されて(STEP206)、ズーム倍率の変更を指示されたとき(Yes)、撮影の対象とする被写体に対して所望の画角となるように、光学ズームでのズーム倍率を設定する(STEP207)。その際、画像処理部5に入力された画像信号を基にCPU17によってレンズ部2を制御して、最適な露光制御(Automatic Exposure;AE)・焦点合わせ制御(オートフォーカス、Auto Focus;AF)が行われる(STEP208)。
STEP206において、ズーム倍率の変更がない場合(No)、又は、STEP208におけるAE・AF制御が成されると、続いてイメージセンサ1の光電変換動作によって得られたアナログ信号である画像信号がAFE3に出力される(STEP209)。このとき、イメージセンサ1では、タイミングジェネレータ16からのタイミング制御信号が与えられることによって、水平走査及び垂直走査が行われて、画素毎のデータとなる画像信号が出力される。そして、AFE3において、アナログ信号である画像信号(生データ)がデジタル信号に変換されて、画像処理部5内のフレームメモリに書き込む。
その後、撮像動作によりイメージセンサ1及びステレオマイク4それぞれで取得された映像及び音声に対して、信号処理が成される(STEP210)。このとき、画像処理部5では輝度信号及び色差信号の生成を行う信号変換処理などの各種画像処理が施され、その画像処理が施された画像信号が圧縮処理部7に与えられる。又、ステレオマイク4に音声入力されることで得られたアナログ信号である音声信号が、音声処理部6でデジタル信号に変換されて、圧縮処理部7に与えられる。
STEP210の信号処理が成されると、圧縮処理部7において音声信号に施す音声符号化方式の設定が成される(STEP211)。尚、この音声符号化方式の設定動作については、後述する各実施形態で詳細を説明する。そして、圧縮処理部7では、画像処理部5からの画像信号に対して、MPEG(Moving Picture Experts Group)圧縮符号化方式に基づいて圧縮符号化するとともに、音声処理部6からの音声信号に対して、設定した音声符号化方式に基づいて圧縮符号化する(STEP212)。
このように圧縮符号化された画像信号及び音声信号がドライバ部8に与えると、外部メモリ22に記録される(STEP213)。又、このとき、外部メモリ22に記録された圧縮信号がドライバ部8によって読み出されて伸長処理部9に与えられて、伸長処理が施されて画像信号が得られる。この画像信号がディスプレイ部12に与えられて、現在、イメージセンサ1を通じて撮影されている被写体画像が表示される。
その後、再び操作部19の動画撮影用ボタンが押下されたか否かが確認される(STEP214)、動画撮影用ボタンが再度押下されたことを確認されると(Yes)、録画を終了することが指示されたものと判断し、動画撮影動作を終了して、プレビューモードに戻る(STEP202)。又、動画撮影用ボタンの押下が確認されなかった場合は(STEP214でNo)、再び、STEP206に移行して、撮像動作を継続する。
このように動画撮影を行うとき、タイミングジェネレータ16によって、AFE3、画像処理部5、音声処理部6、圧縮処理部7、及び伸長処理部9に対してタイミング制御信号が与えられ、イメージセンサ1による1フレームごとの撮像動作に同期した動作が行われる。又、圧縮処理部7において音声信号に対して成された音声符号化方式について、記録する音声信号のフレーム毎に指定される。そして、フレーム毎に指定された音声符号化方式をそれぞれ、各フレームのヘッダ部分に記録することで、再生時での復号処理で利用する音声符号化方式をフレーム毎に確認することができる。
尚、このような動画撮影を行う撮像装置では、静止画撮影についても可能である。このとき、静止画撮影用に設定して電源をONにするとプレビューモードに設定され、操作部19のシャッターボタンを半押しすると、AE・AFの最適化処理を成される。そして、シャッターボタンが全押しされると、タイミングジェネレータ16より、イメージセンサ1、AFE3、画像処理部5及び圧縮処理部7それぞれに対してタイミング制御信号が与えられ、各部の動作タイミングを同期させ、静止画が撮影されることとなる。このとき取得された画像信号は、画像処理部5において輝度信号及び色差信号の生成を行う信号変換処理などの各種画像処理が施された後、圧縮処理部7においてJPEG(Joint Photographic Experts Group)形式に圧縮されて、圧縮画像となる画像信号が外部メモリ22に書き込まれる。
(2)再生動作
又、外部メモリ22に記録された動画を再生することが、操作部19を通じて指示されると、外部メモリ22に記録された圧縮信号は、ドライバ部8によって読み出されて伸長処理部9に与えられる。そして、伸長処理部9において、MPEG圧縮符号方式及び指定された音声符号化方式に基づいて、伸長復号されて、画像信号及び音声信号が取得される。
このようにして、復号処理が成されて、画像信号及び音声信号が取得されると、画像信号が画像出力回路部10を介してディスプレイ部12に与えられて画像が再生されるとともに、音声信号が音声出力回路部13を介してスピーカ部15に与えられて音声が再生される。これにより、外部メモリ22に記録された圧縮信号に基づく動画が音声とともに再生される。
更に、静止画像を再生することが指示された場合は、外部メモリ22に記録された圧縮信号が伸長処理部9において、JPEG圧縮符号方式に基づいて、伸長復号されて、画像信号が取得される。このように復号することで取得された画像信号が、画像出力回路部10を介してディスプレイ部12に与えられることで、外部メモリ22より読み出された静止画像が再生される。
以下では、本発明の各実施形態について説明するが、上述の撮像装置における構成及び動作については、各実施形態で共通となるため、その詳細な説明は省略する。よって、以下の各実施形態においては、音声処理部6及び圧縮処理部7それぞれにおける音声符号化処理に関する構成及び動作について、詳細に説明する。
<第1の実施形態>
本発明の第1の実施形態について、図面を参照して説明する。図3は、本実施形態の撮像装置において音声符号化処理を行うための音声処理部と圧縮処理部を含む各部の構成を示すブロック図である。尚、本実施形態において、Dolby Digital方式による音声符号化処理が成されるものを例に挙げて説明する。
(音声処理部の構成)
図3に示すように、音声処理部6には、ステレオマイク4から出力された音声信号に対してアナログ/デジタル変換を行うAD変換部61と、AD変換部61で変換されたデジタル信号となる音声信号を時間軸の信号から周波数軸の信号に変換する時間周波数変換部62と、時間周波数変換部62によって得られた音声信号の周波数スペクトラムエンベロープを解析する音声解析部63と、圧縮処理部7での音声符号化方式を設定する音声符号化方式決定部64とが備えられる。
この音声処理部6には、ステレオマイク4から出力された複数の音声信号が入力され、AD変換部61及び時間周波数変換部62において、この複数の音声信号に対する信号処理が流される。例えば、ステレオマイク4として、左右にマイクロフォンが構成されているときは、左方向の音声信号(L信号)及び右方向の音声信号(R信号)が入力される。そして、L信号及びR信号それぞれが、AD変換部61でデジタル信号に変換された後、時間周波数変換部62において、DFT(Discrete Fourier Transform)やMDCT(Modified Discrete Cosine Transform)などによって周波数軸の信号に変換されて、音声解析部63に与えられるとともに、圧縮処理部7に出力される。
そして、音声解析部63では、周波数軸の信号に変換された複数の音声信号が与えられると、複数の音声信号それぞれについてのスペクトラムエンベロープ(スペクトラム包絡)が形成される。このとき、音声解析部63では、形成した複数の音声信号それぞれの周波数スペクトラムエンベロープにより、複数の音声信号間で類似しているか否かが確認される。即ち、L信号及びR信号それぞれの周波数スペクトラムエンベロープを形成すると、その形状が類似しているか否かが確認される。この周波数スペクトラムエンベロープの類似/非類似の判定結果とともに、複数の音声信号それぞれについての周波数スペクトラムエンベロープが、音声符号化方式決定部64に与えられる。
又、音声符号化方式決定部64には、上述の音声解析部63からの解析結果だけでなく、後述する画像処理部5内の対象物検出部50において解析された画像解析結果も入力される。そして、音声符号化方式決定部64において、音声解析部63及び画像処理部5それぞれからの解析結果に基づいて、圧縮処理部7で利用する音声符号化方式の各パラメータが決定されて、圧縮処理部7に出力される。
(画像解析用の構成)
画像処理部5は、画像解析部として、人物などの対象物の有無や大きさや位置を検出する対象物検出部50を備え、その検出結果が、音声処理部6内の音声符号化方式決定部64に与えられる。尚、以下では、対象物検出部50において、検出する対象物が人物の顔であるものとして説明するが、音声が出力される対象物であれば、人物の顔以外の対象物としても構わない。
この対象物検出部50は、AFE3によって得られた画像データに基づいて1又は複数の縮小画像を生成する縮小画像生成部52と、入力画像および縮小画像から構成される各階層画像とメモリ18に記憶された対象物検出用の重みテーブルとを用いて入力画像に対象物(顔)が存在するか否かを判定する対象物判定部55と、対象物判定部55の検出結果を出力する検出結果出力部56とを備えている。検出結果出力部56は、対象物(顔)が検出された場合には、検出された対象物(顔)の入力画像を基準とする大きさと位置及び対象物(顔)の大きさから推定したその対象物(顔)までの距離を出力する。
又、メモリ18に記憶された重みテーブルは、対象物(顔)及び非対象物(非顔)それぞれのサンプル画像による大量の教師サンプルから求められたものである。このような重みテーブルは、例えば、Adaboostと呼ばれる公知の学習方法を利用して作成することができる(Yoav Freund, Robert E. Schapire,"A decision-theoretic generalization of on-line learning and an application to boosting", European Conference on Computational Learning Theory, September 20,1995.)。
尚、Adaboostは、適応的なブースティング学習方法の1つで、大量の教師サンプルをもとに、複数の弱識別器候補の中から識別に有効な弱識別器を複数個選択し、それらを重み付けして統合することによって高精度な識別器を実現する学習方法である。ここで、弱識別器とは、全くの偶然よりは識別能力は高いが、十分な精度を満たすほど高精度ではない識別器のことをいう。弱識別器の選択時には、既に選択した弱識別器がある場合、選択済の弱識別器によって誤認識してしまう教師サンプルに対して学習を重点化することによって、残りの弱識別器候補の中から最も効果の高い弱識別器を選択する。
(対象物検出処理)
このように構成する対象物検出部50による対象物検出処理動作について、図面を参照にして、以下で説明する。図4は、縮小画像生成部52によって得られる階層画像の一例を示している。この例では、縮小率を0.8に設定した場合に、生成される複数の階層画像を示している。図4において、150は入力画像を、151〜155は縮小画像を示している。161は判定領域を示している。この例では、判定領域は縦24画素、横24画素の大きさに設定されている。判定領域161の大きさは、入力画像160及び各縮小画像151〜155のいずれにおいても同等の大きさで設定される。
又、本例では、図4の矢印で示すように、階層画像上で判定領域161を左から右に移動させて、水平方向走査を行うとともに、この水平方向走査を上方から下方に向かって、垂直方向走査を行う。このようにして判定領域161を走査させることで、判定領域161とマッチングする対象物画像(顔画像)の検出を行う。但し、判定領域161の走査順は、図4に示す矢印の方向に限られるものではない。
そして、入力画像150の他に、複数の縮小画像151〜155を生成しているのは、1種類の重みテーブルを用いて大きさが異なる対象物(顔)を検出するためである。即ち、同一の大きさとなる判定領域161を、入力画像150及び縮小画像151〜155それぞれに対して走査させることによって、重みテーブルを参照することで確認される対象物(顔)の検出処理が成される。
更に、図5を参照して、対象物検出処理について簡単に説明する。対象物判定部55による対象物検出処理は、各階層画像毎に行われるが、各階層画像に対する処理方法は同様となるので、ここでは入力画像150に対して行われる対象物検出処理についてのみを、代表して説明する。尚、図5には、入力画像150と、入力画像150内に設定された判定領域161とを示している。
対象物検出処理は、入力画像150及び縮小画像151〜155それぞれに対して走査されることで設定された判定領域161に対応する画像と、重みテーブルを参照して得られる画像とを比較することで、各階層画像毎に行われる。即ち、図5においては、入力画像150を走査される判定領域161内における画像が、重みテーブルより取得される画像に近い画像となったとき、判定領域161の入力画像150内の位置に、対象物(顔)が存在するものと判定される。
この判定処理は、粗い判定から順次細かい判定に移行する複数の判定ステップから構成される。そして、この複数の判定ステップのうちの1つにおいて、対象物(顔)が検出されなかった場合には、検出されなかった判定ステップの次の判定ステップには移行せず、当該判定領域161には対象物(顔)は存在しないと判定し、判定領域161を走査させる。一方、複数の判定ステップ全てにおいて、対象物(顔)が検出された場合に、当該判定領域161に対象物(顔)が存在すると判定し、判定領域161を走査させる。
このようにして、入力画像150及び縮小画像151〜155それぞれに対して、対象物(顔)の検出を行い、その対象物(顔)の検出されたときの階層画像が、入力画像150及び縮小画像151〜155のいずれであるかが確認される。そして、確認された階層画像と入力画像150との関係により、入力画像150を基準とする対象物(顔)の大きさ及び位置と、対象物(顔)までの距離とを、推定することができる。この検出された対象物(顔)の位置及び大きさと対象物(顔)までの距離とが、検出結果出力部56から出力されて、音声処理部6内の音声符号化方式決定部64に与えられる。尚、このような対象物検出処理については、本出願人による特許出願である特願2006−053304号に詳しく記載している。
(音声符号化方式決定部)
音声処理部6内に設けられた音声符号化方式決定部64は、音声解析部63で形成した複数の音声信号それぞれの周波数スペクトラムエンベロープが与えられてマスキング曲線を算出するマスキング曲線算出部641と、マスキング曲線算出部641で算出されたマスキング曲線の値と音声解析部63で得られた周波数スペクトラムエンベロープの値との差分を周波数帯域毎に算出する差分値算出部642と、差分値算出部642で得られた差分値に基づいて周波数帯域毎に割り当てるビット配分を設定する1次ビット配分決定部643と、1次ビット配分決定部643で決定されたビット配分量を対象物検出部50からの検出結果に基づいて補正するビット配分補正部644と、音声解析部63での音声信号間の類似性及び対象物検出部50からの検出結果に基づいてマトリクス処理の可否を設定するマトリクス処理判定部645と、を備える。
このように音声符号化方式決定部64が構成されることで、圧縮処理部7における音声符号化方式における周波数帯域毎のビット配分量と、マトリクス処理の可否とを設定することができ、設定したビット配分量が圧縮処理部7に出力される。即ち、マスキング曲線算出部641、差分値算出部642、1次ビット配分決定部643、及び、ビット配分補正部644が、音声解析部63及び対象物検出部50それぞれからの情報に基づく演算を行うことで、ビット配分量が算出される。又、マトリクス処理判定部645が、音声解析部63及び対象物検出部50それぞれからの情報に基づいて、マトリクス処理の可否を設定する。このような音声符号化方式決定部64の動作について、以下に説明する。
(1)周波数帯域毎のビット配分量の設定
まず、周波数帯域毎のビット配分量の算出動作について説明する。上述したように、音声解析部63において、各音声信号に対する周波数スペクトラムエンベロープが形成されると、この各音声信号に対する周波数スペクトラムエンベロープが、マスキング曲線算出部641及び差分値算出部642に与えられる。又、対象物検出部50において上述の対象物検出処理が成されると、対象物検出部50による対象物の検出結果がビット配分補正部644に与えられる。
このようにして、音声解析部63及び対象物検出部50それぞれからの情報が入力されるとき、まず、マスキング曲線算出部641において、各音声信号に対する周波数スペクトラムエンベロープが入力されると、この周波数スペクトラムエンベロープ及び最小可聴限特性情報に基づいて、各音声信号に対するマスキング曲線が算出される。このマスキング曲線の算出について、図6を参照して簡単に説明する。
尚、「マスキング曲線」とは、マスキング特性による「マスキング効果曲線」と最小可聴限特性による「最小可聴限曲線」とを合成することで算出されるもので、各周波数に対して検知限界となる音圧レベルを示した曲線である。「最小可聴限特性」とは、静寂時の聴覚により検知できる周波数毎の最低の音圧レベルを示す特性であり、「マスキング特性」とは、歪みや背景ノイズの検知限界と関係するもので、同時に聞いている他の音によって特定の音の検知限界が変化するというマスキング効果に基づく特性である。
まず、図6(b)のような最小可聴限曲線による最小可聴限特性情報を、バス回線21を介してメモリ18より読み出すことで取得し、周波数毎の最小可聴限となる音圧レベルが確認される。そして、複数の音声信号に対して、それぞれの周波数スペクトラムエンベロープを解析することで、それぞれのマスキング特性を表すマスキング効果曲線を算出する。このとき、例えば、図6(a)のような周波数スペクトラムエンベロープを構成する音声信号に対して、図6(c)のようなマスキング効果曲線が算出される。尚、このマスキング効果曲線は、複数の音声信号それぞれに対して算出される。
このマスキング効果曲線の算出が行われるとき、まず、周波数スペクトラムエンベロープより、音圧レベルの高い周波数を確認するとともに、この音圧レベルの高くなる各周波数における信号をマスカーとする。そして、マスカーとなる各周波数におけるマスキングを行う音圧レベルを、周波数スペクトラムエンベロープによる音圧レベルによって設定するとともに、それぞれがマスキング効果を及ぼす臨界帯域(Critical Band)を設定する。このようにマスカーとなる各周波数に対して設定したマスキングを行う音圧レベルと臨界帯域を組み合わせることによって、マスキング効果曲線を取得することができる。
このようにして、複数の音声信号それぞれに対して算出されたマスキング効果曲線が、算出されると、最小可聴限特性情報による最小可聴限曲線と組み合わせることによって、複数の音声信号それぞれに対するマスキング曲線が求められる。これにより、図6(c)のようなマスキング効果曲線が取得された音声信号に対して、図6(a)のような最小可聴限曲線が組み合わせられることによって、図6(d)のようなマスキング曲線が算出される。
即ち、ステレオマイク4からL信号及びR信号の2つの音声信号が取得されるとき、L信号及びR信号それぞれの周波数スペクトラムエンベロープに基づいて、L信号及びR信号それぞれに対するマスキング効果曲線が取得される。そして、メモリ18から読み出された最小可聴限特性情報による共通となる最小可聴限曲線が、L信号及びR信号それぞれのマスキング効果曲線と組み合わさられることによって、L信号及びR信号それぞれに対するマスキング曲線が算出される。
この複数の音声信号それぞれに対して算出されたマスキング曲線は、差分値算出部642に与えられる。差分値算出部64では、複数の音声信号それぞれに対して、周波数帯域毎に、周波数スペクトラムエンベロープにおける音圧レベルXiと、マスキング曲線における音圧レベルYiとの差分比率Diを以下の(1)式に基づいて算出する。尚、(1)式においては、周波数帯域がM帯域に分割されるとともに、i番目の帯域を対象として算出した差分比率Diを表す。
即ち、図6(a)の周波数スペクトラムエンベロープを構成する音声信号に対して、図6(d)に示すマスキング曲線が取得されたとき、図7に示す斜線領域Rに相当する差分が、周波数帯域毎に算出されることとなる。よって、L信号とR信号とが出力される場合は、L信号及びR信号それぞれについて、その周波数帯域毎の差分比率が算出されることとなる。
このようにして算出された複数の音声信号それぞれの周波数帯域毎による差分比率が、差分値算出部642から1次ビット配分決定部643に与えられると、複数の音声信号それぞれに対して、周波数帯域毎に、差分比率に応じたビット配分量が設定され、ビット配分補正部644に出力される。即ち、差分比率が大きくなる周波数帯域に対しては、そのビット配分量が大きくなるように設定されることとなる。このとき、差分比率が負となる周波数帯域については、その周波数帯域における音声信号を削除するため、そのビット配分量が0とされる。
そして、ビット配分補正部644では、1次ビット配分決定部643で設定された周波数帯域毎のビット配分量が、対象物検出部50における検出結果に基づいて補正される。このとき、対象物検出部50で検出された対象物の大きさが十分に大きいことが確認されると、その対象物の発生する音声帯域のビット配分量が多くなるように、各周波数帯域のビット配分量が補正される。
即ち、対象物が人物の顔であるとき、人物の顔の大きさが大きいことを確認すると、人物主体に撮影を行っていることが確認されるため、人物の発生する音声に対してより多くの情報量が求められる。そのため、人の発生する音声帯域(100Hz〜2kHz)におけるビット配分量をα(α>1)倍として、そのビット配分量を多くするとともに、この音声帯域以外のビット配分量が少なくなるように、各周波数帯域のビット配分量を補正する。
例えば、人物の顔の大きさが所定の大きさ(例えば画像中での顔の占める面積が30%又は50%など。図8は30%の場合である)以上の場合は、撮影者が人物の強調を意図して撮影したものと考えられるため、映像に映った人物の音声を明確とするために、音声帯域(100Hz〜2kHz)におけるビット配分量をα(α>1)倍として、各音声信号それぞれに対して、各周波数帯域のビット配分量を補正する。そして、人物の顔の大きさが所定の大きさ未満の場合や人物の顔が検出されなかった場合は、各周波数帯域のビット配分量の補正を行わない。
尚、人物の顔が検出されると共に、その人物の顔の大きさが所定の大きさ未満の場合(図9は5%の場合である)は、撮影者が人物と共に周囲の雰囲気を重視することを意図して撮影したものと考えられる。よって、各音声信号に対して、各周波数帯域のビット配分量をβ(α>β>1)倍としても構わない。これにより、人物の顔の大きさが所定の大きさ以上となるときよりも、その音声帯域のビット配分量が少ない状態で補正することができ、映像に映った人物の音声を強調すると同時に環境音を臨場感のあるものとすることができる。
又、レンズ部2に対して設定されたズーム倍率を示すズーム倍率情報もビット補正部644に与えられ、対象物の大きさとズーム倍率との関係によって、隔週は数体器のビット配分量が補正されるものとしても構わない。即ち、例えば、対象物の大きさが所定の大きさとなったことを確認すると、ズーム倍率が所定の倍率より大きく、望遠側に設定されている場合は、その対象物の発生する音声帯域のビット配分量をα倍とする補正を行う。一方、ズーム倍率が所定の倍率より小さく、広角側に設定されている場合は、その対象物の発生する音声帯域のビット配分量をβ(α>β>1)倍とする補正を行う。そして、対象物が所定の大きさ未満の場合や対象物が検出されなかった場合は、各周波数帯域のビット配分量の補正を行わない。
このようにして、ビット配分補正部644において、画像処理部5内の対象物検出部50で検出された対象物の大きさに基づいて、複数の音声信号それぞれに対して、その対象物からの発生する音声帯域のビット配分量を調整する補正が行われる。そして、複数の音声信号それぞれに対して得られた補正後のビット配分量が、圧縮処理部7での音声符号化方式のパラメータとして、圧縮処理部7に出力される。尚、このように補正後のビット配分量が圧縮処理部7に与えられることにより、圧縮処理部7における音声信号に施す音声符号化方式を、撮影したシーンに応じたものとすることができる。
(2)マトリクス処理の設定
更に、上述の周波数帯域毎のビット配分量だけでなく、マトリクス処理の可否についても、圧縮処理部7での音声符号化方式を設定するパラメータの一つとして、マトリクス処理判定部645で設定される。まず、圧縮処理部7で行われるマトリクス処理について、簡単に説明する。例えば、ステレオマイク4よりL信号及びR信号の2チャンネルの音声信号が入力される場合、圧縮処理部7では、まず、L信号とR信号とを加算した和信号L+Rと、L信号とR信号とを減算した差信号L−Rとが算出される。そして、算出して得られた和信号L+R及び差信号L−Rに対して、音声符号化処理が成されることで、圧縮符号化された音声信号が取得される。
このようにマトリクス処理を施すことによって、差信号L−Rについては、その符号化量を小さくし、圧縮効率を高くすることができる。しかしながら、差信号L−Rに対して量子化が施されたときに生じる量子化誤差などの影響により、その再生精度が低下するため、マトリクス処理前のL信号及びR信号によるステレオ感が損なわれる。そこで、マトリクス処理判定部645において、音声解析部63から入力される各音声信号の周波数スペクトラムエンベロープと、対象物検出部50からの検出結果とに基づいて、マトリクス処理の可否が判定される。
このマトリクス処理判定部645におけるマトリクス処理の可否の判定動作について、以下に説明する。マトリクス処理判定部645には、複数の音声信号それぞれの周波数スペクトラムエンベロープの形状についての判定結果が、音声解析部63より与えられ、その形状が類似しているか否かが確認される。即ち、周波数変換後の複数の音声信号における周波数スペクトラムエンベロープの形状が類似している場合、マトリクス処理を施した符号化を行うことで圧縮効率が高くなるため、マトリクス処理を適用する判定が成される。
又、周波数変換後の複数の音声信号における周波数スペクトラムエンベロープの形状が非類似である場合、対象物検出部50からの対象物の検出結果に基づいて、マトリクス処理の可否が判定される。このとき、対象物の有無、対象物の大きさ、及び、対象物の位置によって、マトリクス処理の可否が判定される。即ち、検出された対象物の大きさが所定の大きさよりも大きく、且つ、対象物が画像の中央に位置する場合、ステレオ効果よりも対象物の音声を取得することを主とすると判断し、マトリクス処理を適用する判定が成される。このマトリクス処理が適用されるとき、和信号(L+R)へのビット配分を増やすこととなる。
よって、図8のように、人物の顔の大きさが所定の大きさ(例えば画像中での顔の占める面積が30%又は50%など。図8は30%の場合である)以上となり、画像中央に人物が位置することが確認されると、マトリクス処理を適用する判定が成される。又、人物の顔の大きさが所定の大きさ未満となる場合(図9は5%の場合である)や、図10のように人物の顔が画像中央に位置していない場合や、人物の顔の検出が成されなかった場合は、ステレオ効果が要求されるものとして、マトリクス処理を不適用とする判定が成される。
又、複数の対象物が画像中の離れた位置に検出された場合、ステレオ効果が要求されるものとして、マトリクス処理を不適用とする判定が成されるものとしても構わない。このとき、所定の大きさ以上となる複数の対象物が全て画像の中心位置で検出された場合や、所定の大きさ以上となる複数の対象物が近接した位置で検出された場合に、マトリクス処理を適用とする判定が成されるものとしても構わない。又、対象物が1つだけ検出されたときには、その位置に関係なく、マトリクス処理を適用とする判定が成されるものとしても構わない。
更に、レンズ部2に対して設定されたズーム倍率を示すズーム倍率情報がマトリクス処理判定部645に与えられ、ズーム倍率と対象物の検出結果との関係によって、マトリクス処理の可否が決定されるものとしても構わない。このとき、例えば、対象物の大きさが所定の大きさ未満であっても、対象物が画像の中心に位置するとともに、所定の倍率より大きく、望遠側に設定されている場合は、マトリクス処理を適用とする判定が成されるものとしても構わない。
又、音声解析部63において、複数の音声信号の周波数スペクトラムエンベロープの形状の類似/非類似が判定され、その判定結果を利用して、マトリクス処理の可否が決定されるものとしたが、音声解析部63において、複数の音声信号の時間的な変化について類似/非類似の判定が成されるものとしても構わない。即ち、音声信号の時間的な変化が非類似となるときに、対象物検出部50での対象物の検出結果に基づいて、マトリクス処理の可否が判定される。
このようにして、マトリクス処理判定部645において、音声解析部63からの周波数変換後の複数の音声信号における周波数スペクトラムエンベロープの形状だけでなく、画像処理部5内の対象物検出部50での対象物の検出結果に基づいて、マトリクス処理の可否が判定される。そして、このマトリクス処理の可否の判定結果が、圧縮処理部7での音声符号化方式のパラメータとして、圧縮処理部7に出力され、ステレオ感を要求するための符号化を行うか、圧縮効率の高い符号化を行うかが設定されることとなる。
(圧縮処理部内の音声符号化処理部)
このように音声処理部6内の音声符号化方式決定部64で設定されたビット配分量が、音声符号化方式のパラメータとして、圧縮処理部7内の音声符号化処理部70に与えられる。この音声符号化処理部70は、図3に示すように、音声処理部6内のAD変換部61でデジタル信号に変換された複数の音声信号に対してMDCT(Modified Discrete Cosine Transform)などによって時間軸の信号から周波数軸の信号に変換する時間周波数変換部71と、時間周波数変換部71からの周波数軸の信号となる音声信号に対してマトリクス処理を施すマトリクス処理部72と、時間周波数変換部71からの音声信号又はマトリクス処理部72からの音声信号のいずれかを選択する選択部73と、選択部73で選択された周波数軸の信号に変換された音声信号の指数部分に対して差分符号化を施す差分符号化部74と、選択部73で選択された周波数軸の信号に変換された音声信号の仮数部分に対して量子化を施す量子化部75と、選択部73で選択された周波数軸の信号に変換された音声信号の指数部分に基づいて近似的にビット配分量を設定する近似ビット配分設定部76と、音声処理部6のビット配分補正部644で設定されたビット配分量と近似ビット配分設定部76で設定したビット配分量との差を補正情報として算出する減算部77と、差分符号化部74及び量子化部75で符号化された音声信号を多重化する多重化部78と、を備える。
尚、ステレオマイク4からの複数の音声信号がデジタル信号に変換されて、音声符号化処理部70に入力されるため、マトリクス処理が不適用である場合は、音声符号化処理部70内の多重化部78以外の各ブロックでは、複数の音声信号に対して各ブロックにおける演算処理が成される。一方、マトリクス処理を適用する場合は、マトリクス処理部72において、複数の音声信号を利用したマトリクス処理が成されると、マトリクス処理部72よりも後段のブロックでは、マトリクス処理後の音声信号に対して、各ブロックにおける演算処理が成される。このように、それぞれの場合によって異なる音声信号、更には、複数の音声信号を扱うこととなるが、以下では説明を簡単にするために、単に「音声信号」に対する演算処理のみを説明する。
この圧縮処理部7内の音声符号化処理部70には、音声処理部6内のAD変換部61より出力されるデジタル信号となる音声信号と、音声符号化方式決定部64により決定される音声符号化方式の各パラメータとが入力される。即ち、AD変換部61からのデジタル信号となる音声信号が時間周波数変換部71に入力される。又、マトリクス処理判定部645での判定結果が、マトリクス処理部72及び選択部73それぞれに入力されるとともに、ビット配分補正部644で設定されたビット配分量が、量子化部75及び減算部77に入力される。
時間周波数変換部71では、時間軸の信号となる音声信号が入力されると、Dolby Digital方式によると、この音声信号の時間軸方向において、オーディオブロックと呼ばれる512個のサンプル値列に対して、窓係数を乗じた後にMDCTを施すことによって、各オーディオブロックに対して256個のMDCT係数よりなる周波数軸の信号に変換する。このとき、隣接するオーディオブロックにおいて、256個のサンプル値が重なるように、各オーディオブロックのサンプル値列が設定される。
このように周波数軸の信号に音声信号が変換されるとき、周波数軸の信号となる音声信号におけるMDCT係数が、X・2-Yで表されることとなる。このとき、Xが仮数であり、0.5〜1.0の値となり、又、Yが指数である。即ち、音声信号のMDCT係数がそれぞれ、周波数帯域毎の音圧レベルを示す情報として、仮数部分Xと指数部分Yとによって表される符号で構成される。
そして、マトリクス処理判定部645によってマトリクス処理を適用する判定結果が入力される場合、時間周波数変換部71からの音声信号がマトリクス処理部72においてマトリクス処理が成された後、このマトリクス処理が成されて得られた音声信号が選択部73で選択される。一方、マトリクス処理判定部645によってマトリクス処理を不適用とする判定結果が入力される場合、マトリクス処理部72の動作を停止するとともに、時間周波数変換部71からの音声信号が選択部73によって選択される。そして、選択部73で選択された周波数軸の信号に変換された音声信号のうち、仮数部分が量子化部75に与えられ、指数部分が差分符号化部74及び近似ビット配分設定部76に与えられる。
差分符号化部74では、時間周波数変換部71より与えられる音声信号の指数部分に対して、差分符号化を施すことで、その情報量を圧縮する。このとき、1つ目のMDCT係数の指数を初期値とし、連続するMDCT係数間の指数の差分を算出する。そして、算出した指数の差分については、例えば、トリプレット手法のように、複数の差分値をまとめて一つの値に符号化することにより、音声信号の指数部分の情報量を圧縮することができる。この差分符号化が施された音声信号の指数部分は、多重化部78に出力される。
又、量子化部75では、時間周波数変換部71より与えられる音声信号の仮数部分に対して、各周波数帯域に応じたMDCT係数毎に、音声処理部6のビット配分補正部644で設定されたビット配分量に応じて、線形量子化が成されことで、符号化される。このとき、ビット配分量が小さくなるように割り当てられたMDCT係数については、量子化後の仮数を、例えば、トリプレット手法などを用いてまとめて1つの符号とする。この量子化による符号化された音声信号の仮数部分についても、差分符号化が施された音声信号の指数部分と同様、多重化部78に出力される。
更に、近似ビット配分設定部76では、時間周波数変換部71より与えられる音声信号の指数部分を用いて、周波数スペクトラムエンベロープを形成し、近似的な聴覚心理分析を行う。このとき、上述した音声符号化方式決定部64における聴覚心理分析処理よりも簡易な手法によって分析が行われ、その分析結果に基づいて、周波数帯域毎に割り当てるビット配分を算出する。
そして、近似ビット配分設定部76で算出されたビット配分が減算部77に出力されると、ビット配分補正部644からのビット配分から減算されて、ビット配分の補正情報が算出される。即ち、減算部77では、ビット配分補正部644から取得されたビット配分Aから、近似ビット配分設定部76で算出されたビット配分Bを減算することで、ビット配分の補正情報A−Bが取得され、このビット配分の補正情報A−Bが多重化部78に出力される。
多重化部78では、周波数帯域(MDCT係数)毎に符号化された音声信号の指数部分及び仮数部分がそれぞれ、差分符号化部74及び量子化部75より与えられるとともに、周波数帯域(MDCT係数)毎に算出されたビット配分の補正情報が、減算部77より与えられる。そして、この周波数帯域(MDCT係数)毎の音声信号の指数部分及び仮数部分とビット配分の補正情報とを多重化して、圧縮符号化された音声信号が生成される。このとき、多重化部78では、マトリクス処理の適用/不適用を示す情報を追加して、多重化する。
このように、本実施形態では、ステレオマイク4から取得される複数の音声信号の状態だけでなく、イメージセンサ1から取得される画像内の被写体の状態や、レンズ部2に対して設定されたズーム倍率などによっても、音声符号化方式を決定するパラメータを切り換えることができる。よって、圧縮処理部7で圧縮符号化処理がなされた音声信号が、対応するシーンに応じた音声符号化を自動的に施すことができ、再生時には、映像に対して違和感の少ない音声を再生することができる。
<第2の実施形態>
本発明の第2の実施形態について、図面を参照して説明する。図11は、本実施形態の撮像装置において音声符号化処理を行うための音声処理部と圧縮処理部を含む各部の構成を示すブロック図である。尚、本実施形態においても、第1の実施形態と同様、Dolby Digital方式による音声符号化処理が成されるものを例に挙げて説明する。又、図11の構成において、図3の構成と同一の部分については、同一の符号を付して、その詳細な説明は省略する。
本実施形態では、第1の実施形態とことなり、画像処理部5において、対象物検出部50で確認された対象物の連続するフレーム間での移動量を検出し、音声処理部6において、対象物の移動量の大小によって、音声符号化方式が設定される。そのため、図11に示すように、画像処理部5においては、対象物の移動量を測定する移動量測定部57が追加された構成とされるとともに、音声処理部6において、測定された対象物の移動量に基づいてMDCTによるオーディオブロックのブロック長を決定するブロック長決定部646が追加された構成とされる。
(画像解析用の構成)
本実施形態における画像処理部5は、上述したように、画像解析部として、対象物検出部50に加えて、対象物検出部50で検出された対象物の位置をフレーム間で比較することで対象物の移動量を算出する移動量測定部57を備えた構成となる。この移動量測定部57は、対象物検出部50で検出された対象物の大きさと画像内の座標位置とが与えられて記憶するメモリ571と、対象物検出部50で検出された現フレームにおける対象物の画像内の座標位置とメモリ571に記憶された1フレーム前の対象物の画像内の座標位置との位置関係により対象物の移動量を算出する移動量算出部572と、対象物検出部50で検出された現フレームにおける対象物の大きさとメモリ571に記憶された1フレーム前の対象物の大きさとの大小変化を確認して対象物との距離の変化量を算出する距離変化量算出部573と、を備える。
即ち、対象物検出部50の検出結果出力部56で検出された対象物の画像内の座標位置が、移動量測定部57に与えられると、メモリ571に記憶されるとともに、移動量算出部572に与えられる。このとき、移動量算出部572では、メモリ571より、記憶していた1フレーム前の対象物の座標位置を読み出すことにより、現フレームと1フレーム前との間における、対象物の座標位置の移動ベクトル量を、対象物の移動量として算出する。尚、対象物の座標位置については、その対象物の重心位置又は中心位置を代表点とし、この代表点による座標位置により移動ベクトル量が算出される。
又、対象物検出部50の検出結果出力部56で検出された対象物の大きさについても、移動量測定部57に与えられて、メモリ571に記憶されるとともに、距離変化量算出部573に与えられる。このとき、距離変化量算出部573では、メモリ571より、記憶していた1フレーム前の対象物の大きさを読み出すことにより、現フレームと1フレーム前との間における、対象物の大きさの変化量(比率)を算出する。
このとき、距離変化量算出部573には、レンズ部2に対して設定されたズーム倍率も入力され、対象物の大きさの変化量と比較される。そして、対象物の大きさの変化量がズーム倍率と大きく異なる値となることを確認すると、対象物の大きさの変化量及びズーム倍率から、対象物までの距離の変化量を、対象物の移動量として算出する。
尚、対象物検出部50において複数の対象物が検出されたとき、対象物の画像上での特徴を示す特徴量をメモリ571に記憶し、その特徴量により、それぞれの対象物の特定を行う。そして、移動量算出部572及び距離変化量算出部573では、連続するフレーム間で、特徴量が類似した対象物を特定し、それぞれの対象物に対して、対象物の座標位置による移動ベクトル量及び対象物までの距離の変化量を算出する。これにより、複数の対象物を検出した場合においても、検出した対象物それぞれの移動量を測定することができる。
(音声処理部)
本実施形態における音声処理部6は、上述したように、音声符号化方式決定部64において、オーディオブロックのブロック長を決定するブロック長決定部646が追加された構成とされる。又、画像処理部5内の移動量測定部57で検出された移動量が、音声符号化方式決定部64内におけるマトリクス処理判定部645及びブロック長決定部646に与えられる。更に、画像処理部5内の対象物検出部50で検出された対象物の検出結果が、マトリクス処理判定部645及びビット配分補正部644に与えられる。
このように構成される音声符号化方式決定部64を備えた音声処理部6では、第1の実施形態と同様、ステレオマイク4からの複数の音声信号が入力されると、A/D変換部61でデジタル信号に変換された後、時間周波数変換部62によって周波数軸の信号に変換される。このようにして取得された複数の音声信号に対する周波数軸の信号が、音声解析部63に与えられると、音声解析部63において、複数の音声信号それぞれについての周波数スペクトラムエンベロープが形成され、その形状が解析される。
(1)周波数帯域毎のビット配分量の設定
音声符号化方式決定部64では、第1の実施形態のものと同様、マスキング曲線算出部641において、複数の音声信号それぞれについての周波数スペクトラムエンベロープと最小可聴限特性情報に基づいて、各音声信号に対するマスキング曲線が算出される。この各音声信号に対するマスキング曲線が差分値算出部642に与えられることによって、各周波数帯域における周波数スペクトラムエンベロープとマスキング曲線との差分比率が、各音声信号に対して算出される。
この複数の音声信号それぞれの周波数帯域毎による差分比率が、差分値算出部642から1次ビット配分決定部643に与えられることで、複数の音声信号それぞれに対して、周波数帯域毎に、差分比率に応じたビット配分量が設定される。その後、ビット配分補正部644において、対象物検出部50で検出された対象物の大きさが十分に大きいことが確認されると、その対象物の発生する音声帯域のビット配分量が多くなるように、1次ビット配分決定部643で設定された各周波数帯域のビット配分量が補正される。
このように、本実施形態においても、第1の実施形態と同様、マスキング曲線算出部641、差分値算出部642、1次ビット配分決定部643、及び、ビット配分補正部644が、音声解析部63及び対象物検出部50それぞれからの情報に基づく演算を行うことで、ビット配分量が算出される。即ち、画像中の対象物の有無、大きさ、及び、数量に応じて、第1の実施形態と同様、対象物の発生する音声帯域のビット配分量を最適なものに設定することができる。
そして、このようにして複数の音声信号それぞれに対して得られた補正後のビット配分量が、圧縮処理部7での音声符号化方式のパラメータとして、圧縮処理部7に出力されることとなる。これにより、圧縮処理部7における音声信号に施す音声符号化方式を、撮影したシーンに応じたものとすることができる。尚、第1の実施形態と同様、レンズ部2に対して設定されたズーム倍率を示すズーム倍率情報が与えられ、このズーム倍率情報との組み合わせによって、最適なビット配分量に補正されるものとしても構わない。
(2)マトリクス処理の設定
又、本実施形態においても、第1の実施形態と同様、マトリクス処理の可否についても、圧縮処理部7での音声符号化方式を設定するパラメータの一つとして、マトリクス処理判定部645で設定される。但し、本実施形態においては、第1の実施形態と異なり、対象物検出部50での対象物の検出結果だけでなく、移動量測定部57で検出された移動量によっても、マトリクス処理の可否が設定される。
尚、第1の実施形態と同様、マトリクス処理判定部645には、複数の音声信号それぞれの周波数スペクトラムエンベロープの形状についての判定結果が、音声解析部63より与えられ、その形状が類似しているか否かが確認される。このマトリクス処理判定部645におけるマトリクス処理の可否の判定動作について、以下に説明する。
まず、音声解析部63の判定結果より、複数の音声信号における周波数スペクトラムエンベロープの形状が類似していることを確認した場合、第1の実施形態と異なり、対象物検出部50での対象物の検出結果より、所定の大きさ以上となる対象物が存在するか否かが確認される。そして、所定の大きさ以上となる対象物が存在することが確認されると、更に、画像処理部5内の移動量測定部57で検出された移動量が確認される。
このとき、移動量算出部572及び距離変化量算出部573それぞれからの検出された対象物の移動量のいずれかが所定値以上となる場合、ステレオ感を重視する符号化が求められるものと判断する。よって、マトリクス処理判定部645では、マトリクス処理を不適用とする判定が成される。一方、所定の大きさ以上となる対象物が確認されなかった場合や、移動量算出部572及び距離変化量算出部573それぞれからの検出された対象物の移動量がいずれも所定値未満となる場合においては、圧縮効率の高い符号化を行うことが求められるものと判断する。よって、マトリクス処理判定部645では、マトリクス処理を適用する判定が成される。
又、複数の音声信号における周波数スペクトラムエンベロープの形状が類似していないことを確認した場合、第1の実施形態と同様、まず、対象物検出部50からの対象物の検出結果を確認する。このとき、対象物検出部50の対象物の検出結果より、所定の大きさ以上となる対象物が画像中央に位置することが検出されたか否かが確認される。そして、第1の実施形態と同様、所定の大きさとなる対象物が検出されなかった場合や、対象物が画像中央に位置していない場合は、ステレオ効果が要求されるものとして、マトリクス処理を不適用とする判定が成される。
一方、検出された対象物の大きさが所定の大きさよりも大きく、且つ、対象物が画像の中央に位置する場合、本実施形態では、次に、画像処理部5内の移動量測定部57で検出された移動量が確認される。このとき、移動量算出部572及び距離変化量算出部573それぞれからの検出された対象物の移動量のいずれかが所定値以上となる場合、ステレオ効果が要求されるものとして、マトリクス処理を不適用とする判定が成される。又、移動量算出部572及び距離変化量算出部573それぞれからの検出された対象物の移動量のいずれもが所定値未満となる場合、圧縮効率の高い符号化を行うため、マトリクス処理を適用する判定が成される。
このようにして、マトリクス処理判定部645において、マトリクス処理の可否が判定されると、その判定結果が圧縮処理部7内のマトリクス処理部72及び選択部73に出力される。このとき、第1の実施形態と比較して、更に、検出した対象物の移動量によっても、マトリクス処理の可否を判定することができる。そのため、ステレオ感を要求するための符号化を行うか、圧縮効率の高い符号化を行うかの判定について、第1の実施形態の場合と比べて、より撮影時の状況に応じたものとすることができる。
尚、本実施形態においても、第1の実施形態と同様、音声解析部63において、複数の音声信号の周波数スペクトラムエンベロープの形状の類似/非類似が判定され、その判定結果を利用して、マトリクス処理の可否が決定されるものとしたが、音声解析部63において、複数の音声信号の時間的な変化について類似/非類似の判定が成されるものとしても構わない。
(3)ブロック長の設定
更に、圧縮処理部7内の時間周波数変換部71においてMDCTを施す際、各オーディオブロックに対して、(1)512点のMDCTを施す場合(以下、「長ブロックモード」とする。)と、(2)256点のMDCTを2回施す場合(以下、「短ブロックモード」とする。)と、がある。そして、この長ブロックモード及び短ブロックモードを設定するために、本実施形態では、第1の実施形態と異なり、ブロック長決定部646において、MDCTを施すブロック長(「長ブロックモード」の場合は512点、「短ブロックモード」の場合は256点)を決定する。このブロック長決定部646におけるブロック長の決定動作について、以下に説明する。
ブロック長決定部646には、音声解析部63での複数の音声信号それぞれの周波数スペクトラムエンベロープが入力されるとともに、画像処理部5内の移動量測定部57で検出された移動量が入力される。まず、移動量算出部572及び距離変化量算出部573それぞれからの検出された対象物の移動量が確認される。このとき、移動量算出部572及び距離変化量算出部573それぞれからの検出された対象物の移動量のいずれかが所定値以上となる場合、画像中での対象物の移動量が大きいことから、音声の変動も大きいと判断される。よって、時間軸方向の解像度が高い短ブロックモードを適用することが最適と判定されるため、処理する音声信号全てに対して、MDCTを施すブロック長を短ブロックモードに対するブロック長に設定する。
又、移動量算出部572及び距離変化量算出部573それぞれからの検出された対象物の移動量のいずれもが所定値未満となる場合、複数の音声信号毎に、その音声信号の周波数スペクトラムエンベロープによる時間的変化に基づいて、ブロック長が設定される。このとき、時間的変化が大きいと判断された音声信号については、時間軸方向の解像度が高い短ブロックモードを適用することが最適と判定されるため、MDCTを施すブロック長を短ブロックモードに対するブロック長に設定する。一方、時間的変化が小さいと判断された音声信号については、周波数軸方向の解像度が高い長ブロックモードを適用することが最適と判定されるため、MDCTを施すブロック長を長ブロックモードに対するブロック長に設定する。
このようにして、ブロック長決定部646において、音声信号の時間的変化だけでなく、画像上の対象物の移動量に基づいて、MDCTを施すブロック長を最適なものに決定することができる。即ち、音声の時間的変化だけでは判断できない状況であっても、画像上における対象物の移動量を参照することで、時間的変化を確認することができる。そのため、音声の時間的変化だけにより判定する場合よりも、より最適なブロック長に設定することができる。
尚、本実施形態において、対象物の距離の移動量について、対象物の大きさの変化量によって決定するものとしたが、AF制御を行うことによって、被写体へのフォーカス位置が変化したことを確認することで、その距離情報により、対象物の距離の移動量が算出されるものとしても構わない。
(その他の構成例)
上述の第1及び第2の実施形態では、音声符号化処理部70内にマトリクス処理部72を設けて、マトリクス処理により圧縮符号化を施すものとしたが、マトリクス処理ではなく、カップリング処理によって圧縮符号化を施すものもある。即ち、図12に示すように、圧縮部7において、マトリクス処理部72及び選択部73の代わりに、時間周波数変換部71からの音声信号を周波数帯域毎に相関のある信号をまとめるカップリング処理を行うカップリング処理部79を備える。尚、図12に示す構成は、第2の実施形態における図11に示す構成に基づくものである。
このカップリング処理部79は、高周波帯域について、複数の音声信号の周波数スペクトラムエンベロープを比較し、その比較結果に基づいて、相関がある場合は、複数の音声信号同士をまとめて1つの信号とする。そして、相関が見受けられた高周波帯域に関して、複数の音声信号をまとめて1つとした音声信号を符号化するとともに、その他の周波数帯域に関して、複数の音声信号それぞれに対して符号化する。これにより、複数の音声信号間で、高周波帯域の類似部分を共有化して、音声符号化後の音声信号を圧縮することができる。
このとき、マトリクス処理部72及び選択部73への動作と同様、カップリング処理部79でのカップリング処理の可否が、対象物検出部50による対象物の検出結果や、移動量測定部57による対象物の移動量などによって、設定される。そして、マトリクス処理の可否を判定するときと同様、対象物の有無、大きさ、及び位置や、対象物の移動量に基づいて、ステレオ感が要求される場合は、カップリング処理を不適用とし、それ以外の場合は、音声符号化による圧縮効率を高くするため、カップリング処理を適用する。
又、上述の各実施形態では、Dolby Digital方式による音声符号化方式を例に挙げて説明したが、音声符号化方式として、MPEGオーディオ符号化方式におけるAAC方式を利用するものであっても構わない。このとき、インテンシティステレオ処理やTNS(Temporal Noise Shaping)処理の可否について、対象物検出部50による対象物の検出結果や、移動量測定部57による対象物の移動量などによって、設定されるものとしても構わない。
「インテンシティステレオ処理」は、上述したカップリング処理と同様、高周波帯域について、類似したデータ部分を共通データとしてまとめるとともに、そのまとめたときの倍率とによって符号化することで、高周波帯域のデータを圧縮する符号化処理である。又、「TNS処理」は、MDCT変換された音声信号に対して線形予測を行い、MDCT係数を線形予測フィルタの係数とその残差信号(MDCT係数とその予測結果の差)とに変換する処理である。尚、この「インテンシティステレオ処理」及び「TNS処理」それぞれについては、例えば、本出願人による出願である特開2001−282290号公報に、その詳細を記載している。
これらの処理についても、上述の「マトリクス処理」及び「カップリング処理」と同様、対象物の有無、大きさ、及び位置や、対象物の移動量に基づいて、ステレオ感が要求される場合には不適用とし、それ以外の場合は、音声符号化による圧縮効率を高くするために適用するものとしても構わない。
更に、音声符号化方式が上述のいずれにもかかわらず、符号化する上限周波数及び下限周波数について、対象物の有無、大きさ、及び位置や、対象物の移動量に基づいて、変更されるものとしても構わない。このとき、対象物の大きさが大きい場合や、対象物が画面中央に位置する場合や、対象物が移動していない場合などにおいて、上限周波数及び下限周波数それぞれを、その対象物の発生する音声帯域よりもやや帯域が広くなる周波数帯域によって設定されるものとしても構わない。
又、第1及び第2の実施形態それぞれにおいて、圧縮処理部7での音声符号化方式に対するパラメータ設定の可否について、ユーザが操作部15を操作することによって決定されるものとしても構わない。更に、第2の実施形態において、音声符号化方式に対するパラメータ設定の可否だけでなく、対象物検出部50からの対象物の検出結果のみによる設定、移動量測定部57からの移動量のみによる設定、対象物検出部50及び移動量測定部57それぞれからの対象物の検出結果及び移動量による設定のいずれかについてが、ユーザが操作部15を操作することによって決定されるものとしても構わない。