JP2009098510A

JP2009098510A - 音声記録装置

Info

Publication number: JP2009098510A
Application number: JP2007271471A
Authority: JP
Inventors: Masahiro Yoshida; 昌弘吉田; Tomoki Oku; 智岐奥; Makoto Yamanaka; 誠山中
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2007-10-18
Filing date: 2007-10-18
Publication date: 2009-05-07
Anticipated expiration: 2027-10-18
Also published as: JP5230164B2

Abstract

【課題】本発明は、映像情報や撮影操作情報に基づいて、最適なパラメータを利用した音声符号化を施すことができる音声記録装置を提供することを目的とする。
【解決手段】音声処理部６内の音声符号化決定部６４に対して、画像処理部５内の対象物検出部５０による対象物の検出結果が与えられる。そして、音声符号化決定部６４では、対象物の検出結果に基づいて、圧縮処理部７内の音声符号化処理部７０で用いる音声符号化方式のパラメータを設定する。
【選択図】図３

Description

音声の記録を行う音声記録装置に関するものであって、特に、映像と共に扱う音声の記録を行う音声記録装置に関する。

現在、ビデオカメラを始め、デジタルスチルカメラや携帯電話などのように、映像と共に音声の記録が可能な音声記録装置として、多種多様な電子機器が提供されている。このような音声記録装置において、画像や音声のデータ圧縮符号化技術の発展により、より大容量のデータ量を圧縮化可能となり、記録される映像及び音声の高画質化及び高音質化が図られている。

又、映像と共に記憶される動画撮影が行われる場合、撮影する映像によっては、その音声との関わりが大きい。そして、例えば、ＲＯＩ（Region Of Interest）符号化により高画質となるように記録した場合に、この映像に関わる音声が高音質となるように、そのビットレートを高くして符号化する画像処理装置が提案されている（特許文献１参照）。又、この特許文献１における画像処理装置の別の構成として、ＡＡＣ（Advanced Audio Coding）符号化方式と、ＣＥＬＰ（Code Excited Linear Prediction）符号化方式とで、音声による情報を符号化した後、符号化後の音声データを復号して、より音質の高いと判定された音声データを記録する構成も、提案されている。
特開２００４−１１２４４０号公報

しかしながら、高音質となるように音声符号化が成された音声データについては、その符号化方式におけるビットレートが高くなり、符号化後のデータ量が大きくなるため、限られた容量の記録媒体に一定時間のデータの記録を保証することが困難となる。よって、Dolby Digital（Dolby AC-3）方式などでは、音声符号化の単位であるフレーム毎に圧縮率を変化させることなく、音声符号化が成される。

それに対して、引用文献１のように、高画質化された映像に関わる音声について、高音質となるように、その圧縮率を変化させることができる。しかしながら、この圧縮率を変化させるために、例えば、映像を高画質で符号化するために、ＲＯＩ符号化することを指示されたときなど、ユーザの指示に基づいて音声符号化における圧縮率を変化させる。よって、ユーザが、撮影中のシーンに基づいて、映像に対する符号化処理を選択する必要がある。そして、ユーザが選択した映像に対する符号化処理に応じて、音声符号化処理が最適化されることとなる。

又、引用文献１では、ＡＡＣ符号化方式とＣＥＬＰ符号化方式のそれぞれで、並列的に符号化処理を施し、同一の音声に対して得られたそれぞれの音声データを復号することで、いずれの符号化処理による音声データが高音質であるかの判定を行っている。しかしながら、このように二つの異なる符号化方式を行うとともに、いずれの符号化方式が最適化判定するために復号する必要があるため、音声符号化処理における消費電力が増大するだけでなく、その回路規模も大きくなる。

更に、従来の音声符号化方式において、決まった圧縮率で効率的に符号化するために、取得した音声情報と聴覚心理モデルと利用して、人の聴覚に対する音質劣化が小さくなるように、周波数帯域毎に細分化するとともに、そのビット配分を決定して音声符号化が成されている。しかしながら、撮影した映像及び音声を情報として記録する場合、記録する映像データ及び音声データそれぞれについて関わりがあるため、撮影した映像と無関係に音声符号化方式を設定した場合、最適な符号化方式が選択されていないことがある。

即ち、ユーザは、撮影対象となる人や物からの音声が明瞭となるように、音声データを記録することを望むため、撮影する映像内容によっては、従来の聴覚心理モデルが変化する場合がある。例えば、このような聴覚心理モデルの一例として、人が対象物の音を混在する音の中から認識するカクテルパーティー効果などがある。よって、このような心理現象に基づいて変化する聴覚心理モデルに近い状態となるように、音声データの音声符号化方式が選択されることが望ましい。

しかしながら、従来の音声符号化処理では、シーン毎に変化させることなく、一定の聴覚心理モデルにより符号化を行うため、ユーザの求める品質の音声となる音声データを記録することができなかった。又、引用文献１による画像処理装置においても、ユーザが高画質による撮影を指示したときに連動して、高音質となる音声符号化方式を採用するため、実際に撮影する対象に基づいて判定するものではない。よって、撮影対象となる人や物の音声が小さくなるというように、ユーザの期待する効果が、引用文献１を含む従来の音声符号化処理で得られないことが多い。

このような問題を鑑みて、本発明は、映像情報や撮影操作情報に基づいて、最適なパラメータを利用した音声符号化を施すことができる音声記録装置を提供することを目的とする。

上記目的を達成するために、本発明の音声記録装置は、連続する複数フレームの画像より成る映像と共に取得される音声による音声信号を符号化する音声符号化部を備え、該音声符号化部で符号化された音声信号を記録する音声記録装置において、取得した映像による画像信号をフレーム毎に解析して、各フレームの画像に関する解析情報を取得する画像処理部と、取得した音声による音声信号を解析するとともに、当該音声信号の解析情報及び／又は前記画像処理部での前記画像信号の解析情報に基づいて、前記音声符号化部で音声符号化方式におけるパラメータを設定する音声処理部と、を備えることを特徴とする。

又、前記音声処理部が、更に、映像及び音声取得時の操作情報に基づいて、前記音声符号化部での前記音声符号化方式におけるパラメータを設定するものとしても構わない。即ち、レンズ部に対して広角又は望遠による撮像を行う際のズーム倍率や、焦点合わせを行ったときの被写体の距離などに基づいて、パラメータが設定されるものとしても構わない。

そして、前記音声処理部において、前記音声符号化方式におけるパラメータを設定するために、前記画像信号の解析情報として、前記画像信号による画像における音声を発生する対象物の有無、該対象物の前記画像中での大きさ、又は、該対象物の前記画像中での位置が用いられるものとしても構わない。

このとき、前記音声処理部において、前記画像信号の解析情報より、前記画像信号による画像内に前記対象物を確認したとき、該対象物の発生する音声帯域におけるビット配分量を多くするように、前記音声符号化方式におけるパラメータを設定するものとしても構わない。又、前記音声処理部において、前記画像信号の解析情報より、前記画像信号による画像内に前記対象物が所定の大きさ以上となることを確認したとき、該対象物の発生する音声帯域におけるビット配分量を多くするように、前記音声符号化方式におけるパラメータを設定するものとしても構わない。

即ち、音声信号をＭＤＣＴなどによって周波数軸の信号に変換した後、その音声信号の解析情報に基づいて、周波数帯域毎にビット配分量を設定するとき、前記対象物の有無に基づいて、該対象物の発生する音声帯域におけるビット配分量が設定される。

更に、前記音声信号が、複数のマイクより成るステレオマイクから取得された複数の音声信号であり、前記音声処理部において、前記画像信号の解析情報より、前記画像信号による画像内の中央に前記対象物が位置することを確認したとき、前記複数の音声信号間での演算処理を施して圧縮するように、前記音声符号化方式におけるパラメータを設定するものとしても構わない。

このとき、例えば、対象物が画像中央に位置する場合、マトリクス処理、インテンシティステレオ処理、カップリング処理などを有効として、圧縮率を高め、一方、対象物が画像中央以外に位置する場合、マトリクス処理、インテンシティステレオ処理、カップリング処理などを無効として、ステレオ感の失われない符号化を行う。

又、前記音声処理部において、前記音声符号化方式におけるパラメータを設定するために、前記画像信号の解析情報として、前記画像信号による画像における音声を発生する対象物による、フレーム間における移動量が用いられるものとしても構わない。

このとき、前記音声処理部において、前記画像信号の解析情報より、フレーム間における前記対象物の移動量が所定値より大きいことを確認したとき、前記音声信号を周波数軸の信号に変換する際の単位ブロック長を短くして符号化するように、前記音声符号化方式におけるパラメータを設定するものとしても構わない。

又、前記音声信号が、複数のマイクより成るステレオマイクから取得された複数の音声信号であり、前記音声処理部において、前記画像情報より、フレーム間における前記対象物の移動量が所定値より大きいことを確認したとき、前記複数の音声信号を独立して符号化するように、前記符号化方式におけるパラメータを設定するものとしても構わない。

このとき、例えば、対象物の移動量が所定値より多いとき、マトリクス処理、インテンシティステレオ処理、カップリング処理などを無効として、ステレオ感の失われない符号化を行う。

本発明によると、音声信号に対する解析結果だけでなく、画像信号に対する解析結果をも利用して、音声信号に対して最適な符号化方式を設定することができる。即ち、圧縮効率を高めるための音声符号化が成されるとき、対象物が発生する音声帯域を重視した設定とすることができる。又、圧縮効率の高い圧縮符号化を行う際、音声信号と共に記録される映像内の構成によっては、そのステレオ感などを損なわないように、所定の処理動作を無効に設定することができる。よって、映像に対して期待される音声となるように、画像信号と共に記録する音声信号に対して音声符号化処理を施すことができる。更に、映像の解析結果を利用して音声符号化処理を施すことができ、複雑な音声信号解析を行う必要がなくなるため、音声符号化処理における演算処理量を低減することができる。

本発明の実施の形態について、以下に図面を参照して説明する。以下の実施の形態においては、本発明の音声記録装置として、映像及び音声を撮影するビデオムービーやデジタルスチルカメラなどの撮像装置を例に挙げて説明するが、映像及び音声を符号化して情報として記録するものであれば、例えば、携帯電話などのように、撮影機能以外の別の機能を備えるものであっても構わない。

（撮像装置の構成）
まず、撮像装置の内部構成について、図面を参照して説明する。図１は、撮像装置の内部構成を示すブロック図である。

図１の撮像装置は、入射される光を電気信号に変換するＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complimentary Metal Oxide Semiconductor）センサなどの固体撮像素子（イメージセンサ）１と、被写体の光学像をイメージセンサ１に結像させるズームレンズとズームレンズの焦点距離すなわち光学ズーム倍率を変化させるモータとズームレンズの焦点を被写体に合わせるためのモータとを有するレンズ部２と、イメージセンサ１から出力されるアナログ信号である画像信号をデジタル信号に変換するＡＦＥ（Analog Front End）３と、撮像装置の前方の左右方向から入力された音声を独立して電気信号に変換するステレオマイク４と、ＡＦＥ３からのデジタル信号となる画像信号に対して、階調補正等の各種画像処理を施す画像処理部５と、ステレオマイク４からのアナログ信号である音声信号に対してデジタル信号に変換するとともに音声符号化方式を決定するための判定を行う音声処理部６と、画像処理部５からの画像信号及び音声処理部６からの音声信号それぞれに対して圧縮符号化処理を施す圧縮処理部７と、圧縮処理部７で圧縮符号化された圧縮符号化信号をＳＤカードなどの外部メモリ２２に記録するドライバ部８と、ドライバ部８で外部メモリ２２から読み出した圧縮符号化信号を伸長して復号する伸長処理部９と、伸長処理部９で復号されて得られた画像信号をアナログ信号に変換する画像出力回路部１０と、画像出力回路部１０で変換された信号を出力する画像出力端子１１と、画像出力回路部１０からの信号に基づく画像の表示を行うＬＣＤ等を有するディスプレイ部１２と、伸長処理部９からの音声信号をアナログ信号に変換する音声出力回路部１３と、音声出力回路部１３で変換された信号を出力する音声出力端子１４と、音声出力回路部１３からの音声信号に基づいて音声を再生出力するスピーカ部１５と、各ブロックの動作タイミングを一致させるためのタイミング制御信号を出力するタイミングジェネレータ１６と、撮像装置内全体の駆動動作を制御するＣＰＵ（Central Processing Unit）１７と、各動作のための各プログラムを記憶するとともにプログラム実行時のデータの一時保管を行うメモリ１８と、静止画撮影用のシャッターボタンを含むユーザからの指示が入力される操作部１９と、ＣＰＵ１７と各ブロックとの間でデータのやりとりを行うためのバス回線２０と、メモリ１８と各ブロックとの間でデータのやりとりを行うためのバス回線２１と、を備える。レンズ部２は、画像処理部５で検出した画像信号に応じてＣＰＵ１７が、モータを駆動して焦点、絞りの制御を行うものである。

（１）動画撮影
このように構成される撮像装置における動画撮影時の基本動作について、図２のフローチャートを参照して説明する。まず、ユーザが音声記録装置を動画撮影用に設定して電源をＯＮにすると（ＳＴＥＰ２０１）、撮像装置の駆動モード、即ち、イメージセンサ１の駆動モードが、プレビューモードに設定される（ＳＴＥＰ２０２）。このプレビューモードとは、撮影対象となる画像を記録することなくディスプレイ部１２に表示するモードであり、撮影対象を定め、構図を決定するために用いることができる。

そして、ＳＴＥＰ２０２のプレビューモードでは、イメージセンサ１の光電変換動作によって得られたアナログ信号である画像信号がＡＦＥ３でデジタル信号に変換された後に、画像処理部５で各種画像処理が施される。画像処理部５で画像処理が施された画像信号は、圧縮処理部７で圧縮符号化が成された後、現時点の画像に対する画像信号として、外部メモリ２２に一時的に記録される。この外部メモリ２２に記憶された画像信号は、ドライバ部８を経て伸長処理部９で伸長された後、画像出力回路部１０に与えられて、操作部１９によって設定されるレンズ部２のズーム倍率での画角の画像がディスプレイ部１２に表示される。このプレビューモードの設定に続いて、撮影モードの入力待ち状態となり、人物撮影に適したモードや移動物の撮影に適したモード、逆光での撮影に適したモード等、撮像装置の機能に応じたモードが選択される。

そして、このプレビューモードの設定後の入力待ち状態のときに、撮影モードが入力されない場合は、通常撮影用のモードが選択されたものとする（ＳＴＥＰ２０３）。その後、操作部１９の動画撮影用ボタン（シャッターボタン兼用でも構わない）が押下されて、撮像動作を行うことが指示されると（ＳＴＥＰ２０４でＹｅｓ）、イメージセンサ１で取得された映像及びステレオマイク４で取得された音声による動画の撮像動作が開始される（ＳＴＥＰ２０５）。

そして、ユーザによって光学ズームでのズーム倍率の変更が指示されたか否かが確認されて（ＳＴＥＰ２０６）、ズーム倍率の変更を指示されたとき（Ｙｅｓ）、撮影の対象とする被写体に対して所望の画角となるように、光学ズームでのズーム倍率を設定する（ＳＴＥＰ２０７）。その際、画像処理部５に入力された画像信号を基にＣＰＵ１７によってレンズ部２を制御して、最適な露光制御（Automatic Exposure；ＡＥ）・焦点合わせ制御（オートフォーカス、Auto Focus；ＡＦ）が行われる（ＳＴＥＰ２０８）。

ＳＴＥＰ２０６において、ズーム倍率の変更がない場合（Ｎｏ）、又は、ＳＴＥＰ２０８におけるＡＥ・ＡＦ制御が成されると、続いてイメージセンサ１の光電変換動作によって得られたアナログ信号である画像信号がＡＦＥ３に出力される（ＳＴＥＰ２０９）。このとき、イメージセンサ１では、タイミングジェネレータ１６からのタイミング制御信号が与えられることによって、水平走査及び垂直走査が行われて、画素毎のデータとなる画像信号が出力される。そして、ＡＦＥ３において、アナログ信号である画像信号（生データ）がデジタル信号に変換されて、画像処理部５内のフレームメモリに書き込む。

その後、撮像動作によりイメージセンサ１及びステレオマイク４それぞれで取得された映像及び音声に対して、信号処理が成される（ＳＴＥＰ２１０）。このとき、画像処理部５では輝度信号及び色差信号の生成を行う信号変換処理などの各種画像処理が施され、その画像処理が施された画像信号が圧縮処理部７に与えられる。又、ステレオマイク４に音声入力されることで得られたアナログ信号である音声信号が、音声処理部６でデジタル信号に変換されて、圧縮処理部７に与えられる。

ＳＴＥＰ２１０の信号処理が成されると、圧縮処理部７において音声信号に施す音声符号化方式の設定が成される（ＳＴＥＰ２１１）。尚、この音声符号化方式の設定動作については、後述する各実施形態で詳細を説明する。そして、圧縮処理部７では、画像処理部５からの画像信号に対して、ＭＰＥＧ（Moving Picture Experts Group）圧縮符号化方式に基づいて圧縮符号化するとともに、音声処理部６からの音声信号に対して、設定した音声符号化方式に基づいて圧縮符号化する（ＳＴＥＰ２１２）。

このように圧縮符号化された画像信号及び音声信号がドライバ部８に与えると、外部メモリ２２に記録される（ＳＴＥＰ２１３）。又、このとき、外部メモリ２２に記録された圧縮信号がドライバ部８によって読み出されて伸長処理部９に与えられて、伸長処理が施されて画像信号が得られる。この画像信号がディスプレイ部１２に与えられて、現在、イメージセンサ１を通じて撮影されている被写体画像が表示される。

その後、再び操作部１９の動画撮影用ボタンが押下されたか否かが確認される（ＳＴＥＰ２１４）、動画撮影用ボタンが再度押下されたことを確認されると（Ｙｅｓ）、録画を終了することが指示されたものと判断し、動画撮影動作を終了して、プレビューモードに戻る（ＳＴＥＰ２０２）。又、動画撮影用ボタンの押下が確認されなかった場合は（ＳＴＥＰ２１４でＮｏ）、再び、ＳＴＥＰ２０６に移行して、撮像動作を継続する。

このように動画撮影を行うとき、タイミングジェネレータ１６によって、ＡＦＥ３、画像処理部５、音声処理部６、圧縮処理部７、及び伸長処理部９に対してタイミング制御信号が与えられ、イメージセンサ１による１フレームごとの撮像動作に同期した動作が行われる。又、圧縮処理部７において音声信号に対して成された音声符号化方式について、記録する音声信号のフレーム毎に指定される。そして、フレーム毎に指定された音声符号化方式をそれぞれ、各フレームのヘッダ部分に記録することで、再生時での復号処理で利用する音声符号化方式をフレーム毎に確認することができる。

尚、このような動画撮影を行う撮像装置では、静止画撮影についても可能である。このとき、静止画撮影用に設定して電源をＯＮにするとプレビューモードに設定され、操作部１９のシャッターボタンを半押しすると、ＡＥ・ＡＦの最適化処理を成される。そして、シャッターボタンが全押しされると、タイミングジェネレータ１６より、イメージセンサ１、ＡＦＥ３、画像処理部５及び圧縮処理部７それぞれに対してタイミング制御信号が与えられ、各部の動作タイミングを同期させ、静止画が撮影されることとなる。このとき取得された画像信号は、画像処理部５において輝度信号及び色差信号の生成を行う信号変換処理などの各種画像処理が施された後、圧縮処理部７においてＪＰＥＧ（Joint Photographic Experts Group）形式に圧縮されて、圧縮画像となる画像信号が外部メモリ２２に書き込まれる。

（２）再生動作
又、外部メモリ２２に記録された動画を再生することが、操作部１９を通じて指示されると、外部メモリ２２に記録された圧縮信号は、ドライバ部８によって読み出されて伸長処理部９に与えられる。そして、伸長処理部９において、ＭＰＥＧ圧縮符号方式及び指定された音声符号化方式に基づいて、伸長復号されて、画像信号及び音声信号が取得される。

このようにして、復号処理が成されて、画像信号及び音声信号が取得されると、画像信号が画像出力回路部１０を介してディスプレイ部１２に与えられて画像が再生されるとともに、音声信号が音声出力回路部１３を介してスピーカ部１５に与えられて音声が再生される。これにより、外部メモリ２２に記録された圧縮信号に基づく動画が音声とともに再生される。

更に、静止画像を再生することが指示された場合は、外部メモリ２２に記録された圧縮信号が伸長処理部９において、ＪＰＥＧ圧縮符号方式に基づいて、伸長復号されて、画像信号が取得される。このように復号することで取得された画像信号が、画像出力回路部１０を介してディスプレイ部１２に与えられることで、外部メモリ２２より読み出された静止画像が再生される。

以下では、本発明の各実施形態について説明するが、上述の撮像装置における構成及び動作については、各実施形態で共通となるため、その詳細な説明は省略する。よって、以下の各実施形態においては、音声処理部６及び圧縮処理部７それぞれにおける音声符号化処理に関する構成及び動作について、詳細に説明する。

＜第１の実施形態＞
本発明の第１の実施形態について、図面を参照して説明する。図３は、本実施形態の撮像装置において音声符号化処理を行うための音声処理部と圧縮処理部を含む各部の構成を示すブロック図である。尚、本実施形態において、Dolby Digital方式による音声符号化処理が成されるものを例に挙げて説明する。

（音声処理部の構成）
図３に示すように、音声処理部６には、ステレオマイク４から出力された音声信号に対してアナログ／デジタル変換を行うＡＤ変換部６１と、ＡＤ変換部６１で変換されたデジタル信号となる音声信号を時間軸の信号から周波数軸の信号に変換する時間周波数変換部６２と、時間周波数変換部６２によって得られた音声信号の周波数スペクトラムエンベロープを解析する音声解析部６３と、圧縮処理部７での音声符号化方式を設定する音声符号化方式決定部６４とが備えられる。

この音声処理部６には、ステレオマイク４から出力された複数の音声信号が入力され、ＡＤ変換部６１及び時間周波数変換部６２において、この複数の音声信号に対する信号処理が流される。例えば、ステレオマイク４として、左右にマイクロフォンが構成されているときは、左方向の音声信号（Ｌ信号）及び右方向の音声信号（Ｒ信号）が入力される。そして、Ｌ信号及びＲ信号それぞれが、ＡＤ変換部６１でデジタル信号に変換された後、時間周波数変換部６２において、ＤＦＴ（Discrete Fourier Transform）やＭＤＣＴ（Modified Discrete Cosine Transform）などによって周波数軸の信号に変換されて、音声解析部６３に与えられるとともに、圧縮処理部７に出力される。

そして、音声解析部６３では、周波数軸の信号に変換された複数の音声信号が与えられると、複数の音声信号それぞれについてのスペクトラムエンベロープ（スペクトラム包絡）が形成される。このとき、音声解析部６３では、形成した複数の音声信号それぞれの周波数スペクトラムエンベロープにより、複数の音声信号間で類似しているか否かが確認される。即ち、Ｌ信号及びＲ信号それぞれの周波数スペクトラムエンベロープを形成すると、その形状が類似しているか否かが確認される。この周波数スペクトラムエンベロープの類似／非類似の判定結果とともに、複数の音声信号それぞれについての周波数スペクトラムエンベロープが、音声符号化方式決定部６４に与えられる。

又、音声符号化方式決定部６４には、上述の音声解析部６３からの解析結果だけでなく、後述する画像処理部５内の対象物検出部５０において解析された画像解析結果も入力される。そして、音声符号化方式決定部６４において、音声解析部６３及び画像処理部５それぞれからの解析結果に基づいて、圧縮処理部７で利用する音声符号化方式の各パラメータが決定されて、圧縮処理部７に出力される。

（画像解析用の構成）
画像処理部５は、画像解析部として、人物などの対象物の有無や大きさや位置を検出する対象物検出部５０を備え、その検出結果が、音声処理部６内の音声符号化方式決定部６４に与えられる。尚、以下では、対象物検出部５０において、検出する対象物が人物の顔であるものとして説明するが、音声が出力される対象物であれば、人物の顔以外の対象物としても構わない。

この対象物検出部５０は、ＡＦＥ３によって得られた画像データに基づいて１又は複数の縮小画像を生成する縮小画像生成部５２と、入力画像および縮小画像から構成される各階層画像とメモリ１８に記憶された対象物検出用の重みテーブルとを用いて入力画像に対象物（顔）が存在するか否かを判定する対象物判定部５５と、対象物判定部５５の検出結果を出力する検出結果出力部５６とを備えている。検出結果出力部５６は、対象物（顔）が検出された場合には、検出された対象物（顔）の入力画像を基準とする大きさと位置及び対象物（顔）の大きさから推定したその対象物（顔）までの距離を出力する。

又、メモリ１８に記憶された重みテーブルは、対象物（顔）及び非対象物（非顔）それぞれのサンプル画像による大量の教師サンプルから求められたものである。このような重みテーブルは、例えば、Adaboostと呼ばれる公知の学習方法を利用して作成することができる（Yoav Freund, Robert E. Schapire,"A decision-theoretic generalization of on-line learning and an application to boosting", European Conference on Computational Learning Theory, September 20，1995．）。

尚、Adaboostは、適応的なブースティング学習方法の１つで、大量の教師サンプルをもとに、複数の弱識別器候補の中から識別に有効な弱識別器を複数個選択し、それらを重み付けして統合することによって高精度な識別器を実現する学習方法である。ここで、弱識別器とは、全くの偶然よりは識別能力は高いが、十分な精度を満たすほど高精度ではない識別器のことをいう。弱識別器の選択時には、既に選択した弱識別器がある場合、選択済の弱識別器によって誤認識してしまう教師サンプルに対して学習を重点化することによって、残りの弱識別器候補の中から最も効果の高い弱識別器を選択する。

（対象物検出処理）
このように構成する対象物検出部５０による対象物検出処理動作について、図面を参照にして、以下で説明する。図４は、縮小画像生成部５２によって得られる階層画像の一例を示している。この例では、縮小率を０．８に設定した場合に、生成される複数の階層画像を示している。図４において、１５０は入力画像を、１５１〜１５５は縮小画像を示している。１６１は判定領域を示している。この例では、判定領域は縦２４画素、横２４画素の大きさに設定されている。判定領域１６１の大きさは、入力画像１６０及び各縮小画像１５１〜１５５のいずれにおいても同等の大きさで設定される。

又、本例では、図４の矢印で示すように、階層画像上で判定領域１６１を左から右に移動させて、水平方向走査を行うとともに、この水平方向走査を上方から下方に向かって、垂直方向走査を行う。このようにして判定領域１６１を走査させることで、判定領域１６１とマッチングする対象物画像（顔画像）の検出を行う。但し、判定領域１６１の走査順は、図４に示す矢印の方向に限られるものではない。

そして、入力画像１５０の他に、複数の縮小画像１５１〜１５５を生成しているのは、１種類の重みテーブルを用いて大きさが異なる対象物（顔）を検出するためである。即ち、同一の大きさとなる判定領域１６１を、入力画像１５０及び縮小画像１５１〜１５５それぞれに対して走査させることによって、重みテーブルを参照することで確認される対象物（顔）の検出処理が成される。

更に、図５を参照して、対象物検出処理について簡単に説明する。対象物判定部５５による対象物検出処理は、各階層画像毎に行われるが、各階層画像に対する処理方法は同様となるので、ここでは入力画像１５０に対して行われる対象物検出処理についてのみを、代表して説明する。尚、図５には、入力画像１５０と、入力画像１５０内に設定された判定領域１６１とを示している。

対象物検出処理は、入力画像１５０及び縮小画像１５１〜１５５それぞれに対して走査されることで設定された判定領域１６１に対応する画像と、重みテーブルを参照して得られる画像とを比較することで、各階層画像毎に行われる。即ち、図５においては、入力画像１５０を走査される判定領域１６１内における画像が、重みテーブルより取得される画像に近い画像となったとき、判定領域１６１の入力画像１５０内の位置に、対象物（顔）が存在するものと判定される。

この判定処理は、粗い判定から順次細かい判定に移行する複数の判定ステップから構成される。そして、この複数の判定ステップのうちの１つにおいて、対象物（顔）が検出されなかった場合には、検出されなかった判定ステップの次の判定ステップには移行せず、当該判定領域１６１には対象物（顔）は存在しないと判定し、判定領域１６１を走査させる。一方、複数の判定ステップ全てにおいて、対象物（顔）が検出された場合に、当該判定領域１６１に対象物（顔）が存在すると判定し、判定領域１６１を走査させる。

このようにして、入力画像１５０及び縮小画像１５１〜１５５それぞれに対して、対象物（顔）の検出を行い、その対象物（顔）の検出されたときの階層画像が、入力画像１５０及び縮小画像１５１〜１５５のいずれであるかが確認される。そして、確認された階層画像と入力画像１５０との関係により、入力画像１５０を基準とする対象物（顔）の大きさ及び位置と、対象物（顔）までの距離とを、推定することができる。この検出された対象物（顔）の位置及び大きさと対象物（顔）までの距離とが、検出結果出力部５６から出力されて、音声処理部６内の音声符号化方式決定部６４に与えられる。尚、このような対象物検出処理については、本出願人による特許出願である特願２００６−０５３３０４号に詳しく記載している。

（音声符号化方式決定部）
音声処理部６内に設けられた音声符号化方式決定部６４は、音声解析部６３で形成した複数の音声信号それぞれの周波数スペクトラムエンベロープが与えられてマスキング曲線を算出するマスキング曲線算出部６４１と、マスキング曲線算出部６４１で算出されたマスキング曲線の値と音声解析部６３で得られた周波数スペクトラムエンベロープの値との差分を周波数帯域毎に算出する差分値算出部６４２と、差分値算出部６４２で得られた差分値に基づいて周波数帯域毎に割り当てるビット配分を設定する１次ビット配分決定部６４３と、１次ビット配分決定部６４３で決定されたビット配分量を対象物検出部５０からの検出結果に基づいて補正するビット配分補正部６４４と、音声解析部６３での音声信号間の類似性及び対象物検出部５０からの検出結果に基づいてマトリクス処理の可否を設定するマトリクス処理判定部６４５と、を備える。

このように音声符号化方式決定部６４が構成されることで、圧縮処理部７における音声符号化方式における周波数帯域毎のビット配分量と、マトリクス処理の可否とを設定することができ、設定したビット配分量が圧縮処理部７に出力される。即ち、マスキング曲線算出部６４１、差分値算出部６４２、１次ビット配分決定部６４３、及び、ビット配分補正部６４４が、音声解析部６３及び対象物検出部５０それぞれからの情報に基づく演算を行うことで、ビット配分量が算出される。又、マトリクス処理判定部６４５が、音声解析部６３及び対象物検出部５０それぞれからの情報に基づいて、マトリクス処理の可否を設定する。このような音声符号化方式決定部６４の動作について、以下に説明する。

（１）周波数帯域毎のビット配分量の設定
まず、周波数帯域毎のビット配分量の算出動作について説明する。上述したように、音声解析部６３において、各音声信号に対する周波数スペクトラムエンベロープが形成されると、この各音声信号に対する周波数スペクトラムエンベロープが、マスキング曲線算出部６４１及び差分値算出部６４２に与えられる。又、対象物検出部５０において上述の対象物検出処理が成されると、対象物検出部５０による対象物の検出結果がビット配分補正部６４４に与えられる。

このようにして、音声解析部６３及び対象物検出部５０それぞれからの情報が入力されるとき、まず、マスキング曲線算出部６４１において、各音声信号に対する周波数スペクトラムエンベロープが入力されると、この周波数スペクトラムエンベロープ及び最小可聴限特性情報に基づいて、各音声信号に対するマスキング曲線が算出される。このマスキング曲線の算出について、図６を参照して簡単に説明する。

尚、「マスキング曲線」とは、マスキング特性による「マスキング効果曲線」と最小可聴限特性による「最小可聴限曲線」とを合成することで算出されるもので、各周波数に対して検知限界となる音圧レベルを示した曲線である。「最小可聴限特性」とは、静寂時の聴覚により検知できる周波数毎の最低の音圧レベルを示す特性であり、「マスキング特性」とは、歪みや背景ノイズの検知限界と関係するもので、同時に聞いている他の音によって特定の音の検知限界が変化するというマスキング効果に基づく特性である。

まず、図６（ｂ）のような最小可聴限曲線による最小可聴限特性情報を、バス回線２１を介してメモリ１８より読み出すことで取得し、周波数毎の最小可聴限となる音圧レベルが確認される。そして、複数の音声信号に対して、それぞれの周波数スペクトラムエンベロープを解析することで、それぞれのマスキング特性を表すマスキング効果曲線を算出する。このとき、例えば、図６（ａ）のような周波数スペクトラムエンベロープを構成する音声信号に対して、図６（ｃ）のようなマスキング効果曲線が算出される。尚、このマスキング効果曲線は、複数の音声信号それぞれに対して算出される。

このマスキング効果曲線の算出が行われるとき、まず、周波数スペクトラムエンベロープより、音圧レベルの高い周波数を確認するとともに、この音圧レベルの高くなる各周波数における信号をマスカーとする。そして、マスカーとなる各周波数におけるマスキングを行う音圧レベルを、周波数スペクトラムエンベロープによる音圧レベルによって設定するとともに、それぞれがマスキング効果を及ぼす臨界帯域（Critical Band）を設定する。このようにマスカーとなる各周波数に対して設定したマスキングを行う音圧レベルと臨界帯域を組み合わせることによって、マスキング効果曲線を取得することができる。

このようにして、複数の音声信号それぞれに対して算出されたマスキング効果曲線が、算出されると、最小可聴限特性情報による最小可聴限曲線と組み合わせることによって、複数の音声信号それぞれに対するマスキング曲線が求められる。これにより、図６（ｃ）のようなマスキング効果曲線が取得された音声信号に対して、図６（ａ）のような最小可聴限曲線が組み合わせられることによって、図６（ｄ）のようなマスキング曲線が算出される。

即ち、ステレオマイク４からＬ信号及びＲ信号の２つの音声信号が取得されるとき、Ｌ信号及びＲ信号それぞれの周波数スペクトラムエンベロープに基づいて、Ｌ信号及びＲ信号それぞれに対するマスキング効果曲線が取得される。そして、メモリ１８から読み出された最小可聴限特性情報による共通となる最小可聴限曲線が、Ｌ信号及びＲ信号それぞれのマスキング効果曲線と組み合わさられることによって、Ｌ信号及びＲ信号それぞれに対するマスキング曲線が算出される。

この複数の音声信号それぞれに対して算出されたマスキング曲線は、差分値算出部６４２に与えられる。差分値算出部６４では、複数の音声信号それぞれに対して、周波数帯域毎に、周波数スペクトラムエンベロープにおける音圧レベルＸｉと、マスキング曲線における音圧レベルＹｉとの差分比率Ｄｉを以下の（１）式に基づいて算出する。尚、（１）式においては、周波数帯域がＭ帯域に分割されるとともに、ｉ番目の帯域を対象として算出した差分比率Ｄｉを表す。

即ち、図６（ａ）の周波数スペクトラムエンベロープを構成する音声信号に対して、図６（ｄ）に示すマスキング曲線が取得されたとき、図７に示す斜線領域Ｒに相当する差分が、周波数帯域毎に算出されることとなる。よって、Ｌ信号とＲ信号とが出力される場合は、Ｌ信号及びＲ信号それぞれについて、その周波数帯域毎の差分比率が算出されることとなる。

このようにして算出された複数の音声信号それぞれの周波数帯域毎による差分比率が、差分値算出部６４２から１次ビット配分決定部６４３に与えられると、複数の音声信号それぞれに対して、周波数帯域毎に、差分比率に応じたビット配分量が設定され、ビット配分補正部６４４に出力される。即ち、差分比率が大きくなる周波数帯域に対しては、そのビット配分量が大きくなるように設定されることとなる。このとき、差分比率が負となる周波数帯域については、その周波数帯域における音声信号を削除するため、そのビット配分量が０とされる。

そして、ビット配分補正部６４４では、１次ビット配分決定部６４３で設定された周波数帯域毎のビット配分量が、対象物検出部５０における検出結果に基づいて補正される。このとき、対象物検出部５０で検出された対象物の大きさが十分に大きいことが確認されると、その対象物の発生する音声帯域のビット配分量が多くなるように、各周波数帯域のビット配分量が補正される。

即ち、対象物が人物の顔であるとき、人物の顔の大きさが大きいことを確認すると、人物主体に撮影を行っていることが確認されるため、人物の発生する音声に対してより多くの情報量が求められる。そのため、人の発生する音声帯域（１００Ｈｚ〜２ｋＨｚ）におけるビット配分量をα（α＞１）倍として、そのビット配分量を多くするとともに、この音声帯域以外のビット配分量が少なくなるように、各周波数帯域のビット配分量を補正する。

例えば、人物の顔の大きさが所定の大きさ（例えば画像中での顔の占める面積が３０％又は５０％など。図８は３０％の場合である）以上の場合は、撮影者が人物の強調を意図して撮影したものと考えられるため、映像に映った人物の音声を明確とするために、音声帯域（１００Ｈｚ〜２ｋＨｚ）におけるビット配分量をα（α＞１）倍として、各音声信号それぞれに対して、各周波数帯域のビット配分量を補正する。そして、人物の顔の大きさが所定の大きさ未満の場合や人物の顔が検出されなかった場合は、各周波数帯域のビット配分量の補正を行わない。

尚、人物の顔が検出されると共に、その人物の顔の大きさが所定の大きさ未満の場合（図９は５％の場合である）は、撮影者が人物と共に周囲の雰囲気を重視することを意図して撮影したものと考えられる。よって、各音声信号に対して、各周波数帯域のビット配分量をβ（α＞β＞１）倍としても構わない。これにより、人物の顔の大きさが所定の大きさ以上となるときよりも、その音声帯域のビット配分量が少ない状態で補正することができ、映像に映った人物の音声を強調すると同時に環境音を臨場感のあるものとすることができる。

又、レンズ部２に対して設定されたズーム倍率を示すズーム倍率情報もビット補正部６４４に与えられ、対象物の大きさとズーム倍率との関係によって、隔週は数体器のビット配分量が補正されるものとしても構わない。即ち、例えば、対象物の大きさが所定の大きさとなったことを確認すると、ズーム倍率が所定の倍率より大きく、望遠側に設定されている場合は、その対象物の発生する音声帯域のビット配分量をα倍とする補正を行う。一方、ズーム倍率が所定の倍率より小さく、広角側に設定されている場合は、その対象物の発生する音声帯域のビット配分量をβ（α＞β＞１）倍とする補正を行う。そして、対象物が所定の大きさ未満の場合や対象物が検出されなかった場合は、各周波数帯域のビット配分量の補正を行わない。

このようにして、ビット配分補正部６４４において、画像処理部５内の対象物検出部５０で検出された対象物の大きさに基づいて、複数の音声信号それぞれに対して、その対象物からの発生する音声帯域のビット配分量を調整する補正が行われる。そして、複数の音声信号それぞれに対して得られた補正後のビット配分量が、圧縮処理部７での音声符号化方式のパラメータとして、圧縮処理部７に出力される。尚、このように補正後のビット配分量が圧縮処理部７に与えられることにより、圧縮処理部７における音声信号に施す音声符号化方式を、撮影したシーンに応じたものとすることができる。

（２）マトリクス処理の設定
更に、上述の周波数帯域毎のビット配分量だけでなく、マトリクス処理の可否についても、圧縮処理部７での音声符号化方式を設定するパラメータの一つとして、マトリクス処理判定部６４５で設定される。まず、圧縮処理部７で行われるマトリクス処理について、簡単に説明する。例えば、ステレオマイク４よりＬ信号及びＲ信号の２チャンネルの音声信号が入力される場合、圧縮処理部７では、まず、Ｌ信号とＲ信号とを加算した和信号Ｌ＋Ｒと、Ｌ信号とＲ信号とを減算した差信号Ｌ−Ｒとが算出される。そして、算出して得られた和信号Ｌ＋Ｒ及び差信号Ｌ−Ｒに対して、音声符号化処理が成されることで、圧縮符号化された音声信号が取得される。

このようにマトリクス処理を施すことによって、差信号Ｌ−Ｒについては、その符号化量を小さくし、圧縮効率を高くすることができる。しかしながら、差信号Ｌ−Ｒに対して量子化が施されたときに生じる量子化誤差などの影響により、その再生精度が低下するため、マトリクス処理前のＬ信号及びＲ信号によるステレオ感が損なわれる。そこで、マトリクス処理判定部６４５において、音声解析部６３から入力される各音声信号の周波数スペクトラムエンベロープと、対象物検出部５０からの検出結果とに基づいて、マトリクス処理の可否が判定される。

このマトリクス処理判定部６４５におけるマトリクス処理の可否の判定動作について、以下に説明する。マトリクス処理判定部６４５には、複数の音声信号それぞれの周波数スペクトラムエンベロープの形状についての判定結果が、音声解析部６３より与えられ、その形状が類似しているか否かが確認される。即ち、周波数変換後の複数の音声信号における周波数スペクトラムエンベロープの形状が類似している場合、マトリクス処理を施した符号化を行うことで圧縮効率が高くなるため、マトリクス処理を適用する判定が成される。

又、周波数変換後の複数の音声信号における周波数スペクトラムエンベロープの形状が非類似である場合、対象物検出部５０からの対象物の検出結果に基づいて、マトリクス処理の可否が判定される。このとき、対象物の有無、対象物の大きさ、及び、対象物の位置によって、マトリクス処理の可否が判定される。即ち、検出された対象物の大きさが所定の大きさよりも大きく、且つ、対象物が画像の中央に位置する場合、ステレオ効果よりも対象物の音声を取得することを主とすると判断し、マトリクス処理を適用する判定が成される。このマトリクス処理が適用されるとき、和信号（Ｌ＋Ｒ）へのビット配分を増やすこととなる。

よって、図８のように、人物の顔の大きさが所定の大きさ（例えば画像中での顔の占める面積が３０％又は５０％など。図８は３０％の場合である）以上となり、画像中央に人物が位置することが確認されると、マトリクス処理を適用する判定が成される。又、人物の顔の大きさが所定の大きさ未満となる場合（図９は５％の場合である）や、図１０のように人物の顔が画像中央に位置していない場合や、人物の顔の検出が成されなかった場合は、ステレオ効果が要求されるものとして、マトリクス処理を不適用とする判定が成される。

又、複数の対象物が画像中の離れた位置に検出された場合、ステレオ効果が要求されるものとして、マトリクス処理を不適用とする判定が成されるものとしても構わない。このとき、所定の大きさ以上となる複数の対象物が全て画像の中心位置で検出された場合や、所定の大きさ以上となる複数の対象物が近接した位置で検出された場合に、マトリクス処理を適用とする判定が成されるものとしても構わない。又、対象物が１つだけ検出されたときには、その位置に関係なく、マトリクス処理を適用とする判定が成されるものとしても構わない。

更に、レンズ部２に対して設定されたズーム倍率を示すズーム倍率情報がマトリクス処理判定部６４５に与えられ、ズーム倍率と対象物の検出結果との関係によって、マトリクス処理の可否が決定されるものとしても構わない。このとき、例えば、対象物の大きさが所定の大きさ未満であっても、対象物が画像の中心に位置するとともに、所定の倍率より大きく、望遠側に設定されている場合は、マトリクス処理を適用とする判定が成されるものとしても構わない。

又、音声解析部６３において、複数の音声信号の周波数スペクトラムエンベロープの形状の類似／非類似が判定され、その判定結果を利用して、マトリクス処理の可否が決定されるものとしたが、音声解析部６３において、複数の音声信号の時間的な変化について類似／非類似の判定が成されるものとしても構わない。即ち、音声信号の時間的な変化が非類似となるときに、対象物検出部５０での対象物の検出結果に基づいて、マトリクス処理の可否が判定される。

このようにして、マトリクス処理判定部６４５において、音声解析部６３からの周波数変換後の複数の音声信号における周波数スペクトラムエンベロープの形状だけでなく、画像処理部５内の対象物検出部５０での対象物の検出結果に基づいて、マトリクス処理の可否が判定される。そして、このマトリクス処理の可否の判定結果が、圧縮処理部７での音声符号化方式のパラメータとして、圧縮処理部７に出力され、ステレオ感を要求するための符号化を行うか、圧縮効率の高い符号化を行うかが設定されることとなる。

（圧縮処理部内の音声符号化処理部）
このように音声処理部６内の音声符号化方式決定部６４で設定されたビット配分量が、音声符号化方式のパラメータとして、圧縮処理部７内の音声符号化処理部７０に与えられる。この音声符号化処理部７０は、図３に示すように、音声処理部６内のＡＤ変換部６１でデジタル信号に変換された複数の音声信号に対してＭＤＣＴ（Modified Discrete Cosine Transform）などによって時間軸の信号から周波数軸の信号に変換する時間周波数変換部７１と、時間周波数変換部７１からの周波数軸の信号となる音声信号に対してマトリクス処理を施すマトリクス処理部７２と、時間周波数変換部７１からの音声信号又はマトリクス処理部７２からの音声信号のいずれかを選択する選択部７３と、選択部７３で選択された周波数軸の信号に変換された音声信号の指数部分に対して差分符号化を施す差分符号化部７４と、選択部７３で選択された周波数軸の信号に変換された音声信号の仮数部分に対して量子化を施す量子化部７５と、選択部７３で選択された周波数軸の信号に変換された音声信号の指数部分に基づいて近似的にビット配分量を設定する近似ビット配分設定部７６と、音声処理部６のビット配分補正部６４４で設定されたビット配分量と近似ビット配分設定部７６で設定したビット配分量との差を補正情報として算出する減算部７７と、差分符号化部７４及び量子化部７５で符号化された音声信号を多重化する多重化部７８と、を備える。

尚、ステレオマイク４からの複数の音声信号がデジタル信号に変換されて、音声符号化処理部７０に入力されるため、マトリクス処理が不適用である場合は、音声符号化処理部７０内の多重化部７８以外の各ブロックでは、複数の音声信号に対して各ブロックにおける演算処理が成される。一方、マトリクス処理を適用する場合は、マトリクス処理部７２において、複数の音声信号を利用したマトリクス処理が成されると、マトリクス処理部７２よりも後段のブロックでは、マトリクス処理後の音声信号に対して、各ブロックにおける演算処理が成される。このように、それぞれの場合によって異なる音声信号、更には、複数の音声信号を扱うこととなるが、以下では説明を簡単にするために、単に「音声信号」に対する演算処理のみを説明する。

この圧縮処理部７内の音声符号化処理部７０には、音声処理部６内のＡＤ変換部６１より出力されるデジタル信号となる音声信号と、音声符号化方式決定部６４により決定される音声符号化方式の各パラメータとが入力される。即ち、ＡＤ変換部６１からのデジタル信号となる音声信号が時間周波数変換部７１に入力される。又、マトリクス処理判定部６４５での判定結果が、マトリクス処理部７２及び選択部７３それぞれに入力されるとともに、ビット配分補正部６４４で設定されたビット配分量が、量子化部７５及び減算部７７に入力される。

時間周波数変換部７１では、時間軸の信号となる音声信号が入力されると、Dolby Digital方式によると、この音声信号の時間軸方向において、オーディオブロックと呼ばれる５１２個のサンプル値列に対して、窓係数を乗じた後にＭＤＣＴを施すことによって、各オーディオブロックに対して２５６個のＭＤＣＴ係数よりなる周波数軸の信号に変換する。このとき、隣接するオーディオブロックにおいて、２５６個のサンプル値が重なるように、各オーディオブロックのサンプル値列が設定される。

このように周波数軸の信号に音声信号が変換されるとき、周波数軸の信号となる音声信号におけるＭＤＣＴ係数が、Ｘ・２^-Yで表されることとなる。このとき、Ｘが仮数であり、０．５〜１．０の値となり、又、Ｙが指数である。即ち、音声信号のＭＤＣＴ係数がそれぞれ、周波数帯域毎の音圧レベルを示す情報として、仮数部分Ｘと指数部分Ｙとによって表される符号で構成される。

そして、マトリクス処理判定部６４５によってマトリクス処理を適用する判定結果が入力される場合、時間周波数変換部７１からの音声信号がマトリクス処理部７２においてマトリクス処理が成された後、このマトリクス処理が成されて得られた音声信号が選択部７３で選択される。一方、マトリクス処理判定部６４５によってマトリクス処理を不適用とする判定結果が入力される場合、マトリクス処理部７２の動作を停止するとともに、時間周波数変換部７１からの音声信号が選択部７３によって選択される。そして、選択部７３で選択された周波数軸の信号に変換された音声信号のうち、仮数部分が量子化部７５に与えられ、指数部分が差分符号化部７４及び近似ビット配分設定部７６に与えられる。

差分符号化部７４では、時間周波数変換部７１より与えられる音声信号の指数部分に対して、差分符号化を施すことで、その情報量を圧縮する。このとき、１つ目のＭＤＣＴ係数の指数を初期値とし、連続するＭＤＣＴ係数間の指数の差分を算出する。そして、算出した指数の差分については、例えば、トリプレット手法のように、複数の差分値をまとめて一つの値に符号化することにより、音声信号の指数部分の情報量を圧縮することができる。この差分符号化が施された音声信号の指数部分は、多重化部７８に出力される。

又、量子化部７５では、時間周波数変換部７１より与えられる音声信号の仮数部分に対して、各周波数帯域に応じたＭＤＣＴ係数毎に、音声処理部６のビット配分補正部６４４で設定されたビット配分量に応じて、線形量子化が成されことで、符号化される。このとき、ビット配分量が小さくなるように割り当てられたＭＤＣＴ係数については、量子化後の仮数を、例えば、トリプレット手法などを用いてまとめて１つの符号とする。この量子化による符号化された音声信号の仮数部分についても、差分符号化が施された音声信号の指数部分と同様、多重化部７８に出力される。

更に、近似ビット配分設定部７６では、時間周波数変換部７１より与えられる音声信号の指数部分を用いて、周波数スペクトラムエンベロープを形成し、近似的な聴覚心理分析を行う。このとき、上述した音声符号化方式決定部６４における聴覚心理分析処理よりも簡易な手法によって分析が行われ、その分析結果に基づいて、周波数帯域毎に割り当てるビット配分を算出する。

そして、近似ビット配分設定部７６で算出されたビット配分が減算部７７に出力されると、ビット配分補正部６４４からのビット配分から減算されて、ビット配分の補正情報が算出される。即ち、減算部７７では、ビット配分補正部６４４から取得されたビット配分Ａから、近似ビット配分設定部７６で算出されたビット配分Ｂを減算することで、ビット配分の補正情報Ａ−Ｂが取得され、このビット配分の補正情報Ａ−Ｂが多重化部７８に出力される。

多重化部７８では、周波数帯域（ＭＤＣＴ係数）毎に符号化された音声信号の指数部分及び仮数部分がそれぞれ、差分符号化部７４及び量子化部７５より与えられるとともに、周波数帯域（ＭＤＣＴ係数）毎に算出されたビット配分の補正情報が、減算部７７より与えられる。そして、この周波数帯域（ＭＤＣＴ係数）毎の音声信号の指数部分及び仮数部分とビット配分の補正情報とを多重化して、圧縮符号化された音声信号が生成される。このとき、多重化部７８では、マトリクス処理の適用／不適用を示す情報を追加して、多重化する。

このように、本実施形態では、ステレオマイク４から取得される複数の音声信号の状態だけでなく、イメージセンサ１から取得される画像内の被写体の状態や、レンズ部２に対して設定されたズーム倍率などによっても、音声符号化方式を決定するパラメータを切り換えることができる。よって、圧縮処理部７で圧縮符号化処理がなされた音声信号が、対応するシーンに応じた音声符号化を自動的に施すことができ、再生時には、映像に対して違和感の少ない音声を再生することができる。

＜第２の実施形態＞
本発明の第２の実施形態について、図面を参照して説明する。図１１は、本実施形態の撮像装置において音声符号化処理を行うための音声処理部と圧縮処理部を含む各部の構成を示すブロック図である。尚、本実施形態においても、第１の実施形態と同様、Dolby Digital方式による音声符号化処理が成されるものを例に挙げて説明する。又、図１１の構成において、図３の構成と同一の部分については、同一の符号を付して、その詳細な説明は省略する。

本実施形態では、第１の実施形態とことなり、画像処理部５において、対象物検出部５０で確認された対象物の連続するフレーム間での移動量を検出し、音声処理部６において、対象物の移動量の大小によって、音声符号化方式が設定される。そのため、図１１に示すように、画像処理部５においては、対象物の移動量を測定する移動量測定部５７が追加された構成とされるとともに、音声処理部６において、測定された対象物の移動量に基づいてＭＤＣＴによるオーディオブロックのブロック長を決定するブロック長決定部６４６が追加された構成とされる。

（画像解析用の構成）
本実施形態における画像処理部５は、上述したように、画像解析部として、対象物検出部５０に加えて、対象物検出部５０で検出された対象物の位置をフレーム間で比較することで対象物の移動量を算出する移動量測定部５７を備えた構成となる。この移動量測定部５７は、対象物検出部５０で検出された対象物の大きさと画像内の座標位置とが与えられて記憶するメモリ５７１と、対象物検出部５０で検出された現フレームにおける対象物の画像内の座標位置とメモリ５７１に記憶された１フレーム前の対象物の画像内の座標位置との位置関係により対象物の移動量を算出する移動量算出部５７２と、対象物検出部５０で検出された現フレームにおける対象物の大きさとメモリ５７１に記憶された１フレーム前の対象物の大きさとの大小変化を確認して対象物との距離の変化量を算出する距離変化量算出部５７３と、を備える。

即ち、対象物検出部５０の検出結果出力部５６で検出された対象物の画像内の座標位置が、移動量測定部５７に与えられると、メモリ５７１に記憶されるとともに、移動量算出部５７２に与えられる。このとき、移動量算出部５７２では、メモリ５７１より、記憶していた１フレーム前の対象物の座標位置を読み出すことにより、現フレームと１フレーム前との間における、対象物の座標位置の移動ベクトル量を、対象物の移動量として算出する。尚、対象物の座標位置については、その対象物の重心位置又は中心位置を代表点とし、この代表点による座標位置により移動ベクトル量が算出される。

又、対象物検出部５０の検出結果出力部５６で検出された対象物の大きさについても、移動量測定部５７に与えられて、メモリ５７１に記憶されるとともに、距離変化量算出部５７３に与えられる。このとき、距離変化量算出部５７３では、メモリ５７１より、記憶していた１フレーム前の対象物の大きさを読み出すことにより、現フレームと１フレーム前との間における、対象物の大きさの変化量（比率）を算出する。

このとき、距離変化量算出部５７３には、レンズ部２に対して設定されたズーム倍率も入力され、対象物の大きさの変化量と比較される。そして、対象物の大きさの変化量がズーム倍率と大きく異なる値となることを確認すると、対象物の大きさの変化量及びズーム倍率から、対象物までの距離の変化量を、対象物の移動量として算出する。

尚、対象物検出部５０において複数の対象物が検出されたとき、対象物の画像上での特徴を示す特徴量をメモリ５７１に記憶し、その特徴量により、それぞれの対象物の特定を行う。そして、移動量算出部５７２及び距離変化量算出部５７３では、連続するフレーム間で、特徴量が類似した対象物を特定し、それぞれの対象物に対して、対象物の座標位置による移動ベクトル量及び対象物までの距離の変化量を算出する。これにより、複数の対象物を検出した場合においても、検出した対象物それぞれの移動量を測定することができる。

（音声処理部）
本実施形態における音声処理部６は、上述したように、音声符号化方式決定部６４において、オーディオブロックのブロック長を決定するブロック長決定部６４６が追加された構成とされる。又、画像処理部５内の移動量測定部５７で検出された移動量が、音声符号化方式決定部６４内におけるマトリクス処理判定部６４５及びブロック長決定部６４６に与えられる。更に、画像処理部５内の対象物検出部５０で検出された対象物の検出結果が、マトリクス処理判定部６４５及びビット配分補正部６４４に与えられる。

このように構成される音声符号化方式決定部６４を備えた音声処理部６では、第１の実施形態と同様、ステレオマイク４からの複数の音声信号が入力されると、Ａ／Ｄ変換部６１でデジタル信号に変換された後、時間周波数変換部６２によって周波数軸の信号に変換される。このようにして取得された複数の音声信号に対する周波数軸の信号が、音声解析部６３に与えられると、音声解析部６３において、複数の音声信号それぞれについての周波数スペクトラムエンベロープが形成され、その形状が解析される。

（１）周波数帯域毎のビット配分量の設定
音声符号化方式決定部６４では、第１の実施形態のものと同様、マスキング曲線算出部６４１において、複数の音声信号それぞれについての周波数スペクトラムエンベロープと最小可聴限特性情報に基づいて、各音声信号に対するマスキング曲線が算出される。この各音声信号に対するマスキング曲線が差分値算出部６４２に与えられることによって、各周波数帯域における周波数スペクトラムエンベロープとマスキング曲線との差分比率が、各音声信号に対して算出される。

この複数の音声信号それぞれの周波数帯域毎による差分比率が、差分値算出部６４２から１次ビット配分決定部６４３に与えられることで、複数の音声信号それぞれに対して、周波数帯域毎に、差分比率に応じたビット配分量が設定される。その後、ビット配分補正部６４４において、対象物検出部５０で検出された対象物の大きさが十分に大きいことが確認されると、その対象物の発生する音声帯域のビット配分量が多くなるように、１次ビット配分決定部６４３で設定された各周波数帯域のビット配分量が補正される。

このように、本実施形態においても、第１の実施形態と同様、マスキング曲線算出部６４１、差分値算出部６４２、１次ビット配分決定部６４３、及び、ビット配分補正部６４４が、音声解析部６３及び対象物検出部５０それぞれからの情報に基づく演算を行うことで、ビット配分量が算出される。即ち、画像中の対象物の有無、大きさ、及び、数量に応じて、第１の実施形態と同様、対象物の発生する音声帯域のビット配分量を最適なものに設定することができる。

そして、このようにして複数の音声信号それぞれに対して得られた補正後のビット配分量が、圧縮処理部７での音声符号化方式のパラメータとして、圧縮処理部７に出力されることとなる。これにより、圧縮処理部７における音声信号に施す音声符号化方式を、撮影したシーンに応じたものとすることができる。尚、第１の実施形態と同様、レンズ部２に対して設定されたズーム倍率を示すズーム倍率情報が与えられ、このズーム倍率情報との組み合わせによって、最適なビット配分量に補正されるものとしても構わない。

（２）マトリクス処理の設定
又、本実施形態においても、第１の実施形態と同様、マトリクス処理の可否についても、圧縮処理部７での音声符号化方式を設定するパラメータの一つとして、マトリクス処理判定部６４５で設定される。但し、本実施形態においては、第１の実施形態と異なり、対象物検出部５０での対象物の検出結果だけでなく、移動量測定部５７で検出された移動量によっても、マトリクス処理の可否が設定される。

尚、第１の実施形態と同様、マトリクス処理判定部６４５には、複数の音声信号それぞれの周波数スペクトラムエンベロープの形状についての判定結果が、音声解析部６３より与えられ、その形状が類似しているか否かが確認される。このマトリクス処理判定部６４５におけるマトリクス処理の可否の判定動作について、以下に説明する。

まず、音声解析部６３の判定結果より、複数の音声信号における周波数スペクトラムエンベロープの形状が類似していることを確認した場合、第１の実施形態と異なり、対象物検出部５０での対象物の検出結果より、所定の大きさ以上となる対象物が存在するか否かが確認される。そして、所定の大きさ以上となる対象物が存在することが確認されると、更に、画像処理部５内の移動量測定部５７で検出された移動量が確認される。

このとき、移動量算出部５７２及び距離変化量算出部５７３それぞれからの検出された対象物の移動量のいずれかが所定値以上となる場合、ステレオ感を重視する符号化が求められるものと判断する。よって、マトリクス処理判定部６４５では、マトリクス処理を不適用とする判定が成される。一方、所定の大きさ以上となる対象物が確認されなかった場合や、移動量算出部５７２及び距離変化量算出部５７３それぞれからの検出された対象物の移動量がいずれも所定値未満となる場合においては、圧縮効率の高い符号化を行うことが求められるものと判断する。よって、マトリクス処理判定部６４５では、マトリクス処理を適用する判定が成される。

又、複数の音声信号における周波数スペクトラムエンベロープの形状が類似していないことを確認した場合、第１の実施形態と同様、まず、対象物検出部５０からの対象物の検出結果を確認する。このとき、対象物検出部５０の対象物の検出結果より、所定の大きさ以上となる対象物が画像中央に位置することが検出されたか否かが確認される。そして、第１の実施形態と同様、所定の大きさとなる対象物が検出されなかった場合や、対象物が画像中央に位置していない場合は、ステレオ効果が要求されるものとして、マトリクス処理を不適用とする判定が成される。

一方、検出された対象物の大きさが所定の大きさよりも大きく、且つ、対象物が画像の中央に位置する場合、本実施形態では、次に、画像処理部５内の移動量測定部５７で検出された移動量が確認される。このとき、移動量算出部５７２及び距離変化量算出部５７３それぞれからの検出された対象物の移動量のいずれかが所定値以上となる場合、ステレオ効果が要求されるものとして、マトリクス処理を不適用とする判定が成される。又、移動量算出部５７２及び距離変化量算出部５７３それぞれからの検出された対象物の移動量のいずれもが所定値未満となる場合、圧縮効率の高い符号化を行うため、マトリクス処理を適用する判定が成される。

このようにして、マトリクス処理判定部６４５において、マトリクス処理の可否が判定されると、その判定結果が圧縮処理部７内のマトリクス処理部７２及び選択部７３に出力される。このとき、第１の実施形態と比較して、更に、検出した対象物の移動量によっても、マトリクス処理の可否を判定することができる。そのため、ステレオ感を要求するための符号化を行うか、圧縮効率の高い符号化を行うかの判定について、第１の実施形態の場合と比べて、より撮影時の状況に応じたものとすることができる。

尚、本実施形態においても、第１の実施形態と同様、音声解析部６３において、複数の音声信号の周波数スペクトラムエンベロープの形状の類似／非類似が判定され、その判定結果を利用して、マトリクス処理の可否が決定されるものとしたが、音声解析部６３において、複数の音声信号の時間的な変化について類似／非類似の判定が成されるものとしても構わない。

（３）ブロック長の設定
更に、圧縮処理部７内の時間周波数変換部７１においてＭＤＣＴを施す際、各オーディオブロックに対して、（１）５１２点のＭＤＣＴを施す場合（以下、「長ブロックモード」とする。）と、（２）２５６点のＭＤＣＴを２回施す場合（以下、「短ブロックモード」とする。）と、がある。そして、この長ブロックモード及び短ブロックモードを設定するために、本実施形態では、第１の実施形態と異なり、ブロック長決定部６４６において、ＭＤＣＴを施すブロック長（「長ブロックモード」の場合は５１２点、「短ブロックモード」の場合は２５６点）を決定する。このブロック長決定部６４６におけるブロック長の決定動作について、以下に説明する。

ブロック長決定部６４６には、音声解析部６３での複数の音声信号それぞれの周波数スペクトラムエンベロープが入力されるとともに、画像処理部５内の移動量測定部５７で検出された移動量が入力される。まず、移動量算出部５７２及び距離変化量算出部５７３それぞれからの検出された対象物の移動量が確認される。このとき、移動量算出部５７２及び距離変化量算出部５７３それぞれからの検出された対象物の移動量のいずれかが所定値以上となる場合、画像中での対象物の移動量が大きいことから、音声の変動も大きいと判断される。よって、時間軸方向の解像度が高い短ブロックモードを適用することが最適と判定されるため、処理する音声信号全てに対して、ＭＤＣＴを施すブロック長を短ブロックモードに対するブロック長に設定する。

又、移動量算出部５７２及び距離変化量算出部５７３それぞれからの検出された対象物の移動量のいずれもが所定値未満となる場合、複数の音声信号毎に、その音声信号の周波数スペクトラムエンベロープによる時間的変化に基づいて、ブロック長が設定される。このとき、時間的変化が大きいと判断された音声信号については、時間軸方向の解像度が高い短ブロックモードを適用することが最適と判定されるため、ＭＤＣＴを施すブロック長を短ブロックモードに対するブロック長に設定する。一方、時間的変化が小さいと判断された音声信号については、周波数軸方向の解像度が高い長ブロックモードを適用することが最適と判定されるため、ＭＤＣＴを施すブロック長を長ブロックモードに対するブロック長に設定する。

このようにして、ブロック長決定部６４６において、音声信号の時間的変化だけでなく、画像上の対象物の移動量に基づいて、ＭＤＣＴを施すブロック長を最適なものに決定することができる。即ち、音声の時間的変化だけでは判断できない状況であっても、画像上における対象物の移動量を参照することで、時間的変化を確認することができる。そのため、音声の時間的変化だけにより判定する場合よりも、より最適なブロック長に設定することができる。

尚、本実施形態において、対象物の距離の移動量について、対象物の大きさの変化量によって決定するものとしたが、ＡＦ制御を行うことによって、被写体へのフォーカス位置が変化したことを確認することで、その距離情報により、対象物の距離の移動量が算出されるものとしても構わない。

（その他の構成例）
上述の第１及び第２の実施形態では、音声符号化処理部７０内にマトリクス処理部７２を設けて、マトリクス処理により圧縮符号化を施すものとしたが、マトリクス処理ではなく、カップリング処理によって圧縮符号化を施すものもある。即ち、図１２に示すように、圧縮部７において、マトリクス処理部７２及び選択部７３の代わりに、時間周波数変換部７１からの音声信号を周波数帯域毎に相関のある信号をまとめるカップリング処理を行うカップリング処理部７９を備える。尚、図１２に示す構成は、第２の実施形態における図１１に示す構成に基づくものである。

このカップリング処理部７９は、高周波帯域について、複数の音声信号の周波数スペクトラムエンベロープを比較し、その比較結果に基づいて、相関がある場合は、複数の音声信号同士をまとめて１つの信号とする。そして、相関が見受けられた高周波帯域に関して、複数の音声信号をまとめて１つとした音声信号を符号化するとともに、その他の周波数帯域に関して、複数の音声信号それぞれに対して符号化する。これにより、複数の音声信号間で、高周波帯域の類似部分を共有化して、音声符号化後の音声信号を圧縮することができる。

このとき、マトリクス処理部７２及び選択部７３への動作と同様、カップリング処理部７９でのカップリング処理の可否が、対象物検出部５０による対象物の検出結果や、移動量測定部５７による対象物の移動量などによって、設定される。そして、マトリクス処理の可否を判定するときと同様、対象物の有無、大きさ、及び位置や、対象物の移動量に基づいて、ステレオ感が要求される場合は、カップリング処理を不適用とし、それ以外の場合は、音声符号化による圧縮効率を高くするため、カップリング処理を適用する。

又、上述の各実施形態では、Dolby Digital方式による音声符号化方式を例に挙げて説明したが、音声符号化方式として、ＭＰＥＧオーディオ符号化方式におけるＡＡＣ方式を利用するものであっても構わない。このとき、インテンシティステレオ処理やＴＮＳ（Temporal Noise Shaping）処理の可否について、対象物検出部５０による対象物の検出結果や、移動量測定部５７による対象物の移動量などによって、設定されるものとしても構わない。

「インテンシティステレオ処理」は、上述したカップリング処理と同様、高周波帯域について、類似したデータ部分を共通データとしてまとめるとともに、そのまとめたときの倍率とによって符号化することで、高周波帯域のデータを圧縮する符号化処理である。又、「ＴＮＳ処理」は、ＭＤＣＴ変換された音声信号に対して線形予測を行い、ＭＤＣＴ係数を線形予測フィルタの係数とその残差信号（ＭＤＣＴ係数とその予測結果の差）とに変換する処理である。尚、この「インテンシティステレオ処理」及び「ＴＮＳ処理」それぞれについては、例えば、本出願人による出願である特開２００１−２８２２９０号公報に、その詳細を記載している。

これらの処理についても、上述の「マトリクス処理」及び「カップリング処理」と同様、対象物の有無、大きさ、及び位置や、対象物の移動量に基づいて、ステレオ感が要求される場合には不適用とし、それ以外の場合は、音声符号化による圧縮効率を高くするために適用するものとしても構わない。

更に、音声符号化方式が上述のいずれにもかかわらず、符号化する上限周波数及び下限周波数について、対象物の有無、大きさ、及び位置や、対象物の移動量に基づいて、変更されるものとしても構わない。このとき、対象物の大きさが大きい場合や、対象物が画面中央に位置する場合や、対象物が移動していない場合などにおいて、上限周波数及び下限周波数それぞれを、その対象物の発生する音声帯域よりもやや帯域が広くなる周波数帯域によって設定されるものとしても構わない。

又、第１及び第２の実施形態それぞれにおいて、圧縮処理部７での音声符号化方式に対するパラメータ設定の可否について、ユーザが操作部１５を操作することによって決定されるものとしても構わない。更に、第２の実施形態において、音声符号化方式に対するパラメータ設定の可否だけでなく、対象物検出部５０からの対象物の検出結果のみによる設定、移動量測定部５７からの移動量のみによる設定、対象物検出部５０及び移動量測定部５７それぞれからの対象物の検出結果及び移動量による設定のいずれかについてが、ユーザが操作部１５を操作することによって決定されるものとしても構わない。

本発明は、外部より取得された音声信号を符号化する音声符号化処理を行うとともに、外部より取得された画像信号とともに音声信号を記録する撮像装置などの音声記録装置に対して、適用することが可能である。又、このような音声記録装置として、例えば、デジタルスチルカメラや、デジタルビデオカメラなどにおいて、本発明を適用することができる。

は、本発明に係る音声記録装置となる撮像装置の内部構成を示すブロック図である。は、図１の撮像装置における動画撮影時の基本動作を説明するためのフローチャートである。は、第１の実施形態の撮像装置において音声符号化処理を行う各部の構成を示すブロック図である。は、縮小画像生成手段によって得られる階層画像の一例である。は、対象物の検出処理動作を説明するための図である。は、マスキング曲線の算出処理動作を説明するための図である。は、ビット配分量の設定処理動作を説明するための図である。は、特定の対象物（人物の顔）が大きく映った画像の例である。は、特定の対象物（人物の顔）が小さく映った画像の例である。は、特定の対象物（人物の顔）が画像中央位置以外に映った画像の例である。は、第２の実施形態の撮像装置において音声符号化処理を行う各部の構成を示すブロック図である。は、図１の撮像装置における音声符号化処理部の別の構成を示すブロック図である。

符号の説明

１固体撮像素子（イメージセンサ）
２レンズ部
３ＡＦＥ
４ステレオマイク
５画像処理部
６音声処理部
７圧縮処理部
８ドライバ部
９伸長処理部
１０画像出力回路部
１１画像出力端子
１２ディスプレイ部
１３音声出力回路部
１４音声出力端子
１５スピーカ部
１６タイミングジェネレータ（ＴＧ）
１７ＣＰＵ
１８メモリ
１９操作部
２０，２１バス回線
２２外部メモリ
５０対象物検出部
５２縮小画像生成部
５５対象物判定部
５６検出結果出力部
５７移動量測定部
６１ＡＤ変換部
６２時間周波数変換部
６３音声解析部
６４音声符号化方式決定部
７０音声符号化処理部
７１時間周波数変換部
７２マトリクス処理部
７３選択部
７４差分符号化部
７５量子化部
７６近似ビット配分設定部
７７減算部
７８多重化部
７９カップリング処理部
１５０入力画像
１５１〜１５５縮小画像
１６１判定領域
５７１メモリ
５７２移動量算出部
５７３距離変化量算出部
６４１マスキング曲線算出部
６４２差分値算出部
６４３１次ビット配分決定部
６４４ビット配分補正部
６４５マトリクス処理判定部
６４６ブロック長決定部

Claims

連続する複数フレームの画像より成る映像と共に取得される音声による音声信号を符号化する音声符号化部を備え、該音声符号化部で符号化された音声信号を記録する音声記録装置において、
取得した映像による画像信号をフレーム毎に解析して、各フレームの画像に関する解析情報を取得する画像処理部と、
取得した音声による音声信号を解析するとともに、当該音声信号の解析情報及び／又は前記画像処理部での前記画像信号の解析情報に基づいて、前記音声符号化部で音声符号化方式におけるパラメータを設定する音声処理部と、
を備えることを特徴とする音声記録装置。
前記音声処理部が、更に、映像及び音声取得時の操作情報に基づいて、前記音声符号化部での前記音声符号化方式におけるパラメータを設定することを特徴とする請求項１に記載の音声記録装置。
前記音声処理部において、前記音声符号化方式におけるパラメータを設定するために、前記画像信号の解析情報として、前記画像信号による画像における音声を発生する対象物の有無、該対象物の前記画像中での大きさ、又は、該対象物の前記画像中での位置が用いられることを特徴とする請求項１又は請求項２に記載の音声記録装置。
前記音声処理部において、前記画像信号の解析情報より、前記画像信号による画像内に前記対象物を確認したとき、該対象物の発生する音声帯域におけるビット配分量を多くするように、前記音声符号化方式におけるパラメータを設定することを特徴とする請求項３に記載の音声記録装置。
前記音声処理部において、前記画像信号の解析情報より、前記画像信号による画像内に前記対象物が所定の大きさ以上となることを確認したとき、該対象物の発生する音声帯域におけるビット配分量を多くするように、前記音声符号化方式におけるパラメータを設定することを特徴とする請求項３に記載の音声記録装置。
前記音声信号が、複数のマイクより成るステレオマイクから取得された複数の音声信号であり、
前記音声処理部において、前記画像信号の解析情報より、前記画像信号による画像内の中央に前記対象物が位置することを確認したとき、前記複数の音声信号間での演算処理を施して圧縮するように、前記音声符号化方式におけるパラメータを設定することを特徴とする請求項３〜請求項５のいずれかに記載の音声記録装置。
前記音声処理部において、前記音声符号化方式におけるパラメータを設定するために、前記画像信号の解析情報として、前記画像信号による画像における音声を発生する対象物による、フレーム間における移動量が用いられることを特徴とする請求項１〜請求項６のいずれかに記載の音声記録装置。
前記音声処理部において、前記画像信号の解析情報より、フレーム間における前記対象物の移動量が所定値より大きいことを確認したとき、前記音声信号を周波数軸の信号に変換する際の単位ブロック長を短くして符号化するように、前記音声符号化方式におけるパラメータを設定することを特徴とする請求項７に記載の音声記録装置。
前記音声信号が、複数のマイクより成るステレオマイクから取得された複数の音声信号であり、
前記音声処理部において、前記画像信号の解析情報より、フレーム間における前記対象物の移動量が所定値より大きいことを確認したとき、前記複数の音声信号を独立して符号化するように、前記音声符号化方式におけるパラメータを設定することを特徴とする請求項７又は請求項８に記載の音声記録装置。