以下に、添付図面を参照して本発明を実施するための形態について詳細に説明する。尚、以下に説明する実施の形態は、本発明を実現するための一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。
[実施形態1]以下、図1乃至図7を参照して、本発明の音声処理装置を撮像装置としてのデジタルビデオカメラに適用した実施形態1について説明する。
<装置構成>先ず、図1を参照して、撮像装置の構成について説明する。図1において、撮像部101は、撮影レンズを介して結像された被写体の光学像をCCDセンサやCMOSセンサ等の撮像素子により光電変換してアナログ画像信号を生成し、生成されたアナログ画像信号をデジタル信号に変換して画像処理部102に送出する。画像処理部102は、入力されたデジタル画像信号に、設定値に応じたホワイトバランスや色、明るさ等を調整する画質調整処理を施し、メモリ103、後述する映像出力部110、表示制御部111及び制御部114に送出する。
また、音声入力部104は、内蔵されたマイクまたは音声入力端子を介して接続された外部マイク等により、装置周囲の音声を集音(収音)したアナログ音声信号をデジタル信号に変換して音声処理部105に送出する。音声処理部105は、入力されたデジタル音声信号のレベルの適正化処理、特定周波数の低減処理等の音声に関する処理を行いメモリ103や後述の音声出力部109に送出する。また、撮像装置100は、ワイヤレスマイクから送出されたデジタル音声信号を後述の通信部116で受信している。そして、音声処理部105は、後述する「通信部116から入力されたデジタル音声信号のレベル調整処理」を行い、メモリ103や後述の音声出力部109に送出する。また、音声処理部105は、音声入力部104から入力されたデジタル音声信号と、通信部116から入力されたデジタル音声信号とを合成する合成処理を行う。メモリ103は、画像処理部102や音声処理部105により処理された画像信号や音声信号を一時的に記憶する。
符号化処理部106は、メモリ103に一時的に記憶された画像信号や音声信号を読み出して画像信号や音声信号の符号化を行い、圧縮画像データや圧縮音声データ等を生成し、記録再生部107に送出する。記録再生部107は、記録媒体108に対して、符号化処理部106で生成された圧縮画像データや圧縮音声データその他撮影に関する制御データ等を記録する。ここで、記録媒体108は、圧縮画像データや圧縮音声データ等を記録可能であれば、磁気ディスク、光学式ディスク、半導体メモリ等のあらゆる方式の記録媒体であってよく、複数の記録媒体であってもよい。
また、記録再生部107は、記録媒体108に記録された圧縮画像データ、圧縮音声データ、各種データ、プログラムを読み出し(再生し)、読み出した圧縮画像データや圧縮音声データを符号化処理部106に送出する。符号化処理部106は、圧縮画像データや圧縮音声データを一時的にメモリ103に記憶させ、所定の手順で復号し、復号化した音声信号を音声出力部109へ、復号化した画像信号を映像出力部110や表示制御部111に送出する。
音声出力部109は、例えば音声出力端子からなり、撮像装置100に接続されたイヤホンやスピーカ等から音声を出力するために音声信号を送出する。また、音声出力部109は、撮像装置100に内蔵され、音声信号に応じた音声を出力するスピーカであっても良い。映像出力部110は、例えば映像出力端子からなり、撮像装置100に接続された外部ディスプレイ等に映像を表示させるために画像信号を送出する。また、音声出力部109及び映像出力部110は、統合された1つの端子、例えばHDMI(High−Definition Multimedia Interface;登録商標)のような端子であっても良い。また、表示制御部111は、符号化処理部106から送出された画像信号や画像処理部102から送出された画像信号に応じた映像や、撮像装置100を操作するための操作画面(メニュー画面)等を表示部112に表示させる。表示部112は、例えば、液晶ディスプレイ、有機ELディスプレイ、電子ペーパー等の表示デバイスであれば何であっても良い。
また、操作部113は、例えば、ボタンやダイヤル等であり、ユーザの操作に応じた指示信号を制御部114に送出する。制御部114は、操作部113から送出された指示信号に基づいて、撮像装置100の各ブロックに制御信号を送出することで、各ブロックを制御する。操作部113は、例えば、電源ボタン、記録開始ボタン、メニュー表示ボタン、決定ボタン、カーソルキー、表示部112の任意の点を指定するためのポインティングデバイス、タッチパネル等である。また、制御部114は、各種の処理(プログラム)を実行するための、例えば、CPU(MPU)、メモリ(DRAM、SRAM)等からなる。
バス115は、各種データや制御信号等を撮像装置100の各ブロックに送出するためのものである。
通信部116は、外部装置との間で通信を行うもので、例えば、音声信号、画像信号、圧縮音声データ、圧縮画像データ等を送受信する。また、撮影開始や終了コマンド等の、撮影動作のための制御信号その他の情報を送受信する。通信部116は、例えば、赤外線通信モジュール、Bluetooth(登録商標)通信モジュール、無線LAN通信モジュール、WirelessUSB等の無線通信モジュールである。
撮像部101は、図2にも示すように、光学系221、撮像素子222、A/Dコンバータ223、光学系221の各要素を駆動する光学系駆動部224、制御部114から駆動信号を受けて光学系駆動部224に駆動指令を出力する駆動制御部225を有する。光学系221は、少なくともフォーカスレンズ、防振レンズ、絞りを含む。
ここで、本実施形態の撮像装置の動作について説明する。本実施形態の撮像装置100は、ユーザが操作部113の電源ボタンを操作すると、操作部113から制御部114に起動の指示信号が送出される。この起動指示を受けて、制御部114は、不図示の電源供給部を制御して、撮像装置100の各ブロックに対して電源を供給させる。
電源が供給されると、制御部114は、例えば、操作部113のモード切り換えスイッチにより設定されたモード(撮影モードや再生モード等)を、操作部113からの指示信号により確認する。
<撮影モード>撮影モードでは、撮像装置100は撮影待機状態でユーザが操作部113の記録開始ボタンを操作することで、撮影を開始し、その間、圧縮画像データと圧縮音声データが、記録媒体108に記録される。そしてユーザが操作部113の撮影終了ボタンを操作することで、撮影を終了し、再び撮影待機状態になる。再生モードでは、ユーザが選択したファイルに関する圧縮画像データと圧縮音声データを記録媒体108から再生して音声出力部109から音声信号を出力し、表示部112に映像を表示させる。
まず、撮影モードについて説明する。撮影モードが設定されると前述のようにまず、撮影待機状態に設定される。撮影待機状態で、ユーザが操作部113の記録開始ボタンを操作することにより撮影開始の指示信号が送出されると、制御部114は、撮影開始の制御信号を撮像装置100の各ブロックに送出し、以下のような動作を行うように制御する。
撮像部101は、撮影レンズを介して結像された被写体の光学像を撮像素子222により光電変換してアナログ信号に生成し、生成したアナログ画像信号をデジタル画像信号に変換して画像処理部102に送出する。画像処理部102は、入力されたデジタル画像信号の画質調整処理(ホワイトバランスや色、明るさ等)を設定値に応じて処理し、表示制御部111に送出する。表示制御部111は、受信した画像信号に関する映像を表示部112に表示させる。また、画像信号はメモリ103にも出力され、メモリ103に一時的に記憶される。
音声入力部104は、マイクにより集音されたアナログ音声信号をデジタル音声信号に変換し、得られたデジタル音声信号を音声処理部105に送出する。音声処理部105は、入力されたデジタル音声信号のレベルの適正化処理、特定周波数の低減処理等を行って音声信号を生成し、音声出力部109に送出する。また、音声信号はメモリ103に一時的に記憶される。このとき、撮像装置100では、レンズ等の駆動に伴う雑音を低減する雑音低減処理を実行する。
そして、符号化処理部106は、メモリ103に一時的に記憶された画像信号や音声信号を読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。そして、制御部114は、これらの圧縮画像データ、圧縮音声データを合成し、データストリームを生成し、記録再生部107に出力する。記録再生部107は、UDF、FAT等のファイルシステム管理のもとに、データストリームを1つの動画ファイルとして記録媒体108に書き込んでいく。
以上の動作を撮影中は継続する。そして、ユーザが操作部113の記録ボタンを操作することにより撮影終了の指示信号が制御部114に送出されると、制御部114は、撮影終了の制御信号を撮像装置100の各ブロックに送出し、以下のような動作を行うように制御する。
画像処理部102及び音声処理部105は、それぞれ画像信号、音声信号をメモリ103に送出するの停止する。そして、符号化処理部106は、メモリ103に記憶されている残りの画像信号と音声信号とを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成し、それが終わると動作を停止する。
制御部114は、これらの最後の圧縮画像データ、圧縮音声データを合成し、データストリームを生成し、記録再生部107に出力する。
記録再生部107は、UDF、FAT等のファイルシステム管理のもとに、データストリームを1つの動画ファイルとして記録媒体108に書き込んでいく。そして、データストリームの供給が停止したら、動画ファイルを完成させて、記録動作を停止させる。
制御部114は、記録動作が停止すると、撮影待機状態に移行させるように制御信号を撮像装置100の各ブロックに送出して、撮影待機状態に戻る。
また、撮影待機状態では、制御部114は、撮像装置100の各ブロックに以下のような動作を行うように制御する。
画像処理部102は、画像信号を表示制御部111に送出し、表示部112に画像信号に応じた映像を表示させる。ユーザは、表示部112に映像が表示された画面を見ながら撮影の準備を行う。
音声処理部105は、音声信号を音声出力部109に送出する。また、ワイヤレスマイク150から送出されたデジタル音声信号を受信していれば、「通信部116から入力されたデジタル音声信号のレベル調整処理」等を行って音声出力部109に送出する。また、音声処理部105は、音声入力部104により得られた音声信号と通信部116から入力された音声信号とを合成してもよい。
そして、得られた音声信号を音声出力部109に送出し、内蔵スピーカや接続されたスピーカまたはイヤホンから音声として出力させる。ユーザは、スピーカやイヤホンから出力される音声を聞きながら操作部113の音量を決定するためのマニュアルボリュームの調整をすることもできる。
<再生モード>再生モードでは、制御部114は、再生状態に移行させるように制御信号を撮像装置100の各ブロックに送出し、以下の動作を行うように制御する。
記録媒体108に記録された圧縮画像データと圧縮音声データとからなる動画ファイルを記録再生部107が読み出して、読み出された圧縮画像データ、圧縮音声データを符号化処理部106に送出する。符号化処理部106は、圧縮画像データ、圧縮音声データをメモリ103に一時的に記憶させ、所定の手順で復号し、復号化した音声信号を音声出力部109へ、復号化した画像信号を映像出力部110や表示制御部111に送出する。表示制御部111は、入力された画像信号に応じた映像を表示部112に表示させ、音声出力部109は、入力された音声信号に応じた音声を内蔵されたスピーカや、接続されたイヤホンやスピーカから出力する。
以上のように、本実施形態の撮像装置は、画像や音声の記録再生を行う。
<風雑音低減方法>ここで、本実施形態の音声入力部104及び音声処理部105による雑音低減処理のうち、風雑音の低減方法について説明する。
図2は、図1の撮像部101、音声入力部104、音声処理部105の詳細な構成を示すブロック図である。装置本体の外装面206にはマイク孔205a,bが設けられ、マイク孔205a,bの背面にはマイク支持部材202a,bでそれぞれフローティング支持された第1のマイク201aと第2のマイク201bが配設されている。また、外装面206にはマイク孔205bを覆う位置に弾性体であるフィルム203が接着されている。フィルム203は薄膜状で通気性を持たない樹脂製材料で形成されており、1次の共振周波数が500Hz以上であることが望ましい。これは風雑音が500Hz以下で発生することに起因したもので、詳細は後述する。本実施形態では弾性体にポリイミドフィルムを用い、1次の共振周波数が約1.5kHzである形状に加工したものを使用している。
フィルム203は、マイク孔205bを密閉し、マイク201bへの空気の移動を調整する弾性体で構成されていて、フィルム203によりマイク孔205bは密閉され、風による空気の移動が遮断される。マイク孔205bを密閉し、マイク201bへの空気の移動を調整する弾性体で構成されるフィルム203を調整機構と定義する。
第1のマイク201aは高域通過フィルタ処理を行うハイパスフィルタ(HPF)213に繋がれており、第2のマイク201bは低域通過フィルタ処理を行うローパスフィルタ(LPF)214に繋がれている。HPF213及びLPF214のカットオフ周波数は共に1kHzに設定されている。HPF213とLPF214の出力は合成部211において加算される。
次に、図3を参照して、第1及び第2のマイク201a,201bの集音特性について説明する。図3は第1及び第2のマイク201a,201bの取得音声信号の周波数特性を模式的に表したものであり、それぞれ横軸に周波数〔Hz〕を縦軸にゲイン〔dB〕をとる。第1のマイク201aの被写体音集音時の周波数特性は図3(a)で示すように可聴帯域においてほぼフラットな特性になる。一方、図3(b)はフィルム203によってマイク孔205bが密閉されている第2のマイク201bの被写体音集音時の周波数特性を示している。低周波帯域では第1のマイク201aと比較するとG1[dB]からG2[dB]と少しGainが下がりつつもフラットな特性だが、フィルム203の1次の共振周波数fs1を境に高周波帯域では著しく特性が落ちる。これは、弾性体であるフィルム203が被写体音による高周波帯域の空気の振動を吸収してしまうためである。
図3(c)は第1のマイク201aに対して所定のレベルの風に起因するの風雑音に対する周波数特性を示しており、風雑音が約500Hz以下の低周波帯域で発生していることを示している。図3(d)は第2のマイク201bに対して所定のレベルの風に起因するの風雑音に対する周波数特性を示しており、図3(c)に比べると風雑音が大きく減衰されていることを示している。これは、フィルム203によりマイク孔205bが密閉されているため、風による空気の移動がマイク孔205bから第2のマイク201bまでの空間に伝わらず、第2のマイク201b前方で乱流等の風雑音の原因となる気流の乱れが発生しにくいためである。
そこで、風雑音が発生していない場合は、第1のマイク201aの音声信号をそのまま目的音声として取得する。一方、風雑音が発生している場合は、第1のマイク201aの音声信号をHPF213に通過させた信号と、第2のマイク201bの音声信号をLPF214に通過させた信号とを合成する。第1のマイク201aの音声信号はHPF213において1kHz以下の音声信号が減衰処理され、約500Hz以下の風雑音を含む低周波成分が大幅に低減される。一方、第2のマイク201bの音声信号はLPF214において1kHz以上の音声信号が減衰処理されて合成される。これにより、風雑音を大幅に低減することができる。
HPF213及びLPF214のカットオフ周波数を同じ値、かつ風雑音が含まれる500Hzから弾性体の1次の共振周波数の範囲に設定することで、合成された音声信号は風雑音を低減しつつも被写体音に対してほぼフラットな周波数特性になっている。例えば、カットオフ周波数を弾性体の1次の共振周波数よりも低い値に設定した場合、LPF214に入力される音声信号はすでに低い弾性体の1次の共振周波数以上で減衰してしまっている。そして、合成された音声信号はカットオフ周波数から弾性体の1次の共振周波数の間の帯域でゲインが落ちてしまう。よって、カットオフ周波数は弾性体の1次の共振周波数よりも大きい値に設定することが望ましい。
また、カットオフ周波数が500Hz以下に設定した場合、風雑音は500Hz以下に多く含まれ、HPF213にて第1のマイク201aの音声信号から十分に風雑音が低減できないまま合成されるので、カットオフ周波数は500Hz以上が望ましい。
次に、スペクトルサブトラクション法(以下、SS法)による駆動雑音低減処理について説明する。
図4は音声信号を周波数領域に変換したスペクトルを模式的に示すものであり、横軸に周波数、縦軸に各周波数での出力レベルを表している。図4(a)の301は被写体音に駆動雑音が混入した音声信号のスペクトルであり、301は混入した駆動雑音の駆動雑音スペクトルを示している。図4(b)の302は予め取得している駆動雑音スペクトルであり図4(a)の302と同様である。図4(c)の303は駆動雑音の含まれない被写体音のみの音声信号のスペクトルを表している。駆動雑音が混入した音声信号のスペクトル301は駆動雑音スペクトル302と被写体の音声信号スペクトル303が加算されたものに相当する。つまり、取得した音声信号スペクトル301から、駆動雑音スペクトル302を減算すると被写体音声信号スペクトル303となる。このように、レンズ駆動に伴う駆動雑音が発生した場合、予め取得しておいた駆動雑音スペクトルを取得した音声信号のスペクトルから減算することで駆動雑音を低減することができる。そして、駆動雑音スペクトルを減算後の音声信号のスペクトルを時間領域に再変換することで、SS法による駆動雑音低減処理が完了する。
次に、図2を参照して、音声処理について説明する。図2において、第1のマイク201aはHPF213と出力選択部212及び風雑音検出部217に繋がれており、同様に第2のマイク201bはLPF214と出力選択部212及び風雑音検出部217に繋がれている。
風雑音検出部217では第1及び第2のマイク201a,201bの音声信号を比較することで、風雑音の発生を検出する。風雑音検出部217では、次のようにして風雑音の発生を検出する。風雑音が発生していない時は、第1及び第2のマイク201a,201bの約1kHz以下の低周波帯域の音声信号の音圧レベルの比率は常にほぼ一定である。しかし、風雑音が発生している時は、第1のマイク201aの低周波帯域の音声信号は風雑音により音圧レベルは大きく変化する。一方、第2のマイク201bはマイク孔205bがフィルム203により密閉されているので、風雑音の影響による音圧レベルの変化はほとんど発生しない。よって、第1及び第2のマイク201a,201bの低周波帯域の音圧レベルの比率は激しく変動し、風雑音が発生していない時と比較して異なる値をとる。そこで、第1及び第2のマイク201a,201bの低周波帯域の音圧レベルの比率が音圧レベル閾値を越えた場合は風雑音が発生していると判断する。そして、風雑音検出部217の結果が出力選択部212と駆動雑音スペクトル算出部216に送出される。
次に、出力選択部212では風雑音検出部217により風雑音が発生していないと判断されると第1のマイク201aの音声信号を選択して駆動雑音処理部215に出力する。一方、風雑音検出部217で風雑音が発生していると判断された場合は、風雑音低減処理された合成部211からの音声信号を選択して出力する。
次に、駆動雑音処理について説明する。駆動雑音処理部215では、制御部114が駆動信号を駆動制御部225に出力すると同時に、雑音低減処理信号を受信する。制御部114から駆動信号が送出されていない時は、雑音低減処理信号も出力されないので駆動雑音が混入していないと判断して、出力選択部212からの音声信号をそのまま音声出力として音声処理部105から出力させる。一方、制御部114から駆動信号が送出された時は、駆動雑音処理部215は音声信号に駆動雑音が混入したと判断し、駆動雑音スペクトル算出部216での算出結果を用いたSS法により駆動雑音低減処理を行う。
次に、駆動雑音スペクトル算出処理について説明する。2種類のマイクを有する場合、光学系駆動部224から各マイクに混入する駆動雑音スペクトルはマイクの配置や周囲の構造によって異なるため、本来はスペクトルそれぞれのマイクの駆動雑音スペクトルのデータを予め取得しておく必要がある。しかし、2種類のマイクの駆動雑音スペクトルのデータを有することは、メモリ容量を圧迫する。特に、雑音低減処理性能を上げるために、周波数領域変換時の分割数を上げるとデータの増加は顕著となる。そこで、本実施形態では駆動雑音スペクトル算出部216において、以下のように駆動雑音スペクトルのデータを算出し記憶する。
図5(a)の304は第1のマイク201aに混入する第1の駆動雑音スペクトルである。また、305はマイク孔205bを密閉された第2のマイク201bに混入する第2の駆動雑音スペクトルである。第1の駆動雑音スペクトル304のみ、予め測定されて撮像装置100の記録媒体108に記録されている。第1及び第2のマイク201a,201bの配置及び周囲の構造はマイク孔205bがフィルム203により密閉されていること以外はほぼ同一である。よって、図3(a)、(b)で述べたように、第2の駆動雑音スペクトル305はフィルム203の共振周波数f1以下の帯域では第1の駆動雑音スペクトル304から全体的に数dB下がった値となる。一方、共振周波数f1以上の帯域では著しくスペクトルの値が下がる。そこで、風雑音検出部217において風雑音が発生していると判断した場合は、駆動雑音スペクトル算出部216で、図5(b)の306に示す駆動雑音スペクトルを算出し、駆動雑音処理部215に送出する。
駆動雑音スペクトル306はHPF213及びLPF214のカットオフ周波数1kHz以上では、第1の駆動雑音スペクトル304をそのまま用いる。一方、カットオフ周波数1kHz以下では、第1の駆動雑音スペクトル304に所定のスペクトル算出係数αを乗じて算出する。例えば共振周波数f1以下の帯域で第2の駆動雑音スペクトル305が第1の駆動雑音スペクトル304よりも(G1−G2)[dB]下がっていたとすれば、スペクトル算出係数αは式1で表される。
(G1−G2)=20log10α
スペクトル算出係数αは、予め周囲音が無音に近い時に、実際に光学系駆動部224を駆動させて、第1及び第2のマイク201a,201bで取得される駆動雑音信号から算出されている。
風雑音検出部217において風雑音が発生しないと判断された場合は、出力選択部212で選択された出力は第1のマイク201aのそのままの音声信号のため、第1の駆動雑音スペクトル304を駆動雑音処理部215に送出する。
駆動雑音処理部215では、駆動雑音スペクトル算出部216からの駆動雑音スペクトルのデータを用いてSS法により駆動雑音の低減処理を行う。駆動雑音処理部215において、駆動雑音低減処理後、再度時間領域変換された信号が音声出力として音声処理部105から出力される。
このように、風雑音低減のためのマイク孔205bをフィルム203で密閉された第2のマイク201bのカットオフ周波数以下の駆動雑音スペクトルを第1の駆動雑音スペクトル304に所定のスペクトル算出係数αを乗じて算出する。
そして、風雑音低減処理後、SS法により駆動雑音低減処理を行う際には、次のように駆動雑音スペクトルを算出する。まず、第1の駆動雑音スペクトル304をカットオフ周波数以下の帯域では第1の駆動雑音スペクトル304にスペクトル算出係数αを乗じて算出した結果を用いる。そして、カットオフ周波数以上の帯域では第1の駆動雑音スペクトル304をそのまま用いる。また、風雑音が発生していないときは第1の駆動雑音スペクトル304をそのまま用いる。これにより、風雑音低減処理を行うために、2種類のマイクを有する場合においても、2つのマイクの駆動雑音スペクトルのデータを保持するのではなく、1つのマイクの駆動雑音スペクトルとスペクトル算出係数αを保持するだけで済む。その結果、データ量の増加による記憶容量の圧迫を抑えつつも高品質な駆動雑音低減処理を行うことができる。
本実施形態では、風雑音検出部217での検出結果により出力選択部212で選択された風雑音低減処理後の音声信号に対して、駆動雑音処理部215で駆動雑音低減処理を行ったが、次のようにしても良い。
図6は駆動雑音処理を風雑音低減処理より前に行う場合の音声処理部のブロック図である。この場合は、駆動雑音スペクトル算出部216は第1及び第2の駆動雑音処理部215a,bのそれぞれに駆動雑音スペクトルのデータを送出する。駆動雑音処理部215aに送出される駆動雑音スペクトルのデータは第1のマイク201aの第1の駆動雑音スペクトル304そのものである。そして、第2の駆動雑音処理部215bに送出される駆動雑音スペクトルのデータは図7の307のように第1の駆動雑音スペクトル304の全帯域にスペクトル算出係数αを乗じて算出される。算出された駆動雑音スペクトル307は図5(a)で示した第2のマイク201bの第2の駆動雑音スペクトル305に対して、カットオフ周波数以上の帯域で正確ではない。しかし、第2の駆動雑音処理部215bで処理後の音声信号はLPF214によって、カットオフ周波数以上の帯域が減衰されるので、全帯域にスペクトル算出係数αを乗じても良い。
また、駆動雑音処理部215は制御部114から駆動信号が送出されていないと判断した場合は、入力された音声信号をそのまま出力していたが、常に入力された音声信号に対してSS法による処理を行っても良い。駆動雑音処理部215では入力された音声信号を常に周波数領域に変換し音声信号スペクトルを得る。そして、駆動雑音スペクトル算出部216で算出された駆動雑音スペクトルを周波数領域に変換した音声信号スペクトルから減算する。その後、減算されたスペクトルを時間領域に変換し音声信号を出力する。駆動雑音スペクトル算出部216は、駆動制御部225から駆動指令が送出されて駆動雑音が混入していると判断すると、スペクトル算出係数αを用いて図5(b)の雑音スペクトル306を算出し、算出したスペクトルデータを駆動雑音処理部215に送出する。一方、駆動制御部225から駆動指令が送出されていない場合は、駆動雑音スペクトルのデータをゼロとして駆動雑音処理部215に送出する。駆動雑音スペクトルのデータがゼロとは駆動雑音スペクトルを式2のように、W(f)で表すとき、w1,w2,w3,…,wnの値が全て0であることを示す。
W(f)=(w1,w2,w3,…,wn)
なお、式2のwnは周波数領域に変換した際の各周波数帯域でのスペクトルの値である。駆動雑音スペクトルとしてゼロを受けて駆動雑音処理部215では減算が行われ、再度時間領域への変換が行われる。つまり、出力選択部212からの音声信号がSS処理をされても変化することなく、駆動雑音処理部215から出力されることとなる。
また、本実施形態では風雑音検出部217で第1及び第2のマイク201a,201bの音声信号を比較することで風雑音を検出し、検出結果を出力選択部212と駆動雑音処理部215に送出していたが、ユーザが撮影時に風雑音発生の有無を指示しても良い。ユーザは屋外撮影において、風雑音の混入しそうな風が発生していると判断すると、表示部112を見ながら不図示の操作ボタンを操作する。
本実施形態では録音機能を有する撮影装置について説明したが、駆動雑音を発生する駆動部を持つものであれば、他の装置として、例えば、磁気ディスク記憶装置を持ち、マイクにより音声を取得するボイスレコーダ等にも本発明は適用可能である。
[実施形態2]次に、図2及び図8を参照して、実施形態2の音声処理について説明する。実施形態1では、光学系駆動部224による駆動雑音を低減するために、スペクトル算出係数αを用いて駆動雑音スペクトルを算出していた。これに対して、実施形態2は、光学系駆動部224が複数の駆動部(フォーカスレンズ駆動部、防振レンズ駆動部、絞り駆動部等)を搭載している場合である。この場合、駆動部の種類、駆動部から第1及び第2のマイク201a,201bまでの距離や構造により、駆動部ごとに駆動雑音スペクトルは異なる。また、カットオフ周波数以下の帯域での第1のマイク201aに対する第2のマイク201bの駆動雑音スペクトルのゲイン低下量は、第1及び第2のマイク201a,201bまでの距離や構造により駆動部ごとに若干の違いが出る。
これは、駆動雑音が空気を伝播して第1及び第2のマイク201a,201bに伝達する以外に、駆動部の駆動に伴う振動が撮像部101や装置本体(カメラボディ)を伝播し各マイク201a,201bに到達し、この振動音を集音してしまうからである。
第1のマイク201aの駆動雑音スペクトルから第2のマイク201bの駆動雑音スペクトルを算出する際に、各駆動部について同じスペクトル算出係数αを用いると、第2のマイク201bの低周波帯域の駆動雑音スペクトルを正確に算出できない場合がある。また、駆動部ごとに第1及び第2のマイク201a,201bの駆動雑音スペクトルのデータを保持するということは記憶すべきデータ量の増加を招く。そこで、実施形態2では駆動部ごとにスペクトル算出係数を持たせることで、記憶すべきデータ量を抑えつつも各駆動部ごとに適切な雑音低減処理を行うようにしている。
実施形態2の撮像装置の構成は実施形態1と同様であるため説明を省略する。
以下、実施形態2の音声処理について図2を参照して説明するが、出力選択部212までの動作は実施形態1と同じであるため説明を省略する。駆動制御部225から光学系駆動部224に駆動指令が送出されると、駆動雑音スペクトル算出部216にも光学系駆動部224への駆動指令が送出される。
駆動雑音スペクトル算出部216では、フォーカスレンズ駆動時はα_a、絞り駆動時はα_b、防振レンズ駆動時はα_c、というように駆動部ごとにスペクトル算出係数を有している。そして、駆動指令が送出された駆動部の種類に合わせてスペクトル算出係数を選択し、選択した係数を用いて駆動雑音スペクトルを算出する。
例えば、駆動制御部225からフォーカスレンズ駆動部に駆動指令が送出されたとする。駆動雑音スペクトル算出部216では、駆動制御部225から駆動指令が送出された駆動部の種類と風雑音検出部217での検出結果を受けて、駆動雑音スペクトルを算出する。
図8(a)はフォーカスレンズ駆動部の駆動雑音スペクトルを示している。図中、304aは第1のマイク201aの駆動雑音スペクトル、308aは第2のマイク201bの算出された駆動雑音スペクトルをそれぞれ示している。駆動雑音スペクトル308aは、第1のマイク201aの駆動雑音スペクトル304aのカットオフ周波数以下の帯域にスペクトル算出係数α_aを乗じて算出される。
図8(b)は絞り駆動部、図8(c)は防振レンズ駆動部の駆動雑音スペクトルをそれぞれ示している。図中、304b、304cは第1及び第2のマイク201a,201bの駆動雑音スペクトル、308b、308cは308aと同様に、駆動雑音スペクトル304b,304cにスペクトル算出係数α_b、又はα_cを乗じて算出される。
駆動雑音スペクトル算出部216では、風雑音検出部217より風雑音が発生していると判断されると、駆動雑音処理部215へ算出した駆動雑音スペクトル308aを出力する。一方、風雑音が発生していないと判断された場合は第1のマイク201aの駆動雑音スペクトル304aをそのまま出力する。そして、駆動雑音処理部215では出力選択部212からの音声信号に対して、駆動雑音スペクトル算出部216で算出された駆動雑音スペクトルを用いてSS法により駆動雑音低減処理を行う。そして、雑音低減処理が行われた音声信号が記録される。なお、駆動雑音スペクトル304a〜304cとスペクトル算出係数α_a〜cは、予め測定されて撮像装置の記録媒体に記録されている。スペクトル算出係数α_a、α_b、α_cの各値は実験により求められる。
実施形態2では駆動部ごとにスペクトル算出係数を持たせ、駆動制御部225から光学系駆動部224に送出された駆動指令に合わせてスペクトル算出係数を選択し、駆動雑音処理部215でSS法に用いる駆動雑音スペクトルを算出している。つまり、駆動部ごとに第1及び第2のマイク201a,201bそれぞれの駆動雑音スペクトルを持つことなく、駆動部ごとの第1のマイク201aの駆動雑音スペクトルと駆動部ごとのスペクトル算出係数を保持するだけで良い。その結果、撮像装置が複数の駆動部を搭載する場合であっても、記憶すべきデータ量を抑えつつも駆動部ごとに適切な雑音低減処理を行うことができる。
なお、本実施形態では、マイクとして、通常のマイクと、通常のマイクに対してフィルムを付したものを使用したが、この組み合わせに限られるものではない。特に特性の異なるマイクとしては、フィルムを付したマイクでなくとも、骨伝導マイク等の、風の影響を受けにくいマイクであればどのようなマイクであっても良い。
また、本実施形態では、音声処理装置を撮像装置に適用した例を説明したが、音声と共に静止画や動画を記録できる装置であれば、例えば、携帯電話やノートパソコン等、他の如何なる装置であっても良い。
本実施形態では、音声信号の雑音低減処理について、音声処理部105で実行するように記載したが、この処理を制御部114で実行しても良い。
本実施形態では、音声を記録する際に圧縮して記録する例について説明したが、音声圧縮せずに記録するものであっても良い。
[他の実施形態]本発明は、以下の処理を実行することによっても実現される。即ち、上記実施形態の機能を実現するソフトウェア(プログラム)をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムコードを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。