JP5529638B2

JP5529638B2 - 音声処理装置及び音声処理方法、撮像装置

Info

Publication number: JP5529638B2
Application number: JP2010137678A
Authority: JP
Inventors: 文裕梶村; 正史木村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-06-16
Filing date: 2010-06-16
Publication date: 2014-06-25
Anticipated expiration: 2030-06-16
Also published as: JP2012003021A

Description

本発明は、音声処理技術に関する。

従来より、被写体等の音声記録時に混入した雑音を取り除くための音声処理技術が数多く提案されている。上記音声記録時に混入する雑音の１つとして、風による雑音（以下、風雑音）が挙げられる。これは、マイクロホンの振動板が風による空気の変動を音声信号として取得してしまう現象であり、１ｋＨｚ以下の低周波数帯域において顕著に見られる。この風雑音を抑制する技術の１つとして、例えば、特許文献１では、風雑音の影響を受けやすい指向性マイクと、指向性マイクよりも風雑音の影響を受けにくい無指向性マイクとを用いて風雑音の発生を判断し抑制する技術が提案されている。特許文献１によれば、風雑音が発生していると判断すると、指向性マイクで取得される中高周波成分の音声信号と、無指向性マイクで取得される低周波成分の音声信号とを合成することで風雑音の抑制を行っている。

一方、音声記録時に混入する他の雑音としてビデオカメラ等の音声記録装置の機械的な駆動音（以下、駆動雑音）が挙げられる。例えば、ビデオカメラ等による音声記録を伴う動画撮影中にズームやフォーカス等のレンズ駆動を行った場合、レンズ駆動に伴うモータ音や駆動機構の摺動音等が駆動雑音として音声信号に混入する。この駆動雑音を低減する技術の１つとして、例えば、特許文献２では、スペクトルサブトラクション（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ；ＳＳ）法と呼ばれる手法を用いて音声信号に混入する駆動雑音の低減を行っている。ＳＳ法とは、雑音の混入した音声信号データを周波数領域に変換し、予め用意した雑音のスペクトルを減算する雑音低減処理である。

特開平０１−０３９１９５号公報特開２００６−２７９１８５号公報特開２００７−１１６５８５号公報

しかしながら、上記特許文献１のように特性の異なる複数のマイクを用いて風雑音を抑制し、且つ上記特許文献２のようにＳＳ法により駆動雑音を低減する場合、次のような問題がある。

各マイクに混入する駆動雑音の雑音スペクトルはマイクの配置やマイクの周囲の構造によって異なるため、２つのマイクで取得されるそれぞれの音声信号に対し、同じ雑音スペクトルを用いて駆動雑音の減算を行った場合、雑音低減性能が低下する。例えば、指向性マイクと無指向性マイクではマイクの構造が異なるため、混入する駆動雑音のスペクトルは大きく異なっている。また特許文献３は、指向性の異なる複数のマイクを有し、マイクごとに設定された雑音スペクトルを用いてＳＳ法により駆動雑音を除去している。

しかしながら、上記特許文献３では、特性の異なる複数のマイクに応じた雑音スペクトルデータを必要とするため、メモリに記憶しておくべき雑音スペクトルデータ量がマイクの数に比例して増大していき、メモリ容量を圧迫してしまう。

本発明は、上記課題に鑑みてなされ、その目的は、特性の異なる複数のマイクを用いて雑音を抑制する際に、雑音成分データの増大によるメモリ容量の圧迫を避けつつ、雑音低減性能を維持できる音声処理技術を実現することである。

本発明に係る音声信号処理装置は、駆動に伴い音を発生する駆動部を有する音声処理装置であって、前記装置周囲の音声を集音する第１及び第２のマイクと、前記第２のマイクへの風による雑音の伝播を低減する調整手段と、前記第１及び第２のマイクから入力される音声信号を合成する合成手段と、前記第１のマイクから入力される音声信号と前記合成手段により合成された音声信号のいずれかを選択して出力する出力選択手段と、前記出力選択手段により出力された音声信号に混入した駆動雑音をスペクトルサブトラクション法により低減する駆動雑音処理手段と、前記駆動雑音処理手段においてスペクトルサブトラクション法に用いる前記駆動雑音の駆動雑音スペクトルを算出する駆動雑音スペクトル算出手段と、を備え、前記駆動雑音スペクトル算出手段は、記録媒体から読み出された前記第１のマイクから入力される音声信号に混入した駆動雑音の第１の駆動雑音スペクトルと、所定の算出係数とを用いて前記第２のマイクから入力される音声信号に混入した駆動雑音の第２の駆動雑音スペクトルを算出する。

本発明によれば、特性の異なる複数のマイクを用いて雑音を抑制する際に、雑音成分データの増大によるメモリ容量の圧迫を避けつつ、雑音低減性能を維持できる。

本発明の音声処理装置を実装した撮像装置のブロック図。図１の撮像部、音声入力部、音声処理部の詳細な構成を示すブロック図。実施形態１のマイクの周波数特性を示す図。実施形態１のＳＳ法を説明する図。実施形態１の駆動雑音スペクトルを示す図。駆動雑音低減処理を風雑音抑制処理より前に行う場合の音声処理部のブロック図。駆動雑音低減処理を風雑音抑制処理より前に行う場合の雑音スペクトルを示す図。実施形態２として、複数の駆動部を有する場合の駆動部ごとの駆動雑音スペクトルを示す図。

以下に、添付図面を参照して本発明を実施するための形態について詳細に説明する。尚、以下に説明する実施の形態は、本発明を実現するための一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。

［実施形態１］以下、図１乃至図７を参照して、本発明の音声処理装置を撮像装置としてのデジタルビデオカメラに適用した実施形態１について説明する。

＜装置構成＞先ず、図１を参照して、撮像装置の構成について説明する。図１において、撮像部１０１は、撮影レンズを介して結像された被写体の光学像をＣＣＤセンサやＣＭＯＳセンサ等の撮像素子により光電変換してアナログ画像信号を生成し、生成されたアナログ画像信号をデジタル信号に変換して画像処理部１０２に送出する。画像処理部１０２は、入力されたデジタル画像信号に、設定値に応じたホワイトバランスや色、明るさ等を調整する画質調整処理を施し、メモリ１０３、後述する映像出力部１１０、表示制御部１１１及び制御部１１４に送出する。

また、音声入力部１０４は、内蔵されたマイクまたは音声入力端子を介して接続された外部マイク等により、装置周囲の音声を集音（収音）したアナログ音声信号をデジタル信号に変換して音声処理部１０５に送出する。音声処理部１０５は、入力されたデジタル音声信号のレベルの適正化処理、特定周波数の低減処理等の音声に関する処理を行いメモリ１０３や後述の音声出力部１０９に送出する。また、撮像装置１００は、ワイヤレスマイクから送出されたデジタル音声信号を後述の通信部１１６で受信している。そして、音声処理部１０５は、後述する「通信部１１６から入力されたデジタル音声信号のレベル調整処理」を行い、メモリ１０３や後述の音声出力部１０９に送出する。また、音声処理部１０５は、音声入力部１０４から入力されたデジタル音声信号と、通信部１１６から入力されたデジタル音声信号とを合成する合成処理を行う。メモリ１０３は、画像処理部１０２や音声処理部１０５により処理された画像信号や音声信号を一時的に記憶する。

符号化処理部１０６は、メモリ１０３に一時的に記憶された画像信号や音声信号を読み出して画像信号や音声信号の符号化を行い、圧縮画像データや圧縮音声データ等を生成し、記録再生部１０７に送出する。記録再生部１０７は、記録媒体１０８に対して、符号化処理部１０６で生成された圧縮画像データや圧縮音声データその他撮影に関する制御データ等を記録する。ここで、記録媒体１０８は、圧縮画像データや圧縮音声データ等を記録可能であれば、磁気ディスク、光学式ディスク、半導体メモリ等のあらゆる方式の記録媒体であってよく、複数の記録媒体であってもよい。

また、記録再生部１０７は、記録媒体１０８に記録された圧縮画像データ、圧縮音声データ、各種データ、プログラムを読み出し（再生し）、読み出した圧縮画像データや圧縮音声データを符号化処理部１０６に送出する。符号化処理部１０６は、圧縮画像データや圧縮音声データを一時的にメモリ１０３に記憶させ、所定の手順で復号し、復号化した音声信号を音声出力部１０９へ、復号化した画像信号を映像出力部１１０や表示制御部１１１に送出する。

音声出力部１０９は、例えば音声出力端子からなり、撮像装置１００に接続されたイヤホンやスピーカ等から音声を出力するために音声信号を送出する。また、音声出力部１０９は、撮像装置１００に内蔵され、音声信号に応じた音声を出力するスピーカであっても良い。映像出力部１１０は、例えば映像出力端子からなり、撮像装置１００に接続された外部ディスプレイ等に映像を表示させるために画像信号を送出する。また、音声出力部１０９及び映像出力部１１０は、統合された１つの端子、例えばＨＤＭＩ（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ；登録商標）のような端子であっても良い。また、表示制御部１１１は、符号化処理部１０６から送出された画像信号や画像処理部１０２から送出された画像信号に応じた映像や、撮像装置１００を操作するための操作画面（メニュー画面）等を表示部１１２に表示させる。表示部１１２は、例えば、液晶ディスプレイ、有機ＥＬディスプレイ、電子ペーパー等の表示デバイスであれば何であっても良い。

また、操作部１１３は、例えば、ボタンやダイヤル等であり、ユーザの操作に応じた指示信号を制御部１１４に送出する。制御部１１４は、操作部１１３から送出された指示信号に基づいて、撮像装置１００の各ブロックに制御信号を送出することで、各ブロックを制御する。操作部１１３は、例えば、電源ボタン、記録開始ボタン、メニュー表示ボタン、決定ボタン、カーソルキー、表示部１１２の任意の点を指定するためのポインティングデバイス、タッチパネル等である。また、制御部１１４は、各種の処理（プログラム）を実行するための、例えば、ＣＰＵ（ＭＰＵ）、メモリ（ＤＲＡＭ、ＳＲＡＭ）等からなる。

バス１１５は、各種データや制御信号等を撮像装置１００の各ブロックに送出するためのものである。

通信部１１６は、外部装置との間で通信を行うもので、例えば、音声信号、画像信号、圧縮音声データ、圧縮画像データ等を送受信する。また、撮影開始や終了コマンド等の、撮影動作のための制御信号その他の情報を送受信する。通信部１１６は、例えば、赤外線通信モジュール、Ｂｌｕｅｔｏｏｔｈ（登録商標）通信モジュール、無線ＬＡＮ通信モジュール、ＷｉｒｅｌｅｓｓＵＳＢ等の無線通信モジュールである。

撮像部１０１は、図２にも示すように、光学系２２１、撮像素子２２２、Ａ／Ｄコンバータ２２３、光学系２２１の各要素を駆動する光学系駆動部２２４、制御部１１４から駆動信号を受けて光学系駆動部２２４に駆動指令を出力する駆動制御部２２５を有する。光学系２２１は、少なくともフォーカスレンズ、防振レンズ、絞りを含む。

ここで、本実施形態の撮像装置の動作について説明する。本実施形態の撮像装置１００は、ユーザが操作部１１３の電源ボタンを操作すると、操作部１１３から制御部１１４に起動の指示信号が送出される。この起動指示を受けて、制御部１１４は、不図示の電源供給部を制御して、撮像装置１００の各ブロックに対して電源を供給させる。

電源が供給されると、制御部１１４は、例えば、操作部１１３のモード切り換えスイッチにより設定されたモード（撮影モードや再生モード等）を、操作部１１３からの指示信号により確認する。

＜撮影モード＞撮影モードでは、撮像装置１００は撮影待機状態でユーザが操作部１１３の記録開始ボタンを操作することで、撮影を開始し、その間、圧縮画像データと圧縮音声データが、記録媒体１０８に記録される。そしてユーザが操作部１１３の撮影終了ボタンを操作することで、撮影を終了し、再び撮影待機状態になる。再生モードでは、ユーザが選択したファイルに関する圧縮画像データと圧縮音声データを記録媒体１０８から再生して音声出力部１０９から音声信号を出力し、表示部１１２に映像を表示させる。

まず、撮影モードについて説明する。撮影モードが設定されると前述のようにまず、撮影待機状態に設定される。撮影待機状態で、ユーザが操作部１１３の記録開始ボタンを操作することにより撮影開始の指示信号が送出されると、制御部１１４は、撮影開始の制御信号を撮像装置１００の各ブロックに送出し、以下のような動作を行うように制御する。

撮像部１０１は、撮影レンズを介して結像された被写体の光学像を撮像素子２２２により光電変換してアナログ信号に生成し、生成したアナログ画像信号をデジタル画像信号に変換して画像処理部１０２に送出する。画像処理部１０２は、入力されたデジタル画像信号の画質調整処理（ホワイトバランスや色、明るさ等）を設定値に応じて処理し、表示制御部１１１に送出する。表示制御部１１１は、受信した画像信号に関する映像を表示部１１２に表示させる。また、画像信号はメモリ１０３にも出力され、メモリ１０３に一時的に記憶される。

音声入力部１０４は、マイクにより集音されたアナログ音声信号をデジタル音声信号に変換し、得られたデジタル音声信号を音声処理部１０５に送出する。音声処理部１０５は、入力されたデジタル音声信号のレベルの適正化処理、特定周波数の低減処理等を行って音声信号を生成し、音声出力部１０９に送出する。また、音声信号はメモリ１０３に一時的に記憶される。このとき、撮像装置１００では、レンズ等の駆動に伴う雑音を低減する雑音低減処理を実行する。

そして、符号化処理部１０６は、メモリ１０３に一時的に記憶された画像信号や音声信号を読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。そして、制御部１１４は、これらの圧縮画像データ、圧縮音声データを合成し、データストリームを生成し、記録再生部１０７に出力する。記録再生部１０７は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを１つの動画ファイルとして記録媒体１０８に書き込んでいく。

以上の動作を撮影中は継続する。そして、ユーザが操作部１１３の記録ボタンを操作することにより撮影終了の指示信号が制御部１１４に送出されると、制御部１１４は、撮影終了の制御信号を撮像装置１００の各ブロックに送出し、以下のような動作を行うように制御する。

画像処理部１０２及び音声処理部１０５は、それぞれ画像信号、音声信号をメモリ１０３に送出するの停止する。そして、符号化処理部１０６は、メモリ１０３に記憶されている残りの画像信号と音声信号とを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成し、それが終わると動作を停止する。

制御部１１４は、これらの最後の圧縮画像データ、圧縮音声データを合成し、データストリームを生成し、記録再生部１０７に出力する。

記録再生部１０７は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを１つの動画ファイルとして記録媒体１０８に書き込んでいく。そして、データストリームの供給が停止したら、動画ファイルを完成させて、記録動作を停止させる。

制御部１１４は、記録動作が停止すると、撮影待機状態に移行させるように制御信号を撮像装置１００の各ブロックに送出して、撮影待機状態に戻る。

また、撮影待機状態では、制御部１１４は、撮像装置１００の各ブロックに以下のような動作を行うように制御する。

画像処理部１０２は、画像信号を表示制御部１１１に送出し、表示部１１２に画像信号に応じた映像を表示させる。ユーザは、表示部１１２に映像が表示された画面を見ながら撮影の準備を行う。

音声処理部１０５は、音声信号を音声出力部１０９に送出する。また、ワイヤレスマイク１５０から送出されたデジタル音声信号を受信していれば、「通信部１１６から入力されたデジタル音声信号のレベル調整処理」等を行って音声出力部１０９に送出する。また、音声処理部１０５は、音声入力部１０４により得られた音声信号と通信部１１６から入力された音声信号とを合成してもよい。

そして、得られた音声信号を音声出力部１０９に送出し、内蔵スピーカや接続されたスピーカまたはイヤホンから音声として出力させる。ユーザは、スピーカやイヤホンから出力される音声を聞きながら操作部１１３の音量を決定するためのマニュアルボリュームの調整をすることもできる。

＜再生モード＞再生モードでは、制御部１１４は、再生状態に移行させるように制御信号を撮像装置１００の各ブロックに送出し、以下の動作を行うように制御する。

記録媒体１０８に記録された圧縮画像データと圧縮音声データとからなる動画ファイルを記録再生部１０７が読み出して、読み出された圧縮画像データ、圧縮音声データを符号化処理部１０６に送出する。符号化処理部１０６は、圧縮画像データ、圧縮音声データをメモリ１０３に一時的に記憶させ、所定の手順で復号し、復号化した音声信号を音声出力部１０９へ、復号化した画像信号を映像出力部１１０や表示制御部１１１に送出する。表示制御部１１１は、入力された画像信号に応じた映像を表示部１１２に表示させ、音声出力部１０９は、入力された音声信号に応じた音声を内蔵されたスピーカや、接続されたイヤホンやスピーカから出力する。

以上のように、本実施形態の撮像装置は、画像や音声の記録再生を行う。

＜風雑音低減方法＞ここで、本実施形態の音声入力部１０４及び音声処理部１０５による雑音低減処理のうち、風雑音の低減方法について説明する。

図２は、図１の撮像部１０１、音声入力部１０４、音声処理部１０５の詳細な構成を示すブロック図である。装置本体の外装面２０６にはマイク孔２０５ａ，ｂが設けられ、マイク孔２０５ａ，ｂの背面にはマイク支持部材２０２ａ，ｂでそれぞれフローティング支持された第１のマイク２０１ａと第２のマイク２０１ｂが配設されている。また、外装面２０６にはマイク孔２０５ｂを覆う位置に弾性体であるフィルム２０３が接着されている。フィルム２０３は薄膜状で通気性を持たない樹脂製材料で形成されており、１次の共振周波数が５００Ｈｚ以上であることが望ましい。これは風雑音が５００Ｈｚ以下で発生することに起因したもので、詳細は後述する。本実施形態では弾性体にポリイミドフィルムを用い、１次の共振周波数が約１．５ｋＨｚである形状に加工したものを使用している。

フィルム２０３は、マイク孔２０５ｂを密閉し、マイク２０１ｂへの空気の移動を調整する弾性体で構成されていて、フィルム２０３によりマイク孔２０５ｂは密閉され、風による空気の移動が遮断される。マイク孔２０５ｂを密閉し、マイク２０１ｂへの空気の移動を調整する弾性体で構成されるフィルム２０３を調整機構と定義する。

第１のマイク２０１ａは高域通過フィルタ処理を行うハイパスフィルタ（ＨＰＦ）２１３に繋がれており、第２のマイク２０１ｂは低域通過フィルタ処理を行うローパスフィルタ（ＬＰＦ）２１４に繋がれている。ＨＰＦ２１３及びＬＰＦ２１４のカットオフ周波数は共に１ｋＨｚに設定されている。ＨＰＦ２１３とＬＰＦ２１４の出力は合成部２１１において加算される。

次に、図３を参照して、第１及び第２のマイク２０１ａ，２０１ｂの集音特性について説明する。図３は第１及び第２のマイク２０１ａ，２０１ｂの取得音声信号の周波数特性を模式的に表したものであり、それぞれ横軸に周波数〔Ｈｚ〕を縦軸にゲイン〔ｄＢ〕をとる。第１のマイク２０１ａの被写体音集音時の周波数特性は図３（ａ）で示すように可聴帯域においてほぼフラットな特性になる。一方、図３（ｂ）はフィルム２０３によってマイク孔２０５ｂが密閉されている第２のマイク２０１ｂの被写体音集音時の周波数特性を示している。低周波帯域では第１のマイク２０１ａと比較するとＧ１［ｄＢ］からＧ２［ｄＢ］と少しＧａｉｎが下がりつつもフラットな特性だが、フィルム２０３の１次の共振周波数ｆｓ１を境に高周波帯域では著しく特性が落ちる。これは、弾性体であるフィルム２０３が被写体音による高周波帯域の空気の振動を吸収してしまうためである。

図３（ｃ）は第１のマイク２０１ａに対して所定のレベルの風に起因するの風雑音に対する周波数特性を示しており、風雑音が約５００Ｈｚ以下の低周波帯域で発生していることを示している。図３（ｄ）は第２のマイク２０１ｂに対して所定のレベルの風に起因するの風雑音に対する周波数特性を示しており、図３（ｃ）に比べると風雑音が大きく減衰されていることを示している。これは、フィルム２０３によりマイク孔２０５ｂが密閉されているため、風による空気の移動がマイク孔２０５ｂから第２のマイク２０１ｂまでの空間に伝わらず、第２のマイク２０１ｂ前方で乱流等の風雑音の原因となる気流の乱れが発生しにくいためである。

そこで、風雑音が発生していない場合は、第１のマイク２０１ａの音声信号をそのまま目的音声として取得する。一方、風雑音が発生している場合は、第１のマイク２０１ａの音声信号をＨＰＦ２１３に通過させた信号と、第２のマイク２０１ｂの音声信号をＬＰＦ２１４に通過させた信号とを合成する。第１のマイク２０１ａの音声信号はＨＰＦ２１３において１ｋＨｚ以下の音声信号が減衰処理され、約５００Ｈｚ以下の風雑音を含む低周波成分が大幅に低減される。一方、第２のマイク２０１ｂの音声信号はＬＰＦ２１４において１ｋＨｚ以上の音声信号が減衰処理されて合成される。これにより、風雑音を大幅に低減することができる。

ＨＰＦ２１３及びＬＰＦ２１４のカットオフ周波数を同じ値、かつ風雑音が含まれる５００Ｈｚから弾性体の１次の共振周波数の範囲に設定することで、合成された音声信号は風雑音を低減しつつも被写体音に対してほぼフラットな周波数特性になっている。例えば、カットオフ周波数を弾性体の１次の共振周波数よりも低い値に設定した場合、ＬＰＦ２１４に入力される音声信号はすでに低い弾性体の１次の共振周波数以上で減衰してしまっている。そして、合成された音声信号はカットオフ周波数から弾性体の１次の共振周波数の間の帯域でゲインが落ちてしまう。よって、カットオフ周波数は弾性体の１次の共振周波数よりも大きい値に設定することが望ましい。

また、カットオフ周波数が５００Ｈｚ以下に設定した場合、風雑音は５００Ｈｚ以下に多く含まれ、ＨＰＦ２１３にて第１のマイク２０１ａの音声信号から十分に風雑音が低減できないまま合成されるので、カットオフ周波数は５００Ｈｚ以上が望ましい。

次に、スペクトルサブトラクション法（以下、ＳＳ法）による駆動雑音低減処理について説明する。

図４は音声信号を周波数領域に変換したスペクトルを模式的に示すものであり、横軸に周波数、縦軸に各周波数での出力レベルを表している。図４（ａ）の３０１は被写体音に駆動雑音が混入した音声信号のスペクトルであり、３０１は混入した駆動雑音の駆動雑音スペクトルを示している。図４（ｂ）の３０２は予め取得している駆動雑音スペクトルであり図４（ａ）の３０２と同様である。図４（ｃ）の３０３は駆動雑音の含まれない被写体音のみの音声信号のスペクトルを表している。駆動雑音が混入した音声信号のスペクトル３０１は駆動雑音スペクトル３０２と被写体の音声信号スペクトル３０３が加算されたものに相当する。つまり、取得した音声信号スペクトル３０１から、駆動雑音スペクトル３０２を減算すると被写体音声信号スペクトル３０３となる。このように、レンズ駆動に伴う駆動雑音が発生した場合、予め取得しておいた駆動雑音スペクトルを取得した音声信号のスペクトルから減算することで駆動雑音を低減することができる。そして、駆動雑音スペクトルを減算後の音声信号のスペクトルを時間領域に再変換することで、ＳＳ法による駆動雑音低減処理が完了する。

次に、図２を参照して、音声処理について説明する。図２において、第１のマイク２０１ａはＨＰＦ２１３と出力選択部２１２及び風雑音検出部２１７に繋がれており、同様に第２のマイク２０１ｂはＬＰＦ２１４と出力選択部２１２及び風雑音検出部２１７に繋がれている。

風雑音検出部２１７では第１及び第２のマイク２０１ａ，２０１ｂの音声信号を比較することで、風雑音の発生を検出する。風雑音検出部２１７では、次のようにして風雑音の発生を検出する。風雑音が発生していない時は、第１及び第２のマイク２０１ａ，２０１ｂの約１ｋＨｚ以下の低周波帯域の音声信号の音圧レベルの比率は常にほぼ一定である。しかし、風雑音が発生している時は、第１のマイク２０１ａの低周波帯域の音声信号は風雑音により音圧レベルは大きく変化する。一方、第２のマイク２０１ｂはマイク孔２０５ｂがフィルム２０３により密閉されているので、風雑音の影響による音圧レベルの変化はほとんど発生しない。よって、第１及び第２のマイク２０１ａ，２０１ｂの低周波帯域の音圧レベルの比率は激しく変動し、風雑音が発生していない時と比較して異なる値をとる。そこで、第１及び第２のマイク２０１ａ，２０１ｂの低周波帯域の音圧レベルの比率が音圧レベル閾値を越えた場合は風雑音が発生していると判断する。そして、風雑音検出部２１７の結果が出力選択部２１２と駆動雑音スペクトル算出部２１６に送出される。

次に、出力選択部２１２では風雑音検出部２１７により風雑音が発生していないと判断されると第１のマイク２０１ａの音声信号を選択して駆動雑音処理部２１５に出力する。一方、風雑音検出部２１７で風雑音が発生していると判断された場合は、風雑音低減処理された合成部２１１からの音声信号を選択して出力する。

次に、駆動雑音処理について説明する。駆動雑音処理部２１５では、制御部１１４が駆動信号を駆動制御部２２５に出力すると同時に、雑音低減処理信号を受信する。制御部１１４から駆動信号が送出されていない時は、雑音低減処理信号も出力されないので駆動雑音が混入していないと判断して、出力選択部２１２からの音声信号をそのまま音声出力として音声処理部１０５から出力させる。一方、制御部１１４から駆動信号が送出された時は、駆動雑音処理部２１５は音声信号に駆動雑音が混入したと判断し、駆動雑音スペクトル算出部２１６での算出結果を用いたＳＳ法により駆動雑音低減処理を行う。

次に、駆動雑音スペクトル算出処理について説明する。２種類のマイクを有する場合、光学系駆動部２２４から各マイクに混入する駆動雑音スペクトルはマイクの配置や周囲の構造によって異なるため、本来はスペクトルそれぞれのマイクの駆動雑音スペクトルのデータを予め取得しておく必要がある。しかし、２種類のマイクの駆動雑音スペクトルのデータを有することは、メモリ容量を圧迫する。特に、雑音低減処理性能を上げるために、周波数領域変換時の分割数を上げるとデータの増加は顕著となる。そこで、本実施形態では駆動雑音スペクトル算出部２１６において、以下のように駆動雑音スペクトルのデータを算出し記憶する。

図５（ａ）の３０４は第１のマイク２０１ａに混入する第１の駆動雑音スペクトルである。また、３０５はマイク孔２０５ｂを密閉された第２のマイク２０１ｂに混入する第２の駆動雑音スペクトルである。第１の駆動雑音スペクトル３０４のみ、予め測定されて撮像装置１００の記録媒体１０８に記録されている。第１及び第２のマイク２０１ａ，２０１ｂの配置及び周囲の構造はマイク孔２０５ｂがフィルム２０３により密閉されていること以外はほぼ同一である。よって、図３（ａ）、（ｂ）で述べたように、第２の駆動雑音スペクトル３０５はフィルム２０３の共振周波数ｆ１以下の帯域では第１の駆動雑音スペクトル３０４から全体的に数ｄＢ下がった値となる。一方、共振周波数ｆ１以上の帯域では著しくスペクトルの値が下がる。そこで、風雑音検出部２１７において風雑音が発生していると判断した場合は、駆動雑音スペクトル算出部２１６で、図５（ｂ）の３０６に示す駆動雑音スペクトルを算出し、駆動雑音処理部２１５に送出する。

駆動雑音スペクトル３０６はＨＰＦ２１３及びＬＰＦ２１４のカットオフ周波数１ｋＨｚ以上では、第１の駆動雑音スペクトル３０４をそのまま用いる。一方、カットオフ周波数１ｋＨｚ以下では、第１の駆動雑音スペクトル３０４に所定のスペクトル算出係数αを乗じて算出する。例えば共振周波数ｆ１以下の帯域で第２の駆動雑音スペクトル３０５が第１の駆動雑音スペクトル３０４よりも（Ｇ１−Ｇ２）［ｄＢ］下がっていたとすれば、スペクトル算出係数αは式１で表される。

（Ｇ１−Ｇ２）＝２０ｌｏｇ₁₀α
スペクトル算出係数αは、予め周囲音が無音に近い時に、実際に光学系駆動部２２４を駆動させて、第１及び第２のマイク２０１ａ，２０１ｂで取得される駆動雑音信号から算出されている。

風雑音検出部２１７において風雑音が発生しないと判断された場合は、出力選択部２１２で選択された出力は第１のマイク２０１ａのそのままの音声信号のため、第１の駆動雑音スペクトル３０４を駆動雑音処理部２１５に送出する。

駆動雑音処理部２１５では、駆動雑音スペクトル算出部２１６からの駆動雑音スペクトルのデータを用いてＳＳ法により駆動雑音の低減処理を行う。駆動雑音処理部２１５において、駆動雑音低減処理後、再度時間領域変換された信号が音声出力として音声処理部１０５から出力される。

このように、風雑音低減のためのマイク孔２０５ｂをフィルム２０３で密閉された第２のマイク２０１ｂのカットオフ周波数以下の駆動雑音スペクトルを第１の駆動雑音スペクトル３０４に所定のスペクトル算出係数αを乗じて算出する。

そして、風雑音低減処理後、ＳＳ法により駆動雑音低減処理を行う際には、次のように駆動雑音スペクトルを算出する。まず、第１の駆動雑音スペクトル３０４をカットオフ周波数以下の帯域では第１の駆動雑音スペクトル３０４にスペクトル算出係数αを乗じて算出した結果を用いる。そして、カットオフ周波数以上の帯域では第１の駆動雑音スペクトル３０４をそのまま用いる。また、風雑音が発生していないときは第１の駆動雑音スペクトル３０４をそのまま用いる。これにより、風雑音低減処理を行うために、２種類のマイクを有する場合においても、２つのマイクの駆動雑音スペクトルのデータを保持するのではなく、１つのマイクの駆動雑音スペクトルとスペクトル算出係数αを保持するだけで済む。その結果、データ量の増加による記憶容量の圧迫を抑えつつも高品質な駆動雑音低減処理を行うことができる。

本実施形態では、風雑音検出部２１７での検出結果により出力選択部２１２で選択された風雑音低減処理後の音声信号に対して、駆動雑音処理部２１５で駆動雑音低減処理を行ったが、次のようにしても良い。

図６は駆動雑音処理を風雑音低減処理より前に行う場合の音声処理部のブロック図である。この場合は、駆動雑音スペクトル算出部２１６は第１及び第２の駆動雑音処理部２１５ａ，ｂのそれぞれに駆動雑音スペクトルのデータを送出する。駆動雑音処理部２１５ａに送出される駆動雑音スペクトルのデータは第１のマイク２０１ａの第１の駆動雑音スペクトル３０４そのものである。そして、第２の駆動雑音処理部２１５ｂに送出される駆動雑音スペクトルのデータは図７の３０７のように第１の駆動雑音スペクトル３０４の全帯域にスペクトル算出係数αを乗じて算出される。算出された駆動雑音スペクトル３０７は図５（ａ）で示した第２のマイク２０１ｂの第２の駆動雑音スペクトル３０５に対して、カットオフ周波数以上の帯域で正確ではない。しかし、第２の駆動雑音処理部２１５ｂで処理後の音声信号はＬＰＦ２１４によって、カットオフ周波数以上の帯域が減衰されるので、全帯域にスペクトル算出係数αを乗じても良い。

また、駆動雑音処理部２１５は制御部１１４から駆動信号が送出されていないと判断した場合は、入力された音声信号をそのまま出力していたが、常に入力された音声信号に対してＳＳ法による処理を行っても良い。駆動雑音処理部２１５では入力された音声信号を常に周波数領域に変換し音声信号スペクトルを得る。そして、駆動雑音スペクトル算出部２１６で算出された駆動雑音スペクトルを周波数領域に変換した音声信号スペクトルから減算する。その後、減算されたスペクトルを時間領域に変換し音声信号を出力する。駆動雑音スペクトル算出部２１６は、駆動制御部２２５から駆動指令が送出されて駆動雑音が混入していると判断すると、スペクトル算出係数αを用いて図５（ｂ）の雑音スペクトル３０６を算出し、算出したスペクトルデータを駆動雑音処理部２１５に送出する。一方、駆動制御部２２５から駆動指令が送出されていない場合は、駆動雑音スペクトルのデータをゼロとして駆動雑音処理部２１５に送出する。駆動雑音スペクトルのデータがゼロとは駆動雑音スペクトルを式２のように、Ｗ（ｆ）で表すとき、ｗ₁，ｗ₂，ｗ₃，…，ｗ_nの値が全て０であることを示す。

Ｗ（ｆ）＝（ｗ₁，ｗ₂，ｗ₃，…，ｗ_n）
なお、式２のｗ_nは周波数領域に変換した際の各周波数帯域でのスペクトルの値である。駆動雑音スペクトルとしてゼロを受けて駆動雑音処理部２１５では減算が行われ、再度時間領域への変換が行われる。つまり、出力選択部２１２からの音声信号がＳＳ処理をされても変化することなく、駆動雑音処理部２１５から出力されることとなる。

また、本実施形態では風雑音検出部２１７で第１及び第２のマイク２０１ａ，２０１ｂの音声信号を比較することで風雑音を検出し、検出結果を出力選択部２１２と駆動雑音処理部２１５に送出していたが、ユーザが撮影時に風雑音発生の有無を指示しても良い。ユーザは屋外撮影において、風雑音の混入しそうな風が発生していると判断すると、表示部１１２を見ながら不図示の操作ボタンを操作する。

本実施形態では録音機能を有する撮影装置について説明したが、駆動雑音を発生する駆動部を持つものであれば、他の装置として、例えば、磁気ディスク記憶装置を持ち、マイクにより音声を取得するボイスレコーダ等にも本発明は適用可能である。

［実施形態２］次に、図２及び図８を参照して、実施形態２の音声処理について説明する。実施形態１では、光学系駆動部２２４による駆動雑音を低減するために、スペクトル算出係数αを用いて駆動雑音スペクトルを算出していた。これに対して、実施形態２は、光学系駆動部２２４が複数の駆動部（フォーカスレンズ駆動部、防振レンズ駆動部、絞り駆動部等）を搭載している場合である。この場合、駆動部の種類、駆動部から第１及び第２のマイク２０１ａ，２０１ｂまでの距離や構造により、駆動部ごとに駆動雑音スペクトルは異なる。また、カットオフ周波数以下の帯域での第１のマイク２０１ａに対する第２のマイク２０１ｂの駆動雑音スペクトルのゲイン低下量は、第１及び第２のマイク２０１ａ，２０１ｂまでの距離や構造により駆動部ごとに若干の違いが出る。

これは、駆動雑音が空気を伝播して第１及び第２のマイク２０１ａ，２０１ｂに伝達する以外に、駆動部の駆動に伴う振動が撮像部１０１や装置本体（カメラボディ）を伝播し各マイク２０１ａ，２０１ｂに到達し、この振動音を集音してしまうからである。

第１のマイク２０１ａの駆動雑音スペクトルから第２のマイク２０１ｂの駆動雑音スペクトルを算出する際に、各駆動部について同じスペクトル算出係数αを用いると、第２のマイク２０１ｂの低周波帯域の駆動雑音スペクトルを正確に算出できない場合がある。また、駆動部ごとに第１及び第２のマイク２０１ａ，２０１ｂの駆動雑音スペクトルのデータを保持するということは記憶すべきデータ量の増加を招く。そこで、実施形態２では駆動部ごとにスペクトル算出係数を持たせることで、記憶すべきデータ量を抑えつつも各駆動部ごとに適切な雑音低減処理を行うようにしている。

実施形態２の撮像装置の構成は実施形態１と同様であるため説明を省略する。

以下、実施形態２の音声処理について図２を参照して説明するが、出力選択部２１２までの動作は実施形態１と同じであるため説明を省略する。駆動制御部２２５から光学系駆動部２２４に駆動指令が送出されると、駆動雑音スペクトル算出部２１６にも光学系駆動部２２４への駆動指令が送出される。

駆動雑音スペクトル算出部２１６では、フォーカスレンズ駆動時はα＿ａ、絞り駆動時はα＿ｂ、防振レンズ駆動時はα＿ｃ、というように駆動部ごとにスペクトル算出係数を有している。そして、駆動指令が送出された駆動部の種類に合わせてスペクトル算出係数を選択し、選択した係数を用いて駆動雑音スペクトルを算出する。

例えば、駆動制御部２２５からフォーカスレンズ駆動部に駆動指令が送出されたとする。駆動雑音スペクトル算出部２１６では、駆動制御部２２５から駆動指令が送出された駆動部の種類と風雑音検出部２１７での検出結果を受けて、駆動雑音スペクトルを算出する。

図８（ａ）はフォーカスレンズ駆動部の駆動雑音スペクトルを示している。図中、３０４ａは第１のマイク２０１ａの駆動雑音スペクトル、３０８ａは第２のマイク２０１ｂの算出された駆動雑音スペクトルをそれぞれ示している。駆動雑音スペクトル３０８ａは、第１のマイク２０１ａの駆動雑音スペクトル３０４ａのカットオフ周波数以下の帯域にスペクトル算出係数α＿ａを乗じて算出される。

図８（ｂ）は絞り駆動部、図８（ｃ）は防振レンズ駆動部の駆動雑音スペクトルをそれぞれ示している。図中、３０４ｂ、３０４ｃは第１及び第２のマイク２０１ａ，２０１ｂの駆動雑音スペクトル、３０８ｂ、３０８ｃは３０８ａと同様に、駆動雑音スペクトル３０４ｂ，３０４ｃにスペクトル算出係数α＿ｂ、又はα＿ｃを乗じて算出される。

駆動雑音スペクトル算出部２１６では、風雑音検出部２１７より風雑音が発生していると判断されると、駆動雑音処理部２１５へ算出した駆動雑音スペクトル３０８ａを出力する。一方、風雑音が発生していないと判断された場合は第１のマイク２０１ａの駆動雑音スペクトル３０４ａをそのまま出力する。そして、駆動雑音処理部２１５では出力選択部２１２からの音声信号に対して、駆動雑音スペクトル算出部２１６で算出された駆動雑音スペクトルを用いてＳＳ法により駆動雑音低減処理を行う。そして、雑音低減処理が行われた音声信号が記録される。なお、駆動雑音スペクトル３０４ａ〜３０４ｃとスペクトル算出係数α＿ａ〜ｃは、予め測定されて撮像装置の記録媒体に記録されている。スペクトル算出係数α＿ａ、α＿ｂ、α＿ｃの各値は実験により求められる。

実施形態２では駆動部ごとにスペクトル算出係数を持たせ、駆動制御部２２５から光学系駆動部２２４に送出された駆動指令に合わせてスペクトル算出係数を選択し、駆動雑音処理部２１５でＳＳ法に用いる駆動雑音スペクトルを算出している。つまり、駆動部ごとに第１及び第２のマイク２０１ａ，２０１ｂそれぞれの駆動雑音スペクトルを持つことなく、駆動部ごとの第１のマイク２０１ａの駆動雑音スペクトルと駆動部ごとのスペクトル算出係数を保持するだけで良い。その結果、撮像装置が複数の駆動部を搭載する場合であっても、記憶すべきデータ量を抑えつつも駆動部ごとに適切な雑音低減処理を行うことができる。

なお、本実施形態では、マイクとして、通常のマイクと、通常のマイクに対してフィルムを付したものを使用したが、この組み合わせに限られるものではない。特に特性の異なるマイクとしては、フィルムを付したマイクでなくとも、骨伝導マイク等の、風の影響を受けにくいマイクであればどのようなマイクであっても良い。

また、本実施形態では、音声処理装置を撮像装置に適用した例を説明したが、音声と共に静止画や動画を記録できる装置であれば、例えば、携帯電話やノートパソコン等、他の如何なる装置であっても良い。

本実施形態では、音声信号の雑音低減処理について、音声処理部１０５で実行するように記載したが、この処理を制御部１１４で実行しても良い。

本実施形態では、音声を記録する際に圧縮して記録する例について説明したが、音声圧縮せずに記録するものであっても良い。

［他の実施形態］本発明は、以下の処理を実行することによっても実現される。即ち、上記実施形態の機能を実現するソフトウェア（プログラム）をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムコードを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。

Claims

駆動に伴い音を発生する駆動部を有する音声処理装置であって、
前記装置周囲の音声を集音する第１及び第２のマイクと、
前記第２のマイクへの風による雑音の伝播を低減する調整手段と、
前記第１及び第２のマイクから入力される音声信号を合成する合成手段と、
前記第１のマイクから入力される音声信号と前記合成手段により合成された音声信号のいずれかを選択して出力する出力選択手段と、
前記出力選択手段により出力された音声信号に混入した駆動雑音をスペクトルサブトラクション法により低減する駆動雑音処理手段と、
前記駆動雑音処理手段においてスペクトルサブトラクション法に用いる前記駆動雑音の駆動雑音スペクトルを算出する駆動雑音スペクトル算出手段と、を備え、
前記駆動雑音スペクトル算出手段は、記録媒体から読み出された前記第１のマイクから入力される音声信号に混入した駆動雑音の第１の駆動雑音スペクトルと、所定の算出係数とを用いて前記第２のマイクから入力される音声信号に混入した駆動雑音の第２の駆動雑音スペクトルを算出することを特徴とする音声処理装置。
前記調整手段は、弾性のある樹脂製のフィルムを有し、
前記第２のマイクに前記フィルムが添付されていることを特徴とする請求項１に記載の音声処理装置。
前記合成手段は、前記第１のマイクから入力される音声信号に高域通過フィルタ処理を施した音声信号と、前記第２のマイクから入力される音声信号に低域通過フィルタ処理を施した音声信号とを合成することを特徴とする請求項１に記載の音声処理装置。
風雑音の発生を検出する風雑音検出手段を更に有し、
前記風雑音検出手段により風雑音が検出されない場合、前記出力選択手段は前記第１のマイクから入力される音声信号を選択して出力し、風雑音が検出された場合、前記出力選択手段は前記合成手段により合成された音声信号を選択して出力することを特徴とする請求項１に記載の音声処理装置。
前記風雑音検出手段は、前記第１のマイクの音声信号と前記第２のマイクの音声信号の低周波帯域の音圧レベルの比率の変化により風雑音の発生を検出することを特徴とする請求項４に記載の音声処理装置。
ユーザが前記出力選択手段の出力を選択する操作を指示する操作部を有することを特徴とする請求項１に記載の音声処理装置。
複数の駆動部を備え、
前記第１のマイクから入力される音声信号に混入する各駆動部の駆動雑音スペクトルと算出係数とを有し、
前記駆動雑音スペクトル算出手段は、前記駆動部ごとの駆動雑音スペクトルと算出係数とを用いて前記第２のマイクから入力される音声信号に混入する各駆動部の駆動雑音スペクトルを算出することを特徴とする請求項１に記載の音声処理装置。
駆動に伴い音を発生する駆動部と、周囲の音声を集音する第１及び第２のマイクと、前記第２のマイクへの風による雑音の伝播を低減する調整手段と、を有する装置における音声処理方法であって、
前記第１及び第２のマイクから入力される音声信号を合成する合成工程と、
前記第１のマイクから入力される音声信号と前記合成工程により合成された音声信号のいずれかを選択して出力する出力選択工程と、
前記出力選択工程により出力された音声信号に混入した駆動雑音をスペクトルサブトラクション法により低減する駆動雑音処理工程と、
前記駆動雑音処理工程においてスペクトルサブトラクション法に用いる前記駆動雑音の駆動雑音スペクトルを算出する駆動雑音スペクトル算出工程と、を備え、
前記駆動雑音スペクトル算出工程では、記録媒体から読み出された前記第１のマイクから入力される音声信号に混入した駆動雑音の第１の駆動雑音スペクトルと、所定の算出係数とを用いて前記第２のマイクから入力される音声信号に混入した駆動雑音の第２の駆動雑音スペクトルを算出することを特徴とする音声処理方法。
被写体の画像を撮像する撮像手段と、
撮影レンズ、防振レンズ、及び絞りを含む光学系と、
請求項１乃至７のいずれか１項に記載の音声処理装置とを備え、
前記駆動部は、少なくとも前記撮影レンズを駆動するレンズ駆動部、防振レンズを駆動する防振レンズ駆動部、絞りを駆動する絞り駆動部を含むことを特徴とする撮像装置。