JP2022180927A

JP2022180927A - 音声処理装置、制御方法、およびプログラム

Info

Publication number: JP2022180927A
Application number: JP2021087690A
Authority: JP
Inventors: 悠貴辻本; Yuki Tsujimoto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2022-12-07
Also published as: US20220383891A1

Abstract

【課題】効果的に短期的なノイズを低減することが可能な音声処理装置、制御方法及びプログラムを提供する。
【解決手段】撮像装置の音声処理装置は、環境音を取得するための第一のマイク（Ｌマイク、Ｒマイク）と、ノイズ源からの音を取得するための第二のマイク（ノイズマイク）と、第一のマイクから入力された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段と、第二のマイクから入力された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段と、第二の音声信号に基づき、第一の音声信号からノイズを低減する第一の低減手段と、第二の音声信号から短期的なノイズを検出する検出手段と、検出手段が短期的なノイズを検出した場合、第二の音声信号に基づくことなく、第一の低減手段が出力した音声信号から短期的なノイズを低減する第二の低減手段と、を有する。
【選択図】図３

Description

本発明は、音声データに含まれるノイズを低減可能な音声処理装置に関する。

音声処理装置の一例であるデジタルカメラは、動画データを記録する場合、周囲の音声も併せて記録することができる。また、デジタルカメラは、光学レンズを駆動することで、動画データの記録中に被写体に対してフォーカスを合わせるオートフォーカス機能を持つ。また、デジタルカメラは、動画の記録中に光学レンズを駆動してズームを行う機能を持つ。

このように、動画の記録中に光学レンズを駆動すると、動画とともに記録される音声に光学レンズの駆動音がノイズとして含まれることがある。そこで、従来、デジタルカメラは、光学レンズが駆動する際に発生する摺動音等をノイズとして収音した場合、そのノイズを低減して周囲の音声を記録することができる。特許文献１では、スペクトルサブトラクション法によってノイズを低減するデジタルカメラが開示されている。

特開２０１１－２０５５２７号公報

しかし、特許文献１では、デジタルカメラは、周囲の音声を記録するマイクによって集音されたノイズからノイズパターンを作成するため、光学レンズの筐体内で発生する摺動音から正確なノイズパターンを取得できない可能性がある。この場合、デジタルカメラは、収音した音声に含まれるノイズ、特に駆動部の間欠的な駆動や、ギアの衝突時などに発生する短期的なノイズを効果的に低減できないおそれがあった。

そこで本発明は、効果的に短期的なノイズを低減することを目的とする。

本発明の音声処理装置は、環境音を取得するための第一のマイクと、ノイズ源からの音を取得するための第二のマイクと、前記第一のマイクから入力された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段前記第二のマイクから入力された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段前記第二の音声信号に基づき、第一の音声信号からノイズを低減する第一の低減手段と、前記第二の音声信号から短期的なノイズを検出する検出手段と、前記検出手段によって短期的なノイズが検出された場合、前記第二の音声信号に基づくことなく、前記第一の低減手段が出力した音声信号から短期的なノイズを低減する第二の低減手段と、を有することを特徴とする。

本発明の音声処理装置は、効果的に短期的なノイズを低減することができる。

第一の実施例における撮像装置の斜視図である。第一の実施例における撮像装置の構成を示すブロック図である。第一の実施例における撮像装置の音声入力部の構成を示すブロック図である。第一の実施例における撮像装置の音声入力部におけるマイクの配置を示す図である。第一の実施例における音声処理単位を示したタイミングチャートである。第一の実施例における短期雑音処理部の処理内容を示したフローチャートである。第一の実施例における短期雑音処理部における短期雑音の検出方法を示したタイミングチャートである。第一の実施例における短期雑音処理部における短期雑音の低減処理Ａ，Ｂを示したタイミングチャートである。第一の実施例における短期雑音処理部における短期雑音の低減処理Ｃを周波数スペクトル例である。第一の実施例におけるノイズパラメータを示す図である。

以下、図面を参照して本発明の実施例を詳細に説明する。

［第一の実施例］
＜撮像装置１００の外観図＞
図１（ａ）、（ｂ）に本発明を適用可能な音声処理装置の一例としての撮像装置１００の外観図の一例を示す。図１（ａ）は撮像装置１００の前面斜視図の一例である。図１（ｂ）は撮像装置１００の背面斜視図の一例である。図１において、レンズマウント３０１には不図示の光学レンズが装着される。

表示部１０７は画像データおよび文字情報等を表示する。表示部１０７は撮像装置１００の背面に設けられる。ファインダー外表示部４３は、撮像装置１００の上面に設けられた表示部である。ファインダー外表示部４３は、シャッター速度、絞り値等の撮像装置１００の設定値を表示する。接眼ファインダー１６は覗き込み型のファインダーである。ユーザは接眼ファインダー１６内のフォーカシングスクリーンを観察することで、被写体の光学像の焦点および構図を確認することができる。

レリーズスイッチ６１はユーザが撮影指示を行うための操作部材である。モード切替スイッチ６０はユーザが各種モードを切り替えるための操作部材である。メイン電子ダイヤル７１は回転操作部材である。ユーザはこのメイン電子ダイヤル７１を回すことで、シャッター速度、絞り値等の撮像装置１００の設定値を変更することができる。レリーズスイッチ６１、モード切替スイッチ６０、メイン電子ダイヤル７１は、操作部１１２に含まれる。

電源スイッチ７２は撮像装置１００の電源のオンおよびオフを切り替える操作部材である。サブ電子ダイヤル７３は回転操作部材である。ユーザは、サブ電子ダイヤル７３によって表示部１０７に表示された選択枠の移動および再生モードにおける画像送りなどを行える。十字キー７４は上、下、左、右部分をそれぞれ押し込み可能な十字キー（４方向キー）である。撮像装置１００は十字キー７４の押された部分（方向）に応じた処理を実行する。電源スイッチ７２、サブ電子ダイヤル７３、十字キー７４は操作部１１２に含まれる。

ＳＥＴボタン７５は押しボタンである。ＳＥＴボタン７５は、主に、ユーザが表示部１０７に表示された選択項目を決定するためなどに用いられる。ＬＶボタン７６はライブビュー（以下、ＬＶ）のオンおよびオフを切り替えるために使用されるボタンである。ＬＶボタン７６は、動画記録モードにおいては、動画撮影（記録）の開始および停止の指示に用いられる。拡大ボタン７７は撮影モードのライブビュー表示において拡大モードのオンおよびオフ、並びに、拡大モード中の拡大率の変更を行うための押しボタンである。ＳＥＴボタン７５、ＬＶボタン７６、拡大ボタン７７は操作部１１２に含まれる。

拡大ボタン７７は、再生モードにおいては表示部１０７に表示された画像データの拡大率を増加させるためのボタンとして機能する。縮小ボタン７８は、表示部１０７において拡大表示された画像データの拡大率を低減させるためのボタンである。再生ボタン７９は、撮影モードと再生モードとを切り替える操作ボタンである。撮像装置１００は撮影モード中にユーザが再生ボタン７９を押すと、撮像装置１００が再生モードに移行し、記録媒体１１０に記録された画像データを表示部１０７に表示する。縮小ボタン７８、再生ボタン７９は、操作部１１２に含まれる。

クイックリターンミラー１２（以下、ミラー１２）は、撮像装置１００に装着された光学レンズから入射した光束を接眼ファインダー１６側または撮像部１０１側のどちらかに入射するよう切り替えるためのミラーである。ミラー１２は、露光、ライブビュー撮影、および動画撮影の際に、制御部１１１によって不図示のアクチュエータを制御されることによりアップダウンされる。ミラー１２は通常時は接眼ファインダー１６へと光束を入射させるように配されている。ミラー１２は、撮影が行われる場合およびライブビュー表示の場合には、撮像部１０１に光束が入射するように上方に跳ね上がる（ミラーアップ）。またミラー１２はその中央部がハーフミラーとなっている。ミラー１２の中央部を透過した光束の一部は、焦点検出を行うための焦点検出部（不図示）に入射する。

通信端子１０は、撮像装置１００に装着された光学レンズ３００と撮像装置１００とが通信を行う為の通信端子である。端子カバー４０は外部機器との接続ケーブルと撮像装置１００とを接続する接続ケーブル等のコネクタ（不図示）を保護するカバーである。蓋４１は記録媒体１１０を格納したスロットの蓋である。レンズマウント３０１は不図示の光学レンズ３００を取り付けることができる取り付け部である。

Ｌマイク２０１ａおよびＲマイク２０１ｂはユーザの音声等を収音するためのマイクである。撮像装置１００の背面から見て、左側にＬマイク２０１ａが、右側にＲマイク２０１ｂが配置される。

＜撮像装置１００の構成＞
図２は本実施例における撮像装置１００の構成の一例を示すブロック図である。

光学レンズ３００は、撮像装置１００に着脱可能なレンズユニットである。例えば光学レンズ３００はズームレンズまたはバリフォーカルレンズである。光学レンズ３００は光学レンズ、光学レンズを駆動させるためのモータ、および後述する撮像装置１００のレンズ制御部１０２と通信する通信部を有する。光学レンズ３００は、通信部によって受信した制御信号に基づいて、光学レンズをモータによって移動させることで、被写体に対するフォーカスおよびズーミング、並びに、手ブレの補正ができる。

撮像部１０１は、光学レンズ３００を経て撮像面に結像された被写体の光学像を電気信号に変換するための撮像素子、および撮像素子で生成された電気信号から画像データまたは動画データを生成して出力する画像処理部とを有する。撮像素子は、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）、およびＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）である。本実施例では、撮像部１０１において静止画像データや動画データを含む画像データを生成して撮像部１０１から出力する一連の処理を「撮影」という。撮像装置１００では、画像データは、ＤＣＦ（ＤｅｓｉｇｎｒｕｌｅｆｏｒＣａｍｅｒａＦｉｌｅｓｙｓｔｅｍ）規格に従って、後述する記録媒体１１０に記録される。

レンズ制御部１０２は撮像部１０１から出力されたデータ、および後述する制御部１１１から出力された制御信号に基づいて、通信端子１０を介して光学レンズ３００に制御信号を送信し、光学レンズ３００を制御する。

情報取得部１０３は、撮像装置１００の傾きおよび撮像装置１００の筐体内の温度などを検出する。例えば情報取得部１０３は撮像装置１００の傾きを加速度センサまたはジャイロセンサによって検出する。また、例えば情報取得部１０３は撮像装置１００の筐体内の温度を温度センサによって検出する。

音声入力部１０４は、マイクによって取得された音声から音声データを生成する。音声入力部１０４は、マイクによって撮像装置１００の周辺の音声を取得し、取得された音声に対してアナログデジタル変換（Ａ／Ｄ変換）、各種の音声処理を行い、音声データを生成する。本実施例では、音声入力部１０４はマイクを有する。音声入力部１０４の詳細な構成例については後述する。

揮発性メモリ１０５は、撮像部１０１において生成された画像データ、並びに音声入力部１０４によって生成された音声データを一時的に記録する。また、揮発性メモリ１０５は、表示部１０７に表示される画像データの一時的な記録領域、および制御部１１１の作業領域等としても使用される。

表示制御部１０６は、撮像部１０１から出力された画像データ、対話的な操作のための文字並びに、メニュー画面等を表示部１０７に表示するよう制御する。また、表示制御部１０６は静止画撮影および動画撮影の際、撮像部１０１から出力されたデジタルデータを逐次表示部１０７に表示するよう制御することで、表示部１０７を電子ビューファインダとして機能させることができる。例えば表示部１０７は、液晶ディスプレイまたは有機ＥＬディスプレイである。また、表示制御部１０６は、撮像部１０１から出力された画像データおよび動画データ、対話的な操作のための文字、並びにメニュー画面等を、後述する外部出力部１１５を介して外部のディスプレイに表示させるよう制御することもできる。

符号化処理部１０８は、揮発性メモリ１０５に一時的に記録された画像データおよび音声データをそれぞれ符号化することができる。例えば、符号化処理部１０８は、画像データをＪＰＥＧ規格またはＲＡＷ画像フォーマットに従って符号化およびデータ圧縮された動画データを生成することができる。例えば、符号化処理部１０８は、動画データをＭＰＥＧ２規格またはＨ．２６４／ＭＰＥＧ４－ＡＶＣ規格に従って符号化およびデータ圧縮された動画データを生成することができる。また例えば、符号化処理部１０８は、音声データをＡＣ３ＡＡＣ規格、ＡＴＲＡＣ規格、またはＡＤＰＣＭ方式に従って符号化およびデータ圧縮された音声データを生成することができる。また、符号化処理部１０８は、例えばリニアＰＣＭ方式に従って音声データをデータ圧縮しないように符号化してもよい。

記録制御部１０９は、データを記録媒体１１０に記録すること、および記録媒体１１０から読み出すことができる。例えば、記録制御部１０９は、符号化処理部１０８によって生成された静止画像データ、動画データ、および音声データを記録媒体１１０に記録すること、および記録媒体１１０から読み出すことができる。記録媒体１１０は例えばＳＤカード、ＣＦカード、ＸＱＤメモリーカード、ＨＤＤ（磁気ディスク）、光学式ディスク、および半導体メモリである。記録媒体１１０は、撮像装置１００に着脱可能なように構成してもよいし、撮像装置１００に内蔵されていてもよい。すなわち、記録制御部１０９は少なくとも記録媒体１１０にアクセスする手段を有していればよい。

制御部１１１は、入力された信号、および後述のプログラムに従ってデータバス１１６を介して撮像装置１００の各構成要素を制御する。制御部１１１は、各種制御を実行するためのＣＰＵ、ＲＯＭ、およびＲＡＭを有する。なお、制御部１１１が撮像装置１００全体を制御する代わりに、複数のハードウェアが分担して撮像装置全体を制御してもよい。制御部１１１が有するＲＯＭには、各構成要素を制御するためのプログラムが格納されている。また制御部１１１が有するＲＡＭは演算処理等に利用される揮発性メモリである。

操作部１１２は、撮像装置１００に対する指示をユーザから受け付けるためのユーザインタフェースである。操作部１１２は、例えば撮像装置１００の電源をオン状態またはオフ状態にするための電源スイッチ７２、撮影を指示するためのレリーズスイッチ６１、画像データまたは動画データの再生を指示するための再生ボタン、およびモード切替スイッチ６０等を有する。

操作部１１２はユーザの操作に応じて、制御信号を制御部１１１に出力する。また、表示部１０７に形成されるタッチパネルも操作部１１２に含めることができる。なお、レリーズスイッチ６１は、ＳＷ１およびＳＷ２を有する。レリーズスイッチ６１が、いわゆる半押し状態となることにより、ＳＷ１がオンとなる。これにより、ＡＦ（オートフォーカス）処理、ＡＥ（自動露出）処理、ＡＷＢ（オートホワイトバランス）処理、ＥＦ（フラッシュプリ発光）処理等の撮像の準備動作を行うための準備指示を受け付ける。また、レリーズスイッチ６１が、いわゆる全押し状態となることにより、ＳＷ２がオンとなる。このようなユーザ操作により、撮像動作を行うための撮像指示を受け付ける。また、操作部１１２は後述するスピーカ１１４から再生される音声データの音量を調整することができる操作部材（例えばボタン）を含む。

音声出力部１１３は、音声データをスピーカ１１４、および外部出力部１１５に出力することができる。音声出力部１１３に入力される音声データは、記録制御部１０９により記録媒体１１０から読み出された音声データ、不揮発性メモリ１１７から出力される音声データ、および符号化処理部から出力される音声データである。スピーカ１１４は、音声データを再生することができる電気音響変換器である。

外部出力部１１５は、画像データ、動画データ、および音声データなどを外部機器に出力することができる。外部出力部１１５は、例えば映像端子、マイク端子、およびヘッドホン端子等で構成される。

データバス１１６は、音声データ、動画データ、および画像データ等の各種データ、各種制御信号を撮像装置１００の各ブロックへ伝達するためのデータバスである。

不揮発性メモリ１１７は不揮発性メモリであり、制御部１１１で実行される後述のプログラム等が格納される。また、不揮発性メモリ１１７には、音声データが記録されている。この音声データは例えば、被写体に合焦した場合に出力される合焦音、撮影を指示された場合に出力される電子シャッター音、撮像装置１００を操作された場合に出力される操作音等の電子音の音声データである。

＜撮像装置１００の動作＞
これから、本実施例の撮像装置１００の動作について説明する。

本実施例の撮像装置１００は、ユーザが電源スイッチ７２を操作して電源をオンされたことに応じて、不図示の電源から、撮像装置の各構成要素に電力を供給する。例えば電源はリチウムイオン電池またはアルカリマンガン乾電池等の電池である。

制御部１１１は、電力が供給されたことに応じてモード切替スイッチ６０の状態に基づいて、例えば、撮影モードおよび再生モードのどのモードで動作するかを判断する。動画記録モードでは、制御部１１１は撮像部１０１から出力された動画データと音声入力部１０４から出力された音声データとを１つの音声付き動画データとして記録する。再生モードでは、制御部１１１は記録媒体１１０に記録された画像データまたは動画データを記録制御部１０９によって読み出し、表示部１０７に表示するよう制御する。

まず、動画記録モードについて説明する。動画記録モードでは、まず制御部１１１は、撮像装置１００を撮影待機状態に移行させるように制御信号を撮像装置１００の各構成要素に送信する。例えば、制御部１１１は、撮像部１０１および音声入力部１０４に以下のような動作をさせるよう制御する。

撮像部１０１は、光学レンズ３００を経て撮像面に結像された被写体の光学像を電気信号に変換し、撮像素子で生成された電気信号から動画データを生成する。そして、撮像部１０１は動画データを表示制御部１０６に送信し、表示部１０７によって表示する。ユーザは表示部１０７に表示された動画データを見ながら撮影の準備を行うことができる。

音声入力部１０４は、複数のマイクから入力されたアナログ音声信号をそれぞれＡ／Ｄ変換し、複数のデジタル音声信号を生成する。そして音声入力部１０４はその複数のデジタル音声信号から複数のチャンネルの音声データを生成する。音声入力部１０４は生成された音声データを音声出力部１１３に送信し、スピーカ１１４から音声データを再生させる。ユーザは、スピーカ１１４から再生された音声データを聞きながら、音声付き動画データに記録される音声データの音量を操作部１１２によって調整することができる。

次に、ユーザによってＬＶボタン７６が押下されたことに応じて、制御部１１１は、撮像装置１００の各構成要素に撮影開始の指示信号を送信する。例えば、制御部１１１は、撮像部１０１、音声入力部１０４、符号化処理部１０８、および記録制御部１０９に以下のような動作をさせるよう制御する。

撮像部１０１は、光学レンズ３００を経て撮像面に結像された被写体の光学像を電気信号に変換し、撮像素子で生成された電気信号から動画データを生成する。そして、撮像部１０１は動画データを表示制御部１０６に送信し、表示部１０７によって表示する。また、また撮像部１０１は生成された動画データを揮発性メモリ１０５へ送信する。

音声入力部１０４は、複数のマイクから入力されたアナログ音声信号をそれぞれＡ／Ｄ変換し、複数のデジタル音声信号を生成する。そして音声入力部１０４はその複数のデジタル音声信号からマルチチャンネルの音声データを生成する。そして、音声入力部１０４は生成された音声データを揮発性メモリ１０５へ送信する。

符号化処理部１０８は、揮発性メモリ１０５に一時的に記録された動画データおよび音声データを読み出してそれぞれ符号化する。制御部１１１は、符号化処理部１０８によって符号化された動画データおよび音声データからデータストリームを生成し、記録制御部１０９に出力する。記録制御部１０９は、ＵＤＦまたはＦＡＴ等のファイルシステムに従って、入力されたデータストリームを音声付き動画データとして記録媒体１１０に記録していく。

撮像装置１００の各構成要素は以上の動作を動画撮影中において継続する。

そして、ユーザからＬＶボタン７６が押下されたことに応じて、制御部１１１は、撮像装置１００の各構成要素に撮影終了の指示信号を送信する。例えば、制御部１１１は撮像部１０１、音声入力部１０４、符号化処理部１０８、および記録制御部１０９に以下のような動作をさせるよう制御する。

撮像部１０１は、動画データの生成を停止する。音声入力部１０４は、音声データの生成を停止する。

符号化処理部１０８は、揮発性メモリ１０５に記録されている残りの動画データおよび音声データを読み出して符号化する。制御部１１１は、符号化処理部１０８によって符号化された動画データおよび音声データからデータストリームを生成し、記録制御部１０９に出力する。

記録制御部１０９は、ＵＤＦまたはＦＡＴ等のファイルシステムに従って、データストリームを音声付き動画データのファイルとして記録媒体１１０に記録していく。そして、記録制御部１０９は、データストリームの入力が停止したことに応じて、音声付き動画データを完成させる。音声付き動画データの完成をもって、撮像装置１００の記録動作は停止する。

制御部１１１は、記録動作が停止したことに応じて、撮影待機状態に移行させるように制御信号を撮像装置１００の各構成要素に送信する。これにより、制御部１１１は撮像装置１００を撮影待機状態に戻るよう制御する。

次に、再生モードについて説明する。再生モードでは、制御部１１１は、再生状態に移行させるように制御信号を撮像装置１００の各構成要素に送信する。例えば、制御部１１１は符号化処理部１０８、記録制御部１０９、表示制御部１０６、および音声出力部１１３に以下のような動作をさせるよう制御する。

記録制御部１０９は、記録媒体１１０に記録された音声付き動画データを読み出して読みだした音声付き動画データを符号化処理部１０８に送信する。

符号化処理部１０８は、音声付き動画データから画像データ、および音声データを復号化する。符号化処理部１０８は、復号化された動画データを表示制御部１０６へ、復号化された音声データを音声出力部１１３へ、それぞれ送信する。

表示制御部１０６は、復号化された画像データを表示部１０７によって表示する。音声出力部１１３は、復号化された音声データをスピーカ１１４によって再生する。

以上のように、本実施例の撮像装置１００は画像データ、および音声データを記録および再生することができる。

本実施例では、音声入力部１０４は、マイクから入力された音声信号のレベルの調整処理等の音声処理を実行する。本実施例では、音声入力部１０４は動画記録が開始されたことに応じてこの音声処理を実行する。なお、この音声処理は、撮像装置１００の電源がオンにされてから実行されてもよい。また、この音声処理は、撮影モードが選択されたことに応じて実行されてもよい。また、この音声処理は、動画記録モードおよび音声メモ機能等の音声の記録に関連するモードが選択されたことに応じて実行されてもよい。また、この音声処理は、音声信号の記録が開始したことに応じて実行されてもよい。

＜音声入力部１０４の構成＞
図３は本実施例における音声入力部１０４の詳細な構成の一例を示すブロック図である。

本実施例において、音声入力部１０４は、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃの３つのマイクを有する。Ｌマイク２０１ａおよびＲマイク２０１ｂはそれぞれ第一のマイクの一例である。本実施例では、撮像装置１００は環境音をＬマイク２０１ａおよびＲマイク２０１ｂによって収音し、Ｌマイク２０１ａおよびＲマイク２０１ｂから入力された音声信号をステレオ方式で記録する。例えば環境音は、ユーザの音声、動物の鳴き声、雨音、および楽曲等の撮像装置１００の筐体外および光学レンズ３００の筐体外において発生する音である。

また、ノイズマイク２０１ｃは第２のマイクの一例である。ノイズマイク２０１ｃは、撮像装置１００の筐体内、および光学レンズ３００の筐体内で発生する、所定の騒音源（ノイズ源）からの駆動音等の騒音（ノイズ）を取得するためのマイクである。ノイズ源は例えば、超音波モータ（ＵｌｔｒａｓｏｎｉｃＭｏｔｏｒ、以下ＵＳＭ）およびステッピングモータ（ＳｔｅｐｐｅｒＭｏｔｏｒ、以下ＳＴＭ）などの駆動部である。騒音（ノイズ）は例えば、ＵＳＭおよびＳＴＭ等のモータの駆動によって発生する振動音である。例えば、モータは被写体に合焦するためのＡＦ処理において駆動する。撮像装置１００は撮像装置１００の筐体内、および光学レンズ３００の筐体内で発生する駆動音等の騒音（ノイズ）をノイズマイク２０１ｃによって取得し、取得したノイズの音声データを用いて、後述するノイズパラメータを生成する。なお、本実施例では、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃは無指向性のマイクである。本実施例における、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃの配置例は図４を用いて後述する。

Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃは、それぞれ取得した音声からアナログ音声信号を生成し、Ａ／Ｄ変換部２０２に入力する。ここで、Ｌマイク２０１ａから入力される音声信号をＬｃｈ、Ｒマイク２０１ｂから入力される音声信号をＲｃｈ、およびノイズマイク２０１ｃから入力される音声信号をＮｃｈと記載する。

Ａ／Ｄ変換部２０２は、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃから入力されたアナログ音声信号をデジタル音声信号に変換する。Ａ／Ｄ変換部２０２は変換されたデジタル音声信号をＦＦＴ部２０３に出力する。本実施例においてＡ／Ｄ変換部２０２はサンプリング周波数を４８ｋＨｚ、およびビット深度を１６ｂｉｔとして標本化処理を実行することで、アナログ音声信号をデジタル音声信号に変換する。

ＦＦＴ部２０３は、Ａ／Ｄ変換部２０２から入力された時間領域のデジタル音声信号に高速フーリエ変換処理を施し、周波数領域のデジタル音声信号に変換する。本実施例において、周波数領域のデジタル音声信号は、０Ｈｚから４８ｋＨｚまでの周波数帯域において、１０２４ポイントの周波数スペクトルを有する。また、周波数領域のデジタル音声信号は、０Ｈｚからナイキスト周波数である２４ｋＨｚまでの周波数帯域においては、５１３ポイントの周波数スペクトルを有する。本実施例では、撮像装置１００は、ＦＦＴ部２０３から出力された音声データのうち、０Ｈｚから２４ｋＨｚまでの５１３ポイントの周波数スペクトルを利用して、ノイズ低減の処理を行う。

ここで、高速フーリエ変換されたＬｃｈの周波数スペクトルを、Ｌｃｈ＿Ｂｅｆｏｒｅ［０］～Ｌｃｈ＿Ｂｅｆｏｒｅ［５１２］の５１３ポイントの配列データで表す。これらの配列データを総称する場合、Ｌｃｈ＿Ｂｅｆｏｒｅと記載する。また、高速フーリエ変換されたＲｃｈの周波数スペクトルを、Ｒｃｈ＿Ｂｅｆｏｒｅ［０］～Ｒｃｈ＿Ｂｅｆｏｒｅ［５１２］の５１３ポイントの配列データで表す。これらの配列データを総称する場合、Ｒｃｈ＿Ｂｅｆｏｒｅと記載する。なお、Ｌｃｈ＿Ｂｅｆｏｒｅおよび、Ｒｃｈ＿Ｂｅｆｏｒｅはそれぞれ第１の周波数スペクトルデータの一例である。

また、高速フーリエ変換されたＮｃｈの周波数スペクトルを、Ｎｃｈ＿Ｂｅｆｏｒｅ［０］～Ｎｃｈ＿Ｂｅｆｏｒｅ［５１２］の５１３ポイントの配列データで表す。これらの配列データを総称する場合、Ｎｃｈ＿Ｂｅｆｏｒｅと記載する。なお、Ｎｃｈ＿Ｂｅｆｏｒｅは第２の周波数スペクトルデータの一例である。

切替部２０４はレンズ制御部１０２からの制御情報に基づいて、パスを切り替える。本実施例では、光学レンズ３００が駆動している場合、切替部２０４は後述する減算処理部Ａ２０７でノイズ低減処理が行われるようにパスを切り替える。また、光学レンズ３００が駆動していない場合、切替部２０４は減算処理部Ａ２０７でノイズ低減処理を行わないようにパスを切り替える。

ノイズデータ生成部Ａ２０５は、Ｎｃｈ＿Ｂｅｆｏｒｅに基づいて、Ｌｃｈ＿ＢｅｆｏｒｅおよびＲｃｈ＿Ｂｅｆｏｒｅに含まれるレンズ駆動に関するノイズを低減するためのデータを生成する。本実施例では、ノイズデータ生成部Ａ２０５は、Ｌｃｈ＿Ｂｅｆｏｒｅ［０］～Ｌｃｈ＿Ｂｅｆｏｒｅ［５１２］に含まれるノイズをそれぞれ低減するためのＮＬＡ［０］～ＮＬＡ［５１２］の配列データをノイズパラメータを用いて生成する。また、ノイズデータ生成部Ａ２０５は、Ｒｃｈ＿Ｂｅｆｏｒｅ［０］～Ｒｃｈ＿Ｂｅｆｏｒｅ［５１２］に含まれるノイズをそれぞれ低減するためのＮＲＡ［０］～ＮＲＡ［５１２］の配列データを生成する。

なお、ＮＬＡ［０］～ＮＬＡ［５１２］の配列データにおける周波数のポイントは、Ｌｃｈ＿Ｂｅｆｏｒｅ［０］～Ｌｃｈ＿Ｂｅｆｏｒｅ［５１２］の配列データにおける周波数のポイントと同じである。また、ＮＲＡ［０］～ＮＲＡ［５１２］の配列データにおける周波数のポイントは、Ｒｃｈ＿Ｂｅｆｏｒｅ［０］～Ｒｃｈ＿Ｂｅｆｏｒｅ［５１２］の配列データにおける周波数のポイントと同じである。

なお、ＮＬＡ［０］～ＮＬＡ［５１２］の配列データを総称する場合、ＮＬＡと記載する。また、ＮＲＡ［０］～ＮＲＡ［５１２］を総称する場合、ＮＲＡと記載する。ＮＬＡおよびＮＲＡはそれぞれ第３の周波数スペクトルデータの一例である。

ノイズパラメータ記録部２０６には、ノイズデータ生成部Ａ２０５がＮｃｈ＿ＢｅｆｏｒｅからＮＬＡおよびＮＲＡを生成するためのノイズパラメータが記録されている。なお、本実施例ではノイズパラメータ記録部２０６には、ノイズデータ生成部Ａ２０５において用いられるノイズパラメータである、レンズ種類ごとのレンズ駆動に関するノイズパラメータが記録されている。なお、本実施例では、ノイズデータ生成部Ａ２０５は、音声データを記録している間では、ノイズパラメータを切り替えない。

また、ノイズパラメータ記録部２０６には、後述のノイズデータ生成部Ｂ２０８がＮｃｈ＿ＢｅｆｏｒｅからをＮＬＢおよびＮＲＢを生成するためのノイズパラメータも記録されている。

ここで、Ｎｃｈ＿ＢｅｆｏｒｅからＮＬＡを生成するためのノイズパラメータを総称する場合、ＰＬｘＡと記載する。Ｎｃｈ＿ＢｅｆｏｒｅからＮＲＡを生成するためのノイズパラメータを総称する場合、ＰＲｘＡと記載する。

ＰＬｘＡおよびＰＲｘＡはそれぞれＮＬＡおよびＮＲＡと同じ配列数を有する。例えば、ＰＬ１Ａは、ＰＬ１Ａ［０］～ＰＬ１Ａ［５１２］の配列データである。また、ＰＬ１Ａの周波数ポイントは、Ｌｃｈ＿Ｂｅｆｏｒｅの周波数ポイントと同じである。また例えばＰＲ１Ａは、ＰＲ１Ａ［０］～ＰＲ１Ａ［５１２］の配列データである。ＰＲ１Ａの周波数ポイントは、Ｒｃｈ＿Ｂｅｆｏｒｅと同じ周波数ポイントである。ノイズパラメータは図１０を用いて後述する。

なお、本実施例では、ノイズパラメータ記録部２０６には、ノイズパラメータとして５１３ポイントの周波数スペクトルそれぞれに対する係数がすべて記録されている。しかし、ノイズパラメータ記録部２０６には、５１３ポイントの全ての周波数に対する係数ではなく、少なくともノイズを低減するために必要な周波数ポイントの係数が記録されていればよい。例えば、ノイズパラメータ記録部２０６は、ノイズパラメータとして、典型的な可聴周波数と考えられている２０Ｈｚ～２０ｋＨｚの周波数スペクトルそれぞれに対する係数を記録し、他の周波数スペクトルの係数を記録しなくてもよい。また例えば、ノイズパラメータとして、係数の値がゼロである周波数スペクトルに対する係数はノイズパラメータ記録部２０６に記録されていなくてもよい。

減算処理部Ａ２０７は、Ｌｃｈ＿ＢｅｆｏｒｅおよびＲｃｈ＿ＢｅｆｏｒｅからＮＬＡおよびＮＲＡをそれぞれ減算する。本実施例では、減算処理部Ａ２０７は、短期雑音（短期的なノイズ）および長期雑音（長期的なノイズ）にかかわらず、レベルの大きいノイズを低減する。

また、減算処理部Ａ２０７はＬｃｈ＿ＢｅｆｏｒｅからＮＬＡを減算するＬ減算器Ａ２０７ａ、およびＲｃｈ＿ＢｅｆｏｒｅからＮＲＡを減算するＲ減算器Ａ２０７ｂを有する。Ｌ減算器Ａ２０７ａはＬｃｈ＿ＢｅｆｏｒｅからＮＬＡを減算し、Ｌｃｈ＿Ａ＿Ａｆｔｅｒ［０］～Ｌｃｈ＿Ａ＿Ａｆｔｅｒ［５１２］の５１３ポイントの配列データを出力する。Ｒ減算器Ａ２０７ｂはＲｃｈ＿ＢｅｆｏｒｅからＮＲＡを減算し、Ｒｃｈ＿Ａ＿Ａｆｔｅｒ［０］～Ｒｃｈ＿Ａ＿Ａｆｔｅｒ［５１２］の５１３ポイントの配列データを出力する。本実施例では、減算処理部Ａ２０７はスペクトルサブトラクション法によって減算処理を実行する。

ノイズデータ生成部Ｂ２０８は、Ｎｃｈ＿Ｂｅｆｏｒｅに基づいて、Ｌｃｈ＿Ａ＿ＡｆｔｅｒおよびＲｃｈ＿Ａ＿Ａｆｔｅｒに含まれるノイズを低減するためのデータを生成する。

本実施例では、ノイズデータ生成部Ｂ２０８はＬｃｈ＿Ａ＿Ａｆｔｅｒ［０］～Ｌｃｈ＿Ａ＿Ａｆｔｅｒ［５１２］に含まれるノイズをそれぞれ低減するためのＮＬＢ［０］～ＮＬＢ［５１２］の配列データをノイズパラメータを用いて生成する。また、ノイズデータ生成部Ｂ２０８は、Ｒｃｈ＿Ａ＿Ａｆｔｅｒ［０］～Ｒｃｈ＿Ａ＿Ａｆｔｅｒ［５１２］に含まれるノイズをそれぞれ低減するためのＮＲＢ［０］～ＮＲＢ［５１２］の配列データをノイズパラメータを用いて生成する。

ＮＬＢ［０］～ＮＬＢ［５１２］の配列データにおける周波数のポイントは、Ｌｃｈ＿Ａ＿Ａｆｔｅｒ［０］～Ｌｃｈ＿Ａ＿Ａｆｔｅｒ［５１２］の配列データにおける周波数のポイントと同じである。また、ＮＲＢ［０］～ＮＲＢ［５１２］の配列データにおける周波数のポイントは、Ｒｃｈ＿Ａ＿Ａｆｔｅｒ［０］～Ｒｃｈ＿Ａ＿Ａｆｔｅｒ［５１２］の配列データにおける周波数のポイントと同じである。

なお、ＮＬＢ［０］～ＮＬＢ［５１２］の配列データを総称する場合、ＮＬＢと記載する。また、ＮＲＢ［０］～ＮＲＢ［５１２］を総称する場合、ＮＲＢと記載する。ＮＬＢおよびＮＲＢは（それぞれ第４の周波数スペクトルデータ）の一例である。

なお、本実施例では、ノイズパラメータ記録部２０６には、ノイズデータ生成部Ｂ２０８において用いられるノイズパラメータである、ノイズの種類に応じた複数種類のノイズパラメータが記録されている。

ここで、Ｎｃｈ＿ＢｅｆｏｒｅからＮＬＢを生成するためのノイズパラメータを総称する場合、ＰＬｘＢと記載する。Ｎｃｈ＿ＢｅｆｏｒｅからＮＲＢを生成するためのノイズパラメータを総称する場合、ＰＲｘＢと記載する。

ＰＬｘＢおよびＰＲｘＢはそれぞれＮＬＢおよびＮＲＢと同じ配列数を有する。例えば、ＰＬ１Ｂは、ＰＬ１Ｂ［０］～ＰＬ１Ｂ［５１２］の配列データである。また、ＰＬ１Ｂの周波数ポイントは、Ｌｃｈ＿Ｂｅｆｏｒｅの周波数ポイントと同じである。また例えばＰＲ１Ｂは、ＰＲ１Ｂ［０］～ＰＲ１Ｂ［５１２］の配列データである。ＰＲ１Ｂの周波数ポイントは、Ｒｃｈ＿Ｂｅｆｏｒｅと同じ周波数ポイントである。ノイズパラメータは図１０を用いて後述する。なお、本実施例では、ノイズパラメータ記録部２０６には、ノイズパラメータとして５１３ポイントの周波数スペクトルそれぞれに対する係数がすべて記録されている。しかし、５１３ポイントの全ての周波数に対する係数ではなく、ノイズパラメータ記録部２０６には、少なくともノイズを低減するために必要な周波数ポイントの係数が記録されていればよい。例えば、ノイズパラメータ記録部２０６は、ノイズパラメータとして、典型的な可聴周波数と考えられている２０Ｈｚ～２０ｋＨｚの周波数スペクトルそれぞれに対する係数を記録し、他の周波数スペクトルの係数を記録しなくてもよい。また例えば、ノイズパラメータとして、係数の値がゼロである周波数スペクトルに対する係数はノイズパラメータ記録部２０６に記録されていなくてもよい。

減算処理部Ｂ２０９は、Ｌｃｈ＿Ａ＿ＡｆｔｅｒおよびＲｃｈ＿Ａ＿ＡｆｔｅｒからＮＬＢおよびＮＲＢをそれぞれ減算する。例えば、減算処理部Ｂ２０９はＬｃｈ＿Ａ＿ＡＦＴＥＲからＮＬＢを減算するＬ減算器Ｂ２０９ａ、およびＲｃｈ＿ＢｅｆｏｒｅからＮＲＢを減算するＲ減算器Ｂ２０９ｂを有する。Ｌ減算器Ｂ２０９ａはＬｃｈ＿ＢｅｆｏｒｅからＮＬＢを減算し、Ｌｃｈ＿Ａｆｔｅｒ［０］～Ｌｃｈ＿Ａｆｔｅｒ［５１２］の５１３ポイントの配列データを出力する。Ｒ減算器Ｂ２０９ｂはＲｃｈ＿ＢｅｆｏｒｅからＮＲＡを減算し、Ｒｃｈ＿Ａｆｔｅｒ［０］～Ｒｃｈ＿Ａｆｔｅｒ［５１２］の５１３ポイントの配列データを出力する。本実施例では、減算処理部Ｂ２０９はスペクトルサブトラクション法によって減算処理を実行する。

本実施例では、減算処理部Ｂ２０９は、レンズ駆動によって発生したノイズ以外のマイクのフロアノイズや電気的ノイズなどの恒常的に発生しているノイズの減算を行う。なお、本実施例では、ノイズデータ生成部Ｂ２０８は、Ｎｃｈ＿Ｂｅｆｏｒｅに基づいてＮＬＢおよびＮＲＢを生成するが、ほかの方法でもよい。例えば、ノイズパラメータ記録部２０６にＮＬＢおよびＮＲＢが記録されており、減算処理部Ｂ２０９はノイズデータ生成部Ｂ２０８を介さずに、ノイズパラメータ記録部２０６から直接ＮＬＢおよびＮＲＢを読み込んでもよい。なぜなら、マイクのフロアノイズや電気的ノイズなどの恒常的に発生しているため、Ｎｃｈ＿Ｂｅｆｏｒｅに含まれるノイズを参照する必要性は低いからである。

短期雑音検出部２１０は、Ｎｃｈ＿Ｂｅｆｏｒｅから短期雑音を検出する。短期雑音は、例えば、光学レンズ３００内のギアがかみ合わさることによって発生する短期的なノイズである。他方、長期雑音は、例えば、光学レンズ３００の筐体内における摺動音である。短期雑音検出部２１０がＮｃｈ＿Ｂｅｆｏｒｅからなお、短期雑音検出部２１０は、Ｌｃｈ＿Ｂｅｆｏｒｅ、またはＲｃｈ＿Ｂｅｆｏｒｅから短期雑音を検出してもよい。

短期雑音減算処理部２１１は、減算処理部Ａ２０７から入力された音声信号に対して、特に短期雑音を低減するためのノイズ低減処理を行う。すなわち、本実施例では、レンズ駆動中において、減算処理部Ｂ２０９による処理の前に、減算処理部Ａ２０７および短期雑音減算処理部２１１によってノイズ低減処理が行われる。

データバッファ２１２は、短期雑音減算処理部２１１を行うために用いられる、一時的にデータを格納するバッファ（メモリ）である。

なお、短期雑音検出部２１０、短期雑音減算処理部２１１、およびデータバッファ２１２の処理の詳細は後述する。

ｉＦＦＴ部２１３は、減算処理部Ｂ２０９から入力された周波数領域のデジタル音声信号を逆高速フーリエ変換（逆フーリエ変換）して時間領域のデジタル音声信号に変換する。

音声処理部２１４は、イコライザ、オートレベルコントローラ、およびステレオ感の強調処理等の時間領域のデジタル音声信号に対する音声処理を実行する。音声処理部２１４は、音声処理を行った音声データを揮発性メモリ１０５へ出力する。

なお、本実施例では撮像装置１００は第一のマイクとして２つのマイクを有するが、撮像装置１００は第一のマイクを１つのマイクまたは３つ以上のマイクとしてもよい。例えば撮像装置１００は、音声入力部１０４に第一のマイクとして１つのマイクを有する場合、１つのマイクによって収音された音声データをモノラル方式で記録する。また例えば撮像装置１００は、音声入力部１０４に第一のマイクとして３つ以上のマイクを有する場合、３つ以上のマイクによって収音された音声データをサラウンド方式で記録する。

なお、本実施例では、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃは無指向性のマイクとしたが、これらのマイクは指向性マイクであってもよい。

なお、本実施例では、減算処理部Ｂ２０９によって恒常的なノイズを低減したが、他の方法でもよい。例えば、減算処理部Ａ２０７が減算処理部Ｂ２０９の機能も有する場合、減算処理部Ｂ２０９によるノイズ低減処理は行わなくともよい。

＜音声入力部１０４のマイクの配置＞
ここで、本実施例の音声入力部１０４のマイクの配置例を説明する。図４はＬマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃの配置例を示している。

図４は、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃが取り付けられた撮像装置１００の部分の断面図の一例である。この撮像装置１００の部分は、外装部３０２、マイクブッシュ３０３、および固定部３０４により構成される。

外装部３０２は、マイクに環境音を入力するための穴（以下、マイク穴という）を有する。本実施例では、マイク穴はＬマイク２０１ａ、およびＲマイク２０１ｂの上方に形成される。一方、ノイズマイク２０１ｃは、撮像装置１００の筐体内および光学レンズ３００の筐体内において発生する駆動音を取得するために設けられており、環境音を取得する必要はない。したがって、本実施例では、外装部３０２にはノイズマイク２０１ｃの上方にマイク穴は形成されない。

撮像装置１００の筐体内および光学レンズ３００の筐体内において発生する駆動音は、マイク穴を介してＬマイク２０１ａ、およびＲマイク２０１ｂにより取得される。環境音が小さい状態で撮像装置１００および光学レンズ３００の筐体内において駆動音等が発生した場合、各マイクが取得する音声は、主としてこの駆動音となる。そのため、Ｌマイク２０１ａ、Ｒマイク２０１ｂからの音声レベルよりも、ノイズマイク２０１ｃからの音声レベルの方が大きい。つまり、この場合、各マイクから出力される音声信号のレベルの関係は、以下のようになる。
Ｌｃｈ≒Ｒｃｈ＜Ｎｃｈ
また、環境音が大きくなると、ノイズマイク２０１ｃからの、撮像装置１００または光学レンズ３００で発生した駆動音の音声レベルよりも、Ｌマイク２０１ａ、Ｒマイク２０１ｂからの環境音の音声レベルの方が大きくなる。そのため、この場合、各マイクから出力される音声信号のレベルの関係は、以下のようになる。
Ｌｃｈ≒Ｒｃｈ＞Ｎｃｈ
なお、本実施例では、外装部３０２に形成されるマイク穴の形状は楕円状であるが、円状または方形状等の他の形状でもよい。また、マイク２０１ａ上のマイク穴の形状とマイク２０１ｂ上のマイク穴の形状とは、互いに異なっていてもよい。

なお、本実施例では、ノイズマイク２０１ｃは、Ｌマイク２０１ａとＲマイク２０１ｂに近接するように配置される。また、本実施例では、ノイズマイク２０１ｃは、Ｌマイク２０１ａとＲマイク２０１ｂの間に配置される。これにより、撮像装置１００の筐体内および光学レンズ３００の筐体内において発生する駆動音等からノイズマイク２０１ｃによって生成される音声信号は、この駆動音等からＬマイク２０１ａおよびＲマイク２０１ｂによって生成される音声信号と似た信号になる。

マイクブッシュ３０３は、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃを固定するための部材である。固定部３０４は、マイクブッシュ３０３を外装部３０２に固定する部材である。

なお、本実施例では、外装部３０２および固定部３０４はＰＣ材等のモールド部材で構成される。また、外装部３０２および固定部３０４はアルミまたはステンレス等の金属部材で構成されてもよい。また、本実施例では、マイクブッシュ３０３は、エチレンプロピレンジエンゴム等のゴム材で構成される。

＜ＦＦＴ部２０３の処理方法＞
図５を用いて、ＦＦＴ部２０３で行われる処理を説明する。

図５（ａ）は、時間領域における音声信号の一例を示す。本実施例では、音声信号は、サンプリング周波数が４８ｋＨｚ、ビット深度が２４ｂｉｔで記録された信号である。

図５（ｂ）はＦＦＴ部２０３で処理される音声信号のデータ長の単位の一例を示す。本実施例では、音声信号は１０２４サンプル単位でＦＦＴが行われる。本実施例では、１０２４サンプルの音声信号を１フレームとする。ＦＦＴ部２０３は、１フレーム分の音声信号をバッファリングしたことに応じて、ＦＦＴを行う。

また、本実施例では、音声入力部１０４は、重畳加算法を用いてノイズ低減処理を行う。例えば、音声入力部１０４は、５１２サンプル（半フレーム）ずつオーバーラップさせるようにノイズ低減処理を行う。

ここで、各フレームの記載方法について説明する。例えば、図５（ｂ）において、時刻Ｔ５０１におけるＦＦＴ処理によって生成された、１フレームの音声信号をフレームデータ［ｔ］とする。この場合、フレームデータ［ｔ］の一つ前（直前）に生成されたフレームの音声信号をフレームデータ［ｔ－１］、一つ後（直後）に生成されたフレームの音声信号をフレームデータ［ｔ＋１］と記載する。このように、ある時刻においてＦＦＴ処理されたフレームの音声信号を基準として、各フレームデータを記載する。また、フレームデータには、Ｌｃｈ、Ｒｃｈ、およびＮｃｈの音声信号が含まれ、チャンネルごとに、周波数スペクトルが配列データとして格納されている。例えば、具体的にチャンネルおよび周波数スペクトルを記載する場合、上述の例では、時刻Ｔ５０１における、Ｌｃｈの周波数スペクトルがｎ番目の音声信号は、フレームデータＬ［ｔ］［ｎ］と記載される。

＜短期雑音の低減処理＞
図６を用いて短期雑音検出部２１０および、短期雑音減算処理部２１１における短期雑音の低減処理について説明する。

図６（ａ）は短期雑音の低減処理の一例を示すフローチャートである。ここでは１フレームのフレームデータの処理について説明する。

ステップＳ６０１では、光学レンズ３００が駆動中か否かが判断される。例えば、切替部２０４において、レンズ制御部１０２から入力される制御情報に基づいて、光学レンズ３００が駆動中か否かが判断される。切替部２０４は、光学レンズ３００が駆動中であると判断された場合、Ｌｃｈ＿ＢｅｆｏｒｅおよびＲｃｈ＿Ｂｅｆｏｒｅが減算処理部Ａ２０７に入力されるようにパスを切り替える。切替部２０４は、光学レンズ３００が駆動中ではないと判断された場合、Ｌｃｈ＿ＢｅｆｏｒｅおよびＲｃｈＢｅｆｏｒｅが減算処理部Ｂ２０９に入力されるようにパスを切り替える。

ステップＳ６０２では、短期雑音検出部２１０は、１フレームのフレームデータに短期雑音が含まれるか否かを判断する。本実施例では短期雑音検出部２１０は、フレームデータＮ［ｔ］［０］～［５１２］から、１フレームにおける音の大きさＮ［ｔ］＿Ｐｏｗｅｒを算出する。Ｎ［ｔ］＿Ｐｏｗｅｒの値が所定の閾値未満である場合、本フローチャートの処理は終了する。一方、Ｎ［ｔ］＿Ｐｏｗｅｒが所定の閾値以上である場合、ステップＳ６０３の処理が実行される。

なお、短期雑音検出部２１０は、Ｎ［ｔ］＿Ｐｏｗｅｒを、特定の周波数帯域や、周波数ごとに重みづけして計算してもよい。また、短期雑音検出部２１０は、本実施例では周波数スペクトルから計算しているが、時間領域の音声信号の振幅値から算出してもよい。

ステップＳ６０３では、短期雑音検出部２１０は、短期雑音が継続的に検出されているか否かを判断する。すなわち、短期雑音検出部２１０は、所定数以上の連続したフレームに短期雑音が含まれるか否かを判断する。例えば、短期雑音検出部２１０は、５回連続して短期雑音が検出されたか否かを判断する。短期雑音が所定の回数以上連続して検出された場合、その雑音はもはや短期雑音ではなく長期雑音だと考えられるからである。短期雑音が所定の回数以上連続して検出されていない場合、ステップＳ６０４の処理が実行される。短期雑音が所定の回数以上連続して検出された場合、本フローチャートの処理は終了する。

ここで、短期雑音の検出にＮｃｈ＿Ｂｅｆｏｒｅが用いられる理由は次のとおりである。上述のように、ノイズマイク２０１ｃによって取得されるノイズは、Ｌマイク２０１ａおよびＲマイク２０１ｂによって取得されるノイズよりも大きい。加えて、Ｌマイク２０１ａ、およびＲマイク２０１ｂの上方にはマイク穴が形成されており、ノイズマイク２０１ｃの上方にマイク穴は形成されない。つまり、ノイズマイク２０１ｃによって取得される環境音は、Ｌマイク２０１ａおよびＲマイク２０１ｂによって取得される環境音よりも小さい。すなわち、ノイズマイク２０１ｃによって取得された音声から生成された信号は、Ｌマイク２０１ａおよびＲマイク２０１ｂによって取得された音声から生成された信号よりも、環境音が小さくノイズが大きい信号である。このため、Ｎｃｈ＿ＢｅｆｏｒｅはＬｃｈ＿ＢｅｆｏｒｅおよびＲｃｈ＿Ｂｅｆｏｒｅよりもノイズの検出に適した音声信号であるといえる。

短期雑音の検出の詳細な方法については、図７を用いて後述する。

ステップＳ６０４～ステップＳ６０６において、短期雑音減算処理部２１１は、短期雑音を低減するための処理を行う。ステップＳ６０４では、短期雑音減算処理部２１１は、低減処理Ａを実行する。ステップＳ６０５では、短期雑音減算処理部２１１は、低減処理Ｂを実行する。ステップＳ６０６では、短期雑音減算処理部２１１は、低減処理Ｃを実行する。それぞれの低減処理の詳細については後述する。なお、本実施例では低減処理Ａ～Ｃの３つの低減処理が実行されているが、いずれかの低減処理のみでもよい。また、低減処理Ａ～Ｃの実行される順番はこの順番に限らず、任意の順番でよい。

ステップＳ６０７では、短期雑音減算処理部２１１は、フレームデータの処理が完了したことに応じて、フレームデータＬ［ｔ］、およびフレームデータＲ［ｔ］をデータバッファ２１２に保持（記録）する。以降、短期雑音減算処理部２１１は、これらのフレームデータを、それぞれフレームデータＬ［ｔ－１］、およびフレームデータＲ［ｔ－１］として扱う。

以上、短期雑音の低減処理について説明について説明した。これから、低減処理Ａ～Ｃについて説明する。

まず、低減処理Ａの処理について説明する。図６（ｂ）は低減処理Ａの一例を示すフローチャートである。

ステップＳ６１１では、短期雑音減算処理部２１１は、フレームデータ［ｔ］がフレームデータ［ｔ－１］よりも所定の値以上大きいか否かを判断する。例えば、短期雑音減算処理部２１１は、フレームデータＬ［ｔ］［ｎ］の値が、フレームデータＬ［ｔ－１］［ｎ－１］の値より閾値Ｐ１（例えば６ｄＢ）以上大きいか否かを判断する。フレームデータ［ｔ］がフレームデータ［ｔ－１］よりも所定の値以上大きいと判断された場合、ステップＳ６１２の処理が実行される。フレームデータ［ｔ］がフレームデータ［ｔ－１］よりも所定の値以上大きくはないと判断された場合、ステップＳ６１４の処理が実行される。なお、短期雑音減算処理部２１１は、フレームデータＲ［ｔ］を用いてフレームデータＬ［ｔ］がフレームデータＬ［ｔ－１］よりも所定の値以上大きいか否かを判断してもよい。

ステップＳ６１２では、短期雑音減算処理部２１１は、フレームデータ［ｔ］に対してノイズ低減処理を実行する。例えば、短期雑音減算処理部２１１は、下記の数式１に示すように、フレームデータＬ［ｔ］［ｎ］の値をフレームデータＬ［ｔ－１］［ｎ］に閾値Ｐ１を加えた値になるように計算する。
［数式１］Ｌ［ｔ］［ｎ］←Ｌ［ｔ－１］［ｎ］＋Ｐ１

ステップＳ６１３では、短期雑音減算処理部２１１は、閾値Ｐ１を閾値Ｐ１よりも小さい値である値Ｐ１＿Ｌｏｗに変更する。例えば、閾値Ｐ１の初期値が６ｄＢである場合、短期雑音減算処理部２１１は、値Ｐ１＿Ｌｏｗを３ｄＢとして、閾値Ｐ１を変更する。つまり、本実施例では、この場合、閾値Ｐ１が６ｄＢから３ｄＢに変更される。

ステップＳ６１４では、短期雑音減算処理部２１１は、閾値Ｐ１を閾値Ｐ１よりも大きい値である値Ｐ１＿Ｈｉｇｈに変更する。本実施例では、値Ｐ１＿Ｈｉｇｈは値Ｐ１＿Ｌｏｗも大きい値である。なお、本実施例では、値Ｐ１＿Ｈｉｇｈは閾値Ｐ１と同じ値であるとする。すなわち、本実施例では、ステップＳ６１２の処理において閾値Ｐ１が初期値である場合、閾値Ｐ１は変更されない。一方、ステップＳ６１２の処理において閾値Ｐ１が値Ｐ１＿Ｌｏｗに変更されていた場合、本ステップの処理によって閾値Ｐ１は初期値に戻る。

以上、低減処理Ａの処理について説明した。本フローチャートの処理のタイミングチャートについては、図８を用いて後述する。

なお、本フローチャートの処理は、フレームデータＲ［ｔ］についても同様である。

次に低減処理Ｂの処理について説明する。図６（ｃ）は低減処理Ｂの一例を示すフローチャートである。

ステップＳ６２１では、短期雑音減算処理部２１１は、フレームデータ［ｔ］を保持する。例えば、短期雑音減算処理部２１１は、フレームデータＬ［ｔ］およびフレームデータＲ［ｔ］をデータバッファ２１２に保持する。

ステップＳ６２２では、短期雑音減算処理部２１１は、フレームデータ［ｔ］が、新たに入力されたフレームデータ［ｔ＋１］よりも所定の値以上小さいか否かを判断する。例えば、短期雑音減算処理部２１１は、フレームデータＬ［ｔ］［ｎ］の値が、フレームデータＬ［ｔ＋１］［ｎ＋１］の値より閾値Ｐ２（例えば３ｄＢ）以上大きいか否かを判断する。なお、短期雑音減算処理部２１１は、フレームデータＲ［ｔ］を用いてフレームデータＲ［ｔ］がフレームデータＲ［ｔ＋１］よりも所定の値以上大きいか否かを判断してもよい。フレームデータ［ｔ］が、新たに入力されたフレームデータ［ｔ＋１］よりも所定の値以上小さいと判断された場合、ステップＳ６２３の処理が実行される。フレームデータ［ｔ］が、新たに入力されたフレームデータ［ｔ＋１］よりも所定の値以上小さくはないと判断された場合、本フローチャートの処理は終了される。

ステップＳ６２３では、短期雑音減算処理部２１１は、フレームデータ［ｔ］に対してノイズ低減処理を実行する。例えば、短期雑音減算処理部２１１は、下記の数式２に示すように、フレームデータＬ［ｔ］［ｎ］の値をフレームデータＬ［ｔ－１］［ｎ］になるように計算する。
［数式２］Ｌ［ｔ］［ｎ］←Ｌ［ｔ－１］［ｎ］

以上、低減処理Ｂの処理について説明した。本フローチャートの処理のタイミングチャートについては、図８を用いて後述する。

このように、短期雑音減算処理部２１１は、短期雑音を低減する場合、複数の閾値を切り替えてノイズ低減を行う。

次に低減処理Ｃの処理について説明する。図６（ｄ）は低減処理Ｃの一例を示すフローチャートである。

ステップＳ６３１では、短期雑音減算処理部２１１は、フレームデータ［ｔ］の特定の周波数帯域における平均値を計算する。特定の周波数帯域はノイズが聴感上気づかれやすく、ノイズが発生しやすい周波数帯域である。本実施例では、特定の周波数帯域は１ｋＨｚ～４ｋＨｚとする。また、フレームデータＬ［ｔ］の特定の周波数帯域における平均値をＬ＿ａｖｅ［ｔ］とする。

ステップＳ６３２では、短期雑音減算処理部２１１は、フレームデータ［ｔ］の特定の周波数帯域における平均値がフレームデータ［ｔ－１］の特定の周波数帯域における平均値よりも大きいか否かを判断する。例えば、短期雑音減算処理部２１１は、Ｌ＿ａｖｅ［ｔ］がＬ＿ａｖｅ［ｔ－１］よりも大きいか否かを判断する。フレームデータ［ｔ］の特定の周波数帯域における平均値がフレームデータ［ｔ－１］の特定の周波数帯域における平均値よりも大きいと判断された場合、ステップＳ６３３の処理が実行される。フレームデータ［ｔ］の特定の周波数帯域における平均値がフレームデータ［ｔ－１］の特定の周波数帯域における平均値よりも大きくはないと判断された場合、本フローチャートの処理は終了される。

ステップＳ６３３では、短期雑音減算処理部２１１は、フレームデータ［ｔ］の特定の周波数帯域における平均値をフレームデータ［ｔ－１］の特定の周波数帯域における平均値に近づけるようにノイズ低減処理を行う。例えば、本実施例では、短期雑音減算処理部２１１は、下記の数式３に示すように、Ｌ＿ａｖｅ［ｔ］がＬ＿ａｖｅ［ｔ－１］近づくように、フレームデータＬ［ｔ］［ｎ］の値を計算する。
［数式３］Ｌ［ｔ］［ｎ］←Ｌ［ｔ］［ｎ］－（Ｌ＿ａｖｅ［ｔ］－Ｌ＿ａｖｅ［ｔ－１］）

以上、低減処理Ｃの処理について説明した。本フローチャートの処理のタイミングチャートについては、図９を用いて後述する。

＜短期雑音検出部２１０のタイミングチャート＞
短期雑音検出部２１０における短期雑音の検出方法を図７のタイミングチャートを用いて説明する。

図７（ａ）はレンズ制御信号の一例を示す。レンズ制御信号はレンズ制御部１０２が光学レンズ３００に駆動するよう指示する信号である。本実施例では、レンズ制御信号のレベルはＨｉｇｈとＬｏｗの２値で表される。レンズ制御信号のレベルがＨｉｇｈである場合、レンズ制御部１０２は光学レンズ３００に駆動するよう指示している状態である。レンズ制御信号のレベルがＬｏｗである場合、レンズ制御部１０２は光学レンズ３００に駆動を指示していない状態である。

図７（ｂ）はＮ［ｔ］＿Ｐｏｗｅｒの一例を示すグラフである。縦軸はＮ［ｔ］＿Ｐｏｗｅｒの値を示すための軸である。横軸は時間軸である。短期雑音が発生した場合、Ｎ［ｔ］＿Ｐｏｗｅｒの値が大きくなる。短期雑音検出部２１０は、光学レンズ３００が駆動しており、Ｎ［ｔ］＿Ｐｏｗｅｒが所定の値以上である場合、短期雑音が発生したことを検出する。例えば、時刻Ｔ７０１～Ｔ７０２、および時刻Ｔ７０３～Ｔ７０４において、Ｎ［ｔ］＿Ｐｏｗｅｒが短期雑音検出閾値より大きい場合、短期雑音が発生したと判断する。ただし、短期雑音検出部２１０は、区間Ｔ７０５のように、一定期間Ｎ［ｔ］＿Ｐｏｗｅｒが所定の値以上である場合、その区間を短期雑音が発生していない期間として扱う。

＜短期雑音低減のタイミングチャート＞
まず、低減処理Ａおよび低減処理Ｂについて、図８のタイミングチャートを用いて説明する。その次に、低減処理Ｃについて、図９を用いて説明する。

図８（ａ）はレンズ制御信号の一例である。図８（ｂ）はＮ［ｔ］＿Ｐｏｗｅｒの一例を示すグラフである。図８（ａ）および図８（ｂ）は、それぞれ図７（ａ）および図７（ｂ）の時刻Ｔ７０１～Ｔ７０２の期間におけるグラフと同様である。

図８（ｃ）は低減処理Ａが行われた周波数スペクトルの一例を示す図である。本実施例ではフレームデータＬ［ｔ］［ｎ］の周波数スペクトルを示す。縦軸は周波数スペクトルのパワーの値を示す軸である。なお、その他の周波数におけるフレームデータＬ［ｔ］、およびフレームデータＲ［ｔ］についても同様の処理が行われる。

無地部８１１（斜線部および網掛け部を含む）が短期雑音減算処理部２１１から入力された周波数スペクトル（低減処理Ａが行われる前の周波数スペクトル）、斜線部８１２が低減処理Ａが行われたことによって生成された周波数スペクトルである。

縦軸は特徴的な周波数Ｎの時間ｔ毎のＬ［ｔ］［ｎ］を示す。

まず、区間Ｔ８０１において、短期雑音が検出された時刻ｔにおける周波数スペクトルのレベルは、時刻ｔ－１における周波数スペクトルのレベルより閾値Ｐ１（＝Ｐ１＿Ｈｉｇｈ）以上に大きい。そのため、低減処理Ａでは、時刻ｔにおける周波数スペクトルのレベルは、数式４に示すように、時刻ｔ－１における周波数スペクトルのレベルよりＰ１（＝Ｐ１＿Ｈｉｇｈ）大きい周波数スペクトルになるように減衰される。斜線部８１２（網掛け部を含む）は、低減処理Ａによって低減された周波数スペクトルを示す。なお、時刻ｔにおいて低減処理Ａが実行されたことによって閾値Ｐ１の値はＰ１＿Ｌｏｗに変更される。
［数式４］Ｌ［ｔ］［ｎ］←Ｌ［ｔ－１］［ｎ］＋Ｐ１＿Ｈｉｇｈ

また、時刻ｔ＋１における周波数スペクトルのレベルは、時刻ｔにおける周波数スペクトルのレベルより閾値Ｐ１（＝Ｐ１＿Ｌｏｗ）以上大きい。そのため、低減処理Ａでは、時刻ｔ＋１における周波数スペクトルのレベルは、数式５に示すように、時刻ｔにおける周波数スペクトルのレベルよりＰ１（＝Ｐ１＿Ｌｏｗ）大きい周波数スペクトルになるように減衰される。
［数式５］Ｌ［ｔ］［ｎ］←Ｌ［ｔ－１］［ｎ］＋Ｐ１＿Ｌｏｗ

上述の処理は区間Ｔ８０２、および区間Ｔ８０４についても同様である。

次に、区間Ｔ８０３では、短期雑音が検出された時刻ｔにおける周波数スペクトルのレベルは、時刻ｔ－１における周波数スペクトルのレベルより閾値Ｐ１（＝Ｐ１＿Ｈｉｇｈ）以上大きくはない。そのため、時刻ｔにおける周波数スペクトルに対して低減処理Ａは実行されない。ここで、低減処理Ａが実行されなかったため、閾値Ｐ１の値は変更されない。

また、時刻ｔ＋１における周波数スペクトルのレベルは、時刻ｔにおける周波数スペクトルのレベルより閾値Ｐ１（＝Ｐ１＿Ｈｉｇｈ）以上大きい。そのため、低減処理Ａでは、時刻ｔ＋１における周波数スペクトルのレベルは、数式６に示すように、時刻ｔにおける周波数スペクトルのレベルよりＰ１（＝Ｐ１＿Ｈｉｇｈ）大きい周波数スペクトルになるように減衰される。
［数式６］Ｌ［ｔ］［ｎ］←Ｌ［ｔ－１］［ｎ］＋Ｐ１＿Ｈｉｇｈ

図８（ｄ）は低減処理Ｂが行われた周波数スペクトルの一例を示す図である。
網掛け部８１３は低減処理Ｂが行われたことによって生成された周波数スペクトルを示す。

まず、区間Ｔ８０１において、時刻ｔ＋１における周波数スペクトルのレベルは、短期雑音が検出された時刻ｔにおける周波数スペクトルより閾値Ｐ２以上小さくはない。そのため、時刻ｔにおける周波数スペクトルに対して低減処理Ｂは実行されない。

また、時刻ｔ＋２における周波数スペクトルのレベルは、時刻ｔ＋１における周波数スペクトルのレベルより閾値Ｐ２以上小さい。そのため、低減処理Ｂでは、時刻ｔ＋１における周波数スペクトルのレベルは、数式７に示すように、時刻ｔにおける周波数スペクトルのレベルになるように減衰される。網掛け部８１３は、低減処理Ｂによって低減された周波数スペクトルを示す。
［数式７］Ｌ［ｔ＋１］［ｎ］←Ｌ［ｔ］［ｎ］

上述の処理は区間Ｔ８０３、および区間Ｔ８０４についても同様である。

次に、区間Ｔ８０２では、時刻ｔ＋１における周波数スペクトルのレベルは、短期雑音が検出された時刻ｔにおける周波数スペクトルより閾値Ｐ２以上小さくはない。そのため、時刻ｔにおける周波数スペクトルに対して低減処理Ｂは実行されない。

また、時刻ｔ＋２における周波数スペクトルのレベルは、時刻ｔ＋１における周波数スペクトルのレベルより閾値Ｐ２以上小さくはない。そのため、時刻ｔ＋１における周波数スペクトルに対しても低減処理Ｂは実行されない。

以上、図８を用いて低減処理Ａおよび低減処理Ｂについて説明した。次に低減処理Ｃについて説明する。

図９は時刻ｔおよび時刻ｔ－１におけるフレームデータＬの一例を示す図である。ここで、縦軸はレベル、横軸は周波数である。

ここでは、時刻ｔにおいて短期雑音が検出された場合について説明する。

図９（ａ）は短期雑音が検出される直前（時刻ｔ－１）における周波数スペクトルのフレームデータＬ［ｔ－１］の一例である。なお、短期雑音減算処理部２１１は、時刻ｔ－１における特定の周波数帯域の平均値Ｌ＿ａｖｅ［ｔ－１］を演算する。

図９（ｂ）は短期雑音が検出された時刻（時刻ｔ）における周波数スペクトルのフレームデータＬ［ｔ－１］の一例である。

ここで、無地部（斜線部含む）が短期雑音減算処理部２１１に入力された周波数スペクトルのレベル、斜線部が低減処理Ｃが行われた周波数スペクトルのレベルを示す。短期雑音減算処理部２１１は、時刻ｔにおける、特定の周波数帯域の平均値Ｌ＿ａｖｅ［ｔ］を演算する。ここで、短期雑音減算処理部２１１によって、Ｌ＿ａｖｅ［ｔ］がＬ＿ａｖｅ［ｔ－１］より大きいと判断される。

そのため、減算処理Ｃでは、平均値Ｌ＿ａｖｅ［ｔ］が平均値Ｌ＿ａｖｅ［ｔ－１］に近づくように処理が行われる。本実施例では、短期雑音減算処理部２１１は、数式８に示すように、平均値Ｌ＿ａｖｅ［ｔ］と平均値Ｌ＿ａｖｅ［ｔ－１］の比を計算し、その比に基づいて平均値Ｌ＿ａｖｅ［ｔ］が平均値Ｌ＿ａｖｅ［ｔ－１］に近づくように処理を行う。
［数式８］Ｌ［ｔ］［ｎ］←Ｌ［ｔ］［ｎ］×（Ｌ＿ａｖｅ［ｔ－１］／Ｌ＿ａｖｅ［ｔ］）

以上、低減処理Ｃについて説明した。

このように、撮像装置１００は、ノイズの変化量に基づいて、ノイズ低減された音声信号から、さらに短期雑音を低減することでより高品質な音声を生成することができる。

＜ノイズパラメータ＞
図１０は本実施例におけるノイズパラメータ記録部２０６に記録されているノイズパラメータの一例である。ノイズパラメータは、撮像装置１００の筐体内、および光学レンズ３００の筐体内において発生した駆動音をノイズマイク２０１ｃが取得することにより生成した音声信号を補正するためのパラメータである。図１０に示すように、本実施例では、ノイズパラメータ記録部２０６にはＰＬｘＡ、ＰＲｘＡ、ＰＬｘＢおよび、ＰＲｘＢが記録されている。本実施例では、ＰＬｘＡ、ＰＲｘＡとして駆動音の発生源は光学レンズ３００の筐体内であるとして説明する。光学レンズ３００の筐体内で発生した駆動音はレンズマウント３０１を介して撮像装置１００の筐体内に伝達し、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃによって取得される。

本実施例では、光学レンズ３００の種類に対応した複数のノイズパラメータがノイズパラメータ記録部２０６に記録されている。これは光学レンズ３００の種類によって、駆動音の周波数が異なるためである。撮像装置１００は、これら複数のノイズパラメータのうちの光学レンズ３００の種類に応じたノイズパラメータを用いてノイズデータを生成する。

また、駆動音の種類によって、駆動音の周波数が異なるため、本実施例では、撮像装置１００は、駆動音（ノイズ）の種類に対応した複数のノイズパラメータを記録する。そして、これら複数のノイズパラメータのうちの何れかを用いてノイズデータを生成する。本実施例では、撮像装置１００は、恒常的なノイズとしてホワイトノイズに対するノイズパラメータを記録する。また、撮像装置１００は、例えば光学レンズ３００内のギアがかみ合わさることによって発生する短期的なノイズに対するノイズパラメータを記録する。また、撮像装置１００は、長期的なノイズとして、例えばレンズ３００の筐体内における摺動音に対するノイズパラメータを記録する。

また、本実施例では、ＰＬｘＢ、ＰＲｘＢとして撮像装置１００は、恒常的なノイズに対するノイズパラメータを動画撮影の設定毎に記録する。恒常的なノイズは、例えば、ホワイトノイズ、マイクのフロアノイズや電気的ノイズである。恒常的なノイズは、解像度やホワイトバランス、色味、フレームレート等の動画撮影に関する設定に応じても変化するため、
なお、ＰＬｘＡおよびＰＲｘＡの係数の値の平均値は、ＰＬｘＢおよびＰＲｘＢの係数の値の平均値よりも大きい。これは、ＰＬｘＡおよびＰＲｘＡによって低減されるノイズはＰＬｘＢおよびＰＲｘＢによって低減されるノイズよりも音量が大きく耳障りであるためである。

［その他の実施例］
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

なお、本発明は上記実施例そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施例に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例にわたる構成要素を適宜組み合わせてもよい。

Claims

環境音を取得するための第一のマイクと、
ノイズ源からの音を取得するための第二のマイクと、
前記第一のマイクから入力された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段と、
前記第二のマイクから入力された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段と、
前記第二の音声信号に基づき、第一の音声信号からノイズを低減する第一の低減手段と、
前記第二の音声信号から短期的なノイズを検出する検出手段と、
前記検出手段によって短期的なノイズが検出された場合、前記第二の音声信号に基づくことなく、前記第一の低減手段が出力した音声信号から短期的なノイズを低減する第二の低減手段と、
を有することを特徴とする音声処理装置。
前記第一の低減手段は、前記第一の音声信号から長期的なノイズおよび短期的なノイズを低減することを特徴とする請求項１に記載の音声処理装置。
前記第二の低減手段は、前記第一の低減手段が出力した音声信号の変化量が所定の閾値以上である場合、前記第一の低減手段が出力した音声信号から短期的なノイズを低減することを特徴とする請求項１または２に記載の音声処理装置。
前記第二の低減手段は、前記第一の低減手段が出力した音声信号から短期的なノイズを低減した場合、前記所定の閾値を小さくすることを特徴とする請求項３に記載の音声処理装置。
前記第二の低減手段は、ノイズ低減処理を行った直後に前記第一の低減手段が出力した音声信号が、前記第二の低減手段によってノイズ低減処理が行われた音声信号より所定の閾値以上、小さい場合、直前に前記第二の低減手段によってノイズ低減処理が行われた音声信号に基づいて、ノイズ低減処理をさらに行うことを特徴とする請求項１から４のいずれか１項に記載の音声処理装置。
前記第二の低減手段は、前記第一の低減手段が出力した音声信号の特定の周波数帯における平均値に基づいてノイズ低減処理を行うことを特徴とする請求項１から５のいずれか１項に記載の音声処理装置。
前記第二の低減手段は、前記検出手段によって継続的にノイズが検出された場合、前記第一の低減手段からの音声信号から短期的なノイズを低減する処理を行わないことを特徴とする請求項１から６のいずれか１項に記載の音声処理装置。
前記検出手段は、前記第二の音声信号のレベルの変化量に基づいて、短期的なノイズを検出することを特徴とする請求項１から７のいずれか１項に記載の音声処理装置。
前記検出手段は、前記第二の音声信号のレベルが所定の閾値以上になったことに応じて、前記第二の音声信号に短期的なノイズが含まれるか否かを検出することを特徴とする請求項１から８のいずれか１項に記載の音声処理装置。
前記第二の低減手段からの音声信号から、恒常的なノイズを低減する第三の低減手段をさらに有することを特徴とする請求項１から９のいずれか１項に記載の音声処理装置。
前記第二の音声信号と、前記ノイズ源のノイズに係るパラメータとを用いてノイズデータを生成する生成手段をさらに有し、
前記第一の低減手段は、前記第一の音声信号から前記ノイズデータを減算することを特徴とする請求項１から１０のいずれか１項に記載の音声処理装置。
前記生成手段は、第一の種類のノイズに対応した第一のパラメータと、第二の種類のノイズに対応した第二のパラメータとを含む、複数の前記パラメータの少なくとも何れかと前記第二の音声信号とを用いて、前記ノイズデータを生成することを特徴とする請求項１１に記載の音声処理装置。
前記第一の低減手段は、スペクトルサブトラクション法を用いてノイズ低減し、
前記第二の低減手段は、重畳加算法を用いてノイズ低減することを特徴とする請求項１から１２のいずれか１項に記載の音声処理装置。
駆動部へ駆動を指示する指示手段をさらに有し、
前記第二の低減手段は、前記指示手段によって前記駆動部へ駆動が指示されている間において、第一の音声信号からノイズを低減することを特徴とする請求項１から１３のいずれか１項に記載の音声処理装置。
前記駆動部は撮像手段における駆動部であることを特徴とする請求項１４に記載の音声処理装置。
環境音を取得するための第一のマイクと、ノイズ源からの音を取得するための第二のマイクと、を有する音声処理装置の制御方法であって、
前記第一のマイクから入力された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換ステップと、
前記第二のマイクから入力された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換ステップと、
前記第二の音声信号に基づき、第一の音声信号からノイズを低減する第一の低減ステップと、
前記第二の音声信号から短期的なノイズを検出する検出ステップと、
前記検出ステップおいて短期的なノイズが検出された場合、前記第二の音声信号に基づくことなく、前記第一の低減ステップにおいて生成された音声信号から短期的なノイズを低減する第二の低減ステップと、
を有することを特徴とする制御方法。
コンピュータを請求項１から１５のいずれか１項に記載の音声処理装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。