JP2022054316A

JP2022054316A - 音声処理装置、制御方法、およびプログラム

Info

Publication number: JP2022054316A
Application number: JP2020161436A
Authority: JP
Inventors: 悠貴辻本; Yuki Tsujimoto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-04-06
Anticipated expiration: 2040-09-25
Also published as: JP7566552B2

Abstract

【課題】効果的にノイズを低減する。【解決手段】音声処理装置は、環境音を取得するための第一のマイクと、ノイズ源からの音を取得するための第二のマイクと、前記第一のマイクからの音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段と、前記第二のマイクからの音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段と、前記ノイズ源からノイズが発生したことを検出する検出手段と、前記検出手段によるノイズの検出結果に基づいて、前記第二の音声信号と、前記ノイズ源のノイズに係るパラメータとを用いてノイズデータを生成する生成手段と、前記第一の音声信号から前記ノイズデータを減算する減算手段と、前記減算手段からの音声信号を逆フーリエ変換する第三の変換手段とを有する。【選択図】図３

Description

本発明は、音声データに含まれるノイズを低減可能な音声処理装置に関する。

音声処理装置の一例であるデジタルカメラは、動画データを記録する場合、周囲の音声も併せて記録することができる。また、デジタルカメラは、光学レンズを駆動することで、動画データの記録中に被写体に対してフォーカスを合わせるオートフォーカス機能を持つ。また、デジタルカメラは、動画の記録中に光学レンズを駆動してズームを行う機能を持つ。

このように、動画の記録中に光学レンズを駆動すると、動画とともに記録される音声に光学レンズの駆動音がノイズとして含まれることがある。そこで、従来、デジタルカメラは、光学レンズが駆動する際に発生する摺動音等をノイズとして収音した場合、そのノイズを低減して周囲の音声を記録することができる。特許文献１では、スペクトルサブトラクション法によってノイズを低減するデジタルカメラが開示されている。

特開２０１１－２０５５２７号公報

しかし、特許文献１では、デジタルカメラは、周囲の音声を記録するマイクによって集音されたノイズからノイズパターンを作成するため、光学レンズの筐体内で発生する摺動音から正確なノイズパターンを取得できない可能性がある。この場合、デジタルカメラは、収音した音声に含まれるノイズを効果的に低減できないおそれがあった。

そこで本発明は、効果的にノイズを低減することを目的とする。

本発明の音声処理装置は、環境音を取得するための第一のマイクと、ノイズ源からの音を取得するための第二のマイクと、前記第一のマイクからの音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段と、前記第二のマイクからの音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段と、前記第二の音声信号に基づいて、前記ノイズ源からノイズが発生したことを検出する検出手段と、前記検出手段によるノイズの検出結果に基づいて、前記第二の音声信号と、前記ノイズ源のノイズに係るパラメータとを用いてノイズデータを生成する生成手段と、前記第一の音声信号から前記ノイズデータを減算する減算手段と、前記減算手段からの音声信号を逆フーリエ変換する第三の変換手段と、を有することを特徴とする。

本発明の音声処理装置は、効果的にノイズを低減することができる。

第一の実施例における撮像装置の斜視図である。第一の実施例における撮像装置の構成を示すブロック図である。第一の実施例における撮像装置の音声入力部の構成を示すブロック図である。第一の実施例における撮像装置の音声入力部におけるマイクの配置を示す図である。第一の実施例におけるノイズパラメータを示す図である。第一の実施例における、環境音がないと見なせる状況において駆動音が発生した場合における音声の周波数スペクトル、および、ノイズパラメータの周波数スペクトルを示す図である。第一の実施例における、環境音がある状況において駆動音が発生した場合における音声の周波数スペクトルを示す図である。第一の実施例におけるノイズパラメータ選択部の構成を示すブロック図である。第一の実施例における音声ノイズ低減処理にかかわるタイミングチャートである。第二の実施例における撮像装置の音声入力部の構成を示すブロック図である。

以下、図面を参照して本発明の実施例を詳細に説明する。

［第一の実施例］
＜撮像装置１００の外観図＞
図１（ａ）、（ｂ）に本発明を適用可能な音声処理装置の一例としての撮像装置１００の外観図の一例を示す。図１（ａ）は撮像装置１００の前面斜視図の一例である。図１（ｂ）は撮像装置１００の背面斜視図の一例である。図１において、レンズマウント３０１には不図示の光学レンズが装着される。

表示部１０７は画像データおよび文字情報等を表示する。表示部１０７は撮像装置１００の背面に設けられる。ファインダー外表示部４３は、撮像装置１００の上面に設けられた表示部である。ファインダー外表示部４３は、シャッター速度、絞り値等の撮像装置１００の設定値を表示する。接眼ファインダー１６は覗き込み型のファインダーである。ユーザは接眼ファインダー１６内のフォーカシングスクリーンを観察することで、被写体の光学像の焦点および構図を確認することができる。

レリーズスイッチ６１はユーザが撮影指示を行うための操作部材である。モード切替スイッチ６０はユーザが各種モードを切り替えるための操作部材である。メイン電子ダイヤル７１は回転操作部材である。ユーザはこのメイン電子ダイヤル７１を回すことで、シャッター速度、絞り値等の撮像装置１００の設定値を変更することができる。レリーズスイッチ６１、モード切替スイッチ６０、メイン電子ダイヤル７１は、操作部１１２に含まれる。

電源スイッチ７２は撮像装置１００の電源のオンおよびオフを切り替える操作部材である。サブ電子ダイヤル７３は回転操作部材である。ユーザは、サブ電子ダイヤル７３によって表示部１０７に表示された選択枠の移動および再生モードにおける画像送りなどを行える。十字キー７４は上、下、左、右部分をそれぞれ押し込み可能な十字キー（４方向キー）である。撮像装置１００は十字キー７４の押された部分（方向）に応じた処理を実行する。電源スイッチ７２、サブ電子ダイヤル７３、十字キー７４は操作部１１２に含まれる。

ＳＥＴボタン７５は押しボタンである。ＳＥＴボタン７５は、主に、ユーザが表示部１０７に表示された選択項目を決定するためなどに用いられる。ＬＶボタン７６はライブビュー（以下、ＬＶ）のオンおよびオフを切り替えるために使用されるボタンである。ＬＶボタン７６は、動画記録モードにおいては、動画撮影（記録）の開始および停止の指示に用いられる。拡大ボタン７７は撮影モードのライブビュー表示において拡大モードのオンおよびオフ、並びに、拡大モード中の拡大率の変更を行うための押しボタンである。ＳＥＴボタン７５、ＬＶボタン７６、拡大ボタン７７は操作部１１２に含まれる。

拡大ボタン７７は、再生モードにおいては表示部１０７に表示された画像データの拡大率を増加させるためのボタンとして機能する。縮小ボタン７８は、表示部１０７において拡大表示された画像データの拡大率を低減させるためのボタンである。再生ボタン７９は、撮影モードと再生モードとを切り替える操作ボタンである。撮像装置１００は撮影モード中にユーザが再生ボタン７９を押すと、撮像装置１００が再生モードに移行し、記録媒体１１０に記録された画像データを表示部１０７に表示する。縮小ボタン７８、再生ボタン７９は、操作部１１２に含まれる。

クイックリターンミラー１２（以下、ミラー１２）は、撮像装置１００に装着された光学レンズから入射した光束を接眼ファインダー１６側または撮像部１０１側のどちらかに入射するよう切り替えるためのミラーである。ミラー１２は、露光、ライブビュー撮影、および動画撮影の際に、制御部１１１によって不図示のアクチュエータを制御されることによりアップダウンされる。ミラー１２は通常時は接眼ファインダー１６へと光束を入射させるように配されている。ミラー１２は、撮影が行われる場合およびライブビュー表示の場合には、撮像部１０１に光束が入射するように上方に跳ね上がる（ミラーアップ）。またミラー１２はその中央部がハーフミラーとなっている。ミラー１２の中央部を透過した光束の一部は、焦点検出を行うための焦点検出部（不図示）に入射する。

通信端子１０は、撮像装置１００に装着された光学レンズ３００と撮像装置１００とが通信を行う為の通信端子である。端子カバー４０は外部機器との接続ケーブルと撮像装置１００とを接続する接続ケーブル等のコネクタ（不図示）を保護するカバーである。蓋４１は記録媒体１１０を格納したスロットの蓋である。レンズマウント３０１は不図示の光学レンズ３００を取り付けることができる取り付け部である。

Ｌマイク２０１ａおよびＲマイク２０１ｂはユーザの音声等を収音するためのマイクである。撮像装置１００の背面から見て、左側にＬマイク２０１ａが、右側にＲマイク２０１ｂが配置される。

＜撮像装置１００の構成＞
図２は本実施例における撮像装置１００の構成の一例を示すブロック図である。

光学レンズ３００は、撮像装置１００に着脱可能なレンズユニットである。例えば光学レンズ３００はズームレンズまたはバリフォーカルレンズである。光学レンズ３００は光学レンズ、光学レンズを駆動させるためのモータ、および後述する撮像装置１００のレンズ制御部１０２と通信する通信部を有する。光学レンズ３００は、通信部によって受信した制御信号に基づいて、光学レンズをモータによって移動させることで、被写体に対するフォーカスおよびズーミング、並びに、手ブレの補正ができる。

撮像部１０１は、光学レンズ３００を経て撮像面に結像された被写体の光学像を電気信号に変換するための撮像素子、および撮像素子で生成された電気信号から画像データまたは動画データを生成して出力する画像処理部とを有する。撮像素子は、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）、およびＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）である。本実施例では、撮像部１０１において静止画像データや動画データを含む画像データを生成して撮像部１０１から出力する一連の処理を「撮影」という。撮像装置１００では、画像データは、ＤＣＦ（ＤｅｓｉｇｎｒｕｌｅｆｏｒＣａｍｅｒａＦｉｌｅｓｙｓｔｅｍ）規格に従って、後述する記録媒体１１０に記録される。

レンズ制御部１０２は撮像部１０１から出力されたデータ、および後述する制御部１１１から出力された制御信号に基づいて、通信端子１０を介して光学レンズ３００に制御信号を送信し、光学レンズ３００を制御する。

情報取得部１０３は、撮像装置１００の傾きおよび撮像装置１００の筐体内の温度などを検出する。例えば情報取得部１０３は撮像装置１００の傾きを加速度センサまたはジャイロセンサによって検出する。また、例えば情報取得部１０３は撮像装置１００の筐体内の温度を温度センサによって検出する。

音声入力部１０４は、マイクによって取得された音声から音声データを生成する。音声入力部１０４は、マイクによって撮像装置１００の周辺の音声を取得し、取得された音声に対してアナログデジタル変換（Ａ／Ｄ変換）、各種の音声処理を行い、音声データを生成する。本実施例では、音声入力部１０４はマイクを有する。音声入力部１０４の詳細な構成例については後述する。

揮発性メモリ１０５は、撮像部１０１において生成された画像データ、並びに音声入力部１０４によって生成された音声データを一時的に記録する。また、揮発性メモリ１０５は、表示部１０７に表示される画像データの一時的な記録領域、および制御部１１１の作業領域等としても使用される。

表示制御部１０６は、撮像部１０１から出力された画像データ、対話的な操作のための文字並びに、メニュー画面等を表示部１０７に表示するよう制御する。また、表示制御部１０６は静止画撮影および動画撮影の際、撮像部１０１から出力されたデジタルデータを逐次表示部１０７に表示するよう制御することで、表示部１０７を電子ビューファインダとして機能させることができる。例えば表示部１０７は、液晶ディスプレイまたは有機ＥＬディスプレイである。また、表示制御部１０６は、撮像部１０１から出力された画像データおよび動画データ、対話的な操作のための文字、並びにメニュー画面等を、後述する外部出力部１１５を介して外部のディスプレイに表示させるよう制御することもできる。

符号化処理部１０８は、揮発性メモリ１０５に一時的に記録された画像データおよび音声データをそれぞれ符号化することができる。例えば、符号化処理部１０８は、画像データをＪＰＥＧ規格またはＲＡＷ画像フォーマットに従って符号化およびデータ圧縮された動画データを生成することができる。例えば、符号化処理部１０８は、動画データをＭＰＥＧ２規格またはＨ．２６４／ＭＰＥＧ４－ＡＶＣ規格に従って符号化およびデータ圧縮された動画データを生成することができる。また例えば、符号化処理部１０８は、音声データをＡＣ３ＡＡＣ規格、ＡＴＲＡＣ規格、またはＡＤＰＣＭ方式に従って符号化およびデータ圧縮された音声データを生成することができる。また、符号化処理部１０８は、例えばリニアＰＣＭ方式に従って音声データをデータ圧縮しないように符号化してもよい。

記録制御部１０９は、データを記録媒体１１０に記録すること、および記録媒体１１０から読み出すことができる。例えば、記録制御部１０９は、符号化処理部１０８によって生成された静止画像データ、動画データ、および音声データを記録媒体１１０に記録すること、および記録媒体１１０から読み出すことができる。記録媒体１１０は例えばＳＤカード、ＣＦカード、ＸＱＤメモリーカード、ＨＤＤ（磁気ディスク）、光学式ディスク、および半導体メモリである。記録媒体１１０は、撮像装置１００に着脱可能なように構成してもよいし、撮像装置１００に内蔵されていてもよい。すなわち、記録制御部１０９は少なくとも記録媒体１１０にアクセスする手段を有していればよい。

制御部１１１は、入力された信号、および後述のプログラムに従ってデータバス１１６を介して撮像装置１００の各構成要素を制御する。制御部１１１は、各種制御を実行するためのＣＰＵ、ＲＯＭ、およびＲＡＭを有する。なお、制御部１１１が撮像装置１００全体を制御する代わりに、複数のハードウェアが分担して撮像装置全体を制御してもよい。制御部１１１が有するＲＯＭには、各構成要素を制御するためのプログラムが格納されている。また制御部１１１が有するＲＡＭは演算処理等に利用される揮発性メモリである。

操作部１１２は、撮像装置１００に対する指示をユーザから受け付けるためのユーザインタフェースである。操作部１１２は、例えば撮像装置１００の電源をオン状態またはオフ状態にするための電源スイッチ７２、撮影を指示するためのレリーズスイッチ６１、画像データまたは動画データの再生を指示するための再生ボタン、およびモード切替スイッチ６０等を有する。

操作部１１２はユーザの操作に応じて、制御信号を制御部１１１に出力する。また、表示部１０７に形成されるタッチパネルも操作部１１２に含めることができる。なお、レリーズスイッチ６１は、ＳＷ１およびＳＷ２を有する。レリーズスイッチ６１が、いわゆる半押し状態となることにより、ＳＷ１がオンとなる。これにより、ＡＦ（オートフォーカス）処理、ＡＥ（自動露出）処理、ＡＷＢ（オートホワイトバランス）処理、ＥＦ（フラッシュプリ発光）処理等の撮像の準備動作を行うための準備指示を受け付ける。また、レリーズスイッチ６１が、いわゆる全押し状態となることにより、ＳＷ２がオンとなる。このようなユーザ操作により、撮像動作を行うための撮像指示を受け付ける。また、操作部１１２は後述するスピーカ１１４から再生される音声データの音量を調整することができる操作部材（例えばボタン）を含む。

音声出力部１１３は、音声データをスピーカ１１４、および外部出力部１１５に出力することができる。音声出力部１１３に入力される音声データは、記録制御部１０９により記録媒体１１０から読み出された音声データ、不揮発性メモリ１１７から出力される音声データ、および符号化処理部から出力される音声データである。スピーカ１１４は、音声データを再生することができる電気音響変換器である。

外部出力部１１５は、画像データ、動画データ、および音声データなどを外部機器に出力することができる。外部出力部１１５は、例えば映像端子、マイク端子、およびヘッドホン端子等で構成される。

データバス１１６は、音声データ、動画データ、および画像データ等の各種データ、各種制御信号を撮像装置１００の各ブロックへ伝達するためのデータバスである。

不揮発性メモリ１１７は不揮発性メモリであり、制御部１１１で実行される後述のプログラム等が格納される。また、不揮発性メモリ１１７には、音声データが記録されている。この音声データは例えば、被写体に合焦した場合に出力される合焦音、撮影を指示された場合に出力される電子シャッター音、撮像装置１００を操作された場合に出力される操作音等の電子音の音声データである。

＜撮像装置１００の動作＞
これから、本実施例の撮像装置１００の動作について説明する。

本実施例の撮像装置１００は、ユーザが電源スイッチ７２を操作して電源をオンされたことに応じて、不図示の電源から、撮像装置の各構成要素に電力を供給する。例えば電源はリチウムイオン電池またはアルカリマンガン乾電池等の電池である。

制御部１１１は、電力が供給されたことに応じてモード切替スイッチ６０の状態に基づいて、例えば、撮影モードおよび再生モードのどのモードで動作するかを判断する。動画記録モードでは、制御部１１１は撮像部１０１から出力された動画データと音声入力部１０４から出力された音声データとを１つの音声付き動画データとして記録する。再生モードでは、制御部１１１は記録媒体１１０に記録された画像データまたは動画データを記録制御部１０９によって読み出し、表示部１０７に表示するよう制御する。

まず、動画記録モードについて説明する。動画記録モードでは、まず制御部１１１は、撮像装置１００を撮影待機状態に移行させるように制御信号を撮像装置１００の各構成要素に送信する。例えば、制御部１１１は、撮像部１０１および音声入力部１０４に以下のような動作をさせるよう制御する。

撮像部１０１は、光学レンズ３００を経て撮像面に結像された被写体の光学像を電気信号に変換し、撮像素子で生成された電気信号から動画データを生成する。そして、撮像部１０１は動画データを表示制御部１０６に送信し、表示部１０７によって表示する。ユーザは表示部１０７に表示された動画データを見ながら撮影の準備を行うことができる。

音声入力部１０４は、複数のマイクから入力されたアナログ音声信号をそれぞれＡ／Ｄ変換し、複数のデジタル音声信号を生成する。そして音声入力部１０４はその複数のデジタル音声信号から複数のチャンネルの音声データを生成する。音声入力部１０４は生成された音声データを音声出力部１１３に送信し、スピーカ１１４から音声データを再生させる。ユーザは、スピーカ１１４から再生された音声データを聞きながら、音声付き動画データに記録される音声データの音量を操作部１１２によって調整することができる。

次に、ユーザによってＬＶボタン７６が押下されたことに応じて、制御部１１１は、撮像装置１００の各構成要素に撮影開始の指示信号を送信する。例えば、制御部１１１は、撮像部１０１、音声入力部１０４、符号化処理部１０８、および記録制御部１０９に以下のような動作をさせるよう制御する。

撮像部１０１は、光学レンズ３００を経て撮像面に結像された被写体の光学像を電気信号に変換し、撮像素子で生成された電気信号から動画データを生成する。そして、撮像部１０１は動画データを表示制御部１０６に送信し、表示部１０７によって表示する。また、また撮像部１０１は生成された動画データを揮発性メモリ１０５へ送信する。

音声入力部１０４は、複数のマイクから入力されたアナログ音声信号をそれぞれＡ／Ｄ変換し、複数のデジタル音声信号を生成する。そして音声入力部１０４はその複数のデジタル音声信号からマルチチャンネルの音声データを生成する。そして、音声入力部１０４は生成された音声データを揮発性メモリ１０５へ送信する。

符号化処理部１０８は、揮発性メモリ１０５に一時的に記録された動画データおよび音声データを読み出してそれぞれ符号化する。制御部１１１は、符号化処理部１０８によって符号化された動画データおよび音声データからデータストリームを生成し、記録制御部１０９に出力する。記録制御部１０９は、ＵＤＦまたはＦＡＴ等のファイルシステムに従って、入力されたデータストリームを音声付き動画データとして記録媒体１１０に記録していく。

撮像装置１００の各構成要素は以上の動作を動画撮影中において継続する。

そして、ユーザからＬＶボタン７６が押下されたことに応じて、制御部１１１は、撮像装置１００の各構成要素に撮影終了の指示信号を送信する。例えば、制御部１１１は撮像部１０１、音声入力部１０４、符号化処理部１０８、および記録制御部１０９に以下のような動作をさせるよう制御する。

撮像部１０１は、動画データの生成を停止する。音声入力部１０４は、音声データの生成を停止する。

符号化処理部１０８は、揮発性メモリ１０５に記録されている残りの動画データおよび音声データを読み出して符号化する。制御部１１１は、符号化処理部１０８によって符号化された動画データおよび音声データからデータストリームを生成し、記録制御部１０９に出力する。

記録制御部１０９は、ＵＤＦまたはＦＡＴ等のファイルシステムに従って、データストリームを音声付き動画データのファイルとして記録媒体１１０に記録していく。そして、記録制御部１０９は、データストリームの入力が停止したことに応じて、音声付き動画データを完成させる。音声付き動画データの完成をもって、撮像装置１００の記録動作は停止する。

制御部１１１は、記録動作が停止したことに応じて、撮影待機状態に移行させるように制御信号を撮像装置１００の各構成要素に送信する。これにより、制御部１１１は撮像装置１００を撮影待機状態に戻るよう制御する。

次に、再生モードについて説明する。再生モードでは、制御部１１１は、再生状態に移行させるように制御信号を撮像装置１００の各構成要素に送信する。例えば、制御部１１１は符号化処理部１０８、記録制御部１０９、表示制御部１０６、および音声出力部１１３に以下のような動作をさせるよう制御する。

記録制御部１０９は、記録媒体１１０に記録された音声付き動画データを読み出して読みだした音声付き動画データを符号化処理部１０８に送信する。

符号化処理部１０８は、音声付き動画データから画像データ、および音声データを復号化する。符号化処理部１０８は、復号化された動画データを表示制御部１０６へ、復号化された音声データを音声出力部１１３へ、それぞれ送信する。

表示制御部１０６は、復号化された画像データを表示部１０７によって表示する。音声出力部１１３は、復号化された音声データをスピーカ１１４によって再生する。

以上のように、本実施例の撮像装置１００は画像データ、および音声データを記録および再生することができる。

本実施例では、音声入力部１０４は、マイクから入力された音声信号のレベルの調整処理等の音声処理を実行する。本実施例では、音声入力部１０４は動画記録が開始されたことに応じてこの音声処理を実行する。なお、この音声処理は、撮像装置１００の電源がオンにされてから実行されてもよい。また、この音声処理は、撮影モードが選択されたことに応じて実行されてもよい。また、この音声処理は、動画記録モードおよび音声メモ機能等の音声の記録に関連するモードが選択されたことに応じて実行されてもよい。また、この音声処理は、音声信号の記録が開始したことに応じて実行されてもよい。

＜音声入力部１０４の構成＞
図３は本実施例における音声入力部１０４の詳細な構成の一例を示すブロック図である。

本実施例において、音声入力部１０４は、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃの３つのマイクを有する。Ｌマイク２０１ａおよびＲマイク２０１ｂはそれぞれ第一のマイクの一例である。本実施例では、撮像装置１００は環境音をＬマイク２０１ａおよびＲマイク２０１ｂによって収音し、Ｌマイク２０１ａおよびＲマイク２０１ｂから入力された音声信号をステレオ方式で記録する。例えば環境音は、ユーザの音声、動物の鳴き声、雨音、および楽曲等の撮像装置１００の筐体外および光学レンズ３００の筐体外において発生する音である。

また、ノイズマイク２０１ｃは第２のマイクの一例である。ノイズマイク２０１ｃは、撮像装置１００の筐体内、および光学レンズ３００の筐体内で発生する、所定の騒音源（ノイズ源）からの駆動音等の騒音（ノイズ）を取得するためのマイクである。ノイズ源は例えば、超音波モータ（ＵｌｔｒａｓｏｎｉｃＭｏｔｏｒ、以下ＵＳＭ）およびステッピングモータ（ＳｔｅｐｐｅｒＭｏｔｏｒ、以下ＳＴＭ）などのモータである。騒音（ノイズ）は例えば、ＵＳＭおよびＳＴＭ等のモータの駆動によって発生する振動音である。例えば、モータは被写体に合焦するためのＡＦ処理において駆動する。撮像装置１００は撮像装置１００の筐体内、および光学レンズ３００の筐体内で発生する駆動音等の騒音（ノイズ）をノイズマイク２０１ｃによって取得し、取得したノイズの音声データを用いて、後述するノイズパラメータを生成する。なお、本実施例では、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃは無指向性のマイクである。本実施例における、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃの配置例は図４を用いて後述する。

Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃは、それぞれ取得した音声からアナログ音声信号を生成し、Ａ／Ｄ変換部２０２に入力する。ここで、Ｌマイク２０１ａから入力される音声信号をＬｃｈ、Ｒマイク２０１ｂから入力される音声信号をＲｃｈ、およびノイズマイク２０１ｃから入力される音声信号をＮｃｈと記載する。

Ａ／Ｄ変換部２０２は、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃから入力されたアナログ音声信号をデジタル音声信号に変換する。Ａ／Ｄ変換部２０２は変換されたデジタル音声信号をＦＦＴ部２０３に出力する。本実施例においてＡ／Ｄ変換部２０２はサンプリング周波数を４８ｋＨｚ、およびビット深度を１６ｂｉｔとして標本化処理を実行することで、アナログ音声信号をデジタル音声信号に変換する。

ＦＦＴ部２０３は、Ａ／Ｄ変換部２０２から入力された時間領域のデジタル音声信号に高速フーリエ変換処理を施し、周波数領域のデジタル音声信号に変換する。本実施例において、周波数領域のデジタル音声信号は、０Ｈｚから４８ｋＨｚまでの周波数帯域において、１０２４ポイントの周波数スペクトルを有する。また、周波数領域のデジタル音声信号は、０Ｈｚからナイキスト周波数である２４ｋＨｚまでの周波数帯域においては、５１３ポイントの周波数スペクトルを有する。本実施例では、撮像装置１００は、ＦＦＴ部２０３から出力された音声データのうち、０Ｈｚから２４ｋＨｚまでの５１３ポイントの周波数スペクトルを利用して、ノイズ低減の処理を行う。

ここで、高速フーリエ変換されたＬｃｈの周波数スペクトルを、Ｌｃｈ＿Ｂｅｆｏｒｅ［０］～Ｌｃｈ＿Ｂｅｆｏｒｅ［５１２］の５１３ポイントの配列データで表す。これらの配列データを総称する場合、Ｌｃｈ＿Ｂｅｆｏｒｅと記載する。また、高速フーリエ変換されたＲｃｈの周波数スペクトルを、Ｒｃｈ＿Ｂｅｆｏｒｅ［０］～Ｒｃｈ＿Ｂｅｆｏｒｅ［５１２］の５１３ポイントの配列データで表す。これらの配列データを総称する場合、Ｒｃｈ＿Ｂｅｆｏｒｅと記載する。なお、Ｌｃｈ＿Ｂｅｆｏｒｅおよび、Ｒｃｈ＿Ｂｅｆｏｒｅはそれぞれ第１の周波数スペクトルデータの一例である。

また、高速フーリエ変換されたＮｃｈの周波数スペクトルを、Ｎｃｈ＿Ｂｅｆｏｒｅ［０］～Ｎｃｈ＿Ｂｅｆｏｒｅ［５１２］の５１３ポイントの配列データで表す。これらの配列データを総称する場合、Ｎｃｈ＿Ｂｅｆｏｒｅと記載する。なお、Ｎｃｈ＿Ｂｅｆｏｒｅは第２の周波数スペクトルデータの一例である。

ノイズデータ生成部２０４は、Ｎｃｈ＿Ｂｅｆｏｒｅに基づいて、Ｌｃｈ＿ＢｅｆｏｒｅおよびＲｃｈ＿Ｂｅｆｏｒｅに含まれるノイズを低減するためのデータを生成する。本実施例では、ノイズデータ生成部２０４は、Ｌｃｈ＿Ｂｅｆｏｒｅ［０］～Ｌｃｈ＿Ｂｅｆｏｒｅ［５１２］に含まれるノイズをそれぞれ低減するためのＮＬ［０］～ＮＬ［５１２］の配列データをノイズパラメータを用いて生成する。また、ノイズデータ生成部２０４は、Ｒｃｈ＿Ｂｅｆｏｒｅ［０］～Ｒｃｈ＿Ｂｅｆｏｒｅ［５１２］に含まれるノイズをそれぞれ低減するためのＮＲ［０］～ＮＲ［５１２］の配列データを生成する。ＮＬ［０］～ＮＬ［５１２］の配列データにおける周波数のポイントは、Ｌｃｈ＿Ｂｅｆｏｒｅ［０］～Ｌｃｈ＿Ｂｅｆｏｒｅ［５１２］の配列データにおける周波数のポイントと同じである。また、ＮＲ［０］～ＮＲ［５１２］の配列データにおける周波数のポイントは、Ｒｃｈ＿Ｂｅｆｏｒｅ［０］～Ｒｃｈ＿Ｂｅｆｏｒｅ［５１２］の配列データにおける周波数のポイントと同じである。

なお、ＮＬ［０］～ＮＬ［５１２］の配列データを総称する場合、ＮＬと記載する。また、ＮＲ［０］～ＮＲ［５１２］を総称する場合、ＮＲと記載する。ＮＬおよびＮＲはそれぞれ第３の周波数スペクトルデータの一例である。

ノイズパラメータ記録部２０５には、ノイズデータ生成部２０４がＮｃｈ＿ＢｅｆｏｒｅからをＮＬおよびＮＲを生成するためのノイズパラメータが記録されている。ノイズパラメータ記録部２０５はノイズの種類に応じた複数種類のノイズパラメータを記録している。Ｎｃｈ＿ＢｅｆｏｒｅからＮＬを生成するためのノイズパラメータを総称する場合、ＰＬｘと記載する。Ｎｃｈ＿ＢｅｆｏｒｅからＮＲを生成するためのノイズパラメータを総称する場合、ＰＲｘと記載する。

ＰＬｘおよびＰＲｘはそれぞれＮＬおよびＮＲと同じ配列数を有する。例えば、ＰＬ１は、ＰＬ１［０］～ＰＬ１［５１２］の配列データである。また、ＰＬ１の周波数ポイントは、Ｌｃｈ＿Ｂｅｆｏｒｅの周波数ポイントと同じである。また例えばＰＲ１は、ＰＲ１［０］～ＰＲ１［５１２］の配列データである。ＰＲ１の周波数ポイントは、Ｒｃｈ＿Ｂｅｆｏｒｅと同じ周波数ポイントである。ノイズパラメータは図５を用いて後述する。

ノイズパラメータ選択部２０６は、ノイズパラメータ記録部２０５に記録されているノイズパラメータから、ノイズデータ生成部２０４において使用されるノイズパラメータを決定する。ノイズパラメータ選択部２０６は、Ｌｃｈ＿Ｂｅｆｏｒｅ、Ｒｃｈ＿Ｂｅｆｏｒｅ、Ｎｃｈ＿Ｂｅｆｏｒｅ、およびレンズ制御部１０２から受信したデータに基づいて、ノイズデータ生成部２０４において用いられるノイズパラメータを決定する。ノイズパラメータ選択部２０６の動作については図８を用いて詳しく後述する。

なお、本実施例では、ノイズパラメータ記録部２０５には、ノイズパラメータとして５１３ポイントの周波数スペクトルそれぞれに対する係数がすべて記録されている。しかし、５１３ポイントの全ての周波数に対する係数ではなく、少なくともノイズを低減するために必要な周波数ポイントの係数が記録されていればよい。例えば、ノイズパラメータ記録部２０５は、ノイズパラメータとして、典型的な可聴周波数と考えられている２０Ｈｚ～２０ｋＨｚの周波数スペクトルそれぞれに対する係数を記録し、他の周波数スペクトルの係数を記録しなくてもよい。また例えば、ノイズパラメータとして、係数の値がゼロである周波数スペクトルに対する係数はノイズパラメータ記録部２０５に記録されていなくてもよい。

減算処理部２０７は、Ｌｃｈ＿ＢｅｆｏｒｅおよびＲｃｈ＿ＢｅｆｏｒｅからＮＬおよびＮＲをそれぞれ減算する。例えば、減算処理部２０７はＬｃｈ＿ＢｅｆｏｒｅからＮＬを減算するＬ減算器２０７ａ、およびＲｃｈ＿ＢｅｆｏｒｅからＮＲを減算するＲ減算器２０７ｂを有する。Ｌ減算器２０７ａはＬｃｈ＿ＢｅｆｏｒｅからＮＬを減算し、Ｌｃｈ＿Ａｆｔｅｒ［０］～Ｌｃｈ＿Ａｆｔｅｒ［５１２］の５１３ポイントの配列データを出力する。Ｒ減算器２０７ｂはＲｃｈ＿ＢｅｆｏｒｅからＮＲを減算し、Ｒｃｈ＿Ａｆｔｅｒ［０］～Ｒｃｈ＿Ａｆｔｅｒ［５１２］の５１３ポイントの配列データを出力する。本実施例では、減算処理部２０７はスペクトルサブトラクション法によって減算処理を実行する。

ｉＦＦＴ部２０８は、減算処理部２０７から入力された周波数領域のデジタル音声信号を逆高速フーリエ変換（逆フーリエ変換）して時間領域のデジタル音声信号に変換する。

音声処理部２０９は、イコライザ、オートレベルコントローラ、およびステレオ感の強調処理等の時間領域のデジタル音声信号に対する音声処理を実行する。音声処理部２０９は、音声処理を行った音声データを揮発性メモリ１０５へ出力する。

なお、本実施例では撮像装置１００は第一のマイクとして２つのマイクを有するが、撮像装置１００は第一のマイクを１つのマイクまたは３つ以上のマイクとしてもよい。例えば撮像装置１００は、音声入力部１０４に第一のマイクとして１つのマイクを有する場合、１つのマイクによって収音された音声データをモノラル方式で記録する。また例えば撮像装置１００は、音声入力部１０４に第一のマイクとして３つ以上のマイクを有する場合、３つ以上のマイクによって収音された音声データをサラウンド方式で記録する。

なお、本実施例では、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃは無指向性のマイクとしたが、これらのマイクは指向性マイクであってもよい。

＜音声入力部１０４のマイクの配置＞
ここで、本実施例の音声入力部１０４のマイクの配置例を説明する。図４はＬマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃの配置例を示している。

図４は、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃが取り付けられた撮像装置１００の部分の断面図の一例である。この撮像装置１００の部分は、外装部３０２、マイクブッシュ３０３、および固定部３０４により構成される。

外装部３０２は、マイクに環境音を入力するための穴（以下、マイク穴という）を有する。本実施例では、マイク穴はＬマイク２０１ａ、およびＲマイク２０１ｂの上方に形成される。一方、ノイズマイク２０１ｃは、撮像装置１００の筐体内および光学レンズ３００の筐体内において発生する駆動音を取得するために設けられており、環境音を取得する必要はない。したがって、本実施例では、外装部３０２にはノイズマイク２０１ｃの上方にマイク穴は形成されない。

撮像装置１００の筐体内および光学レンズ３００の筐体内において発生する駆動音は、マイク穴を介してＬマイク２０１ａ、およびＲマイク２０１ｂにより取得される。環境音が小さい状態で撮像装置１００および光学レンズ３００の筐体内において駆動音等が発生した場合、各マイクが取得する音声は、主としてこの駆動音となる。そのため、Ｌマイク２０１ａ、Ｒマイク２０１ｂからの音声レベルよりも、ノイズマイク２０１ｃからの音声レベルの方が大きい。つまり、この場合、各マイクから出力される音声信号のレベルの関係は、以下のようになる。
Ｌｃｈ≒Ｒｃｈ＜Ｎｃｈ

また、環境音が大きくなると、マイク２０１ｃからの、撮像装置１００または光学レンズ３００で発生した駆動音の音声レベルよりも、Ｌマイク２０１ａ、Ｒマイク２０１ｂからの環境音の音声レベルの方が大きくなる。そのため、この場合、各マイクから出力される音声信号のレベルの関係は、以下のようになる。
Ｌｃｈ≒Ｒｃｈ＞Ｎｃｈ

なお、本実施例では、外装部３０２に形成されるマイク穴の形状は楕円状であるが、円状または方形状等の他の形状でもよい。また、マイク２０１ａ上のマイク穴の形状とマイク２０１ｂ上のマイク穴の形状とは、互いに異なっていてもよい。

なお、本実施例では、ノイズマイク２０１ｃは、Ｌマイク２０１ａとＲマイク２０１ｂに近接するように配置される。また、本実施例では、ノイズマイク２０１ｃは、Ｌマイク２０１ａとＲマイク２０１ｂの間に配置される。これにより、撮像装置１００の筐体内および光学レンズ３００の筐体内において発生する駆動音等からノイズマイク２０１ｃによって生成される音声信号は、この駆動音等からＬマイク２０１ａおよびＲマイク２０１ｂによって生成される音声信号と似た信号になる。

マイクブッシュ３０３は、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃを固定するための部材である。固定部３０４は、マイクブッシュ３０３を外装部３０２に固定する部材である。

なお、本実施例では、外装部３０２および固定部３０４はＰＣ材等のモールド部材で構成される。また、外装部３０２および固定部３０４はアルミまたはステンレス等の金属部材で構成されてもよい。また、本実施例では、マイクブッシュ３０３は、エチレンプロピレンジエンゴム等のゴム材で構成される。

＜ノイズパラメータ＞
図５はノイズパラメータ記録部２０５に記録されているノイズパラメータの一例である。ノイズパラメータは、撮像装置１００の筐体内、および光学レンズ３００の筐体内において発生した駆動音をノイズマイク２０１ｃが取得することにより生成した音声信号を補正するためのパラメータである。図５に示すように、本実施例では、ノイズパラメータ記録部２０５にはＰＬｘおよびＰＲｘが記録されている。本実施例では、駆動音の発生源は光学レンズ３００の筐体内であるとして説明する。光学レンズ３００の筐体内で発生した駆動音はレンズマウント３０１を介して撮像装置１００の筐体内に伝達し、Ｌマイク２０１ａ、Ｒマイク２０１ｂ、およびノイズマイク２０１ｃによって取得される。

駆動音の種類によって、駆動音の周波数が異なる。そのため、本実施例では、撮像装置１００は、駆動音（ノイズ）の種類に対応した複数のノイズパラメータを記録する。そして、これら複数のノイズパラメータのうちの何れかを用いてノイズデータを生成する。本実施例では、撮像装置１００は、恒常的なノイズとしてホワイトノイズに対するノイズパラメータを記録する。また、撮像装置１００は、例えば光学レンズ３００内のギアがかみ合わさることによって発生する短期的なノイズに対するノイズパラメータを記録する。また、撮像装置１００は、長期的なノイズとして、例えばレンズ３００の筐体内における摺動音に対するノイズパラメータを記録する。他にも、撮像装置１００は光学レンズ３００の種類ごと、並びに、情報取得部１０３によって検出される撮像装置１００の筐体内の温度および撮像装置１００の傾きごとにノイズパラメータを記録してもよい。

＜ノイズデータの生成方法＞
図６および図７を用いて、ノイズデータ生成部２０４におけるノイズデータの生成処理を説明する。ここではＬｃｈのデータに関するノイズデータの生成処理について説明するが、Ｒｃｈのデータに関するノイズデータの生成方法も同様である。

まず、環境音がないと見なせる状況において、ノイズパラメータを生成する処理について説明する。図６（ａ）は、環境音がないと見なせる状況において光学レンズ３００の筐体内で駆動音が発生した場合におけるＬｃｈ＿Ｂｅｆｏｒｅの周波数スペクトルの一例である。図６（ｂ）は、環境音がないと見なせる状況において光学レンズ３００の筐体内で駆動音が発生した場合におけるＮｃｈ＿Ｂｅｆｏｒｅの周波数スペクトルの一例である。横軸は０ポイント目から５１２ポイント目までの周波数を示す軸、縦軸は周波数スペクトルの振幅を示す軸である。

環境音がないと見なせる状況のため、Ｌｃｈ＿ＢｅｆｏｒｅおよびＮｃｈ＿Ｂｅｆｏｒｅでは、同じ周波数帯域の周波数スペクトルの振幅が大きくなる。また、光学レンズ３００の筐体内において駆動音が発生しているため、同じ駆動音に対する各周波数スペクトルの振幅はＬｃｈ＿ＢｅｆｏｒｅよりもＮｃｈ＿Ｂｅｆｏｒｅのほうが大きい傾向になる。

図６（ｃ）は本実施例におけるＰＬｘの一例である。本実施例では、ＰＬｘは、Ｌｃｈ＿Ｂｅｆｏｒｅの各周波数スペクトルの振幅をＮｃｈ＿Ｂｅｆｏｒｅの各周波数スペクトルの振幅で除算したことによって算出された各周波数スペクトルの係数である。この除算の結果を、Ｌｃｈ＿Ｂｅｆｏｒｅ／Ｎｃｈ＿Ｂｅｆｏｒｅと記載する。すなわち、ＰＬｘはＬｃｈ＿ＢｅｆｏｒｅおよびＮｃｈ＿Ｂｅｆｏｒｅの振幅の比である。ノイズパラメータ記録部２０５は、Ｌｃｈ＿Ｂｅｆｏｒｅ／Ｎｃｈ＿Ｂｅｆｏｒｅの値をノイズパラメータＰＬｘとして記録している。前述のように、同じ駆動音に対する周波数スペクトルの振幅はＬｃｈ＿ＢｅｆｏｒｅよりもＮｃｈ＿Ｂｅｆｏｒｅのほうが大きい傾向にあるため、ノイズパラメータＰＬｘの各係数の値は１よりも小さい値になる傾向になる。ただし、Ｎｃｈ＿Ｂｅｆｏｒｅ［ｎ］の値が所定の閾値より小さい場合、ノイズパラメータ記録部２０５はＰＬｘ［ｎ］＝０としてノイズパラメータＰＬｘを記録する。

次に、生成されたノイズパラメータをＮｃｈ＿Ｂｅｆｏｒｅに適用する処理について説明する。図７（ａ）は環境音が存在している状況において光学レンズ３００の筐体内で駆動音が発生した場合におけるＬｃｈ＿Ｂｅｆｏｒｅの周波数スペクトルの一例である。図７（ｂ）は環境音が存在している状況において光学レンズ３００の筐体内で駆動音が発生した場合におけるＮｃｈ＿Ｂｅｆｏｒｅの周波数スペクトルの一例である。横軸は０ポイント目から５１２ポイント目までの周波数を示す軸、縦軸は周波数スペクトルの振幅を示す軸である。

図７（ｃ）は環境音が存在している状況において光学レンズ３００の筐体内で駆動音が発生した場合におけるＮＬの一例である。ノイズデータ生成部２０４は、Ｎｃｈ＿Ｂｅｆｏｒｅの各周波数スペクトルと、ＰＬｘの各係数とを乗算し、ＮＬを生成する。ＮＬは、このように生成された周波数スペクトルである。

図７（ｄ）は環境音が存在している状況において光学レンズ３００の筐体内で駆動音が発生した場合におけるＬｃｈ＿Ａｆｔｅｒの一例である。減算処理部２０７は、Ｌｃｈ＿ＢｅｆｏｒｅからＮＬを減算し、Ｌｃｈ＿Ａｆｔｅｒを生成する。Ｌｃｈ＿Ａｆｔｅｒは、このように生成された周波数スペクトルである。

これにより、撮像装置１００は、光学レンズ３００の筐体内の駆動音が原因であるノイズを低減し、ノイズの少ない環境音を記録することができる。

＜ノイズパラメータ選択部２０６の説明＞
図８は、ノイズパラメータ選択部２０６の詳細な構成の一例を示すブロック図である。

ノイズパラメータ選択部２０６には、Ｌｃｈ＿Ｂｅｆｏｒｅ、Ｒｃｈ＿Ｂｅｆｏｒｅ、Ｎｃｈ＿Ｂｅｆｏｒｅ、およびレンズ制御信号が入力される。

Ｎｃｈノイズ検出部２０６１は、光学レンズ３００の筐体内で発生した駆動音によるノイズをＮｃｈ＿Ｂｅｆｏｒｅから検出する。Ｎｃｈノイズ検出部２０６１は、ノイズの検出結果に基づいて、ノイズの検出結果に関するデータをノイズ判定部２０６３に出力する。なお、本実施例では、Ｎｃｈノイズ検出部２０６１はＮｃｈ＿Ｂｅｆｏｒｅの５１３ポイントのデータを利用してノイズを検出する。

環境音検出部２０６２は、環境音のレベルをＬｃｈ＿ＢｅｆｏｒｅおよびＲｃｈ＿Ｂｅｆｏｒｅから検出する。環境音検出部２０６２は、環境音のレベルの検出結果に基づいて、環境音のレベルの検出結果に関するデータをノイズ判定部２０６３に出力する。

ノイズ判定部２０６３は、レンズ制御部１０２から入力されるレンズ制御信号、Ｎｃｈノイズ検出部２０６１から入力されるデータ、および環境音検出部２０６２から入力されるデータに基づいて、ノイズデータ生成部２０４が用いるノイズパラメータを決める。ノイズ判定部２０６３は、決定したノイズパラメータの種類を示すデータをノイズデータ生成部２０４に出力する。

Ｎｃｈ微分部２０６４はＮｃｈ＿Ｂｅｆｏｒｅに対して微分処理を実行する。Ｎｃｈ微分部２０６４はＮｃｈ＿Ｂｅｆｏｒｅを微分処理した結果を示すデータを短期雑音検出部２０６５に出力する。短期雑音検出部２０６５は、Ｎｃｈ微分部２０６４から入力されたデータに基づいて、短期的なノイズが発生しているか否かを検出する。短期雑音検出部２０６５は、短期的なノイズが発生しているか否かを示すデータをノイズ判定部２０６３に出力する。なお、Ｎｃｈ微分部２０６４および短期雑音検出部２０６５はＮｃｈノイズ検出部２０６１に含まれる。

Ｎｃｈ積分部２０６６は、Ｎｃｈ＿Ｂｅｆｏｒｅに対して積分処理を実行する。Ｎｃｈ積分部２０６６はＮｃｈ＿Ｂｅｆｏｒｅを微分処理した結果を示すデータを長期雑音検出部２０６７に出力する。長期雑音検出部２０６７は、Ｎｃｈ積分部２０６６から入力されたデータに基づいて、長期的なノイズが発生しているか否かを検出する。長期雑音検出部２０６７は、長期的なノイズが発生しているか否かを示すデータをノイズ判定部２０６３に出力する。なお、Ｎｃｈ積分部２０６６および長期雑音検出部２０６７はＮｃｈノイズ検出部２０６１に含まれる。

環境音抽出部２０６８は、環境音を抽出する。本実施例では、環境音抽出部２０６８はノイズラメータに基づいて、ノイズの影響が少ない周波数のデータを抽出する。例えば、環境音抽出部２０６８はノイズパラメータが所定の値以下である周波数のデータを抽出する。そして、環境音抽出部２０６８は抽出した周波数のデータに基づいて、環境音の大きさを示すデータを出力する。なお、環境音抽出部２０６８は環境音検出部２０６２に含まれる。

環境音判定部２０６９は、環境音の大きさを判定する。環境音判定部２０６９は、判定した環境音の大きさを示すデータをＮｃｈノイズ検出部２０６１およびノイズ判定部２０６３に入力する。Ｎｃｈノイズ検出部２０６１は、環境音判定部２０６９から入力された環境音の大きさを示すデータに基づいて、後述する第一の閾値および第二の閾値を変更する。なお、環境音判定部２０６９は環境音検出部２０６２に含まれる。

＜ノイズ低減処理のタイミングチャート＞
本実施例におけるノイズ低減処理に関して、図９を用いて説明する。

図９（ａ）～（ｉ）はノイズデータ生成部２０４、ノイズパラメータ選択部２０６、および減算処理部２０７における音声処理のタイミングチャートの一例である。本実施例では説明の簡易化のため、Ｌｃｈの音声処理について説明するが、Ｒｃｈの音声処理も同様である。図９（ａ）～（ｉ）におけるグラフの横軸はすべて時間軸である。

図９（ａ）はレンズ制御信号の一例を示す。レンズ制御信号はレンズ制御部１０２が光学レンズ３００に駆動するよう指示する信号である。本実施例では、レンズ制御信号のレベルはＨｉｇｈとＬｏｗの２値で表される。レンズ制御信号のレベルがＨｉｇｈである場合、レンズ制御部１０２は光学レンズ３００に駆動するよう指示している状態である。レンズ制御信号のレベルがＬｏｗである場合、レンズ制御部１０２は光学レンズ３００に駆動を指示していない状態である。

図９（ｂ）はＬｃｈ＿Ｂｅｆｏｒｅ［ｎ］の値の一例を示すグラフである。縦軸はＬｃｈ＿Ｂｅｆｏｒｅ［ｎ］の値を示す軸である。本実施例では、Ｌｃｈ＿Ｂｅｆｏｒｅ［ｎ］はＦＦＴ部２０３から出力されるＬｃｈ＿Ｂｅｆｏｒｅのうち、光学レンズ３００の駆動音を示す信号が特徴的に表れるｎ番目の周波数ポイントの信号である。なお、本実施例では、ｎ番目の周波数ポイントの信号について説明するが、ほかの周波数に対しても同様に音声処理が実行される。また、信号Ｘおよび信号Ｙで示す信号はノイズが含まれる信号である。本実施例では信号Ｘは短期的なノイズが含まれる信号を示す。信号Ｙは長期的なノイズが含まれるノイズ信号を示す。

図９（ｃ）は環境音抽出部２０６８において抽出された環境音の大きさの一例を示すグラフである。縦軸は取得された環境音から生成された音声信号のレベルを示す。閾値Ｔｈ１および閾値Ｔｈ２は、環境音判定部２０６９において用いられる２つの閾値である。

図９（ｄ）はＮｃｈ＿Ｂｅｆｏｒｅ［ｎ］の値の一例を示すグラフである。Ｎｃｈ＿Ｂｅｆｏｒｅ［ｎ］は、ＦＦＴ部２０３から出力されるＮｃｈ＿Ｂｅｆｏｒｅのうち、光学レンズ３００の駆動音を示す信号が特徴的に表れるｎ番目の周波数ポイントの信号である。縦軸は、Ｎｃｈ＿Ｂｅｆｏｒｅ［ｎ］の値を示す軸である。Ｎｃｈ＿Ｂｅｆｏｒｅ［ｎ］には、図９（ｂ）における、信号Ｘおよび信号Ｙで示したノイズ信号がＬｃｈ＿Ｂｅｆｏｒｅよりも特徴的に表れる。

図９（ｅ）はＮｄｉｆｆ［ｎ］の値の一例を示すグラフである。Ｎｄｉｆｆ［ｎ］は、Ｎｃｈ微分部２０６４から出力されるＮｄｉｆｆのうち、ｎ番目の周波数ポイントの信号の値を示したものである。縦軸は、Ｎｄｉｆｆ［ｎ］の値を示す軸である。Ｎｃｈ＿Ｂｅｆｏｒｅ［ｎ］の所定時間あたりの値の変化量が大きい場合、Ｎｄｉｆｆ［ｎ］の値が大きくなる。短期雑音検出部２０６５は、短期的なノイズを検出するために、第一の閾値である閾値Ｔｈ＿Ｎｄｉｆｆ［ｎ］を持つ。閾値Ｔｈ＿Ｎｄｉｆｆ［ｎ］は、環境音判定部２０６９から入力された環境音の大きさを示すデータおよびレンズ制御信号に基づいてレベル１～３の間で変化する。閾値Ｔｈ＿Ｎｄｉｆｆ［ｎ］の初期値はレベル２とする。また閾値Ｔｈ＿Ｎｄｉｆｆ［ｎ］のレベルは横の破線で表される。

図９（ｆ）はＮｉｎｔ［ｎ］の値の一例を示すグラフである。本実施例では、Ｎｉｎｔ［ｎ］は、Ｎｃｈ積分部２０６６から出力されるＮｉｎｔのうち、ｎ番目の周波数ポイントの信号の値を示したものである。縦軸は、Ｎｉｎｔ［ｎ］の値を示す軸である。Ｎｃｈ＿Ｂｅｆｏｒｅ［ｎ］が継続的に大きい場合、Ｎｉｎｔ［ｎ］の値が大きくなる。長期雑音検出部２０６７は、長期的なノイズを検出するために、第二の閾値である閾値Ｔｈ＿Ｎｉｎｔ［ｎ］を持つ。閾値Ｔｈ＿Ｎｉｎｔ［ｎ］は、環境音判定部２０６９から入力された環境音の大きさを示すデータおよびレンズ制御信号に基づいてレベル１～３の間で変化する。閾値Ｔｈ＿Ｎｉｎｔ［ｎ］の初期値はレベル２とする。また閾値Ｔｈ＿Ｎｉｎｔ［ｎ］のレベルは横の破線で表される。

図９（ｇ）はノイズパラメータ選択部２０６によって選択されたノイズパラメータの一例を表す。本実施例では、無地部はＰＬ１のノイズパラメータのみが選択されていることを示す。斜線部はＰＬ１およびＰＬ２のノイズパラメータが選択されていることを示す。格子縞部はＰＬ１およびＰＬ３のノイズパラメータが選択されていることを示す。

図９（ｈ）はＮＬ［ｎ］の値の一例を示すグラフである。本実施例では、ＮＬ［ｎ］は、ノイズデータ生成部２０４で生成されるＮＬのうち、ｎ番目の周波数ポイントの信号の値を示したものである。縦軸は、ＮＬ［ｎ］の値を示す軸である。

図９（ｉ）はＬｃｈ＿Ａｆｔｅｒ［ｎ］の値の一例を示すグラフである。本実施例では、Ｌｃｈ＿Ａｆｔｅｒ［ｎ］は、減算処理部２０７から出力されるＬｃｈ＿Ａｆｔｅｒのうち、ｎ番目の周波数ポイントの信号の値を示したものである。縦軸は、Ｌｃｈ＿Ａｆｔｅｒ［ｎ］の値を示す軸である。

次にそれぞれの動作に関してタイミングを時刻ｔ７０１～ｔ７０９を用いて説明する。

時刻ｔ７０１において、レンズ制御部１０２は光学レンズ３００およびノイズパラメータ選択部２０６に、レンズ制御信号としてＨｉｇｈの信号を出力する（図９（ａ））。時刻ｔ７０１において、光学レンズ３００の筐体内で駆動音が発生する可能性が高いため、短期雑音検出部２０６５は閾値Ｔｈ＿Ｎｄｉｆｆ［ｎ］をレベル１に下げる（図９（ｅ））。また時刻ｔ７０１において、光学レンズ３００の筐体内で駆動音が発生する可能性が高いため、長期雑音検出部２０６７は閾値Ｔｈ＿Ｎｉｎｔ［ｎ］をレベル１に下げる（図９（ｆ））。

時刻ｔ７０２において、光学レンズ３００が駆動し、ギアのかみ合う音などの短期的な駆動音が発生する。ノイズマイク２０１ｃがその短期的な駆動音を収音したことにより、Ｎｄｉｆｆ［ｎ］の値が閾値Ｔｈ＿Ｎｄｉｆｆ［ｎ］を超える（図９（ｅ））。これに応じて、ノイズパラメータ選択部２０６はノイズパラメータＰＬ１およびＰＬ２を選択する（図９（ｇ））。ノイズデータ生成部２０４はＮｃｈ＿Ｂｅｆｏｒｅ［ｎ］、およびノイズパラメータＰＬ１およびＰＬ２に基づいてＮＬ［ｎ］を生成する（図９（ｈ））。減算処理部２０７は、Ｌｃｈ＿Ｂｅｆｏｒｅ［ｎ］からＮＬ［ｎ］を減算し、Ｌｃｈ＿Ａｆｔｅｒ［ｎ］を出力する（図９（ｉ））。この場合、Ｌｃｈ＿Ａｆｔｅｒ［ｎ］は恒常的なノイズおよび短期的なノイズが低減された音声信号になる。

時刻ｔ７０３において、光学レンズ３００が連続的な駆動を開始し、光学レンズ３００の筐体内において摺動音などの長期的な駆動音が発生する。ノイズマイク２０１ｃがその長期的な駆動音を収音したことにより、Ｎｉｎｔ［ｎ］の値が閾値Ｔｈ＿Ｎｉｎｔ［ｎ］を超える（図９（ｆ））。これに応じて、ノイズパラメータ選択部２０６はノイズパラメータＰＬ１およびＰＬ３を選択する（図９（ｇ））。ノイズデータ生成部２０４はＮｃｈ＿Ｂｅｆｏｒｅ［ｎ］、および、ノイズパラメータＰＬ１およびＰＬ３に基づいてＮＬ［ｎ］を生成する（図９（ｈ））。減算処理部２０７は、Ｌｃｈ＿Ｂｅｆｏｒｅ［ｎ］からＮＬ［ｎ］を減算し、Ｌｃｈ＿Ａｆｔｅｒ［ｎ］を出力する（図９（ｉ））。この場合、Ｌｃｈ＿Ａｆｔｅｒ［ｎ］は恒常的なノイズおよび長期的なノイズが低減された音声信号になる。

時刻ｔ７０４において、光学レンズ３００が連続的な駆動を停止する。ノイズマイク２０１ｃがその長期的な駆動音を収音しなくなるため、Ｎｉｎｔ［ｎ］の値が閾値Ｔｈ＿Ｎｉｎｔ［ｎ］以下になる（図９（ｆ））。これに応じて、ノイズパラメータ選択部２０６はノイズパラメータＰＬ１を選択する（図９（ｇ））。ノイズデータ生成部２０４は、Ｎｃｈ＿Ｂｅｆｏｒｅ［ｎ］、および、ノイズパラメータＰＬ１に基づいてＮＬ［ｎ］を生成する（図９（ｈ））。減算処理部２０７は、Ｌｃｈ＿Ｂｅｆｏｒｅ［ｎ］からＮＬ［ｎ］を減算し、Ｌｃｈ＿Ａｆｔｅｒ［ｎ］を出力する（図９（ｉ））。この場合、Ｌｃｈ＿Ａｆｔｅｒ［ｎ］は恒常的なノイズが低減された音声信号になる。

時刻ｔ７０５においてレンズ制御部１０２は、光学レンズ３００およびノイズパラメータ選択部２０６にレンズ制御信号としてＬｏｗの信号を出力する（図９（ａ））。この場合、光学レンズ３００の筐体内において駆動音が発生する可能性が低くなるため、短期雑音検出部２０６５は閾値Ｔｈ＿Ｎｄｉｆｆ［ｎ］をレベル２に上げる（図９（ｅ））。また、この場合、光学レンズ３００の筐体内において駆動音が発生する可能性が低くなるため、長期雑音検出部２０６７は閾値Ｔｈ＿Ｎｉｎｔ［ｎ］をレベル２に上げる（図９（ｆ））。

時刻ｔ７０６において、環境音抽出部２０６８において抽出された環境音の大きさが閾値Ｔｈ１を超える。環境音が大きい場合、ユーザには音声信号に含まれるノイズが感じられにくくなるため、短期雑音検出部２０６５は閾値Ｔｈ＿Ｎｄｉｆｆ［ｎ］をレベル３に上げる（図９（ｅ））。また、環境音が大きい場合、ユーザには音声信号に含まれるノイズが感じられにくくなるため、長期雑音検出部２０６７は閾値Ｔｈ＿Ｎｉｎｔ［ｎ］をレベル３に上げる（図９（ｆ））。

時刻ｔ７０７において、レンズ制御部１０２は光学レンズ３００およびノイズパラメータ選択部２０６に、レンズ制御信号としてＨｉｇｈの信号を出力する（図９（ａ））。この場合、光学レンズ３００の筐体内において駆動音が発生する可能性が高いため、短期雑音検出部２０６５は閾値Ｔｈ＿Ｎｄｉｆｆ［ｎ］をレベル２に下げる（図９（ｅ））。また、この場合、光学レンズ３００の筐体内において駆動音が発生する可能性が高いため、長期雑音検出部２０６７は閾値Ｔｈ＿Ｎｉｎｔ［ｎ］をレベル２に下げる（図９（ｆ））。

時刻ｔ７０８において、環境音抽出部２０６８において抽出された環境音の大きさが閾値Ｔｈ２を超える。環境音がさらに大きい場合、ユーザには音声信号に含まれるノイズはほとんど感じられないため、ノイズパラメータ選択部２０６はＮｃｈノイズ検出部２０６１から入力されるデータにかかわらずノイズパラメータＰＬ１のみを選択する。

以上のように、撮像装置１００は第２のマイクであるノイズマイク２０１ｃを利用してノイズ低減処理を実行することで、ノイズが低減された環境音を記録することができる。

なお、本実施例では、撮像装置１００は、光学レンズ３００の筐体内で発生する駆動音を低減したが、撮像装置１００内で発生する駆動音を低減してもよい。撮像装置１００内で発生する駆動音は例えば、基板の音鳴き、および無線電波ノイズである。なお、基板の音鳴きは、例えば基板上のコンデンサに電圧を印加した際に生じる基板のきしみによって発生する音である。

なお、環境音判定部２０６９の閾値Ｔｈ１および閾値Ｔｈ２、短期雑音検出部２０６５の閾値Ｔｈ＿Ｎｄｉｆｆ［ｎ］、並びに、長期雑音検出部２０６７の閾値Ｔｈ＿Ｎｉｎｔ［ｎ］は発生する駆動音と環境音とに基づいて決定される。そのため、撮像装置１００は、光学レンズ３００の種類および撮像装置１００の傾き等によって、これらの閾値をそれぞれ変更してもよい。

［第二の実施例］
ここで、図１０は第二の実施例における音声入力部１０４の構成例を示すブロック図である。図３に示す音声入力部１０４の構成と異なる部分は、減算処理部２０７およびｉＦＦＴ部２０８である。ここで、図３と同様の処理部に関する説明は省略する。

ｉＦＦＴ部２０８ａは、ＦＦＴ部２０３から入力されたＬｃｈ＿Ｂｅｆｏｒｅ、およびＲｃｈ＿Ｂｅｆｏｒｅをそれぞれ逆高速フーリエ変換して、周波数領域のデジタル音声信号を時間領域のデジタル音声信号へそれぞれ変換する。また、ｉＦＦＴ部２０８ｂは、ＮＬ，およびＮＲをそれぞれ逆高速フーリエ変換して、周波数領域のデジタル音声信号を時間領域のデジタル音声信号へ変換する。

減算処理部２０７は、ｉＦＦＴ部２０８ａから入力されたデジタル音声信号からｉＦＦＴ部２０８ｂから入力されたデジタル音声信号を減算する。減算処理部２０７における演算処理は、デジタル音声信号を時間領域において減算する波形減算方式である。

なお、波形減算を行う場合、撮像装置１００はノイズパラメータとして、デジタル音声信号の位相に関するパラメータも記録してもよい。

その他の撮像装置１００の構成および動作は第一の実施例と同様である。

［その他の実施例］
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

なお、本発明は上記実施例そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施例に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例にわたる構成要素を適宜組み合わせてもよい。

Claims

環境音を取得するための第一のマイクと、
ノイズ源からの音を取得するための第二のマイクと、
前記第一のマイクからの音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段と、
前記第二のマイクからの音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段と、
前記第二の音声信号に基づいて、前記ノイズ源からノイズが発生したことを検出する検出手段と、
前記検出手段によるノイズの検出結果に基づいて、前記第二の音声信号と、前記ノイズ源のノイズに係るパラメータとを用いてノイズデータを生成する生成手段と、
前記第一の音声信号から前記ノイズデータを減算する減算手段と、
前記減算手段からの音声信号を逆フーリエ変換する第三の変換手段と、
を有することを特徴とする音声処理装置。
前記生成手段は、前記検出手段によるノイズの検出結果に基づいて、第一の種類のノイズに対応した第一のパラメータと、第二の種類のノイズに対応した第二のパラメータとを含む、複数のパラメータの少なくとも何れかと前記第二の音声信号とを用いて、前記ノイズデータを生成することを特徴とする請求項１に記載の音声処理装置。
前記生成手段は、前記ノイズ源からノイズが発生したことが前記検出手段によって検出されなかった場合、前記第二の音声信号と、前記第一のパラメータと、を用いてノイズデータを生成し、
前記生成手段は、前記ノイズ源からノイズが発生したことが前記検出手段によって検出された場合、前記第二の音声信号と、前記第一のパラメータおよび前記第二のパラメータと、を用いてノイズデータを生成する
ことを特徴とする請求項２に記載の音声処理装置。
前記第一の種類のノイズは、恒常的なノイズであり、前記第二の種類のノイズは、短期的なノイズ、または長期的なノイズの少なくともいずれかを含む
ことを特徴とする請求項２または３に記載の音声処理装置。
前記複数のパラメータの情報を記録する記録手段を有することを特徴とする請求項２または３に記載の音声処理装置。
前記第一のマイクは複数のマイクで構成され、
前記記録手段は前記第一のマイクを構成するマイクごとに前記パラメータを記録する
ことを特徴とする請求項５に記載の音声処理装置。
前記生成手段は、前記複数のパラメータのうち、前記第二の音声信号に含まれるノイズの種類に対応したパラメータと、前記第二の音声信号とを用いて前記ノイズデータを生成する
ことを特徴とする請求項２から６のいずれか１項に記載の音声処理装置。
前記検出手段は、所定の周波数の音声信号に基づいて、前記ノイズ源からノイズが発生したか否かを検出する
ことを特徴とする請求項１から７のいずれか１項に記載の音声処理装置。
前記検出手段によるノイズの検出結果に基づいて、前記ノイズ源のノイズに係るパラメータを決定する決定手段をさらに有し、
前記生成手段は、前記第二の音声信号と、前記決定手段によって決定された前記ノイズ源のノイズに係るパラメータと、を用いてノイズデータを生成する
ことを特徴とする請求項１から８のいずれか１項に記載の音声処理装置。
前記音声処理装置において、前記第一のマイクの上方に環境音を入力するための穴が形成され、前記第二のマイクの上方には環境音を入力するための穴が形成されない
ことを特徴とする請求項１から９のいずれか１項に記載の音声処理装置。
前記パラメータは前記第一の音声信号および前記第二の音声信号の振幅の比であることを特徴とする請求項１から１０のいずれか１項に記載の音声処理装置。
撮像手段をさらに有し、
前記ノイズ源は、前記撮像手段における撮像において駆動する部材である
ことを特徴とする請求項１から１１のいずれか１項に記載の音声処理装置。
環境音を取得するための第一のマイクと、
ノイズ源からの音を取得するための第二のマイクとを有する音声処理装置の制御方法であって、
前記第一のマイクからの音声信号をフーリエ変換して第一の音声信号を生成するステップと、
前記第二のマイクからの音声信号をフーリエ変換して第二の音声信号を生成するステップと、
前記第二の音声信号に基づいて、前記ノイズ源からノイズが発生したか否かを検出する検出ステップと、
前記検出ステップにおけるノイズの検出結果に基づいて、前記第二の音声信号と、前記ノイズ源のノイズに係るパラメータとを用いてノイズデータを生成するステップと、
前記第一の音声信号から前記ノイズデータを減算する減算ステップと、
前記減算ステップによって生成された音声信号を逆フーリエ変換するステップと、
を有することを特徴とする制御方法。
コンピュータを請求項１から１２のいずれか１項に記載の音声処理装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。