JP6637926B2

JP6637926B2 - 音声処理装置及びその制御方法

Info

Publication number: JP6637926B2
Application number: JP2017111161A
Authority: JP
Inventors: 悠貴辻本; 啓太園田; 佐藤　龍介; 龍介佐藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-06-05
Filing date: 2017-06-05
Publication date: 2020-01-29
Anticipated expiration: 2037-06-05
Also published as: JP2018205547A; US10535363B2; US20180350385A1

Description

本発明は駆動機構を有する装置における音声処理技術に関するものである。

従来、デジタルカメラ、デジタルビデオカメラに代表される撮像装置は、撮像して得た動画像データと、被写体の周囲の音声データとを併せて記録する。以降、記録の目的となる被写体の周囲の音声を、以下、「周囲環境音」と称する。

また、撮像装置は、光学レンズを移動させることで、撮像中に動被写体をフォーカスしたり、ズームしたりすることができる。ここで、光学レンズの移動はメカニカルに行われるものであり、そのレンズの移動の際には駆動音が発生する。この駆動音が、周囲環境音に重畳してしまうと、音声付動画像としての品位が損なわれてしまう。

かかる騒音を低減する技術として、特許文献１、特許文献２が知られている。

特開２００６−２７９１８５号公報特開２０１１−１１４４６５号公報

特許文献１は、スペクトルサブトラクション法を開示するものである。このスペクトルサブトラクション法を簡単に説明すると、次の通りである。

マイクロホンから取得した時系列の音声データに対して、高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅＴｒａｎｓｆｏｒｍ）を適用することで、周波数スペクトルデータを生成する。そして、この周波数スペクトルデータから、ノイズプロファイルとして予め用意された駆動部のノイズを表す周波数スペクトルデータを減じる。この減算結果に対し、逆高速フーリエ変換（ｉＦＦＴ）を行うことで、ノイズ除去後の時系列の音声データを生成する、というものである。

しかしながら、製品ごとに、駆動部から出力される駆動信号にある程度のばらつきがある。従って、１つのノイズプロファイルで定義されるノイズと、実際の製品の駆動部が発するノイズとが完全には一致するものではなく、周囲環境音からノイズ以外の音まで除去してしまう可能性がある。

特許文献２は、通常の周囲環境音用のマイクだけでなく、ノイズ検出用マイクを撮像装置内に搭載する、というものである。特許文献２によると、撮像装置は、装置の外部の音声を取得するための第一のマイクと、装置の内部で発生するノイズを取得するための第二のマイクを備える。第一のマイクからは、装置外部の音声である音声信号が出力され、第二のマイクからは、装置内部で発生する駆動音を示すノイズ信号が出力される。撮像装置は前記音声信号から前記ノイズ信号を減算処理する事で、音声信号に含まれるノイズを低減している。

しかしながら、特許文献２による方法では、周囲環境音を取得するためのマイクのほかに、ノイズを取得するためのマイクを追加しなければならず、コストや面積が増加してしまうという問題がある。特許文献２ではモノラル音声を取得する構成となっているが、例えば、ステレオ音を取得する装置の場合、ステレオ音声用に２つ、ノイズ用に１つの計３つのマイクが必要となる。

本発明は上記問題に鑑みなされたものであり、ステレオ音声を取得するための２つのマイクの構成のままで、新たなマイクを追加せずに、ノイズを低減したステレオ音声信号を得る技術を提供しようとするものである。

この課題を解決するため、例えば本発明の音声処理装置は以下の構成を備える。すなわち、
音声処理装置であって、
駆動部と、
前記音声処理装置外からの音声を主として取得する第１のマイクと、
前記駆動部による駆動騒音を主として取得する第２のマイクと、
前記第１のマイクから得られた時系列の音声データを第１の周波数スペクトルデータに変換し、前記第２のマイクから得られた時系列の音声データを第２の周波数スペクトルデータに変換する変換手段と、
前記変換手段で得た前記第１の周波数スペクトルデータと前記第２の周波数スペクトルデータから、周波数毎の前記駆動騒音の減算量を演算する駆動音演算処理手段と、
前記変換手段で得た前記第１の周波数スペクトルデータと前記第２の周波数スペクトルデータ及び、前記駆動音演算処理手段で得られた駆動騒音の減算量とに基づき、前記駆動騒音が抑制された、左チャネルの周波数スペクトルデータと、右チャネルの周波数スペクトルデータとを生成する生成手段と、
前記生成手段で生成された左右のチャネルのそれぞれの周波数スペクトルデータを、時系列の左右チャネルのそれぞれの音声データに逆変換する逆変換手段と
を有することを特徴とする音声処理装置。

本発明によれば、ステレオ音声を取得するための２つのマイクの構成のままで、新たなマイクを追加せずに、ノイズを低減したステレオ音声信号を得ることができる。

実施形態の撮像装置のブロック構成図。実施形態の撮像装置の撮像部、音声入力部の詳細なブロック構成図。実施形態の撮像装置の音声入力部のメカ構成図。実施形態の撮像装置のＲＥＣのシーケンスを示すフローチャート。実施形態の撮像装置のＬ／Ｒｃｈ生成部のタイミングチャート。実施形態の撮像装置の音声入力部の詳細な構成を示すブロック図。周囲環境音の撮像装置への伝搬する系を示す図。実施形態の撮像装置のメインマイクａからの周波数スペクトルとサブマイクｂからの周波数スペクトルの位相の関係を示す図。実施形態のステレオ感の強調係数と周波数の関係を示す図。実施形態の撮像装置のメインマイクａとサブマイクｂ其々の各周波数毎の振幅スペクトルを示す図。実施形態の撮像装置のサブマイクｂの周波数Ｎポイント目の時系列の振幅スペクトルを示す図。実施形態の撮像装置のメインマイクａとサブマイクｂ其々の時系列の位相を示す図である。実施形態の撮像装置のＭｃｈ−Ｓｃｈ演算部の動作タイミングチャート。実施形態の撮像装置の感度差補正部の動作タイミングチャート。実施形態の撮像装置の音声入力部のメカ構成図。実施形態の撮像装置のメインマイクａからの周波数スペクトルとサブマイクｂからの周波数スペクトルを示す図。実施形態の風雑音レベルに対する風雑音ゲインの周波数関係を示す図。実施形態の撮像装置のメインマイクａからの周波数スペクトルとサブマイクｂからの周波数スペクトルの合成される比率と周波数の関係を示す図。実施形態の撮像装置のステレオ抑制部について、駆動騒音検出時と風雑音検出時に応じて、ステレオ効果の強調に用いる強調係数を変更するタイミングチャート。実施形態の風雑音検出時における、合成比率と周波数とステレオ効果の強調に用いる強調係数の関係を示す図。実施形態の駆動騒音除去ゲインと風雑音減算量とＬｃｈ生成用ステレオゲインとＲｃｈ生成用ステレオゲインの時定数を示す図。

以下図面に従って本発明に係る実施形態を詳細に説明する。本実施形態では、撮像装置に収容される音声処理装置ついて説明する。

図１は実施形態の撮像装置１００の構成を示すブロック図である。撮像装置１００は、撮像部１０１、音声入力部１０２、メモリ１０３、表示制御部１０４、表示部１０５を有する。また、撮像装置１００は、符号化処理部１０６、記録再生部１０７、記録媒体１０８、制御部１０９、操作部１１０、音声出力部１１１、スピーカ１１２、外部出力部１１３、並びに、これらを接続するバス１１４を有する。

撮像部１０１は、撮影光学レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。撮影光学レンズは、内蔵型の光学レンズであっても、着脱式の光学レンズであっても良い。また、撮像素子は、ＣＣＤ、ＣＭＯＳ等に代表される光電変換素子であればよい。

音声入力部１０２は、内蔵または音声端子を介して接続されたマイクにより、音声処理装置外（実施形態では撮像装置外）からの周辺の音声を集音し、電気信号を生成する。また、音声入力部１０２は、アナログデジタル変換、音声処理などを行い音声データを生成する。マイクは、指向性、無指向性を問わないが、本実施形態では無指向性のマイクを使用するものとする。

メモリ１０３は、撮像部１０１により得られた画像データや、音声入力部１０２により得られた音声データを一時的に記憶するために利用される。

表示制御部１０４は、撮像部１０１により得られた画像データに係る画像や、撮像装置１００の操作画面、メニュー画面等を表示部１０５や、不図示の映像端子を介して外部のディスプレイに表示する。表示部１０５の種類は問わないが、例えば液晶表示器である。

符号化処理部１０６は、メモリ１０３に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。また、音声データに関しては圧縮しないようにしてもよい。圧縮画像データは、例えば、ＭＰＥＧ２やＨ．２６４／ＭＰＥＧ４−ＡＶＣなど、どのような圧縮方式で圧縮されたものであってもよい。また、圧縮音声データも、ＡＣ３（Ａ）ＡＣ、ＡＴＲＡＣ、ＡＤＰＣＭなどのような圧縮方式で圧縮されたものであってもよい。また、符号化処理部１０６は、上記の符号化データ（圧縮画像データ、圧縮音声データ）の復号処理も行う。

記録再生部１０７は、記録媒体１０８に対して、符号化処理部１０６で生成された圧縮画像データ、圧縮音声データまたは音声データ、各種データを記録したり、記録媒体１０８から読出したりする。ここで、記録媒体１０８は、画像データ、音声データ等を記録する不揮発性の記録媒体である。例えば、磁気ディスク、光学式ディスク、半導体メモリなどであり、その種類は問わない。また、記録媒体１０８は、本装置１００に対して固定であっても、脱着可能であっても構わない。

制御部１０９は、バス１１４を介して、撮像装置１００の各ブロックに制御信号を送信することで撮像装置１００の各ブロックを制御するものであり、各種制御を実行するためのＣＰＵやメモリなどから構成される。制御部１０９で使用するメモリは、各種制御プログラムを格納するＲＯＭ、演算処理のためのワークエリアとして利用するＲＡＭ等であり、制御部１０９の外付けのメモリも含む。

操作部１１０は、ボタン、ダイヤル、タッチパネル、或いはそれらの組み合わせであり、ユーザの操作に応じて、指示信号を制御部１０９に送信する。操作部１１０は、具体的には、動画記録開始、終了を指示するための撮影ボタン、光学的もしくは電子的に画像に対してズーム動作する指示するためのズームレバー、各種調整をするための十字キー、決定キーなどを有する。

音声出力部１１１は、記録再生部１０７により再生された音声データや圧縮音声データ、または制御部１０９により出力される音声データをスピーカ１１２や音声端子などに出力する。外部出力部１１３は、記録再生部１０７により再生された圧縮映像データや圧縮音声データ、音声データなどを外部機器に出力する。データバス１１４は、音声データや画像データ等の各種データ、各種制御信号を撮像装置１００の各ブロックに供給する。

以上が実施形態における撮像装置１００の構成の説明である。次に、実施形態における撮像装置の通常の動作について説明する。

本実施形態の撮像装置１００は、ユーザが操作部１１０を操作して電源を投入する指示が出されたことに応じて、不図示の電源供給部からの電力が、撮像装置の各ブロックに供給される。

電源が供給されると、制御部１０９は、操作部１１０のモード切り換えスイッチが、例えば、撮影モード、再生モード等のどのモードを指定しているかを、操作部１１０からの指示信号により確認する。撮影モードにおける動画記録モードでは、撮像部１０１により得られた画像データと音声入力部１０２により得られた音声データとを１つの画像ファイルとして保存する。再生モードでは、記録媒体１０８に記録された画像ファイルを記録再生部１０７により再生して表示部１０５に表示させ、スピーカ１１２より出力することになる。

撮影モードでは、まず、制御部１０９は、撮影待機状態に移行させるように制御信号を撮像装置１００の各ブロックに送信し、以下のような動作をさせる。

撮像部１０１は、撮影光学レンズにより取り込まれた被写体の光学像を撮像素子により動画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、動画像データを生成する。そして、撮像部１０１は、得られた動画像データを表示処理部１０４に送信し、表示部１０５に表示させる。なお、撮像部１０１は、１フレームが水平１９２０画素×垂直１０８０画素、フレームレートが３０フレーム／秒の動画像信号を出力する。ユーザはこの様にして表示された画面を見ながら撮影の準備を行う。

音声入力部１０２は、複数のマイクにより得られたアナログ音声信号をデジタル信号に変換し、得られた複数のデジタル音声信号を処理して、マルチチャンネルの音声データを生成する。そして、得られた音声データを音声出力部１１１に送信し、接続されたスピーカ１１２や不図示のイヤホンから音声として出力させる。ユーザは、この様にして出力された音声を聞きながら記録音量を決定するためのマニュアルボリュームの調整をすることもできる。

次に、ユーザが操作部１１０の記録ボタンを操作することにより撮影開始の指示信号が制御部１０９に送信されると、制御部１０９は、撮像装置１００の各ブロックに撮影開始の指示信号を送信し、撮影モードにおける動画像記録モードに移行する。具体的な、制御部１０９の処理は以下の通りである。

撮像部１０１は、撮影光学レンズにより取り込まれた被写体の光学像を撮像素子により動画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、動画像データを生成する。そして、得られた動画像データを表示処理部１０４に送信し、表示部１０５に表示させる。また、撮像部１０１は、得られた画像データをメモリ１０３へ送信する。

音声入力部１０２は、複数のマイクにより得られたアナログ音声信号をデジタル信号に変換し、得られた複数のデジタル音声信号を処理して、マルチチャンネルの音声データを生成する。そして、得られた音声データをメモリ１０３に送信する。また、マイクが一つの場合には、得られたアナログ音声信号をデジタル変換し音声データを生成し、音声データをメモリ１０３に送信する。

符号化処理部１０６は、メモリ１０３に一時的に記憶された動画像データや音声データを読み出して所定の符号化を行い、圧縮動画像データ、圧縮音声データ等を生成し、再びメモリ１０３に格納する。

制御部１０９は、メモリ１０３に格納された圧縮動画像データ、圧縮音声データを合成し、データストリームを形成し、記録再生部１０７に出力する。音声データを圧縮しない場合には、制御部１０９は、メモリ１０３に格納された音声データと圧縮動画像データとを合成し、データストリームを形成して記録再生部１０７に出力する。

記録再生部１０７は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体１０８に書き込んでいく。

撮像装置１００は、上記の処理を動画記録状態中、継続することになる。そして、ユーザが操作部１１０の記録ボタンを操作することにより撮影終了の指示信号が制御部１０９に送信されると、制御部１０９は、撮像装置１００の各ブロックに撮影終了の指示信号を送信し、以下のような動作をさせる。

撮像部１０１、音声入力部１０２は、それぞれ動画像データ、音声データの生成を停止する。符号化処理部１０６は、メモリに記憶されている残りの画像データと音声データとを読出して所定の符号化を行い、圧縮動画像データ、圧縮音声データ等を生成し終えたら動作を停止する。音声データを圧縮しない場合には、当然、圧縮動画像データの生成が終わったら動作を停止する。

そして、制御部１０９は、これらの最後の圧縮動画像データと、圧縮音声データまたは音声データとを合成し、データストリームを形成し、記録再生部１０７に出力する。

記録再生部１０７は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体１０８に書き込んでいく。そして、データストリームの供給が停止したら、動画ファイルを完成させて、記録動作を停止させる。

制御部１０９は、記録動作が停止すると、撮影待機状態に移行させるように制御信号を撮像装置１００の各ブロックに送信して、撮影待機状態に戻る。

次に、再生モードについて説明する。ユーザが操作部１１０を操作して再生モードにした場合、制御部１０９は、再生状態に移行させるように制御信号を撮像装置１００の各ブロックに送信し、以下のような動作をさせる。

記録媒体１０８に記録された圧縮動画像データと圧縮音声データとからなる動画ファイルを記録再生部１０７が読出して、読出された圧縮動画像データ、圧縮音声データを符号化処理部１０６に送る。

符号化処理部１０６は、圧縮動画像データ、圧縮音声データを復号し、それぞれを表示制御部１０４、音声出力部１１１に送信する。表示制御部１０４は、復号された動画像データを表示部１０５に表示させる。音声出力部１１１は、復号された音声データを内蔵のスピーカ１１２、または、取付けられた外部スピーカに出力して、音響として再生させる。

本実施形態の撮像装置１００は以上のように、動画像、音声の記録再生を行うことができる。

本実施形態では、音声入力部１０２において、音声信号を得る際に、マイクにより得られた音声信号のレベル調整処理等の処理をしている。この処理は、装置が起動してから常に行われてもよいし、撮影モードが選択されてから行われてもよい。或いは、音声の記録に関連するモードが選択されてから行われても良い。また、音声の記録に関連するモードにおいて、音声の記録が開始したことに応じて上記の処理を行ってもよい。本実施形態では、動画像撮影の開始されたタイミングで上記の処理を行うものとして説明する。

図２は本実施形態の撮像装置１００の撮像部１０１、音声入力部１０２のブロック構成図である。

撮像部１０１は、被写体の光学像を取り込む光学レンズ２０１、光学レンズ２０１により取り込まれた被写体の光学像を電気信号（画像信号）に変換させる撮像素子２０２を有する。さらに、撮像部１０１は、撮像素子２０２により得られたアナログ画像信号をデジタル画像信号に変換し、画質調整処理をして画像データを形成し、メモリに送信する画像処理部２０３を有している。さらに、撮像部１０１は、光学レンズ２０１を移動させるための位置センサ、モータ等の公知の駆動メカニズムを有する光学レンズ制御部２０４を有している。本実施形態では、撮像部１０１に光学レンズ２０１、光学レンズ制御部２０４が内蔵されているように記載しているが、光学レンズ２０１は、レンズマウントを介して撮像装置１００に着脱自在な交換レンズであっても良い。また、光学レンズ制御部２０４は、交換レンズ内に設けられるようにしても良い。

ここで、ズーム動作、フォーカス調整などの指示を、ユーザが操作部１１０を操作して入力すると、制御部１０９は、光学レンズ制御部２０４に光学レンズ２０１を移動させるための制御信号（駆動信号）を送信する。光学レンズ制御部２０４は、この制御信号に応じて、不図示の位置センサで光学レンズ２０１の位置を確認し、不図示のモータ等で光学レンズ２０１の移動を行う。また、画像処理部２０３により得られた画像や被写体との距離を制御部１０９が確認し、自動的に調整する場合は、光学レンズを駆動させる制御信号を送信することになる。また、画像のブレを防止する、いわゆる防振機能を備えている場合には、制御部１０９は、不図示の振動センサにより検出された振動に基づいて、光学レンズ２０１を移動させるための制御信号を光学レンズ制御部２０４に送信することになる。

このときに、光学レンズ２０１の移動による駆動騒音や光学レンズ２０１を移動させるためのモータの駆動騒音が発生することになる。制御部１０９からの光学レンズ２０１を駆動させる制御信号に応じて、光学レンズ制御部２０４が光学レンズ２０１を駆動させる。従って、制御部１０９は、駆動騒音が発生するタイミングを知る（検出するまたは、決定する）ことができる。

本実施形態において、光学レンズ２０１の制御により、例えば最大で５０倍、最小で１倍のズーミングを光学的に行うことができる。これを本実施形態では光学ズームと言う。勿論、光学ズームの倍率は前記以上でも前記以下でも構わないものとする。光学ズームは、制御部１０９からの指示で、光学レンズ制御部２０４が、光学レンズ２０１の光学レンズを移動させることで、被写体の光学像をズーミングさせるものである。また、画像処理部２０３は、撮像素子２０２により得られた画像信号の一部をズームインした画像信号を出力する電子ズーム機能を備えている。また、撮像素子２０２により得る画像の範囲を広くし、画像処理部２０３で画像サイズをズームアウトした画像信号を出力する電子ズーム機能を備えている。

以上が実施形態における撮像部１０１の構成とその動作である。次に、音声入力部１０２の構成と動作を説明する。

実施形態の撮像装置１００は、参照符号２０５ａ，２０５ｂで示す２つのマイクを有する。これらマイク２０５ａ、２０５ｂは空気（媒体）を伝播する振動を電気信号に変換し、音声信号を出力するものである。マイク２０５ａがメイン（ＭＡＩＮ）マイク、マイク２０５ｂがサブ（ＳＵＢ）マイク２０５ｂであって、以降、この名称で表現する。

詳細は後述する説明で明らかにするが、メインマイク２０５ａは、ステレオ音声の一方のチャネルに対応するマイクとして機能し、且つ、音声処理装置外（実施形態では撮像装置１００外）から音声を主として取得するためのマイクである。また、サブマイク２０５ｂは、ステレオ音声のもう一方のチャネルに対応するマイクとして機能する位置に配置される。サブマイク２０５ｂは、メインマイク２０５ａと比較して、音声処理装置内（撮像装置１００）の駆動部からの駆動騒音を主として取得するためのマイクである。

メインマイク２０５ａはアナログの音声信号をＭｃｈ（メインチャネル）、サブマイク２０５ｂはアナログの音声信号をＳｃｈ（サブチャネル）として出力する。本実施形態において第一の音声入力部をメインマイク２０５ａ、第一の音声信号をＭｃｈとする。また、第二の音声入力部をサブマイク２０５ｂ、第二の音声信号をＳｃｈとする。本実施形態では２チャンネルで構成されたステレオ方式とするため、メインマイク２０５ａとサブマイク２０５ｂの配置位置は、撮像部１０１の正立に構えた際の水平方向に所定距離隔てた位置に設けられている。なお、実施形態では、マイク数を２としているが、それ以上のマイクを保持する構成でも構わない。

メインマイク２０５ａ，サブマイク２０５ｂにより得られたアナログ音声信号はＡ／Ｄ変換部２０６に供給され、ここでそれぞれの音声信号がデジタルの音声データに変換される。本実施形態におけるＡ／Ｄ変換部２０６は、４８ＫＨｚのサンプリングレートでサンプリングを行い、１サンプリング当たり１６ｂｉｔのデジタルデータを生成するものとする。

Ａ／Ｄ変換部２０６で得られた、予め設定された音声信号の期間（フレーム）の時系列のデジタルの音声データはＦＦＴ部２０７に供給され、ここで高速フーリエ変換され、周波数毎の周波数スペクトルデータに変換される。本実施形態において、周波数スペクトルは、０Ｈｚから４８ｋＨｚまでにおいて１０２４ポイントの周波数スペクトルデータとして変換され、ナイキスト周波数である２４ｋＨｚまでにおいては５１２ポイントの周波数スペクトルを持つものとする。メインマイク２０５ａからの周波数スペクトルデータをＭａｉｎ［０］〜［５１１］、サブマイク２０５ｂからの周波数スペクトルデータをＳｕｂ［０］〜［５１１］と表す。また、本実施形態において、第一の音声スペクトルデータをＭａｉｎ［０］〜［５１１］、第二の音声スペクトルデータをＳｕｂ［０］〜［５１１］と表すものとする。なお、各スペクトルデータの添え字が「０」が最低周波数を、「５１１」が最大周波数を表すものとする。

駆動音演算処理部２０９は、駆動部を駆動させるための、制御部１０９からの制御信号に応じて、ＦＦＴ部２０７により得た周波数スペクトルデータの周波数成分毎の、駆動騒音の減算量を決定する。この駆動騒音は、光学レンズ２０１が駆動されることにより発生される。なお、本実施形態における駆動部はズーム動作、フォーカス調整により駆動する光学レンズ２０１を指すものとする。駆動音演算処理部２０９は、周波数スペクトル毎の減算量を表すＮＣ＿Ｇａｉｎ［０］〜［５１１］と、駆動騒音検出信号を出力する。

詳細は後述する説明から明らかになるが、感度差補正部２０８は、駆動音演算処理部２０９からの、１フレーム前の駆動騒音検出信号に応じて、現フレームのＭａｉｎ［０］〜［５１１］に対するＳｕｂ［０］〜［５１１］の感度を補正し、補正後の周波数スペクトルデータＭａｉｎ［０］〜［５１１］、Ｓｕｂ［０］〜［５１１］を出力する。

風雑音演算処理部２１０は、ＦＦＴ部２０７からの周波数スペクトルデータから、風雑音を検出し、減算量を決定する。そして、風雑音演算処理部２１０は、決定した風雑音の周波数スペクトルデータＷＣ＿Ｇａｉｎ［０］〜［５１１］と、風雑音レベル信号を出力する。

ステレオゲイン演算処理部２１１は、ＦＦＴ部２０７からの周波数スペクトルデータに対し、ステレオのＬｃｈ（左チャネル）及びＲｃｈ（右チャネル）それぞれのゲインを決定する。そして、ステレオゲイン演算処理部２１１は、各チャネルの、決定した周波数スペクトルの成分毎のゲインを表すＧａｉｎ＿Ｌ［０］〜［５１１］とＧａｉｎ＿Ｒ［０］〜［５１１］を出力する。ここで、左チャンネルのゲインがＧａｉｎ＿Ｌ［０］〜［５１１］、右チャンネルのゲインがＧａｉｎ＿Ｒ［０］〜［５１１］である。

トータルゲイン演算部２１２は、駆動音演算処理部２０９、風雑音演算処理部２１０、および、ステレオゲイン演算処理部２１１において決定したＮＣ＿Ｇａｉｎ［０］〜［５１１］、ＷＣ＿Ｇａｉｎ［０］〜［５１１］、Ｇａｉｎ＿Ｌ［０］〜［５１１］、Ｇａｉｎ＿Ｒ［０］〜［５１１］を合算し、Ｔｏｔａｌ＿Ｇａｉｎ＿Ｌ［０］〜［５１１］、Ｔｏｔａｌ＿Ｇａｉｎ＿Ｒ［０］〜［５１１］を出力する。具体的には、次式の通りである。実施形態では、このトータルゲイン演算部２１２は、トータルゲイン決定部として機能する。
Total_Gain_R[]=NC_Gain[]+WC_Gain[]+Gain_R[]
Total_Gain_L[]=NC_Gain[]+WC_Gain[]+Gain_L[]

Ｌ／Ｒｃｈ生成部２１３は、ＭＡＩＮ［０］〜［５１１］の周波数毎の周波数スペクトルと、トータルゲイン演算部２１２で決定したＴｏｔａｌ＿Ｇａｉｎ＿Ｌ［０］〜［５１１］、Ｔｏｔａｌ＿Ｇａｉｎ＿Ｒ［０］〜［５１１］を用いて、ＬｃｈとＲｃｈの周波数スペクトルデータを生成する（詳細後述）。つまり、本実施形態におけるＬ／Ｒｃｈ生成部２１３はステレオ生成部として機能する。

ｉＦＦＴ部２１４は、Ｌ／Ｒｃｈ生成部２１３で生成された各チャネルの周波数スペクトルデータに対して逆高速フーリエ変換を行い、それぞれのチャネルの時系列の音声信号に戻す。

音声処理部２１５は、イコライザ等の処理を実施する。オートレベルコントローラは、時系列の音声信号の振幅を所定のレベルに調整する（以後、ＡＬＣ部２１６）。

以上の構成により、音声入力部１０２は、音声信号に所定の処理を行い音声データを形成し、メモリ１０３へ送信することになる。

次に、本実施形態の撮像装置１００の記録動作について図４を用いて説明する。同図は実施形態の撮像装置１００の記録のシーケンスを示すフローチャートである。

Ｓ４０１にて、ユーザによる操作部１１０の操作により記録（ＲＥＣ）開始が指示されることで、本処理が開始される。Ｓ４０２にて、制御部１０９は音声録音するために音声のパスを接続する。音声パスが確立した後、Ｓ４０３にて、制御部１０９は、本実施形態で説明する制御を含めた信号処理の初期設定をおこない、処理を開始する。この信号処理の内容に関しては後述する。以降、ＲＥＣシーケンスが終了するまで、本実施形態で説明する制御を含めた信号処理は実施される。

記録処理シーケンス中、制御部１０９は、ユーザによる操作部１１０への操作を監視する。そして、ユーザにより、操作部１１０の一部であるズームレバーが操作された場合、Ｓ４０４からＳ４０５に処理を進め、制御部１０９は撮像部１０１を制御し、ズーム処理を行う。このズーム処理は、Ｓ４０６にて、ユーザがズームレバーの操作を止めたと判定されるまで継続する。ズーム処理中は、先に説明したように、レンズ２０１の移動による駆動騒音が発生し、その騒音が周囲環境音に重畳して録音されてしまう点に注意されたい。

そして、制御部１０９は、ユーザによる操作部１１０の操作や、記録媒体１０８の状況によって、記録終了が指示されたと判断した場合、Ｓ４０７からＳ４０８に処理を進める。Ｓ４０８にて、制御部１０９は音声パスを切断し、次いで、Ｓ４０９にて信号処理も終了する。

次に、本実施形態の撮像装置１００の音声入力部１０２の詳細を図６を用いて説明する。同図は、本実施形態の音声入力部１０２の詳細な構成を示すブロック図である。

本実施形態における音声入力部１０２は、前述の通り、空気中を伝播する音声振動を電気信号に変換し、音声信号を出力するメインマイク２０５ａとサブマイク２０５ｂを有する。また前述の通り、Ａ／Ｄ変換部２０６は、アナログ音声信号を、４８ＫＨｚ、１６ｂｉｔのサンプリングを行い、アナログ音声信号からデジタル音声データに変換する。

感度差補正部２０８は、メインマイク２０５ａからの周波数スペクトルデータＭａｉｎ［０］〜［５１１］と、サブマイク２０５ｂからの周波数スペクトルデータＳｕｂ［０］〜［５１１］との感度差を補正する。このため、感度差補正部２０８は、感度補正積分器２０８１、感度補正検出部２０８２、補正量演算部２０８３、感度補正ゲインテーブル２０８４、感度差補正ゲイン部２０８５を含む。

感度補正積分器２０８１は、メインマイク２０５ａからの周波数スペクトルデータＭａｉｎ［０］〜［５１１］、及び、サブマイク２０５ｂからの周波数スペクトルデータＳｕｂ［０］〜［５１１］に対し、時間軸方向のレベル変化に時定数を持たせる。

感度補正検出部２０８２は、感度補正積分器２０８１にて時定数を持たせた周波数スペクトルデータであるＭａｉｎ［０］〜［５１１］とＳｕｂ［０］〜［５１１］のレベル差『Ｍａｉｎ［ｎ］−Ｓｕｂ［ｎ］』を、全周波数ポイントについて求める。ここで、差分は正負の符号が発生することに注意されたい。

補正量演算部２０８３は、感度補正検出部２０８２からの差分レベルが負の場合（Ｍａｉｎ［ｎ］＜Ｓｕｂ［ｎ］の場合に等価）、Ｍａｉｎ［ｎ］＝Ｓｕｂ［ｎ］となるようにするため、Ｓｕｂ［ｎ］の補正量を算出する。

なお、感度補正検出部２０８２からの差分レベルが正の場合（Ｍａｉｎ［ｎ］≧Ｓｕｂ［ｎ］の場合に等価）、Ｓｕｂ［ｎ］を補正する必要が無い。したがって、この場合、補正量演算部２０８３はＳｕｂ［ｎ］の補正量として０を出力する。

感度補正ゲインテーブル２０８４は、補正量演算部２０８３にて算出された各周波数スペクトルＳｕｂ［０］〜［５１１］の具体的な補正量が格納している。

感度差補正ゲイン部２０８５は、実際に、感度補正ゲインテーブル２０８４を基に各周波数スペクトルＳｕｂ［０］〜［５１１］のレベル補正を実行する。

ここで上記の時定数については、感度補正の追従を限りなく遅くする事を目的とするので数十秒単位とする。また、感度補正積分器２０８１は、後述する駆動検出部２０９５により駆動騒音の検出を表す駆動騒音検出信号を受けた場合、その動作を停止する。これは、光学レンズ２０１が駆動している不安定な期間における積分を排除する事を意図する。

以上が実施形態における感度差補正部２０８を構成する各処理部の説明である。次に、駆動音演算処理部２０９について説明する。

駆動音演算処理部２０９は、メインマイク２０５ａ、サブマイク２０５ｂからの周波数スペクトルデータであるＭａｉｎ［０］〜［５１１］、Ｓｕｂ［０］〜［５１１］から、駆動騒音の減算量ＮＣ＿Ｇａｉｎ［０］〜［５１１］を決定し、駆動騒音を検出した事を示す駆動騒音検出信号を出力する。このため、駆動音演算処理部２０９は、Ｍｃｈ−Ｓｃｈ演算部２０９１、駆動騒音除去ゲイン演算部２０９２、時間毎振幅変動検出部２０９３、時間毎位相変動検出部２０９４、駆動検出部２０９５、フレーム間振幅差検出部２０９６、駆動音減算量積分器２０９７を有する。

Ｍｃｈ−Ｓｃｈ演算部２０９１は、メインマイク２０５ａからの周波数スペクトルデータＭａｉｎ［０］〜［５１１］から、サブマイク２０５ｂからの周波数スペクトルデータＳｕｂ［０］〜［５１１］を差し引いた値を、駆動騒音の減算量として出力する。

ただし、周波数スペクトルｎポイント目において、Ｍａｉｎ［ｎ］＞Ｓｕｂ［ｎ］の場合には、減算量［ｎ］は０とする。つまり、Ｍｃｈ−Ｓｃｈ演算部２０９１は、周波数スペクトルｎポイント目において、Ｍａｉｎ［ｎ］−Ｓｕｂ［ｎ］＜０であることを条件に負の値を減算量［ｎ］として出力する。

また、Ｍａｉｎ［ｎ］に対してＳｕｂ［ｎ］が十分に大きく、Ｍａｉｎ［ｎ］−Ｓｕｂ［ｎ］が予め設定した閾値（負の値）を下回る場合、Ｍｃｈ−Ｓｃｈ演算部２０９１は、駆動騒音を検出したことを示す検出信号［ｎ］を出力し、否の場合には検出信号を出力しない。なお、実際には、騒音検出を"１"、非検出を"０"として表しても良い。

また、駆動騒音検出の判定は、減算関係を逆にして、Ｓｕｂ［ｎ］−Ｍａｉｎ［ｎ］と閾値（正の値を持つ）との比較で行っても良い。この場合、Ｍｃｈ−Ｓｃｈ演算部２０９１は、この演算の結果が閾値を上回った場合に駆動騒音検出を示す信号を出力することになる。

駆動検出部２０９５は、Ｍｃｈ−Ｓｃｈ演算部２０９１からの１フレーム分の検出信号［０］〜［５１１］を受け、その中に、１以上の検出信号が存在した場合、該当のフレームにおいては駆動騒音を検出した事を表す駆動騒音検出信号を出力する。

Ｍｃｈ−Ｓｃｈ演算部２０９１及び駆動検出部２０９５による処理は、正の閾値をＴｈと定義したとき、次式を満たす「ｉ」（ｉは０から５１１のいずれか）が存在するか否かの判定を行い、その判定結果を駆動騒音検出を示す信号として出力していると、と言える。
Ｍａｉｎ［ｉ］＋Ｔｈ＜Ｓｕｂ［ｉ］

時間毎振幅変動検出部２０９３は、メインマイク２０５ａからの周波数スペクトルデータＭａｉｎ［０］〜［５１１］、サブマイク２０５ｂからの周波数スペクトルデータＳｕｂ［０］〜［５１１］に対し、時間方向のフレーム間での振幅変動量の検出を行う。具体的には、時間毎振幅変動検出部２０９３は、現在のフレームの周波数スペクトルのｎポイント目の成分値と、前フレームの周波数スペクトルのｎポイント目の成分値との差分値を求め、出力する。そして、ｎポイント目での変動量が予め設定された閾値を超えた場合、時間毎振幅変動検出部２０９３は、時間毎振幅変動量［ｎ］を出力し、閾値以下の場合には０を出力する。

時間毎位相変動検出部２０９４は、後述の位相差判定部２１１１から取得する位相情報に基づき、メインマイク２０５ａからの周波数スペクトルデータＭａｉｎ［０］〜［５１１］、サブマイク２０５ｂからの周波数スペクトルデータＳｕｂ［０］〜［５１１］の位相変動量の検出を行う。例えば周波数スペクトルｎポイント目において前記変動量が予め定められた閾値を超えた場合は、時間毎位相変動検出部２０９４は、時間毎位相変動量［ｎ］を出力する。また、変動量が閾値以下の場合、時間毎位相変動検出部２０９４は、時間毎位相変動量［ｎ］を出力しない、又は、時間毎位相変動量［ｎ］＝０として出力する。

フレーム間振幅差検出部２０９６は、駆動検出部２０９５からの駆動騒音検出信号に基づき、サブマイク２０５ｂからの周波数スペクトルデータであるＳｕｂ［０］〜［５１１］の時間方向のフレーム間での振幅差の検出を行う。例えば周波数スペクトルｎポイント目において、駆動騒音検出信号があり、前フレームと現フレームとの振幅差が予め定められた閾値を超えた場合は、フレーム間振幅差検出部２０９６は、フレーム間振幅差量［ｎ］を出力する。また、差が閾値以下の場合、フレーム間振幅差検出部２０９６は、フレーム間振幅差量［ｎ］を出力しない、もしくは、フレーム間振幅差量［ｎ］＝０として出力する。

駆動騒音除去ゲイン演算部２０９２は、同一フレームにおいて、前述のＭｃｈ−Ｓｃｈ演算部２０９５からの減算量［０］〜［５１１］、時間毎振幅変動検出部２０９３からの時間毎振幅変動量［０］〜［５１１］、時間毎位相変動検出部２０９４からの時間毎位相変動量［０］〜［５１１］、フレーム間振幅差検出部２０９６からのフレーム間振幅差量［０］〜［５１１］其々の結果に対し、予め定められた系数を乗算して、加算した駆動騒音除去量［０］〜［５１１］を算出し、出力する。

駆動音減算量積分器２０９７は、駆動騒音除去ゲイン演算部２０９２から出力された駆動騒音除去量［０］〜［５１１］に対し、時間方向の変動量に時定数を持たせ、駆動騒音除去ゲインＮＣ＿Ｇａｉｎ［０］〜［５１１］（正負の符号付き）を出力する。

以上が実施形態の駆動音演算処理部２０９の構成と動作である。次に、風雑音演算処理部２１０について説明する。

風雑音演算処理部２１０は、メインマイク２０５ａからの周波数スペクトルデータＭａｉｎ［０］〜［５１１］、サブマイク２０５ｂからの周波数スペクトルデータＳｕｂ［０］〜［５１１］から風雑音を検出し、減算量を表すＷＣ＿Ｇａｉｎ［０］〜［５１１］と、風雑音レベル信号を出力する。風雑音演算処理部２１０は、風検出部２１０１、風雑音ゲイン演算部２１０２、風雑音減算量積分器２１０３を有する。

風検出部２１０１は、メインマイク２０５ａからの周波数スペクトルＭａｉｎ［０］〜［５１１］、及び、サブマイク２０５ｂからの周波数スペクトルＳｕｂ［０］〜［５１１］のうちから、それぞれの低周波数域の所定数のポイントの相関に応じて風雑音レベルの検出を行う。例えば低域の１０ポイントにおいて、次式に従い風雑音レベルを求め、出力する。なお、ここでの"ｎ"は、実施形態の場合には０乃至９であるが、この数は適宜変更しても構わない。
風雑音レベル＝Σ（Ｍａｉｎ［ｎ］−Ｓｕｂ［ｎ］）／（Ｍａｉｎ［ｎ］＋Ｓｕｂ［ｎ］）
なお、上式のΣは、ｎ＝０乃至９の合算を示している。

また、風雑音ゲイン演算部２１０２は、図１７に示すような特性線分を持つテーブルを有する。図示のように、１つの線分は、或る周波数以下ではゲインが負、その周波数以上ではゲインが０となる。そして、ゲインが負から０となる周波数の位置が互いに異なる複数の線分を含む。そして、風雑音ゲイン演算部２１０２は、風雑音レベルに従った１つの線分を用いて、風雑音ゲイン［０］〜［５１１］を決定し、出力する。なお、実施形態では、風雑音ゲイン［０］〜［５１１］をテーブルを用いて決定するものとしたが、風雑音レベルを引数とする関数を用いて、風雑音ゲイン［０］〜［５１１］を決定しても良い。

風雑音減算量積分器２１０３は、風雑音ゲイン演算部２１０２から出力された風雑音ゲイン［０］〜［５１１］に対し、時間方向の変動量に時定数を持たせ、風雑音ゲインＷＣ＿Ｇａｉｎ［０］〜［５１１］（正負の符号付き）を出力する。

以上が実施形態における風雑音演算処理部２１０の構成と動作である。次に、実施形態におけるステレオゲイン演算処理部２１１を説明する。

ステレオゲイン演算処理部２１１は、メインマイク２０５ａからの周波数スペクトルデータＭａｉｎ［０］〜［５１１］、サブマイク２０５ｂからの周波数スペクトルデータＳｕｂ［０］〜［５１１］から、ステレオのＬｃｈのゲインＧａｉｎ＿Ｌ［０］〜［５１１］と、ＲｃｈのゲインＧａｉｎ＿Ｒ［０］〜［５１１］を生成し、出力する。このために、ステレオゲイン演算処理部２１１は、位相差判定部２１１１、ステレオゲイン演算部２１１２、ステレオ抑制部２１１３、左ゲイン積分器２１１４，右ゲイン積分器２１１５を有する。

位相差判定部２１１１は、周波数スペクトルデータＭａｉｎ［０］〜［５１１］に対するＳｕｂ［０］〜［５１１］の位相情報を算出する。

例えば、周波数スペクトルデータにおける各ポイントの位相ベクトルをＶ（）として表した場合の、周波数ポイントｎの位相情報［ｎ］は次式に従って算出される。
位相情報［ｎ］＝｜Ｖ(Ｍａｉｎ［ｎ］) ×Ｖ(Ｓｕｂ［ｎ］)｜／（｜Ｖ(Ｍａｉｎ［ｎ］) ｜・｜Ｖ(Ｓｕｂ［ｎ］)｜）
ここで、右辺の"｜ｘ｜"はベクトルｘの絶対値（スカラー）を表し、分母の"・"はスカラーどうしの積、分子の"×"は２つのベクトルの正弦である外積を表している。

位相差判定部２１１１は上式に従って算出した位相情報［０］〜［５１１］を出力する。

ステレオゲイン演算部２１１２は、位相差判定部２１１１からの位相情報［０］〜［５１１］からステレオゲイン［０］〜［５１１］の演算を行う。例えば周波数ポイントｎにおいて、次式に従って各チャネルのゲインを得る。
Ｌｃｈ生成用のステレオゲイン＝１＋位相情報［ｎ］×強調係数
Ｒｃｈ生成用のステレオゲイン＝１−位相情報［ｎ］×強調係数
ステレオゲイン演算部２１１２は、上式にて算出されたＬｃｈ，Ｒｃｈのステレオゲイン［ｎ］を出力する。ここで、強調係数は周波数に応じて変更されるものであり、上限を１、下限を０とするものである。

ステレオ抑制部２１１３は、駆動音演算処理部２０９内のＭｃｈ−Ｓｃｈ演算部２０９１からの駆動騒音を検出したことを示す検出信号を受けた場合に強調係数を０にする。また、ステレオ抑制部２１１３は、風雑音演算処理部２１０内の風検出部２１０１からの風雑音レベルに応じて強調係数を０にする。

左ゲイン積分器２１１４は、ステレオゲイン演算部２１１２から出力された、Ｌｃｈ生成用のステレオゲイン［０］〜［５１１］に対し、時間方向の変動量に所定の時定数を持たせ、それをステレオゲインＧａｉｎＬ［０］〜［５１１］（正負の符号付き）として出力する。

右ゲイン積分器２１１５は、ステレオゲイン演算部２１１２から出力された、Ｒｃｈ生成用のステレオゲイン［０］〜［５１１］に対し、時間方向の変動量に所定の時定数を持たせ、それをステレオゲインＧａｉｎＲ［０］〜［５１１］（正負の符号付き）として出力する。

以上が実施形態のステレオゲイン演算処理部２１１の構成と動作である。次に、実施形態におけるトータルゲイン演算部２１２を説明する。

トータルゲイン演算部２１２は、駆動音演算処理部２０９、風雑音演算処理部２１０、および、ステレオゲイン演算処理部２１１において決定したＮＣ＿Ｇａｉｎ［０］〜［５１１］、ＷＣ＿Ｇａｉｎ［０］〜［５１１］、Ｇａｉｎ＿Ｌ［０］〜［５１１］、Ｇａｉｎ＿Ｒ［０］〜［５１１］を合算し、Ｔｏｔａｌ＿Ｇａｉｎ＿Ｌ［０］〜［５１１］、Ｔｏｔａｌ＿Ｇａｉｎ＿Ｒ［０］〜［５１１］を出力する。具体的には次式である。
Total_Gain_L[]＝NC_Gain[] ＋ WC_Gain[] ＋ Gain_L[]
Total_Gain_R[]＝NC_Gain[] ＋ WC_Gain[] ＋ Gain_R[]

次に、Ｌ／Ｒｃｈ生成部２１３を説明する。このＬ／Ｒｃｈ生成部２１３は、周波数スペクトルデータＭＡＩＮ［０］〜［５１１］から、トータルゲイン演算部２１２で決定したＴｏｔａｌ＿Ｇａｉｎ＿Ｌ［０］〜［５１１］、Ｔｏｔａｌ＿Ｇａｉｎ＿Ｒ［０］〜［５１１］を用いて、ＬｃｈとＲｃｈの出力用の周波数スペクトルデータを作成する。Ｌ／Ｒｃｈ生成部２１３は、Ｍｃｈ／Ｓｃｈ選択部２１３１、Ｌ／Ｒｃｈゲイン加算部２１３２を有する。

Ｍｃｈ／Ｓｃｈ選択部２１３１は、風検出部２１０１による風雑音レベルに応じて、周波数スペクトルデータＭａｉｎ［０］〜［５１１］に合成することになるＳｕｂ［０］〜［５１１］の周波数ポイントの範囲を選択する。また、Ｍｃｈ／Ｓｃｈ選択部２１３１は、風雑音レベルに応じて、合成する境界位置を低周波数ポイントから高周波数ポイントへと変化させる。また、風を検出されない場合、Ｍｃｈ／Ｓｃｈ選択部２１３１は合成を行わず、周波数スペクトルデータＭａｉｎ［０］〜［５１１］をそのまま出力する。

Ｌ／Ｒｃｈゲイン加算部２１３２は、Ｍｃｈ／Ｓｃｈ選択部２１３２から出力された周波数スペクトルデータＭａｉｎ［０］〜［５１１］に対して、トータルゲイン演算部２１２で決定したＴｏｔａｌ＿Ｇａｉｎ＿Ｌ［０］〜［５１１］、Ｔｏｔａｌ＿Ｇａｉｎ＿Ｒ［０］〜［５１１］を用いて、左右チャネル（ＬｃｈとＲｃｈ）の周波数スペクトルデータを作成する。

以上が実施形態のＬ／Ｒｃｈ生成部２１３の構成と動作である。

ｉＦＦＴ部２１４は、Ｌ／Ｒｃｈ生成部２１３で生成された各チャネルの周波数スペクトルデータを逆変換（逆ＦＦＴ変換）し、元の時系列の音声信号に戻す。音声処理部２１５は、イコライザ等の処理を実施する。ＡＬＣ（オートレベルコントローラ）２１６は、時系列の音声信号の振幅を所定のレベルに調整する。

以上の構成を備え、音声入力部１０２は、音声信号に所定の処理を行い音声データを形成して、メモリ１０３へ送信し、格納することになる。

ここで、本実施形態の音声入力部１０２の一部を構成するメカ構成について、図３（ａ）、３（ｂ）を用いて説明する。

図３（ａ）は、本実施形態の撮像装置の筐体の外観図である。撮影対象に撮像装置が向いた状態で、撮影者から見て右側の所定位置の参照符号"ａ"がメインマイク２０５ａの入力穴（開口部）、左側の対向する位置の参照符号"ｂ"がサブマイク２０５ｂの入力穴となる。図３（ｂ）においての拡大図は、音声入力部１０２の一部であるメインマイク２０５ａとサブマイク２０５ｂのメカ構成部である。図３（ｂ）は、前記メカ構成を示す断面図である。マイク穴を構成する外装部１０２−１、メインマイク２０５ａを保持するメインマイクブッシュ１０２−２ａ、サブマイク２０５ｂを保持するサブマイクブッシュ１０２−２ｂ、其々のマイクブッシュを外装部へ押し付け保持をする押し付け部１０３により構成される。外装部１０２−１、押し付け部１０３についてはＰＣ材等のモールド部材で構成されるが、アルミ、ステンレス等の金属部材であっても問題ない。また、メインマイクブッシュ１０２−２ａ、サブマイクブッシュ１０２−２ｂについては、エチレンプロピレンジエンゴム等のゴム材にて構成される。

ここで、外装部におけるマイク穴の径について説明する。サブマイク２０５ｂへのマイク穴の径（開口している面積）は、メインマイク２０５ａへのマイク穴の径（同面積）に対して小さく、所定の倍率にて縮小された構成をとる。マイク穴形状については円状か楕円状が望ましいが、方形状でも構わない。また、其々の穴形状について、同形状でも別形状でも構わない。前記構成は、撮像装置内部でマイクに空気伝搬して伝わる駆動騒音についてサブマイク２０５ｂのマイク穴側から外部へ漏れにくくなる事を目的とする。

次に、外装部１０２−１とマイクブッシュで構成されるマイク前面の空間について説明する。外装部１０２−１とサブマイクブッシュ１０２−２ｂで構成されるサブマイク２０５ｂの前面の空間の容積は、外装部１０２−１とメインマイクブッシュ１０２−２ａで構成されるメインマイク２０５ａの前面の空間のそれより大きく、所定の倍率の容積を確保する構成をとる。この構成は、サブマイク２０５ｂの前面の空間において、空間内の気圧変化が大きくなり、駆動騒音が強調される事を目的とする。

前述の通り、マイク入力のメカ構成におけるサブマイク２０５ｂ入力は、メインマイク２０５ａ入力に対して、駆動騒音の振幅が大きく強調される構成をとる。各マイクへ入力される駆動騒音の音声レベルの関係は、メインマイク２０５ａ＜サブマイク２０５ｂとなる。一方、マイク穴の前面から空気伝搬により各マイクへ入力される、装置外からの音声（本来の集音目的である周辺環境音）のレベル関係は、メインマイク２０５ａ≧サブマイク２０５ｂの関係となることに注意されたい。

ここで、本実施形態の音声入力部１０２でのステレオゲイン演算処理部２１１の動作について、図７から図９を用いて説明する。

図７は、撮像装置１００に内蔵されたマイクに対する外部からの音声の経路と、内蔵の光学レンズ２０１の駆動時の音声の経路の一例を示している。この時のマイクは、図２に示すメインマイク２０５ａおよびサブマイク２０５ｂが該当する。図７のように周囲環境音の音源と撮像装置１００との距離は、メインマイク２０５ａとサブマイク２０５ｂ間の距離に対して十分に大きい。よって、周囲環境音の音源からのメインマイク２０５ａへの音声の伝播経路と、周囲環境音の音源とサブマイク２０５ｂへの音声の伝播経路は殆ど同一と考えて良い。しかし、撮像装置内蔵の光学レンズ２０１は、メインマイク２０５ａとサブマイク２０５ｂに近接している。また、光学レンズ２０１の移動を行うためのモータからマイクへの距離が均等でなかったり、撮像装置内での音声の経路が異なる可能性もある。故に、光学レンズ駆動系からメインマイク２０５ａ、サブマイク２０５ｂそれぞれへの音声経路（距離）は大きく異なってしまう。つまり、周囲環境音と駆動騒音とでは、ＭｃｈとＳｃｈの音声レベルの差分に大きな差が出る事となる。それ故、周囲環境音と光学レンズの駆動騒音は大きく差が出て、これらを容易に区別することができる。

一方、本来、周囲環境音は左右のどちら側から発生したかはＭｃｈとＳｃｈでは大きさでは判断することは難しい。そこで、周囲環境音は音声信号の位相を利用して判断することができる。詳細について説明する。

図８（ａ）〜（ｃ）は、或る周波数スペクトルデータＭａｉｎ［ｎ］とＳｕｂ［ｎ］の関係を示している。

ステレオゲイン演算処理部２１１は、メインマイク２０５ａからの周波数スペクトルデーＭａｉｎ［０］〜［５１１］、サブマイク２０５ｂからの周波数スペクトルデータＳｕｂ［０］〜［５１１］から、ステレオのＬｃｈのゲインＧａｉｎ＿Ｌ［０］〜［５１１］、ＲｃｈのゲインＧａｉｎ＿Ｒ［０］〜［５１１］を出力する。ステレオゲイン演算処理部２１１は以下の構成を備えている。

位相差判定部２１１１は、周波数スペクトルデータＭａｉｎ［０］〜［５１１］に対する周波数スペクトルデータＳｕｂ［０］〜［５１１］の位相情報を算出する。

例えば周波数ポイントｎの周囲環境音が、メインマイク２０５ａ側から発生した場合、Ｖ（Ｍａｉｎ［ｎ］）とＶ（Ｓｕｂ［ｎ］）の関係は図８（ａ）のような関係になる。本実施形態でのマイク配置においても、周波数スペクトルの大きさは変わってしまっても、位相は変わることはない。そこで、位相情報を、Ｖ（Ｍａｉｎ［ｎ］) とＶ(Ｓｕｂ［ｎ］)の外積（｜Ｖ(Ｍａｉｎ［ｎ］) ×Ｖ(Ｓｕｂ［ｎ］) ｜）を用いることで得る。
位相情報［ｎ］＝｜Ｖ(Ｍａｉｎ［ｎ］) ×Ｖ(Ｓｕｂ［ｎ］) ｜／（｜Ｖ(Ｍａｉｎ［ｎ］) ｜・｜Ｖ(Ｓｕｂ［ｎ］) ｜）
位相差判定部２１１１は、上式にて算出された位相情報［ｎ］を出力する。ここで求められる位相情報［ｎ］は、すなわち、Ｖ（Ｍａｉｎ［ｎ］）とＶ（Ｓｕｂ［ｎ］）のｓｉｎθであり、周囲環境音がメインマイク２０５ａ側（撮像装置１００を構えるユーザの右側）から発生した場合は、０＜位相情報［ｎ］≦１となる。

また、周波数ポイントｎの周囲環境音が、サブマイク２０５ｂ側から発生した場合、Ｖ（Ｍａｉｎ［ｎ］）とＶ（Ｓｕｂ［ｎ］）の関係は図８（ｂ）のような周波数スペクトルの関係になる。本実施形態でのマイク配置においても、周波数スペクトルの大きさは変わってしまっても、位相は変わることはない。

そこで、位相情報をＶ（Ｍａｉｎ［ｎ］) とＶ(Ｓｕｂ［ｎ］) の外積（｜Ｖ(Ｍａｉｎ［ｎ］) ×Ｖ(Ｓｕｂ［ｎ］) ｜）を用いることで得る。
位相情報［ｎ］＝｜Ｖ(Ｍａｉｎ［ｎ］) ×Ｖ(Ｓｕｂ［ｎ］) ｜／（｜Ｖ(Ｍａｉｎ［ｎ］) ｜・｜Ｖ(Ｓｕｂ［ｎ］) ｜）
位相差判定部２１１１は、上式にて算出された位相情報［ｎ］を出力する。ここで求められる位相情報［ｎ］は、すなわち、Ｖ（Ｍａｉｎ［ｎ］）とＶ（Ｓｕｂ［ｎ］）のｓｉｎθであり、周囲環境音がサブマイク２０５ｂ側からの場合、０＞位相情報［ｎ］≧−１となる。

また周波数ポイントｎの周囲環境音がメインマイク２０５ａ、サブマイク２０５ｂと同じ距離、すなわち光学レンズ２０１の中心から発生した場合、Ｖ（Ｍａｉｎ［ｎ］）とＶ（Ｓｕｂ［ｎ］）の関係は図８（ｃ）のような周波数スペクトルの関係になる。本実施形態でのマイク配置においても、周波数スペクトルの大きさは変わってしまっても、位相は変わることはない。

位相情報は、Ｖ(Ｍａｉｎ［ｎ］) とＶ(Ｓｕｂ［ｎ］) の外積（｜Ｖ(Ｍａｉｎ［ｎ］) ×Ｖ(Ｓｕｂ［ｎ］) ｜）を用いることで得ることができる。
位相情報［ｎ］＝｜Ｖ(Ｍａｉｎ［ｎ］) ×Ｖ(Ｓｕｂ［ｎ］) ｜／（｜Ｖ(Ｍａｉｎ［ｎ］) ｜・｜Ｖ(Ｓｕｂ［ｎ］) ｜）
位相差判定部２１１１は、上式にて算出された位相情報［ｎ］を出力する。ここで求められる位相情報［ｎ］は、Ｖ（Ｍａｉｎ［ｎ］）とＶ（Ｓｕｂ［ｎ］）のｓｉｎθであり、周囲環境音が、サブマイク２０５ｂ側からは位相情報［ｎ］≒０となる。

ステレオゲイン演算部２１１２は、上記のようにして決定した位相情報［０］〜［５１１］を用いて、ステレオゲイン［０］〜［５１１］の演算を行っている。例えば周波数ポイントｎにおいて、ステレオゲイン演算部２１１２は次式に従って各チャネルのゲインを算出する。
Ｌｃｈ生成用のステレオゲイン＝１＋位相情報［ｎ］×強調係数
Ｒｃｈ生成用のステレオゲイン＝１−位相情報［ｎ］×強調係数
そして、ステレオゲイン演算部２１１２は、上式にて算出された各チャネルのステレオゲイン［ｎ］を出力する。

図９はステレオゲイン演算部２１１２で用いられる各周波数ポイントにおける強調係数を示した図である。

横軸を周波数ポイント、縦軸を強調係数とした時、もっとも強調したい周波数の強調係数を最大値の１．０として、位相差がでにくい低域と位相差が判断できない高域の強調係数は最小値の０とする。

例えばもっとも強調したい１ｋＨｚ〜５ｋＨｚは強調係数を１．０とし、２００Ｈｚ以下は０とする。

位相差が判断できない高域の強調係数は、メインマイク２０５ａとサブマイク２０５ｂの距離で決定する。例えば、メインマイク２０５ａとサブマイク２０５ｂの距離が１５ｍｍの時、音速を３４０ｍ／ｓとすると、１５ｍｍの間に半波長が入る１１．３ｋＨｚ以上になると、正しい位相情報が取れず、左右が反転してしまう可能性がある。また、１５ｍｍの間に１／４波長の入る５．７ｋＨｚ以上は正確性が低い。そこで図９に示すような周波数に応じた強調係数のかけ方を行う。

ここで、本実施形態の音声入力部１０２での駆動音演算処理部２０９、トータルゲイン演算部２１２、Ｌ／Ｒｃｈ生成部２１３の動作について、図５、図１０から図１３を用いて説明する。

図１０は、メインマイク２０５ａとサブマイク２０５ｂそれぞれの各周波数の振幅スペクトルデータの例を示している。

ＦＦＴ部２０７により、各チャネルの音声信号は０Ｈｚから４８ｋＨｚまでにおいて１０２４ポイントの周波数スペクトルとして変換される。変換後の周波数スペクトルデータは、ナイキスト周波数である２４ｋＨｚまでにおいては５１２ポイントの周波数スペクトルを持つものとする。

先に図３（ａ），（ｂ）を用いて説明したように、実施形態の撮像装置１００のマイク入力のメカ構成によれば、サブマイク２０５ｂは、メインマイク２０５ａに対して、駆動騒音の振幅が大きく強調された信号を生成する。つまり振幅スペクトルにおいて、
周囲環境音レベル：メインマイク２０５ａ≧サブマイク２０５ｂ
駆動騒音レベル：メインマイク２０５ａ＜サブマイク２０５ｂ
との関係となる。

図１０に、メインマイク２０５ａからの振幅スペクトルデータＭａｉｎ［］、サブマイク２０５ｂからの振幅スペクトルデータＳｕｂ［］の一例を示す。また、同図における「Ｍａｉｎ−Ｓｕｂ」は、Ｍｃｈ−Ｓｃｈ演算部２０９１にて演算される、Ｍａｉｎ［］からＳｕｂ［］を差し引いた減算量［０］〜［５１１］を示している。

例えば、ＳｃｈにおけるＮポイント目の周辺の振幅スペクトルを着目すると、Ｓｃｈ＞Ｍｃｈであり、つまり駆動騒音が支配的なポイントである事が言える。この時、Ｍａｉｎ−Ｓｕｂには、Ｎポイント目周辺にて予め定められたズーム検出閾値を超える（下回る）減算量が算出され、Ｎポイント目周辺は「駆動騒音」とされる振幅スペクトルと検出される。一方、ＭｃｈにおけるＮ２ポイント目の振幅スペクトルを着目すると、Ｓｃｈ≦Ｍｃｈである。つまり周囲環境音が支配的なポイントであることが言える。この時、Ｍａｉｎ−Ｓｕｂには、ズーム検出閾値を超える減算量は算出されないため、Ｎ２ポイント目周辺の振幅スペクトルは駆動騒音とは検出されることはない。上記演算を［０］〜［５１１］の振幅スペクトル全ての範囲において実行する。

図１１は、サブマイク２０５ｂの周波数Ｎポイント目の時系列の振幅スペクトルを示す図である。

図示の「Ｓｕｂｃｈ」は、Ｎポイント目の振幅スペクトルデータが時系列にて変動する事を示す。

Ｓｃｈ｜ｔ_n−ｔ_(n-1)｜は、ＳｃｈＮポイント目の振幅スペクトルに対し、時間毎振幅変動検出部２０９３により演算される時間方向のフレーム間での振幅変動量を示し、時間毎変動量［ｎ］として出力される。例えば、ｔ１からｔ２にてＳｃｈの振幅スペクトルに着目すると、時間方向での変動量は大きくなっており、Ｓｃｈ｜ｔ_n−ｔ_(n-1)｜には、ｔ１からｔ２において、変動量検出閾値を超える時間毎変動量が算出される。この演算を［０］〜［５１１］の振幅スペクトルの全てのポイントにおいて実行する。

図１２（ａ），（ｂ）は、メインマイク２０５ａからの振幅スペクトル、サブマイク２０５ｂからの振幅スペクトルにおける、周波数Ｎポイント目の時系列の位相を示す図である。

同図（ａ）は複素数平面Ｉｍ，Ｒｅにより、時間方向における「周囲環境音」の位相の変化を示しており、実線部はＭｃｈを、点線部はＳｃｈを表している。ｔ０，ｔ１，ｔ２，ｔ３，ｔ４については、時間方向の推移を示す。

同図（ｂ）は、「駆動騒音」の位相の変化を示している。

ここにおいて、周囲環境音については、ＭｃｈとＳｃｈの位相は、ｔ０からｔ４の時間の推移において一定である。駆動騒音については、ＭｃｈとＳｃｈの位相はｔ０からｔ４の時間の推移において大きく変動している。其々の時間方向での位相の変動は時間毎位相変動検出部２０９４にて検出され、時間毎位相変動量［ｎ］として出力される。時間毎位相変動検出部２０９４は、この演算を［０］〜［５１１］の振幅スペクトルの全て周波数ポイントについて実行する。

図１３（ａ）、（ｂ）は、Ｍｃｈ−Ｓｃｈ演算部２０９１の動作タイミングチャートの一例を表している。

同図（ａ）におけるＭａｉｎ［Ｎ］、Ｓｕｂ［Ｎ］、Ｍａｉｎ［Ｎ］−Ｓｕｂ［Ｎ］は、それぞれ周波数Ｎポイント目のＭｃｈの振幅スペクトルデータ、Ｓｃｈの振幅スペクトルデータ、Ｍｃｈ振幅スペクトルからＳｃｈ振幅スペクトルを差し引いた減算量［Ｎ］を示している。Ｍａｉｎ［Ｎ］−Ｓｕｂ［Ｎ］は、Ｍｃｈ−Ｓｃｈ演算部２０９１にて演算を行われた結果を出力している。

ここで、同図（ａ）のｔ１からｔ２の期間を着目すると、Ｓｕｂ［Ｎ］の振幅スペクトルは、Ｍａｉｎ［Ｎ］に対して大きく上回っており、Ｍａｉｎ［Ｎ］−Ｓｕｂ［Ｎ］の演算結果はズーム閾値を上回る結果となっており、駆動騒音として検出され、減算量［Ｎ］が出力される。

図１３（ｂ）におけるＭａｉｎ［Ｎ２］、Ｓｕｂ［Ｎ２］、Ｍａｉｎ［Ｎ２］−Ｓｕｂ［Ｎ２］は、それぞれ周波数Ｎ２ポイント目のＭｃｈの振幅スペクトル、Ｓｃｈの振幅スペクトル、Ｍｃｈ振幅スペクトルからＳｃｈ振幅スペクトルを差し引いた減算量［ｎ］を示す。ここで、同図（ｂ）のｔ１からｔ２の期間を着目すると、Ｍａｉｎ［Ｎ２］とＳｕｂ［Ｎ２］が同レベルで変動しており、Ｍａｉｎ［Ｎ２］−Ｓｕｂ［Ｎ２］の演算結果もズーム閾値を上回る結果はない。周波数Ｎ２ポイント目において駆動騒音は検出されない結果となる。Ｍｃｈ−Ｓｃｈ演算部２０９１は上記タイミングチャートで示した演算を［０］〜［５１１］の振幅スペクトル全てにおいて実行する。

図５はＬ／Ｒｃｈ生成部２１３のタイミングチャートの一例を表す。ズーム駆動動作は、制御部１０９からの制御を受け、ｔ１からｔ２のタイミングにおいて、光学レンズ２０１が駆動動作となる。Ｍｃｈスペクトルは、図５において抽出した特定の周波数Ｎポイント目のスペクトルを表す。Ｌｃｈ，Ｒｃｈについては、トータルゲイン演算部２１２で決定したＴｏｔａｌ＿Ｇａｉｎ＿Ｌ、Ｔｏｔａｌ＿Ｇａｉｎ＿ＲをＭｃｈに加算することで生成される。同図のタイミングチャートに示されるように、例えば、Ｍｃｈに対し、Ｔｏｔａｌ＿Ｇａｉｎ＿Ｌを下げ、Ｔｏｔａｌ＿Ｇａｉｎ＿Ｒを上げることで、Ｒｃｈが強調することができ、１ｃｈの入力で２ｃｈのステレオ信号を生成する事が可能である。

また、ｔ１からｔ２における光学レンズの駆動動作中においても、Ｔｏｔａｌ＿Ｇａｉｎ＿Ｌ、Ｔｏｔａｌ＿Ｇａｉｎ＿Ｒを下げることで、Ｌｃｈ，Ｒｃｈに対し、駆動騒音を除去することが可能である。

ここで、ここで、本実施形態の音声入力部１０２での感度差補正部２０８の動作について、図１４を用いて説明する。

図１４は、感度差補正部２０８の動作タイミングチャートの一例を示している。同図において、ズーム検出は駆動検出部２０９５の駆動騒音の検出結果を示す。入力スペクトルＮＰｏｉｎｔは、周波数Ｎポイント目のＭｃｈの振幅スペクトル、Ｓｃｈの振幅スペクトルを示す。実線部はＭｃｈを、点線部はＳｃｈを示わしている。

入力スペクトル（積分）ＮＰｏｉｎｔは、周波数Ｎポイント目の感度補正積分器２０８１のＭｃｈ、Ｓｃｈの積分結果を示す。感度調整出力スペクトルＮＰｏｉｎｔは、周波数Ｎポイント目の感度差補正ゲイン部２０８５によりレベル補正されたＭｃｈの振幅スペクトル、Ｓｃｈの振幅スペクトルを示す。実線部はＭｃｈを、点線部はＳｃｈを示す。

図１４において、ｔ０はＲＥＣ開始のタイミングであり、ｔ０からｔ１にかけては数１０秒程度の充分長い時間を表わしている。タイミングｔ２からｔ３にかけては、ズーム検出がＯＮされており、駆動検出部２０９５により駆動騒音が発生していることを表す。

入力スペクトルＮＰｏｉｎｔは、ＭｃｈとＳｃｈはＲＥＣ開始時ｔ０においてレベル差が生じている。それに対し、入力スペクトル（積分）ＮＰｏｉｎｔは、感度補正積分器２０８１により、積分されｔ０からｔ１にかけてゆっくりとレベル差に追従していく。感度調整出力スペクトルＮＰｏｉｎｔも入力スペクトル（積分）ＮＰｏｉｎｔの積分結果に対し、ｔ０からｔ１にかけて充分に時間を掛けて感度差補正ゲイン部２０８５にてゲイン補正をしていく。これは、感度差補正部２０８は、メインマイク２０５ａとサブマイク２０５ｂの感度補正を目的としているので、数十秒程度の充分な時間を掛けてのレベル補正で良く、過渡的な応答性を必要としない。

また、タイミングｔ２からｔ３にかけてのズーム検出ＯＮ期間においては、感度補正積分器２０８１が停止状態となる。よって、駆動騒音が発生することにより、Ｍｃｈの振幅スペクトル、Ｓｃｈの振幅スペクトルに大きなレベル差が発生するが、感度補正積分器２０８１が停止状態にあるので、レベル差に追従することなく、値は保持される。前述したが、感度差補正部２０８は、メインマイク２０５ａとサブマイク２０５ｂの感度補正を目的としているので、駆動騒音による過渡的なレベル差分に対する応答は必要としない。感度差補正部２０８は上記タイミングチャートで示した補正を［０］〜［５１１］の振幅スペクトル全てにおいて実行する。

ここで、本実施形態の音声入力部１０２での風雑音演算処理部２１０の動作について、図１５から図１７を用いて説明する。

図１５は、音声入力部１０２の一部であるサブマイク２０５ｂに対し、風防材１０２−３を構成したメカ構成を示す断面図である。

マイク穴を構成する外装部１０２−１は、メインマイク２０５ａを保持するメインマイクブッシュ１０２−２ａ、サブマイク２０５ｂを保持するサブマイクブッシュ１０２−２ｂ、其々のマイクブッシュを外装部へ押し付け保持をする押し付け部１０３により構成される。外装部１０２−１、押し付け部１０３についてはＰＣ材等のモールド部材で構成されるが、アルミ、ステンレス等の金属部材であっても問題ない。また、メインマイクブッシュ１０２−２ａ、サブマイクブッシュ１０２−２ｂについては、エチレンプロピレンジエンゴム等のゴム材にて構成される。

ここで、外装部１０２−１におけるマイク穴の穴径について説明する。サブマイク２０５ｂへのマイク穴の径は、メインマイク２０５ａへのマイク穴の径に対して小さい。実施形態では、サブマイク２０５ｂのマイク孔の径（直径）は、メインマイク２０５ａのマイク穴のそれの１／３の寸法としている。マイク穴形状については円状、楕円状が望ましいが、方形状でも構わない。また、其々の穴形状について、同形状でも別形状でも構わない。

次に、外装部１０２−１とマイクブッシュ１０２−２ａ、１０２−２ｂで構成されるマイク前面の空間と、クッション材の配置について説明する。外装部１０２−１とサブマイクブッシュ１０２−２ｂで構成されるサブマイク２０５ｂの前面の空間の容積は、外装部１０２−１とメインマイクブッシュ１０２−２ａで構成されるメインマイク２０５ａ前面の空間のそれより大きく、３倍確保する構成をとる。

外装部１０２−１とサブマイクブッシュ１０２−２ｂで構成されるサブマイク２０５ｂの前面の空間においては、風防材１０２−３として、風防クッション材やシールマイクを配置する。いずれも風の周波数に対応した０〜４ｋＨｚ程度の低周波帯の信号成分をフィルタする部材として構成される。風防材１０２−３により低周波帯が支配的である風雑音のサブマイク２０５ｂへの空気伝搬の影響を大幅に軽減する事が可能である。

図１６は、風雑音入力時のメインマイク２０５ａからの周波数スペクトルデータＭａｉｎ［０］〜［５１１］と、サブマイク２０５ｂからの周波数スペクトルデータＳｕｂ［０］〜［５１１］を示している。風雑音入力時、風雑音成分は点線部の低周波帯域において存在している。風検出部２１０１は、メインマイク２０５ａからの周波数スペクトルＭａｉｎ［０］〜［５１１］、サブマイク２０５ｂからの周波数スペクトルＳｕｂ［０］〜［５１１］のうちから、低域周波数帯の例えば１０ポイントの相関をみて風雑音レベルの検出を行っている。風検出部２１０１は、例えば低域の周波数ポイントｎにおいて、次式に従って風雑音レベルを算出し、出力する。
風雑音レベル＝Σ（Ｍａｉｎ［ｎ］−Ｓｕｂ［ｎ］）／（Ｍａｉｎ［ｎ］＋Ｓｕｂ［ｎ］）
なお、上式は、低周波成分の１０ポイントとしているで、ｎは０乃至９の範囲内である。また、実施形態では、低域周波数帯を１０ポイントとしたが、この数は一例である。撮像装置の設計に応じて適宜設定することが望まれる。

図１７は、風雑音ゲイン演算部２１０２にて演算される、風検出部２１０１からの風雑音レベルに対する風雑音ゲイン［０］〜［５１１］の周波数関係を示す。風検出部２１０１からの風雑音レベルが大きい程、風雑音ゲインはマイナス側へシフトし、点線の示すカットオフ周波数を高周波帯域へシフトする。前記カットオフの周波数により風雑音ゲイン［０］〜［５１１］は決定される。

次に、本実施形態の音声入力部１０２でのＭｃｈ／Ｓｃｈ選択部２１３の動作について、図１８（ａ），（ｂ）を用いて説明する。

図１８（ａ）は、Ｍｃｈ／Ｓｃｈ選択部２１３１にて合成される、メインマイク２０５ａからの周波数スペクトルデータＭａｉｎ［０］〜［５１１］（図示のＭａｉｎｃｈ）とサブマイク２０５ｂからの周波数スペクトルデータＳｕｂ［０］〜［５１１］（図示のＳｕｂｃｈ）との、風雑音レベルに応じた合成比率と周波数の関係を示している。

ここで図３（ａ）は、図３（ｂ）記載のメインマイク２０５ａとサブマイク２０５ｂのメカ構成に対応した実施形態を示す。ここでＭｃｈ／Ｓｃｈ選択部２１３１は、図１８（ａ）に示すように、風雑音レベルに基づき、Ｍａｉｎｃｈを１．０から０．５の比率で、また、Ｓｕｂｃｈを０から０．５の比率で合成する。

風雑音レベルが大きい程、Ｍａｉｎｃｈにおいては１．０から０．５へ合成比率を下げ、Ｓｕｂｃｈにおいては０から０．５へ合成比率を上げ、ＭａｉｎｃｈとＳｕｂｃｈを合成するクロスオーバーの周波数（合成の上限周波数）を上げていく。そして、Ｍｃｈ／Ｓｃｈ選択部２１３１は、風雑音レベルに依存する上限周波数以下ではＭａｉｎｃｈとＳｕｂｃｈとを図示の比率で合成し、上限周波数を上回る周波数ではＭａｉｎｃｈを選択して出力する。風雑音レベルが０の場合は、Ｓｃｈの合成比率は０となる。ここで、図３（ｂ）で記載の通り、サブマイク２０５ｂへのマイク穴の径は、メインマイク２０５ａへのマイク穴の径に対して小さく、１／３に縮小された構成をとる。よって、サブマイク２０５ｂへの風雑音の影響度はメインマイク２０５ａよりも弱い。よって、風検出部２１０１からの風雑音レベルに応じて、Ｍｃｈに対しＳｃｈを合成する事により、風雑音の軽減に効果を果たす。

次に図１８（ｂ）は、図１５に示すようにサブマイク２０５ｂに対し、風防材１０２−３を構成したメカ構成に対応した実施形態を示す。ここでＭｃｈ／Ｓｃｈ選択部２１３１は風雑音レベルから、Ｍｃｈを１．０から０の比率で、Ｓｃｈを０から１．０の比率で合成する。つまり、風雑音レベルが大きい程、Ｍｃｈにおいては１．０から０へ合成比率を下げ、Ｓｃｈにおいては０から１．０へ合成比率を上げ、ＭｃｈとＳｃｈを合成するクロスオーバーの周波数を上げていく。風雑音レベルが０の場合は、Ｓｃｈの合成比率は０となる。ここで図３（ａ）や図１５で記載の通り、サブマイク２０５ｂへのマイク穴の径は、メインマイク２０５ａへのマイク穴の径に対して小さく、１／３に縮小された構成をとる。かつ、外装部１０２−１とサブマイクブッシュ１０２−２ｂで構成されるサブマイク２０５ｂ前面の空間には、風防材１０２−３を設けている。よって、サブマイク２０５ｂへの風雑音の影響度はメインマイク２０５ａに対し、更に小さくできる。よって、風検出部２１０１からの風雑音レベルに応じて、ＭｃｈからＳｃｈに切り替えていく事で、風雑音の軽減に効果を果たす。

ここで、本実施形態の音声入力部１０２でのステレオ抑制部２１１３の具体的動作について図１９、図２０を用いて説明する。

図１９は、ステレオ抑制部２１１３について、駆動騒音検出時と風雑音検出時に応じて、ステレオ効果の強調に用いる強調係数を変更するタイミングチャートを示している。図１９において、Ｍａｉｎ［Ｎ］は、周波数Ｎポイント目のＭｃｈの振幅スペクトルデータを示す。また、駆動騒音検出信号は、駆動検出部２０９５により駆動騒音を検出した事を示す検出信号を示す。また、風雑音検出信号は、風検出部２１０１により風雑音を検出した事を示す風雑音レベル（予め設定された閾値以上の風雑音レベル）を示す。ＧａｉｎＬ［Ｎ］、ＧａｉｎＲ［Ｎ］は、ステレオゲイン演算処理部２１１２により決定された周波数Ｎポイント目のＭｃｈの振幅スペクトルに加算するステレオのＬｃｈ及び、Ｒｃｈのゲインを示す。

ステレオ抑制部２１１３は、Ｍｃｈ−Ｓｃｈ演算部２０９１からの駆動騒音を検出したことを示す検出信号を受けて、強調係数を０にする。また、風検出部２１０１からの風雑音を検出した事を示す風雑音レベルを受けて、強調係数を周波数に応じて０にする。

ここで、タイミングｔ１からｔ２の期間を着目すると、Ｍａｉｎ［Ｎ］の振幅スペクトルは大きく変動しており、Ｍｃｈ−Ｓｃｈ演算部２０９１からの検出信号は、駆動騒音有りとして検出を示している。この期間、ＧａｉｎＬ［Ｎ］、ＧａｉｎＲ［Ｎ］は０に固定されている。つまりステレオ抑制部２１１３が強調係数を０にした事を表している。また、タイミングｔ３からｔ４の期間を着目すると、Ｍａｉｎ［Ｎ］の振幅スペクトルは大きく変動しており、風検出部２１０１からの風雑音検出信号は検出を示している。この期間、ＧａｉｎＬ［Ｎ］、ＧａｉｎＲ［Ｎ］は０に固定されている。つまりステレオ抑制部２１１３が強調係数を０にした事を表している。

図２０は、風検出部２１０１からの風雑音レベル検出時において、Ｍｃｈ／Ｓｃｈ選択部２１３１にてメインマイク２０５ａからの周波数スペクトルＭａｉｎ［０］〜［５１１］とサブマイク２０５ｂからの周波数スペクトルＳｕｂ［０］〜［５１１］が合成される比率と、周波数に対し、ステレオ抑制部２１１３にて強調係数を０にする周波数の関係を示す図である。ここでＭｃｈ／Ｓｃｈ選択部２１３１は風雑音レベルから、風雑音レベルが大きい程、Ｍｃｈにおいては１．０から０．５へ合成比率を下げ、Ｓｃｈにおいては０から０．５へ合成比率を上げ、ＭｃｈとＳｃｈを合成するクロスオーバーの周波数を上げていく。風雑音レベルの場合、前記クロスオーバーの周波数は５００Ｈｚである。これに対しステレオ抑制部２１１３は、前記クロスオーバーの周波数よりも高い周波数７５０Ｈｚまで強調係数を０に固定する。ステレオ抑制部２１１３は、風検出部２１０１からの風雑音レベルが大きい程、強調係数を０に固定する周波数を上げていく。ＧａｉｎＬ、ＧａｉｎＲのステレオゲインによる強調により、風雑音も強調されることを防ぐ。

ここで、本実施形態の音声入力部１０２での駆動音減算量積分器２０９７、風雑音減算量積分器２１０３、右ゲイン積分器２１１４、左ゲイン積分器２１１５の動作について図２１を用いて説明する。

図２１は、周波数Ｎポイント目のＭｃｈの振幅スペクトルデータについての、それぞれ決定される駆動騒音除去ゲインＮＣ＿ＧＡＩＮ［Ｎ］、風雑音減算量ＷＣ＿ＧＡＩＮ［Ｎ］、Ｌｃｈ生成用ステレオゲインＬ＿ＧＡＩＮ［Ｎ］、Ｒｃｈ生成用ステレオゲインＲ＿ＧＡＩＮ［Ｎ］のそれぞれに対する時定数を示す。これらは、駆動音減算量積分器２０９７、風雑音減算量積分器２１０３、左ゲイン積分器２１１４，右ゲイン積分器２１１５により決定される。駆動騒音減算量積分器の時定数は、右ゲイン積分器２１１５、左ゲイン積分器２１１４の時定数に対して遅く、風雑音減算量積分器の時定数は右ゲイン積分器２１１５、左ゲイン積分器２１１４の時定数に対して遅い。駆動騒音と風雑音は、それぞれ駆動騒音成分であり、時系列でのばらつきも大きく、時定数を遅くしてそれぞれ駆動騒音減算と風雑音減算の追従を遅くすることで前記ばらつきを抑える。また、ステレオゲインについては、時定数を早くすることで、発音する被写体の移動に対する追従を早くする。

本実施形態においては、２系統の音声が入力される場合について説明したが、それ以上のチャンネル数であっても適用することができる。

また、本実施形態においては、撮像装置について説明したが、本実施形態の音声入力部１０２の音声処理は、外部の音声を記録、または入力するような装置つまり、音声記録装置であればどのような装置であっても適用することができる。例えば、ＩＣレコーダ、携帯電話等に適用しても良い。

また、実施形態では、図６に示す構成をハードウェアにより実現する例を説明したが、例えば、同図のマイクやＡＤ変換部等を除く処理部の多くを、プロセッサが実行するプロシージャやサブルーチン等のプログラムで実現しても構わない。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００…撮像装置、１０１…撮像部、１０２…音声入力部、１０３…メモリ、１０４…表示制御部、１０５…表示部、１０６…符号化処理部、１０７…記録再生部、１０８…記録媒体、１０９…制御部、１１０…操作部、１１１…音声出力部、１１２…スピーカ、１１３…外部出力部、１１４…データバス、２０１…光学レンズ、２０２…撮像素子、２０３…画像処理部、２０４…光学レンズ制御部、２０５…マイク、２０５ａ…メインマイク、２０５ｂ…サブマイク、２０６…Ａ／Ｄ変換部、２０７…ＦＦＴ部、２０８…感度差補正部、２０９…駆動音演算処理部、２１０…風雑音演算処理部、２１１…ステレオゲイン演算処理部、２１２…トータルゲイン演算部、２１３…Ｌ／Ｒｃｈ生成部、２１４…ｉＦＦＴ部、２１５…音声処理部、２１６…ＡＬＣ部、１０２−１…外装部、１０２−２ａ…メインマイクブッシュ、１０２−２ｂ…サブマイクブッシュ、１０２−３…風防材

Claims

音声処理装置であって、
駆動部と、
前記音声処理装置外からの音声を主として取得する第１のマイクと、
前記駆動部による駆動騒音を主として取得する第２のマイクと、
前記第１のマイクから得られた時系列の音声データを第１の周波数スペクトルデータに変換し、前記第２のマイクから得られた時系列の音声データを第２の周波数スペクトルデータに変換する変換手段と、
前記変換手段で得た前記第１の周波数スペクトルデータと前記第２の周波数スペクトルデータから、周波数毎の前記駆動騒音の減算量を演算する駆動音演算処理手段と、
前記変換手段で得た前記第１の周波数スペクトルデータと前記第２の周波数スペクトルデータ及び、前記駆動音演算処理手段で得られた駆動騒音の減算量とに基づき、前記駆動騒音が抑制された、左チャネルの周波数スペクトルデータと、右チャネルの周波数スペクトルデータとを生成する生成手段と、
前記生成手段で生成された左右のチャネルのそれぞれの周波数スペクトルデータを、時系列の左右チャネルのそれぞれの音声データに逆変換する逆変換手段と
を有することを特徴とする音声処理装置。
前記生成手段は、前記第１の周波数スペクトルデータに、異なるゲインを用いることにより、前記左チャネルの周波数スペクトルデータと、前記右チャネルの周波数スペクトルデータとを生成することを特徴とする請求項１に記載の音声処理装置。
前記生成手段は、
前記変換手段で得た前記第１の周波数スペクトルデータと前記第２の周波数スペクトルデータ及び、前記駆動音演算処理手段で得られた駆動騒音の減算量とに基づき、右チャネルと左チャネルそれぞれのゲインを決定するゲイン決定手段を含み、
前記第１の周波数スペクトルデータを前記ゲイン決定手段により決定された前記右チャネルのゲインにより制御して右チャネルの周波数スペクトルデータを生成し、前記第１の周波数スペクトルデータを前記ゲイン決定手段により決定された前記左チャネルのゲインにより制御して左チャネルの周波数スペクトルデータを生成することを特徴とする請求項１に記載の音声処理装置。
前記駆動音演算処理手段は、
前記第１の周波数スペクトルデータから前記第２の周波数スペクトルデータを減じる減算手段と、
前記第１の周波数スペクトルデータと前記第２の周波数スペクトルデータのそれぞれの時間に対する振幅変動量を検出する第１の検出手段と、
前記第１の周波数スペクトルデータと前記第２の周波数スペクトルデータとの間の位相変動量を検出する第２の検出手段とを含み、
前記減算手段による減算の結果、前記第１の検出手段により検出された前記振幅変動量、及び、前記第２の検出手段により検出された前記位相変動量に基づき、前記周波数毎の前記駆動騒音の減算量を算出することを特徴とする請求項１に記載の音声処理装置。
前記駆動音演算処理手段は、前記減算手段による減算の結果が、予め設定された負の閾値を下回ることを条件に前記減算量を算出することを特徴とする請求項４に記載の音声処理装置。
前記第１の検出手段は、周波数毎の前記振幅変動量が予め設定された閾値を超える場合に、振幅変動量を出力することを特徴とする請求項５に記載の音声処理装置。
前記減算手段は、周波数ポイント毎に、前記第１の周波数スペクトルデータから前記第２の周波数スペクトルデータを減算することを特徴とする請求項４に記載の音声処理装置。
前記第１の検出手段は、周波数ポイント毎に、前記振幅変動量を検出することを特徴とする請求項４に記載の音声処理装置。
前記第２の検出手段は、周波数ポイント毎に、前記位相変動量を検出することを特徴とする請求項４に記載の音声処理装置。
前記駆動音演算処理手段はさらに、前記第２の周波数スペクトルデータの時間に対する振幅の変動量に基づいて、前記駆動騒音の減算量を算出することを特徴とする請求項４から６のいずれか１項に記載の音声処理装置。
前記生成手段は、右チャネルの周波数ポイント毎のゲインと、左チャネルの周波数ポイント毎のゲインとを、それぞれ決定することを特徴とする請求項３に記載の音声処理装置。
音声処理装置の制御方法であって、
前記音声処理装置は、駆動部と、前記音声処理装置外からの音声を主として取得する第１のマイクと、前記駆動部による駆動騒音を主として取得する第２のマイクとを有し、
前記方法は、
前記第１のマイクから得られた時系列の音声データを第１の周波数スペクトルデータに変換し、前記第２のマイクから得られた時系列の音声データを第２の周波数スペクトルデータに変換する変換工程と、
前記変換工程で得た前記第１の周波数スペクトルデータと前記第２の周波数スペクトルデータから、周波数毎の前記駆動騒音の減算量を演算する駆動音演算処理工程と、
前記変換工程で得た前記第１の周波数スペクトルデータと前記第２の周波数スペクトルデータ及び、前記駆動音演算処理工程で得られた駆動騒音の減算量とに基づき、前記駆動騒音が抑制された、左チャネルの周波数スペクトルデータと、右チャネルの周波数スペクトルデータとを生成する生成工程と、
前記生成工程で生成された左右のチャネルのそれぞれの周波数スペクトルデータを、時系列の左右チャネルのそれぞれの音声データに逆変換する逆変換工程と
を有することを特徴とする音声処理装置の制御方法。
音声処理装置のプロセッサが読み込み実行するプログラムであって、
前記プロセッサを請求項１から１１のいずれか１項に記載の音声処理装置の各手段として機能させるためのプログラム。