JP5979843B2

JP5979843B2 - 音声信号処理装置、音声信号処理方法及びプログラム

Info

Publication number: JP5979843B2
Application number: JP2011226994A
Authority: JP
Inventors: 北村　和也; 和也北村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-10-14
Filing date: 2011-10-14
Publication date: 2016-08-31
Anticipated expiration: 2031-10-14
Also published as: JP2013090047A

Description

本発明は音声信号処理装置に関し、特に、いわゆる風雑音を低減することができる音声信号処理装置に関する。

従来、音声信号処理装置として、動画撮影を行うとともに、音声を集音し、動画データと音声データを記録することができる撮像装置が登場してきている。

このような撮像装置において、動画撮影時に、風がマイク孔などに当たり、いわゆる風雑音、ウィンドノイズと呼ばれる雑音が発生してしまい、その音が音声データとして記録されてしまう問題が知られている。

従来、このような問題に対し、撮像装置においては、例えば、１００Ｈｚ以下の周波数帯の音声を低減させるハイパスフィルタ（ＨＰＦ）を用いて、風雑音を低減させる技術が用いられてきた。また、特許文献１においては、ＬチャンネルとＲチャンネルの音声信号の和と差の信号を生成し、差信号に対してハイパスフィルタ（ＨＰＦ）を用いて所定の周波数よりも低い周波数帯のレベルを低減させている。特に特許文献１では、ＬチャンネルとＲチャンネルの音声信号の和と差の低域成分（１００Ｈｚ以下）に基づいて風雑音の発生量を推定し、発生量によって、差信号に対するハイパスフィルタのカットオフ周波数を変更するようにしている。

特開２０１１−２６５２号公報

しかし、特許文献１においては、複数のチャンネルの音声信号の和と差の低域成分に基づいて風雑音の発生量を推定していた。そのため、この低域成分に含まれない帯域の風雑音は考慮されていなかった。

近年、風雑音は風が吹く方向や撮像装置の形状などの様々な要因により、低域（１００Ｈｚ以下）の風雑音量が同じでも中域（１００Ｈｚ〜１ｋＨｚ）の風雑音量が異なる場合があることが知られている。にもかかわらず、従来の方式を用いると、低域の風雑音が大きい場合には、風雑音が大きいと見なして、ハイパスフィルタのカットオフ周波数を大きくしてしまうことになる。

しかし、低域の風雑音が大きく、中域の風雑音の大きさが小さい場合には、ハイパスフィルタのカットオフ周波数を大きくすると必要以上に中域の音声が低減されてしまうことになる。差成分の信号が低減されるということは、後に和信号と合成した後に、Ｌチャンネルと、Ｒチャンネルの差成分が低減されてしまうことを示す。そのため、ユーザにはステレオ感が薄れた音声を提供することになってしまう場合があるという課題があった。

本発明は、このような課題に鑑みてなされたものであって、複数チャンネルの音声信号の低域と中域との少なくとも２つの周波数帯における成分に基づいて、風雑音低減処理を実行することで、風雑音を低減する効果を保ちつつ、ステレオ感、多チャンネル感を保つことができる音声信号処理装置を提供する目的とする。

本発明の音声信号処理装置は、第１のチャンネルの音声信号及び第２のチャンネルの音声信号を取得する取得手段と、前記第１のチャンネルの音声信号と前記第２のチャンネルの音声信号の差を示す差信号の第１の所定の周波数以上の信号を抽出する第１の抽出手段と、前記第１の抽出手段により抽出された前記差信号の第１の所定の周波数以上の信号と、前記第１のチャンネルの音声信号と前記第２のチャンネルの音声信号の和を示す和信号と、を加算する加算手段と、前記第１の抽出手段により抽出された前記差信号の第１の所定の周波数以上の信号を、前記第１のチャンネルの音声信号と前記第２のチャンネルの音声信号の和を示す和信号から減算する減算手段と、第１の周波数帯における前記差信号と前記和信号のレベルの比較結果と、前記第１の周波数帯よりも高い第２の周波数帯における前記差信号と前記和信号のレベルの比較結果と、に基づいて、前記第１の所定の周波数を制御する制御手段と、前記加算手段の出力信号の第２の所定の周波数以上の信号を抽出する第２の抽出手段と、前記減算手段の出力信号の前記第２の所定の周波数以上の信号を抽出する第３の抽出手段と、を有する。

本発明によれば、風雑音を低減する効果を保ちつつ、ステレオ感、多チャンネル感を保つことができる。

本実施形態における撮像装置の構成を示すブロック図である。本実施形態における音声処理を説明するための図である。本実施形態におけるカットオフ周波数の決定方法を説明するための図である。本実施形態におけるカットオフ周波数の決定方法を説明するための図である。

以下、図面を参照して本発明の実施例を詳細に説明するが、この発明は以下の実施の形態に限定されない。

［第１の実施形態］
本実施例においては、音声信号処理装置の一例として撮像装置１００について説明する。本実施例の撮像装置１００は、複数のマイクユニットにより得られた音声信号に基づいて、２チャンネル、２．１チャンネル、５．１チャンネル等の複数チャンネルの音声信号を生成、取得することができる。そして、本実施例の撮像装置１００は、これらの複数チャンネルの音声信号に基づいて、風雑音の発生を検出し、風雑音の低減を行うことができる。風雑音の低減においては、複数チャンネルの音声信号の低域周波数帯（第１の周波数帯）における比較結果と、中域周波数帯（第２の周波数帯）における比較結果とに基づいて、複数チャンネルの音声信号の差成分に対するハイパスフィルタのカットオフ周波数を制御する。なお、後述するように、本実施例の撮像装置１００は、記録媒体に記録された動画ファイルを再生する際に、再生された複数チャンネルの音声信号に対して風雑音の低減処理を行うこともできる。なお、本実施例においては、２チャンネルの音声信号を処理する例について説明するが、前述のような、２．１チャンネル、５．１チャンネルの音声信号についても同様の処理を行うことができる。

このような音声信号処理により、本実施例の撮像装置１００は、風雑音を低減する効果を保ちつつ、ステレオ感、多チャンネル感を保つことができる。

以下、このような撮像装置について説明する。

図１は、本実施例の撮像装置１００の構成を示すブロック図である。

撮像装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＦｌａｓｈＲＯＭ１０３、操作部１０４を有する。また、撮像装置１００は、撮像部１１０、画像処理部１１１、音声入力部１２０、音声処理部１２１、表示部１３０、表示制御部１３１、音声出力部１３２、記録媒体１４０、記録再生部１４１、通信部１５０を有する。また、撮像装置１００は、符号化復号化処理部１６０を有する。

図１において、ＣＰＵ１０１は、ＦｌａｓｈＲＯＭ１０３に記録された撮像装置１００の制御プログラムをＲＡＭ１０２に展開し、ＲＡＭ１０２をワークメモリとして使用しながら、撮像装置１００の各ブロックを制御するものである。操作部１０４は、例えば、電源ボタン、記録ボタン、ズーム調整ボタン、オートフォーカスボタンなどの撮影に関連する各種操作を入力するスイッチ類を有する。また、メニュー表示ボタン、決定ボタン、その他カーソルキー、ポインティングデバイス、タッチパネル等を備え、ユーザによりこれらのキーやボタン、タッチパネルが操作されるとＣＰＵ１０１に操作信号を送信する。

撮像部１１０は、レンズにより取り込まれた被写体の光学像を、絞りにより光量を制御して、ＣＣＤセンサやＣＭＯＳセンサ等の撮像素子により画像信号に変換し、得られたアナログ画像信号をデジタル画像信号に変換して一時的にＲＡＭ１０２に記憶するものである。ＲＡＭ１０２に記憶されたデジタル画像信号は、その後、画像処理部１１１に送信される。画像処理部１１１は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。画像処理部１１１は、デジタル画像信号のホワイトバランスや色、明るさなどをユーザに設定された設定値や画像の特性から自動的に判定した設定値に基づいて調整する画質調整処理を行い、処理をしたデジタル画像信号を再びＲＡＭ１０２に記憶させるものである。なお、画像処理部１１１の処理は、ＣＰＵ１０１がＦｌａｓｈＲＯＭ１０３に記録された前述の処理を実行する為のプログラムをＲＡＭ１０２に展開して実行するようにしてもよい。

音声入力部１２０は、たとえば、内蔵された無指向性のマイクまたは音声入力端子を介して接続された外部マイク等により、撮像装置１００の周囲の音声を集音（収音）するものである。そして、音声入力部１２０で取得されたアナログ音声信号は、音声処理部１２１に送信される。音声処理部１２１は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。音声処理部１２１では、記録時においては、音声入力部１２０により取得されたアナログ音声信号をデジタル音声信号に変換し、レベルの適正化処理や雑音低減処理等の処理を行い、処理をしたデジタル音声信号をＲＡＭ１０２に記憶させるものである。また、必要に応じて、音声信号を圧縮する処理を行う。音声圧縮方式については、ＡＣ３、ＡＡＣ等の公知の一般的な音声圧縮方式を用いており、本発明の特徴とは関係ないので説明を省略する。また、再生時においては、記録媒体１４０から記録再生部１４１によって読出された音声ファイルや動画ファイルに含まれる圧縮音声データ復号する処理も行う。なお、音声処理部１２１の処理は、ＣＰＵ１０１がＦｌａｓｈＲＯＭ１０３に記録された前述の処理を実行する為のプログラムをＲＡＭ１０２に展開して実行するようにしてもよい。

なお、本実施例の音声処理部１２１は、後述するように、風雑音を検出する処理、風雑音を低減する処理、音声レベルを調整する処理などを実行することができる。

また、表示制御部１３１は、表示部１３０に画像を表示するための表示制御を行うマイクロコンピュータであって、メモリ１０４に一時的に記憶されたデジタル画像信号を読み出して、表示部１３０に表示させる処理を行う。また、記録媒体１４０から記録再生部１４１によって読出された動画ファイルや静止画ファイルに含まれる画像データの画像を表示部１３０に表示させる処理も行う。表示部１３０は、たとえば撮像装置１００に搭載された液晶パネルや有機ＥＬパネル等であっても良いし、撮像装置１００とは別の表示装置（たとえば、テレビ、モニタ、プロジェクタ）であってもよい。なお、表示制御部１３１の処理は、ＣＰＵ１０１がＦｌａｓｈＲＯＭ１０３に記録された前述の処理を実行する為のプログラムをＲＡＭ１０２に展開して実行するようにしてもよい。

符号化復号化処理部１６０は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。符号化復号化処理部１６０では、記録時においては、画像処理部１１１により処理されＲＡＭ１０２に記憶されたデジタル画像信号に基づいて、画像圧縮処理を行い、圧縮された動画データや静止画データを生成し、ＲＡＭ１０２に一時的に記憶する処理を行う。また、再生時においては、記録媒体１４０から読出された画像ファイルの圧縮された動画データや静止画データを復号してデジタル画像信号を抽出し、ＲＡＭ１０２に記憶していく処理を行う。なお、ＣＰＵ１０１がＦｌａｓｈＲＯＭ１０３に記録された前述の処理を実行する為のプログラムをＲＡＭ１０２に展開して実行するようにしてもよい。

次に、記録再生部１４１は、次の処理を実行するプログラムを搭載したマイクロコンピュータである。記録再生部１４１では、動画記録時においては、ＲＡＭ１０２に記憶されている、符号化復号化処理部１６０により生成された圧縮動画データ、音声処理部１２１で生成された音声データ、撮影日等の各種情報とともに、動画ファイルとして記録媒体１４０に書き込む。また静止画記録時においては、ＲＯＭ１０２に記憶されている静止画データを撮影日等の各種情報とともに静止画ファイルとして記録媒体１４０に記録する。動画ファイルを記録媒体１４０に記録する際は、圧縮動画データと音声データとからなるデータストリームを形成し、順次記録媒体１４０に記録していき、ファイルヘッダ等を付加してＦＡＴやｅｘＦＡＴ等のファイルフォーマットに適合した形で動画ファイルを記録媒体に記録する。また、再生時においては、記録媒体１４０に記録された動画ファイルや静止画ファイルを前述のファイルフォーマットに従って読出す。読出された動画ファイルや静止画ファイルは、ＣＰＵ１０１によりヘッダが解析され、圧縮された動画データ、静止画データが抽出される。抽出された圧縮動画データ、静止画データは、ＲＡＭ１０２に記憶されて、符号化復号化処理部１６０により復号される。なお、記録再生部１４１の処理は、ＣＰＵ１０１がＦｌａｓｈＲＯＭ１０３に記録された前述の処理を実行する為のプログラムをＲＡＭ１０２に展開して実行するようにしてもよい。

また、記録媒体１４０は、撮像装置に内蔵された記録媒体でも、取外し可能な記録媒体でもよい。例えば、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、ＤＶＤ−Ｒ、磁気テープ、不揮発性の半導体メモリ、フラッシュメモリ、などのあらゆる方式の記録媒体を含む。取り外し可能な記録媒体を用いる場合には、記録再生部１４１は、それらの取り外し可能な記録媒体を受け入れるためのインタフェースを含む。

次に音声出力部１３２は、例えばスピーカや音声出力端子（アナログ端子／デジタル端子）である。例えばスピーカであれば、ＣＰＵ１０１によりｆｌａｓｈＲＯＭ１０３に記録されている所定のデジタル音声信号の出力が指示されたときにデジタル音声信号をアナログ音声外部に変換し、外部に音声として出力する。また、動画ファイルに格納された音声データの示すデジタル音声信号をアナログ音声信号に変換し、外部に音声として出力する。また、音声出力端子であれば、動画ファイルに格納された音声データの示すデジタル音声信号をアナログ音声信号に変換して外部装置（外付けスピーカなど）に出力するか、デジタル音声信号をそのまま外部装置（光デジタル端子搭載のオーディオコンポなど）に出力する。

また、通信部１５０は、撮像装置１００とは異なる外部装置との間で、制御信号や動画ファイル、静止画ファイル、各種データ等を送受信するものであり、有線接続、無線接続を問わず接続可能である。なお、通信方式はどのような方式であっても良い。

ここで、本実施例の撮像装置１００の通常の動作について説明する。

本実施例の撮像装置１００は、ユーザが操作部１０２の電源ボタンを操作すると、操作部１０２から制御部１０１に起動の指示が出される。この指示を受けて、制御部１０１は、不図示の電源供給部を制御して、撮像装置１００の各ブロックに対して電源を供給させる。

電源が供給されると、制御部１０１は、例えば、操作部１０２のモード切り換えスイッチが、例えば、「動画撮影モード」、「再生モード」等のどのモードであるかを操作部１０２からの指示信号により確認する。

本実施例の撮像装置１００は、特に「動画撮影モード」において、動画データを「ＭＰＥＧ−４ＡＶＣ／Ｈ．２６４」の圧縮方式で圧縮する例について説明するが、他の圧縮方式を用いても構わない。

（「動画撮影モード」）
まず、「動画撮影モード」であれば、ＣＰＵ１０１は、撮像装置１００の各ブロックに、動画撮影の準備をさせる。操作部１０４から撮影開始の指示が入力されるまでは、ＣＰＵ１０１は、撮像部１１０により得られたデジタル画像信号をＲＡＭ１０２に記憶させ、ＲＡＭ１０２に記憶されたデジタル画像信号を読出させて表示部１３０に画像を表示させように表示制御部１３１を制御する。なお、画像処理部１１１により処理され、ＲＡＭ１０２に記憶されたデジタル画像信号を読出させて表示部１３０に画像を表示させるように表示制御部１３１を制御しても良い。なお、本実施形態では、撮像部１１０から出力されるデジタル画像信号のフレームレートは、３０フレーム／秒であるとする。また、本実施形態では、記録する動画のサイズ（画素数）を複数のサイズから選択した一つのサイズに設定することができる。

この状態で、ＣＰＵ１０１は、操作部１０４により撮影開始の指示が入力されたか否かを判定する。撮影開始の指示があると、ＣＰＵ１０１は、撮像部１１０により得られたデジタル画像信号をＲＡＭ１０２に記憶させ、ＲＡＭ１０２に記憶されたデジタル画像信号に対して設定値に基づいて画質調整処理を施すように画像処理部１１１を制御する。ＣＰＵ１０１は動画撮影を継続している間、３０フレーム／秒で撮像部１１０により出力されるデジタル画像信号を順次、画像処理部１１１に処理させる。そして、ＣＰＵ１０１は、画像処理部１１１で処理されたデジタル画像信号を、順次ＲＡＭ１０２に記憶させる。

次に、ＣＰＵ１０１は、ＲＡＭ１０２に記憶された複数フレームのデジタル画像信号を順次符号化して動画データを生成するように符号化復号化処理部１６０を制御する。ＣＰＵ１０１は、このとき、各フレーム画像をフレーム内予測符号化フレーム、フレーム間予測符号化フレームとして圧縮符号化をするように符号化復号化処理部１６０を制御する。そして、ＣＰＵ１０１は、符号化復号化処理部１６０で符号化された各フレーム画像を順次ＲＡＭ１０２に記憶させていく。

一方、撮影開始の指示があると、ＣＰＵ１０１は、音声に関する処理をするようにも各ブロックを制御する。ＣＰＵ１０１は、音声入力部１２０から出力されるアナログ音声信号を順次音声処理部１２１に転送し、デジタル信号への変換、音質調整処理等を施すように音声処理部１２１を制御する。また、音声圧縮の設定がされている場合には、ＣＰＵ１０１は設定に従って、例えばＡＣ３、ＡＡＣの音声圧縮方式で音声信号を圧縮するように音声処理部１２１を制御する。そして、ＣＰＵ１０１は、音声処理部１２１で処理した音声データをＲＡＭ１０２に順次記憶させていく。また、音声処理部１２１は、風雑音の検出、風雑音の低減、音声レベルの調整なども行う。この処理については後述する。

次にＣＰＵ１０１は、ＲＡＭ１０２に記憶された動画データ、音声データを順次、記録媒体１４０に記録するように、記録再生部１４１を制御する。このとき例えば、１５フレーム分（０．５秒分）の動画データと、０．５秒分の音声データとを一組にし、必要な各種情報を付加したデータストリームを形成し、ファイルシステムに従って記録媒体１４０に記録するように、記録再生部１４１を制御する。なお、３０フレーム分（１秒分）の動画データと、１秒分の音声データを一組としても良い。ＣＰＵ１０１は、これらの動作を動画撮影の停止の指示があるまで継続する。

そして、操作部１０４により撮影停止の指示が入力されると、ＣＰＵ１０１は、画像処理部１１１の処理を停止させ、ＲＡＭ１０２に記憶されたデジタル画像信号の符号化が終了した時点で符号化復号化処理部１６０の符号化処理を停止させる。そして、ＣＰＵ１０１は、ＲＡＭ１０２に記憶されている符号化済みの動画データ、音声データを最後まで記録媒体１４０に記録してから動作を停止するように記録再生部１４１を制御する。なお、必要に応じて、記録終了後に、動画ファイルの動画データの先頭のフレームや先頭から数フレームの画像データを符号化復号化処理部１６０に送信して復号させ、復号されたデジタル画像信号の画素数を間引いたサムネイル画像データを生成して、動画ファイルに関連づけて記録するようにしても良い。

この処理が終了すると、ＣＰＵ１０１は、再び動画撮影の準備状態に各ブロックを戻す。

（「再生モード」）
「再生モード」であれば、ＣＰＵ１０１は、記録媒体１４０に記録されている動画ファイル、静止画ファイルのうち指定されたファイルに関連づけられたサムネイル画像データを読出すように記録再生部１４１を制御する。そして、ＣＰＵ１０１は、これらのサムネイル画像データを示す画像を表示部１３０に表示するよう表示制御部１３１を制御する。

そして、操作部１０４から指定されたサムネイルに対応するファイルを再生する指示が入力されると、ＣＰＵ１０１は、指定された動画ファイルや静止画ファイルを記録媒体１４０から読出すように記録再生部１４１を制御する。そして、ＣＰＵ１０１は、読出した動画ファイルや静止画ファイルに含まれる各種情報、動画データ、音声データ、静止画データを抽出してＲＡＭ１０２に記憶させる。

静止画ファイルを再生する場合は、ＣＰＵ１０１は、ＲＡＭ１０２に記憶された静止画データを復号するように符号化復号化処理部１６０を制御し、復号されたデジタル画像信号をＲＡＭ１０２に記憶させる。そして、ＲＡＭ１０２に記憶させた復号されたデジタル画像信号を表示部１３０に表示するように表示制御部１３１を制御する。

また、動画ファイルを再生する場合は、ＣＰＵ１０１は、ＲＡＭ１０２に記憶された動画データを復号するように符号化復号化処理部１６０を制御し、復号された各フレームのデジタル画像信号を順次、ＲＡＭ１０２に記憶させる。そして、ＲＡＭ１０２に記憶させた復号された各フレームのデジタル画像信号を表示部１３０に、順次表示するように表示制御部１３１を制御する。また、ＣＰＵ１０１は、ＲＡＭ１０２に記憶された音声データを動画の復号、表示のタイミングに合わせて、音声出力部１３２に送信し、音声を出力させる。なお、音声データが圧縮されたものである場合には、ＲＡＭ１０２に記憶された音声データを復号するように音声処理部１２１を制御し、復号された音声データを音声出力部１３２に送信する。

＜音声信号処理＞
次に本実施例の撮像装置１００の音声入力部１２０及び音声処理部１２１の動画記録中の動作について図２、３、４を用いて説明する。図２は、本実施例の音声入力部１２０及び音声処理部１２１の動作を説明するためのブロック図である。

本実施例の音声入力部１２０は、内蔵された複数の無指向性のマイクを有する。本実施例においては、マイク２１０ａ、マイク２１０ｂを示すが、マイクの個数は２個に限られない。また、音声信号処理部１２１は、ＡＤ変換部２２０ａ、２２０ｂ、ローパスフィルタ（ＬＰＦ）２３０ａ、２３０ｂ、減算器２３１ａ、２３１ｂ、加算器２３２ａ、減算器２３２ｂを有する。また、第１ハイパスフィルタ（第１ＨＰＦ）２３３、加算器２３４ａ、減算器２３４ｂ、第２ハイパスフィルタ（第２ＨＰＦ）２３５ａ、２３５ｂ、オートレベルコントローラ（ＡＬＣ）２３６を有する。また、第１ＨＰＦ２３３、第２ＨＰＦ２３５ａ、２３５ｂを制御するためのユニットとして、以下を有する。ローパスフィルタ（ＬＰＦ）２４０ａ、２４０ｂ、絶対値変換部２４１ａ、２４１ｂ、バンドパスフィルタ（ＢＰＦ）２４２ａ、２４２ｂ、絶対値変換部２４３ａ、２４３ｂ、減算器２４４、２４５、設定部２４６。

図２において、マイク２１０ａ、２１０ｂは、周囲の音声を集音し、音声信号を取得する。ＡＤ変換部２２０ａ、２２０ｂは、マイク２１０ａ、２１０ｂから送信されたアナログ音声信号をデジタル音声信号に変換するもので、本実施例においては、サンプリング周波数を４８ｋＨｚ、量子化ビット数を１６ｂｉｔとするが、これ以外であっても良い。

ローパスフィルタ（ＬＰＦ）２３０ａ、２３０ｂは、それぞれ、ＡＤ変換部２２０ａ、２２０ｂから出力された音声信号の所定の周波数よりも低い周波数の信号を抽出し、減算器２３１ａ、２３１ｂに送信するものである。ＬＰＦ２３０ａ、２３０ｂは、所定の周波数よりも低い周波数の信号を抽出するフィルタであるとともに、信号を遅延させる遅延器でもある。本実施例では例えば、１２００Ｈｚをカットオフ周波数として、１２００Ｈｚより低い周波数帯の信号を抽出して減算器２３１ａ、２３１ｂに送信するものとするが、ＬＰＦ２３０ａ、２３０ｂのカットオフ周波数は、２０Ｈｚから２０ｋＨｚの間であればいくつであっても良い。ＬＰＦ２３０ａ、２３０ｂのカットオフ周波数は、ステレオ感を強調したい周波数帯に応じて、適宜変更されてよい。

次に、減算器２３１ａは、ＡＤ変換部２２０ａから出力された音声信号よりＬＰＦ２３０ｂから出力された音声信号を減算するものであり、減算器２３１ｂは、ＡＤ変換部２２０ｂから出力された音声信号よりＬＰＦ２３０ａから出力された音声信号を減算するものである。この減算器２３１ａ、２３１ｂの出力は、本実施形態においては、それぞれＬチャンネル（第１のチャンネル）の音声信号、Ｒチャンネル（第２のチャンネル）の音声信号となる。このように、複数のマイクそれぞれに入力される音声信号の特定の周波数を遅延させ、減算処理を行うことで、ステレオ感を強調した複数チャンネルの音声信号を取得することができるのである。本実施例では、前述したように、一方のマイクにより得られた音声信号から、他のマイクにより得られた音声信号の遅延信号を加算することで、ステレオ感を強調した複数チャンネルの音声信号を取得した。しかし、ステレオ感の強調の方法は、この方法に限られないし、マイク自体が特定の方向に指向性を有するマイクを採用しても良い。

加算器２３２ａは、取得されたＬチャンネルの音声信号とＲチャンネルの音声信号とを加算して和信号を生成するものであり、減算器２３２ｂは、取得されたＬチャンネルの音声信号とＲチャンネルの音声信号とを減算して差信号を生成するものである。本実施例では、和信号は、Ｌチャンネル＋Ｒチャンネルであり、差信号は、Ｌチャンネル−Ｒチャンネルである。

第１ハイパスフィルタ（第１ＨＰＦ）２３３は、減算器２３２ｂにより得られた差信号の設定されたカットオフ周波数（第１の所定の周波数）以上の周波数成分を抽出するものであり、カットオフ周波数は、後述の設定部２４６により設定される。この第１ＨＰＦ２３３は、差信号に表れているＬチャンネルとＲチャンネルとで相関のとれていない成分のカットオフ周波数（第１の所定の周波数）以下の周波数成分を減衰させることができる。すなわち、ＬチャンネルとＲチャンネルとで相関のとれていない成分には風雑音の成分が多く含まれており、設定部２４６により設定されたカットオフ周波数（第１の所定の周波数）以下の風雑音を減衰させることができるのである。一方で、ここで差成分を減衰させすぎると、後に和信号と合成して、再びＬチャンネルとＲチャンネルを生成した場合に、それぞれのチャンネルの差成分が少なくなってしまい、ステレオ感が薄れてしまうことになる。

加算器２３４ａは、加算器２３２ａにより得られた和信号と第１ＨＰＦ２３３から出力される差信号の第１の所定の周波数以上の周波数成分の信号とを加算し、風雑音を低減したＬチャンネル（Ｌ’チャンネル）の音声信号を生成するものである。減算器２３４ｂは、加算器２３２ａにより得られた和信号から第１ＨＰＦ２３３から出力される差信号の第１の所定の周波数以上の周波数成分の信号を減算し、風雑音を低減したＲチャンネル（Ｒ’チャンネル）の音声信号を生成するものである。第２ハイパスフィルタ（第２ＨＰＦ）２３５ａ、２３５ｂは、それぞれ、加算器２３４ａ、減算器２３４ｂからの出力信号であるＬ’チャンネル、Ｒ’チャンネルの音声信号の設定されたカットオフ周波数（第２の所定の周波数）以上の周波数成分を抽出するものである。第２ＨＰＦ２３５ａ、２３５ｂにおける、カットオフ周波数（第２の所定の周波数）は、後述の設定部２４６により設定される。第２ＨＰＦ２３５ａ、２３５ｂは、和成分に含まれている可能性のある各チャンネルで位相のあってしまった風雑音（差成分には含まれない風雑音）を低減することができる。

オートレベルコントローラ（ＡＬＣ）２３６は、第２ＨＰＦ２３５ａ、２３５ｂから出力された各チャンネルの音声信号のレベルを目標レベルに制御するためのものである。ＡＬＣ２３６は、各チャンネルの音声信号のうち最大レベルの音声信号を目標レベルに制御するために増幅または減衰させるゲインを、入力された各チャンネルの音声信号に共通に与える。

次に、第１ＨＰＦ２３３、第２ＨＰＦ２３５ａ、２３５ｂを制御するためのユニットについて説明する。なお、第１ＨＰＦ２３３、第２ＨＰＦ２３５ａ、２３５ｂを区別するとすれば、第１ＨＰＦ２３３は、設定されたカットオフ周波数（第１の所定の周波数）よりも高い周波数の信号を抽出する第１の抽出部である。第２ＨＰＦ２３５ａ、２３５ｂは、それぞれ、設定されたカットオフ周波数（第２の所定の周波数）よりも高い周波数の信号を抽出する第２の抽出部、第３の抽出部である。

ローパスフィルタ（ＬＰＦ）２４０ａ、２４０ｂは、加算器２３２ａにより得られた和信号Ｌチャンネル＋Ｒチャンネル、減算器２３２ｂにより得られた差信号Ｌチャンネル−Ｒチャンネルそれぞれの低周波数成分（例えば１００Ｈｚ以下）を抽出するものである。また、絶対値変換部２４１ａ、２４１ｂは、ローパスフィルタ（ＬＰＦ）２４０ａ、２４０ｂから出力された、和信号、差信号の低周波数成分の信号の絶対値に変換するものである。一方バンドパスフィルタ（ＢＰＦ）２４２ａ、２４２ｂは、加算器２３２ａにより得られた和信号、減算器２３２ｂにより得られた差信号それぞれの中域周波数成分（例えば２００Ｈｚから６００Ｈｚ以下）を抽出するものである。また、絶対値変換部２４３ａ、２４３ｂは、バンドパスフィルタ（ＢＰＦ）２４２ａ、２４２ｂから出力された、和信号、差信号の中域周波数成分の信号の絶対値に変換するものである。

次に、減算器２４４は、絶対値変換部２４１ｂの出力から、絶対値変換部２４１ａの出力を減算するものであり、減算器２４５は、絶対値変換部２４３ｂの出力から絶対値変換部２４３ａの出力を減算するものである。これらは、差信号の値が大きい場合に大きい値を示すことになる。差信号の値が大きい場合というのは、Ｌチャンネル、Ｒチャンネルで位相のあわない信号が多いということを示し、前述したように風雑音が多いことを示すと見なすことができる。そのため、本実施例においては、減算器２４４の出力を「低域風雑音検出量」とし、減算器２４５の出力を「中域風雑音検出量」とする。

なお、本実施例では、低周波数成分を１００Ｈｚ以下、中域周波数成分を２００Ｈｚから６００Ｈｚとしたが、周波数はこれに限られない。一般的には、風雑音の発生する可能性の高い例えば２ｋＨｚ以下の周波数を用いればよい。本実施形態においては、この周波数以下の範囲で、実験により複数の周波数帯を設定できればよい。

設定部２４６は、減算器２４４の出力である「低域風雑音検出量」と、減算器２４５の出力である「中域風雑音検出量」とに基づいて、第１ＨＰＦ２３３のカットオフ周波数（第１の所定の周波数）、第２ＨＰＦ２３５ａ、２３５ｂのカットオフ周波数（第２の所定の周波数）を設定する。すなわち、設定部２４６は、複数チャンネルの音声信号の和を示す和信号と差を示す差信号の絶対値を、第１の周波数帯（低域周波数帯）と、第２の周波数帯（中域周波数帯）において比較した結果を用いて、前述のカットオフ周波数を設定している。第１ＨＰＦ２３３のカットオフ周波数（第１の所定の周波数）、第２ＨＰＦ２３５ａ、２３５ｂのカットオフ周波数（第２の所定の周波数）の設定動作については後述する。

ここで、図２，図３、図４を用いて、動画記録中の音声入力部１２０及び音声処理部１２１の音声信号の処理（風雑音低減処理）について説明する。

動画記録が開始されると、マイク２１０ａ、２１０ｂは、それぞれ周囲の音声を順次集音し、音声信号を出力する。ＡＤ変換部２２０ａ、２２０ｂは、それぞれマイク２１０ａ、２１０ｂにより得られたアナログ音声信号をデジタル音声信号に変換する。そして、ＬＰＦ２３０ａ、２３０ｂは、ＡＤ変換部２２０ａ、２２０ｂから出力されたそれぞれの音声信号を遅延させ、減算器２３１ａ、２３１ｂに出力する。減算器２３１ａ、２３１ｂは、ＡＤ変換部２２０ａ、２２０ｂから出力されたそれぞれの音声信号より、ＬＰＦ２３０ａ、２３０ｂから出力された音声信号を減算し、Ｌチャンネル、Ｒチャンネルの音声信号を取得する。

次に、加算器２３２ａ、減算器２３２ｂは、それぞれ、和信号Ｌチャンネル＋Ｒチャンネル、差信号はＬチャンネル−Ｒチャンネルを生成する。

次に、第１ＨＰＦ２３３、第２ＨＰＦ２３５ａ、２３５ｂのカットオフ周波数（第１の所定の周波数、第２の所定の周波数）を制御するためのユニットには、ＬＰＦ２４０ａ、２４０ｂ、ＢＰＦ２４２ａ、２４２ｂにそれぞれ和信号、差信号が供給される。ＬＰＦ２４０ａ、２４０ｂ、ＢＰＦ２４２ａ、２４２ｂでは、それぞれ、あらかじめ決められた複数種類（本実施例では２種類であるが、それ以上であっても良い。）の周波数帯の信号成分が抽出される。そして、抽出された信号は、それぞれ、絶対値変換部２４１ａ、２４１ｂ、絶対値変換部２４３ａ、２４３ｂに供給され、絶対値変換される。減算器２４４、２４５は、絶対値変換部２４１ａ、２４１ｂ、絶対値変換部２４３ａ、２４３ｂにより絶対値変換された信号同士を減算し、「低域風雑音検出量」と、「中域風雑音検出量」とを示す信号を出力する。

そして、設定部２４６は、減算器２４４の出力である「低域風雑音検出量」と、減算器２４５の出力である「中域風雑音検出量」とに基づいて、第１ＨＰＦ２３３、第２ＨＰＦ２３５ａ、２３５ｂのカットオフ周波数（第１の所定の周波数、第２の所定の周波数）を設定する。

そして、第１ハイパスフィルタ（第１ＨＰＦ）２３３は、減算器２３２ｂにより得られた差信号の設定部２４６により設定されたカットオフ周波数（第１の所定の周波数）以上の周波数成分を抽出する。次に、加算器２３４ａは、加算器２３２ａにより得られた和信号と第１ＨＰＦ２３３から出力される差信号のカットオフ周波数（第１の所定の周波数）以上の周波数成分の信号とを加算し、風雑音を低減したＬチャンネル（Ｌ’チャンネル）の音声信号を生成する。減算器２３４ｂは、加算器２３２ａにより得られた和信号から第１ＨＰＦ２３３から出力される差信号のカットオフ周波数（第１の所定の周波数）以上の周波数成分の信号を減算し、風雑音を低減したＲチャンネル（Ｒ’チャンネル）の音声信号を生成する。

第２ハイパスフィルタ（第２ＨＰＦ）２３５ａ、２３５ｂは、それぞれ、加算器２３４ａ、減算器２３４ｂにより得られたＬ’チャンネル、Ｒ’チャンネルの音声信号の設定部２４６により設定されたカットオフ周波数（第２の所定の周波数）以上の周波数成分を抽出する。

最後に、ＡＬＣ２３６は、第２ＨＰＦ２３５ａ、２３５ｂから出力された各チャンネルの音声信号のレベルを目標レベルに制御する。

本実施例の撮像装置１００においては、以上の動作が動画の記録中に繰り返される。

ここで、設定部２４６の動作について図３を用いて説明する。

図３は、設定部２４６における、「低域風雑音検出量」と、「中域風雑音検出量」に応じて設定される、第１ＨＰＦ２３３、第２ＨＰＦ２３５ａ、２３５ｂのカットオフ周波数（第１の所定の周波数、第２の所定の周波数）を示す図である。

図３において、「低域風雑音検出量」については、風速５ｍ程度の強風下における「低域風雑音検出量」を１０として、正規化した値で扱う。そうすると、正規化された「低域風雑音検出量」が０〜３未満では、風速１ｍ未満程度の微風に対応し、３〜７未満では、風速１〜３ｍ未満程度の弱風に対応し、７〜１０未満では風速３〜５ｍ未満程度の中風に対応し、１０以上では、風速５ｍ程度以上の強風に対応する。本実施例における、正規化された「低域風雑音検出量」と、風速との関係は一例であり、例えばさらに細かく分類してもよい。また、「中域風雑音検出量」については、また、低域風雑音量と中域風雑音量を比較するため、風速５ｍ程度の強風下における「低域風雑音検出量」を１０として、正規化した値で扱う。

ところで、前述したように風雑音の特性としては、同じ風速であっても、例えば風が吹く方向や撮像装置の外装の形状などによって、「中域風雑音量」が異なる場合がある。逆に、「低域風雑音量」は、同じ風速であれば、風が吹く方向や撮像装置の外装の形状によってほぼ同一の値を示す。そこで、各風速に対して最も大きいと想定される「中域風雑音検出量」を、たとえば、風速５ｍ程度の強風時における「低域風雑音検出量」を１０として正規化した値を、図３の中域風雑音基準量とする。図３においては、風速１ｍ未満程度の微風においては中域風雑音基準量は０、風速１〜３ｍ未満程度の弱風においては中域風雑音基準量は２、風速３〜５ｍ未満程度の中風においては中域風雑音基準量は５、風速５ｍ程度以上の強風においては中域風雑音基準量は８である。

ここで、設定部２４６による第１ＨＰＦ２３３におけるカットオフ周波数（第１の所定の周波数）の制御手順を説明する。本実施例においては、第１ＨＰＦ２３３におけるカットオフ周波数（第１の所定の周波数）は、「低域風雑音検出量」及び「中域雑音検出量」に基づいて制御される。具体的には、正規化された「低域風雑音検出量」、及び、正規化された「中域雑音検出量」と中域風雑音基準量との比率によって、第１の所定の周波数を制御する。すなわち、正規化された「低域風雑音検出量」により、中域風雑音基準量を決定し、正規化された「中域雑音検出量」と中域風雑音基準量との比率に応じて、カットオフ周波数（第１の所定の周波数）を制御する。

本実施例においては、たとえば、ＢＰＦ２４２ａ、２４２ｂで抽出する帯域の中心周波数である４００Ｈｚにおける信号減衰量が、正規化した「中域風雑音検出量」と中域風雑音基準量との比率とほぼ同じ比率で減少するように、第１ＨＰＦ２３３の第１の所定の周波数の設定値を定める。

具体的には、図３に示すように、まず、正規化された「低域風雑音検出量」が４である場合には、第１ＨＰＦ２３３のカットオフ周波数（第１の所定の周波数）の標準値が１ｋＨｚである。そして、４００Ｈｚにおける信号減衰量を−１８ｄＢであるとすると、図４のように、４００Ｈｚにおける信号減衰量が以下のようになるようにカットオフ周波数（第１の所定の周波数）が設定される。すなわち、正規化した「中域風雑音検出量」と中域風雑音基準量との比率が０．７〜１のとき−１８ｄＢ、０．３〜０．７未満のとき−１２ｄＢ、０〜０．３未満のとき−６ｄＢとなるように、カットオフ周波数（第１の所定の周波数）を設定する。すなわち、第１ＨＰＦ２３３のカットオフ周波数（第１の所定の周波数）の設定値を正規化した「中域風雑音検出量」と中域風雑音基準量との比率が０．７〜１のときは１ｋＨｚ、０．３〜０．７未満のときは７５０Ｈｚ、０〜０．３未満のときは５００Ｈｚに制御する。

例えば、正規化した「低域風雑音検出量」が５、正規化した「中域風雑音量」が１であったとすると、図３に従い、中域風雑音基準量が２、第１ＨＰＦ２３３ののカットオフ周波数の標準値が１ｋＨｚと定まる。そして、正規化した「中域風雑音検出量」と中域風雑音基準量との比率が１／２＝０．５であるから、図３に従い、第１ＨＰＦ２３３のカットオフ周波数（第１の所定の周波数）を７５０Ｈｚに設定する。

なお、前述の通り中域風雑音基準量は「中域風雑音検出量」の最大値をあらかじめ測定して定めている。しかし、正規化した「中域風雑音検出量」が中域風雑音基準量を超えた場合は（正規化した「中域風雑音検出量」と中域風雑音基準量との比率が１以上）、第１ＨＰＦ２３３のカットオフ周波数の標準値を第１ＨＰＦ２３３のカットオフ周波数（第１の所定の周波数）として設定する。

また、正規化された「低域風雑音検出量」が２である場合には、第１ＨＰＦ２３３のカットオフ周波数（第１の所定の周波数）の標準値が１００Ｈｚである。しかし、この場合、４００Ｈｚにおける信号減衰量は０ｄＢであるため、正規化した「中域風雑音検出量」と中域風雑音基準量との比率によらず、第１ＨＰＦ２３３の第１の所定の周波数の設定値は標準値と同じ１００Ｈｚとする。

このように、設定部２４６は、正規化された「低域風雑音検出量」と、正規化した「中域風雑音検出量」と中域風雑音基準量との比率に応じて、第１ＨＰＦ２３３のカットオフ周波数（第１の所定の周波数）を制御している。

次に、設定部２４６による第２ＨＰＦ２３５ａ、２３５ｂのカットオフ周波数（第２の所定の周波数）の制御手順を説明する。本実施例においては、第２ＨＰＦ２３５ａ、２３５ｂのカットオフ周波数（第２の所定の周波数）は、「低域風雑音検出量」に基づいて制御される。具体的には、図３に示すように、正規化された「低域風雑音検出量」によって、第２の所定の周波数を制御する。

たとえば、正規化された「低域風雑音検出量」が０〜３未満では１０Ｈｚに、３〜７未満では１００Ｈｚに、７〜１０未満では２００Ｈｚに、１０以上では、４００Ｈｚにそれぞれカットオフ周波数（第２の所定の周波数）を制御する。

このように、本実施例の撮像装置１００は、複数チャンネルの音声信号に含まれる風雑音を低減する際に、複数チャンネルの音声信号の差成分の第１の所定の周波数以下の信号を低減させる処理を行い、風雑音を低減することができる。この際、第１の所定の周波数については、「低域風雑音検出量」及び「中域風雑音検出量」に基づいて制御される。具体的には、正規化された「低域風雑音検出量」と、正規化した「中域風雑音検出量」と中域風雑音基準量との比率に応じて、制御されている。すなわち、複数チャンネルの音声信号の「低域風雑音検出量」と「中域風雑音検出量」とを検出し、各周波数帯における雑音検出量に応じて、複数チャンネルの音声信号の差成分に対するハイパスフィルタのカットオフ周波数（第１の所定の周波数）を制御する。なお、前述したように、「低域風雑音検出量」、「中域風雑音検出量」は、それぞれ、複数チャンネルの音声信号の低域周波数領域、中域周波数領域における和成分と差成分の絶対値を比較することで検出される。

本実施例の撮像装置１００は、以上のような音声信号処理を行うことによって、風雑音を低減する効果を保ちつつ、ステレオ感、多チャンネル感を保つことができる。

なお、本実施例においては、動画記録中に前述の風雑音低減処理を行うものとしたが、動画記録中には、これらの動作を行わず、動画再生中に風雑音低減処理を行うようにしてもよい。再生中に処理を行う場合には、再生されたＬチャンネル、Ｒチャンネルの音声信号を、加算器２３２ａ、減算器２３２ｂにそれぞれ入力するようにすればよい。すなわち、本実施例の風雑音低減処理は、記録時、再生時のいずれの場合であっても実行することができる。

なお、本実施例におけるローパスフィルタおよびハイパスフィルタは、バンドパスフィルタなどの他のフィルタで構成してもよい。

なお、本実施形態の撮像装置１００は、例えば、デジタルカメラ、携帯電話、スマートフォン、ＩＣレコーダ、携帯型ゲーム機、コンピュータ、など音声を記録または再生することができる装置であればどのような装置にも適用することができる。

［その他の実施形態］
以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。

また、上述の実施形態の機能を実現するソフトウェアのプログラムを、記録媒体から直接、或いは有線／無線通信を用いてプログラムを実行可能なコンピュータを有するシステム又は装置に供給し、そのプログラムを実行する場合も本発明に含む。従って、本発明の機能処理をコンピュータで実現するために、該コンピュータに供給、インストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の機能処理を実現するためのコンピュータプログラム自体も本発明に含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

Claims

第１のチャンネルの音声信号及び第２のチャンネルの音声信号を取得する取得手段と、
前記第１のチャンネルの音声信号と前記第２のチャンネルの音声信号の差を示す差信号の第１の所定の周波数以上の信号を抽出する第１の抽出手段と、
前記第１の抽出手段により抽出された前記差信号の第１の所定の周波数以上の信号と、前記第１のチャンネルの音声信号と前記第２のチャンネルの音声信号の和を示す和信号と、を加算する加算手段と、
前記第１の抽出手段により抽出された前記差信号の第１の所定の周波数以上の信号を、前記第１のチャンネルの音声信号と前記第２のチャンネルの音声信号の和を示す和信号から減算する減算手段と、
第１の周波数帯における前記差信号と前記和信号のレベルの比較結果と、前記第１の周波数帯よりも高い第２の周波数帯における前記差信号と前記和信号のレベルの比較結果と、に基づいて、前記第１の所定の周波数を制御する制御手段と、
前記加算手段の出力信号の第２の所定の周波数以上の信号を抽出する第２の抽出手段と、
前記減算手段の出力信号の前記第２の所定の周波数以上の信号を抽出する第３の抽出手段と、を有することを特徴とする音声信号処理装置。
前記制御手段は、前記第１の周波数帯における前記差信号と前記和信号のレベルの比較結果に応じて、前記第２の抽出手段における前記第２の所定の周波数と前記第３の抽出手段における前記第２の所定の周波数とを決定することを特徴とする請求項１に記載の音声信号処理装置。
前記第２の抽出手段により抽出された信号と、前記第３の抽出手段により抽出された信号とを記録する記録手段を有することを特徴とする請求項１または２に記載の音声信号処理装置。
前記取得手段は、記録媒体から再生された前記第１のチャンネルの音声信号及び前記第２のチャンネルの音声信号を取得することを特徴とする請求項１または２に項記載の音声信号処理装置。
前記取得手段は、複数の集音手段により得られた音声信号に基づいて生成された前記第１のチャンネルの音声信号及び前記第２のチャンネルの音声信号を取得することを特徴とする請求項１から３のいずれか１項に記載の音声信号処理装置。
前記請求項１から５の音声信号処理装置の各手段としてコンピュータを動作させるためのプログラム。
第１のチャンネルの音声信号及び第２のチャンネルの音声信号を取得する取得工程と、
前記第１のチャンネルの音声信号と前記第２のチャンネルの音声信号の差を示す差信号の第１の所定の周波数以上の信号を抽出する第１の抽出工程と、
前記第１の抽出工程により抽出された前記差信号の第１の所定の周波数以上の信号と、前記第１のチャンネルの音声信号と前記第２のチャンネルの音声信号の和を示す和信号と、を加算する加算工程と、
前記第１の抽出工程により抽出された前記差信号の第１の所定の周波数以上の信号を、前記第１のチャンネルの音声信号と前記第２のチャンネルの音声信号の和を示す和信号から減算する減算工程と、
第１の周波数帯における前記差信号と前記和信号のレベルの比較結果と、前記第１の周波数帯よりも高い第２の周波数帯における前記差信号と前記和信号のレベルの比較結果と、に基づいて、前記第１の所定の周波数を制御する制御工程と、
前記加算工程の出力信号の第２の所定の周波数以上の信号を抽出する第２の抽出工程と、
前記減算工程の出力信号の前記第２の所定の周波数以上の信号を抽出する第３の抽出工程と、を有することを特徴とする音声信号処理方法。