JP2019016851A

JP2019016851A - 音声処理装置、音声処理方法、及びプログラム

Info

Publication number: JP2019016851A
Application number: JP2017131073A
Authority: JP
Inventors: 友仁井上; Tomohito Inoue
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2019-01-31
Also published as: US20190014411A1; US10425731B2

Abstract

【課題】音質の変化を抑えつつ、風雑音の低減処理が音声信号の音質へ与える影響を軽減する。
【解決手段】複数の音声信号を入力する音声入力部と、入力される音声信号の風雑音を低減する風雑音低減部２０５、２０６と入力される複数の音声信号Ｒｃｈ−ｉｎ、Ｌｃｈ−ｉｎの同位相成分Ｒ＋Ｌと逆位相成分Ｒ−Ｌとの差分に基づいて風雑音低減部での風雑音の低減レベルを制御し、入力される複数の音声信号の同位相成分Ｒ＋Ｌの大きさに基づいて風雑音低減部での風雑音の低減レベルを変化させる速さを制御する。
【選択図】図２

Description

本発明は、音声処理装置、音声処理方法、及びプログラムに関する。

音声信号を処理する装置として、画像信号を記録するとともに音声信号を記録する撮像装置がある。画像信号とともに音声信号を記録する撮像装置では、記録する音声信号の風雑音を低減する機能を持つものがある。風雑音は低い周波数成分が支配的であるので、風雑音の低減処理は、音声信号の低周波数成分を低減するハイパスフィルタで実現されることが多い。音声信号に対して常にハイパスフィルタの処理を施すと、音質への影響が大きいため、風雑音の検出レベルに応じてハイパスフィルタのカットオフ周波数を制御するものがあった（例えば、特許文献１）。

特開平６−２６９０８４号公報

従来の風雑音の低減処理においては、風雑音が大きい場合、ハイパスフィルタのカットオフ周波数を高くして、音声信号のより高い周波数成分まで低減させる。ハイパスフィルタのカットオフ周波数が高く設定された状態で、風雑音が小さくなった場合には、ハイパスフィルタのカットオフ周波数を低い周波数に戻すが、音質の変化を抑えるために長い時間をかけてゆっくりとカットオフ周波数を下げていた。そのため、ハイパスフィルタのカットオフ周波数を低い周波数に戻している間の音声信号が、風雑音の低減処理の影響を受け続けてしまうという課題があった。本発明は、音質の変化を抑えつつ、風雑音の低減処理が音声信号の音質へ与える影響を軽減することを目的とする。

本発明に係る音声処理装置は、複数の音声信号を入力する音声入力手段と、入力される前記複数の音声信号の風雑音を低減する低減手段と、前記複数の音声信号の同位相成分と逆位相成分との差分に基づいて前記低減手段での前記風雑音の低減レベルを制御し、前記複数の音声信号の同位相成分の大きさに基づいて前記低減手段での前記風雑音の低減レベルを変化させる速さを制御する制御手段とを有することを特徴とする。

本発明によれば、音質の変化を抑えつつ、風雑音の低減処理が音声信号の音質へ与える影響を軽減することができる。

本発明の実施形態における撮像装置の構成例を示す図である。本実施形態における音声処理部の構成例を示す図である。本実施形態におけるカットオフ周波数の制御タイミングの例を示すタイミングチャートである。本実施形態における風雑音の大きさに対するカットオフ周波数の段数の対応を示す図である。本実施形態におけるカットオフ周波数の制御処理の例を示すフローチャートである。本実施形態における音声処理部の他の構成例を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。
図１は、本発明の一実施形態における撮像装置１００の構成例を示すブロック図である。本実施形態における撮像装置１００は、音声信号を処理、録音することが可能である。撮像装置１００は、撮像部１０１、音声入力部１０２、音声処理部１０３、メモリ１０４、表示制御部１０５、表示部１０６、及び符号化処理部１０７を有する。また、撮像装置１００は、記録再生部１０８、記録媒体１０９、制御部１１０、操作部１１１、音声出力部１１２、スピーカ１１３、及び外部出力部１１４を有する。

撮像部１０１は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換処理や画像調整処理等を行い、画像データを生成する。音声入力部１０２は、内蔵又は音声端子を介して接続された複数のマイクにより、撮像装置１００の周辺の音声を集音し、アナログデジタル変換処理や音声処理等を行い、音声データを生成する。音声処理部１０３は、音声入力部１０２により得られた音声データに対して音声信号処理を行う。

メモリ１０４は、撮像部１０１により得られた画像データや、音声処理部１０４で処理された音声データを一時的に記憶する。表示制御部１０５は、撮像部１０１により得られた画像データに係る映像や、撮像装置１００の操作画面やメニュー画面等を表示部１０６や、不図示の映像端子を介して外部の表示装置に表示させる。符号化処理部１０７は、メモリ１０４に一時的に記憶された画像データや音声データを読み出して所定の符号化処理を行い、圧縮画像データや圧縮音声データ等を生成する。

記録再生部１０８は、符号化処理部１０７で生成された圧縮画像データや圧縮音声データ等を記録媒体１０９に記録したり、記録媒体１０９に記録された圧縮画像データ、圧縮音声データ、各種データ、及びプログラム等を読み出したりする。ここで、記録媒体１０９は、圧縮画像データや圧縮音声データ等を記録することができればよく、磁気ディスク、光学式ディスク、半導体メモリ等の任意の方式の記録媒体を含む。

制御部１１０は、撮像装置１００の各機能部に制御信号を送信することで撮像装置１００の各機能部を制御する。制御部１１０は、例えば、各種制御を実行するためのＣＰＵ（Central Processing Unit）やメモリ等からなる。操作部１１１は、ボタンやダイヤル等の操作部材を有し、ユーザの操作に応じて指示信号を制御部１１０に送信する。

音声出力部１１２は、記録再生部１０８により再生された圧縮音声データや、制御部１１０により出力される音声データをスピーカ１１３や音声端子等に出力する。外部出力部１１４は、記録再生部１０８により再生された圧縮映像データや圧縮音声データ等を外部機器に出力する。データバス１１５は、音声データや画像データ等の各種データ、各種制御信号を撮像装置１００の各機能部に供給する。

本実施形態における撮像装置１００の動作について説明する。
撮像装置１００は、ユーザが操作部１１１を操作して電源を投入する指示が出されたことに応じて、不図示の電源供給部から撮像装置１００が有する各機能部に電源を供給する。撮像装置１００に電源が供給されると、制御部１１０は、例えば、操作部１１１のモード切り換えスイッチが、動画記録モードや再生モード等のどのモードであるかを操作部１１１からの指示信号により確認する。

動画記録モードでは、撮像装置１００は、撮像部１０１により得られた画像データと音声入力部１０２により得られた音声データとを１つのファイルとして保存することができる。また、再生モードでは、撮像装置１００は、記録媒体１０９に記録された圧縮画像データを記録再生部１０８により再生して表示部１０６に表示させることができる。

動画記録モードでの動作について説明する。動画記録モードでは、まず、制御部１１０は、撮影待機状態に移行させるように制御信号を撮像装置１００の各機能部に送信し、以下のような動作をさせる。撮像部１０１は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換処理や画像調整処理等を行い、画像データを生成する。そして、撮像部１０１により得られた画像データが表示制御部１０５に送信され、表示制御部１０５は、画像データに係る映像を表示部１０６に表示させる。ユーザは、このようにして表示された映像を見ながら撮影の準備を行う。

また、音声入力部１０２は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、複数のデジタル音声信号を生成する。音声処理部１０３は、音声入力部１０２により得られたデジタル音声信号に対して任意の信号処理を施し、マルチチャンネルの音声データを生成する。本実施形態では、例えば、音声処理部１０３は、２チャンネルのステレオ音声データを出力する。そして、音声処理部１０３により得られた音声データが音声出力部１１２に送信され、音声出力部１１２は、接続されたスピーカ１１３や不図示のイヤホンから音声として出力させる。ユーザは、このようにして出力された音声を聞きながら記録音量を決定するためのマニュアルボリュームの調整を行うこともできる。

次に、ユーザが操作部１１１の記録ボタン等を操作することにより撮影開始の指示信号が制御部１１０に送信されると、制御部１１０は、撮像装置１００の各機能部に撮影開始の制御信号を送信し、以下のような動作をさせる。撮像部１０１は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換処理や画像調整処理等を行い、画像データを生成する。そして、撮像部１０１により得られた画像データが表示制御部１０５に送信され、表示制御部１０５は、画像データに係る映像を表示部１０６に表示させる。また、撮像部１０１により得られた画像データは、メモリ１０４に送信され記憶される。

音声入力部１０２は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、複数のデジタル音声信号を得る。音声処理部１０３は、音声入力部１０２により得られたデジタル音声信号に対して任意の信号処理を施し、マルチチャンネルの音声データを生成する。そして、音声処理部１０３により得られた音声データは、メモリ１０４に送信され記憶される。

符号化処理部１０７は、メモリ１０４に一時的に記憶された画像データや音声データを読み出して所定の符号化処理を行い、圧縮画像データや圧縮音声データ等を生成する。そして、制御部１１０は、これらの圧縮画像データ及び圧縮音声データを合成してデータストリームを形成し、記録再生部１０８に出力する。記録再生部１０８は、ＵＤＦ（Universal Disk Format）、ＦＡＴ（File Allocation Tables）等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体１０９に書き込んでいく。以上の動作を、撮影中（撮影開始の制御信号の送信から撮影終了の制御信号の送信までの期間）は継続する。

そして、ユーザが操作部１１１の記録ボタン等を操作することにより撮影終了の指示信号が制御部１１０に送信されると、制御部１１０は、撮像装置１００の各機能部に撮影終了の制御信号を送信し、以下のような動作をさせる。撮像部１０１及び音声入力部１０２は、それぞれ画像データ及び音声データの生成を停止する。符号化処理部１０７は、メモリ１０４に記憶されている残りの画像データや音声データを読み出して所定の符号化処理を行い、圧縮画像データや圧縮音声データ等を生成し終えたら動作を停止する。

制御部１１０は、符号化処理部１０７により生成された、これらの残りの圧縮画像データ及び圧縮音声データを合成してデータストリームを形成し、記録再生部１０８に出力する。記録再生部１０８は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体１０９に書き込んでいく。そして、データストリームの供給が停止したら、動画ファイルを完成させて記録動作を停止させる。制御部１１０は、記録動作が停止すると、撮影待機状態に移行させるように制御信号を撮像装置１００の各機能部に送信して、撮像装置１００は撮影待機状態に戻る。

次に、再生モードでの動作について説明する。再生モードでは、制御部１１０は、再生状態に移行させるように制御信号を撮像装置１００の各機能部に送信し、以下のような動作をさせる。記録再生部１０８は、ユーザの操作部１１１に対する操作等に応じて、記録媒体１０９に記録された圧縮画像データと圧縮音声データとからなる動画ファイルを記録媒体１０９から読み出す。そして、記録再生部１０８は、読み出した圧縮画像データ及び圧縮音声データを符号化処理部１０７に送る。

符号化処理部１０７は、圧縮画像データ及び圧縮音声データを復号して、それぞれ表示制御部１０５及び音声処理部１０３に送信する。音声処理部１０３は、送られてきたデジタル音声信号に対して任意の信号処理を施し、得られた音声データを音声出力部１１２に送信する。表示制御部１０５は、復号された画像データに係る映像を表示部１０６に表示させる。また、音声出力部１１２は、復号された音声データに係る音声をスピーカ１１３や取付けられた外部スピーカ等から出力させる。
以上のようにして、本実施形態における撮像装置１００は、画像及び音声の記録や再生を行う。

次に、本実施形態における音声処理部１０３で行われる音声信号処理について、図２を用いて説明する。図２は、本実施形態における音声処理部１０３の構成例を示す図である。本実施形態における音声処理部１０３は、同位相成分生成部２０１、逆位相成分生成部２０２、同位相成分検出部２０３、風雑音検出部２０４、風雑音低減部２０５、２０６、及び制御部２０７を有する。

音声処理部１０３は、異なるマイクによりそれぞれ得られた、ステレオ音声の右チャンネル（Ｒｃｈ）の音声信号Ｒｃｈ−ｉｎと左チャンネル（Ｌｃｈ）の音声信号Ｌｃｈ−ｉｎとの２つの音声信号（音声データ）が入力される。そして、音声処理部１０３は、入力される音声信号（音声データ）に対して処理を施し、Ｒｃｈの音声信号Ｒｃｈ−ｏｕｔとＬｃｈの音声信号Ｌｃｈ−ｏｕｔとの２つの音声信号（音声データ）を出力する。

同位相成分生成部２０１は、入力された２つの音声信号Ｒｃｈ−ｉｎ、Ｌｃｈ−ｉｎを加算してチャンネル間の同位相成分（Ｒ＋Ｌ）を生成する。同位相成分生成部２０１は、演算部２１１、ローパスフィルタ２１２、及び変換処理部２１３を有する。演算部２１１は、２つの音声信号Ｒｃｈ−ｉｎ、Ｌｃｈ−ｉｎを加算する。ローパスフィルタ（ＬＰＦ）２１２は、演算部２１１の出力における低周波数成分を抽出する。変換処理部（ＡＢＳ）２１３は、ローパスフィルタ２１２の出力に対して絶対値変換処理を施す。ここで、ローパスフィルタ２１２は、音声信号の風雑音を検出するために帯域を制限することを目的としているため、ローパスフィルタ２１２のカットオフ周波数は、例えば１００Ｈｚ〜２００Ｈｚ程度の設定が好ましい。逆位相成分生成部２０２が有するローパスフィルタ２２２も同様である。

逆位相成分生成部２０２は、入力された２つの音声信号Ｒｃｈ−ｉｎとＬｃｈ−ｉｎの一方から他方を減算してチャンネル間の逆位相成分を生成する。ここでは、Ｒｃｈ−ｉｎからＬｃｈ−ｉｎを減算して逆位相成分（Ｒ−Ｌ）を生成する。逆位相成分生成部２０２は、演算部２２１、ローパスフィルタ２２２、及び変換処理部２２３を有する。ここでは、演算部２２１は、Ｒｃｈの音声信号Ｒｃｈ−ｉｎからＬｃｈの音声信号Ｌｃｈ−ｉｎを減算する。ローパスフィルタ（ＬＰＦ）２２２は、演算部２２１の出力における低周波数成分を抽出する。変換処理部（ＡＢＳ）２２３は、ローパスフィルタ２２２の出力に対して絶対値変換処理を施す。

同位相成分検出部２０３は、同位相成分生成部２０１により生成された同位相成分（Ｒ＋Ｌ）の積分値を検出する。風雑音検出部２０４は、同位相成分生成部２０１により生成された同位相成分（Ｒ＋Ｌ）と逆位相成分生成部２０２により生成された逆位相成分（Ｒ−Ｌ）との差分の積分値を音声信号に含まれる風雑音の大きさとして検出する。同位相成分検出部２０３は第１の検出手段の一例であり、風雑音検出部２０４は第２の検出手段の一例である。

風雑音検出部２０４は、増幅部２４１、演算部２４２、及び検出部２４３を有する。増幅部２４１は、同位相成分（Ｒ＋Ｌ）に対してゲインを印加し、同位相成分（Ｒ＋Ｌ）と逆位相成分（Ｒ−Ｌ）とのバランスを調整する。演算部２４２は、逆位相成分（Ｒ−Ｌ）から、同位相成分（Ｒ＋Ｌ）を減算して差分を検出する。ここでは、演算部２４２は、逆位相成分（Ｒ−Ｌ）から同位相成分（Ｒ＋Ｌ）を減算する。検出部２４３は、演算部２４２から出力される同位相成分（Ｒ＋Ｌ）と逆位相成分（Ｒ−Ｌ）の差分の積分値を検出する。

風雑音低減部２０５は、入力された音声信号Ｒｃｈ−ｉｎにハイパスフィルタ処理を行い、カットオフ周波数よりも低い周波数の信号レベルを減衰させることにより、音声信号の風雑音を低減させた音声信号Ｒｃｈ−ｏｕｔを出力する。風雑音低減部２０６は、入力された音声信号Ｌｃｈ−ｉｎにハイパスフィルタ処理を行い、カットオフ周波数よりも低い周波数の信号レベルを減衰させることにより、音声信号の風雑音を低減させた音声信号Ｌｃｈ−ｏｕｔを出力する。風雑音低減部２０５、２０６は、例えばハイパスフィルタにより実現される。

制御部２０７は、同位相成分検出部２０３及び風雑音検出部２０４の検出結果に基づいて、風雑音低減部２０５、２０６による風雑音の低減処理を制御する。制御部２０７は、風雑音検出部２０４の検出結果、すなわち風雑音の大きさに基づいて、風雑音低減部２０５、２０６による風雑音の低減レベルの強度、例えばハイパスフィルタ処理におけるカットオフ周波数を制御する。また、制御部２０７は、同位相成分検出部２０３の検出結果、すなわち同位相成分（Ｒ＋Ｌ）に基づいて、風雑音低減部２０５、２０６による風雑音の低減レベルの強度を変化させるときの速さを制御する。具体的には、風雑音が大きい状態から、風雑音が小さい状態になったときに、風雑音低減部２０５、２０６のカットオフ周波数を下げるときの速さを制御する。

次に、音声処理部１０３による風雑音の低減処理について説明する。なお、以下では、風雑音低減部２０５、２０６はハイパスフィルタであるとし、風雑音の低減レベルの制御はハイパスフィルタのカットオフ周波数を制御するものとして説明する。撮像装置においては、本体の大きさ等の制約から、音声信号Ｒｃｈ−ｉｎを得るためのＲｃｈマイクと音声信号Ｌｃｈ−ｉｎを得るためのＬｃｈマイクはお互いの近傍に配置されることが多い。

そのため、Ｌｃｈ及びＲｃｈに、風雑音ではない通常の音声信号が入力された場合、２つの音声信号Ｒｃｈ−ｉｎ、Ｌｃｈ−ｉｎの位相差は小さい。つまり、チャンネル間の逆位相成分（Ｒ−Ｌ）はほとんど検出されないため、風雑音検出部２０４において風雑音は検出されない。それに対して、Ｌｃｈ及びＲｃｈに風の音が入力された場合、風の音はチャンネル間で相関が低いため、２つの音声信号Ｒｃｈ−ｉｎ、Ｌｃｈ−ｉｎの位相差は大きい。したがって、チャンネル間の逆位相成分（Ｒ−Ｌ）が検出され、風雑音検出部２０４において風雑音が検出される。

ここで、風雑音検出部２０４における増幅部２４１は、同位相成分（Ｒ＋Ｌ）と逆位相成分（Ｒ−Ｌ）とのバランスを取るために、同位相成分に対してゲインを印加する。風の音が入力された場合に風雑音検出部２０４で風雑音が検出できるように、例えば増幅部２４１では、マイクやマイクを格納するマイク室の風雑音に対する感度にもよるが、概ね−６ｄＢ程度のゲインを印加させるのが好ましい。また、風雑音検出部２０４における検出部２４３は演算部２４２の出力信号を積分するが、ユーザがマイク室の近傍をタッチした音等による誤検出を防ぐために、検出部２４３の積分時間は例えば５００ｍｓ程度にするのが好ましい。そのため、検出部２４３は、演算部２４２からの出力を積分した結果を５００ｍｓ毎に出力する。

検出部２４３の積分時間毎に風雑音検出部２０４での検出結果が制御部２０７に送られ、制御部２０７は、風雑音検出部２０４の検出結果に応じて風雑音低減部２０５、２０６のカットオフ周波数を設定する。制御部２０７は、風雑音が大きい場合にはカットオフ周波数を高く設定し、風雑音が小さい（風雑音が検出されない）場合にはカットオフ周波数を低く設定する。風雑音低減部２０５、２０６のカットオフ周波数は、ハイパスフィルタの構成や次数にもよるが、例えば風雑音検出部２０４での検出結果に応じて５０Ｈｚ〜３００Ｈｚの間で動作させる。撮像装置やマイク室の構成にもよるが、風速３メートル程度の風が当たると、音声信号は非常に聞き取りにくくなってしまうため、カットオフ周波数が３００Ｈｚ程度になるように設定すると好適である。

具体的には、本実施形態では、風雑音の大きさに応じて、風雑音低減部２０５、２０６のカットオフ周波数を５０Ｈｚ〜３００Ｈｚの間で２０段階に設定する。制御部２０７は、風雑音の大きさに対応した風雑音低減部２０５、２０６のカットオフ周波数のテーブルを有しており、検出部２４３により検出された風雑音の大きさに対応したカットオフ周波数（の段数）を、目標周波数として設定する。このとき、風雑音の大きさが大きいほど、カットオフ周波数を高くする。

図４は、検出部２４３により検出された風雑音の大きさに対応した、風雑音低減部２０５、２０６のカットオフ周波数の段数の対応を示す図である。図４において、段数４０１が小さいほど、風雑音低減部２０５、２０６のカットオフ周波数が低い。風雑音の大きさが最も小さいとき（下限値）に段数“０”が設定される。段数“０”に対応したカットオフ周波数は５０Ｈｚである。また、風雑音の大きさが最も大きいとき（上限値）に段数“１９”が設定される。段数“１９”に対応したカットオフ周波数は３００Ｈｚである。そして、段数“０”と“１９”の間で、風雑音の大きさに対応した段数が予め設定されている。制御部２０７は、図４に示すテーブルを記憶している。

また、４０２〜４０４は、それぞれ、現在設定されているカットオフ周波数の段数から、次の段数に変更する際の変更間隔（更新間隔）を示している。例えば、カットオフ周波数を上げる場合は、更新間隔４０２に示すように、現在設定されている段数にかかわらず、一律に１／６０秒毎に１段階ずつ、目標の段数に達するまで、制御部２０７により風雑音低減部２０５、２０６のカットオフ周波数を変更する。

また、カットオフ周波数を下げる場合は、更新間隔４０３に示すように、現在設定されている段数に対応した更新間隔で、１段階ずつ、目標の段数に達するまで、制御部２０７により風雑音低減部２０５、２０６のカットオフ周波数を変更する。

例えば、風雑音の大きさが上限値で、カットオフ周波数の段数が“１９”であるときに、風雑音の大きさが下限値であると検出された場合、カットオフ周波数の段数の目標値は“０”となる。そのため、制御部１０７は、段数が“１６”になるまでは、０．５秒間隔で１段階ずつカットオフ周波数を更新する。その後、更新間隔４０３に示す時間間隔で、１段階ずつカットオフ周波数を更新し、段数“４”から段数“０”になるまでは、６秒間隔で１段階ずつカットオフ周波数を更新する。

このように、風雑音の大きさが大きな状態から小さな状態に変わり、それに合わせて風雑音低減部２０５、２０６のカットオフ周波数を下げる場合に、長い時間（数十秒程度）で変更することで音質の変化を目立たなくする。

また、本実施形態では、カットオフ周波数を下げる際、同位相成分の大きさが大きい場合には、更新間隔４０４に示すように、現在設定されている段数に関係無く、一律に２５ミリ秒の一定間隔で、１段階ずつカットオフ周波数を更新する。即ち、最も高いカットオフ周波数から、最も低いカットオフ周波数に下げるまでの時間が０．５秒程度となるように、１段階あたりの更新間隔を設定している。このように、１段ずつカットオフ周波数を変更することにより音質の劣化を防止している。

図５は、風雑音低減部２０５、２０６のカットオフ周波数の制御処理の例を示すフローチャートである。図５に示す処理は、制御部２０７により動画の記録中に実行される。制御部２０７は、まず、風雑音検出部２０４により、新たに風雑音が検出されたか否かを判別する（Ｓ５０１）。前述のように、風雑音検出部２０４は、演算部２４２の出力を５００ｍｓの期間積分して出力する。そのため、風雑音検出部２０４は、５００ｍｓ毎に積分結果を風雑音の検出結果として制御部２０７に出力する。

新たに風雑音の検出結果が出力されていた場合、制御部２０７は、図４に示したテーブルに基づいて、検出された風雑音の大きさに対応した、風雑音低減部２０５、２０６のカットオフ周波数の目標値（目標段数）を設定する（Ｓ５０２）。そして、制御部２０７は、現在設定しているカットオフ周波数の段数が、目標値と一致しているか否かを判別する（Ｓ５０３）。一致していると制御部２０７が判別した場合、現在の段数のまま、カットオフ周波数を変更せずに、次の風雑音の検出タイミングまで待つ。

また、現在設定しているカットオフ周波数の段数が、目標値と一致していないと判別した場合、制御部２０７は、目標値が現在のカットオフ周波数よりも高く、カットオフ周波数を上げるか否かを判別する（Ｓ５０４）。カットオフ周波数を上げると判別した場合、制御部２０７は、風雑音低減部２０５、２０６のカットオフ周波数を、現在設定されているカットオフ周波数よりも１段だけ高いカットオフ周波数に変更する（Ｓ５０５）。そして、次の更新タイミングまで待機する（Ｓ５０６）。図４に示すように、カットオフ周波数を高くする場合は、１／６０秒間待機する。

また、ステップＳ５０４において、目標値が現在のカットオフ周波数よりも高くないと判別した場合、制御部２０７は、カットオフ周波数を下げる処理を行うが、前述のように、同位相成分の大きさによりカットオフ周波数を下げる速さを変える。そのため、制御部２０７は、同位相成分検出部２０３からの出力に基づき、同位相成分の大きさが、閾値よりも大きいか否かを判別する（Ｓ５０７）。

同位相成分の大きさが閾値よりも大きいと制御部２０７が判別した場合、カットオフ周波数を目標値まで迅速に下げるため、カットオフ周波数の変更のための更新間隔をｎ秒に設定する（Ｓ５０８）。例えば、図４に示した例では、次の段数に変更するまでの間隔を２５ミリ秒に設定する。また、同位相成分の大きさが閾値よりも大きくないと制御部２０７が判別した場合、制御部２０７は、現在の段数に応じた更新間隔を設定する（Ｓ５１１）。

そして、制御部２０７は、風雑音低減部２０５、２０６のカットオフ周波数を、設定された更新間隔に従って、現在設定されているカットオフ周波数よりも１段だけ低いカットオフ周波数に変更し（Ｓ５０９）、次の更新タイミングまで待機する（Ｓ５１０）。

図３（Ａ）及び図３（Ｂ）は、風雑音の検出タイミングと風雑音低減部２０５、２０６のカットオフ周波数の制御タイミングを示すタイミングチャートである。図３（Ａ）、（Ｂ）のどちらにおいても、時刻Ｔ１までは風雑音の大きさが下限値となっており、風雑音低減部２０５、２０６のカットオフ周波数は段数“０”に対応したカットオフ周波数となっている。時刻Ｔ１において、上限値の大きさの風雑音が検出されると、風雑音低減部２０５、２０６のカットオフ周波数は段数“１９”に対応した、最も高い周波数に設定される。その後、時刻Ｔ２で、再び、風雑音の大きさが下限値に達する。このとき、本実施形態では、同位相成分検出部２０３の検出結果に応じて、風雑音低減部２０５、２０６のカットオフ周波数を、目標値である段数“０”まで下げる時間の長さを設定する。

同位相成分検出部２０３は、風雑音検出部２０４と同程度の積分時間を設けて同位相成分（Ｒ＋Ｌ）の低周波数成分を積分し、検出結果を制御部２０７に送る。同位相成分検出部２０３の検出結果が閾値よりも大きくない場合、入力される音声が通常の音声ではなく暗騒音や環境音である可能性が高い。そのため、制御部２０７は、図３（Ａ）に一例を示すように、例えば図４に示した更新間隔４０３に従って、次の段数に変更するための更新間隔を設定し、風雑音低減部２０５、２０６のカットオフ周波数を目標値まで下げる時間を長く設定する。これにより、暗騒音や環境音等による音質の変化が目立たないように、風雑音低減部２０５、２０６のカットオフ周波数を長い時間をかけてゆっくり下げることが可能となる。図３（Ａ）には、時刻Ｔ２から時刻Ｔ４までの第１の時間でカットオフ周波数を低下させる例を示している。

この場合、カットオフ周波数を下げる時間は、音声信号の音質に違和感を抱きにくくするため、カットオフ周波数を最も高い周波数から最も低い周波数まで下げる時間を６０秒程度に設定すると好適である。暗騒音や環境音は、ハイパスフィルタのカットオフ周波数を変化させることによる音質変化を認識しやすい音源であるため、６０秒程度の時間をかけて音質を変化させることで違和感を低減させることができる。

また、同位相成分検出部２０３の検出結果が閾値よりも大きい場合、入力される音声の低域は通常の音声信号である可能性が高い。そのため、制御部２０７は、図３（Ｂ）に一例を示すように、例えば図４に示した更新間隔４０４に従い、次の段数に変更するための更新間隔を２５ミリ秒に設定し、風雑音低減部２０５、２０６のカットオフ周波数を目標値まで下げる時間を短く設定する。これにより、入力される音声において低周波数成分が低減された状態が長く続かないように、風雑音低減部２０５、２０６のカットオフ周波数を短時間で速やかに目標値まで下げることが可能となり、風雑音の低減処理が音質へ与える影響を軽減することができる。図３（Ｂ）には、前述した第１の時間よりも短い時刻Ｔ２から時刻Ｔ３までの第２の時間の短期間で、カットオフ周波数を低下させる例を示している。

この場合、カットオフ周波数を下げる時間は、ハイパスフィルタによって低周波数成分が低減されている時間を最小限にとどめるため、カットオフ周波数を最も高い周波数から最も低い周波数まで下げる時間を０．５秒程度に設定すると好適である。通常の音声信号が入力されている場合、ハイパスフィルタのカットオフ周波数を変化させることによる音質変化を低減するよりも、ハイパスフィルタで低周波数成分が低減されていることの方が問題である。そのため、０．５秒程度の短時間でカットオフ周波数を下げることで、入力される音声信号において低周波成分が低減される時間を短くし、低周波数成分がカットされない音声信号をより長く記録することができる。

このように本実施形態では、風雑音検出部２０４により検出される風雑音の大きさに基づいて、制御部２０７は、風雑音低減部２０５、２０６による風雑音の低減レベルの強度を制御する。そして、風雑音低減部２０５、２０６による風雑音の低減レベルを低下させる場合、制御部２０７は、同位相成分検出部２０３の検出結果に基づいて、風雑音の低減レベルを変化させる速さを制御する。制御部２０７は、同位相成分検出部２０３の検出結果が閾値よりも大きくない場合、音質の変化を抑えるために、風雑音の低減レベルを長い時間をかけてゆっくり低下させる。また、制御部２０７は、同位相成分検出部２０３の検出結果が閾値よりも大きい場合、入力される音声が通常の音声である可能性が高いため、風雑音の低減レベルを短い時間で速やかに低下させる。これにより、音質の変化を抑えつつ、風雑音の低減処理が音声信号の音質へ与える影響を軽減することができる。

なお、本実施形態では、図２のように、入力されたＲｃｈとＬｃｈの音声信号のそれぞれに対してハイパスフィルタの処理を行うことにより風雑音を低減する構成であったが、これ以外にも、例えば、音声処理部１０３を図６のように構成することも可能である。

図６は、音声処理部１０３の他の構成例を示す図である。図２と同様の構成は同一番号を付加してある。図６に示す音声処理部１０３では、演算部２１１により同位相成分（Ｒ＋Ｌ）の信号が得られ、演算部２２１により逆位相成分（Ｒ−Ｌ）の信号が得られる。そして、風雑音低減部（例えばハイパスフィルタ）２０８により、逆位相成分（Ｒ−Ｌ）の信号に対してハイパスフィルタの処理を行うことにより風雑音を低減する。前述のように、風雑音のようにＲｃｈとＬｃｈの間で相関性が低い音声が含まれる場合に逆位相成分（Ｒ−Ｌ）の信号は大きくなる。そのため、風雑音低減部２０８により、逆位相成分（Ｒ−Ｌ）の信号の低周波数成分を減衰させることにより、風雑音を低減する。

また、制御部２０７は、図５に示した処理を行い、風雑音検出部２０４により検出された風雑音の大きさに基づいて風雑音低減部２０８のカットオフ周波数を設定する。また、制御部２０７は、同位相成分検出部２０３の出力に基づいて、カットオフ周波数を下げる場合の速さを制御する。

演算部２０９は、演算部２１１からの同位相成分（Ｒ＋Ｌ）の信号と風雑音低減部２０８からの逆位相成分（Ｒ−Ｌ）の信号とを加算した信号の大きさを１／２に変換して、Ｒｃｈの音声信号Ｒｃｈ−ｏｕｔとして出力する。また、演算部２１０は、演算部２１１からの同位相成分（Ｒ＋Ｌ）の信号から、風雑音低減部２０８からの逆位相成分（Ｒ−Ｌ）の信号を減算した信号の大きさを１／２に変換して、Ｌｃｈの音声信号Ｌｃｈ−ｏｕｔとして出力する。

（本発明の他の実施形態）
本発明は、前述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

なお、前記実施形態は、何れも本発明を実施するにあたっての具体化のほんの一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１０２：音声入力部１０３：音声処理部２０１：同位相成分生成部２０２：逆位相成分生成部２０３：同位相成分検出部２０４：風雑音検出部２０５、２０６、２０８：風雑音低減部２０７：制御部

メモリ１０４は、撮像部１０１により得られた画像データや、音声処理部１０３で処理された音声データを一時的に記憶する。表示制御部１０５は、撮像部１０１により得られた画像データに係る映像や、撮像装置１００の操作画面やメニュー画面等を表示部１０６や、不図示の映像端子を介して外部の表示装置に表示させる。符号化処理部１０７は、メモリ１０４に一時的に記憶された画像データや音声データを読み出して所定の符号化処理を行い、圧縮画像データや圧縮音声データ等を生成する。

図３（Ａ）及び図３（Ｂ）は、風雑音の検出タイミングと風雑音低減部２０５、２０６のカットオフ周波数の制御タイミングを示すタイミングチャートである。図３（Ａ）、（Ｂ）のどちらにおいても、時刻Ｔ１までは風雑音の大きさが下限値となっており、風雑音低減部２０５、２０６のカットオフ周波数は段数“０”に対応したカットオフ周波数となっている。時刻Ｔ２において、上限値の大きさの風雑音が検出されると、風雑音低減部２０５、２０６のカットオフ周波数は段数“１９”に対応した、最も高い周波数に設定される。その後、時刻Ｔ３で、再び、風雑音の大きさが下限値に達する。このとき、本実施形態では、同位相成分検出部２０３の検出結果に応じて、風雑音低減部２０５、２０６のカットオフ周波数を、目標値である段数“０”まで下げる時間の長さを設定する。

この場合、カットオフ周波数を下げる時間は、ハイパスフィルタによって低周波数成分が低減されている時間を最小限にとどめるため、カットオフ周波数を最も高い周波数から最も低い周波数まで下げる時間を０．５秒程度に設定すると好適である。通常の音声信号が入力されている場合、ハイパスフィルタのカットオフ周波数を変化させることによる音質変化を低減するよりも、ハイパスフィルタで低周波数成分が低減されていることの方が問題である。そのため、０．５秒程度の短時間でカットオフ周波数を下げることで、入力される音声信号において低周波数成分が低減される時間を短くし、低周波数成分がカットされない音声信号をより長く記録することができる。

Claims

複数の音声信号を入力する音声入力手段と、
入力される前記複数の音声信号の風雑音を低減する低減手段と、
前記複数の音声信号の同位相成分と逆位相成分との差分に基づいて前記低減手段での前記風雑音の低減レベルを制御し、前記複数の音声信号の同位相成分の大きさに基づいて前記低減手段での前記風雑音の低減レベルを変化させる速さを制御する制御手段とを有することを特徴とする音声処理装置。
前記制御手段は、前記低減手段での前記風雑音の低減レベルを低下させる際、前記複数の音声信号の同位相成分が閾値よりも大きくない場合、前記風雑音の低減レベルを第１の時間で低下させ、前記複数の音声信号の同位相成分が前記閾値よりも大きい場合、前記風雑音の低減レベルを前記第１の時間よりも短い第２の時間で低下させることを特徴とする請求項１記載の音声処理装置。
前記低減手段での前記風雑音の低減レベルが、前記複数の音声信号の同位相成分と逆位相成分との差分に応じて複数の段階で設定され、
前記制御手段は、前記低減手段での前記風雑音の低減レベルを低下させる際、前記複数の音声信号の同位相成分が閾値よりも大きくない場合、設定されている段階に対応した第１の変更間隔で、１段階ずつ目標の段階まで前記風雑音の低減レベルを変更し、前記複数の音声信号の同位相成分が前記閾値よりも大きい場合、設定されている段階にかかわらず、前記第１の変更間隔よりも短い一定の第２の変更間隔で、１段階ずつ目標の段階まで前記風雑音の低減レベルを変更することを特徴とする請求項１記載の音声処理装置。
前記複数の音声信号の同位相成分の大きさを検出する第１の検出手段と、
前記複数の音声信号の同位相成分と逆位相成分との差分を検出する第２の検出手段とを有し、
前記制御手段は、前記第１の検出手段及び前記第２の検出手段の検出結果に応じて前記低減手段の制御を行うことを特徴とする請求項１〜３の何れか１項に記載の音声処理装置。
前記第１の検出手段は、前記複数の音声信号の同位相成分の低周波数成分の大きさを検出することを特徴とする請求項４記載の音声処理装置。
前記低減手段は、ハイパスフィルタであり、
前記制御手段は、前記複数の音声信号の同位相成分と逆位相成分との差分に基づいて前記ハイパスフィルタのカットオフ周波数を制御することを特徴とする請求項１〜５の何れか１項に記載の音声処理装置。
前記制御手段は、前記複数の音声信号の同位相成分と逆位相成分との差分が大きくなるに伴って、前記ハイパスフィルタのカットオフ周波数を高く設定することを特徴とする請求項６記載の音声処理装置。
右チャンネルと左チャンネルを含む音声信号を入力する入力手段と、
前記入力手段により入力された前記音声信号にハイパスフィルタの処理を行うことにより前記音声信号の風雑音を低減する低減手段と、
前記入力手段により入力された前記右チャンネルの音声信号と前記左チャンネルの音声信号とを加算した信号と、前記右チャンネルと左チャンネルの一方の音声信号から他方の音声信号を減算した信号との差分に基づいて前記低減手段における前記ハイパスフィルタのカットオフ周波数を設定し、前記加算した信号の大きさに基づいて前記低減手段における前記ハイパスフィルタのカットオフ周波数を低下させるときの速さを制御する制御手段とを有することを特徴とする音声処理装置。
前記制御手段は、前記減算した信号が前記加算した信号よりも大きいほど前記カットオフ周波数を高く設定し、前記加算した信号の大きさが閾値よりも大きい場合には、前記ハイパスフィルタのカットオフ周波数を第１のカットオフ周波数から第２のカットオフ周波数まで低下させる時間を第１の時間とし、前記加算した信号の大きさが前記閾値よりも大きくない場合には、前記ハイパスフィルタのカットオフ周波数を前記第１のカットオフ周波数から前記第２のカットオフ周波数まで低下させる時間を前記第１の時間よりも長い第２の時間とすることを特徴とする請求項８記載の音声処理装置。
前記低減手段は、前記右チャンネルの音声信号と前記左チャンネルの音声信号に対してそれぞれ前記ハイパスフィルタの処理を行うことを特徴とする請求項８記載の音声処理装置。
前記低減手段は、前記減算した信号に対して前記ハイパスフィルタの処理を行い、前記ハイパスフィルタの処理を行った信号を前記加算した信号に加算することにより風雑音が低減された前記一方のチャンネルの音声信号を出力し、前記ハイパスフィルタの処理を行った信号を前記加算した信号から減算することにより風雑音が低減された前記他方のチャンネルの音声信号を出力することを特徴とする請求項８記載の音声処理装置。
複数の音声信号を入力する音声入力工程と、
入力される前記複数の音声信号の風雑音を低減する低減工程と、
前記複数の音声信号の同位相成分と逆位相成分との差分に基づいて前記低減工程での前記風雑音の低減レベルを制御し、前記複数の音声信号の同位相成分の大きさに基づいて前記低減工程での前記風雑音の低減レベルを変化させる速さを制御する制御工程とを有することを特徴とする音声処理方法。
複数の音声信号を入力する音声入力ステップと、
入力される前記複数の音声信号の風雑音を低減する低減ステップと、
前記複数の音声信号の同位相成分と逆位相成分との差分に基づいて前記低減ステップでの前記風雑音の低減レベルを制御し、前記複数の音声信号の同位相成分の大きさに基づいて前記低減ステップでの前記風雑音の低減レベルを変化させる速さを制御する制御ステップとをコンピュータに実行させるためのプログラム。