JP2007523514A

JP2007523514A - 適応ビームフォーマ、サイドローブキャンセラー、方法、装置、及びコンピュータープログラム

Info

Publication number: JP2007523514A
Application number: JP2006540739A
Authority: JP
Inventors: エーサラウク，バハー; ペーヤンセ，コルネリス
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-11-24
Filing date: 2004-11-18
Publication date: 2007-08-16
Also published as: KR20060113714A; CN101189656A; WO2005050618A2; EP1692685A2; US20070076898A1; WO2005050618A3

Abstract

比較的に強靱な適応ビームフォーマであって：複数のマイクロホン（１０１、１０３、１０５）のそれぞれからの入力音声信号（ｕ１、ｕ２、ｕ３）を処理し、及び目標信号源（１６０）からの音に主に相当する第１の音声信号（ｚ）を出力するよう構成されたフィルター加算ビームフォーマ（１０７）；及び例えばサイドローブキャンセラー構成に組み込まれた場合の雑音測定であり、第１の音声信号（ｚ）から雑音信号（ｙ）を減算し、雑音除去された第２の音声信号（ｒ）を得るよう構成される適応雑音推定部（１５０）を有し：及びサイドローブキャンセリングの比（Ｑ）に応じて倍率（Ｓ）を提供するよう構成され、及び倍率（Ｓ）を用い適応ステップサイズを決定するよう構成される倍率決定部（１７０）を更に有する。サイドローブキャンセラーは、目標信号源に比較的適切に追従しているが雑音源からの干渉に比較的影響を受けない場合に、迅速に適応する。

Description

本発明は、適応ビームフォーマ及び前記適応ビームフォーマを有するサイドローブキャンセラーに関する。

本発明はまた、前記適応ビームフォーマ又はサイドローブキャンセラーを有する、ハンズフリー音声通信装置、音声制御装置及び音声を生成する対象を追尾する追尾装置に関する。

本発明はまた、前記音声制御装置を有する民生用装置に関する。

本発明はまた、適応ビームフォーミング方法又はサイドローブキャンセリング方法に関する。

サイドローブキャンセラー及び上述のように構成要素であるビームフォーマの実施例は（注意：ビームフォーマ及びサイドローブキャンセラーには関連する装置として名付けられる。これは、サイドローブキャンセラー内のビームフォーマは、独立型のビームフォーマと同様に利用され、従って両者とも本発明の特定の技術的特長が解決する同じ問題を有しているためである）、非特許文献1から既知である。サイドローブキャンセラーは、目標信号源に追従するよう設計される。つまり、目標信号源からの音に主に対応する出力信号を生成する。同時に、雑音と称される他の音源からの音を可能な限り除去する。これを実現するため、サイドローブキャンセラーは、複数のマイクロホンからの信号を処理する適応ビームフォーマを有し、適応ビームフォーマのビームフォーマフィルターは、目標信号源から各マイクロホンへの目標音声の逆経路を示すよう最適化できる（つまり、目標音声は、例えば種々の面で反射することにより変更され、最終的に異なる方向から特定のマイクロホンへ入力される）。フィルターされた信号を加算することにより、ビームフォーマは、目標音声の方角に高い感度を有する部分の方向感受性パターンを効率的に実現する。例えば、純粋な遅延を有するフィルターの場合、ビームフォーマは、メインローブ及びサイドローブを有するｓｉｎ（ｘ）／ｘのパターンを実現する。しかし、このような感受性パターンに関する問題は、他の音源からの音が拾われることも含む。例えば、雑音源は、あるサイドローブの方向に存在するかも知れない。この問題を解決するため、サイドローブキャンセラーはまた、適応雑音除去段階を有する。マイクロホンの測定から、目標音声成分をブロックすることにより、雑音基準信号が計算される。つまり、例えば、サイドローブ内の雑音が決定される。適応フィルターを用い、これら雑音測定結果から、目標音声に向かうローブパターンに漏れている雑音量を推定する。最後に、この雑音はメインローブに拾われたものから差し引かれ、大部分が目標音声である最終的な音声信号を抽出する。指向性パターンは、この最適化されたサイドローブキャンセラーに基づき計算される場合、目標信号源に向かうメインローブを有し、雑音源の方向ではゼロになる。

従来のサイドローブキャンセラー及びビームフォーマには多くの問題があり、実際には理想的に動作しない。第一に、目標信号源、例えばスピーカーと雑音源からの音、例えばモーター音との間に必ずしも物理的な違いが存在しない。そのため話者を追従する代わりに、システムは雑音源に向かって逸れてしまい、目標信号源と雑音源の間の方向に向かうメインローブを捉える場合がある。従って、サイドローブキャンセラーでは、雑音基準は音声又は一般に目標音を有するので、メインローブにより拾われた音から雑音のみを除去する代わりに、目標音の一部も除去されてしまう。音声の場合、これは特に望ましくない。マイクロホンアレイを有するサイドローブキャンセラーは、サイドローブキャンセラーを有さない単一のマイクロホンよりも好ましくない動作をする場合さえある。各マイクロホンは、関連する音、例えば遅延音を拾うので、特定方向（例えば、第２の話者）から到来する雑音は、相関雑音と称される。第二に、所謂、無相関音源の問題がある。この場合、マイクロホン信号は直交する。無相関雑音は、例えば拡散音場（例えば反響音、又は車の風騒音から等の多くの独立音源）、又は単にマイクロホンの電気的雑音から生成され得る。この雑音はまた、サイドローブキャンセラーの機能と接続される。従来のサイドローブキャンセラーは、これらの問題を解決するため音声検出器を有する。目標信号源は話者であり、雑音源は存在しないと仮定する。ビームフォーマは、音声を受信した場合のみ、一般に最大出力により、適応される。雑音除去フィルターは、正しく適応されなかった場合、目標音声の最終出力に、最小化されるべき残留雑音を残す。従って、雑音のみが検出された場合、最終出力は、最適雑音除去フィルターを得るために最大化されるよりむしろ最小化される。このような音声検出器は、２つの問題を有する。第一に、サイドローブキャンセラーは、カメラを例えば音声通信音を生成する装置に向けるために必要な非音声信号に追従できない。第二に、更に重要なことに、このような音声検出器は、あまり強靱ではなく、サイドローブキャンセラーの性能の悪さの原因となっている。良いビームフォーマ／サイドローブキャンセラーは、特に目標信号源及び／又は雑音源の方向が変化する環境に用いる場合、設計が困難である。従って、フィルターは、比較的短い間隔の間、再利用される。しかしながら、この状況は、例えば部屋の中を移動する話者を追跡しようとするテレビ会議システム、又は携帯電話に組み込まれるサイドローブキャンセラーに向かって人が話すシステム、及び例えばハンズフリー自動車電話装置のように、種々の環境を携帯電話と共に移動する環境において全く共通である。サイドローブキャンセラーに関する以上の説明はまた、他の雑音除去方法に関連する適応ビームフォーマの問題でもある。
シー・ファンコート、エル・パラ（C.Fancourt, L.Parra）、ザ・ジェネラライズド・サイドローブ・デコレレータ（The generalized sidelobe decorrelator）、アイイーイーイー・ワークショップ・オン・ザ・アプリケーション・オブ・シグナル・プロセッシング・トゥー・オーディオ・アンド・アコースティックス２００１の議事（Proceedings of the IEEE Workshop on applications of signal processing to audio and acoustics 2001）、（米国）、アイイーイーイー（IEEE）、２００１年

本発明の第１の目的は、雑音の影響に対し比較的強靱な適応ビームフォーマを提供することである。この第１の目的は、適応ビームフォーマにより実現される。適応ビームフォーマは、第１の適応フィルターのセットの係数が、適応ステップサイズに応じて得られた少なくとも１つの係数に異なる値を加算することにより変化される点で適応型であり、複数のマイクロホンのそれぞれからの入力音声信号を処理するよう構成され、及び前記第１の適応フィルターのセットのそれぞれで前記入力音声信号をフィルターすることにより、目標信号源からの音に主に相当する第１の音声信号を出力するよう構成されたフィルター加算ビームフォーマ；及び第１の関数として求められる倍率を提供するよう構成される、前記目標信号源から生成され前記第１の音声信号に存在する無雑音音声信号の推定である第１の変数、及び前記第１の音声信号に存在する雑音の推定である第２の変数の比の、倍率決定部を有し、前記倍率を用い前記適応ステップサイズの倍率を決定するよう構成される。

強靱な適応ビームフォーマには、単に音声／非音声の２進指標ではなく、適応ビームフォーマが目標音を追従しているか否かの（上記の音声検出器より）より連続的な評価が必要とされる。これは、このような連続的な機能により、適応ビームフォーマは、評価誤りを許容できるからである。２進指標により雑音が誤って音声として認識された場合、ビームフォーマは、完全に雑音に適応し始め、そして最適でなくなる。入力雑音に応じてビームフォーマが誤って適応した場合に、ビームフォーマがパラメータ空間で少し適応する仕組みが必要である。これは、ビームフォーマがどれだけ最適化されているか及び雑音がどれだけ入力されているかを示す、ビームフォーマを非最適化できる関数の出力に依存する適応ステップを作ることにより実現できる。これら２つの要素は共に、倍率を特定する式に纏められる。この倍率は、以下の比の関数Ｆ１である。
（１）目標信号（例えば、音声）の可変指標（例えば、第１の音声信号自体は、完全に近いが、それを更に処理したものが望ましく、ビームフォーマにより除去できない雑音が別の方法、例えばサイドローブキャンセリングにより大部分除去される）。理論上は、これは、目標信号源から実際に発生する音声であり、及び例えば部屋内の伝搬、マイクロホンの転送機能など（しかし電子回路雑音、他の相関及び無相関雑音、不要雑音源等の影響を受けない）により変更（フィルター）されると理解できる。及び
（２）目標音声／信号に近くなるよう処理された（出力）音声信号に含まれる雑音の可変指標。

この関数が大きい場合、ビームフォーマはその機能を適切に果たし、及び正しく適応していることを示す。従って、大きい適応ステップが用いられ、移動する目標信号源を追跡できる。逆に、この関数が、ビームフォーマが適切に動作しない又はできないと示す場合（例えば、強力な干渉雑音源の存在により比が小さくなる場合）、適応ステップサイズは小さくなる。これは、フィルター加算ビームフォーマのフィルター係数は、正しい値に適応せず、更に悪化し得るためである。また、ビームフォーマフィルターの動作は、雑音により多かれ少なかれ影響される。適応ステップは、従って、倍率に比例して決定される。

適応ビームフォーマ、又はその実施例は、サイドローブキャンセラーを構成する。サイドローブキャンセラーは、第２の適応フィルターのセットを用い入力音声信号から得た対応する雑音測定結果をフィルターすることにより推定雑音信号を得るよう構成される適応雑音推定部；及び第１の音声信号から前記推定雑音信号を差し引くよう接続され、雑音除去された第２の音声信号を得る減算部を更に有する。

第２の適応フィルター（ｇ１、ｇ２）のセットは、フィルター加算ビームフォーマのフィルターに関連付けられ、ビームフォーマから出力される目標信号における雑音の割合を推定する。この推定された雑音信号は、一般に、例えば全てのフィルターが適切に調整されている場合に与えられる、単なる単一の雑音測定結果ｘ１に比べより信頼性のある雑音推定である。ビームフォーマの場合、第１の音声信号（ｚ）は、雑音に直交していない。これは、例えば、相関雑音が両方に存在するためである。サイドローブキャンセラーを用い、これは解決される。つまり、より良好な雑音推定（ｙ）及びより良好な（不要要素が除去されている）目標音声（ｒ）がほぼ直交する。

サイドローブキャンセラーが除去するよう最適化された種類の雑音（つまり、方向感受性パターンがゼロである方向の相関雑音源）と目標音声が共に入力された場合に、サイドローブキャンセリングは適切に機能する。これと対照的に、フィルターが最適化されていない（つまり、例えばメインローブが目標信号源の方向と雑音源の方向の間に向けられている）及び／又は無相関雑音がある場合、サイドローブキャンセラーは不適切に動作する。サイドローブキャンセラーは、主に目標音を拾う場合、大きい適応ステップサイズを用い、移動する目標信号源の迅速な追跡を可能にするよう適応する。しかしながら、サイドローブキャンセラーは、（例えば雑音源による干渉のため）目標信号源にフォーカスし続けることに問題がある場合、大きい適応ステップサイズで正しく動作しない（特に僅かに適応が不十分な場合）。従って適応ステップサイズは小さくするべきである。同様の論理は、逆に主に雑音に適応し、目標信号、例えば音声に適応しないよう設計され、雑音推定／除去にも適用される。このような連続的な評価を用い、フィルター加算ビームフォーマ及びノイズキャンセラーの雑音推定器は、必要ならば同時に適応できる。又は従来技術の音声検出器と同様に、それぞれ補完的な時間間隔で適応できる。

注意すべきことは、減算器１４２により第１の音声信号（ｚ）から除去するための雑音推定（ｙ）は、ステップサイズを決定するための雑音推定と同一である必要はない点である。これは、雑音推定部３１０により推定された、１次雑音推定ｘ１、ｘ２、ｘ３の関数Ａ（ｘｉ）であることが望ましい。第１の音声信号に含まれるこの推定雑音は、勿論、ｙ自体であると見なされて良い（この場合、雑音推定部３１０は、物理的に１つの要素として適応雑音推定部１５０に統合される）。しかしながら、ある状況では、他の推定の方が良い結果をもたらす場合もある（例えば、第１の音声信号ｚ及びブロッキング行列からの基準信号の間の相関が少ないため、適応雑音推定部１５０が、大きな又は信頼できる信号ｙを生成しない場合）。非線形関数は、次に例えば雑音基準信号の出力の合計のように利用されて良い（パーティーでの多くの背景話者による所謂「バブル雑音」のような、多くの散乱性雑音に有用）。

適応ビームフォーマ又は適応ビームフォーマを有するサイドローブキャンセラーの第１の実施例は、周波数領域で特定された第１のフィルター（ｆ１（−ｔ）、ｆ２（−ｔ）、ｆ３（−ｔ））のセットの係数を有し、及び比（Ｑ）により所定の周波数帯毎に適応ステップサイズが決定されるよう構成され、前記比（Ｑ）は、(Ｐ_ＺＺ［ｆ，ｔ］−ＣＰ_{Ａ（ｘｉ）Ａ（ｘｉ）}［ｆ，ｔ］)／Ｐ_ＺＺ［ｆ，ｔ］であり、Ｐ_ＺＺ［ｆ，ｔ］は時刻ｔにおける周波数ｆ近傍の前記所定の周波数帯の第１の音声信号（ｚ）の出力の測定結果、Ｐ_{Ａ（ｘｉ）Ａ（ｘｉ）}［ｆ，ｔ］は関数Ａによる少なくとも１つの雑音測定結果（ｘ１）から雑音推定部（３１０）により得られた雑音信号出力の測定結果、そしてＣは定数である。

出力の代わりに、振幅又は分数式で用いられる信号振幅の他の関数が用いられても良い。

サイドローブキャンセラーの適切且つ望ましい関数Ａは、雑音推定フィルターを雑音推定ｘ１、ｘ２、ｘ３に適用することにより得られる関数であり、及び推定雑音信号ｙを生成する。この例では、Ｐ_{Ａ（ｘｉ）Ａ（ｘｉ）}［ｆ，ｔ］は、Ｐ_ｙｙ［ｆ，ｔ］を表す。

この場合、分母は、音声／目標信号と雑音の測定値であり、分子は目標信号の測定値である（存在する推定雑音を除去後、つまり減算後の項）である。この関数は、有用な正規化特性を有する。

ファイルターは、大部分の周波数に予め適応させても良いが、特定周波数帯の雑音が現れるか、又はサイドローブキャンセラーに関連して移動するかも知れない。この場合、特定周波数帯の係数だけを適応させれば良い。従って、本発明の適応ビームフォーマ／サイドローブキャンセラーの好適な実施例は、周波数領域を特定したフィルターと共に動作する。また、時間領域フィルター、又は他の表現が用いられても良い。この第1の実施例では、推定目標音として用いられる分数式内の信号は、ビームフォーマにより出力される第1の音声信号出力である。ビームフォーマの出力を厳密に取得する代わりに、第1の音声信号が倍率決定部に取得される前に、多くの基本的な信号整形操作が実行されて良い。例えば、雑音推定は、一般に追加遅延を生じるので、遅延成分は、一般にビームフォーマの後段に導入される。従って、遅延後の第1の音声信号は雑音信号と同期しているので、この信号を取得することが望ましい。サイドローブキャンセラーが正しく適応し雑音が殆ど存在しない場合、分子が分母とほぼ等しくなり、上述の式の雑音出力は、目標信号の出力と比較して無視できる。逆の場合、多くの雑音が存在し、分子は分母と比べ小さくなり、比が小さくなる。上述の式は、０と１の間の値を有し、上述の式を用いた単なる乗算により、提案されるステップサイズが提案値と０の間で変化可能であることを示す。ビームフォーマフィルターは、一般にそれらの適応ステップサイズを変化させることにより、上述の式から得る評価結果を用いて調整されるが、雑音推定／除去フィルターは、一般に１から前記評価結果を差し引いた値を用い変化させる。

サイドローブキャンセラーの第２の実施例は、周波数領域で特定される第１のフィルターのセットの係数を有し、及び比（Ｑ）により所定の周波数帯毎に適応ステップサイズが決定されるよう構成され、前記比（Ｑ）は、(Ｐ_ＺＺ［ｆ，ｔ］−ＣＰ_{Ａ（ｘｉ）Ａ（ｘｉ）}［ｆ，ｔ］)／Ｐ_ｒｒ［ｆ，ｔ］であり、Ｐ_ＺＺ［ｆ，ｔ］は時刻ｔにおける周波数ｆ近傍の前記所定の周波数帯の第１の音声信号（ｚ）の出力の測定結果、Ｐ_{Ａ（ｘｉ）Ａ（ｘｉ）}［ｆ，ｔ］は関数Ａに従う少なくとも１つの雑音測定結果（ｘ１）から雑音推定部により得られた雑音信号出力の測定結果、Ｐ_ｒｒ［ｆ，ｔ］は第２の音声信号（ｒ）の出力の測定結果、そしてＣは定数である。

目標信号の推定値として第1の音声信号を利用する代わりに、第2の音声信号ｒを基準信号として用いても良い。第2の音声信号は、存在する雑音を第1の音声信号から差し引いて得られるので、目標音声信号のより正確な推定が期待される。目標信号を得るためのアルゴリズムの処理信号線を流れる信号は、例えばシステムがほぼ最適である場合にビームフォーマを利用すべきか否かのような決定するためのより正確な基準を形成する。しかし、サイドローブキャンセラーが最適化されていない場合、結果として得られる信号は、単純なアルゴリズムにより得る推定より遙かに悪い。従って、このようなサイドローブキャンセラーの接続形態を用いフィルターを更新する場合、従来の音声検出器は、全く受け入れ難い結果になり、ステップサイズを変化する連続的な基準のみが、実行可能な選択肢である。同様の式、及び等価なサイドローブキャンセラー更新接続構成を導出し、更なる処理、例えば一般に内在する雑音量を更に削減する処理、又は目標信号又は音声から不要成分を更に除去する処理の後に得られる信号を、基準信号として用いても良い。

ビームフォーマ／サイドローブキャンセラーは、第１の音声信号に基づきブール型指標である音声／雑音を提供する音声検出部を有し、及びサイドローブキャンセラーでは、前記指標が雑音の場合、第2のフィルターのセットのみを適応するよう構成されるので、有利である。ビームフォーマは、目標信号が音声である場合、調整された適応ステップサイズを用い、自身のフィルターを単に適応するよう構成されて良い。

ビームフォーマ／サイドローブキャンセラーは、２進判定関数を前記比に適用するよう構成され、及び判定が１の場合のみ第１のフィルターのセットを利用するよう構成され、及び判定が０の場合、第2のフィルターのセットのみを適応するよう構成されるので、有利である。例えば、上記の２つの式の何れかの値が０．５より大きい場合、ビームフォーマフィルターのみが更新される。つまり判定は１に等しく、この例では四捨五入し最も近い整数にすることにより得られる。音声検出器は、音声と非音声である雑音の間で離散的、又は不定であるが、検出器における比の利用は、サイドローブキャンセラーを鳥の鳴き声のような動物の声、又は装置により生成される音のような、あらゆる非音声の目標信号に追従するために利用できるので、有利である。

適応ビームフォーマ及びサイドローブキャンセラーは、一般にあらゆる種類の（例えば一般にハンズフリーの）音声通信機器、例えば卓上に置かれる電話会議装置、又は自動車用機器、又は通常の携帯電話、パーソナルデジタルアシスタント、口述録音装置又は同様の通信機能を備える他の装置において利用されて良い。適応ビームフォーマ及びサイドローブキャンセラーはまた、例えばテレビジョンの遠隔制御、ＰＣの音声テキスト変換システムのような音声制御装置において、雑音が重要な問題になる装置の音声認識性能の向上に有利である。他の装置は、あらゆる種類の民生用機器、エレベーター又は高機能家屋の部品、セキュリティシステム、例えば音声認識を用いるシステム、民生用対話端末等であって良い。

本システムはまた、一般にセキュリティ用途又は特定の理由でユーザーの挙動を監視する用途に利用される、追尾装置において利用されて良い。例として、侵入者に特有の雑音に基づき、侵入者を拡大撮影するカメラであって良い。

本発明の第2の目的は、以上に説明したサイドローブキャンセラーの機能に相当するサイドローブキャンセリング方法を提供することである。

第2の目的は、適応ビームフォーミング方法により実現される。適応ビームフォーミング方法は、ビームフォーマフィルター段階は、第１の適応フィルター（ｆ１（−ｔ）、ｆ２（−ｔ）、ｆ３（−ｔ））のセットの係数は、少なくとも１つの係数を追加することにより、適応ステップサイズに応じて得られる異なる値に変化できるという点で適応型であり、前記第１の適応ビームフォーマフィルター（ｆ１（−ｔ）、ｆ２（−ｔ）、ｆ３（−ｔ））のセットのそれぞれを用い、複数のマイクロホン（１０１、１０３、１０５）のそれぞれからの入力音声信号（ｕ１、ｕ２、ｕ３）をフィルターし、目標信号源（１６０）からの音に主に対応する第１の音声信号（ｚ）を生成する、ビームフォーミング段階；前記目標信号源（１６０）から生成され前記第１の音声信号（ｚ）に存在する無雑音音声信号の推定である第１の変数（Ｆ２）及び前記第１の音声信号（ｚ）に存在する雑音の推定である第２の変数（Ｆ３）の比（Ｑ）の倍率（Ｓ）である第１の関数（Ｆ１）を決定する段階；及び前記倍率（Ｓ）を用い適応ステップサイズの倍率を決定する段階を有する。

本方法は、一般に、例えばダウンロードサーバーに格納され又は民生用機器へ送信されるソフトウェア、として実現されて良い。

本発明のサイドローブキャンセラーのこれら及び他の特長は、以下に説明する実施例、及び添付の図面を参照することにより、明らかであろう。添付の図面は、全体の概念を例示するものであり、本発明の範囲を限定するものではない。

図1では、目標信号源１６０からの音は、場合によっては1つ以上の不要雑音源１６１も、少なくとも２つのマイクロホン１０１、１０３、１０５の配列に伝達する。これらマイクロホンにより出力される信号ｕ１、ｕ２、ｕ３は、ビームフォーマ１０７の対応するフィルターｆ１（−ｔ）、ｆ２（−ｔ）、ｆ３（−ｔ）の第１のセットによりフィルターされる。前記フィルターの係数、一般に周波数帯毎の係数は、例えば目標信号源１６０の、部屋内の状況の変化に適応できる。各フィルターから出力され得られた信号は、加算器１１０により加算され、第１の音声信号ｚを生成する。理想的には、フィルターは、特定のマイクロホンへ向かう目標音声の逆経路を示し、従って第１のマイクロホンの信号ｕ１を第１のフィルターｆ１（−ｔ）によりフィルターすることにより、理想的且つ厳密に目標音声が得られる。従って、フィルターが正しく適応していれば、第１の音声信号ｚは、目標音声に非常に近くなる。しかしながら、マイクロホンは雑音も拾うので、必然的に第１の音声信号ｚも雑音を含む。マイクロホン信号ｕ１、ｕ２、ｕ３は、雑音測定結果ｘ１、ｘ２、ｘ３を生成するためにも利用される。雑音のみを表す信号、数学的表現では目標音声信号と直交する信号を得るため、目標信号は、マイクロホン信号ｕ１、ｕ２、ｕ３から、対応する減算器１１５、１２１、１２７により差し引かれる。所謂ブロッキング行列１１１は、従って、伝達経路フィルターｆ１、ｆ２、ｆ３を第１の音声信号ｚに適用し、マイクロホンにより拾われた目標音声の推定信号を得る。従って、ビームフォーマ１０７のフィルターとブロッキング行列のフィルターは、時間反転以外は同様である。適応雑音推定部１５０は、各マイクロホンから得られた雑音測定結果ｘ１、ｘ２、ｘ３に基づき、どれだけの雑音が、目標信号源に向けられたビームフォーマのメインローブ、又は目標信号に向けられたローブパターンの他の部分、例えばそのパターンのサイドローブに拾われるか、従って第１の音声信号ｚに含まれる雑音の割合を推定する。雑音推定部１５０は、従って、ビームフォーマフィルターｆ１（−ｔ）、ｆ２（−ｔ）、ｆ３（−ｔ）に関連する適応フィルターｇ１、ｇ２の第２のセットを利用する。雑音測定結果ｘ１、ｘ２、ｘ３の１つは、第２のフィルターｇ１、ｇ２を適用する前に、数学的に依存しているため（３つのマイクロホン測定結果のみが存在し、第１の音声信号ｚである１つの目標音声信号と３つの雑音測定結果ｘ１、ｘ２、ｘ３を得る）、次元縮小が行われて良い。例えば、第３の雑音信号は除去され、又はｘ１１はｘ１−（ｘ１＋ｘ２＋ｘ３）／３と定義されて良く、及びｘ１２はｘ２−（ｘ１＋ｘ２＋ｘ３）／３と定義されて良い等である。

代案として、３つの第２のフィルターが適応され、依存度に注意して自動的に収束する。最終的に減算器１４２は、推定雑音信号ｙを第１の音声信号ｚから差し引くよう構成される。減算器１４２及び雑音推定部１５０は共に、ノイズキャンセラーを構成し、比較的雑音を含まない、第２の音声信号ｒを出力する。

以上に説明したシステムは、従来既知のサイドローブキャンセラーである。図１は、ビームフォーマ１０７のフィルターとブロッキング行列１１１のフィルターを更新するビームフォーマ更新部１１７、１２３、１２９のそれぞれを、ブロッキング行列の一部として示すが、これらは必ずしも示された構成でなくても良い。

従来のビームフォーマの一般的な更新規則は、第１の音声信号ｚ及び対応する雑音測定結果を入力として用い、新しいフィルター係数を特定の周波数範囲又は周波数ｆ近傍の周波数帯に対し、以下の式で計算する。

上式で、Ｆは、それぞれ離散時間ｔ、ｔ＋１における特定の周波数範囲の特定のフィルター係数、αは定数、Ｐ_ＺＺ［ｆ，ｔ］は第１の音声信号出力の測定結果、ｘは各雑音測定結果（例えば、ｘ１は第１のフィルターｆ１（−ｔ）に対応する）、及びアスタリスクは複素共役を示す。雑音が目標の第１の音声信号ｚとほぼ直交する場合、フィルター係数は殆ど更新されない。

従来技術のノイズキャンセラー更新部１５９において第２のフィルターｇ１、ｇ２のセットを更新する一般的な更新規則は、次の通りである。

上式で、ｒは第２の音声信号、及びＰ_ｙｙ［ｆ，ｔ］は雑音信号ｙの出力測定結果、及びｘ１１及びｘ１２はそれぞれフィルターへ入力される雑音推定信号（別の構成、例えば異なるＲブロックでは、当業者は適応フィルターの理論から同様の更新規則を導出できる）。

本発明のサイドローブキャンセラー１００の場合、これらの更新ステップ（記号＋の後の部分）は、サイドローブキャンセラーがどれだけ正しく動作するかを決定する比に基づき決定される。

従って、倍率決定部１７０は、入力として、望ましくは遅延部１４１により遅延された後の第１の音声信号ｚ、及び雑音信号ｙを有するよう構成される。倍率決定部１７０は、比Ｑ及び比の関数として倍率Ｓを計算する。倍率Ｓは、サイドローブキャンセラー更新接続構成では、例えば以下のように計算される。

上式で、Ｃは所定の定数、及び他の項は以上の説明と同様である。

この関数の下限は０とする。つまりこの関数は負にならない。注意すべき点は、時刻は（当業者に既知の）異なる方法で選択されて良いことであり、及び処理はブロック単位に行われることが望ましい。数式３は、次式に近似できる。

上式で、Ａは目標音声信号（例えば、目的の話者の音声）であり、ｎは雑音である。従って数式３は次式に近似される。

つまり、信号対雑音比ＳＮＲ＝Ｐ_ＡＡ［ｆ，ｔ］／Ｐ_ｎｎ［ｆ，ｔ］の関数である。

当業者は、他の雑音推定も利用されて良く、従ってサイドローブキャンセラーの雑音推定部は不要となることを理解するだろう。適応フィルター加算ビームフォーマ（この概念も遅延加算ビームフォーマ及び同様の構成を有する）及び例えばマイクロホンの何れかにより拾われた信号である雑音基準の組み合わせを用い、本発明の核の適応ビームフォーマを構成しても良い。

倍率Ｓは、ビームフォーマ更新部１１７、１２３、１２９へ送信される。ビームフォーマ更新部は、本発明によると、適応ステップサイズを倍率Ｓで乗算することにより、ビームフォーマフィルターの更新ステップを調整するよう構成される。本発明によると、ビームフォーマ更新部は、以下の更新規則に従う。

同様に、雑音推定フィルターの適応ステップサイズを１−Ｓで調整する。対応する更新規則は以下の通りである。

雑音推定部がビームフォーマと逆に動作する場合、つまり雑音推定部が、例えば話の合間に拾われたような、主に雑音を有し目標信号出力を殆ど有さない信号に主に反応する場合、上式の比の他の関数が利用されて良い。

ＣＰ_ｙｙを用いる代わりに、別の雑音推定部３１０（図２にのみ示されるが、勿論、あらゆる実施例と組み合わせて良い）を用い、目標音声（例えば、ｚ）の推定信号に依然として含まれる雑音の別の値を求めても良い。これは、例えば雑音測定結果ｘ１、ｘ２、ｘ３の線形又は非線形関数であって良い。

例えば、ビームフォーマフィルターの更新（数式６）のように、多くの（相関又は無相関）雑音が存在する場合、ＣＰ_ｙｙ［ｆ，ｔ］は比較的大きく、Ｐ_ＺＺ［ｆ，ｔ］−ＣＰ_ｙｙ［ｆ，ｔ］はＰ_ＺＺ［ｆ，ｔ］より小さくなり、その結果、小さいステップサイズを得る。全く雑音がない場合、倍率は１に等しい。

従来既知の音声検出器１６５は、第１の音声信号ｚが音声として認識された場合、信号Ｓｕｆｉをビームフォーマ更新部１１７、１２３、１２９へ出力できるよう変更される。またビームフォーマ更新部１１７、１２３、１２９は、信号Ｓｕｆｉが特定値、例えば１である場合に、フィルター（ｆ１（−ｔ）、ｆ２（−ｔ）、ｆ３（−ｔ））のみを更新するよう構成される。同様に、信号ＳＵＷは、音声検出器１６５が第１の音声信号ｚを雑音として認識した場合にのみ、雑音推定部１５０のフィルターｇ１、ｇ２を適応させる。音声検出は、第２の音声信号ｒを入力としても良い。注意すべき点は、図１では明確化のため、信号Ｓｕｆｉ及びＳＵＷの更新部への接続は、図示されない。しかし、これらは、例えば配線、保存、ソフトウェアの場合のメモリーからのフェッチ等のように既知のものであると理解される。

更に別の実施例では、倍率決定部１７０は、音声種別特徴付け部１６６を有して良い。音声検出器１６５と同様に、音声種別特徴付け部１６６は、サイドローブキャンセラーが主に目標信号源に追従しているか否か、又は多くの雑音を受信しているか否かを識別する。音声種別特徴付け部１６６は、例えば、２進決定機能（例えば、四捨五入し最も近い整数０又は１にする）を比Ｑに適用するよう構成され、及び上述のように信号Ｓｕｆｉを出力し、決定が１の場合のみ、第１のフィルター（ｆ１（−ｔ）、ｆ２（−ｔ）、ｆ３（−ｔ）及びｆ１、ｆ２、ｆ３も）のセットを適応し、決定が０の場合のみ、第２のフィルター（ｇ１、ｇ２）のセットを適応するよう構成される。これによりサイドローブキャンセラー１００の強靱性が更に増大する。

図２は、第２の音声信号ｒに応じて、ビームフォーマ／ブロッキングフィルター（ｆ１（−ｔ）、ｆ２（−ｔ）、ｆ３（−ｔ）、ｆ１、ｆ２、ｆ３）の更新を実行する構成を示す。第２のビームフォーマ更新部２１９、２１５、２１１は、以上に説明した既知のサイドキャンセラー部分の上側に図示される。第２のビームフォーマ更新部２１９、２１５、２１１は、第２の入力として、同様に生成された第２の雑音測定結果ｖ１、ｖ２、ｖ３を有し、対応する減算器を備えるよう構成される。例えば、減算器２２７は、ブロッキングフィルターｆ１でフィルターされた第２の音声信号ｒを、第１のマイクロホン信号ｕ１から差し引く。他も同様である。

数式１と同様に、基本的な更新式が以下のように選択されてよいことは、数学的に示される。

上式で、ｒは第２の音声信号、ｖは更新されるべき特定のビームフォーマフィルターに対応する第２の雑音測定結果ｖ１、ｖ２、ｖ３の１つ、及びＰ_ｒｒ［ｆ］は第２の音声信号ｒの出力測定結果である。

このサイドローブキャンセラーの構成２００の倍率の可能な式は、第２の倍率決定部２５０により以下のように求められる。

ビームフォーマ１０７のフィルター、ブロッキング行列１１１のフィルター、及び雑音推定部１５０のフィルターの調整は、図１の構成で説明されたように行われる。

実質的に相関雑音のみが存在し、ほぼ完全に除去される場合、減算器１４２における減算は、スカラー方程式と見なされ、定義Ｐ_ｒｒ［ｆ］≒Ｐ_ｚｚ［ｆ］−ＣＰ_ｙｙ［ｆ］により、ｒ＝ｚ−ｙなので、Ｓをほぼ１に等しくする。例えば雑音源の移動により、ノイズキャンセラーが不適切に適応された場合、雑音の位相は不明なので、減算器１４２は雑音除去を実行できない。例えば、雑音の振幅は正しく推定できるが、１８０度の位相差がある場合、推定された雑音信号ｒは、第１の音声信号から減算される代わりに加算され、単に雑音を増加させるだろう。また雑音測定結果ｖ１、ｖ２、ｖ３において、目標音声でさえ多くのエネルギーが漏洩するため、雑音出力Ｐ_ｙｙ［ｆ，ｔ］は比較的大きくなるだろう。纏めると、この結果、Ｐ_ｒｒ［ｆ，ｔ］＞Ｐ_ｚｚ［ｆ，ｔ］−ＣＰ_ｙｙ［ｆ，ｔ］となり、１より小さい倍率を得る。また、無相関雑音の場合、雑音は第１の音声信号ｚから適切に差し引くことができず、その結果、同様に、Ｐ_ｒｒ［ｆ，ｔ］＞Ｐ_ｚｚ［ｆ，ｔ］−ＣＰ_ｙｙ［ｆ，ｔ］となる。

定数Ｃは、種々の方法で決定されて良い。例えばＣは以下のように決定されて良い。

上式で、Ｐ_ｚｚは、音声が無い時間帯（つまりｚにおける雑音）で決定される。これは、音声検出器を用いて、又は一時的なｚ信号の低振幅領域、音声が無いことにより生じる低い振幅を捜すことにより実現されて良い。従って、Ｃ^＊Ｐ_ｙｙは、ｚに含まれる雑音の推定信号を適切に生成する。Ｃは、用途に依存する最適化試験により予め決定されても良い。

開示されたアルゴリズムに関する要素は、実際には、（全体的に又は部分的に）ハードウェア（例えば、特定用途向けＩＣの部分）又は特定のデジタル信号プロセッサー、汎用プロセッサー等で動作するソフトウェアとして実施されても良い。

コンピュータープログラムは、汎用又は特定用途のプロセッサーに、プロセッサー内部にコマンドを取得するステップを読み込ませた後、発明の特徴的機能を実行させるコマンドの集合の如何なる物理的形態であって良いと見なされる。特にコンピュータープログラムは、例えばディスク又はテープのような記録担体内のデータ、メモリー内のデータ、有線又は無線のネットワーク接続を伝達するデータ、又は紙面上のプログラムコードとして実現されて良い。プログラムコードとは別に、プログラムに必要とされる特徴的なデータもコンピュータープログラムとして実現されて良い。

以上に説明された実施例は、本発明を限定するものではない。請求の範囲に記述されるような本発明の要素の組み合わせと別に、要素の他の組み合わせが可能である。要素の如何なる組み合わせも、単一の専用の要素で実現できる。

請求の範囲に記述された括弧内の如何なる参照符号も、請求の範囲を制限しない。「有する」の語は、請求の範囲に列挙されていない要素又は特長を除外するものではない。単数表記の要素は同要素の複数の存在を除外するものではない。

第1の音声信号に基づく分数式に対応するサイドローブキャンセラーの実施例を示す。第２の音声信号に基づく分数式に対応するサイドローブキャンセラーの実施例を示す。

Claims

適応ビームフォーマであって：
第１の適応フィルターのセットの係数が、適応ステップサイズに応じて得られた少なくとも１つの係数に異なる値を加算することにより変化される点で適応型であり、複数のマイクロホンのそれぞれからの入力音声信号を処理するよう構成され、及び前記第１の適応フィルターのセットのそれぞれで前記入力音声信号をフィルターすることにより、目標信号源からの音に主に相当する第１の音声信号を出力するよう構成されたフィルター加算ビームフォーマ；及び
第１の関数として求められる倍率を提供するよう構成される、前記目標信号源から生成され前記第１の音声信号に存在する無雑音音声信号の推定である第１の変数、及び前記第１の音声信号に存在する雑音の推定である第２の変数の比の、倍率決定部
を有し、
前記倍率を用い前記適応ステップサイズの倍率を決定するよう構成される、適応ビームフォーマ。
サイドローブキャンセラーであって、請求項１記載の適応ビームフォーマを有し、
第２の適応フィルターのセットを用い入力音声信号から得た対応する雑音測定結果をフィルターすることにより推定雑音信号を得るよう構成される適応雑音推定部；及び
前記第１の音声信号から前記推定雑音信号を差し引くよう接続され、雑音除去された第２の音声信号を得る減算部
を更に有するサイドローブキャンセラー。
周波数領域で特定された前記第１のフィルターのセットの係数を有し、及び前記比により所定の周波数帯毎に前記適応ステップサイズが決定されるよう構成され、前記比は、
(Ｐ_ＺＺ［ｆ，ｔ］−ＣＰ_{Ａ（ｘｉ）Ａ（ｘｉ）}［ｆ，ｔ］)／Ｐ_ＺＺ［ｆ，ｔ］であり、
Ｐ_ＺＺ［ｆ，ｔ］は時刻ｔにおける周波数ｆ近傍の前記所定の周波数帯の前記第１の音声信号出力の測定結果、Ｐ_{Ａ（ｘｉ）Ａ（ｘｉ）}［ｆ，ｔ］は関数Ａによる少なくとも１つの雑音測定結果から雑音推定部により得られた雑音信号出力の測定結果、そしてＣは定数である、
請求項１記載の適応ビームフォーマ又は請求項２記載のサイドローブキャンセラー。
前記周波数領域で特定される第１のフィルターのセットの係数を有し、及び前記比により所定の周波数帯毎に前記適応ステップサイズが決定されるよう構成され、前記比は、
(Ｐ_ＺＺ［ｆ，ｔ］−ＣＰ_{Ａ（ｘｉ）Ａ（ｘｉ）}［ｆ，ｔ］)／Ｐ_ｒｒ［ｆ，ｔ］であり、
Ｐ_ＺＺ［ｆ，ｔ］は時刻ｔにおける周波数ｆ近傍の前記所定の周波数帯の前記第１の音声信号の出力の測定結果、Ｐ_{Ａ（ｘｉ）Ａ（ｘｉ）}［ｆ，ｔ］は関数Ａに従う少なくとも１つの雑音測定結果から雑音推定部により得られた雑音信号出力の測定結果、Ｐ_ｒｒ［ｆ，ｔ］は前記第２の音声信号の出力の測定結果、そしてＣは定数である、
請求項２記載のサイドローブキャンセラー。
前記第１の音声信号に基づきブール型指標である音声／雑音を提供する音声検出部を有し、及び前記指標が音声の場合のみ前記第１のフィルターのセットを適応するよう構成される、
請求項１記載の適応ビームフォーマ。
前記第１の音声信号又は前記第２の音声信号に基づきブール型指標である音声／雑音を提供する音声検出部を有し、及び前記指示が音声の場合のみ前記第１のフィルターのセットを適応するよう構成される、
請求項２記載のサイドローブキャンセラー。
２進判定関数を前記比に適用するよう構成され、及び前記判定が１の場合のみ前記第１のフィルターのセットを利用するよう構成される、
請求項１記載の適応ビームフォーマ又は請求項２記載のサイドローブキャンセラー。
ハンズフリー音声通信装置であって、請求項１記載の適応ビームフォーマ又は請求項２記載のサイドローブキャンセラーを有する、ハンズフリー音声通信装置。
音声制御装置であって、請求項１記載の適応ビームフォーマ又は請求項２記載のサイドローブキャンセラーを有する、音声制御装置。
民生用装置であって、請求項９記載の音声制御装置を有する、民生用装置。
追尾装置であって、音声を生成する対象を追尾するよう構成され、請求項１記載の適応ビームフォーマ又は請求項２記載のサイドローブキャンセラーを有する、追尾装置。
適応ビームフォーミング方法であって：
ビームフォーマフィルター段階は、第１の適応フィルターのセットの係数は、少なくとも１つの係数を追加することにより、適応ステップサイズに応じて得られる異なる値に変化できるという点で適応型であり、前記第１の適応ビームフォーマフィルターのセットのそれぞれを用い、複数のマイクロホンのそれぞれからの入力音声信号をフィルターし、目標信号源からの音に主に対応する第１の音声信号を生成する、ビームフォーミング段階；
前記目標信号源から生成され前記第１の音声信号に存在する無雑音音声信号の推定である第１の変数及び前記第１の音声信号に存在する雑音の推定である第２の変数の比の倍率である第１の関数を決定する段階；及び
前記倍率を用い前記適応ステップサイズの倍率を決定する段階
を有する、適応ビームフォーミング方法。
コンピュータープログラムであって、プロセッサーに請求項１２記載の各段階を実行させる対応するコードを有する、コンピュータープログラム。