JP2008507926A

JP2008507926A - 雑音環境内で音声信号を分離するためのヘッドセット

Info

Publication number: JP2008507926A
Application number: JP2007522827A
Authority: JP
Inventors: ビザー，エリック; トーマーン，ジェレミー; デイビス，トム; モメイヤー，ブライアン
Original assignee: ソフトマックス，インク
Priority date: 2004-07-22
Filing date: 2005-07-22
Publication date: 2008-03-13
Also published as: WO2006012578A2; EP1784816A4; AU2005283110A1; EP1784820A2; US7366662B2; AU2005266911A1; WO2006028587A3; US7983907B2; CA2574713A1; EP1784820A4; WO2006012578A3; US20070038442A1; WO2006028587A2; KR20070073735A; US7099821B2; US20080201138A1; US20050060142A1; EP1784816A2; CA2574793A1; CN101031956A

Abstract

雑音音響環境内で音響的に別個の音声信号を生成するために、ヘッドセットを構成する。ヘッドセットは、使用者の口の近傍に所定の間隙を介した一対のマイクロフォンを配置する。マイクロフォンは各々使用者の音声を受け取り、さらに音響環境の雑音を受け取る。雑音と情報の両方の成分を有するマイクロフォン信号は、分離プロセス内に受け取る。分離プロセスは、実質的に雑音成分を低減した音声信号を生成する。それから、送信用に音声信号を処理する。一例では、送信プロセスは、ブルートゥース無線を用いて局所的制御モジュールに音声信号を送信することを含んでいる。
【選択図】図１

Description

（関連出願）
この発明は、米国特許出願番号１０／８９７，２１９、出願日２００４年７月２２日、発明の名称「マルチトランスデューサ構成内の目標音声信号の分離」に対する優先権を主張し、同時継続特許協力条約出願番号ＰＣＴ／ＵＳ０３／３９５９３、発明の名称「改善された独立成分解析を用いる音声処理用のシステムおよび方法」、出願日２００３年１２月１１日に関連し、米国特許出願番号６０／４３２，６９１および６０／５０２，２５３号に対する優先権を主張し、これらは全て参照によってここに組み込まれる。

（発明の分野）
この発明は、雑音音響環境から音声信号を分離するための電子通信機器に関する。より詳細には、この発明の一例は、音声信号を生成するための無線ヘッドセットまたはイヤピースを提供する。

音響環境には雑音があることが多く、所望の情報信号を確実に検出し、それに応答することが困難になる。例えば、人は、音声通信チャネルを用いて、別の人と通信したいと思うことがある。このチャネルは、例えば、移動無線ヘッドセット、トランシーバ、双方向ラジオ、または他の通信機器によって提供できる。利用性を改善するために、人は通信機器に接続したヘッドセットまたはイヤピースを用いることができる。ヘッドセットまたはイヤピースは、一つ以上のイヤスピーカおよびマイクロフォンを有することが多い。一般的に、マイクロフォンはブーム上を人の口に向かって延び、マイクロフォンが人の話す音を捕捉する可能性を増大させる。人が話すと、マイクロフォンは人の音声信号を受け取り、それを電子信号に変換する。さらに、マイクロフォンは様々な雑音源から音声信号を受け取り、従って、電子信号内には雑音成分も含まれている。ヘッドセットは人の口から数インチ離してマイクロフォンを配置し、環境は多くの制御不可能な雑音源を有することができるので、得られる電子信号はかなりの雑音成分を有する。このようなかなりの雑音は不満足な通信を経験させ、通信機器を非効率的な方法で動作させ、電池消費量を増大させる。

特定の一例では、雑音環境内で音声信号を生成し、環境雑音から音声信号を分離するために音声処理方法が用いられる。雑音は実世界の条件ではほとんど常に存在するので、このような音声信号処理は日常の通信の多くの領域で重要である。雑音は、所定の音声信号を妨げるか、または劣化させる全ての信号の組み合わせとして定義される。実世界は、単一点雑音源を含む複数の雑音源であふれ、それらはしばしば限界を超えて多量サウンドとなり反響をもたらす。背景雑音から分離および隔離しない限り、所望の音声信号を確実に効率的に使用することは難しい。背景雑音には、一般的な環境によって生成された多数の雑音信号、他の人々の背景会話によって生成された信号、およびそれぞれの信号から生成された反射と反響が含まれる。使用者がしばしば雑音環境内で話をする通信では、背景雑音から使用者の音声信号を分離することが望ましい。携帯電話、スピーカフォン、ヘッドセット、コードレス電話、遠隔会議、ＣＢ無線、トランシーバ、コンピュータテレフォニィ用途、コンピュータおよび自動車音声命令用途および他のハンドフリー用途、インターフォン、マイクロフォンシステム等の音声通信媒体は、音声信号処理を利用して背景雑音から所望の音声信号を分離できる。

背景雑音信号から所望の音声信号を分離するために、簡単なフィルタ処理を含む多くの方法が生み出されている。従来技術の雑音フィルタは、所定の特性を備えた信号を白色雑音信号等として識別し、入力信号からこのような信号を除去する。これらの方法は、音声信号の実時間処理には十分簡単で素早いが、異なる音声環境には容易に適応できず、分離すべき音声信号の実質的な劣化をもたらす。雑音特性の所定の仮定は、包括的すぎたり不十分であったりする。その結果、人の音声の一部がこれらの方法によって「雑音」とみなされ、出力音声信号から除去されたり、音響または会話等の背景雑音の一部がこれらの方法によって雑音ではないとみなされ、出力音声信号に含められたりする。

信号処理用途では、マイクロフォン等のトランスデューサセンサを用いて一般に一つ以上の入力信号を捕捉する。センサによって提供される信号は、多くの音源の混合である。一般に、信号源およびそれらの混合音の特性は未知である。発信源の独立性という一般的統計的仮定以外に信号源の知識がない場合、この信号処理の問題はこの分野で「ブラインド音源分離（ＢＳＳ）問題」として知られている。ブラインド分離問題は、多くの身近な形で出くわす。例えば、人は、このような多くの音源を含む環境内でさえ単一の音源に注意を集中することができ、一般に「カクテルパーティ効果」と呼ばれている。信号源は各々、音源からマイクロフォンまで伝達中しばらくの間、時間的に変化する方法で遅延および減衰され、それからそれ自体の異なる方向から到達する遅延形態である多経路形態（反響）を含む他の別個に遅延および減衰された信号源と混合される。これらの音響信号を全て受け取る人は、多経路信号を含む他の干渉源を除去または無視しながら、特定の組の音声源を聞くことができる。

カクテルパーティ効果を解決するために、物理的機器およびこのような機器の計算シミュレーションには従来からかなりの労力が注がれてきた。解析前に単に信号を除去することから、音声および非音声信号の間の正確な識別に応じて雑音スペクトルを適応的に評価する方式まで、様々な雑音緩和技術が現在用いられている。これらの技術の説明は、米国特許第６，００２，７７６号において一般に特徴付けられる（参照によってここに組み込まれる）。特に、米国特許第６，００２，７７６号は、環境内に二つ以上のマイクロフォンを取り付けて信号源を分離する方式を説明しており、前記環境は同数以下のはっきりと識別できる音源を含んでいる。到着方向情報を用いて、第一モジュールが元の信号源の抽出を試み、同時にチャネル間の残留クロストークを第二モジュールで除去する。このような構成は、明確に定義された到着方向を備えた空間的に局所化された点源の分離では有効であるが、特に到着方向を決定できない実世界の空間的に分散した雑音環境では音声信号を分離できない。

独立成分解析（ＩＣＡ）等の方法は、雑音源から音声信号を分離するために比較的正確で柔軟な手段を提供する。ＩＣＡは、互いに独立であると推定された混合信号源（成分）を分離するための技術である。その簡略的形態では、混合信号に「未混合」の重み行列を演算し、例えば、混合信号に行列を掛けることで別個の信号を生成する。重みは初期の値を割り当て、信号の結合エントロピを最大化するように調整して情報冗長性を最小化する。この重み調整およびエントロピ増大プロセスは、信号の情報冗長性が最小に低減されるまで繰り返す。この技術は各信号源についての情報を必要としないので、「ブラインド音源分離」法として知られている。ブラインド分離問題は、複数の独立な音源から来る混合信号を分離する概念を指している。

多くの一般的なＩＣＡアルゴリズムはこれらの性能を最適化するために開発されており、一昔前に存在していただけのものをかなり修正することによって発展してきた複数のものを含んでいる。例えば、Ａ．Ｊ．ＢｅｌｌおよびＴＪＳｅｊｎｏｗｓｋｉのＮｅｕｔｒａｌＣｏｍｐｕｔａｔｉｏｎ７：１１２９−１１５９（１９９５）、およびＢｅｌｌ，Ａ．Ｊ．の米国特許番号５，７０６，４０２に記載されている研究は、その特許形態では通常用いられていない。その代わり、その性能を最適化するために、このアルゴリズムは複数の異なる実体によっていくつかの再特徴付けが行われている。このような変化の一つは、Ａｍａｒｉ，Ｃｉｃｈｏｃｋｉ，Ｙａｎｇ（１９９６）に記載されている「自然勾配」の使用を含んでいる。他の一般的なＩＣＡアルゴリズムは、累積率（Ｃａｒｄｏｓｏ，１９９２；Ｃｏｍｏｎ，１９９４；ＨｙｖａｅｒｉｎｅｎおよびＯｊａ，１９９７）等のより高次の統計量を計算する方法を含んでいる。

しかし、実環境は反射に関連した室内構成によるもの等の音響エコーを本質的に含んでおり、多くの既知のＩＣＡアルゴリズムは、前記実環境で記録された別個の信号を効率的に分離できない。重要なのは、上記の方法が、信号源の線形固定混合によって得られた信号の分離に限定されることである。直線経路の信号およびそれらがエコーしたものの合計から得られる現象は反響と呼ばれ、人工音声強調および認識システムに主要な問題をもたらす。ＩＣＡアルゴリズムは、それらの時間的に遅延しエコーした信号を分離可能な長いフィルタを必要とし、従って、有効な実時間使用を不可能にする。

既知のＩＣＡ信号分離システムは一般に、ニューラルネットワークとして機能するフィルタのネットワークを使用し、フィルタネットワークに入力した任意の数の混合信号から個々の信号を分離する。つまり、ＩＣＡネットワークは、一組の音声信号をより高次の組の信号に分離するために用いられ、ここで各信号は特定の音声源を表している。例えば、ＩＣＡネットワークがピアノ音楽と人の会話を含む音声信号を受け取った場合、２ポートＩＣＡネットワークが音声を二つの信号に分離し、一方の大部分がピアノ音楽を有し、他方の大部分が会話を有するようにする。

別の従来技術では、聴覚シーン解析に基づいて音声を分離する。この解析では、存在する音源の性質に関する仮定を積極的に使用する。音声はトーンやバースト等の小さな要素に分解でき、前記要素はさらに時間的調和性や継続性等の属性に従ってグループ化できると仮定する。聴覚シーン解析は、単一のマイクロフォンまたは複数のマイクロフォンからの情報を用いて行うことができる。聴覚シーン解析の分野は、計算機聴覚シーン解析（ＣＡＳＡ）をもたらす計算機械学習法が利用可能なことによってより注目されている。それは人間の聴覚処理の理解を含んでいるので科学的に興味深いが、実際のカクテルパーティ状況を解決するにはそのモデルの仮定および計算技術はなお初期段階にある。

音声を分離するための他の技術は、それらの音源の空間的分離を利用することによって動作する。この原理に基づく機器には、様々な複雑さのものがある。このような機器の最も簡単なものは、非常に選択的であるが固定された感度パターンを備えたマイクロフォンである。例えば、指向性マイクロフォンは特定の方向から発散した音声に最大の感度を有するように設計され、従って、他のものに対して一つの音源を強調するために利用できる。同様に、話者の口の近傍に取り付けた接話マイクロフォンは、いくつかの離れた音源を拒絶できる。それから、マイクロフォンアレイ処理技術は、認識された空間分離を利用することによって音源を分離するために用いられる。少なくとも一つのマイクロフォンが所望の信号だけを含むという仮定は音響環境では現実的ではないため、競合する音源の十分な抑制は実現できないのでこれらの技術は実用的ではない。

線形マイクロフォンアレイ処理の広く知られた技術は、しばしば「ビーム成形」と呼ばれる。この方法では、マイクロフォンの空間的違いによる信号間の時間的違いを用いて信号を強調する。より詳細には、おそらくマイクロフォンの一つが音源をより直接的に「観察する」一方、他のマイクロフォンは比較的減衰された信号を生成できる。一部の減衰は実現できるが、ビーム成形器は波長がアレイより大きな周波数成分の相対的減衰は提供できない。これらの技術はビームを音源に向けて、他の方向を無にする空間的フィルタ処理法である。ビーム成形技術には音源についての仮定はないが、音源とセンサまたは音声信号自体の間の幾何形状は信号を無反響にしたり、音源を局所化するために既知であると仮定する。

「一般化サイドローブ消去（ＧＳＣ）」と呼ばれる堅牢な適応ビーム成形の既知の技術は、Ｈｏｓｈｕｙａｍａ，Ｏ．，Ｓｕｇｉｙａｍａ，Ａ．，Ｈｉｒａｎｏ，Ａ．の「制限適応フィルタを用いた遮蔽マトリクスを備えたマイクロフォンアレイ用の堅牢な適応ビーム成形」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ４７，Ｎｏ１０，ｐｐ２６７７−２６８４，１９９９年１０月で議論されている。ＧＳＣは、Ｇｒｉｆｆｉｔｈｓ，Ｌ．Ｊ．，Ｊｉｍ，Ｃ．Ｗ．の「線形制限適応ビーム成形の別の方式」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎＡｎｔｅｎｎａｓａｎｄＰｒｏｐａｇａｔｉｏｎ，ｖｏｌ３０，ｎｏ１，ｐｐ．２７〜３２，１９８２年１月のＧＳＰの原理でより詳しく説明されているように、一組の測定値ｘから単一の所望の信号源ｚ＿ｉをフィルタ処理することを目的としている。一般に、ＧＳＣは、信号に依存しないビーム成形器ｃがセンサ信号をフィルタ処理し、所望の音源からの直接経路に歪みがないままである一方、理想的には他の方向が抑制されるように事前に定義する。ほとんどの場合、所望の音源の位置は、別の局所化法によって事前に決定しなければならない。より低いサイドパスでは、適応ブロック遮蔽Ｂは所望の信号ｚ＿ｉを元とする全ての成分を抑制し、雑音成分だけが出力Ｂに現れるようにする。これらのことから、適応干渉キャンセラａは、全出力強度Ｅ（ｚ＿ｉ＊ｚ＿ｉ）の推定値を最小にすることによって、出力ｃの残りの雑音成分の推定値を導く。従って、固定ビーム成形器ｃと干渉キャンセラａは干渉抑制を共に行う。ＧＳＣは所望の話者を限られた追跡領域に閉じ込める必要があるので、その適用性は空間的に固定された状況に限定される。

別の既知の技術は能動消去アルゴリズムの一種であり、音声分離に関連付けられる。しかし、この技術は、「基準信号」、つまり一つの音源だけから導かれた信号を必要とする。能動雑音消去およびエコー消去技術はこの技術を広範囲に使用し、雑音低減はその雑音だけを含む既知の信号をフィルタ処理し、混合音からそれを除去することによって混合音への雑音の寄与に比例させる。この方法は、測定した信号の一つが一つの音源だけからなると仮定し、その仮定は多くの実生活の設定では現実的ではない。

基準信号を必要としない能動消去技術は「ブラインド」と呼ばれ、この出願が主に対象としているものである。不要な信号がマイクロフォンに到達する音響プロセスに関する根本的な仮定の現実性の度合に基づいて、ここでそれらを分類する。ブラインド能動消去技術の種類の一つは「利得ベース」と呼ばれることもあり「瞬時混合」としても知られ、各音源によって生成される波形をマイクロフォンで同時に受け取るが、相対利得を変化させると仮定する（必要な利得の違いを生成するために、指向性マイクロフォンを用いることが多い）。従って、利得ベースシステムは、マイクロフォン信号に相対利得を加えて除去することによって、異なるマイクロフォン信号の不要な音源の複製を消去しようとするが、時間遅延を加えたり他のフィルタ処理を行ったりはしない。ブラインド能動消去では、多くの利得ベースの方法が提案されている（ＨｅｒａｕｌｔおよびＪｕｔｔｅｎ（１９８６）、Ｔｏｎｇなど（１９９１）、およびＭｏｌｇｅｄｅｙおよびＳｃｈｕｓｔｅｒ（１９９４）参照）。多くの用途のようにマイクロフォンが空間的に分離されている場合、利得ベースまたは瞬時混合の仮定は破棄される。この方法の簡単な拡張は時間遅延因子を含んでいるが、他のフィルタ処理は含んでおらず無エコー条件下で動作する。しかし、音源からマイクロフォンへの音響伝搬の簡単なモデルは、エコーおよび反響が存在する場合は使用が限定される。現在知られている最も現実的な能動消去技術は「重畳」であり、各音源から各マイクロフォンへの音響伝搬効果を重畳フィルタとしてモデル化する。これらの技術は、マイクロフォンの間隔、エコーおよび反響の効果を明示的に取り込むので、利得ベースおよび遅延ベースの技術より現実的である。原理的に、利得および遅延は重畳フィルタ処理の特別な場合であるので、それらはより一般的でもある。

重畳ブラインド消去技術は、Ｊｕｔｔｅｎなど（１９９２）、ＶａｎＣｏｍｐｅｒｎｏｌｌｅおよびＶａｎＧｅｒｖｅｎ（１９９２）、ＰｌａｔｔおよびＦａｇｇｉｎ（１９９２）、ＢｅｌｌおよびＳｅｊｎｏｗｓｋｉ（１９９５）、Ｔｏｒｋｋｏｌａ（１９９６）、Ｌｅｅ（１９９８）、およびＰａｒｒａなど（２０００）を含む多くの研究者によって説明されている。マイクロフォンアレイによる複数チャネル観察の場合に主に用いられる数学的モデルでは、複数音源モデルは次のように定式化できる。

ここで、ｘ（ｔ）は観察されるデータを示し、ｓ（ｔ）は隠れた音源信号であり、ｎ（ｔ）は加法性センサ雑音信号であり、ａ（ｔ）は混合フィルタである。パラメータｍは音源の数であり、Ｌは重畳次数であって音響環境に依存し、ｔは時間係数を示している。第一の合計は環境内の音源のフィルタ処理によるものであり、第二の合計は異なる音源の混合によるものである。ＩＣＡについての研究の大部分は瞬時混合状況用のアルゴリズムに集中しており、第一の合計を除去して作業を簡略化し、混合マトリクスａを反転させる。やや修正し反響がないと仮定すると、増幅因子と遅延を除いて異なるマイクロフォン位置において記録すれば、点源からの信号は同一であるとみなすことができる。上記の式で説明した問題は、多チャネルブラインド逆重畳問題として知られている。適応信号処理における代表的な研究にはＹｅｌｌｉｎおよびＷｅｉｎｓｔｅｉｎ（１９９６）が含まれ、そこではより高次の統計的情報を用いて、センサ入力信号間の相互情報を近似する。ＩＣＡおよびＢＳＳの研究の重畳混合への拡張には、Ｌａｍｂｅｒｔ（１９９６）、Ｔｏｒｋｋｏｌａ（１９９７）、Ｌｅｅなど（１９９７）およびＰａｒｒａなど（２０００）が含まれる。

多チャネルブラインド逆重畳問題を解決するためのＩＣＡおよびＢＳＳベースのアルゴリズムは、音響的混合源の分離を解決する可能性があるためますます一般的になっている。しかし、それらのアルゴリズムには、現実的な状況への適用性を限定する強い仮定がなお残っている。最も適合性がない仮定の一つは、分離すべき音源と少なくとも同じ数のセンサを必要とすることである。数学的には、この仮定は意味がある。しかし、実用上は、音源の数は一般に動的に変化するが、センサの数は固定する必要がある。さらに、多数のセンサを有することは多くの用途では実用的ではない。大部分のアルゴリズムでは適切な密度推定を保証し、従って、多様な信号源の分離を保証するために統計的信号源モデルを適応させる。音源モデルの適応はフィルタの適応に加えてオンラインで行う必要があるので、この要件は計算上負担がかかる。音源間の統計的独立性の仮定はかなり現実的な仮定であるが、相互情報の計算は集約的で困難である。実際のシステムでは、良好な近似が必要とされる。さらに、通常はセンサ雑音を考慮せず、これは高級なマイクロフォンを用いる場合は正当な仮定である。しかし、簡単なマイクロフォンはセンサ雑音を示し、アルゴリズムが適切な性能を実現するにはセンサ雑音を処理しなければならない。最後に、大部分のＩＣＡの定式化では、根本的な信号源は本質的にそれらの各エコーおよび反響にもかかわらず、空間的に局所化された点源から始まっていると仮定する。この仮定は、同等の音圧レベルにおいて、多くの方向から発散する風雑音等の強く拡散したり空間的に分散した雑音源の場合は通常正当ではない。これらの種類の分散した雑音状況の場合、ＩＣＡ方式だけで実現可能な分離では十分ではない。

望まれているものは簡略的音声処理法であり、前記音声処理法はほぼ実時間で背景雑音から音声信号を分離でき、多くの演算能力を要求しないが、なお比較的正確な結果を生成して異なる環境に柔軟に適応できる。

簡単にいうと、この発明は、雑音音響環境内で音響的に別個の音声信号を生成するように構成したヘッドセットを提供する。ヘッドセットは、使用者の口の近くに空間的に離れた多数のマイクロフォンを配置する。各マイクロフォンは使用者の音声を受け取り、さらに音響的環境雑音を受け取る。雑音および情報成分の両方を有するマイクロフォン信号は、分離処理内で受け取る。分離処理は、雑音成分を実質的に低減した音声信号を生成する。それから、音声信号を処理し送信する。一例では、送信処理は、ブルートゥース無線を用いて、局所的制御モジュールに音声信号を送信することを含んでいる。

より具体的な例では、ヘッドセットは耳上に装着可能なイヤピースである。イヤピースはプロセッサとブルートゥース無線を保持し、ブームを支持するハウジングを有する。第一マイクロフォンはブームの端部に配置し、第二マイクロフォンはハウジング上に間隙を介した構成で配置する。各マイクロフォンは電気信号を生成し、どちらの電気信号も雑音成分と情報成分を有する。マイクロフォン信号はプロセッサ内に受け取り、そこで分離処理を用いて処理する。分離処理は、例えば、ブラインド信号源分離であっても、独立成分解析処理であってもよい。分離処理は雑音成分を実質的に低減した音声信号を生成し、雑音成分を示す信号を生成することもでき、それらは音声信号をさらに後処理するために用いられる。それから、ブルートゥース無線によって送信するために音声信号を処理する。イヤピースは発話動作検出器を有することができ、前記検出器は音声が発生しそうなときに制御信号を生成する。この制御信号は、音声の発生に従って処理を起動、調整、または制御可能にし、より効率的および効果的動作を可能にする。例えば、制御信号がオフで、音声が存在しない場合、独立成分解析処理を停止できる。

好ましくは、ヘッドセットは高品質音声信号を生成する。さらに、分離処理は安定で予測可能な動作を行うことができ、それによって全体の効果および効率を向上させる。このヘッドセット構成は、様々な機器、処理、および用途に適応できる。他の実施形態および実施例は図面に示し、以降の「詳細な説明」の項で説明し、請求項の範囲によって定義する。

ここで図１を参照すると、無線ヘッドセットシステム１０が示されている。無線ヘッドセットシステム１０はヘッドセット１２を有し、制御モジュール１４と無線で通信を行う。ヘッドセット１２は、使用者に装着、もしくは取り付けるように構成する。ヘッドセット１２は、ヘッドバンド１７の形態のハウジング１６を有する。ヘッドセット１２はステレオヘッドセットとして示されているが、当然のことながら、ヘッドセット１２は任意の形態を取ることができる。ヘッドバンド１７は、必要な電子システムを保持するための電子ハウジング２３を有する。例えば、電子ハウジング２３は、プロセッサ２５と無線部２７を有する。無線部２７は、制御モジュール１４と通信可能にするためのアンテナ２９等の様々なサブモジュールを有することができる。電子ハウジング２３は一般に、電池または二次電池（図示せず）等の携帯型エネルギ源を保持する。ヘッドセットシステムは好ましい実施例の状況内で説明するが、当業者には明らかなように、雑音音響環境から音声信号を分離するために説明する技術は、雑音環境またはマルチノイズ音環境内で用いられる様々な電子通信機器にも同様に適している。従って、音声用途の無線ヘッドセットシステム用に説明する典型的な実施例は例示的なものにすぎず、限定的なものではない。

電子ハウジング内の回路は、一組のステレオイヤスピーカに接続する。例えば、ヘッドセット１２は、使用者にステレオ音声を提供するように構成したイヤスピーカ１９とイヤスピーカ１９と２１を有する。より詳細には、各イヤスピーカは、使用者の耳に対して配置するように構成する。さらに、ヘッドセット１２は、音声マイクロフォン３２と３３の形態の一対のトランスデューサを有する。図１に示したように、マイクロフォン３２はイヤスピーカ１９に隣接配置し、マイクロフォン３３はイヤスピーカ１９上に配置する。このように、使用者がヘッドセット１２を装着する際、各マイクロフォンは話者の口までの異なる音声経路を有し、マイクロフォン３２は常に話者の口により接近している。従って、各マイクロフォンは、使用者の音声と、ある種類の周囲音響雑音を受け取る。マイクロフォンは間隙を介して配置されているので、各マイクロフォンはやや異なる周囲雑音信号と、やや異なる種類の話者の音声を受け取る。これらの音声信号の小さな違いは、プロセッサ２５内の音声分離を向上できる。さらに、マイクロフォン３２はマイクロフォン３３より話者の口に接近しているので、マイクロフォン３２からの信号は常に所望の音声信号を最初に受け取る。この音声信号の既知の順序は、簡略的でより効率的な信号分離処理を可能にする。

マイクロフォン３２と３３はイヤスピーカに隣接配置するように示されているが、当然のことながら、多くの他の位置も有用である。例えば、一方または両方のマイクロフォンをブーム上に延長できる。また、マイクロフォンは使用者の頭の異なる側、異なる方向、アレイ等の間隙を介した構成で配置できる。所定の用途および物理的制約に依存して、当然のことながら、マイクロフォンは前向きであっても横向きであってもよく、無指向性であっても指向性であってもよく、少なくとも二つのマイクロフォンが各々雑音と音声の異なる部分を受け取るような他の局所性または物理的制約を有することができる。

プロセッサ２５は、マイクロフォン３２から電子マイクロフォン信号を受け取り、さらにマイクロフォン３３から生のマイクロフォン信号を受け取る。当然のことながら、信号は、デジタル化、フィルタ処理、もしくは前処理を行うことができる。プロセッサ２５は、音響雑音から音声を分離するための信号分離処理を行う。一例では、信号分離処理はブラインド信号分離処理である。より具体的な例では、信号分離処理は独立成分解析処理である。マイクロフォン３２はマイクロフォン３３より話者の口に接近しているので、マイクロフォン３２からの信号は常に所望の音声信号をまず受け取り、マイクロフォン３３の記録チャネルよりマイクロフォン３２の記録チャネルの方が大きな音になり音声信号の識別に役立つ。信号分離処理からの出力はきれいな音声信号であり、無線部２７によって送信するために処理および準備される。きれいな音声信号は雑音の大部分を除去しているが、一部の雑音成分がなお信号上に存在する可能性がある。無線部２７は、変調した音声信号を制御モジュール１４に送信する。一例では、無線部２７は、ブルートゥース（登録商標）通信規格で変換する。ブルートゥースは既知のパーソナルエリアネットワーク通信規格であり、通常３０フィート未満の短距離上で電子機器が通信できるようにする。さらに、ブルートゥースは、音声レベルの送信をサポートに十分な速度で通信できる。別の例では、無線部２７は、ＩＥＥＥ８０２．１１規格、または他の同様の無線通信規格に従って動作できる（ここで用いられるように、無線という用語は、このような無線通信規格を指している）。別の例では、無線部２７は、所定の安全な通信を可能にする専用の商業的または軍事的規格に従って動作できる。

さらに、制御モジュール１４は、無線部２７と通信するように構成した無線部４９を有する。従って、無線部４９は、無線部２７と同じ規格に従って同じチャネル構成上で動作する。無線部４９は、無線部２７から変調した音声信号を受け取り、プロセッサ４７を用いて、入力信号の必要な操作を行う。制御モジュール１４は、無線移動機器３８として示されている。無線移動機器３８は、グラフィック表示部４０、入力キーパッド４２および他の使用者制御部３９を有する。無線移動機器３８は、ＣＤＭＡ、ＷＣＤＭＡ、ＣＤＭＡ２０００、ＧＳＭ、ＥＤＧＥ、ＵＭＴＳ、ＰＨＳ、ＰＣＭまたは他の通信規格等の無線通信規格に従って動作する。このため、無線部４５は、要求された通信規格に応じて動作するように構成し、無線基盤システムとの通信を容易にする。このように、制御モジュール１４は、無線キャリア基盤への遠隔通信リンク５１を有し、さらにヘッドセット１２への局所的無線リンク５０を有する。

動作中、無線ヘッドセットシステム１０は、音声通信を配置および受信するための無線移動機器として動作する。例えば、使用者は制御モジュール１４を用いて、無線通話をダイヤルできる。プロセッサ４７と無線部４５は協調して、無線キャリア基盤との遠隔通信リンク５１を確立する。いったん無線基盤との音声チャネルが確立されると、使用者はヘッドセット１２を用いて音声通信を継続できる。使用者が発話すると、使用者の音声および周囲雑音をマイクロフォン３２とマイクロフォン３３で受け取る。マイクロフォン信号は、プロセッサ２５で受け取る。プロセッサ２５は信号分離処理を用いて、きれいな音声信号を生成する。きれいな音声信号は、例えば、ブルートゥース規格を用いて、無線部２７を介して制御モジュール１４に送信される。それから、受け取った音声信号を処理および変調し、無線部４５を用いて通信する。無線部４５は、通信５１を介して無線基盤に音声信号を通信する。このように、きれいな音声信号は、離れた聞き手に通信される。離れた聞き手から来る音声信号は、無線基盤と通信５１を介して、無線部４５に送られる。プロセッサ４７と無線部４９は、受け取った信号をブルートゥース等の局所的無線フォーマットに変換およびフォーマットし、入力信号を無線部２７に通信する。それから、入力信号はイヤスピーカ１９と２１に送られ、近くの使用者は離れた使用者の音声を聞くことができる。このように、全二重音声通信システムが実現される。

マイクロフォン構成は、一方のマイクロフォンから他方への所望の音声信号の遅延が十分大きかったり、及び又は二つの記録された入力チャネルの間の所望の音声内容が十分異なっていたりして所望の話者の音声を分離でき、例えば、音声のピックアップが主マイクロフォンにおいてより最適になるようにする。これは、指向性マイクロフォン、または無指向性マイクロフォンの非線形構成を通じて、音声と雑音の混合音を変調することを含んでいる。マイクロフォンの具体的な配置は、予想される音響雑音、予想される風雑音、生態機械的設計の考慮および拡声器からの音響エコー等、予想される環境特性に従って考慮および調整しなければならない。一つのマイクロフォン構成で、音響雑音状況と音響エコーに同様に対処できる。しかし、これらの音響／エコー雑音消去機能は通常、主マイクロフォンを向けた方向と逆に向けた第二マイクロフォン（音声中心のマイクロフォン、またはかなりの雑音を含む音声混合音を記録することを担うマイクロフォン）を必要とする。ここで用いられるように、主マイクロフォンは、目標の話者に最も近いマイクロフォンである。最適なマイクロフォンの配置は、指向性または局所性（非線形マイクロフォン構成、マイクロフォンの特徴的指向性パターン）と、風乱流に対するマイクロフォン膜の音響遮蔽の間の妥協点であってもよい。

携帯電話ハンドセットおよびヘッドセット等の移動用途では、所望の話者の移動に対する堅牢性は、最も有望な機器と話者の口の配置の範囲に対して、同じ音声／雑音チャネル出力の順番をもたらすマイクロフォン構成の適応および選択によって、分離ＩＣＡフィルタの指向性パターンを微調整することによって実現される。従って、マイクロフォンは、移動機器の分割ライン上で、ハードウェアの各側に非対称に配置することが望ましい。このように、移動機器を用いる場合、この発明の機器の位置にかかわらず、同じマイクロフォンが常に最も効率的に大部分の音声を受け取るように配置し、例えば、使用者と機器の位置にかかわらず、主マイクロフォンが話者の口に最も接近するように配置する。この同一の所定の配置によってＩＣＡ処理はより良好なデフォルト値を有し、音声信号をより容易に識別できる。

指向性マイクロフォンは一般により良好な初期ＳＮＲを発生させるので、音響雑音を取り扱う場合、指向性マイクロフォンを使用することが望ましい。しかし、指向性マイクロフォンは風雑音に対してより高感度であり、より高い内部雑音を有する（低周波数の電子雑音のピックアップ）。マイクロフォン構成は、無指向性および指向性マイクロフォンの両方と共に機能するように適応できるが、音響雑音の除去は風雑音の除去に対してトレードオフの関係となる必要がある。

風雑音は一般に、マイクロフォンのトランスデューサ膜に直接加えられる空気の拡張力によって引き起こされる。非常に高感度の膜は、大きく、時には飽和した電子信号を生成する。この信号は、音声内容を含むマイクロフォン信号を圧倒し、しばしば破壊する。さらに、風雑音は非常に強いので、信号分離処理および後処理ステップ内で飽和および安定性の問題を引き起こすことがある。また、送信された風雑音は、聞き手に不快で不愉快な聴覚体験を引き起こす。残念ながら、風雑音は、ヘッドセットおよびイヤピース機器に関連する特に困難な問題である。

しかし、無線ヘッドセットの２マイクロフォン構成は、風を検出するより堅牢な方法と、風雑音の撹乱効果を最小にするマイクロフォン構成または設計を可能にする。無線ヘッドセットは二つのマイクロフォンを有するので、風雑音の存在をより正確に識別する処理を行うことができる。上記のように、二つのマイクロフォンはそれらの入力ポートが異なる方向に面するように配置したり、異なる方向からの風を各々受け取るように遮蔽される。このような配置では、突発的な風は風に面するマイクロフォン内に劇的なエネルギレベルの増大を引き起こす一方、他方のマイクロフォンはわずかに影響されるだけである。従って、ヘッドセットが一方のマイクロフォンだけに大きなエネルギスパイク現象を検出すると、マイクロフォンが風に曝されているとヘッドセットが決定できる。さらに、マイクロフォン信号に他の処理を加えて、そのスパイク現象が風雑音によることを確認できる。例えば、風雑音は一般に低い周波数パターンを有し、このようなパターンが一方または両方のチャネルにみられた場合、風雑音の存在が示される。また、風雑音のために、所定の機械的または工学的設計を考慮できる。

ヘッドセットは、一方のマイクロフォンに風が当たっていることがいったんわかると、風の効果を最小にするように処理を行うことができる。例えば、その処理は風に曝されているマイクロフォンからの信号を遮断し、他方のマイクロフォンの信号だけを処理できる。この場合、分離処理も停止され、雑音低減処理は従来の単一マイクロフォンシステムとして動作する。いったんマイクロフォンに風が当たらなくなると、ヘッドセットは通常の２チャネル動作に戻ることができる。いくつかのマイクロフォン構成では、話者から離れたマイクロフォンは非常に制限されたレベルの音声信号を受け取り、単一のマイクロフォン入力として動作することはできない。このような場合、話者に最も近いマイクロフォンは、風に曝されている場合でも停止したり弱めたりできない。

従って、異なる風方向に面するようにマイクロフォンを配置することによって、風が強い状態は一つのマイクロフォンだけに実質的な雑音を引き起こすことができる。他のマイクロフォンは概ね影響を受けないので、ヘッドセットに高品質の音声信号を提供するために単に用いることができ、他方のマイクロフォンは風からの影響を受ける。この処理を用いると、無線ヘッドセットは好ましくは風が強い環境内で用いることができる。別の例では、ヘッドセットは外側に機械的ノブを有し、使用者は二重チャネルモードから単一チャネルモードに切り替えることができる。個々のマイクロフォンが指向性である場合、単一のマイクロフォン動作でさえ風雑音に対する感度が高すぎることがある。しかし、個々のマイクロフォンが無指向性である場合、音響雑音抑制が劣化しても風雑音の影響はやや緩和されるべきである。風雑音と音響雑音を同時に取り扱う場合、信号品質には本質的にトレードオフの関係がある。このバランスの一部はソフトウェアによって対応できるが、例えば、単一または二重チャネル動作を使用者が選択することによって、使用者の好みに応じて一部の決定を行うことができる。一部の構成では、使用者は、単一チャネル入力としてどのマイクロフォンを用いるかを選択することもできる。

ここで図２を参照すると、有線ヘッドセットシステム７５が示されている。有線ヘッドセットシステム７５は既に説明した無線ヘッドセット１０と同様であるので、システム７５は詳しくは説明しない。無線ヘッドセットシステム７５は、図１を参照しながら説明したように、一組のステレオイヤスピーカと二つのマイクロフォンを備えたヘッドセット７６を有する。ヘッドシステム７５では、各マイクロフォンは個々のイヤピースに隣接配置する。この方法では、各マイクロフォンは、話者の口からほぼ同じ距離に配置する。従って、分離処理は、音声信号を識別するためのより高度な方法と、より高度なＢＳＳアルゴリズムを用いることができる。例えば、チャネル間の分離度合をより正確に測定するためにバッファサイズを増大させ、さらに処理能力を加える必要がある。さらに、ヘッドセット７６は、プロセッサを保持する電子ハウジング７９をも有する。しかし、電子ハウジング７９は、制御モジュール７７に接続するケーブル８１を有する。従って、ヘッドセット７６から制御モジュール７７への通信は、ワイヤ８１を介して行われる。この点では、モジュール電子回路８３は、局所的通信用の無線部を必要としない。モジュール電子回路８３は、無線基盤システムとの通信を確立するためのプロセッサと無線部を有する。

ここで図３を参照すると、無線ヘッドセットシステム１００が示されている。無線ヘッドセットシステム１００は既に説明した無線ヘッドセット１０と同様であるので、詳しくは説明しない。無線ヘッドセットシステム１００は、ヘッドバンド１０２の形態のハウジング１０１を有する。ヘッドバンド１０２は電子ハウジング１０７を有し、電子ハウジング１０７はプロセッサおよび局所的無線部１１１を有する。局所的無線部１１１は、例えば、ブルートゥース無線であってもよい。無線部１１１は、局所的領域内の制御モジュールと通信するように構成する。例えば、無線部１１１がＩＥＥＥ８０２．１１規格に従って動作する場合、それに対応した制御モジュールが一般に無線部１１１から約１００フィート以内に存在するべきである。当然のことながら、制御モジュールは無線移動機器であってもよく、より局所的な使用のために構成することもできる。

具体例では、ヘッドセット１００は、ファーストフードレストラン等の商業用または産業用用途のヘッドセットとして用いられる。制御モジュールはレストランの中心に配置でき、従業員は互いに、または顧客とそのレストラン領域のどこにいても通信できる。別の例では、無線部１１１は広域通信用に構成される。一例では、無線部１１１は数マイルの範囲で通信可能な商用無線である。このような構成は、あるグループの緊急第一応答者が通信を保持でき、特定の地理的領域内で特定の基盤の利用可能性に依存する必要はない。この例を続けると、ハウジング１０２は、ヘルメットまたは他の緊急防護具の一部であってもよい。別の例では、無線部１１１は軍用チャネル上で動作するように構成し、ハウジング１０２は軍用部材またはヘッドセット内に一体的に形成する。無線ヘッドセット１００は、単一モノラルイヤスピーカ１０４を有する。第一マイクロフォン１０６はイヤスピーカ１０４に隣接配置し、第二マイクロフォン１０５はイヤピース上に配置する。このように、マイクロフォンは間隙を介して配置し、話者の口までの音声経路を提供できる。さらに、マイクロフォン１０６は常に話者の口により接近し、音声源の簡略的識別を可能にする。当然のことながら、マイクロフォンは他の方法で配置することもできる。一例では、一方または両方のマイクロフォンをブーム上に配置することもできる。

ここで図４を参照すると、無線ヘッドセットシステム１２５が示されている。無線ヘッドセットシステム１２５は既に説明した無線ヘッドセット１０と同様であるので、詳しくは説明しない。無線ヘッドセットシステム１２５は、一組のステレオスピーカ１３１と１２７を備えたヘッドセットハウジングを有する。第一マイクロフォン１３３は、ヘッドセットハウジングに取り付ける。第二マイクロフォン１３４は、ワイヤ１３６の一端の第二ハウジング内にある。ワイヤ１３６はヘッドセットハウジングに取り付け、プロセッサに電気的に接続する。ワイヤ１３６はクリップ１３８を有し、第二ハウジングとマイクロフォン１３４を比較的一定の位置に固定できる。このように、マイクロフォン１３３は使用者の耳の一つに隣接配置し、第二マイクロフォン１３４は使用者の服の、例えば、胸の中央部にクリップ留めできる。このマイクロフォン構成は、マイクロフォンをかなり離して配置しながら、話者の口から各マイクロフォンまでの通信経路を提供できる。好ましい使用では、第二マイクロフォンは常に第一マイクロフォン１３３より話者の口からさらに離して配置し、簡略的信号識別処理を可能にする。しかし、使用者は、口に近すぎるほどにマイクロフォンを不用意に配置し、マイクロフォン１３３をより離すこともある。従って、ヘッドセット１２５の分離処理は、マイクロフォンの曖昧な配置構成に明らかにする別の高度な知識と処理、およびより強力なＢＳＳアルゴリズムを必要とする。

ここで図５を参照すると、無線ヘッドセットシステム１５０が示されている。無線ヘッドセットシステム１５０は、ブームマイクロフォン一体型イヤピースとして構成されている。無線ヘッドセットシステム１５０は、左側１５１からと右側１５２から図５に示されている。無線ヘッドセットシステム１５０はイヤクリップ１５７を有し、使用者の耳またはその周りに取り付ける。ハウジング１５３は、スピーカ１５６を保持する。使用中、イヤクリップ部１５７は使用者の耳の一つに対してハウジング１５３を保持し、使用者の耳に隣接してスピーカ１５６を配置する。さらに、ハウジングはマクロフォンブーム１５５を有する。マイクロフォンブームは様々な長さから構成できるが、一般に１〜４インチの範囲である。第一マイクロフォン１６０は、マイクロフォンブーム１５５の端部に配置する。第一マイクロフォン１６０は、話者の口まで比較的直接経路を有するように構成する。第二マイクロフォン１６１も、ハウジング１５３上に配置する。第二マイクロフォン１６１は、第一マイクロフォン１６０から間隙を介した位置のマイクロフォンブーム１５５上に配置する。一例では、第二マイクロフォン１６１は、話者の口までより直接ではない経路を有するように配置する。しかし、当然のことながら、ブーム１５５が十分に長い場合、話者の口まで比較的直接経路を有するように、ブームの同じ側に両方のマイクロフォンを配置することもできる。しかし、図のように、ブームの内側は使用者の顔に接触する可能性があるので第二マイクロフォン１６１は、ブーム１５５の外側に配置する。さらに、当然のことながら、マイクロフォン１６１は、ブーム上、またはハウジングの主要部上のさらに後方に配置することもできる。

さらに、ハウジング１５３は、プロセッサ、無線部、および電源を保持する。電源は一般に二次電池の形態であり、無線部は例えばブルートゥース規格等の規格に準拠できる。無線ヘッドセットシステム１５０がブルートゥース規格に準拠する場合、無線ヘッドセット１５０は局所的ブルートゥース制御モジュールと通信する。例えば、局所的制御モジュールは、無線通信基盤上で動作するように構成した無線移動機器であってもよい。これは、制御モジュール内に広域無線通信のサポートに必要な比較的大きく高度な電子回路を可能にし、ベルト上に装着したり書類カバンで運んだりできるが、ハウジング１５３内により小型の局所的ブルートゥース無線部だけを保持することもできる。しかし、当然のことながら、技術が進歩すれば、広域無線部をハウジング１５３内に組み込むこともできるであろう。この方法では、使用者は、音声駆動コマンドおよび命令を用いて通信および制御できる。

一具体例では、ブルートゥースヘッドセット用のハウジングは、約６ｃｍ×３ｃｍ×１．５ｃｍである。第一マイクロフォン１６０は指向性雑音消去マイクロフォンであり、雑音消去ポートはマイクピックアップポートから１８０°逆向きにする。第二マイクロフォンも指向性雑音消去マイクロフォンであり、そのピックアップポートは第一マイクロフォン１６０のピックアップポートに直交配置する。マイクロフォンは、３〜４ｃｍ離して配置する。マイクロフォンは、低周波成分を分離可能にするために互いにあまりに密接配置すべきではなく、高周波帯域の空間的エイリアスを避けるために離しすぎてもいけない。別の構成では、マイクロフォンは両方とも指向性マイクロフォンであるが、雑音消去ポートはマイクピックアップポートから９０°離れた向きにする。この構成では、例えば、４ｃｍ等のやや大きな間隔が望ましい。無指向性マイクロフォンを用いる場合、間隔は好ましくは約６ｃｍまで増大でき、雑音消去ポートはマイクピックアップポートから１８０°逆向きにする。マイクロフォン構成によって各マイクロフォンで十分異なる信号の混合が可能な場合、無指向性マイクを用いることができる。マイクロフォンのピックアップパターンは、無指向性、指向性、心臓型、８の字、または遠距離雑音消去であってもよい。当然のことながら、特定の用途および物理的制限をサポートするために、他の構成を選択することもできる。

図５の無線ヘッドセット１５０は、マイクロフォンの位置と話者の口の間に明確な関係を有する。このような堅固な所定の物理的構成において、無線ヘッドセットは雑音を除去するために一般化サイドローブキャンセラ私の利用、比較的きれいな音声信号を提示できる。このように、無線ヘッドセットは信号分離処理を動作させないが、話者の所定の位置に従って、雑音が来る所定の領域に対して、一般化サイドローブキャンセラ内のフィルタ係数を設定する。

ここで図６を参照すると、無線ヘッドセットシステム１７５が示されている。無線ヘッドセットシステム１７５は、第一イヤピース１７６と第二イヤピース１７７を有する。このように、使用者は左耳上にイヤピースの一つを配置し、右耳上に他のイヤピースを配置する。第一イヤピース１７６は、使用者の一方の耳に接続するためのイヤクリップ１８４を有する。ハウジング１８１はブームマイクロフォン１８２を有し、その遠端にマイクロフォン１８３を配置する。第二イヤピースは使用者の他方の耳に取り付けるためのイヤクリップ１８９と、ブームマイクロフォン１８７を備えたハウジング１８６を有し、その遠端に第二マイクロフォン１８８を有する。ハウジング１８１はブルートゥース無線等の局所的無線部を保持し、制御モジュールと通信を行う。ハウジング１８６もブルートゥース無線等の局所的無線部を有し、局所的制御モジュールと通信を行う。イヤピース１７６と１７７は各々、局所的モジュールにマイクロフォン信号を通信する。局所的モジュールは音声分離処理を加えるためのプロセッサを有し、音響雑音からきれいな音声信号を分離する。さらに、当然のことながら、無線ヘッドセットシステム１７５は一方のイヤピースがそのマイクロフォン信号を他方に送信し、他方のイヤピースが分離アルゴリズムを加えるためのプロセッサを有するように構成することもできる。このように、制御モジュールにはきれいな音声信号が送信される。

別の構成では、プロセッサ２５は制御モジュール１４に対応させる。この構成では、無線部２７はマイクロフォン３２から受け取った信号と、マイクロフォン３３から受け取った信号を送信する。マイクロフォン信号は局所的無線部２７を用いて制御モジュールに送信され、局所的無線部２７はブルートゥース無線であってもよく、マイクロフォン信号は制御モジュール１４で受け取る。それから、プロセッサ４７は信号分離アルゴリズムを動作させて、きれいな音声信号を生成できる。別の構成では、プロセッサはモジュール電子回路８３内に含まれる。このように、マイクロフォン信号はワイヤ８１を介して制御モジュール７７に送信され、制御モジュール内のプロセッサで信号分離処理を加える。

ここで図７を参照すると、無線ヘッドシステム２００が示されている。無線ヘッドシステム２００は、使用者の耳またはその周りに接続するためのイヤクリップ２０２を備えたイヤピースの形態である。イヤピース２００はハウジング２０３を有し、ハウジング２０３はスピーカ２０８を有する。さらに、ハウジング２０３は、プロセッサと、ブルートゥース無線等の局所的無線部を保持している。さらに、ハウジング２０３は、ＭＥＭＳマイクロフォンアレイ２０５を保持するブーム２０４を有する。ＭＥＭＳ（微小電気機械的システム）マイクロフォンは、一つ以上の集積回路素子上に配置した複数のマイクロフォンを備えた半導体素子である。これらのマイクロフォンは比較的安価に製造でき、ヘッドセット用途に望ましい安定で同一の特性を有する。図７に示したように、ブーム２０４に沿って複数のＭＥＭＳマイクロフォンを配置できる。音響状態に基づいて、第一マイクロフォン２０７と第二マイクロフォン２０６として動作するように、特定のＭＥＭＳマイクロフォンを選択できる。例えば、風雑音、またはマイクロフォン間の空間的分離を増大させたいという要求に基づいて、特定の組のマイクロフォンを選択できる。ハウジング２０３内のプロセッサは、特定の組の利用可能なＭＥＭＳマイクロフォンを選択および駆動するために用いることができる。さらに、当然のことながら、マイクロフォンアレイはハウジング２０３上の別の位置に配置することも、より従来のトランスデューサ型マイクロフォンを補助するために用いることもできる。

ここで図８を参照すると、無線ヘッドシステム２１０が示されている。無線ヘッドシステム２１０は、イヤクリップ２１３を備えたイヤピースハウジング２１２を有する。ハウジング２１２は、プロセッサと、ブルートゥース無線等の局所的無線部を保持している。ハウジング２１２は、その遠端に第一マイクロフォン２１６を備えたブーム２０５を有する。ワイヤ２１９はハウジング２１２内の電子回路に接続し、その遠端にマイクロフォン２１７を備えた第二ハウジングを有する。クリップ２２２は、マイクロフォン２１７を使用者によりしっかりと取り付けるためにワイヤ２１９上に設けることもできる。使用中、第一マイクロフォン２１６は話者の口まで比較的直接経路を有するように配置し、第二マイクロフォン２１７は使用者への異なる直接直接音声経路を有するような位置にクリップ留めする。第二マイクロフォン２１７は話者の口から良好な距離だけ離して固定できるので、マイクロフォン２１６と２１７は話者の口への音響経路を保持しながら比較的離して配置できる。好ましい使用では、第二マイクロフォンは常に第一マイクロフォン２１６より話者の口から離して配置され、簡略的信号認識処理を可能にする。しかし、使用者は、口に近すぎるほどにマイクロフォンを不用意に配置し、マイクロフォン２１６をより離すこともある。従って、ヘッドセット２１０の分離処理は、マイクロフォンの曖昧な配置構成に明らかにする別の高度な知識と処理、およびより強力なＢＳＳアルゴリズムを必要とする。

ここで図９を参照すると、処理２２５は、通信ヘッドセットの動作用に示されている。処理２２５は、第一マイクロフォン信号を生成する第一マイクロフォン２２７と、第二マイクロフォン信号を生成する第二マイクロフォン２２９を有する。方法２２５は二つのマイクロフォンを備えるように示されているが、当然のことながら、二つ以上のマイクロフォンおよびマイクロフォン信号を用いることもできる。マイクロフォン信号は、音声分離処理２３０内で受け取る。音声分離処理２３０は、例えば、ブラインド信号分離処理であってもよい。より具体的な例では、音声分離処理２３０は、独立成分解析処理であってもよい。米国特許出願番号１０／８９７，２１９、発明の名称「マルチトランスデューサ構成内の目標音響信号の分離」は音声信号を生成するための具体的な処理をより十分に開示しており、全体としてここに組み込まれる。音声分離処理２３０は、きれいな音声信号２３１を生成する。きれいな音声信号２３１は、送信サブシステム２３２で受け取る。送信サブシステム２３２は、例えば、ブルートゥース無線、ＩＥＥＥ８０２．１１無線、または有線接続であってもよい。さらに、当然のことながら、送信部は局所領域無線モジュールに対するものであっても、広域基盤用の無線部に対するものであってもよい。このように、送信信号２３５はきれいな音声信号を示す情報を有する。

ここで図１０を参照すると、通信ヘッドセットを動作させるための処理２５０が示されている。通信処理２５０は、第一マイクロフォン信号を音声分離処理２５４に提供する第一マイクロフォン２５１を有する。第二マイクロフォン２５２は、音声分離処理２５４に第二マイクロフォン信号を提供する。音声分処理２５４はきれいな音声信号２５５を生成し、きれいな音声信号２５５は送信サブシステム２５８で受け取る。送信サブシステム２５８は、例えば、ブルートゥース無線、ＩＥＥＥ８０２．１１無線、または有線接続であってもよい。送信サブシステムは、制御モジュールまたは他の遠隔無線部に送信信号２６２を送信する。さらに、きれいな音声信号２５５は、側音処理モジュール２５６で受け取る。側音処理モジュール２５６は、減衰させたきれいな音声信号を局所的スピーカ２６０に戻す。このように、ヘッドセット上のイヤピースは、より自然な音声フィードバックを使用者に提供する。当然のことながら、側音処理モジュール２５６は、局所的音響状態に応じて、スピーカ２６０に送る側音信号の音量を調整できる。例えば、音声分離処理２５４は、雑音量を示す信号を出力することもできる。局所的雑音環境において、側音処理モジュール２５６は、使用者へのフィードバックとして、より高レベルのきれいな音声信号を出力するように調整することもできる。当然のことながら、側音処理信号の減衰レベルの設定では他の因子を用いることもできる。

無線通信ヘッドセット用の信号分離処理は、堅牢で正確な発話動作検出器から恩恵を受けることができる。特に堅牢で正確な発話動作検出（ＶＡＤ）処理は、図１１に示されている。ＶＡＤ処理２６５は二つのマイクロフォンを有し、第一マイクロフォンは無線ヘッドセット上に配置し、ブロック２６６に示したように第二マイクロフォンより話者の口により接近させる。個々のマイクロフォンは、ブロック２６７に示したように各マイクロフォン信号を生成する。発話動作検出器は、ブロック２６８に示したように各マイクロフォン信号のエネルギレベルを監視し、測定したエネルギレベルを比較する。一つの簡単な実施形態では、マイクロフォン信号は、信号間のエネルギレベルの違いが所定の閾値をいつ超えるかを監視する。この閾値は静的にでも、音響環境に応じて適応させることもできる。エネルギレベルの大きさを比較することによって、発話動作検出器は目標の使用者の発話によってエネルギスパイクが引き起こされたかどうかを正確に決定できる。一般に、比較によって次のいずれかが得られる。
（１）ブロック２６９に示したように、第一マイクロフォン信号が第二マイクロフォン信号より高いエネルギレベルを有する。信号のエネルギレベルの間の違いが、所定の閾値を超えている。第一マイクロフォンは話者により接近しているので、エネルギレベルのこの関係は、ブロック２７２に示したように目標の使用者が発話していることを示しており、制御信号を用いて所望の音声信号が存在することを示すことができる。
（２）ブロック２７０に示したように、第二マイクロフォン信号が第一マイクロフォン信号より高いエネルギレベルを有する。信号のエネルギレベルの間の違いが、所定の閾値を超えている。第一マイクロフォンは話者により接近しているので、エネルギレベルのこの関係は、ブロック２７３に示したように目標の使用者が発話していないことを示しており、制御信号を用いて信号が雑音のみであることを示すことができる。

実際、一方のマイクロフォンが使用者の口により接近しているので、その音声内容はそのマイクロフォン内でより大きくなり、使用者の発話動作は、二つの記録されたマイクロフォンチャネルの間の付随する大きなエネルギの違いによって追跡できる。さらに、ＢＳＳ／ＩＣＡ段階が他のチャネルから使用者の音声を除去するので、チャネル間のエネルギの違いはＢＳＳ／ＩＣＡ出力レベルにおいてさらにより大きくなる。ＢＳＳ／ＩＣＡ処理からの出力信号を用いるＶＡＤは、図１３に示されている。ＶＡＤ処理３００は二つのマイクロフォンを有し、第一マイクロフォンは無線ヘッドセット上に配置し、ブロック３０１に示したように第二マイクロフォンより話者の口に接近している。個々のマイクロフォンは各マイクロフォン信号を生成し、その信号は信号分離処理内で受け取る。信号分離処理は、ブロック３０２に示したように雑音優位信号と音声内容を備えた信号を生成する。発話動作検出器は、ブロック３０３に示したように各信号のエネルギレベルを監視し、測定したエネルギレベルを比較する。一つの簡単な実施形態では、マイクロフォン信号は、信号間のエネルギレベルの違いが所定の閾値をいつ超えるかを監視する。この閾値は静的にでも、音響環境に応じて適応させることもできる。エネルギレベルの大きさを比較することによって、発話動作検出器は目標の使用者の発話によってエネルギスパイクが引き起こされたかどうかを正確に決定できる。一般に、比較によって次のいずれかが得られる。
（１）ブロック３０４に示したように、音声内容信号が雑音優位信号より高いエネルギレベルを有する。信号のエネルギレベルの間の違いが、所定の閾値を超えている。発話内容信号は発話内容を有することが事前に決められているので、エネルギレベルのこの関係は、ブロック３０７に示したように目標の使用者が発話していることを示しており、制御信号を用いて所望の音声信号が存在することを示すことができる。
（２）ブロック３０５に示したように、雑音優位信号が発話内容信号より高いエネルギレベルを有する。信号のエネルギレベルの間の違いが、所定の閾値を超えている。発話内容信号は発話内容を有することが事前に決められているので、エネルギレベルのこの関係は、ブロック３０８に示したように目標の使用者が発話していないことを示しており、制御信号を用いて信号が雑音のみであることを示すことができる。

２チャネルＶＡＤの別の例では、図１１と図１３を参照しながら説明した処理を両方とも用いる。この構成では、ＶＡＤは、マイクロフォン信号（図１１）を用いた比較の一つと、信号分離処理からの出力（図１３）を用いた別の比較を行う。マイクロフォン記録レベルにおけるチャネル間のエネルギの違いとＩＣＡ段階の出力の組み合わせを用いて、現在の処理フレームが所望の音声を含むかどうかの堅牢な評価を提供できる。

２チャネル音声検出処理２６５は、既知の単一チャネル検出器より著しい利点を有する。例えば、拡声器上の音声は、単一チャネル検出器に音声が存在すると示させるが、２チャネル処理２６５は拡声器が目標の話者よりかなり離れていることを認識し、チャネル間に大きなエネルギの違いを生じさせないので、それが雑音であることを示す。エネルギ測定のみに基づく信号チャネルＶＡＤはあまり信頼性がないのでその有用性は非常に限定され、ゼロ交差率、または事前に望まれた話者の発話時間および周波数モデル等の追加の基準によって補う必要がある。しかし、２チャネル処理２６５の堅牢性および精度によって、ＶＡＤは無線ヘッドセットの動作を管理、制御、および調整する主要な役割を果たす。

ＶＡＤが発話動作を含まないデジタル音声サンプルを検出する機構は、様々な方法で実現できる。このような機構の一つは、短期間、デジタル音声サンプルのエネルギレベルを監視することを伴っている（期間は一般に約１０〜３０ｍｓである）。チャネル間のエネルギレベルの違いが固定された閾値を超える場合、デジタル音声サンプルは動作中であると表され、そうでなければ停止中であると表される。また、ＶＡＤの閾値レベルは適応的にすることも、背景雑音エネルギを追跡することもできる。これも、様々な方法で実現できる。一実施例では、現在の期間内のエネルギが快適性雑音評価器による背景雑音評価等の特定の閾値より十分大きい場合、デジタル音声サンプルは動作中であると表され、そうでなければ停止中であると表される。

適応閾値レベルを用いる単一チャネルＶＡＤでは、ゼロ交差率、スペクトル傾斜、エネルギおよびスペクトル力学等の音声パラメータを測定し、雑音に対する値と比較する。音声に対するパラメータが雑音に対するパラメータと著しく異なる場合、デジタル音声サンプルのエネルギレベルが低くても発話動作が存在することを示す。この実施例では、異なるチャネル、特に他のチャネルに対して音声中心のチャネル（例えば、音声＋雑音、その他）の間で、この他のチャネルが分離した雑音チャネルであるかどうか、雑音中心のチャネルが増大されているか、または分離されているか（例えば、雑音＋音声）、または雑音に対する格納値または評価値であるかを比較する。

デジタル音声サンプルのエネルギ測定は停止中の音声の検出には十分であるが、固定された閾値に対するデジタル音声サンプルのスペクトル力学は、音声スペクトルおよび長期の背景雑音を備えた長い音声セグメントを区別する際に有用である。ＶＡＤを用いるスペクトル解析の実施形態では、ＶＡＤは板倉または板倉−斉藤歪みを用いた自己相関を行い、背景雑音に基づく長期評価と、デジタル音声サンプル期間に基づく短期評価を比較する。さらに、音声符号化器によってサポートされている場合、線スペクトル対（ＬＳＰ）を用いて、背景雑音に基づく長期ＬＳＰ評価と、デジタル音声サンプル期間に基づく短期評価を比較できる。また、ＦＦＴ法は、別のソフトウェアモジュールからスペクトルが利用可能な場合に用いることができる。

好ましくは、ハングオーバは、動作中の音声を備えたデジタル音声サンプルの動作期間の終わりに加えるべきである。ハングオーバは短い停止中のセグメントにブリッジを架け、静かな尾引き、無声音（／ｓ／等）または低いＳＮＲ遷移内容が動作中として分類されるようにする。ハングオーバの量は、ＶＡＤの動作モードに従って調整できる。長い動作期間の後の期間が明らかに停止中（つまり、測定した背景雑音と同様のスペクトルを備えた非常に低いエネルギ）であれば、ハングオーバ期間の長さを低減できる。一般に、動作中の音声バーストに続く停止中の音声の約２０〜５００ｍｓの範囲は、ハングオーバによって発話動作であると示される。閾値は約−１００〜−３０ｄＢｍの間で調整でき、デフォルト値は約−６０〜ー５０ｄＢｍの間であり、閾値は音声品質、システム効率および帯域用件、または聴力の閾値レベルに依存する。また、閾値は（例えば、他のチャネルからの）雑音値以上の所定の固定値または変動値に適応できる。

典型的な実施例では、ＶＡＤは複数のモードで動作するように構成し、音声品質、システム効率および帯域用件の間のシステムトレードオフを提供できる。あるモードではＶＡＤは常に無効であり、全てのデジタル音声サンプルを発話動作として示す。しかし、一般的な電話の会話は、６０％程度の沈黙または内容の停止を有する。従って、これらの期間中、動作中のＶＡＤがデジタル音声サンプルを抑制した場合は広帯域利得が実現される。さらに、ＶＡＤ、特に適応ＶＡＤによって、省エネルギ、処理用件の低減、音声品質の向上またはユーザインタフェースの改善等の複数のシステム効率が実現される。動作中のＶＡＤは、発話動作を含むデジタル音声サンプルの検出を試みるだけでなく、高品質ＶＡＤは雑音と音声サンプルの間、もしくは雑音か音声のエネルギの範囲の値を含むデジタル音声（雑音）サンプル（分離済みまたは未分離）のパラメータの検出や利用も可能である。従って、動作中のＶＡＤ、特に適応ＶＡＤは、分離ステップや後（前）処理ステップを調整することを含むシステム効率を増大させる複数の別の機能を可能にする。例えば、デジタル音声サンプルを発話動作として識別するＶＡＤは、分離処理または前／後処理ステップのいずれかをオンまたはオフに切り替えることも、また、分離や処理技術の異なるものまたはそれらの組み合わせを加えることもできる。ＶＡＤが発話動作を識別しなかった場合、ＶＡＤは背景雑音の減衰または消去、雑音パラメータの評価、または信号やハードウェアパラメータの規格化または調整を含む異なる処理を調整することもできる。

ここで図１２を参照すると、通信処理２７５が示されている。通信処理２７５は第一マイクロフォン信号２７８を生成する第一マイクロフォン２７７を有し、第一マイクロフォン信号２７８は音声分離処理２８０内に受け取る。第二マイクロフォン２７５は第二マイクロフォン信号２８２を生成し、第二マイクロフォン信号２８２も音声分離処理２８０で受け取る。一構成では、発話動作検出器２８５は、第一マイクロフォン信号２７８と第二マイクロフォン信号２８２を受け取る。当然のことながら、マイクロフォン信号はフィルタ処理、デジタル化、その他の処理を行うこともできる。第一マイクロフォン２７７は、マクロフォン２７９より話者の口に密接配置する。この所定の構成によって、音声信号の簡略的識別、および発話動作検出の改善が可能になる。例えば、２チャネル発話動作検出器２８５は、図１１または図１３を参照しながら説明した処理と同様の処理を行うことができる。発話動作検出回路の一般的な設計は既知であり、従って詳しくは説明しない。好ましくは、発話動作検出器２８５は、図１１または１３を参照しながら説明したような２チャネル発話動作検出器である。これは、ＶＡＤ２８５が適切なＳＮＲに対して特に堅牢で正確であり、従って、通信処理２７５内のコア制御機構として確実に使用できることを意味する。２チャネル発話動作検出器２８５は、音声を検出すると制御信号２８６を生成する。

制御信号２８６は好ましくは、通信処理２７５内の複数の処理を駆動、制御または調整するために用いることができる。例えば、音声分離処理２８０は、所定の音響環境に従って適応的であってもよく学習することもできる。さらに、音声分離処理２８０は、特定のマイクロフォン配置、音響環境、または特定の使用者の発話に適応することもできる。音声分離処理の適応性を改善するために、学習処理２８８は発話動作信号２８６に応じて駆動できる。このように、音声分離処理は、音声が発生しそうなときだけその適応学習処理を加える。さらに、雑音のみが存在する（または存在しない）場合は学習処理を停止することによって、処理および電池電力を節約できる。

説明のために、音声分離処理は、独立成分解析（ＩＣＡ）処理として説明する。一般に、ＩＣＡモジュールは、所望の話者が会話していない時間間隔内はその主要な分離機能を行うことができず、従って、オフにできる。この「オン」および「オフ」状態は、入力チャネル、または所望の話者の所定のスペクトル特性等の事前知識間のエネルギ内容の比較に基づいて、発話動作検出モジュール２８５によって監視および制御できる。音声が存在していない場合、ＩＣＡをオフにすることによってＩＣＡフィルタは不適切な適応を行わず、このような適応が分離の改善を実現できる場合にのみ適応を行うことができる。ＩＣＡフィルタの適応制御によって、ＩＣＡ処理は所望の話者の沈黙期間が延びた後でも良好な分離品質を実現および保持でき、ＩＣＡ段階が解決できない状態に対処するための無駄な分離労力によるアルゴリズムの特異点を避けることができる。様々なＩＣＡアルゴリズムが等方性雑音に対して異なる度合の堅牢性または安定性を示すが、所望の話者が存在しない間ＩＣＡ段階をオフにして、その方法論に有意な堅牢性または安定性を追加する。さらに、雑音のみが存在する場合にＩＣＡ処理を停止することによって、処理および電池電力を節約できる。

一例では、ＩＣＡ実施形態に無限インパルス応答フィルタが用いられるので、結合／学習処理の安定性は理論的方法で常に保障することはできない。同じ性能を備えたＦＩＲフィルタ、つまり、等価ＩＣＡＦＩＲフィルタと比べたＩＩＲフィルタシステムの非常に望ましい効率はずっと長く、非常に高いＭＩＰＳを必要とし、同様に、現在のＩＩＲフィルタ構造では白化の影響がないことは魅力的であるが、閉ループシステムの極配置にほぼ関連した一組の安定性チェックが含まれ、フィルタの履歴の初期状態、およびＩＣＡフィルタの初期状態のリセットを引き起こす。ＩＩＲフィルタ自体は過去のフィルタ誤差（数値不安定性）の蓄積によって非有界出力をもたらすので、不安定性をチェックするための有限精度符号化において用いられる技術範囲を用いることができる。ＩＣＡフィルタ段階に対する入出力エネルギの明示的評価を用いて異常を検出し、管理モジュールによって提供された値にフィルタおよびフィルタ履歴をリセットする。

別の例では、発話検出制御信号２８６を用いて、音量調整２８９を設定する。例えば、音声信号２８１上の音量は、発話動作が検出されない場合には実質的に低減できる。その後、発話動作が検出されると、音声信号２８１上で音量を増大できる。この音量調節は、後処理段階の出力上で行うこともできる。これは、より良好な通信信号を提供するだけでなく、限定された電池出力を節約する。同様に、雑音評価処理２９０を用いて、発話動作が検出されない場合に、いつ雑音低減処理をより積極的に動作させるかを決定できる。雑音評価処理２９０は現在、信号が雑音のみであることを認識しているので、雑音信号をより正確に特徴付けることができる。この方法では、実際の雑音特性に対して雑音処理をより良好に調整でき、無音声の期間内により積極的に加えることができる。その後、発話動作が検出されると雑音低減処理を調整し、音声信号を劣化させる効果をより小さくする。例えば、雑音低減処理の一部は音声信号に不要な影響を与えることが知られているが、それらは雑音低減に非常に有効でもある。これらの雑音処理は、音声信号が存在しない場合に動作できるが、音声信号が存在しそうな場合は停止または調整できる。

別の例では、制御信号２８６を用いて所定の雑音低減処理２９２を調整できる。例えば、雑音低減処理２９２は、スペクトル減算処理であってもよい。より詳細には、信号分離処理２８０は、雑音信号２９６と音声信号２８１を生成する。音声信号２８１はなお雑音成分を有することができ、雑音信号２９１は雑音を正確に特徴付けているので、スペクトル減算処理２９２を用いて音声信号から雑音をさらに除去できる。しかし、このようなスペクトル減算は、さらに残りの音声信号のエネルギレベルを低減するように機能する。従って、制御信号が音声の存在を示している場合、雑音低減処理を調整して残りの音声信号に比較的小さな増幅を加えることによって、スペクトル減算を補償できる。この小さなレベルの増幅は、より自然で同一の音声信号をもたらす。さらに、雑音低減処理２９０はスペクトル減算がどのように積極的に行われたかを認識しているので、それに応じて増幅レベルを調整できる。

制御信号２８６を用いて、自動利得制御（ＡＧＣ）機能２９４を制御することもできる。ＡＧＣは音声信号２８１の出力に加え、使用可能なエネルギレベルに音声信号を保持するために用いられる。ＡＧＣは音声の存在を認識しているので、音声信号により正確に利得制御を加えることができる。出力音声信号のより正確な制御または規格化によって、後処理機能もより容易に効果的に加えることができる。さらに、後処理および送信中の飽和の危険性が低減される。当然のことながら、好ましくは制御信号２８６を用いて、他の後処理機能２９５を含む通信システム内の複数の処理を制御または調整できる。

典型的な実施例では、ＡＧＣは十分に適応的であってもよく、または固定利得を有することもできる。好ましくは、ＡＧＣは、約−３０〜３０ｄＢの範囲を備えた十分に適応的な動作モードをサポートする。デフォルトの利得値は別個に確立でき、一般に０ｄＢである。適応利得制御を用いる場合、初期の利得値はこのデフォルトの利得によって指定される。ＡＧＣは、入力信号２８１の電力レベルに従って利得係数を調整する。低エネルギレベルの入力信号２８１は快適な音声レベルまで増幅する一方、高エネルギ信号は減衰させる。

増倍器は入力信号に利得係数を加えて出力する。入力信号には、一般に０ｄＢであるデフォルトの利得が加えられる。電力評価器は、利得調整した信号の短期平均電力を評価する。入力信号の短期平均電力は、好ましくは８サンプルごと、つまり８ｋＨｚの信号の場合は一般に１ｍｓごとに計算する。切り出しロジックは短期の平均電力を解析し、振幅が所定の切り出し閾値より大きな利得調整信号を識別する。切り出しロジックはＡＧＣバイパススイッチを制御し、利得調整信号の振幅が所定の切り出し閾値を超えた場合、入力信号をメディアキューに直接接続する。ＡＧＣバイパススイッチはＡＧＣが適応するまで上側またはバイパス位置に留まり、利得調整信号の振幅が切り出し閾値より低くなるようにする。

上記の典型的な実施例では、ＡＧＣは徐々に適応するように設計されるが、オーバフローまたは切り出しを検出した場合はかなり速く適応するべきである。システム的観点からはＡＧＣ適応は固定して保持するか、音声が停止中であることをＶＡＤが決定した場合は、背景雑音を減衰または消去するように設計するべきである。

別の例では、制御信号２８６を用いて、送信サブシステム２９１を駆動または停止できる。特に、送信サブシステム２９１が無線通信器であれば、発話動作が検出されたときだけ無線通信器を駆動またはフルパワーにする必要がある。このように、発話動作が検出されない場合、送信電力を低減できる。局所的無線システムはおそらく電池駆動されるので、送信電力の節約はヘッドセットシステムの利用可能性を増大させる。一例では、送信システム２９１から送られる信号はブルートゥース信号２９３であり、制御モジュール内の対応するブルートゥース受信器で受け取る。

ここで図１４を参照すると、通信処理３５０が示されている。通信処理３５０は、音声分離処理３５５に第一マイクロフォン信号を提供する第一マイクロフォン３５１を有する。第二マイクロフォン３５２は、音声分離処理３５５に第二マイクロフォン信号を提供する。音声分離処理３５５は、比較的きれいな音声信号３５６、および音響雑音を示す信号３５７を生成する。２チャネル発話動作検出器３６０は音声分離処理から一対の信号を受け取り、音声が発生しそうなときを決定し、音声が発生しそうなときに制御信号３６１を生成する。発話動作検出器３６０は、図１１または図１３を参照しながら説明したとおりのＶＡＤ処理を行う。制御信号３６１は、雑音評価処理３６３を駆動または調整するために用いることができる。信号３５７が音声を含まなそうなときを雑音評価処理３６３が認識した場合、雑音評価処理３６３は雑音をより正確に特徴付けることができる。それから、音響雑音の特徴についてのこの知識は雑音低減処理３６５によって用いられ、雑音をより十分に正確に低減できる。音声分離処理から来る音声信号３５６は雑音成分の一部を有することができるので、別の雑音低減処理３６５は音声信号の品質をさらに向上できる。このように、送信処理３６８が受け取る信号は、より低い雑音成分を備えたより良好な品質を有する。さらに、当然のことながら、制御信号３６１は雑音低減処理または送信処理の駆動、または音声分離処理の駆動等の他の形態の通信処理３５０を制御するために用いることもできる。雑音サンプル（分離済みまたは未分離）のエネルギは、出力拡大音声のエネルギまたは遠端の使用者の音声のエネルギを変調するために利用できる。さらに、ＶＡＤは、この発明の処理の前、処理中および処理後に信号のパラメータを調整できる。

一般に、上記の分離処理は、間隙を介した少なくとも二つのマイクロフォンの組を用いる。いくつかの場合、マイクロフォンは話者の口まで比較的直線経路を有することが望ましい。このような経路では、話者の音声は物理的障害に妨げられることなく、各マイクロフォンに直接到達する。他の場合、マイクロフォンは一方が比較的直線経路を有し、他方が話者から逆向きになるように配置できる。当然のことながら、具体的なマイクロフォンの配置は、例えば、所望の音響環境、物理的制限および利用可能な処理電力等に従って行うことができる。分離処理は、より堅牢な分離を必要とする用途や配置の制約によってより多くのマイクロフォンが役立つ場合、二つ以上のマイクロフォンを有することができる。例えば、いくつかの用途では、一つ以上のマイクロフォンから遮蔽される位置に、話者を配置することもできる。この場合、少なくとも二つのマイクロフォンが話者の音声に対して比較的直線的経路を有する可能性を増大させるために、別のマイクロフォンが用いられる。各マイクロフォンは音声源からの音響エネルギと雑音源からのものを受け取り、音声成分と雑音成分の両方を備えた複合マイクロフォン信号を生成する。各マイクロフォンは他の全てのマイクロフォンから分離されているので、やや異なる複合信号を生成する。例えば、雑音および音声の相対的な内容は異なり、各音源からのタイミングおよび遅延も同様である。

各マイクロフォンにおいて生成された複合信号は、分離処理で受け取る。分離処理は受け取った複合信号を処理し、音声信号と雑音を示す信号を生成する。一例では、分離処理は、二つの信号を生成するために独立成分解析（ＩＣＡ）処理を用いる。ＩＣＡ処理は、好ましくは非線形有界関数を備えた無限インパルス応答フィルタである交差フィルタを用いて、受け取った複合信号をフィルタ処理する。非線形有界関数は、例えば、符号関数等の高速計算可能な所定の最大値と最小値を備えた非線形関数であり、入力値に基づいて正または負の値のいずれかを出力として返す。信号のフィードバックを繰り返した後、２チャネルの出力信号を生成し、一方のチャネルは雑音が主成分であり、実質的に雑音成分からなり、他方のチャネルは雑音と音声の組み合わせを含んでいる。当然のことながら、本開示内容に従って、他のＩＣＡフィルタ関数および処理を用いることもできる。また、この発明は、他の音源分離技術を用いることも想定している。例えば、分離処理はブラインド信号源（ＢＳＳ）処理を用いることもでき、音響環境についてある程度の事前知識を用いる用途固有の適応フィルタ処理を用いて、実質的に同様の信号分離を実現することもできる。

一ヘッドセット構成では、マイクロフォンの相対的位置は前もって既知であってもよく、この位置情報は音声信号の識別に役立つ。例えば、いくつかのマイクロフォン構成では、マイクロフォンの一つが話者に最も接近している可能性が非常に高い一方、他の全てのマイクロフォンは全てより離れている。この所定の位置情報を用いて、分離したチャネルのどれが音声信号であり、どれが雑音優位信号であるかを識別処理は事前に決定できる。この方式を用いることは、どれが音声チャネルであり、どれが雑音優位チャネルであるかを識別できるという利点があり、最初に信号を著しく処理する必要はない。従って、この方法は効率的であり高速チャネル識別を可能にするが、より明確なマイクロフォン構成を用いるため柔軟性が低くなる。ヘッドセットでは、マイクロフォンの一つが話者の口にほとんど常に最も接近するように、マイクロフォン配置を選択できる。識別処理は、さらに一つ以上の他の識別処理を適用し、チャネルが適切に識別されるようにできる。

図１５を参照すると、具体的な分離処理４００が示されている。処理４００は、ブロック４０２と４０４に示したように音響情報と雑音を受け取るためのトランスデューサを配置し、さらに処理するための複合信号を生成する。複合信号は、ブロック４０６に示したようにチャネル内で処理される。しばしば、処理４０６は、適応フィルタ係数を備えた一組のフィルタを有する。例えば、処理４０６がＩＣＡ処理を用いる場合、処理４０６は複数のフィルタを有し、各々適応可能および調整可能なフィルタ係数を有する。処理４０６が動作すると、ブロック４２１に示したように分離性能を改善するために係数を調整し、ブロック４２３に示したように新しい係数を適用しフィルタ内で使用する。この連続的なフィルタ係数の適応によって、処理４０６は音響環境が変化しても十分なレベルの分離を提供できる。

処理４０６は一般に２チャネルを生成し、それらはブロック４０８で識別される。具体的には、一方のチャネルは雑音優位信号として識別され、他方は音声信号として識別され、それは雑音と情報の組み合わせであってもよい。ブロック４１５に示したように雑音優位信号または結合信号を測定し、信号分離レベルを検出できる。例えば、雑音優位信号を測定して音声成分のレベルを検出でき、測定の応じてマイクロフォンの利得を調整できる。この測定と調整は処理４００の動作中に行うことも、処理のセットアップ中に行うこともできる。このように、設計、試験、または製造工程中の処理用に所望の利得係数を選択および事前設定し、動作中の￥にこれらの測定や設定を行うことや動作中の設定から処理４００を解放できる。また、適切な利得の設定は高速デジタルオシロスコープ等の高度な電子試験装置の使用から恩恵を受けることもでき、それらは設計、試験、または製造段階で最も効率的に用いられる。当然のことながら、初期の利得設定は設計、試験、または製造段階で行うことができ、処理１００の実際の動作中に利得設定をさらに調整することもできる。

図１６は、ＩＣＡまたはＢＳＳ処理機能の一実施例５００を示している。図１６と１７を参照しながら説明するＩＣＡ処理は、図５、６、および７に示したようなヘッドセット設計に特に適している。これらの構成は、明確に事前に定義したマイクロフォン位置を有し、話者の口の前の比較的小さな「バブル」から二つの音声信号を抽出できる。入力信号Ｘ_１とＸ_２は、チャネル５１０と５２０から各々受け取る。一般に、これらの信号は各々少なくとも一つのマイクロフォンから来るが、当然のことながら他の音源を用いることもできる。交差フィルタＷ_１とＷ_２は各入力信号に適用し、分離信号Ｕ_１のチャネル５３０と分離信号Ｕ_２のチャネル５４０を生成する。チャネル５３０（音声チャネル）は主に所望の信号を有し、チャネル５４０（雑音チャネル）は主に雑音信号を有する。当然のことながら「音声チャネル」と「雑音チャネル」という用語が用いられているが、用語「音声」と「雑音」は好ましさに応じて相互交換可能であり、例えば、一方の音声や雑音が他方の音声や雑音より望ましいこともある。さらに、この方法を用いて、二つより多くの音源から混合雑音信号を分離することもできる。

無限インパルス応答フィルタは、本処理プロセス内で好ましくは用いられる。無限インパルス応答フィルタは、その出力信号を入力信号の少なくとも一部としてフィルタにフィードバックするフィルタである。有限インパルス応答フィルタは、その出力信号を入力としてフィードバックしないフィルタである。交差フィルタＷ_２１とＷ_１２は時間的にまばらに分布した係数を有し、長期間の時間遅延を捕捉できる。ほとんどの簡略的形態では、交差フィルタＷ_２１とＷ_１２の利得係数はフィルタごとに唯一のフィルタ係数を備え、それらは、例えば、出力信号と入力信号の間の時間遅延用の遅延利得係数と、入力信号を増幅するための増幅利得係数である。他の形態では、交差フィルタは各々、数十、数百または数千のフィルタ係数を有することができる。下記のように、出力信号Ｕ_１とＵ_２は、後処理サブモジュール、雑音除去モジュールまたは音声特徴抽出モジュールによってさらに処理できる。

ブラインド音源分離を実現するためにＩＣＡ学習規則が明示的に導かれているが、音響環境内の音声処理へのその実際の実施形態はフィルタ方式に不安定な挙動をもたらす。このシステムの安定性を確保するために、Ｗ_１２および同様にＷ_２１の適応力学がまず安定でなければならない。このようなシステムの利得マージンは一般に低く、非定常的音声信号に遭遇した際など入力利得の増大が不安定性をもたらし、重み係数の指数関数的増大をもたらす。音声信号は一般に平均がゼロのまばらな分布を示すので、符号関数は時間と共に頻繁に振動し、不安定な挙動に寄与する。最後に、素早く収束させるために大きな学習パラメータが望まれ、大きな入力利得はシステムをより不安定にするので、安定性と性能は本質的にトレードオフの関係にある。既知の学習規則は不安定性をもたらすだけでなく、特に安定限界に接近すると非線形の符号関数によって振動する傾向があり、フィルタ出力信号Ｕ_１（ｔ）とＵ_２（ｔ）の反響をもたらす。これらの問題に対処するために、Ｗ_１２とＷ_２１の適応規則を安定化させる必要がある。フィルタ係数の学習規則が安定で、ＸからＵへのシステム伝達関数の閉ループ極が単位円内に配置される場合、広範囲の解析および実験的研究によってシステムはＢＩＢＯ（有界入力有界出力）内で安定であることがわかっている。従って、全体の処理方式が最終的に対応する目的は、安定な制約下での雑音のある音声信号のブラインド音源分離となる。

従って、安定性を保証する原理的方法は入力を適切に測定することである。この枠組みでは、スケーリング因子ｓｃ＿ｆａｃｔは入って来る入力信号の特性に基づいて適応させる。例えば、入力信号が高すぎる場合、これはｓｃ＿ｆａｃｔの増大をもたらし入力振幅を低下させる。性能と安定性の間には妥協点がある。入力をｓｃ＿ｆａｃｔだけスケールダウンするとＳＮＲが低減され、分離性能の低下をもたらす。従って、入力は、安定性の保証に必要な程度だけスケーリングするべきである。サンプルごとに重み係数の短期の変動を明らかにし、対応する反響を避けるフィルタ構成を実行することによって、交差フィルタをさらに安定化させることができる。この適応規則のフィルタは、時間ドメイン平滑化とみなすことができる。さらなるフィルタの平滑化は周波数ドメイン内で行い、隣接する周波数ビン上での収束分離フィルタのコヒーレンスを強める。これは、Ｋタップフィルタを長さＬまでゼロタッピングし、このフィルタの時間サポートを増大させてフーリエ変換し、その後、逆変換することによって容易に行うことができる。フィルタは長方形の時間ドメインウィンドウで効果的にウィンドウ付けされるので、周波数ドメイン内のｓｉｎｃ関数によって同様に平滑化される。この周波数ドメイン平滑化は規則的な時間間隔で実現され、適応フィルタ係数をコヒーレントな解に周期的に再初期化できる。

次の式はＩＣＡフィルタ構造の例であり、各時間サンプルｔに対して用いることができ、ｋは時間増分変数である。

関数ｆ（ｘ）は、非線形有界関数、つまり所定の最大値と所定の最小値を備えた非線形関数である。好ましくは、ｆ（ｘ）は変数ｘの符号に依存して、最大値または最小値に素早く接近する非線形有界関数である。例えば、簡単な有界関数として、符号関数が用いられる。符号関数ｆ（ｘ）は、ｘが正であるか負であるかに依存して１または−１の二値を有する関数である。非線形有界関数の例には、次のものが含まれるがそれらには限定されない。

これらの規則は、必要な計算を行うために浮動小数点精度が利用可能であると仮定している。浮動小数点精度が望ましいが、特に、計算処理性能を最小化した機器に適用する際には、固定小数点演算も同様に用いることができる。固定小数点演算を利用可能であっても、最適なＩＣＡの解の収束はより困難である。実際のＩＣＡアルゴリズムは、干渉源は消去しなければならないという原理に基づいている。ほとんど等しい数字を減算する（または非常に異なる数字を加算する）場合の固定小数点演算の所定の不正確さのために、ＩＣＡアルゴリズムは最適収束特性を示すとは決して言えない。

分離性能に影響を与える別の要因は、フィルタ係数量子化誤差の影響である。フィルタ係数の分解能が限定されているため、フィルタ係数の適応は所定の点で分離改善を徐々に加えるようになり、従って、収束性能の決定において考慮する必要がある。量子化誤差の影響は複数の要因に依存するが、主にフィルタ長と用いられるビット分解能の関数となる。既に挙げた入力スケーリング問題も、数値オーバフローを防ぐ有限精度計算では必要である。フィルタ処理に含まれる畳み込みは、利用可能な分解能範囲より大きな数字まで合計される可能性があるので、スケーリング因子はフィルタ入力を十分に小さくし、こういったことが発生しないようにしなければならない。

この処理関数は、マイクロフォン等の少なくとも二つの音声入力チャネルから入力信号を受け取る。音声入力チャネルの数は、最小の２チャネルより多くに増やすことができる。入力チャネルの数が増えると、概して入力チャネルの数が音声信号源の数と等しくなる点まで音声分離品質も向上できる。例えば、入力音声信号源が話者、背景話者、背景音楽源、および離れた道路の雑音や風雑音によって生成される一般的な背景雑音を含む場合、４チャネル音声分離システムは通常、２チャネルシステムより性能がよい。もちろん、より多くの入力チャネルを用いる場合、より多くのフィルタおよび演算能力が必要とされる。また、一般に、所望の分離信号および雑音用のチャネルがある限り、全数の音源が実装されるとは決して言えない。

この処理サブモジュールおよび処理を用いて、２チャネルより多くの入力信号を分離できる。例えば、携帯電話用途では、一つのチャネルが実質的に所望の音声信号を有することができ、他のチャネルが一つの雑音源からの雑音信号を実質的に有することができ、さらに別のチャネルが別の雑音源からの音声信号を実質的に有することができる。例えば、マルチユーザ環境では、一つのチャネルが一人の目標使用者からの音声を主に有することができ、他のチャネルが異なる目標使用者からの音声を主に有することができる。第三チャネルは雑音を有し、二つの音声チャネルをさらに処理するために役立つ。当然のことながら、別の音声または目標チャネルも有用である。

いくつかの用途は所望の音声信号を一つだけを含んでいるが、他の用途では所望の音声信号源が複数あってもよい。例えば、遠隔会議用途または音声監視用途では、背景雑音から複数の話者の音声信号を分離する必要も、互いに音声信号を分離する必要もある。この処理は、背景雑音から一つの音声信号源を分離するためだけでなく、他の話者の音声信号から一人の話者の音声信号を分離するためにも用いられる。この発明は、少なくとも一つのマイクロフォンが話者に対して比較的直線経路を有する限り、複数の音源に対応できる。両方のマイクロフォンが使用者の耳の近くに配置され、口への直線的音響経路が使用者の頬によって妨げられるヘッドセット用途のように、このような直線経路が得られない場合でも、使用者の音声信号は空間内の適切な小さな領域（口の周りの音声バブル）に規制されるので、この発明はやはり機能する。

この処理は、音声信号を少なくとも二つのチャネル、例えば、雑音信号が優位な一つのチャネル（雑音優位チャネル）と、音声および雑音信号の一つのチャネル（結合チャネル）に分離する。図１５に示したように、チャネル６３０は結合チャネルであり、チャネル６４０は雑音優位チャネルである。雑音優位チャネルはなおやや低いレベルの音声信号を含む可能性がかなりある。例えば、二つ以上の重要な音源がありマイクロフォンが二つだけの場合、または二つのマイクロフォンが互いに近くに配置されているが音源がかなり離れて配置されている場合、単一の処理だけでは必ずしも十分に雑音を分離できないかもしれない。従って、処理した信号をさらに音声処理し、残りのレベルの背景雑音を除去したり、音声信号の品質をさらに改善する必要がある。これは、単一または複数チャネル音声強調アルゴリズム、例えば、Ｗｉｅｎｅｒフィルタを介して分離した出力を供給することによって実現され、Ｗｉｅｎｅｒフィルタは雑音優位出力チャネルを用いて評価した雑音スペクトルを備えている（第二チャネルは雑音優位だけなのでＶＡＤは一般に必要とされない）。Ｗｉｅｎｅｒフィルタは発話動作検出器で検出した無音声時間間隔を用いて、長時間サポートされた背景雑音で劣化した信号に対して良好なＳＮＲを実現するためにも用いられる。さらに、有界関数は結合エントロピ計算の簡略的近似にすぎず、信号の情報冗長性を常に完全に低減するわけではない。従って、この分離処理を用いて信号を分離した後、音声信号の品質をさらに改善するために後処理を行うことができる。

雑音優位チャネル内の雑音信号が結合チャネル内の雑音信号と同様の信号シグネチャを有するという合理的仮定に基づいて、シグネチャが雑音優位チャネル信号のシグネチャと同様の結合チャネル内のそれらの雑音信号は、音声処理関数内で除去されるべきである。例えば、スペクトル減算技術を用いて、このような処理を行うことができる。雑音チャネル内の信号のシグネチャも識別される。雑音特性の所定の仮定に依存する従来技術の雑音フィルタに比べて、この音声処理は特定の環境の雑音シグネチャを解析し、特定の環境を表す雑音信号を除去するのでより柔軟である。従って、それは、雑音除去において包括的すぎる可能性も不十分になる可能性も少ない。ＷｉｅｎｅｒフィルタやＫａｌｍａｎフィルタ等の他のフィルタ技術を使って、音声の後処理を行うこともできる。ＩＣＡフィルタの解は真の解のリミットサイクルにのみ収束するので、フィルタ係数はより良好な分離性能が得られるまで適応し続ける。いくつかの係数は、それらの分解能の限界までドリフトすることが観察されている。従って、所望の話者信号を含むＩＣＡ出力の後処理済み形態は、ＩＩＲフィードバック構造を介してフィードバックされ、図のように収束リミットサイクルを克服し、ＩＣＡアルゴリズムを不安定化することはない。この手続きの有用な副産物は、収束がかなり加速されることである。

一般的に説明したＩＣＡ処理を用いて、ヘッドセットまたはイヤピース機器に対する所定の具体的な機能を利用できる。例えば、一般的なＩＣＡ処理を調整して、適応リセット機構を提供する。上記のように、ＩＣＡ処理は動作中に適応するフィルタを有する。これらのフィルタが適応する際、全体の処理は結果的に不安定になり、得られる信号が歪んだり飽和したりする。出力信号が飽和すると、フィルタをリセットする必要があり、生成される信号内に不快な「ポップ」をもたらす。一つの特に望ましい構成では、ＩＣＡ処理は学習段階と出力段階を有する。学習段階は比較的積極的なＩＣＡフィルタ構成を用いるが、その出力は出力段階を「教える」ためだけに用いられる。出力段階は滑らかな関数を提供し、変化する状態によりゆっくりと適応する。このように、学習段階は素早く適応し、行った変化を出力段階に導くが、出力段階は変化に対して慣性または抵抗を示す。ＩＣＡリセット処理は、各段階における値、および最終的な出力信号を監視する。学習段階は積極的に動作しているので、出力段階より頻繁に飽和する可能性がある。飽和すると、学習段階のフィルタ係数はデフォルト状態にリセットされ、学習ＩＣＡはそのフィルタ履歴を現在のサンプル値と置き換える。しかし、学習ＩＣＡの出力は出力信号に直接接続されていないので、得られる「グリッチ」は認識可能または聴覚可能な歪みを引き起こさない。代わりに、その変化は単に異なる組のフィルタ係数を出力段階に送る。しかし、出力段階の変化は比較的ゆっくりであるので、それも認識可能または聴覚可能な歪みを生成しない。学習段階のみをリセットすることによって、ＩＣＡ処理はリセットによる実質的な歪みなしに動作を行う。もちろん、出力段階も時折リセットが必要になり、通常の「ポップ」をもたらすことがある。しかし、その発生はこの場合比較的まれである。

さらに、使用者が得られる音声内に、最小の歪みと不連続性しか認識できない安定な分離ＩＣＡフィルタ出力を生成するリセット機構が望まれる。飽和のチェックは一組のステレオバッファサンプル上でＩＣＡフィルタ後に評価されるので、ＩＣＡ段階からのリセットバッファは破棄され、現在のサンプル期間内のＩＣＡフィルタをやり直す十分な時間はないため、バッファは実用上十分小さく選択すべきである。過去のフィルタ履歴は、現在記録した入力バッファ値を備えた両方のＩＣＡフィルタ段階に対して再初期化される。後処理段階は、現在記録した雑音信号の加わった音声と現在記録した雑音チャネル信号を基準として受け取る。ＩＣＡバッファサイズは４ｍｓまで低減できるので、これは所望の話者の音声出力に認識不可能な不連続性をもたらす。

ＩＣＡ処理を開始またはリセットしたとき、フィルタ値またはタップは所定の値にリセットされる。ヘッドセットまたはイヤピースはしばしば限られた範囲の動作条件のみを有するので、タップ用のデフォルト値は所望の動作構成を明らかにするように選択できる。例えば、各マイクロフォンから話者の口までの距離は通常小さな範囲に保持され、話者の音声の所望の周波数はおそらく比較的小さな範囲になる。これらの制約および実際の動作値を用いて、一組の十分正確なタップ値を決定できる。デフォルト値を注意深く選択することによって、ＩＣＡが予測可能な分離を行うための時間を低減できる。可能な解空間を制約するためのフィルタタップの範囲上の明示的な制約も含まれるべきである。これらの制約は、指向性の考慮、または前の実験の最適解への収束によって得られた実験値から導くことができる。さらに、当然のことながら、デフォルト値は時間的に、および環境条件に従って適応できる。

また、当然のことながら、通信システムは一組より多くのデフォルト値を有することができる。例えば、非常に雑音のある環境内で一方の組のデフォルト値を用い、より静かな環境内で他方の組のデフォルト値を用いることができる。別の例では、異なる使用者のために異なる組のデフォルト値を格納できる。一組より多くのデフォルト値を提供する場合、現在の動作環境を決定し、利用可能なデフォルト値のどの組を用いるかを決定する管理モジュールを有することができる。それから、リセット命令を受け取ると、管理処理は所定のデフォルト値をＩＣＡ処理に導き、例えば、チップセット上のＦｌａｓｈメモリ内に新しいデフォルト値を格納する。

一組の初期状態から分離の最適化を開始する任意の方式を用いて、収束を高速化できる。所定の状況のために、管理モジュールは特定の組の初期状態が適切であり、それを実装するかどうかを決定するべきである。

空間または設計上の制限のために、マイクロフォンがイヤスピーカに密接配置されることがあるので、音響エコーの問題はヘッドセット内で必然的に生じる。例えば、図１では、マイクロフォン３２はイヤスピーカ１９に接近している。遠端の使用者からの音声がイヤスピーカで再生されると、この音声もマイクロフォンによってピックアップされて遠端の使用者にエコーが戻る。イヤスピーカの音量とマイクロフォンの位置に依存して、この不要なエコーは大きな音になり不快になる。

音響エコーは干渉雑音と考えられ、同じ処理アルゴリズムで除去できる。一つの交差フィルタ上のフィルタ制約は、一つのチャネルから所望の話者を除去する必要性を反映し、その解の範囲を限定する。他の交差フィルタは、任意の可能な外側の干渉および拡声器からの音響エコーを除去する。従って、第二交差フィルタのタップ上の制約は、エコーを除去するために十分な適応柔軟性を与えることによって決定される。この交差フィルタの学習速度も変更する必要があり、雑音抑制に必要なものとは異なっていてもよい。ヘッドセット配置に依存して、マイクロフォンに対するイヤスピーカの相対的な位置を固定できる。イヤスピーカの音声の除去に必要な第二交差フィルタは、事前に学習し固定できる。一方、マイクロフォンの伝達特性は時間的に、または温度等の環境が変化するとドリフトする。マイクロフォンの位置は、使用者によってある程度調整可能であってもよい。これらは全て、エコーをより除去するために交差フィルタ係数の調整を必要とする。これらの係数は、適応中は、固定した学習済みの係数の組の周りに制約される。

（式１）〜（式４）で説明したものと同じアルゴリズムを用いて、音響エコーを除去できる。出力Ｕ１は、エコーのない所望の近端の使用者の音声となる。Ｕ２は近端の使用者からの音声を除去した雑音基準信号となる。

これまでのように、音響エコーは、適応正規化最小二乗平均（ＮＬＭＳ）アルゴリズムを用いて、遠端の信号を基準としてマイクロフォン信号から除去される。近端の使用者の沈黙は検出する必要があり、マイクロフォンがピックアップした信号はエコーだけを含むと仮定する。ＮＬＭＳアルゴリズムは遠端の信号をフィルタ入力とし、マイクロフォン信号をフィルタ出力として用いて音響エコーの線形フィルタモデルを構成する。遠いは近端の使用者の両方が会話していることが検出された場合、学習したフィルタを凍結し、入って来る遠端の信号に加えてエコーの評価を行う。それから、評価したエコーをマイクロフォン信号から減算し、得られた信号をきれいなエコーとして送る。

上記の方式の欠点は、近端の使用者の沈黙を良好に検出する必要があることである。これは、使用者が雑音環境にいる場合は実現が困難になる。さらに、上記の方式は、イヤスピーカに入って来る遠端の電気信号のマイクロフォンピックアップ経路が線形処理であると仮定している。電気信号を音声に変換する際、イヤスピーカが線形素子であることはめったにない。スピーカを高音量で駆動すると、非線形効果で発音される。それは飽和することも、高調波や歪みを生成することもある。二つのマイクロフォン構成を用いると、イヤスピーカからの歪んだ音響信号が両方のマイクロフォンでピックアップされる。エコーは、第二交差フィルタによってＵ２として評価され、第一交差フィルタによって主マイクロフォンから除去される。これによって、エコーのない信号Ｕ１が得られる。この方式は、マイクロフォン経路に対する遠端信号の非線形性をモデル化する必要性をなくす。学習規則（３〜４）は、近端の使用者が沈黙しているかどうかにかかわらず動作する。これは二重会話検出器を不要にし、会話中ずっと交差フィルタを更新できる。

第二マイクロフォンが利用できない状況では、近端のマイクロフォン信号と入って来る遠端の信号を入力Ｘ_１とＸ_２として用いることができる。この特許で説明したアルゴリズムは、それでもエコーを除去するために適用できる。唯一の修正は、遠端信号Ｘ２は近端の音声を含んでいないので、重みＷ_２１ｋを全てゼロに設定することである。その結果、学習規則（４）は取り除かれる。この単一マイクロフォン構成では非線形性の問題は解決されないが、それでも交差フィルタは会話中ずっと更新でき二重会話検出器は必要ではない。２マイクロフォン構成または単一マイクロフォン構成のいずれかにおいて、これまでのエコー抑制方法もなお任意の残留エコーを除去するために適用できる。これらの方法は、音響エコーの抑制と相補的櫛形フィルタを含んでいる。相補的櫛形フィルタでは、イヤスピーカへの信号はまず櫛形フィルタの帯域を通過する。マイクロフォンは相補的櫛形フィルタに結合され、その停止帯域は第一フィルタの通過帯域となる。音響エコー抑制で近端の使用者が沈黙していることが検出されると、マイクロフォン信号は６ｄＢ以上減衰される。

通信処理はしばしば後処理ステップを有し、そこでは音声内容信号からさらに雑音を除去する。一例では、雑音シグネチャを用いて、音声信号からスペクトル的に雑音を減算する。減算の積極性は、過飽和係数（ＯＳＦ）によって制御する。しかし、スペクトル減算の積極的な適用は、不快なまたは不自然な音声信号をもたらすことがある。必要なスペクトル減算を低減するために、通信処理は、ＩＣＡ／ＢＳＳ処理への入力にスケーリングを加えることができる。雑音信号の加わった音声（音声＋雑音）および雑音のみのチャネル間の各周波数ビンにおける雑音シグネチャと振幅を適合させるために、左および右の入力チャネルを互いに対してスケーリングし、雑音チャネルから雑音信号の加わった音声チャネル内の雑音の可能なモデルが得られるようにする。処理段階における過飽和因子（ＯＳＦ）を調整する代わりに、ＩＣＡ段階はできるだけ等方性雑音の指向性成分を除去することを強いられるので、このスケーリングは一般により良好な音声品質をもたらす。特定の例では、さらに雑音を低減する必要がある場合、雑音優位信号をより積極的に増幅できる。このように、ＩＣＡ／ＢＳＳ処理は別の分離を実現し、後処理の必要性が低くなる。

実際のマイクロフォンには周波数および感度の不一致がある一方、ＩＣＡ段階は各チャネル内の高／低周波数の不完全な分離をもたらすことがある。従って、できるだけ最善の音声品質を実現するには、各周波数ビンまたはビンの範囲内でＯＳＦの個々のスケーリングが必要となる。さらに、認識性を改善するために、選択した周波数ビンを強調したり弱めたりできる。

マイクロフォンからの入力レベルも、所望のＩＣＡ／ＢＳＳ学習速度に従って、または後処理法のより有効な適用を可能にするために調整できる。ＩＣＡ／ＢＳＳおよび後処理サンプルバッファは、多様な範囲の振幅を介して進展する。高い入力レベルで、ＩＣＡ学習速度をスケールダウンすることが望ましい。例えば、高い入力レベルではＩＣＡフィルタ値は急速に変化し、より素早く飽和したり不安定になったりする。入力信号をスケーリングまたは減衰させることによって、学習速度を適切に低減できる。歪みをもたらす音声および雑音電力の概略計算を避けるために、後処理入力をスケールダウンすることも望ましい。ＩＣＡ段階の安定性およびオーバフローの問題を避け、同時に、後処理段階の可能な最大のダイナミックレンジから恩恵を受けるために、ＩＣＡ／ＢＳＳおよび後処理段階への入力データの適応スケーリングを加えることができる。一例では、ＤＳＰ入出力分解能に比べて高い中間段階出力バッファ分解能を適切に選択することによって、音声品質を全体的に改善できる。

入力スケーリングは、二つのマイクロフォンの間の振幅校正を補助するために用いることもできる。既に述べたように、二つのマイクロフォンは適切に一致していることが望ましい。一部の校正は動的に行うこともできるが、他の校正および選択は製造工程中に行うことができる。周波数および全体の感度を一致させるための両方のマイクロフォンの校正は、ＩＣＡおよび後処理段階における調整を最小化するために行うべきである。これは、一方のマイクロフォンの周波数応答の反転を要求して、他方の応答を実現できる。この目的のために、ブラインドチャネル反転を含むチャネル反転を実現するために文献で知られている全ての技術を用いることができる。ハードウェア校正は、蓄えた製造マイクロフォンから適切に一致するマイクロフォンを選ぶことによって行うことができる。オフラインおよびオンライン調整を考慮することもできる。オンライン調整はＶＡＤの助けを借りて、雑音のみの時間間隔で校正設定を調整する。つまり、マイクロフォンの周波数範囲は、全ての周波数を修正可能な白色雑音によって好ましくは励起する必要がある。

この発明の特定の好ましい実施形態および代替形態を開示してきたが、当然のことながら、この発明の開示内容を用いて、上記の技術の多くの様々な修正および拡張を実現できる。このような全ての修正および拡張は、添付の請求項の真の精神と範囲内に含まれるものとする。

この発明による無線ヘッドセットの概略図である。この発明によるヘッドセットの概略図である。この発明による無線ヘッドセットの概略図である。この発明による無線ヘッドセットの概略図である。この発明による無線イヤピースの概略図である。この発明による無線イヤピースの概略図である。この発明による無線イヤピースの概略図である。この発明による無線イヤピースの概略図である。この発明によるヘッドセット上で動作する処理のブロック図である。この発明によるヘッドセット上で動作する処理のブロック図である。この発明による発話検出処理のブロック図である。この発明によるヘッドセット上で動作する処理のブロック図である。この発明による発話検出処理のブロック図である。この発明によるヘッドセット上で動作する処理のブロック図である。この発明による分離処理の流れ図である。この発明による改善されたＩＣＡ処理サブモジュールの一実施例のブロック図である。この発明による改善されたＩＣＡ処理サブモジュールの一実施例のブロック図である。

Claims

ハウジングと、
イヤスピーカと、
ハウジングに接続した第一マイクロフォンと、
ハウジングに接続した第二マイクロフォンと、
第一および第二マイクロフォンに接続したプロセッサを有するヘッドセットであって、前記プロセッサが、
第一マイクロフォンから雑音信号の加わった第一音声を受け取り、
第二マイクロフォンから雑音信号の加わった第二音声を受け取り、
信号分離処理への入力として雑音信号の加わった第一および第二音声を提供し、
音声信号を生成し、
音声信号を送信するステップを動作するヘッドセット。
さらに無線部を有し、音声信号を無線部に送る請求項１記載のヘッドセット。
無線部が、ブルートゥース規格に従って動作する請求項２記載のヘッドセット。
さらに遠隔制御モジュールを有し、音声信号を遠隔制御モジュールに送る請求項１記載のヘッドセット。
さらに側音回路を有し、音声信号を部分的に側音回路に送ってイヤスピーカ上で再生する請求項１記載のヘッドセット。
さらに、
第二ハウジングと、
第二ハウジング内の第二イヤスピーカを有し、
第一マイクロフォンが第一ハウジング内にあり、第二マイクロフォンが第二ハウジング内にある請求項１記載の無線ヘッドセット。
イヤスピーカ、第一マイクロフォン、および第二マイクロフォンがハウジング内にある請求項１記載の無線ヘッドセット。
さらに、他のマイクロフォンとは異なる風方向に向けて、少なくとも一つをマクロフォンに配置した請求項７記載の無線ヘッドセット。
使用者の口から少なくとも３インチの位置に配置されるように、第一マイクロフォンを構成した請求項１記載の無線ヘッドセット。
ＭＥＭＳマイクロフォンとして、第一マイクロフォンと第二マイクロフォンを構成した請求項１記載の無線ヘッドセット。
一組のＭＥＭＳマイクロフォンから、第一マイクロフォンと第二マイクロフォンを選択した請求項１記載の無線ヘッドセット。
第一マイクロフォンの輸入ポートが第二マイクロフォンの入力ポートと直交するように、第一マイクロフォンと第二マイクロフォンを配置した請求項１記載の無線ヘッドセット。
ハウジングから間隙を介して、マイクロフォンの一つを配置した請求項１記載の無線ヘッドセット。
信号分離処理が、ブラインド音源分離処理である請求項１記載の無線ヘッドセット。
信号分離処理が、独立成分解析処理である請求項１記載の無線ヘッドセット。
ハウジングと、
無線部と、
イヤスピーカと、
ハウジングに接続した第一マイクロフォンと、
ハウジングに接続した第二マイクロフォンと、
プロセッサを有する無線ヘッドセットであって、前記プロセッサが、
第一マイクロフォンから第一信号を受け取り、
第二マイクロフォンから第二信号を受け取り、
発話動作を検出し、
発話動作の検出に応じて制御信号を生成し、
信号分離処理を用いて音声信号を生成し、
音声信号を無線部に送るステップを動作する無線ヘッドセット。
唯一のハウジングを有し、無線部、イヤスピーカ、第一マイクロフォン、第二マイクロフォン、およびプロセッサが前記ハウジング内にある請求項１６記載の無線ヘッドセット。
第一マイクロフォンがハウジング内にあり、第二マイクロフォンが第二ハウジング内にある請求項１６記載の無線ヘッドセット。
第一および第二ハウジングを共に接続し、ステレオヘッドセットを構成した請求項１６記載の無線ヘッドセット。
ハウジングから間隙を介して第一マイクロフォンを配置し、第二ハウジングから間隙を介して第二マイクロフォンを配置した請求項１６記載の無線ヘッドセット。
ハウジングから間隙を介して第一マイクロフォンを配置し、ワイヤを用いてハウジングに接続した請求項１６記載の無線ヘッドセット。
処理がさらに制御信号に応じて、信号分離処理を停止するステップを動作する請求項１６記載の無線ヘッドセット。
処理がさらに制御信号に応じて、音声信号の音量を調整するステップを動作する請求項１６記載の無線ヘッドセット。
処理がさらに制御信号に応じて、雑音低減処理を調整するステップを動作する請求項１６記載の無線ヘッドセット。
処理がさらに制御信号に応じて、学習処理を駆動するステップを動作する請求項１６記載の無線ヘッドセット。
処理がさらに制御信号に応じて、雑音レベルを評価するステップを動作する請求項１６記載の無線ヘッドセット。
さらに雑音優位信号を生成するプロセッサのステップを含み、検出ステップが音声信号と雑音優位信号を受け取ることを含む請求項１６記載の無線ヘッドセット。
検出ステップが、第一信号と第二信号を受け取ることを含む請求項１６記載の無線ヘッドセット。
無線部が、ブルートゥース規格に従って動作する請求項１６記載の無線ヘッドセット。
信号分離処理が、ブラインド音源分離処理である請求項１６記載の無線ヘッドセット。
信号分離処理が、独立成分解析処理である請求項１６記載の無線ヘッドセット。
ハウジングと、
ハウジング上の少なくとも二つのマイクロフォンと、
プロセッサを有するブルートゥースヘッドセットであって、
イヤスピーカを配置し、装着者の耳内に音を出射するように前記ハウジングを構成し、
前記マイクロフォンが各々トランスデューサ信号を生成し、
トランスデューサ信号を受け取って分離処理を動作し、音声信号を生成するように、前記プロセッサを構成したブルートゥースヘッドセット。
イヤスピーカと、
第一トランスデューサ信号を生成する第一マイクロフォンと、
第二トランスデューサ信号を生成する第二マイクロフォンと、
プロセッサと、
無線部を有する無線ヘッドシステムであって、
前記プロセッサが、
第一および第二トランスデューサ信号を受け取り、
信号分離処理への入力として第一および第二トランスデューサ信号を提供するステップを動作し、
分離処理が、
音声信号を生成し、音声信号を送信する無線ヘッドセットシステム。
さらにハウジングを有し、前記ハウジングがイヤスピーカと両方のマイクロフォンを保持する請求項３３記載の無線ヘッドセットシステム。
さらにハウジングを有し、前記ハウジングがイヤスピーカとマイクロフォンの一方のみを保持する請求項３３記載の無線ヘッドセットシステム。
さらにハウジングを有し、前記ハウジングがイヤスピーカを保持し、どちらのマイクロフォンも保持しない請求項３３記載の無線ヘッドセットシステム。
プロセッサ、第一マイクロフォンおよび第二マイクロフォンが同じハウジング内にある請求項３３記載の無線ヘッドセットシステム。
無線部、プロセッサ、第一マイクロフォンおよび第二マイクロフォンが同じハウジング内にある請求項３３記載の無線ヘッドセットシステム。
イヤスピーカと第一マイクロフォンが同じハウジング内にあり、第二マイクロフォンが別のハウジング内にある請求項３３記載の無線ヘッドセットシステム。
さらにイヤスピーカと第二イヤスピーカを配置するための部材を有し、前記部材が一般にステレオヘッドセットを構成する請求項３３記載の無線ヘッドセットシステム。
さらにイヤスピーカを配置するための部材と、第一マイクロフォンを保持するための別のハウジングを有する請求項３３記載の無線ヘッドセットシステム。
ハウジングと、
イヤスピーカと、
ハウジングに接続し、空間的に規定された体積を備え、前記体積に音声が生成されると予想される第一マイクロフォンと、
ハウジングに接続し、空間的に規定された体積を備え、前記体積に雑音が生成されると予想される第二マイクロフォンと、
第一および第二マイクロフォンに接続したプロセッサを有するヘッドセットであって、前記プロセッサが、
第一マイクロフォンから第一信号を受け取り、
第二マイクロフォンから第二信号を受け取り、
一般化サイドローブキャンセラへの入力として、雑音信号の加わった第一および第二音声信号を提供し、
音声信号を生成し、
音声信号を送信する手順で動作するヘッドセット。