JP2006510069A

JP2006510069A - 改良型独立成分分析を使用する音声処理ためのシステムおよび方法

Info

Publication number: JP2006510069A
Application number: JP2005511772A
Authority: JP
Inventors: ビサー，エリック; リー，チェ−ウォン
Original assignee: ソフトマックス，インク
Priority date: 2002-12-11
Filing date: 2003-12-11
Publication date: 2006-03-23
Also published as: EP1570464A1; US20060053002A1; KR20050115857A; AU2003296976A1; US7383178B2; EP1570464A4; WO2004053839A1

Abstract

混在したオーディオ信号を、所望の音声信号（４３０）（例えば音声）とノイズ（雑音）信号（４４０）とに分けるためのシステムおよび方法を開示する。マイクロホン（３１０、３２０）は混在オーディオ信号を受信するために配置され、独立成分分析（ICA）は安定化拘束(stability constraint)を利用して混在音を処理する（２１２）。ICA処理（５０８）は、目標音信号（４３０）を識別して分離するために、所望の音声信号の予め定義した特徴を利用する。フィルタ係数は、学習法によって採用され、フィルタの重み付けの値の更新・変更は、安定した分離されたICA信号の結果を得るために安定させられる。分離された信号は、更に雑音の影響を減らすために、後処理（２１４）および前処理（２２０、２３０）技術ならびに知見（手段）を用いる周辺処理をしてもよい。ここで提案されるシステムは、オーディオ通信ハードウェア環境における、DSP（デジタル信号処理）ユニット上またはＣＰＵ上での実施のために設計され、容易に適合することができる。

Description

本発明は、オーディオ信号処理ためのシステム、特に、周辺音響下での音声品質を高めるためのシステムおよび方法に関する。

音声信号処理は、日常的な通信の多くの分野において、特に、大量の雑音が発生する分野において、重要となっている。実社会の雑音は多重音源（当然、単一雑音源を含む）から溢れており、この雑音は反響および残響を有する種々雑多の音に及ぶ。分離かつ隔離されない限り、所望の雑音を背景雑音から抽出することは難しい。背景雑音は、一般の環境によって発生する多数の雑音信号と、背景における第三者の会話によって発生した信号と、それぞれの信号から発生した、反響（echo)、反射(reflection)、残響(reverberation)と、を含む。ユーザが雑音の多い環境において話すことの多い通信形態においては、ユーザの音声信号を背景雑音から分離することが望ましい。携帯電話、スピーカーフォン、ヘッドセット、補聴器、コードレス電話、電子会議、CBラジオ、携帯無線電話（ウォーキー・トーキー）、コンピュータ電話通信アプリケーション、コンピュータおよび自動車用音声命令アプリケーションならびに他のハンズフリー・アプリケーション、インターコム、マイクロホン・システムなどの音声通信媒体は、所望の音声信号を背景雑音から分離するために音声信号処理を活用することができる。

背景雑音信号から所望の音声信号を分離するために、多くの方法が生み出されてきた。従来技術の雑音フィルタは、信号を、白色雑音（ホワイト・ノイズ）信号として予め定められた特徴と識別して、そうした信号を入力信号から取り除く。これらの方法は、音声信号のリアルタイム処理のために十分に簡単かつ迅速である一方、異なる音声環境に容易に適応できずに、分解しようとする音声信号の相当な劣化を招くことがある。予め仮定し設定した雑音（ノイズ）特徴は、実際の雑音の範囲より広くカバーしてしまうか、実際の雑音の範囲を全てカバーできないこともある。その結果、これらの方法によって、人の音声は部分的に「雑音」とみなされ、出力音声信号から取り除かれる可能性がある。その一方で、音楽または会話といった背景雑音は部分的に「非雑音」とみなされ、出力音声信号に含まれる可能性がある。

他のより最近に開発された方法（例えば独立成分分析（ICA））は、背景雑音から音声信号を分離する比較的正確かつ柔軟な手段を提供する。例えば、PCT公開公報WO00/41441は、出力オーディオ信号の雑音を減らすために入力オーディオ信号を処理する、特定のICA技術の使用を開示する。ICAは、互いに独立していると思われる混在音源信号（構成要素）を分離するための技術である。独立成分分析は、この簡略化された形態において、分離された信号を生成するために、混在信号上の重み付けの値の「非混在」マトリクスを操作する（例えば混在信号を有するマトリクスを増加する）。この重み付けの値は、初期値を割り当てられて、情報冗長性（redundancy）を最小化するために信号の結合エントロピーを最大にするように調整される。この重み付けの値の調整処理およびエントロピー増加処理は、信号の情報冗長性が最低になるまで繰り返される。この技術は、それぞれの信号の音源（ソース）に関する情報を必要としないので、「ブラインド音源分離」法（「BBS」）として知られる。ブラインド分離の課題は、多数の独立音源から出る混在信号を分離するというものである。

ICAを最初に論じたものの一つは、更なる研究を引き出した、トニー・ベルによる米国特許番号５，７０６、４０２号である。現在、多くの異なるICA技術またはアルゴリズムが存在する。最も広く使われているアルゴリズムおよび技術の概要は、ICAについての本およびその中の参照において見られる（例えばテウォン・リーの独立成分分析、論理と適用, クルワー・アカデミック出版、ボストン、 1998年9月（非特許文献１参照）；ハイバリネン他、独立成分分析、第１版 (ウィレイ・インターサイエンス、２００１年５月１８日) （非特許文献２参照）；マーク・ジロラミー（自己編成型ニューラル・ネットワーク）、独立成分分析とブラインドソース分離 (ニューラル・コンピューティングの全体像) (スプリンジャー・バーラグ、１９９９年９月、非特許文献３参照）；および、マーク・ジロラミー（編集者）、独立成分分析の進歩(ニューラル・コンピューティングの全体像) (スプリンジャー・バーラグ、２０００年８月、非特許文献４参照）。単一数値分解アルゴリズムは、シモン・ヘイキンによる適合可能なフィルタ理論において開示された（第３版、プレンティス・ホール（NJ）、１９９６、非特許文献５参照）。

多くの一般的に普及しているICAアルゴリズムが、その性能を最適化するために開発されてきた。それらは、大きな改良がなされて進化してきたものを多数含み、原型となったものは10年前に生み出されたものである。例えば、A. J.ベルおよびTJセジノウスキー（ニューラル・コンピュテーション７）１１２９-１１５９（１９９５）（非特許文献６参照）；ならびにベル（A. J.米国特許番号５，７０６、４０２号）に記載された研究は、その特許を受けた形態においては通常使われない。その代わりに、このアルゴリズムは、その性能を最適化するために、多くの異なる開発者によって度重なる特徴付けがなされてきた。そうした変更の一つとしては、アマリ、シチョキ、ヤング (1996)に記載される「自然の勾配」の使用が含まれる（非特許文献７参照）。他の一般的に普及しているICAアルゴリズムは、高次統計（例えばキュムラント（カルドゾ（１９９２、非特許文献８参照）；コモン（１９９４、非特許文献９参照）；ヒバエリネンおよびオジャ（１９９７、非特許文献１０参照））を計算する方法を含む。
＜参照＞
テウォン・リーの独立成分分析、論理と適用, クルワー・アカデミック出版、ボストン、 1998年9月。ヒバエリネン、A.、カーフネン、J、オジャ、E・独立成分分析・ジョン・ウィレイ＆サンズインコーポレーション2001。マーク・ジロラミー（自己編成型ニューラル・ネットワーク）、独立成分分析とブラインドソース分離 (ニューラル・コンピューティングの全体像) (スプリンジャー・バーラグ、１９９９年９月。マーク・ジロラミー（編集者）、独立成分分析の進歩 (ニューラル・コンピューティングの全体像) (スプリンジャー・バーラグ、２０００年８月)。シモン・ヘイキン、合可能なフィルタ理論（第３版、プレンティス・ホール（NJ）、(１９９６) 。 A. J.ベルおよびTJセジノウスキー（ニューラル・コンピュテーション７）１１２９-１１５９（１９９５）。アマリ、シチョキ、ヤング、ブラインド信号分離の新しい新学習アルゴリズム、ニューラル情報処理システム８、編集者Ｄ．トウレツキー、M. モザー、およびM. ハセルモ、ページ７５７〜７６３、MITプレス、ケンブリッジMA、１９９６。カードソ、J.-F.、第４順序累積率のみ使用するブラインドソース分離の反復技術、会報 EUSIPCO、ページ７３９〜７４２、１９９２。コモン、P.、独立成分分析、「新しいコンセプト？信号処理」３６（３）、２８７〜３１４、１９９４年４月。ヒバエリネン、A. およびオジャ、E・独立成分分析のための高速固定小数点アルゴリズム、ニューラル・コンピュテーション、９、ページ１４８３−１４９２、１９９７。

しかしながら、多くの周知のICAアルゴリズムは、音響反響（例えば部屋での反射によるもの）を本質的に含む現実の環境において記録された信号を効果的に分離することができない。これまでに記載した方法は、音源信号の線形静止混成（linear stationary mixture）から生じている信号の分離にのみ制限されている。直接経路信号およびその反響の合計によって起こる現象は、残響（reverberation）と呼ばれて、人工の音声強調および認識システムにおける、重大な課題である。現在、ICAアルゴリズムは、効果的なリアルタイムでの使用を妨害する、その時間的に遅延し、反響した信号を分離することができる、長いフィルタを含むことを必要とする。

図１は、従来技術のICA信号分離システム１００の一実施例を示す。そうした従来技術のシステムにおいて、ニューラル・ネットワークとして作動する、フィルタのネットワークは、入力されたいかなる数の混在信号からも、個々の信号に分解する。図１に示すように、システム１００は、入力信号X１およびX2を受信する二つの入力チャネル１１０および１２０を含む。ICA直接のフィルタWlおよびICAクロスフィルタC2が、信号Xiのために適用される。ICA直接フィルタW2およびICAクロスフィルタC1が、信号X2のために適用される。直接フィルタW1およびW2は、直接的な調整のために通信する。クロスフィルタは、それぞれのフィルタ処理信号を、直接フィルタによってフィルタ処理された信号に合成する、フィードバックフィルタである。ICAフィルタの収束の後、生成された出力信号U1 およびU2は分離された信号を表す。

米国特許番号５，６７５、６５９号（Torkkolaその他）は、遅延されフィルタ処理された音源のブラインド分離のための方法および装置を提案する。Torkkolaは、分離された出力のエントロピーを最大化する一方、ベルの特許にあるような静的係数の代わりに、非混在フィルタを使用するICAシステムを提案している。しかしながら、Torkkolaに記載されている、結合エントロピーを算出して、クロスフィルタの重み付けの値を調整するためのICA算出は、音声信号のような時間ごとに変化する入力エネルギーを有する入力信号がある場合において数値的に不安定で、残響という人為的結果を分離された出力信号にもたらす。よって、その提案されたフィルタ方式は、現実の音声信号の、安定した知覚的に許容可能なブラインド音源分離を達成しない。

一般的なICA実施態様も、信号の結合エントロピーを繰り返し算出して、フィルタの重み付けの値を調整するために、相当な計算能力が必要とされるといった更なる困難に直面する。多くのICA実施態様も、フィードバックフィルタの多数回の循環およびフィルタの直接的な相関を必要とする。その結果、リアルタイムの音声のICAフィルタリングを達成することと、多数の混在音源信号を分離するために多数のマイクロホンを使用することは大変困難である。空間的に局所化された場所から生じている音源の場合、非混在フィルタ係数は、適当量のフィルタ・タップおよび記録マイクロホンによって計算することができる。しかしながら、振動、風による雑音または背景の会話から生じている背景雑音といった音源信号が分散する空間の場合、マイクロホンにて記録されるこの信号は、多くの異なる方向から発せられるため、非常に長くて複雑なフィルタ構造か非常に多数のマイクロホンを必要とする。全ての現実のシステムは、処理能力およびハードウェアの複雑さに制限されるため、リアルタイム音声信号強調のために確固たる方法を提供する更なる処理方法によって、改良の余地があるICAフィルタ構造を補完しなければならない。かかるシステムの計算の複雑さは、消費者向け小型装置（例えば携帯電話、パーソナル携帯情報機器（ＰＤＡ）、オーディオ監視装置、ラジオなど）の処理能力と両立させなくてはならない。

要求されていることは、音声信号をリアルタイムな背景雑音から分離することができる、簡略化された音声処理方法であって、高い計算能力を必要としなくとも、比較的正確な結果をもたらして、柔軟に異なる環境に適応することができることである。

本発明は、雑音が多い音響環境において所望のオーディオ信号（例えば少なくとも一つの音声信号）を識別して分離する音声処理ためのシステムおよび方法に関する。この音声処理は、少なくとも二つのマイクロホンを有する装置（例えばワイヤレス携帯電話、ヘッドセットまたは携帯電話）において処理を行う。少なくとも二つのマイクロホンが、目標（例えば話者からの音声）から所望の信号を受け取る装置の筐体に配置される。これらのマイクロホンは、目標とするユーザの音声を受信するために配置される一方、雑音（他の音源からの音声、残響、反響および他の望ましくない音響）をも受信してしまう。両方のマイクロホンは、所望の目標音声および他の望まれない音響情報が混在したオーディオ信号を受信する。これらのマイクロホンからの混在信号は、改良型ICA（独立成分分析）処理を使用して処理される。この音声処理は、音声信号を識別する際に助けとなるよう、予め定義された音声特徴を利用する。この方法で、この音声処理は、目標ユーザからの所望の音声信号と、雑音信号を生成する。この雑音信号は、更に所望の音声信号をフィルタにかけて処理をするために利用することもできる。

本発明の一態様は、少なくとも二つの入力信号のチャネル（それぞれは一つのオーディオ信号またはそれらの組み合わせからなる）および二つの改良型独立成分分析クロスフィルタを含む音声分離システムに関する。入力信号のこの２本のチャネルはクロスフィルタによってフィルタをかけられ、このフィルタは、好ましくは非線形性有界関数（nonlinear bounded function）を有する無限インパルス応答フィルタである。この非線形性有界関数は、高速で計算されることができる所定の最大値および最小値を伴う非線形性関数であって、例えば、入力値に基づいて正の値と負の値のどちらかを出力として返還する信号関数である。信号の後に続く反復フィードバックにおいて、出力信号の二本のチャネルのうちの、一つのチャネルが実質的に所望のオーディオ信号を含み、もう一方のチャネルは実質的な雑音信号を含んで生成される。

本発明の別の一態様は、オーディオ信号を所望の音声信号および雑音信号に分離するシステムおよび方法に関する。入力信号（所望の音声信号および雑音信号が混在している）は、少なくとも２本のチャネルから受信される。等しい数の独立成分分析クロスフィルタが使用される。第１チャネルからの信号は、第１クロスフィルタによってフィルタをかけられて、増幅した信号を第２チャネル上に生成するために第２のチャネルからの信号と合成する。第２チャネル上の増幅した信号は、第２クロスフィルタによってフィルタをかけられて、増幅した信号を第１チャンネル上に生成するために、第１チャンネルからの信号と合成する。第１チャンネル上の増幅した信号は、第１クロスフィルタによって更にフィルタをかけることができる。フィルタリングおよび合成処理は、信号の２本のチャネル間の情報の冗長性を減らすために繰り返される。出力信号の生成された２本のチャネルのうち、一本は主に音声信号のチャネルであり、もう一方は主に非音声信号のチャネルである。更に音声品質を改善するために、付加的な音声強化方法（例えばスペクトル減算、ウィーナー・フィルタ、雑音除去、および音声特徴抽出）を実行することもできる。

本発明の別の態様は、フィードバック・フィルタリング方式の設計における安定化要素の含有に関する。安定化の一実施例において、フィルタの重み付けの値を適合化させ法ルは、重み付けの値を適合化させることによって得られる強弱の変化は、フィードバック構造の全体の安定性要件を有するペースであるように設計される。前の方法とは異なり、この全体システムの性能は、単に分離された出力の所望のエントロピー最大化に向けられるだけではなく、より現実的な目的に対応するために、安定化拘束(stability constraint)も考慮される。この目的は、安定化拘束の下で最大尤推定法原理(maximum likely hood principle)としてより適確に記載される。最大尤推定法のこれらの安定化拘束は、音源信号のモデリング時間的特徴に対応する。エントロピーの最大化処理方法において、信号音源は、i. i. d（independently, identically drawn（それぞれに、同じく引き出された））確率変数とみなされる。しかしながら、音および音声信号といった実際の信号は、不規則信号ではなく、時間的に相互関係があると共に周波数が平滑である。対応する元のICAのこの結果は、係数学習法をフィルタにかける。

別の安定化の実施例において、この学習法は、記録された入力振幅に直接依存するため、この入力チャンネルはフィルタの重み付けの値を適合化させる速度を制限するために適合スケーリングファクタによって縮小される。このスケーリングファクタは、再帰的方程式(recursive equation)によって決定されると共に、そのチャネル入力エネルギーの関数である。従って、それは次のICAフィルタ動作のエントロピーの最大化には無関係である。更に、ICAフィルタ構造の適合性質は、フィルタ係数があまりに急速に調整されるかまたは振動した状態を呈する場合、分離された出力信号が残響という人為的結果を含むことを意味する。このように、この学習フィルタの重み付けの値は、残響の影響を回避するために、時間領域および周波数領域において平滑にする必要がある。このスムージング動作がフィルタ学習処理を遅くするので、この強調された音声の理解度設計の態様はシステム全体の性能に付加的な安定効果を及ぼす。

計算資源およびマイクロホンの数の制限が発生する空間的に分散された背景雑音のブラインド音源分離の性能を高めるために、ICAで計算された入力および出力に、それぞれ、前処理または後処理を施すことができる。例えば、音声活性検出および適合ウィーナー・フィルタリングが単に、処理信号についての時間的情報またはスペクトル情報だけを利用するので、本発明の別の実施例はこれらの方法を含むことが考えられ、従って、ICAフィルタリングユニットを補完するであろう。

本発明の最後の態様は、フィルタ・フィードバック構造の計算精度および計算能力の問題に関する。有限ビット精度計算環境(finite bit precision arithmetic environment)（一般的に、１６ビットまたは３２ビット）において、このフィルタ処理は、係数量子化エラーをフィルタにかける。一般的にこのエラーは、収束性能およびシステム全体の安定性の劣化を導く。量子化効果はクロスフィルタ長を制限することによって、更に、元のフィードバック構造を変えることによって制御されることができ、後処理されたICA出力がその代わりにICA濾過構造にフィードバックされる。有限精度環境における入力エネルギーの縮小が、安定性の観点から必要なだけではなく、計算された数値の有限範囲のために強調される。有限精度環境における性能は信頼性が高くて調節可能であるが、ここで提案された音声処理方式は浮動小数点の精度環境において行われるべきである。最後に、計算の制約の下での実施は、適切にフィルタ長を選択し、フィルタ係数の更新する周波数を調整することによって達成される。実際、ICAフィルタ構造の計算量は、これらの後者の変数の直接関数である。

他の態様および実施例は、図面において例示されるか、「詳細な説明」にて記載されるか、または、請求項の範囲によって定義される。

音声分離システムの好適な実施例は、図面と照らし合わせて以下に述べる。限られた計算能力でリアルタイム処理を可能にするために、本システムは、単純かつ容易に計算できる有界関数を有するクロスフィルタの、改良型ICA処理サブモジュールを使用する。従来の方法と比較して、この簡略化されたICA方法は、計算能力に関する要件を減らして、適切に音声信号を非音声信号から分離する。

＜音声分離システムの概略＞
図２は、音声分離システム２００の一実施例を例示する。システム２００は、音声拡張モジュール２１０と、任意の音声雑音除去モジュール２２０および任意の音声特徴抽出モジュール２３０を含む。音声拡張モジュール２１０は、改良型ICA処理サブモジュール２１２および後処理サブモジュール２１４を任意で含む。改良型ICA処理サブモジュール２１２は、比較的低い計算能力でリアルタイム音声分離を成し遂げるために、単純化され、改良型ICA処理を利用する。リアルタイム音声分離を必要としないアプリケーションにおいて、改良型ICA処理は、計算能力の必要条件を更に減らすことができる。本明細書で使用される、用語ICAおよびBSSは交換可能であって、相互情報の数学的公式を、近似値を通して直接または間接的に、最小化または最大化する方法のことを指し、それは、非相関性方法（時間遅延非相関性または非相関性方法に基づく他の第２もしくはより高い順序統計等）に基づく時間領域および周波数領域を含む。

本明細書において使用される、「モジュール」または「サブモジュール」は、全ての方法、装置、デバイス、ユニット、または、ソフトウェア、ハードウェア、もしくはファームウェアの形態での計算機命令を含むコンピュータ可読データ記憶媒体を指す。多数のモジュールまたはシステムを１台のモジュールまたはシステムに結合することができ、１台のモジュールまたはシステムを同じ機能を実行する多数のモジュールまたはシステムに分けることができると理解されるべきである。携帯電話のアプリケーションに関する好適な実施例において、改良型ICA処理サブモジュール２１２は（それ自体または他のモジュールと組み合わせて）、携帯電話に搭載されるマイクロプロセッサーチップに組み込まれる。ソフトウェアまたは他のコンピュータが実行できる命令を実行する時に、本発明の要素は基本的に、例えばルーチン、プログラム、目的、構成要素、データ構造体およびそれらに類似するものによって必要な作業を実行するコードセグメントとなる。このプログラムまたはコードセグメントは、プロセッサで読み込み可能な媒体で保存され、伝送媒体または通信リンクの上に搬送波で表されるコンピュータのデータ信号によって送信される。この「プロセッサで読み込み可能な媒体」は、情報の保存または転送可能な媒体を含み、揮発性、不揮発性、取り外し可能な媒体および取り外し不可能な媒体を含む。このプロセッサで読み込み可能な媒体の実施例は、電子回路、半導体メモリ素子、ROM、フラッシュメモリ、消去可能なROM（EROM）、フロッピーディスクもしくはその他の磁気記憶装置、CD-ROM/ＤＶＤもしくはその他の光メモリ、ハードディスク、光ファイバ媒体、無線周波数（RF）リンク、または、所望の情報を保存するために用い、アクセスすることができる、他のいかなる媒体も含む。コンピュータのデータ信号は、電子ネットワークチャネル、光ファイバ、空気、電磁気、RFリンク等の伝送媒体を通じて伝達することができるいかなる信号も含むことができる。コードセグメントは、インターネット、イントラネットなどのコンピューターネットワークを通してダウンロードされる。どんな場合であっても、本発明は、係る実施例によって制限されると解されるべきではない。

音声分離システム２００は、一以上の音声強調モジュール２１０、音声雑音除去モジュール２１０、および音声特徴抽出モジュール２３０の様々な組み合わせを含む。この音声分離システム２００は、以下に記載するように、一以上の音声認識モジュール（図示されず）を更に含む。それぞれのモジュールは、独立システムとして、またはより大きなシステムの一部として、単独で使用することができる。後述するように、音声分離システムは、特定の関数を制御するために音声入力を受け入れる電子デバイス、または、背景雑音から所望の雑音の分離を必要とする電子デバイスに好ましくは組み込まれる。多くのアプリケーションは、多方向から生じている背音から明瞭な所望の音を強調するかまたは分離することを必要とする。上記のアプリケーションは、音声認識および検出、音声強調および分離、ボイス起動制御、および類似する機能を組み込んだ、電気または計算デバイスにおいてヒューマンマシンインタフェースを含む。本発明の音声分離システムに必要とされる処理能力をより低くするために、デバイスは限られた処理能力を提供することのみが適切とされる。

＜改良型ICA処理＞
図３は、改良型ICAまたはBSS処理サブモジュール２１２の一実施例３００を例示する。入力信号X_lおよびX₂は、チャネル３１０および３２０からそれぞれ受信される。一般的に、これらの信号はそれぞれ、少なくとも一つのマイクロホンから来るが、他の音源を使用することができることも理解されよう。クロスフィルタW_lおよびW₂は、分離された信号U_lのチャネル３３０および分離された信号U_２のチャネル３４０を生成するために、それぞれの入力信号に適用される。チャネル３３０（音声チャネル）は、主に所望の信号を有しており、チャネル３４０（雑音チャネル）は、主に雑音信号を有している。用語「音声チャネル」および「雑音チャネル」が使用されるが、用語「音声」および「雑音」は、望ましければ交換可能である（例えば、一つの音声および／または一つの雑音が他の音声および／または他の雑音よりも望ましい場合）。更に、この方法は、二以上の音源からの混在雑音信号を分離するために用いることができる。

無限インパルス応答型フィルタが、改良型ICA処理過程において用いられることが望ましい。無限インパルス応答型フィルタは、その出力信号が入力信号の少なくとも１部としてフィルタにフィードバックされるフィルタである。有限インパルス応答フィルタは、出力信号が入力としてフィードバックがないフィルタである。クロスフィルタW_2l およびW₁₂は、時間遅延を取り戻すために、係数をまばらに割り当てることができる。最も簡略化された形態において、クロスフィルタW_2lおよび W_l2は、１フィルタにつき1フィルタ係数のゲイン係数であって、例えば、出力信号とフィードバック入力信号との間の時間の遅れのための遅延ゲイン係数、および入力信号を増幅するための増幅ゲイン係数である。他の形態において、クロスフィルタはそれぞれ、何ダース、何百または何千のフィルタ係数を有することができる。後述するように、出力信号U_lおよびU_２は、後処理サブモジュール、雑音除去モジュールまたは音声特徴抽出モジュールによって更に処理することができる。

ICA学習法がブラインド音源分離を成し遂げるために明確に導き出されたにもかかわらず、音響環境の音声処理へのこの法の実際的な実施は、フィルタ方式の不安定な反応につながる可能性がある。このシステムを確実に安定したものにするために、W₁₂および類似するW_2lの適合化のための強弱の変化は、第１に安定していなければならない。そうしたシステムのためのゲインマージンは、非静止音声信号と接触するといったことによる入力ゲインの増加が、重み付けの係数を不安定にし、係数の指数関数的な増加につながるといった、一般的な意味においては低い。音声信号が一般にゼロ平均を有するまばらな分配を呈するので、符号関数は時間的にしばしば振動して、不安定な動作を起こす。最後に、大きな学習パラメータが速い収束のために要求されるという理由から、大きな入力ゲインがシステムをより不安定にするので、安定性と性能の間の固有のトレードオフがある。周知の学習法は、不安定なだけではなくて、特に安定性制限に接近する時に、非線形符号関数のために振動する傾向があり、フィルタ処理された出力信号Y_１［ｔ］およびY₂［ｔ］の残響を引き起こす。これらの問題に対処するために、W_１２およびW_２１のためのこの適合化法は、安定性を必要とする。フィルタ係数に対する学習法が安定している場合、広範囲な分析的かつ経験的研究は、システムがBIBO（有界入力−有界出力（bounded input bounded output））において安定していることを示した。従って、この処理方式全体の最終的な目的は、安定化拘束の下で雑音が多い音声信号のブラインド音源分離である。

従って、安定性を確実にする主要な方法は、図３に例示されるように、入力を適切にスケーリングすることである。このフレームワークにおいて、スケーリングファクタ「sc_fact」は、入って来る入力信号の特徴に基づいて構成される。例えば、入力があまりに高い場合、sc-factにおける増加を導き、よって、入力振幅を減少させる。性能と安定性との間において妥協は不可欠である。sc_factによって入力を縮小することは、劣った分離性能を導くSNRを減少させる。従って、入力は、安定性を確実にするために必要な程度にのみスケーリングされるべきである。クロスフィルタの更なる安定性は、あらゆるサンプルの重み付けの係数における短期間変動の原因であるフィルタ構造をなすことによって達成され、従って関連する残響を避けることができる。この適合化法・フィルタは、時間領域の平滑化として見ることができる。更なるフィルタの平滑化は、隣接した周波数ビンの上に収束された分離フィルタの一貫性保つために、その周波数領域において実行することができる。これは、K-タップフィルタを長さLに対してゼロタッピングすることによって好適に実行できる。フィルタが矩形の時間領域ウィンドウによって効果的にウィンドウ化されるので、それは周波数領域のシンク関数によって、対応して平滑化される。この周波数領域のスムージングは、整合する解決策として、適合されたフィルタ係数を周期的に再初期化するために、一定の時間間隔で行われる。

以下の方程式は、サイズtの時間的サンプル・ウィンドウ、および時間変化Kを伴う時間的サンプル・ウィンドウのために用いられることができる非線形有界関数の実施例である。

関数f（x）は、非線形有界関数（すなわち、所定の最大値および所定の最小値を有する非線形関数）である。望ましくは、f（x）は、可変的なxの信号に従い急速に最大値または最小値に接近する非線形有界関数である。例えば、上記の式３および式４は、単純な有界関数として信号機能を使用する。信号機能f（x）は、xが陽性か陰性かによって、1または−１の二進数の値を有する関数である。例の非線形有界関数は、以下を含むが、これに限定されるものではない。

これらの法は、浮動小数点の精度が必要な計算を実行するために利用できると仮定する。浮動小数点の精度が好適であるが、固定小数点演算も同様に使用することが可能であり、特にそれは、計算処理能力を一番低くした装置に適用する場合に可能である。固定小数点演算を使用する能力に関わらず、最適ICA分解のための収束(convergence)は、さらに難しい。実際、ICAアルゴリズムは、干渉する音源が相殺されなければならないという原理に基づく。固定小数点演算においてほぼ等しい数が減算される（または、非常に異なる数が加えられる）時に不正確なことがあるため、ICAアルゴリズムは最適収束特性に満たない可能性がある。

分離性能に影響を及ぼす別の要因は、フィルタ係数の量子化誤差効果である。限られたフィルタ係数分解能のため、フィルタ係数の適合化は、ある時点において、段階的に更なる分離のための改良を生み出し、収束特性を決定付けることを考慮するであろう。量子化誤差効果は、多くの要因によるが、主にフィルタ長の機能および使用されるビット分解能によるものである。上記の入力スケーリングの問題は更に、数的なオーバフローを防ぐための有限の正確な計算においても必然的なものである。複雑なフィルタリング処理においては、利用できる分解能の範囲より大きな数になるまで合計してしまう可能性があるため、スケーリングファクタは、これを防止するためにフィルタ入力が十分小さくなるように確実にする必要がある。

＜マルチチャンネル改良型ICA処理＞
改良型ICA処理サブモジュール２１２は、少なくとも２本のオーディオ入力チャネル（例えばマイクロホン）から、入力信号を受信する。このオーディオ入力チャネルの数は、最小数である２本より多くなってもよい。入力チャネルの数が増加するにつれて、音声分離品質は、一般的に入力チャネルの数が音声信号の音源の数に等しくなるまでを上限として改善することができる。例えば、入力音声信号の音源が、スピーカ、背景スピーカ、背景ミュージックの音源、ならびに遠くの交通のノイズおよび風のノイズによって発生する一般の背景雑音を含む場合、通常、４チャネル音声分離システムのほうが2チャネルシステムより性能が優れている。当然、より多くの入力チャネルが使われるにつれて、より多くのフィルタおよびより高い計算能力が必要となる。

改良型ICA処理サブモジュールおよび方法は、入力信号の２本以上のチャネルを分離するために用いることができる。例えば、携帯電話アプリケーションでは、１本のチャネルが所望の音声信号を実質的に含むことができ、別のチャネルは一つの雑音音源からの雑音信号を実質的に含むことができ、更に別のチャネルは他の雑音音源からのオーディオ信号を実質的に含むことができる。例えば、多くのユーザがいる環境では、１本のチャネルは１人の目標ユーザからの音声を主に含むことができる一方、別のチャネルは異なる目標ユーザからの音声を主に含むことができる。第３のチャネルは雑音を含むことができ、更に前記２本の音声チャネルを処理するために有用である。更なる音声チャネルまたは目標チャネルが有用であることは理解されよう。

いくつかのアプリケーションは所望の音声信号の一つの音源だけを含むが、他のアプリケーションにおいては、所望の音声信号の多数の音源を含んでいてもよい。例えば、電子会議アプリケーションまたはオーディオ監視アプリケーションは、背景雑音から、および相互からの多数のスピーカの音声信号を分離することが必要となる。改良型ICA処理は、音声信号の一つの音源を背景雑音から分離するだけではなく、一人の話者の音声信号を別の話者の音声信号から分離するために用いられる。

＜周辺処理＞
本発明の方法またはシステムの性能をその有効性および堅固性において高めるために、様々な周辺処理技術が入力信号および出力信号に適用され、更に、様々な段階において適用することができる。本明細書において明確に記載されている方法および装置を補完する、前処理技術および後処理技術は、混在したオーディオに適用されるブラインド音源分離技術の性能を高める。例えば、後処理技術は、望ましくない出力または分離されていない入力を利用して、所望の信号の品質を改善するために用いることができる。同様に、前処理技術または情報は、本明細書において記載されている方法およびシステムを補完するために、混在するシナリオの条件を改良することによって、混在するオーディオに適用されるブラインド音源分離技術の性能を高めることができる。

改良型ICA処理は、音信号を少なくとも２本のチャネル（例えば雑音信号（雑音チャネル）のための１本のチャネルおよび所望の音声信号（音声チャネル）のための１本のチャネル）に分離する。図４に示すように、チャネル430は音声チャネルであって、チャネル４４０は雑音チャネルである。音声チャネルが望ましくないレベルの雑音信号を含み、雑音・チャネルはまだ若干の音声信号を含む可能性がかなりある。例えば、２以上の重要な音源および二つのマイクロホンだけがある場合、または、二つのマイクロホンが互いに近接して配置され、かつ音源ははるかに離れて位置する場合は、改良型ICA処理のみでは、雑音から所望の音声を必ずしも適切に分離しない可能性がある。従って、処理信号は、背景雑音の残余のレベルを除去すること、もしくは更に音声信号の品質を改善するために後処理されること、またはそれらの両方を必要とする場合がある。これは、例えば、単一または複数チャネル音声強調アルゴリズムによって分離されたICA出力を供給することにより達成される。音声アクティビティ検出器で検出される非音声時間インターバルから推定される雑音周波数域を有するウィーナー（Wiener)・フィルタは、長時間のサポートを伴う背景雑音によって劣化した信号のためにより良好なSNRを達成するために用いられる。加えて、有界関数は、結合エントロピー算出に単純化された近似値のみであって、信号の情報の冗長性を必ずしも完全には減らさないかもしれない。従って、信号を、改良型ICA処理を使用して分離した後に、更に音声信号の品質を改善するために後処理を実行することができる。

分離された雑音信号チャネルは、除去することができるが、他の目的のために使うこともできる。音声チャネルの残余雑音信号は雑音チャネルの雑音信号と類似した信号符号を有するという合理的な仮定に基づいて、符号が雑音チャネル信号の符号に類似している所望の音声チャネルの残余雑音信号は、後処理装置において除去されなければならない。例えば、差スペクトル法が、後処理を実行するために用いられる。雑音チャネルの信号の符号は、識別される。雑音特徴の所定の仮定に中継する従来技術の雑音フィルタと比較した場合、特定の環境の雑音符号を分析して、特定の環境を表す雑音信号を除去するため、後処理はより柔軟に対応できる。従って、それは、雑音除去において過度に含むか、過度に少ないケースが少なくなる。ウィーナー・フィルタリングおよびカールマン（Kalman)フィルタリングといった他のフィルタリング技術も、後処理を実行するために用いることができる。ICAフィルタ分解は本当の分解の制限サイクルまで収束するだけであるため、フィルタ係数は、より良好な分離性能となること無く、適合し続ける。いくつかの係数がそれらの分解能の限界に移行することが観察された。従って、所望のスピーカ信号を含んでいるICA出力の後処理バージョンは、図４で示すようにIIRフィードバック構造でフィードバックされ、結果として収束制限サイクルが克服されて、ICAアルゴリズムを不安定にしない。この工程の有益な副産物としては、収束がかなり加速されるということである。

雑音除去、音声機能抽出といった他の処理が、更に音声信号の品質を改善するために音声強調と共に用いることができる。音声認識アプリケーションは、音声強調処理によって分離された音声信号を利用することができる。雑音から実質的に分離される音声信号については、Hidden Markov Model chains、ニューラル・ネットワーク学習および支持ベクトル機械といった方法に基づく音声認識エンジンは、より高度な精度で動作することができる。

音声処理のフローチャートが示される、図５を参照する。方法５００は、例えば、携帯ワイヤレス携帯電話、電話ヘッドセットといった音声装置、または自動車用ハンズフリーキットで用いられることができる。方法５００は、他の音声装置にも用いられることができ、DSPプロセッサ、一般のコンピューティング・プロセッサ、マイクロプロセッサ、ゲート・アレイまたは他の計算装置に実装することができることはいうまでもない。使用中、方法５００は、音信号５０２の態様の音響信号を受信する。これらの音信号５０２は、多くの音源から出ており、目標ユーザからの音声、周辺の他人の音声、雑音、残響、反響、反射および他の望ましくない音を含んでいる。方法５００が単一の目標音声信号を識別して分離することが示されるが、方法５００を更なる目標音声信号を識別して分離するために変更することができることも理解されよう。

加えて、様々な前処理技術または情報が、混在オーディオ信号の処理および分離を改善するかまたは容易にするために用いることができる。それは、演繹的な知識を用い、入力信号および条件において互いに異なる情報または特徴を最大にし、混在するシナリオ等の条件を改良して達成できる。例えば、分離されたICA音声チャネルの出力オーダーは一般的には前もって分からないので、付加的なチャネル選択の段階５１０は、所望のスピーカについての演繹的な知識５０１に基づいて分離されたチャネルの内容を反復的に処理する。所望の話者の音声特徴を識別するために用いられる基準５０４は、空間的もしくは時間的特長、エネルギー、ボリューム、周波数コンテンツ、ゼロ交差率または分離処理のために平行して計算される、話者従属および独立音声認識スコアを基にすることができるが、これらに限定しない。例えば、基準５０４は、特定の命令（例えばスリープ解除）のような限定された語彙に反応するように構成することができる。別の例では、音声装置は、特定の場所または方向（例えば車の前部運転主の位置）から発している音声信号に反応することができる。このような方法で、自動車用ハンズフリーキットは、運転手からの音声だけに反応するように構成することができ、その一方で、乗客およびラジオからの音声を無視することができる。あるいは、混在シナリオの条件は、空間的、時間的、エネルギー、およびスペクトル等の変調または操作により、入力信号の特徴を変調または操作することによって改善することができる。

いくつかの音声装置上において、マイクロホンは、音声音源、背景雑音からの所定の距離に基づいて、または他のマイクロフォンに関連して一貫して配置され、もしくは出力信号（例えば指向性マイク）を条件づけるために特定の特徴をそれ自体に有する。ブロック５０６に示すように、二つのマイクロホンは、間隔をおいて配置され、音声装置の筐体に搭載することができる。例えば、マイクロホンが話者の口の約１インチ以内にあって、更に話者の声がマイクロフォンに対して一般的に最も近い音源となるように、電話ヘッドセットは一般的に調整される。同様に、携帯ワイヤレス電話、送受話器またはラペル・マイクロホン用のマイクロホンでは、一般的に目標話者の口までの距離は、一般的に知られているような距離である。マイクロホンから目標音源への距離が公知であるので、この距離が、目標音声信号を識別するための特徴として用いられる。また、多数の特徴を用いることができることはいうまでもない。例えば、処理510は、２インチ未満の距離から出る、男性の音声を表す周波数要素を有する音声信号だけを選ぶことができる。二つのマイクロホンのセットアップが使用される場合、マイクロホンは、所望の話者の口の近くに配置される。このセットアップは、雑音だけを含んでいる残留する分離された出力チャネルを所望の話者チャネルの次の後処理のための雑音基準として使用することが可能なように、所望の話者の声信号を一つのICAチャネルに分離することを可能にする。

２以上のマイクロホンが用いられる記録シナリオにおいて、二つのチャネルICAアルゴリズムは、前述で二つのチャネルシナリオのために説明したことと同じように、N*（N-１）ICAクロスフィルタを伴って、N-チャネル（マイクロフォン）アルゴリズムに応用される。後者は、N記録されたチャネルおよび、所望の話者を分離するために２のチャネルICAアルゴリズムで処理される最適な二つのチャネルの組合せの中から選択するために[ad2]において示されるチャネル選択手順に沿って、音源ローカライゼーションの目的のために使われる。学習されたICAクロスフィルタ係数と同様、記録された入力から分離された出力音源までの相対的なエネルギー変化のような（しかしそれに限定しない）、N-チャネルICAから生じる全ての種類の情報は、このために利用される。

それぞれに間隔が置かれたマイクロホンは、所望の目標音およびいくつかの雑音および残響音源の混在である信号を受信する。混在音声信号５０７および５０９は、分離のためのISA 処理508において受信する。識別処理５１０を用いて目標音声信号を識別した後に、ICA処理５０８は、その混在音を所望の音声信号および雑音信号に分離する。このICA処理は、音声信号を更に処理（５１２）するために雑音信号を使用することができ、それは例えば、更に重み付けの要因を洗練して、設定するために雑音信号を用いることによって達成される。更に、雑音信号は、付加的なフィルタ５１４によって、また、音声信号から雑音コンテンツを更に除去するための（更に後述してある）処理によって、使用することができる。

＜雑音除去＞
図６は、雑音除去処理の一実施例を示すフローチャートである。携帯電話アプリケーションにおいて、雑音除去は、空間的に局所化されない雑音源（例えば全ての方向から来る風の音）を分離するために最適である。更に、雑音除去技術は、固定周波数を有する雑音信号を取り除くために用いることも可能である。この処理は、開始ブロック６００から、ブロック６１０へと進む。この処理は、ブロック６１０で、音声信号xの１ブロックを受信する。処理はブロック６２０へ進む。ここで、好ましくは以下の公式を使用して、システムは音源係数sを計算する。

上記の公式において、w_ijは、ICAの重み付けマトリクスを表す。米国特許５，７０６，４０２号に記載されているICA方法または、米国特許６，４２４，９６０号に記載されているICA方法は、雑音除去処理において用いられる。次に、この処理は、ブロック６３０、ブロック６４０または１ブロック６５０へ進む。ブロック６３０、６４０および６５０は、別の実施例を表す。ブロック６３０において、この処理は、信号ｓ_i.の能力に基づいて、多くの重要な音源係数を選択する。ブロック６４０において、この処理は、微々たる係数を除去するために、最大尤推定法の収縮関数を計算された音源係数に適用する。ブロック６５０において、この処理は、それぞれの時間サンプルtのための基底関数のうちの１を有する音声信号xにフィルタをかける。

ブロック６３０、６４０または６５０から、この処理はブロック６６０へ進む。ここで、好ましくは以下の方式を用いて、音声信号を復元する。

上記公式において、a_ijは、重率因子を伴う入力信号をフィルタリングすることによって生成された訓練信号を表す。このように、雑音除去処理は、雑音を取り除き、復元された音声信号 x_newを生成する。雑音源についての情報が得られる時に、よい雑音除去結果が得られる。改良型ICA処理と関連して先に記載されたように、雑音チャネルの信号の符号が、音声チャネルの信号から雑音を除去するために自雑音除去処理によって利用される。この処理は、ブロック６６０から、エンドブロック６７０へ進む。

＜音声特徴抽出＞
図７は、ICAを使用している音声特徴抽出処理の一実施例を例示する。この処理は開始ブロック７００から始まり、ブロック７１０に行く。ここで、この処理は音声信号xを受信する。図９と関連して後述するように、音声信号xは、入力音声信号か、音声強化によって処理された信号か、雑音除去によって処理された信号か、または音声強化および雑音除去によって処理された信号でありえる。

図７に戻り、この処理はブロック７１０から１ブロック７２０へ進む。ここで、上記の式１０にあるように、この処理は公式s_ij,new=W*x_ijを用いて音源係数を計算する。この処理はそれから１ブロック７３０へ進む。ここで、受信された音声信号は基底関数に分解される。ブロック７３０から、この処理はブロック７４０へ進む。ここで、計算された音源係数が特徴ベクトルとして使われる。例えば、計算された係数S_jj,newまたは2log _sij,newが、特徴ベクトルを算出する際に、新たに使われる。その処理は、次にエンドブロック７５０へ進む。

抽出された音声特徴は、音声を認識するために、または認識できる音声と他の音声信号を区別するために用いることができる。この抽出された音声特徴は、それ自体で、またはセプストラル（cepstral）特徴（MFCC）とともに使うことができる。更に、抽出された音声特徴は、話者を識別するために用いることができ、例えば、多数の話者の音声信号から個々の話者を識別するために、または音声信号を特定のクラス（例えば男性もしくは女性の話者からの音声）に属することを認識するために用いることができる。更に、抽出された音声特徴を、音声信号を検出するために、分類アルゴリズムによって使用することができる。例えば、最大尤推定算出は、該当する信号が人間の音声信号であるという可能性を決定するために用いることができる。

更に、抽出された音声特徴は、テキストのコンピュータ表示を形成する、テキストを音声に変換する（text-to-speech）アプリケーションに適用することができる。テキストを音声に変換するシステムは、音声信号の大きなデータベースを使用する。一つの難題は、音素の、良好な代表的データベースを得ることである。従来技術のシステムは、音素データベースに音声データを分類するために、セプストラル特徴を利用する。基底関数に音声信号を分解させることによって、改良型音声機能抽出方法はより適切に音素部分に音声を分類することができ、従って、より良好なデータベースを作り出すことができる。このように、テキストを音声に変換するシステムのためにより良好な音声品質を可能にする。

音声特徴抽出処理の一実施例において、１組の基底関数は、音声を認識するために全ての音声信号に用いられる。他の実施例において、１組の基底関数は、それぞれの話者を認識するためにそれぞれの話者に用いる。これは、多数話者のアプリケーション（例えば電子会議）のために特に有効である。更に別の実施形態では、１組の基底関数は、複数話者のそれぞれのグループを認識するために一つのグループの複数話者に用いる。例えば、１組の基底関数が男性の話者のために使われ、そして別の一組が女性の話者のために使われる。米国特許６，４２４、９６０号には、異なるグループの声を識別するためにICA混在モデルを使用することが記載されている。そうした方式は、異なる話者または異なる性の音声信号を識別するために用いることができる。

＜音声認識＞
音声認識アプリケーションは、改良型ICA処理によって分離される音声信号を利用することができる。雑音から実質的に分離される音声信号については、音声認識アプリケーションは、より高い精度で動作することができる。Hidden Markov Model 、ニューラル・ネットワーク学習および支持ベクトル機械といった方法が、音声認識アプリケーションで用いられることができる。前述のように、２-マイクロホン配置において、改良型ICA処理は、入力信号を、所望の音声信号および若干の雑音信号からなる音声チャネルと、雑音信号および若干の音声信号からなる雑音チャネルに分離する。

雑音が多い環境での音声認識精度を改善するために、雑音基準信号に基づいて音声信号から雑音を取り除くために、正確な雑音基準信号を有することが好ましい。例えば、実質的に音声信号のチャネルから、雑音基準信号の特徴を有する信号を除去するために音声スペクトル減算を用いることである。従って、非常に雑音が多い環境のための好適な音声認識システムにおいて、このシステムは、音声チャネルおよび信号の雑音チャネルを受信して、雑音基準信号を識別する。

＜処理の組み合わせ＞
音声特徴抽出、雑音除去および音声認識処理の特定の実施例は、音声強調処理と共に記載される。全ての処理を使用する必要があるというわけではないということは注目すべきである。図８は、音声強化、音声除去または音声特徴抽出処理の、いくつかの一般的組合せの一覧を示している表８００である。表８００の左欄は信号のタイプの一覧を示しており、右欄は、対応する信号のタイプを処理するための好適な処理の一覧を示す。

列８１０に示される一つの設定において、入力信号は、始めに音声強調を用いて処理され、次に、音声雑音除去を用いて処理され、更に、音声特徴抽出を用いて処理される。入力信号が高雑音および競合する音源を含んでいる時に、これらの３つの処理の組み合わせはよく作用する。高雑音は、多数の音源（例えば、様々な種類の雑音が異なる方向から出ているが、一種類の雑音が特に大きいわけではない道路上において）から出る比較的低い振幅雑音信号のことを指す。競合する音源は、所望の音声信号と競合する１または数箇所の音源からでる高振幅信号のことを指す（例えば運転手が自動車電話で話している時に、カーラジオがボリュームを上げてある場合において）。列８２０に示される別のアレンジメントにおいて、入力信号は、初めに音声強化を用いて処理され、次に、音声特徴抽出を用いて処理される。音声除去処理は省略する。オリジナル信号が競合する音源を含んでおり、大きな雑音を含まない時に、音声強化および音声特徴抽出処理の組合せはよく作用する。

列８３０に示される更に別の設定において、入力信号は、始めに雑音除去で処理され、次に音声特徴抽出で処理される。音声強化処理は省略する。音声雑音除去と音声特徴抽出処理の組み合わせは、入力が大きな雑音を含んでおり、競合する音源を含まない時にうまく作用する。列８４０に示される更に別の設定において、音声特徴抽出だけが、入力信号に実行される。この処理は、大きな雑音または競合する音源を含まない比較的きれいな音声において、良好な結果に達するのに十分である。表８００は実施例のリストだけであって、他の実施例を使用することも当然可能である。例えば、信号をその種類を問わずに処理するために、音声強調、音声雑音除去および音声特徴抽出処理の全てを適用することができる。

＜携帯電話のアプリケーション＞
図９は、携帯電話機器の一実施例を例示する。携帯電話機器９００は、音声信号を記録するための二つのマイクロホン９１０、９２０を有しており、更に、背景の雑音から所望の音声信号を分離するために、記録された信号を処理するための音声分離システム２００を有している。音声分離システム２００は、分離された信号をチャネル９３０および９４０上に生成するためにクロスフィルタを記録された信号に適用する改良型ICA処理サブモジュールを少なくとも一つ含む。分離された所望の音声信号は、それから音声信号受信装置（例えば有線の電話または別の携帯電話）に、送信機９５０によって送信される。

分離された雑音信号は、除去することができるが、他の目的のために使用することもできる。分離されたノイズ信号は、環境特徴を決定し、それに応じて携帯電話パラメータを調整するために用いてもよい。例えば、雑音信号は、話者の環境の雑音レベルを決定するために用いてもよい。そしてこの携帯電話は、話者が雑音レベルの高い環境にいる場合、マイクロフォンのボリュームを上げる。上述したように、雑音信号は、基準信号として更に分離された音声信号から残りの雑音を取り除くためにも用いることができる。

図の簡略化のために、電池、ディスプレイパネル等の他の携帯電話のパーツは、図９において省略する。アナログ／デジタル転換もしくは変調を含むか、またはFDMA（周波数分割多元接続）、TDMA（時分割多元接続）もしくはCDMA（チャネル分割倍数アクセス）等を可能にする携帯電話もまた、説明を容易にするために省略する。

図９は二つのマイクロホンを示しているが、２以上のマイクロホンを用いることもできる。既存の生産技術は、１０セント硬貨、ピンヘッドまたはそれ以下の大きさであるマイクロホンを製造することができ、多数のマイクロホンを装置９００に配置することができる。

一実施例において、携帯電話において実行される従来の反響-取消処理は、ICA処理（例えば改良型のICAサブモジュールによって実行される処理）と置き換えられる。

オーディオ信号の音源が一般的に相互に離れているので、マイクロホンは携帯電話上に好ましくは音響的に離れて配置される。例えば、一つのマイクロホンを携帯電話の前面上に配置することができる一方、別のマイクロホンを携帯電話の背面上に配置することができる。一つのマイクロホンを携帯電話の上部または左側の近くに配置することができる一方、別のマイクロホンを携帯電話の一番下または右側の近くに配置することができる。二つのマイクロホンは、携帯電話ヘッドセットの異なる位置に配置することができる。一実施例において、二つのマイクロホンはヘッドセットに配置され、更に二つのマイクロホンは携帯電話携帯端末に配置される。従って、二つのマイクロフォンは、ユーザが携帯端末またはヘッドセットを使用するかどうかにかかわらず、ユーザの音声を記録することができる。

改良型ICA処理を利用する携帯電話が例として記載されているが、他の音声通信媒体（例えば電子機器のための音声命令）、スピーカーホン、コードレス電話機、電子会議、CBラジオ、携帯無線電話、コンピュータ電話通信アプリケーション、コンピュータおよび自動車用音声認識アプリケーション、監視装置、インターコム等）も、他の信号から所望の音声信号を分離するために、改良型ICA処理を利用することができる。

図１０は、携帯電話機器の別の実施例を例示する。携帯電話機器１０００は、別の通信デバイス（例えば別の携帯電話）から音声信号を受け取るための二つのチャネル１０１０、１０２０を含む。このチャネル１０１０および１０２０は、二つのマイクロフォンによって記録される同じ会話の音声信号を受信する。２以上の受信ユニットは、入力信号の２本以上のチャネルを受信するために用いることができる。機器１０００は更に、所望の音声信号を背景雑音から分離するために、受信された信号を処理する音声分離システム２００を含む。分離された所望の音声信号は、次に、携帯電話ユーザの耳に届くように、アンプ１０３０によって増幅される。音声分離システム２００を受信携帯電話に配置することによって、送信携帯電話が音声分離システム２００を有しない場合であっても、受信携帯電話のユーザは高品質の音声を聞くことができる。しかしながら、これには、送信携帯電話上の二つのマイクロフォンによって記録される会話の信号の２本のチャネルを受信することが必要とされる。

図の簡略化のために、電池、ディスプレイパネル等の他の携帯電話パーツは、図１０では省略されている。デジタル／アナログ転換もしくは復調を含むか、または、FDMA（周波数分割多元接続）、TDMAを（時分割多元接続）もしくはCDMA（チャネル分割倍数アクセス）等を可能にする携帯電話もまた、説明を容易にするために省略する。

このように、特定の態様、効果および本発明の新規的特徴が、本明細書において記載されてきた。当然、必ずしも、全てのかかる態様、効果または特徴が、本発明のいかなる具体例においても実現されるとういわけではないことは理解されよう。本明細書において述べられる実施例は、本発明の実施例として提供されており、追加、変更および調整が可能である。例えば、方程式７、８および９は、一非線形有界関数の実施例を呈示するが、非線形有界関数は、これらの実施例に制限されることはなく、所定の最大値および最小値を有するいかなる非線形関数をも含むことができる。従って、本発明の範囲は、以下の請求項によって定義される。

図１は、先行技術のICA信号分離システムのブロック図を例示する。図２は、本発明における、音声分離システムの一実施例のブロック図である。図３は、本発明における、改良型ICA処理サブモジュールの一実施例のブロック図である。図４は、本発明における、ICA音声分離処理の一実施例のブロック図である。図５は、本発明における、音声処理方法のフローチャートである。図６は、本発明における、音声雑音除去処理のフローチャートである。図７は、本発明における、音声特徴抽出処理のフローチャートである。図８は、本発明における、音声処理過程の組合せの実施例を示している一覧である。図９は、本発明における音声分離システムを有する携帯電話の一実施例のブロック図である。図１０は、音声分離システムを有する携帯電話の別の実施例のブロック図である。

Claims

周辺音響下において所望の音声信号を分離する方法であって、
複数の入力信号を受信するステップであって、該入力信号は所望の音声信号および他の音響信号に反応して生成されるステップと、
受信した入力信号を、安定化拘束の下で独立成分分析（ICA）またはブラインド音源分離（BSS）を使用して処理をするステップと、
受信した入力信号を、一以上の所望のオーディオ信号および一以上の雑音信号に分離するステップと、
を含む方法。
所望のオーディオ信号の一つは、所望の音声信号である請求項1記載の方法。
ICA処理またはBSS処理は、近似値で直接または間接的に相互の情報の数学的公式化を最小または最大にすることを含む請求項１に記載の方法。
ICAの重み付けの値を適合化させることによって得られる強弱の変化のペースによってICA処理を安定させるステップを更に含む請求項１に記載の方法。
重み付けの値を適合化する速度を抑えるために適合化スケーリングファクタを使用してICA入力をスケーリングすることによってICA処理を安定させるステップを更に含む請求項１に記載の方法。
残響の影響を回避するために時間領域および周波数領域において学習されたフィルタの重み付けの値にフィルタをかけることによってICA処理を安定させるステップを更に含む請求項１に記載の方法。
多様な段階における前記入力信号および分離された信号に周辺処理技術が適用される請求項1に記載の方法。
分離の能力を高めるために、前処理技術または手段を利用することを更に含む請求項１に記載の方法。
入力信号に適用された混在シナリオの条件を改良することを更に含む請求項8に記載の方法。
分離された所望の音声信号を含んでいるチャネルを識別するためにこの所望の音声信号の特性情報を利用することを更に含んでいる請求項２に記載の方法。
特性情報が空間的、スペクトル、または時間的な情報である請求項１０に記載の方法。
後処理技術は、少なくとも一つの雑音信号または少なくとも一つの入力信号を利用することにより、所望の信号の品質を改善するために用いられる請求項1に記載の方法。
所望の音声信号を更に分離して強調するために、分離された雑音信号を使用するステップを更に含む請求項１２に記載の方法。
前記使用するステップは、ノイズフィルタのための雑音スペクトルを推定するために雑音信号を使用することを含む請求項１３に記載の方法。
少なくとも二つのマイクロフォンを間隔をおいて配置するステップと、
それぞれのマイクロホンで前記入力信号のうちの一つを生成するステップと、
を更に含む請求項1記載の方法。
間隔をあけるステップは、約1ミリから約1メートルの間隔をあけてマイクロフォンを配置することを含む請求項１５に記載の方法。
間隔をあけるステップは、受話器、ヘッドセットまたはハンズフリー・キット上にマイクロホンを互いから離して配置することを含む請求項１５に記載の方法。
ICA処理は、
第１出力チャネルおよび第２入力チャネルに接続されている第１適合独立成分分析（ICA）フィルタであって、該第１フィルタは雑音信号チャネルに非線形有界符号関数のアプリケーションを含む再帰的な学習法によって構成される、第１フィルタと、
第１入力チャネルにおよび第２出力チャンネルに接続されている第２適合独立成分分析フィルタであって、該第２フィルタは所望の音声信号チャネルに非線形有界関数のアプリケーションを含む再帰的な学習法によって構成されている、第２フィルタと、
を含んでおり、
前記第１フィルタおよび第２フィルタは、前記所望の音声信号を生成するために繰り返し使用される、請求項１５に記載の方法。
（a）第１適合独立成分分析フィルタによって再帰的にフィルタをかけられる所望の音声チャネルは、フィードバックされ、第２マイクロホンから前記入力チャネルに加えられ、雑音信号チャネルを形成し、（ｂ）第２適合独立成分分析フィルタによって再帰的にフィルタをかけられる雑音信号チャネルは、フィードバックされ、第１マイクロホンから前記入力チャネルに加えられ、所望の音声信号チャネルを形成する請求項１８に記載の方法。
入力チャネル信号は、入力信号エネルギの関数として、再帰的方程式から計算される適合スケーリングファクタによって縮小される請求項１９記載の方法。
第１適合ICAクロスフィルタのためのフィルタの重み付けの値の学習法は、時間的に前記フィルタ係数を平滑にすることによって安定化され、更に、第２適合ICAクロスフィルタのための法は、時間的に前記フィルタ係数を平滑にする(smoothing)ことによって安定する請求項１８記載の方法。
第１適応ICAクロスフィルタの重み付けの値は周波数領域においてフィルタをかけられ、更に、第２適合ICAクロスフィルタの重み付けの値は周波数領域においてフィルタをかけられる請求項１８記載の方法。
音声活性検出を含む単一または複数チャネル音声強調モジュールを適用する所望の音声信号に結合される後処理モジュールを更に含んでおり、該後処理出力は該入力チャネルにフィードバックされない請求項１８に記載の方法。
ICA処理は、適合ICAクロスフィルタがあらゆるサンプリング時に適用され、フィルタ係数がサンプリング時の倍数で更新され、更に可変的な長さのフィルタ長が利用可能な計算能力に合わせるために利用される、固定小数点の精度環境において行われる請求項１８に記載の方法。
雑音信号を利用する、所望の音声信号の後処理であって、該後処理モジュールは前記雑音信号に基づきスペクトル減算を所望の音声信号に適用する、後処理を更に含む請求項18に記載の方法。
雑音信号を利用する、所望の音声信号の後処理であって、該後処理モジュールは前記雑音信号に基づきウィナーフィルタリングを所望の音声信号に適用する、後処理を更に含む請求項18に記載の方法。
第３チャネルからオーディオ入力信号の第３の一組を受信するステップと、非線形有界関数を第３フィルタを使用して入力信号に適用するステップを更に含む請求項18に記載の方法。
音声機器であって、
音響音信号を受信するために構成された、間隔が置かれた少なくとも二つのマイクロフォンであって、該マイクロフォンは音声音源から予想される距離を置くマイクロフォンと、
マイクロホンに結合されるICAまたはBSSプロセッサと、
を含んでおり、
該プロセッサが行うステップは、
二つのマイクロフォンから音声信号を受信するステップと、
安定化拘束の下で、少なくとも一つの所望の音声信号回線と少なくとも一つの雑音信号回線に音声信号を分離するステップと、
を含んでいる、音声機器。
雑音回線および所望の音声信号回線に結合する後処理フィルタを更に含む請求項２８に記載の音声機器。
マイクロホンは互いに1ミリ〜約1メートルの間隔を置く請求項28に記載の音声機器。
マイクロフォンで受信された音響音信号を前処理するステップをさらに含む請求項30に記載の方法。
マイクロホンの一つが装置の筐体の表面にあり、もう一方のマイクロホンが装置の筐体の別の表面にある請求項２８に記載の音声機器。
音声機器は、ワイヤレス電話であるように構成される請求項２８に記載の音声機器。
音声機器は、ワイヤレス電話であるように構成される請求項２８に記載の音声装置。
音声装置は、自動車用ハンズフリーキットであるように構成される請求項２８に記載の音声装置。
音声装置は、ヘッドセットであるように構成される請求項２８に記載の音声装置。
音声装置は、個人データ・アシスタントであるように構成される請求項２８に記載の音声装置。
音声装置は、携帯バーコード走査装置であるように構成される請求項28に記載の音声装置。
周辺音響下において所望の音声信号を分離するシステムであって、
一以上の音響信号をそれぞれに受信する複数の入力チャネルと、
少なくとも一つのICAフィルタまたはBSSフィルタであって、該フィルタは、安定化拘束の下で受信された信号を一以上の所望のオーディオ信号および一以上の雑音信号に分離する、フィルタと、
分離された信号を送信する複数の出力チャンネルと、
を含むシステム。
所望のオーディオ信号は、複数の音響信号に受信される音声信号である請求項３９に記載のシステム。
フィルタは、近似値で直接的または間接的に相互の情報の数学的公式化を調整する請求項３９に記載のシステム。
フィルタは、ICAの重み付けの値を適合化させることによって得られる強弱の変化のペースにより、ICA処理を安定させる請求項３９に記載のシステム。
フィルタは、重み付けの値を適合化する速度を制限するために適合スケーリングファクタを使用してICA入力をスケーリングすることによってICA処理を安定させる請求項３９に記載のシステム。
フィルタは、残響の影響を回避するために時間領域および周波数領域の学習されたフィルタの重み付けの値にフィルタをかけることによってICA処理を安定させる請求項３９に記載のシステム。
入力信号および/または出力信号に適用された一以上の周辺処理フィルタを更に含む請求項３９に記載のシステム。
一以上の前処理フィルタを更に含む請求項４５に記載のシステム。
一以上の後処理フィルタを更に含む請求項４５に記載のシステム。
入力チャネルに結合される一以上のマイクロホンを更に含む請求項３９記載のシステム。
約１ミリ〜約1メートルの間隔が互いに置かれた二以上のマイクロフォンを含む請求項４８に記載のシステム。
システムは、携帯機器上に構成される請求項３９に記載のシステム。
フィルタは、
第１出力チャネルおよび第２入力チャネルに接続されている第１適合独立成分分析（ICA）フィルタであって、該第１フィルタは雑音信号チャネルに非線形有界信号関数のアプリケーションを含む再帰的な学習法によって構成される、フィルタと、
第１入力チャネルにおよび第２出力チャンネルに接続されている第２適合独立成分分析フィルタであって、該第２フィルタは所望の音声信号チャネルに非線形有界関数のアプリケーションを含む再帰的な学習法によって構成されている、第２フィルタと、
を含んでおり、
該第１フィルタおよび該第２フィルタは、所望の音声信号を生成するために、繰り返し使用される、請求項３９に記載のシステム。
音声信号を分離するシステムは、
１組の信号発生器であって、それぞれの信号発生器は、音声信号と他の音響信号の混在を表す混在信号を生成するように調整される、信号発生器と、
それぞれの該混在信号を受信するように構成されるプロセッサと、
該音声信号を受信する音声可能ユニットと、
を含んでおり、
前記プロセッサは、
安定化拘束の下で独立成分分析（ICA）またはブラインド音源分離（BSS）を使用する前記混在信号の一組を処理するステップと、
前記混在信号を、音声信号と少なくとも一つの雑音信号に分離するステップと、
を更に含む方法を実施する、システム。
信号発生器は、音響変換器（トランスデューサ）として構成される請求項５２に記載のシステム。
音響変換器は、人間の音声の周波数の範囲内の音響信号を受信するために構成されるマイクロホンである請求項５３に記載のシステム。