JP2010519602A - 信号分離のためのシステム、方法、および装置 - Google Patents

信号分離のためのシステム、方法、および装置 Download PDF

Info

Publication number
JP2010519602A
JP2010519602A JP2009552010A JP2009552010A JP2010519602A JP 2010519602 A JP2010519602 A JP 2010519602A JP 2009552010 A JP2009552010 A JP 2009552010A JP 2009552010 A JP2009552010 A JP 2009552010A JP 2010519602 A JP2010519602 A JP 2010519602A
Authority
JP
Japan
Prior art keywords
signal
source
channel
coefficient values
interference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009552010A
Other languages
English (en)
Inventor
ビッサー、エリック
チャン、クワク−ルン
パーク、ヒュン・ジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2010519602A publication Critical patent/JP2010519602A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Abstract

信号源分離の方法、装置、およびシステムは、複数のMチャネル信号のそれぞれに基づく収束した複数の係数値を含む。複数のMチャネル信号はそれぞれ、少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づく。いくつかの例では、収束した複数の係数値は、Mチャネル信号をフィルタリングして情報出力信号と干渉出力信号とを生成するのに使用される。

Description

本開示は信号処理に関する。
(合衆国法典第35巻第119条による優先権の主張)
本特許出願は、2007年2月26日に出願された、「音響信号の分離のためのシステムおよび方法(SYSTEM AND METHOD FOR SEPARATION OF ACOUSTIC SIGNALS)」という名称の米国仮特許出願第60/891677号の優先権を主張するものである。
(同時係属特許出願の参照)
本特許出願は、以下の同時係属の特許出願に関連するものである。
2005年6月9日に出願された、「安定性制約条件下での独立成因解析を使用した音声処理のシステムおよび方法(SYSTEM AND METHOD FOR SPEECH PROCESSING USING INDEPENDENT COMPONENT ANALYSIS UNDER STABILITY RESTRAINTS)」という名称の、Visserらによる米国特許出願第10/537985号、および
2007年2月27日に出願された、「分離信号を生成するシステムおよび方法(SYSTEM AND METHOD FOR GENERATING A SEPARATED SIGNAL)」という名称の、Chanらによる国際特許出願PCT/US2007/004966号。
情報信号は、やむを得ず雑音の多い環境で捕捉されることもある。したがって、情報信号を、情報源からの信号と1つまたはそれ以上の干渉源からの信号を含むいくつかの源信号の重畳されたものおよび線形合成の中から識別することが求められる場合もある。このような問題は、音響、電磁(無線周波数など)、地震、画像の各分野など多様な異なる用途において生じ得る。
このような混合信号から信号を分離する一手法は、混合環境の逆を近似する分離(unmixing)行列を構築するものである。しかし、現実の捕捉環境はしばしば、時間遅延、多重通路、反射、位相差、エコー、および/または残響などの影響を含む。このような影響は、これまでの線形モデル化法では問題を生じるおそれがあり、また周波数依存ともなり得る源信号の重畳混合を生じる。このような混合信号から1つまたはそれ以上の所望の信号を分離する信号処理方法を開発することが望まれている。
一構成による信号処理の方法は、Mを1より大きい整数とする複数のMチャネル訓練信号に基づき、信号源分離フィルタ構造の複数の係数値を訓練して、収束した信号源分離フィルタ構造を取得することと、収束した信号源分離フィルタ構造が、複数のMチャネル訓練信号のそれぞれを、少なくとも1つの情報出力信号と干渉出力信号とに十分に分離するかどうか判定することとを含む。この方法においては、複数のMチャネル訓練信号の少なくとも1つは、前記変換器と信号源とが第1の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づくものであり、複数のMチャネル訓練信号の別の1つは、前記変換器と信号源とが第1の空間的構成とは異なる第2の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づく。
別の構成による信号処理の装置は、Mを1より大きい整数とするM個の変換器の配列と、訓練された複数の係数値を有する信号源分離フィルタ構造とを含む。この装置においては、信号源分離フィルタ構造はMチャネル信号をリアルタイムでフィルタリングしてリアルタイム情報出力信号を取得するように構成されており、訓練された複数の係数値は複数のMチャネル訓練信号に基づくものであり、複数のMチャネル訓練信号の少なくとも1つは、前記変換器と信号源とが第1の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づくものであり、複数のMチャネル訓練信号の別の1つは、前記変換器と信号源とが第1の空間的構成とは異なる第2の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づく。
一構成によるコンピュータ可読媒体は、プロセッサによって実行されると、プロセッサに、Mを1より大きい整数とする複数のMチャネル訓練信号に基づき、信号源分離フィルタ構造の複数の係数値を訓練して、収束した信号源分離フィルタ構造を取得させ、収束した信号源分離フィルタ構造が、複数のMチャネル訓練信号のそれぞれを、少なくとも1つの情報出力信号と干渉出力信号とに十分に分離するかどうか判定させる命令を含む。この媒体においては、複数のMチャネル訓練信号の少なくとも1つは、前記変換器と信号源とが第1の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づくものであり、複数のMチャネル訓練信号の別の1つは、前記変換器と信号源とが第1の空間的構成とは異なる第2の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づく。
一構成による信号処理の装置は、Mを1より大きい整数とするM個の変換器の配列と、訓練された複数の係数値に従って信号源分離フィルタリング操作を行う手段とを含む。この装置においては、信号源分離フィルタリング操作を行う手段はMチャネル信号をリアルタイムでフィルタリングしてリアルタイム情報出力信号を取得するように構成されており、訓練された複数の係数値は複数のMチャネル訓練信号に基づくものであり、複数のMチャネル訓練信号の少なくとも1つは、前記変換器と信号源とが第1の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づくものであり、複数のMチャネル訓練信号の別の1つは、前記変換器と信号源とが第1の空間的構成とは異なる第2の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づく。
一構成による信号処理の方法は、Mを1より大きい整数とする複数のMチャネル訓練信号に基づき、信号源分離フィルタ構造の複数の係数値を訓練して、収束した信号源分離フィルタ構造を取得することと、収束した信号源分離フィルタ構造が、複数のMチャネル訓練信号のそれぞれを、少なくとも1つの情報出力信号と干渉出力信号とに十分に分離するかどうか判定することとを含む。この方法においては、複数のMチャネル訓練信号はそれぞれ、少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づくものであり、複数のMチャネル訓練信号の少なくとも2つは、(A)少なくとも1つの情報源の空間的特徴、(B)少なくとも1つの干渉源の空間的特徴、(C)少なくとも1つの情報源のスペクトルの特徴、および(D)少なくとも1つの干渉源のスペクトルの特徴のうちの少なくとも1つに関して異なり、上記信号源分離フィルタ構造の複数の係数値を訓練することは、独立ベクトル解析アルゴリズムと制約付き独立ベクトル解析アルゴリズムのうちの少なくとも1つに従って複数の係数値を更新することを含む。
別の構成による信号処理の装置は、Mを1より大きい整数とするM個の変換器の配列と、訓練された複数の係数値を有する信号源分離フィルタ構造とを含む。この装置においては、信号源分離フィルタ構造は、Mチャネル信号をリアルタイムでフィルタリングしてリアルタイム情報出力信号を取得するように構成されており、訓練された複数の係数値は複数のMチャネル訓練信号に基づくものであり、複数のMチャネル訓練信号はそれぞれ、少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づくものであり、複数のMチャネル訓練信号の少なくとも2つは、(A)少なくとも1つの情報源の空間的特徴、(B)少なくとも1つの干渉源の空間的特徴、(C)少なくとも1つの情報源のスペクトルの特徴、および(D)少なくとも1つの干渉源のスペクトルの特徴のうちの少なくとも1つに関して異なり、訓練された複数の係数値は、独立ベクトル解析アルゴリズムと制約付き独立ベクトル解析アルゴリズムのうちの少なくとも1つに従って複数の係数値を更新することに基づく。
開示の一般的構成による収束したフィルタ構造を生成する方法M100を示す流れ図である。 方法M200の実施方法M200を示す流れ図である。 訓練データを記録するために構成された音響無響室の一例を示す図である。 2つの異なる動作構成におけるモバイルユーザ端末の一例を示す図である。 2つの異なる動作構成におけるモバイルユーザ端末の一例を示す図である。 2つの異なる訓練シナリオにおける図3A〜3Bのモバイルユーザ端末を示す図である。 2つの異なる訓練シナリオにおける図3A〜3Bのモバイルユーザ端末を示す図である。 2つの別の異なる訓練シナリオにおける図3A〜3Bのモバイルユーザ端末を示す図である。 2つの別の異なる訓練シナリオにおける図3A〜3Bのモバイルユーザ端末を示す図である。 ヘッドセットの一例を示す図である。 線形配列のマイクロホンを有する筆記具(ペンなど)またはスタイラスの一例を示す図である。 ハンズフリー自動車キットの一例を示す図である。 図8の自動車キットの応用例を示す図である。 フィードバックフィルタ構造を含む信号源分離器F10の実装例F100を示すブロック図である。 信号源分離器F100の実装例F110を示すブロック図である。 3チャネル入力信号を処理するように構成された信号源分離器F100の実装例F120を示すブロック図である。 クロスフィルタC110およびC120のそれぞれの実装例C112およびC122を含む信号源分離器F100の実装例F102を示すブロック図である。 クロスフィルタC110およびC120のそれぞれの実装例C112およびC122を含む信号源分離器F100の実装例F102を示すブロック図である。 クロスフィルタC110およびC120のそれぞれの実装例C112およびC122を含む信号源分離器F100の実装例F102を示すブロック図である。 スケーリング係数を含む信号源分離器F100の実装例F104を示すブロック図である。 フィードフォワードフィルタ構造を含む信号源分離器F10の実装例F200を示すブロック図である。 TSS F200の実装例F210を示すブロック図である。 TSS F200の実装例F220を示すブロック図である。 ヘッドセット応用例での収束解の一例を示すグラフである。 筆記具の応用例での収束解の一例を示すグラフである。 カスケード構成に配置された信号源分離器F10の2つの例F10aおよびF10bを含む装置A100を示すブロック図である。 スイッチS100を含む装置A100の実装例A110を示すブロック図である。 一般的構成による装置A200を示すブロック図である。 一般的構成による装置A300を示すブロック図である。 スイッチS100を含む装置A300の実装例A310を示すブロック図である。 装置A300の実装例A320を示すブロック図である。 装置A300と装置A100との実装例A330を示すブロック図である。 装置A300の実装例A340を示すブロック図である。 一般的構成による装置A400を示すブロック図である。 装置A400の実装例A410を示すブロック図である。 一般的構成による装置A500を示すブロック図である。 装置A500の実装例A510を示すブロック図である。 エコーキャンセラB502を示すブロック図である。 エコーキャンセラB502の実装例B504を示すブロック図である。
本明細書で開示するシステム、方法、および装置は、音響信号(発話、音、超音波、ソナーなど)、生理学的または他の医用信号(心電図、脳波、脳磁図など)、ならびに撮像信号および/または測距信号(磁気共鳴、レーダ、地震など)を含む、多くの異なる種類の信号を処理するのに適合され得る。このようなシステム、方法、および装置の用途には、音声特徴抽出、音声認識、および音声処理における使用が含まれる。
以下の説明では、記号iを2つの異なるやり方で使用する。係数として使用するときには、記号iは−1の虚数の平方根を表わす。また記号iは、行列の列またはベクトルの要素などのインデックスを示すのにも使用する。いずれの用法も当該分野には一般的であり、当業者は、記号iの各インスタンスが使用されている文脈から2つのうちのいずれを意図するものか理解するであろう。
以下の説明では、行列Xに適用される場合の表記diag(X)は、対角がXの対角と等しく、他の値が0である行列を示す。
文脈において明示的に限定されない限り、「信号(signal)」という用語は、本明細書では、電線、バス、または他の伝送媒体上で表わされる場合の記憶場所(または記憶場所の組)の状態を含む、この用語の通常の意味のいずれかを表わすのに使用する。文脈において明示的に限定されない限り、「生成する(generating)」という用語は、本明細書では、計算処理や別の方法による作成などの、この用語の通常の意味のいずれかを表わすのに使用する。文脈において明示的に限定されない限り、「計算する(calculating)」という用語は、本明細書では、計算処理、評価、および/または1組の値の中からの選択などの、この用語の通常の意味のいずれかを表わすのに使用する。文脈において明示的に限定されない限り、「取得する(obtaining)」という用語は、計算、導出、(外部装置などからの)受信、および/または(記憶素子配列などからの)検索などの、この用語の通常の意味のいずれかを表わすのに使用する。本明細書および特許請求の範囲において「備える(comprising)」という用語が使用される場合、この用語は、他の要素または操作を除外するものではない。「〜に基づく(based on)」(「AはBに基づく」の場合のような)という用語は、(i)「少なくとも〜に基づく」(「Aは少なくともBに基づく」など)、および、特定の文脈において該当する場合には、(ii)「〜と等しい」(「AはBと等しい」など)を含む、この用語の通常の意味のいずれかを表わすのに使用する。
別段の指定がない限り、特定の特徴を有する装置の動作のあらゆる開示は、類似の特徴を有する方法を開示することも明示的に意図するものであり(逆もまた同様)、特定の構成による装置の動作のあらゆる開示は、類似の構成による方法を開示することも明示的に意図するものである(逆もまた同様)。
図1Aに、開示の一般的構成による収束したフィルタ構造を生成する方法M100の流れ図を示す。複数のMチャネル信号(Mを1より大きいものとする)に基づき、タスクT110は、信号源分離フィルタ構造の複数のフィルタ係数値を訓練して、収束した信号源分離フィルタ構造を取得する。タスクT120は、収束したフィルタ構造が、複数のMチャネル信号のそれぞれを、少なくとも1つの情報出力信号と干渉出力信号とに十分に分離するかどうか判定する。
当業者には、複数の係数値を訓練することは、適応アルゴリズムに基づいて複数の係数値を更新することを含み得ることがわかるであろう。適応アルゴリズムの一例が信号源分離アルゴリズムである。一連のP個のMチャネル信号が捕捉された後で、各(第1および第2の)複数の係数値の組が「更新」される。第3の複数の係数値の組は、タスクT130における判定に基づいて「学習」、「適合」、または「収束」される(これらの用語は同義で使用されることもある)。典型的な用途では、タスクT110、タスクT120およびタスクT130(ならびにおそらくは1つまたはそれ以上の類似のタスク)をオフラインで逐次実行して収束した複数の係数値が取得され、タスクT140を、オフライン、オンライン、またはオフラインとオンラインの両方で実行して、収束した複数の係数値に基づく信号がフィルタリングされる。
方法M100では、Mチャネル訓練信号はそれぞれ、少なくとも1つの情報源と少なくとも1つの干渉源とに応答して少なくともM個の変換器によって捕捉される。変換器信号は典型的にはサンプリングされ、前処理(例えば、エコーキャンセル、雑音低減、スペクトル整形などのためにフィルタリング)されることもあり、(本明細書で説明するような別の信号源分離器や適応フィルタなどによって)事前分離されることさえもある。音声などの音響用途では、典型的なサンプリング速度は、8kHzから16kHzまでの範囲に及ぶ。
Mチャネルはそれぞれ、対応するM個の変換器の1つの出力に基づく。特定の用途に応じて、M個の変換器は、音響信号、電磁信号、振動、または別の現象を感知するように設計され得る。例えば、電磁波を感知するのにアンテナが使用され、音波を感知するのにマイクロホンが使用される。変換器は、全方向、双方向、または単方向(カージオイドなど)の応答を有する場合がある。音響用途では、使用され得る様々な種類の変換器には、圧電マイクロホン、ダイナミックマイクロホン、およびエレクトレットマイクロホンが含まれる。
複数PのMチャネル訓練信号はそれぞれ、P通りのシナリオのうちの異なる対応する1つにおいて捕捉される(例えば記録される)入力データに基づくものであり、Pは2としてもよいが、一般には、1より大きい整数である。シナリオは、異なる空間的特徴(異なる送受話器やヘッドセットの配向など)および/または異なるスペクトルの特徴(異なる特性を有する音源の捕捉など)を備えるものとすることができる。例えば音源は、雑音様のもの(街頭騒音、バブル雑音、周囲雑音など)である場合もあり、音声や楽器を含む場合もある。音源からの音波は壁または近くの物体から跳ね返り、または反射して様々な音を生成し得る。「音源(sound source)」という用語は、元の音源を示すのみならず、元の音源以外の異なる音を表わすのにも使用され得ることを当業者は理解するものである。用途に応じて音源は情報源と呼ばれることも干渉源と呼ばれることもある。
図4A、図4B、図5A、図5Bに、P通りのシナリオの1つで使用され得る送受話器の異なる例示的配向を示す。異なるヘッドセットの配向を捕捉するためのN通りの異なる配向が考えられ、Nは2とすることもできるが、一般には1より大きい整数である。図6に、P通りのシナリオの1つで使用されるヘッドセットの配向の一例を示す。ヘッドセットの調節の度合いを変えることにより、異なるヘッドセットの配向を捕捉するH通りの異なる配向を使用することができる。ヘッドセットまたは送受話器は少なくともM個の変換器を有し得る。
方法M100の複数のMチャネル訓練信号は、個々の異なるシナリオでの異なる配向(すなわちHまたはN)における信号(すなわち様々な音源)の別々の時間間隔の入力を表すものとすることができる。
図1Bに、方法M100の実施方法M200の流れ図を示す。方法M200は、収束したフィルタ構造の訓練された複数の係数値に基づき、Mチャネル信号をリアルタイムでフィルタリングするタスクT130を含む。
典型的な場合には、Mチャネル信号はMチャネルの(一部または全部の)混合信号を表わし、本明細書ではこれをMチャネル混合信号と表記する。比較的静かな環境での通常の音声の場合でさえも、Mチャネル信号は混合信号として処理され得ることに留意すべきである。このような場合、例えば、(干渉源などの)周囲雑音がごくわずかしかなく、(情報源などの)人が話している場合には、一部の混合信号は非常に低いということができる。
同じM個の変換器を使用して、一連のMチャネル信号すべてが基礎とする信号が捕捉されることもある。あるいは、一連の信号の1つが基礎とする信号を捕捉するのに使用されるM個の変換器の組が、一連の信号の別の1つが基礎とする信号を捕捉するのに使用されるM個の変換器の組と(変換器の1つまたはそれ以上において)異なることが望ましい場合がある。例えば、ある程度の変換器間の変動に対してロバストな複数の係数値を生じさせるには、異なる変換器の組を使用することが望ましい場合がある。
P通りのシナリオはそれぞれ少なくとも1つの情報源と少なくとも1つの干渉源とを含む。典型的には、これらの信号源はそれぞれ、各情報源は特定の用途に適する信号を再現する変換器であり、各干渉源は特定の用途において予期され得る種類の干渉を再現する変換器であるような変換器である。音響用途では、例えば、各情報源は、音声信号または音楽信号を再現する拡声器とすることができ、各干渉源は、別の音声信号や典型的な予期される環境からの周囲背音または雑音信号などの、干渉音響信号を再現する拡声器とすることができる。音響用途では、P通りのシナリオのそれぞれにおけるM個の変換器からの入力データの記録または捕捉は、Mチャネルのテープレコーダ、Mチャネルの音の記録または捕捉機能を有するコンピュータ、またはM個の変換器の出力を同時に(例えば、サンプリング解像度以内で)記録し、または捕捉することのできる他の機器を使用して行われ得る。
図2に、訓練データを記録するために構成された音響無響室の一例を示す。音響無響室は、一連のMチャネル信号が基礎とする訓練に使用される信号を捕捉するのに使用され得る。この例では、デンマーク・ネーロム(Naerum, Denmark)所在のブリュエル・ケアー(Bruel & Kjaer)社製)のHATS(Head and Torso Simulator(頭部および胴部シミュレータ)が、内側中心を向いた干渉源(すなわち4台の拡声器)の配列内に配置されている。このような場合、干渉源の配列は、図示のようにHATSを囲む拡散雑音場を生じさせるように駆動され得る。場合によっては、1つまたはそれ以上のこのような干渉源が、異なる空間分布を有する雑音場(指向性雑音場など)を生じさせるように駆動されてもよい。
使用され得る雑音信号の種類には、ホワイトノイズ、ピンクノイズ、グレーノイズ、およびホス雑音(例えば、米国ニュージャージー州ピスカタウェイ(Piscataway, NJ)所在の米国電気電子技術者協会(IEEE)によって公表された、IEEE規格269-2001、「アナログおよびデジタルの電話機、送受話器およびヘッドセットの伝送性能を測定する方法の規格草案(IEEE Standard 269-2001, "Draft Standard Methods for Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets")」などに記載されている)が含まれる。特に非音響用途に使用され得る他の種類の雑音信号には、ブラウンノイズ、ブルーノイズ、パープルノイズが含まれる。
P通りのシナリオは、少なくとも1つの空間的特徴および/またはスペクトルの特徴において相互に異なる。信号源と記録用変換器の空間的構成は、他の1つまたは複数の信号源に対する信号源の配置および/または配向、他の1つまたは複数の記録用変換器に対する記録用変換器の配置および/または配向、記録用変換器に対する信号源の配置および/または配向、ならびに信号源に対する記録用変換器の配置および/または配向のいずれか1つまたはそれ以上においてシナリオごとに異なり得る。例えば、複数のP通りのシナリオの中の少なくとも2つは、変換器および信号源の中の少なくとも1つが、一方のシナリオにおいて、これの他方のシナリオにおける位置または配向とは異なる位置または配向を有するような異なる変換器および信号源の空間的構成に対応し得る。
シナリオごとに異なり得るスペクトルの特徴には、少なくとも1つの源信号のスペクトル内容(異なる発声からの音声、異なる色のノイズなど)、および記録用変換器の1つまたはそれ以上の周波数応答が含まれる。前述の1つの特定例では、シナリオの少なくとも2つが、記録用変換器の少なくとも1つに関して異なる。このような変動は、変換器の周波数および/または位相応答の予期される変化の範囲にわたってロバストな解決法をサポートするのに望ましい場合がある。
別の特定例では、シナリオの少なくとも2つが、暗騒音を含み、暗騒音のシグネチャ(すなわち、周波数および/または時間に対する雑音の統計)に関して異なる。このような場合、干渉源は、P通りのシナリオのうちの1つではある色(ホワイト、ピンク、ホスなど)または種類(街頭騒音、バブル雑音、自動車騒音の再現など)の雑音を発し、P通りのシナリオのうちの別の1つでは別の色または種類の雑音を発するように構成され得る。
P通りのシナリオの少なくとも2つは、実質的に異なるスペクトル内容を有する信号を生成する情報源を含み得る。音声用途では、例えば、2つの異なるシナリオにおける情報信号は、10パーセント以上、20パーセント以上、30パーセント以上、または50パーセント以上も異なる(シナリオの全長に及んで)平均ピッチを有する発声などとすることができる。シナリオごとに異なり得る別の特徴は、他の1つまたは複数の信号源の出力振幅に対する信号源の出力振幅である。シナリオごとに異なり得る別の特徴は、他の1つまたは複数の記録用変換器の利得(感度)に対する記録用変換器の利得(感度)である。
後述するように、P通りのMチャネル訓練信号を使用して収束した複数の係数値が取得される。P通りの訓練信号のそれぞれの持続期間は、訓練操作の予期される収束速度に基づいて選択され得る。例えば、各訓練信号ごとに、収束に向けた有意な進行を可能にするのに十分なほど長いが、同時に他のMチャネル訓練信号を実質的にこの収束解に関与させるのにも十分なほど短い持続期間を選択することが望ましい場合がある。典型的な音響用途では、P通りのMチャネル訓練信号はそれぞれ、約0.5秒間または1秒間から約5秒間または10秒間まで続く。典型的な訓練操作では、Mチャネル訓練信号のコピーを無作為な順序で連結して、訓練に使用すべき音ファイルが取得される。
ある1組の特定用途においては、M個の変換器は、携帯電話の送受話器などの無線通信用携帯型機器のマイクロホンである。図3Aおよび図3Bに、1台のこのような機器50の2つの異なる動作構成を示す。この特定例では、Mは3である(1次マイクロホン53および2つの2次マイクロホン54)。図3Aに示すハンズフリー動作構成では、遠端信号がスピーカ51によって再現され、図4Aおよび図4Bには、ユーザの口に対する機器の2つの異なる可能な配向が示されている。Mチャネル訓練信号の1つを、これら2つの構成の一方においてマイクロホンが生成する信号に基づくものとし、Mチャネル訓練信号の別の1つを、これら2つの構成の他方においてマイクロホンが生成する信号に基づくものとすることが望ましい場合がある。
図3Bに示す通常の動作構成では、遠端信号が受信機52によって再現され、図5Aおよび図5Bには、ユーザの口に対する機器の2つの異なる可能な配向が示されている。Mチャネル訓練信号の1つを、これら2つの構成の一方においてマイクロホンが生成する信号に基づくものとし、Mチャネル訓練信号の別の1つを、これら2つの構成の他方においてマイクロホンが生成する信号に基づくものとすることが望ましい場合がある。
一例では、方法M100は、図3Aのハンズフリー動作構成のための訓練された複数の係数値と、図3Bの通常の動作構成のための別の訓練された複数の係数値を生成するように実施される。このような方法M100の実施方法は、タスクT110の1つのインスタンスを実行して一方の訓練された複数の係数値を生成し、タスクT110の別のインスタンスを実行して他方の訓練された複数の係数値を生成するように構成され得る。このような場合、方法M200のタスクT130は、(例えば、機器が開いているかそれとも閉じているか指示するスイッチの状態に従って)実行時に2組の訓練された複数の係数値の中から選択するように構成され得る。代替的には、方法M100は、図4A、図4B、図5Aおよび図5に示す4つの配向のそれぞれに従って複数の係数値を逐次更新することによって、単一の訓練された複数の係数値の組を生成するように実施されてもよい。
この音声用途ではP通りの訓練シナリオのそれぞれについて、1つまたはそれ以上のハーバード例文(Harvard Sentences)(「音声品質測定のためのIEEE推奨方法」、音声および電気音響学に関するIEEE会報、第17巻、227〜246頁、1969年(IEEE Recommended Practices for Speech Quality Measurements in IEEE Transactions on Audio and Electroacoustics, vol.17, pp. 227-46, 1969)に記載されている)などの標準化された語彙を発する発声をユーザの口から再現することによって、情報信号がM個の変換器に提供され得る。このような例の1つでは、89dBの音圧レベルで音声は、HATSの口拡声器から再現される。P通りの訓練シナリオの少なくとも2つは、この情報信号に関して互いに異なり得る。例えば、異なるシナリオは、実質的に異なるピッチを有する発声を使用する場合がある。追加的には、または代替的には、P通りの訓練シナリオの少なくとも2つが、(例えば、異なるマイクロホンの応答のばらつきを捕捉するなどのために)送受話器の異なるインスタンスを使用してもよい。
あるシナリオは、送受話器のスピーカを(標準化語彙を発する発声などにより)駆動して指向性干渉源を提供することを含み得る。図3Aのハンズフリー動作構成では、このようなシナリオは、スピーカ51を駆動することを含み得、図3Bの通常の動作構成では、このようなシナリオは、受信機52を駆動することを含み得る。あるシナリオは、例えば、図2に示すような干渉源の配列などによって作られる拡散雑音場に加えて、またはこの代替としてこのような干渉源を含み得る。このような例の1つでは、拡声器の配列は、HATSの耳基準点または口基準点において75から78dBの音圧レベルで雑音信号を再生するように構成されている。
別の特定用途の組においては、M個の変換器は有線または無線の受話器または他のヘッドセットのマイクロホンである。例えば、このような機器は、(米国ワシントン州ベルビュー所在のブルートゥーススペシャルインタレストグループ(Bluetooth(登録商標) Special Interest Group, Inc., Bellevue, WA)が公表しているブルートゥース(登録商標)プロトコルの1バージョンなどを使用した)携帯電話の送受話器などの電話機器との通信による半二重または全二重電話技術をサポートするように構成されている。図6に、ユーザの耳65に装着するように構成されたこのようなヘッドセットの一例63を示す。ヘッドセット63には、ユーザの口64に対して縦型構成に配置された2つのマイクロホン67がある。
このようなヘッドセットのための訓練シナリオは、前述の送受話器用途に関して述べたような情報源および/または干渉源の任意の組み合わせを含み得る。P通りの訓練シナリオのうちの異なるものによってモデル化され得る別の違いは、図6にヘッドセット取付けの変動性66として示すように、耳に対する変換器軸の角度の変動である。このような変動は、実際には、ユーザごとに生じ得る。このような変動は、1回の機器の装着期間に同じユーザに関してさえも生じ得る。このような変動は、変換器配列からユーザの口までの方向および距離を変化させることにより、信号分離性能に悪影響を及ぼし得ることが理解されるであろう。このような場合には、複数のMチャネル訓練信号の1つを、ヘッドセットが予期される取付け角度範囲の一方の極値またはその近辺において耳65に取り付けられるシナリオに基づくものとし、Mチャネル訓練信号の別の1つを、ヘッドセットが予期される取付け角度範囲の他方の極値またはその近辺において耳65に取り付けられるシナリオに基づくものとすることが望ましい場合がある。
さらなる用途の組においては、M個の変換器は、ペン、スタイラス、または他の描画用具内に設けられたマイクロホンである。図7に、マイクロホン80が、先端から到来する、先端と描画面81との接触によって生じる引っ掻き音82に対して縦型構成に配置されている、このような機器79の一例を示す。このような機器のための訓練シナリオは、前述の送受話器用途に関して述べたような情報源および/または干渉源の任意の組み合わせを含み得る。追加的には、または代替的には、異なるシナリオは、引っ掻き音82の(例えば、異なる時間および/または周波数のシグネチャを有する)異なるインスタンスを引き出すために、異なる面上で器具79の先端を引くことを含んでいてもよい。前述の送受話器およびヘッドセットの用途に比べて、このような用途では、方法M100は、情報源(すなわちユーザの発声)ではなく干渉源(すなわち引っ掻き音)を分離するように複数の係数値を訓練することが望ましい場合がある。このような場合、分離された干渉は、後述するように後処理において所望の信号から除去され得る。
別の用途においては、M個の変換器は、ハンズフリー自動車用キットに設けられたマイクロホンである。図8に、拡声器85が変換器配列84の横に配置されたこのような機器83の一例を示す。このような機器のための訓練シナリオは、前述の送受話器用途に関して述べたような情報源および/または干渉源の任意の組み合わせを含み得る。ある特定例では、方法M100の2つのインスタンスが、2組の異なる訓練された複数の係数値を生成するように実行される。第1のインスタンスは、図9に示すように、マイクロホン配列に関して所望の発話者の配置が異なる訓練シナリオを含む。またこのインスタンスのシナリオは、前述のような拡散雑音場や指向性雑音場などの干渉を含んでいてもよい。
第2のインスタンスは、干渉信号が拡声器85から再現される訓練シナリオを含む。異なるシナリオは、異なる時間および/または周波数のシグニチャ(実質的に異なるピッチの周波数など)を有する音楽および/または発声などの、拡声器85から再現される干渉信号を含んでいてもよい。またこのインスタンスのシナリオは、前述のような拡散雑音場や指向性雑音場などの干渉を含んでいてもよい。方法M100のこのインスタンスでは、干渉源(すなわち拡声器85)からの干渉信号を分離するように対応する複数の係数値を訓練することが望ましい場合がある。図18Aに示すように、2組の訓練された複数の係数値を使用して、後述するような、カスケード構成に配置された信号源分離器F10の個々のインスタンスF10a、F10bが構成され、この場合、信号源分離器F10aの処理遅延を補償するために遅延D10が設けられる。
以上のこれらの設計ステップすべてにおいて選択の試験機器としてHATSを説明しているが、他の任意の人間型シミュレーション(シミュレータ)または人間の話者を所望の音声生成信号源に置き換えることもできる。すべての周波数に及ぶ分離行列をより適切に調整するために少なくとも若干量の暗騒音を使用することが有益である。代替的には、試験は、使用前または使用中にユーザによって行われてもよい。例えば、試験は、変換器から口までの距離などのユーザの特徴に基づいて、または環境に基づいてパーソナル化することもできる。エンドユーザなどのユーザがシステムを特定の特徴、形質、環境、用途などに調整するための一連の事前設定された「質問」を設計することができる。
前述の手順を結合して1つの試験および学習段にし、HATSから所望の発話者信号を干渉源信号と共に再生することにより、特定の用途のための固定ビームおよびヌルのビーム形成器を同時に設計することもできる。
(リアルタイム固定フィルタ設計などとして実施すべき)訓練され収束したフィルタ解は、好ましい実施形態では、自己雑音と周波数および空間選択性とを相殺するはずである。音声用途では、前述のように、様々な所望の発話者方向が、一方の出力チャネルに対応する多少広いヌルと、他方の出力チャネルに対応する広域ビームとをもたらし得る。取得されるフィルタのビームパターンおよびホワイトノイズの利得は、所望の発話者方向および雑音周波数内容の空間的変動性のみならず、マイクロホンの利得および位相特性にも適合させることができる。必要な場合には、訓練データを記録する前にマイクロホンの周波数応答を等化することもできる。一例では、特定の環境での静かな背景と雑音の多い背景において特定の再生音量でデータを記録することにより、収束フィルタ解が特定のマイクロホン利得および位相特性をモデル化し、機器のある範囲の空間特性およびスペクトル特性に適合させることになる。機器は、このようにしてモデル化される特定の雑音特性および共鳴モードを有していてもよい。学習されたフィルタは、典型的には、特定のデータに適合されるため、フィルタはデータ依存であり、結果として生じるビームパターンおよびホワイトノイズ利得は、学習速度、訓練データの多様性およびセンサの数を変化させることにより、反復して解析され、形成される必要がある。代替的には、広いビームパターンを、標準のデータ独立およびおそらくは周波数不変のビーム形成設計(超指向性ビーム形成器、最小二乗ビーム形成器、統計的に最適なビーム形成器など)から取得することもできる。これらのデータ依存またはデータ独立の設計の任意の組み合わせが特定の用途に適することもある。データ独立のビーム形成器の場合には、例えば雑音相関行列を調整するなどにより、ビームパターンを形成することもできる。
前処理設計の中にはオフラインで設計、学習されるフィルタを利用するものもあるが、マイクロホン特性は時間的ずれを生じることがあり、配列構成が機械的に変化することもある。このため、マイクロホンの周波数特性および感度を周期的に整合させるためのオンライン較正ルーチンが必要になる場合がある。例えば、Mチャネル訓練信号のレベルを整合させるためにマイクロホンの利得を再較正することが望ましい場合がある。
タスクT110は、信号源分離アルゴリズムに従って信号源分離フィルタ構造の複数のフィルタ係数値を逐次更新するように構成されている。以下でこのようなフィルタ構造の様々な例を説明する。典型的な信号源分離アルゴリズムは、1組の混合信号を処理して、信号と雑音の両方を有する合成チャネルと少なくとも1つの雑音優位のチャネルとを含む1組の分離されたチャネルを生成する。また、合成チャネルは、入力チャネルと比べて大きい信号対雑音比(SNR)を有し得る。
タスクT120は、収束したフィルタ構造が複数のMチャネル信号のそれぞれについて情報を干渉から十分に分離するかどうか判定する。このような動作は、自動で行われても、人的監視によって行われてもよい。このような判定動作の一例では、情報源からの既知の信号を、訓練された複数の係数値を用いて対応するMチャネル訓練信号をフィルタリングした結果と相関させることに基づくメトリックを使用する。既知の信号は、フィルタリングされると、あるチャネルにおけるワードまたは一連のセグメントと実質的に相関関係を有する出力を生成し、他のすべてのチャネルにおいてはほとんど相関関係のないワードまたは一連のセグメントを有し得る。このような場合、相関結果と閾値の間の関係に従って十分な分離があると判定され得る。
このような判定動作の別の例は、訓練された複数の係数値を用いてMチャネル訓練信号をフィルタリングし、これの各結果を対応する閾値と比較することによって生成される少なくとも1つを計算する。このようなメトリックには、分散などの統計的特性、ガウス性、および/または尖度などの高次統計学的モーメントが含まれ得る。音声信号では、このような特性には、ゼロ交差率および/または経時的バースト性(時間的散在性ともいう)も含まれ得る。一般に、音声信号は雑音信号より低いゼロ交差率および低い時間的散在性を呈する。
タスクT110は、タスクT120が1つまたはそれ以上(おそらくはすべて)の訓練信号について失敗するような極小値に収束する可能性がある。タスクT120が失敗した場合には、以下で説明するような異なる訓練パラメータ(学習速度、幾何学的制約条件など)を使用してタスクT100が繰り返されてもよい。タスクT120は、Mチャネル訓練信号の一部だけについて失敗する可能性もあり、この場合には、収束解(すなわち訓練された複数の係数値)を、タスクT120が成功した複数の訓練信号に適するものとして保持することが望ましい場合がある。このような場合には、方法M100を繰り返して他の訓練信号の解を取得することが望ましい場合があり、あるいは、代替的には、タスクT120が失敗した信号が、特殊事例として無視されてもよい。
「信号源分離アルゴリズム(source separation algorithm)」という用語は、独立成分解析(ICA)や、独立ベクトル解析(IVA)などの関連する方法などのブラインド信号源分離アルゴリズムを含む。ブラインド信号源分離(BSS)アルゴリズムは、源信号の混合信号だけに基づいて(1つまたはそれ以上の情報源および1つまたはそれ以上の干渉源からの信号を含み得る)個々の源信号を分離する方法である。「ブラインド(blind)」という用語は、基準信号または対象とする信号が利用できないことを指すものであり、このような方法は一般には、情報信号および/または干渉信号の1つまたはそれ以上の統計に関する仮定を含む。音声用途では、例えば、対象とする音声信号は一般に、スーパーガウス(supergaussian)分布(高い尖度など)を有するものと仮定される。
BSSアルゴリズムのクラスには、多変量ブラインドデコンボリュージョンアルゴリズムが含まれる。また信号源分離アルゴリズムには、記録用変換器の配列の軸などに対する源信号の1つまたはそれ以上のそれぞれの既知の方向などの、他の事前情報に従って制約される、ICAやIVAなどのブラインド信号源分離アルゴリズムの変形も含まれる。このようなアルゴリズムは、観測信号に基づかず、方向情報だけに基づいて固定の非適合解を適用するビーム形成器とは区別され得る。
方法M100が訓練された複数の係数値を生成した後、これらの係数値は、実行時フィルタ(本明細書で説明する信号源分離器F100など)において使用されてもよく、そこでこれらの係数値は固定とすることも、適合可能な状態とすることもできる。方法M100を使用すれば、多くの変動性を含み得る環境において望ましい解に収束し得る。
訓練された複数の係数値の計算は、時間領域において実行されても、周波数領域において実行されてもよい。また係数値は、周波数領域において計算され、時間領域信号に適用するための時間領域係数に変形されてもよい。
一連のMチャネル入力信号に応答した係数値の更新は、信号源分離器への収束解が取得されるまで続行し得る。この動作の間には、一連のMチャネル入力信号の少なくとも一部が、おそらくは異なる順序で繰り返されてもよい。例えば一連のMチャネル入力信号は、収束解が取得されるまでループにおいて繰り返される。収束は、成分フィルタの係数値に基づいて判定され得る。例えば、フィルタ係数値がそれ以上変化しないとき、あるいはある時間間隔にわたるフィルタ係数値の総変化量が閾値より低い(代替的には、閾値以下である)ときに、フィルタは収束していると判定され得る。収束は、ある1つのクロスフィルタの更新動作は終了し、別のクロスフィルタの更新動作は続行しているなどのように、各クロスフィルタごとに独立して判定され得る。代替的には、各クロスフィルタの更新は、すべてのクロスフィルタが収束するまで続行されてもよい。
信号源分離器F100の各フィルタは、1つまたはそれ以上の係数値の組を有する。例えばあるフィルタは、1個、数個、数十個、数百個、または数千個のフィルタ係数を有してもよい。例えば、長期間の時間遅延を捕捉するためにはある時間にわたってまばらに分散された係数を有するクロスフィルタを実施することが望ましい場合がある。係数値の各組の少なくとも1つは、入力データに基づく。
方法M100は、信号源分離アルゴリズムの学習規則に従ってフィルタ係数値を更新するように構成されている。この学習規則は、出力チャネル間の情報量を最大化するように設計され得る。またこのような基準は、出力チャネルの統計的独立性を最大化すること、または出力チャネル間の相互情報量を最小化すること、または出力におけるエントロピーを最大化することと言い換えることもできる。使用され得る異なる学習規則の特定の例には、最大情報量(Infomaxともいう)、最大尤度、および最大非ガウス性(最大尖度など)が含まれる。信号源分離学習規則は、確率的勾配上昇規則に基づくものとするのが一般的である。公知のICAアルゴリズムの例には、Infomax法、FastICA法(www.cis.hut.fi/projects/ica/fastica/fp.shtml)、およびJADE法(www.tsi.enst.fr/~cardoso/guidesepsou.htmlに記載されている近似的同時対角化アルゴリズム)が含まれる。
信号源分離フィルタ構造に使用され得るフィルタ構造には、フィードバック構造、フィードフォワード構造、FIR構造、IIR構造、およびこれらの直結型、カスケード型、並列型、および格子型のものが含まれる。図10Aに、このようなフィルタを2チャネルの応用例において実施するのに使用され得るフィードバックフィルタ構造のブロック図を示す。この構造は、2つのクロスフィルタC110およびC120を含み、無限インパルス応答(IIR)フィルタの一例でもある。図9Bに、直結フィルタD110およびD120を含むこの構造の一変形のブロック図を示す。
図9Aに示すような2つの入力チャネルx、xおよび2つの出力チャネルy、yを有するフィードバックフィルタ構造の適合動作は、以下の各式を使用して説明され得る。
Figure 2010519602
式中、tは時間サンプリングインデックスを表し、h12(t)は時刻tにおけるフィルタC110の係数値を表わし、h21(t)は時刻tにおけるフィルタC120の係数値を表わし、記号
Figure 2010519602
は時間領域重畳操作を表わし、Δh12kは、出力値y(t)およびy(t)の計算後のフィルタC110の第kの係数値の変化を表わし、Δh21kは、出力値y(t)およびy(t)の計算後のフィルタC120の第kの係数値の変化を表わす。
所望の信号の累積密度関数を近似する非線形有界関数として活性化関数fを実施することが望ましい場合がある。特に、音声信号などの正の尖度を有する信号でこの特徴を満たす非線形有界関数の一例が、双曲線正接関数(一般にtanhで示す)である。xの符号に応じて、最大値または最小値に速やかに接近する関数f(x)を使用することが望ましい場合がある。活性化関数fに使用され得る非線形有界関数の他の例には、シグモイド関数、符号関数、および単関数が含まれる。これらの例示的関数は以下のように表わされる。
Figure 2010519602
フィルタC110およびC120の係数値は、サンプルごとに更新されても、次の時間間隔ごとに更新されてもよく、フィルタC110およびC120の係数値は、同じ速度で更新されても、異なる速度で更新されてもよい。異なる係数値は異なる速度で更新することが望ましい場合がある。例えば、低次の係数値は高次の係数値より頻繁に更新することが望ましい場合がある。訓練に使用され得る別の構造は、例えば、図12、および米国特許出願第11/187504号明細書(Visserら)の段落[0087]〜[0091]などに記載されているように、学習段および出力段を含む。
図12Aに、クロスフィルタC110、C120の論理的実装例C112、C122を含む信号源分離器F100の実装例F102のブロック図を示す。図12Bに、更新論理ブロックU110a、U100bを含む信号源分離器F100の別の実装例F104を示す。またこの例は、それぞれ、個々の更新論理ブロックと交信するように構成されたフィルタC112およびC122の実装例C114およびC124も含む。図12Cに、更新論理を含む信号源分離器F100の別の実装例F106のブロック図を示す。この例は、それぞれ、読取りポートおよび書込みポートを備えるフィルタC110およびC120の実装例C116およびC126を含む。このような更新論理は、同じ結果を達成するのに多くの異なるやり方で実施され得ることがわかる。図12Bおよび図12Cに示す実装例は、(設計段などにおいて)訓練された複数の係数値を取得するのに使用されてもよく、また、必要に応じて、後のリアルタイム用途で使用されてもよい。これに対して、図12Aに示す実装例F102には、リアルタイムで使用するための訓練された複数の係数値(分離器F104またはF106を使用して取得される複数の係数値など)がロードされていてもよい。このようなロードは、製造時、後の更新時などに行われ得る。
図10Aおよび図10Bに示すフィードバック構造は、2つを上回るチャネルに拡張されてもよい。例えば、図11に、図10Aの構造を3チャネルに拡張したものを示す。一般に、完全なMチャネルフィードバック構造は、M(M−1)個のクロスフィルタを含むことになり、式(1)〜(4)は、各入力チャネルxおよび出力チャネルyごとのhjm(t)およびΔhjmkに関して同様に一般化され得ることが理解されるであろう。
IIR設計は典型的には、対応するFIR設計より計算上安くつくが、IIRフィルタが実際には(例えば、有界入力に応答して非有界出力を生成するなど)不安定になる可能性もある。非定常音声信号で遭遇し得るような入力利得の増大は、フィルタ係数値の指数関数的増大をもたらし、不安定性を生じさせることがある。音声信号は一般に、ゼロ平均を有するまばらな分布を示すため、活性化関数fの出力は時間的に頻繁に発振し、不安定性の原因となり得る。追加的には、速やかな収束をサポートするには大きな学習パラメータ値が望まれる場合があるが、大きな入力利得はシステムをより不安定にする傾向があり得るため、安定性と収束速度の間には固有のトレードオフが存在し得る。
IIRフィルタ実装例の安定性を確実にすることが望ましい。このような手法の1つは、図13に示すように、到来する入力信号の1つまたはそれ以上の特性に基づいてスケーリング係数S110およびS120を適用させることにより、入力チャネルを適切にスケーリングするものである。例えば、入力信号のレベルが高すぎる場合には、スケーリング係数S110およびS120が低減されて入力振幅を下げるように、入力信号のレベルに従って減衰させることが望ましい場合がある。入力レベルを低減するとSNRも低減され得るが、しかし、これによりさらに分離性能の低下がもたらされる可能性もあり、安定性を保証するのに必要な程度までに限り入力チャネルを減衰させることが望ましい場合がある。
典型的な実装例では、スケーリング係数S110およびS120は相互に等しく、1以下の値を有する。また通常は、スケーリング係数S130をスケーリング係数S110の逆数とし、スケーリング係数S140をスケーリング係数S120とするが、これらの基準のいずれか1つまたはそれ以上の例外も可能である。例えば、対応する変換器の異なる利得特性に対応するためには、スケーリング係数S110およびS120に異なる値を使用することが望ましい場合がある。このような場合、各スケーリング係数は、現在のチャネルレベルに関連する適応可能な部分と(較正動作時などに決定される)変換器特性に関連する固定された部分との合成(和など)とすることができ、機器の耐用期間の間に場合意により更新されてもよい。
フィードバック構造のクロスフィルタを安定させる別の手法は、(サンプルごとなどの)フィルタ係数値の短期変動に対応するための更新論理を実施して、関連する残響を回避するものである。このような手法は、前述のスケーリング法と共に、またはこれの代わりに使用されてもよく、時間領域の平滑化とみなすことができる。追加的には、または代替的には、フィルタ平滑化は、隣り合う周波数ビンにわたる収束した分離フィルタのコヒーレンスを生じさせるために周波数領域において実行されてもよい。このような操作は、好都合には、Kタップフィルタにゼロパディングを行ってより長い長さLにし、(フーリエ変換などにより)時間サポートを増大させてこのフィルタを周波数領域に変換し、次いで、逆変換を行ってフィルタを時間領域に戻すことによって実施され得る。フィルタは実際上、方形時間領域窓で窓かけされているため、これに対応して、周波数領域における正弦関数によって平滑化される。このような周波数領域平滑化は、適応フィルタ係数をコヒーレント解に周期的に再初期設定するために一定の時間間隔をおいて実行され得る。他の安定性機能には、複数のフィルタ段を使用してクロスフィルタを実施すること、ならびに/またはフィルタ適応範囲および/もしくはフィルタ適応率を制限することが含まれ得る。
収束解が1つまたはそれ以上の性能基準を満たすことを検証することが望ましい場合がある。使用され得る1つの性能基準はホワイトノイズ利得であり、これは収束解のロバスト性を特徴づけるものである。ホワイトノイズ利得(すなわちWNG(ω))は、(A)変換器上の正規化ホワイトノイズに応答した出力電力、または、等価のものとして、(B)信号利得と変換器雑音感度の比として定義することができる。
使用され得る別の性能基準は、一連のMチャネル信号における信号源の1つまたはそれ以上のそれぞれについてのビームパターン(またはヌルビームパターン)が、収束したフィルタが生成するMチャネル出力信号から計算される対応するビームパターンと一致する度合いである。この基準は、実際のビームパターンが未知であり、かつ/または一連のMチャネル入力信号が事前分離されている場合には適用できないこともある。収束フィルタ解h12(t)およびh21(t)(hmj(t)など)が取得された後で、出力y(t)およびy(t)(y(t)など)に対応する空間およびスペクトルビームパターンが計算され得る。既知のビームパターンなどとの一致に従って収束解を評価する。性能試験に失敗した場合には、異なる訓練データ、異なる学習速度などを使用して適応を繰り返すことが望ましい場合がある。
フィードバック構造と関連付けられるビームパターンを判定するために、時間領域インパルス応答関数、xからyへのw11(t)、xからyへのw21(t)、xからyへのw12(t)、およびxからyへのw22(t)が、xのt=0と、これに続くxのt=0におけるインパルス入力に従ってシステムの式(1)および式(2)に対する反復応答を計算することによりシミュレートされてもよい。代替的には、式(1)を式(2)に代入することによって、w11(t)、w12(t)、w21(t)およびw22(t)のための明示的な解析伝達関数式が策定されてもよい。結果として得られる式のIIR形A(z)/B(z)に多項式除算を行って、FIR形
Figure 2010519602
を取得することが望ましい場合がある。
各入力チャネルmから各出力チャネルjへの時間領域インパルス伝達関数wjm(t)がいずれかの方法で取得された後、これらを周波数領域に変換して周波数領域伝達関数Wjm(iω)が生成され得る。次いで、各出力チャネルjごとのビームパターンが、式
Figure 2010519602
の振幅図を計算することによって、周波数領域伝達関数wjm(iω)から取得され得る。この式において、D(ω)は、
Figure 2010519602
であるような周波数ωの指向行列を示し、式中、pos(i)はM個の変換器の配列におけるi番目の変換器の空間座標を表わし、cは媒質における音の伝搬速度(空気中では毎秒340mなど)であり、θは変換器配列の軸に対するj番目の信号源の到来入射角を表わす。(値θが事前に知られていない場合、値θは、例えば、以下で説明する手順などを使用して推定され得る。
別の手法は、図14、図15A、および図15Bに示すようなフィードフォワードフィルタ構造を使用して実施され得る。図14に、直結フィルタD210およびD220を含むフィードフォワードフィルタ構造のブロック図を示す。
フィードフォワード構造を使用して、周波数領域ICAまたは複素ICAと呼ばれる別の手法を実施することができ、この手法では、フィルタ係数値が周波数領域において直接計算される(入力チャネルに対してFFTまたは他の変換を行う)。この技法は、各周波数ビンωごとに、分離された出力ベクトルY(ω,l)=W(ω)X(ω,l)が相互に独立であるようなM×M分離行列W(ω)を計算するように設計されている。分離行列W(ω)は、以下のように表わされる規則に従って更新される。
Figure 2010519602
式中、W(ω)は周波数ビンωおよび窓lでの分離行列を表し、Y(ω,l)は周波数ビンωおよび窓lでの出力を表わし、Wl+r(ω)は周波数ビンωおよび窓(l+r)での分離行列を表わし、rは1以上の整数値を有する更新速度パラメータであり、μは学習速度パラメータであり、Iは単位行列であり、Φは活性化関数を表わし、上付き文字Hは共役転置演算を表わし、山括弧<>は時間l=1,…,Lにおける平均演算を表わす。一例では、活性化関数Φ(Y(ω,l))は
Figure 2010519602
である。
複素ICA解では典型的には、スケーリングの曖昧性を蒙る。信号源が定常的であり、信号源の分散がすべての周波数ビンにおいて知られている場合、スケーリング問題は分散を既知の値に調整することによって解決され得る。しかし、自然信号源は動的で、一般に非定常的であり、未知の分散を有する。スケーリング問題は、信号源分散を調整するのではなく、学習された分離フィルタ行列を調整することによって解決されてもよい。1つの公知の解決法では、最小ひずみ原理によって得られ、次式のような式に従って学習された分離行列をスケーリングする。
Figure 2010519602
いくつかの複素ICA実装例での別の問題は、同じ信号源に関連する周波数ビンの間のコヒーレンスの喪失である。この喪失は、主として情報源からのエネルギーを含む周波数ビンが、干渉出力チャネルに誤って割り当てられ、かつ/またはこの逆となる周波数置換問題をもたらし得る。この問題に対していくつかの解決法が使用され得る。
使用され得る置換問題に対する1つの回答は、周波数ビン間の予期される依存関係をモデル化した事前信号源(source prior)を使用する複素ICAの一変形である、独立ベクトル解析(IVA)である。この方法では、活性化関数Φは、次式のような多変量活性化関数である。
Figure 2010519602
式中、Pは1以上の整数値(1、2、または3など)を有する。この関数において、分母の項は、すべての周波数ビンにわたる分離信号源スペクトルに関連する。
多変量活性化関数の使用は、フィルタ学習過程に、個々の周波数ビンフィルタ重み間の明示的な依存関係を導入することによって、置換問題を回避するのに役立ち得る。しかし、実際の用途では、このようにフィルタ重みを連結して適応させると、(時間領域アルゴリズムで観測されているものと同様に)収束速度がより一層初期フィルタ条件に依存することになる可能性がある。幾何学的制約条件などの制約条件を含めることが望ましい場合がある。
幾何学的制約条件を含める一手法は、(上記式(5)の場合と同様に)以下のような指向行列D(ω)に基づく正則化項J(ω)を加えるものである。
Figure 2010519602
式中、α(ω)は周波数ωのための同調パラメータであり、C(ω)は、各出力チャネルjごとに所望のビームパターンの選択肢を設定し、干渉方向にヌルを配置するdiag(W(ω)D(ω))に等しいM×M対角行列である。パラメータα(ω)は、異なる周波数には制約条件を多少強く適用させるために、異なる周波数に異なる値を含み得る。
正則化項(7)は、以下のような式を用いた分離行列更新式に対する制約条件として表わされ得る。
Figure 2010519602
このような制約条件は、次式のように、このような項をフィルタ学習規則(式(6)など)に加えることによって実施され得る。
Figure 2010519602
また、行列C(ω)および行列D(ω)の一方または両方を、周期的に、かつ/または何らかのイベント時に更新することも望ましい場合がある。
信号源到来方向(DOA)の値θは以下のように推定され得る。分離行列Wの逆を使用することにより、信号源のDOAを以下のように推定し得ることが知られている。
Figure 2010519602
式中、θj,mn(ω)は、変換器対mおよびnに対する信号源jのDOAであり、pおよびpはそれぞれ変換器mおよびnの位置であり、cは媒質における音の伝搬速度である。複数の変換器対が使用されるとき、個々の信号源jのDOAθest.jは、選択されたサブバンドにおけるすべての変換器対および周波数に及ぶ上記式のθest.j(ω)のヒストグラムをプロットすることによって計算することができる(例えば、図6〜9および、「分離信号を生成するシステムおよび方法(SYSTEM AND METHOD FOR GENERATING A SEPARATED SIGNAL)」という名称の国際特許公開第2007/103037号パンフレット(Chanら)、16〜20頁を参照されたい)。この場合、平均θest.jは、結果として生じるヒストグラム(θ,N(θ))の最大値または重心、
Figure 2010519602
であり、式中、N(θ)は角度θにおけるDOA推定値の数である。このようなヒストグラムからの信頼性の高いDOA推定値は、何回かの反復後に平均信号源方向が現れるより後の方の学習段において初めて利用可能になり得る。
上記の方法は、信号源の数RがM以下である場合に使用され得る。R>Mの場合には、次元縮小が行われ得る。このような次元縮小操作は、例えば、国際特許出願PCT/US2007/004966号明細書(Chanら)、17〜18頁などに記載されている。
ビーム形成法が用いられ、また音声は一般に広帯域であるため、臨界周波数の範囲について確実に高性能を得ることができる。式(10)の推定値は、一般に、変換器列からの距離が、Dを最大配列次元とし、λを考えられる最短波長とする、D/λの約2から4倍を超える信号源について有効である遠距離場モデルに基づく。遠距離場モデルを基礎とする式(10)が無効である場合、ビームパターンに対する近距離場補正を行うことが望ましい場合がある。また、2つ以上の変換器の間の距離も、空間エイリアシングが回避されるように、十分に小さい(最高周波数の波長の半分未満など)距離として選択され得る。このような場合、広帯域入力信号の超低周波数において鋭いビームを生じさせることは不可能になる。
周波数置換問題に対する別種の解決法では置換表を使用する。このような解決法は、グローバル相関費用関数に従って(線形、ボトムアップ、またはトップダウン順序付け操作などにより)出力チャネル間で周波数ビンを再割り当てすることを含み得る。このような解決法のいくつかが、前述の国際特許公開第2007/103037号パンフレット(Chanら)に記載されている。また、このような再割り当てはビン間位相不連続の検出を含んでいてもよく、これは、(例えば、国際特許公開第2007/103037号パンフレット、Chanらに記載されているように)周波数の誤った割り当ての可能性を示すのに用いられ得る。
Mチャネルを受け取るように構成されている信号処理システム(M個のマイクロホンからの入力を処理するように構成された音声処理システムなど)において、信号源分離器F10は、入力チャネルの主要な1つを置き換えるように構成され得る。置き換えるべき入力チャネルは、ヒューリスティックに選択され得る(例えば、最高のSNR、最小の遅延、最高のVAD結果、および/または最善の音声認識結果を有するチャネル、1次スピーカなどの情報源に最も近接していると想定される変換器のチャネルなど)。このような場合、他のチャネルは、適応フィルタのような後の処理段までバイパスされてもよい。図18Bに、このようなヒューリスティックに従ってこのような選択を行うように構成されたスイッチS100(クロスバースイッチなど)を含む装置A100の実装例A110のブロック図を示す。また、このようなスイッチは、(例えば図20Aの例に示すような)本明細書で説明する後続の処理段を含む他の構成のいずれかに加えられてもよい。
信号源分離器F10の1つまたはそれ以上の実装例(フィードバック構造F100および/またはフィードフォワード構造F200)を、本明細書で説明するMチャネル適応フィルタ構造のいずれかに従って構成された適応フィルタB200と組み合わせることが望ましい場合がある。例えば、非線形有界関数は近似にすぎないため、フィードバックICAにおける分離を改善するために追加処理を行うことが望ましい場合がある。適応フィルタB200は、例えば、本明細書で説明するICA法、IVA法、制約付きICA法または制約付きIVA法のいずれかに従って構成され得る。このような場合、適応フィルタB200は、(Mチャネル入力信号を前処理するなどのために)信号源分離器F10より前に、または(信号源分離器F10の出力のさらなる分離を行うなどのために)信号源分離器F10より後に配置され得る。また適応フィルタB200は、図13を参照して説明したようなスケーリング係数を含んでいてもよい。
装置A200やA300などの、信号源分離器F10および適応フィルタB200の実装例を含む構成では、適応フィルタB200の初期条件(フィルタ係数値および/または実行時間開始時におけるフィルタ履歴など)を、信号源分離器F10の収束解に基づくものとすることが望ましい場合がある。このような初期条件の計算は、例えば、信号源分離器F10の収束解を取得し、収束した構造F10を使用してMチャネル訓練データをフィルタリングし、フィルタリングした信号を適応フィルタB200に提供し、適応フィルタB200を解に収束させ、初期条件として使用すべきこの解を格納することによって行われ得る。このような初期条件は、適応フィルタB200の適用のためのソフト制約条件を提供し得る。初期条件は、(設計段階などにおいて)適応フィルタB200の1インスタンスを使用して計算され、次いで(製造段階などにおいて)適応フィルタB200の1つまたはそれ以上の他のインスタンスに初期条件としてロードされてもよいことが理解されるであろう。
図19Aに、情報信号と少なくとも1つの干渉基準値を出力するように構成された適応フィルタB200の実装例B202を含む装置A200のブロック図を示す。図19B、図20A、図20B、および図21Aに、信号源分離器F10と適応フィルタB200とのインスタンスを含む追加的な構成を示す。これらの例では、入力チャネルI1fは1次信号(情報または合成信号など)を表わし、入力チャネルI2f、I3fは2次チャネル(干渉基準値など)を表わす。これらの例では、対応する信号源分離器の処理遅延を補償するため(後続段の入力チャネルを同期させるなどのため)に遅延素子B300、B300a、およびB300bが設けられている。このような構造は、一般化されたサイドローブ消去とは異なる。というのは、例えば、適応フィルタB200は、信号ブロッキングと干渉消去を同時に行うように構成され得るからである。
また、図19Bに示す装置A300は、M個の変換器(マイクロホンなど)の配列R100も含む。ここで説明する他の装置はいずれもこのような配列を含み得ることに特に留意されたい。また配列R100は、個々の用途に適したデジタルMチャネル信号を生成するための、当該分野で公知の関連するサンプリング構造、アナログ処理構造、および/またはデジタル処理構造を含んでいてもよく、このような構造が別様に装置内に含まれていてもよい。
図21Bに、装置A300の実装例A340のブロック図を示す。装置A340は情報出力信号と干渉基準値とを生成するように構成された適応フィルタB200の実装例B202と、低減された雑音レベルを有する出力を生成するように構成された雑音低減フィルタB400とを含む。このような構成では、適応フィルタB200の干渉優位の出力チャネルの1つまたはそれ以上が、雑音低減フィルタB400により干渉基準値として使用され得る。雑音低減フィルタB400は、分離されたチャネルからの信号および雑音の電力情報に基づき、ウィナーフィルタとして実施され得る。このような場合、雑音低減フィルタB400は、1つまたはそれ以上の干渉基準値に基づいて雑音スペクトルを推定するように構成され得る。代替的には、雑音低減フィルタB400は、1つまたはそれ以上の干渉基準値からのスペクトルに基づき、情報信号に対するスペクトル減算演算を行うように実施されてもよい。代替的には、雑音低減フィルタB400は、雑音共分散が1つまたはそれ以上の干渉基準値に基づく、カルマンフィルタとして実施されてもよい。これらの場合のいずれにおいても、雑音低減フィルタB400は、発話区間検出(VAD)操作を含み、または装置内で別に行われるこのような操作の結果を使用して、スペクトルなどの雑音特性および/または非発話区間のみの共分散を推定するように構成され得る。
適応フィルタB200の実装例B202および雑音低減フィルタB400は、装置A200、A410、A510などの本明細書で説明する他の構成の実装例に含まれていてもよいことに特に留意されたい。これらの実装例のいずれにおいても、例えば、図7、および米国特許第7099821号明細書公報(Visserら)の段20上部に記載されているように、雑音低減フィルタB400の出力を適応フィルタB202にフィードバックすることが望ましい場合がある。
また、本明細書で開示する装置は、エコーキャンセル操作を含むように拡張されてもよい。図22Aに、信号源分離器F10のインスタンスと、エコーキャンセラB500の2つのインスタンスB500a、B500bとを含む装置A400の一例を示す。この例では、エコーキャンセラB500a、bは、(1つより多くのチャネルを含み得る)遠端信号S10を受信し、この信号を信号源分離器F10への入力の各チャネルから除去するように構成されている。図22Bに、装置A300のインスタンスを含む装置A400の実装例A410を示す。
図23Aに、エコーキャンセラB500a、bが、信号源分離器F10の出力の各チャネルから遠端信号S10を除去するように構成されている装置A500の一例を示す。図23Bに、装置A300のインスタンスを含む装置A500の実装例A510を示す。
フィルタがエコーキャンセラB500は、所望の信号とフィルタリングされた信号の間の誤差に基づいて適合されるLMS(最小平均二乗)法に基づくものとすることができる。代替的には、エコーキャンセラB500は、LMSではなく、本明細書で説明するような相互情報量を最小化する技法(ICAなど)に基づくものとすることもできる。このような場合、エコーキャンセラB500の係数の値を変更するための導出適応規則は異なり得る。エコーキャンセラの実装例は以下の各ステップを含み得る。(i)システムは、少なくとも1つのエコー基準信号(遠端信号S10など)が公知であるものと仮定する。(2)フィルタリングおよび適合のための数学モデルは、関数fが、エコー基準信号に対してではなく分離モジュールの出力に適用されることを除いて、1から4の式と同様である。(3)fの関数形は、線形から非線形まで及ぶものとすることができる。(4)用途の特定の知識に関する事前知識を、fのパラメトリック形に組み込むことができる。次いで、公知の方法およびアルゴリズムを使用してエコーキャンセルプロセスを完了し得ることが理解されるであろう。図24Aに、クロスフィルタC110のインスタンスのインスタンスCE10を含むこのようなエコーキャンセラB500の実装例B502のブロック図を示す。このような場合、フィルタCE10は通常、信号源分離器F100のクロスフィルタより長い。図24Bに示すように、エコーキャンセラB500の適応実装例の安定性を高めるために、図13を参照して説明したスケーリング係数が使用されてもよい。使用され得る他のエコーキャンセル実装方法には、エコーキャンセラB500の技術的特性を改善するためのケプストラム(cepstral)処理および変換領域適応フィルタリング(TDAF)法の使用が含まれる。
本明細書で説明する様々な方法は、プロセッサなどの論理素子の配列によって実行されてもよく、本明細書で説明する装置の様々な要素は、このような配列上で実行されるように設計されたモジュールとして実施されてもよいことに留意されたい。本明細書で使用する場合、「モジュール(module)」または「サブモジュール(sub-module)」という用語は、任意の方法、装置、機器、ユニットまたは、ソフトウェア、ハードウェアもしくはファームウェアの形でコンピュータ命令を含むコンピュータ可読データ記憶媒体を指すものとすることができる。同じ機能を実行するために、複数のモジュールまたはシステムを組み合わせて1つのモジュールまたはシステムにすることもでき、1つのモジュールまたはシステムを分離して複数のモジュールまたはシステムにすることもできることを理解すべきである。ソフトウェアまたは他のコンピュータ実行可能命令として実施されるとき、プロセスの各要素は、本質的には、関連するタスクを実行する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを有するコードセグメントである。プログラムまたはコードセグメントは、プロセッサ可読媒体に格納することもでき、伝送媒体または通信リンクを介した搬送波として実施されるコンピュータデータ信号によって伝送することもできる。「プロセッサ可読媒体(processor readable medium)」という用語は、揮発性、不揮発性、脱着可能、脱着不能な媒体を含めて、情報を格納または伝送することのできる任意の媒体を含み得る。プロセッサ可読媒体の例には、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスク他の磁気記憶、CD−ROM/DVD他の光学的記憶媒体、ハードディスク、光ファイバ媒体、無線周波数(RF)リンク、または所望の情報を格納するのに使用することができ、アクセスすることのできる他の任意の媒体が含まれる。コンピュータデータ信号には、電子ネットワークチャネル、光ファイバ、無線、電磁、RFリンクなどなどの伝送媒体上で伝搬し得る任意の信号が含まれ得る。コードセグメントは、インターネットやイントラネットなどのコンピュータネットワークを介してダウンロードされてもよい。いずれにしても、本開示の範囲は、こ
のような実施形態によって限定されるものと解釈すべきではない。
本明細書で説明する様々な方法は、送受話器、ヘッドセット、携帯情報端末(PDA)などの携帯型通信機器によって実施されてもよく、本明細書で説明する様々な装置は、このような機器に含まれていてもよいことを特に明記するものである。典型的なリアルタイム(オンラインなど)の用途が、このようなモバイル機器を使用して行われる通話である。
1つまたはそれ以上の例示的実施形態において、前述の各機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせとして実施され得る。ソフトウェアで実施される場合、各機能は、1つまたはそれ以上の命令またはコードとしてコンピュータ可読媒体上に格納され、または伝送され得る。コンピュータ可読媒体には、コンピュータ記憶媒体と、1つの場所から別の場所へのコンピュータプログラムの転送を円滑に行わせる任意の媒体を含む通信媒体との両方が含まれる。記憶媒体は、コンピュータがアクセスすることのできる任意の利用可能な媒体とすることができる。それだけに限らないが例として、このようなコンピュータ可読媒体には、RAM、ROM、EEPROM、CD−ROM他の光ディスク記憶、磁気ディスク記憶装置または他の磁気記憶装置、または命令もしくはデータ構造の形で所望のプログラムコードを保持または記憶するのに使用することができ、コンピュータがアクセスすることのできる他の任意の媒体が含まれ得る。また、任意の接続も正しくコンピュータ可読媒体と呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、撚り合せ対、デジタル加入者回線(DSL)、または赤外線、電波、マイクロ波などの無線技術を使用して、ウェブサイト、サーバ、または他の遠隔信号源から送信される場合、同軸ケーブル、光ファイバケーブル、撚り合せ対、DSL、または赤外線、電波、マイクロ波などの無線技術は、媒体の定義に含まれる。ディスク(diskおよびdisc)には、本明細書で使用する場合、コンパクトディスク(CD)、レーザディスク、光ディスク、デジタル多用途ディスク(DVD)、フロッピーディスクおよびブルーレイディスク(商標)(ブルーレイディスク協会、米国カリフォルニア州ユニバーサルシティ(Blu-Ray Disc Association, Universal City, CA))が含まれ、この場合「disk」は、通常データを磁気的に複写し、discはレーザを用いて光学的に複写する。以上のものを組み合わせたものも、またコンピュータ可読媒体の範囲に含まれるべきである。
本明細書で説明する音声分離システムは、ある特定の機能を制御するために音声入力を受け入れ、またはそうでない場合は暗騒音から所望の雑音を分離する必要のある、通信機器などの電子機器に組み込まれていてもよい。多くの用途で、鮮明な所望の音を強調し、または複数の方向から発する背音から分離することが求められる。このような用途には、音声認識および検出、音声強調および分離、音声駆動制御などなどの機能を組み込んだ電子機器または計算処理機器におけるヒューマンマシンインタフェースが含まれ得る。このような音声分離システムを、限られた処理機能しか提供しない機器に適するものとして実施することが望ましい場合がある。

Claims (58)

  1. 信号処理の1つの方法であって、前記方法は、Mを1より大きい整数とする複数のMチャネル訓練信号に基づき、信号源分離フィルタ構造の複数の係数値を訓練して収束した信号源分離フィルタ構造を取得することと、
    前記収束した信号源分離フィルタ構造が、前記複数のMチャネル訓練信号のそれぞれを、少なくとも1つの情報出力信号と干渉出力信号とに十分に分離するかどうか判定することと
    を備え、
    前記複数のMチャネル訓練信号の少なくとも1つは、前記変換器と信号源とが第1の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づくものであり、
    前記複数のMチャネル訓練信号の別の1つは、前記変換器と信号源とが前記第1の空間的構成とは異なる第2の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づく方法。
  2. 前記複数の係数値を訓練することは、前記複数のMチャネル訓練信号のそれぞれに基づいて前記信号源分離フィルタ構造の前記複数の係数値を更新することを備える請求項1に記載の信号処理の方法。
  3. 前記判定することは、前記少なくとも1つの情報源からの情報と前記収束した信号源分離フィルタ構造の出力とを比較することを備える請求項1に記載の信号処理の方法。
  4. 前記複数のMチャネル訓練信号の少なくとも1つは第1のスペクトルシグネチャを有する干渉源からの干渉を含み、前記複数のMチャネル訓練信号の別の1つは前記第1のスペクトルシグネチャとは異なる第2のスペクトルシグネチャを有する干渉源からの干渉を含む請求項1に記載の信号処理の方法。
  5. 前記複数のMチャネル訓練信号の少なくとも1つは第1のスペクトルシグネチャを有する情報源からの情報を含み、前記複数のMチャネル訓練信号の別の1つは前記第1のスペクトルシグネチャとは異なる第2のスペクトルシグネチャを有する情報源からの情報を含む請求項1に記載の信号処理の方法。
  6. 前記第1の空間的構成内で、前記M個の変換器は、前記少なくとも1つの情報源に対して第1の空間的配向を有する配列に配置されており、
    前記第2の空間的構成内で、前記M個の変換器は、前記少なくとも1つの情報源に対して第2の空間的配向を有する配列に配置されており、
    前記第2の空間的配向は前記第1の空間的配向とは異なる請求項1に記載の信号処理の方法。
  7. 前記信号源分離フィルタ構造の複数の係数値を訓練することは、非線形有界関数に基づいて前記複数の係数値の更新を計算することを含む請求項1に記載の信号処理の方法。
  8. 前記方法は、前記収束した信号源分離フィルタ構造の訓練された複数の係数値に基づき、対応するビームパターンを計算することと、
    前記計算したビームパターンと、前記第1および第2の空間的構成の少なくとも1つにおける変換器と信号源の相対的配置に基づく情報とを比較することと
    を備える請求項1に記載の信号処理の方法。
  9. 前記方法は、前記収束した信号源分離フィルタ構造の訓練された複数の係数値に基づき、Mチャネル信号をリアルタイムでフィルタリングしてリアルタイムの情報出力信号を取得すること
    を備える請求項1に記載の信号処理の方法。
  10. 前記第1の空間的構成内で、前記M個の変換器は、第3の空間的構成において相互に配置されており、
    前記Mチャネル信号は、前記第3の空間的構成において相互に配置されているM個の変換器の配列によって生成された信号に基づく
    請求項9に記載の信号処理の方法。
  11. 前記Mチャネル信号をフィルタリングすることは、(A)情報出力チャネルと(B)干渉出力チャネルの一方の周波数ビンを前記2つのチャネルの他方に再割り当てすることを含む請求項9に記載の信号処理の方法。
  12. 前記方法は、前記収束した信号源分離フィルタ構造の訓練された複数の係数値に基づき、適応フィルタのための初期条件を生成することと、
    前記初期条件に従って前記適応フィルタを初期設定することと、
    前記初期設定に続き、前記適応フィルタを使用して、前記リアルタイムの情報出力信号に基づく信号をフィルタリングすることと
    を備え、前記初期条件は、(A)前記適応フィルタの初期の複数のタップ重みと(B)前記適応フィルタの初期履歴の少なくとも1つを含む請求項9に記載の信号処理の方法。
  13. 前記適応フィルタを使用することは、前記リアルタイムの情報出力信号の特性に基づき、前記リアルタイムの情報出力信号に基づく前記信号を減衰させることを含む請求項12に記載の信号処理の方法。
  14. 前記方法は、(A)前記Mチャネル信号と(B)前記リアルタイムの情報出力信号に基づく信号の少なくとも1つに対してエコーキャンセル操作を行うことを備える請求項9に記載の信号処理の方法。
  15. 前記適応フィルタを使用して前記情報出力信号に基づく信号をフィルタリングする前記ことは、前記適応フィルタを使用して干渉基準信号を生成することを含み、
    前記方法は、前記干渉基準信号に基づき、前記リアルタイムの情報出力信号に基づく信号に対して雑音低減操作を行うことを備える請求項1に記載の信号処理の方法。
  16. 前記方法は、Mを1より大きい整数とするM個の変換器の配列と、
    訓練された複数の係数値を有する信号源分離フィルタ構造と
    を備える信号処理の装置であって、
    前記信号源分離フィルタ構造は、Mチャネル信号をリアルタイムでフィルタリングしてリアルタイム情報出力信号を取得するように構成されており、
    前記訓練された複数の係数値は複数のMチャネル訓練信号に基づくものであり、
    前記複数のMチャネル訓練信号の1つは、前記変換器と信号源とが第1の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づくものであり、
    前記複数のMチャネル訓練信号の別の1つは、前記変換器と信号源とが前記第1の空間的構成とは異なる第2の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づく装置。
  17. 前記方法は、前記配列と前記信号源分離フィルタ構造とを含むモバイルユーザ端末を備える請求項16に記載の信号処理の装置。
  18. 前記方法は、前記配列と前記信号源分離フィルタ構造とを含む無線ヘッドセットを備える請求項16に記載の信号処理の装置。
  19. 前記配列の前記M個の変換器は第3の空間的構成において相互に配置されており、前記第1の空間的構成内で、前記M個の変換器は、前記第3の空間的構成において相互に配置されている請求項16に記載の信号処理の装置。
  20. 前記第1の空間的構成内で、前記M個の変換器は、前記少なくとも1つの情報源に対して第1の空間的配向を有する配列に配置されており、
    前記第2の空間的構成内で、前記M個の変換器は、前記少なくとも1つの情報源に対して第2の空間的配向を有する配列に配置されており、
    前記第2の空間的配向は前記第1の空間的配向とは異なる請求項16に記載の信号処理の装置。
  21. 前記訓練された複数の係数値は、複数の係数値から、非線形有界関数に基づいて計算される請求項16に記載の信号処理の装置。
  22. 前記信号源分離器フィルタ構造は、(A)情報出力チャネルと(B)干渉出力チャネルの一方の周波数ビンを前記2つのチャネルの他方に再割り当てすることによって前記Mチャネル信号をフィルタリングするように構成されている請求項16に記載の信号処理の装置。
  23. 前記方法は、前記リアルタイムの情報出力信号に基づく信号をフィルタリングするように配置された適応フィルタを備え、
    前記適応フィルタは、前記収束した信号源分離フィルタ構造の訓練された複数の係数値に基づく、(A)前記適応フィルタの初期の複数のタップ重みと(B)前記適応フィルタの初期履歴の少なくとも1つを含む初期条件に従って初期設定される請求項16に記載の信号処理の装置。
  24. 前記適応フィルタは、前記情報出力信号の特性に基づき、前記リアルタイムの情報出力信号に基づく前記信号に対してスケーリング操作を行うように構成されている請求項23に記載の信号処理の装置。
  25. 前記適応フィルタは干渉基準信号を生成するように構成されており、前記装置は前記干渉基準信号に基づき、前記リアルタイムの情報出力信号に基づく信号に対して雑音低減操作を行うように構成されている雑音低減フィルタを含む請求項23に記載の信号処理の装置。
  26. 前記装置は、(A)前記Mチャネル信号と(B)前記リアルタイムの情報出力信号に基づく信号の少なくとも1つに対してエコーキャンセル操作を行うように構成されたエコーキャンセラを備える請求項16に記載の信号処理の装置。
  27. プロセッサによって実行されると、前記プロセッサに、
    Mを1より大きい整数とする複数のMチャネル訓練信号に基づき、信号源分離フィルタ構造の複数の係数値を訓練して収束した信号源分離フィルタ構造を取得させ、
    前記収束した信号源分離フィルタ構造が、前記複数のMチャネル訓練信号のそれぞれを、少なくとも1つの情報出力信号と干渉出力信号とに十分に分離するかどうか判定させる
    命令を備え、
    前記複数のMチャネル訓練信号の少なくとも1つは、前記変換器と信号源とが第1の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づくものであり、
    前記複数のMチャネル訓練信号の別の1つは、前記変換器と信号源とが前記第1の空間的構成とは異なる第2の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づく
    コンピュータ可読媒体。
  28. プロセッサによって実行されると、前記プロセッサに、複数の係数値を訓練させる前記命令は、プロセッサによって実行されると、前記プロセッサに、前記複数のMチャネル訓練信号のそれぞれに基づいて前記信号源分離フィルタ構造の前記複数の係数値を更新させる命令を備える請求項27に記載のコンピュータ可読媒体。
  29. プロセッサによって実行されると、前記プロセッサに、判定させる前記命令は、プロセッサによって実行されると、前記プロセッサに、前記少なくとも1つの情報源からの情報と前記収束した信号源分離フィルタ構造の出力とを比較させる命令を備える請求項27に記載のコンピュータ可読媒体。
  30. 前記複数のMチャネル訓練信号の少なくとも1つは第1のスペクトルシグネチャを有する干渉源からの干渉を含み、前記複数のMチャネル訓練信号の別の1つは前記第1のスペクトルシグネチャとは異なる第2のスペクトルシグネチャを有する干渉源からの干渉を含む請求項27に記載のコンピュータ可読媒体。
  31. 前記複数のMチャネル訓練信号の少なくとも1つは第1のスペクトルシグネチャを有する情報源からの情報を含み、前記複数のMチャネル訓練信号の別の1つは前記第1のスペクトルシグネチャとは異なる第2のスペクトルシグネチャを有する情報源からの情報を含む請求項27に記載のコンピュータ可読媒体。
  32. 前記第1の空間的構成内で、前記M個の変換器は、前記少なくとも1つの情報源に対して第1の空間的配向を有する配列に配置されており、
    前記第2の空間的構成内で、前記M個の変換器は、前記少なくとも1つの情報源に対して第2の空間的配向を有する配列に配置されており、
    前記第2の空間的配向は前記第1の空間的配向とは異なる
    請求項27に記載のコンピュータ可読媒体。
  33. 前記媒体は、プロセッサによって実行されると、前記プロセッサに、信号源分離フィルタ構造の複数の係数値を訓練させる前記命令は、プロセッサによって実行されると、前記プロセッサに、非線形有界関数に基づいて前記複数の係数値の更新を計算させる命令を含む請求項27に記載のコンピュータ可読媒体。
  34. 前記媒体は、プロセッサによって実行されると、前記プロセッサに、
    前記収束した信号源分離フィルタ構造の訓練された複数の係数値に基づき、対応するビームパターンを計算させ、
    前記計算したビームパターンと、前記第1および第2の空間的構成の少なくとも1つにおける変換器と信号源の相対的配置に基づく情報とを比較させる
    命令を備える請求項27に記載のコンピュータ可読媒体。
  35. プロセッサによって実行されると、前記プロセッサに、前記収束した信号源分離フィルタ構造の訓練された複数の係数値に基づき、Mチャネル信号をリアルタイムでフィルタリングしてリアルタイムの情報出力信号を取得させる命令を備える請求項27に記載のコンピュータ可読媒体。
  36. 前記第1の空間的構成内で、前記M個の変換器は、第3の空間的構成において相互に配置されており、
    前記Mチャネル信号は、前記第3の空間的構成において相互に配置されているM個の変換器の配列によって生成された信号に基づく請求項35に記載のコンピュータ可読媒体。
  37. プロセッサによって実行されると、前記プロセッサに、Mチャネル信号をフィルタリングさせる前記命令は、プロセッサによって実行されると、前記プロセッサに、(A)情報出力チャネルと(B)干渉出力チャネルの一方の周波数ビンを前記2つのチャネルの他方に再割り当てさせる命令を含む請求項35に記載の方法。
  38. プロセッサによって実行されると、前記プロセッサに、
    前記収束した信号源分離フィルタ構造の訓練された複数の係数値に基づき、適応フィルタのための初期条件を生成させ、
    前記初期条件に従って前記適応フィルタを初期設定させ、
    前記初期設定に続き、前記適応フィルタを使用して、前記リアルタイムの情報出力信号に基づく信号をフィルタリングさせる
    命令を備え、前記初期条件は、(A)前記適応フィルタの初期の複数のタップ重みと(B)前記適応フィルタの初期履歴の少なくとも1つを含む請求項35に記載のコンピュータ可読媒体。
  39. プロセッサによって実行されると、前記プロセッサに、適応フィルタを使用させる前記命令は、プロセッサによって実行されると、前記プロセッサに、前記リアルタイムの情報出力信号の特性に基づいて、前記リアルタイムの情報出力信号に基づく前記信号を減衰させる命令を含む請求項38に記載のコンピュータ可読媒体。
  40. プロセッサによって実行されると、前記プロセッサに、(A)前記Mチャネル信号と(B)前記リアルタイムの情報出力信号に基づく信号の少なくとも1つに対してエコーキャンセル操作を行わせる命令を備える請求項35に記載のコンピュータ可読媒体。
  41. プロセッサによって実行されると、前記プロセッサに、前記適応フィルタを使用して前記リアルタイムの情報出力信号に基づく信号をフィルタリングさせる前記命令は、プロセッサによって実行されると、前記プロセッサに、前記適応フィルタを使用して干渉基準信号を生成させる命令を含み、
    前記媒体は、プロセッサによって実行されると、前記プロセッサに、前記干渉基準信号に基づき、前記リアルタイムの情報出力信号に基づく信号に対して雑音低減操作を行わせる命令を備える請求項27に記載のコンピュータ可読媒体。
  42. 前記装置は、Mを1より大きい整数とするM個の変換器の配列と、
    訓練された複数の係数値に従って信号源分離フィルタリング操作を行う手段と
    を備える信号処理の装置であって、
    前記信号源分離フィルタリング操作を行う手段は、Mチャネル信号をリアルタイムでフィルタリングしてリアルタイム情報出力信号を取得するように構成されており、
    前記訓練された複数の係数値は、複数のMチャネル訓練信号に基づくものであり、
    前記複数のMチャネル訓練信号の1つは、前記変換器と信号源とが第1の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づくものであり、
    前記複数のMチャネル訓練信号の別の1つは、前記変換器と信号源とが前記第1の空間的構成とは異なる第2の空間的構成に配置されている間に少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づく装置。
  43. 前記媒体は、前記配列と前記信号源分離フィルタリング操作を行う手段とを含むモバイルユーザ端末を備える請求項42に記載の信号処理の装置。
  44. 前記媒体は、前記配列と前記信号源分離フィルタリング操作を行う手段とを含む無線ヘッドセットを備える請求項42に記載の信号処理の装置。
  45. 前記配列の前記M個の変換器は第3の空間的構成において相互に配列されており、
    前記第1の空間的構成内で、前記M個の変換器は、前記第3の空間的構成において相互に配列されている
    請求項42に記載の信号処理の装置。
  46. 前記第1の空間的構成内で、前記M個の変換器は、前記少なくとも1つの情報源に対して第1の空間的配向を有する配列に配置されており、
    前記第2の空間的構成内で、前記M個の変換器は、前記少なくとも1つの情報源に対して第2の空間的配向を有する配列に配置されており、
    前記第2の空間的配向は前記第1の空間的配向とは異なる
    請求項42に記載の信号処理の装置。
  47. 前記訓練された複数の係数値は、複数の係数値から、非線形有界関数に基づいて計算される請求項42に記載の信号処理の装置。
  48. 前記信号源分離フィルタリング操作を行う手段は、(A)情報出力チャネルと(B)干渉出力チャネルの一方の周波数ビンを前記2つのチャネルの他方に再割り当てすることによって前記Mチャネル信号をフィルタリングするように構成されている請求項42に記載の信号処理の装置。
  49. 前記媒体は、前記リアルタイムの情報出力信号に基づく信号をフィルタリングするように配置された適応フィルタリングの手段を備え、
    前記適応フィルタリングの手段は、前記収束した信号源分離フィルタ構造の訓練された複数の係数値に基づく、(A)前記適応フィルタの初期の複数のタップ重みと(B)前記適応フィルタの初期履歴の少なくとも1つを含む初期条件に従って初期設定される
    請求項42に記載の信号処理の装置。
  50. 前記適応フィルタリングの手段は、前記リアルタイムの情報出力信号の特性に基づき、前記リアルタイムの情報出力信号に基づく前記信号に対してスケーリング操作を行うように構成されている請求項49に記載の信号処理の装置。
  51. 前記適応フィルタリングの手段は干渉基準信号を生成するように構成されており、
    前記媒体は、前記干渉基準信号に基づき、前記リアルタイムの情報出力信号に基づく信号に対して雑音低減操作を行うように構成された雑音を低減する手段を含む請求項49に記載の信号処理の装置。
  52. 前記媒体は、(A)前記Mチャネル信号と(B)前記リアルタイムの情報出力信号に基づく信号の少なくとも1つに対してエコーキャンセル操作を行うように構成されたエコーキャンセルの手段を備える請求項42に記載の信号処理の装置。
  53. 前記方法は、Mを1より大きい整数とする複数のMチャネル訓練信号に基づき、信号源分離フィルタ構造の複数の係数値を訓練して、収束した信号源分離フィルタ構造を取得することと、
    収束した信号源分離フィルタ構造が、複数のMチャネル訓練信号のそれぞれを、少なくとも1つの情報出力信号と干渉出力信号とに十分に分離するかどうか判定することと
    を備える信号処理の方法であって、
    前記複数のMチャネル訓練信号はそれぞれ、少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づくものであり、
    前記複数のMチャネル訓練信号の少なくとも2つは、(A)少なくとも1つの情報源の空間的特徴、(B)少なくとも1つの干渉源の空間的特徴、(C)少なくとも1つの情報源のスペクトルの特徴、および(D)少なくとも1つの干渉源のスペクトルの特徴の少なくとも1つに関して異なり、
    前記信号源分離フィルタ構造の複数の係数値を訓練することは、独立ベクトル解析アルゴリズムと制約付き独立ベクトル解析アルゴリズムのうちの少なくとも1つに従って複数の係数値を更新することを含む方法。
  54. 前記方法は、前記収束した信号源分離フィルタ構造の訓練された複数の係数値に基づき、Mチャネル信号をリアルタイムでフィルタリングしてリアルタイムの情報出力信号を取得することを備える請求項53に記載の信号処理の方法。
  55. 前記方法は、前記収束した信号源分離フィルタ構造の訓練された複数の係数値に基づき、適応フィルタのための初期条件を生成することと、
    前記初期条件に従って前記適応フィルタを初期設定することと、
    前記初期設定に続き、前記適応フィルタを使用して、前記リアルタイムの情報出力信号に基づく信号をフィルタリングすることと
    を備え、前記初期条件は、(A)前記適応フィルタの初期の複数のタップ重みと(B)前記適応フィルタの初期履歴の少なくとも1つを含む請求項54に記載の信号処理の方法。
  56. 前記方法は、Mを1より大きい整数とするM個の変換器の配列と、
    訓練された複数の係数値を有する信号源分離フィルタ構造と
    を備える信号処理の装置であって、
    前記信号源分離フィルタ構造は、Mチャネル信号をリアルタイムでフィルタリングしてリアルタイム情報出力信号を取得するように構成されており、
    前記訓練された複数の係数値は複数のMチャネル訓練信号に基づくものであり、
    前記複数のMチャネル訓練信号はそれぞれ、少なくとも1つの情報源と少なくとも1つの干渉源とに応答してM個の変換器が生成した信号に基づくものであり、
    前記複数のMチャネル訓練信号の少なくとも2つは、(A)少なくとも1つの情報源の空間的特徴、(B)少なくとも1つの干渉源の空間的特徴、(C)少なくとも1つの情報源のスペクトルの特徴、および(D)少なくとも1つの干渉源のスペクトルの特徴の少なくとも1つに関して異なり、
    前記訓練された複数の係数値は、独立ベクトル解析アルゴリズムと制約付き独立ベクトル解析アルゴリズムの少なくとも1つに従って複数の係数値を更新することに基づく装置。
  57. 前記方法は、複数の変換器を使用して、Mチャネル捕捉信号を捕捉することと、
    前記Mチャネル信号をリアルタイムでフィルタリングすることに続いて、前記複数の変換器の少なくとも1つの利得を再較正することと
    を備え、前記Mチャネル信号は前記Mチャネル捕捉信号に基づく請求項9に記載の信号処理の方法。
  58. 前記方法は、前記Mチャネル信号をリアルタイムでフィルタリングすることに続き、複数のMチャネル訓練信号に基づいて、信号源分離フィルタ構造の複数の係数値を訓練して第2の収束した信号源分離フィルタ構造を取得することを備える請求項9に記載の信号処理の方法。
JP2009552010A 2007-02-26 2008-02-26 信号分離のためのシステム、方法、および装置 Pending JP2010519602A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US89167707P 2007-02-26 2007-02-26
PCT/US2008/055050 WO2008106474A1 (en) 2007-02-26 2008-02-26 Systems, methods, and apparatus for signal separation

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012287164A Division JP5587396B2 (ja) 2007-02-26 2012-12-28 信号分離のためのシステム、方法、および装置

Publications (1)

Publication Number Publication Date
JP2010519602A true JP2010519602A (ja) 2010-06-03

Family

ID=39345147

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009552010A Pending JP2010519602A (ja) 2007-02-26 2008-02-26 信号分離のためのシステム、方法、および装置
JP2012287164A Expired - Fee Related JP5587396B2 (ja) 2007-02-26 2012-12-28 信号分離のためのシステム、方法、および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2012287164A Expired - Fee Related JP5587396B2 (ja) 2007-02-26 2012-12-28 信号分離のためのシステム、方法、および装置

Country Status (7)

Country Link
US (1) US20080208538A1 (ja)
EP (1) EP2115743A1 (ja)
JP (2) JP2010519602A (ja)
KR (1) KR20090123921A (ja)
CN (1) CN101622669B (ja)
TW (1) TW200849219A (ja)
WO (1) WO2008106474A1 (ja)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
WO2007103037A2 (en) 2006-03-01 2007-09-13 Softmax, Inc. System and method for generating a separated signal
CN101039534B (zh) * 2006-03-15 2012-06-20 鸿富锦精密工业(深圳)有限公司 声音检测设备和自动传送装置
US8898036B2 (en) 2007-08-06 2014-11-25 Rosemount Inc. Process variable transmitter with acceleration sensor
US8254588B2 (en) 2007-11-13 2012-08-28 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for providing step size control for subband affine projection filters for echo cancellation applications
US8483854B2 (en) * 2008-01-28 2013-07-09 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multiple microphones
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
WO2009151578A2 (en) * 2008-06-09 2009-12-17 The Board Of Trustees Of The University Of Illinois Method and apparatus for blind signal recovery in noisy, reverberant environments
KR101233271B1 (ko) * 2008-12-12 2013-02-14 신호준 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템
US8208649B2 (en) * 2009-04-28 2012-06-26 Hewlett-Packard Development Company, L.P. Methods and systems for robust approximations of impulse responses in multichannel audio-communication systems
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US20110096915A1 (en) * 2009-10-23 2011-04-28 Broadcom Corporation Audio spatialization for conference calls with multiple and moving talkers
US9031221B2 (en) * 2009-12-22 2015-05-12 Cyara Solutions Pty Ltd System and method for automated voice quality testing
WO2011129725A1 (en) * 2010-04-12 2011-10-20 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for noise cancellation in a speech encoder
WO2012107561A1 (en) * 2011-02-10 2012-08-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US9207670B2 (en) 2011-03-21 2015-12-08 Rosemount Inc. Degrading sensor detection implemented within a transmitter
CN102890936A (zh) * 2011-07-19 2013-01-23 联想(北京)有限公司 一种音频处理方法、终端设备及系统
KR20130014895A (ko) * 2011-08-01 2013-02-12 한국전자통신연구원 음원 분리 기준 결정 장치와 방법 및 음원 분리 장치와 방법
US11665482B2 (en) 2011-12-23 2023-05-30 Shenzhen Shokz Co., Ltd. Bone conduction speaker and compound vibration device thereof
US9146301B2 (en) * 2012-01-25 2015-09-29 Fuji Xerox Co., Ltd. Localization using modulated ambient sounds
US9282405B2 (en) 2012-04-24 2016-03-08 Polycom, Inc. Automatic microphone muting of undesired noises by microphone arrays
US20130315402A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
US9052240B2 (en) 2012-06-29 2015-06-09 Rosemount Inc. Industrial process temperature transmitter with sensor stress diagnostics
US9602122B2 (en) * 2012-09-28 2017-03-21 Rosemount Inc. Process variable measurement noise diagnostic
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
TWI503687B (zh) * 2013-08-08 2015-10-11 Univ Asia 適應性線性時變濾波方法
PT2015044915B (pt) * 2013-09-26 2016-11-04 Univ Do Porto Cancelamento da realimentação acústica com base em análise cepstral
US9324338B2 (en) * 2013-10-22 2016-04-26 Mitsubishi Electric Research Laboratories, Inc. Denoising noisy speech signals using probabilistic model
CN103903632A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 一种多声源环境下的基于听觉中枢系统的语音分离方法
CN104064195A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种噪声环境下的多维盲分离方法
US9762742B2 (en) 2014-07-24 2017-09-12 Conexant Systems, Llc Robust acoustic echo cancellation for loosely paired devices based on semi-blind multichannel demixing
CN104700119B (zh) * 2015-03-24 2018-02-13 北京机械设备研究所 一种基于卷积盲源分离的脑电信号独立分量提取方法
US9191494B1 (en) * 2015-04-06 2015-11-17 Captioncall, Llc Device, system, and method for performing echo cancellation in different modes of a communication device
EP3440670B1 (en) 2016-04-08 2022-01-12 Dolby Laboratories Licensing Corporation Audio source separation
TWI622043B (zh) * 2016-06-03 2018-04-21 瑞昱半導體股份有限公司 聲源分離方法與裝置
US10593351B2 (en) * 2017-05-03 2020-03-17 Ajit Arun Zadgaonkar System and method for estimating hormone level and physiological conditions by analysing speech samples
FR3067511A1 (fr) * 2017-06-09 2018-12-14 Orange Traitement de donnees sonores pour une separation de sources sonores dans un signal multicanal
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
KR102556098B1 (ko) * 2017-11-24 2023-07-18 한국전자통신연구원 심리음향 기반 가중된 오류 함수를 이용한 오디오 신호 부호화 방법 및 장치, 그리고 오디오 신호 복호화 방법 및 장치
US10657981B1 (en) * 2018-01-19 2020-05-19 Amazon Technologies, Inc. Acoustic echo cancellation with loudspeaker canceling beamformer
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视
EP3834200A4 (en) 2018-09-12 2021-08-25 Shenzhen Voxtech Co., Ltd. SIGNAL PROCESSING DEVICE INCLUDING MULTIPLE ELECTROACOUSTIC TRANSDUCERS
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法
CN109444841B (zh) * 2018-12-26 2020-08-04 清华大学 基于修正切换函数的平滑变结构滤波方法及系统
CN110111808B (zh) * 2019-04-30 2021-06-15 华为技术有限公司 音频信号处理方法及相关产品
CN111009257B (zh) * 2019-12-17 2022-12-27 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质
TWI744036B (zh) 2020-10-14 2021-10-21 緯創資通股份有限公司 聲音辨識模型訓練方法及系統與電腦可讀取媒體
CN112489675A (zh) * 2020-11-13 2021-03-12 北京云从科技有限公司 一种多通道盲源分离方法、装置、机器可读介质及设备
US11320471B1 (en) * 2021-06-09 2022-05-03 University Of Sharjah Method of measuring impedance using Gaussian white noise excitation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001027874A1 (en) * 1999-10-14 2001-04-19 The Salk Institute Unsupervised adaptation and classification of multi-source data using a generalized gaussian mixture model
WO2006012578A2 (en) * 2004-07-22 2006-02-02 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
JP2008057926A (ja) * 2006-09-01 2008-03-13 Sanyo Electric Co Ltd タンクユニット

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4649505A (en) * 1984-07-02 1987-03-10 General Electric Company Two-input crosstalk-resistant adaptive noise canceller
US4912767A (en) * 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
JPH03269498A (ja) * 1990-03-19 1991-12-02 Ricoh Co Ltd 雑音除去方式
US5327178A (en) * 1991-06-17 1994-07-05 Mcmanigal Scott P Stereo speakers mounted on head
US5208786A (en) * 1991-08-28 1993-05-04 Massachusetts Institute Of Technology Multi-channel signal separation
JPH05316587A (ja) * 1992-05-08 1993-11-26 Sony Corp マイクロホン装置
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5732143A (en) * 1992-10-29 1998-03-24 Andrea Electronics Corp. Noise cancellation apparatus
US5383164A (en) * 1993-06-10 1995-01-17 The Salk Institute For Biological Studies Adaptive system for broadband multisignal discrimination in a channel with reverberation
US5375174A (en) * 1993-07-28 1994-12-20 Noise Cancellation Technologies, Inc. Remote siren headset
US5706402A (en) * 1994-11-29 1998-01-06 The Salk Institute For Biological Studies Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5770841A (en) * 1995-09-29 1998-06-23 United Parcel Service Of America, Inc. System and method for reading package information
US5675659A (en) * 1995-12-12 1997-10-07 Motorola Methods and apparatus for blind separation of delayed and filtered sources
US6130949A (en) * 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
CA2269027A1 (en) * 1996-10-17 1998-04-23 Andrea Electronics Corporation Noise cancelling acoustical improvement to wireless telephone or cellular phone
JPH10124084A (ja) * 1996-10-18 1998-05-15 Oki Electric Ind Co Ltd 音声処理装置
US5999567A (en) * 1996-10-31 1999-12-07 Motorola, Inc. Method for recovering a source signal from a composite signal and apparatus therefor
FR2759824A1 (fr) * 1997-02-18 1998-08-21 Philips Electronics Nv Systeme de separation de sources non stationnaires
US7072476B2 (en) * 1997-02-18 2006-07-04 Matech, Inc. Audio headset
US6167417A (en) * 1998-04-08 2000-12-26 Sarnoff Corporation Convolutive blind source separation using a multiple decorrelation method
DE19822021C2 (de) * 1998-05-15 2000-12-14 Siemens Audiologische Technik Hörgerät mit automatischem Mikrofonabgleich sowie Verfahren zum Betrieb eines Hörgerätes mit automatischem Mikrofonabgleich
US6654468B1 (en) * 1998-08-25 2003-11-25 Knowles Electronics, Llc Apparatus and method for matching the response of microphones in magnitude and phase
US6898612B1 (en) * 1998-11-12 2005-05-24 Sarnoff Corporation Method and system for on-line blind source separation
US6606506B1 (en) * 1998-11-19 2003-08-12 Albert C. Jones Personal entertainment and communication device
US6381570B2 (en) * 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
AU4284600A (en) * 1999-03-19 2000-10-09 Siemens Aktiengesellschaft Method and device for receiving and treating audiosignals in surroundings affected by noise
JP3688934B2 (ja) * 1999-04-16 2005-08-31 アルパイン株式会社 マイクロホンシステム
US6526148B1 (en) * 1999-05-18 2003-02-25 Siemens Corporate Research, Inc. Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals
JP2001022380A (ja) * 1999-07-07 2001-01-26 Alpine Electronics Inc ノイズ/オーディオ音キャンセル装置
US6594367B1 (en) * 1999-10-25 2003-07-15 Andrea Electronics Corporation Super directional beamforming design and implementation
US6549630B1 (en) * 2000-02-04 2003-04-15 Plantronics, Inc. Signal expander with discrimination between close and distant acoustic source
AU2001245740B2 (en) * 2000-03-14 2005-04-14 Audia Technology, Inc. Adaptive microphone matching in multi-microphone directional system
US20010038699A1 (en) * 2000-03-20 2001-11-08 Audia Technology, Inc. Automatic directional processing control for multi-microphone system
US8903737B2 (en) * 2000-04-25 2014-12-02 Accenture Global Service Limited Method and system for a wireless universal mobile product interface
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US7027607B2 (en) * 2000-09-22 2006-04-11 Gn Resound A/S Hearing aid with adaptive microphone matching
US7471798B2 (en) * 2000-09-29 2008-12-30 Knowles Electronics, Llc Microphone array having a second order directional pattern
EP2348751A1 (en) * 2000-09-29 2011-07-27 Knowles Electronics, LLC Second order microphone array
JP4028680B2 (ja) * 2000-11-01 2007-12-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 観測データから原信号を復元する信号分離方法、信号処理装置、モバイル端末装置、および記憶媒体
US20040053839A1 (en) * 2000-12-21 2004-03-18 Andrea Leblanc Method of protecting cells against apoptosis and assays to identify agents which modulate apoptosis
US7206418B2 (en) * 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
JP4250421B2 (ja) * 2001-02-14 2009-04-08 ジェンテクス・コーポレーション 車両アクセサリマイクロホン
WO2001060112A2 (en) * 2001-05-23 2001-08-16 Phonak Ag Method of generating an electrical output signal and acoustical/electrical conversion system
US7123727B2 (en) * 2001-07-18 2006-10-17 Agere Systems Inc. Adaptive close-talking differential microphone array
US8098844B2 (en) * 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
AU2002309146A1 (en) * 2002-06-14 2003-12-31 Nokia Corporation Enhanced error concealment for spatial audio
AU2003250464A1 (en) * 2002-09-13 2004-04-30 Koninklijke Philips Electronics N.V. Calibrating a first and a second microphone
US7383178B2 (en) * 2002-12-11 2008-06-03 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
US7142682B2 (en) * 2002-12-20 2006-11-28 Sonion Mems A/S Silicon-based transducer for use in hearing instruments and listening devices
EP1453348A1 (de) * 2003-02-25 2004-09-01 AKG Acoustics GmbH Selbstkalibrierung von Arraymikrofonen
DE10310579B4 (de) * 2003-03-11 2005-06-16 Siemens Audiologische Technik Gmbh Automatischer Mikrofonabgleich bei einem Richtmikrofonsystem mit wenigstens drei Mikrofonen
KR100486736B1 (ko) * 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
DE10316716A1 (de) * 2003-04-11 2004-10-28 Epcos Ag Bauelement mit einer piezoelektrischen Funktionsschicht
US7203323B2 (en) * 2003-07-25 2007-04-10 Microsoft Corporation System and process for calibrating a microphone array
US7424119B2 (en) * 2003-08-29 2008-09-09 Audio-Technica, U.S., Inc. Voice matching system for audio transducers
US7019463B2 (en) * 2003-10-21 2006-03-28 Raymond Kesterson Daytime running light module and system
US7515721B2 (en) * 2004-02-09 2009-04-07 Microsoft Corporation Self-descriptive microphone array
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
US7688985B2 (en) * 2004-04-30 2010-03-30 Phonak Ag Automatic microphone matching
DE602004015987D1 (de) * 2004-09-23 2008-10-02 Harman Becker Automotive Sys Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung
US7826624B2 (en) * 2004-10-15 2010-11-02 Lifesize Communications, Inc. Speakerphone self calibration and beam forming
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP4701931B2 (ja) * 2005-09-02 2011-06-15 日本電気株式会社 信号処理の方法及び装置並びにコンピュータプログラム
DE102005047047A1 (de) * 2005-09-30 2007-04-12 Siemens Audiologische Technik Gmbh Mikrofonkalibrierung bei einem RGSC-Beamformer
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
US8702687B2 (en) * 2005-11-03 2014-04-22 Luxon, Inc. Surgical laser systems for soft and hard tissue and methods of use thereof
CN1809105B (zh) * 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
US20070244698A1 (en) * 2006-04-18 2007-10-18 Dugger Jeffery D Response-select null steering circuit
US20080175407A1 (en) * 2007-01-23 2008-07-24 Fortemedia, Inc. System and method for calibrating phase and gain mismatches of an array microphone
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001027874A1 (en) * 1999-10-14 2001-04-19 The Salk Institute Unsupervised adaptation and classification of multi-source data using a generalized gaussian mixture model
JP2003526142A (ja) * 1999-10-14 2003-09-02 ザ・サルク・インスティチュート 一般ガウス混合モデルを使用するマルチソース・データの非監視適応および分類
WO2006012578A2 (en) * 2004-07-22 2006-02-02 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
JP2008057926A (ja) * 2006-09-01 2008-03-13 Sanyo Electric Co Ltd タンクユニット

Also Published As

Publication number Publication date
EP2115743A1 (en) 2009-11-11
CN101622669B (zh) 2013-03-13
CN101622669A (zh) 2010-01-06
WO2008106474A1 (en) 2008-09-04
KR20090123921A (ko) 2009-12-02
JP2013117728A (ja) 2013-06-13
US20080208538A1 (en) 2008-08-28
TW200849219A (en) 2008-12-16
JP5587396B2 (ja) 2014-09-10

Similar Documents

Publication Publication Date Title
JP5587396B2 (ja) 信号分離のためのシステム、方法、および装置
US8160273B2 (en) Systems, methods, and apparatus for signal separation using data driven techniques
US8175291B2 (en) Systems, methods, and apparatus for multi-microphone based speech enhancement
JP5323995B2 (ja) マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体
US7366662B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
JP5456778B2 (ja) 了解度の向上のためのシステム、方法、装置、およびコンピュータ可読記録媒体
JP5738020B2 (ja) 音声認識装置及び音声認識方法
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
Doclo et al. Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage
Maas et al. A two-channel acoustic front-end for robust automatic speech recognition in noisy and reverberant environments
Yoshioka et al. Noise model transfer: Novel approach to robustness against nonstationary noise
Hu et al. A robust adaptive speech enhancement system for vehicular applications
CN110858485A (zh) 语音增强方法、装置、设备及存储介质
Ko et al. Datasets for Detection and Localization of Speech Buried in Drone Noise
Tang et al. A Time-Varying Forgetting Factor-Based QRRLS Algorithm for Multichannel Speech Dereverberation
Zhang et al. Ica-based noise reduction for mobile phone speech communication
Kinoshita et al. Blind source separation using spatially distributed microphones based on microphone-location dependent source activities.
Kavruk Two stage blind dereverberation based on stochastic models of speech and reverberation
Milano et al. Sector-Based Interference Cancellation for Robust Keyword Spotting Applications Using an Informed MPDR Beamformer
CN115862632A (zh) 语音识别方法、装置、电子设备和存储介质
RU2417460C2 (ru) Выделение сигнала вслепую
Mizumachi et al. Passive hybrid subtractive beamformer for near-field sound sources
Naylor Dereverberation

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111129

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120229

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120307

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120329

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120405

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120427

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120828