JP6789827B2

JP6789827B2 - 音声信号を明瞭化するためのマルチ聴覚ｍｍｓｅ分析技法

Info

Publication number: JP6789827B2
Application number: JP2016573971A
Authority: JP
Inventors: ガイガー，フレドリック; ブンダーソン，ブライアント; グルンドストロム，カール
Original assignee: サイファ，エルエルシー
Priority date: 2014-06-18
Filing date: 2015-06-12
Publication date: 2020-11-25
Anticipated expiration: 2035-06-12
Also published as: EP3158775A4; WO2015195482A1; JP2017522594A; EP3158775A1; US20150373453A1; CN106797517B; CN106797517A; US10149047B2; KR20170039126A; KR102378207B1

Description

技術分野
本開示は、概して、音声信号からノイズを除去するか、またはそうでなければ、音声信号を出力する前に音声信号を明瞭化するための技法を含めた、音声信号を処理するための技法に関する。より具体的には、本開示は、主マイクロホンおよび少なくとも１つの参照マイクロホンから受信された音声信号について最小平均二乗誤差（ＭＭＳＥ：minimum mean squared error）分析を行う技法、およびＭＭＳＥ分析を用いて主マイクロホンによって受信された音声信号からノイズを低減、または除去する技法に関する。

概要
様々な態様において、本開示による方法は、音声信号の対象部分または対象構成成分を識別するステップと、音声信号の対象部分に付随するノイズを低減または除去するステップと、を含む明瞭化プロセスである。明瞭化プロセスを用いるとき、主音声信号の対象部分、または少なくとも主音声信号の対象部分のかなりの部分は、明瞭化プロセス後も残存、すなわち、存続することになる。明瞭化プロセスの後に残存する主音声信号の各部分は、本明細書では「明瞭化された音声信号」と呼ばれる。主音声信号の様々な周波数帯が別々に明瞭化される実施形態では、明瞭化された音声信号は、本明細書では「再構成された音声信号」とも呼ばれる、主音声信号の再構成されたバージョンに含むことができる。明瞭化プロセスが、移動電話などの音声通信デバイスとともに用いられる実施形態では、主音声信号の対象部分は、個人の声を含むことができる。いったん主音声信号が明瞭化され、明瞭化された音声信号が再構成された音声信号に任意選択的に含まれれば、明瞭化された音声信号および／または再構成された音声信号は、記憶され、別のデバイスに伝送され、かつ／または聞こえるように出力することができる。

音声信号を処理するための方法は、互いに近接しているが向きまたは遠近関係が異なった、したがって、互いに違った風に、または違った遠近関係から音声信号を受信する少なくとも２つのマイクロホンによって、音の形で音声信号を受信するステップを含む。このような構成は、「バイノーラル（binaural）な環境」と呼ばれる。マイクロホンは、主マイクロホンと、１つまたは複数の参照マイクロホンと、を含む。主マイクロホンは、意図した音源から音声信号を受信するように位置決めすることができる。例えば、主マイクロホンは、移動電話を使用中に、個人が話しかける移動電話のマイクロホンを含むことができる。意図した音源からの音声信号は、対象音声、または対象音を含むことができる。その向きまたは遠近関係の理由で、主マイクロホンによって受信される音声信号は、本明細書では「主音声信号」と呼ばれる。

参照マイクロホンはそれぞれ、意図した音源からいくぶん遠隔して、参照マイクロホンが、主マイクロホンが背景音を受信するのと同程度以上まで背景音を受信することが可能であり、かつ、主マイクロホンが対象音声を受信するよりも少ない程度で、対象音声を受信することが可能な場所と向き、または遠近関係で位置決めすることができる。それぞれの参照マイクロホンの遠近関係から受信された音声信号は、本明細書では「参照音声信号」と呼ばれる。

いったん音声信号が、主音声信号および、１つまたは複数の参照音声信号として受信されれば、主音声信号を明瞭化することができる。明瞭化プロセスの一部として、主音声信号および各参照音声信号は、１つまたは複数の適応時間領域フィルタにかけることができる。特定の一実施形態では、主音声信号および／または各参照音声信号は、最小平均二乗（ＬＭＳ：least mean squares）フィルタにかけることができる。

主音声信号または任意の参照音声信号を１つまたは複数の適応時間領域フィルタにかけるか、かけないかにかかわらず、ノイズ推定が得られる。ノイズ推定は、１つまたは複数の参照音声信号から得ることができる。より具体的には、ノイズ推定は、少なくとも１つの対象音声（例えば、フォルマント（formant）、または人声音のスペクトルピークなど）の１つまたは複数の部分がその中に存在することが知られている、１つまたは複数の周波数帯から得ることができる。ノイズ推定は、参照音声信号のみから得ることができ、あるいは参照音声信号の適切な部分（例えば、対象となっている各周波数帯など）を、ノイズに加えて対象音声を含むことになる主音声信号の対応する部分と比較することによって得ることができる。さらにもっと具体的には、主音声信号のある特定の周波数帯のサンプルは、１つまたは複数の参照音声信号の同じ特定の周波数帯の、同時に得られたサンプルと比較して、主音声信号のこうした周波数帯に存在することが疑われるノイズ、またはおそらく存在するノイズを識別（すなわちノイズ推定）することができる。獲得方法を問わず、それぞれのノイズ推定を用いて、主音声信号に、または、主音声信号の１つまたは複数の周波数帯に存在することが疑われるノイズ、またはおそらく存在するノイズを識別することができる。バイノーラルな環境において音声信号を分析することによって、参照音声信号を用いずにノイズを推定するときに必要な、音声活動検出器なしでノイズ推定を行うことができる。

主音声信号についての、または、主音声信号の１つまたは複数の周波数帯についての最小平均二乗誤差（ＭＭＳＥ）分析を行う間に、それぞれのノイズ推定を考慮に入れることができる。ＭＭＳＥ分析を用いて、ノイズ推定の関数および主音声信号の周波数分解によって定義された誤差を最小化することができる。こうした最小化の結果を用いて、主音声信号の１つまたは複数の周波数帯を修正することができる。いくつかの実施形態では、ＭＭＳＥ分析は、１つまたは複数のノイズ推定に基づいて個別に適応させることができる。あるいは、主音声信号、または、主音声信号の１つまたは複数の周波数帯のＭＭＳＥ分析に、１つまたは複数のノイズ推定を用いる（be accounted for）ことができ、あるいは組み込むことができる。ＭＭＳＥ分析は、主音声信号から、または、主音声信号の１つまたは複数の周波数帯から、ノイズを少なくとも部分的に除去し、１つまたは複数の明瞭化された音声信号を供給する。つまり、明瞭化された音声信号の１つまたは複数の周波数帯におけるノイズの存在を全体的に減らすことができる。あるいは、各周波数帯がノイズを含んでいるが、対象音声が足りない場合には、再構成された出力信号の周波数帯の存在を全体的に減らすことができる。

主音声信号が複数の様々な周波数帯に分かれている実施形態、ならびに様々な周波数帯について行われたＭＭＳＥ分析の結果として、複数の明瞭化された音声信号が得られる実施形態を含むいくつかの実施形態では、複数の周波数帯のうちのある周波数帯に対応する各明瞭化された音声信号を用いて、各周波数帯または明瞭化された音声信号に信頼区間（confidence interval）を割り当てることができる。各周波数帯、または明瞭化された音声信号の信頼水準は、再構成された音声信号に含まれることになる、こうした周波数帯または明瞭化された音声信号の度合いに対応させることができる。各信頼区間は、リアルタイムの分析に、および／またはいくつかの実施形態では、履歴データに基づくことができる。より具体的には、各周波数帯または明瞭化された音声信号の信頼区間は、主音声信号および各参照音声信号から拾い集められた情報（例えば、対応する周波数帯ごとのノイズ推定、対応する周波数帯についてのＭＭＳＥ分析の結果など）に対応させることができる。

信頼区間は、それに対応する周波数帯または明瞭化された音声信号が、人声音、音楽などといったような、主音声信号の対象音声の少なくとも一部分を含んでいる尤度に少なくとも部分的に対応させることができる。いくつかの実施形態では、ある特定の周波数帯または明瞭化された音声信号の信頼区間は、その周波数帯または明瞭化された音声信号が、対象音声の少なくとも一部分を含んでいる尤度に対応させることができる。これに代えて、またはこれに加えて、ある特定の周波数帯または明瞭化された音声信号の信頼区間は、参照音声信号の該当する部分の対応する周波数帯に存在するノイズとの比較時に、明瞭化された音声信号から除去されたノイズの量（例えば、ノイズの割合など）に対応させることができる。

各信頼区間は、ゲイン値として具体化することができる。すなわち、例えば、ゼロ（０）〜イチ（１）の値は、それに対応する所定の周波数帯に対する乗数として用いることができるため、こうした対応する所定の周波数帯が再構成された出力音声信号に含まれる程度を制御することができる。一例として、周波数帯または明瞭化された音声信号が（例えば、こうした周波数帯についてのＭＭＳＥ分析などから）、主音声信号の対象音声の一部分に該当している信頼水準が高い場合には、相対的に高いゲイン値（例えば、０．５を上回るゲイン値、０．６〜１のゲイン値など）を、こうした周波数帯に割り当てることができる。ある周波数帯が主音声信号の対象音声の一部分に該当している可能性が低い場合には、対応する信頼区間を低くすることができ、それに応じて、低いゲイン値（例えば、０．５以下のゲイン値など）を、こうした特定の周波数帯に割り当てることができる。ある周波数帯が対象音声の一部分に該当している信頼水準が非常に低い場合には、すなわち、その周波数帯が主にノイズで構成されている可能性が非常に高い場合には、非常に低いゲイン値（例えば、０．３未満のゲイン値など）を、こうした特定の周波数帯に割り当てることができる。

複数の周波数帯が主音声信号から分離、または抽出され、信頼区間が各周波数帯に割り当てられると、次に、信頼区間を用いて、周波数帯のそれぞれが再構成された音声信号に含まれることになる程度を決定することができる。すなわち、再構成された音声出力信号の各周波数帯の存在を、その信頼区間に対応させることができる。より具体的には、各信頼区間を用いてそれに対応する周波数帯の大きさを動的に調節し、得られた再構成された信号の信号対ノイズ比（ＳＮＲ：signal-to-noise ratio）を向上させることができる。信頼区間が高い周波数帯の方が、信頼区間が低い周波数帯よりも存在が大きくなるので、再構成された音声信号の信頼区間が高い周波数帯は、信頼区間が低い周波数帯よりも顕著になっている。いったん信頼区間が割り当てられれば、周波数帯を再コンパイルして、再構成された音声信号を生成することができる。

本開示の明瞭化プロセスは、継続的に、または実質的に継続的に（例えば、一連の時間セグメントなどにおいて）行うことができる。

本開示による明瞭化プロセスのあらゆる実施形態を、電子デバイスの要素プロセッサの動作を制御するプログラム（例えば、ソフトウェアアプリケーション、すなわち「アプリ（ａｐｐ）」、ファームウェアなど）として具体化することができる。したがって、本開示の電子デバイスは、音源の音声信号に存在したノイズの程度に関係なく、ほとんど、またはまったくノイズがない明瞭化された音声信号および／または再構成された音声信号を供給するように構成することができる。次に、電子デバイスは、明瞭化された音声信号および／または再構成された音声信号の可聴出力を記憶し、伝送し、かつ／または供給するように構成することができる。

特定の、しかし限定的でない一実施形態では、このような電子デバイスは、移動電話またはその他の音声通信デバイスを含むことができる。プログラムおよびプロセッサを含んでいることに加えて、音声通信デバイスは、主マイクロホンおよび、１つまたは複数の参照マイクロホンを含むことができる。音声通信デバイスは、音声信号を伝送するアンテナなどの伝送素子もまた含むことができる。主マイクロホンおよび各参照マイクロホンは、音声信号を受信し、かつ、その音声信号をプロセッサに通信するように構成されている。プロセッサは、上記方法の一実施形態に従って、主マイクロホンからの主音声信号および各参照マイクロホンからの参照音声信号を処理し、明瞭化された音声信号および／または再構成された音声信号を生成する。次に、明瞭化された音声信号および／または再構成された音声信号は、音声通信デバイスの出力素子によって、例えば、セルラキャリアネットワークに伝送し、そこから、別の電話などの受信者のデバイスによって、明瞭化された音声信号および／または再構成された音声信号を最終的に受信することができる。

本開示の主題の様々な態様の特徴および利点と同様に、他の態様は、以下の説明、添付の図面および添付の特許請求の範囲を考慮することにより当業者に明らかになるであろう。

図面の簡単な説明
図面には以下が示されている。

音声信号を明瞭化するための方法の一実施形態を示すフローチャートである。本開示の教示に従って音声信号を明瞭化するための方法の一実施形態において、適応最小平均二乗（ＬＭＳ）フィルタリングの使用の一実施形態を図示するフローチャートである。本開示の教示に従って音声信号を明瞭化するための方法の一実施形態を実行するように構成された電子デバイスの、一実施形態を概略的に描いたものである。

詳細な説明
図１を参照すると、音声信号を明瞭化するための方法の一実施形態が図示され、説明されている。本方法は、おおむね次の３つの構成部分、すなわち、参照番号１０において、音声信号を受信するステップと、参照番号２０において、音声信号を処理して、明瞭化された音声信号および／または再構成された音声信号を供給するステップと、参照番号４０において、明瞭化された音声信号および／または再構成された音声信号を出力するステップと、を含んでいる。

参照番号１０において、音声信号を受信する行為は、複数の音声信号を受信することを含むことができる。参照番号１２において、移動電話、または図３に示されるような他の音声通信デバイス１００の主マイクロホン１１２などの第１の音源から主音声信号を受信することができる。図１の参照番号１４において、音声通信デバイス１００の１つまたは複数の参照マイクロホン１１４が、参照音声信号を受信することができる。主マイクロホン１１２は主音声信号を、また各参照マイクロホン１１４は各参照音声信号をそれぞれ同時に、かつ、同相で受信することができる。いくつかの実施形態では、主音声信号および各参照音声信号の構成成分は、実質的に同じである場合があるが、量が異なっている。これは、主音声信号が得られた主マイクロホン１１２、および参照音声信号が得られた参照マイクロホン１１４それぞれの異なる向きまたは遠近関係の間の両耳間レベル差（ＩＬＤ：intraaural level difference）に起因するものである。

主音声信号および各参照音声信号を受信すると、主マイクロホン１１２、および図３に示される音声通信デバイス１００の各参照マイクロホン１１４は、図１の参照番号１６において、これらの信号を音声通信デバイス１００のプロセッサ１２０に通信することができる。

図１の参照番号２０において、明瞭化された音声信号を供給するように、主音声信号および各参照音声信号を処理することができる。この明瞭化プロセスは、複数の行為を含むことができる。それらについて図２で詳細に説明する。図２の参照番号２２において、主音声信号、および任意選択的に、各参照音声信号を、１つまたは複数の適応時間領域フィルタにかけることができる。このようなフィルタは、低域フィルタを含むことができるが、フィルタリングされた信号から誤差、すなわちおそらくノイズを除去することができるため、さらなる処理後、より精製された信号、すなわちより明瞭な信号が得られる。特定の一実施形態では、最小平均二乗フィルタ（ＬＭＳ）を適応時間領域フィルタとして使用することができる。適応時間領域フィルタは、フィルタリングされた各信号から、何らかのノイズおよび／またはその他の望ましくない人工物を除去するおおまかな、または受動的なフィルタリングを提供することができる。

図２の参照番号２４において、ノイズ推定を得ることができる。より具体的には、参照音声信号、または、複数の参照音声信号が受信される実施形態では、複数の参照音声信号は、ノイズ推定を提供するように処理することができる。このような処理は、（図３の）音声通信デバイス１００の主マイクロホン１１２に話しかけている個人の声の一部を構成しているフォルマントなどの、対象音声をおそらく含んでいる１つまたは複数の周波数帯の評価を含むことができる。このような処理によって提供されるノイズ評価は、それぞれの参照音声信号の、それぞれの評価された周波数帯からの音声信号だけに基づくことができる。あるいは、ノイズ推定は、それぞれの参照音声信号のそれぞれの評価された周波数帯と、参照音声信号に対応する主音声信号のそれぞれの対応する周波数帯と、の間の差異に基づくことができる。特定の一実施形態では、参照音声信号からのある特定の周波数帯が、対応する主音声信号の同じ周波数帯と実質的に同じパワーか、またはそれよりも大きなパワーを有する場合には、こうした周波数帯は、主としてノイズで構成されている可能性が非常に高く、したがって、主としてノイズで構成されていると見なすことができる。主音声信号からの周波数帯が、対応する参照音声信号の同じ周波数帯よりも大きなパワーを有する場合には、対象音声の少なくとも一部分を含んでいる可能性があり、したがって、対象音声の少なくとも一部分を含んでいると見なすことができる。

いったんノイズ推定が得られれば、図２の参照番号２６で説明するように、ノイズ推定を主音声信号の最小平均二乗誤差（ＭＭＳＥ）分析と連携させて用いることができる。いくつかの実施形態では、ＭＭＳＥ分析は、ノイズ推定を加味することができる。より具体的には、ＭＭＳＥ分析は、ノイズ推定に基づいて個別に適応させることができる。例えば、ノイズ推定は、ＭＭＳＥ分析に組み込むことができる。次に、ＭＭＳＥ分析は、少なくとも１つの明瞭化された音声信号を供給する当技術分野で既知の方法で、主音声信号に適用することができる。主音声信号が適応時間領域フィルタにかけられている実施形態では、主音声信号のスペクトル特性が修正されており、それに応じてＭＭＳＥ分析を修正することができる。いくつかの実施形態では、主音声信号の様々な周波数帯にＭＭＳＥ分析を別々に適用して、それぞれが主音声信号の周波数帯の１つに対応する、複数の明瞭化された音声信号を供給することができる。

図２の参照番号２８において、信頼区間を主音声信号の各周波数帯に割り当てることができる。信頼区間は、主音声信号の未処理の周波数帯に、主音声信号のフィルタリングされた周波数帯に、または、主音声信号の周波数帯についてのＭＭＳＥ分析から得られた明瞭化された音声信号に適用することができる。各信頼区間は、主音声信号の対応する周波数帯が、対象音声の少なくとも一部分に対応する尤度の指標を提供することができる。いくつかの実施形態では、主音声信号および各参照音声信号、またはそれらの信号のいずれか一方、もしくは両方から得られた情報（例えば、各周波数帯のノイズ推定、各周波数帯についてのＭＭＳＥ分析の結果など）を、主音声信号の各周波数帯に信頼区間を割り当てるときに考慮することができる。

各信頼区間は、対応する所定の周波数帯が、再構成された出力音声信号に含まれている程度を制御することができる。各信頼区間の実用的な効果は、対象音声に寄与するとは思えない周波数帯を減衰させることである。ある特定の予め定められた周波数帯の信頼区間は、任意の適切な方法でこうした所定の周波数帯に適用することができる。限定ではないが、信頼区間は、それに対応する所定の周波数帯に対する乗数を含むことができる。特定の一実施形態では、各信頼区間は、ゲイン値、すなわちゼロ（０）〜イチ（１）の値として具体化することができる。例えば、ある特定の周波数帯が主音声信号の対象音声の一部分である可能性がある場合には、相対的に高いゲイン値（例えば、０．５を上回るゲイン値、０．６〜１のゲイン値など）を、こうした周波数帯に割り当てることができる。ある特定の周波数帯が、対象音声の一部分を含む尤度と少なくとも同じくらいの可能性でノイズを含む場合には、こうした周波数帯の信頼区間を低くすることができ、それに応じて、低いゲイン値（例えば、０．５以下のゲイン値など）を、こうした周波数帯に割り当てることができる。ある特定の周波数帯が、対象音声の一部分を含む可能性が低い場合には、またはこの特定の周波数帯がノイズの結果である可能性が非常に高い場合には、非常に低い信頼区間および非常に低いゲイン値（例えば、０．３未満のゲイン値など）を、こうした周波数帯に割り当てることができる。

主音声信号の各周波数帯に適切な信頼区間を割り当てることで、こうした周波数帯は、図２の参照番号３０において適切に調節することができる。信頼区間がゲイン値に対応する実施形態では、ゲイン値をその周波数帯に適用することができる。

図２の参照番号３２において、修正された１つまたは複数の周波数帯を組み合わせることによって、再構成された音声信号を構成することができる。組み合わせられる周波数帯は、上記ＭＭＳＥ分析によって、信頼区間を用いることによって、または、ＭＭＳＥ分析および信頼区間の組み合わせによって、修正することができる。

次に、再構成された音声信号は、図１の参照番号４０で出力することができる。図１および図２に関して説明したタイプのプロセスを用いて、主マイクロホンおよび、図３に描かれた移動電話のような音声通信デバイス１００の１つまたは複数の参照マイクロホンによって受信された音声を修正する実施形態では、修正された主音声信号は、音声通信デバイス１００のプロセッサ１１０によって音声通信デバイス１００のアンテナ１３０に通信することができる。アンテナ１３０は次に、別の音声通信デバイスまたはネットワークに修正された主音声信号を伝送する。別の音声通信デバイスまたはネットワークは次に、別の音声通信デバイスに修正された主音声信号を伝送することができる。修正された主音声信号を受信する音声通信デバイスは次に、ほとんど、またはまったくノイズがない可聴出力を供給するように、こうした信号を処理することができる。

前述の開示は主として音声通信デバイスに関して提示されているが、本開示の主題は、様々な他の情況における音声信号にも同様に適用することができる。限定ではないが、本開示の主題は、音の受信および増幅に使用される装置（例えば、マイクロホン、増幅器および、任意選択的にミキサーなどを含むシステム）とともに、音声を受信し、記録する装置（例えば、ボイスレコーダ、ビデオレコーダ、音響スタジオなど）とともに、音声ヘッドセット（例えば、有線音声ヘッドセット、無線音声ヘッドセット（例えば、BLUETOOTH（登録商標）など）など）とともに、および様々な他の情況において用いることができる。より具体的には、図３で図示されるように、再構成された音声信号は、音声出力デバイス１００のような、電子デバイスのプロセッサ１１０に連結されたメモリ１２０、または音声を受信し記憶するように構成された別のデバイス（例えば、ボイスレコーダ、音声レコーダ、ビデオカメラなど）に記憶させることができる。あるいは、再構成された音声信号は、ステレオのラウドスピーカ、携帯用電子デバイス、コンピュータ、音響システムなどといったような、電子デバイスのスピーカ１４０によって聞こえるように出力することができる。

主音声信号が、（例えば、図３の音声通信デバイス１００の主マイクロホン１１２によって）得られ、（例えば、音声通信デバイス１００のプロセッサ１１０に連結されたメモリ１２０などによって）記憶され、リアルタイムで、または実質的にリアルタイムで、（例えば、音声通信デバイス１００のアンテナ１３０などによって）伝送されるか、または、（例えば、音声通信デバイス１００のスピーカ１４０などによって）出力される信号を含む実施形態では、図１および図２を参照して説明したプロセスを繰り返し行うことができる。

明瞭化プロセスの繰り返しにより、主音声信号の継続的な修正、ならびにノイズの相対的レベルおよび主音声信号中の対象音声の変化を加味した迅速な調節を行うことができる。

前述の開示は多くの詳細を提供しているが、これらは添付の特許請求の範囲のいずれについてもその範囲を限定するものとして解釈されてはならない。特許請求の範囲による範囲から逸脱していない他の実施形態を考案することができる。様々な実施形態からの特徴を組み合わせて採用することができる。したがって、それぞれの請求項の範囲は、その平明な用語使いおよびその要素に対する利用可能な法的均等物の最大限の範囲によってのみ指示され限定される。

Claims

音声信号を明瞭化するための方法であって、
電子デバイスが、主音声信号と参照音声信号とを受信するステップであって、各音声信号は、複数の周波数帯と、未知の対象構成成分と、未知のノイズ構成成分と、を含む、受信するステップと、
前記電子デバイスが、前記参照音声信号から前記未知のノイズ構成成分のノイズ推定を決定するステップと、
前記電子デバイスが、最小平均二乗誤差分析に前記ノイズ推定を組み込むステップと、
前記電子デバイスが、前記主音声信号の前記複数の周波数帯の各周波数帯を前記最小平均二乗誤差分析にかけるステップと、
前記電子デバイスが、前記最小平均二乗誤差分析の結果に基づいて、前記複数の周波数帯の各周波数帯における前記未知の対象構成成分の優位さの統計的尤度の尺度として信頼区間を割り当てるステップと、
前記電子デバイスが、前記周波数帯の前記信頼区間に基づいて、前記主音声信号の各周波数帯の音声出力レベルを修正して、修正された出力周波数帯を供給するステップと、
前記電子デバイスが、前記主音声信号の前記複数の周波数帯の各周波数帯について前記修正された出力周波数帯を組み合わせて、前記未知のノイズ構成成分が実質的に低減された、明瞭化された出力音声信号を供給するステップと、
を含む方法。
前前記電子デバイスが、記ノイズ推定を決定するステップは、前記電子デバイスが、前記主音声信号からの少なくとも１つの周波数帯を、前記参照音声信号の少なくとも１つの対応する周波数帯と比較するステップを含む、請求項１に記載の方法。
前記電子デバイスが、前記ノイズ推定を決定するステップは、前記電子デバイスが、前記主音声信号の前記複数の周波数帯を、前記参照音声信号の前記対応する複数の周波数帯と比較するステップを含む、請求項２に記載の方法。
前記電子デバイスが、前記参照音声信号の前記複数の周波数帯の各周波数帯を前記最小平均二乗誤差分析にかけるステップをさらに含む、請求項１に記載の方法。
前記電子デバイスが、前記未知の対象構成成分が存在する前記統計的尤度を示す前記信頼区間を割り当てるステップは、
前記電子デバイスが、前記主音声信号の対応する周波数帯よりも大きなパワーを有する前記参照音声信号の周波数帯に、非常に低い信頼区間を割り当てるステップと、
前記電子デバイスが、前記主音声信号の対応する周波数帯と実質的に同じパワーを有する前記参照音声信号の周波数帯に、低い信頼区間を割り当てるステップと、
前記電子デバイスが、前記参照音声信号の対応する周波数帯よりも大きなパワーを有する前記主音声信号の周波数帯に、高い信頼区間を割り当てるステップと、
を含む、請求項１に記載の方法。
前記電子デバイスが、前記非常に低い信頼区間を割り当てるステップは、前記電子デバイスが、前記周波数帯に０．３未満のゲインを割り当てるステップを含む、請求項５に記載の方法。
前記電子デバイスが、前記低い信頼区間を割り当てるステップは、前記電子デバイスが、前記周波数帯に約０．５以下のゲインを割り当てるステップを含む、請求項５に記載の方法。
前記電子デバイスが、前記高い信頼区間を割り当てるステップは、前記電子デバイスが、前記周波数帯に０．６を上回るゲインを割り当てるステップを含む、請求項５に記載の方法。
前記電子デバイスが、前記信頼区間を割り当てるステップは、前記電子デバイスが、各周波数帯に適切なゲインを割り当てるステップを含む、請求項１に記載の方法。
前記電子デバイスが、前記信頼区間を割り当てるステップは、前記電子デバイスが、前記音声信号中のノイズを動的に推定するステップを含む、請求項１に記載の方法。
前記電子デバイスが音声活動を検出せずに行われる、請求項１に記載の方法。
前記電子デバイスが、前記主音声信号および前記参照音声信号を、適応時間領域フィルタにかけるステップをさらに含む、請求項１に記載の方法。
前記電子デバイスが、前記主音声信号および前記参照音声信号を前記適応時間領域フィルタにかけるステップは、前記電子デバイスが、前記主音声信号および前記参照音声信号を最小平均二乗フィルタにかけるステップを含む、請求項１２に記載の方法。
前記電子デバイスが、前記主音声信号および前記参照音声信号を前記適応時間領域フィルタにかけるステップは、前記電子デバイスが、前記主音声信号の前記複数の周波数帯の各周波数帯、および前記参照音声信号の前記複数の周波数帯の各周波数帯を最小平均二乗誤差分析にかける前に、前記主音声信号および前記参照音声信号を前記適応時間領域フィルタにかけるステップを含む、請求項１２に記載の方法。
音声信号を明瞭化するための方法であって、
電子デバイスが、主音声信号と参照音声信号とを受信するステップであって、各音声信号は、複数の周波数帯と、未知の対象構成成分と、未知のノイズ構成成分と、を含む、受信するステップと、
前記電子デバイスが、前記主音声信号を適応時間領域フィルタにかけて、フィルタリングされた音声信号を供給するステップと、
前記電子デバイスが、前記参照音声信号を用いてノイズ推定を決定するステップと、
前記電子デバイスが、前記ノイズ推定に基づいて最小平均二乗誤差分析を個別に適応させるステップと、
前記電子デバイスが、前記フィルタリングされた音声信号の前記複数の周波数帯の各周波数帯を前記最小平均二乗誤差分析にかけるステップと、
前記電子デバイスが、前記最小平均二乗誤差分析の結果に基づいて、前記フィルタリングされた音声信号の前記複数の周波数帯の各周波数帯における前記未知の対象構成成分の優位さの統計的尤度の尺度として信頼区間を割り当てるステップと、
前記電子デバイスが、前記周波数帯の前記信頼区間に基づいて、前記フィルタリングされた音声信号の各周波数帯の音声出力レベルを修正して、修正された出力周波数帯を供給するステップと、
前記電子デバイスが、前記フィルタリングされた音声信号の前記複数の周波数帯の各周波数帯について前記修正された出力周波数帯を組み合わせて、前記未知のノイズ構成成分が実質的に低減された、明瞭化された出力音声信号を供給するステップと、
を含む、方法。
音声信号を受信するように構成された電子デバイスであって、
主音声信号を受信するための主音声チャネルと、
参照音声信号を受信するための参照音声チャネルと、
プロセッサであって、
前記主音声チャネルから主音声信号を受信し、前記参照音声チャネルから参照音声信号を受信し、
前記参照音声信号を処理して、未知のノイズ構成成分のノイズ推定を提供し、
前記未知のノイズ構成成分の前記ノイズ推定を用いた最小平均二乗誤差分析を生成し、
前記主音声信号の複数の周波数帯を前記最小平均二乗誤差分析にかけ、
前記主音声信号の前記複数の周波数帯の各周波数帯の前記最小平均二乗誤差分析の結果を、前記参照音声信号の前記複数の周波数帯の対応する周波数帯の前記最小平均二乗誤差分析の結果と比較し、周波数帯の比較結果を提供し、
前記主音声信号の前記複数の周波数帯の各周波数帯における前記未知のノイズ構成成分に対する前記未知の対象構成成分の優位さの統計的尤度の尺度として、前記周波数帯に対応する前記周波数帯の比較結果に基づいて、信頼区間を割り当て、
前記信頼区間に基づいて、前記周波数帯の出力パワーを調節して、修正された出力周波数帯を提供し、
前記主音声信号の前記複数の周波数帯の各周波数帯について前記修正された出力周波数帯を組み合わせて、前記未知のノイズ構成成分が実質的に低減された、明瞭化された出力音声信号を供給し、
出力素子に前記明瞭化された出力音声信号を出力させるように、プログラムされたプロセッサと、
を含み、前記出力素子は前記プロセッサとつながっている、
電子デバイス。
前記プロセッサが、前記参照音声信号の複数の周波数帯を前記最小平均二乗誤差分析にかけるようにさらにプログラムされており、前記主音声信号の前記複数の周波数帯の周波数範囲および前記参照音声信号の前記複数の周波数帯の周波数範囲が、互いに対応している、請求項１６に記載の電子デバイス。
移動電話を含む、請求項１６に記載の電子デバイス。
前記出力素子が、スピーカを含む、請求項１６に記載の電子デバイス。
前記スピーカが、前記電子デバイスに収容されている、請求項１９に記載の電子デバイス。
前記スピーカが、前記電子デバイスに選択的に結合するように構成されている、請求項１９に記載の電子デバイス。
前記プロセッサが、前記主音声信号および前記参照音声信号に適応時間領域フィルタを
適用するようにさらにプログラムされている、請求項１６に記載の電子デバイス。
前記プロセッサが、前記主音声信号および前記参照音声信号に適応最小平均二乗フィルタを適用するようにプログラムされている、請求項２２に記載の電子デバイス。
前記プロセッサが、前記主音声信号の前記複数の周波数帯、および前記参照音声信号の前記複数の周波数帯を前記最小平均二乗誤差分析にかける前に、前記主音声信号および前記参照音声信号に前記適応時間領域フィルタを適用するようにプログラムされている、請求項２２に記載の電子デバイス。