JP2017506767A

JP2017506767A - 話者辞書に基づく発話モデル化のためのシステムおよび方法

Info

Publication number: JP2017506767A
Application number: JP2016554210A
Authority: JP
Inventors: インイ・グオ; ジュハン・ナム; エリック・ヴィサー; シュフア・ジャン; レ−フン・キム
Original assignee: クアルコム，インコーポレイテッド
Priority date: 2014-02-27
Filing date: 2015-02-24
Publication date: 2017-03-09
Also published as: CN106030705A; KR20160125984A; US20150243284A1; US10013975B2; WO2015130685A1; EP3111445B1; EP3111445A1

Abstract

電子デバイスによる発話モデル化のための方法が説明される。方法は、雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得するステップを含む。方法はまた、リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得するステップを含む。方法はさらに、第1の発話辞書および第2の発話辞書を取得するステップを含む。方法は加えて、第1のモデル化段階において、残余雑音抑制発話信号を生成するために、リアルタイム雑音辞書および第1の発話辞書に基づいて残余雑音を低減するステップを含む。方法はまた、第2のモデル化段階において、残余雑音抑制発話信号および第2の発話辞書に基づいて、再構築された発話信号を生成するステップを含む。

Description

関連出願
本出願は、2014年2月27日に出願された米国仮特許出願第61/945,691号、「SYSTEMS AND METHODS FOR SPEAKER DICTIONARY BASED SPEECH MODELING」に関し、その優先権を主張する。

本開示は全般に電子デバイスに関する。より詳細には、本開示は、話者辞書に基づく発話モデル化のためのシステムおよび方法に関する。

ここ数十年の間に、電子デバイスの使用は一般的になった。特に、電子技術の発展は、ますます複雑で有用になっている電子デバイスのコストを減らした。コストの低減、および消費者からの需要は、電子デバイスが現代社会において事実上遍在するほど、電子デバイスの使用を急増させた。

電子デバイスの使用が拡大するにつれて、電子デバイスの新しく改善された特徴への要求も拡大した。より具体的には、新しい機能を実行する、かつ/またはより高品質な出力を提供する電子デバイスが、しばしば求められる。

一部の電子デバイスはオーディオ信号を利用する。たとえば、スマートフォンは発話信号を捕捉して処理することができる。しかしながら、いくつかの事例では、オーディオ信号は大きな雑音を含むことがあり、これは発話信号の品質を低下させ得る。この議論から理解され得るように、オーディオ信号を改善するシステムおよび方法が有益であり得る。

電子デバイスによる発話モデル化のための方法が説明される。方法は、雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得するステップを含む。方法はまた、リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得するステップを含む。方法はさらに、第1の発話辞書および第2の発話辞書を取得するステップを含む。方法は加えて、第1のモデル化段階において、残余雑音抑制発話信号を生成するために、リアルタイム雑音辞書および第1の発話辞書に基づいて残余雑音を低減するステップを含む。方法はまた、第2のモデル化段階において、残余雑音抑制発話信号および第2の発話辞書に基づいて、再構築された発話信号を生成するステップを含む。方法は、再構築誤差に基づいて、再構築された発話信号および残余雑音抑制発話信号から出力発話信号を選択するステップを含み得る。

第1のモデル化段階は、非負値行列因子分解(NMF)に基づき得る。第2のモデル化段階は、非負値行列因子分解(NMF)に基づき得る。

残余雑音を低減するステップは、第1の発話辞書およびリアルタイム雑音辞書を備える、発話および雑音辞書を確定するステップを含み得る。残余雑音を低減するステップはまた、有効化係数を初期化するステップと、収束するまで有効化係数を更新するステップとを含み得る。

残余雑音を低減するステップは、第1の発話辞書、リアルタイム雑音辞書、適応された発話有効化係数、および適応された雑音アクティブ係数に基づいて、フィルタを作成するステップを含み得る。残余雑音を低減するステップはまた、フィルタおよび事前増強された入力に基づいて、残余雑音抑制発話信号を推定するステップを含み得る。

再構築された発話信号を生成するステップは、サブバンド音高固有辞書を確定するステップと、収束するまで有効化係数を更新するステップとを含み得る。再構築された発話信号を生成するステップはまた、音高固有辞書および有効化係数に基づいて、再構築された発話信号を生成するステップを含み得る。

方法は、音高に基づいて、話者固有辞書から音高固有辞書を決定するステップを含み得る。方法はまた、ビンごとの信号対雑音比(SNR)に基づいて、音高固有辞書からサブバンド音高固有辞書を決定するステップを含み得る。

第1の発話辞書および第2の発話辞書は、話者固有発話辞書に基づき得る。第1の発話辞書を取得するステップは、複数の有効化係数および発話基底関数を初期化するステップを含み得る。第1の発話辞書を取得するステップはまた、収束するまでパラメータを更新するステップを含み得る。

第2の発話辞書を取得するステップは、複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するステップを含み得る。第2の発話辞書を取得するステップはまた、話者固有の発話の大きさのスペクトルから、調波性の閾値を超える対応する調波性を伴う発話スペクトルを選択するステップを含み得る。第2の発話辞書を取得するステップはさらに、対応する音高を伴う選択された発話スペクトルの各々を標識するステップを含み得る。

発話モデル化のための電子デバイスも説明される。電子デバイスは、プロセッサと、プロセッサと電子通信しているメモリとを含む。電子デバイスはまた、メモリに記憶された命令を含む。命令は、雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得するように実行可能である。命令はまた、リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得するように実行可能である。命令はさらに、第1の発話辞書および第2の発話辞書を取得するように実行可能である。命令は加えて、第1のモデル化段階において、残余雑音抑制発話信号を生成するために、リアルタイム雑音辞書および第1の発話辞書に基づいて残余雑音を低減するように実行可能である。命令はまた、第2のモデル化段階において、残余雑音抑制発話信号および第2の発話辞書に基づいて、再構築された発話信号を生成するように実行可能である。

発話モデル化のためのコンピュータプログラム製品も説明される。コンピュータプログラム製品は、命令を伴う非一時的有形コンピュータ可読媒体を含む。命令は、電子デバイスに、雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得させるためのコードを含む。命令はまた、電子デバイスに、リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得させるためのコードを含む。命令はさらに、電子デバイスに、第1の発話辞書および第2の発話辞書を取得させるためのコードを含む。命令は加えて、電子デバイスに、第1のモデル化段階において、残余雑音抑制発話信号を生成するために、リアルタイム雑音辞書および第1の発話辞書に基づいて残余雑音を低減させるためのコードを含む。命令はまた、電子デバイスに、第2のモデル化段階において、残余雑音抑制発話信号および第2の発話辞書に基づいて、再構築された発話信号を生成させるためのコードを含む。

発話モデル化のための装置も説明される。装置は、雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得するための手段を含む。装置はまた、リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得するための手段を含む。装置はさらに、第1の発話辞書および第2の発話辞書を取得するための手段を含む。装置は加えて、第1のモデル化段階において、残余雑音抑制発話信号を生成するために、リアルタイム雑音辞書および第1の発話辞書に基づいて残余雑音を低減するための手段を含む。装置はまた、第2のモデル化段階において、残余雑音抑制発話信号および第2の発話辞書に基づいて、再構築された発話信号を生成するための手段を含む。

話者辞書に基づく発話モデル化のためのシステムおよび方法が実装され得る、電子デバイスの一構成を示すブロック図である。発話モデル化のための方法の一構成を示す流れ図である。本明細書で開示されるシステムおよび方法のいくつかの構成のより具体的な概要を示す機能ブロック図である。話者辞書に基づく発話モデル化のためのシステムおよび方法が実装され得る、電子デバイスの別の構成を示すブロック図である。発話モデル化のための方法の別の構成を示す流れ図である。雑音のある発話信号の一例を示すグラフである。雑音抑制発話信号の一例を示すグラフである。本明細書で開示されるシステムおよび方法による、第1のモデル化段階の処理後の信号の一例を示すグラフである。本明細書で開示されるシステムおよび方法による、第2のモデル化段階の処理後の信号の一例を示すグラフである。本明細書で開示されるシステムおよび方法のいくつかの構成の概略の一例を示すブロック図である。管理された非負値行列因子分解(NMF)に基づく、ピアノのオーディオとフルートのオーディオへのオーディオソースの分離の一例を示す図である。本明細書で開示されるシステムおよび方法のより具体的な構成を示す機能ブロック図である。第1のモデル化段階の発話モデル化のための辞書学習のより具体的な例を示すブロック図である。第1のモデル化段階の発話モデル化のための辞書の一例を示すグラフである。第2のモデル化段階の発話モデル化のための辞書学習のより具体的な例を示すブロック図である。第2のモデル化段階の発話モデル化のための辞書の一例を示すグラフである。第1のモデル化段階のNMFウィーナーフィルタリングの概略のより具体的な例を示すブロック図である。前処理の一例を示すブロック図である。第1のモデル化段階の発話/雑音の分離の一例を示すブロック図である。第1のモデル化段階のウィーナーフィルタリング再構築の一例を示すブロック図である。第2のモデル化段階のNMF発話モデル化のより具体的な例を示すブロック図である。話者辞書に基づくモデル化のためのシステムおよび方法が実装され得る、ワイヤレス通信デバイスの一構成を示すブロック図である。電子デバイス内に含まれ得るいくつかのコンポーネントを示す図である。

本明細書で開示されるシステムおよび方法は、話者辞書に基づく発話モデル化に関する。雑音の抑制は、今日の大半の通信デバイスの必須の要素である。多くの第1世代および第2世代のシステムは、様々な程度で雑音電力を実質的に低減することを可能にする。しかしながら、得られる発話出力は、過度の調整が原因で処理中に劣化することがある。さらに、雑音のモデル化における不整合が原因で、残余雑音が依然として存在することがある。より具体的には、発話増強システムのいくつかの問題は、以下のように与えられる。雑音抑制発話出力は、空間的フィルタリングによる雑音干渉の過小評価が原因で、知覚的に大きな残余雑音を含むことがある。加えて、発話出力は、低いサブバンド信号対雑音比(SNR)が原因で、サブバンドにおいて発話エンベロープが崩れることがある。したがって、入力された空間情報、雑音条件、および/またはマイクロフォンの配置とは無関係に、任意の話者の清澄な発話を予測することが必要である。

本明細書で説明されるシステムおよび方法のいくつかの構成は、清澄な発話に近い(たとえば、可能な限り近い)出力発話を生成することを試み得る。たとえば、本明細書で開示されるシステムおよび方法のいくつかの構成は、所与の話者に対して学習された話者辞書の中に符号化されている明白な発話モデルと、さらに、通常の雑音抑制システムからのコンテンツ出力をモデル化するための雑音モデルとを利用する。これらのモデルの有効化係数は、(たとえば、雑音抑制器の)出力からあらゆる残余雑音を分離するように、第1のモデル化(たとえば、非負値行列因子分解(NMF))段階において学習され得る。

第2のモデル化段階において、精緻化された発話モデルの有効化係数は、雑音抑制(NS)システムによって損なわれた発話エンベロープを復元するように学習され得る。最終的な出力は、大部分が発話要素であることがあり、清澄な発話に近い声色を有し得る。

本明細書で開示されるシステムおよび方法のいくつかの構成は、以下の1つまたは複数を含み得る。雑音および/または発話データは、辞書に基づく手法を使用してモデル化され得る。話者固有の発話辞書が学習され得る。非負値行列因子分解(NMF)を利用した2段階の辞書に基づく発話/雑音モデル化が採用され得る。たとえば、第1のモデル化段階は、残余雑音を除去するためのNMFに基づくウィーナーフィルタリングを含み得る。第2のモデル化段階は、清澄な発話エンベロープを維持するためのNMFに基づくエンベロープ復元を含み得る。

本明細書で開示されるシステムおよび方法の利点は、以下の1つまたは複数を含み得る。高度に非静的な雑音は効率的に除去され得る。雑音および発話の調波構造が正確に区別され得る。話者の清澄な有声の発話エンベロープが維持され得る。話者固有の発話特性が保存され得る。

次に、類似の参照番号が機能的に類似の要素を示し得る図を参照して、様々な構成が説明される。本明細書で全般に図面で全般に説明され例示されるシステムおよび方法は、多種多様な異なる構成で配列および設計され得る。したがって、図面に表されるような、いくつかの構成の以下のより詳細な説明は、特許請求される範囲を限定することは意図されず、システムおよび方法を単に表すものである。

図1は、話者辞書に基づく発話モデル化のためのシステムおよび方法が実装され得る、電子デバイス102の一構成を示すブロック図である。電子デバイス102の例は、スマートフォン、携帯電話、ボイスレコーダー、デジタルカメラ、タブレットデバイス、ラップトップコンピュータ、デスクトップコンピュータ、ビデオカメラ、固定電話などを含む。

電子デバイス102は、リアルタイム雑音基準決定モジュール106、リアルタイム雑音辞書決定モジュール110、残余雑音低減モジュール116、および再構築モジュール122の1つまたは複数を含み得る。本明細書で使用される場合、「モジュール」は、ハードウェア(たとえば、回路)またはハードウェアとソフトウェアの組合せで実装され得る。図1に関して説明されるモジュールの1つまたは複数は任意選択であり得ることに留意されたい。さらに、モジュールの1つまたは複数は、いくつかの構成では組み合わされてよく、または分割されてよい。図1に関して説明される機能、手順、パラメータ、値、および/または構造の1つまたは複数のより具体的な例が、図2〜図5、図10、図12〜図13、図15、および図17〜図21の1つまたは複数に関して与えられ得る。

電子デバイス102は、雑音のある発話信号104を取得し得る。たとえば、電子デバイス102は、1つまたは複数のマイクロフォンを使用して、雑音のある発話信号104を捕捉し得る。加えて、または代替的に、電子デバイス102は、別のデバイス(たとえば、ワイヤレスハンドセット、別のデバイスなど)から雑音のある発話信号104を受信し得る。雑音のある発話信号104は、発話および雑音を含み得る。雑音は、所望の発話の音と干渉する任意の音、および/または所望の発話の音以外の任意の音であり得る。雑音の例には、背景雑音、競合する話者、風の雑音、音楽の雑音、バブル雑音、静的な雑音、および/または非静的な雑音などがある。いくつかの場合、雑音のある発話信号104は、たとえば、1つまたは複数の有声部分、無声部分、無音部分、雑音のみの部分、および/または発話のみの部分を含み得る。いくつかの構成では、雑音のある発話信号104は複数のフレーム(および任意選択でサブフレーム)に分割されてよく、ここで、フレームは雑音のある発話信号104の時間的な一部分である。雑音のある発話信号104(または雑音のある発話信号104に基づく信号)は、リアルタイム雑音干渉決定モジュール106に提供され得る。

リアルタイム雑音基準決定モジュール106は、雑音のある発話信号104に基づいて、リアルタイムの雑音基準108を取得することができる。たとえば、リアルタイム雑音基準決定モジュール106は、雑音のある発話信号104の中の雑音を表す信号を生成することができる。いくつかの構成では、リアルタイム雑音基準決定モジュール106は雑音抑制器であってよく、雑音抑制器に含まれていてよく、かつ/または雑音抑制器とともに利用されてよい。リアルタイムの雑音基準108を取得するための手法のより具体的な例は、図18に関して与えられる。リアルタイムの雑音基準108は、リアルタイム雑音辞書決定モジュール110に提供され得る。

リアルタイム雑音辞書決定モジュール110は、リアルタイムの雑音基準108に基づいて、リアルタイムの雑音基準112を取得することができる。たとえば、リアルタイム雑音辞書決定モジュール110は、リアルタイムの雑音基準108の1つまたは複数の特性(たとえば、周波数、大きさ、位相など)を表す1つまたは複数の基底関数を決定することができる。リアルタイム雑音辞書112は、これらの基底関数を含み得る。リアルタイム雑音辞書112を取得するための手法のより具体的な例は、図18に関して与えられる。リアルタイム雑音辞書112は、残余雑音低減モジュール116に提供され得る。

電子デバイス102は、第1の発話辞書114を取得することができる。たとえば、第1の発話辞書114は、電子デバイス102によって生成されてよく、または、別のデバイスから受信されてよい。いくつかの構成では、電子デバイス102は、発話サンプルに基づいて第1の発話辞書114を生成することができる。たとえば、電子デバイス102は、清澄な発話信号(たとえば、高いSNRを伴う、および/または雑音のない発話信号)を収集および/または受信することができる。これらの清澄な発話信号は、SNRの高い電話呼の間、雑音がほとんどまたはまったく検出されないとき、較正手順の間、訓練手順の間などのような、「オフライン」において捕捉され得る。加えて、または代替的に、電子デバイス102は、1つまたは複数の条件が満たされるとき(たとえば、捕捉される発話が閾値を上回るSNRを示すとき)、清澄な発話信号としていくつかの発話信号を選択することができる。加えて、または代替的に、清澄な発話信号は、別のデバイスによって捕捉され、電子デバイス102に送信され得る。いくつかの構成では、第1の発話辞書114は、清澄な発話信号だけを使用して生成され得る。他の構成では、第1の発話辞書114は、清澄な発話信号に従って汎用的な発話モデルを適合させることによって生成され得る。

いくつかの構成では、第1の発話辞書114は、低ランクの発話辞書であり得る。たとえば、低ランクの発話辞書は、特定のユーザの発話特性を粗くモデル化する発話辞書であり得る。いくつかの構成では、低ランクの発話辞書は、NMFに基づく発話辞書学習を通じて学習され得る。たとえば、第1の発話辞書114を取得するステップは、1つまたは複数の有効化係数および/または発話基底関数を初期化するステップと、収束するまでパラメータを更新するステップとを含み得る。第1の発話辞書114は、そのサイズが原因で「低ランク」であり得る。たとえば、第1の発話辞書114は、比較的サイズが小さいことがあり、かつ/または、辞書中に比較的少数の線形に独立な要素(これはたとえば、NMFに基づく手法に従って学習され得る)しか有しないことがある。したがって、学習された第1の発話辞書114は「低ランク」であり得る。いくつかの構成では、第1の発話辞書114は、第2の発話辞書120と比較して、および/または第2の発話辞書120に対して、サイズが小さいことがあり、かつ/もしくは、より少数の線形に独立な要素を有することがある。

第1の発話辞書は話者固有であり得る。たとえば、第1の発話辞書114は、単一のユーザに対応することがあり、かつ/または単一のユーザの発話を特徴付けることがある。複数の第1の発話辞書114が生成および/または受信されることがあり、第1の発話辞書114の各々が異なるユーザに対応することに留意されたい。第1の発話辞書114を取得する(たとえば、決定する、学習するなど)手法の一例が図13に関して説明され、第1の話者辞書の一例が図14に関して説明される。第1の発話辞書114は、残余雑音低減モジュール116に提供され得る。

残余雑音低減モジュール116は、リアルタイム雑音辞書112および第1の発話辞書114に基づいて残余雑音を低減することができる。残余雑音はオーディオ信号に残っている雑音であり得る。たとえば、残余雑音は、雑音のある発話信号104に対して雑音抑制が実行された後に残っている雑音であり得る。残余雑音低減モジュール116は、雑音抑制発話信号からのこの残余雑音を低減および/または除去することができる。残余雑音を低減することは、第1のモデル化段階126の中で、またはその一部として実行され得ることに留意されたい。たとえば、第1のモデル化段階126は、NMFに基づく発話および/または雑音モデル化の段階であり得る。残余雑音を低減することで、残余雑音抑制発話信号118が生成され得る。たとえば、残余雑音抑制発話信号は、あったとしてもごくわずかな雑音しか残っていない清澄な発話信号であり得る。しかしながら、残余雑音抑制発話信号中の発話は、たとえば、(最初の雑音抑制に加えて)残余雑音の抑制が原因で損なわれていることがある。残余雑音抑制発話信号118は、再構築モジュール122に提供され得る。

電子デバイス102は、第2の発話辞書120を取得することができる。たとえば、第2の発話辞書120は、電子デバイス102によって生成されてよく、または、別の電子デバイスから受信されてよい。いくつかの構成では、電子デバイス102は、発話サンプルに基づいて第2の発話辞書120を生成することができる。たとえば、電子デバイス102は、清澄な発話信号(たとえば、高いSNRを伴う、および/または雑音のない発話信号)を収集することができる。これらの清澄な発話信号は、SNRの高い電話呼の間、雑音がほとんどまたはまったく検出されないとき、較正手順の間などのような、「オフライン」において捕捉され得る。いくつかの構成では、第2の発話辞書120は、清澄な発話信号だけを使用して生成され得る。他の構成では、第2の発話辞書120は、清澄な発話信号に従って汎用的な発話モデルを適合させることによって生成され得る。いくつかの構成では、第1の発話辞書114を生成するために使用されるのと同じ清澄な発話が、第2の発話辞書120を生成するためにも使用され得る。いくつかの構成では、第2の発話辞書120は、第1の発話辞書114よりも精緻に、特定の話者の発話を特徴付けることができる。

第2の発話辞書は話者固有であり得る。たとえば、第2の発話辞書120は、単一のユーザに対応することがあり、かつ/または単一のユーザの発話を特徴付けることがある。複数の第2の発話辞書120が生成および/または受信されることがあり、第2の発話辞書120の各々が異なるユーザに対応することに留意されたい。第2の発話辞書120を取得する(たとえば、決定する、学習するなど)手法の一例が図15に関して説明され、第2の話者辞書の一例が図16に関して説明される。第2の話者辞書120は、再構築モジュール122に提供され得る。

再構築モジュール122は、残余雑音抑制発話信号118および第2の発話辞書120に基づいて、再構築された発話信号124を生成することができる。たとえば、再構築モジュール122は、発話スペクトルの損なわれた部分を再構築することができる。再構築された発話信号124を生成することは、第2のモデル化段階128の中で、またはその一部として実行され得ることに留意されたい。たとえば、第2のモデル化段階128は、NMFに基づく発話モデル化のある段階であり得る。

いくつかの構成では、電子デバイス102は、再構築された発話信号124および/または残余雑音抑制発話信号118を符号化し、送信し、記憶し、かつ/または再生することができる。たとえば、電子デバイス102は、再構築された発話信号124または残余雑音抑制発話信号118を符号化し、それを別の電子デバイス(たとえば、携帯電話、スマートフォン、コンピュータ、ゲームコンソールなど)に送信することができる。加えて、または代替的に、電子デバイス102は、再構築された発話信号124または残余雑音抑制発話信号118を再生することができる。これは、信号を1人または複数の話者に提供することによって達成され得る。加えて、または代替的に、電子デバイス102は、再構築された発話信号124または残余雑音抑制発話信号118を記憶することができる。

図2は、発話モデル化のための方法200の一構成を示す流れ図である。方法200は、図1に関して説明された電子デバイス102によって実行され得る。電子デバイス102は、雑音のある発話信号104に基づいて、リアルタイムの雑音基準を取得することができる(202)。これは、たとえば、図1に関して上で説明されたように達成され得る。

電子デバイス102は、リアルタイムの雑音基準108に基づいて、リアルタイム雑音辞書112を取得することができる(204)。これは、たとえば、図1に関して上で説明されたように達成され得る。

電子デバイス102は、第1の発話辞書114および第2の発話辞書120を取得することができる(206)。これは、たとえば、図1に関して上で説明されたように達成され得る。

電子デバイス102は、残余雑音抑制発話信号118を生成するために、リアルタイム雑音辞書112および第1の発話辞書114に基づいて残余雑音を低減することができる(208)。これは、たとえば、図1に関して上で説明されたように達成され得る。残余雑音を低減するステップ208は、第1のモデル化段階126において実行され得る。第1のモデル化段階126はNMFに基づき得る。いくつかの構成では、残余雑音を低減するステップ208は、第1の発話辞書114およびリアルタイム雑音辞書を含む発話および雑音辞書を確定するステップ、有効化係数を初期化するステップ、および/または(たとえば、最大の数の繰り返しとともに)収束するまで有効化係数を更新するステップを含み得る。加えて、または代替的に、残余雑音を低減するステップ208は、第1の発話辞書、リアルタイム雑音辞書、適応された発話有効化係数、および/または適応された雑音アクティブ係数に基づいて、フィルタを作成するステップを含み得る。残余雑音を低減するステップ208はさらに、フィルタおよび事前増強された入力に基づいて、残余雑音抑制発話信号を推定するステップを含み得る。

電子デバイス102は、残余雑音抑制発話信号および第2の発話辞書に基づいて、再構築された発話信号を生成することができる(210)。これは、たとえば、図1に関して説明されたように達成され得る。再構築された発話信号を生成するステップ210は、第2のモデル化段階128において実行され得る。第2のモデル化段階128はNMFに基づき得る。いくつかの構成では、再構築された発話信号を生成するステップ210は、サブバンド音高固有辞書を確定するステップ、収束するまで有効化係数を更新するステップ、および/または、音高固有辞書(たとえば、全サブバンド音高固有辞書)と有効化係数に基づいて再構築された発話信号124を生成するステップを含み得る。

図3は、本明細書で開示されるシステムおよび方法のいくつかの構成のより具体的な概要を示す機能ブロック図である。図3に関して説明される機能、手順、パラメータ、値、および/または構造の1つまたは複数は、図1〜図2の1つまたは複数に関して説明された機能、手順、パラメータ、値、および/または構造の1つまたは複数の例であり得る。具体的には、図3は、雑音抑制モジュール352、話者認識モジュール334、前処理モジュール330、発話辞書選択モジュール336、オフライン辞書学習モジュール348、NMFに基づく発話/雑音モデル化モジュール340、および信号選択モジュール344を示す。

概略のより詳細な説明が以下のように与えられる。入力304(たとえば、雑音のある発話信号)が、雑音抑制モジュール352および話者認識モジュール334に提供され得る。雑音抑制モジュール352は、入力304(たとえば、雑音のある発話信号)に対する雑音抑制を実行することができる。いくつかの構成では、雑音抑制モジュール352は、複数の入力304のチャネル(たとえば、複数のマイクロフォンのチャネル)に基づいて雑音抑制を実行することができる。たとえば、雑音抑制モジュール352は、入力304の中の静的な雑音および/または非静的な雑音を抑制することができる。一例では、雑音抑制モジュール352は、雑音抑制出力の大きさを決定することができる。雑音抑制出力の大きさは前処理モジュール330に提供され得る。

前処理モジュール330は、リアルタイムの雑音基準を取得することができる。たとえば、前処理モジュール330は、入力304の主要チャネルおよび雑音抑制出力の大きさに基づいて、リアルタイムの雑音基準を取得することができる。前処理モジュール330は、入力304の主要チャネルおよびリアルタイムの雑音基準に基づいて、事前に増強された入力332(たとえば、X_pre)を生成することができる。加えて、前処理モジュール330は、リアルタイムの雑音基準に基づいて、オンラインでリアルタイム雑音辞書312(W_n)を取得することができる。雑音抑制および前処理のより具体的な例は、図18に関して説明される。事前に増強された入力332およびリアルタイム雑音辞書312は、NMFに基づく発話/雑音モデル化モジュール340に提供され得る。

話者認識モジュール334は、話者認識を実行することができる。たとえば、話者認識モジュール334は、入力304および雑音抑制モジュール352の出力に基づいて、1人または複数の話者の声(たとえば、主要な話者の声)を認識することができる。たとえば、話者認識モジュール334は、入力304および/または雑音抑制モジュール352の出力の1つまたは複数の特性(たとえば、スペクトルエンベロープ、フォルマントのピーク、音高など)を1つまたは複数の既知の話者のプロファイルと照合することを試み得る。話者が認識される場合、話者認識モジュール334は、話者の身元を示すものを発話辞書選択モジュール336に提供することができる。話者認識モジュール334が話者を認識しない場合、話者認識モジュール334は、入力304がいずれの既知の(たとえば、記録されている)話者とも一致しないことを示し得る。

オフライン辞書学習モジュール348に関して、話者辞書データベース350は汎用的な話者辞書によって初期化され得る。オフライン辞書学習モジュール348は、条件が満たされるとき(たとえば、入力された発話のSNR測定結果が、たとえばSNR閾値を上回るとき)、特定の話者の発話辞書を学習することができる。

話者辞書選択モジュール336は、第1のモデル化段階の発話モデル化のために第1の発話辞書314(たとえば、W_s1)を取得することができる。たとえば、発話辞書選択モジュール336は、(もしいれば)特定された話者に基づいて、話者辞書データベース350から第1の発話辞書314を検索することができる。発話辞書選択モジュール336(たとえば、話者固有発話辞書選択モジュール336)はまた、第2のモデル化段階の発話モデル化のために、第2の発話辞書320(たとえば、W_s2)を選択することができる。たとえば、発話辞書選択モジュール336は、(もしいれば)特定された話者に基づいて、話者辞書データベース350から第2の発話辞書320を検索することができる。いくつかの構成では、第2の発話辞書320は、第2のモデル化段階の発話モデル化のための、エンベロープ-音高固有辞書であり得る。図3に示されるように、いくつかの構成では、第1の発話辞書314および第2の発話辞書320は各々、話者固有発話辞書338に基づき得る(たとえば、そのサブセットであり得る)。第1の発話辞書314および第2の発話辞書320は、NMFに基づく発話/雑音モデル化モジュール340に提供され得る。

NMFに基づく発話/雑音モデル化モジュール340は、残余雑音を低減し(たとえば、除去し)、再構築された発話信号324を生成することができる。残余雑音を低減することは第1のモデル化段階326において実行されてよく、再構築された発話信号324を生成することは第2のモデル化段階328において実行されてよい。

第1のモデル化段階326は、NMFに基づくウィーナーフィルタリングを含み得る。たとえば、所与の訓練された発話/雑音辞書(たとえば、W=[W_s1, W_n])に対して、NMFに基づく発話/雑音モデル化モジュール340は、X≒WHとして、雑音のある発話スペクトルの各フレームをモデル化することができる。H=[H_s, H_n]は、各辞書の有効化の重みを表し得る(ここで、H_sは第1の発話辞書の有効化の重みであり、H_nはリアルタイム雑音辞書の有効化の重みである)。NMFに基づく発話/雑音モデル化モジュール340は、Wienerフィルタリング手法を使用して、残余雑音抑制発話信号318(たとえば、X_wf)を生成することができる(たとえば、

、

であり、ここで

は要素ごとの乗算である)。

いくつかの構成では、NMFに基づく発話/雑音モデル化モジュール340は、第2のモデル化段階328において、NMFに基づくエンベロープ復元を以下のように実行することができる。所与の第2の発話辞書320 W_s2(たとえば、話者固有発話辞書)に対して、NMFに基づく発話/雑音モデル化モジュール340は、高SNRのサブバンド発話スペクトルをモデル化して、再構築された発話信号324を生成することができる(たとえば、再構築された全バンドの発話X_rc=W_s2H)。

残余雑音抑制発話信号318および再構築された発話信号324は任意選択で、信号選択モジュール344に提供され得る。信号選択モジュール344は、再構築誤差342に基づいて、残余雑音抑制発話信号318と再構築された発話信号324の1つを出力346(たとえば、出力発話信号)として選択することができる。たとえば、再構築誤差342(たとえば、d_IS(X|WH)、d_IS、またはd)が高い(たとえば、閾値より大きい)場合、残余雑音抑制発話信号318(たとえば、ウィーナーフィルタリング出力X_wf)が、出力346(たとえば、X_out、出力発話信号など)として選択され得る。たとえば、

である。加えて、再構築誤差342 d_IS(X|WH)が高い(たとえば、同じまたは異なる閾値よりも大きい)場合、NMFに基づく発話/雑音モデル化モジュール340は、オフライン辞書学習モジュール348を有効化して、発話辞書をさらに訓練し、かつ/または1つまたは複数の追加の発話辞書を訓練することができる。

オフライン辞書学習モジュール348は、第1のモデル化段階326のための、および/または第2のモデル化段階328のための、辞書学習および/または訓練を実行することができる。辞書学習および/または訓練のより詳細な例が、図13〜図16に関して与えられる。

いくつかの構成では、以下の原理の1つまたは複数に従って、システムおよび方法が動作し得る。第1のモデル化段階326の処理は、NMF手順を使用して、ポストフィルタを適用する前に発話成分を得ること、および/または雑音から発話成分を分離することができる。リアルタイムの雑音基準は、事前に定義された発話辞書(たとえば、第1の発話辞書314)とともに利用され得る。たとえば、リアルタイムの雑音基準および発話辞書が取得されてよく、これらはNMFのような一致追跡の状況において一緒に使用され得る。

いくつかの構成では、周波数ビンの中の入力電力から雑音電力を差し引くことによって発話電力が推定され得るという仮定に基づいて、ポストフィルタ利得が周波数ビンごとに取得され得る。しかしながら、本明細書で開示されるシステムおよび方法のいくつかの構成によれば、所与の訓練データにより可能な限り対象の話者を説明(たとえば、記述、表現など)し、より正確に推定された発話電力および雑音電力に基づくポストフィルタを適用する前に発話を推定し、かつ/または雑音から発話を分離するために、サブバンドが学習され得る。この手法は、非常に正確なリアルタイムの雑音基準スペクトルを利用し、よく訓練された対象の話者の発話辞書によって、より簡単な従来の手法よりも良好に発話スペクトルが推定および/または分離され得るので、成功する可能性がある。限られたサイズ(たとえば、量)の訓練データにより完全な発話スペクトル辞書を構築するために、いくつかのサブバンド最小要素が、すべての訓練データを説明(たとえば、記述、表現など)するように組み合わされ得ることに留意されたい。理論的には、ほとんど無制限の数の基底関数および/または最小要素が辞書に対して取得され、かつ/または利用可能である場合、ユーザのスペクトルのほぼすべてのスナップショットが、すべての異なる種類の発声、音高、韻律などに対して利用可能であり得る。しかしながら、何らかの制約によってサイズを妥当なレベルに減らす何らかの方法がない限り、これは難しいことがある。

第2のモデル化段階328の処理は、エンベロープを再構築することに対してより適合され得る。第1の発話辞書314(第1のモデル化段階326において適用され得る)および/または最小要素は、限られた訓練データのサイズが原因でいくつかの周波数範囲に局在していることがあり、いくつかの帯域が雑音によって支配されている場合、および、そうした帯域だけではなく発話が支配的な周波数帯域もカバーするのに十分広い発話の最小要素がない場合、(たとえば、従来のポストフィルタ手法におけるように)その帯域を復元するのは難しいことがある。しかしながら、対象の話者辞書に対して十分な、発話が支配的なビンがある限り、それでも発話を復元する確率は(従来の手法の場合よりも)高い可能性があることに留意されたい。したがって、より広い範囲をカバーする辞書が利用され得る。スペクトルスナップショットは、スペクトル全体をカバーするので有益であり得る。

したがって、第2のモデル化段階328の処理において、音高および/または場合によってはフォルマント構造のような、いくつかの妥当な制約とともに、スペクトルスナップショットを利用するのが有益であり得る。第1のモデル化段階326の出力(たとえば、残余雑音抑制発話信号318)は、制約のために使用されるそのような特徴を推定するという点で、非常に有用であり得る。いくつかの構成では、推定される音高および/またはフォルマント構造などに対応するスペクトルスナップショットだけが、抽出され得る。これらは、雑音を推定するために、および/または雑音から発話を分離するために、辞書(たとえば、音高固有辞書)として利用され得る。これらの制約により、辞書を妥当なサイズにすることができ、NMFまたは任意の適切な一致追跡アルゴリズムを、メモリおよび計算に対するはるかに少ない配慮とともに適用することができ、それでも、対象の話者の発話のエンベロープが復元され得る。したがって、本明細書で開示されるシステムおよび方法は、前述の制約に基づいて、複雑さとメモリサイズが妥当でありより広いスペクトルをカバーする妥当な辞書サイズを有することと、辞書に基づいてエンベロープを復元することとの、新規な方法を提供することができる。

いくつかの構成では、1つまたは複数の方法は、発話辞書(たとえば、第1の発話辞書314)を取得するステップ、リアルタイムの雑音基準および発話辞書(たとえば、第1の発話辞書314)に基づいて一致追跡(たとえば、NMF)を実行して雑音のある信号から発話成分を取得することを含む第1のモデル化段階326の処理を実行するステップ、ポストフィルタを適用するステップ、1つまたは複数の制約とともに別の発話辞書(たとえば、第2の発話辞書320)を取得するステップ、および、一致追跡(たとえば、NMF)を実行して発話エンベロープを復元することを含む第2のモデル化段階328の処理を実行するステップの1つまたは複数を含み得る。システムおよび方法は加えて、前述の手順の1つまたは複数を実行するコンポーネント(たとえば、回路構成)を伴う電子デバイス、前述の手順の1つまたは複数を電子デバイスに実行させる命令を伴うコンピュータ可読媒体、および/または、前述の手順の1つまたは複数を実行するための手段を伴う装置を提供することができる。

図4は、話者辞書に基づく発話モデル化のためのシステムおよび方法が実装され得る、電子デバイス402の別の構成を示すブロック図である。図4に関連して説明された電子デバイス402は、図1に関して説明された電子デバイス102の一例であり得る。

電子デバイス402は、リアルタイム雑音基準決定モジュール406、リアルタイム雑音辞書決定モジュール410、第1の発話辞書生成モジュール452、残余雑音低減モジュール416、音高決定モジュール456、第2の発話辞書生成モジュール454、音高固有辞書決定モジュール458、サブバンド決定モジュール462、サブバンド音高固有辞書決定モジュール460、ならびに発話モデル化および再構築モジュール464の1つまたは複数を含み得る。リアルタイム雑音基準決定モジュール406、リアルタイム雑音辞書決定モジュール410、および残余雑音低減モジュール416は、図1に関連して説明された対応するコンポーネントの例であり得る。

いくつかの構成では、音高決定モジュール456、音高固有辞書決定モジュール458、サブバンド決定モジュール462、サブバンド音高固有辞書決定モジュール460、ならびに発話モデル化および再構築モジュール464が、図1に関連して説明された再構築モジュール122に含まれ得る。図4に関して説明されるモジュールの1つまたは複数は任意選択であり得ることに留意されたい。さらに、モジュールの1つまたは複数は、いくつかの構成では組み合わされてよく、または分割されてよい。図4に関して説明される機能、手順、パラメータ、値、および/または構造の1つまたは複数のより具体的な例が、図5、図10、図12〜図13、図15、および図17〜図21の1つまたは複数に関して与えられ得る。

電子デバイス402は、雑音のある発話信号404を取得し得る。これは、図1に関して説明されたように達成され得る。雑音のある発話信号404(または雑音のある発話信号404に基づく信号)は、リアルタイム雑音干渉決定モジュール406に提供され得る。

リアルタイム雑音基準決定モジュール406は、雑音のある発話信号404に基づいて、リアルタイムの雑音基準408を取得することができる。これは、図1に関して説明されたように達成され得る。リアルタイムの雑音基準408を取得するための手法のより具体的な例は、図18に関して与えられる。リアルタイムの雑音基準408は、リアルタイム雑音辞書決定モジュール410に提供され得る。

リアルタイム雑音辞書決定モジュール410は、リアルタイムの雑音基準408に基づいて、リアルタイムの雑音基準412を取得することができる。これは、図1に関して説明されたように達成され得る。リアルタイム雑音辞書412を取得するための手法のより具体的な例は、図18に関して与えられる。リアルタイム雑音辞書412は、残余雑音低減モジュール416に提供され得る。

第1の発話辞書生成モジュール452は、第1の発話辞書414を取得することができる。たとえば、第1の発話辞書生成モジュール452は、1人または複数の話者(たとえば、ユーザ)の発話をモデル化する第1の辞書(たとえば、基底関数のセット)を構築および/または訓練することができる。第1の発話辞書414を生成することは、図1に関して説明されたように達成され得る。第1の発話辞書生成モジュール452は、加えて、または代替的に、現在のユーザに対応する第1の発話辞書414を選択することができる。

第1の発話辞書414を取得する(たとえば、決定する、学習する、生成するなど)手法の一例が図13に関して説明され、第1の話者辞書の一例が図14に関して説明される。第1の発話辞書414は、残余雑音低減モジュール416に提供され得る。

残余雑音低減モジュール416は、リアルタイム雑音辞書412および第1の発話辞書414に基づいて残余雑音を低減することができる。これは、図1に関して説明されたように達成され得る。残余雑音抑制発話信号418は、サブバンド決定モジュール462および/または音高決定モジュール456に提供され得る。

音高決定モジュール456は、残余雑音抑制発話信号418に基づいて音高を取得することができる。たとえば、音高決定モジュール456は、残余雑音抑制発話信号418の各フレームに対する音高を決定することができる。決定された音高は、各フレームにおける基本音高(たとえば、基本音高展開)であり得る。音高決定モジュール456の例は、図21に関して説明される。音高は、音高固有辞書決定モジュール458に提供され得る。

いくつかの構成では、音高決定モジュール456は、フレームにおいて残余雑音抑制発話信号418の時間領域の自己相関を実行し、音高のピーク間の期間(たとえば、サンプルの数)を決定することによって、音高を決定することができる。加えて、または代替的に、音高決定モジュール456は、残余雑音抑制発話信号418を周波数領域へと変換し、最大のピークの大きさが発生する周波数を決定することができる。

いくつかの構成では、音高決定モジュール456は、残余雑音抑制信号418を周波数領域へと変換し、基本周波数を以下のように決定することができる。音高決定モジュール456は、非高調波のピーク、最大のピークに対して(たとえば、閾値よりも)小さなピーク、(たとえば、閾値よりも)低い調性を伴うピーク、より強いピークに近すぎる(たとえば、ある周波数範囲内にある)ピーク、および/または、前のフレームの非高調波のピークから連続しているピークを決定および/または除去することによって、基本周波数を決定することができる。次いで、音高決定モジュール456は、高調波照合を実行して基本周波数を決定することができる。たとえば、音高決定モジュール456は、残っているピーク(たとえば、f_l)によって基本周波数を見出すことができ、ここで基本周波数(たとえば、f₀)は、残っているピークに対する一般化された最大の共通の除数である(たとえば、

と示されるf_l/f₀の小数部分が、各f_lに対して可能な限り小さい)。たとえば、

である。これは、f₀がf₀の所与の範囲にわたって各

を可能な限り小さくするという意味で、観測されたピーク周波数{f_l}と最も一致するf₀を見つけるために利用され得る。

は、高調波照合スペクトル(たとえば、加重高調波一致スコア)を示し、ここで、

である。これは、ピークf_lの振幅A_lによって重み付けられたピークf_lの高調波一致スコアの和である。いくつかの構成では、加重関数は

であり、これは振幅に対する重みを与える。

は、高調波一致尺度を示し、たとえば、

であり得る。これは0と1の間のスコアをもたらし、このスコアは、f_l/f₀が何らかの整数にどの程度近いかを反映する。

第2の発話辞書生成モジュール454は、1人または複数の話者(たとえば、ユーザ)の発話をモデル化する第2の発話辞書420(たとえば、基底関数のセット)を取得(たとえば、生成、構築、および/または訓練)することができる。いくつかの構成では、第2の発話辞書420を生成するステップは、図1に関して説明されたように達成され得る。いくつかの例では、第2の発話辞書を取得するステップは、複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定することを含み得る。第2の発話辞書を取得するステップはまた、話者固有の発話の大きさのスペクトルから、調波性の閾値を超える対応する調波性を伴う発話スペクトルを選択するステップを含み得る。第2の発話辞書を取得するステップはさらに、対応する音高を伴う選択された発話スペクトルの各々を標識するステップを含み得る。

第2の発話辞書生成モジュール454は、加えて、または代替的に、現在のユーザに対応する第2の発話辞書420を選択することができる。第2の発話辞書420を取得する(たとえば、決定する、学習するなど)手法の一例が図15に関して説明され、第2の話者辞書の一例が図16に関して説明される。第2の発話辞書420は、話者固有の音高エンベロープ固有発話辞書であり得る。第2の発話辞書420は、音高固有辞書決定モジュール458に提供され得る。

音高固有辞書決定モジュール458は、音高に基づいて、話者固有辞書(たとえば、第2の発話辞書420)から音高固有辞書を決定することができる。たとえば、音高固有辞書決定モジュール458は、音高固有辞書を決定するために、音高に基づいて第2の発話辞書420から基底関数のサブセットを選択することができる。音高固有辞書は、サブバンド音高固有辞書決定モジュール460と発話モデル化および再構築モジュール464に提供され得る。

サブバンド決定モジュール462は、残余雑音抑制発話信号418に基づいて1つまたは複数のサブバンドを決定することができる。たとえば、サブバンド決定モジュール462は、残余雑音抑制発話信号418に基づいてサブバンド(たとえば、周波数ビン)を選択することができる。たとえば、サブバンド決定モジュール462は、閾値を上回るSNRを示す残余雑音抑制発話信号418の1つまたは複数のサブバンドだけを選択することができる。サブバンド決定モジュール462の例は、図21に関して説明される。1つまたは複数のサブバンドは、サブセット音高固有辞書決定モジュール460と発話モデル化および再構築モジュール464に提供され得る。

サブバンド音高固有辞書決定モジュール460は、1つまたは複数のサブバンド(たとえば、ビンごとの信号対雑音比(SNR))に基づいて、音高固有辞書からサブバンド音高固有辞書を決定することができる。たとえば、サブバンド音高固有辞書決定モジュール460は、サブバンドに基づいて音高固有辞書から1つまたは複数の基底関数を選択して、サブバンド音高固有辞書を生成することができる。サブバンド音高固有辞書は、発話モデル化および再構築モジュール464に提供され得る。

発話モデル化および再構築モジュール464は、サブバンド音高固有辞書およびサブバンドに基づいて、再構築された発話信号424を生成することができる。たとえば、発話モデル化および再構築モジュール464は、サブバンド音高固有辞書を確定し、収束するまで有効化係数を更新することができる。発話モデル化および再構築モジュール464はまた、音高固有辞書および有効化係数に基づいて、再構築された発話信号を生成することができる。発話モデル化および再構築モジュール464の例が、図21に関して説明される。

いくつかの構成では、電子デバイス402は、再構築誤差および1つまたは複数の閾値に基づいて、残余雑音抑制発話信号418と再構築された発話信号424から選択することができる。たとえば、電子デバイス402は、再構築誤差が閾値を下回る場合、再構築された発話信号424を選択することができる。代替的に、電子デバイス402は、再構築誤差が閾値を上回る(たとえば、閾値以上である)場合、残余雑音抑制発話信号418を選択することができる。いくつかの構成では、電子デバイス402は選択された信号を出力することができる。

図5は、発話モデル化のための方法500の別の構成を示す流れ図である。電子デバイス402は、雑音のある発話信号404に基づいて、残余雑音抑制発話信号418を取得することができる(502)。これは、たとえば、図4に関して上で説明されたように達成され得る。

電子デバイス402は、残余雑音抑制発話信号418に基づいて音高を取得することができる(504)。これは、たとえば、図4に関して上で説明されたように達成され得る。

電子デバイス402は、第2の発話辞書420を取得することができる(506)。これは、たとえば、図4に関して上で説明されたように達成され得る。

電子デバイス402は、音高に基づいて第2の発話辞書420から音高固有辞書を決定することができる(508)。これは、たとえば、図4に関して上で説明されたように達成され得る。

電子デバイス402は、残余雑音抑制発話信号418に基づいて1つまたは複数のサブバンドを決定することができる(510)。これは、たとえば、図4に関して上で説明されたように達成され得る。

電子デバイス402は、1つまたは複数のサブバンドに基づいて、音高固有辞書からサブバンド音高固有辞書を決定することができる(512)。これは、たとえば、図4に関して上で説明されたように達成され得る。

電子デバイス402は、再構築誤差が閾値を下回る場合、再構築された発話信号を選択することができる(514)。これは、たとえば、図4に関して上で説明されたように達成され得る。

図6は、雑音のある発話信号の一例を示すグラフである。具体的には、グラフは、時間668(時間、分、および秒(hms)単位の、たとえば2:50:0は2分50.0秒を意味する)にわたる周波数(ヘルツ(Hz)単位)666におけるスペクトログラムである。この例では、雑音のある発話信号は、音楽の雑音の存在下の発話信号を含む主要チャネル入力である。

図7は、雑音抑制発話信号の一例を示すグラフである。具体的には、グラフは、時間768にわたる周波数(Hz)766におけるスペクトログラムである。この例では、雑音抑制信号は、音楽の雑音からの残っているいくらかの残余雑音770を伴う発話信号を含む、雑音除去された出力である。図7はさらに、いくつかの欠けている高調波倍音および損なわれた発話エンベロープ772を示す。たとえば、いくつかのタイプの雑音抑制についての問題には、残余雑音770、欠けている高調波倍音および/または損なわれた発話エンベロープ772があり得る。

図8は、本明細書で開示されるシステムおよび方法による、第1のモデル化段階の処理後の信号の一例を示すグラフである。具体的には、グラフは、時間868にわたる周波数(Hz)866におけるスペクトログラムである。この例では、スペクトログラムは、第1のモデル化段階のNMFウィーナーフィルタリング出力を示す。図8は、図6〜図7で与えられる例に対応する。具体的には、このスペクトログラムは、本明細書で開示されたシステムおよび方法に従った雑音抑制および第1のモデル化段階の処理の後で、音楽の雑音によって損なわれた発話信号から得られる、結果としての残余雑音抑制発話信号を示す。観測され得るように、残余雑音および孤立した雑音のピークが、低減および/または除去されている。

図9は、本明細書で開示されるシステムおよび方法による、第2のモデル化段階の処理後の信号の一例を示すグラフである。具体的には、グラフは、時間968にわたる周波数(Hz)966におけるスペクトログラムである。この例では、スペクトログラムは、第2のモデル化段階のNMFエンベロープ復元出力(たとえば、再構築された発話信号)を示す。図9は、図6〜図8で与えられる例に対応する。具体的には、このスペクトログラムは、本明細書で開示されたシステムおよび方法に従った雑音抑制、第1のモデル化段階の処理、および第2のモデル化段階の処理の後で、音楽の雑音によって損なわれた発話信号から得られる、結果としての再構築された発話信号を示す。観測され得るように、高調波倍音が復元されており、清澄な有声の発話エンベロープが維持されている。

図10は、本明細書で開示されるシステムおよび方法のいくつかの構成の概略の一例を示すブロック図である。図10に関して説明される機能、手順、パラメータ、値、および/または構造の1つまたは複数は、図1〜図5の1つまたは複数に関して説明された機能、手順、パラメータ、値、および/または構造の1つまたは複数の例であり得る。この対応付けは、同様の項目番号によって示され得る。

図10に示される構成では、雑音のある発話信号1004は、雑音抑制モジュール1052に提供される。雑音抑制モジュール1052は、上で説明されたように、雑音のある発話信号1004の中の雑音を抑制することができる。いくつかの構成では、雑音抑制モジュール1052は、リアルタイムの適合された雑音基準信号1008(たとえば、リアルタイム雑音基準)および/または雑音抑制された発話の大きさのスペクトル1032を生成することができる。たとえば、雑音のある発話信号1004の中の雑音を抑制するために、雑音抑制モジュール1052は、リアルタイムで雑音基準1008を決定することができる。雑音基準1008は、雑音のある発話信号1004の中の雑音(たとえば、雑音特性)の推定であり得る。リアルタイムの適合された雑音基準信号1008は、雑音辞書を取得するために(雑音辞書モジュール1010によって)利用され得る。雑音抑制発話信号の大きさのスペクトル1032は、NMFに基づく発話/雑音モデル化モジュール1040に提供され得る。

雑音抑制発話信号は、声紋モジュール1034に提供され得る。声紋モジュール1034は、話者認識を実行することができる。たとえば、声紋モジュール1034は、発話信号からの特性に基づいて、1人または複数の話者を認識することができる。声紋モジュール1034は、図3に関して説明された話者認識モジュール334の一例であり得る。声紋モジュール1034は、発話辞書モジュール1036/雑音辞書モジュール1010に話者認識情報を提供することができる。

発話辞書モジュール1036/雑音辞書モジュール1010は、話者認識情報に基づいて1つまたは複数の話者固有辞書を選択することができ、かつ/または雑音辞書を取得することができる。たとえば、話者固有発話辞書選択モジュールは、話者認識情報に基づいて第1の辞書および第2の辞書を選択することができる。たとえば、現在の話者が認識される場合、発話辞書モジュール1036/雑音辞書モジュール1010は、その特定の話者に対応する1つまたは複数の辞書(たとえば、特定の話者の発話特性を表すように特別に訓練された辞書)を選択することができる。しかしながら、現在の話者が認識されない場合、発話辞書モジュール1036/雑音辞書モジュール1010は、1つまたは複数の汎用的な辞書を選択することができる。

1つまたは複数の辞書は、話者固有辞書データベース1050から選択され得る。たとえば、電子デバイスは、1つまたは複数の清澄な話者固有辞書をオフラインで訓練することができる。たとえば、電子デバイスは、清澄な発話サンプルに基づいて、各々の認識された話者のための1つまたは複数の辞書(たとえば、第1の辞書および第2の辞書)を訓練することができる。「清澄な」発話サンプルは、雑音レベルの低い発話サンプル(たとえば、何らかの特定の閾値よりも大きいSNRを有するサンプル)であり得る。

発話辞書モジュール1036/雑音辞書モジュール1010は加えて、リアルタイム雑音辞書を取得することができる。リアルタイム雑音辞書を取得することは、リアルタイムの(適合された)雑音基準1008に基づき得る。リアルタイム雑音辞書は、雑音のある発話信号において発生する雑音の1つまたは複数の特性を表し得る。したがって、発話辞書モジュール1036/雑音辞書モジュール1010は、話者固有辞書とリアルタイム雑音辞書の両方を利用する(たとえば、組み合わせる)ことができる。第1の発話辞書、第2の発話辞書、およびリアルタイム雑音辞書は、NMFに基づく発話/雑音モデル化モジュール1040に提供され得る。

NMFに基づく発話/雑音モデル化モジュール1040は、本明細書で開示されるシステムおよび方法に従って、第1のモデル化段階および/または第2のモデル化段階の処理を実行することができる。第1のモデル化段階の処理(たとえば、第1のモデル化段階のNMFウィーナーフィルタリング)の例のさらなる詳細が、図15および図17〜図18に関して与えられる。第2のモデル化段階の処理(たとえば、第2のモデル化段階のNMF発話モデル化)の例のさらなる詳細が、図19に関して与えられる。NMFに基づく発話/雑音モデル化モジュール1040は、増強された発話1024(たとえば、残余雑音抑制発話信号および/または再構築された発話信号)を生成することができる。

NMFに基づく発話/雑音モデル化モジュール1040は、モデル化誤差1042または再構築誤差を生成(たとえば、計算、推定など)することができる。モデル化誤差1042は、清澄な話者固有辞書訓練モジュール1048に提供され得る。上で説明されたように、清澄な話者固有辞書訓練モジュール1048は、1人または複数の話者に対応する1つまたは複数の辞書を訓練することができる。これはオフラインで実行され得る。図10に関して(たとえば、図10の下側部分において)説明される他の動作は、オンラインで(たとえば、リアルタイムで、雑音抑制の使用の間に、など)実行され得る。

図11は、管理されたNMFに基づく、ピアノのオーディオとフルートのオーディオへのオーディオソースの分離の一例を示す図である。図11は、グラフA 1174a、グラフB 1174b、グラフC 1174c、グラフD 1174d、およびグラフE 1174eを含む。グラフA 1174aは、辞書番号1176にわたって周波数(Hz)1166aにおいて示され、グラフB 1174bは、時間1168bにわたって周波数(Hz)1166aにおいて示され、グラフC 1174cは、時間1168cにわたって周波数(Hz)1166cにおいて示され、グラフD 1174dは、時間1168dにわたって周波数(Hz)1166dにおいて示され、グラフE 1174eは、時間1168eにわたって辞書番号1178において示される。具体的には、図11は、グラフA 1174aにおいてピアノ辞書W_pおよびフルート辞書W_fを示し、グラフB 1174bにおいてピアノとフルートの混合物Xのスペクトログラムを示し、グラフE 1174eにおいて対応するフルート有効化係数H_fおよび対応するピアノ有効化係数H_pを示し、グラフC 1174cにおいて再構築されたピアノX_p=W_pH_pを示し、グラフD 1174dにおいて再構築されたフルートX_f=W_fH_fを示す。

具体的には、グラフB 1174bにおける混合スペクトルX、グラフA 1174aにおける事前に訓練された辞書W=[W_p, W_f]、およびグラフE 1174eにおける有効化係数H=[H_p, H_f]が示される。この混合物は、X≒WHとしてモデル化され得る。混合物Xの各列ベクトルは、非負の辞書Wの非負の線形結合として表される。Hの各列ベクトルは、Wの各辞書の有効化の重みを表す。

混合物Xは、有効化係数H_pおよびH_fを見つけることによって、ピアノおよびフルートの信号へと分解され得る。Hは、

によって定義される費用関数を最小化することによって決定または発見されてよく、ここでd_ISは板倉-斎藤距離を表す。H_pおよびH_fが得られると、ピアノおよびフルートはそれぞれ、W_pH_pおよびW_fH_fとして再構築される。

図12は、本明細書で開示されるシステムおよび方法のより具体的な構成を示す機能ブロック図である。図12に関して説明される機能、手順、パラメータ、値、および/または構造の1つまたは複数は、図1〜図5および図10の1つまたは複数に関して説明された機能、手順、パラメータ、値、および/または構造の1つまたは複数の例であり得る。具体的には、図12は、雑音抑制モジュール1252、声紋モジュール1234、前処理モジュール1230、発話辞書選択モジュール1236、オフライン辞書学習モジュール1248、NMFに基づく発話/雑音モデル化モジュール1240、および信号選択モジュール1244を示す。

より詳細な説明が以下のように与えられる。入力1204(たとえば、雑音のある発話信号)が、雑音抑制モジュール1252および声紋モジュール1234に提供され得る。雑音抑制モジュール1252は、図3および図10の1つまたは複数に関して上で説明されたような雑音抑制を実行することができる。雑音抑制出力の大きさは前処理モジュール1230に提供され得る。

前処理モジュール1230は、図3および図10の1つまたは複数に関して上で説明されたようなリアルタイムの雑音基準を取得することができる。前処理モジュール1230は、入力1204の主要チャネルおよびリアルタイムの雑音基準に基づいて、事前に増強された入力1232(たとえば、X_pre)を生成することができる。加えて、前処理モジュール1230は、リアルタイムの雑音基準に基づいて、オンラインでリアルタイム雑音辞書1212(たとえば、W_n)を取得することができる。雑音抑制および前処理のより具体的な例は、図18に関して説明される。事前に増強された入力1232およびリアルタイム雑音辞書1212は、NMFに基づく発話/雑音モデル化モジュール1240に提供され得る。

声紋モジュール1234は、図3および図10の1つまたは複数に関して上で説明されたような話者認識を実行することができる。たとえば、声紋モジュール1234は、話者の身元の指示、または、現在の話者が特定されないこと、もしくはいずれの既知のプロファイルとも一致しないことの指示を提供することができる。

オフライン辞書学習モジュール1248に関して、話者辞書データベース1250は汎用的な話者辞書によって初期化され得る。オフライン辞書学習モジュール1248は、条件が満たされるとき(たとえば、入力された発話のSNR測定結果が、たとえばSNR閾値を上回るとき)、特定の話者の発話辞書を学習することができる。

発話辞書選択モジュール1236は、図3および図10の1つまたは複数に関して上で説明されたように、第1のモデル化段階の発話モデル化のために第1の発話辞書1214(たとえば、W_s1)を取得することができる。発話辞書選択モジュール1236(たとえば、話者固有発話辞書選択モジュール1236)はまた、図3および図10の1つまたは複数に関して上で説明されたように、第2のモデル化段階の発話モデル化のために第2の発話辞書1220(たとえば、W_s2)を選択することができる。図12に示されるように、いくつかの構成では、第1の発話辞書1214および第2の発話辞書1220は各々、話者固有発話辞書1238のサブセットであり得る。第1の発話辞書1214および第2の発話辞書1220は、NMFに基づく発話/雑音モデル化モジュール1240に提供され得る。

NMFに基づく発話/雑音モデル化モジュール1240は、残余雑音を低減し(たとえば、除去し)、再構築された発話信号1224を生成することができる。残余雑音を低減することは第1のモデル化段階1226において実行されてよく、再構築された発話信号1224を生成することは第2のモデル化段階1228において実行されてよい。

第1のモデル化段階1226は、NMFに基づくウィーナーフィルタリングを含み得る。たとえば、所与の訓練された発話/雑音辞書(たとえば、W=[W_s1, W_n])に対して、NMFに基づく発話/雑音モデル化モジュール1240は、X≒WHとして、雑音のある発話スペクトルの各フレームをモデル化することができる。H=[H_s, H_n]は、各辞書の有効化の重みを表し得る(ここで、H_sは第1の発話辞書の有効化の重みであり、H_nはリアルタイム雑音辞書の有効化の重みである)。NMFに基づく発話/雑音モデル化モジュール1240は、Hを見つけることによって、雑音のある発話Xを発話信号および雑音信号に分解することができる。これは、たとえば、

によって定義される適合の尺度を最小化することによって達成され得る。たとえば、第1のモデル化段階1226は、Wを確定し、Hを更新し(たとえば、適合させ)、Wienerフィルタリング手法

を使用して残余雑音抑制発話信号1218(たとえば、X_wf)を生成することができ、ここで

は要素ごとの乗算である。

いくつかの構成では、NMFに基づく発話/雑音モデル化モジュール1240は、第2のモデル化段階1228において、NMFに基づくエンベロープ復元を以下のように実行することができる。所与の第2の発話辞書1220 W_s2(たとえば、話者固有発話辞書)に対して、NMFに基づく発話/雑音モデル化モジュール1240は、X_wf,sub≒W_s2,subHとして、高SNRのサブバンド発話スペクトルをモデル化することができる。いくつかの構成では、NMFに基づく発話/雑音モデル化モジュール1240は、W_s2,subを確定し、Hを更新し(たとえば、適合させ)、再構築された発話信号1224(たとえば、再構築された全バンドの発話X_rc=W_s2H)を生成することができる。

残余雑音抑制発話信号1218および再構築された発話信号1224は任意選択で、信号選択モジュール1244に提供され得る。信号選択モジュール1244は、再構築誤差1242に基づいて、残余雑音抑制発話信号1218と再構築された発話信号1224の1つを選択することができる。たとえば、再構築誤差1242(たとえば、d_IS(X|WH)、d_IS、またはd)が高い(たとえば、閾値より大きい)場合、残余雑音抑制発話信号1218(たとえば、ウィーナーフィルタリング出力X_wf)が、出力1246(たとえば、X_out)として選択され得る。たとえば、

である。加えて、再構築誤差1242 d_IS(X|WH)が高い(たとえば、同じまたは異なる閾値よりも大きい)場合、NMFに基づく発話/雑音モデル化モジュール1240は、オフライン辞書学習モジュール1248を有効化して、発話辞書をさらに訓練し、かつ/または1つまたは複数の追加の発話辞書を訓練することができる。

オフライン辞書学習モジュール1248は、第1のモデル化段階1226のための、および/または第2のモデル化段階1228のための、辞書学習および/または訓練を実行することができる。辞書学習および/または訓練のより詳細な例が、図13〜図16に関して与えられる。

図13は、第1のモデル化段階の発話モデル化のための辞書学習のより具体的な例を示すブロック図である。具体的には、図13は、NMFに基づく発話辞書学習モジュール1382の一例を示す。NMFに基づく発話辞書学習モジュール1382は、上で説明されたオフライン辞書学習モジュール348、1248および第1の発話辞書生成モジュール452の1つまたは複数の一例(または一部分)であり得る。

図13に示されるように、話者固有の清澄な発話の大きさのスペクトル1380(たとえば、V)が、NMFに基づく発話辞書学習モジュール1382に提供され得る。たとえば、電子デバイスは、清澄な発話信号(たとえば、高いSNRを伴う、および/または雑音のない発話信号)を収集および/または受信することができる。これらの清澄な発話信号は、SNRの高い電話呼の間、雑音がほとんどまたはまったく検出されないとき、較正手順の間、訓練手順の間などのような、「オフライン」において捕捉され得る。加えて、または代替的に、電子デバイスは、1つまたは複数の条件が満たされるとき(たとえば、捕捉される発話が閾値を上回るSNRを示すとき)、清澄な発話信号としていくつかの発話信号を選択することができる。加えて、または代替的に、清澄な発話信号は、別のデバイスによって捕捉され、電子デバイスに送信され得る。NMFでは、Vは、V=WHのように、因子分解を試みられる行列を示し得ることに留意されたい。

NMFに基づく発話辞書学習モジュール1382は、NMFに基づいて第1の発話辞書1314(たとえば、低ランク発話辞書、第1のモデル化段階のための辞書)を学習することができる。たとえば、NMFに基づく発話辞書学習モジュール1382は、有効化係数Hおよび1つまたは複数の発話基底関数W_s1をランダムに初期化し、収束するまでパラメータ(たとえば、H)を更新することができる。いくつかの構成では、これは、式

に従って、かつ/または式

に従って達成されてよく、ここでβは更新の間に最小化される発散タイプを制御するためのパラメータである。前述の式では、「T」は行列の転置を示すことに留意されたい。

図14は、第1のモデル化段階の発話モデル化のための辞書の一例を示すグラフである。具体的には、第1のモデル化段階の発話モデル化のための辞書が、周波数1484にわたって辞書番号1486において示される。

図15は、第2のモデル化段階の発話モデル化のための辞書学習のより具体的な例を示すブロック図である。具体的には、図15は、音高/調波性推定モジュール1588の一例を示す。音高/調波性推定モジュール1588は、上で説明されたオフライン辞書学習モジュール348、1248および第2の発話辞書生成モジュール454の1つまたは複数の一例(または一部分)であり得る。

図15に示されるように、話者固有の(清澄な)発話の大きさのスペクトル1580(たとえば、V)が、音高/調波性推定モジュール1588に提供され得る。たとえば、話者固有の清澄な発話の大きさのスペクトル1580は、図1と図13の1つまたは複数に関して上で説明されたように取得され得る。

音高/調波性推定モジュール1588は、各発話スペクトルの調波性および音高を推定することができる。音高/調波性推定モジュール1588は、高い調波性を有する(たとえば、調波性閾値を上回る対応する調波性を有する)有声の発話スペクトルV_hを第2の発話辞書1520として選択し(たとえば、W_s2=V_h)、各発話辞書(たとえば、選択された発話スペクトル)を対応する音高によって標識し、かつ/または、各スペクトル辞書の音高を変更することによって現在の辞書を充実させることができる。いくつかの構成では、音高で標識された発話辞書は、以下のように充実させられ得る。ある音高で標識された発話辞書が与えられると、音高は、周波数領域においてフォルマントまたはエンベロープを変更することなく移され得る。このようにして、1つの利用可能な発話辞書を与えられると、特定のフォルマント構造および/またはエンベロープに対応する音高範囲全体にわたる発話辞書要素の拡張セット(たとえば、全体のセット)が取得され得る。

図16は、第2のモデル化段階の発話モデル化のための辞書の一例を示すグラフである。具体的には、第2のモデル化段階の発話モデル化のための第2の発話辞書が、辞書番号1692にわたって周波数1690において示される。

図17は、第1のモデル化段階のNMFウィーナーフィルタリングの概略のより具体的な例を示すブロック図である。具体的には、図17は、雑音抑制モジュール1752/前処理モジュール1730、ソース分離モジュール1703、および再構築モジュール1707を示す。図17に関して説明される機能、手順、パラメータ、値、および/または構造の1つまたは複数は、図1〜図5、図10、図12、および図21の1つまたは複数に関して説明された機能、手順、パラメータ、値、および/または構造の1つまたは複数の例であり得る。

この例では、入力1704(たとえば、雑音のある発話信号)は、雑音抑制モジュール1752/前処理モジュール1730に提供される。雑音抑制モジュール1752/前処理モジュール1730は、雑音辞書1712および事前増強された入力1732を生成することができる。事前増強された入力1732は、ソース分離モジュール1703および再構築モジュール1707に提供され得る。

第1の発話辞書1714(たとえば、第1のモデル化段階のための)は、話者固有発話データベース1750から抽出され得る。辞書1701(たとえば、W)は、第1の発話辞書1714および雑音辞書1712を含み得る。辞書1701は、ソース分離モジュール1703および再構築モジュール1707に提供され得る。

ソース分離モジュール1703は、有効化係数H 1711に基づいて、管理されたNMF発話分離1705を実行することができる。たとえば、ソース分離モジュール1703は、H 1713を初期化し、H 1715を適合させることができる。収束すると(たとえば、または最大の繰り返しの限度に達すると)、適合されたH 1715が再構築モジュール1707に提供され得る。

再構築モジュール1707は、辞書1701、事前増強された入力1732、および適合された係数1715に基づいて、ウィーナーフィルタリング発話再構築1709を実行し、出力発話の大きさ1718(たとえば、残余雑音抑制発話信号)を生成することができる。出力話者の大きさ1718は、第2のモデル化段階1728に提供され得る。図17の機能、モジュール、および/または構造に関するさらなる詳細が、図18〜図20において与えられる。

図18は、前処理の一例を示すブロック図である。具体的には、図18は、前処理モジュール1830の一例を示す。図18に関して説明される機能、手順、パラメータ、値、および/または構造の1つまたは複数は、図1〜図5、図10、図12、図17、および図21の1つまたは複数に関して説明された機能、手順、パラメータ、値、および/または構造の1つまたは複数の例であり得る。

この例では、入力1804(たとえば、雑音のある発話信号)の2つのチャネルは、雑音抑制モジュール1852に提供される。雑音抑制モジュール1852は、雑音抑制出力段階1819および雑音抑制出力の大きさ1821(たとえば、X_ns)を生成することができる。

入力1804の主要チャネルは、高速フーリエ変換(FFT)モジュール1817に提供され得る。入力1804の主要チャネルは、最も多くの発話を捕捉する(たとえば、最高のSNR、最高の発話の大きさなどを有する)入力のチャネル(たとえば、マイクロフォン)であり得る。加えて、または代替的に、入力1804の主要チャネルは事前に決定されていてよい。FFTモジュール1817は、入力1804の主要チャネルを周波数領域に(たとえば、スペクトル表現に)変換することができる。得られる主要チャネル入力(たとえば、X)1823は、前処理モジュール1830に提供され得る。

いくつかの構成では、前処理モジュール1830は、雑音基準1808(たとえば、X_n)を決定することができる。これは、式X_n=abs(X-βX_ns)に従って達成されてよく、ここでβは入力Xおよび雑音抑制出力を一致させるための利得係数である。

いくつかの構成では、前処理モジュール1830は、式X_pre=X-αX_nに従って、事前増強された入力信号1832(たとえば、X_pre)を決定することができる。αの一例は0.8である。いくつかの構成では、前処理モジュール1830は、式

に従って雑音辞書1812を取得することができる。

図19は、第1のモデル化段階の発話/雑音の分離の一例を示すブロック図である。具体的には、図19は、ソース分離モジュール1903の一例を示す。図19に関して説明される機能、手順、パラメータ、値、および/または構造の1つまたは複数は、図1〜図5、図10、図12、図17〜図18、および図21の1つまたは複数に関して説明された機能、手順、パラメータ、値、および/または構造の1つまたは複数の例であり得る。

辞書1901(たとえば、W)は、第1の発話辞書1914(たとえば、W_s1)および雑音辞書1912(たとえば、W_n)を含み得る。辞書1901は、ソース分離モジュール1903に提供され得る。事前増強された入力1932(たとえば、図18に関して説明されたようなX_pre)はまた、ソース分離モジュール1903に提供され得る。

ソース分離モジュール1903は、有効化係数H 1911に基づいて、管理されたNMF発話分離1905を実行することができる。たとえば、ソース分離モジュール1903は、H 1913を初期化し、収束するまで(または、たとえば最大の繰り返しの限度に達するまで)H 1915を適合させることができる。

いくつかの構成では、ソース分離モジュール1903は、式

に従って動作することができる。たとえば、辞書W 1901は確定されるが、有効化係数H 1911だけが適合され得る。第1のフレームに対して、有効化係数H 1911はランダムに初期化され得る。第2のフレーム以降に対して、ソース分離モジュール1903は、前のフレームからの更新された有効化係数H 1911を利用して繰り返しを開始することができる。ソース分離モジュール1903は、収束するまで有効化係数H 1911を更新することができる。前の有効化係数と現在の有効化係数との間の変化が閾値を下回るとき、収束が検出され得る。

図20は、第1のモデル化段階のウィーナーフィルタリング再構築の一例を示すブロック図である。具体的には、図20は、再構築モジュール2007の一例を示す。再構築モジュール2007は、ウィーナーフィルタリング発話再構築モジュール2009を含み得る。図20に関して説明される機能、手順、パラメータ、値、および/または構造の1つまたは複数は、図1〜図5、図10、図12、図17〜図19、および図21の1つまたは複数に関して説明された機能、手順、パラメータ、値、および/または構造の1つまたは複数の例であり得る。

辞書2001(たとえば、W)は、第1の発話辞書2014(たとえば、W_s1)および雑音辞書2012(たとえば、W_n)を含み得る。辞書2001は、再構築モジュール2007に(たとえば、ウィーナーフィルタリング発話再構築モジュール2009に)提供され得る。適合された有効化係数H 2011(発話有効化係数H_s 2025および雑音有効化係数H_n 2027を含む)が再構築モジュール2007に提供され得る。事前増強された入力信号2032(たとえば、X_pre)はまた、再構築モジュール2007に提供され得る。

再構築モジュール2007は、フィルタM_Sを作成することができる。いくつかの構成では、これは、式

に従って達成され得る。αは、たとえば1または2に設定され得る。再構築モジュール2007(たとえば、ウィーナーフィルタリング発話再構築モジュール2009)は、式

に従って発話の大きさX_wf 2018(たとえば、残余雑音抑制発話信号)を推定することができ、ここで、

は要素ごとの乗算である。

図21は、第2のモデル化段階のNMF発話モデル化のより具体的な例を示すブロック図である。具体的には、図21は、音高推定モジュール2156、ビンごとのSNRモジュール2162、管理されたサブバンドNMF発話モデル化モジュール2137、発話再構築モジュール2141、信号選択モジュール2144、およびオフライン辞書学習モジュール2148を示す。図21に関して説明される機能、手順、パラメータ、値、および/または構造の1つまたは複数は、図1〜図5、図10、図12〜図13、図15、および図17の1つまたは複数に関して説明された機能、手順、パラメータ、値、および/または構造の1つまたは複数の例であり得る。

第2のモデル化段階の発話モデル化の説明が以下のように与えられる。図21に示されるように、電子デバイスは、主要入力(たとえば、主要チャネル入力)X_in 2104を取得することができる。雑音抑制出力X_ns 2129は、入力2104に基づき得る。いくつかの構成では、雑音抑制出力X_ns 2129は、複数のチャネルに基づき得る。雑音抑制出力X_ns 2129は、音高推定モジュール2156およびビンごとのSNRモジュール2162に提供され得る。

いくつかの構成では、発話の大きさのスペクトルX_wf 2118(たとえば、ウィーナーフィルタリング発話の大きさのスペクトル、残余雑音抑制発話信号、損なわれた発話の大きさなど)は、第1の段階の(たとえば、第1のモデル化段階の)処理2126によって提供され得る。第1の段階の処理2126の例は、図20に関して与えられる。音高推定モジュール2156は、各々のウィーナーフィルタリング発話の大きさのスペクトルX_wf 2118に対する音高および調波性を推定することができる。音高および/または調波性は、雑音抑制出力X_NS 2129および話者固有辞書W_s 2138に基づいて推定され得る。電子デバイス(たとえば、電子デバイス102)は、対応するフレームが有声であるか無声であるかを決定するために調波性を利用することができる。フレームが無声のフレームである場合、第2のモデル化段階の処理が、飛ばされ、または取り下げられ得る(たとえば、処理が停止されてよく、かつ/またはフレームのための再構築された発話信号2124が廃棄されてよい)。フレームが有声のフレームである場合、音高推定モジュール2156(または別のモジュール)は、所与の音高のための対応する発話辞書(たとえば、音高固有辞書W_p 2131)を見つけることができる。

ビンごとのSNRモジュール2162は以下のように動作し得る。X_mは主要チャネルの大きさの入力であってよく、X_NSは雑音抑制出力2129であってよい。ビンごとのSNRモジュール2162は、(音高固有辞書W_p 2131の1つまたは複数の周波数帯域または「ビン」のための)ビンごとのSNRを決定することができ、ビンごとのSNRは、式

に従って定義され得る。各々の有声のフレームに対して、サブバンド信頼性スコアが、式

によって定義され得る。サブバンド信頼性スコアがサブバンド信頼性閾値よりも小さい場合(たとえば、Confidence<SubbandConfidenceThreshold)、第2のモデル化段階の処理は、フレーム(たとえば、フレーム全体、ここでConfidenceはフレームごとのスコアである)に対して飛ばされてよく、または取り下げられてよい。ビンごとのSNRモジュール2162(および/または別のモジュール)は、1つまたは複数の信頼できる帯域kを見つけることができ(たとえば、SNR_k>threshold_SNRである場合)、および/または、式

に従ってサブバンド入力の大きさのスペクトル2133を生成することができる。ビンごとのSNRモジュール2162および/または別のモジュールは、式

に従って関連するサブバンド音高固有発話辞書2135を生成することができる。

管理されたサブバンドNMF発話モデル化モジュール2137は、いくつかの構成では、以下のようにサブバンドNMFに基づいてエンベロープ復元を実行することができる。サブバンド発話スペクトルX_wf,sub 2133および辞書W_p,sub 2135を使用したサブバンドNMFは、板倉-斎藤(IS)発散(たとえば、再構築誤差d_IS 2142)を最小化することによって実行されてよく、これはモデル化の適合性を監視するものである。IS発散は、式

に従って定義され得る。

管理されたサブバンドNMF発話モデル化モジュール2137は、辞書W_p,subを確定し、式

に従って収束するまで有効化係数H 2139を更新することができる。

発話再構築モジュール2141は、式X_rc=W_pHに従って、全帯域辞書W_p 2131によって発話再構築を実行することができる。再構築された発話信号X_rc 2124は、信号選択モジュール2144に提供され得る。電子デバイスは、式x_out=ifft(X_oute^jφNS)に従って時間領域信号に再同期するとき、雑音抑制出力からの位相を利用することができることに留意されたい。

出力品質は、再構築誤差d_IS(X_wf,sub|W_p,subH)に従って制御され得る。たとえば、d_IS>thresholdである場合、(たとえば、話者辞書データベース2150を更新するために)オフライン辞書学習モジュール2148が有効化され得る。

信号選択モジュール2144は、再構築誤差2142に基づいて信号を選択することができる。たとえば、d_IS>thresholdである場合、X_wfはX_outとして選択され得る。d_IS>thresholdである場合、X_rcはX_outとして選択され得る。たとえば、再構築された発話信号X_rc 2124は、式

において与えられるような最終的な出力を得るために、ウィーナーフィルタリング発話出力X_wf2118と組み合わされ得る。いくつかの構成では、第2のモデル化段階の処理が飛ばされるとき、または取り下げられるとき、第1の段階の処理の出力(たとえば、出力発話の大きさ、ウィーナーフィルタリング発話出力X_wf 2118など)、雑音抑制信号(たとえば、雑音抑制モジュール1252の出力、NS出力2129など)、または入力信号(たとえば、主要入力2104)が出力され得ることに留意されたい。

図22は、話者辞書に基づくモデル化のためのシステムおよび方法が実装され得る、ワイヤレス通信デバイス2202の一構成を示すブロック図である。図22に示されるワイヤレス通信デバイス2202は、本明細書で説明される電子デバイスの1つまたは複数の例であり得る。ワイヤレス通信デバイス2202は、アプリケーションプロセッサ2253を含み得る。アプリケーションプロセッサ2253は、一般に、命令を処理(たとえば、プログラムを実行)して、ワイヤレス通信デバイス2202上で機能を実行する。アプリケーションプロセッサ2253は、オーディオコーダ/デコーダ(コーデック)2251と結合され得る。

オーディオコーデック2251は、オーディオ信号をコーディングおよび/または復号するために使用され得る。オーディオコーデック2251は、少なくとも1つのスピーカー2243、イヤピース2245、出力ジャック2247、および/または少なくとも1つのマイクロフォン2249と結合され得る。スピーカー2243は、電気または電子信号を音響信号に変換する、1つもしくは複数の電子音響変換器を含み得る。たとえば、スピーカー2243は、音楽を再生すること、またはスピーカーフォン会話を出力することなどのために使用され得る。イヤピース2245は、音響信号(たとえば、発話信号)をユーザに出力するために使用され得る別のスピーカーまたは電子音響変換器であってよい。たとえば、ユーザだけが音響信号を確実に聞くことができるように、イヤピース2245が使用され得る。出力ジャック2247は、ヘッドフォンのような、オーディオを出力するための他のデバイスをワイヤレス通信デバイス2202に結合するために使用され得る。一般に、スピーカー2243、イヤピース2245、および/または出力ジャック2247は、オーディオコーデック2251からオーディオ信号を出力するために使用され得る。少なくとも1つのマイクロフォン2249は、(ユーザの声のような)音響信号を、オーディオコーデック2251に提供される電気または電子信号に変換する、音響電子変換器であってよい。いくつかの構成では、オーディオコーデック2251および/またはアプリケーションプロセッサ2253は、本明細書で説明される第1のモデル化段階の処理および第2のモデル化段階の処理の1つまたは複数(および/または他の機能または手順の1つまたは複数)を実行するように構成され得る。

アプリケーションプロセッサ2253は電力管理回路2263にも結合され得る。電力管理回路2263の一例は、ワイヤレス通信デバイス2202の電力消費を管理するために使用され得る電力管理集積回路(PMIC)である。電力管理回路2263は電池2265と結合され得る。電池2265は、一般に、電力をワイヤレス通信デバイス2202に提供することができる。たとえば、電池2265および/または電力管理回路2263は、ワイヤレス通信デバイス2202に含まれる要素の少なくとも1つに結合され得る。

アプリケーションプロセッサ2253は、入力を受け取るための少なくとも1つの入力デバイス2267と結合され得る。入力デバイス2267の例は、赤外線センサ、画像センサ、加速度計、タッチセンサ、キーパッドなどを含む。入力デバイス2267は、ワイヤレス通信デバイス2202とのユーザ対話を可能にし得る。アプリケーションプロセッサ2253は、1つまたは複数の出力デバイス2269と結合され得る。出力デバイス2269の例は、プリンタ、プロジェクタ、スクリーン、触覚デバイスなどを含む。出力デバイス2269は、ワイヤレス通信デバイス2202が、ユーザにより経験され得る出力を生み出すことを可能にし得る。

アプリケーションプロセッサ2253は、アプリケーションメモリ2271と結合され得る。アプリケーションメモリ2271は、電子情報を記憶することができる任意の電子デバイスであってよい。アプリケーションメモリ2271の例は、ダブルデータレートシンクロナスダイナミックランダムアクセスメモリ(DDRAM)、シンクロナスダイナミックランダムアクセスメモリ(SDRAM)、フラッシュメモリなどを含む。アプリケーションメモリ2271は、アプリケーションプロセッサ2253のための記憶装置を提供することができる。たとえば、アプリケーションメモリ2271は、アプリケーションプロセッサ2253上で実行するプログラムの機能についてのデータおよび/または命令を記憶することができる。

アプリケーションプロセッサ2253はディスプレイコントローラ2273と結合されてよく、次に、ディスプレイコントローラ2273はディスプレイ2275と結合されてよい。ディスプレイコントローラ2273は、ディスプレイ2275上に画像を生成するために使用されるハードウェアブロックであり得る。たとえば、ディスプレイコントローラ2273は、命令および/またはデータをアプリケーションプロセッサ2253から、ディスプレイ2275上に提示され得る画像に変換することができる。ディスプレイ2275の例は、液晶ディスプレイ(LCD)パネル、発光ダイオード(LED)パネル、陰極線管(CRT)ディスプレイ、プラズマディスプレイなどを含む。

アプリケーションプロセッサ2253は、ベースバンドプロセッサ2255と結合され得る。ベースバンドプロセッサ2255は、一般に、通信信号を処理する。たとえば、ベースバンドプロセッサ2255は、受信された信号を復調および/または復号することができる。加えて、またはその代わりに、ベースバンドプロセッサ2255は、送信を準備する際に信号を符号化および/または変調することができる。

ベースバンドプロセッサ2255はベースバンドメモリ2277と結合され得る。ベースバンドメモリ2277は、SDRAM、DDRAM、フラッシュメモリのような、電子情報を記憶することができる任意の電子デバイスであり得る。ベースバンドプロセッサ2255は、ベースバンドメモリ2277から情報(たとえば、命令および/もしくはデータ)を読み取ること、ならびに/またはベースバンドメモリ2277に情報を書き込むことができる。加えて、またはその代わりに、ベースバンドプロセッサ2255は、ベースバンドメモリ2277内に記憶された命令および/またはデータを使用して、通信動作を実行することができる。

ベースバンドプロセッサ2255は、高周波(RF)送受信機2257と結合され得る。RF送受信機2257は、電力増幅器2259および1つまたは複数のアンテナ2261と結合され得る。RF送受信機2257は、高周波信号を送信および/または受信することができる。たとえば、RF送受信機2257は、電力増幅器2259と少なくとも1つのアンテナ2261とを使用して、RF信号を送信することができる。RF送受信機2257はまた、1つまたは複数のアンテナ2261を使用して、RF信号を受信することができる。

図23は、電子デバイス2302に含まれ得るいくつかのコンポーネントを示す。図23に関して説明された電子デバイス2302は、本明細書で説明された電子デバイス102、402、およびワイヤレス通信デバイス2202の1つまたは複数の例であってよく、かつ/または、それらに従って実装されてよい。

電子デバイス2302は、プロセッサ2395を含む。プロセッサ2395は、汎用のシングルチップマイクロプロセッサまたはマルチチップマイクロプロセッサ(たとえば、ARM)、専用マイクロプロセッサ(たとえば、デジタル信号プロセッサ(DSP))、マイクロコントローラ、プログラマブルゲートアレイなどであってよい。プロセッサ2395は、中央演算処理装置(CPU)と呼ばれ得る。図23の電子デバイス2302中に単一のプロセッサ2395のみが示されているが、代替的な構成では、プロセッサの組合せ(たとえば、ARMとDSP)が使用され得る。

電子デバイス2302は、プロセッサ2395と電子通信しているメモリ2379も含む(すなわち、プロセッサ2395はメモリ2379から情報を読み取ること、および/またはメモリ2379に情報を書き込むことができる)。メモリ2379は、電子情報を記憶することができる任意の電子コンポーネントであってよい。メモリ2379は、これらの組合せを含めて、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)、磁気ディスク記憶媒体、光記憶媒体、RAM内のフラッシュメモリデバイス、プロセッサに含まれるオンボードメモリ、プログラマブル読出し専用メモリ(PROM)、消去可能プログラマブル読出し専用メモリ(EPROM)、電子的に消去可能PROM(EEPROM)、レジスタなどであってよい。

データ2381および命令2383は、メモリ2379に記憶され得る。命令2383は、1つまたは複数のプログラム、ルーチン、サブルーチン、機能、手順、コードなどを含み得る。命令2383は、単一のコンピュータ可読ステートメントまたは多数のコンピュータ可読ステートメントを含み得る。命令2383は、上で説明された方法200、500の1つまたは複数を実施するようにプロセッサ2395によって実行可能であり得る。命令2383を実行することは、メモリ2379に記憶されるデータ2381の使用を伴い得る。図23は、いくつかの命令2383aとデータ2381aとがプロセッサ2395にロードされていることを示す。

電子デバイス2302はまた、電子デバイス2302と遠隔地(たとえば、基地局)との間の信号の送信および受信を可能にするための送信機2391および受信機2393を含み得る。送信機2391および受信機2393は、集合的に、送受信機2389と呼ばれ得る。アンテナ2387は送受信機2389と電気的に結合され得る。電子デバイス2302は、(図示されない)複数の送信機、複数の受信機、複数の送受信機、および/または複数のアンテナを含み得る。

電子デバイス2302の様々なコンポーネントは、1つまたは複数のバスによって互いに結合されてよく、それらのバスは、電力バス、制御信号バス、ステータス信号バス、データバスなどを含み得る。わかりやすいように、図23において様々なバスがバスシステム2385として示される。

上記の説明では、時として参照番号が様々な用語に関連して使用されている。用語が参照番号に関して使用されるとき、これは、図面の1つまたは複数において示される特定の要素を指すことを意味し得る。用語が参照番号なしで使用されるとき、これは任意の特定の図面に限定せずに、一般にその用語を指すことを意味し得る。

「決定すること」という用語は、幅広い動作を包含し、したがって、「決定すること」は、計算すること、演算すること、処理すること、導出すること、調査すること、探索すること(たとえば、表、データベース、または他のデータ構造の中を探索すること)、確認することなどを含み得る。また、「決定すること」は、受信すること(たとえば、情報を受信すること)、アクセスすること(たとえば、メモリ内のデータにアクセスすること)などを含み得る。また、「決定すること」は、解決すること、選択すること、選ぶこと、確立することなどを含み得る。

「〜に基づいて」という句は、別段に明記されていない限り、「〜のみに基づいて」ということを意味しない。言い換えれば、「〜に基づいて」という句は、「〜のみに基づいて」と「少なくとも〜に基づいて」の両方を表す。

本明細書で説明された構成の任意の1つに関して説明された特徴、機能、手順、パラメータ、値、コンポーネント、要素、構造などの1つまたは複数は、矛盾しない場合、本明細書で説明された他の構成のいずれかに関して説明された機能、手順、パラメータ、値、コンポーネント、要素、構造などの1つまたは複数と組み合わされ得ることに留意されたい。言い換えると、本明細書で説明された、機能、手順、パラメータ、値、コンポーネント、要素などのいずれの互換可能な組合せも、本明細書で開示されたシステムおよび方法に従って実装され得る。

本明細書で説明された機能は、プロセッサ可読媒体上またはコンピュータ可読媒体上に1つもしくは複数の命令として記憶され得る。「コンピュータ可読媒体」という用語は、コンピュータまたはプロセッサによってアクセスされ得る任意の利用可能な媒体を指す。限定ではなく例として、そのような媒体は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、電気消去可能プログラマブル読取り専用メモリ(EEPROM)、フラッシュメモリ、コンパクトディスク読取り専用メモリ(CD-ROM)もしくは他の光ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、または命令もしくはデータ構造の形態で所望のプログラムコードを記憶するために使用されコンピュータによってアクセスされ得る、任意の他の媒体を備え得る。本明細書で使用される場合、ディスク(disk)およびディスク(disc)は、コンパクトディスク(CD)(disc)、レーザーディスク（登録商標）(disc)、光ディスク(disc)、デジタル多用途ディスク(DVD)(disc)、フロッピーディスク(disk)、およびブルーレイ(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、磁気的にデータを再生し、ディスク(disc)は、レーザーで光学的にデータを再生する。コンピュータ可読媒体は、有形および非一時的であり得ることに留意されたい。「コンピュータプログラム製品」という用語は、コンピューティングデバイスもしくはプロセッサによって実行され、処理され、または計算され得る、コードあるいは命令(たとえば、「プログラム」)と組み合わされたコンピューティングデバイスまたはプロセッサを指す。本明細書で使用される場合、「コード」という用語は、コンピューティングデバイスまたはプロセッサによって実行可能な、ソフトウェア、命令、コード、またはデータを指し得る。

ソフトウェアまたは命令は、送信媒体上でも送信され得る。たとえば、ウェブサイト、サーバ、または他の遠隔ソースから、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用してソフトウェアが送信される場合、上記の同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、送信媒体の定義に含まれる。

本明細書で開示される方法は、説明された方法を達成するための1つまたは複数のステップまたは動作を含む。方法ステップおよび/または動作は、特許請求の範囲を逸脱することなく互いに交換され得る。言い換えれば、説明されている方法の適切な操作のために、ステップまたは動作の特定の順序が必要とされない限り、特定のステップおよび/または動作の順序および/または使用は、特許請求の範囲から逸脱することなく修正され得る。

特許請求の範囲は、上で説明された厳密な構成およびコンポーネントに限定されないことを理解されたい。様々な修正、変更、および変形は、特許請求の範囲から逸脱することなく、本明細書で説明されたシステム、方法、および装置の構成、操作、および細部において行われ得る。

102 電子デバイス
104 雑音のある発話信号
106 リアルタイム雑音基準決定モジュール
108 リアルタイム雑音基準
110 リアルタイム雑音辞書決定モジュール
112 リアルタイム雑音辞書
114 第1の発話辞書
116 残余雑音低減モジュール
118 残余雑音抑制発話信号
120 第2の発話辞書
122 再構築モジュール
124 再構築された発話信号
126 第1のモデル化段階
128 第2のモデル化段階
200 方法
304 入力
312 リアルタイム雑音辞書
314 第1の発話辞書W_s1
318 残余雑音抑制発話信号
320 第2の発話辞書W_s2
324 再構築された発話信号
326 第1のモデル化段階
328 第2のモデル化段階
330 前処理モジュール
332 事前増強された入力
334 話者認識モジュール
336 発話辞書選択モジュール
338 話者固有発話辞書
340 Nに基づく発話/雑音モデル化モジュール
342 再構築誤差
344 信号選択モジュール
346 出力
348 オフライン辞書学習モジュール
350 話者辞書データベース
352 雑音抑制モジュール
402 電子デバイス
404 雑音のある発話信号
406 リアルタイム雑音基準決定モジュール
408 リアルタイムの雑音基準
410 リアルタイム雑音辞書決定モジュール
412 リアルタイム雑音辞書
414 第1の発話辞書
416 残余雑音低減モジュール
418 残余雑音抑制発話信号
420 第2の発話辞書
424 再構築された発話信号
452 第1の発話辞書生成モジュール
454 第2の発話辞書生成モジュール
456 音高決定モジュール
458 音高固有辞書決定モジュール
460 サブバンド音高固有辞書決定モジュール
462 サブバンド決定モジュール
464 発話モデル化および再構築モジュール
500 方法
666 周波数
668 時間
766 周波数
768 時間
770 残余雑音
772 欠けている高調波倍音および損なわれた発話エンベロープ
866 周波数
868 時間
966 周波数
968 時間
1004 雑音のある発話
1008 リアルタイムの適合された雑音基準
1010 雑音辞書モジュール
1024 増強された発話
1032 NS発話大きさのスペクトル
1034 声紋モジュール
1036 発話辞書モジュール
1040 NMFに基づく発話/雑音モデル化モジュール
1048 清澄な話者固有辞書訓練モジュール
1050 話者固有辞書データベース
1052 雑音抑制モジュール
1166a 周波数
1166b 周波数
1166c 周波数
1166d 周波数
1168b 時間
1168c 時間
1168d 時間
1168e 時間
1174a グラフA
1174b グラフB
1174c グラフC
1174d グラフD
1174e グラフE
1176 辞書番号
1178 辞書番号
1204 入力
1212 リアルタイム雑音辞書
1214 低ランク発話辞書W_s1
1220 音高エンベロープ固有発話辞書W_s2
1224 再構築された発話信号
1226 第1のモデル化段階
1228 第2のモデル化段階
1230 前処理モジュール
1232 事前増強された入力
1234 話者認識モジュール
1236 発話辞書選択モジュール
1238 話者固有発話辞書
1240 NMFに基づく発話/雑音モデル化モジュール
1242 再構築誤差
1244 信号選択モジュール
1246 出力
1248 オフライン辞書学習モジュール
1250 話者辞書データベース
1252 雑音抑制モジュール
1314 第1の発話辞書
1380 話者固有の清澄な発話の大きさのスペクトル
1382 NMFに基づく発話辞書学習モジュール
1484 周波数
1486 辞書の番号
1520 第2の発話辞書
1580 話者固有の清澄な発話の大きさのスペクトル
1588 音高/調波性推定モジュール
1701 辞書
1703 ソース分離モジュール
1704 入力
1705 管理されたNMF発話分離
1707 再構築モジュール
1709 Wienerフィルタリング発話再構築モジュール
1711 有効化係数H
1712 雑音辞書
1713 初期化されたH
1714 第1の発話辞書
1715 適合されたH
1718 出力発話の大きさ
1728 第2のモデル化段階
1730 前処理モジュール
1732 事前増強された入力
1750 話者固有辞書データベース
1752 雑音抑制モジュール
1804 入力
1808 雑音基準
1812 雑音辞書
1817 FFT
1819 NS出力の位相
1821 NS出力の大きさ
1823 主要チャネル入力X
1830 前処理
1832 事前増強された入力
1852 雑音抑制
1901 辞書
1903 分離モジュール
1905 管理されたNMF発話分離
1911 有効化係数
1912 雑音辞書
1913 初期化されたH
1914 発話辞書
1915 適合されたH
1932 事前に増強された入力
2001 辞書
2007 再構築モジュール
2009 Wienerフィルタリング発話再構築モジュール
2011 適合された有効化係数
2012 雑音辞書
2014 発話辞書
2018 出力発話の大きさ
2025 発話有効化係数
2027 雑音有効化係数
2032 事前に増強された入力
2104 主要入力
2118 損なわれた発話の大きさ
2126 第1の段階の処理
2129 NS出力
2131 音高固有辞書
2133 サブバンド発話の大きさ
2135 サブバンド音高固有辞書
2137 管理されたサブバンドNMF発話モデル化モジュール
2138 話者固有辞書
2139 適合されたH
2141 発話再構築モジュール
2142 再構築誤差
2144 最終的な増強された発話
2148 オフライン辞書学習
2150 話者辞書データベース
2156 音高推定モジュール
2162 ビンごとのSNR
2202 ワイヤレス通信デバイス
2243 スピーカー
2245 イヤピース
2247 出力ジャック
2249 マイクロフォン
2251 オーディオコーデック
2253 アプリケーションプロセッサ
2255 ベースバンドプロセッサ
2257 高周波送受信機
2259 電力増幅器
2261 アンテナ
2263 電力管理回路
2265 電池
2267 入力デバイス
2269 出力デバイス
2271 アプリケーションメモリ
2273 ディスプレイコントローラ
2275 ディスプレイ
2277 ベースバンドメモリ
2302 電子デバイス
2379 メモリ
2381 データ
2381a データ
2383 命令
2385 バスシステム
2387 アンテナ
2389 送受信機
2391 送信機
2393 受信機
2395 プロセッサ
2395a 命令

Claims

電子デバイスによる発話モデル化のための方法であって、
雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得するステップと、
前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得するステップと、
第1の発話辞書および第2の発話辞書を取得するステップと、
第1のモデル化段階において、残余雑音抑制発話信号を生成するために、前記リアルタイム雑音辞書および前記第1の発話辞書に基づいて残余雑音を低減するステップと、
第2のモデル化段階において、前記残余雑音抑制発話信号および前記第2の発話辞書に基づいて、再構築された発話信号を生成するステップとを備える、方法。
前記第1のモデル化段階が非負値行列因子分解(NMF)に基づく、請求項1に記載の方法。
前記第2のモデル化段階が非負値行列因子分解(NMF)に基づく、請求項1に記載の方法。
残余雑音を低減するステップが、
前記第1の発話辞書および前記リアルタイム雑音辞書を備える、発話および雑音辞書を確定するステップと、
有効化係数を初期化するステップと、
収束するまで前記有効化係数を更新するステップとを備える、請求項1に記載の方法。
前記残余雑音を低減するステップが、
前記第1の発話辞書、前記リアルタイム雑音辞書、適応された発話有効化係数、および適応された雑音有効化係数に基づいて、フィルタを作成するステップと、
前記フィルタおよび事前増強された入力に基づいて、前記残余雑音抑制発話信号を推定するステップとを備える、請求項1に記載の方法。
前記再構築された発話信号を生成するステップが、
サブバンド音高固有辞書を確定するステップと、
収束するまで有効化係数を更新するステップと、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するステップとを備える、請求項1に記載の方法。
音高に基づいて、話者固有辞書から前記音高固有辞書を決定するステップと、
ビンごとの信号対雑音比(SNR)に基づいて、前記音高固有辞書から前記サブバンド音高固有辞書を決定するステップとをさらに備える、請求項6に記載の方法。
再構築誤差に基づいて、前記再構築された発話信号および前記残余雑音抑制発話信号から出力発話信号を選択するステップをさらに備える、請求項1に記載の方法。
前記第1の発話辞書および前記第2の発話辞書が、話者固有発話辞書に基づく、請求項1に記載の方法。
前記第1の発話辞書を取得するステップが、
複数の有効化係数および発話基底関数を初期化するステップと、
収束するまでパラメータを更新するステップとを備える、請求項1に記載の方法。
前記第2の発話辞書を取得するステップが、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するステップと、
前記話者固有発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するステップと、
前記選択された発話スペクトルの各々を対応する音高によって標識するステップとを備える、請求項1に記載の方法。
発話モデル化のための電子デバイスであって、
プロセッサと、
前記プロセッサと電子通信しているメモリと、
前記メモリに記憶された命令とを備え、前記命令が、
雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得し、
前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得し、
第1の発話辞書および第2の発話辞書を取得し、
第1のモデル化段階において、残余雑音抑制発話信号を生成するために、前記リアルタイム雑音辞書および前記第1の発話辞書に基づいて残余雑音を低減し、
第2のモデル化段階において、前記残余雑音抑制発話信号および前記第2の発話辞書に基づいて、再構築された発話信号を生成する
ように実行可能である、電子デバイス。
前記第1のモデル化段階が非負値行列因子分解(NMF)に基づく、請求項12に記載の電子デバイス。
前記第2のモデル化段階が非負値行列因子分解(NMF)に基づく、請求項12に記載の電子デバイス。
残余雑音を低減するステップが、
前記第1の発話辞書および前記リアルタイム雑音辞書を備える、発話および雑音辞書を確定するステップと、
有効化係数を初期化するステップと、
収束するまで前記有効化係数を更新するステップとを備える、請求項12に記載の電子デバイス。
前記残余雑音を低減するステップが、
前記第1の発話辞書、前記リアルタイム雑音辞書、適応された発話有効化係数、および適応された雑音有効化係数に基づいて、フィルタを作成するステップと、
前記フィルタおよび事前増強された入力に基づいて、前記残余雑音抑制発話信号を推定するステップとを備える、請求項12に記載の電子デバイス。
前記再構築された発話信号を生成するステップが、
サブバンド音高固有辞書を確定するステップと、
収束するまで有効化係数を更新するステップと、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するステップとを備える、請求項12に記載の電子デバイス。
前記命令がさらに、
音高に基づいて、話者固有辞書から前記音高固有辞書を決定し、
ビンごとの信号対雑音比(SNR)に基づいて、前記音高固有辞書から前記サブバンド音高固有辞書を決定するように実行可能である、請求項17に記載の電子デバイス。
前記命令がさらに、再構築誤差に基づいて、前記再構築された発話信号および前記残余雑音抑制発話信号から出力発話信号を選択するように実行可能である、請求項12に記載の電子デバイス。
前記第1の発話辞書および前記第2の発話辞書が、話者固有発話辞書に基づく、請求項12に記載の電子デバイス。
前記第1の発話辞書を取得するステップが、
複数の有効化係数および発話基底関数を初期化するステップと、
収束するまでパラメータを更新するステップとを備える、請求項12に記載の電子デバイス。
前記第2の発話辞書を取得するステップが、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するステップと、
前記話者固有発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するステップと、
前記選択された発話スペクトルの各々を対応する音高によって標識するステップとを備える、請求項12に記載の電子デバイス。
発話モデル化のためのコンピュータプログラム製品であって、命令を有する非一時的有形コンピュータ可読媒体を備え、前記命令が、
電子デバイスに、雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得させるためのコードと、
前記電子デバイスに、前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得させるためのコードと、
前記電子デバイスに、第1の発話辞書および第2の発話辞書を取得させるためのコードと、
前記電子デバイスに、第1のモデル化段階において、残余雑音抑制発話信号を生成するために、前記リアルタイム雑音辞書および前記第1の発話辞書に基づいて残余雑音を低減させるためのコードと、
前記電子デバイスに、第2のモデル化段階において、前記残余雑音抑制発話信号および前記第2の発話辞書に基づいて、再構築された発話信号を生成させるためのコードとを備える、コンピュータプログラム製品。
前記再構築された発話信号を生成するステップが、
サブバンド音高固有辞書を確定するステップと、
収束するまで有効化係数を更新するステップと、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するステップとを備える、請求項23に記載のコンピュータプログラム製品。
前記第1の発話辞書を取得するステップが、
複数の有効化係数および発話基底関数を初期化するステップと、
収束するまでパラメータを更新するステップとを備える、請求項23に記載のコンピュータプログラム製品。
前記第2の発話辞書を取得するステップが、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するステップと、
前記話者固有発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するステップと、
前記選択された発話スペクトルの各々を対応する音高によって標識するステップとを備える、請求項23に記載のコンピュータプログラム製品。
発話モデル化のための装置であって、
雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得するための手段と、
前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得するための手段と、
第1の発話辞書および第2の発話辞書を取得するための手段と、
第1のモデル化段階において、残余雑音抑制発話信号を生成するために、前記リアルタイム雑音辞書および前記第1の発話辞書に基づいて残余雑音を低減するための手段と、
第2のモデル化段階において、前記残余雑音抑制発話信号および前記第2の発話辞書に基づいて再構築された発話信号を生成するための手段とを備える、装置。
前記再構築された発話信号を生成するための前記手段が、
サブバンド音高固有辞書を確定するための手段と、
収束するまで有効化係数を更新するための手段と、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するための手段とを備える、請求項27に記載の装置。
前記第1の発話辞書を取得するための前記手段が、
複数の有効化係数および発話基底関数を初期化するための手段と、
収束するまでパラメータを更新するための手段とを備える、請求項27に記載の装置。
前記第2の発話辞書を取得するための前記手段が、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するための手段と、
前記話者固有発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するための手段と、
前記選択された発話スペクトルの各々を対応する音高によって標識するための手段とを備える、請求項27に記載の装置。