JP2008116952A - 音声信号のモデルベース強化 - Google Patents

音声信号のモデルベース強化 Download PDF

Info

Publication number
JP2008116952A
JP2008116952A JP2007281799A JP2007281799A JP2008116952A JP 2008116952 A JP2008116952 A JP 2008116952A JP 2007281799 A JP2007281799 A JP 2007281799A JP 2007281799 A JP2007281799 A JP 2007281799A JP 2008116952 A JP2008116952 A JP 2008116952A
Authority
JP
Japan
Prior art keywords
signal
input signal
spectral envelope
speech
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007281799A
Other languages
English (en)
Other versions
JP5097504B2 (ja
Inventor
Dominik Grose-Schulte
グローセ−シュルテ ドミニク
Mohamed Krini
クリニ モハメッド
Gerhard Uwe Schmidt
ウベ シュミット ゲルハルト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman Becker Automotive Systems GmbH
Original Assignee
Harman Becker Automotive Systems GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman Becker Automotive Systems GmbH filed Critical Harman Becker Automotive Systems GmbH
Publication of JP2008116952A publication Critical patent/JP2008116952A/ja
Application granted granted Critical
Publication of JP5097504B2 publication Critical patent/JP5097504B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Abstract

【課題】ノイズ低減と、コードブックの利用により再構成された音声信号の生成による音声信号の品質のモデルベース強化とによって、音声信号を処理する方法を提供すること。
【解決手段】音声入力信号を処理する方法であって、該方法は、該音声入力信号の入力信号対ノイズ比または信号対ノイズ比を推定するステップと、該音声入力信号に基づいて、励起信号を生成するステップと、該音声入力信号のスペクトルエンベロープを抽出するステップと、該励起信号と該抽出スペクトルエンベロープとに基づいて、再構成音声信号を生成するステップと、ノイズ低減フィルタリング手段によって、該音声入力信号をフィルタリングして、ノイズ低減信号を得るステップと、該音声入力信号対ノイズ比または該信号対ノイズ比に基づいて、該再構成音声信号と該ノイズ低減信号とを結合して、強化音声出力信号を得るステップとを包含する、方法。
【選択図】図1

Description

(発明の分野)
本発明は、オーディオ信号処理に関し、特に、ノイズ低減と、コードブックの利用によって再構成された音声信号の生成による音声信号の品質のモデルベース強化とに関する。
(発明の背景)
2つのパーティが相互にオーディオ信号、特に、音声信号を送受信する一方向または双方向音声通信は、しばしば、バックグラウンドノイズによるオーディオ信号の品質劣化に悩まされる。ノイズの多い環境におけるバックグラウンドノイズは、ボイス会話の品質および了解度に深刻な影響を及ぼし得、最悪の場合、通信の完全な崩壊を招き得る。
ノイズの多い環境におけるバックグラウンドノイズに悩まされる音声通信の代表的な一つの例は、車両内でのハンズフリーボイス通信である。送信される音声信号の了解度を改善するために、何らかのノイズ低減が使用されなくてはならない。現在の車両通信システムは、車両の外側のはるか遠くにいるリモートな加入者とのハンズフリー電話のみならず、車室内での通信も可能にする。前方座席および後方座席に提供されたマイクおよび拡声器によって、特に、自動車道を高速で移動する間に、バックグラウンドノイズが増加する場合、乗客は、より良い音響的な理解が可能になる。
別の例は、ノイズの多い環境下での音声認識システムおよび音声制御システムによって与えられる。認識結果の信頼性は、検出された音声信号へのバックグラウンドノイズの寄与と、ノイズ抑制手段の効率とに、大きく依存する。
この分野において、信号チャネルノイズ低減方法は、例えば、スペクトル減算を用いる方法など周知である。しかしながら、これらの方法は、通常、(ほとんど)静止しているノイズ摂動と、信号がノイズより大きい場合とに限られている。これらの方法に従うと、摂動は排除されず、むしろ、ノイズによって影響を受けたスペクトル成分が減衰されるので、処理された音声信号は、歪む。したがって、音声信号の了解度は、通常は、十分に改善されない。遠くで話している音声取得において、信号品質を改善する別の方法は、マルチチャネルシステムの利用、すなわち、マイクアレイの利用である。しかしながら、マルチチャネルの解決策は、高価であるのみならず、十分に強化された音声信号を保証し得ない。
一部のさらなる詳細において、ノイズの多い音声信号の強化は、通常、時間および/または周波数の選択的減衰によって、例えば、(修正)Wienerフィルタの使用によって、特に、スペクトル減算によって実行される。スペクトル減算の方法に従うと、スペクトルの摂動部分は、信号対ノイズ(SNR)に依存する特性に従って、抑制される。この特性および関連する減衰係数は、通常、サブバンドまたはスペクトルドメインでの信号処理に使用される。(Wiener)フィルタ特性で使用されるパラメータは、原則として、静止であり得るか、あるいは時間依存性であり得る。
強化された出力信号を得るために、このサブバンド信号は、通常、減衰係数で乗算され、合成フィルタバンクによって結合される非摂動サブバンド信号に対する推定を得る。減衰係数は、ノイズ(摂動)の推定パワー密度スペクトルと、強化されるべき摂動オーディオ入力信号とに基づいて決定される。実際の入力信号のパワー密度スペクトルは、通常、サブバンド信号の二乗の大きさから、すなわち、サブバンド信号の短期スペクトログラムから計算される。一部の減衰限界も、適合的に選択され得る。
しかしながら、オーディオ信号、特に音声信号においてノイズを低減する公知の方法は、比較的低い信号対ノイズ比に対しては満足できるものではない。この技術において、10dB以下の信号対ノイズ比は、ノイズ低減フィルタリング手段の性能を著しく劣化する結果となる。実際、音声信号の少なくとも一部の部分は、バックグラウンドノイズの中に著しく埋もれることが多い。
したがって、信号処理の分野での最近の進歩にも関わらず、オーディオ信号、特に音声信号の改善された処理で、その結果、強化されたノイズ低減と処理された音声信号の了解度とを結果としてもたらす処理に対するニーズが依然として存在する。
(発明の説明)
上述の問題は、請求項1に記載の音声入力信号を処理する方法によって解決され、該方法は、
該音声入力信号の入力信号対ノイズ比または信号対ノイズ比を推定するステップと、
該音声入力信号に基づく励起信号を生成するステップと、
該音声入力信号のスペクトルエンベロープを抽出するステップと、
該励起信号と該抽出スペクトルエンベロープとに基づいて、再構成音声信号を生成するステップと、
ノイズ低減フィルタリング手段によって、該音声入力信号をフィルタリングして、ノイズ低減信号を得るステップと、
該音声入力信号対ノイズ比または該信号対ノイズ比に基づいて、該再構成音声信号と該ノイズ低減信号とを結合して、強化音声出力信号を得るステップと
を包含する。
入力信号対ノイズ比(INR)は、例えば、(スピーカからの音声信号を検出するマイクによって生成されるマイク信号であり得る)音声入力信号の短期スペクトログラム(短期スペクトルの二乗の大きさ)と、この音声入力信号に存在するノイズの短期パワー密度スペクトルとの比によって計算される。このようなスペクトルを推定する方法は、この分野で周知である(例えば、E.Haensler、G.Schmidtによる「Acoustic Echo and Noise Control」(Wiley、米国ニュージャージー州Hoboken、2004年)参照)。
代替として、本発明の方法の本明細書に記載される例の全てにおいて、入力信号対ノイズ比(INR)または信号対ノイズ比(SNR)が使用される。後者は、例えば、SNR(Ωμ,n)=max{0,INR(Ωμ,n)−1}のようなINRから計算され得る。ここで、nは、離散時間指数を示し、Ωμは、解析フィルタバンクによって決定される離散周波数ノード、または音声入力信号を周波数ドメインに変換するために使用される離散フーリエ変換のノードを示す。この関連において、信号処理全体は、時間ドメインまたは周波数ドメインのいずれかで実行され得ることに留意される。以下に記載される実施形態に従うと、音声入力信号は、例えば、解析フィルタバンクによって、サブバンド信号に変換される。
励起信号は、理想的には、発声が検出される話者の声帯で即座に検出される信号を表わす。有声信号部分と無声信号部分との区別は、励起信号を推定するステップに含まれる。励起信号は、ノイズの多い音声入力信号のピッチとパワーとに基づいて、モデル化され得る(さらなる詳細については、以下の記載を参照)。
(短期)スペクトルエンベロープは、音色を表わす音声認識/合成において特に関連する周知の量である。予測エラーフィルタを計算するために、線形予測符号化(LPC)のロバストな方法を用いることが、好まれ得る。予測エラーフィルタの係数は、スペクトルエンベロープのパラメトリックな決定に使用され得る。代替として、ラインスペクトル周波数、あるいはケプストラム係数またはメル周波数ケプストラム係数に基づくスペクトルエンベロープ表現に対するモデルを使用し得る(以下の議論も参照)。
本発明に従うと、再構成音声信号は、(短期)スペクトルエンベロープおよび推定励起信号によって生成され、この再構成音声信号は、推定INR(または、代替として、SNR)に依存して、音声入力信号のノイズ低減バージョン(使用されるノイズ低減フィルタリング手段は、この分野で周知であり得る)と結合される。特に、かなり低いINRを示す信号部分は、この分野で公知のようなシンプルなノイズ低減によって十分に強化され得ない。約10dB以下のSNRに対して、例えば、従来のノイズフィルタを単に使用するだけでは、ノイズの多い音声入力信号をさらに劣化することさえあり得る。この技術に比べ、ノイズ低減と了解度強化との双方を示す強化音声出力信号を得るために、低いINR(SNR)を有する信号部分に対しては、再構成音声信号が使用される。
強化音声出力信号を得るために、再構成音声信号とノイズ低減信号との結合は、両信号の重み付き合計の形式で実行される。すなわち、両信号のそれぞれが、異なる重み付け因子によって乗算され、次いで、重み付けされた信号が加算される。重みは、推定INRまたはSNRに従って、容易に適合され得る。特定の実施形態に従うと、ノイズ低減信号および再構成音声信号は、それぞれサブバンド信号に変換され、解析フィルタバンクによって決定される離散周波数ノードΩμで変動する重みで乗算される。所定の閾値未満のINRを有する周波数において、重みは、音声出力信号に対する再構成音声信号の寄与が、ノイズ低減信号の寄与を圧するように選択される。
ノイズの多い音声入力信号から強化された品質の音声出力信号を得るために、本明細書で開示される方法で特に重要なことは、INRまたはSNRの推定であり、したがって、ノイズの短期パワー密度スペクトル(以下で、しばしば、ノイズパワー密度スペクトルと単に称する)の推定である。なぜなら、再構成音声信号とノイズ低減信号との結合は、INRまたはSNRに依存して、したがって、推定ノイズレベルに依存して制御されるからである。
INR(SNR)は、音声入力信号に含まれるノイズの短期パワー密度スペクトルを推定するステップと、該音声入力信号の短期スペクトログラムを決定するステップとによって、推定され得るのに対し、
離散時間指数nに対する該推定ノイズパワー密度スペクトルを推定するステップは、
該音声入力信号(y(n))の該短期パワー密度スペクトルを時間で平滑化して、第一の平滑化短期パワー密度スペクトルを得るステップと、
正の周波数方向に該第一の平滑化短期パワー密度スペクトルを平滑化して、第二の平滑化短期パワー密度スペクトルを得るステップと、
負の周波数方向に該第二の平滑化短期パワー密度スペクトルを平滑化して、第三の平滑化短期パワー密度スペクトルを得るステップと、
該離散時間指数nに対する該第三の平滑化短期パワー密度スペクトルと、離散時間指数n−1に対するノイズの該推定短期パワー密度スペクトルとのうちの最小を決定するステップと
を包含し得る。
離散時間指数n−1に対するノイズの推定短期パワー密度スペクトルは、離散時間指数n−2に対するノイズの推定短期パワー密度スペクトルに基づいて、同様に得られるなどである。
ノイズパワー密度スペクトルを推定するこのような特定の方法によって、アウトライヤの保留が達成され得る。ノイズパワー密度スペクトルを推定する処理がフリーズしないようにするために、上述の最小値と所定の閾値とのうちの最大値として、ノイズパワー密度スペクトルを推定することが、好まれ得る。上述の最小値は、1+εの因子によって乗算され得、ここで、εは、1より十分に小さい正の実数である。εに対する値を適切に選択することによって、一時的な変動に対する推定の高速反応が、達成され得る(以下も参照)。
上述の例において、励起信号は、励起コードブックによって生成され得る。さらに、再構成音声信号は、推定スペクトルエンベロープに基づいて生成され得、この推定スペクトルエンベロープは、抽出スペクトルエンベロープから、かつスペクトルエンベロープコードブックによって生成される。この場合、スペクトルコードブックは、事前にトレーニングされたプロトタイプスペクトルエンベロープを備える。特に、このプロトタイプスペクトルエンベロープは、特に、かなり音声入力信号のノイズの多い部分を再構成するために使用され得る。
ノイズの多い音声入力信号から、有声信号部分の(ボイス)ピッチは、この分野で公知のように、推定ピッチ周期と、励起信号が生成され得る前に準備された励起コードブックとによって、推定され得る。この励起コードブックは、正弦波振動の重み付き合計を表すエントリを備える。一例に従うと、励起コードブックは、正弦波振動の重み付き合計のようなマトリックスCによって表され得る。ここで、行k+1の中のエントリは、行kの振動の全てを含み、単一の追加振動をさらに含む。励起コードブックを使用することによって、励起信号の有声部分の信頼性のある満足ゆく生成が可能になる(無声部分は、ノイズ生成器によって生成され得る)。
ノイズの多い音声入力信号から直接得られた(そして、例えば、無限インパルス応答平滑化を受け)抽出スペクトルエンベロープは、比較的高いINRまたはSNRを有する信号部分に対してだけ、話者によって生成された非摂動音声信号のスペクトルエンベロープに対する信頼性ある推定を示す。低いINRまたはSNRの非摂動音声信号のスペクトルエンベロープに対する信頼性ある推定を達成するために、スペクトルエンベロープコードブックが使用される。スペクトルエンベロープコードブックは、事前にトレーニングされ、例えば、256個のトレーニングされたプロトタイプスペクトルエンベロープを含む。抽出スペクトルエンベロープは、比較的高いINRを有する信号部分に対するコードブックのエントリと比較される。コードブックの最適に合致するプロトタイプスペクトルエンベロープが、決定される。
特定の例に従うと、音声入力信号の抽出スペクトルエンベロープは、高いINRを有する信号部分に対して再構成音声信号を生成するために使用される。低いINRを有する信号部分に対しては、スペクトルエンベロープコードブックの最適に合致する対応するプロトタイプスペクトルエンベロープが使用される。好ましくは、再構成音声信号を生成するために使用される結果として得られるスペクトルエンベロープは、正および負の周波数方向に平滑化される。これは、抽出スペクトルエンベロープから最適に合致する抽出エンベロープであるスペクトルエンベロープのエントリへの急激な切り替えは、認識可能なアーチファクトを生じ得るので、これを避けるためである。
上述のスペクトルエンベロープコードブックを用いる本発明の方法の一つの例に従うと、所定の閾値を超える入力信号対ノイズ比を示す上記音声入力信号の部分に対して上記抽出スペクトルエンベロープと最適に合致する上記スペクトルエンベロープコードブックのプロトタイプスペクトルエンベロープが、決定され、上記推定スペクトルエンベロープは、一方で、該所定の閾値を超える入力信号対ノイズ比を示す該音声入力信号の該部分に対して決定された最適に合致するプロトタイプスペクトルエンベロープと、他方で、該信号の他の部分に対する該抽出スペクトルエンベロープとから実質的になる。
この例では、コードブックからルックアップされたスペクトルエンベロープは、音声入力信号の部分に対して使用されるだけである。信憑性(authenticity)と了解度との観点から満足する再構成音声信号ということを考慮すると、この部分については、抽出スペクトルエンベロープは、非摂動音声信号のスペクトルエンベロープに十分似ているということを期待できない。
コードブックの最適に合致するスペクトルエンベロープと、音声入力信号から抽出されたスペクトルエンベロープとの上述の結合を達成する特に効率的な方法は、サブバンドの下で、マスク関数M(Ωμ,n)を以下のように
Figure 2008116952
利用することである。ここで、
Figure 2008116952
Figure 2008116952
とは、平滑化された抽出スペクトルエンベロープと、スペクトルエンベロープコードブックの最適に合致するスペクトルエンベロープとをそれぞれ表す(平滑化の詳細に関しては、以下の詳細な説明を参照)。マスク関数は、INRに依存する。例えば、INRが所定の閾値を超える場合、M(Ωμ,n)=1を、INRが所定の閾値未満の場合、M(Ωμ,n)=εを適切に選択し得る。ここで、εは、小さな正の実数である。
さらに、音声が実際に存在する(検出される)信号部分に対してだけ(主として)、励起信号(再構成音声信号)が生成されるように励起信号がフィルタリングされることが、むしろ選択されることがあり得る。これを達成し、そして、したがって、最終的に得られる音声出力信号の品質をさらなる強化を得るために、励起信号は、フィルタリングされた励起サブバンド信号
Figure 2008116952
から生成され得、この励起サブバンド信号は、上述のように得られた励起信号を励起サブバンド信号
Figure 2008116952
に変換することによって生成され得る。このフィルタリングされた励起サブバンド信号
Figure 2008116952
は、フィルタリングされていないサブバンド信号
Figure 2008116952
に適用されるスプレッドノイズ低減フィルタリング手段
Figure 2008116952
によって得られ、つまり、
Figure 2008116952
である。
従来のスプレッドノイズ低減フィルタは、フィルタ係数
Figure 2008116952
を用い、低いINR(SNR)を示す周波数範囲での信号再構成を可能にするように使用され得る。ここで、μ∈{0,..,M−1}に対して、
Figure 2008116952
である。
従来のように決定された減衰係数は、
Figure 2008116952
によって示され、
Figure 2008116952
は、スプレッド関数を示す。例えば、修正されたWiener特性が使用され得、
Figure 2008116952
である。
同じフィルタ特性が、上述のノイズ低減フィルタリング手段のために使用され得る。しかしながら、フィルタリングされた励起サブバンド信号を得るという面においては、大きな過大評価因子
Figure 2008116952
と、特に、例えば、[0.01,0.1]から選択される非常に大きな最大減衰
Figure 2008116952
が、使用されるスプレッドフィルタに対して選択される。
比較的高いINR(SNR)を有する信号部分に対して、再構成音声信号のサブバンド信号の位相をノイズ低減信号のサブバンド信号の位相に適合させることが、有利であることを実験は示した。
したがって、別の実施例に従うと、上記強化音声出力信号
Figure 2008116952
の生成は、上記再構成音声信号
Figure 2008116952
のサブバンド信号
Figure 2008116952
と、上記ノイズ低減信号
Figure 2008116952
のサブバンド信号
Figure 2008116952
との生成を包含し、該再構成音声信号
Figure 2008116952
の該サブバンド信号
Figure 2008116952
の位相は、上記入力信号対ノイズ比(INR(Ωμ,n))に依存して、特に、
Figure 2008116952
によって、該ノイズ低減信号
Figure 2008116952
の該サブバンド信号
Figure 2008116952
の位相に適合される。
上述のサブバンド信号
Figure 2008116952
Figure 2008116952
とは、ノイズ低減フィルタリング手段によって出力されたノイズ低減フルバンド信号と、再構成フルバンド音声信号とから、解析フィルタバンクによって生成されるか、あるいはこれらのサブバンド信号は、ノイズ低減フィルタリング手段によって、かつ音声信号を再構成する処理とによって、直接出力されるかのいずれかであることは、留意される。
本発明はまた、上述の実施例のうちの一つに従う方法の上記ステップを実行するためのコンピュータ実行可能な命令を有する一つ以上のコンピュータ読み取り可能な媒体を備えているコンピュータプログラム製品も提供する。
この分野での上述の問題はまた、請求項12に記載の音声入力信号を処理する信号処理手段によって解決され、該信号処理手段は、
該音声入力信号を受信することと、ノイズ低減信号を出力することとを行うように構成されているノイズ低減フィルタリング手段と、
該音声入力信号を受信することと、該音声入力信号からスペクトルエンベロープを抽出することと、該音声入力信号に基づく励起信号を生成することと、該抽出スペクトルエンベロープおよび該励起信号に基づいて、再構成音声信号を生成して、出力することとを行うように構成されている信号再構成手段と、
該ノイズ低減信号および該再構成音声信号を受信することと、該ノイズ低減信号と該再構成音声信号との結合として、強化音声出力信号を出力することとを行うように構成されている信号結合手段と、
該音声入力信号を受信することと、該信号再構成手段および該信号結合手段を制御することとを行うように構成されている制御手段であって、該制御することは、該ノイズ低減フィルタリング手段または該制御手段によって決定される該音声入力信号の入力信号対ノイズ比または信号対ノイズ比に基づく、制御手段と
を備えている。
上記信号処理手段は、上記音声入力信号を音声入力サブバンド信号に変換するように構成されている少なくとも一つの解析フィルタバンクと、上記信号結合手段によって、あるいは上記ノイズ低減フィルタリング手段および上記信号再構成手段によって出力されたサブバンド信号を合成するように構成されている少なくとも一つの合成フィルタリングバンクとをさらに備え得る。
上記信号結合手段は、上記ノイズ低減信号と上記再構成音声信号との重み付き合計を構築することによって、上記音声出力信号を生成し得る。上記入力信号対ノイズ比または上記信号対ノイズ比は、上記ノイズ低減フィルタリング手段の制御手段によって推定され得、この推定は、上記音声入力信号に含まれるノイズの上記短期パワー密度スペクトルを推定することと、該音声入力信号の短期スペクトログラムを決定することとによって行われる。
一実施形態に従うと、上記信号処理手段は、
励起コードブックデータベースと、
スペクトルエンベロープコードブックデータベースと、
該励起コードブックデータベースによって、上記励起信号を生成するように構成されている励起推定器と、
該スペクトルエンベロープコードブックデータベースによって、上記推定スペクトルエンベロープを生成するように構成されているスペクトルエンベロープ推定器と
を備え、
該信号再構成手段は、該推定スペクトルエンベロープおよび該励起信号に基づいて、上記再構成音声信号を生成して、出力するように構成されている。
本発明の方法に関連し、以上に議論されたように、上記励起推定器および上記スペクトルエンベロープ推定器は、上記励起信号および上記推定スペクトルエンベロープをそれぞれ生成するように構成され得る。
上記信号処理手段の上述の実施例の制御手段は、上記音声入力信号の上記入力信号対ノイズ比または上記信号対ノイズ比を決定することと、該音声入力信号の該入力信号対ノイズ比または該信号対ノイズ比が、該音声入力信号全体に対し所定の閾値を超えていることが決定された場合、上記信号再構成手段を不活性化することとを行うように構成され得る。したがって、ノイズ低減フィルタリング手段が音声入力信号の品質を十分に強化し得ないと考えなくてはならないほど、入力音声信号の摂動が深刻ではない場合には、上記音声信号の比較的高価な再構成は、省かれ得る。
本発明はまた、上述の実施例の一つに従う信号処理手段を備えているハンズフリー電話システムを提供する。また、本明細書の中で、上述の実施例の一つに従う信号処理手段を備えている音声認識手段も提供される。
さらに、上述の音声認識手段または上述の実施例の一つに従う信号処理手段を備えている音声対話システムまたはボイス制御システムが提供される。
本発明の信号処理を受けて得られた音声信号の品質、したがって、特に、了解度は、著しく強化され得るので、上述のシステムは、公的な用途の実施例となる。電話での会話および音声の認識は、非常に摂動を受ける音声入力信号の信号部分が、再構成音声信号に置換され得るので、本明細書に開示される音声信号処理から、特に恩恵を享受し得る。
本発明の追加の特徴および利点は、図面を参照して記載される。
本発明は、さらに、以下の手段を提供する。
(項目1)
音声入力信号(y(n))を処理する方法であって、
該音声入力信号(y(n))の入力信号対ノイズ比(INR)または信号対ノイズ比(SNR)を推定するステップと、
該音声入力信号(y(n))に基づいて、励起信号を生成するステップと、
該音声入力信号(y(n))のスペクトルエンベロープを抽出するステップと、
該励起信号と該抽出スペクトルエンベロープとに基づいて、再構成音声信号
Figure 2008116952
を生成するステップと、
ノイズ低減フィルタリング手段(10)によって、該音声入力信号(y(n))をフィルタリングして、ノイズ低減信号
Figure 2008116952
を得るステップと、
該音声入力信号対ノイズ比(INR)または該信号対ノイズ比(SNR)に基づいて、該再構成音声信号
Figure 2008116952
と該ノイズ低減信号
Figure 2008116952
とを結合して、強化音声出力信号
Figure 2008116952
を得るステップと
を包含する、方法。
(項目2)
上記音声入力信号対ノイズ比(INR)または上記信号対ノイズ比(SNR)に基づいて、上記再構成音声信号
Figure 2008116952
を重み付けして、重み付け再構成音声信号を得るステップと、
該音声入力信号対ノイズ比(INR)または該信号対ノイズ比(SNR)に基づいて、上記ノイズ低減信号
Figure 2008116952
を重み付けして、重み付けノイズ低減信号を得るステップと
をさらに包含し、
該再構成音声信号
Figure 2008116952
と該ノイズ低減信号
Figure 2008116952
とを結合する上記ステップは、該重み付け再構成音声信号と該重み付け再ノイズ低減信号とを加算して、上記強化音声出力信号
Figure 2008116952
を得ることからなる、項目1に記載の方法。
(項目3)
上記音声入力信号対ノイズ比(INR)または上記信号対ノイズ比(SNR)を推定する上記ステップは、
上記音声入力信号(y(n))に含まれるノイズの短期パワー密度スペクトルを推定するステップと、
該音声入力信号(y(n))の短期スペクトログラムを決定するステップと
を包含する、項目1または項目2に記載の方法。
(項目4)
離散時間指数n−1に対するノイズの短期パワー密度スペクトルから、離散時間指数nに対するノイズの上記短期パワー密度スペクトルを推定するステップは、
上記音声入力信号(y(n))の上記短期パワー密度スペクトルを時間で平滑化して、第一の平滑化短期パワー密度スペクトルを得るステップと、
正の周波数方向に該第一の平滑化短期パワー密度スペクトルを平滑化して、第二の平滑化短期パワー密度スペクトルを得るステップと、
負の周波数方向に該第二の平滑化短期パワー密度スペクトルを平滑化して、第三の平滑化短期パワー密度スペクトルを得るステップと、
該離散時間指数nに対する該第三の平滑化短期パワー密度スペクトルと、離散時間指数n−1に対するノイズの該推定短期パワー密度スペクトルとのうちの最小を決定するステップと
を包含する、項目3に記載の方法。
(項目5)
上記励起信号は、励起コードブックによって生成される、項目1〜項目4のいずれか1項に記載の方法。
(項目6)
上記再構成音声信号
Figure 2008116952
は、推定スペクトルエンベロープに基づいて生成され、該推定スペクトルエンベロープは、上記抽出スペクトルエンベロープから、かつスペクトルエンベロープコードブックによって生成される、項目1〜項目5のいずれか1項に記載の方法。
(項目7)
所定の閾値を超える入力信号対ノイズ比を示す上記音声入力信号の部分に対して上記抽出スペクトルエンベロープと最適に合致する上記スペクトルエンベロープコードブックのプロトタイプスペクトルエンベロープが、決定され、
上記推定スペクトルエンベロープは、該所定の閾値を超える入力信号対ノイズ比を示す該音声入力信号の該部分に対する該決定された最適に合致するプロトタイプスペクトルエンベロープと、該信号の他の部分に対する該抽出スペクトルエンベロープとから実質的になる、項目6に記載の方法。
(項目8)
上記推定スペクトルエンベロープは、周波数
Figure 2008116952
で平滑化された抽出スペクトルエンベロープと、上記決定された最適に合致するプロトタイプスペクトルエンベロープ
Figure 2008116952
との重み付け合計から、サブバンドの下で
Figure 2008116952
から計算され、ここで、マスク関数M(Ωμ,n)は、上記入力信号対ノイズ比に依存する、項目7に記載の方法。
(項目9)
上記励起信号は、フィルタリングされた励起サブバンド信号
Figure 2008116952
から生成され、該フィルタリングされた励起サブバンド信号
Figure 2008116952
は、スプレッドノイズ低減フィルタリング手段によって得られる、項目6〜項目8のいずれか1項に記載の方法。
(項目10)
上記強化音声出力信号
Figure 2008116952
の生成は、上記再構成音声信号
Figure 2008116952
のサブバンド信号
Figure 2008116952
と、上記ノイズ低減信号
Figure 2008116952
のサブバンド信号
Figure 2008116952
との生成を包含し、該再構成音声信号
Figure 2008116952
の該サブバンド信号
Figure 2008116952
の位相は、上記入力信号対ノイズ比(INR(Ωμ,n))に依存して、特に、
Figure 2008116952
によって、該ノイズ低減信号
Figure 2008116952
の該サブバンド信号
Figure 2008116952
の位相に適合される、項目1〜項目9のいずれか1項に記載の方法。
(項目11)
項目1〜項目10のいずれか1項に記載の方法の上記ステップを実行するためのコンピュータ実行可能な命令を有する一つ以上のコンピュータ読み取り可能な媒体を備えている、コンピュータプログラム製品。
(項目12)
音声入力信号(y(n))を処理する信号処理手段であって、
該音声入力信号(y(n))を受信することと、ノイズ低減信号
Figure 2008116952
を出力することとを行うように構成されているノイズ低減フィルタリング手段(10)と、
該音声入力信号(y(n))を受信することと、該音声入力信号(y(n))からスペクトルエンベロープを抽出することと、該音声入力信号(y(n))に基づく励起信号を生成することと、該抽出スペクトルエンベロープおよび該励起信号に基づいて、再構成音声信号
Figure 2008116952
を生成して、出力することとを行うように構成されている信号再構成手段(11)と、
該ノイズ低減信号
Figure 2008116952
および該再構成音声信号
Figure 2008116952
を受信することと、該ノイズ低減信号
Figure 2008116952
と該再構成音声信号
Figure 2008116952
との結合として、強化音声出力信号
Figure 2008116952
を出力することとを行うように構成されている信号結合手段(13)と、
該音声入力信号(y(n))を受信することと、該信号再構成手段(11)および該信号結合手段(13)を制御することとを行うように構成されている制御手段(12)であって、該制御することは、該ノイズ低減フィルタリング手段(10)または該制御手段(12)によって決定される該音声入力信号(y(n))の入力信号対ノイズ比または信号対ノイズ比に基づく、制御手段(12)と
を備えている、信号処理手段。
(項目13)
上記音声入力信号(y(n))を音声入力サブバンド信号
Figure 2008116952
に変換するように構成されている少なくとも一つの解析フィルタバンク(21)と、
上記信号結合手段(13)によって、あるいは上記ノイズ低減フィルタリング手段(10)および上記信号再構成手段(11)によって出力されたサブバンド信号を合成するように構成されている少なくとも一つの合成フィルタリングバンク(22)と
をさらに備えている、項目12に記載の信号処理手段。
(項目14)
上記信号再構成手段(11)は
励起コードブックデータベース(26)と、
スペクトルエンベロープコードブックデータベース(24)と、
該励起コードブックデータベース(26)によって、上記励起信号を生成するように構成されている励起推定器(25)と、
該スペクトルエンベロープコードブックデータベース(24)によって、上記推定スペクトルエンベロープを生成するように構成されているスペクトルエンベロープ推定器(23)と
を備え、
該信号再構成手段(11)は、該推定スペクトルエンベロープおよび該励起信号に基づいて、上記再構成音声信号
Figure 2008116952
を生成して、出力するように構成されている、項目12または項目13に記載の信号処理手段。
(項目15)
上記制御手段(12)は、上記音声入力信号(y(n))の上記入力信号対ノイズ比または上記信号対ノイズ比を決定することと、該音声入力信号(y(n))の該入力信号対ノイズ比または該信号対ノイズ比が、該音声入力信号(y(n))全体に対し所定の閾値を超えていることが決定された場合、上記信号再構成手段(11)を不活性化することとを行うように構成されている、項目12〜項目14のいずれか1項に記載の信号処理手段。
(項目16)
項目12〜項目15のいずれか1項に記載の信号処理手段を備えている、ハンズフリー電話システム。
(項目17)
項目12〜項目15のいずれか1項に記載の信号処理手段を備えている、音声認識手段。
(項目18)
項目17に記載の音声認識手段または項目12〜項目15のいずれか1項に記載の信号処理手段を備えている、音声対話システムまたはボイス制御システム。
(摘要)
本発明は、オーディオ入力信号を処理する方法に関し、該方法は、音声入力信号の入力信号対ノイズ比または信号対ノイズ比を推定するステップと、該音声入力信号に基づいて、励起信号を生成するステップと、該音声入力信号のスペクトルエンベロープを抽出するステップと、該励起信号と該抽出スペクトルエンベロープとに基づいて、再構成音声信号を生成するステップと、ノイズ低減フィルタリング手段によって、該音声入力信号をフィルタリングして、ノイズ低減信号を得るステップと、該音声入力信号対ノイズ比または該信号対ノイズ比に基づいて、該再構成音声信号と該ノイズ低減信号とを結合して、強化音声出力信号を得るステップとを包含する。本発明はまた、本明細書に開示される方法を実行するように構成されている信号処理手段にも関する。
本発明の方法の一例の基本的なステップが、図1に示される。ノイズの多い音声信号が、信号処理手段に、例えば、1つ以上のマイクによって入力される1。所定の閾値未満の信号対ノイズ比(SNR)を示す音声入力信号の部分が、検出される2。信号のこの部分は、バックグラウンドノイズによって非常に摂動を受け、したがって、従来のノイズ低減は、失敗する。
本例に従うと、スペクトルエンベロープは、音声入力信号から抽出され、非摂動音声信号の対応するスペクトルエンベロープが、ノイズによって非常に摂動を受けていない信号部分から推定される3(詳細は以下に与えられる)。さらに、励起信号が推定される4。励起信号を推定する処理は、音声入力信号を有声部分と無声部分とに励起分類することを包含する。推定スペクトルエンベロープおよび推定励起信号に基づいて、音声入力信号が、この分野で公知のように、再構成される5。
一方、音声入力信号は、何らかの公知のノイズ低減フィルタリング手段によって、シンプルにノイズ低減される6。代替として、バックグラウンドノイズによって大きな影響を受けていない入力信号の部分のみが、ノイズ低減フィルタリング手段によってフィルタリングされる。最後に、ノイズ低減信号(部分)と再構成音声信号とが結合され7、強化された品質を有する音声出力信号を得る。ノイズ低減信号と再構成音声信号との結合は、実際のSNRに依存する重みを用いて、重み付き加重の形式で実行され得る。
図2は、本発明の信号処理手段の一例の基本的なコンポーネントを示す。この信号処理手段は、従来のノイズ低減フィルタリング手段10を備える。音声入力信号y(n)が、この手段によってフィルタリングされ、ノイズ低減信号
Figure 2008116952
が出力される。引数nによって、離散時間指数が示される。
音声入力信号y(n)はまた、信号再構成手段11および制御手段12によって受信される。信号再構成手段11は、音声入力信号y(n)の特徴解析に基づいて、音声信号を再構成するように構成されている。特に、信号再構成手段11は、音声入力信号y(n)の抽出スペクトルエンベロープに基づいて、かつ事前にトレーニングされたプロトタイプスペクトルエンベロープを備えるスペクトルエンベロープコードブックを利用して、非摂動音声信号のスペクトルエンベロープを推定するように構成される。信号再構成手段11はまた、励起コードブックによって、非摂動励起信号を推定するようにも構成されている(詳細については、以下の記載参照)。
本例に従う制御手段12は、ノイズの短期パワー密度スペクトルを推定することと、音声入力信号y(n)の短期スペクトログラムを検出することとを行うように構成されている。このために、入力信号y(n)は、解析フィルタバンクによって、短期フーリエ変換またはフィルタリングを受けなくてはならない。音声入力信号y(n)のSNRまたは入力信号対ノイズ比(INR)もまた、制御手段12によって推定される。制御手段12もまた、音声入力信号y(n)の有声−無声分類を実行するように構成されている。信号再構成手段11の動作は、制御手段12によって得られた結果によって制御される。
さらに、制御手段12は、信号再構成手段11によって出力される再構成音声信号
Figure 2008116952
と、ノイズ低減フィルタリング手段10によって出力されるノイズ低減信号
Figure 2008116952
とを受信する信号結合手段13を制御する。制御手段12は、信号結合手段13を制御して、再構成音声信号
Figure 2008116952
とノイズ低減信号
Figure 2008116952
とを、あるいは様々な信号部分のノイズレベルに応じて、これらの信号の部分を混合する。ノイズによって非常に摂動を受けている信号部分は、再構成音声信号の対応する部分によって置換される。信号結合手段13によって出力される信号
Figure 2008116952
は、強化音声信号を表す。
一例に従うと、図2に示される構成は、解析フィルタバンクを含み、解析フィルタバンクは、この分野で公知のように、音声入力信号y(n)を解析して、周波数ノードΩμ(μ=0,1,..,M−1)を有するサブバンド信号、すなわち短期スペクトル
Figure 2008116952
にする。この場合、図2のコンポーネント10、11、および12は、サブバンド信号
Figure 2008116952
を受信し、周波数ドメインで動作する。この場合、出力信号
Figure 2008116952
は、合成フィルタバンクによって、結果的に得られる。原則として、信号処理全体は、時間ドメインまたは周波数ドメインのいずれかで実行され得ることに留意される。
以下において、図2に示される信号処理手段のコンポーネントが、実施例によって、より詳細に記載される。
音声入力信号y(n)に存在するノイズの正確な推定は、本発明の動作を成功させるために、極めて重要である。この推定は、ノイズ低減フィルタリング手段10および/または制御手段12によって実行され得る。一実施形態に従うと、摂動音声入力信号y(n)に音声ポーズが存在し、その音声ポーズの間に、ノイズが直接測定され得るものと仮定される。したがって、原則として、y(n)の短期スペクトログラム、すなわち、
Figure 2008116952
は、音声ポーズの中に決定され得、バックグラウンドノイズの短期パワー密度スペクトルに対する推定に、単刀直入に使用され得る。
しかしながら、好ましい例に従うと、音声入力信号に存在するノイズの短期パワー密度スペクトルを推定する処理は、時間と周波数とにおいて、音声入力信号の短期パワー密度スペクトルを平滑化することと、最小値を探索することとを包含する。音声入力信号の短期パワー密度スペクトルの時間における平滑化は、
Figure 2008116952
に従う無限インパルス応答(IIR)平滑化として実行され得る。ここで、0≦λ<1である。選択されるλが小さければ小さいほど、推定の反応は速くなる。
周波数におけるIIR平滑化は、例えば、
Figure 2008116952
として実行され得、これに、
Figure 2008116952
が続く。ここで、0≦λ<1である。周波数におけるこの平滑化は、処理される信号で感知し得るアーチファクトを結果としてもたらし得るアウトライヤの発生を防ぐ。引き続く信号処理に使用されるノイズの推定短期パワー密度スペクトルは、以下:
Figure 2008116952
のように計算され得る。ここで、0<ε<<1であり、推定短期パワー密度スペクトルを保証する限界閾値Snn,minは、決してゼロではない。パラメータεによって、推定の反応音声が選択され得る。ノイズパワー密度の一時的な増加への反応が可能であることを保証するために、パラメータεは、ゼロより大きい値が選択される。
ノイズの短期パワー密度スペクトル
Figure 2008116952
基づいて、制御ユニット12は、
Figure 2008116952
によって、入力信号対ノイズ比(INR)を推定し得る。INRは、引き続く信号処理の幾つかのステップに対して使用される。特に、再構成音声信号
Figure 2008116952
とノイズ低減信号
Figure 2008116952
との結合は、実際のINRに依存する。代替として、SNR(Ωμ,n)=max{0,INR(Ωμ,n)−1}によって与えられる信号対ノイズ比(SNR)が、INRよりも、むしろ使用され得る。
制御手段12はまた、音声入力信号y(n)の有声/無声分類を実行する。一例に従うと、分類パラメータt(n)(0≦t(n)≦1)が大きい(小さい)場合、音声入力信号y(n)に存在するサウンド部分が、有声(無声)であると分類される。分類パラメータt(n)は、rINR(n)=INRhigh(n)/(INRlow(n)+ΔINR)によって与えられる量rINR(n)の非線形マッピングから結果として得られる。ここで、ΔINRは、ゼロによる除算を防ぎ、
Figure 2008116952
である。ここで、規格化周波数Ωμ0、Ωμ1、Ωμ2、およびΩμ3は、音声信号処理の面で適切であるように、それぞれ実際の周波数300Hz、1050Hz、3800Hz、および5200Hzに対応するように選択される。最もシンプルなケースで、バイナリ分類は、rINR(n)が適切な閾値未満の場合は、t(n)=f(rINR(n))=1が得られ、適切な閾値以上の場合は、ゼロが得られ得る。
ここで説明された例は、音声入力信号y(n)の無声部分が高周波数範囲で支配的なパワー密度を示すのに対し、有声部分が低周波数範囲で支配的なパワー密度を示すという事実を利用していることに留意すべきである。
図3は、有利な例に従う図2の信号再構成手段11を幾分か詳細に示す。解析フィルタバンク21が、音声入力信号y(n)からサブバンド信号
Figure 2008116952
を得るために使用される。このサブバンド信号
Figure 2008116952
に基づいて、非摂動音声信号(ノイズ寄与の一切ない音声信号)の励起信号スペクトル
Figure 2008116952
およびスペクトルエンベロープ
Figure 2008116952
が、信号再構成手段11によって推定され、再構成音声信号のスペクトル
Figure 2008116952
を得る。全(total)バンドの再構成音声信号
Figure 2008116952
は、合成フィルタバンク22によって、スペクトル
Figure 2008116952
から得られ得る。
代替として、スペクトル
Figure 2008116952
が出力され得、ノイズ低減フィルタリング手段によって出力された対応するスペクトル
Figure 2008116952
と結合され得ることに留意される。換言すれば、特定の実施形態に依存して、図2の信号結合手段13は、ノイズ低減手段10と信号再構成手段11とから受信したサブバンド信号を結合して、その後、この結合されたサブバンド信号を合成するように構成され得るか、あるいはこれらの手段10および11からの全バンド信号を受信するように構成され得る。
非摂動音声信号のスペクトルエンベロープの推定は、以下のようにして達成される。最初に、音声入力信号y(n)のスペクトルエンベロープ
Figure 2008116952
が、この分野で公知のような方法を用いて、スペクトルエンベロープ推定器23によって抽出される。線形予測符号化(LPC)またはスペクトル解析が、スペクトルエンベロープを抽出するために使用され得る。一つの例に従うと、スペクトルエンベロープは、
Figure 2008116952
に従う二重IIR平滑化方法によって、直接推定される。ここで、
Figure 2008116952
であり、ここで、平滑化定数は、0≦λ<1から選択される。適切な選択は、例えば、λ=0.5である。
このようにして抽出されたスペクトルエンベロープは、ノイズによって著しい影響を受けていない信号部分に対してのみ、非摂動音声信号のスペクトルエンベロープを満足する近似である。低いINR(SNR)を有する信号部分に対してさえ、信頼性あるスペクトルエンベロープを得るために、事前にトレーニングされたスペクトルエンベロープコードブック24が、用いられ得る。スペクトルエンベロープコードブック24は、特定のサウンド
Figure 2008116952
までのプロトタイプスペクトルエンベロープの対数表現を含む。適切なコードブックは、NCB,e=256のサイズを有し得る。
スペクトルエンベロープコードブック24は、高いINRを有する信号部分に対する抽出スペクトルエンベロープ
Figure 2008116952
と最適に合致するエントリを探索される。このために、抽出スペクトルエンベロープの規格化対数バージョン
Figure 2008116952
が計算され、ここで、
Figure 2008116952
である。ここで、マスク関数M(Ωμ,n)は、INRに依存し、例えば、M(Ωμ,n)=g(INR(Ωμ,n))による。ここで、マッピング関数gは、INRの値をインターバル[0,1]にマッピングする。この結果得られる値が1に近いことは、低いノイズレベル、すなわち、良好なSNRまたはINRをそれぞれ示す。最もシンプルな場合、バイナリ関数gを選択し得、INRが所定の閾値を超える場合には、例えば、2または4の場合、1にマッピングし、INRが所定の閾値未満の場合には、(上記の式でゼロによる除算を避けるために)ある小さな、しかし、有限な実数値を選択し得る。
スペクトルエンベロープコードブック24のスペクトルエンベロープは、このようにして規格化され、コードブックの最適に合致するエントリに対する探索は、対数INRで重み付けされたマグニチュード距離
Figure 2008116952
に基づいて実行される。ここで、
Figure 2008116952
である。
argminは、最小関数の引数を意味し、このargminは、
Figure 2008116952
が最小となる値mを返す。スペクトルエンベロープコードブック24のこのようにして得られたスペクトルエンベロープは、線形化され、再規格化されて、
Figure 2008116952
となる。
音声信号の再構成のために、得られたスペクトルエンベロープ
Figure 2008116952
は、低いINR(SNR)を有する音声入力信号の部分に対して使用され得、抽出スペクトルエンベロープ
Figure 2008116952
は、高いINR(SNR)を有する部分に対して使用され得る。特定の例に従うと、以下のスペクトルエンベロープ
Figure 2008116952
が、スペクトルエンベロープ推定器23によって出力される。ここで
Figure 2008116952
である。平滑化定数は、0と1との間で選択され、例えば、λmix=0.3として選択され得る。
信号再構成手段11はまた、励起信号を推定するための励起コードブック26を利用する励起推定器25も備え、励起信号は、再構成音声信号を得るために、スペクトルエンベロープ推定器23によって出力されたスペクトルエンベロープ
Figure 2008116952
を用いて形作られ得る。
励起信号
Figure 2008116952
を推定するために、最初に、有声信号部分と無声信号部分とが、上述のように決定される。励起信号
Figure 2008116952
の無声部分
Figure 2008116952
は、ノイズ生成器によって生成される。励起信号
Figure 2008116952
の有声部分
Figure 2008116952
を達成するためには、(ボイス)ピッチが決定されなくてはならない。これは、この分野で公知の任意の方法によって行われ得る(例えば、W.Hessによる「Pitch Determination of Speech Signals」(Springer Berlin、1983年)参照)。決定されたピッチに基づいて、励起信号
Figure 2008116952
の有声部分
Figure 2008116952
は、正弦波振動の重み付き合計を表すエントリを含む励起コードブック26によって生成される。正弦波振動の重み付き合計は、例えば、
Figure 2008116952
であり、ここで、Lは、各コードブックエントリの長さを示す。エントリcs,k(l)は、励起信号
Figure 2008116952
の有声部分
Figure 2008116952
の生成のために、
Figure 2008116952
として読み出されたマトリックスCの係数である。ここで、l(n)は、係数cs,k(l)によって形成されたマトリックスCの行の指数を示し、l(n)は列の指数を示す。
本例に従うと、行の指数は、
Figure 2008116952
として計算される。ここで、tは、(一般的に、時間に依存する)ピッチの周期であり、r/nは、ピッチの周期のダウンサンプリングされた計算を表す(ピッチは、音声入力信号の各rサンプリング瞬間ごとに計算される)。丸め操作は、引数より小さい次の整数か、あるいは引数より大きい次の整数を戻す。
列の指数は、
Figure 2008116952
によって計算される。ここで、
Figure 2008116952
であり、この増分Δ(n)=L/(t(round(n/r)))である。上記の式における1.5による減算は、列の指数が関係0≦l(n)≦L−1を満たすようにするために提供される。
励起信号
Figure 2008116952
は、有声部分
Figure 2008116952
と無声部分
Figure 2008116952
との重み付き合計によって計算される。一つの例に従うと、励起信号
Figure 2008116952
は、
Figure 2008116952
によって計算される。
この信号は、解析フィルタバンクに入力され、サブバンド信号
Figure 2008116952
を生成する。これらのサブバンド信号は、引き続き、音声が検出された信号部分のみに対して励起信号を生成するために、フィルタ係数
Figure 2008116952
を有するノイズ低減フィルタによって重み付けされる。従来のスプレッドフィルタは、低いINR(SNR)を示す周波数範囲における信号再構成を考慮するために、ノイズ低減フィルタに使用される。
一つの例に従うと、μ∈{0,..,M−1}に対して、フィルタ係数は、
Figure 2008116952
によって決定され、ここで
Figure 2008116952
ある。
従来のように決定された減衰係数(フィルタ係数)は、
Figure 2008116952
によって示され、
Figure 2008116952
は、スプレッド関数を示す。適切な実数値の正のスプレッド関数の周波数応答の例が、図4に示される。減衰係数は、例えば、修正Wiener特性に従って決定され得て、使用され得るノイズの短期パワー密度スペクトルおよび音声入力信号y(n)のスペクトログラムを含み、
Figure 2008116952
である。
同じ特性は、図2のノイズ低減フィルタリング手段10で使用され得る。しかしながら、ここでは、大きな過大評価因子
Figure 2008116952
と、特に、非常に高い最大減衰、例えば、
Figure 2008116952
が、スプレッドフィルタに対して選択される。本例に従う励起推定器25は、推定励起スペクトル
Figure 2008116952
を出力する。合成フィルタバンク22は、再構成音声信号のスペクトル
Figure 2008116952
を全バンド再構成音声信号
Figure 2008116952
に変換し、この全バンド再構成音声信号が、信号再構成手段11(図2も参照)によって出力される。
図2の信号結合手段13は、再構成音声信号
Figure 2008116952
と、従来のノイズ低減フィルタリング手段10から受信したノイズ低減信号
Figure 2008116952
とを結合するように構成されている。この結合は、例えば、サブバンドの下で実行される。したがって、本例において、再構成音声信号
Figure 2008116952
とノイズ低減信号
Figure 2008116952
とは、解析フィルタバンクによって、それぞれサブバンド信号
Figure 2008116952
Figure 2008116952
とに解析されなくてはならない。代替として、ノイズ低減フィルタリング手段10は、サブバンド信号
Figure 2008116952
を出力し得、信号再構成手段11は、サブバンド信号
Figure 2008116952
を出力し得て、次いで、これらのサブバンド信号は、信号結合手段13によって直接使用され得る。
サブバンド信号
Figure 2008116952
Figure 2008116952
とを結合する前に、むしろ、再構成音声信号の位相を、ノイズの多い音声入力信号に対し適合させることが好まれる(あるいは従来のノイズ低減フィルタリング手段10の出力信号に対し適合させることが好まれる。それは、通常、強化されるべき信号の振幅に影響を与えるのみで、その位相には影響を及ぼさない)。一例に従うと、これは、
Figure 2008116952
によって達成され得る。
修正サブバンド信号
Figure 2008116952
とノイズ低減サブバンド信号
Figure 2008116952
とは、重み付き合計され、その結果、信号
Figure 2008116952
を得る。これらの信号は、強化音声出力信号
Figure 2008116952
を得るために、信号結合手段13内に備えられた合成フィルタバンクによって変換される。重み
Figure 2008116952
および
Figure 2008116952
は、INRに依存し、制御手段12によって決定される。好ましい例に従うと、重みは、周波数応答
Figure 2008116952
を用いるρメルフィルタ(ρ∈0,1,..,Mmel−1)の助けによって得られるINRの平均値によって決定され得る。11025Hzのサンプリングレートに対して、例えば、Mmel=16が、適切に選択され得る。平均INRは、
Figure 2008116952
によって計算され得る。
特定の実施形態に従うと、重み
Figure 2008116952
Figure 2008116952
とは、INRav(ρ,n)からバイナリ特性によって決定され得、INRav(ρ,n)>何らかの閾値(例えば、インターバル[4,10]から選択された閾値)の場合、fmix(INRav(ρ,n))=1であり、その他の場合、fmix(INRav(ρ,n))=0である。他のバイナリでない特性もまた、適用され得ることは、留意される。上述または任意の他の選択された特性fmix(INRav(ρ,n))によって、修正サブバンド信号
Figure 2008116952
とノイズ低減サブバンド信号
Figure 2008116952
との結合のための重みは、
Figure 2008116952
とによって計算される。
以上で議論された実施形態の全ては、限定するものとして意図されず、本発明の特徴および利点を説明する例として機能する。上述された特徴の一部または全部は、種々の方法で組み合わされ得ることもまた、理解されるべきである。
図1は、本明細書に開示される方法の一例の原理を示す流れ図であり、この方法は、ノイズ低減音声信号と再構成音声信号とを結合するステップを包含する。 図2は、本明細書に開示される信号処理手段の一例の基本的なコンポーネントを示すブロック図であり、この信号処理手段は、信号再構成手段と信号結合手段とを備える。 図3は、図2の信号再構成手段の一例を示し、この信号再構成手段は、再構成音声信号の生成に使用されるスペクトルエンベロープコードブックと励起コードブックとを備える。 図4は、励起信号の生成に使用されるスプレッド関数の一例を示す。
符号の説明
10 ノイズ低減フィルタリング手段
11 信号再構成手段
12 制御手段
13 信号結合手段
21 解析フィルタバンク
22 合成フィルタバンク
23 スペクトルエンベロープ推定器
24 スペクトルエンベロープコードブック
25 励起推定器
26 励起コードブック

Claims (18)

  1. 音声入力信号(y(n))を処理する方法であって、
    該音声入力信号(y(n))の入力信号対ノイズ比(INR)または信号対ノイズ比(SNR)を推定するステップと、
    該音声入力信号(y(n))に基づいて、励起信号を生成するステップと、
    該音声入力信号(y(n))のスペクトルエンベロープを抽出するステップと、
    該励起信号と該抽出スペクトルエンベロープとに基づいて、再構成音声信号
    Figure 2008116952
    を生成するステップと、
    ノイズ低減フィルタリング手段(10)によって、該音声入力信号(y(n))をフィルタリングして、ノイズ低減信号
    Figure 2008116952
    を得るステップと、
    該音声入力信号対ノイズ比(INR)または該信号対ノイズ比(SNR)に基づいて、該再構成音声信号
    Figure 2008116952
    と該ノイズ低減信号
    Figure 2008116952
    とを結合して、強化音声出力信号
    Figure 2008116952
    を得るステップと
    を包含する、方法。
  2. 前記音声入力信号対ノイズ比(INR)または前記信号対ノイズ比(SNR)に基づいて、前記再構成音声信号
    Figure 2008116952
    を重み付けして、重み付け再構成音声信号を得るステップと、
    該音声入力信号対ノイズ比(INR)または該信号対ノイズ比(SNR)に基づいて、前記ノイズ低減信号
    Figure 2008116952
    を重み付けして、重み付けノイズ低減信号を得るステップと
    をさらに包含し、
    該再構成音声信号
    Figure 2008116952
    と該ノイズ低減信号
    Figure 2008116952
    とを結合する前記ステップは、該重み付け再構成音声信号と該重み付け再ノイズ低減信号とを加算して、前記強化音声出力信号
    Figure 2008116952
    を得ることからなる、請求項1に記載の方法。
  3. 前記音声入力信号対ノイズ比(INR)または前記信号対ノイズ比(SNR)を推定する前記ステップは、
    前記音声入力信号(y(n))に含まれるノイズの短期パワー密度スペクトルを推定するステップと、
    該音声入力信号(y(n))の短期スペクトログラムを決定するステップと
    を包含する、請求項1または請求項2に記載の方法。
  4. 離散時間指数n−1に対するノイズの短期パワー密度スペクトルから、離散時間指数nに対するノイズの前記短期パワー密度スペクトルを推定するステップは、
    前記音声入力信号(y(n))の前記短期パワー密度スペクトルを時間で平滑化して、第一の平滑化短期パワー密度スペクトルを得るステップと、
    正の周波数方向に該第一の平滑化短期パワー密度スペクトルを平滑化して、第二の平滑化短期パワー密度スペクトルを得るステップと、
    負の周波数方向に該第二の平滑化短期パワー密度スペクトルを平滑化して、第三の平滑化短期パワー密度スペクトルを得るステップと、
    該離散時間指数nに対する該第三の平滑化短期パワー密度スペクトルと、離散時間指数n−1に対するノイズの該推定短期パワー密度スペクトルとのうちの最小を決定するステップと
    を包含する、請求項3に記載の方法。
  5. 前記励起信号は、励起コードブックによって生成される、請求項1〜請求項4のいずれか1項に記載の方法。
  6. 前記再構成音声信号
    Figure 2008116952
    は、推定スペクトルエンベロープに基づいて生成され、該推定スペクトルエンベロープは、前記抽出スペクトルエンベロープから、かつスペクトルエンベロープコードブックによって生成される、請求項1〜請求項5のいずれか1項に記載の方法。
  7. 所定の閾値を超える入力信号対ノイズ比を示す前記音声入力信号の部分に対して前記抽出スペクトルエンベロープと最適に合致する前記スペクトルエンベロープコードブックのプロトタイプスペクトルエンベロープが、決定され、
    前記推定スペクトルエンベロープは、該所定の閾値を超える入力信号対ノイズ比を示す該音声入力信号の該部分に対する該決定された最適に合致するプロトタイプスペクトルエンベロープと、該信号の他の部分に対する該抽出スペクトルエンベロープとから実質的になる、請求項6に記載の方法。
  8. 前記推定スペクトルエンベロープは、周波数
    Figure 2008116952
    で平滑化された抽出スペクトルエンベロープと、前記決定された最適に合致するプロトタイプスペクトルエンベロープ
    Figure 2008116952
    との重み付け合計から、サブバンドの下で
    Figure 2008116952
    から計算され、ここで、マスク関数M(Ωμ,n)は、前記入力信号対ノイズ比に依存する、請求項7に記載の方法。
  9. 前記励起信号は、フィルタリングされた励起サブバンド信号
    Figure 2008116952
    から生成され、該フィルタリングされた励起サブバンド信号
    Figure 2008116952
    は、スプレッドノイズ低減フィルタリング手段によって得られる、請求項6〜請求項8のいずれか1項に記載の方法。
  10. 前記強化音声出力信号
    Figure 2008116952
    の生成は、前記再構成音声信号
    Figure 2008116952
    のサブバンド信号
    Figure 2008116952
    と、前記ノイズ低減信号
    Figure 2008116952
    のサブバンド信号
    Figure 2008116952
    との生成を包含し、該再構成音声信号
    Figure 2008116952
    の該サブバンド信号
    Figure 2008116952
    の位相は、前記入力信号対ノイズ比(INR(Ωμ,n))に依存して、特に、
    Figure 2008116952
    によって、該ノイズ低減信号
    Figure 2008116952
    の該サブバンド信号
    Figure 2008116952
    の位相に適合される、請求項1〜請求項9のいずれか1項に記載の方法。
  11. 請求項1〜請求項10のいずれか1項に記載の方法の前記ステップを実行するためのコンピュータ実行可能な命令を有する一つ以上のコンピュータ読み取り可能な媒体を備えている、コンピュータプログラム製品。
  12. 音声入力信号(y(n))を処理する信号処理手段であって、
    該音声入力信号(y(n))を受信することと、ノイズ低減信号
    Figure 2008116952
    を出力することとを行うように構成されているノイズ低減フィルタリング手段(10)と、
    該音声入力信号(y(n))を受信することと、該音声入力信号(y(n))からスペクトルエンベロープを抽出することと、該音声入力信号(y(n))に基づく励起信号を生成することと、該抽出スペクトルエンベロープおよび該励起信号に基づいて、再構成音声信号
    Figure 2008116952
    を生成して、出力することとを行うように構成されている信号再構成手段(11)と、
    該ノイズ低減信号
    Figure 2008116952
    および該再構成音声信号
    Figure 2008116952
    を受信することと、該ノイズ低減信号
    Figure 2008116952
    と該再構成音声信号
    Figure 2008116952
    との結合として、強化音声出力信号
    Figure 2008116952
    を出力することとを行うように構成されている信号結合手段(13)と、
    該音声入力信号(y(n))を受信することと、該信号再構成手段(11)および該信号結合手段(13)を制御することとを行うように構成されている制御手段(12)であって、該制御することは、該ノイズ低減フィルタリング手段(10)または該制御手段(12)によって決定される該音声入力信号(y(n))の入力信号対ノイズ比または信号対ノイズ比に基づく、制御手段(12)と
    を備えている、信号処理手段。
  13. 前記音声入力信号(y(n))を音声入力サブバンド信号
    Figure 2008116952
    に変換するように構成されている少なくとも一つの解析フィルタバンク(21)と、
    前記信号結合手段(13)によって、あるいは前記ノイズ低減フィルタリング手段(10)および前記信号再構成手段(11)によって出力されたサブバンド信号を合成するように構成されている少なくとも一つの合成フィルタリングバンク(22)と
    をさらに備えている、請求項12に記載の信号処理手段。
  14. 前記信号再構成手段(11)は
    励起コードブックデータベース(26)と、
    スペクトルエンベロープコードブックデータベース(24)と、
    該励起コードブックデータベース(26)によって、前記励起信号を生成するように構成されている励起推定器(25)と、
    該スペクトルエンベロープコードブックデータベース(24)によって、前記推定スペクトルエンベロープを生成するように構成されているスペクトルエンベロープ推定器(23)と
    を備え、
    該信号再構成手段(11)は、該推定スペクトルエンベロープおよび該励起信号に基づいて、前記再構成音声信号
    Figure 2008116952
    を生成して、出力するように構成されている、請求項12または請求項13に記載の信号処理手段。
  15. 前記制御手段(12)は、前記音声入力信号(y(n))の前記入力信号対ノイズ比または前記信号対ノイズ比を決定することと、該音声入力信号(y(n))の該入力信号対ノイズ比または該信号対ノイズ比が、該音声入力信号(y(n))全体に対し所定の閾値を超えていることが決定された場合、前記信号再構成手段(11)を不活性化することとを行うように構成されている、請求項12〜請求項14のいずれか1項に記載の信号処理手段。
  16. 請求項12〜請求項15のいずれか1項に記載の信号処理手段を備えている、ハンズフリー電話システム。
  17. 請求項12〜請求項15のいずれか1項に記載の信号処理手段を備えている、音声認識手段。
  18. 請求項17に記載の音声認識手段または請求項12〜請求項15のいずれか1項に記載の信号処理手段を備えている、音声対話システムまたはボイス制御システム。
JP2007281799A 2006-10-31 2007-10-30 音声信号のモデルベース強化 Active JP5097504B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06022704.8 2006-10-31
EP06022704A EP1918910B1 (en) 2006-10-31 2006-10-31 Model-based enhancement of speech signals

Publications (2)

Publication Number Publication Date
JP2008116952A true JP2008116952A (ja) 2008-05-22
JP5097504B2 JP5097504B2 (ja) 2012-12-12

Family

ID=37663159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007281799A Active JP5097504B2 (ja) 2006-10-31 2007-10-30 音声信号のモデルベース強化

Country Status (5)

Country Link
US (1) US20080140396A1 (ja)
EP (1) EP1918910B1 (ja)
JP (1) JP5097504B2 (ja)
AT (1) ATE425532T1 (ja)
DE (1) DE602006005684D1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211190A (ja) * 2009-03-06 2010-09-24 Harman Becker Automotive Systems Gmbh バックグラウンドノイズ推定
KR101211059B1 (ko) 2010-12-21 2012-12-11 전자부품연구원 보컬 멜로디 강화 장치 및 방법
JP2014021438A (ja) * 2012-07-23 2014-02-03 Nippon Hoso Kyokai <Nhk> 雑音抑圧装置およびそのプログラム
US9847894B2 (en) 2013-06-17 2017-12-19 Samsung Electronics Co., Ltd. Transmitter, receiver, and wireless communication method thereof
US9875748B2 (en) 2011-10-24 2018-01-23 Koninklijke Philips N.V. Audio signal noise attenuation

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE477572T1 (de) 2007-10-01 2010-08-15 Harman Becker Automotive Sys Effiziente audiosignalverarbeitung im subbandbereich, verfahren, vorrichtung und dazugehöriges computerprogramm
US8121311B2 (en) * 2007-11-05 2012-02-21 Qnx Software Systems Co. Mixer with adaptive post-filtering
ES2678415T3 (es) * 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
US20110125490A1 (en) * 2008-10-24 2011-05-26 Satoru Furuta Noise suppressor and voice decoder
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
US8880396B1 (en) * 2010-04-28 2014-11-04 Audience, Inc. Spectrum reconstruction for automatic speech recognition
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
DE102011004338B3 (de) * 2011-02-17 2012-07-12 Siemens Medical Instruments Pte. Ltd. Verfahren und Vorrichtung zum Schätzen eines Störgeräusches
US8818800B2 (en) 2011-07-29 2014-08-26 2236008 Ontario Inc. Off-axis audio suppressions in an automobile cabin
KR102060208B1 (ko) * 2011-07-29 2019-12-27 디티에스 엘엘씨 적응적 음성 명료도 처리기
IN2014CN02539A (ja) * 2011-10-19 2015-08-07 Koninkl Philips Nv
EP2898506B1 (en) 2012-09-21 2018-01-17 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US9552825B2 (en) 2013-04-17 2017-01-24 Honeywell International Inc. Noise cancellation for voice activation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2015010309A1 (zh) * 2013-07-25 2015-01-29 华为技术有限公司 信号重建方法和装置
GB2520048B (en) * 2013-11-07 2018-07-11 Toshiba Res Europe Limited Speech processing system
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
CN105989843A (zh) * 2015-01-28 2016-10-05 中兴通讯股份有限公司 一种实现缺失特征重建的方法和装置
US9536537B2 (en) 2015-02-27 2017-01-03 Qualcomm Incorporated Systems and methods for speech restoration
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
EP3242295B1 (en) * 2016-05-06 2019-10-23 Nxp B.V. A signal processor
GB201802942D0 (en) * 2018-02-23 2018-04-11 Univ Leuven Kath Reconstruction method
US10726856B2 (en) * 2018-08-16 2020-07-28 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for enhancing audio signals corrupted by noise
JP7027283B2 (ja) * 2018-08-31 2022-03-01 本田技研工業株式会社 伝達関数生成装置、伝達関数生成方法、およびプログラム
US11551671B2 (en) 2019-05-16 2023-01-10 Samsung Electronics Co., Ltd. Electronic device and method of controlling thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341339A (ja) * 2003-05-16 2004-12-02 Mitsubishi Electric Corp 雑音抑圧装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2137355T3 (es) * 1993-02-12 1999-12-16 British Telecomm Reduccion de ruido.
UA41913C2 (uk) * 1993-11-30 2001-10-15 Ейті Енд Ті Корп. Спосіб шумозаглушення у системах зв'язку
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US6522746B1 (en) * 1999-11-03 2003-02-18 Tellabs Operations, Inc. Synchronization of voice boundaries and their use by echo cancellers in a voice processing system
US6678651B2 (en) * 2000-09-15 2004-01-13 Mindspeed Technologies, Inc. Short-term enhancement in CELP speech coding
US7065486B1 (en) * 2002-04-11 2006-06-20 Mindspeed Technologies, Inc. Linear prediction based noise suppression
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
EP1772855B1 (en) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341339A (ja) * 2003-05-16 2004-12-02 Mitsubishi Electric Corp 雑音抑圧装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211190A (ja) * 2009-03-06 2010-09-24 Harman Becker Automotive Systems Gmbh バックグラウンドノイズ推定
KR101211059B1 (ko) 2010-12-21 2012-12-11 전자부품연구원 보컬 멜로디 강화 장치 및 방법
US9875748B2 (en) 2011-10-24 2018-01-23 Koninklijke Philips N.V. Audio signal noise attenuation
JP2014021438A (ja) * 2012-07-23 2014-02-03 Nippon Hoso Kyokai <Nhk> 雑音抑圧装置およびそのプログラム
US9847894B2 (en) 2013-06-17 2017-12-19 Samsung Electronics Co., Ltd. Transmitter, receiver, and wireless communication method thereof
US10516558B2 (en) 2013-06-17 2019-12-24 Samsung Electronics Co., Ltd. Transmitter, receiver, and wireless communication method thereof

Also Published As

Publication number Publication date
JP5097504B2 (ja) 2012-12-12
EP1918910B1 (en) 2009-03-11
EP1918910A1 (en) 2008-05-07
DE602006005684D1 (de) 2009-04-23
US20080140396A1 (en) 2008-06-12
ATE425532T1 (de) 2009-03-15

Similar Documents

Publication Publication Date Title
JP5097504B2 (ja) 音声信号のモデルベース強化
EP2151821B1 (en) Noise-reduction processing of speech signals
EP2056295B1 (en) Speech signal processing
US8521530B1 (en) System and method for enhancing a monaural audio signal
US8392184B2 (en) Filtering of beamformed speech signals
US5878389A (en) Method and system for generating an estimated clean speech signal from a noisy speech signal
US20090192791A1 (en) Systems, methods and apparatus for context descriptor transmission
WO2011111091A1 (ja) 雑音抑圧装置
JP5649488B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
WO2004077407A1 (en) Estimation of noise in a speech signal
WO2018163328A1 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
EP1995722B1 (en) Method for processing an acoustic input signal to provide an output signal with reduced noise
CN111226278B (zh) 低复杂度的浊音语音检测和基音估计
Wang et al. Masking Estimation with Phase Restoration of Clean Speech for Monaural Speech Enhancement.
WO2011029484A1 (en) Signal enhancement processing
Naidu et al. A Bayesian framework for robust speech enhancement under varying contexts
Graf Design of Scenario-specific Features for Voice Activity Detection and Evaluation for Different Speech Enhancement Applications
Syed A Novel Robust Mel-Energy Based Voice Activity Detector for Nonstationary Noise and Its Application for Speech Waveform Compression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101027

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120827

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120924

R150 Certificate of patent or registration of utility model

Ref document number: 5097504

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250