JP2013541023A - 試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法 - Google Patents

試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法 Download PDF

Info

Publication number
JP2013541023A
JP2013541023A JP2013513311A JP2013513311A JP2013541023A JP 2013541023 A JP2013541023 A JP 2013541023A JP 2013513311 A JP2013513311 A JP 2013513311A JP 2013513311 A JP2013513311 A JP 2013513311A JP 2013541023 A JP2013541023 A JP 2013541023A
Authority
JP
Japan
Prior art keywords
component
training
signal
undistorted
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013513311A
Other languages
English (en)
Other versions
JP5665977B2 (ja
Inventor
シン、リタ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2013541023A publication Critical patent/JP2013541023A/ja
Application granted granted Critical
Publication of JP5665977B2 publication Critical patent/JP5665977B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Abstract

トレーニング無歪音声信号をトレーニング無歪基本成分の合成成分として表し、トレーニング雑音除去音声信号をトレーニング有歪基本成分の合成成分として表すことによって、試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分が復元される。試験雑音除去信号は、トレーニング有歪基本成分の合成成分として分解される。その後、無歪試験音声信号は、トレーニング無歪基本成分の合成成分として推定され、その合成成分は、トレーニング有歪基本成分の合成成分と同一である。

Description

本発明は、包括的には、雑音除去音声信号に関し、より詳細には、雑音除去の結果として音声信号内で減衰したスペクトル成分を復元することに関する。
音声信号は、多くの場合に雑音を含む環境において取り込まれる。音声の知覚品質および了解度を低下させることに加えて、雑音は、通常は歪のない「明瞭な」音声信号に関して効率的な性能を得るために最適化される送信および認識のための符号化のような下流の処理の性能に悪影響を及ぼす。このため、更に処理する前に、信号から雑音を除去することが必要になる。数多くの雑音除去方法が既知である。通常、従来の方法は、最初に雑音を推定し、その後、減算またはフィルタリングのいずれかによって雑音を低減する。
問題は、雑音が時間とともに変化する場合に特に、雑音推定値が一般に正確でないことである。結果として、雑音除去後に或る量の残留雑音が残り、情報を搬送するスペクトル成分が減衰する。例えば、車両内で音声が取り込まれ、その後、雑音が除去される場合には、/S/のような摩擦音の高周波成分、および/M/、/N/および/L/のような鼻音および流音の極低周波成分が減衰する。これは、自動車雑音が高周波数および低周波数によって支配されており、雑音を低減することにより音声信号内のこれらのスペクトル成分が減衰するために生じる。
雑音低減の結果として、知覚品質が改善された信号が生成されるが、多くの場合に音声の了解度は改善されず、すなわち、雑音を除去された信号は、歪むことなく聞こえるものの、話された内容は、聞き分けにくくなる。場合によるが、雑音除去が強引であるか、または雑音が時間とともに変化するときには特に、雑音を除去された信号の了解度は、雑音を含む信号よりも低い。
この問題は、不完全な処理の結果として生じる。それでも、サードパーティの雑音除去ハードウェアおよびソフトウェアを組み込む音声インターフェース(spoken−interface)デバイスの場合に極めて現実的な問題である。雑音除去技法は、多くの場合にデバイスの中に組み込まれた「ブラックボックス」であり、雑音除去信号しか入手することができない。この場合、雑音除去によって減衰した音声情報のスペクトル成分を何らかの方法で復元することが重要になる。
雑音は、音声信号を劣化させ、知覚品質、了解度、および下流における処理、例えば、送信または音声認識のための符号化に影響を及ぼす。それゆえ、雑音を含む音声から雑音が除去される。通常、雑音除去方法は、雑音の推定値を減算またはフィルタリングするが、その推定値は、多くの場合に不正確である。結果として、雑音を除去することによって、音声のスペクトル成分が減衰し、了解度が低下する可能性がある。
トレーニング無歪音声信号がトレーニング無歪基本成分の合成成分として表される。トレーニング雑音除去音声がトレーニング有歪基本成分の合成成分として表される。試験雑音除去音声信号をトレーニング有歪基本成分の合成成分として分解することによって。その後、対応する試験無歪音声信号を、トレーニング無歪基本成分の同一の合成成分として推定することができる。
本発明の実施の形態による雑音除去プロセス100のモデルを示す図である。 本発明の実施の形態による、試験雑音除去音声信号のスペクトル成分を復元するための方法の流れ図である。 推定された短時間フーリエ変換から時間領域信号への変換を詳述する流れ図である。 推定された短時間フーリエ変換から帯域幅拡張が実行されるときの信号への変換を詳述する流れ図である。
本発明の実施の形態は、試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元し、雑音除去信号における音声の了解度を高めるための方法を提供する。
その方法は、雑音除去の実施態様によって制約を受ける。第一に、雑音除去は、通常「ブラックボックス」である。雑音が推定される方法、および実際の雑音低減手順は、不明である。第二に、通常、雑音自体を別に記録することは、不可能であるか、または実用的ではなく、雑音除去が音声の任意のスペクトル成分にいかに影響を及ぼしたかを理解するために、雑音の外部推定値を入手することはできない。第三に、その処理は、信号に雑音を再び導入することなく、音声の減衰したスペクトル成分を復元しなければならない。
その方法は、音声信号の合成特性評価(compositional characterization)を使用し、それは、信号を加法的基本成分の加算的な合成成分(constructive composition)として表すことができるものと仮定する。
実施の形態では、この特性評価は、非負行列因子分解(NMF:Non−negative Matrix Factorization)によって得られるが、他の方法を用いることもできる。NMFは、1つの行列を非負の要素を有する行列に分解する。NMFは、混合された音声信号を分離し、音声の雑音を除去するために使用されてきた。帯域制限された信号の帯域幅を拡張するために、合成モデルも使用されてきた。しかしながら、知られている限り、NMFは、雑音除去音声信号内の減衰したスペクトル成分を復元するという特定の問題のために使用されていない。
加法的基本成分の合成成分が雑音除去によって影響を及ぼされる態様は、相対的に一定であり、トレーニング無歪信号およびトレーニング有歪音声信号のステレオペアを含むトレーニングデータから得ることができる。雑音除去信号が加法的基本成分の合成成分の観点からいかに表されるかを特定することによって、減衰したスペクトル構造を基本成分の無歪バージョンから推定し、その後、復元して、無歪音声を与えることができる。
雑音除去モデル
図1に示されるように、本発明の実施の形態は、雑音含有音声Sのスペクトル成分を不適切に減衰させる有損失雑音除去プロセスG()100を、いかなる音声スペクトル成分も減衰させることなく信号内の雑音を減衰させる無損失雑音除去機構F()110と、無損失雑音除去信号Xを変更して有損失信号Yを生成する歪関数D()120との組み合わせとしてモデル化する。
すなわち、雑音含有音声信号Sを、理想的な「無損失」雑音除去関数F(S)110によって処理して、仮想的な無損失雑音除去信号Xを生成する。その後、その雑音除去信号Xを歪関数D(X)120に通し、歪関数は、スペクトル成分を減衰させて有損失信号Yを生成する。
その目的は、有損失信号Yのみを与えるときに、雑音除去信号Xを推定することである。本発明の実施の形態は、無損失信号Xを重み付けされた加法的基本成分wの合成成分として表す。
Figure 2013541023
基本成分Bは、雑音除去音声信号Xを構成する個々のスペクトル構造を形成する無相関の構成単位を表すものと仮定する。歪関数D()は、基本成分に歪を加えて、基本成分が表すスペクトル構造を変更する。したがって、任意の基本成分Bが歪関数によってB distorted=D(B)に変換される。
歪は、他の基本成分から独立して任意の基本成分を変換すると仮定される、すなわち、以下の式が成り立つ。
Figure 2013541023
ただし、D(B|B:j≠i)は、他の基本成分B:j≠iも同時に存在する場合の、基本成分Biの歪を表す。この仮定は、基本成分が、重なり合わない完全なスペクトル構造を表さない限り妥当ではない。また、信号を構成するために基本成分が合成される態様は、歪によって変更されないことも仮定する。これらの仮定は、その方法を簡単にするために行われる。上記の仮定が意味することは、以下の通りである。
Figure 2013541023
式2は、全ての基本成分Bおよびその歪んだバージョンB distortedが既知であり、かつ歪んだ基本成分がYを構成する態様を特定できる、すなわち、重みwを推定できる場合には、雑音除去信号Xを推定できるという結論をもたらす。
復元モデル概説
図2は、試験雑音除去音声信号203内のスペクトル成分を復元するための方法200のステップを示す。トレーニング無歪音声信号201が、トレーニング無歪基本成分211の合成成分として表される(210)。トレーニング雑音除去音声202が、トレーニング有歪基本成分221の合成成分として表される(220)。トレーニング有歪基本成分221の合成成分に従って試験雑音除去音声信号203を分解すること(230)によって、対応する試験無歪音声信号204をトレーニング無歪基本成分211の合成成分として推定することができ(240)、その合成成分は、トレーニング有歪基本成分221の合成成分と同一である。上記の方法のステップは、当該技術分野において既知であるような、メモリおよび入力/出力インターフェースに接続されたプロセッサにおいて実行することができる。
信号を表現する
図1において説明および図示されたモデルは、本来スペクトルモデルである。そのモデルは、無相関信号の合成成分の特性を評価し、無相関信号の電力スペクトルは、加法的であるので、そのモデルは、全ての信号のスペクトルの特性を評価する。それゆえ、全ての音声信号は、信号の短時間フーリエ変換(STFT:Short−Time Fourier Transform)を求め、その成分の振幅を計算することによって得られる振幅スペクトログラムとして表される。理論的には、それは、加法的である電力スペクトルである。しかしながら、経験的には、振幅スペクトルの場合の方が、良好に加法性が成り立つ。
STFTのための最適な解析フレームは、40〜64msである。それゆえ、音声信号にわたって64msの窓をスライドさせることによって、その信号をセグメント化し、フレームを生成する。各フレームにわたってフーリエスペクトルを計算し、複素スペクトルベクトルを得る。ベクトルの大きさを求め、振幅スペクトルベクトルを得る。全てのフレームのための複素スペクトルベクトルの集合が、その信号のための複素スペクトログラムを構成する。全てのフレームのための振幅スペクトルベクトルが振幅スペクトログラムを構成する。個々のフレームのためにスペクトルは、ベクトル、例えば、X(t)、Y(t)として表される。
S、XおよびYがそれぞれ雑音含有音声、無損失雑音除去音声および有損失雑音除去音声の振幅スペクトログラムを表すものとする。基本成分Bおよびその有歪バージョンB distortedは、振幅スペクトルベクトルを表す。X(t)として表される、信号Xの第iの解析フレームの振幅スペクトルは、以下のように、無損失基本成分Bから構成されるものと仮定される。
Figure 2013541023
また、有損失信号Yの対応するフレームの振幅スペクトルは、以下の通りである。
Figure 2013541023
また、式のモデル内の重みの符号は、基本成分のためのスペクトルの位相の中に包含され、信号の振幅スペクトルと基本成分の振幅スペクトルとの間の関係には、現れないので、重みwは、ここでは全ての非負である。
そのスペクトル復元モデルは、有損失信号の振幅スペクトログラムYから無損失振幅スペクトログラムXを推定する。推定された振幅スペクトログラムは、時間領域信号に逆変換される。そのために、有損失信号の複素スペクトログラムからの位相が用いられる。
復元モデル詳述
復元のために、トレーニング段階において、トレーニングデータ、すなわち、トレーニング無歪音声信号201およびトレーニング雑音除去音声信号202から、信号Xのための無損失基本成分B211および信号Yのための対応する有損失基本成分B distorted221が得られる。トレーニング後、その方法の動作中に、これらの基本成分を用いて、雑音除去信号Xを推定する。
基本成分を得る
歪関数D()120は、未知であるので、成分BおよびB distortedは、信号Xおよび対応する信号Yの共同記録を解析することから一緒に得られる。それゆえ、トレーニング段階において、トレーニング信号XおよびYの共同記録が必要とされる。しかしながら、信号Xは、直接入手できず、代わりに、以下の近似が用いられる。
デジタル形式で雑音を付加することによって無歪(明瞭な)トレーニング音声信号Cを人為的に劣化させて、雑音含有信号Sを得る。その後、雑音除去プロセス110によって信号Sを処理し、対応する信号Yを得る。「無損失雑音除去」信号Xは、仮想的な存在物であり、同じく未知である。代わりに、元の無歪明瞭信号Cがその信号に対するXの代わりとして用いられる。雑音除去プロセスおよび歪関数は、信号の中に遅延を導入し、それにより、YおよびCのための信号が互いに時間的にシフトされるようになる。
式2のモデルは、Xの各フレームとYの対応するフレームとの間の一対一対応を仮定しているので、信号CおよびYの記録されたサンプルを時間的に整合させて、雑音除去によって導入された任意の相対的な時間シフトを除去する。その時間シフトは、信号Cの各フレームと信号Yの対応するフレームとの相互相関によって推定される。
基本成分Bは、信号Xのための構成用の基本成分であると仮定される。基本成分は、NMFを用いて、信号の振幅スペクトルを解析することによって得ることができる。しかしながら、更なる制約として、有歪基本成分B distortedが、実際に、その対応する無歪基本成分Bの歪みであることが確実にわからなければならない。
それゆえ、事例ベースモデルが用いられ、そのような対応が確保される。信号Xのための基本成分Bとして、信号Cから多数の振幅スペクトルベクトルがランダムに選択される。信号Yのトレーニング事例から、対応するベクトルがB distortedとして選択される。これは、B distortedが実際にBの概ね厳密な有歪バージョンであることを確実にする。基本成分は、音声内のスペクトル構造を表しており、音声内のスペクトル構造の潜在的な数は、実質的に無制限であるので、多数、例えば、5000以上のトレーニング基本成分が選択される。それゆえ、式1のモデルは、過完全になり、信号自体の次元数よりも多くの要素を合成する。
重みを推定する
試験雑音除去信号Y203内のスペクトル成分を復元するための方法は、Yの各スペクトルベクトルY(t)が有歪基本成分によっていかに構成されるかを決定する。上記のように、Y(t)=Σ(t)B distortedが成り立つ。
全てのトレーニング有歪基本成分221からなる集合が行列
Figure 2013541023
として表され、重みの集合{wi(t)}がベクトル:W(t)=[w(t)w(t)...]として表される場合には、以下の式が成り立つ。
Figure 2013541023
ベクトルW(t)は、推定中に非負であるという制約を受ける。重みを学習するための種々の更新規則が既知である。音声信号およびオーディオ信号の場合、Y(t)と
Figure 2013541023
との間の一般化カルバック・ライブラー距離を最小化する更新規則を用いることが最も実効的である。
Figure 2013541023
ただし、
Figure 2013541023
は、成分ごとの乗算を表し、全ての除算も成分ごとに行われる。その表現は、過完全である、すなわち、Y(t)の次元よりも多くの基本成分が存在するので、その式は、劣決定であり、W(t)に対する複数の解が存在し、それらの解は、Y(t)を等しく良好に特性評価する。
復元されたスペクトル成分を有する音声を推定する
任意のY(t)に対して重みW(t)=[w(t)w(t)...]が決定された後に、式2によって、対応する無損失スペクトルX(t)を、X(t)=Σ(t)Bとして推定することができる。その推定手順は、繰返し行われるので、式3における厳密な等式は、決して達成されない。代わりに、行列
Figure 2013541023
がY(t)に対する唯一の近似である。信号Y内の全エネルギーを考慮に入れるために、以下のウィーナーフィルター定式化を用いて、Xのスペクトルベクトルを推定する。
Figure 2013541023
上記の全ての除算および乗算は、成分ごとに行われ、ε>0にすることより、Y(t)=0であっても減衰したスペクトル成分を依然として復元できるのを確実にする。
図3は、重みが推定された後の、無歪試験信号を復元するための全プロセス300を示す。式(5)の分子によって示される初期推定値は、推定された重み306にしたがってトレーニング無歪基本成分211を合成することによって求められる(301)。その後、その結果は、ウィーナーフィルター推定302において用いられる。結果として生成されたSTFTは、雑音除去試験信号のSTFTからの位相と合成され(303)、最後に、逆STFT304を実行することによって時間領域信号305に変換される。
帯域幅を拡張する
多くの場合に、記録され、雑音除去された音声信号は、縮小された帯域幅を有し、例えば、その音声が電話によって取り込まれた場合には、その音声は、4kHzまでの低い周波数のみを含むことができ、4kHzよりも高い周波数は失われる。これらの場合に、その方法を拡張して、信号の中に高い周波数スペクトル成分を復元することができる。これは、信号の了解度を改善することも予想される。帯域幅を拡張するために、帯域幅再構成手順を用いることができる。引用することにより本明細書の一部をなす、2010年4月13日にRamakrishnan他に対して発行された「Constructing broad−band acoustic signals from lower−band acoustic signals」という名称の米国特許第7,698,143号を参照されたい。その手順は,低い帯域の音響信号から広帯域の音響信号を構成することにのみ関係し、本明細書の場合のような、雑音除去音声信号には、関係しない。
この場合、トレーニングデータは、トレーニング無歪信号Cのための広帯域信号も含む。CおよびYのためのトレーニング記録を時間的に整合させて、同一の解析フレームを用いてSTFT解析が実行される。これは、任意の共同記録内で、信号CおよびYのためのスペクトルベクトルが一対一に対応するのを確実にする。結果として、Yのトレーニング事例から引き出された基本成分B distorted221は、縮小帯域幅の信号を表し、一方、対応する基本成分B211は、広帯域信号を表し、高周波成分を含む。信号から雑音が除去された後に、式5を用いて、低周波成分が復元され、高周波成分は、以下の式として得られる。
Figure 2013541023
ただし、fはX(t)およびBの固有の周波数成分に対するインデックスである。
上記の推定は、スペクトルの振幅のみを求める。振幅スペクトルを時間領域に逆変換するために、信号位相も取り込まれる。低周波成分のための位相は、縮小帯域幅の有損失雑音除去信号から直接得られる。高い方の周波数の場合、低い方の周波数からの位相項を複製すれば十分である。
図4は、重みが推定された後の、帯域幅拡張を用いて無歪試験信号を復元するための全プロセスを示す。式(5)の分子によって示される、低周波成分および高周波成分両方のための初期推定値が求められる(401)。ステップ401からの高周波推定値を保持しながら、ウィーナーフィルター推定402を用いて低周波成分が更新される。結果として生成されたSTFTは、低周波数の雑音除去試験信号のSTFTからの位相と合成される(403)。低周波数の位相が高周波数に対して複製され(404)、最後に、逆STFT405を実行することによって時間領域信号に変換される。

Claims (18)

  1. 試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法であって、
    トレーニング無歪音声信号をトレーニング無歪基本成分の合成成分として表すことと、
    トレーニング雑音除去音声信号をトレーニング有歪基本成分の合成成分として表すことと、
    前記試験雑音除去信号を前記トレーニング有歪基本成分の合成成分として分解することと、
    前記無歪試験音声信号を前記トレーニング無歪基本成分の前記合成成分として推定することであって、前記合成成分は、前記トレーニング有歪基本成分の前記合成成分と同一である、推定することとを含む、
    試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法。
  2. 前記試験雑音除去音声信号を生成するためのプロセスは、未知であり、
    理想的な無損失雑音除去関数によって前記プロセスをモデル化することであって、仮想的に無損失である雑音除去信号を生成する、モデル化することと、前記雑音除去信号を、前記スペクトル成分を減衰させる歪関数に通すこととを更に含む、
    請求項1に記載の方法。
  3. 前記基本成分は、全て加法的であり、各基本成分は、重みに関連付けられる、
    請求項1に記載の方法。
  4. 前記歪関数は、他の基本成分から独立して任意の基本成分を変換する、
    請求項2に記載の方法。
  5. 全ての音声信号を振幅スペクトログラムとして表すことを更に含み、前記振幅スペクトログラムは、前記音声信号の短時間フーリエ変換(STFT)の振幅を求めることによって得られる、
    請求項1に記載の方法。
  6. 前記トレーニング無歪基本成分および前記トレーニング有歪基本成分は、トレーニングデータの振幅スペクトログラムの共同解析によって求められ、前記トレーニングデータは、記録のペアを含み、各ペアは、明瞭な音声信号と、該明瞭な音声信号を人為的に劣化させたバージョンとを含み、前記人為的に劣化させたバージョンは、雑音を付加し、その後、前記人為的に劣化させたバージョンから雑音を除去することによって劣化している、
    請求項1に記載の方法。
  7. 前記明瞭な音声信号のサンプル、および前記明瞭な音声信号を人為的に劣化させて雑音を除去した前記バージョンのサンプルを時間的に整合させる、
    請求項6に記載の方法。
  8. 前記無歪トレーニング基本成分および前記有歪トレーニング基本成分は、前記記録の前記ペアの共同解析によって求められる、
    請求項7に記載の方法。
  9. 前記トレーニング無歪基本成分および前記トレーニング有歪基本成分は、事例ベースモデルを用いて求められ、前記トレーニング無歪基本成分および前記トレーニング有歪基本成分は、前記トレーニング無歪基本成分および前記トレーニング有歪基本成分のための振幅スペクトルベクトルの中からランダムに選択される、
    請求項1に記載の方法。
  10. 前記重みは、非負である、
    請求項3に記載の方法。
  11. 前記重みは、非負行列因子分解(NMF)によって求められる、
    請求項3に記載の方法。
  12. 前記試験無歪音声信号の帯域幅を拡張することを更に含む、
    請求項1に記載の方法。
  13. 前記トレーニング無歪基本成分は、最大帯域幅の明瞭な音声信号から得られ、前記トレーニング有歪基本成分は、縮小された帯域幅を有し、雑音で人為的に劣化させ、雑音を除去した音声信号から得られる、
    請求項6または12に記載の方法。
  14. 前記推定された試験無歪音声信号は、非負行列因子分解(NMF)によって求められた重みを用いて前記トレーニング無歪基本成分を合成することによって得られる、
    請求項1に記載の方法。
  15. 前記試験無歪音声信号の推定振幅短時間フーリエ変換(STFT)を構成する最後の振幅スペクトルは、推定された無歪スペクトルにウィーナーフィルター定式化を用いることを適用することによって得られる、
    請求項1に記載の方法。
  16. 前記推定された試験無歪音声信号は、逆変換された推定振幅STFTと前記試験雑音除去音声信号のSTFTから得られた位相とを合成し、結果として生成された複素STFTを逆変換することによって得られる、
    請求項15に記載の方法。
  17. 前記推定された試験無歪音声信号の前記STFTの4kHzよりも高い周波数成分は、前記トレーニング無歪基本成分の前記合成成分から直接得られる、
    請求項15に記載の方法。
  18. 前記STFTの4kHzよりも高い周波数成分のための位相は、前記推定された試験無歪音声信号の前記STFTの4kHz未満の低周波成分の位相を複製することによって得られる、
    請求項16または17に記載の方法。
JP2013513311A 2010-12-07 2011-11-08 試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法 Active JP5665977B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/962,036 US20120143604A1 (en) 2010-12-07 2010-12-07 Method for Restoring Spectral Components in Denoised Speech Signals
US12/962,036 2010-12-07
PCT/JP2011/076125 WO2012077462A1 (en) 2010-12-07 2011-11-08 Method for restoring spectral components attenuated in test denoised speech signal as a result of denoising test speech signal

Publications (2)

Publication Number Publication Date
JP2013541023A true JP2013541023A (ja) 2013-11-07
JP5665977B2 JP5665977B2 (ja) 2015-02-04

Family

ID=45003020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013513311A Active JP5665977B2 (ja) 2010-12-07 2011-11-08 試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法

Country Status (5)

Country Link
US (1) US20120143604A1 (ja)
EP (1) EP2649615A1 (ja)
JP (1) JP5665977B2 (ja)
CN (1) CN103238181B (ja)
WO (1) WO2012077462A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017506767A (ja) * 2014-02-27 2017-03-09 クアルコム,インコーポレイテッド 話者辞書に基づく発話モデル化のためのシステムおよび方法
WO2021074973A1 (ja) * 2019-10-15 2021-04-22 日本電気株式会社 モデル生成方法、モデル生成装置、プログラム

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9812150B2 (en) * 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US9684087B2 (en) 2013-09-12 2017-06-20 Saudi Arabian Oil Company Dynamic threshold methods for filtering noise and restoring attenuated high-frequency components of acoustic signals
US9324338B2 (en) * 2013-10-22 2016-04-26 Mitsubishi Electric Research Laboratories, Inc. Denoising noisy speech signals using probabilistic model
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US9679559B2 (en) * 2014-05-29 2017-06-13 Mitsubishi Electric Research Laboratories, Inc. Source signal separation by discriminatively-trained non-negative matrix factorization
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
EP3010017A1 (en) * 2014-10-14 2016-04-20 Thomson Licensing Method and apparatus for separating speech data from background data in audio communication
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10605941B2 (en) 2014-12-18 2020-03-31 Conocophillips Company Methods for simultaneous source separation
CN105023580B (zh) * 2015-06-25 2018-11-13 中国人民解放军理工大学 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
CA2999920A1 (en) 2015-09-28 2017-04-06 Conocophillips Company 3d seismic acquisition
US9930466B2 (en) 2015-12-21 2018-03-27 Thomson Licensing Method and apparatus for processing audio content
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10667069B2 (en) 2016-08-31 2020-05-26 Dolby Laboratories Licensing Corporation Source separation for reverberant environment
US10809402B2 (en) 2017-05-16 2020-10-20 Conocophillips Company Non-uniform optimal survey design principles
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
CN108922518B (zh) * 2018-07-18 2020-10-23 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
US11481677B2 (en) 2018-09-30 2022-10-25 Shearwater Geoservices Software Inc. Machine learning based signal recovery
WO2022197296A1 (en) * 2021-03-17 2022-09-22 Innopeak Technology, Inc. Systems, methods, and devices for audio-visual speech purification using residual neural networks

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1000A (en) * 1838-11-03 Spring foe
US6026A (en) * 1849-01-09 Cast-iron car-wheel
US7005A (en) * 1850-01-08 Improvement in coating iron with copper or its alloy
US8001A (en) * 1851-03-25 Machine for preparing clay for making brick
US9013A (en) * 1852-06-15 Improvement in mills for crushing quartz
JP2001175299A (ja) * 1999-12-16 2001-06-29 Matsushita Electric Ind Co Ltd 雑音除去装置
JP2005257817A (ja) * 2004-03-09 2005-09-22 Internatl Business Mach Corp <Ibm> 雑音除去装置、方法、及びプログラム
JP2009128906A (ja) * 2007-11-19 2009-06-11 Mitsubishi Electric Research Laboratories Inc 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
IN184794B (ja) * 1993-09-14 2000-09-30 British Telecomm
US6122403A (en) * 1995-07-27 2000-09-19 Digimarc Corporation Computer system linked by using information in data objects
JPH08506434A (ja) * 1993-11-30 1996-07-09 エイ・ティ・アンド・ティ・コーポレーション 通信システムにおける伝送ノイズ低減
TW416044B (en) * 1996-06-19 2000-12-21 Texas Instruments Inc Adaptive filter and filtering method for low bit rate coding
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
US6381569B1 (en) * 1998-02-04 2002-04-30 Qualcomm Incorporated Noise-compensated speech recognition templates
AU721270B2 (en) * 1998-03-30 2000-06-29 Mitsubishi Denki Kabushiki Kaisha Noise reduction apparatus and noise reduction method
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US7089182B2 (en) * 2000-04-18 2006-08-08 Matsushita Electric Industrial Co., Ltd. Method and apparatus for feature domain joint channel and additive noise compensation
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US6738481B2 (en) * 2001-01-10 2004-05-18 Ericsson Inc. Noise reduction apparatus and method
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
GB2380644A (en) * 2001-06-07 2003-04-09 Canon Kk Speech detection
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7050954B2 (en) * 2002-11-13 2006-05-23 Mitsubishi Electric Research Laboratories, Inc. Tracking noise via dynamic systems with a continuum of states
US7363221B2 (en) * 2003-08-19 2008-04-22 Microsoft Corporation Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
US7236930B2 (en) * 2004-04-12 2007-06-26 Texas Instruments Incorporated Method to extend operating range of joint additive and convolutive compensating algorithms
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
EP1681670A1 (en) * 2005-01-14 2006-07-19 Dialog Semiconductor GmbH Voice activation
US7706992B2 (en) * 2005-02-23 2010-04-27 Digital Intelligence, L.L.C. System and method for signal decomposition, analysis and reconstruction
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
US20060227968A1 (en) * 2005-04-08 2006-10-12 Chen Oscal T Speech watermark system
US7698143B2 (en) * 2005-05-17 2010-04-13 Mitsubishi Electric Research Laboratories, Inc. Constructing broad-band acoustic signals from lower-band acoustic signals
US7596231B2 (en) * 2005-05-23 2009-09-29 Hewlett-Packard Development Company, L.P. Reducing noise in an audio signal
US20070033027A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition
DK1760696T3 (en) * 2005-09-03 2016-05-02 Gn Resound As Method and apparatus for improved estimation of non-stationary noise to highlight speech
EP1772855B1 (en) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal
US7809559B2 (en) * 2006-07-24 2010-10-05 Motorola, Inc. Method and apparatus for removing from an audio signal periodic noise pulses representable as signals combined by convolution
WO2009134482A2 (en) * 2008-01-31 2009-11-05 The Board Of Trustees Of The University Of Illinois Recognition via high-dimensional data classification
US9293130B2 (en) * 2008-05-02 2016-03-22 Nuance Communications, Inc. Method and system for robust pattern matching in continuous speech for spotting a keyword of interest using orthogonal matching pursuit
US8180635B2 (en) * 2008-12-31 2012-05-15 Texas Instruments Incorporated Weighted sequential variance adaptation with prior knowledge for noise robust speech recognition
EP2394270A1 (en) * 2009-02-03 2011-12-14 University Of Ottawa Method and system for a multi-microphone noise reduction
CN101599274B (zh) * 2009-06-26 2012-03-28 瑞声声学科技(深圳)有限公司 语音增强的方法
WO2011135411A1 (en) * 2010-04-30 2011-11-03 Indian Institute Of Science Improved speech enhancement
US8606572B2 (en) * 2010-10-04 2013-12-10 LI Creative Technologies, Inc. Noise cancellation device for communications in high noise environments

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1000A (en) * 1838-11-03 Spring foe
US6026A (en) * 1849-01-09 Cast-iron car-wheel
US7005A (en) * 1850-01-08 Improvement in coating iron with copper or its alloy
US8001A (en) * 1851-03-25 Machine for preparing clay for making brick
US9013A (en) * 1852-06-15 Improvement in mills for crushing quartz
JP2001175299A (ja) * 1999-12-16 2001-06-29 Matsushita Electric Ind Co Ltd 雑音除去装置
JP2005257817A (ja) * 2004-03-09 2005-09-22 Internatl Business Mach Corp <Ibm> 雑音除去装置、方法、及びプログラム
JP2009128906A (ja) * 2007-11-19 2009-06-11 Mitsubishi Electric Research Laboratories Inc 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017506767A (ja) * 2014-02-27 2017-03-09 クアルコム,インコーポレイテッド 話者辞書に基づく発話モデル化のためのシステムおよび方法
WO2021074973A1 (ja) * 2019-10-15 2021-04-22 日本電気株式会社 モデル生成方法、モデル生成装置、プログラム
JPWO2021074973A1 (ja) * 2019-10-15 2021-04-22
JP7420144B2 (ja) 2019-10-15 2024-01-23 日本電気株式会社 モデル生成方法、モデル生成装置、プログラム

Also Published As

Publication number Publication date
JP5665977B2 (ja) 2015-02-04
WO2012077462A1 (en) 2012-06-14
US20120143604A1 (en) 2012-06-07
CN103238181B (zh) 2015-06-10
EP2649615A1 (en) 2013-10-16
CN103238181A (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
JP5665977B2 (ja) 試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法
Soon et al. Noisy speech enhancement using discrete cosine transform
EP1891624B1 (en) Multi-sensory speech enhancement using a speech-state model
US9536538B2 (en) Method and device for reconstructing a target signal from a noisy input signal
CN108198566B (zh) 信息处理方法及装置、电子设备及存储介质
Liu et al. Voicefixer: A unified framework for high-fidelity speech restoration
US20070055519A1 (en) Robust bandwith extension of narrowband signals
CN114566176A (zh) 基于深度神经网络的残余回声消除方法及系统
Vanjari et al. Comparative Analysis of Speech Enhancement Techniques in Perceptive of Hearing Aid Design
Garg Speech enhancement using long short term memory with trained speech features and adaptive wiener filter
CN112185405A (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
Yoshioka et al. Dereverberation by using time-variant nature of speech production system
EP3270378A1 (en) Method for projected regularization of audio data
Jinachitra et al. Joint estimation of glottal source and vocal tract for vocal synthesis using Kalman smoothing and EM algorithm
JP6849978B2 (ja) 音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム
Issaoui et al. Comparison between soft and hard thresholding on selected intrinsic mode selection
Khan et al. Iterative noise power subtraction technique for improved speech quality
Wei et al. A novel prewhitening subspace method for enhancing speech corrupted by colored noise
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
CN111968627A (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
Le Roux et al. Computational auditory induction by missing-data non-negative matrix factorization.
Roy Single channel speech enhancement using Kalman filter
Nuzman Audio restoration: An investigation of digital methods for click removal and hiss reduction
Singh Compensating for denoising artifacts
Anushiravani Example-based audio editing

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141209

R150 Certificate of patent or registration of utility model

Ref document number: 5665977

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250