JP2005521091A - 音声相関構造に基づくブラインド伝送路推定方法および装置 - Google Patents
音声相関構造に基づくブラインド伝送路推定方法および装置 Download PDFInfo
- Publication number
- JP2005521091A JP2005521091A JP2003577245A JP2003577245A JP2005521091A JP 2005521091 A JP2005521091 A JP 2005521091A JP 2003577245 A JP2003577245 A JP 2003577245A JP 2003577245 A JP2003577245 A JP 2003577245A JP 2005521091 A JP2005521091 A JP 2005521091A
- Authority
- JP
- Japan
- Prior art keywords
- speech signal
- representation
- clean
- noisy
- cepstrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000005540 biological transmission Effects 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 32
- 230000003595 spectral effect Effects 0.000 claims abstract description 22
- 230000005236 sound signal Effects 0.000 claims abstract description 16
- 238000007476 Maximum Likelihood Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims 4
- 238000001228 spectrum Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
【課題】 伝送路によって破損した音声信号のブラインド伝送路推定方法および装置が提供される。
【解決手段】 1つの方法は、雑音のある音声信号をケプストラム表現(18)または対数スペクトル表現に変換する工程と、上記雑音のある音声信号の表現の相関(20)を推定する工程と、上記雑音のある音声信号(24)の平均値を求める工程と、最小化の制約の下に、クリーンな学習用音声信号の相関構造(140)と、上記雑音のある音声信号(24)の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を構築および求解する工程と、上記線形方程式系(22)の解の符号を選択してある処理窓内のクリーンな音声信号平均値を推定する工程を含んでいる。
【解決手段】 1つの方法は、雑音のある音声信号をケプストラム表現(18)または対数スペクトル表現に変換する工程と、上記雑音のある音声信号の表現の相関(20)を推定する工程と、上記雑音のある音声信号(24)の平均値を求める工程と、最小化の制約の下に、クリーンな学習用音声信号の相関構造(140)と、上記雑音のある音声信号(24)の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を構築および求解する工程と、上記線形方程式系(22)の解の符号を選択してある処理窓内のクリーンな音声信号平均値を推定する工程を含んでいる。
Description
本発明は音声信号処理方法および装置に関し、特に、音声認識システムや話者認識システムなどの音声システムにおいて伝送路の歪みを除去する方法と装置に関する。
ケプストラム平均正規化法(CMN)は、自動話者認識システムにおいて伝送路の歪みを除去する有効な技術である。CMNシステムの音声処理窓は、効果的に機能させるためには、語音情報を維持するように非常に長くする必要がある。残念ながら、非定常な伝送路を扱う際には、CMNシステムでは効果的に処理できないようなより短い窓を使用することが望ましくなる。また、CMN技術は、音声平均が語音情報を有していない、すなわち処理窓区間中一定であるという仮定に基づいている。しかしながら、短い窓を使用する場合には、音声平均が有意な語音情報を有している可能性もある。
音声信号に影響を及ぼす伝送路を推定する問題は、ブラインドシステム同定として知られる分野に属する。1バージョンの音声しか取得できない場合(すなわち、「マイクロホン1個」の場合)、推定問題には一般解がない。オーバーサンプリングを用いて伝送路推定に必要な情報を取得してもよいが、1バージョンの信号しか取得できず、しかもオーバーサンプリングも不可能な場合は、信号源の仮定を行わない限り、問題の個別事例を解決することはできない。例えば、電話音声認識の伝送路推定は、認識器がディジタイザにアクセスできない場合には、信号源の仮定を行わない限り実行不可能である。
(発明の開示)
したがって、本発明の一態様は、伝送路によって破損した音声信号のブラインド伝送路推定方法を提供する。この方法は、雑音のある音声信号をケプストラム表現または対数スペクトル表現のどちらかに変換する工程と、上記雑音のある音声信号の表現の時間相関を推定する工程と、上記雑音のある音声信号の平均値を求める工程と、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を最小化の制約の下に構築および求解する工程と、上記線形方程式系の解の符号を選択してある処理窓区間のクリーンな音声信号平均値を推定する工程を含んでいる。
(発明の開示)
したがって、本発明の一態様は、伝送路によって破損した音声信号のブラインド伝送路推定方法を提供する。この方法は、雑音のある音声信号をケプストラム表現または対数スペクトル表現のどちらかに変換する工程と、上記雑音のある音声信号の表現の時間相関を推定する工程と、上記雑音のある音声信号の平均値を求める工程と、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を最小化の制約の下に構築および求解する工程と、上記線形方程式系の解の符号を選択してある処理窓区間のクリーンな音声信号平均値を推定する工程を含んでいる。
本発明の別の態様は、伝送路によって破損した音声信号のブラインド伝送路推定装置を提供する。この装置は、雑音のある音声信号をケプストラム表現または対数スペクトル表現のどちらかに変換し、上記雑音のある音声信号の表現の時間相関を推定し、上記雑音のある音声信号の平均値を求め、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を最小化の制約の下に構築および求解し、上記線形方程式系の解の符号を選択してある処理窓区間のクリーンな音声信号平均値を推定するように構成されている。
本発明のさらに別の態様は、プログラム可能プロセッサおよびデジタル信号プロセッサのうちの少なくとも一方を備えた装置に対して、雑音のある音声信号をケプストラム表現または対数スペクトル表現のどちらかに変換し、上記雑音のある音声信号の表現の時間相関を推定し、上記雑音のある音声信号の平均値を求め、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を最小化の制約の下に構築および求解し、上記線形方程式系の解の符号を選択してある処理窓内のクリーンな音声信号平均値を推定する指示を行うように構成された命令を記録した機械可読媒体を提供する。
本発明の態様は、語音情報を除去することなく音声伝送路の効果的かつ効率的な推定を実現する。
本発明のさらに別の利用可能分野は、以下に示す詳細な説明から明らかになるであろう。以下の詳細な説明と具体的な実施例は、本発明の好ましい実施形態を示すが、例示を目的としたものであって、本発明の範囲を限定することを意図したものではないことを理解すべきである。
本発明は、以下の詳細な説明と添付の図面から、より深く理解できるであろう。
以下の好ましい実施形態の説明は、本質的に例示に過ぎず、本発明、そのアプリケーションまたは用途を限定することを意図したものでは全くない。
本明細書中で使用される「雑音のある音声信号」とは、伝送路によって破損および/またはフィルタリングされた信号を指す。また、本明細書中で使用される「クリーンな音声信号」とは、伝送路によってフィルタリングされていない音声信号、すなわち、フラットな周波数応答性をもつシステムによって伝送された音声信号か、または音声認識システムの音響モデルの学習に使用される音声信号を指す。「雑音のある音声信号のクリーンな平均値バージョン」とは、雑音のある音声信号から伝送路の破損および/またはフィルタリングの推定値が除去された音声信号推定値を指す。
図1に示す本発明の一態様のブラインド伝送路推定装置10では、記憶された音声相関構造A^(τ)14を用いて音声伝送路12が推定および補償される。図1に示すブラインド伝送路推定装置10は、音声認識システムの一部を表しており、伝送路12の出力は、s(t)がマイクロホンまたは音声処理器16の出力を用いてまたはフラットな周波数応答性を有するフィルタを介して取得された「クリーンな」音声信号を表し、h(t)が伝送路12のフィルタを表すときの雑音のある音声信号g(t)=s(t)*h(t)である。g(t)で表される信号は、ケプストラム分析モジュール18(または、図示しない対数スペクトル分析モジュール)によってケプストラム(または対数スペクトル)領域の信号Y(t)=S(t)+H(t)に変換される。
S(t)をケプストラム(または対数スペクトル)領域の「クリーンな」音声信号とする。クリーンな音声のフレーム間時間相関がτの減少関数である、すなわち、
E[S(t)ST(t+τ)] = fτ(E[S(t)S(t)ST(t)]) (1)
と仮定すると、
fτは時間不変線形フィルタによって近似化される。
E[S(t)ST(t+τ)] = fτ(E[S(t)S(t)ST(t)]) (1)
と仮定すると、
fτは時間不変線形フィルタによって近似化される。
fτ(E[S(t)S(t)ST(t)]) = A(τ)E[S(t)ST(t)] (2)
行列A(τ)の推定値A^(τ)は、クリーンな学習用音声信号s(t)から、ケプストラム分析を実行し(すなわち、ケプストラム領域のS(t)を求め)た後、以下のように記述される相関を実行し、
行列A(τ)の推定値A^(τ)は、クリーンな学習用音声信号s(t)から、ケプストラム分析を実行し(すなわち、ケプストラム領域のS(t)を求め)た後、以下のように記述される相関を実行し、
E[S(t)ST(t+τ)]とE[S(t)ST(t)]の比(すなわち、遅延τ時と遅延ゼロ時との相関)を平均化し、
学習用データベース全体にわたる積分
を行うことによって導出される。但し、方程式3の積分は処理窓内のN個のサンプルに対して実行され、方程式5の積分は学習用データベース全体に対して実行される。方程式3ないし5に記述された計算ステップは、s(t)にほぼ等価な信号が取得されるように、ほぼ雑音のない環境で取得されたクリーンな学習用音声信号に対して実行される。この信号から得られた推定値A^(τ)は、雑音のある伝送路12によるブラインド伝送路推定装置10の動作の開始前に、相関構造モジュール14に記憶される。
伝送路を推定するため、方程式1の仮定を十分に検証できる、すなわち、相対誤差が小さくなるような短いタイムラグであって、音声信号相関が伝送路相関より優位にならない程度に長いタイムラグを使用することが望ましい。
ケプストラム分析モジュール18(またはそれに相当する対数スペクトルモジュール)によって生成された雑音のある音声信号Y(t)は、ケプストラム領域(またはそれに相当する対数スペクトル領域)で観測される。雑音のある音声信号Y(t)は、以下のように記述される。
Y(t) = S(t) + H(t) (6)
但し、S(t)は元のクリーンな音声信号s(t)のケプストラム領域表現であり、H(t)は伝送路12の時間変動応答h(t)のケプストラム領域表現である。その後、観測信号Y(t)の相関が相関推定器20によって求められる。信号Y(t)のタイムラグτバージョンY(t+τ)(すなわち、Y(t−τ)に相当)に対する相関関数をCY(τ)と表現する。但し、CY(τ)=E[Y(t)YT(t+τ)]である。
但し、S(t)は元のクリーンな音声信号s(t)のケプストラム領域表現であり、H(t)は伝送路12の時間変動応答h(t)のケプストラム領域表現である。その後、観測信号Y(t)の相関が相関推定器20によって求められる。信号Y(t)のタイムラグτバージョンY(t+τ)(すなわち、Y(t−τ)に相当)に対する相関関数をCY(τ)と表現する。但し、CY(τ)=E[Y(t)YT(t+τ)]である。
線形系求解モジュール22は、相関推定器20によって生成された相関CYと相関構造モジュール14に記憶された相関構造A^(τ)とから項Aを導出する。
また、平均化モジュール24は、ケプストラム分析モジュール18の出力Y(t)に基づいて値bを求め、
b = E[Y(t)] (8)
線形方程式求解器22は、μsについて以下の方程式系を解く。
b = E[Y(t)] (8)
線形方程式求解器22は、μsについて以下の方程式系を解く。
μsμs T = bbT ‐A = B (9)
μs + H = b (10)
方程式9および10の系は、個別の方程式の数が未知数の数より多い優決定系である。したがって、ブラインド伝送路推定装置10では、上記方程式系が、最小平均二乗誤差問題などの最小化問題として解かれる。方程式10は、
μs + H = b (10)
方程式9および10の系は、個別の方程式の数が未知数の数より多い優決定系である。したがって、ブラインド伝送路推定装置10では、上記方程式系が、最小平均二乗誤差問題などの最小化問題として解かれる。方程式10は、
を最小化する線形系求解器22を用いてμs=s^について解かれる。但し、μsは、ある処理窓区間にわたって伝送路による破損やフィルタリングのない平均音声信号の平均値の推定値である。
(伝送路推定用の処理窓は、例えば40ないし200msであって、例えば10ないし20msである音声認識用の処理窓よりも長いので、本発明の一態様における推定値μ^sは音声認識には使用されない。しかしながら、本態様では、総和が処理窓を超える(例えば、200ms)場合に、μ^sを用いてH^=1/TΣY(t)−μ^sであるH^を推定した後、S(t)を用いてより短い処理窓で認識を行う。但し、S^(t)=Y(t)−H^である。)本態様において、S(t)はより短い処理窓区間のクリーンな音声を表し、本明細書では、「短時間窓クリーン音声」と称する。
本発明の一態様では、
μs = ±λ1p1 (12)
を設定することによって、線形系求解器22により効率的な最小化が実行される。但し、λ1はBの最大固有値であり、p1はそれに対応する固有ベクトルである。方程式12の解は、本態様では、最大固有値に(絶対値で)対応する固有ベクトルを探し出すことによって求められる。これは、実非対称行列の対角化問題の下位事例である。この種の問題を解くいくつかの方法は公知であるが、その精度は、最大固有値と最小固有値の比によって制限を受けている。すなわち、それら数値計算に基づく方法は固有値の差が大きいほどより安定的である。実験上では、本発明の態様における最大固有値と二番目に大きい固有値には、約一桁と二桁の間分だけ差が有ることが分かっている。したがって、相応の安定性が付与されており、他のいかなる固有ベクトルよりもはるかに優れて費用関数を最小化する固有ベクトルが存在すると仮定して間違いない。この固有ベクトルは、上記処理窓区間のクリーンな音声の平均値μsの推定値をもたらす。
μs = ±λ1p1 (12)
を設定することによって、線形系求解器22により効率的な最小化が実行される。但し、λ1はBの最大固有値であり、p1はそれに対応する固有ベクトルである。方程式12の解は、本態様では、最大固有値に(絶対値で)対応する固有ベクトルを探し出すことによって求められる。これは、実非対称行列の対角化問題の下位事例である。この種の問題を解くいくつかの方法は公知であるが、その精度は、最大固有値と最小固有値の比によって制限を受けている。すなわち、それら数値計算に基づく方法は固有値の差が大きいほどより安定的である。実験上では、本発明の態様における最大固有値と二番目に大きい固有値には、約一桁と二桁の間分だけ差が有ることが分かっている。したがって、相応の安定性が付与されており、他のいかなる固有ベクトルよりもはるかに優れて費用関数を最小化する固有ベクトルが存在すると仮定して間違いない。この固有ベクトルは、上記処理窓区間のクリーンな音声の平均値μsの推定値をもたらす。
この音声推定値は絶対値で求められるので、正しい符号を得るために発見的方法が利用される。ブラインド伝送路推定装置10では、最尤推定モジュール26が音響モデルを利用して方程式12の解の符号を求める。例えば、最尤推定は、2種類の復号パスで、すなわち発話と無音の両ガウス混合モデル(GMM)を用いて実行される。
図2に示す2パス最尤推定ブロック26の一態様では、Y(t)が2個の推定モジュール52,54に入力される。推定モジュール52はμ^sも入力として受け取り、推定モジュール54は−μ^sも入力として受け取る。推定モジュール52の結果はS^+(t)であり、推定モジュール54の結果はS^―(t)である。これらの結果は全復号器56と58にそれぞれ入力され、これら全復号器は音声認識を実行する。全復号器56および58の出力は最尤選択モジュール60に入力され、最尤選択モジュール60は、全復号器56および58からの音声認識出力に伴う尤度情報を用いて、結果として全復号器56および58から出力された単語を選択する。図2に示さない一態様では、最尤選択モジュール60はS^(t)をS^+(t)または−S^―(t)のどちらか一方の形で出力する。S^(t)の出力は復号化モジュール56および58の復号化された音声出力に追加された状態か、あるいはその代わりの形となるが、モジュール56および58がもたらす尤度情報にやはり依存している。
図2の2パス最尤判定ブロック26の代わりとして、図3に2パスGMM最尤復号化モジュール26Aの一態様を示す。この態様では、推定値μ^sと−μ^sが発話GMM復号器72と無音GMM復号器74にそれぞれ入力され、最尤選択モジュール76がGMM復号器72および74の出力から選択を行ってS^(t)を判定する。一態様では、このS^(t)が出力される。図3に示す一態様では、最尤選択モジュール76の出力が全音声認識復号化モジュール78に送られ、その結果として復号化された音声出力が生成される。
図4に示す本発明の別の態様のブラインド伝送路推定装置30では、同じ最小化を線形系求解モジュール22で利用するが、最小伝送路ノルムモジュール32を用いて解の符号を判定する。ブラインド伝送路推定装置30では、伝送路ケプストラムのノルム||H(t)||2=||Y−μs||2を最小化するμs=S^(t)の符号を解±μsの正しい符号として選択する。この符号に関する解は、概して伝送路ケプストラムのノルムが音声ケプストラムのノルムよりも小さいという仮定に基づいており、その結果、||H(t)||2=||Y−μs||2を最小化する±μsの符号が音声信号S^(t)として選択される。
上記ケプストラム領域(または対数スペクトル領域)の推定音声信号S^(t)は、音声認識や話者認識などの音声処理アプリケーションにおいてさらに分析を行うのに適している。この推定音声信号をケプストラム領域(または対数スペクトル領域)で直接利用してもよいし、アプリケーションの必要に応じて(時間領域や周波数領域などの)別の表現に変換してもよい。
図5に示す本発明の一態様のブラインド伝送路推定方法100では、音声相関構造に基づくブラインド伝送路推定方法が示されている。相関構造A^(t)はクリーンな学習用音声信号s(t)から得られる(102)。クリーンな音声信号がs(t)とほぼ等価になるように、プロセッサにより、ほぼ雑音のない環境で取得されたクリーンな学習用音声信号に対して方程式3ないし5で記述された計算ステップが実行される。
その後、処理対象の雑音のある音声信号g(t)が取得され、ケプストラム(または対数スペクトル)領域表現Y(t)に変換される(104)。その後、Y(t)を用いて相関CY(τ)が推定され(106)、観測信号Y(t)の平均値bが算出される(108)。線形方程式9および10の系が、方程式11の最小化の制約の下に構築および求解される(110)。最尤法またはノルム最小化法を利用して解の符号が選択または判定され(112)、それにより、処理窓区間のクリーンな音声信号平均値の推定値が生成される。
音源と伝送路が以下の4つの条件により合致する場合には、本発明の態様によってさらに優れた結果が得られる。
1.S(t)およびH(t)は2つの独立した確率過程である。
2.E[S(t+τ)]=E[S(t)]、すなわち、S(t)は短区間定常過程である。
3.伝送路H(t)は処理窓区間内で一定であり、したがって、H(t)=H、すなわち、短区間不変性が当てはまる。
4.音源の相関構造が時間不変線形フィルタモデルを満たす。すなわち、E[S(t)ST(t+τ)]=A(τ)E[S(t)ST(t)]である。
これらの条件は、タイムラグが小さい(短区間構造)の場合には十分に満たされると考えられる。しかしながら、二番目の条件は、通常の期待値推定器、すなわち
を用いた場合には厳密には満たされない。したがって、本発明の一態様は円形の処理窓、すなわち
を利用する。
また、本発明の一態様では、上記の相関構造条件をより満たすために、発話有無検出器を利用して、相関判定時に無音フレームが確実に無視され、有音フレームのみが確実に考慮されるようにする。さらに、上記短区間不変条件をより満たすために、短い処理窓が利用される。このように、本発明の一態様によれば、発話信号の有無を識別する発話検出モジュール19が実現され、この情報は、相関推定モジュール20と平均化モジュール24に利用されて、有音フレームのみが確実に考慮されるようにする。
本発明の一態様では、上述の方法がケプストラム領域で適用される。別の態様では、上記の方法は対数スペクトル領域で適用される。一態様では、平均二乗誤差問題を解くのに利用される対角化方法の精度を確保するため、ケプストラム領域または対数スペクトル領域の係数のダイナミックレンジを互いに同等にする。(通常、ケプストラム特徴量や対数スペクトル特徴量はベクトルであるので、複数の係数が存在する。)例えば、一態様では、長期間平均を減ずることによってケプストラム係数が正規化され、共分散行列が白色化される。別の態様では、ケプストラム係数の代わりに対数スペクトル係数が使用される。
本発明の一態様では、ケプストラム係数を利用して伝送路が除去される。別の態様では、対数スペクトルによる伝送路除去が行われる。対数スペクトルによる伝送路除去は、周波数が局在しているため、一部のアプリケーションには好ましい。
本発明の一態様では、4フレーム(40ms)のタイムラグを利用して入来信号の相関を求める。この態様は、低い音声相関度と小さい仮説の固有誤差との間の有効な妥協策であることが分かっている。具体的には、処理窓が長すぎると、H(t)が一定でなくなる可能性がある一方、処理窓が短すぎると、適切な相関推定値が得られない場合がある。
本発明の態様は、1個以上の専用信号処理要素(すなわち、上記の処理を実行するために特別に設計された要素)、適切なプログラムに制御される汎用デジタル信号プロセッサ、適切なプログラムに制御される汎用プロセッサやCPU、またはそれらの組合せを利用することによって、あるいは一部の態様ではさらに支援ハードウェア(例えばメモリ)を利用することによって実現可能である。実時間音声認識(例えば、車両の音声制御や口述入力コンピュータシステム)の場合には、マイクロホン等のトランスデューサと音声アナログ−デジタル変換器(ADC)を用いれば、利用者から音声が入力される。汎用プログラム可能プロセッサやCPUおよび/または汎用デジタル信号プロセッサを制御する命令は、ROMファームウェアの形、着脱可能であったり書換え可能であったりする必要は必ずしもないが、適切な媒体(例えば、フロッピーディスク、CD−ROM、DVD、フラッシュメモリ、ハードディスク)上の機械可読命令の形、あるいは別のコンピュータから受け取った信号(例えば、変調された電気搬送信号)の形で送ることができる。最後の例は、それ自体が機械可読な形の命令を記憶できる遠隔コンピュータからネットワークを介して受け取った命令である場合もある。
本明細書に記載した態様は、以下のようにさらに数学的に分析される。
ケプストラム領域(または対数スペクトル領域)で観測された伝送路によって破損した音声信号は、上述の方程式6によって特徴付けられる。信号Xの時刻tにおけるタイムラグτとの相関は以下のように示される。
CX(τ) = E[X(t)XT(t+τ)] (15)
上述の文中で定義された独立、短区間定常および短区間不変性の条件を仮定すれば、観測信号の相関は以下のように記述できる。
上述の文中で定義された独立、短区間定常および短区間不変性の条件を仮定すれば、観測信号の相関は以下のように記述できる。
CY(τ) = CS(τ) +μsHT + Hμs T + HHT (16)
但し、μs=E[S(t)]である。上記方程式7および8は、上述の文中で定義された短区間線形相関構造の条件を仮定することによって導出される。
但し、μs=E[S(t)]である。上記方程式7および8は、上述の文中で定義された短区間線形相関構造の条件を仮定することによって導出される。
効率的な最小化は、N2ノルムにおける以下の最小化問題を考えることによって導出される。
但し、X=[x1x2・・・xn]Tであり、B=(bi,j)i,j∈1,・・・,nである。Bが対角化可能であるならば、Λ=diag{λ1・・・λn}を対角行列、P={p1,・・・,pn}をユニタリー行列とするとき、B=PΛP*と記述することができる。固有値λ1・・・λnが昇順λ1≧・・・≧λnにソートされると考えると、Y=PTXのとき、
と表すことができる。
また、
また、
と記述することも可能である。
偏導関数を採用すれば、
偏導関数を採用すれば、
となる。これら偏導関数をゼロに設定すると、
が得られる。
既述の方程式からλ1>・・・>λnであると仮定したので、y1・・・ynのうちの多くても1個の係数はゼロではないということになる。それに反して、∃i1≠i2:yi1≠0,yi2≠0と仮定すると、
既述の方程式からλ1>・・・>λnであると仮定したので、y1・・・ynのうちの多くても1個の係数はゼロではないということになる。それに反して、∃i1≠i2:yi1≠0,yi2≠0と仮定すると、
およびλi1≠λi2が得られるが、それは不可能である。さらに、Yがゼロでないベクトルであるとすると、
となる。
したがって、||YYT−Λ||2=Σi≠i0λi 2であり、||YYT−Λ||2を最小化する解はi0=1であると結論付けられる。このことは、また、最小化問題が2つの解X=±λ1p1(λ1はBの最大固有値、p1はそれに対応する固有ベクトル)を有していることも意味する。
本発明の態様によれば、音声信号を破損させる伝送路の効果的な推定が実現される。本明細書に記載の方法および装置を利用した実験は、標準的なケプストラム平均正規化技術よりも基礎となる仮定をより十分に検証できるので、より有効であることが分かった。これらの実験により、最小ノルム符号推定を用いた伝送路補償の場合、CMNと比べてケプストラムの静的特徴量が著しく改良されることも分かった。最尤符号推定の場合には、複数の音響モデルを同時に評価しながら、伝送路の符号を陰の変数とみなし、それを期待値最大化(EM)アルゴリズム中に最適化することが推奨される。
一般に、全体を通してケプストラム領域を利用する本発明の態様に関して、全体を通してケプストラム領域を利用する本発明の対応する態様が存在する。一方または他方の領域の設計上の選択がなされると、それを当該態様の全体を通して一貫して利用し、一方の領域から他方の領域へ余計に変換する必要をなくすようにすべきである。
本発明の記述は本質的に例示に過ぎず、したがって、本発明の種子から逸脱しない変型は本発明の範囲に包含されるものとする。そのような変型は本発明の精神および範囲から逸脱するものとみなすべきではない。
Claims (39)
- 伝送路によって破損した音声信号のブラインド伝送路推定方法であって、
雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換する工程と、
上記雑音のある音声信号の表現の相関を推定する工程と、
上記雑音のある音声信号の平均値を求める工程と、
最小化の制約の下に、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を構築および求解する工程と、
上記線形方程式系の解の符号を選択してある処理窓区間のクリーンな音声信号平均値を推定する工程を含む方法。 - 上記クリーンな音声信号平均値の推定値を用いて上記処理窓区間の伝送路平均値の推定値を求める工程と、
上記伝送路平均値の推定値を用いてより短時間の処理窓区間にわたって上記クリーンな音声信号の推定値を求める工程をさらに含んでいる請求項1記載の方法。 - 上記線形方程式系の解の符号を選択する工程は、最尤基準を用いて符号を選択する工程を含んでいる請求項1記載の方法。
- 上記線形方程式系の解の符号を選択する工程は、推定された伝送路雑音のノルムを最小化する符号を選択する工程を含んでいる請求項1記載の方法。
- 上記雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換する工程は、上記雑音のある音声信号をケプストラム領域に変換する工程である請求項1記載の方法。
- 上記雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換する工程は、上記雑音のある音声信号を対数スペクトル領域に変換する工程である請求項1記載の方法。
- ほぼ雑音のない環境でクリーンな学習用音声信号を取得する工程と、該クリーンな学習用音声信号を用いて上記相関構造を求める工程をさらに含んでいる請求項1記載の方法。
- 上記相関構造はA^(τ)と記述され、
上記雑音のある音声信号の表現は、Y(t)が雑音のある音声信号の表現であり、S(t)が上記雑音のある音声信号のクリーンな音声の表現であり、H(t)が伝送路の時間変動応答の表現であるとき、Y(t)=S(t)+H(t)と記述され、
上記雑音のある音声信号の表現の相関を推定する工程は、CY(τ)=E[YtYT(t+τ)]であるCY(τ)を求める工程を含んでおり、
上記雑音のある音声信号の平均値を求める工程は、b=E[Y(t)]を求める工程を含んでおり、
上記線形方程式系を構築および求解する工程は、μsがクリーンな音声信号平均値の表現であり、
- 上記線形方程式系を構築および求解する工程は、λ1がBの最大固有値であり、p1がそれに対応する固有ベクトルであるとき、μsを±λ1p1として求める工程を含んでいる請求項8記載の方法。
- 最尤基準を用いてμsの符号を選択する工程をさらに含んでいる請求項10記載の方法。
- 伝送路ケプストラムのノルム||H(t)||2=||Y−μs||2を最小化するμsの符号を選択する工程をさらに含んでいる請求項11記載の方法。
- 伝送路によって破損した音声信号のブラインド伝送路推定装置であって、
雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換し、
上記雑音のある音声信号の表現の相関を推定し、
上記雑音のある音声信号の平均値を求め、
最小化の制約の下に、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を構築および求解し、
上記線形方程式系の解の符号を選択してある処理窓区間のクリーンな音声信号平均値を推定するように構成された装置。 - 上記クリーンな音声信号平均値の推定値を用いて上記処理窓区間の伝送路平均値の推定値を求め、
上記伝送路平均値の推定値を用いてより短時間の処理窓区間にわたって上記クリーンな音声信号の推定値を求めるようにさらに構成された請求項14記載の装置。 - 上記線形方程式系の解の符号を選択するために、最尤基準を用いて符号を選択するように構成された請求項14記載の装置。
- 上記線形方程式系の解の符号を選択するために、推定された伝送路雑音のノルムを最小化する符号を選択するように構成された請求項14記載の装置。
- 雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換するために、上記雑音のある音声信号をケプストラム領域に変換するように構成された請求項14記載の装置。
- 雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換するために、上記雑音のある音声信号を対数スペクトル領域に変換するように構成された請求項14記載の装置。
- ほぼ雑音のない環境でクリーンな学習用音声信号を取得し、該クリーンな学習用音声信号を用いて上記相関構造を求めるようにさらに構成された請求項14記載の装置。
- 上記相関構造はA^(τ)と記述され、
上記雑音のある音声信号の表現は、Y(t)が雑音のある音声信号の表現であり、S(t)が上記雑音のある音声信号のクリーンな音声の表現であり、H(t)が伝送路の時間変動応答の表現であるとき、Y(t)=S(t)+H(t)と記述され、
上記雑音のある音声信号の表現の相関を推定するために、CY(τ)=E[YtYT(t+τ)]であるCY(τ)を求めるように構成されており、
上記雑音のある音声信号の平均値を求めるために、b=E[Y(t)]を求めるように構成されており、
線形方程式系を構築および求解するために、μsがクリーンな音声信号平均値の表現であり、
- 線形方程式系を構築および求解するために、λ1がBの最大固有値であり、p1がそれに対応する固有ベクトルであるとき、μsを±λ1p1として求めるように構成された請求項21記載の装置。
- 最尤基準を用いてμsの符号を選択するようにさらに構成された請求項23記載の装置。
- 伝送路ケプストラムのノルム||H(t)||2=||Y−μs||2を最小化するμsの符号を選択するようにさらに構成された請求項24記載の装置。
- プログラム可能プロセッサおよびデジタル信号プロセッサからなる群のうち少なくとも1つの要素を備えた装置に対して、
雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換し、
上記雑音のある音声信号の表現の相関を推定し、
上記雑音のある音声信号の平均値を求め、
最小化の制約の下に、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を構築および求解し、
上記線形方程式系の解の符号を選択してある処理窓内のクリーンな音声信号平均値を推定する指示を行うように構成された命令を記録した機械可読媒体。 - 上記命令は、
上記クリーンな音声信号平均値の推定値を用いて上記処理窓区間の伝送路平均値の推定値を求め、
上記伝送路平均値の推定値を用いてより短時間の処理窓区間にわたって上記クリーンな音声信号の推定値を求める命令を含んでいる請求項27記載の媒体。 - 上記線形方程式系の解の符号を選択するために、上記記録された命令は最尤基準を用いて符号を選択する命令を含んでいる請求項27記載の媒体。
- 上記線形方程式系の解の符号を選択するために、上記記録された命令は推定された伝送路雑音のノルムを最小化する符号を選択する命令を含んでいる請求項27記載の媒体。
- 雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換するために、上記記録された命令は上記雑音のある音声信号をケプストラム領域に変換する命令を含んでいる請求項27記載の媒体。
- 雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換するために、上記記録された命令は上記雑音のある音声信号を対数スペクトル領域に変換する命令を含んでいる請求項27記載の媒体。
- 上記記録された命令は、ほぼ雑音のない環境でクリーンな学習用音声信号を取得し、該クリーンな学習用音声信号を用いて上記相関構造を求める命令をさらに含んでいる請求項27記載の媒体。
- 上記相関構造はA^(τ)と記述され、
上記雑音のある音声信号の表現は、Y(t)が雑音のある音声信号の表現であり、S(t)が上記雑音のある音声信号のクリーンな音声の表現であり、H(t)が伝送路の時間変動応答の表現であるとき、Y(t)=S(t)+H(t)と記述され、
上記雑音のある音声信号の表現の相関を推定するために、上記記録された命令はCY(τ)=E[YtYT(t+τ)]であるCY(τ)を求める命令を含んでおり、
上記雑音のある音声信号の平均値を求めるために、上記記録された命令はb=E[Y(t)]を求める命令を含んでおり、
線形方程式系を構築および求解するために、上記記録された命令は、μsがクリーンな音声信号平均値の表現であり、
- 線形方程式系を構築および求解するために、上記記録された命令は、λ1がBの最大固有値であり、p1がそれに対応する固有ベクトルであるとき、μsを±λ1p1として求める命令を含んでいる請求項34記載の媒体。
- 上記記録された命令は最尤基準を用いてμsの符号を選択する命令をさらに含んでいる請求項36記載の媒体。
- 上記記録された命令は、伝送路ケプストラムのノルム||H(t)||2=||Y−μs||2を最小化するμsの符号を選択する命令をさらに含んでいる請求項37記載の媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/099,428 US6687672B2 (en) | 2002-03-15 | 2002-03-15 | Methods and apparatus for blind channel estimation based upon speech correlation structure |
PCT/US2003/007701 WO2003079329A1 (en) | 2002-03-15 | 2003-03-14 | Methods and apparatus for blind channel estimation based upon speech correlation structure |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005521091A true JP2005521091A (ja) | 2005-07-14 |
Family
ID=28039591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003577245A Pending JP2005521091A (ja) | 2002-03-15 | 2003-03-14 | 音声相関構造に基づくブラインド伝送路推定方法および装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6687672B2 (ja) |
EP (1) | EP1485909A4 (ja) |
JP (1) | JP2005521091A (ja) |
CN (1) | CN1698096A (ja) |
AU (1) | AU2003220230A1 (ja) |
WO (1) | WO2003079329A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008233782A (ja) * | 2007-03-23 | 2008-10-02 | Kddi Corp | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6785648B2 (en) * | 2001-05-31 | 2004-08-31 | Sony Corporation | System and method for performing speech recognition in cyclostationary noise environments |
US7571095B2 (en) * | 2001-08-15 | 2009-08-04 | Sri International | Method and apparatus for recognizing speech in a noisy environment |
US7729909B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition |
US7729908B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Joint signal and model based noise matching noise robustness method for automatic speech recognition |
US8849432B2 (en) * | 2007-05-31 | 2014-09-30 | Adobe Systems Incorporated | Acoustic pattern identification using spectral characteristics to synchronize audio and/or video |
US8194799B2 (en) * | 2009-03-30 | 2012-06-05 | King Fahd University of Pertroleum & Minerals | Cyclic prefix-based enhanced data recovery method |
CN102915735B (zh) * | 2012-09-21 | 2014-06-04 | 南京邮电大学 | 一种基于压缩感知的含噪语音信号重构方法及装置 |
CN109005138B (zh) * | 2018-09-17 | 2020-07-31 | 中国科学院计算技术研究所 | 基于倒谱的ofdm信号时域参数估计方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4897878A (en) * | 1985-08-26 | 1990-01-30 | Itt Corporation | Noise compensation in speech recognition apparatus |
US5487129A (en) * | 1991-08-01 | 1996-01-23 | The Dsp Group | Speech pattern matching in non-white noise |
US5625749A (en) * | 1994-08-22 | 1997-04-29 | Massachusetts Institute Of Technology | Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation |
US5864810A (en) | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US5839103A (en) | 1995-06-07 | 1998-11-17 | Rutgers, The State University Of New Jersey | Speaker verification system using decision fusion logic |
AU712412B2 (en) * | 1996-03-29 | 1999-11-04 | British Telecommunications Public Limited Company | Speech processing |
US5913192A (en) | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
AU3889799A (en) | 1998-05-08 | 1999-11-29 | T-Netix, Inc. | Channel estimation system and method for use in automatic speaker verification systems |
US6496795B1 (en) * | 1999-05-05 | 2002-12-17 | Microsoft Corporation | Modulated complex lapped transform for integrated signal enhancement and coding |
US6430528B1 (en) * | 1999-08-20 | 2002-08-06 | Siemens Corporate Research, Inc. | Method and apparatus for demixing of degenerate mixtures |
-
2002
- 2002-03-15 US US10/099,428 patent/US6687672B2/en not_active Expired - Lifetime
-
2003
- 2003-03-14 WO PCT/US2003/007701 patent/WO2003079329A1/en not_active Application Discontinuation
- 2003-03-14 CN CNA038059118A patent/CN1698096A/zh active Pending
- 2003-03-14 JP JP2003577245A patent/JP2005521091A/ja active Pending
- 2003-03-14 AU AU2003220230A patent/AU2003220230A1/en not_active Abandoned
- 2003-03-14 EP EP03716527A patent/EP1485909A4/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008233782A (ja) * | 2007-03-23 | 2008-10-02 | Kddi Corp | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 |
Also Published As
Publication number | Publication date |
---|---|
AU2003220230A1 (en) | 2003-09-29 |
WO2003079329A1 (en) | 2003-09-25 |
US6687672B2 (en) | 2004-02-03 |
EP1485909A1 (en) | 2004-12-15 |
US20030177003A1 (en) | 2003-09-18 |
CN1698096A (zh) | 2005-11-16 |
EP1485909A4 (en) | 2005-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7191793B2 (ja) | 信号処理装置、信号処理方法、及びプログラム | |
KR102410392B1 (ko) | 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출 | |
KR101153093B1 (ko) | 다감각 음성 향상을 위한 방법 및 장치 | |
EP1760696B1 (en) | Method and apparatus for improved estimation of non-stationary noise for speech enhancement | |
EP0886263B1 (en) | Environmentally compensated speech processing | |
US7158933B2 (en) | Multi-channel speech enhancement system and method based on psychoacoustic masking effects | |
JP4950930B2 (ja) | 音声/非音声を判定する装置、方法およびプログラム | |
US5148489A (en) | Method for spectral estimation to improve noise robustness for speech recognition | |
EP0807305A1 (en) | Spectral subtraction noise suppression method | |
US20150012268A1 (en) | Speech processing device, speech processing method, and speech processing program | |
KR101892733B1 (ko) | 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법 | |
US10748544B2 (en) | Voice processing device, voice processing method, and program | |
JP2005521091A (ja) | 音声相関構造に基づくブラインド伝送路推定方法および装置 | |
Habets et al. | Dereverberation | |
KR102048370B1 (ko) | 우도 최대화를 이용한 빔포밍 방법 | |
KR100784456B1 (ko) | Gmm을 이용한 음질향상 시스템 | |
Hirsch | HMM adaptation for applications in telecommunication | |
KR101610708B1 (ko) | 음성 인식 장치 및 방법 | |
KR101124712B1 (ko) | 비음수 행렬 인수분해 기반의 음성 검출 방법 | |
KR20110078091A (ko) | 이퀄라이저 조정 장치 및 방법 | |
KR101051035B1 (ko) | 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법 | |
Vicente-Peña et al. | The synergy between bounded-distance HMM and spectral subtraction for robust speech recognition | |
Wong et al. | An eigendecomposition based two sided linear prediction model for robust speech recognition | |
Acero et al. | Other Algorithms | |
US20020138252A1 (en) | Method and device for the automatic recognition of distorted speech data |