JP2005521091A

JP2005521091A - 音声相関構造に基づくブラインド伝送路推定方法および装置

Info

Publication number: JP2005521091A
Application number: JP2003577245A
Authority: JP
Inventors: スイルミユネス; グエンパトリック; リガツィオルカ; ジュンカジャン−クロード
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2002-03-15
Filing date: 2003-03-14
Publication date: 2005-07-14
Also published as: AU2003220230A1; WO2003079329A1; US6687672B2; EP1485909A1; US20030177003A1; CN1698096A; EP1485909A4

Abstract

【課題】伝送路によって破損した音声信号のブラインド伝送路推定方法および装置が提供される。
【解決手段】１つの方法は、雑音のある音声信号をケプストラム表現（１８）または対数スペクトル表現に変換する工程と、上記雑音のある音声信号の表現の相関（２０）を推定する工程と、上記雑音のある音声信号（２４）の平均値を求める工程と、最小化の制約の下に、クリーンな学習用音声信号の相関構造（１４０）と、上記雑音のある音声信号（２４）の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を構築および求解する工程と、上記線形方程式系（２２）の解の符号を選択してある処理窓内のクリーンな音声信号平均値を推定する工程を含んでいる。

Description

本発明は音声信号処理方法および装置に関し、特に、音声認識システムや話者認識システムなどの音声システムにおいて伝送路の歪みを除去する方法と装置に関する。

ケプストラム平均正規化法（ＣＭＮ）は、自動話者認識システムにおいて伝送路の歪みを除去する有効な技術である。ＣＭＮシステムの音声処理窓は、効果的に機能させるためには、語音情報を維持するように非常に長くする必要がある。残念ながら、非定常な伝送路を扱う際には、ＣＭＮシステムでは効果的に処理できないようなより短い窓を使用することが望ましくなる。また、ＣＭＮ技術は、音声平均が語音情報を有していない、すなわち処理窓区間中一定であるという仮定に基づいている。しかしながら、短い窓を使用する場合には、音声平均が有意な語音情報を有している可能性もある。

音声信号に影響を及ぼす伝送路を推定する問題は、ブラインドシステム同定として知られる分野に属する。１バージョンの音声しか取得できない場合（すなわち、「マイクロホン１個」の場合）、推定問題には一般解がない。オーバーサンプリングを用いて伝送路推定に必要な情報を取得してもよいが、１バージョンの信号しか取得できず、しかもオーバーサンプリングも不可能な場合は、信号源の仮定を行わない限り、問題の個別事例を解決することはできない。例えば、電話音声認識の伝送路推定は、認識器がディジタイザにアクセスできない場合には、信号源の仮定を行わない限り実行不可能である。
（発明の開示）
したがって、本発明の一態様は、伝送路によって破損した音声信号のブラインド伝送路推定方法を提供する。この方法は、雑音のある音声信号をケプストラム表現または対数スペクトル表現のどちらかに変換する工程と、上記雑音のある音声信号の表現の時間相関を推定する工程と、上記雑音のある音声信号の平均値を求める工程と、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を最小化の制約の下に構築および求解する工程と、上記線形方程式系の解の符号を選択してある処理窓区間のクリーンな音声信号平均値を推定する工程を含んでいる。

本発明の別の態様は、伝送路によって破損した音声信号のブラインド伝送路推定装置を提供する。この装置は、雑音のある音声信号をケプストラム表現または対数スペクトル表現のどちらかに変換し、上記雑音のある音声信号の表現の時間相関を推定し、上記雑音のある音声信号の平均値を求め、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を最小化の制約の下に構築および求解し、上記線形方程式系の解の符号を選択してある処理窓区間のクリーンな音声信号平均値を推定するように構成されている。

本発明のさらに別の態様は、プログラム可能プロセッサおよびデジタル信号プロセッサのうちの少なくとも一方を備えた装置に対して、雑音のある音声信号をケプストラム表現または対数スペクトル表現のどちらかに変換し、上記雑音のある音声信号の表現の時間相関を推定し、上記雑音のある音声信号の平均値を求め、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を最小化の制約の下に構築および求解し、上記線形方程式系の解の符号を選択してある処理窓内のクリーンな音声信号平均値を推定する指示を行うように構成された命令を記録した機械可読媒体を提供する。

本発明の態様は、語音情報を除去することなく音声伝送路の効果的かつ効率的な推定を実現する。

本発明のさらに別の利用可能分野は、以下に示す詳細な説明から明らかになるであろう。以下の詳細な説明と具体的な実施例は、本発明の好ましい実施形態を示すが、例示を目的としたものであって、本発明の範囲を限定することを意図したものではないことを理解すべきである。

本発明は、以下の詳細な説明と添付の図面から、より深く理解できるであろう。

以下の好ましい実施形態の説明は、本質的に例示に過ぎず、本発明、そのアプリケーションまたは用途を限定することを意図したものでは全くない。

本明細書中で使用される「雑音のある音声信号」とは、伝送路によって破損および／またはフィルタリングされた信号を指す。また、本明細書中で使用される「クリーンな音声信号」とは、伝送路によってフィルタリングされていない音声信号、すなわち、フラットな周波数応答性をもつシステムによって伝送された音声信号か、または音声認識システムの音響モデルの学習に使用される音声信号を指す。「雑音のある音声信号のクリーンな平均値バージョン」とは、雑音のある音声信号から伝送路の破損および／またはフィルタリングの推定値が除去された音声信号推定値を指す。

図１に示す本発明の一態様のブラインド伝送路推定装置１０では、記憶された音声相関構造Ａ＾（τ）１４を用いて音声伝送路１２が推定および補償される。図１に示すブラインド伝送路推定装置１０は、音声認識システムの一部を表しており、伝送路１２の出力は、ｓ（ｔ）がマイクロホンまたは音声処理器１６の出力を用いてまたはフラットな周波数応答性を有するフィルタを介して取得された「クリーンな」音声信号を表し、ｈ（ｔ）が伝送路１２のフィルタを表すときの雑音のある音声信号ｇ（ｔ）＝ｓ（ｔ）＊ｈ（ｔ）である。ｇ（ｔ）で表される信号は、ケプストラム分析モジュール１８（または、図示しない対数スペクトル分析モジュール）によってケプストラム（または対数スペクトル）領域の信号Ｙ（ｔ）＝Ｓ（ｔ）＋Ｈ（ｔ）に変換される。

Ｓ（ｔ）をケプストラム（または対数スペクトル）領域の「クリーンな」音声信号とする。クリーンな音声のフレーム間時間相関がτの減少関数である、すなわち、
E[S(t)S^T(t+τ)] = fτ(E[S(t)S(t)S^T(t)]) (1)
と仮定すると、
ｆτは時間不変線形フィルタによって近似化される。

fτ(E[S(t)S(t)S^T(t)]) = A(τ)E[S(t)S^T(t)] (2)
行列Ａ（τ）の推定値Ａ＾（τ）は、クリーンな学習用音声信号ｓ（ｔ）から、ケプストラム分析を実行し（すなわち、ケプストラム領域のＳ（ｔ）を求め）た後、以下のように記述される相関を実行し、

Ｅ［Ｓ（ｔ）Ｓ^T（ｔ＋τ）］とＥ［Ｓ（ｔ）Ｓ^T（ｔ）］の比（すなわち、遅延τ時と遅延ゼロ時との相関）を平均化し、

学習用データベース全体にわたる積分

を行うことによって導出される。但し、方程式３の積分は処理窓内のＮ個のサンプルに対して実行され、方程式５の積分は学習用データベース全体に対して実行される。方程式３ないし５に記述された計算ステップは、ｓ（ｔ）にほぼ等価な信号が取得されるように、ほぼ雑音のない環境で取得されたクリーンな学習用音声信号に対して実行される。この信号から得られた推定値Ａ＾（τ）は、雑音のある伝送路１２によるブラインド伝送路推定装置１０の動作の開始前に、相関構造モジュール１４に記憶される。

伝送路を推定するため、方程式１の仮定を十分に検証できる、すなわち、相対誤差が小さくなるような短いタイムラグであって、音声信号相関が伝送路相関より優位にならない程度に長いタイムラグを使用することが望ましい。

ケプストラム分析モジュール１８（またはそれに相当する対数スペクトルモジュール）によって生成された雑音のある音声信号Ｙ（ｔ）は、ケプストラム領域（またはそれに相当する対数スペクトル領域）で観測される。雑音のある音声信号Ｙ（ｔ）は、以下のように記述される。

Y(t) = S(t) + H(t) (6)
但し、Ｓ（ｔ）は元のクリーンな音声信号ｓ（ｔ）のケプストラム領域表現であり、Ｈ（ｔ）は伝送路１２の時間変動応答ｈ（ｔ）のケプストラム領域表現である。その後、観測信号Ｙ（ｔ）の相関が相関推定器２０によって求められる。信号Ｙ（ｔ）のタイムラグτバージョンＹ（ｔ＋τ）（すなわち、Ｙ（ｔ−τ）に相当）に対する相関関数をＣ_Y（τ）と表現する。但し、Ｃ_Y（τ）＝Ｅ［Ｙ（ｔ）Ｙ^T（ｔ＋τ）］である。

線形系求解モジュール２２は、相関推定器２０によって生成された相関Ｃ_Yと相関構造モジュール１４に記憶された相関構造Ａ＾（τ）とから項Ａを導出する。

また、平均化モジュール２４は、ケプストラム分析モジュール１８の出力Ｙ（ｔ）に基づいて値ｂを求め、
b = E[Y(t)] (8)
線形方程式求解器２２は、μ_sについて以下の方程式系を解く。

μ_sμ_s ^T = bb^T ‐A = B (9)
μ_s + H = b (10)
方程式９および１０の系は、個別の方程式の数が未知数の数より多い優決定系である。したがって、ブラインド伝送路推定装置１０では、上記方程式系が、最小平均二乗誤差問題などの最小化問題として解かれる。方程式１０は、

を最小化する線形系求解器２２を用いてμ_s＝ｓ＾について解かれる。但し、μ_sは、ある処理窓区間にわたって伝送路による破損やフィルタリングのない平均音声信号の平均値の推定値である。

（伝送路推定用の処理窓は、例えば４０ないし２００ｍｓであって、例えば１０ないし２０ｍｓである音声認識用の処理窓よりも長いので、本発明の一態様における推定値μ＾_sは音声認識には使用されない。しかしながら、本態様では、総和が処理窓を超える（例えば、２００ｍｓ）場合に、μ＾_sを用いてＨ＾＝¹／_TΣＹ（ｔ）−μ＾_sであるＨ＾を推定した後、Ｓ（ｔ）を用いてより短い処理窓で認識を行う。但し、Ｓ＾（ｔ）＝Ｙ（ｔ）−Ｈ＾である。）本態様において、Ｓ（ｔ）はより短い処理窓区間のクリーンな音声を表し、本明細書では、「短時間窓クリーン音声」と称する。

本発明の一態様では、
μ_s = ±λ₁p₁ (12)
を設定することによって、線形系求解器２２により効率的な最小化が実行される。但し、λ₁はＢの最大固有値であり、ｐ₁はそれに対応する固有ベクトルである。方程式１２の解は、本態様では、最大固有値に（絶対値で）対応する固有ベクトルを探し出すことによって求められる。これは、実非対称行列の対角化問題の下位事例である。この種の問題を解くいくつかの方法は公知であるが、その精度は、最大固有値と最小固有値の比によって制限を受けている。すなわち、それら数値計算に基づく方法は固有値の差が大きいほどより安定的である。実験上では、本発明の態様における最大固有値と二番目に大きい固有値には、約一桁と二桁の間分だけ差が有ることが分かっている。したがって、相応の安定性が付与されており、他のいかなる固有ベクトルよりもはるかに優れて費用関数を最小化する固有ベクトルが存在すると仮定して間違いない。この固有ベクトルは、上記処理窓区間のクリーンな音声の平均値μ_sの推定値をもたらす。

この音声推定値は絶対値で求められるので、正しい符号を得るために発見的方法が利用される。ブラインド伝送路推定装置１０では、最尤推定モジュール２６が音響モデルを利用して方程式１２の解の符号を求める。例えば、最尤推定は、２種類の復号パスで、すなわち発話と無音の両ガウス混合モデル（ＧＭＭ）を用いて実行される。

図２に示す２パス最尤推定ブロック２６の一態様では、Ｙ（ｔ）が２個の推定モジュール５２，５４に入力される。推定モジュール５２はμ＾_sも入力として受け取り、推定モジュール５４は−μ＾_sも入力として受け取る。推定モジュール５２の結果はＳ＾⁺（ｔ）であり、推定モジュール５４の結果はＳ＾―（ｔ）である。これらの結果は全復号器５６と５８にそれぞれ入力され、これら全復号器は音声認識を実行する。全復号器５６および５８の出力は最尤選択モジュール６０に入力され、最尤選択モジュール６０は、全復号器５６および５８からの音声認識出力に伴う尤度情報を用いて、結果として全復号器５６および５８から出力された単語を選択する。図２に示さない一態様では、最尤選択モジュール６０はＳ＾（ｔ）をＳ＾⁺（ｔ）または−Ｓ＾―（ｔ）のどちらか一方の形で出力する。Ｓ＾（ｔ）の出力は復号化モジュール５６および５８の復号化された音声出力に追加された状態か、あるいはその代わりの形となるが、モジュール５６および５８がもたらす尤度情報にやはり依存している。

図２の２パス最尤判定ブロック２６の代わりとして、図３に２パスＧＭＭ最尤復号化モジュール２６Ａの一態様を示す。この態様では、推定値μ＾_sと−μ＾_sが発話ＧＭＭ復号器７２と無音ＧＭＭ復号器７４にそれぞれ入力され、最尤選択モジュール７６がＧＭＭ復号器７２および７４の出力から選択を行ってＳ＾（ｔ）を判定する。一態様では、このＳ＾（ｔ）が出力される。図３に示す一態様では、最尤選択モジュール７６の出力が全音声認識復号化モジュール７８に送られ、その結果として復号化された音声出力が生成される。

図４に示す本発明の別の態様のブラインド伝送路推定装置３０では、同じ最小化を線形系求解モジュール２２で利用するが、最小伝送路ノルムモジュール３２を用いて解の符号を判定する。ブラインド伝送路推定装置３０では、伝送路ケプストラムのノルム||Ｈ（ｔ）||²＝||Ｙ−μ_s||²を最小化するμ_s＝Ｓ＾（ｔ）の符号を解±μ_sの正しい符号として選択する。この符号に関する解は、概して伝送路ケプストラムのノルムが音声ケプストラムのノルムよりも小さいという仮定に基づいており、その結果、||Ｈ（ｔ）||²＝||Ｙ−μ_s||²を最小化する±μ_sの符号が音声信号Ｓ＾（ｔ）として選択される。

上記ケプストラム領域（または対数スペクトル領域）の推定音声信号Ｓ＾（ｔ）は、音声認識や話者認識などの音声処理アプリケーションにおいてさらに分析を行うのに適している。この推定音声信号をケプストラム領域（または対数スペクトル領域）で直接利用してもよいし、アプリケーションの必要に応じて（時間領域や周波数領域などの）別の表現に変換してもよい。

図５に示す本発明の一態様のブラインド伝送路推定方法１００では、音声相関構造に基づくブラインド伝送路推定方法が示されている。相関構造Ａ＾（ｔ）はクリーンな学習用音声信号ｓ（ｔ）から得られる（１０２）。クリーンな音声信号がｓ（ｔ）とほぼ等価になるように、プロセッサにより、ほぼ雑音のない環境で取得されたクリーンな学習用音声信号に対して方程式３ないし５で記述された計算ステップが実行される。

その後、処理対象の雑音のある音声信号ｇ（ｔ）が取得され、ケプストラム（または対数スペクトル）領域表現Ｙ（ｔ）に変換される（１０４）。その後、Ｙ（ｔ）を用いて相関Ｃ_Y（τ）が推定され（１０６）、観測信号Ｙ（ｔ）の平均値ｂが算出される（１０８）。線形方程式９および１０の系が、方程式１１の最小化の制約の下に構築および求解される（１１０）。最尤法またはノルム最小化法を利用して解の符号が選択または判定され（１１２）、それにより、処理窓区間のクリーンな音声信号平均値の推定値が生成される。

音源と伝送路が以下の４つの条件により合致する場合には、本発明の態様によってさらに優れた結果が得られる。

１．Ｓ（ｔ）およびＨ（ｔ）は２つの独立した確率過程である。

２．Ｅ［Ｓ（ｔ＋τ）］＝Ｅ［Ｓ（ｔ）］、すなわち、Ｓ（ｔ）は短区間定常過程である。

３．伝送路Ｈ（ｔ）は処理窓区間内で一定であり、したがって、Ｈ（ｔ）＝Ｈ、すなわち、短区間不変性が当てはまる。

４．音源の相関構造が時間不変線形フィルタモデルを満たす。すなわち、Ｅ［Ｓ（ｔ）Ｓ^T（ｔ＋τ）］＝Ａ（τ）Ｅ［Ｓ（ｔ）Ｓ^T（ｔ）］である。

これらの条件は、タイムラグが小さい（短区間構造）の場合には十分に満たされると考えられる。しかしながら、二番目の条件は、通常の期待値推定器、すなわち

を用いた場合には厳密には満たされない。したがって、本発明の一態様は円形の処理窓、すなわち

を利用する。

また、本発明の一態様では、上記の相関構造条件をより満たすために、発話有無検出器を利用して、相関判定時に無音フレームが確実に無視され、有音フレームのみが確実に考慮されるようにする。さらに、上記短区間不変条件をより満たすために、短い処理窓が利用される。このように、本発明の一態様によれば、発話信号の有無を識別する発話検出モジュール１９が実現され、この情報は、相関推定モジュール２０と平均化モジュール２４に利用されて、有音フレームのみが確実に考慮されるようにする。

本発明の一態様では、上述の方法がケプストラム領域で適用される。別の態様では、上記の方法は対数スペクトル領域で適用される。一態様では、平均二乗誤差問題を解くのに利用される対角化方法の精度を確保するため、ケプストラム領域または対数スペクトル領域の係数のダイナミックレンジを互いに同等にする。（通常、ケプストラム特徴量や対数スペクトル特徴量はベクトルであるので、複数の係数が存在する。）例えば、一態様では、長期間平均を減ずることによってケプストラム係数が正規化され、共分散行列が白色化される。別の態様では、ケプストラム係数の代わりに対数スペクトル係数が使用される。

本発明の一態様では、ケプストラム係数を利用して伝送路が除去される。別の態様では、対数スペクトルによる伝送路除去が行われる。対数スペクトルによる伝送路除去は、周波数が局在しているため、一部のアプリケーションには好ましい。

本発明の一態様では、４フレーム（４０ｍｓ）のタイムラグを利用して入来信号の相関を求める。この態様は、低い音声相関度と小さい仮説の固有誤差との間の有効な妥協策であることが分かっている。具体的には、処理窓が長すぎると、Ｈ（ｔ）が一定でなくなる可能性がある一方、処理窓が短すぎると、適切な相関推定値が得られない場合がある。

本発明の態様は、１個以上の専用信号処理要素（すなわち、上記の処理を実行するために特別に設計された要素）、適切なプログラムに制御される汎用デジタル信号プロセッサ、適切なプログラムに制御される汎用プロセッサやＣＰＵ、またはそれらの組合せを利用することによって、あるいは一部の態様ではさらに支援ハードウェア（例えばメモリ）を利用することによって実現可能である。実時間音声認識（例えば、車両の音声制御や口述入力コンピュータシステム）の場合には、マイクロホン等のトランスデューサと音声アナログ−デジタル変換器（ＡＤＣ）を用いれば、利用者から音声が入力される。汎用プログラム可能プロセッサやＣＰＵおよび／または汎用デジタル信号プロセッサを制御する命令は、ＲＯＭファームウェアの形、着脱可能であったり書換え可能であったりする必要は必ずしもないが、適切な媒体（例えば、フロッピーディスク、ＣＤ−ＲＯＭ、ＤＶＤ、フラッシュメモリ、ハードディスク）上の機械可読命令の形、あるいは別のコンピュータから受け取った信号（例えば、変調された電気搬送信号）の形で送ることができる。最後の例は、それ自体が機械可読な形の命令を記憶できる遠隔コンピュータからネットワークを介して受け取った命令である場合もある。

本明細書に記載した態様は、以下のようにさらに数学的に分析される。

ケプストラム領域（または対数スペクトル領域）で観測された伝送路によって破損した音声信号は、上述の方程式６によって特徴付けられる。信号Ｘの時刻ｔにおけるタイムラグτとの相関は以下のように示される。

C_X(τ) = E[X(t)X^T(t+τ)] (15)
上述の文中で定義された独立、短区間定常および短区間不変性の条件を仮定すれば、観測信号の相関は以下のように記述できる。

C_Y(τ) = C_S(τ) +μ_sH^T + Hμ_s ^T + HH^T (16)
但し、μ_s＝Ｅ［Ｓ（ｔ）］である。上記方程式７および８は、上述の文中で定義された短区間線形相関構造の条件を仮定することによって導出される。

効率的な最小化は、Ｎ₂ノルムにおける以下の最小化問題を考えることによって導出される。

但し、Ｘ＝［ｘ₁ｘ₂・・・ｘ_n］^Tであり、Ｂ＝（ｂ_i,j）_i,j∈_1,・・・,_nである。Ｂが対角化可能であるならば、Λ＝diag｛λ₁・・・λ_n｝を対角行列、Ｐ＝｛ｐ₁，・・・，ｐ_n｝をユニタリー行列とするとき、Ｂ＝ＰΛＰ^*と記述することができる。固有値λ₁・・・λ_nが昇順λ₁≧・・・≧λ_nにソートされると考えると、Ｙ＝Ｐ^TＸのとき、

と表すことができる。
また、

と記述することも可能である。
偏導関数を採用すれば、

となる。これら偏導関数をゼロに設定すると、

が得られる。
既述の方程式からλ₁＞・・・＞λ_nであると仮定したので、ｙ₁・・・ｙ_nのうちの多くても１個の係数はゼロではないということになる。それに反して、∃ｉ₁≠ｉ₂：ｙ_i1≠０，ｙ_i2≠０と仮定すると、

およびλ_i1≠λ_i2が得られるが、それは不可能である。さらに、Ｙがゼロでないベクトルであるとすると、

となる。

したがって、||ＹＹ^T−Λ||²＝Σ_i≠_i0λ_i ²であり、||ＹＹ^T−Λ||²を最小化する解はｉ₀＝１であると結論付けられる。このことは、また、最小化問題が２つの解Ｘ＝±λ₁ｐ₁（λ₁はＢの最大固有値、ｐ₁はそれに対応する固有ベクトル）を有していることも意味する。

本発明の態様によれば、音声信号を破損させる伝送路の効果的な推定が実現される。本明細書に記載の方法および装置を利用した実験は、標準的なケプストラム平均正規化技術よりも基礎となる仮定をより十分に検証できるので、より有効であることが分かった。これらの実験により、最小ノルム符号推定を用いた伝送路補償の場合、ＣＭＮと比べてケプストラムの静的特徴量が著しく改良されることも分かった。最尤符号推定の場合には、複数の音響モデルを同時に評価しながら、伝送路の符号を陰の変数とみなし、それを期待値最大化（ＥＭ）アルゴリズム中に最適化することが推奨される。

一般に、全体を通してケプストラム領域を利用する本発明の態様に関して、全体を通してケプストラム領域を利用する本発明の対応する態様が存在する。一方または他方の領域の設計上の選択がなされると、それを当該態様の全体を通して一貫して利用し、一方の領域から他方の領域へ余計に変換する必要をなくすようにすべきである。

本発明の記述は本質的に例示に過ぎず、したがって、本発明の種子から逸脱しない変型は本発明の範囲に包含されるものとする。そのような変型は本発明の精神および範囲から逸脱するものとみなすべきではない。

図１は本発明のブラインド伝送路推定装置の一態様の機能ブロック図である。図２は図１の態様での使用に適した最尤モジュールの２パス実施例のブロック図である。図３は図１の態様での使用に適した最尤モジュールの２パスＧＭＭ実施例のブロック図である。図４は本発明のブラインド伝送路推定装置の別の態様の機能ブロック図である。図５は本発明のブラインド伝送路推定方法の一態様を示すフロー図である。

Claims

伝送路によって破損した音声信号のブラインド伝送路推定方法であって、
雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換する工程と、
上記雑音のある音声信号の表現の相関を推定する工程と、
上記雑音のある音声信号の平均値を求める工程と、
最小化の制約の下に、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を構築および求解する工程と、
上記線形方程式系の解の符号を選択してある処理窓区間のクリーンな音声信号平均値を推定する工程を含む方法。
上記クリーンな音声信号平均値の推定値を用いて上記処理窓区間の伝送路平均値の推定値を求める工程と、
上記伝送路平均値の推定値を用いてより短時間の処理窓区間にわたって上記クリーンな音声信号の推定値を求める工程をさらに含んでいる請求項１記載の方法。
上記線形方程式系の解の符号を選択する工程は、最尤基準を用いて符号を選択する工程を含んでいる請求項１記載の方法。
上記線形方程式系の解の符号を選択する工程は、推定された伝送路雑音のノルムを最小化する符号を選択する工程を含んでいる請求項１記載の方法。
上記雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換する工程は、上記雑音のある音声信号をケプストラム領域に変換する工程である請求項１記載の方法。
上記雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換する工程は、上記雑音のある音声信号を対数スペクトル領域に変換する工程である請求項１記載の方法。
ほぼ雑音のない環境でクリーンな学習用音声信号を取得する工程と、該クリーンな学習用音声信号を用いて上記相関構造を求める工程をさらに含んでいる請求項１記載の方法。
上記相関構造はＡ＾（τ）と記述され、
上記雑音のある音声信号の表現は、Ｙ（ｔ）が雑音のある音声信号の表現であり、Ｓ（ｔ）が上記雑音のある音声信号のクリーンな音声の表現であり、Ｈ（ｔ）が伝送路の時間変動応答の表現であるとき、Ｙ（ｔ）＝Ｓ（ｔ）＋Ｈ（ｔ）と記述され、
上記雑音のある音声信号の表現の相関を推定する工程は、Ｃ_Y（τ）＝Ｅ［ＹｔＹ^T（ｔ＋τ）］であるＣ_Y（τ）を求める工程を含んでおり、
上記雑音のある音声信号の平均値を求める工程は、ｂ＝Ｅ［Ｙ（ｔ）］を求める工程を含んでおり、
上記線形方程式系を構築および求解する工程は、μ_sがクリーンな音声信号平均値の表現であり、

であり、ｂ＝Ｅ［Ｙ（ｔ）］であるとき、μ_sμ_s ^T＝ｂｂ^T‐Ａ＝Ｂかつμ_s＋Ｈ＝ｂと記述される線形方程式系をμ_sについて解くことを含んでいる請求項１記載の方法。
上記線形方程式系を構築および求解する工程は、

と記述される最小化の制約の下で上記線形方程式系を解く工程を含んでいる請求項８記載の方法。
上記線形方程式系を構築および求解する工程は、λ₁がＢの最大固有値であり、ｐ₁がそれに対応する固有ベクトルであるとき、μ_sを±λ₁ｐ₁として求める工程を含んでいる請求項８記載の方法。
最尤基準を用いてμ_sの符号を選択する工程をさらに含んでいる請求項１０記載の方法。
伝送路ケプストラムのノルム||Ｈ（ｔ）||²＝||Ｙ−μ_s||²を最小化するμ_sの符号を選択する工程をさらに含んでいる請求項１１記載の方法。
であり、Ｓ（ｔ）がｓ（ｔ）と記述されるクリーンな学習用音声信号のケプストラム表現または対数ケプストラム表現であるとき、
Ａ＾（τ）を上記クリーンな学習用音声信号ｓ（ｔ）から

の形で推定する工程をさらに含んでいる請求項８記載の方法。
伝送路によって破損した音声信号のブラインド伝送路推定装置であって、
雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換し、
上記雑音のある音声信号の表現の相関を推定し、
上記雑音のある音声信号の平均値を求め、
最小化の制約の下に、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を構築および求解し、
上記線形方程式系の解の符号を選択してある処理窓区間のクリーンな音声信号平均値を推定するように構成された装置。
上記クリーンな音声信号平均値の推定値を用いて上記処理窓区間の伝送路平均値の推定値を求め、
上記伝送路平均値の推定値を用いてより短時間の処理窓区間にわたって上記クリーンな音声信号の推定値を求めるようにさらに構成された請求項１４記載の装置。
上記線形方程式系の解の符号を選択するために、最尤基準を用いて符号を選択するように構成された請求項１４記載の装置。
上記線形方程式系の解の符号を選択するために、推定された伝送路雑音のノルムを最小化する符号を選択するように構成された請求項１４記載の装置。
雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換するために、上記雑音のある音声信号をケプストラム領域に変換するように構成された請求項１４記載の装置。
雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換するために、上記雑音のある音声信号を対数スペクトル領域に変換するように構成された請求項１４記載の装置。
ほぼ雑音のない環境でクリーンな学習用音声信号を取得し、該クリーンな学習用音声信号を用いて上記相関構造を求めるようにさらに構成された請求項１４記載の装置。
上記相関構造はＡ＾（τ）と記述され、
上記雑音のある音声信号の表現は、Ｙ（ｔ）が雑音のある音声信号の表現であり、Ｓ（ｔ）が上記雑音のある音声信号のクリーンな音声の表現であり、Ｈ（ｔ）が伝送路の時間変動応答の表現であるとき、Ｙ（ｔ）＝Ｓ（ｔ）＋Ｈ（ｔ）と記述され、
上記雑音のある音声信号の表現の相関を推定するために、Ｃ_Y（τ）＝Ｅ［ＹｔＹ^T（ｔ＋τ）］であるＣ_Y（τ）を求めるように構成されており、
上記雑音のある音声信号の平均値を求めるために、ｂ＝Ｅ［Ｙ（ｔ）］を求めるように構成されており、
線形方程式系を構築および求解するために、μ_sがクリーンな音声信号平均値の表現であり、

であり、ｂ＝Ｅ［Ｙ（ｔ）］であるとき、μ_sμ_s ^T＝ｂｂ^T‐Ａ＝Ｂかつμ_s＋Ｈ＝ｂと記述される線形方程式系をμ_sについて解くように構成された請求項１４記載の装置。
線形方程式系を構築および求解するために、

と記述される最小化の制約の下で上記線形方程式系を解くように構成された請求項２１記載の装置。
線形方程式系を構築および求解するために、λ₁がＢの最大固有値であり、ｐ₁がそれに対応する固有ベクトルであるとき、μ_sを±λ₁ｐ₁として求めるように構成された請求項２１記載の装置。
最尤基準を用いてμ_sの符号を選択するようにさらに構成された請求項２３記載の装置。
伝送路ケプストラムのノルム||Ｈ（ｔ）||²＝||Ｙ−μ_s||²を最小化するμ_sの符号を選択するようにさらに構成された請求項２４記載の装置。
であり、Ｓ（ｔ）がｓ（ｔ）と記述されるクリーンな学習用音声信号のケプストラム表現または対数ケプストラム表現であるとき、
Ａ＾（τ）を上記クリーンな学習用音声信号ｓ（ｔ）から

の形で推定するようにさらに構成された請求項２１記載の装置。
プログラム可能プロセッサおよびデジタル信号プロセッサからなる群のうち少なくとも１つの要素を備えた装置に対して、
雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換し、
上記雑音のある音声信号の表現の相関を推定し、
上記雑音のある音声信号の平均値を求め、
最小化の制約の下に、クリーンな学習用音声信号の相関構造と、上記雑音のある音声信号の表現の相関と、上記雑音のある音声信号の平均値とを用いて線形方程式系を構築および求解し、
上記線形方程式系の解の符号を選択してある処理窓内のクリーンな音声信号平均値を推定する指示を行うように構成された命令を記録した機械可読媒体。
上記命令は、
上記クリーンな音声信号平均値の推定値を用いて上記処理窓区間の伝送路平均値の推定値を求め、
上記伝送路平均値の推定値を用いてより短時間の処理窓区間にわたって上記クリーンな音声信号の推定値を求める命令を含んでいる請求項２７記載の媒体。
上記線形方程式系の解の符号を選択するために、上記記録された命令は最尤基準を用いて符号を選択する命令を含んでいる請求項２７記載の媒体。
上記線形方程式系の解の符号を選択するために、上記記録された命令は推定された伝送路雑音のノルムを最小化する符号を選択する命令を含んでいる請求項２７記載の媒体。
雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換するために、上記記録された命令は上記雑音のある音声信号をケプストラム領域に変換する命令を含んでいる請求項２７記載の媒体。
雑音のある音声信号をケプストラム表現および対数スペクトル表現からなる群から選択された表現に変換するために、上記記録された命令は上記雑音のある音声信号を対数スペクトル領域に変換する命令を含んでいる請求項２７記載の媒体。
上記記録された命令は、ほぼ雑音のない環境でクリーンな学習用音声信号を取得し、該クリーンな学習用音声信号を用いて上記相関構造を求める命令をさらに含んでいる請求項２７記載の媒体。
上記相関構造はＡ＾（τ）と記述され、
上記雑音のある音声信号の表現は、Ｙ（ｔ）が雑音のある音声信号の表現であり、Ｓ（ｔ）が上記雑音のある音声信号のクリーンな音声の表現であり、Ｈ（ｔ）が伝送路の時間変動応答の表現であるとき、Ｙ（ｔ）＝Ｓ（ｔ）＋Ｈ（ｔ）と記述され、
上記雑音のある音声信号の表現の相関を推定するために、上記記録された命令はＣ_Y（τ）＝Ｅ［ＹｔＹ^T（ｔ＋τ）］であるＣ_Y（τ）を求める命令を含んでおり、
上記雑音のある音声信号の平均値を求めるために、上記記録された命令はｂ＝Ｅ［Ｙ（ｔ）］を求める命令を含んでおり、
線形方程式系を構築および求解するために、上記記録された命令は、μ_sがクリーンな音声信号平均値の表現であり、

であり、ｂ＝Ｅ［Ｙ（ｔ）］であるとき、μ_sμ_s ^T＝ｂｂ^T‐Ａ＝Ｂかつμ_s＋Ｈ＝ｂと記述される線形方程式系をμ_sについて解く命令を含んでいる請求項２７記載の媒体。
線形方程式系を構築および求解するために、上記記録された命令は、

で記述される最小化の制約の下で上記線形方程式系を解く命令を含んでいる請求項３４記載の媒体。
線形方程式系を構築および求解するために、上記記録された命令は、λ₁がＢの最大固有値であり、ｐ₁がそれに対応する固有ベクトルであるとき、μ_sを±λ₁ｐ₁として求める命令を含んでいる請求項３４記載の媒体。
上記記録された命令は最尤基準を用いてμ_sの符号を選択する命令をさらに含んでいる請求項３６記載の媒体。
上記記録された命令は、伝送路ケプストラムのノルム||Ｈ（ｔ）||²＝||Ｙ−μ_s||²を最小化するμ_sの符号を選択する命令をさらに含んでいる請求項３７記載の媒体。
上記記録された命令は、

であり、Ｓ（ｔ）がｓ（ｔ）と記述されるクリーンな学習用音声信号のケプストラム表現または対数ケプストラム表現であるとき、
Ａ＾（τ）を上記クリーンな学習用音声信号ｓ（ｔ）から

の形で推定する命令をさらに含んでいる請求項３４記載の媒体。