JP2009116275A - 雑音抑圧、音声スペクトル平滑化、音声特徴抽出、音声認識及び音声モデルトレーニングための方法及び装置 - Google Patents
雑音抑圧、音声スペクトル平滑化、音声特徴抽出、音声認識及び音声モデルトレーニングための方法及び装置 Download PDFInfo
- Publication number
- JP2009116275A JP2009116275A JP2007292350A JP2007292350A JP2009116275A JP 2009116275 A JP2009116275 A JP 2009116275A JP 2007292350 A JP2007292350 A JP 2007292350A JP 2007292350 A JP2007292350 A JP 2007292350A JP 2009116275 A JP2009116275 A JP 2009116275A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- noise
- spectrum
- noise suppression
- speech spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】雑音抑圧、音声スペクトル平滑化、音声特徴抽出、音声認識及び音声モデルトレーニング方法及び装置を提供すること。
【解決手段】雑音抑圧方法は合流型超幾何関数が区分線形関数によって近似される、最小平均二乗誤差推定によって行われ、これが雑音低減性能を維持しながら計算負荷を大きく低減する。更に、極低エネルギの周波数成分の生成を避けるために、本発明は最小平均二乗誤差推定後に等比級数重みによって時間及び周波数軸の両方に音声スペクトルを平滑化する。更に、本発明は事前信号雑音比を調整することによって雑音抑圧と音声歪みとのバランスを取る。
【選択図】図1
【解決手段】雑音抑圧方法は合流型超幾何関数が区分線形関数によって近似される、最小平均二乗誤差推定によって行われ、これが雑音低減性能を維持しながら計算負荷を大きく低減する。更に、極低エネルギの周波数成分の生成を避けるために、本発明は最小平均二乗誤差推定後に等比級数重みによって時間及び周波数軸の両方に音声スペクトルを平滑化する。更に、本発明は事前信号雑音比を調整することによって雑音抑圧と音声歪みとのバランスを取る。
【選択図】図1
Description
本発明は音声認識及び雑音抑圧の技術及び音声スペクトルを平滑化する技術に関する。
一般的な自動音声認識(ASR)システムはクリーン音声認識に対して非常に高い精度を得ることができるが、その性能は音響モデルと音響特徴との間の不整合により雑音環境においてかなり低下する。
雑音耐性問題に対してなされた努力の殆どは音声特徴空間での不整合を減じることを目的としているフロントエンドデザインに集中している。最小平均二乗誤差(MMSE)推定は背景雑音を効果的に抑圧でき、入力信号の信号雑音比(SNR)を連続的に改善できる音声強調アルゴリズムである。最小平均二乗誤差推定は例えば、文献"Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator", Y. Ephraim and D. Malah, IEEE Trans. Acoustic, Speech, and Signal Processing, Vol. ASSP-32, pp.1109-1121, 1984.に詳細に説明されている。この文献では、短時間スペクトル振幅(Short-Time Spectral Amplitude (STSA))はMMSE推定によって推定され、MMSE STSAで推定するシステムが提案されており、このシステムはウィンナーフィルタ及びスペクトルサブトラクションアルゴリズム(Spectral Subtraction Algorithm)に基づく幅広く使用されているシステムと比較される。その全てが引用して援用される。
フロントエンドにおいてMMSE推定を適用することは耐性を改善する有望な方法である。しかしながら、上記フレームワークにおいて3つの問題を解決する必要がある。
1.(テイラシリーズ累積(Taylor series accumulation)によって計算される)合流型超幾何関数(confluent hyper-geometric function)の計算は膨大な計算負荷となる。
2.干渉雑音の極端な減少によって被る周波数帯域での極端な低エネルギは認識性能を低下させることになる。
3.MMSE推定での戦略は音声認識にとっては通常最適ではない。
従来技術の上記問題を解決するために、本発明は雑音抑圧、音声スペクトルの平滑化、音声特徴の抽出、音声認識及び音声モデルのトレーニングのための方法及び装置を提供する。
本発明の一態様によると、雑音混入音声スペクトルの雑音抑圧方法であって、雑音混入スペクトル(noise-included speech spectrum)の雑音を抑圧するため、雑音推定スペクトルを用いて雑音混入音声スペクトルに最小平均二乗誤差推定(minimum mean-square error estimation)を行うことを含み、合流型超幾何関数は最小平均二乗誤差推定を行うために区分線形関数(piece-wise linear function)と置き換えられる、雑音抑圧方法が提供される。
本発明の他の態様によると、雑音低減音声スペクトルの雑音抑圧方法であって、雑音低減音声スペクトルの雑音を低減するために事前信号雑音比(priori signal-noise-rate)を用いて雑音混入音声スペクトルに最小平均二乗誤差推定を行うステップと、適正な雑音抑圧を得るために事前信号雑音比を調整するステップとを含む雑音低減音声スペクトルの雑音抑圧方法が提供される。
本発明の他の態様によると、音声スペクトルを平滑化する方法であって、音声スペクトルの各スペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み付け平均を等比級数重み(geometric series weights)で計算するステップと、及びスペクトルコンポーネントのエネルギを計算された重み平均によって調整するステップと、を含む、音声スペクトル平滑する方法が提供される。
本発明の他の態様によると、雑音混入音声を雑音混入音声スペクトルに変換するステップと、上述の雑音抑圧方法を用いて雑音混入スペクトルの雑音を低減するステップと、雑音混入音声スペクトルから音声特徴を抽出するステップとを含む、音声特徴抽出方法が提供される。
本発明の他の態様によると、音声を音声スペクトルに変換するステップと、上述の音声スペクトル平滑化方法を用いて音声スペクトルを平滑化するステップと、平滑化音声スペクトルから音声特徴を抽出するステップとを含む音声特徴抽出方法が提供される。
本発明の他の態様によると、上述の音声特徴抽出方法を用いて音声から音声特徴を抽出するステップと、抽出された音声特徴に基づいて音声を認識するステップとを含む、音声認識方法が提供される。
本発明の他の態様によると、上述の音声特徴抽出方法を用いて音声から音声特徴を抽出するステップと、抽出された音声特徴に基づいて音声モデルをトレーニングするステップとを含む、音声モデルトレーニング方法が提供される。
本発明の他の態様によると、雑音混入音声を雑音混入音声スペクトルに変換するステップと、上述の雑音抑圧方法を用いて雑音混入音声スペクトルの雑音を低減するステップと、雑音低減音声スペクトルから音声特徴を抽出するステップと、抽出された音声特徴に基づいて雑音混入音声を認識するステップと、音声認識結果に基づいて事前音声信号非の最適値を決定するステップとを含む、音声認識方法。
本発明の他の態様によると、雑音混入音声スペクトルのための雑音抑圧装置であって、雑音混入音声スペクトルの雑音を低減するため雑音推定スペクトルによって雑音混入音声スペクトルに最小平均二乗誤差推定を行うように構成された推定部を具備し、推定部は最小平均二乗誤差推定を行うため合流型超幾何関数を区分線形関数に置き換えるように構成された雑音抑圧装置が提供される。
本発明の他の態様によると、雑音低減音声スペクトルの雑音抑圧装置であって、雑音低減音声スペクトルの雑音を低減するために事前信号雑音比を用いて雑音混入音声スペクトルに最小平均二乗誤差推定を行うように構成された推定部と、適正な雑音抑圧を得るために事前信号雑音比を調整するように構成された調整部と、を含む、雑音抑圧装置が提供される。
本発明の他の態様によると、音声スペクトルを平滑化する装置であって、音声スペクトルの各スペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み付け平均を等比級数重みによって計算するように構成された重み付け平均化部と、重み付け平均化部によって計算されたスペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み付け平均を用いてスペクトルコンポーネントを調整するように構成された平滑調整部とを具備する、音声スペクトル平滑化装置が提供される。
本発明の他の態様によると、音声特徴を抽出する装置であって、雑音混入音声を雑音混入音声スペクトルに変換するように構成された変換部と、雑音混入音声スペクトルの雑音を低減するように構成された上述の雑音抑圧部と、雑音低減音声スペクトルから音声特徴を抽出するように構成された抽出部と、を具備する、音声特徴抽出装置が提供される。
本発明の他の態様によると、音声を音声スペクトルに変換するように構成された変換部と、前記音声スペクトルを平滑化するように構成された上述の音声スペクトル平滑部と、前記平滑化音声スペクトルから音声特徴を抽出するように構成された抽出部と、を具備する、音声特徴抽出装置が提供される。
本発明の他の態様によると、音声特徴を抽出するように構成された上述の音声特徴抽出部と、抽出した前記音声特徴に基づいて音声を認識するように構成された音声認識部と、を具備する、音声認識装置が提供される。
本発明の他の態様によると、音声特徴を抽出する上述の装置と、抽出した音声特徴に基づいて音声モデルをトレーニングするように構成されたモデルトレーニング部とを具備する、音声モデルトレーニング装置が提供される。
本発明の他の態様によると、雑音混入音声を雑音混入音声スペクトルに変換するように構成された変換部と、雑音混入音声スペクトルの雑音を低減するように構成された上述の雑音抑圧部と、雑音低減音声スペクトルから音声特徴を抽出するように構成された抽出部と、抽出された前記音声特徴に基づいて雑音混入音声を認識するように構成された音声認識部と、音声認識結果に従って事前信号雑音比の最適値を決定するように構成された決定部とを具備する、音声認識装置が提供される。
図面と関連して、本発明の実施形態の下記詳細な説明を通して上記特徴、利点及び億滴がより良く理解できるであろう。
次の実施形態を容易に理解するために、先ず最小平均二乗誤差推定の連理について簡単に説明する。
最小平均二乗誤差(MMSE)推定は音声強調アルゴリズムであり、背景雑音の推定スペクトルによって雑音混入音声スペクトル(noise-included speech spectrum)の雑音を抑圧する。
次に、本発明の各実施形態の詳細な説明を添付図を関連して行う。
図1は本発明の実施形態に従った雑音抑圧方法を示すフローチャートである。図1に示すように、先ずステップ1で、雑音混入音声スペクトルが入力される。雑音混入音声スペクトルは背景雑音及び音声を含むボイスデータに基づいて、例えば、高速フーリエ変換によって得られる音声スペクトルであり、故に、それは背景雑音及び音声を含むスペクトルである。
次に、ステップ105で、雑音混入音声が事前推定雑音推定スペクトルに従って最小平均二乗誤差推定によって推定される。雑音推定スペクトルは音声を含めないで背景雑音を事前推定して得られる。雑音推定スペクトルを得るためには多くの方法がある、例えば、何時間も収集された雑音スペクトルを平均化する。特に、最小平均二乗誤差推定は式(1)及び(2)に従って行われ、合流型超幾何関数は区分線形関数(piece-wise linear function)と置き換えられ、変換後の式は
この実施形態では、合流型超幾何関数M(υk)が複数のプリセットセグメンテーションポイントによって区分線形関数L(υk)と近似できる。例えば、合流型超幾何関数M(υk)は次のステップによって区分線形関数L(υk)に近似できる。
特に、図2A−2Dは区分線形関数のセグメンテーションポイントを設定する手順の例を示し、図2Aは合流型超幾何関数の曲線h(v)を示し、図2Bは合流型超幾何関数の微分の曲線を示し、図2Cは合流型超幾何関数と区分線形関数との差の曲線を示し、図2Dはセグメンテーション後の区分線形関数の曲線pwlf(v)を示す。
最初に、図2Bに示されるように合流型超幾何関数h(v)の微分が計算される。この例では、微分値が0.05と0.50との範囲内にある曲線だけが便宜上一例として選択される。
次に、区分線形関数pwlf(v)の初期セグメンテーションポイントが図2Bに示されるように設定される。この例では、例えば、初期セグメンテーションポイントが0.10, 0.15, 0.20, 0.25, 0.30, 0.35, 0.40及び0.45の微分値で設定される。
次に、処理セグメンテーションポイントの各2つのセグメンテーションポイント間において区分線形関数pwlf(v)と合流型超幾何関数h(v)との差が図2Cに示すように計算される。
次に、各2つの連続セグメンテーションポイント間において2つの関数の値の間で計算される差が、例えば、この実施形態において、0.037に予め設定されるプリセット閾値と比較される。比較によって、差が0.037を超えていれば、新たなセグメンテーションポイントが2つの連続するセグメンテーションポイント、例えば、0.10と0.15との間に、例えば、それらの中間点に挿入できる。
差を計算するステップとその後のステップは閾値より大きい差が無くなるまで繰り返される。それによって、図2Dに示されるような区分線形関数が得られる。
図1に戻って、雑音がMMSE推定によって低減されるスペクトルが合流型超幾何関数h(v)の代わりに区分線形関数pwlf(v)によって最小平均二乗誤差推定を行った後にステップ110で出力される。
実施形態の雑音抑圧方法を用いることによって、合流型超幾何関数を雑音低減性能が区分線形関数と置き換えることによって維持しながらMMSE推定の計算負荷が大きく減ぜられる。
同じ発明概念に基づいて、図3は本発明の他の実施形態に従った雑音抑圧方法を示すフローチャートである。次に、本実施形態を図3と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
図3に示されるように、先ずステップ301で、雑音混入スペクトルが入力される。雑音混入スペクトルは背景雑音及び音声を含む。
同様に、この実施形態では、最小平均二乗誤差推定が合流型超幾何関数h(v)を区分線形関数pwlf(v)と置き換えて行われる、即ち、最小平均二乗誤差推定が式(3)及び(4)によって行われる。
次に、ステップ310で、雑音がMMSE推定によって低減されている音声スペクトルが出力される。
次に、ステップ315で、音声スペクトルが最適であるかどうか、即ち、雑音低減及び音声歪みが最適バランスに達しているかどうかが決定される。音声スペクトルが最適であれば、そのとき、処理はステップ320で終了する。そうでなければ、係数aが調整され、処理はステップ305に戻り、MMSE推定が適正な結果が得られるまで連続して行われる。
特に、図4A-4Cは雑音抑圧と音声歪みとのバランスの例を示し、図4Aは事前SNRを調整しない初期MMSE強調スペクトルを示し、図4Bは事前SNRを減少して調整された音声スペクトルを示し、図4Cは事前SNRを増加して調整された音声スペクトルを示す。
係数a、即ち、事前信号雑音比ξが図4Bに示されるように減少すれば、雑音抑圧及び音声歪みは増加することが図から明らかに知ることができる。これに対して、係数a、即ち、事前信号雑音比ξが図4Cに示すように増加すれば、雑音抑圧及び音声歪みは減少する。調整が適正であるかを決定するために使用される基準が正しい認識率である。認識率がプリセット値より大きければ、調整は終了する。
本発明の雑音抑圧方法は事前信号雑音比ξをaξと置き換えて事前信号雑音比ξを調整できるので、雑音低減と音声歪みとのバランスが調整でき、それによって満足な結果が得られることは上記説明から知ることができる。
更に、本実施形態の雑音抑圧方法は雑音抑圧性能を維持しながらMMSE推定の計算負荷が大きく増加できるように合流型超幾何関数を置き換えるために上述の雑音抑圧方法において区分線形関数も使用できる。
同じ発明概念に基づいて、図5は本発明の他の実施形態に従った音声スペクトル平滑化方法を示すフローチャートである。次に、本実施形態を図5と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
図5に示すように、先ずステップ501で、上記実施形態における純粋音声スペクトル、雑音混入音声スペクトルのような音声スペクトル又は上記実施形態を通しての雑音抑圧後の音声スペクトルが入力され、実施形態は音声スペクトルに特別な制限がない。
次に、ステップ505で、入力された音声スペクトルは等比級数重み(geometric series weights)で平滑化され、音声スペクトルのスペクトルコンポーネント毎に、それ及びその隣接スペクトルコンポーネントのエネルギがそのエネルギとして重み付け平均化され、重みは等比級数重みである。
特に、図6A-6Bは音声スペクトルを平滑化する例を示し、図6Aは平滑化前の音声スペクトルを示し、図6Bは平滑化後のスペクトルを示す。図6Aにおいて、例えば、時間t=10及び周波数k=30の場合のスペクトルコンポーネントE(10,30)が平滑化される。E(10,30)はスペクトルコンポーネントのエネルギを示す。平滑化の具体的方法は次の3つの方法を含む。
(1)時間軸で、即ち、周波数毎に、各フレーム及びその近接フレームのエネルギが周波数及びフレームのエネルギとして重み付け平均される。例えば、周波数k=30に対して、フレームがt=10の場合のスペクトルコンポーネントのエネルギは
E(10,30)= (E(10,30)×d1+ E(9,30)×d2+ E(11,30)×d2+ E(8,30)×d3+ E(12,30)×d3+ …)/(d1+ 2d2+ 2d3+ …)
として平滑化される。
E(10,30)= (E(10,30)×d1+ E(9,30)×d2+ E(11,30)×d2+ E(8,30)×d3+ E(12,30)×d3+ …)/(d1+ 2d2+ 2d3+ …)
として平滑化される。
d1, d2, d3, …はステップダウン等比級数重みである。他のフレームのスペクトルコンポーネントは同じように平滑化される。
(2)周波枢軸で、即ち、フレーム毎に、各周波数及びその隣接周波数のエネルギが周波数及びフレームのエネルギとして重み付け平均化される。例えば、フレームt=10に対して、k=30スペクトルコンポーネントのエネルギが
E(10,30)=(E(10,30)×d1+ E(10,29)×d2+ E(10,31)×d2+ E(10,28)×d3+ E(10,32)×d3+ …)/(d1+ 2d2+ 2d3+ …)
として平滑化される。
E(10,30)=(E(10,30)×d1+ E(10,29)×d2+ E(10,31)×d2+ E(10,28)×d3+ E(10,32)×d3+ …)/(d1+ 2d2+ 2d3+ …)
として平滑化される。
d1, d2, d3, …はステップダウン等比級数重みである。他のフレームのスペクトルコンポーネントは同じ方法で平滑化される。
(3)同時に、時間及び周波数軸で、各周波数及び各フレームの周波数並びにそれの隣接周波数及びフレームのエネルギはフレーム及び周波数のエネルギとして重み付け平均化される。例えば、フレームがt=10、周波数がk=30の場合のスペクトルコンポーネントのエネルギは
E(10,30)=(E(10,30)×d1+ E(9,30)×d2+ E(11,30)×d2+ E(10,29)×d2+ E(10,31)×d2+ E(8,30)×d3+ E(12,30)×d3+ E(10,28)×d3+ E(10,32)×d3+…)/(d1+ 4d2+ 4d3+ …)
として平滑化される。
E(10,30)=(E(10,30)×d1+ E(9,30)×d2+ E(11,30)×d2+ E(10,29)×d2+ E(10,31)×d2+ E(8,30)×d3+ E(12,30)×d3+ E(10,28)×d3+ E(10,32)×d3+…)/(d1+ 4d2+ 4d3+ …)
として平滑化される。
但し、d1, d2, d3, …はステップダウン等比級数重みである。他の周波数及びフレームのスペクトルコンポーネントは同じ方法で平滑化される。更に、時間及び周波数領域に対して、異なる等比級数重みが使用できる。
図6Bは平滑化後の音声スペクトルを示す。平滑化後の音声スペクトルのエネルギは極低エネルギを持つオリジナルスペクトルコンポーネントのエネルギに比べて増加できることが分かる。
図5に戻って、平滑化後の音声スペクトルは入力された音声スペクトルがステップ510において等比級数重みで平滑化された後に出力される。
極低エネルギを持つオリジナルスペクトルコンポーネントは実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントを隣接スペクトルコンポーネントのエネルギの重み付け平均で平滑化することによって隣接スペクトルコンポーネントのエネルギで満たすことができ、それによって音声スペクトルの品質が改良できることは上記説明により知ることができる。
同じ発明概念に基づいて、図7は本発明の他の実施形態に従って音声特徴を抽出する方法を示すフローチャートである。次に、本実施形態を図7と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
図7に示すように、先ずステップ701で、話者の音声及び背景雑音を含む雑音混入音声が入力される。
次に、ステップ705で、雑音混入音声は、例えば、高速フーリエ変換(FFT)によって時間領域の音声を周波数領域の音声スペクトルに変換することによって雑音混入音声に変換される。
次に、ステップ710で、雑音混入音声スペクトルの雑音が図1及び2における上記実施形態に従った雑音抑圧方法によって低減される。雑音抑圧方法は最小平均二乗誤差推定を式(3)及び(2)によって行う。合流型超幾何関数は区分線形関数に置き換えられる。雑音抑圧の具体的手順は上述した実施形態と同じであり、それ故にここでは説明を省略する。
更に、雑音混入音声スペクトルの雑音は図3及び4の上記実施形態に従った雑音抑圧方法によって低減できる。雑音抑圧方法は式(1)及び(4)又は式(3)及び(4)によって最小平均二乗誤差推定を行い、事前信号雑音比ξはaξに置き換えられる。雑音抑圧の具体的手順は上記実施例のそれと同じであり、故に説明を省略する。
最後に、ステップ715で、音声特徴は雑音混入音声スペクトルから抽出される。特に、音声特徴はメル周波数ケプストラ係数(Mel Frequency Cepstral Coefficient:MFCC)又は線形予測ケプストラ係数(Linear Predictive Cepstral Coefficient:LPCC)などのような一般的方法によって抽出でき、本発明はこれに特に限定されない。
実施形態に従った音声特徴抽出方法は雑音混入音声スペクトルから音声特徴を抽出する前に式(3)及び(2)によって最小平均二乗誤差推定を行うことができ、この場合、区分線形関数は合流型超幾何関数に置き換えて使用されるので、MMSE推定の計算負荷は雑音低減制度維持しながら大きく低減され、それによって音声特徴の品質が改善できることは上記の説明から知ることができる。
更に、実施形態に従った音声特徴抽出方法は雑音混入音声スペクトルから音声特徴を抽出する前に式(1)及び(4)によって最小平均二乗誤差推定を行うことができる。この場合、雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するためaξは事前信号雑音比ξに置き換えるために用いられ、それによって音声特徴の品質が改善できる。
更に、実施形態は雑音を低減するために最小平均二乗誤差推定を式(3)及び(4)によって行うことができ、それによって、雑音低減と音声歪みのバランスが制御されながらMMSE推定の計算負荷が大きく低減される。従って、音声特徴の品質が改善できる。
同じ発明概念に基づいて、図8は本発明の他の実施形態に従った音声特徴抽出方法を示すフローチャートである。次に、本実施形態を図8と関連して説明する、上記実施形態と同じ部分はその説明を適宜省略する。
図8に示すように、最初にステップ801で、純粋音声又は雑音混入音声のような音声が入力される。実施形態は音声に特に限定しない。
次に、ステップ805で、音声は、例えば、高速フーリエ変換(FFT)によって時間領域の音声を周波数領域の音声スペクトルに変換することによって音声スペクトルに変換される。ここで、音声が雑音を含んでいれば、変換された音声スペクトルの雑音は上述の実施形態の雑音抑圧方法によって抑圧できる。
次に、ステップ810で、音声スペクトルは音声スペクトルを平滑化する上記方法によって平滑化できる。特に、音声スペクトルは上述の3つの平滑化方法の1つ又はその組み合わせによって平滑化できる。平滑化の具体的手順は上述の実施形態のそれと同じであり、故に、ここでは説明を省略する。
最後に、ステップ815で、音声特徴が平滑化された音声スペクトルから抽出される。特に、音声特徴はメル周波数ケプストラ係数(Mel Frequency Cepstral Coefficient:MFCC)又は線形予測ケプストラ係数(Linear Predictive Cepstral Coefficient:LPCC)などのような一般的方法によって抽出できる。本発明はこれに特に限定されない。
音声特徴抽出方法は音声特徴を音声スペクトルから抽出する前に実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントをその隣接スペクトルコンポーネントのエネルギの重み付け平均によってスペクトルコンポーネントを平滑化することによってオリジナルスペクトルコンポーネントを極低エネルギで満たすことができるので、音声スペクトルの品質は改善できることは上記説明から知ることができる。従って、音声特徴の品質が改善できる。
更に、実施形態では、音声が雑音を含んでいれば、雑音は図1及び2の実施形態に従った雑音抑圧方法を用いて式(3)及び(2)によって最小平均二乗誤差推定を行うことによって低減できる。この場合、区分線形関数は合流型超幾何関数を置き換えるために使用され、それにより雑音低減性能は維持されながらMMSE推定の計算負荷が大きく減ぜられ、音声特徴の品質が改善できる。
更に、実施形態では、音声が雑音を含んでいれば、雑音は図3及び4の実施形態に従った雑音抑圧方法を用いて式(1)及び(4)によって最小平均二乗誤差推定を行うことによって低減される。この場合、雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するためaξは事前信号雑音比ξを置き換えるために使用され、それによって音声特徴の品質が改善される。
更に、実施形態は式(3)及び(4)によって最小平均二乗誤差推定を行うことができ、それによってMMSE推定の計算負荷が大きく減少され、更に雑音低減と音声歪みとのバランスが制御できる。従って、音声特徴の品質が改善される。
同じ発明概念に基づいて、図9は本発明の他の実施形態に従った音声認識方法を示すフローチャートである。次に、本実施形態を図9と関連して説明する。上記実施形態と同じ部分に対しては、その説明を適宜省略する。
図9に示されるように、先ずステップ901で、音声特徴が図7及び8の実施形態に従った上述の音声特徴抽出方法を用いて抽出される。抽出の具体的な手順は上記実施形態のそれと同じであり、故にその説明を省略する。
次に、ステップ905で、音声認識が抽出された音声特徴に従って行われる。特に、例えば、抽出された音声特徴は音声の内容情報を認識するために以前にトレーニングしたテンプレートと比較できる。本発明はこれに限定されない。
実施形態に従った音声認識方法において、極低エネルギを持つオリジナルスペクトルコンポーネントは音声スペクトルから音声特徴を抽出する前に実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントをその隣接スペクトルコンポーネントのエネルギの重み付平均で平滑化することによって隣接スペクトルコンポーネントのエネルギで満たすことができ、それによって音声スペクトルの品質が改善できることは上記説明から知ることができる。従って、音声認識性能が改善できる。
更に、実施形態においては、音声が雑音を含んでいれば、雑音は式(3)及び(2)によって最小平均二乗誤差推定を行うことによって低減できる。この場合、区分線形関数が雑音混入スペクトルから音声特徴を抽出する前に合流型超幾何関数を置き換えるために使用され、それによって雑音低減性能を維持しながらMMSE推定の計算負荷が大きく低減し、音声認識性能が改善される。
更に、随意的に、実施形態に従った音声認識方法は式(1)及び(4)によって最小平均二乗誤差推定を行うことによって雑音を低減できる。この場合、音声特徴を雑音混入音声スペクトルから抽出する前に雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するためにaξが事前信号雑音比ξを置き換えるために使用され、これによって音声認識性能が改善できる。
更に、実施形態は式(3)及び(4)によって最小平均二乗誤差推定を行うことができ、それによってMMSE推定の計算負荷が大きく低減し、更に雑音低減と音声歪みとのバランスが制御できる。従って、音声認識性能が改善される。
同じ発明概念に基づいて、図10は本発明の他の実施形態に従った音声モデルをトレーニングする方法を示すフローチャートである。上記実施形態と同じ部分については、その説明を適宜省略する。
図10に示すように、先ずステップ1001で、音声特徴が図7又は8の実施形態に従った上記音声特徴抽出方法を用いて抽出される。抽出の具体的手順は上記実施形態と同じであり、故にその説明を省略する。
次に、ステップ1005で、音声モデルが抽出された音声特徴に従ってトレーニングされる。
実施形態に従った音声認識方法において、極低エネルギを持つオリジナルスペクトルコンポーネントは音声特徴を音声スペクトルから抽出する前に実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントを隣接スペクトルコンポーネントのエネルギの重み付平均により平滑化することによって隣接スペクトルコンポーネントのエネルギで満たすことができ、それによって音声スペクトルの品質が改善できることは上記説明から知ることができる。従って、トレーニングされた音声モデルの品質が改善できる。
更に、実施形態では、音声が雑音を含んでいれば、雑音は式(3)及び(2)によって最小平均二乗誤差推定を行うことによって低減できる。この場合、区分線形関数は合流型超幾何関数を置き換えるために使用され、それによって雑音低減性能を維持しながらMMSE推定の計算負荷が大きく低減され、トレーニングされた音声モデルの品質が改善できる。
更に、随意的に、実施形態に従った音声モデルトレーニング方法は式(1)及び(4)によって最小平均二乗誤差推定を行って雑音を低減できる。この場合、音声特徴を雑音混入音声スペクトルから抽出する前に雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するためaξが事前信号雑音比ξを置き換えるために使用され、それによってトレーニングされた音声モデルの品質が改善される。
更に、実施形態に従った音声モデルトレーニング方法は式(3)及び(4)によって最小平均二乗誤差推定を行うことができ、それによってMMSE推定の計算負荷が大きく低減され、更に雑音低減と音声歪みとのバランスが制御できる。従って、トレーニングされた音声モデルの品質が改善される。
同じ発明概念に基づいて、図11は本発明の他の実施形態に従った音声認識方法を示すフローチャートである。次に、本実施形態は図11と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
図11に示すように、先ずステップ1101で、話者の音声及び背景雑音を含む雑音混入音声が入力される。
次に、ステップ1105で、雑音混入音声が、例えば、高速フーリエ変換(FFT)によって時間領域の音声を周波数領域の音声スペクトルに変換することによって雑音混入音声スペクトルに変換される。
次に、ステップ1110で、雑音混入スペクトルの雑音が図3及び4の上記実施形態に従った雑音抑圧方法によって低減される。雑音抑圧方法は式(1)及び(4)又は式(3)及び(4)によって最小平均二乗誤差推定を行う。雑音抑圧の具体的な手順は上記実施形態のそれと同じであるので、その説明を省略する。
次に、ステップ1115で、音声特徴が雑音低減音声スペクトルから抽出される。特に、音声特徴はメル周波数ケプストラ係数(MFCC)又は線形予測ケプストラ係数(LPCC)などのような一般の方法によって抽出でき、本発明はこれに特に限定されない。
次に、ステップ1120で、音声は抽出された音声特徴に従って認識される。特に、例えば、抽出された音声特徴は音声の内容情報を認識するために以前にトレーニングされたテンプレートと比較できる。本発明はこれに限定されない。
次に、ステップ1125で、音声認識結果が認識の正確率に従って最適であるか否かが決定され、それは正確率が所定の閾値より大きいか否かを決定することになる。それが最適であれば、処理はステップ1130で終了する。最適でなければ、係数aが音声認識結果に従って調整され、処理は満足な結果が得られるまでMMSE推定を継続するためにステップ1110に戻る。調整の具体的な手順は図3及び4の上述の実施形態におけるそれと同じであり、故に、その説明を省略する。
実施形態に従った音声認識方法が音声認識結果に従ってMMSE推定を効率的に調整できるので音声認識性能は改善できることは上記説明から知ることができる。
同じ発明概念に基づいて、図12は本発明の実施形態に従った雑音抑圧装置を示すブロック図である。次に、本実施形態が図12と関連して説明する。上記実施形態と同じ部分についてはその説明を適宜省略する。
図12に示すように、実施形態に従った雑音混入音声スペクトルのための雑音抑圧装置1200は雑音混入音声スペクトルの雑音を低減するために雑音推定スペクトルによって雑音混入音声スペクトルに最小平均二乗誤差推定を行うように構成された最小平均二乗誤差推定部1201を備える。最小平均二乗誤差推定部1201は合流型超幾何関数を区分線形関数に置き換えることによって式(3)及び(2)で最小平均二乗誤差推定を行う。具体的な詳細は図1及び2の実施形態に従った雑音抑圧方法と同じであり、故に説明は省略する。
実施形態に従った雑音抑圧装置1200は更に区分線形関数のセグメンテーションポイントを保存するように構成されたセグメンテーションポイント保存部1205、背景雑音に関する事前推定から得られる雑音推定を保存するように構成された雑音推定保存部1210を含む。更に、雑音推定は外部から最小平均二乗誤差推定部1201に入力できる。
実施形態に従った雑音抑圧装置1200は合流型超幾何関数を置き換えるために区分線形関数を使用するので、雑音低減性能を維持しながらMMSE推定の計算負荷が大きく低減されることは上記の説明から知ることができる。
同じ発明概念に基づいて、図13は本発明の他の実施形態に従った雑音抑圧装置を示すブロック図である。次に、本実施形態を図13と関連して説明する。上記の実施形態と同じ部分については、その説明を適宜省略する。
図13に示すように、実施形態に従った雑音混入音声スペクトルのための雑音抑圧装置1300は雑音混入音声スペクトルの雑音を減少する事前信号雑音比によって雑音混入音声スペクトルに最小平均二乗誤差推定を行うように構成された最小平均二乗誤差推定部1301と適正な雑音抑圧を得るために事前信号雑音比を調整ように構成された調整部1305とを備える。具体的な詳細は図3及び4の実施形態に従った雑音抑圧方法と同じであり、故に説明は省略する。
実施形態に従った雑音抑圧装置1300は事前信号雑音比を調整できるため雑音低減と音声歪みとのバランスが制御でき、それによって満足な結果を得ることができることは上記説明からすることができる。
更に、実施形態に従った雑音抑圧装置1300は合流型超幾何関数を置き換えるために区分線形関数を使用することによって最小平均二乗誤差推定を行うことができ、それによって雑音低減性能が維持されながらMMSE推定の計算負荷が大きく低減される。
同じ発明概念に基づいて、図14は本発明の他の実施形態に従った音声スペクトル平滑化装置を示すブロック図である。次に、本実施形態を図14と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
図14に示すように、実施形態に従った音声スペクトル平滑化装置1400は音声スペクトルの各スペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算するように構成された重み付け平均化部1401及びスペクトルコンポーネントのエネルギを、重み付け平均化部によって計算されたスペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み付け平均によって調整するように構成された平滑化調整部1405とを備える。具体的詳細は図5及び6の実施形態に従った音声平滑化方法の説明と同じであり、故にその説明を省略する。
極低エネルギを持つオリジナルスペクトルコンポーネントは実施形態に従った音声スペクトル平滑化装置1400によってスペクトルコンポーネントをその隣接スペクトルコンポーネントのエネルギの重み付け平均によって平滑化することによって隣接スペクトルコンポーネントのエネルギで満たすことができ、それによって音声スペクトルの品質が改善されることは上記説明から知ることができる。
同じ発明概念に基づいて、図15は本発明の他の実施形態に従った音声特徴抽出装置を示すブロック図である。次に、本実施形態を図15と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
図15に示すように、実施形態に従った音声特徴抽出装置1500は雑音混入音声を入力するように構成された入力部1501と、雑音混入音声を雑音混入音声スペクトルに変換するように構成された変換部1505と、上記の雑音抑圧装置1200又は雑音混入音声スペクトルの雑音を低減するように構成された雑音抑圧装置1300と、雑音低減音声スペクトルから音声特徴を抽出するように構成された抽出部1510とを備える。具体的詳細は図7の実施形態に従った音声特徴抽出方法の説明と同じであり、故に、その説明を省略する。
実施形態に従った音声特徴抽出装置1500は最小平均二乗誤差推定を式(3)及び(2)によって行うことができ、この場合、区分線形関数は合流型超幾何関数を置き換えるために使用され、雑音低減性能を維持しながらMMSE推定の計算負荷が大きく低減され、それによって音声特徴の品質が改善できることは上記説明から知ることができる。
更に、随意的に、実施形態に従った音声特徴抽出装置1500の雑音抑圧装置1300は式(1)及び(4)によって最小平均二乗誤差推定を行うことができる。この場合、aξは雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するために事前信号雑音比ξを置き換えるために使用される。これにより音声特徴の品質が改善される。
更に、実施形態に従った音声特徴抽出装置1500の雑音抑圧装置1300は雑音を低減するために式(3)及び(4)によって最小平均二乗誤差推定を行うことができ、それによってMMSE推定の計算負荷が雑音低減と音声歪みとのバランスが制御されながら大きく低減される。従って、音声特徴の品質が改善できる。
同じ発明概念に基づいて、図16は本発明の他の実施形態に従った音声特徴抽出装置を示すブロック図である。次に、本実施形態を図16と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
図16に示されるように、実施形態に従った音声特徴抽出装置1600は音声を入力するように構成された入力部1601と、音声を音声スペクトルに変換するように構成された変換部1605と、音声スペクトルを平滑化するように構成された上述の音声スペクトル平滑化装置1400と、平滑化音声スペクトルから音声特徴を抽出するように構成された抽出部1610とを備える。具体的詳細は図8の実施形態に従った音声特徴抽出方法の説明と同じであり、故に説明は省略する。
実施形態に従った音声特徴抽出装置1500は実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントをその隣接スペクトルコンポーネントのエネルギの重み付平均によって平滑化することによって極低エネルギのオリジナルスペクトルコンポーネントを隣接スペクトルコンポーネントのエネルギで満たすことができるので、音声スペクトルの品質は改善できることは上記説明から知ることができる。従って、音声特徴の品質が改善できる。
更に、実施形態では、音声が雑音を含んでいれば、雑音は図1及び2の実施形態に従った雑音抑圧方法を用いて式(3)及び(2)によって最小平均二乗誤差推定を行うことによって低減できる。この場合、区分線形関数は合流型超幾何関数を置き換えるために使用され、それによってMMSE推定の計算負荷が雑音低減性能を維持しながら大きく低減され、音声特徴の品質が改善できる。
更に、実施形態では、音声が雑音を含んでいれば、雑音は図3及び4の実施形態に従った雑音抑圧方法を用いて式(1)及び(4)によって最小平均二乗誤差推定を行って低減できる。この場合、雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するためにaξは事前信号雑音比ξを置き換えるために使用される。これによって音声特徴の品質が改善できる。
更に、実施形態は式(3)及び(4)によって最小平均二乗誤差推定を行うことができ、それによって雑音低減と音声歪みとのバランスが制御可能としながらMMSE推定の計算負荷が低減される。従って、音声特徴の品質が改善できる。
同じ発明概念に基づいて、図17は本発明の他の実施形態に従った音声認識装置を示すブロック図である。次に、本実施形態を図17と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
図17に示すように、実施形態に従った音声認識装置1700は音声特徴を抽出するように構成された音声特徴抽出装置1500又は1600と、抽出した音声特徴に基づいて音声を認識するように構成された音声認識部1701とを備える。具体的詳細は図9の実施形態に従った音声認識方法の説明と同じであり、故に説明は省略する。
実施形態に従った音声認識装置1700は実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントをその隣接スペクトルコンポーネントのエネルギの重み付平均によって平滑化することによって極低エネルギのオリジナルスペクトルコンポーネントを隣接スペクトルコンポーネントのエネルギで満たすことができるので、音声スペクトルの品質は改善できることは上記説明から知ることができる。従って、音声特徴の品質が改善できる。
更に、実施形態では、音声が雑音を含んでいれば、雑音は式(3)及び(2)によって最小平均二乗誤差推定を行うことによって低減できる。この場合、区分線形関数は雑音混入音声スペクトルから音声特徴を抽出する前に合流型超幾何関数を置き換えるために使用され、それによってMMSE推定の計算負荷が雑音低減性能を維持しながら大きく低減され、音声認識性能が改善できる。
更に、随意的に、実施形態に従った音声認識装置1700は式(1)及び(4)によって最小平均二乗誤差推定を行って雑音を低減できる。この場合、aξは雑音混入音声スペクトルから音声特徴を抽出する前に雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するために事前信号雑音比ξを置き換えるために使用される。これによって音声認識性能が改善できる。
更に、実施形態に従った音声認識装置1700は式(3)及び(4)によって最小平均二乗誤差推定を行うことができ、それによって雑音低減と音声歪みとのバランスが制御可能としながらMMSE推定の計算負荷が低減される。従って、音声認識性能が改善できる。
同じ発明概念に基づいて、図18は本発明の他の実施形態に従った音声モデルトレーニング装置を示すブロック図である。次に、本実施形態を図18と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
図18に示すように、実施形態に従った音声モデルトレーニング装置1800は音声特徴を抽出するように構成された音声特徴抽出装置1500又は1600と、抽出した音声特徴に基づいて音声モデルをトレーニングするように構成されたモデルトレーニング部1801とを備える。具体的詳細は図10の実施形態に従った音声認識方法の説明と同じであり、故に説明は省略する。
実施形態に従った音声モデルトレーニング装置1800は音声スペクトルから音声特徴を抽出する前に実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントをその隣接スペクトルコンポーネントのエネルギの重み付平均によって平滑化することによって極低エネルギのオリジナルスペクトルコンポーネントを隣接スペクトルコンポーネントのエネルギで満たすことができるので、音声スペクトルの品質は改善できることは上記説明から知ることができることは上記説明から知ることができる。従って、トレーニングされた音声モデルの品質が改善できる。
更に、実施形態では、音声が雑音を含んでいれば、雑音は式(3)及び(2)によって最小平均二乗誤差推定を行うことによって低減できる。この場合、区分線形関数は雑音混入音声スペクトルから音声特徴を抽出する前に合流型超幾何関数を置き換えるために使用され、それによってMMSE推定の計算負荷が雑音低減性能を維持しながら大きく低減され、トレーニングされた音声モデルの品質が改善できる。
更に、随意的に、実施形態に従った音声モデルトレーニング装置1800は式(1)及び(4)によって最小平均二乗誤差推定を行って雑音を低減できる。この場合、雑音混入音声スペクトルから音声特徴を抽出する前に雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するためにaξは事前信号雑音比ξを置き換えるために使用される。これによってトレーニングされた音声モデルの品質が改善できる。
更に、実施形態に従った音声モデルトレーニング装置1800は式(3)及び(4)によって最小平均二乗誤差推定を行うことができ、それによって雑音低減と音声歪みとのバランスが制御可能としながらMMSE推定の計算負荷が低減される。従って、音声認識性能が改善できる。
同じ発明概念に基づいて、図19は本発明の他の実施形態に従った音声認識装置を示すブロック図である。次に、本実施形態を図19と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。
図19に示すように、実施形態に従った音声認識装置1900は雑音混入音声を入力するように構成された入力部1901と、雑音混入音声を雑音混入音声スペクトルに変換するように構成された変換部1905と、雑音混入音声スペクトルの雑音を低減するように構成された上記雑音抑圧装置1300と、音声特徴を雑音混入音声スペクトルから抽出するように構成された抽出部1910と、抽出した音声特徴に基づいて音声を認識するように構成された音声認識部1915とを備え、事前音声雑音比の最適値は音声認識結果に従って決定される。具体的詳細は図11の実施形態に従った音声認識方法の説明と同じであり、故に説明は省略する。
実施形態に従った音声認識装置1900が音声認識結果に従ってMMSE推定を効率的に調整できるので音声認識性能は改善されることは上記説明から知ることができる。
雑音抑圧方法、音声スペクトル平滑化方法、音声特徴抽出方法、音声認識方法及び音声モデルトレーニング方法、並びに雑音抑圧装置、音声スペクトル平滑化装置、音声特徴抽出装置、音声認識装置及び音声モデルトレーニング装置が幾つかの具体的実施形態で詳細に説明してきたが、これら上記実施形態は網羅的でない。当業者は本発明の思想及び技術的範囲内で種々の変更及び変形がなされうる。故に、本発明はこれら実施形態に限定されるものではなく、むしろ、本発明の技術的範囲は、添付の特許請求の範囲によって規定される。
Claims (46)
- 雑音混入音声スペクトルの雑音抑圧方法であって、
前記雑音混入スペクトルの雑音を抑圧するために、雑音推定スペクトルを用いて前記雑音混入音声スペクトルに最小平均二乗誤差推定を行うステップを含み、
前記最小平均二乗誤差推定を行うステップでは、前記最小平均二乗誤差推定を行うために合流型超幾何関数が区分線形関数と置き換えられることを特徴とする雑音抑圧方法。 - 前記最小平均二乗誤差推定を行うステップでは、複数のプリセットセグメンテーションポイントを用いて前記最小平均二乗誤差推定を行うために、前記合流型超幾何関数が前記区分線形関数に変換されることを特徴とする請求項1に記載の雑音抑圧方法。
- 前記区分線形関数のための前記複数のプリセットセグメンテーションポイントは
前記合流型超幾何関数の微分を計算するステップと、
前記区分線形関数のための複数の初期セグメンテーションポイントを設定するステップと、
前記複数の初期セグメンテーションポイントの各2つのセグメンテーションポイント間において前記区分線形関数と前記合流型超幾何関数との差を計算するステップと、
前記差が閾値より大きければ前記2つの連続セグメンテーションポイント間に新たなセグメンテーションポイントを挿入するステップと、
計算するステップ及びその後のステップを前記差が前記閾値より大きくならなくなるまで繰り返すステップと、
を含むことを特徴とする請求項2に記載の雑音抑圧方法。 - 雑音混入音声スペクトルの雑音抑圧方法であって、
前記雑音混入音声スペクトルの雑音を低減するため事前信号雑音比を用いて前記雑音混入音声スペクトルに最小平均二乗誤差推定を行うステップと、
適正な雑音抑圧を得るため前記事前信号雑音比を調整するステップと、
を含むことを特徴とする雑音抑圧方法。 - 前記事前信号雑音比は雑音推定スペクトルから求められることを特徴とする請求項5に記載の雑音抑圧方法。
- 前記調整ステップは前記雑音抑圧を低減するために前記事前信号雑音比を増加させるか、又は前記雑音抑圧を増加するために前記事前信号雑音を減少させることを特徴とする請求項5又は請求項6に記載の雑音抑圧方法。
- 前記合流型超幾何関数は前記最小平均二乗誤差推定を行うために区分線形関数と置き換えられることを特徴とする請求項5乃至請求項7のいずれか1項に記載の雑音抑圧方法。
- 前記合流型超幾何関数は前記最小平均二乗誤差推定を複数のプリセットセグメンテーションポイントを用いて行うために前記区分線形関数に変換されることを特徴とする請求項8に記載の雑音抑圧方法。
- 前記区分線形関数のための前記複数のプリセットセグメンテーションポイントは
前記合流型超幾何関数の微分を計算するステップと、
前記区分線形関数のための複数の初期セグメンテーションポイントを設定するステップと、
前記複数の初期セグメンテーションポイントの各2つの連続セグメンテーションポイント間において前記区分線形関数と前記合流型超幾何関数との差を計算するステップと、
前記差が閾値より大きければ前記2つの連続セグメンテーションポイント間に新たなセグメンテーションポイントを挿入するステップと、
前記計算するステップとその後の前記ステップを前記差が前記閾値より大きくならなくなるまで繰り返すステップと、
を含むことを特徴とする請求項9に記載の雑音抑圧方法。 - 音声スペクトルを平滑化する方法であって、
前記音声スペクトルの各スペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み付け平均を等比級数重みで計算するステップと、
前記スペクトルコンポーネントのエネルギを計算された前記重み平均によって調整するステップと、
を含むことを特徴とする音声スペクトル平滑化方法。 - 前記スペクトルでの前記等比級数重みの重みは最高値であり、前記等比級数重みは前記等比級数によって前記スペクトルコンポーネントから離れる方向に減少することを特徴とする請求項12に記載の音声スペクトル平滑化方法。
- 前記計算ステップは、前記スペクトルコンポーネント及び同じ周波数の隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算することを含むことを特徴とする請求項12又は請求項13に記載の音声スペクトル平滑化方法。
- 前記計算ステップは、前記スペクトルコンポーネント及び同じフレームのその周波数隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算することを含むことを特徴とする請求項12又は請求項13に記載の音声スペクトル平滑化方法。
- 前記計算ステップは、前記スペクトルコンポーネント、同じフレームのその時間隣接スペクトルコンポーネント及びその周波数隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算することを含むことを特徴とする請求項12又は請求項13に記載の音声スペクトル平滑化方法。
- 前記計算ステップの前に請求項1乃至請求項11のいずれか1項に記載の方法を用いて前記音声スペクトルの雑音を低減することを更に含むことを特徴とする請求項12乃至請求項16のいずれか1項に記載の音声スペクトル平滑化方法。
- 雑音混入音声を雑音混入音声スペクトルに変換するステップと、
請求項1乃至請求項11のいずれか1項に記載の雑音抑圧方法を用いて前記雑音混音声入スペクトルの雑音を低減するステップと、
前記雑音低減音声スペクトルから音声特徴を抽出するステップと、
を含むことを特徴とする音声特徴抽出方法。 - 前記変換ステップは高速フーリエ変換によって行われることを特徴とする請求項18に記載の音声特徴抽出方法。
- 音声を音声スペクトルに変換するステップと、
請求項12乃至請求項17のいずれか1項に記載の音声スペクトル平滑方法を用いて前記音声スペクトルを平滑化するステップと、
前記平滑化音声スペクトルから音声特徴を抽出するステップと、
を含むことを特徴とする音声特徴抽出方法。 - 前記変換ステップは高速フーリエ変換によって行われることを特徴とする請求項20に記載の音声特徴抽出方法。
- 請求項18乃至請求項21のいずれか1項に記載の音声特徴抽出方法を用いて音声から音声特徴を抽出するステップと、
抽出した前記音声特徴に基づいて音声を認識するステップと、
を含むことを特徴とする音声認識方法。 - 請求項18乃至請求項21のいずれか1項に記載の音声特徴抽出方法を用いて音声から音声特徴を抽出するステップと、
抽出した前記音声特徴に基づいて前記音声モデルをトレーニングするステップと、
を含むことを特徴とする音声モデルトレーニング方法。 - 雑音混入音声を雑音混入音声スペクトルに変換するステップと、
請求項5乃至請求項11のいずれか1項に記載の雑音抑圧方法を用いて前記雑音混入音声スペクトルの雑音を低減するステップと、
前記雑音低減音声スペクトルから前記音声特徴を抽出するステップと、
抽出された前記音声特徴に基づいて前記雑音混入音声を認識するステップと、
音声認識結果に基づいて前記事前信号雑音比の最適値を決定するステップと、
を含むことを特徴とする音声認識方法。 - 雑音混入音声スペクトルの雑音抑圧装置であって、
前記雑音混入音声スペクトルの雑音を低減するため雑音推定スペクトルによって前記雑音混入音声スペクトルに最小平均二乗誤差推定を行うように構成された推定部を備え、
前記推定部は前記最小平均二乗誤差推定を行うため合流型超幾何関数を区分線形関数に置き換えるように構成されていることを特徴とする雑音抑圧装置。 - 前記合流型超幾何関数は前記最小平均二乗誤差推定を複数のプリセットセグメンテーションポイントによって行うために前記区分線形関数に変換されることを特徴とする請求項25に記載の雑音抑圧装置。
- 雑音低減音声スペクトルの雑音抑圧装置であって、
前記雑音低減音声スペクトルの雑音を低減するために事前信号雑音比を用いて前記雑音混入音声スペクトルに最小平均二乗誤差推定を行うように構成された推定部と、
適正な雑音抑圧を得るために前記事前信号雑音比を調整するよう構成された調整部と、
を備えることを特徴とする雑音抑圧装置。 - 前記事前信号雑音比は雑音推定スペクトルから求められることを特徴とする請求項28に記載の雑音抑圧装置。
- 前記調整部は前記雑音抑圧を低減するために前記事前信号雑音比を増加させるか、又は前記雑音抑圧を増加するために前記事前信号雑音比を減少させるように構成されていることを特徴とする請求項28又は請求項29に記載の雑音抑圧装置。
- 前記推定部は前記合流型超幾何関数を区分線形関数と置き換えることによって前記最小平均二乗誤差推定を行うように構成されていることを特徴とする請求項28乃至請求項30のいずれか1項に記載の雑音抑圧装置。
- 前記推定部は複数のプリセットセグメンテーションポイントを用いて前記最小平均二乗誤差推定を行うために前記合流型超幾何関数を前記区分線形関数に変換することを特徴とする請求項31に記載の雑音抑圧装置。
- 音声スペクトルを平滑化する装置であって、
前記音声スペクトルの各スペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み付け平均を等比級数重みによって計算するように構成された重み平均部と、
前記重み平均部によって計算された前記スペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの前記重み平均を用いて前記スペクトルコンポーネントを調整するように構成された平滑調整部と、
を備えることを特徴とする音声スペクトル平滑装置。 - 前記スペクトルでの前記等比級数重みの重みは最高値であり、前記等比級数重みは前記等比級数によって前記スペクトルコンポーネントから離れる方向に減少することを特徴とする請求項34に記載の音声スペクトル平滑装置。
- 前記重み平均化部は、前記スペクトルコンポーネント及び同じ周波数のその隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算するように構成されていることを特徴とする請求項34又は請求項35に記載の音声スペクトル平滑装置。
- 前記重み平均化部は、前記スペクトルコンポーネント及び同じフレームのその周波数隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算するように構成されていることを特徴とする請求項34又は請求項35に記載の音声スペクトル平滑装置。
- 前記重み平均化部は、前記スペクトルコンポーネント、同じフレームのその時間隣接スペクトルコンポーネント及びその周波数隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算するように構成されていることを特徴とする請求項34又は請求項35に記載の音声スペクトル平滑装置。
- 前記重み平均を計算する前記ステップの前に前記音声スペクトルの雑音を低減するように構成された請求項25乃至請求項33のいずれか1項に記載の雑音抑圧装置を更に含むことを特徴とする請求項34乃至請求項38のいずれか1項に記載の音声スペクトル平滑装置。
- 音声特徴を抽出する装置であって、
雑音混入音声を雑音混入音声スペクトルに変換するように構成された変換部と、
前記雑音混入音声スペクトルの雑音を低減するように構成された請求項25乃至請求項33のいずれか1項に記載の雑音抑圧装置と、
前記雑音低減音声スペクトルから音声特徴を抽出するように構成された抽出部と、
を具備することを特徴とする音声特徴抽出装置。 - 前記変換部は高速フーリエ変換によって変換するように構成されていることを特徴とする請求項40に記載の音声特徴抽出装置。
- 音声を音声スペクトルに変換するように構成された変換部と、
前記音声スペクトルを平滑化するように構成された請求項34乃至請求項39のいずれか1項に記載の音声スペクトル平滑装置と、
前記平滑化音声スペクトルから音声特徴を抽出するように構成された抽出部と、
を具備することを特徴とする音声特徴抽出装置。 - 前記変換部は高速フーリエ変換によって変換するように構成されていることを特徴とする請求項42に記載の音声特徴抽出装置。
- 音声特徴を抽出するように構成された請求項40乃至請求項43のいずれか1項に記載の音声特徴抽出装置と、
抽出した前記音声特徴に基づいて音声を認識するように構成された音声認識部と、
を具備することを特徴とする音声認識装置。 - 音声特徴を抽出するように構成された請求項40乃至請求項43のいずれか1項に記載の音声認識装置と、
抽出した前記音声特徴に基づいて前記音声モデルをトレーニングするように構成されたモデルトレーニング部と、
を具備する、音声モデルトレーニング装置。 - 雑音混入音声を雑音混入音声スペクトルに変換するように構成された変換部と、
前記雑音混入音声スペクトルの雑音を低減するように構成された請求項28乃至請求項33のいずれか1項に記載の雑音抑圧装置と、
前記雑音低減音声スペクトルから音声特徴を抽出するように構成された抽出部と、
抽出された前記音声特徴に基づいて前記雑音混入音声を認識するように構成された音声認識部と、
音声認識結果に従って前記事前信号雑音比の最適値を決定するように構成された決定部と、
を備えることを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007292350A JP2009116275A (ja) | 2007-11-09 | 2007-11-09 | 雑音抑圧、音声スペクトル平滑化、音声特徴抽出、音声認識及び音声モデルトレーニングための方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007292350A JP2009116275A (ja) | 2007-11-09 | 2007-11-09 | 雑音抑圧、音声スペクトル平滑化、音声特徴抽出、音声認識及び音声モデルトレーニングための方法及び装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009116275A true JP2009116275A (ja) | 2009-05-28 |
Family
ID=40783443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007292350A Withdrawn JP2009116275A (ja) | 2007-11-09 | 2007-11-09 | 雑音抑圧、音声スペクトル平滑化、音声特徴抽出、音声認識及び音声モデルトレーニングための方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009116275A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012037582A (ja) * | 2010-08-03 | 2012-02-23 | Sony Corp | 信号処理装置および方法、並びにプログラム |
US9679580B2 (en) | 2010-04-13 | 2017-06-13 | Sony Corporation | Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program |
US9691410B2 (en) | 2009-10-07 | 2017-06-27 | Sony Corporation | Frequency band extending device and method, encoding device and method, decoding device and method, and program |
JP2017522594A (ja) * | 2014-06-18 | 2017-08-10 | サイファ,エルエルシー | 音声信号を明瞭化するためのマルチ聴覚mmse分析技法 |
US9767824B2 (en) | 2010-10-15 | 2017-09-19 | Sony Corporation | Encoding device and method, decoding device and method, and program |
US9875746B2 (en) | 2013-09-19 | 2018-01-23 | Sony Corporation | Encoding device and method, decoding device and method, and program |
US10692511B2 (en) | 2013-12-27 | 2020-06-23 | Sony Corporation | Decoding apparatus and method, and program |
-
2007
- 2007-11-09 JP JP2007292350A patent/JP2009116275A/ja not_active Withdrawn
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9691410B2 (en) | 2009-10-07 | 2017-06-27 | Sony Corporation | Frequency band extending device and method, encoding device and method, decoding device and method, and program |
US10381018B2 (en) | 2010-04-13 | 2019-08-13 | Sony Corporation | Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program |
US9679580B2 (en) | 2010-04-13 | 2017-06-13 | Sony Corporation | Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program |
US10546594B2 (en) | 2010-04-13 | 2020-01-28 | Sony Corporation | Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program |
US10297270B2 (en) | 2010-04-13 | 2019-05-21 | Sony Corporation | Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program |
US10224054B2 (en) | 2010-04-13 | 2019-03-05 | Sony Corporation | Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program |
US10229690B2 (en) | 2010-08-03 | 2019-03-12 | Sony Corporation | Signal processing apparatus and method, and program |
US9767814B2 (en) | 2010-08-03 | 2017-09-19 | Sony Corporation | Signal processing apparatus and method, and program |
JP2012037582A (ja) * | 2010-08-03 | 2012-02-23 | Sony Corp | 信号処理装置および方法、並びにプログラム |
US9406306B2 (en) | 2010-08-03 | 2016-08-02 | Sony Corporation | Signal processing apparatus and method, and program |
US11011179B2 (en) | 2010-08-03 | 2021-05-18 | Sony Corporation | Signal processing apparatus and method, and program |
US9767824B2 (en) | 2010-10-15 | 2017-09-19 | Sony Corporation | Encoding device and method, decoding device and method, and program |
US10236015B2 (en) | 2010-10-15 | 2019-03-19 | Sony Corporation | Encoding device and method, decoding device and method, and program |
US9875746B2 (en) | 2013-09-19 | 2018-01-23 | Sony Corporation | Encoding device and method, decoding device and method, and program |
US10692511B2 (en) | 2013-12-27 | 2020-06-23 | Sony Corporation | Decoding apparatus and method, and program |
US11705140B2 (en) | 2013-12-27 | 2023-07-18 | Sony Corporation | Decoding apparatus and method, and program |
JP2017522594A (ja) * | 2014-06-18 | 2017-08-10 | サイファ,エルエルシー | 音声信号を明瞭化するためのマルチ聴覚mmse分析技法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20080059163A1 (en) | Method and apparatus for noise suppression, smoothing a speech spectrum, extracting speech features, speech recognition and training a speech model | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
CN111899752B (zh) | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 | |
JP4765461B2 (ja) | 雑音抑圧システムと方法及びプログラム | |
JP2021036297A (ja) | 信号処理装置、信号処理方法、及びプログラム | |
RU2329550C2 (ru) | Способ и устройство для улучшения речевого сигнала в присутствии фонового шума | |
JP5153886B2 (ja) | 雑音抑圧装置および音声復号化装置 | |
JP6169849B2 (ja) | 音響処理装置 | |
JP5265056B2 (ja) | 雑音抑圧装置 | |
US7133825B2 (en) | Computationally efficient background noise suppressor for speech coding and speech recognition | |
JP2009116275A (ja) | 雑音抑圧、音声スペクトル平滑化、音声特徴抽出、音声認識及び音声モデルトレーニングための方法及び装置 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
KR102152197B1 (ko) | 음성 검출기를 구비한 보청기 및 그 방법 | |
KR101295727B1 (ko) | 적응적 잡음추정 장치 및 방법 | |
KR100784456B1 (ko) | Gmm을 이용한 음질향상 시스템 | |
CA2814434C (en) | Adaptive equalization system | |
Tashev et al. | Unified framework for single channel speech enhancement | |
Erkelens et al. | Speech enhancement based on Rayleigh mixture modeling of speech spectral amplitude distributions | |
Trawicki et al. | Speech enhancement using Bayesian estimators of the perceptually-motivated short-time spectral amplitude (STSA) with Chi speech priors | |
JP5687522B2 (ja) | 音声強調装置、方法、及びプログラム | |
Dong et al. | Speech denoising based on perceptual weighting filter | |
Tong et al. | Multi-Band Spectral Subtraction Based on Adaptive Noise Estimation and Spectral Floor Optimization | |
Rao et al. | Speech and Audio Laboratory Department of Electrical Communication Engineering Indian Institute of Science, Bangalore-560012, India | |
Gordillo et al. | Median filtering the temporal probability distribution in histogram mapping for robust continuous speech recognition | |
Lun et al. | Improved speech presence probability estimation based on wavelet denoising |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20110201 |