JP2009116275A

JP2009116275A - 雑音抑圧、音声スペクトル平滑化、音声特徴抽出、音声認識及び音声モデルトレーニングための方法及び装置

Info

Publication number: JP2009116275A
Application number: JP2007292350A
Authority: JP
Inventors: Pei Ding; ペイ・ディン; Lei He; レイ・ヘ; Jie Hao; ジー・ハオ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-11-09
Filing date: 2007-11-09
Publication date: 2009-05-28

Abstract

【課題】雑音抑圧、音声スペクトル平滑化、音声特徴抽出、音声認識及び音声モデルトレーニング方法及び装置を提供すること。
【解決手段】雑音抑圧方法は合流型超幾何関数が区分線形関数によって近似される、最小平均二乗誤差推定によって行われ、これが雑音低減性能を維持しながら計算負荷を大きく低減する。更に、極低エネルギの周波数成分の生成を避けるために、本発明は最小平均二乗誤差推定後に等比級数重みによって時間及び周波数軸の両方に音声スペクトルを平滑化する。更に、本発明は事前信号雑音比を調整することによって雑音抑圧と音声歪みとのバランスを取る。
【選択図】図１

Description

本発明は音声認識及び雑音抑圧の技術及び音声スペクトルを平滑化する技術に関する。

一般的な自動音声認識(ASR)システムはクリーン音声認識に対して非常に高い精度を得ることができるが、その性能は音響モデルと音響特徴との間の不整合により雑音環境においてかなり低下する。

雑音耐性問題に対してなされた努力の殆どは音声特徴空間での不整合を減じることを目的としているフロントエンドデザインに集中している。最小平均二乗誤差(MMSE)推定は背景雑音を効果的に抑圧でき、入力信号の信号雑音比(SNR)を連続的に改善できる音声強調アルゴリズムである。最小平均二乗誤差推定は例えば、文献"Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator", Y. Ephraim and D. Malah, IEEE Trans. Acoustic, Speech, and Signal Processing, Vol. ASSP-32, pp.1109-1121, 1984.に詳細に説明されている。この文献では、短時間スペクトル振幅（Short-Time Spectral Amplitude (STSA)）はMMSE推定によって推定され、MMSE STSAで推定するシステムが提案されており、このシステムはウィンナーフィルタ及びスペクトルサブトラクションアルゴリズム（Spectral Subtraction Algorithm）に基づく幅広く使用されているシステムと比較される。その全てが引用して援用される。

フロントエンドにおいてMMSE推定を適用することは耐性を改善する有望な方法である。しかしながら、上記フレームワークにおいて３つの問題を解決する必要がある。

１．（テイラシリーズ累積(Taylor series accumulation)によって計算される）合流型超幾何関数(confluent hyper-geometric function)の計算は膨大な計算負荷となる。

２．干渉雑音の極端な減少によって被る周波数帯域での極端な低エネルギは認識性能を低下させることになる。

３．MMSE推定での戦略は音声認識にとっては通常最適ではない。

従来技術の上記問題を解決するために、本発明は雑音抑圧、音声スペクトルの平滑化、音声特徴の抽出、音声認識及び音声モデルのトレーニングのための方法及び装置を提供する。

本発明の一態様によると、雑音混入音声スペクトルの雑音抑圧方法であって、雑音混入スペクトル(noise-included speech spectrum)の雑音を抑圧するため、雑音推定スペクトルを用いて雑音混入音声スペクトルに最小平均二乗誤差推定(minimum mean-square error estimation)を行うことを含み、合流型超幾何関数は最小平均二乗誤差推定を行うために区分線形関数(piece-wise linear function)と置き換えられる、雑音抑圧方法が提供される。

本発明の他の態様によると、雑音低減音声スペクトルの雑音抑圧方法であって、雑音低減音声スペクトルの雑音を低減するために事前信号雑音比(priori signal-noise-rate)を用いて雑音混入音声スペクトルに最小平均二乗誤差推定を行うステップと、適正な雑音抑圧を得るために事前信号雑音比を調整するステップとを含む雑音低減音声スペクトルの雑音抑圧方法が提供される。

本発明の他の態様によると、音声スペクトルを平滑化する方法であって、音声スペクトルの各スペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み付け平均を等比級数重み(geometric series weights)で計算するステップと、及びスペクトルコンポーネントのエネルギを計算された重み平均によって調整するステップと、を含む、音声スペクトル平滑する方法が提供される。

本発明の他の態様によると、雑音混入音声を雑音混入音声スペクトルに変換するステップと、上述の雑音抑圧方法を用いて雑音混入スペクトルの雑音を低減するステップと、雑音混入音声スペクトルから音声特徴を抽出するステップとを含む、音声特徴抽出方法が提供される。

本発明の他の態様によると、音声を音声スペクトルに変換するステップと、上述の音声スペクトル平滑化方法を用いて音声スペクトルを平滑化するステップと、平滑化音声スペクトルから音声特徴を抽出するステップとを含む音声特徴抽出方法が提供される。

本発明の他の態様によると、上述の音声特徴抽出方法を用いて音声から音声特徴を抽出するステップと、抽出された音声特徴に基づいて音声を認識するステップとを含む、音声認識方法が提供される。

本発明の他の態様によると、上述の音声特徴抽出方法を用いて音声から音声特徴を抽出するステップと、抽出された音声特徴に基づいて音声モデルをトレーニングするステップとを含む、音声モデルトレーニング方法が提供される。

本発明の他の態様によると、雑音混入音声を雑音混入音声スペクトルに変換するステップと、上述の雑音抑圧方法を用いて雑音混入音声スペクトルの雑音を低減するステップと、雑音低減音声スペクトルから音声特徴を抽出するステップと、抽出された音声特徴に基づいて雑音混入音声を認識するステップと、音声認識結果に基づいて事前音声信号非の最適値を決定するステップとを含む、音声認識方法。

本発明の他の態様によると、雑音混入音声スペクトルのための雑音抑圧装置であって、雑音混入音声スペクトルの雑音を低減するため雑音推定スペクトルによって雑音混入音声スペクトルに最小平均二乗誤差推定を行うように構成された推定部を具備し、推定部は最小平均二乗誤差推定を行うため合流型超幾何関数を区分線形関数に置き換えるように構成された雑音抑圧装置が提供される。

本発明の他の態様によると、雑音低減音声スペクトルの雑音抑圧装置であって、雑音低減音声スペクトルの雑音を低減するために事前信号雑音比を用いて雑音混入音声スペクトルに最小平均二乗誤差推定を行うように構成された推定部と、適正な雑音抑圧を得るために事前信号雑音比を調整するように構成された調整部と、を含む、雑音抑圧装置が提供される。

本発明の他の態様によると、音声スペクトルを平滑化する装置であって、音声スペクトルの各スペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み付け平均を等比級数重みによって計算するように構成された重み付け平均化部と、重み付け平均化部によって計算されたスペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み付け平均を用いてスペクトルコンポーネントを調整するように構成された平滑調整部とを具備する、音声スペクトル平滑化装置が提供される。

本発明の他の態様によると、音声特徴を抽出する装置であって、雑音混入音声を雑音混入音声スペクトルに変換するように構成された変換部と、雑音混入音声スペクトルの雑音を低減するように構成された上述の雑音抑圧部と、雑音低減音声スペクトルから音声特徴を抽出するように構成された抽出部と、を具備する、音声特徴抽出装置が提供される。

本発明の他の態様によると、音声を音声スペクトルに変換するように構成された変換部と、前記音声スペクトルを平滑化するように構成された上述の音声スペクトル平滑部と、前記平滑化音声スペクトルから音声特徴を抽出するように構成された抽出部と、を具備する、音声特徴抽出装置が提供される。

本発明の他の態様によると、音声特徴を抽出するように構成された上述の音声特徴抽出部と、抽出した前記音声特徴に基づいて音声を認識するように構成された音声認識部と、を具備する、音声認識装置が提供される。

本発明の他の態様によると、音声特徴を抽出する上述の装置と、抽出した音声特徴に基づいて音声モデルをトレーニングするように構成されたモデルトレーニング部とを具備する、音声モデルトレーニング装置が提供される。

本発明の他の態様によると、雑音混入音声を雑音混入音声スペクトルに変換するように構成された変換部と、雑音混入音声スペクトルの雑音を低減するように構成された上述の雑音抑圧部と、雑音低減音声スペクトルから音声特徴を抽出するように構成された抽出部と、抽出された前記音声特徴に基づいて雑音混入音声を認識するように構成された音声認識部と、音声認識結果に従って事前信号雑音比の最適値を決定するように構成された決定部とを具備する、音声認識装置が提供される。

本発明の実施形態に係る雑音抑圧方法を示すフローチャートを示す図である。区分線形関数のセグメンテーションポイントを設定する手順の例を示し、図２Ａは合流型超幾何関数の曲線を示し、図２Ｂは合流型超幾何関数の微分の曲線を示し、図２Ｃは合流型超幾何関数と区分線形関数との差の曲線を示し、図２Ｄはセグメンテーション後の区分線形関数の曲線を示す図である。本発明の他の実施形態に係る雑音抑圧方法を示すフローチャートを示す図である。雑音抑圧と音声歪みとのバランスの例を示し、図４Ａは事前ＳＮＲを調整しない初期MMSE強調スペクトルを示し、図４Ｂは事前SNRを減少して調整された音声スペクトルを示し、図４Ｃは事前SNRを増加して調整された音声スペクトルを示す図である。本発明の他の実施形態に係る音声スペクトルを平滑化する方法を示すフローチャートを示す図である。音声スペクトルを平滑化する例であり、図６Ａは平滑化前の音声スペクトルを示し、図６Ｂは平滑化後の音声スペクトルを示す図である。本発明の他の実施形態に係る音声特徴を抽出する方法を示すフローチャートを示す図である。本発明の他の実施形態に係る音声特徴を抽出する方法を示すフローチャートを示す図である。本発明の他の実施形態に係る音声認識方法を示すフローチャートを示す図である。本発明の他の実施形態に係る音声モデルをトレーニングする方法を示すフローチャートを示す図である。本発明の他の実施形態に係る音声認識方法を示すフローチャートを示す図である。本発明の他の実施形態に係る雑音抑圧装置を示すブロック図である。本発明の他の実施形態に係る雑音抑圧装置を示すブロック図である。本発明の他の実施形態に係る音声スペクトルを平滑化する装置を示すブロック図である。本発明の他の実施形態に係る音声特徴を抽出する装置を示すブロック図である。本発明の他の実施形態に係る音声特徴を抽出する装置を示すブロック図である。本発明の他の実施形態に係る音声認識装置を示すブロック図である。本発明の他の実施形態に係る音声モデルをトレーニングする装置を示すブロック図である。本発明の他の実施形態に係る音声認識装置を示すブロック図である。

図面と関連して、本発明の実施形態の下記詳細な説明を通して上記特徴、利点及び億滴がより良く理解できるであろう。

次の実施形態を容易に理解するために、先ず最小平均二乗誤差推定の連理について簡単に説明する。

最小平均二乗誤差(MMSE)推定は音声強調アルゴリズムであり、背景雑音の推定スペクトルによって雑音混入音声スペクトル(noise-included speech spectrum)の雑音を抑圧する。

特に、最小平均二乗誤差推定(minimum mean-square error estimation)は次式に基づいて行われる。

次に、本発明の各実施形態の詳細な説明を添付図を関連して行う。

図１は本発明の実施形態に従った雑音抑圧方法を示すフローチャートである。図１に示すように、先ずステップ１で、雑音混入音声スペクトルが入力される。雑音混入音声スペクトルは背景雑音及び音声を含むボイスデータに基づいて、例えば、高速フーリエ変換によって得られる音声スペクトルであり、故に、それは背景雑音及び音声を含むスペクトルである。

次に、ステップ１０５で、雑音混入音声が事前推定雑音推定スペクトルに従って最小平均二乗誤差推定によって推定される。雑音推定スペクトルは音声を含めないで背景雑音を事前推定して得られる。雑音推定スペクトルを得るためには多くの方法がある、例えば、何時間も収集された雑音スペクトルを平均化する。特に、最小平均二乗誤差推定は式(1)及び(2)に従って行われ、合流型超幾何関数は区分線形関数(piece-wise linear function)と置き換えられ、変換後の式は

この実施形態では、合流型超幾何関数M(υ_k)が複数のプリセットセグメンテーションポイントによって区分線形関数L(υ_k)と近似できる。例えば、合流型超幾何関数M(υ_k)は次のステップによって区分線形関数L(υ_k)に近似できる。

特に、図２Ａ−２Ｄは区分線形関数のセグメンテーションポイントを設定する手順の例を示し、図2Aは合流型超幾何関数の曲線h(v)を示し、図2Bは合流型超幾何関数の微分の曲線を示し、図2Cは合流型超幾何関数と区分線形関数との差の曲線を示し、図2Dはセグメンテーション後の区分線形関数の曲線pwlf(v)を示す。

最初に、図2Bに示されるように合流型超幾何関数h(v)の微分が計算される。この例では、微分値が0.05と0.50との範囲内にある曲線だけが便宜上一例として選択される。

次に、区分線形関数pwlf(v)の初期セグメンテーションポイントが図2Bに示されるように設定される。この例では、例えば、初期セグメンテーションポイントが0.10, 0.15, 0.20, 0.25, 0.30, 0.35, 0.40及び0.45の微分値で設定される。

次に、処理セグメンテーションポイントの各２つのセグメンテーションポイント間において区分線形関数pwlf(v)と合流型超幾何関数h(v)との差が図2Cに示すように計算される。

次に、各２つの連続セグメンテーションポイント間において２つの関数の値の間で計算される差が、例えば、この実施形態において、0.037に予め設定されるプリセット閾値と比較される。比較によって、差が0.037を超えていれば、新たなセグメンテーションポイントが２つの連続するセグメンテーションポイント、例えば、0.10と0.15との間に、例えば、それらの中間点に挿入できる。

差を計算するステップとその後のステップは閾値より大きい差が無くなるまで繰り返される。それによって、図2Dに示されるような区分線形関数が得られる。

図１に戻って、雑音がMMSE推定によって低減されるスペクトルが合流型超幾何関数h(v)の代わりに区分線形関数pwlf(v)によって最小平均二乗誤差推定を行った後にステップ１１０で出力される。

実施形態の雑音抑圧方法を用いることによって、合流型超幾何関数を雑音低減性能が区分線形関数と置き換えることによって維持しながらMMSE推定の計算負荷が大きく減ぜられる。

同じ発明概念に基づいて、図３は本発明の他の実施形態に従った雑音抑圧方法を示すフローチャートである。次に、本実施形態を図３と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。

図３に示されるように、先ずステップ３０１で、雑音混入スペクトルが入力される。雑音混入スペクトルは背景雑音及び音声を含む。

次に、ステップ３０５で、最小平均二乗誤差推定が式（２）の事前信号雑音比ξをaξと置き換えて行われる、即ち、最小平均二乗誤差推定が式（１）及び（４）によって行われる。

同様に、この実施形態では、最小平均二乗誤差推定が合流型超幾何関数h(v)を区分線形関数pwlf(v)と置き換えて行われる、即ち、最小平均二乗誤差推定が式（３）及び（４）によって行われる。

次に、ステップ３１０で、雑音がMMSE推定によって低減されている音声スペクトルが出力される。

次に、ステップ３１５で、音声スペクトルが最適であるかどうか、即ち、雑音低減及び音声歪みが最適バランスに達しているかどうかが決定される。音声スペクトルが最適であれば、そのとき、処理はステップ３２０で終了する。そうでなければ、係数ａが調整され、処理はステップ３０５に戻り、MMSE推定が適正な結果が得られるまで連続して行われる。

特に、図4A-4Cは雑音抑圧と音声歪みとのバランスの例を示し、図4Aは事前ＳＮＲを調整しない初期MMSE強調スペクトルを示し、図4Bは事前SNRを減少して調整された音声スペクトルを示し、図4Cは事前SNRを増加して調整された音声スペクトルを示す。

係数ａ、即ち、事前信号雑音比ξが図４Ｂに示されるように減少すれば、雑音抑圧及び音声歪みは増加することが図から明らかに知ることができる。これに対して、係数ａ、即ち、事前信号雑音比ξが図4Cに示すように増加すれば、雑音抑圧及び音声歪みは減少する。調整が適正であるかを決定するために使用される基準が正しい認識率である。認識率がプリセット値より大きければ、調整は終了する。

本発明の雑音抑圧方法は事前信号雑音比ξをaξと置き換えて事前信号雑音比ξを調整できるので、雑音低減と音声歪みとのバランスが調整でき、それによって満足な結果が得られることは上記説明から知ることができる。

更に、本実施形態の雑音抑圧方法は雑音抑圧性能を維持しながらMMSE推定の計算負荷が大きく増加できるように合流型超幾何関数を置き換えるために上述の雑音抑圧方法において区分線形関数も使用できる。

同じ発明概念に基づいて、図５は本発明の他の実施形態に従った音声スペクトル平滑化方法を示すフローチャートである。次に、本実施形態を図５と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。

図５に示すように、先ずステップ５０１で、上記実施形態における純粋音声スペクトル、雑音混入音声スペクトルのような音声スペクトル又は上記実施形態を通しての雑音抑圧後の音声スペクトルが入力され、実施形態は音声スペクトルに特別な制限がない。

次に、ステップ５０５で、入力された音声スペクトルは等比級数重み(geometric series weights)で平滑化され、音声スペクトルのスペクトルコンポーネント毎に、それ及びその隣接スペクトルコンポーネントのエネルギがそのエネルギとして重み付け平均化され、重みは等比級数重みである。

特に、図6A-6Bは音声スペクトルを平滑化する例を示し、図6Aは平滑化前の音声スペクトルを示し、図6Bは平滑化後のスペクトルを示す。図6Aにおいて、例えば、時間t=10及び周波数k=30の場合のスペクトルコンポーネントE(10,30)が平滑化される。E(10,30)はスペクトルコンポーネントのエネルギを示す。平滑化の具体的方法は次の３つの方法を含む。

(1)時間軸で、即ち、周波数毎に、各フレーム及びその近接フレームのエネルギが周波数及びフレームのエネルギとして重み付け平均される。例えば、周波数k=30に対して、フレームがt=10の場合のスペクトルコンポーネントのエネルギは
E(10,30)= (E(10,30)×d₁+ E(9,30)×d₂+ E(11,30)×d₂+ E(8,30)×d₃+ E(12,30)×d₃+ …)/(d₁+ 2d₂+ 2d₃+ …)
として平滑化される。

d₁, d₂,d₃, …はステップダウン等比級数重みである。他のフレームのスペクトルコンポーネントは同じように平滑化される。

(2)周波枢軸で、即ち、フレーム毎に、各周波数及びその隣接周波数のエネルギが周波数及びフレームのエネルギとして重み付け平均化される。例えば、フレームt=10に対して、k=30スペクトルコンポーネントのエネルギが
E(10,30)=(E(10,30)×d₁+ E(10,29)×d₂+ E(10,31)×d₂+ E(10,28)×d₃+ E(10,32)×d₃+ …)/(d₁+ 2d₂+ 2d₃+ …)
として平滑化される。

d₁, d₂,d₃, …はステップダウン等比級数重みである。他のフレームのスペクトルコンポーネントは同じ方法で平滑化される。

(3)同時に、時間及び周波数軸で、各周波数及び各フレームの周波数並びにそれの隣接周波数及びフレームのエネルギはフレーム及び周波数のエネルギとして重み付け平均化される。例えば、フレームがt=10、周波数がk=30の場合のスペクトルコンポーネントのエネルギは
E(10,30)=(E(10,30)×d₁+ E(9,30)×d₂+ E(11,30)×d₂+ E(10,29)×d₂+ E(10,31)×d₂+ E(8,30)×d₃+ E(12,30)×d₃+ E(10,28)×d₃+ E(10,32)×d₃+…)/(d₁+ 4d₂+ 4d₃+ …)
として平滑化される。

但し、d₁, d₂,d₃, …はステップダウン等比級数重みである。他の周波数及びフレームのスペクトルコンポーネントは同じ方法で平滑化される。更に、時間及び周波数領域に対して、異なる等比級数重みが使用できる。

図6Bは平滑化後の音声スペクトルを示す。平滑化後の音声スペクトルのエネルギは極低エネルギを持つオリジナルスペクトルコンポーネントのエネルギに比べて増加できることが分かる。

図５に戻って、平滑化後の音声スペクトルは入力された音声スペクトルがステップ５１０において等比級数重みで平滑化された後に出力される。

極低エネルギを持つオリジナルスペクトルコンポーネントは実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントを隣接スペクトルコンポーネントのエネルギの重み付け平均で平滑化することによって隣接スペクトルコンポーネントのエネルギで満たすことができ、それによって音声スペクトルの品質が改良できることは上記説明により知ることができる。

同じ発明概念に基づいて、図７は本発明の他の実施形態に従って音声特徴を抽出する方法を示すフローチャートである。次に、本実施形態を図７と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。

図７に示すように、先ずステップ７０１で、話者の音声及び背景雑音を含む雑音混入音声が入力される。

次に、ステップ７０５で、雑音混入音声は、例えば、高速フーリエ変換(FFT)によって時間領域の音声を周波数領域の音声スペクトルに変換することによって雑音混入音声に変換される。

次に、ステップ７１０で、雑音混入音声スペクトルの雑音が図１及び２における上記実施形態に従った雑音抑圧方法によって低減される。雑音抑圧方法は最小平均二乗誤差推定を式(3)及び(2)によって行う。合流型超幾何関数は区分線形関数に置き換えられる。雑音抑圧の具体的手順は上述した実施形態と同じであり、それ故にここでは説明を省略する。

更に、雑音混入音声スペクトルの雑音は図３及び４の上記実施形態に従った雑音抑圧方法によって低減できる。雑音抑圧方法は式（１）及び（４）又は式（３）及び（４）によって最小平均二乗誤差推定を行い、事前信号雑音比ξはaξに置き換えられる。雑音抑圧の具体的手順は上記実施例のそれと同じであり、故に説明を省略する。

最後に、ステップ７１５で、音声特徴は雑音混入音声スペクトルから抽出される。特に、音声特徴はメル周波数ケプストラ係数(Mel Frequency Cepstral Coefficient：MFCC)又は線形予測ケプストラ係数(Linear Predictive Cepstral Coefficient：LPCC)などのような一般的方法によって抽出でき、本発明はこれに特に限定されない。

実施形態に従った音声特徴抽出方法は雑音混入音声スペクトルから音声特徴を抽出する前に式（３）及び（２）によって最小平均二乗誤差推定を行うことができ、この場合、区分線形関数は合流型超幾何関数に置き換えて使用されるので、MMSE推定の計算負荷は雑音低減制度維持しながら大きく低減され、それによって音声特徴の品質が改善できることは上記の説明から知ることができる。

更に、実施形態に従った音声特徴抽出方法は雑音混入音声スペクトルから音声特徴を抽出する前に式（１）及び（４）によって最小平均二乗誤差推定を行うことができる。この場合、雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するためaξは事前信号雑音比ξに置き換えるために用いられ、それによって音声特徴の品質が改善できる。

更に、実施形態は雑音を低減するために最小平均二乗誤差推定を式（３）及び（４）によって行うことができ、それによって、雑音低減と音声歪みのバランスが制御されながらMMSE推定の計算負荷が大きく低減される。従って、音声特徴の品質が改善できる。

同じ発明概念に基づいて、図８は本発明の他の実施形態に従った音声特徴抽出方法を示すフローチャートである。次に、本実施形態を図８と関連して説明する、上記実施形態と同じ部分はその説明を適宜省略する。

図８に示すように、最初にステップ８０１で、純粋音声又は雑音混入音声のような音声が入力される。実施形態は音声に特に限定しない。

次に、ステップ８０５で、音声は、例えば、高速フーリエ変換(FFT)によって時間領域の音声を周波数領域の音声スペクトルに変換することによって音声スペクトルに変換される。ここで、音声が雑音を含んでいれば、変換された音声スペクトルの雑音は上述の実施形態の雑音抑圧方法によって抑圧できる。

次に、ステップ８１０で、音声スペクトルは音声スペクトルを平滑化する上記方法によって平滑化できる。特に、音声スペクトルは上述の３つの平滑化方法の１つ又はその組み合わせによって平滑化できる。平滑化の具体的手順は上述の実施形態のそれと同じであり、故に、ここでは説明を省略する。

最後に、ステップ８１５で、音声特徴が平滑化された音声スペクトルから抽出される。特に、音声特徴はメル周波数ケプストラ係数(Mel Frequency Cepstral Coefficient：MFCC)又は線形予測ケプストラ係数(Linear Predictive Cepstral Coefficient：LPCC)などのような一般的方法によって抽出できる。本発明はこれに特に限定されない。

音声特徴抽出方法は音声特徴を音声スペクトルから抽出する前に実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントをその隣接スペクトルコンポーネントのエネルギの重み付け平均によってスペクトルコンポーネントを平滑化することによってオリジナルスペクトルコンポーネントを極低エネルギで満たすことができるので、音声スペクトルの品質は改善できることは上記説明から知ることができる。従って、音声特徴の品質が改善できる。

更に、実施形態では、音声が雑音を含んでいれば、雑音は図１及び２の実施形態に従った雑音抑圧方法を用いて式（３）及び（２）によって最小平均二乗誤差推定を行うことによって低減できる。この場合、区分線形関数は合流型超幾何関数を置き換えるために使用され、それにより雑音低減性能は維持されながらMMSE推定の計算負荷が大きく減ぜられ、音声特徴の品質が改善できる。

更に、実施形態では、音声が雑音を含んでいれば、雑音は図３及び４の実施形態に従った雑音抑圧方法を用いて式（１）及び（４）によって最小平均二乗誤差推定を行うことによって低減される。この場合、雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するためaξは事前信号雑音比ξを置き換えるために使用され、それによって音声特徴の品質が改善される。

更に、実施形態は式（３）及び（４）によって最小平均二乗誤差推定を行うことができ、それによってMMSE推定の計算負荷が大きく減少され、更に雑音低減と音声歪みとのバランスが制御できる。従って、音声特徴の品質が改善される。

同じ発明概念に基づいて、図９は本発明の他の実施形態に従った音声認識方法を示すフローチャートである。次に、本実施形態を図９と関連して説明する。上記実施形態と同じ部分に対しては、その説明を適宜省略する。

図９に示されるように、先ずステップ９０１で、音声特徴が図７及び８の実施形態に従った上述の音声特徴抽出方法を用いて抽出される。抽出の具体的な手順は上記実施形態のそれと同じであり、故にその説明を省略する。

次に、ステップ９０５で、音声認識が抽出された音声特徴に従って行われる。特に、例えば、抽出された音声特徴は音声の内容情報を認識するために以前にトレーニングしたテンプレートと比較できる。本発明はこれに限定されない。

実施形態に従った音声認識方法において、極低エネルギを持つオリジナルスペクトルコンポーネントは音声スペクトルから音声特徴を抽出する前に実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントをその隣接スペクトルコンポーネントのエネルギの重み付平均で平滑化することによって隣接スペクトルコンポーネントのエネルギで満たすことができ、それによって音声スペクトルの品質が改善できることは上記説明から知ることができる。従って、音声認識性能が改善できる。

更に、実施形態においては、音声が雑音を含んでいれば、雑音は式（３）及び（２）によって最小平均二乗誤差推定を行うことによって低減できる。この場合、区分線形関数が雑音混入スペクトルから音声特徴を抽出する前に合流型超幾何関数を置き換えるために使用され、それによって雑音低減性能を維持しながらMMSE推定の計算負荷が大きく低減し、音声認識性能が改善される。

更に、随意的に、実施形態に従った音声認識方法は式（１）及び（４）によって最小平均二乗誤差推定を行うことによって雑音を低減できる。この場合、音声特徴を雑音混入音声スペクトルから抽出する前に雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するためにaξが事前信号雑音比ξを置き換えるために使用され、これによって音声認識性能が改善できる。

更に、実施形態は式（３）及び（４）によって最小平均二乗誤差推定を行うことができ、それによってMMSE推定の計算負荷が大きく低減し、更に雑音低減と音声歪みとのバランスが制御できる。従って、音声認識性能が改善される。

同じ発明概念に基づいて、図１０は本発明の他の実施形態に従った音声モデルをトレーニングする方法を示すフローチャートである。上記実施形態と同じ部分については、その説明を適宜省略する。

図１０に示すように、先ずステップ１００１で、音声特徴が図７又は８の実施形態に従った上記音声特徴抽出方法を用いて抽出される。抽出の具体的手順は上記実施形態と同じであり、故にその説明を省略する。

次に、ステップ１００５で、音声モデルが抽出された音声特徴に従ってトレーニングされる。

実施形態に従った音声認識方法において、極低エネルギを持つオリジナルスペクトルコンポーネントは音声特徴を音声スペクトルから抽出する前に実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントを隣接スペクトルコンポーネントのエネルギの重み付平均により平滑化することによって隣接スペクトルコンポーネントのエネルギで満たすことができ、それによって音声スペクトルの品質が改善できることは上記説明から知ることができる。従って、トレーニングされた音声モデルの品質が改善できる。

更に、実施形態では、音声が雑音を含んでいれば、雑音は式（３）及び（２）によって最小平均二乗誤差推定を行うことによって低減できる。この場合、区分線形関数は合流型超幾何関数を置き換えるために使用され、それによって雑音低減性能を維持しながらMMSE推定の計算負荷が大きく低減され、トレーニングされた音声モデルの品質が改善できる。

更に、随意的に、実施形態に従った音声モデルトレーニング方法は式（１）及び（４）によって最小平均二乗誤差推定を行って雑音を低減できる。この場合、音声特徴を雑音混入音声スペクトルから抽出する前に雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するためaξが事前信号雑音比ξを置き換えるために使用され、それによってトレーニングされた音声モデルの品質が改善される。

更に、実施形態に従った音声モデルトレーニング方法は式（３）及び（４）によって最小平均二乗誤差推定を行うことができ、それによってMMSE推定の計算負荷が大きく低減され、更に雑音低減と音声歪みとのバランスが制御できる。従って、トレーニングされた音声モデルの品質が改善される。

同じ発明概念に基づいて、図１１は本発明の他の実施形態に従った音声認識方法を示すフローチャートである。次に、本実施形態は図１１と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。

図１１に示すように、先ずステップ１１０１で、話者の音声及び背景雑音を含む雑音混入音声が入力される。

次に、ステップ１１０５で、雑音混入音声が、例えば、高速フーリエ変換(FFT)によって時間領域の音声を周波数領域の音声スペクトルに変換することによって雑音混入音声スペクトルに変換される。

次に、ステップ１１１０で、雑音混入スペクトルの雑音が図３及び４の上記実施形態に従った雑音抑圧方法によって低減される。雑音抑圧方法は式(１)及び（４）又は式(３)及び（４）によって最小平均二乗誤差推定を行う。雑音抑圧の具体的な手順は上記実施形態のそれと同じであるので、その説明を省略する。

次に、ステップ１１１５で、音声特徴が雑音低減音声スペクトルから抽出される。特に、音声特徴はメル周波数ケプストラ係数(MFCC)又は線形予測ケプストラ係数(LPCC)などのような一般の方法によって抽出でき、本発明はこれに特に限定されない。

次に、ステップ１１２０で、音声は抽出された音声特徴に従って認識される。特に、例えば、抽出された音声特徴は音声の内容情報を認識するために以前にトレーニングされたテンプレートと比較できる。本発明はこれに限定されない。

次に、ステップ１１２５で、音声認識結果が認識の正確率に従って最適であるか否かが決定され、それは正確率が所定の閾値より大きいか否かを決定することになる。それが最適であれば、処理はステップ１１３０で終了する。最適でなければ、係数ａが音声認識結果に従って調整され、処理は満足な結果が得られるまでMMSE推定を継続するためにステップ１１１０に戻る。調整の具体的な手順は図３及び４の上述の実施形態におけるそれと同じであり、故に、その説明を省略する。

実施形態に従った音声認識方法が音声認識結果に従ってMMSE推定を効率的に調整できるので音声認識性能は改善できることは上記説明から知ることができる。

同じ発明概念に基づいて、図１２は本発明の実施形態に従った雑音抑圧装置を示すブロック図である。次に、本実施形態が図１２と関連して説明する。上記実施形態と同じ部分についてはその説明を適宜省略する。

図１２に示すように、実施形態に従った雑音混入音声スペクトルのための雑音抑圧装置１２００は雑音混入音声スペクトルの雑音を低減するために雑音推定スペクトルによって雑音混入音声スペクトルに最小平均二乗誤差推定を行うように構成された最小平均二乗誤差推定部１２０１を備える。最小平均二乗誤差推定部１２０１は合流型超幾何関数を区分線形関数に置き換えることによって式（３）及び（２）で最小平均二乗誤差推定を行う。具体的な詳細は図１及び２の実施形態に従った雑音抑圧方法と同じであり、故に説明は省略する。

実施形態に従った雑音抑圧装置１２００は更に区分線形関数のセグメンテーションポイントを保存するように構成されたセグメンテーションポイント保存部１２０５、背景雑音に関する事前推定から得られる雑音推定を保存するように構成された雑音推定保存部１２１０を含む。更に、雑音推定は外部から最小平均二乗誤差推定部１２０１に入力できる。

実施形態に従った雑音抑圧装置１２００は合流型超幾何関数を置き換えるために区分線形関数を使用するので、雑音低減性能を維持しながらMMSE推定の計算負荷が大きく低減されることは上記の説明から知ることができる。

同じ発明概念に基づいて、図１３は本発明の他の実施形態に従った雑音抑圧装置を示すブロック図である。次に、本実施形態を図１３と関連して説明する。上記の実施形態と同じ部分については、その説明を適宜省略する。

図１３に示すように、実施形態に従った雑音混入音声スペクトルのための雑音抑圧装置１３００は雑音混入音声スペクトルの雑音を減少する事前信号雑音比によって雑音混入音声スペクトルに最小平均二乗誤差推定を行うように構成された最小平均二乗誤差推定部１３０１と適正な雑音抑圧を得るために事前信号雑音比を調整ように構成された調整部１３０５とを備える。具体的な詳細は図３及び４の実施形態に従った雑音抑圧方法と同じであり、故に説明は省略する。

実施形態に従った雑音抑圧装置１３００は事前信号雑音比を調整できるため雑音低減と音声歪みとのバランスが制御でき、それによって満足な結果を得ることができることは上記説明からすることができる。

更に、実施形態に従った雑音抑圧装置１３００は合流型超幾何関数を置き換えるために区分線形関数を使用することによって最小平均二乗誤差推定を行うことができ、それによって雑音低減性能が維持されながらMMSE推定の計算負荷が大きく低減される。

同じ発明概念に基づいて、図１４は本発明の他の実施形態に従った音声スペクトル平滑化装置を示すブロック図である。次に、本実施形態を図１４と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。

図１４に示すように、実施形態に従った音声スペクトル平滑化装置１４００は音声スペクトルの各スペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算するように構成された重み付け平均化部１４０１及びスペクトルコンポーネントのエネルギを、重み付け平均化部によって計算されたスペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み付け平均によって調整するように構成された平滑化調整部１４０５とを備える。具体的詳細は図５及び６の実施形態に従った音声平滑化方法の説明と同じであり、故にその説明を省略する。

極低エネルギを持つオリジナルスペクトルコンポーネントは実施形態に従った音声スペクトル平滑化装置１４００によってスペクトルコンポーネントをその隣接スペクトルコンポーネントのエネルギの重み付け平均によって平滑化することによって隣接スペクトルコンポーネントのエネルギで満たすことができ、それによって音声スペクトルの品質が改善されることは上記説明から知ることができる。

同じ発明概念に基づいて、図１５は本発明の他の実施形態に従った音声特徴抽出装置を示すブロック図である。次に、本実施形態を図１５と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。

図１５に示すように、実施形態に従った音声特徴抽出装置１５００は雑音混入音声を入力するように構成された入力部１５０１と、雑音混入音声を雑音混入音声スペクトルに変換するように構成された変換部１５０５と、上記の雑音抑圧装置１２００又は雑音混入音声スペクトルの雑音を低減するように構成された雑音抑圧装置１３００と、雑音低減音声スペクトルから音声特徴を抽出するように構成された抽出部１５１０とを備える。具体的詳細は図７の実施形態に従った音声特徴抽出方法の説明と同じであり、故に、その説明を省略する。

実施形態に従った音声特徴抽出装置１５００は最小平均二乗誤差推定を式（３）及び（２）によって行うことができ、この場合、区分線形関数は合流型超幾何関数を置き換えるために使用され、雑音低減性能を維持しながらMMSE推定の計算負荷が大きく低減され、それによって音声特徴の品質が改善できることは上記説明から知ることができる。

更に、随意的に、実施形態に従った音声特徴抽出装置１５００の雑音抑圧装置１３００は式（１）及び（４）によって最小平均二乗誤差推定を行うことができる。この場合、aξは雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するために事前信号雑音比ξを置き換えるために使用される。これにより音声特徴の品質が改善される。

更に、実施形態に従った音声特徴抽出装置１５００の雑音抑圧装置１３００は雑音を低減するために式（３）及び（４）によって最小平均二乗誤差推定を行うことができ、それによってMMSE推定の計算負荷が雑音低減と音声歪みとのバランスが制御されながら大きく低減される。従って、音声特徴の品質が改善できる。

同じ発明概念に基づいて、図１６は本発明の他の実施形態に従った音声特徴抽出装置を示すブロック図である。次に、本実施形態を図１６と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。

図１６に示されるように、実施形態に従った音声特徴抽出装置１６００は音声を入力するように構成された入力部１６０１と、音声を音声スペクトルに変換するように構成された変換部１６０５と、音声スペクトルを平滑化するように構成された上述の音声スペクトル平滑化装置１４００と、平滑化音声スペクトルから音声特徴を抽出するように構成された抽出部１６１０とを備える。具体的詳細は図８の実施形態に従った音声特徴抽出方法の説明と同じであり、故に説明は省略する。

実施形態に従った音声特徴抽出装置１５００は実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントをその隣接スペクトルコンポーネントのエネルギの重み付平均によって平滑化することによって極低エネルギのオリジナルスペクトルコンポーネントを隣接スペクトルコンポーネントのエネルギで満たすことができるので、音声スペクトルの品質は改善できることは上記説明から知ることができる。従って、音声特徴の品質が改善できる。

更に、実施形態では、音声が雑音を含んでいれば、雑音は図１及び２の実施形態に従った雑音抑圧方法を用いて式（３）及び（２）によって最小平均二乗誤差推定を行うことによって低減できる。この場合、区分線形関数は合流型超幾何関数を置き換えるために使用され、それによってMMSE推定の計算負荷が雑音低減性能を維持しながら大きく低減され、音声特徴の品質が改善できる。

更に、実施形態では、音声が雑音を含んでいれば、雑音は図３及び４の実施形態に従った雑音抑圧方法を用いて式（１）及び（４）によって最小平均二乗誤差推定を行って低減できる。この場合、雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するためにaξは事前信号雑音比ξを置き換えるために使用される。これによって音声特徴の品質が改善できる。

更に、実施形態は式（３）及び（４）によって最小平均二乗誤差推定を行うことができ、それによって雑音低減と音声歪みとのバランスが制御可能としながらMMSE推定の計算負荷が低減される。従って、音声特徴の品質が改善できる。

同じ発明概念に基づいて、図１７は本発明の他の実施形態に従った音声認識装置を示すブロック図である。次に、本実施形態を図１７と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。

図１７に示すように、実施形態に従った音声認識装置１７００は音声特徴を抽出するように構成された音声特徴抽出装置１５００又は１６００と、抽出した音声特徴に基づいて音声を認識するように構成された音声認識部１７０１とを備える。具体的詳細は図９の実施形態に従った音声認識方法の説明と同じであり、故に説明は省略する。

実施形態に従った音声認識装置１７００は実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントをその隣接スペクトルコンポーネントのエネルギの重み付平均によって平滑化することによって極低エネルギのオリジナルスペクトルコンポーネントを隣接スペクトルコンポーネントのエネルギで満たすことができるので、音声スペクトルの品質は改善できることは上記説明から知ることができる。従って、音声特徴の品質が改善できる。

更に、実施形態では、音声が雑音を含んでいれば、雑音は式（３）及び（２）によって最小平均二乗誤差推定を行うことによって低減できる。この場合、区分線形関数は雑音混入音声スペクトルから音声特徴を抽出する前に合流型超幾何関数を置き換えるために使用され、それによってMMSE推定の計算負荷が雑音低減性能を維持しながら大きく低減され、音声認識性能が改善できる。

更に、随意的に、実施形態に従った音声認識装置１７００は式（１）及び（４）によって最小平均二乗誤差推定を行って雑音を低減できる。この場合、aξは雑音混入音声スペクトルから音声特徴を抽出する前に雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するために事前信号雑音比ξを置き換えるために使用される。これによって音声認識性能が改善できる。

更に、実施形態に従った音声認識装置１７００は式（３）及び（４）によって最小平均二乗誤差推定を行うことができ、それによって雑音低減と音声歪みとのバランスが制御可能としながらMMSE推定の計算負荷が低減される。従って、音声認識性能が改善できる。

同じ発明概念に基づいて、図１８は本発明の他の実施形態に従った音声モデルトレーニング装置を示すブロック図である。次に、本実施形態を図１８と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。

図１８に示すように、実施形態に従った音声モデルトレーニング装置１８００は音声特徴を抽出するように構成された音声特徴抽出装置１５００又は１６００と、抽出した音声特徴に基づいて音声モデルをトレーニングするように構成されたモデルトレーニング部１８０１とを備える。具体的詳細は図１０の実施形態に従った音声認識方法の説明と同じであり、故に説明は省略する。

実施形態に従った音声モデルトレーニング装置１８００は音声スペクトルから音声特徴を抽出する前に実施形態に従った音声スペクトル平滑化方法に従ってスペクトルコンポーネントをその隣接スペクトルコンポーネントのエネルギの重み付平均によって平滑化することによって極低エネルギのオリジナルスペクトルコンポーネントを隣接スペクトルコンポーネントのエネルギで満たすことができるので、音声スペクトルの品質は改善できることは上記説明から知ることができることは上記説明から知ることができる。従って、トレーニングされた音声モデルの品質が改善できる。

更に、実施形態では、音声が雑音を含んでいれば、雑音は式（３）及び（２）によって最小平均二乗誤差推定を行うことによって低減できる。この場合、区分線形関数は雑音混入音声スペクトルから音声特徴を抽出する前に合流型超幾何関数を置き換えるために使用され、それによってMMSE推定の計算負荷が雑音低減性能を維持しながら大きく低減され、トレーニングされた音声モデルの品質が改善できる。

更に、随意的に、実施形態に従った音声モデルトレーニング装置１８００は式（１）及び（４）によって最小平均二乗誤差推定を行って雑音を低減できる。この場合、雑音混入音声スペクトルから音声特徴を抽出する前に雑音低減と音声歪みとのバランスを制御する事前信号雑音比ξを調整するためにaξは事前信号雑音比ξを置き換えるために使用される。これによってトレーニングされた音声モデルの品質が改善できる。

更に、実施形態に従った音声モデルトレーニング装置１８００は式（３）及び（４）によって最小平均二乗誤差推定を行うことができ、それによって雑音低減と音声歪みとのバランスが制御可能としながらMMSE推定の計算負荷が低減される。従って、音声認識性能が改善できる。

同じ発明概念に基づいて、図１９は本発明の他の実施形態に従った音声認識装置を示すブロック図である。次に、本実施形態を図１９と関連して説明する。上記実施形態と同じ部分については、その説明を適宜省略する。

図１９に示すように、実施形態に従った音声認識装置１９００は雑音混入音声を入力するように構成された入力部１９０１と、雑音混入音声を雑音混入音声スペクトルに変換するように構成された変換部１９０５と、雑音混入音声スペクトルの雑音を低減するように構成された上記雑音抑圧装置１３００と、音声特徴を雑音混入音声スペクトルから抽出するように構成された抽出部１９１０と、抽出した音声特徴に基づいて音声を認識するように構成された音声認識部１９１５とを備え、事前音声雑音比の最適値は音声認識結果に従って決定される。具体的詳細は図１１の実施形態に従った音声認識方法の説明と同じであり、故に説明は省略する。

実施形態に従った音声認識装置１９００が音声認識結果に従ってMMSE推定を効率的に調整できるので音声認識性能は改善されることは上記説明から知ることができる。

雑音抑圧方法、音声スペクトル平滑化方法、音声特徴抽出方法、音声認識方法及び音声モデルトレーニング方法、並びに雑音抑圧装置、音声スペクトル平滑化装置、音声特徴抽出装置、音声認識装置及び音声モデルトレーニング装置が幾つかの具体的実施形態で詳細に説明してきたが、これら上記実施形態は網羅的でない。当業者は本発明の思想及び技術的範囲内で種々の変更及び変形がなされうる。故に、本発明はこれら実施形態に限定されるものではなく、むしろ、本発明の技術的範囲は、添付の特許請求の範囲によって規定される。

Claims

雑音混入音声スペクトルの雑音抑圧方法であって、
前記雑音混入スペクトルの雑音を抑圧するために、雑音推定スペクトルを用いて前記雑音混入音声スペクトルに最小平均二乗誤差推定を行うステップを含み、
前記最小平均二乗誤差推定を行うステップでは、前記最小平均二乗誤差推定を行うために合流型超幾何関数が区分線形関数と置き換えられることを特徴とする雑音抑圧方法。
前記最小平均二乗誤差推定を行うステップでは、複数のプリセットセグメンテーションポイントを用いて前記最小平均二乗誤差推定を行うために、前記合流型超幾何関数が前記区分線形関数に変換されることを特徴とする請求項１に記載の雑音抑圧方法。
前記区分線形関数のための前記複数のプリセットセグメンテーションポイントは
前記合流型超幾何関数の微分を計算するステップと、
前記区分線形関数のための複数の初期セグメンテーションポイントを設定するステップと、
前記複数の初期セグメンテーションポイントの各２つのセグメンテーションポイント間において前記区分線形関数と前記合流型超幾何関数との差を計算するステップと、
前記差が閾値より大きければ前記２つの連続セグメンテーションポイント間に新たなセグメンテーションポイントを挿入するステップと、
計算するステップ及びその後のステップを前記差が前記閾値より大きくならなくなるまで繰り返すステップと、
を含むことを特徴とする請求項２に記載の雑音抑圧方法。
前記最小平均二乗誤差推定は次式に基づいて行われることを特徴とする請求項１乃至請求項３のいずれか１項に記載の雑音抑圧方法。
雑音混入音声スペクトルの雑音抑圧方法であって、
前記雑音混入音声スペクトルの雑音を低減するため事前信号雑音比を用いて前記雑音混入音声スペクトルに最小平均二乗誤差推定を行うステップと、
適正な雑音抑圧を得るため前記事前信号雑音比を調整するステップと、
を含むことを特徴とする雑音抑圧方法。
前記事前信号雑音比は雑音推定スペクトルから求められることを特徴とする請求項５に記載の雑音抑圧方法。
前記調整ステップは前記雑音抑圧を低減するために前記事前信号雑音比を増加させるか、又は前記雑音抑圧を増加するために前記事前信号雑音を減少させることを特徴とする請求項５又は請求項６に記載の雑音抑圧方法。
前記合流型超幾何関数は前記最小平均二乗誤差推定を行うために区分線形関数と置き換えられることを特徴とする請求項５乃至請求項７のいずれか１項に記載の雑音抑圧方法。
前記合流型超幾何関数は前記最小平均二乗誤差推定を複数のプリセットセグメンテーションポイントを用いて行うために前記区分線形関数に変換されることを特徴とする請求項８に記載の雑音抑圧方法。
前記区分線形関数のための前記複数のプリセットセグメンテーションポイントは
前記合流型超幾何関数の微分を計算するステップと、
前記区分線形関数のための複数の初期セグメンテーションポイントを設定するステップと、
前記複数の初期セグメンテーションポイントの各２つの連続セグメンテーションポイント間において前記区分線形関数と前記合流型超幾何関数との差を計算するステップと、
前記差が閾値より大きければ前記２つの連続セグメンテーションポイント間に新たなセグメンテーションポイントを挿入するステップと、
前記計算するステップとその後の前記ステップを前記差が前記閾値より大きくならなくなるまで繰り返すステップと、
を含むことを特徴とする請求項９に記載の雑音抑圧方法。
前記最小平均二乗誤差推定は次式に基づいて行われることを特徴とする請求項８乃至請求項１０のいずれか１項に記載の雑音抑圧方法。
音声スペクトルを平滑化する方法であって、
前記音声スペクトルの各スペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み付け平均を等比級数重みで計算するステップと、
前記スペクトルコンポーネントのエネルギを計算された前記重み平均によって調整するステップと、
を含むことを特徴とする音声スペクトル平滑化方法。
前記スペクトルでの前記等比級数重みの重みは最高値であり、前記等比級数重みは前記等比級数によって前記スペクトルコンポーネントから離れる方向に減少することを特徴とする請求項１２に記載の音声スペクトル平滑化方法。
前記計算ステップは、前記スペクトルコンポーネント及び同じ周波数の隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算することを含むことを特徴とする請求項１２又は請求項１３に記載の音声スペクトル平滑化方法。
前記計算ステップは、前記スペクトルコンポーネント及び同じフレームのその周波数隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算することを含むことを特徴とする請求項１２又は請求項１３に記載の音声スペクトル平滑化方法。
前記計算ステップは、前記スペクトルコンポーネント、同じフレームのその時間隣接スペクトルコンポーネント及びその周波数隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算することを含むことを特徴とする請求項１２又は請求項１３に記載の音声スペクトル平滑化方法。
前記計算ステップの前に請求項１乃至請求項１１のいずれか１項に記載の方法を用いて前記音声スペクトルの雑音を低減することを更に含むことを特徴とする請求項１２乃至請求項１６のいずれか１項に記載の音声スペクトル平滑化方法。
雑音混入音声を雑音混入音声スペクトルに変換するステップと、
請求項１乃至請求項１１のいずれか１項に記載の雑音抑圧方法を用いて前記雑音混音声入スペクトルの雑音を低減するステップと、
前記雑音低減音声スペクトルから音声特徴を抽出するステップと、
を含むことを特徴とする音声特徴抽出方法。
前記変換ステップは高速フーリエ変換によって行われることを特徴とする請求項１８に記載の音声特徴抽出方法。
音声を音声スペクトルに変換するステップと、
請求項１２乃至請求項１７のいずれか１項に記載の音声スペクトル平滑方法を用いて前記音声スペクトルを平滑化するステップと、
前記平滑化音声スペクトルから音声特徴を抽出するステップと、
を含むことを特徴とする音声特徴抽出方法。
前記変換ステップは高速フーリエ変換によって行われることを特徴とする請求項２０に記載の音声特徴抽出方法。
請求項１８乃至請求項２１のいずれか１項に記載の音声特徴抽出方法を用いて音声から音声特徴を抽出するステップと、
抽出した前記音声特徴に基づいて音声を認識するステップと、
を含むことを特徴とする音声認識方法。
請求項１８乃至請求項２１のいずれか１項に記載の音声特徴抽出方法を用いて音声から音声特徴を抽出するステップと、
抽出した前記音声特徴に基づいて前記音声モデルをトレーニングするステップと、
を含むことを特徴とする音声モデルトレーニング方法。
雑音混入音声を雑音混入音声スペクトルに変換するステップと、
請求項５乃至請求項１１のいずれか１項に記載の雑音抑圧方法を用いて前記雑音混入音声スペクトルの雑音を低減するステップと、
前記雑音低減音声スペクトルから前記音声特徴を抽出するステップと、
抽出された前記音声特徴に基づいて前記雑音混入音声を認識するステップと、
音声認識結果に基づいて前記事前信号雑音比の最適値を決定するステップと、
を含むことを特徴とする音声認識方法。
雑音混入音声スペクトルの雑音抑圧装置であって、
前記雑音混入音声スペクトルの雑音を低減するため雑音推定スペクトルによって前記雑音混入音声スペクトルに最小平均二乗誤差推定を行うように構成された推定部を備え、
前記推定部は前記最小平均二乗誤差推定を行うため合流型超幾何関数を区分線形関数に置き換えるように構成されていることを特徴とする雑音抑圧装置。
前記合流型超幾何関数は前記最小平均二乗誤差推定を複数のプリセットセグメンテーションポイントによって行うために前記区分線形関数に変換されることを特徴とする請求項２５に記載の雑音抑圧装置。
前記最小平均二乗誤差推定は次式に基づいて行われることを特徴とする請求項８乃至１０のいずれか１項に記載の雑音抑圧方法。
雑音低減音声スペクトルの雑音抑圧装置であって、
前記雑音低減音声スペクトルの雑音を低減するために事前信号雑音比を用いて前記雑音混入音声スペクトルに最小平均二乗誤差推定を行うように構成された推定部と、
適正な雑音抑圧を得るために前記事前信号雑音比を調整するよう構成された調整部と、
を備えることを特徴とする雑音抑圧装置。
前記事前信号雑音比は雑音推定スペクトルから求められることを特徴とする請求項２８に記載の雑音抑圧装置。
前記調整部は前記雑音抑圧を低減するために前記事前信号雑音比を増加させるか、又は前記雑音抑圧を増加するために前記事前信号雑音比を減少させるように構成されていることを特徴とする請求項２８又は請求項２９に記載の雑音抑圧装置。
前記推定部は前記合流型超幾何関数を区分線形関数と置き換えることによって前記最小平均二乗誤差推定を行うように構成されていることを特徴とする請求項２８乃至請求項３０のいずれか１項に記載の雑音抑圧装置。
前記推定部は複数のプリセットセグメンテーションポイントを用いて前記最小平均二乗誤差推定を行うために前記合流型超幾何関数を前記区分線形関数に変換することを特徴とする請求項３１に記載の雑音抑圧装置。
前記推定部は前記最小平均二乗誤差推定を次式に基づいて行うように構成されていることを特徴とする請求項３１又は請求項３２に記載の雑音抑圧装置。
音声スペクトルを平滑化する装置であって、
前記音声スペクトルの各スペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの重み付け平均を等比級数重みによって計算するように構成された重み平均部と、
前記重み平均部によって計算された前記スペクトルコンポーネント及びその隣接スペクトルコンポーネントのエネルギの前記重み平均を用いて前記スペクトルコンポーネントを調整するように構成された平滑調整部と、
を備えることを特徴とする音声スペクトル平滑装置。
前記スペクトルでの前記等比級数重みの重みは最高値であり、前記等比級数重みは前記等比級数によって前記スペクトルコンポーネントから離れる方向に減少することを特徴とする請求項３４に記載の音声スペクトル平滑装置。
前記重み平均化部は、前記スペクトルコンポーネント及び同じ周波数のその隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算するように構成されていることを特徴とする請求項３４又は請求項３５に記載の音声スペクトル平滑装置。
前記重み平均化部は、前記スペクトルコンポーネント及び同じフレームのその周波数隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算するように構成されていることを特徴とする請求項３４又は請求項３５に記載の音声スペクトル平滑装置。
前記重み平均化部は、前記スペクトルコンポーネント、同じフレームのその時間隣接スペクトルコンポーネント及びその周波数隣接スペクトルコンポーネントのエネルギの重み平均を等比級数重みによって計算するように構成されていることを特徴とする請求項３４又は請求項３５に記載の音声スペクトル平滑装置。
前記重み平均を計算する前記ステップの前に前記音声スペクトルの雑音を低減するように構成された請求項２５乃至請求項３３のいずれか１項に記載の雑音抑圧装置を更に含むことを特徴とする請求項３４乃至請求項３８のいずれか１項に記載の音声スペクトル平滑装置。
音声特徴を抽出する装置であって、
雑音混入音声を雑音混入音声スペクトルに変換するように構成された変換部と、
前記雑音混入音声スペクトルの雑音を低減するように構成された請求項２５乃至請求項３３のいずれか１項に記載の雑音抑圧装置と、
前記雑音低減音声スペクトルから音声特徴を抽出するように構成された抽出部と、
を具備することを特徴とする音声特徴抽出装置。
前記変換部は高速フーリエ変換によって変換するように構成されていることを特徴とする請求項４０に記載の音声特徴抽出装置。
音声を音声スペクトルに変換するように構成された変換部と、
前記音声スペクトルを平滑化するように構成された請求項３４乃至請求項３９のいずれか１項に記載の音声スペクトル平滑装置と、
前記平滑化音声スペクトルから音声特徴を抽出するように構成された抽出部と、
を具備することを特徴とする音声特徴抽出装置。
前記変換部は高速フーリエ変換によって変換するように構成されていることを特徴とする請求項４２に記載の音声特徴抽出装置。
音声特徴を抽出するように構成された請求項４０乃至請求項４３のいずれか１項に記載の音声特徴抽出装置と、
抽出した前記音声特徴に基づいて音声を認識するように構成された音声認識部と、
を具備することを特徴とする音声認識装置。
音声特徴を抽出するように構成された請求項４０乃至請求項４３のいずれか１項に記載の音声認識装置と、
抽出した前記音声特徴に基づいて前記音声モデルをトレーニングするように構成されたモデルトレーニング部と、
を具備する、音声モデルトレーニング装置。
雑音混入音声を雑音混入音声スペクトルに変換するように構成された変換部と、
前記雑音混入音声スペクトルの雑音を低減するように構成された請求項２８乃至請求項３３のいずれか１項に記載の雑音抑圧装置と、
前記雑音低減音声スペクトルから音声特徴を抽出するように構成された抽出部と、
抽出された前記音声特徴に基づいて前記雑音混入音声を認識するように構成された音声認識部と、
音声認識結果に従って前記事前信号雑音比の最適値を決定するように構成された決定部と、
を備えることを特徴とする音声認識装置。