JP4560899B2 - 音声認識装置、及び音声認識方法 - Google Patents
音声認識装置、及び音声認識方法 Download PDFInfo
- Publication number
- JP4560899B2 JP4560899B2 JP2000176894A JP2000176894A JP4560899B2 JP 4560899 B2 JP4560899 B2 JP 4560899B2 JP 2000176894 A JP2000176894 A JP 2000176894A JP 2000176894 A JP2000176894 A JP 2000176894A JP 4560899 B2 JP4560899 B2 JP 4560899B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- amount
- feature
- speech recognition
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声認識装置、及び音声認識方法に係り、詳細には雑音環境下での音声認識に好適な音声認識装置、及び音声認識方法に関する。
【0002】
【従来の技術】
近年、音声認識の研究が盛んに行われ、部分的には実用されている。その基本的手法はHMM(Hidden Markov Model;隠れマルコフモデル)を利用した統計手法によるものである。図7を参照してHMMによる音声認識の一般的な手法を説明する。まず、マイクから入力された音声はA/D変換部101で量子化された後、フレーム化部102によってフレーム(例えばフレーム周波数10ms程度の所定処理単位長のタイムスライス)に区切られ、特徴量検出部103によってフレーム毎に特徴量が計算される。この特徴量は、多くの場合、MFCC(Mel-Frequency Cepstrum Coefficients;メル周波数ケプストラム係数)と呼ばれる30次程度のベクトルが使用される。
【0003】
一方、単語毎にHMMモデル1051〜105nがトレーニング等によって予め与えられている。HMMモデルとは各単語を音素程度の比較的少ない複数の状態で表し、単語毎に状態の遷移確率と、各状態から入力されたベクトル(特徴量)を出力する確率と、をパラメータとして与えたものである。単語HMMモデル1051〜105nは音素毎にトレーニングされたHMMモデルをその単語を音素に分解するときの順に結合することによっても得ることができる。
【0004】
単語HMMモデル1051〜105nと、入力された音声から計算された特徴量である特徴ベクトル列とが比較部104に入力される。比較部104ではどのHMMモデルが最も高い確率で与えられた特徴ベクトル列を出力するかを確率計算によって求める。例えば“やま”のHMMモデルHMM(yama)で、入力音声の特徴ベクトル列x(i)を評価する場合は、「モデルHMM(yama)からその特徴ベクトル列x(i)が出力される確率;シンボル(特徴ベクトル)発生確率」を計算する。比較部104は各単語HMMモデルについてシンボル(特徴ベクトル)発生確率を計算し、その確率を最大とするHMMモデルに対応する単語を音声認識結果として出力する。
【0005】
【発明が解決しようとする課題】
しかしながら、実際に音声認識が行われる環境では雑音による影響が避けられない。雑音環境下における音声認識率を維持するための方法としてSS(Spectrum Subtraction;スペクトラムサブトラクション)や、雑音を加味したHMMモデル等がある。SSとは認識する音声区間に先行する非音声区間の複数フレームの平均スペクトルを雑音スペクトルとし、これを音声スペクトルから減算することでスペクトル中の雑音成分を除去する方法である。SSは有効であるがそれのみでは非定常な雑音には対応できず、雑音を加味したHMMモデルと合わせて使用する必要がある。また、雑音を加味したHMMモデルは雑音の種類や大きさによって多くのモデルを用意しなくてはならなかった。
【0006】
本発明の課題は、雑音に適応したモデルを特別に用意しなくとも雑音に適応した音声認識を可能とする音声認識装置、及び音声認識方法を提供することである。
【0007】
【課題を解決するための手段】
以上の課題を解決するため、請求項1記載の発明の音声認識装置は、
隠れマルコフモデルに基づく確率計算を行うことにより入力音声を認識する音声認識装置であって、
入力音声に含まれる雑音量を検出する雑音量検出手段(例えば、図1に示す雑音量検出部2)と、
入力音声の特徴量を検出する特徴量検出手段(例えば、図1に示す特徴量検出部13)と、
前記雑音量検出手段によって検出した雑音量に基づいて、この雑音量を加味した隠れマルコフモデルの分散を推定し、この推定された分散に応じて、前記特徴量検出手段によって検出された特徴量を調整する特徴量調整手段(例えば、図1に示す特徴ベクトル成分調整部4)と、
この特徴量調整手段によって調整された特徴量を用いて、雑音を加味しない隠れマルコフモデル(例えば、図1に示すHMMモデル151〜15n)に基づいて、前記入力音声を認識する認識手段(例えば、図1に示す比較部14)と、
を備えることを特徴としている。
【0008】
また、請求項3記載の発明の音声認識方法は、
隠れマルコフモデルに基づく確率計算を行うことにより入力音声を認識する音声認識方法であって、
入力音声に含まれる雑音量を検出する雑音量検出工程と、
入力音声の特徴量を検出する特徴量検出工程と、
前記雑音量検出工程において検出した雑音量に基づいて、この雑音量を加味した隠れマルコフモデルの分散を推定し、この推定された分散に応じて、前記特徴量検出工程において検出された特徴量を調整する特徴量調整工程と、
この特徴量調整工程において調整された特徴量を用いて、雑音を加味しない隠れマルコフモデルに基づいて、前記入力音声を認識する認識工程と、
を備えることを特徴としている。
【0009】
この請求項1及び請求項3記載の発明によれば、入力音声に含まれる雑音量に基づいて、この雑音量を加味した隠れマルコフモデルの分散を推定し、この推定された分散に応じて、前記入力音声の特徴量を調整し、この調整された特徴量を用いて、雑音を加味しない隠れマルコフモデルに基づいて、前記入力音声を認識するので、各種雑音に適した隠れマルコフモデルを持たなくとも雑音に適応した音声認識を行うことが可能となり、多様な雑音が発生する環境下での音声認識率を向上することができる。
【0010】
また、請求項2記載の発明のように、請求項1記載の音声認識装置において、前記特徴量調整手段は、前記雑音量に比例するように前記特徴量を調整することが有効である。
【0011】
この請求項2記載の発明によれば、雑音の大きさから比例計算によって特徴量を調整できるので、様々な雑音に適応化することができる。
【0012】
【発明の実施の形態】
以下、図1〜図6を参照して本発明に係る音声認識装置1の実施の形態を詳細に説明する。
【0013】
まず構成を説明する。
図1は音声認識装置1の構成を示すブロック図である。
図1に示すように、音声認識装置1は、A/D変換部11、フレーム化部12、特徴量検出部13、比較部14、複数の単語HMMモデル151,152,・・・15nを備える他、雑音量検出部2、雑音量調整部3、及び特徴ベクトル成分調整部4(特徴量調整手段)を備える。
【0014】
A/D変換部11は、マイクから入力されたアナログ音声信号をA/D変換し、量子化音声信号としてフレーム化部12及び雑音量検出部2に出力する。
フレーム化部12は、A/D変換部11から入力された量子化音声信号を例えば8〜16ms程度のシフト間隔(フレーム周期)で所定の処理単位長(フレーム長;例えば、20〜40ms)に区切る。この区切られた各音声区間をフレームと呼ぶ。フレームは一部重複させるようにして切り出すのが望ましい。
特徴量検出部13はフレーム毎に特徴量を検出する。特徴量は、例えばMFCC(Mel-Frequency Cepstrum Coefficients;メル周波数ケプストラム係数)と呼ばれる30次程度の特徴ベクトル列を用いる。
【0015】
ここで、図2を参照してMFCCの検出工程を説明する。
まず、入力された音声信号について平均値を計算し、エンファシス(高域強調)を施してスペクトルの傾斜を平坦化する。そして、フレーム化部12においてフレームを切り出す際、元の音声信号に時間窓を乗じて重み付けする。例えば、時間窓としてハミング窓を乗じることによってフレームの両端に急激な変化が起こらないようにしている。その後、特徴量検出部13はフレーム単位に以下の処理を実行する。人間の聴覚特性に適した特徴量を抽出するため、音の周波数の高さに対して、対数的な特性(メル尺度)を示すような重みがかかるように、FFT(高速フーリエ変換;Fast Fourier Transform)を計算して周波数軸に変換し(ステップS1)、メル尺度に変換する(ステップS2)。更に、対数変換して(ステップS3)、重み付けし(ステップS4)、FFT(COS変換)した後(ステップS5)、正規化する(ステップS6)。この正規化処理では、各特徴量の平均値がおよそ0になるように正規化される。以上の過程で求められたMFCCの出力ディメンションはエネルギー(≧0)の対数である。これはMFCCに限らず、ほぼ全ての特徴量に共通といえる。以下、特徴量検出部13から出力される特徴量のディメンションはエネルギーの対数であるとして説明する。特徴量検出部13において検出された特徴量(特徴ベクトル列)は、後述する特徴ベクトル成分調整部4に出力される。なお、特徴量はMFCCに限定されるものではなくその他のものでもよい。また、特徴ベクトル列の次元も任意である。ここではn次元とする。
【0016】
雑音量検出部2は、A/D変換部11で量子化された入力音声信号から雑音量の大きさを検出する。雑音量は、例えば非音声区間においてサンプリングされた音声信号のエネルギー値の二乗和を計算することにより求められる。非音声区間は、例えば認識開始ボタンを押下した瞬間から所定サンプル数とすればよい。なお、雑音量は二乗和で計算したものに限定されるものではなく、他の計算方法によって算出されるものとしてもよい。
【0017】
雑音量調整部3は、雑音量検出部2において検出された雑音量を、特徴ベクトル成分調整部4における分散推定の際の演算「(分散)*(雑音量)=定数」(詳細は後述する)に使用できるように適当なディメンションに変換する。例えば、上述のようにエネルギーの二乗和を雑音量とした場合は、雑音量の平方根をとるようにすればよい。また極端に大きい雑音量を除去するため、リミッタを設けるようにしてもよい。
【0018】
ここで、HMMモデル151〜15n及びHMMモデル151〜15nを用いた音声認識について図3〜図5を参照して説明する。図3は音声“yama”の状態遷移の様子を模式的に示す図であり、図4は図3の一部を示す図である。また、図5は、シンボル(特徴ベクトル)発生確率分布を表す図である。
【0019】
図3に示すように、音声“yama”には12個の状態があると仮定する。図中の円はそれぞれ状態を示し、矢印は状態が遷移する方向を示している。そして図4に示すように、各状態A,B,Cにおいて、状態A→状態A、状態B→状態B、状態C→状態Cのように現在の状態を維持する(状態内遷移)確率をそれぞれp(a)、p(b)、p(c)とし、状態A→状態B、状態B→状態C、状態C→状態Xのように異なる状態へ遷移する(状態間遷移)確率をそれぞれq(a)、q(b)、q(c)とする。ここで、
q(a)=1−p(a)
q(b)=1−p(b)
q(c)=1−p(c)
であり、p(a)、p(b)、p(c)、q(a)、q(b)、q(c)はそれぞれトレーニングによって与えられている。
【0020】
また、各状態A,B,Cから特徴ベクトルXを発生する確率はprob(a,X)、prob(b,X)、prob(c,X)で表され、それぞれトレーニングによって与えられている。ここでは、確率prob(a,X)は状態内遷移(状態A→状態A)と状態間遷移(状態A→状態B)とで同一であるとする。prob(b,X)、prob(c,X)についても同様とする。
【0021】
各状態A,B,Cで、特徴ベクトルXを発生する確率、すなわちシンボル発生確率の分布は図5に示すように混合ガウス分布で表される。図5では簡単のためにベクトルを2次元としている。また、各次元は実際は複数のガウス分布の混合であるが、図5では次式(1)に示す1個のガウス分布を表すこととする。
【0022】
prob(v0,v1)=1/(2π*|V|1/2)*exp{−(v0,v1)V-1(v0,v1)Vt}・・・(1)
V:共分散行列
【0023】
一般に、ある状態から与えられた特徴ベクトルの発生確率はprob(状態,特徴ベクトル)で表される。ここで、probは状態毎に与えられたn次元混合分布の確率密度である。
【0024】
HMMモデルに基づいて音声認識を行う場合は、与えられている各HMMモデルについて、その各状態から入力音声の特徴ベクトルがいくつ発生するかを確率(シンボル(特徴ベクトル)発生確率)計算によって求められる。シンボル(特徴ベクトル)発生確率を求めるためには、例えば、入力音声の特徴ベクトルがV1〜V20の20個のベクトルである場合は、「20個のベクトルがどの状態でいくつ発生するか」を求めればよい。一例を挙げると、図4において、「V1、V2は状態Aで発生して、V3は状態Aから状態Bへの遷移中に発生し、V4〜V10は状態Bで発生して、V11は状態Bから状態Cへの遷移中に発生し、V12〜V20は状態Cで発生する」とした場合に求められる確率P1は、次式(2)で表される。
【0025】
P1=prob(a,V1)*prob(a,V2)*prob(a,V3)*prob(b,V4)*・・・*prob(b,V11)*prob(c,V12)*・・・*prob(c,V20)*(p(a)^2)*(1-p(a))*(p(b)^7)*(1-p(b))*(p(c)^9) ・・・ (2)
【0026】
同様に「20個のベクトルがどの状態でいくつ発生するか」の全ての場合について確率P1,P2,・・・,Pmを計算する。それらの和ΣPmが「HMMモデルが与えられた(入力された)特徴ベクトル列を発生する確率」となる。以上の確率計算は後述する比較部14において行われる。
【0027】
次に、HMMモデルと雑音の関係を説明する。各シンボル(特徴ベクトル)の発生確率は、前述したように、多次元(混合)ガウス分布で表現される(図5参照)。また、ガウス分布は、G(μi,σi)で表され(ここで、μ;平均値,σ;共分散値)、入力系(特徴ベクトル)の平均値μi及び共分散行列σiが定まると決定される。以下、雑音が加わった場合の特徴量の平均値及び共分散行列の変化について説明する。
【0028】
平均値μは特徴量検出部13において、およそ0になるように正規化されて出力されるため、雑音の有無の影響はない。一方、共分散行列σは計算量低減のため各次元が無相関と仮定する。このためシンボル(特徴ベクトル)発生確率の雑音による影響は分散に反映されると考えればよい。
【0029】
入力音声と雑音が無相関と仮定すれば、入力音声のエネルギーはノイズエネルギーによって全体的に大きくなる。HMMモデルの分散は、特徴ベクトルの各成分の分散に対応しているが、これらの分散は雑音によるエネルギーの全体的な増大によって原則的に小さくなる。
【0030】
すなわち、雑音がないとき、特徴量検出部13において入力音声の対数を計算する直前のデータの平均値を「2」とし、「±1」の変動がある場合には、その分散b1は次式(3)で表される。
【0031】
b1=((Log(3)−Log(2))^2+(Log(1)−Log(2))^2)/2 ・・・(3)
【0032】
一方、雑音が加わることにより平均値が例えば「100」増大した場合、同様の仮定(データに「±1」の変動がある)で分散b2を計算すると、次式(4)となる。
【0033】
b2=((Log(103)−Log(102))^2+(Log(101)−Log(102))^2)/2 ・・・(4)
【0034】
従って、式(3)及び式(4)より、明らかにb1>b2となる。
以上のことから、雑音が加わった音声でトレーニングしたHMMモデルは、雑音がない音声でトレーニングしたHMMモデルより一般に分散が小さくなるといえる。つまり、雑音が加わると分布全体の分散が小さくなるが、平均値は正規化により不変(0)である。
【0035】
そこで、本実施の形態の音声認識装置1は、この現象を利用して特徴ベクトル成分調整部4により雑音量に応じて雑音を加味したモデルの分散を推定し、この推定した分散に応じて入力音声の特徴ベクトルの各成分を調整する。そして、比較部14は、各成分が調整された特徴ベクトルについてのシンボル(特徴ベクトル)発生確率を雑音を加味しないHMMモデル151〜15nを用いて求める。
【0036】
上述の説明の通り、トレーニングする際の雑音量が大きいほどHMMモデルの分散が小さくなるので、雑音を加味したモデルの分散は、検出した雑音量に反比例させて算出する。すなわち、「(分散)*(雑音量)=定数」となるように決定する。但し、雑音量は、雑音量調整部3において適当なディメンションに変換されている。また、シンボル(特徴ベクトル)発生確率分布の平均値は0であるから、特徴ベクトルの各成分は推定した分散に反比例するように調整すればよい。つまり、特徴ベクトルの各成分は雑音の大きさから比例計算によって調整すればよい。
【0037】
図6を参照して特徴ベクトルの各成分の調整の概念を説明する。図6に示すグラフはそれぞれあるHMMモデルに基づくシンボル(特徴ベクトル)発生確率分布を表しており、簡単のために1次元のグラフとしている。これらのグラフにおいて横軸は確率変数である特徴量、縦軸は確率である。また、これらの分布は平均値が0になるように正規化されている。
【0038】
図6(A)は雑音を含む入力音声を雑音を加味しないHMMモデルで評価した場合のシンボル(特徴ベクトル)発生確率分布を示し、図6(B)は雑音を加味したHMMモデルで雑音を含む入力音声を評価した場合の確率分布を示している。これらのグラフにおいて図6(A)における観測点P1(入力音声)は図6(B)における観測点P2(入力音声)に対応している。図6(B)に示すように雑音を加味したHMMモデルを用いて雑音を含む入力音声を評価すれば正しい結果(確率)を得ることができるが、雑音を加味したHMMモデルを雑音毎、単語毎にそれぞれ用意するのは非常に困難である。そこで、本発明では図6(C)に示すように、特徴ベクトルの各成分を雑音量に応じて調整し、雑音を加味しないHMMモデル(図6(A)のHMMモデル)を用いてシンボル(特徴ベクトル)発生確率を求める。
【0039】
例えば、図6(B)に示すように、雑音を加味したモデルでの分散が、雑音を加味しないHMMモデル(図6(A))の1/2倍となる場合は、シンボル(特徴ベクトル)発生確率分布の平均値が0に正規化されていることから、入力音声の特徴ベクトルの各成分を2倍に調整し、雑音を加味していないHMMモデル(図6(A)の分布)で評価することに等しいといえる。
つまり、雑音量が大きい場合のHMMモデルの分散は小さくなるので、雑音量に反比例するように雑音を加味したHMMモデルの分散を推定すればよく、更に、推定した分散に反比例するように特徴ベクトルの各成分を調整して雑音を加味しないモデルで評価すれば、雑音を加味したモデルで評価した場合(図6(B))と同一の結果(確率)を得ることができる。つまり、特徴ベクトル成分調整部4では、検出した雑音量に比例するように特徴ベクトルの各成分を調整すればよいこととなる。
【0040】
比較部14は特徴ベクトル成分調整部4において調整された特徴量に基づいて雑音を加味していない各HMMモデル151〜15nからのシンボル(特徴ベクトル)発生確率を計算し、その確率が最も大きいHMMモデルを音声認識結果として出力する。
【0041】
次に動作を説明する。
マイクから入力されたアナログ音声信号はA/D変換部11において量子化音声信号に変換され、フレーム化部12に入力されるとともに雑音量検出部2に入力される。フレーム化部12に入力された量子化音声信号は、複数のフレームに区切られ、次に特徴量検出部13に入力されて、MFCC等の特徴量(特徴ベクトル列)が検出される。一方、雑音量検出部2では入力されたディジタル音声信号から雑音量を検出し、雑音量調整部3において、検出した雑音量を適当なディメンションに変換したり、リミッタによって極端な雑音を除去する。
【0042】
そして、特徴ベクトル成分調整部4において、雑音量検出部2及び前記雑音量調整部3において検出、調整された雑音量に基づいて前記特徴量検出部13において検出された特徴ベクトルの各成分を調整する。すなわち、雑音を加味したHMMモデルの分散を推定し(図6(B)参照)、この推定された分散に応じて特徴ベクトルの大きさを調整する(図6(C)参照)。雑音を加味したHMMモデルの分散は雑音の大きさに反比例するように決定される。また、雑音を加味したモデルでのシンボル(特徴ベクトル)発生確率の分散を1/x倍にすることは、雑音を加味していないHMMモデルでの確率変数、すなわち、特徴ベクトルの各成分をx倍にすることに等しいので、推定された分散に反比例するように特徴ベクトルの各成分を調整する。
【0043】
つまり、特徴ベクトル成分調整部4は雑音量に比例するように特徴ベクトルの各成分を調整すればよい(図6(A)→図6(C))。その後、比較部14では成分が調整された特徴ベクトルについて、雑音を加味していない全てのHMMモデル151〜15nでのシンボル(特徴ベクトル)発生確率を計算し、その中で最も確率の高いHMMモデル(単語)を音声認識結果として出力する。
【0044】
以上説明したように、本実施の形態の音声認識装置1は雑音の大きさによってHMMモデルの分散が変化することを利用して、検出した雑音量から、この雑音を加味したHMMモデルの分散を推定し、推定した分散に応じて特徴量を調整し、調整後の特徴量について雑音を加味していない各HMMモデル151〜15nからのシンボル(特徴ベクトル)発生確率を計算し、その確率が最大となるHMMモデルを音声認識結果とする。
【0045】
従って、雑音を加味したHMMモデルを特別に持たなくとも、雑音に適応した音声認識を行うことが可能となり、多様な雑音が発生する環境下での音声認識率を向上することができる。
【0046】
なお、本実施の形態において、検出した雑音量からの分散の推定及び特徴量の調整は計算によって行うものとしたが、例えば、テーブルによって雑音に応じた特徴量の調整を行うようにしてもよい。この場合、テーブルには上述のHMMモデルと雑音との関係を利用して、特徴量の調整量が雑音の大きさに比例するように設定されているものとする。このようにテーブルを用いて特徴量を調整するようにすれば、ある程度予測できる雑音に対しては、分散の推定等の計算を省いて少ない演算量で雑音に適応させることができる。
【0047】
【発明の効果】
請求項1及び請求項3記載の発明によれば、検出した入力音声に含まれる雑音量に基づいて、この雑音量を加味した隠れマルコフモデルの分散を推定し、この推定された分散に応じて、前記入力音声の特徴量を調整し、この調整された特徴量を用いて、雑音を加味しない隠れマルコフモデルに基づいて、前記入力音声を認識するので、各種雑音に適した隠れマルコフモデルを持たなくとも雑音に適応した音声認識を行うことが可能となり、多様な雑音が発生する環境下での音声認識率を向上することができる。
【0048】
請求項2記載の発明によれば、雑音の大きさから比例計算によって特徴量を調整できるので、様々な雑音に適応化することができる。
【図面の簡単な説明】
【図1】音声認識装置1の構成を示すブロック図である。
【図2】特徴量(MFCC)の検出工程を示す図である。
【図3】音声“yama”の状態遷移の様子を模式的に示す図である。
【図4】図3の一部を示す図である。
【図5】特徴ベクトルの発生確率分布を示すグラフである。
【図6】特徴量の調整の概念を説明する図である。
【図7】HMMによる音声認識の従来の手法を説明する図である。
【符号の説明】
1 音声認識装置
2 雑音量検出部
3 雑音量調整部
4 特徴ベクトル成分調整部
11 A/D変換部
12 フレーム化部
13 特徴量検出部
14 比較部
151〜15n 単語HMM
Claims (3)
- 隠れマルコフモデルに基づく確率計算を行うことにより入力音声を認識する音声認識装置であって、
入力音声に含まれる雑音量を検出する雑音量検出手段と、
入力音声の特徴量を検出する特徴量検出手段と、
前記雑音量検出手段によって検出した雑音量に基づいて、この雑音量を加味した隠れマルコフモデルの分散を推定し、この推定された分散に応じて、前記特徴量検出手段によって検出された特徴量を調整する特徴量調整手段と、
この特徴量調整手段によって調整された特徴量を用いて、雑音を加味しない隠れマルコフモデルに基づいて、前記入力音声を認識する認識手段と、
を備えることを特徴とする音声認識装置。 - 前記特徴量調整手段は、前記雑音量に比例するように前記特徴量を調整することを特徴とする請求項1記載の音声認識装置。
- 隠れマルコフモデルに基づく確率計算を行うことにより入力音声を認識する音声認識方法であって、
入力音声に含まれる雑音量を検出する雑音量検出工程と、
入力音声の特徴量を検出する特徴量検出工程と、
前記雑音量検出工程において検出した雑音量に基づいて、この雑音量を加味した隠れマルコフモデルの分散を推定し、この推定された分散に応じて、前記特徴量検出工程において検出された特徴量を調整する特徴量調整工程と、
この特徴量調整工程において調整された特徴量を用いて、雑音を加味しない隠れマルコフモデルに基づいて、前記入力音声を認識する認識工程と、
を備えることを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000176894A JP4560899B2 (ja) | 2000-06-13 | 2000-06-13 | 音声認識装置、及び音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000176894A JP4560899B2 (ja) | 2000-06-13 | 2000-06-13 | 音声認識装置、及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001356795A JP2001356795A (ja) | 2001-12-26 |
JP4560899B2 true JP4560899B2 (ja) | 2010-10-13 |
Family
ID=18678558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000176894A Expired - Fee Related JP4560899B2 (ja) | 2000-06-13 | 2000-06-13 | 音声認識装置、及び音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4560899B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102340359B1 (ko) * | 2020-04-03 | 2021-12-15 | 서울시립대학교 산학협력단 | 선택적으로 원거리 발화를 보상하는 심층 신경망 기반 화자 특징 강화를 위한 장치 및 이를 위한 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11265198A (ja) * | 1997-11-21 | 1999-09-28 | Sextant Avionique | ヴィーナーフィルタを用いた信号中のノイズ抑制のための周波数フィルタ方法 |
JP2002140096A (ja) * | 2000-06-02 | 2002-05-17 | Canon Inc | 信号処理システム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2349259B (en) * | 1999-04-23 | 2003-11-12 | Canon Kk | Speech processing apparatus and method |
-
2000
- 2000-06-13 JP JP2000176894A patent/JP4560899B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11265198A (ja) * | 1997-11-21 | 1999-09-28 | Sextant Avionique | ヴィーナーフィルタを用いた信号中のノイズ抑制のための周波数フィルタ方法 |
JP2002140096A (ja) * | 2000-06-02 | 2002-05-17 | Canon Inc | 信号処理システム |
Also Published As
Publication number | Publication date |
---|---|
JP2001356795A (ja) | 2001-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11395061B2 (en) | Signal processing apparatus and signal processing method | |
Yegnanarayana et al. | Enhancement of reverberant speech using LP residual signal | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
US9542937B2 (en) | Sound processing device and sound processing method | |
US9384760B2 (en) | Sound processing device and sound processing method | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
US20050143997A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
Tu et al. | A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition | |
US8401844B2 (en) | Gain control system, gain control method, and gain control program | |
CN110767244A (zh) | 语音增强方法 | |
EP4189677B1 (en) | Noise reduction using machine learning | |
Ma et al. | Perceptual Kalman filtering for speech enhancement in colored noise | |
Swami et al. | Speech enhancement by noise driven adaptation of perceptual scales and thresholds of continuous wavelet transform coefficients | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
JP4858663B2 (ja) | 音声認識方法及び音声認識装置 | |
Saleem | Single channel noise reduction system in low SNR | |
JP4517457B2 (ja) | 音声認識装置、及び音声認識方法 | |
JP4560899B2 (ja) | 音声認識装置、及び音声認識方法 | |
KR20070061216A (ko) | Gmm을 이용한 음질향상 시스템 | |
JP3046029B2 (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
KR20050051435A (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
Chiluveru et al. | Nonstationary noise reduction in low SNR speech signals with wavelet coefficient feature | |
Hepsiba et al. | Computational intelligence for speech enhancement using deep neural network | |
Boyko et al. | Using recurrent neural network to noise absorption from audio files. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070405 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100706 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100719 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130806 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |