JP4705414B2 - 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 - Google Patents

音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4705414B2
JP4705414B2 JP2005172122A JP2005172122A JP4705414B2 JP 4705414 B2 JP4705414 B2 JP 4705414B2 JP 2005172122 A JP2005172122 A JP 2005172122A JP 2005172122 A JP2005172122 A JP 2005172122A JP 4705414 B2 JP4705414 B2 JP 4705414B2
Authority
JP
Japan
Prior art keywords
noise
model parameter
speech
model
cepstrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005172122A
Other languages
English (en)
Other versions
JP2006349723A5 (ja
JP2006349723A (ja
Inventor
哲 小橋川
敏 高橋
義和 山口
明弘 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005172122A priority Critical patent/JP4705414B2/ja
Publication of JP2006349723A publication Critical patent/JP2006349723A/ja
Publication of JP2006349723A5 publication Critical patent/JP2006349723A5/ja
Application granted granted Critical
Publication of JP4705414B2 publication Critical patent/JP4705414B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力音声信号の特徴パラメータ系列に対して、各認識結果候補の特徴パラメータからモデル化した確率モデルの尤度を求めて、入力音声の認識を行う音声認識装置、音響モデル作成装置、この装置を実行するための方法、プログラムおよびその記録媒体に関する。
従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に、隠れマルコフモデル(Hidden Markov Model、以下ではHMMという。)を用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。図1に、従来のHMMを用いた音声認識装置の構成例を示す。音声信号入力端子11から入力された音声は、A/D変換部12でデジタル信号に変換される。特徴パラメータ抽出部13では、そのデジタル信号から音声特徴パラメータを抽出する。予め、ある音声単位毎に作成したHMMをモデルパラメータメモリ14から読み出し、モデル照合尤度計算部15において、入力音声信号に対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を、認識結果として認識結果出力部16より出力する。
背景雑音などの加法性雑音が重畳した音声の認識方法として、最初に背景雑音が重畳した音声の確率モデルである雑音重畳音声モデルを作成し、作成した雑音重畳音声モデルを用いて認識する3つの雑音重畳モデル作成法について説明する。
雑音重畳モデル作成法の1つ目は、入力信号中の背景雑音の種類が既知と仮定し、雑音重畳音声データから学習された雑音重畳音声モデルを用いる方法である。
雑音重畳モデル作成法の2つ目は、HMMの合成による雑音重畳音声の認識手法(例えば、非特許文献1)である。以下HMM合成法について説明する。雑音重畳音声に対しては、前述のように、雑音重畳音声から学習した雑音重畳音声モデルを用いて認識すれば認識性能は向上する。しかし、HMMを作成するために必要な学習データ量は膨大であり、モデル作成のための計算時間も膨大である。そこで、雑音のない大量の音声データをもとに予めクリーン音声HMMを作成しておく。認識時には観測した背景雑音から作成した雑音HMMと、クリーン音声HMMとを合成する。合成した雑音重畳音声HMMは、認識時の背景雑音を含む音声モデルの近似であり、これを用いて認識する。
3つ目は、Taylor展開による音響モデルの適応(ヤコビアン適応法)による雑音重畳音声の認識手法(例えば、非特許文献2)について説明する。前述のHMM合成法で行っているモデルパラメータの非線形変換を、Taylor展開の1次項を用いて線形近似することで、雑音適応が可能になる。HMM合成法に比べ、音声モデルの処理時間も少なく、高速に雑音適応ができ、雑音の変化に追従できる。
背景雑音などの加法性雑音が重畳した音声の認識方法として、次に、入力信号に対して雑音成分を推定し、推定した雑音成分を除去する雑音抑圧処理後の信号を用いて認識する2つの雑音抑圧法について説明する。
雑音抑圧法の1つ目は、スペクトルサブトラクション法(以下、SS法という。)に基づく雑音抑圧法である(例えば、非特許文献3)。時間領域で加法性の2つの信号は、線形パワースペクトル上でも加法性であることから、SS法では、線形パワースペクトル上で雑音重畳音声から推定雑音成分を減算し、音声成分を抽出する。時刻tのパワースペクトルの周波数fの雑音抑圧後のパワースペクトルY(t,f)は、以下のように計算される。
Figure 0004705414
ここで、Y(t,f)は、入力雑音重畳音声の時刻t、周波数fのパワースペクトル、N^(f)は、推定された周波数fの時間平均雑音パワースペクトル、αは、サブトラクション係数、βは、フロアリング係数である。この方法では、図1の構成のA/D変換部12と特徴パラメータ抽出部13の間に、スペクトルサブトラクション部を追加する。そのスペクトルサブトラクション部から出力されるパワースペクトルから、音声認識の特徴パラメータ(例えば、12次元のメル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficient))を特徴パラメータ抽出部13で計算する。その後の処理は、図1と同じである。
雑音抑圧法の2つ目は、ウィナー・フィルタ法(以下、WF法という。)に基づく雑音抑圧法である(例えば、非特許文献4)。WF法による雑音抑庄法は、フレーム毎のS/Nを考慮して雑音抑圧を行っているため、雑音抑圧による音声の歪みを抑えながら高い雑音抑圧性能を実現できる。すなわち,下記の式(3)は、音声パワーレベル/雑音重畳音声のパワーレベルを意味しており、式(2)において、S/Nの推定値に基づく雑音抑圧を行っている。次式は、雑音抑圧前の信号Z、WF法による雑音抑圧処理後の信号S^、元音付加による雑音抑圧処理後の信号S、WF法のゲイン関数Gの関係を示す。
Figure 0004705414
雑音抑圧量に関しては、原音付加率(1一δ)で制御する。原音付加率が高ければ、抑圧量は少なく音声の歪みも少ない。例えば、δの値は0.8などである。この原音付加に関しては、例えば、非特許文献5などで使われている。
マイクの特性や空間伝達特性などの乗法性歪みが重畳した音声の認識方法として、入力信号に対して長時問平均特徴パラメータを正規化する手法について説明する。乗法性歪みが重畳した音声の認識性能を改善する方法として、従来からケプストラム平均正規化法(CMN:Cepstral Mean Normalization)が知られている(例えば、非特許文献6)。CMN法は、音声の長時間平均スペクトルが同一であるという仮定から、乗法性歪みの影響が長時間ケプストラム平均の差に現れることを利用して、信号の各フレームから得られるケプストラムから長時間ケプストラム平均分を差し引いた成分を特徴量として用いることにより、認識対象の音声の特徴量から乗法性歪みの影響を取り除いている。また、CMN法は加法性雑音に対しても効果があることが知られている。CMN法では、通常、大量の音声データから抽出した特徴量に対してCMN処理を行った学習データを用いて音響モデルを作成しておく必要がある。例えば、図2で示すように、前述のCMN処理済みの学習データを用いて作成した音響モデルパラメータをケプストラム平均正規化済みモデルパラメータメモリ23に保存しておく。特徴パラメータ抽出部13で得られた特徴パラメータから、長時間平均ケプストラム平均計算部21で長時間平均ケプストラムを計算する。ケプストラム平均正規化処理部22で前記特徴パラメータから得られた長時間平均ケプストラムを除去し、ケプストラム平均正規化処理を行う。モデル照合尤度計算部15で、得られたケプストラム平均正規化済みの特徴パラメータと、ケプストラム平均正規化済みモデルパラメータメモリ23に記録されたケプストラム平均正規化済みモデルパラメータとの照合を行う。後の処理は図1と同様である。
F. Martin 他 "Recognition of Noisy Speech by Composition of Hidden Markov Models," 電子情報通信学会技術研究報告SP92-96, pp.9-16, 1992. 山口義和、高橋淳一、高橋敏、嵯峨山茂樹"Taylor展開による音響モデルの適応"電子情報通信学会技術研究報告SP96-78, pp.1-8, 1996. Steven F. Boll "Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Transactions on Acoustics, Speech and Signal Processing, vol.ASSP-27, no.2, pp.113-120, Apri1 1979. J. S. Lim and A. V. Oppenheim, "Enhancement and Bandwidth compression of noisy speech," Proc. IEEE, vo1.67, no.12, pp.1586-1604, Dec.1979. S. Sakauchi, A. Nakagawa, Y. Haneda, A. Kataoka, "Implementing and Evaluating of an Audio Teleconferencing Terminal with Noise and Echo Reduction," Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), pp.191-194, Kyoto, Sep.2003. B, Atal, "Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification," Proc. J. Acoust. Soc. Am, vol.55, pp.1304-1312, 1974.
従来のCMN法は,話者の口からマイクまでの伝達特性やマイク特性等に基づく乗法性歪みへの対策法としてよく知られている。また、CMN法は背景雑音の混入に基づく加法性雑音に対しても効果がある手法である。しかしながら、従来のCMN法は、大量の学習用音声データに対するCMN処理後の特徴量から学習したCMN音響モデルが必要であり、音響モデルを作成するために多くの時間が必要であった。
本発明では、CMN処理を行わず作成した音響モデル内のモデルパラメータ、または音響モデル作成時に得られた統計情報を用いて、学習用音声データのケプストラム平均(CM:Cepstral Mean)を近似的に求め、音響モデル中のケプストラムに関する各分布の平均パラメータから得られたCMを減算することで、CMN処理後の音響モデルを合成する。また、このCMN処理後の音響モデルと認識対象の音声信号にCMN処理を行って抽出した特徴量とを照合して尤度を求めることで、音声認識を行う。
本発明では、事前に得られた音響モデル内のモデルパラメータや統計情報を元に、音響モデルパラメータのCMN化を行うので、CMN処理後の音響モデルの作成時間、計算量を大幅に短縮することが可能である。特に、特定の加法性雑音環境下では、雑音の無いクリーンな学習用音声データからCMN処理を行わない分析条件で抽出した音響モデルを事前に用意しておき、前述したHMM合成法等の雑音適応法などを用いて、雑音適応済みの音響モデルを用意しておく。さらに、雑音適応済みの音響モデルに対して、本発明のCMN化処理を行うことで、短時間で、加法性雑音にも乗法性歪みにも頑健な音響モデルを合成し、実環境で頑健な音声認識を行うことが可能となる。
以下、本発明の実施形態の図面を参照して説明する。この明細書及び図面において対応する部分には同一参照符号を付けて重複説明を省略する。本明細書中では、「ケプストラム」とは、現在の音声認識で一般的に使われているMFCC(メル周波数ケプストラム係数)、LPCケプストラム、LPCメルケプストラムなども含む概念とする。また、「分布の平均」は、第1次元から第N次元までの要素から構成されるベクトルであるが、説明の簡略化のため、単に平均と表現する。
[第1実施形態]
従来のCMN(ケプストラム平均正規化)済みモデルの構築には、大量の音声データに対してケプストラム平均(CM)を正規化して分析処理した特徴パラメータを学習していた。本実施形態では、大量の音声データに対してCMN処理を行った学習データからケプストラム平均を求める代わりに、様々な音素の特徴を示すモデルパラメータを用いてケプストラム平均を正規化するためのケプストラム平均を近似的に求め、ケプストラム平均正規化済みモデルパラメータを求める。図3に、ケプストラム平均正規化済みモデルパラメータを求めるための、モデルパラメータCMN化部の機能構成例を示す。モデルパラメータCMN化部33は、モデルパラメータケプストラム平均計算部31とモデルパラメータケプストラム平均正規化処理部32から構成され、モデルパラメータメモリ14からモデルパラメータまたは学習時に得られた統計情報を入力とし、ケプストラム平均正規化済みモデルパラメータを出力とする。出力されたケプストラム平均正規化済みモデルパラメータは、ケプストラム平均正規化済みモデルパラメータメモリ23に記録される。
本発明では、モデルパラメータメモリ14内のモデルパラメータを用いて,モデルパラメータCMN(ケプストラム平均正規化)化部33で高速かつ近似的にケプストラム平均正規化済みモデルパラメータを求め、ケプストラム平均正規化済みモデルパラメータメモリ23に格納する。モデルパラメータCMN化部33のモデルパラメータケプストラム平均計算部31で、モデルパラメータメモリ14内のモデルパラメータから、モデルパラメータケプストラム平均を求める。求めたモデルパラメータケプストラム平均とモデルパラメータメモリ14内のモデルパラメータを用いて、モデルパラメータケプストラム平均正規化処理部32で、ケプストラム平均正規化済みモデルパラメータを求める。
モデルパラメータケプストラム平均計算部31では、元のモデルパラメータメモリ14内に格納されるモデルパラメータのうち、正規分布に関連するパラメータから正規化に用いるケプストラム平均μavgを計算する。モデルパラメータケプストラム平均計算部31では、まずケプストラム平均算出処理用平均化関数α[i]を求める。ケプストラム平均算出処理用平均化関数α[i]を求める方法として、モデルパラメータメモリ14中のパラメータに応じて、以下の3つの方法が考えられる。
第1の方法(方法1)は、モデルパラメータメモリ14中の各正規分布[i]の学習に使ったフレーム数(学習フレーム数N[i])を用いる方法である。この方法の場合、α[i]は、次式で求められる。
Figure 0004705414
方法1で用いた学習フレーム数N[i]は、音声認識処理に用いられないことが多いので、メモリ削減の観点から、モデルパラメータメモリ14内に格納されてない場合もある。そこで、第2の方法(方法2)は、一般的に音声認識処理に用いられる各正規分布[i]の重みw[i]を用いる。この方法の場合、α[i]は、次式で求められる。
Figure 0004705414
第3の方法(方法3)では、計算量削減のため、正規分布数に基づく単純平均を用いる。つまり、この方法では、モデルパラメータメモリ14中の正規分布数L+1を用いて、次式で求められる。
Figure 0004705414
得られたモデルの近似精度では、方法1が最もよく、方法3が最も悪い。一方、計算量やメモリの使用量の観点では、方法3が最もよく、方法1が最も悪い。また、学習データ量が多い音素では、分布数が多く割り当てられることが多いので、単純平均でもある程度の高い精度が期待できる。
正規化に用いるケプストラム平均μavgの計算は、モデルパラメータメモリ14中のモデルパラメータのうち、正規分布[i]を表現する分布の平均μ[i]と前述のケプストラム平均算出処理用平均化関数α[i]を用いて、次式で求められる。
Figure 0004705414
モデルパラメータケプストラム平均正規化処理部32では、モデルパラメータメモリ14中のモデルパラメータのうち、正規分布[i]を表現する分布の平均μ[i]と、前述の正規化に用いるケプストラム平均μavgを用いて、正規化済みの正規分布の平均μ’[i]を、以下の式(9)を用いて計算する。
Figure 0004705414
モデルパラメータケプストラム平均正規化処理部32は、モデルパラメータメモリ14中の各分布の平均値μ[i]を、得られた正規化済みの正規分布の平均μ’[i]に変更した上で、処理結果を出力する。出力された結果は、ケプストラム平均正規化済みモデルパラメータメモリ23に記録される。
なお、図4にモデルパラメータCMN化部33の処理フローを示す。
このように、モデルパラメータメモリ14に記録されたモデルパラメータや学習時に得られた統計情報からケプストラム平均正規化済みモデルパラメータを求めるので、
大量の音声データに対してケプストラム平均を正規化して分析処理した特徴パラメータを学習する必要がない。
[第2実施形態]
本実施形態では、第1実施形態と同じように、モデルパラメータから学習データに対するケプストラム平均を推定し、推定したケプストラム平均をモデルパラメータのケプストラムの次元から減算することで、ケプストラム平均正規化済みモデルパラメータを得る。このケプストラム平均正規化済みモデルパラメータは、大量の音声データに対してケプストラム平均を正規化して分析処理した特徴パラメータから学習して得られたケプストラム平均正規化済みモデルパラメータに、近似している。
モデルパラメータからのケプストラム平均の推定の方法には、音響モデル中のケプストラムに相当する各分布の平均パラメータを集めて、各分布に相当する学習データ量に比例した係数をかけて平均化した分布加算平均パラメータを用いる方法がある(第1実施形態の方法1)。また、モデルパラメータからのケプストラム平均の推定に、音響モデル中のケプストラムに相当する各分布の平均パラメータを集めて、重み付き加算平均または単純加算平均して分布加算平均パラメータを用いる方法がある(第1実施形態の方法2または方法3)。学習データ量に比例して割り当てられる分布数が多いことや、学習データ量のためのメモリ量を削減できることを考えると、後者の方法は合理的な方法である。
モデルパラメータの平均パラメータを計算するためにモデルパラメータ中の全分布を用いる場合、正規化に用いるモデルパラメータケプストラム平均は、全学習データに対するケプストラム平均に近似的な値になる。実際の認識時の認識対象の音声信号から抽出した特徴量のケプストラム平均正規化処理には、過去の発話全体の平均、過去の一発話の平均、発話全体の平均、長時間(例えば10秒程度)の移動平均,短時間(例えば1秒程度)の移動平均などが考えられる。平均幅の時間は長い方が、正規化済みのモデルパラメータとマッチするため認識精度は高くなる。一方、高速なオンライン処理が必要な場合は、平均幅は短め(例えば1秒程度)とする必要がある。また、モデルパラメータの平均パラメータを計算するための分布の選定方法には、後段の認識処理中のケプストラム平均正規化処理の平均幅に合わせて、いくつかの分布をランダムに選択し、平均パラメータを求めた後にさらに平均化する方法もある。
第2実施形態の音声認識装置の機能構成例を図5に、その処理フローを図6に示す。音声認識装置は、A/D変換部12、特徴パラメータ抽出部13、長時間ケプストラム平均計算部21、ケプストラム平均正規化処理部22、モデルパラメータメモリ14、モデルパラメータケプストラム平均計算部31とモデルパラメータケプストラム平均正規化処理部32を有するモデルパラメータCMN化部33、ケプストラム平均正規化済みモデルパラメータメモリ23、モデル照合尤度計算部15、認識結果出力部16から構成される。モデルパラメータが、ケプストラム平均正規化(CMN)済みでなければ(ステップS1)、モデルパラメータケプストラム平均計算部31で、モデルパラメータメモリ14からモデルパラメータを読み出し、例えば第1実施形態で示した方法を用いてモデルパラメータケプストラム平均が計算され、モデルパラメータケプストラム平均が出力される(ステップS2)。次に、モデルパラメータケプストラム平均正規化部32に、計算したモデルパラメータケプストラム平均とモデルパラメータメモリ14のモデルパラメータが入力され、モデルパラメータをケプストラム平均で正規化する(ステップS3)。そして、この正規化されたモデルパラメータを、ケプストラム平均正規化済みモデルパラメータメモリ23に保存する(ステップS4)。音声信号入力端子11に入力した音声信号はA/D変換部12でデジタル信号に変換される(ステップS5)。得られたデジタル信号は、特徴パラメータ抽出部13で、ケプストラムをはじめとする特徴パラメータに変換される(ステップS6)。得られた特徴パラメータから、長時間ケプストラム平培計算部21で、長時間ケプストラム平均が得られる(ステップS7)。ケプストラム平均正規化処理部22で、特徴パラメータから得られた長時間ケプストラム平均を減算することで、ケプストラム平均正規化特徴パラメータを得る(ステップS8)。モデル照合尤度計算部15で、ケプストラム平均正規化済みモデルパラメータメモリに記録されたケプストラム平均正規化済みモデルパラメータとステップ8で得られたケプストラム平均正規化パラメータとを照合し、音声認識候補の照合尤度を計算する(ステップS9)。認識結果出力部16は、ステップ9で得られた照合尤度が最大の音声認識侯補を、認識結果として出力する(ステップS10)。
このようにモデルパラメータメモリ14に記録されたモデルパラメータや学習時に得られた統計情報からケプストラム平均正規化済みモデルパラメータを求め、音声認識を行うので、大量の音声データに対してケプストラム平均を正規化して分析処理した特徴パラメータを学習する必要がない。
[変形例1]
図6の処理フローに示した点線について説明する。本変形例では、モデルパラメータがCMN済みではないと判断された場合(ステップS1)、ステップS2からステップS4と平行してステップS5からステップS8を行う。そして、ステップ4とステップ8の両方が終了した場合に、ステップ9とステップ10を行う。
このように処理することで、ステップ1でNoと判断された場合にも、音声認識処理を早期に開始することができる。
[変形例2]
第2実施形態では、音声認識装置がケプストラム平均正規化済みモデルパラメータを作成する機能を備えた場合を示した。しかし、第1実施形態に示した方法で作成したケプストラム平均正規化済みモデルパラメータをあらかじめケプストラム平均正規化済みモデルパラメータメモリに記録しておくことで、音声認識装置からケプストラム平均正規化済みモデルパラメータ作成機能を削除する方法もある。この場合には、音声認識装置は、A/D変換部12、特徴パラメータ抽出部13、長時間ケプストラム平均計算部21、ケプストラム平均正規化処理部22、ケプストラム平均正規化済みモデルパラメータメモリ23、モデル照合尤度計算部15、認識結果出力部16から構成される。また、図6の処理フローでは、ステップS1からステップS4が削除される。
[第3実施形態]
入力信号に対して、例えば前述のウィナー・フィルタ法あるいはスペクトルサブトラクション法を用いて雑音抑圧処理を施すことで耐雑音性を高めることができる。しかし、認識時の音声認識対象の音声信号から抽出した特徴量のケプストラム平均正規化処理の計算幅が短い場合は、正規化に用いるケプストラム平均の近似精度が悪いほど、また抑圧処理後の消し残り雑音レベルが高いほど、認識性能が劣化する。一般に雑音抑圧処理を施すと、音声信号に雑音抑圧処理に基づく歪みが生じる。ケプストラム平均正規化処理には、この歪みを抑える効果や少量の雑音の影響を抑える効果がある。そこで、雑音抑圧処理の抑圧レベルを高めに設定して消し残り雑音レベルを下げ、後段のケプストラム平均正規化処理で、雑音抑圧処理による歪みや少量の消し残り雑音を抑えるが期待できる。雑音抑圧処理の抑圧レベルの設定の方法としては、ウィナー・フィルタ法における原音付加率を高め(例えば0.3)、スペクトルサブトラクション法におけるサブトラクション係数を高め(例えば2.5)、フロアリング係数を低め(例えば0.3)に設定する。
第3実施形態の音声認識装置の機能構成例を図7に、その処理フローを図8に示す。図7と図4との違いは、図7には音声/雑音判定部41、端子43と端子44を有する音声/雑音スイッチ42、雑音成分推定部45、雑音抑圧処理部46が追加されている点である。また、本実施形態の処理フローでは、ステップS5とステップS6との間に、ステップS12からステップS14が追加された点が異なる。以下では、追加されたステップについて説明する。音声/雑音判定部41は、ステップS5で得られたデジタル信号から、音声区間か雑音区間かを判断し、音声区間と判断したときは、端子44側に音声/雑音スイッチ42を動かし、雑音区間と判断したときは端子43側に音声/雑音スイッチ42を動かす。このように音声/雑音スイッチ42を制御することで、雑音区間のときはステップS13に進み、音声区間が開始するとステップS14に進む(ステップS12)。雑音データに対して雑音成分推定部45で雑音成分が推定される(ステップS13)。音声区間が開始すると、雑音抑圧処理部46で、ステップS13で推定した雑音成分を用いて、ステップS5で得たデジタル信号の雑音成分を抑圧する(ステップS14)。なお、雑音成分の推定と抑圧の方法は従来の技術を用いればよい。特徴パラメータ抽出部13は、ステップS14で求めた雑音が抑圧された信号を入力として、第2実施形態と同じ処理を行う。その他の処理は第2実施形態と同様である。
[第4実施形態]
本実施形態では、雑音適応済みモデルパラメータに対してケプストラム平均正規化処理を行うことで、耐雑音性を高める。第4実施形態の音声認識装置の機能構成例を図9に、その処理フローを図10に示す。図9と図4との違いは、図9には音声/雑音判定部41、端子43と端子44を有する音声/雑音スイッチ42、雑音成分推定部45が追加されていること、モデルパラメータCMN化部33の代わりにモデル適応部56が備えられ、ケプストラム平均正規化済みモデルパラメータメモリ23の代わりにケプストラム平均正規化済雑音重畳音声モデルパラメータメモリ55が備えられている点である。また、モデル適応部56は、モデルパラメータCMN化部33に、モデルパラメータメモリ14、雑音モデル作成部51、雑音適応部52、雑音重畳音声モデルパラメータメモリ53が追加されている。本実施形態の処理フローでは、ステップS1が削除され、ケプストラム平均正規化済雑音重畳音声モデルパラメータの作成は、音声区間が開始する前の雑音区間で行われる。したがって、ステップS5とステップS6との間に、ステップS12からステップS16が追加されている。以下では、ステップS12からステップS16について説明する。音声/雑音判定部41は、ステップS5で得られたデジタル信号から、音声区間か雑音区間かを判断し、音声区間と判断したときは、端子44側に音声/雑音スイッチ42を動かし、雑音区間と判断したときは端子43側に音声/雑音スイッチ42を動かす。このように音声/雑音スイッチ42を制御することで、雑音区間のときはステップS13に進み、音声区間が開始するとステップS6に進む(ステップS12)。ステップ6に進んだ後は、第2実施形態と同じである。雑音成分推定部45は、雑音データから雑音成分を推定する(ステップS13)。雑音モデル作成部51は、推定された雑音成分から、雑音モデルを作成する(ステップS15)。雑音適応部52は、ステップS15で作成した雑音モデルを用いて、モデルパラメータメモリ14に記録されたモデルパラメータを雑音適応し、雑音重畳音声モデルパラメータメモリに保存される(ステップS16)。ステップS13の雑音成分の推定方法、ステップS15の雑音モデルの作成方法、ステップS16の雑音適応方法は、従来の技術を用いればよい。このようにして作成された雑音重畳音声モデルパラメータに対して、第2実施形態と同様のモデルパラメータケプストラム平均正規化処理を行う(ステップS2〜S4)。ステップS6〜S10の処理は、第2実施形態と同じである。また、認識結果を出力した後、最初の処理に戻って、上記の処理を繰り返す方法もある(ステップS20)。繰り返す場合には、雑音区間では再度雑音モデルを作成し(ステップS15)、雑音重畳音声モデルパラメータに対してモデルパラメータケプストラム平均正規化処理を行うことができる(ステップS2〜S4)。
加法性雑音環境下では、雑音の無いクリーンな学習用音声データからCMN処理を行わない分析条件で抽出した音響モデルを事前に用意しておき、前述したHMM合成法等の雑音適応法などを用いて、雑音適応済みの音響モデルを用意することは可能である。雑音適応済みの音響モデルに対して、本発明のCMN化処理を行うことで、短時間で加法性雑音にも乗法性歪みにも頑健な音響モデルを合成し、実環境で頑健な音声認識を行うことが可能となる。
[変形例]
話者とマイクとの位置関係や装置の周辺の温度等の環境によって、話者の口とマイクの間の空間伝達特性は簡単に変わってしまう。乗法性歪みは事前に想定することは難しいことが多く、乗法性歪みを反映した音響モデルをあらかじめ用意することは難しい。雑音があまり変化の無い定常的な環境では、直接あらかじめ想定した雑音が重畳した音声で学習した雑音重畳音響モデルを用意してもよい。そして、この雑音重畳音響モデルに対して本発明のCMN化処理を行うことで、加法性雑音にも乗法性歪みにも頑健な音響モデルを合成し、実環境で頑健な音声認識を行うことが可能となる。この場合、あらかじめ作成した雑音重畳音声モデルを雑音重畳音声モデルパラメータメモリに格納しておけば良い。
この場合の音声認識装置の機能構成では、図9中の音声/雑音判定部41、音声/雑音スイッチ42、雑音成分推定部45、モデルパラメータメモリ14、雑音モデル作成部51、雑音適応部52が不要である。また、図10の処理フローでは、ステップS12からステップS16が不要である。
[第5実施形態]
本実施形態では、第4実施形態に加えて音声認識処理時に入力信号に対して、例えば前述のウィナー・フィルタ法あるいはスペクトルサブトラクション法を用いて雑音抑圧処理を施すことで、耐雑音性を高める。第5実施形態の音声認識装置の機能構成例を図11に、その処理フローを図12に示す。図11と図9との違いは、図11には第1の雑音抑圧処理部46と第2の雑音抑圧処理部61が追加されていることである。本実施形態の処理フローでは、第1の雑音抑圧処理(ステップS14)と第2の雑音抑圧処理(ステップS18)が追加されている。以下に、ステップS14とステップS18について説明する。
ステップS18では、雑音抑圧処理部61が、ステップS5でデジタル化された雑音信号に対して、ステップS13で推定した雑音成分を用いて雑音を抑圧する。この雑音が抑圧された信号を用いてモデル適応部56での処理が進められる。また、音声区間が開始した場合には、ステップS14が行われる。ステップS14では、雑音抑圧処理部46で、ステップS13で推定した雑音成分を用いて、ステップS5でデジタル化された音声信号の雑音を抑圧する。この後の処理フローは、第4実施形態と同じである。
本実施形態では、入力信号に雑音抑圧処理を加えることで、入力信号のS/Nが向上する。したがって、認識精度が高まる。また、雑音抑圧処理によって入力信号に重畳する雑音レベルを下げることで、本発明のCMN化処理の近似精度が高くなるので、さらに認識精度は高くなる。
[第6実施形態]
本実施形態では、第4実施形態または第5実施形態に加えて、モデル適応部56の雑音適応部52で、複数のS/N条件で雑音重畳音声モデルを合成する。生成された複数(i=0〜n)のS/N条件のケプストラム平均正規化済雑音重畳音声モデルを用いて認識処理を行う。雑音があまり変化しないような環境であれば、第4実施形態と同様に、事前にその雑音が重畳した雑音重畳音声モデルを作成することができる。そこで、複数のS/N条件の雑音重畳音声モデルをCMN化処理の前に用いることも可能である。
第6実施形態の音声認識装置の機能構成例を図13に、その処理フローを図14に示す。図13と図9との違いは、複数のS/N条件に対して雑音適応部52で雑音適応を行い、複数の雑音重畳音声モデルを合成するので、雑音重畳音声モデルが複数存在する雑音重畳音声モデルパラメータメモリ53となる。また、当該雑音重畳音声モデルごとにケプストラム平均正規化済雑音重畳モデルを作成するので、複数のケプストラム平均正規化済雑音重畳モデルが存在するケプストラム平均正規化済雑音重畳モデルパラメータメモリ55となる。処理フローである図14と図10との違いは、雑音適応パラメータ更新ステップ(ステップS16)〜モデルパラメータ更新(ステップS4)をS/N条件の数(i=0〜n)だけ繰り返すことである。
なお、図11の場合にも、モデル適応部56を図13のモデル適応部56’とすることで、第5実施形態の音声認識装置に本実施形態の発明を適用できる。
本実施形態によれば、例えばオンラインで認識処理を行う場合のように、発話のS/Nが事前には分からないときでも、複数のS/N条件のモデルを用いることで、S/Nの変動にも追従が可能である。
また、上記の第1実施形態から第6実施形態は、コンピュータ本体とコンピュータプログラムとして実行することが可能であるし、デジタルシグナルプロセッサや専用LSIに実装して実現することも可能である。
従来のHMMを用いた音声認識装置の構成例を示す図。 従来のケプストラム平均正規化済みモデルパラメータを用いた音声認識装置の構成例を示す図。 ケプストラム平均正規化済みモデルパラメータを求めるための、モデルパラメータCMN化部の機能構成例を示す図。 モデルパラメータCMN化部33の処理フローを示す図。 第2実施形態の音声認識装置の機能構成例を示す図。 第2実施形態の音声認識装置の処理フローを示す図。 第3実施形態の音声認識装置の機能構成例を示す図。 第3実施形態の音声認識装置の処理フローを示す図。 第4実施形態の音声認識装置の機能構成例を示す図。 第4実施形態の音声認識装置の処理フローを示す図。 第5実施形態の音声認識装置の機能構成例を示す図。 第5実施形態の音声認識装置の処理フローを示す図。 第6実施形態の音声認識装置の機能構成例を示す図。 第6実施形態の音声認識装置の処理フローを示す図。

Claims (16)

  1. デジタル変換された入力音声から音声区間が開始したかを判断する音声/雑音判定部と、
    前記音声/雑音判定部において音声区間が開始する前の区間であると判定された場合に、前記デジタル変換された入力信号から雑音成分を推定する雑音成分推定部と、
    推定された雑音成分から雑音モデルを作成する雑音モデル作成部と、
    モデルパラメータを記録したモデルパラメータメモリと、
    前記モデルパラメータメモリに記録されたモデルパラメータに、前記雑音モデルをHHM合成法により適応させる雑音適応部と、
    前記雑音適応部で雑音適応された雑音重畳音声モデルパラメータを記録する雑音重畳音声モデルパラメータメモリと、
    前記雑音重畳音声モデルパラメータを受け取り、複数の音素の特徴を示す前記雑音重畳音声モデルパラメータのうちの正規分布の平均値を平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求めるモデルパラメータケプストラム平均計算部と、
    前記雑音重畳音声モデルパラメータのケプストラム平均を用いて前記雑音重畳音声モデルパラメータを正規化するモデルパラメータケプストラム平均正規化処理部と、
    前記モデルパラメータケプストラム平均正規化処理部で求めたケプストラム平均正規化済み雑音重畳音声モデルパラメータを記録するケプストラム平均正規化済み雑音重畳音声モデルパラメータメモリと、
    前記音声/雑音判定部において音声区間が開始したと判定された場合に、前記デジタル変換された入力音声から特徴パラメータを抽出する特徴パラメータ抽出部と、
    前記特徴量パラメータから長時間ケプストラム平均を求める長時間ケプストラム平均計算部と、
    前記特徴量パラメータと前記長時間ケプストラム平均からケプストラム平均正規化特徴パラメータを得るケプストラム平均正規化処理部と、
    前記ケプストラム平均正規化特徴パラメータと前記ケプストラム平均正規化済み雑音重畳音声モデルパラメータメモリに記憶された前記ケプストラム平均正規化済み雑音重畳音声モデルパラメータとを照合し、尤度を計算するモデル照合尤度計算部と、
    前記尤度が最大の候補を認識結果として出力する認識結果出力部と
    を備える音声認識装置。
  2. 請求項1に記載の音声認識装置であって、
    複数のS/N条件で前記雑音モデルを適応させる前記雑音適応部と、
    複数のS/N条件で雑音適応された雑音重畳音声モデルパラメータを、S/N条件ごとに記録する前記雑音重畳音声モデルパラメータメモリと、
    S/N条件ごとの雑音重畳音声モデルパラメータメモリに記録された雑音重畳音声モデルパラメータを受け取り、複数の音素の特徴を示す雑音重畳音声モデルパラメータのうちの正規分布の平均値を平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算部と、
    S/N条件ごとの雑音重畳音声モデルパラメータのケプストラム平均を用いて、S/N
    条件ごとの前記雑音重畳音声モデルパラメータを正規化する前記モデルパラメータケプストラム平均正規化処理部と、
    前記モデルパラメータケプストラム平均正規化処理部で求めたS/N条件ごとのケプストラム平均正規化済みモデルパラメータを、S/N条件ごとに記録するケプストラム平均正規化済みモデルパラメータメモリと、
    前記ケプストラム平均正規化特徴パラメータと複数のS/N条件の前記ケプストラム平均正規化済みモデルパラメータとを照合し、尤度を計算する前記モデル照合尤度計算部と、
    を備える音声認識装置。
  3. 請求項1または請求項2記載の音声認識装置であって、
    前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を各前記正規分布の学習データ量で重み付け平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算部
    を備える音声認識装置。
  4. 請求項1または請求項2記載の音声認識装置であって、
    前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を各前記正規分布の重みで重み付け平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算部
    を備える音声認識装置。
  5. 請求項1または請求項2記載の音声認識装置であって、
    前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を単純平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算部
    を備える音声認識装置。
  6. 請求項1乃至請求項5の何れかに記載の音声認識装置であって、
    前記雑音成分推定部で推定した雑音成分を用いて雑音を抑圧する雑音抑圧処理部と、
    前記雑音抑圧処理部で雑音を抑圧した信号を入力とする前記特徴パラメータ抽出部と、
    前記雑音成分推定部で推定した雑音成分を用いて、前記雑音モデル作成部の入力信号の雑音を抑圧する第2の雑音抑圧処理部と、
    を備える音声認識装置。
  7. 請求項1乃至請求項5の何れかに記載の音声認識装置であって、
    前記雑音成分推定部で推定した雑音成分を用いて雑音を抑圧する雑音抑圧処理部と、
    前記雑音抑圧処理部で雑音を抑圧した信号を入力とする前記特徴パラメータ抽出部と、
    を備える音声認識装置。
  8. デジタル変換された入力音声から音声区間が開始したかを判断する音声/雑音判定ステップと、
    前記音声/雑音判定ステップにおいて音声区間が開始する前の区間であると判定された場合に、前記デジタル変換された入力信号から雑音成分を推定する雑音成分推定ステップと、
    推定された雑音成分から雑音モデルを作成する雑音モデル作成ステップと、
    モデルパラメータメモリに記録されたモデルパラメータに、前記雑音モデルをHHM法により適応させる雑音適応ステップと、
    前記雑音適応ステップで雑音適応された雑音重畳音声モデルパラメータを、雑音重畳音声モデルパラメータメモリに記録する記録ステップと、
    前記雑音重畳音声モデルパラメータメモリに記録された前記雑音重畳音声モデルパラメータを受け取り、複数の音素の特徴を示す前記雑音重畳音声モデルパラメータのうちの正規分布の平均値を平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求めるモデルパラメータケプストラム平均計算ステップと、
    前記雑音重畳音声モデルパラメータのケプストラム平均を用いて前記雑音重畳音声モデルパラメータを正規化するモデルパラメータケプストラム平均正規化処理ステップと、
    前記モデルパラメータケプストラム平均正規化処理ステップで求めたケプストラム平均正規化済み雑音重畳音声モデルパラメータを、ケプストラム平均正規化済み雑音重畳音声モデルパラメータメモリに記録するステップと、
    前記音声/雑音判定部において音声区間が開始したと判定された場合に、前記デジタル変換された入力音声から特徴パラメータを抽出する特徴パラメータ抽出ステップと、
    前記特徴量パラメータから長時間ケプストラム平均を求める長時間ケプストラム平均計算ステップと、
    前記特徴量パラメータと前記長時間ケプストラム平均からケプストラム平均正規化特徴パラメータを得るケプストラム平均正規化処理ステップと、
    前記ケプストラム平均正規化特徴パラメータと前記ケプストラム平均正規化済み雑音重畳音声モデルパラメータメモリに記憶された前記ケプストラム平均正規化済みモデルパラメータとを照合し、尤度を計算するモデル照合尤度計算ステップと、
    前記尤度が最大の候補を認識結果として出力する認識結果出力ステップと
    を有する音声認識方法。
  9. 請求項8に記載の音声認識方法であって、
    複数のS/N条件で前記雑音モデルを適応させる前記雑音適応ステップと、
    複数のS/N条件で雑音適応された雑音重畳音声モデルパラメータを、S/N条件ごとの雑音重畳音声モデルパラメータメモリに記録する前記記録ステップと、
    S/N条件ごとの雑音重畳音声モデルパラメータメモリに記録された雑音重畳音声モデルパラメータを受け取り、複数の音素の特徴を示す雑音重畳音声モデルパラメータのうちの正規分布の平均値を平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算ステップと、
    S/N条件ごとの雑音重畳音声モデルパラメータのケプストラム平均を用いてS/N条件ごとの前記雑音重畳音声モデルパラメータを正規化する前記モデルパラメータケプストラム平均正規化処理ステップと、
    前記モデルパラメータケプストラム平均正規化処理ステップで求めたS/N条件ごとのケプストラム平均正規化済みモデルパラメータを、S/N条件ごとのケプストラム平均正規化済みモデルパラメータメモリに記録するステップと、
    前記ケプストラム平均正規化特徴パラメータと複数のS/N条件の前記ケプストラム平均正規化済みモデルパラメータとを照合し、尤度を計算する前記モデル照合尤度計算ステップと、
    を有する音声認識方法。
  10. 請求項8または9記載の音声認識方法であって、
    前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を各前記正規分布の学習データ量で重み付け平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算ステップ
    を有する音声認識方法。
  11. 請求項8または9記載の音声認識方法であって、
    前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を各前記正規分布の重みで重み付け平均した値を前記モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算ステップ
    を有する音声認識方法。
  12. 請求項8または9記載の音声認識方法であって、
    前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を単純平均した値を前記モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算ステップ
    を有する音声認識方法。
  13. 請求項8乃至請求項12の何れかに記載の音声認識方法であって、
    前記雑音成分推定ステップで推定した雑音成分を用いて雑音を抑圧する雑音抑圧処理ステップと、
    前記雑音抑圧処理ステップで雑音を抑圧した信号を入力とする前記特徴パラメータ抽出ステップと、
    前記雑音成分推定ステップで推定した雑音成分を用いて、前記雑音モデル作成ステップの入力信号の雑音を抑圧する第2の雑音抑圧処理ステップと、
    を有する音声認識方法。
  14. 請求項8乃至請求項12の何れかに記載の音声認識方法であって、
    前記雑音成分推定ステップで推定した雑音成分を用いて雑音を抑圧する雑音抑圧処理ステップと、
    前記雑音抑圧処理ステップで雑音を抑圧した信号を入力とする前記特徴パラメータ抽出ステップと、
    を有する音声認識方法。
  15. 請求項1から7のいずれかに記載の音声認識装置をコンピュータにより実現する音声認識プログラム。
  16. 請求項15記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2005172122A 2005-06-13 2005-06-13 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 Active JP4705414B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005172122A JP4705414B2 (ja) 2005-06-13 2005-06-13 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005172122A JP4705414B2 (ja) 2005-06-13 2005-06-13 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体

Publications (3)

Publication Number Publication Date
JP2006349723A JP2006349723A (ja) 2006-12-28
JP2006349723A5 JP2006349723A5 (ja) 2007-10-04
JP4705414B2 true JP4705414B2 (ja) 2011-06-22

Family

ID=37645699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005172122A Active JP4705414B2 (ja) 2005-06-13 2005-06-13 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4705414B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956577A (zh) * 2016-05-20 2016-09-21 重庆科技学院 基于随机共振的输气管道微泄漏音波信号特征提取方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5156260B2 (ja) * 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
CN101465122A (zh) * 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和系统
JP5709179B2 (ja) * 2010-07-14 2015-04-30 学校法人早稲田大学 隠れマルコフモデルの推定方法,推定装置および推定プログラム
JP5200080B2 (ja) * 2010-09-29 2013-05-15 日本電信電話株式会社 音声認識装置、音声認識方法、およびそのプログラム
CN102436809B (zh) * 2011-10-21 2013-04-24 东南大学 英语口语机考系统中网络语音识别方法
JP6391895B2 (ja) * 2016-05-20 2018-09-19 三菱電機株式会社 音響モデル学習装置、音響モデル学習方法、音声認識装置、および音声認識方法
US10939198B2 (en) 2016-07-21 2021-03-02 Mitsubishi Electric Corporation Noise eliminating device, echo cancelling device, and abnormal sound detecting device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322079A (ja) * 1999-05-12 2000-11-24 Denso Corp 音声認識装置及び音声認識方法
JP2002091485A (ja) * 2000-09-18 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP2003066987A (ja) * 2001-08-22 2003-03-05 Seiko Epson Corp 特徴ベクトル平均正規化方法および音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322079A (ja) * 1999-05-12 2000-11-24 Denso Corp 音声認識装置及び音声認識方法
JP2002091485A (ja) * 2000-09-18 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP2003066987A (ja) * 2001-08-22 2003-03-05 Seiko Epson Corp 特徴ベクトル平均正規化方法および音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956577A (zh) * 2016-05-20 2016-09-21 重庆科技学院 基于随机共振的输气管道微泄漏音波信号特征提取方法

Also Published As

Publication number Publication date
JP2006349723A (ja) 2006-12-28

Similar Documents

Publication Publication Date Title
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
US7571095B2 (en) Method and apparatus for recognizing speech in a noisy environment
US20090281804A1 (en) Processing unit, speech recognition apparatus, speech recognition system, speech recognition method, storage medium storing speech recognition program
JP5242782B2 (ja) 音声認識方法
KR101892733B1 (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
JP2009139894A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
EP1457968A1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
JP4728791B2 (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
JP2009003008A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
US8423360B2 (en) Speech recognition apparatus, method and computer program product
Nakamura et al. A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech.
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
Vuppala et al. Recognition of consonant-vowel (CV) units under background noise using combined temporal and spectral preprocessing
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP4058521B2 (ja) 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム
JP4325044B2 (ja) 音声認識システム
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JPH1097278A (ja) 音声認識方法および装置
Kathania et al. Experiments on children's speech recognition under acoustically mismatched conditions

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070820

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110311

R150 Certificate of patent or registration of utility model

Ref document number: 4705414

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350