JP4705414B2 - 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 - Google Patents
音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP4705414B2 JP4705414B2 JP2005172122A JP2005172122A JP4705414B2 JP 4705414 B2 JP4705414 B2 JP 4705414B2 JP 2005172122 A JP2005172122 A JP 2005172122A JP 2005172122 A JP2005172122 A JP 2005172122A JP 4705414 B2 JP4705414 B2 JP 4705414B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- model parameter
- speech
- model
- cepstrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
雑音重畳モデル作成法の1つ目は、入力信号中の背景雑音の種類が既知と仮定し、雑音重畳音声データから学習された雑音重畳音声モデルを用いる方法である。
雑音重畳モデル作成法の2つ目は、HMMの合成による雑音重畳音声の認識手法(例えば、非特許文献1)である。以下HMM合成法について説明する。雑音重畳音声に対しては、前述のように、雑音重畳音声から学習した雑音重畳音声モデルを用いて認識すれば認識性能は向上する。しかし、HMMを作成するために必要な学習データ量は膨大であり、モデル作成のための計算時間も膨大である。そこで、雑音のない大量の音声データをもとに予めクリーン音声HMMを作成しておく。認識時には観測した背景雑音から作成した雑音HMMと、クリーン音声HMMとを合成する。合成した雑音重畳音声HMMは、認識時の背景雑音を含む音声モデルの近似であり、これを用いて認識する。
背景雑音などの加法性雑音が重畳した音声の認識方法として、次に、入力信号に対して雑音成分を推定し、推定した雑音成分を除去する雑音抑圧処理後の信号を用いて認識する2つの雑音抑圧法について説明する。
マイクの特性や空間伝達特性などの乗法性歪みが重畳した音声の認識方法として、入力信号に対して長時問平均特徴パラメータを正規化する手法について説明する。乗法性歪みが重畳した音声の認識性能を改善する方法として、従来からケプストラム平均正規化法(CMN:Cepstral Mean Normalization)が知られている(例えば、非特許文献6)。CMN法は、音声の長時間平均スペクトルが同一であるという仮定から、乗法性歪みの影響が長時間ケプストラム平均の差に現れることを利用して、信号の各フレームから得られるケプストラムから長時間ケプストラム平均分を差し引いた成分を特徴量として用いることにより、認識対象の音声の特徴量から乗法性歪みの影響を取り除いている。また、CMN法は加法性雑音に対しても効果があることが知られている。CMN法では、通常、大量の音声データから抽出した特徴量に対してCMN処理を行った学習データを用いて音響モデルを作成しておく必要がある。例えば、図2で示すように、前述のCMN処理済みの学習データを用いて作成した音響モデルパラメータをケプストラム平均正規化済みモデルパラメータメモリ23に保存しておく。特徴パラメータ抽出部13で得られた特徴パラメータから、長時間平均ケプストラム平均計算部21で長時間平均ケプストラムを計算する。ケプストラム平均正規化処理部22で前記特徴パラメータから得られた長時間平均ケプストラムを除去し、ケプストラム平均正規化処理を行う。モデル照合尤度計算部15で、得られたケプストラム平均正規化済みの特徴パラメータと、ケプストラム平均正規化済みモデルパラメータメモリ23に記録されたケプストラム平均正規化済みモデルパラメータとの照合を行う。後の処理は図1と同様である。
F. Martin 他 "Recognition of Noisy Speech by Composition of Hidden Markov Models," 電子情報通信学会技術研究報告SP92-96, pp.9-16, 1992. 山口義和、高橋淳一、高橋敏、嵯峨山茂樹"Taylor展開による音響モデルの適応"電子情報通信学会技術研究報告SP96-78, pp.1-8, 1996. Steven F. Boll "Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Transactions on Acoustics, Speech and Signal Processing, vol.ASSP-27, no.2, pp.113-120, Apri1 1979. J. S. Lim and A. V. Oppenheim, "Enhancement and Bandwidth compression of noisy speech," Proc. IEEE, vo1.67, no.12, pp.1586-1604, Dec.1979. S. Sakauchi, A. Nakagawa, Y. Haneda, A. Kataoka, "Implementing and Evaluating of an Audio Teleconferencing Terminal with Noise and Echo Reduction," Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), pp.191-194, Kyoto, Sep.2003. B, Atal, "Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification," Proc. J. Acoust. Soc. Am, vol.55, pp.1304-1312, 1974.
従来のCMN(ケプストラム平均正規化)済みモデルの構築には、大量の音声データに対してケプストラム平均(CM)を正規化して分析処理した特徴パラメータを学習していた。本実施形態では、大量の音声データに対してCMN処理を行った学習データからケプストラム平均を求める代わりに、様々な音素の特徴を示すモデルパラメータを用いてケプストラム平均を正規化するためのケプストラム平均を近似的に求め、ケプストラム平均正規化済みモデルパラメータを求める。図3に、ケプストラム平均正規化済みモデルパラメータを求めるための、モデルパラメータCMN化部の機能構成例を示す。モデルパラメータCMN化部33は、モデルパラメータケプストラム平均計算部31とモデルパラメータケプストラム平均正規化処理部32から構成され、モデルパラメータメモリ14からモデルパラメータまたは学習時に得られた統計情報を入力とし、ケプストラム平均正規化済みモデルパラメータを出力とする。出力されたケプストラム平均正規化済みモデルパラメータは、ケプストラム平均正規化済みモデルパラメータメモリ23に記録される。
なお、図4にモデルパラメータCMN化部33の処理フローを示す。
このように、モデルパラメータメモリ14に記録されたモデルパラメータや学習時に得られた統計情報からケプストラム平均正規化済みモデルパラメータを求めるので、
大量の音声データに対してケプストラム平均を正規化して分析処理した特徴パラメータを学習する必要がない。
本実施形態では、第1実施形態と同じように、モデルパラメータから学習データに対するケプストラム平均を推定し、推定したケプストラム平均をモデルパラメータのケプストラムの次元から減算することで、ケプストラム平均正規化済みモデルパラメータを得る。このケプストラム平均正規化済みモデルパラメータは、大量の音声データに対してケプストラム平均を正規化して分析処理した特徴パラメータから学習して得られたケプストラム平均正規化済みモデルパラメータに、近似している。
図6の処理フローに示した点線について説明する。本変形例では、モデルパラメータがCMN済みではないと判断された場合(ステップS1)、ステップS2からステップS4と平行してステップS5からステップS8を行う。そして、ステップ4とステップ8の両方が終了した場合に、ステップ9とステップ10を行う。
このように処理することで、ステップ1でNoと判断された場合にも、音声認識処理を早期に開始することができる。
第2実施形態では、音声認識装置がケプストラム平均正規化済みモデルパラメータを作成する機能を備えた場合を示した。しかし、第1実施形態に示した方法で作成したケプストラム平均正規化済みモデルパラメータをあらかじめケプストラム平均正規化済みモデルパラメータメモリに記録しておくことで、音声認識装置からケプストラム平均正規化済みモデルパラメータ作成機能を削除する方法もある。この場合には、音声認識装置は、A/D変換部12、特徴パラメータ抽出部13、長時間ケプストラム平均計算部21、ケプストラム平均正規化処理部22、ケプストラム平均正規化済みモデルパラメータメモリ23、モデル照合尤度計算部15、認識結果出力部16から構成される。また、図6の処理フローでは、ステップS1からステップS4が削除される。
入力信号に対して、例えば前述のウィナー・フィルタ法あるいはスペクトルサブトラクション法を用いて雑音抑圧処理を施すことで耐雑音性を高めることができる。しかし、認識時の音声認識対象の音声信号から抽出した特徴量のケプストラム平均正規化処理の計算幅が短い場合は、正規化に用いるケプストラム平均の近似精度が悪いほど、また抑圧処理後の消し残り雑音レベルが高いほど、認識性能が劣化する。一般に雑音抑圧処理を施すと、音声信号に雑音抑圧処理に基づく歪みが生じる。ケプストラム平均正規化処理には、この歪みを抑える効果や少量の雑音の影響を抑える効果がある。そこで、雑音抑圧処理の抑圧レベルを高めに設定して消し残り雑音レベルを下げ、後段のケプストラム平均正規化処理で、雑音抑圧処理による歪みや少量の消し残り雑音を抑えるが期待できる。雑音抑圧処理の抑圧レベルの設定の方法としては、ウィナー・フィルタ法における原音付加率を高め(例えば0.3)、スペクトルサブトラクション法におけるサブトラクション係数を高め(例えば2.5)、フロアリング係数を低め(例えば0.3)に設定する。
本実施形態では、雑音適応済みモデルパラメータに対してケプストラム平均正規化処理を行うことで、耐雑音性を高める。第4実施形態の音声認識装置の機能構成例を図9に、その処理フローを図10に示す。図9と図4との違いは、図9には音声/雑音判定部41、端子43と端子44を有する音声/雑音スイッチ42、雑音成分推定部45が追加されていること、モデルパラメータCMN化部33の代わりにモデル適応部56が備えられ、ケプストラム平均正規化済みモデルパラメータメモリ23の代わりにケプストラム平均正規化済雑音重畳音声モデルパラメータメモリ55が備えられている点である。また、モデル適応部56は、モデルパラメータCMN化部33に、モデルパラメータメモリ14、雑音モデル作成部51、雑音適応部52、雑音重畳音声モデルパラメータメモリ53が追加されている。本実施形態の処理フローでは、ステップS1が削除され、ケプストラム平均正規化済雑音重畳音声モデルパラメータの作成は、音声区間が開始する前の雑音区間で行われる。したがって、ステップS5とステップS6との間に、ステップS12からステップS16が追加されている。以下では、ステップS12からステップS16について説明する。音声/雑音判定部41は、ステップS5で得られたデジタル信号から、音声区間か雑音区間かを判断し、音声区間と判断したときは、端子44側に音声/雑音スイッチ42を動かし、雑音区間と判断したときは端子43側に音声/雑音スイッチ42を動かす。このように音声/雑音スイッチ42を制御することで、雑音区間のときはステップS13に進み、音声区間が開始するとステップS6に進む(ステップS12)。ステップ6に進んだ後は、第2実施形態と同じである。雑音成分推定部45は、雑音データから雑音成分を推定する(ステップS13)。雑音モデル作成部51は、推定された雑音成分から、雑音モデルを作成する(ステップS15)。雑音適応部52は、ステップS15で作成した雑音モデルを用いて、モデルパラメータメモリ14に記録されたモデルパラメータを雑音適応し、雑音重畳音声モデルパラメータメモリに保存される(ステップS16)。ステップS13の雑音成分の推定方法、ステップS15の雑音モデルの作成方法、ステップS16の雑音適応方法は、従来の技術を用いればよい。このようにして作成された雑音重畳音声モデルパラメータに対して、第2実施形態と同様のモデルパラメータケプストラム平均正規化処理を行う(ステップS2〜S4)。ステップS6〜S10の処理は、第2実施形態と同じである。また、認識結果を出力した後、最初の処理に戻って、上記の処理を繰り返す方法もある(ステップS20)。繰り返す場合には、雑音区間では再度雑音モデルを作成し(ステップS15)、雑音重畳音声モデルパラメータに対してモデルパラメータケプストラム平均正規化処理を行うことができる(ステップS2〜S4)。
話者とマイクとの位置関係や装置の周辺の温度等の環境によって、話者の口とマイクの間の空間伝達特性は簡単に変わってしまう。乗法性歪みは事前に想定することは難しいことが多く、乗法性歪みを反映した音響モデルをあらかじめ用意することは難しい。雑音があまり変化の無い定常的な環境では、直接あらかじめ想定した雑音が重畳した音声で学習した雑音重畳音響モデルを用意してもよい。そして、この雑音重畳音響モデルに対して本発明のCMN化処理を行うことで、加法性雑音にも乗法性歪みにも頑健な音響モデルを合成し、実環境で頑健な音声認識を行うことが可能となる。この場合、あらかじめ作成した雑音重畳音声モデルを雑音重畳音声モデルパラメータメモリに格納しておけば良い。
この場合の音声認識装置の機能構成では、図9中の音声/雑音判定部41、音声/雑音スイッチ42、雑音成分推定部45、モデルパラメータメモリ14、雑音モデル作成部51、雑音適応部52が不要である。また、図10の処理フローでは、ステップS12からステップS16が不要である。
本実施形態では、第4実施形態に加えて音声認識処理時に入力信号に対して、例えば前述のウィナー・フィルタ法あるいはスペクトルサブトラクション法を用いて雑音抑圧処理を施すことで、耐雑音性を高める。第5実施形態の音声認識装置の機能構成例を図11に、その処理フローを図12に示す。図11と図9との違いは、図11には第1の雑音抑圧処理部46と第2の雑音抑圧処理部61が追加されていることである。本実施形態の処理フローでは、第1の雑音抑圧処理(ステップS14)と第2の雑音抑圧処理(ステップS18)が追加されている。以下に、ステップS14とステップS18について説明する。
本実施形態では、入力信号に雑音抑圧処理を加えることで、入力信号のS/Nが向上する。したがって、認識精度が高まる。また、雑音抑圧処理によって入力信号に重畳する雑音レベルを下げることで、本発明のCMN化処理の近似精度が高くなるので、さらに認識精度は高くなる。
本実施形態では、第4実施形態または第5実施形態に加えて、モデル適応部56の雑音適応部52で、複数のS/N条件で雑音重畳音声モデルを合成する。生成された複数(i=0〜n)のS/N条件のケプストラム平均正規化済雑音重畳音声モデルを用いて認識処理を行う。雑音があまり変化しないような環境であれば、第4実施形態と同様に、事前にその雑音が重畳した雑音重畳音声モデルを作成することができる。そこで、複数のS/N条件の雑音重畳音声モデルをCMN化処理の前に用いることも可能である。
本実施形態によれば、例えばオンラインで認識処理を行う場合のように、発話のS/Nが事前には分からないときでも、複数のS/N条件のモデルを用いることで、S/Nの変動にも追従が可能である。
また、上記の第1実施形態から第6実施形態は、コンピュータ本体とコンピュータプログラムとして実行することが可能であるし、デジタルシグナルプロセッサや専用LSIに実装して実現することも可能である。
Claims (16)
- デジタル変換された入力音声から音声区間が開始したかを判断する音声/雑音判定部と、
前記音声/雑音判定部において音声区間が開始する前の区間であると判定された場合に、前記デジタル変換された入力信号から雑音成分を推定する雑音成分推定部と、
推定された雑音成分から雑音モデルを作成する雑音モデル作成部と、
モデルパラメータを記録したモデルパラメータメモリと、
前記モデルパラメータメモリに記録されたモデルパラメータに、前記雑音モデルをHHM合成法により適応させる雑音適応部と、
前記雑音適応部で雑音適応された雑音重畳音声モデルパラメータを記録する雑音重畳音声モデルパラメータメモリと、
前記雑音重畳音声モデルパラメータを受け取り、複数の音素の特徴を示す前記雑音重畳音声モデルパラメータのうちの正規分布の平均値を平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求めるモデルパラメータケプストラム平均計算部と、
前記雑音重畳音声モデルパラメータのケプストラム平均を用いて前記雑音重畳音声モデルパラメータを正規化するモデルパラメータケプストラム平均正規化処理部と、
前記モデルパラメータケプストラム平均正規化処理部で求めたケプストラム平均正規化済み雑音重畳音声モデルパラメータを記録するケプストラム平均正規化済み雑音重畳音声モデルパラメータメモリと、
前記音声/雑音判定部において音声区間が開始したと判定された場合に、前記デジタル変換された入力音声から特徴パラメータを抽出する特徴パラメータ抽出部と、
前記特徴量パラメータから長時間ケプストラム平均を求める長時間ケプストラム平均計算部と、
前記特徴量パラメータと前記長時間ケプストラム平均からケプストラム平均正規化特徴パラメータを得るケプストラム平均正規化処理部と、
前記ケプストラム平均正規化特徴パラメータと前記ケプストラム平均正規化済み雑音重畳音声モデルパラメータメモリに記憶された前記ケプストラム平均正規化済み雑音重畳音声モデルパラメータとを照合し、尤度を計算するモデル照合尤度計算部と、
前記尤度が最大の候補を認識結果として出力する認識結果出力部と
を備える音声認識装置。 - 請求項1に記載の音声認識装置であって、
複数のS/N条件で前記雑音モデルを適応させる前記雑音適応部と、
複数のS/N条件で雑音適応された雑音重畳音声モデルパラメータを、S/N条件ごとに記録する前記雑音重畳音声モデルパラメータメモリと、
S/N条件ごとの雑音重畳音声モデルパラメータメモリに記録された雑音重畳音声モデルパラメータを受け取り、複数の音素の特徴を示す雑音重畳音声モデルパラメータのうちの正規分布の平均値を平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算部と、
S/N条件ごとの雑音重畳音声モデルパラメータのケプストラム平均を用いて、S/N
条件ごとの前記雑音重畳音声モデルパラメータを正規化する前記モデルパラメータケプストラム平均正規化処理部と、
前記モデルパラメータケプストラム平均正規化処理部で求めたS/N条件ごとのケプストラム平均正規化済みモデルパラメータを、S/N条件ごとに記録するケプストラム平均正規化済みモデルパラメータメモリと、
前記ケプストラム平均正規化特徴パラメータと複数のS/N条件の前記ケプストラム平均正規化済みモデルパラメータとを照合し、尤度を計算する前記モデル照合尤度計算部と、
を備える音声認識装置。 - 請求項1または請求項2記載の音声認識装置であって、
前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を各前記正規分布の学習データ量で重み付け平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算部
を備える音声認識装置。 - 請求項1または請求項2記載の音声認識装置であって、
前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を各前記正規分布の重みで重み付け平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算部
を備える音声認識装置。 - 請求項1または請求項2記載の音声認識装置であって、
前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を単純平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算部
を備える音声認識装置。 - 請求項1乃至請求項5の何れかに記載の音声認識装置であって、
前記雑音成分推定部で推定した雑音成分を用いて雑音を抑圧する雑音抑圧処理部と、
前記雑音抑圧処理部で雑音を抑圧した信号を入力とする前記特徴パラメータ抽出部と、
前記雑音成分推定部で推定した雑音成分を用いて、前記雑音モデル作成部の入力信号の雑音を抑圧する第2の雑音抑圧処理部と、
を備える音声認識装置。 - 請求項1乃至請求項5の何れかに記載の音声認識装置であって、
前記雑音成分推定部で推定した雑音成分を用いて雑音を抑圧する雑音抑圧処理部と、
前記雑音抑圧処理部で雑音を抑圧した信号を入力とする前記特徴パラメータ抽出部と、
を備える音声認識装置。 - デジタル変換された入力音声から音声区間が開始したかを判断する音声/雑音判定ステップと、
前記音声/雑音判定ステップにおいて音声区間が開始する前の区間であると判定された場合に、前記デジタル変換された入力信号から雑音成分を推定する雑音成分推定ステップと、
推定された雑音成分から雑音モデルを作成する雑音モデル作成ステップと、
モデルパラメータメモリに記録されたモデルパラメータに、前記雑音モデルをHHM法により適応させる雑音適応ステップと、
前記雑音適応ステップで雑音適応された雑音重畳音声モデルパラメータを、雑音重畳音声モデルパラメータメモリに記録する記録ステップと、
前記雑音重畳音声モデルパラメータメモリに記録された前記雑音重畳音声モデルパラメータを受け取り、複数の音素の特徴を示す前記雑音重畳音声モデルパラメータのうちの正規分布の平均値を平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求めるモデルパラメータケプストラム平均計算ステップと、
前記雑音重畳音声モデルパラメータのケプストラム平均を用いて前記雑音重畳音声モデルパラメータを正規化するモデルパラメータケプストラム平均正規化処理ステップと、
前記モデルパラメータケプストラム平均正規化処理ステップで求めたケプストラム平均正規化済み雑音重畳音声モデルパラメータを、ケプストラム平均正規化済み雑音重畳音声モデルパラメータメモリに記録するステップと、
前記音声/雑音判定部において音声区間が開始したと判定された場合に、前記デジタル変換された入力音声から特徴パラメータを抽出する特徴パラメータ抽出ステップと、
前記特徴量パラメータから長時間ケプストラム平均を求める長時間ケプストラム平均計算ステップと、
前記特徴量パラメータと前記長時間ケプストラム平均からケプストラム平均正規化特徴パラメータを得るケプストラム平均正規化処理ステップと、
前記ケプストラム平均正規化特徴パラメータと前記ケプストラム平均正規化済み雑音重畳音声モデルパラメータメモリに記憶された前記ケプストラム平均正規化済みモデルパラメータとを照合し、尤度を計算するモデル照合尤度計算ステップと、
前記尤度が最大の候補を認識結果として出力する認識結果出力ステップと
を有する音声認識方法。 - 請求項8に記載の音声認識方法であって、
複数のS/N条件で前記雑音モデルを適応させる前記雑音適応ステップと、
複数のS/N条件で雑音適応された雑音重畳音声モデルパラメータを、S/N条件ごとの雑音重畳音声モデルパラメータメモリに記録する前記記録ステップと、
S/N条件ごとの雑音重畳音声モデルパラメータメモリに記録された雑音重畳音声モデルパラメータを受け取り、複数の音素の特徴を示す雑音重畳音声モデルパラメータのうちの正規分布の平均値を平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算ステップと、
S/N条件ごとの雑音重畳音声モデルパラメータのケプストラム平均を用いてS/N条件ごとの前記雑音重畳音声モデルパラメータを正規化する前記モデルパラメータケプストラム平均正規化処理ステップと、
前記モデルパラメータケプストラム平均正規化処理ステップで求めたS/N条件ごとのケプストラム平均正規化済みモデルパラメータを、S/N条件ごとのケプストラム平均正規化済みモデルパラメータメモリに記録するステップと、
前記ケプストラム平均正規化特徴パラメータと複数のS/N条件の前記ケプストラム平均正規化済みモデルパラメータとを照合し、尤度を計算する前記モデル照合尤度計算ステップと、
を有する音声認識方法。 - 請求項8または9記載の音声認識方法であって、
前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を各前記正規分布の学習データ量で重み付け平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算ステップ
を有する音声認識方法。 - 請求項8または9記載の音声認識方法であって、
前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を各前記正規分布の重みで重み付け平均した値を前記モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算ステップ
を有する音声認識方法。 - 請求項8または9記載の音声認識方法であって、
前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を単純平均した値を前記モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算ステップ
を有する音声認識方法。 - 請求項8乃至請求項12の何れかに記載の音声認識方法であって、
前記雑音成分推定ステップで推定した雑音成分を用いて雑音を抑圧する雑音抑圧処理ステップと、
前記雑音抑圧処理ステップで雑音を抑圧した信号を入力とする前記特徴パラメータ抽出ステップと、
前記雑音成分推定ステップで推定した雑音成分を用いて、前記雑音モデル作成ステップの入力信号の雑音を抑圧する第2の雑音抑圧処理ステップと、
を有する音声認識方法。 - 請求項8乃至請求項12の何れかに記載の音声認識方法であって、
前記雑音成分推定ステップで推定した雑音成分を用いて雑音を抑圧する雑音抑圧処理ステップと、
前記雑音抑圧処理ステップで雑音を抑圧した信号を入力とする前記特徴パラメータ抽出ステップと、
を有する音声認識方法。 - 請求項1から7のいずれかに記載の音声認識装置をコンピュータにより実現する音声認識プログラム。
- 請求項15記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005172122A JP4705414B2 (ja) | 2005-06-13 | 2005-06-13 | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005172122A JP4705414B2 (ja) | 2005-06-13 | 2005-06-13 | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006349723A JP2006349723A (ja) | 2006-12-28 |
JP2006349723A5 JP2006349723A5 (ja) | 2007-10-04 |
JP4705414B2 true JP4705414B2 (ja) | 2011-06-22 |
Family
ID=37645699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005172122A Active JP4705414B2 (ja) | 2005-06-13 | 2005-06-13 | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4705414B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956577A (zh) * | 2016-05-20 | 2016-09-21 | 重庆科技学院 | 基于随机共振的输气管道微泄漏音波信号特征提取方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5156260B2 (ja) * | 2007-04-27 | 2013-03-06 | ニュアンス コミュニケーションズ,インコーポレイテッド | 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム |
CN101465122A (zh) * | 2007-12-20 | 2009-06-24 | 株式会社东芝 | 语音的频谱波峰的检测以及语音识别方法和系统 |
JP5709179B2 (ja) * | 2010-07-14 | 2015-04-30 | 学校法人早稲田大学 | 隠れマルコフモデルの推定方法,推定装置および推定プログラム |
JP5200080B2 (ja) * | 2010-09-29 | 2013-05-15 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、およびそのプログラム |
CN102436809B (zh) * | 2011-10-21 | 2013-04-24 | 东南大学 | 英语口语机考系统中网络语音识别方法 |
JP6391895B2 (ja) * | 2016-05-20 | 2018-09-19 | 三菱電機株式会社 | 音響モデル学習装置、音響モデル学習方法、音声認識装置、および音声認識方法 |
US10939198B2 (en) | 2016-07-21 | 2021-03-02 | Mitsubishi Electric Corporation | Noise eliminating device, echo cancelling device, and abnormal sound detecting device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322079A (ja) * | 1999-05-12 | 2000-11-24 | Denso Corp | 音声認識装置及び音声認識方法 |
JP2002091485A (ja) * | 2000-09-18 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
JP2003066987A (ja) * | 2001-08-22 | 2003-03-05 | Seiko Epson Corp | 特徴ベクトル平均正規化方法および音声認識装置 |
-
2005
- 2005-06-13 JP JP2005172122A patent/JP4705414B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322079A (ja) * | 1999-05-12 | 2000-11-24 | Denso Corp | 音声認識装置及び音声認識方法 |
JP2002091485A (ja) * | 2000-09-18 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
JP2003066987A (ja) * | 2001-08-22 | 2003-03-05 | Seiko Epson Corp | 特徴ベクトル平均正規化方法および音声認識装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956577A (zh) * | 2016-05-20 | 2016-09-21 | 重庆科技学院 | 基于随机共振的输气管道微泄漏音波信号特征提取方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2006349723A (ja) | 2006-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4802135B2 (ja) | 話者認証登録及び確認方法並びに装置 | |
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
US7571095B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
US20090281804A1 (en) | Processing unit, speech recognition apparatus, speech recognition system, speech recognition method, storage medium storing speech recognition program | |
JP5242782B2 (ja) | 音声認識方法 | |
KR101892733B1 (ko) | 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법 | |
JP2009139894A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
EP1457968A1 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
KR101065188B1 (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
JP4728791B2 (ja) | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 | |
US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
JP2009003008A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
Nakamura et al. | A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech. | |
JP5200080B2 (ja) | 音声認識装置、音声認識方法、およびそのプログラム | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
Vuppala et al. | Recognition of consonant-vowel (CV) units under background noise using combined temporal and spectral preprocessing | |
JP2005321539A (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP4058521B2 (ja) | 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム | |
JP4325044B2 (ja) | 音声認識システム | |
JP2000259198A (ja) | パターン認識装置および方法、並びに提供媒体 | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JPH1097278A (ja) | 音声認識方法および装置 | |
Kathania et al. | Experiments on children's speech recognition under acoustically mismatched conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070820 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110311 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4705414 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |