JP2000075890A - ヒドン・マルコフ・モデルの学習方法及び音声認識システム - Google Patents

ヒドン・マルコフ・モデルの学習方法及び音声認識システム

Info

Publication number
JP2000075890A
JP2000075890A JP10246797A JP24679798A JP2000075890A JP 2000075890 A JP2000075890 A JP 2000075890A JP 10246797 A JP10246797 A JP 10246797A JP 24679798 A JP24679798 A JP 24679798A JP 2000075890 A JP2000075890 A JP 2000075890A
Authority
JP
Japan
Prior art keywords
model
learning
speech
noise
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10246797A
Other languages
English (en)
Inventor
Kazuhiko Shudo
和彦 首藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10246797A priority Critical patent/JP2000075890A/ja
Publication of JP2000075890A publication Critical patent/JP2000075890A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 認識性能のよい音声モデルを生成することが
できるヒドン・マルコフ・モデルの学習方法及び音声認
識システムを提供する。 【解決手段】 ヒドン・マルコフ・モデルの学習方法
は、雑音が混合した音声データを有する学習用音声デー
タベース10と、雑音のない学習用音声データから作成
したクリーン音声モデル11と、学習用音声データに含
まれる雑音を推定して推定雑音モデル13を生成する雑
音推定部12と、推定雑音モデル13とクリーン音声モ
デル11とを合成するモデル合成部14と、合成した音
声モデルをΗMM学習の初期音声モデル15として用い
てΗMM学習を行うΗMM学習処理部16とを備え、学
習用音声データに含まれる雑音を推定して、推定雑音モ
デル13を生成し、推定雑音モデル13と雑音のない学
習用音声データから作成したクリーン音声モデル11と
を合成し、合成した音声モデルをΗMM学習の初期音声
モデル15として用いてΗMM学習を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ヒドン・マルコフ
・モデルの学習方法及びこれを用いた音声認識システム
に関し、例えば、音声による操作が可能なカーナビゲー
ションなどで用いられる、車内のような雑音環境下にお
いて好適なヒドン・マルコフ・モデルの学習方法及び音
声認識システムに関する。
【0002】
【従来の技術】音声認識技術として、古典的なパターン
・マッチング手法から、近年では統計的な手法に変わ
り、後者が主流になりつつある。後者の統計的な手法で
は、確率的な有限状態を持つマルコフ・モデルが提案さ
れており、通常、HMM(hiddenMarkov model:隠れマ
ルコフモデル)と呼ぶ。HMMでは、学習用音声データ
を用いて音声モデルの学習を行うことで高い認識率を上
げることが可能となっている。
【0003】図3は従来のこの種のHMMを用いた連続
音声認識システムの構成を示すブロック図である。
【0004】図3において、連続音声認識システムは、
A/D変換部1、LPC分析部2、背景雑音逐次学習部
3、音声検出部4、切替え部5、ビタビ照合部6、HM
Mパラメータ推定部7及びHMM音声辞書8から構成さ
れている。このうち、A/D変換部1とLPC分析部2
とで音声分析ブロックが構成され、背景雑音逐次学習部
3と音声検出部4とで音声区間検出ブロックが、切替え
部5とビタビ照合部6とでHMM照合ブロックが、HM
Mパラメータ推定部7とHMM音声辞書8とでHMMモ
デル学習ブロックがそれぞれ構成されている。
【0005】A/D変換部1は、入力音声信号を所定の
サンプリング周波数(例えば、8kHz)でサンプリン
グしディジタル信号に変換する。
【0006】LPC分析部2は、音声波形を短い区間
(フレームと呼び、長さは通常10ミリ〜30ミリ秒で
ある)に区切り、フレーム毎に特徴パラメータを抽出す
る。音声分析には、音声の特性に合った能率的方法とし
て広く使用されているLPC(Linear Predictive Codi
ng:線形予測符号化)分析を用い、LPC係数からLP
Cケプストラム(Cepstrum)を算出する。ここで、ケプ
ストラムとは、対数スペクトラム(Logarithm)を逆フ
ーリエ変換したもので、人間の聴覚特性に近い性質を持
ち、比較的少ない数のパラメータで効率良く音声を表現
できる。
【0007】音声検出部4は、雑音区間における対数パ
ワーとLPCケプストラムの推定平均値を雑音特徴スペ
クトルとして記憶し、この雑音特徴ベクトルと入力信号
の特徴ベクトルとの距離を求め、その時間的変化から音
声区間を検出する。
【0008】背景雑音逐次学習部3は、雑音区間と判定
された区間で雑音特徴ベクトルを更新することにより、
雑音特徴の逐次適応学習を行うとともに、距離変動の適
応学習によるしきい値の自動設定も行う。
【0009】ビタビ照合部6は、ビタビ(Viterbi)ア
リゴリズムを用いてHMM照合を行う。HMM照合で
は、音素や単語を表現したHMMモデルと未知入力音声
とを比較し、類似度を求める。
【0010】HMMパラメータ推定部7は、EM(Expe
ctation Maximization)アルゴリズムを用いてHMMモ
デル学習を行う。HMMモデル学習では、あらかじめ用
意した音声データでHMMモデルのパラメータを推定す
る。
【0011】切替え部5は、上記HMM照合とHMMモ
デル学習との処理を切り替えるものである。また、HM
M音声辞書8は、HMMパラメータ推定部7によるHM
Mモデル学習結果を記憶し、ビタビ照合部6によるHM
M照合において参照される。
【0012】一般に、HMMは、複数の状態(例えば、
音声の特徴等)と状態間の遷移からなる。さらに、HM
Mは状態間の遷移を表す遷移確率と、遷移する際に伴う
特徴ベクトルを出力する出力確率分布(通常はガウス分
布を用いる)を有している。このようなHMMを用いた
単語音声認識の例を図4に示す。
【0013】図4は、音声認識方法に用いられる単語H
MMの構造を示す状態遷移図である。
【0014】図4中のs1,s2,s3,s4はHMMにお
ける音声の特徴等の状態を表し、a11,a12,a22,a
23,a33,a34,a44,a45は状態遷移確率、(u1,
σ1)、(u2,σ2)、(u3,σ3)、(u4,σ4)は
出力確率分布を表す。
【0015】HMMでは、状態遷移確率aij(i=1,
…,4、j=1,…,5)で状態遷移が行なわれる際、
出力確率分布(uk、σk)でべクトルを出力する。発
声された単語をHMMを用いて認識するには、まず、各
単語に対して用意された学習データを用いて、その単語
のベクトル列を最も高い確率で出力するようにHMMを
学習する。次に、発声された未知単語のべクトル列を入
力し、最も高い出力確率を与えた単語HMMを認識結果
とする。
【0016】この種の音声認識方法では、発声された単
語そのものにHMMを与えて学習し、尤度(すなわち、
べクトル列の出力確率)によって認識結果を判断するも
のである。このような単語HMMは、優れた認識精度を
保証するが、認識語彙数が増大することによって膨大な
学習データが必要となることや、学習対象語以外の音声
が全く認識できないことなどの欠点がある。
【0017】ところで、雑音が大きな特殊な環境での音
声認識、例えば駅構内で音声認識を行う場合には、学習
用音声データとして駅構内で発声されたものを採用する
ことが考えられる。この場合にはほとんどすべての学習
用データに雑音が混合していることになる。
【0018】このような学習用データを用いてHΜΜに
よる学習を行う場合、まったく初めから学習を行うより
も、あらかじめ静かな環境での音声データから学習して
初期音声モデルを作成しておき、これを初期モデルとし
て、雑音が混合した学習用音声データから学習したほう
が結果としてよい音声モデルが生成されることが経験的
に知られている。
【0019】理由としては、HΜΜ学習のプロセスとし
て、初めになんらかの初期モデルから出発して学習する
のであるが、この初期モデルの取り方が結果の善し悪し
に大きく影響することが知られており、クリーンな学習
データでΗMM学習された音声モデルの方が初期モデル
としては優れているからだと推察される。全く初めから
学習する場合には、初期モデルとしては例えば最も簡単
なものを想定しても、学習用音声データ全体の平均を与
えるなどしなければならないため、劣った結果が生成さ
れやすい。
【0020】
【発明が解決しようとする課題】しかしながら、このよ
うな従来のHMM学習方法にあっては、以下のような問
題点があった。
【0021】すなわち、音声データを学習用音声データ
としてΗMM学習する際に、その学習初期値として、ク
リーンな音声モデルを用いる場合、学習用データに雑音
が混合しているとうまくいかないことがある。それは、
クリーンな音声モデルの源であるクリーンな学習用デー
タと雑音が混合した学習用データとの間のギャップが大
きく、初期モデルとしてクリーンな音声モデルでも不適
当なためである。そのため、HMM学習が正しく行われ
ず、認識性能があまりよくない音声モデルが生成される
ことがある。
【0022】本発明は、雑音が混合したデータを学習デ
ータとしてΗMM学習する場合に、よい初期モデルを与
えることで学習を成功させ、結果として認識性能のよい
音声モデルを生成することができるヒドン・マルコフ・
モデルの学習方法及び音声認識システムを提供すること
を目的とする。
【0023】
【課題を解決するための手段】本発明に係るヒドン・マ
ルコフ・モデルの学習方法は、雑音が混合した第1の学
習用音声データからヒドン・マルコフ・モデル(HM
M)学習を行い、音声モデルを作成するヒドン・マルコ
フ・モデルの学習方法であって、第1の学習用音声デー
タに含まれる雑音を推定して、推定雑音モデルを生成
し、該推定雑音モデルと雑音のない第2の学習用音声デ
ータから作成したクリーン音声モデルとを合成し、合成
した音声モデルをΗMM学習の初期音声モデルとして用
いてΗMM学習を行うことを特徴とする。
【0024】本発明に係るヒドン・マルコフ・モデルの
学習方法は、モデルの合成を、PMC方法により雑音モ
デルと音声モデルを加算することにより行うものであっ
てもよい。
【0025】また、本発明に係る音声認識システムは、
学習用音声データからヒドン・マルコフ・モデル(HM
M)学習を行って音声モデルを作成し、該音声モデルを
用いて音声認識を行う音声認識システムにおいて、雑音
が混合した第1の学習用音声データを有する学習用音声
データベースと、雑音のない第2の学習用音声データか
ら作成したクリーン音声モデルと、第1の学習用音声デ
ータに含まれる雑音を推定して推定雑音モデルを生成す
る雑音推定手段と、推定雑音モデルとクリーン音声モデ
ルとを合成するモデル合成手段と、モデル合成手段によ
り合成した音声モデルをΗMM学習の初期音声モデルと
して用いてΗMM学習を行うΗMM学習処理手段とを備
え、ΗMM学習した音声モデルを用いて音声認識を行う
ように構成する。
【0026】上記モデル合成手段は、PMC方法により
雑音モデルと音声モデルを加算して合成するものであっ
てもよい。
【0027】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。
【0028】図1は本発明の本実施形態に係るヒドン・
マルコフ・モデルの学習方法の実施に用いられる装置を
示すブロック図である。
【0029】図1において、10は音声データベースと
して提供される学習用音声データ(第1の学習用音声デ
ータ)であり、この学習用音声データは雑音が混合して
いる音声データである。また、11はクリーン音声モデ
ルであり、クリーン音声モデル11は、あらかじめ静か
な環境で録音された学習用音声データ(第2の学習用音
声データ)からΗMM学習により得られた音声モデルで
ある。
【0030】学習用音声データ10は、雑音推定部12
(雑音推定手段)及びHMM学習処理部16(ΗMM学
習処理手段)に出力される。雑音推定部12は、学習用
音声データ10に混合されている雑音の推定を行い、結
果を推定雑音モデル13としてモデル合成部(PMC処
理部)14(モデル合成手段)に出力する。
【0031】モデル合成部14は、推定雑音モデル13
とクリーン音声モデル11とをPMC方法を用いて合成
し、新たな音声モデルを初期音声モデル15として出力
する。PMC方法のアルゴリズムについては、図2によ
り後述する。
【0032】上記初期音声モデル15及び学習用音声デ
ータ10は、HMM学習処理部16に出力される。ΗM
M学習処理部16は、モデル合成部14の出力を初期音
声モデルとして用いて、学習用音声データ10によって
HMM学習を行い、新音声モデル17を生成して処理を
終える。
【0033】このように、本実施形態に係るヒドン・マ
ルコフ・モデルの学習方法は、雑音が混合した学習用音
声データ10からΗMM学習を行い、音声モデルを作成
する際、学習用音声データ10に含まれる雑音を推定し
て、推定雑音モデル13を生成し、この推定雑音モデル
13と雑音のない学習用音声データから作成したクリー
ンな音声モデル11とをモデル合成部(PMC処理部)
14によって合成し、合成した音声モデルをΗMM学習
の初期音声モデル15としてΗMM学習処理部16でΗ
MM学習を行うことを特徴とする。
【0034】以下、上述のように構成された装置により
実施されるヒドン・マルコフ・モデルの学習方法の動作
を説明する。
【0035】学習用音声データ10は、雑音が混合して
いる音声データとする。クリーン音声モデル11は、あ
らかじめ静かな環境で録音された学習用音声データから
ΗMM学習により得られた音声モデルとなっている。
【0036】まず、雑音推定部12において学習用音声
データ10に混合されている雑音の推定を行い、結果を
推定雑音モデル13として出力する。雑音の推定方法と
しては、学習用音声データ10のうちの非発話区間にあ
る信号を雑音とみなし、従来のΗMM学習によってその
HMMモデルを求めればよい。例えば、HMMモデルと
して最も単純な1ステート、1混合のHMMモデルを考
えると、学習用データのうちの全非発話区間の平均と分
散を求めてこれを雑音モデルとして用いることになる。
【0037】モデル合成部(PMC処理部)14では、
こうして得られた雑音モデルとクリーン音声モデルとを
PMC方法を用いて合成し、新たな音声モデルを出力す
る。この音声モデルを後段のHMM学習処理部16のた
めの初期音声モデル15とする。ここで、雑音モデルと
クリーン音声モデルとの合成法であるPMC(Parallel
Model Combination)方法について以下簡単に説明す
る。
【0038】PMC方法は、雑音ΗMMモデルとクリー
ンな音声ΗMMモデルとから、雑音が混合した場合の音
声をシミュレーションしてそのΗMMモデルを出力す
る。雑音が混合した音声を認識する際には、クリーンな
音声モデルを用いて認識を行うよりも、ΡMC方法によ
り生成された雑音混合の音声モデルを用いたほうが入力
の雑音混合音声をよりよくモデル化しているので、一般
によい認識率が得られる。PMC方法のアルゴリズム
は、簡単には図2の通りである。
【0039】図2はPMC方法の処理の流れを示すフロ
ーチャートである。
【0040】図2において、音声HMM、雑音ΗMMの
各状態のケプストラム特徴べクトルをそれぞれScp、
Ncpとした時、この特徴べクトルをコサイン変換、指
数変換によってそれぞれ線形スペクトラムSln、Nl
nに直す。雑音として加法的なものを仮定すると、雑音
が混合した音声は、線形スペクトラム領域においては、
音声のスペクトラムと雑音のスペクトラムの加算と考え
ることができる。そこで、両者のべクトルの和をとり、
MIXlnとする。これが雑音混合した音声のスペクト
ラムの推定値である。
【0041】このMIXlnを逆変換、すなわち対数変
換、逆コサイン変換を施すことでケプストラム特徴べク
トルであるMIXcpを得る。
【0042】以上の処理をモデルのすべての状態に対し
て実行して、雑音が混合された音声のHMMモデルを得
る。こうしてできたΗMMモデルは、雑音が混合した音
声を近似的にモデル化していると考えることができる。
PMC方法のより詳しい説明は、例えば、信学技報SP
92−96、Frank Martin,Kyohiro Shikano,Yasuhiro
Minami,Yoichi Okabe:"Recognition of Noisy Speech b
y Composition of Hiddon Markov Models"に記載された
ものがある。
【0043】図1に戻って、ΗMM学習処理部16で
は、モデル合成部(PMC処理部)14の出力を初期音
声モデル15として用いて、学習用音声データ10によ
ってHMM学習を行う。このΗMM学習は従来法と同様
の方法で行えばよい。
【0044】モデル合成部14の出力である初期音声モ
デル15は、雑音の影響を考慮しているので、クリーン
音声モデル11よりも学習用音声データ10に蓄えられ
ている音声データをより忠実にモデル化していると考え
られる。したがって、これを学習の初期値として用いる
ことで、クリーン音声モデル11をそのまま学習の初期
値として用いる場合よりも正確に学習することができ、
結果として、より優れた音声モデルを生成することがで
きる。音声認識システムはこうして得られた新音声モデ
ル17を用いることで、高い認識性能を上げることが可
能となる。
【0045】以上説明したように、本実施形態に係るヒ
ドン・マルコフ・モデルの学習方法では、雑音が混合し
た学習用音声データを有する学習用音声データベース1
0と、雑音のない学習用音声データから作成したクリー
ン音声モデル11と、学習用音声データに含まれる雑音
を推定して推定雑音モデル13を生成する雑音推定部1
2と、推定雑音モデル13とクリーン音声モデル11と
を合成するモデル合成部(PMC処理部)14と、モデ
ル合成部14により合成した音声モデルをΗMM学習の
初期音声モデル15として用いてΗMM学習を行うΗM
M学習処理部16とを備え、学習用音声データに含まれ
る雑音を推定して、推定雑音モデル13を生成し、推定
雑音モデル13と雑音のない学習用音声データから作成
したクリーン音声モデル11とを合成し、合成した音声
モデルをΗMM学習の初期音声モデル15として用いて
ΗMM学習を行うようにしたので、雑音が混合したデー
タを学習データとしてΗMM学習する場合に、よい初期
モデルを与えることで学習を成功させ、結果として認識
性能のよい音声モデルを生成することができるヒドン・
マルコフ・モデルの学習方法が実現できる。
【0046】すなわち、雑音が混合した音声データを学
習用音声データとしてΗMM学習する際、その学習初期
値として、クリーンな音声モデルを用いるのではなく、
学習用音声データから雑音モデルを推定し、この雑音モ
デルとクリーン音声モデルをPMC合成して得られる音
声モデルを学習の初期値として設定することで、学習の
初期値としてより学習用音声データに近い音声モデルを
用いるようにすることができ、学習の結果としてより優
れた音声モデルを出力できる。
【0047】したがって、HMMを用いた音声認識シス
テムに適用すれば、認識の際、上記ΗMM学習した音声
モデルを用いることにより高い認識率を達成することが
できる。
【0048】なお、上記実施形態に係るヒドン・マルコ
フ・モデルの学習方法は、例えばトライフォンHMMに
適用することができるが、ダイフォンHMMや音素HM
Mに対しても、同様なHMM学習ができることは勿論で
ある。
【0049】また、上記実施形態に係る音声認識方法及
びシステムは、音声を入力とする音声認識方法には全て
適用することができ、また、学習用音声データからHM
M学習を行うものであればどのような音声認識でもよ
い。各種端末に組み込まれる回路の一部として実施する
こともできる。
【0050】さらに、上記実施形態に係る音声認識方法
及びシステムを構成する各処理部や各種プロセスの数、
種類接続状態などは前述した各実施形態に限られない。
【0051】
【発明の効果】本発明に係るヒドン・マルコフ・モデル
の学習方法では、第1の学習用音声データに含まれる雑
音を推定して、推定雑音モデルを生成し、該推定雑音モ
デルと雑音のない第2の学習用音声データから作成した
クリーン音声モデルとを合成し、合成した音声モデルを
ΗMM学習の初期音声モデルとして用いてΗMM学習を
行うようにしたので、雑音が混合したデータを学習デー
タとしてΗMM学習する場合に、よい初期モデルを与え
ることで学習を成功させ、結果として認識性能のよい音
声モデルを生成することができる。
【0052】また、本発明に係る音声認識システムで
は、雑音が混合した第1の学習用音声データを有する学
習用音声データベースと、雑音のない第2の学習用音声
データから作成したクリーン音声モデルと、第1の学習
用音声データに含まれる雑音を推定して推定雑音モデル
を生成する雑音推定手段と、推定雑音モデルとクリーン
音声モデルとを合成するモデル合成手段と、モデル合成
手段により合成した音声モデルをΗMM学習の初期音声
モデルとして用いてΗMM学習を行うΗMM学習処理手
段とを備え、ΗMM学習した音声モデルを用いて音声認
識を行うように構成したので、上記ΗMM学習した音声
モデルを用いることにより高い認識率を達成することが
でき、結果として認識性能のよい音声認識システムを実
現することができる。
【図面の簡単な説明】
【図1】本発明を適用した実施形態に係るヒドン・マル
コフ・モデルの学習方法の実施に用いられる装置を示す
ブロック図である。
【図2】PMC方法の処理の流れを示すフローチャート
である。
【図3】従来のHMMを用いた連続音声認識システムの
構成を示すブロック図である。
【図4】音声認識方法に用いられる単語ヒドン・マルコ
フ・モデルの構造を示す図である。
【符号の説明】
10 学習用音声データ(第1の学習用音声データ)、
11 クリーン音声モデル、12 雑音推定部(雑音推
定手段)、13 推定雑音モデル、14 モデル合成部
(PMC処理部)、15 初期音声モデル、16 HM
M学習処理部(HMM学習処理手段)、17 新音声モ
デル

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 雑音が混合した第1の学習用音声データ
    からヒドン・マルコフ・モデル(HMM)学習を行い、
    音声モデルを作成するヒドン・マルコフ・モデルの学習
    方法であって、 前記第1の学習用音声データに含まれる雑音を推定し
    て、推定雑音モデルを生成し、 該推定雑音モデルと雑音のない第2の学習用音声データ
    から作成したクリーン音声モデルとを合成し、 合成した音声モデルをΗMM学習の初期音声モデルとし
    て用いてΗMM学習を行うことを特徴とするヒドン・マ
    ルコフ・モデルの学習方法。
  2. 【請求項2】 前記モデルの合成を、PMC(Parallel
    Model Combination)方法により雑音モデルと音声モデ
    ルを加算することにより行うことを特徴とする請求項1
    記載のヒドン・マルコフ・モデルの学習方法。
  3. 【請求項3】 学習用音声データからヒドン・マルコフ
    ・モデル(HMM)学習を行って音声モデルを作成し、
    該音声モデルを用いて音声認識を行う音声認識システム
    において、 雑音が混合した第1の学習用音声データを有する学習用
    音声データベースと、 雑音のない第2の学習用音声データから作成したクリー
    ン音声モデルと、 前記第1の学習用音声データに含まれる雑音を推定して
    推定雑音モデルを生成する雑音推定手段と、 前記推定雑音モデルと前記クリーン音声モデルとを合成
    するモデル合成手段と、 前記モデル合成手段により合成した音声モデルをΗMM
    学習の初期音声モデルとして用いてΗMM学習を行うΗ
    MM学習処理手段とを備え、 前記ΗMM学習した音声モデルを用いて音声認識を行う
    ことを特徴とする音声認識システム。
  4. 【請求項4】 前記モデル合成手段は、PMC方法によ
    り雑音モデルと音声モデルを加算して合成することを特
    徴とする請求項3記載の音声認識システム。
JP10246797A 1998-09-01 1998-09-01 ヒドン・マルコフ・モデルの学習方法及び音声認識システム Withdrawn JP2000075890A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10246797A JP2000075890A (ja) 1998-09-01 1998-09-01 ヒドン・マルコフ・モデルの学習方法及び音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10246797A JP2000075890A (ja) 1998-09-01 1998-09-01 ヒドン・マルコフ・モデルの学習方法及び音声認識システム

Publications (1)

Publication Number Publication Date
JP2000075890A true JP2000075890A (ja) 2000-03-14

Family

ID=17153828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10246797A Withdrawn JP2000075890A (ja) 1998-09-01 1998-09-01 ヒドン・マルコフ・モデルの学習方法及び音声認識システム

Country Status (1)

Country Link
JP (1) JP2000075890A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2401469A (en) * 2003-05-09 2004-11-10 Domain Dynamics Ltd Pattern recognition
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
WO2006030551A1 (ja) * 2004-09-15 2006-03-23 The University Of Tokyo 多項式近似に基づく雑音下音声認識のためのモデル適応法
US7403896B2 (en) 2002-03-15 2008-07-22 International Business Machines Corporation Speech recognition system and program thereof

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7403896B2 (en) 2002-03-15 2008-07-22 International Business Machines Corporation Speech recognition system and program thereof
US7660717B2 (en) 2002-03-15 2010-02-09 Nuance Communications, Inc. Speech recognition system and program thereof
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
GB2401469A (en) * 2003-05-09 2004-11-10 Domain Dynamics Ltd Pattern recognition
GB2401469B (en) * 2003-05-09 2006-11-22 Domain Dynamics Ltd Pattern recognition
WO2006030551A1 (ja) * 2004-09-15 2006-03-23 The University Of Tokyo 多項式近似に基づく雑音下音声認識のためのモデル適応法

Similar Documents

Publication Publication Date Title
JP2691109B2 (ja) 非ユーザ基準データから生成される話者依存的プロトタイプを有する音声コード化装置
Acero Formant analysis and synthesis using hidden Markov models
US5793891A (en) Adaptive training method for pattern recognition
Kim et al. Cepstrum-domain acoustic feature compensation based on decomposition of speech and noise for ASR in noisy environments
US5794192A (en) Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech
JPH02238496A (ja) 音声認識装置
US7552049B2 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
US20060195317A1 (en) Method and apparatus for recognizing speech in a noisy environment
JP2004504641A (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
US5943647A (en) Speech recognition based on HMMs
US20030036902A1 (en) Method and apparatus for recognizing speech in a noisy environment
JP2003532162A (ja) 雑音に影響された音声の認識のためのロバストなパラメータ
US20080046245A1 (en) Using a discretized, higher order representation of hidden dynamic variables for speech recognition
JP2000075889A (ja) 音声認識システム及び音声認識方法
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
Rabiner et al. Hidden Markov models for speech recognition—strengths and limitations
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
Roucos et al. A stochastic segment model for phoneme-based continuous speech recognition
JP4233831B2 (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP2000075890A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
Suzić et al. HiFi-GAN based Text-to-Speech Synthesis in Serbian
JP2003330484A (ja) 音声認識装置及び音声認識方法
JP2000075888A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
JP3250604B2 (ja) 音声認識方法および装置
Eslami et al. Quality improvement of voice conversion systems based on trellis structured vector quantization

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051101