JPH0229799A - 音素を単位とした音声認識装置 - Google Patents

音素を単位とした音声認識装置

Info

Publication number
JPH0229799A
JPH0229799A JP63182225A JP18222588A JPH0229799A JP H0229799 A JPH0229799 A JP H0229799A JP 63182225 A JP63182225 A JP 63182225A JP 18222588 A JP18222588 A JP 18222588A JP H0229799 A JPH0229799 A JP H0229799A
Authority
JP
Japan
Prior art keywords
phoneme
learning
speech
standard pattern
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63182225A
Other languages
English (en)
Other versions
JPH0827638B2 (ja
Inventor
Kazunaga Yoshida
吉田 和永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63182225A priority Critical patent/JPH0827638B2/ja
Publication of JPH0229799A publication Critical patent/JPH0229799A/ja
Publication of JPH0827638B2 publication Critical patent/JPH0827638B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声を構成する基本単位である音素を認識単
位とすることにより、人語常連続音声が認識可能な音声
認識装置の改良に関するものである。
(従来の技術) 従来、音声を構成する基本的な単位である音素を単位と
して、音声を認識する方式は存在した。
この方式では、まず認識の基本となる音素標準パターン
を学習により求める。この音素標準パターンを、音素表
記された単語辞書にしたがって合成した単語の標準パタ
ーンを用いて単語音声を認識する。この場合において、
「音素」という用語は認識の単位という意味で、音声学
でいう音素たけでなく、音節や複数の音素連鎖も含む、
より広い意味で用いている。また、認識対象としては単
語以外に、文節、文章等があるが、以下では単語を認識
する場合について説明する。
音素を単位とした認識方式の例として、たとえば、日本
音響学会音声研究会資料585−62 (1985年1
2月20日)の477頁から484頁に「音節をベース
とする日本語音声認識」と題されて発表されている論文
(以下引用文献1と称す)に、子音+母音(CV ;子
音をC1母音を■と表記する)および母音十子音+母音
(VCV)を認識単位(音素)とした音声認識方式が示
されている。この方式では、単語単位に連続発声された
学習用音声を、CvlVCvの音素にセグメンテーショ
ンし、セグメンテーションされた区間の音声から音素標
準パターンを作成する(このような標準パターンの作成
や、更新を学習と呼ぶ)。
認識時には、求められた音素標準パターンを結合したも
のを基にDPマツチング法により単語(文節)を認識し
ている。
また、IEEE+ International Co
nference onAcoustics、 5pe
ech、 and Signal Pr0065911
g+198G、 30.9の1593頁に”The R
ole of Word−Dependent Coa
rticulatory Effects in aP
honeme−Based  5peech  Rec
ognltlon  System  ”  (198
6年)と題されて発表されている論文(以下引用文献2
と称す)には、音素を認識の単位として、隠れマルコフ
モデル(旧dden Markovmodel s以下
rHMMJと呼ぶ)法を用いて認識を行う方式が示され
ている。以下に、この方式を説明する。
最初に、音素単位のHMM(音素HMMと呼ぶ。音素標
準パターンと等価なものである。)を学習により求める
方法について述べる。学習用音声は、ベクトル量子化法
により観測ラベル列0(t);1≦t≦Tに変換される
。第2図に音素HMMの例を示す。HMMは図のような
状態遷移ネットワークであられされる。HMMには、4
犬態iにおける観測ラベル0(t)の出力確立bi(0
(t))、状態iから状態jへの状態遷移確立a(it
  j)の各パラメータが定義されている。
音素HMMを学習する場合、まず、あらかじめ代表的な
話者のセグメンテーションされた音声データをもとに音
素HMMを作成しておく。これを音素HMM学習の初期
値である初期モデルとする。新しい話者に対しては、そ
の話者が発声した学習用音声を用いて、学習処理により
初期モデルを更新し、その話者の音素HMMを作成する
。この学習処理は、F B (Forward−Bac
kward)アルゴリズムを用いて実行できる。このF
Bアルゴリズムについては、たとえば、Procee旧
ngs of TheIEEE、 Vol、73. N
o、11の1625頁に”5tructura 1Me
thods in Automatic 5peech
 Recognition″(1985年11月)と題
されて発表されている論文(以下引用文献3と称す)に
詳しく述べられている。単語単位に発声された学習用音
声を用いて音素HMMを学習する方法としては、単語単
位に更新されたFBアルゴリズムにおける中間パラメー
タを、音素HMM単位にまとめることにより新しい音素
HMMのパラメータ得るという操作を繰り返す方法をも
ちいている。
入力音声を認識する場合は、音素HMMを音素表記され
た単語辞書に従って結合した単語HMMを用いて、上記
のFBアルゴリズムにおける前向き確率として、その単
語HMMに対する入力音声の出現確率を求める。その出
現確率が最も高い単語が認識結果己なる。
(発明が°解決しようとする問題点) 音素を単位とした音声認識では、一般に、認識単位とし
ては、C1Vなどの単独の音素(単音素と呼ぶ)よりも
、引用文献1に述べられているようなcv、vcvなど
のある程度の長さを持った音素連鎖(複合音素と呼ぶ)
を用いるほうが好ましい。これは、音声パターンは、前
後にどのような音素があるかにより大きく変化すること
、単音素から次の単音素に移る変化部分に大きな特徴が
あること等の理由による。
しかし、一般に単音素の種類にくらべて複合音素の種類
はきわめて多い。たとえば日本語のc1Vなどの単音素
の数は20種程度であるが、複合音素のVCvはtoo
o種以上存在する。このため、全てのvCvを学習する
ためには、それらの複合音素を含む膨大な学習用音声が
必要であり、学習に必要な処理量もきわめて多くなると
いう欠点があった。
また、音声を発声する場合、無声化・長母音化等の発声
変形が生じることがある。このような発声変形に対処す
るため、無声化音素や長母音化音素の音素HMMを通常
の音素HMMの他に用意する方法がある。しかし、発声
変形の有無は確率的に生じることであり、学習用音声の
中に特定の発声変形が存在しない場合や、無声化等の変
形を生じる可能性のある音素全てに、発声変形が生じて
いる場合がある。このような場合は、発声変形が生じた
音素や、発声変形のない音素の標準パターンが学習され
ないという欠点があった。
さらに、初期モデルは、一般に代表的な話者の発声をも
とに作成したものを用いているが、音素HMMを学習す
るときに、新しい話者の学習用音声が代表的な話者の音
声パターンと太き(異なる場合は、学習音声の音素セグ
メントと音素HMMの区間の対応付けが大きくずれてし
まうことにより、学習が正しく行われないことがあると
いう欠点があった。
本発明は、以上のような欠点を除き、少ない学習用音声
で、さまざまな発声変形や、種類の多い複合音素の標準
パターンが学習できるようにすることにより、高性能な
音声認識装置を実現することにある。
(問題点を解決するための手段) 本願の第1の発明による音素を単位とした音声認識装置
は、学習用音声から単音素標準パターンを求める弔音素
学習部と、得られた前記単音素標準パターンを1個以上
結合することにより複合音素標準パターンを作成する音
素結合部と、前記作成された複合音素標準パターンをも
とに学習用音声を用いて学習する複合音素学習部と、前
記複合音素標準パターンを用いて入力音声を認識する音
声認識部とを佇する。
本願の第2の発明による音素を単位とした音声認識装置
は、前記本願の第1の発明に加え、学習用音声の発声変
形情報を求める発声変形検出部と、前記発声変形情報を
もとに学習を行う単音素学習部と、前記発声変形情報を
もとに学習を行う複合音素学習部とを有する。
本願の第3の発明による音素を単位とした音声認識装置
は、前記本願の第1および2の発明に加え、あらかじめ
求められた初期標準パターンと、学習用音声から求めら
れた初期標準パターンを標準パターン毎に選択する音素
選択部と、選択された初期標準パターンを初期値として
学習用音声から単音素標準パターンを求める単音素学習
部とを有する。
(作用) 本発明による音素を単位とする音声認識装置の作用につ
いて説明する。以下の説明では、単音素としてはC1V
などの音素、複合音素としては語頭のCvlおよびvC
vなどの音素連鎖を用いることにする。また認識方法と
しては、引用文献2に述べられているような音素単位の
HMMを用いることにする。このほかの方法による場合
も同様である。
本発明では、認識の単位として複合音素HMMを用いる
。この複合音素HMMを学習により求める際に、学習用
音声が少ない場合や発声変形が含まれている場合、定義
されている全ての複合音素に対応する音声パターンが学
習用音声中に存在しないことがある。その結果、学習さ
れない複合音素HMMができる可能性が生じる。
これに対処するため、本発明では複合音素HMMを求め
る際に、まず単音素HMMを学習により求める。弔音素
HMMは複合音素HMMを分割したものに相当する。複
合音素VICIV2(たとえば[as口)は、単音素V
l ([a] )、C1([s] 、V2 ([+] 
)に分割される。単音素HMMは、種類が限られる(2
0種程度)ため、全ての弔音素を含む学習用音声を用意
することは容易である。発声変形に対しても、単音素H
MMを用いれば、発声変形が生じた音素と類似した音素
との置き換えにより対処可能である。例えば、無声化母
音の単音素HMMは、摩擦音[s]等の単音素HMMで
置き換えることにより対処できる。学習用音声の発声変
形の内容(例えば無声化の有無)については、あらかじ
め発声変形情報として、わかっているものとする。
単音素HMMの学習方法は、例えば引用文献2に述べら
れているような方法を用いることができる。第3図に単
音素[alの単音素HMMの例を示す。ここでは、図に
示すように2状態からなるHMMを単音素HMMとして
用いる。単音素HMMを学習する場合、まず代表的な話
者の音声より求められた単音素HMMを初期モデルとし
て用いる。これらの単音素HMMを、単音素表記された
単語辞書に従って結合し単語HMMを作成する。
第5図に単音素HM M [al 、[al 、[s]
 、[al 、[al 、[h] 。
[1]、ロコを結合して得られた単語HM M [as
a旧]の例を示す。母音の単音素Cal、[1]が重な
っているのは複合音素[asal、[ahi]への分割
を考慮したためである。
このような単語HMMをもとに、単語発声された学習用
音声を用いて、引用文献2に述べられている方法で単音
素HMMを学習する。発声変形を含む学習用音声を用い
る場合、前記の発声変形情報にしたがって単音素HMM
を結合し、学習に用いる単語HMMを作成する。
このようにして求められた単音素HMMを結合すること
により複合音素HMMを作成することができる。第4図
は、単音素HMMの[al 、[s] 、[alを結合
し求められた複合音素HM M [asalの例である
。調音結合の影響のため、前後の音素の種類によって同
じ音素でも音声パターンは変わり得る。このように、単
音素HMMの単なる結合では不十分ではあるが、近似的
には複合音素HMMとして使用することは可能である。
さらに、本発明では学習用音声中に存在する複合音素H
MMについては、単音素HMMの合成により作成した複
合音素HMMを初期モデルとして、複合音素HMMの学
習を行う。この学習は単音素HMMの場合と同様に行う
ことができる。
これにより、学習用音声中に存在する複合音素に対して
は調音結合の影響を含んだモデルを作成することができ
る。
このように、本発明によれば学習用音声中に存在する複
合音素だけでなく、存在しない場合も近似的に複合音素
HMMを作成することができるので、限られた量の学習
用音声を有効に使って複合音素HMMの学習を行うこと
ができる。
以上の説明では、学習用音声中の発声変形はあらかじめ
わかっているとした。しかし、発声変形情報を得るため
には、あらかじめ学習用音声を発声する際に発声変形の
有無について指定する等の方法を用いる必要がある。例
えば、ある母音は無声化させ、他の母音は無声化させな
いように発声する等である。しかし、このような方法は
使用者に負担を強いることになる。それに対し、本発明
では、学習用音声の発声変形を自動的に検出する方法を
用いることもできる。以下に、この発声変形の自動的検
出法について述べる。
まず、発声変形をすべて網羅した単語辞書を用、αし、
それらの辞書に従って代表的話者により求められた単音
素HMMを結合して単語HMMを作成する。これらの単
語HMMに対する学習用音声の出現確率を求め、最も確
率の高い単語辞書中の発声変形を学習用音声の発声変形
とする。この出現確率は、単語を認識する場合と同様、
引用文献3に述べられている前向き確率を用いて求める
ことができる。
例えば、「拍手」 (発音: [h a k u sy
 uコ)の4番目と6番目の単音素である[u]は無声
化する可能性がある。そこで、すべての可能な組合せで
ある[h a k u sy u]、[h a k u
−sy u]、[h a k usy u−]、[h 
a k u−sy u−]  (無性化した[Uコを[
U−]とあられす)の辞書を用意し、それらの辞書に従
って作られた単語HMMを用いて発声変形を求める。例
えば[h a k u−sy u]の出現確率が最も高
ければ、最初の[U]は無声化しているとする。
このようにして求められた発声変形情報を用いることに
より、発声変形を含む音声による学習が可能となる。
また、以上の説明では、初期モデルは代表的な話者の発
声を基にしている。通常、これにより単音素HMMの学
習を行うことができるが、新しい話者の学習用音声が代
表的な話者の音声パターンと大きく異なる場合は、学習
が正しく行われないことがあることについて既に述べた
。そこで本発明では、母音などの、話者によりパターン
変動の大きい可能性のある単音素の初期モデルは、学習
用音声から直接作成する方法を用いる。
ここでは、母音の初期モデルを学習用音声から作成する
場合について述べるが、母音以外の初期モデルに対して
も同様である。まず、学習用音声として単音素単位にセ
グメンテーションが容易な音声を用意する。たとえば単
独発声した母音を学習用音声とすれば、この音声データ
の音声区間(たとえば、振幅がある程度以上大きい部分
)を母音の単音素のセグメントとすることができる。ま
た、たとえば、共立出版「音声認識」の73頁から述べ
られているセグメンテーション法ヲ用いて母音区間を切
り出すことにより、様々な音声を初期モデル作成のため
に用いることができる。
この学習用音声を上記の方法で単音素にセグメンテーシ
ョンし、単音素セグメント内の音声を学習用音声として
、単音素毎にFBアルゴリズムを用いて単音素HMMを
学習することができる。この場合学習用音声セグメント
と単音素HMMの対応付けがずれるおそれは無いので、
学習の初期モデルとして例えば乱数値や代表的な話者よ
り作られた単音素HMMを用いることができる。また、
観測ラベル出力確率bi(x)だけを、対応するセグメ
ント内の全観測ラベルの出現頻度を基に求めたものを用
い、吠態遷移確率a(X+、+)は代表的な。話者のも
のをそのまま用いることもできる。
このように、単音素の初期モデルを学習する話者の音声
から求めることにより、安定した学習が可能となる。
以上、HMMを用いた方法を基に説明したが、引用文献
1に述べられているようなりPマツチング法を使用する
場合も同様である。この場合、音素標準パターンとして
、単音素標準パターンと複合音素標準パターンを用意す
る。DPマツチングを用いた標準パターンの反復学習法
として、次のようなものを用いることができる。あらか
じめ求められた初期音素標準パターンを単語辞書に従っ
て接続した単語標準パターンを用いて、学習用音声をD
Pマツチングにより音素単位にセグメンテーションする
。得られた音素単位のセグメントを同一音素間で平均化
し新しい音素標準パターンを作成する。この操作を繰り
返し、音素標準パターンを更新する。
このような反復学習法を用いることにより、DPマツチ
ングに用いる標準パターンの学習法もHMMのFBアル
ゴリズムを用いる方法と同様に扱うことができるので、
本発明による学習法を適用することができる。
(実施例) 本発明による音素を単位とした音声認識装置の実施例に
ついて図面を参照して説明する。第1図は本発明の一実
施例を示す構成図である。まず最初に、認識に用いる複
合音素HMMを求める学習方法について説明する。
初期モデルメモリ1には単音素HMMの学習のための初
期値となる単音素HMMのパラメータ(初期モデル)が
保持されている。この初期モデルは予め代表的な話者が
発声した音声を単音素毎にセグメンテーションしたもの
から求めておく。これは、単音素毎に文献3に述べられ
ているようなFBアルゴリズムを適用することにより実
現できる。単音素HMMとしては、ここで第3図に示さ
れているような2状態、からなるモデルを用いる。
初期モデル学習用音声メモリ2の中には、ベクトル量子
化法により観測ラベル列に変換された初期モデル学習用
音声の音声データが保持されている。この音声データは
セグメンテーション部3に入力され、単音素単位にセグ
メンテーションされる。ここでは単独発声した母音を初
期モデル学習用音声とし、この音声データの振幅がある
定められた値より大きい部分を母音の単音素データとす
る。パラメータ作成部4では、入力された単音素データ
をもとに、FBアルゴリズムにより単音素)IMMのパ
ラメータを求める。
初期モデル選択部5では、初期モデルメモリ1中の単音
素HMMと、パラメータ作成部4により求められた単音
素HMMから、予め定められたルールに従って、単音素
HMMが初期モデルとして選択され出力される。例えば
、母音の初期モデル(単音素HMM)はパラメータ作成
部4からのものを用い、それ以外は初期モデルメモリ1
内のものを選択するというルールを適用する。初期モデ
ル学習用音声を用いない場合は、初期モデルメモリ1中
の単音素HMMを初期モデルとして出力する。
学習用音声メモリ6中には観測ラベル列で表現された学
習用音声データが保持されている。発声変形検出部7で
は、学習用音声データに対応する単語の発声変形をすべ
て網羅した辞書を単語辞書メモリ8から読みだす。この
単語辞書の表記に従って初期モデルを結合し、発声変形
毎の単語HMMを作成する。続いて、これらの単語HM
Mに対して、学習用音声データの出現確率を前向き確率
として求め、出現確率が最大となる単語HMMの発声変
形を、その学習用音声データの発声変形情報として発声
変形情報メモリ8中に保持する。また、発声変形情報と
しては、このようにして求められたちの以外にも、予め
学習用音声を調査することにより得られた情報を用いる
ことができる。
弔音素学習部10では、学習用音声メモリ6中の音声デ
ータを用いて単音素HMMの学習を行う。これは、まず
発声変形情報メモリ9中の発声変形情報により、単語辞
書メモリ8中の発声変形を含む単語辞書を選択し、初期
モデルを結合し学習用音声に対応した単語HMMを作成
する。引用文献2に述べられている方法と同様に、この
単語HMMのパラメータを更新し、その更新されたパラ
メータを単音素単位にまとめることにより単音素HMM
の学習処理を進める。パラメータが集束するまで、この
学習処理を繰り返し行う。
学習が終了した単音素HMMは、単音素結合部11にお
いて予め定められたルールに従って結合され、複合音素
HMMが作′られる。ルールとしては例えば、複合音素
[asalは単音素Cal 、[sl 、[a:1を第
4図のように結合して作成するというものなどがある。
複合音素学習部12では、単音素結合部11により作ら
れた複合音素HMMを初期モデルとし、学習用音声メモ
リ6中の音声データを用いて複合音素HMMの学習を行
う。学習法は単音素データ10で用いられた方法と同じ
である。
求められた複合音素HMMは、複合音素8MMメモリ1
3中に保持される。
続いて、入力音声を認識する方法について説明する。認
識処理は認識部14中で行われる。この認識方法は文献
2で述べられている方法と同じである。すなわち、入力
音声はベクトル量子化方法により観測ラベル列に変換さ
れる。つぎに、単語辞書8中の単語辞書に従って、複合
音素8MMメモリ13中の複合音素HMMを結合し単語
HMMが順次作成される。この単語HMMに対する入力
音声の出現確率を、前向き確率として求め、この出現確
率が最大となる単語HMMに対する単語が認識結果とな
る。
(発明の効果) 本発明によれば、少ない学習用音声で、多くの発声変形
や、多くの種類を持つ複合音素の標準パターンが学習で
きるので、高性能な音声認識装置を実現することができ
る。
【図面の簡単な説明】
第1図は、本願発明による一実施例を示す構成図、第2
図は、音素HMMの例を示す図、第3図は、単音素HM
Mの例を示す図、第4図は、複合音素HMMの例を示す
図、第5図は、単語HMMの例を示す図である。 図において、 1・・・初期モデルメモリ、2・・・初期モデル学習用
9メモリ、3・・・セグメンテーション部、4・・・パ
ラメータ生成部、5・・・初期モデル選択部、6・・・
学音用音声メモリ、7・・・発声変形検出部、8・・・
単語辞書メモリ、9・・・発声変形情報メモリ、10・
・・単音素学習部、11・・・単音緊結合部、12・・
・複合音素結合部、13・・・複合音素8MMメモリ、
14・・・認識部。

Claims (3)

    【特許請求の範囲】
  1. (1)学習用音声から単音素標準パターンを求める単音
    素学習部と、得られた前記単音素標準パターンを1個以
    上結合することにより複合音素標準パターンを作成する
    音素結合部と、前記作成された複合音素標準パターンを
    もとに学習用音声を用いて学習する複合音素学習部と、
    前記複合音素標準パターンを用いて入力音声を認識する
    認識部とを有する音素を単位とした音声認識装置。
  2. (2)学習用音声の発声変形情報を求める発声変形検出
    部と、前記発声変形情報をもとに学習を行う単音素学習
    部と、前記発声変形情報をもとに学習を行う複合音素学
    習部とを有する請求項1記載の音素を単位とした音声認
    識装置。
  3. (3)あらかじめ求められた初期標準パターンと、学習
    用音声から求められた初期標準パターンを標準パターン
    毎に選択する音素選択部と、選択された初期標準パター
    ンを初期値として学習用音声から単音素標準パターンを
    求める単音素学習部とを有する請求項1または2記載の
    音素を単位とした音声認識装置。
JP63182225A 1988-07-20 1988-07-20 音素を単位とした音声認識装置 Expired - Lifetime JPH0827638B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63182225A JPH0827638B2 (ja) 1988-07-20 1988-07-20 音素を単位とした音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63182225A JPH0827638B2 (ja) 1988-07-20 1988-07-20 音素を単位とした音声認識装置

Publications (2)

Publication Number Publication Date
JPH0229799A true JPH0229799A (ja) 1990-01-31
JPH0827638B2 JPH0827638B2 (ja) 1996-03-21

Family

ID=16114529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63182225A Expired - Lifetime JPH0827638B2 (ja) 1988-07-20 1988-07-20 音素を単位とした音声認識装置

Country Status (1)

Country Link
JP (1) JPH0827638B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0526353A (ja) * 1991-07-23 1993-02-02 Nippon Pillar Packing Co Ltd 耐熱ガスケツト
JPH05263943A (ja) * 1992-03-17 1993-10-12 Nippon Pillar Packing Co Ltd 高温用ガスケット部材
US10699699B2 (en) 2016-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Constructing speech decoding network for numeric speech recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0526353A (ja) * 1991-07-23 1993-02-02 Nippon Pillar Packing Co Ltd 耐熱ガスケツト
JPH05263943A (ja) * 1992-03-17 1993-10-12 Nippon Pillar Packing Co Ltd 高温用ガスケット部材
US10699699B2 (en) 2016-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Constructing speech decoding network for numeric speech recognition

Also Published As

Publication number Publication date
JPH0827638B2 (ja) 1996-03-21

Similar Documents

Publication Publication Date Title
JP4176169B2 (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
US5333275A (en) System and method for time aligning speech
Al-Qatab et al. Arabic speech recognition using hidden Markov model toolkit (HTK)
US7912721B2 (en) System and method for automatic speech recognition
JPH06110493A (ja) 音声モデルの構成方法及び音声認識装置
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
JPH08227298A (ja) クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識
US20050075887A1 (en) Automatic language independent triphone training using a phonetic table
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
Dhanalakshmi et al. Intelligibility modification of dysarthric speech using HMM-based adaptive synthesis system
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JPH0229799A (ja) 音素を単位とした音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
Delić et al. A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian
JPH1097270A (ja) 音声認識装置
JP2912513B2 (ja) ヒドン・マルコフ・モデルの学習方法
JP3277522B2 (ja) 音声認識方法
JP2545961B2 (ja) 音声認識用学習方式
Mohammed et al. Sphinx based speech recognition application for Sidama language
JPH09160586A (ja) ヒドン・マルコフ・モデルの学習方法
JPH0786758B2 (ja) 音声認識装置
JPH04271397A (ja) 音声認識装置
JP3091623B2 (ja) ヒドン・マルコフ・モデルの学習方法