JP3368989B2 - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP3368989B2
JP3368989B2 JP13333994A JP13333994A JP3368989B2 JP 3368989 B2 JP3368989 B2 JP 3368989B2 JP 13333994 A JP13333994 A JP 13333994A JP 13333994 A JP13333994 A JP 13333994A JP 3368989 B2 JP3368989 B2 JP 3368989B2
Authority
JP
Japan
Prior art keywords
hypothesis
likelihood function
phoneme
evaluation value
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP13333994A
Other languages
English (en)
Other versions
JPH086588A (ja
Inventor
喜昭 野田
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP13333994A priority Critical patent/JP3368989B2/ja
Publication of JPH086588A publication Critical patent/JPH086588A/ja
Application granted granted Critical
Publication of JP3368989B2 publication Critical patent/JP3368989B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音素のような音声単
位の、与えられた文法の制御に従って連結可能な数多く
の各仮説について対応する音響モデルと、入力された音
声とを照合し、その照合結果を尤度関数として得、その
尤度関数から、その仮説の評価値を求め、評価値の高い
少くとも1個の仮説を残しながら入力音声に近い候補を
横形探索法により探索する音声認識方法に関する。
【0002】
【従来の技術】図2Aに音素を認識の単位とした音声認
識処理の手順を示す。入力音声11は、分析処理部12
により、特徴パラメータのベクトルデータ時系列に変換
され、探索処理部13により文法16の拘束条件を用い
ながら、音素モデル15との照合が行なわれる。そし
て、最も高い評価値を持つ音素系列が認識結果14とし
て出力される。
【0003】分析処理部12における信号処理として、
よく用いられるのは、線形予測分析(Linear P
redictive Coding,LPCと呼ばれ
る)であり、特徴パラメータとしては、LPCケプスト
ラム、LPCデルタケプストラム、メルケプストラム、
対数パワーなどがある。音素モデル15としては確率・
統計理論に基づいてモデル化された隠れマルコフモデル
(Hidden Markov Model,以後HM
M法と呼ぶ)が主流である。このHMMの詳細は、例え
ば、社団法人電子情報通信学会編,中川聖一著『確率モ
デルによる音声認識』に開示されている。
【0004】探索処理部13は、文法で連結することが
許される音素列である仮説についてその音素モデルに対
して、入力音声とのもっともらしさを評価し、1つずつ
仮説に音素を拡張しながら探索を進める。ここで、仮説
とは、文法に示されている音素の並び順の制約に従って
つなげられた音素列のことを表し、また、仮説への音素
の拡張とは、文法に従って仮説の音素列にさらに1つ音
素をつなげることを意味する。
【0005】それぞれの仮説について、1.音素列、
2.トレリス計算等による、音響モデルとの照合結果で
ある尤度関数、3.入力音声に対する仮説のもっともら
しさを示す評価値、の3つの情報を記憶しておく。仮説
の識別番号をi、時刻をtとすると尤度関数はg
i (t)と表される。探索処理部13では、まず文法に
よって許される1つ目の音素を仮説に拡張し、その音素
に対応したHMMと、分析された特徴パラメータのベク
トルデータ時系列(入力音声)とを照合し、この仮説i
の各時刻tの尤度gi (t)を求める。HMMとの照合
方法としてトレリス法、ビタービ法があり、この詳細
は、例えば、社団法人電子情報通信学会編,中川聖一著
『確率モデルによる音声認識』に開示されている。この
尤度関数gi (t)から後述する方法で仮説iの評価値
を求め、この仮説に対し、音素列、尤度関数g
i (t)、評価値を記録しておく。そして、以後の音素
の拡張が行なわれる毎に、その仮説に対する評価値を求
めながら探索処理が進められる。また、仮説の音素列に
対して、文法の制約から2種類以上の音素が拡張できる
場合は、拡張できる音素の種類の数だけ元の仮説を複製
し、それぞれの音素を拡張した仮説を作り、それらに対
する尤度計算を行なう。このように、全ての仮説の音素
列の音素数が均等となるように仮説に音素を拡張してい
く。文法により音素を延ばすことが出来なくなった仮説
は、その音素列が文法として受理された仮説として、音
素の拡張を終了する。全ての仮説で音素の拡張が出来な
くなった時、文法として許される全ての音素列(仮説)
に対し入力音声と照合を行なったことになり、探索処理
を終える。その時の最も評価値の高い仮説の音素列また
はそれに対応する単語、文を認識結果14として出力す
る。
【0006】上記のように、探索処理において全ての仮
説(音素列)の音素数を均等となるように仮説の音素を
延ばす探索方法は横形探索法と呼ばれる。横形探索法を
実際に行なうと、文法の許す全ての音素列に対応した仮
説について計算を行なうことになり、非常に多くの仮説
の計算を行なわなければならず、多くの処理時間を必要
とする。このため、仮説に音素を拡張する過程で、最終
的な認識結果の候補となる見込みのある仮説のみ残し、
それ以外の仮説を廃棄する方法をとる場合が多い。具体
的には、仮説の評価値により仮説を残すかどうかを判定
する。その判定方法として仮説の評価値の高いものから
順に一定個数の仮説を残す方法や、仮説の評価値のしき
い値を設け、そのしきい値よりも高い仮説のみを残す方
法、両者の方法の併用等が用いられる。このような横形
探索法において、一定の条件により、見込みのある仮説
のみを残し、それ以外の仮説を廃棄して探索を行なう方
法はビーム探索法と呼ばれる。
【0007】ビーム探索法においては、探索の途中で仮
説の評価値に条件を与えて仮説の廃棄を行なうため、仮
説の評価値の精度、すなわち、仮説の入力音声に対する
もっともらしさを正確に評価値に反映できているか否か
が、認識精度に大きな影響を与える。仮説の評価値の精
度が高ければ、ビーム探索において厳しい条件で正解候
補の仮説を残すことができ、処理時間を大幅に短縮でき
る。
【0008】尤度関数gi (t)から仮説の評価値を求
める方法について詳細に述べる。音声の始端から前向き
に計算された尤度関数gi (t)は、拡張された音素ま
での時刻tでの尤度である、この尤度関数は各時刻の特
徴パラメータに対する尤度をその前の時刻の尤度関数値
に加えて求められる。従って、時刻が異なれば、各時刻
の音素モデル内の状態遷移の出力確率を加算する回数が
異なるため、時刻が異なる尤度を単純に比較することは
できない。よって、尤度関数gi (t)から時刻tに対
する最大の尤度maxgi (t)を求めて、それを仮説
iの評価値としても、時刻に対する尤度の正規化ができ
ていないため、仮説のもっともらしさを示す値になって
いない。
【0009】以上のことを具体的に説明すると、例えば
図2Bに示すような木構造によって表現された文法に対
して、HMMを用いた探索処理を行なう場合を例とし、
いま探索処理が既に第4音素までの処理を終えていると
し、第5音素を拡張する場合を述べると、図2Bにおい
ては第1音素#から4つの音素を含む仮説は、「#
」,「# i」,「# i」の
3種類である。ここで、“ ”は音素の区切りを示す記
号であり、音素#は無音を示すものとする。
【0010】第1音素が#から始まり、第4音素まで拡
張された一つの仮説、「# i」では、図2Bか
らわかるように、第5音素として、3種類の音素k,
o,mが拡張可能である。また、第1音素が#から始ま
り、第4音素まで拡張されたもう1つの仮説、「#
a」は、第5音素として、2種類の音素m,nが
拡張可能である。また、仮説「# i」は、第
4音素で完了しており、音素の拡張は行なわれない。
【0011】音素数を一定とするビーム探索では、同じ
音素数をもつ仮説に対し、仮説の評価値を求め、一定の
条件で評価値の良い仮説のみを残す。ここでは、一定の
条件として、評価値の高い上位2つの仮説のみを残すも
のとする。上で述べたように、第5音素まで拡張された
仮説は、「# o」,「#
k」,「# m」,「#
m」,「# n」の5種類あり、それぞれ
の仮説の評価値はこの順に高いとすると、上位2つの仮
説である「# o」と「#
k」のみが次の音素を拡張できる仮説として残し、それ
以外の仮説を廃棄する。
【0012】このように、仮説に音素を拡張して、一定
の条件によって残す仮説を限定し、残された仮説にさら
に音素を拡張していき、全ての仮説で音素を拡張できな
くなるまで、同様の処理を続ける。そして、音素を拡張
できなくなった全ての完了した仮説の評価値を比較し
て、評価値の最も高い仮説を認識結果として、出力す
る。
【0013】次に、仮説の評価値の求め方として、第4
音素まで拡張された仮説「# i」に音素oを拡
張するときの、評価値の計算方法を図3Aを用いて説明
する。図は、音素列と入力音声の照合であるトレリス計
算を行なって得られる尤度関数を、音素列、入力音声、
尤度の3つの軸をもつ3次元の図によって示しており、
図3Aの尤度関数31,32に達する尤度軸と平行な直
線の各長さは、各時刻の尤度の高さを示している。
【0014】既に計算されている、仮説「#
i」の尤度関数31の各時刻の尤度を初期値として、ト
レリス計算により音素oの各時刻の尤度を求め、これを
尤度関数31に加えることにより、音素oを拡張した仮
説「# o」の尤度関数32を求める。ト
レリス計算の計算範囲は、「# i」までの範
囲から音素oの継続時間を考慮して求める。
【0015】トレリス計算は、音響モデルを示すHMM
と入力音声を分析した特徴パラメータのベクトル時系列
データとの照合であり、時刻tでHMMの最終状態に到
達するHMMの全ての遷移に対してベクトル時系列デー
タとの確率計算を行ない、その結果時刻tにおける確率
値を得ることができる。ここではその確率値のlog値
である尤度を用いる。
【0016】図3Aにおいて曲線33は各音素(モデ
ル)を最も速く遷移した場合の音素列の時間経過を示
し、曲線34は各音素(モデル)を最も長い時間かけて
遷移した場合の音素列の時間経過を示す。尤度関数31
の時間軸方向の長さは音素列「# i」の継続時
間と対応している。1つのHMMにおいて最終状態に遷
移するまでの出力確率は、それまでの状態遷移ごとにそ
の状態の出力確率が加算され、従ってループの回数が多
い程、出力確率が大となるため、尤度関数31は、音素
iを最も速く遷移した時刻t1 の尤度gi (t1 )に対
し、音素iを最も遅く遷移した時刻tn の尤度gi (t
n )が大きく、尤度gi (t)の各時刻での尤度は異な
り、時刻の経過に従って、そのモデル内の状態遷移ごと
の出力確率の加算回数が多くなり、gi (tn )に近ず
く。このため1つの仮説についての各時刻における尤度
関数を単純に比較することはできない。なんらかの方法
で仮説の評価値を決める必要がある。
【0017】そこで時刻に対する尤度の正規化を含むよ
うな仮説の評価値を求める方法として、式(1)のよう
に音声の終端から後向きに推定した全ての仮説に共通な
推定尤度関数h^(t)を求めておき、音声の始端から
前向きに計算した尤度関数g i (t)に加え、音声区間
全体の推定尤度関数fi (t)を求める方法がある。こ
の方法の詳細は、例えば「南 泰浩,山田 智一,鹿野
清宏,松岡 達雄,“番号案内を対象とした大語い連
続音声認識アルゴリズム”,電子情報通信学会論文誌A
Vol.J77−A No.2,pp.190−19
7,1994」に開示されている。
【0018】 fi (t)=gi (t)+h^(t) (1) 入力音声の終端は例えば図3Aにおいて時刻te であ
り、この時刻te からその仮説の最後の音素より、図3
Aの例では「# o」の仮説の最も速く遷
移した時刻t1 ′まで、全ての仮説に共通な推定尤度関
数値h^(t1 )を後向きに推定し、また最も遅く遷移
した時刻tn ′まで、全ての仮説に共通な推定尤度関数
値h^(tn )を後向きに推定し、同様に時刻t1 ′と
n ′との間の各時刻について後向き推定を各仮説に共
通に後向き推定尤度関数h^(t)を推定すると、この
音声の終端から後向きに推定された全ての仮説に共通な
推定尤度関数h^(t)は、音声の始端から前向きに計
算された尤度関数gi (t)とは逆に、図に示すように
時刻に対応して尤度が単調減少している。従ってg
i(t)とh^(t)との和、つまり式(1)によって
求められた音声区間全体の推定尤度関数fi (t)は、
図3Bに示すように時刻の正規化がなされている。よっ
て、式(2)のようにこの音声区間全体の推定尤度関数
i (t)の時刻tに対する最大値を求めれば、その仮
説iのもっともらしさを示す評価値Si を得ることがで
き、精度の高い評価値を得ることが出来る。
【0019】 Si =maxfi (t) (2) また、音声の終端から後向きに推定した全ての仮説に共
通な推定尤度関数h^(t)の計算方法としては、任意
の音素の接続を許す文法で、音声の終端から後向きにト
レリス計算を行なって求める方法がある。このようにし
て各仮説iについて評価値Si を求め、その最も大きな
もの、あるいは大きなものから複数の仮説に対して、更
に音素の拡張を行うことを同様にしてゆき、拡張不能に
なった時の最も評価値が高い仮説を認識結果とする。
【0020】
【発明が解決しようとする課題】しかし、上記の従来方
法では、後向きの推定尤度関数h^(t)を得るため
に、音声の終端から計算を行なうことになり、入力音声
全体が入力されないと探索が開始できない、つまり、音
声の入力と並行して探索処理を進めることが出来ない。
【0021】音声認識において、実時間で入力される音
声を実時間で認識処理し、できるだけ早い時間で認識結
果が得られることは、音声認識の使いやすさを良くする
ものであり、実使用での音声認識に重要である。この発
明は、実時間で認識処理を行なうために、音声入力と並
行して探索処理を実行する仮説の評価値の計算方法を用
い、しかも高精度の評価値が得られる音声認識方法を提
供することにある。
【0022】
【課題を解決するための手段】この発明によれば、ビー
ム探索法で尤度関数gi (t)から仮説の評価値を求め
る際に、音声の始端から前向きに計算された尤度関数g
i (t)の時刻に対し正規化するために、音声の始端か
ら前向きに推定した全ての仮説に共通な推定尤度関数g
^(t)を求め、音声の始端から前向きに計算した各仮
説の尤度関数g i (t)からこの共通の前向き推定尤度
関数g^(t)を差し引くことにより推定尤度関数
i ′(t)を得、この推定尤度関数fi ′(t)は、
音素列の入力音声に対する各時刻でのもっともらしさの
みを含むので、このfi ′(t)の最大値と対応した値
を仮説の評価値として用いる。
【0023】この方法は、音声終端からの後向き尤度関
数を用いていないので、音声入力の完了を待つことな
く、探索処理を並行して行なうことが出来る。
【0024】
【実施例】以下この発明の実施例を説明する。従来と同
様に入力音声を分析処理し、特徴パラメータのベクトル
データは系列に変換し、探索処理により文法の拘束条件
を用いながら、HMMとの照合を、各仮説についてそれ
を拡張するように行い、その照合結果として各拡張音素
ごとにトレリス計算により各時刻の尤度を求める。
【0025】このトレリス計算によって得られる各時刻
tにおけるその仮説の尤度gi (t)は、時刻tに対す
る尤度の正規化がされていない。そこでこの発明では、
各仮説に共通な前向きの推定尤度関数g^(t)を求
め、式(3)のように、この仮説の尤度関数gi (t)
からg^(t)を差し引くことによって正規化尤度関数
i ′(t)を得る。前向きの推定尤度関数g^(t)
は正解と推定される仮説の尤度関数であって時刻tに対
して単調に増加する。従って尤度関数gi (t)が例え
ば図1Aに示すように時刻tに対し、増加する関数であ
るが、前向き推定尤度関数g^(t)は図1Bに示すよ
うに単調増加関数であって、これらの差f i ′(t)は
図1Cに示すように時刻tに対し正規化された尤度とな
る。このようにfi ′(t)は、時刻の正規化が行なわ
れており、時刻tでのその仮説のもっともらしさのみを
示している。
【0026】 fi ′(t)=gi (t)−g^(t) (3) よって、式(4)のように、正規化尤度関数fi
(t)の最大値Si ′を求めると、Si ′は仮説のもっ
ともらしさを示している。よって、これを仮説の評価値
とする。このようにして、時刻に対する正規化を行なっ
た高精度の仮説の評価値を求めることができる。
【0027】 Si ′=maxfi ′(t) (4) 次に、前向きの推定尤度関数g^(t)を求める方法に
ついて説明する。 <前向きの推定尤度関数の計算方法1>各音素HMM
は、通常3つ程度の状態をもっており、その各状態で
は、複数の確率関数の重み和の出力確率分布をもってい
る。ここで、各時刻での特徴パラメータを全ての出力確
率分布に与え、最も高い出力確率値を選択する。この出
力確率値からその対数である最大尤度を求める。時刻t
での特徴パラメータOτの出力確率値Pi (Oτ)の最
大値maxPi (Oτ)を各時刻で求め、時刻進行での
この累積尤度を求め、それを各時刻tの前向きの推定尤
度関数g^(t)とする。式では次のように表わせる。
【0028】 g^(t)=ΣmaxPi (Oτ) (5) Σはτ=0からtまで つまり式(5)は文法の拘束を外し、全てのHMMの状
態から何れのHMMの状態へも遷移可能とし、かつその
遷移確率を1として入力音声との照合をビタビ法で行な
った時の各時刻での前向き最大尤度を意味しており、こ
れをg^(t)とする。Pi (Oτ)は音声認識のため
のトレリス計算の過程で可成り行われているから、その
結果を利用でき、計算量が少なくて済む。 <前向きの推定尤度関数の計算方法2>前向きの推定尤
度関数の計算方法1においては、全ての出力確率分布か
ら得られる出力確率値の最大値から求めたが、この計算
方法2では、探索処理の過程で現在までにトレリス計算
によって既に計算済みの全ての出力確率分布の出力確率
値の最大値から求める。このようにすると探索処理過程
で文法の拘束を受けているため、これにより無関係のも
のが外され、しかもトレリス計算で既に計算されている
ためg^(t)のための計算をほとんど必要としない。 <前向きの推定尤度関数の計算方法3>横形探索法の説
明で述べたように仮説に音素を拡張していき、トレリス
計算を行なうことにより尤度関数を得るが、この場合、
各仮説に対し、任意の音素の拡張を行なえるような文法
で、つまり文法に拘束を行うことなく音素を拡張してい
き、得られた尤度関数を前向きの推定尤度関数とする。
つまり後向き推定尤度関数h^(t)と同様に文法に制
約されない可能性の全ての音素配列に対する前向き推定
尤度関数は最もらしい仮説に対する尤度関数に近いもの
となるから、これをg^(t)とする。 <前向きの推定尤度関数の計算方法4>前向きの推定尤
度関数の計算方法3においては、任意の音素の拡張を行
なえるようにしたが、日本語特有の音素配列構造のみを
許す制約(文法)を与えて、尤度計算を行ない、得られ
た尤度関数を前向きの推定尤度関数g^(t)とする。
日本語特有の音素配列構造を許す音素列とは、例えば
「o sh ir i」や「s
u」というように子音の後には子音が来ないとい
う制約を示している。「s ai k」という音素
の連鎖は英語での音素配列構造を満たしているが、日本
語の音素配列構造とはなっていない。 <前向きの推定尤度関数の計算方法5>最終的に全ての
仮説の尤度関数の中で最大のものが正解であることがお
おいから各時刻においても、全ての仮説の尤度関数中の
最大のものが正解に近いと思われる。そこで探索の過程
で計算された全ての仮説の尤度関数の各時刻毎の最大値
を前向きの推定尤度関数とする。式で表現すると次のよ
うになる。
【0029】 g^(t)=maxgi (t) (6) 上記による方法の何れかで、前向きの推定尤度関数g^
(t)を計算し、これを用いることにより得られる仮説
の評価値を使って、ビーム探索を行なう。この仮説の評
価値の精度が高いため、ビーム探索の条件を厳しくして
も正確の仮説を落すことなく、探索が行なえる。また、
ビーム探索の条件を厳しくすることができるため、計算
すべき仮説の数を減らすことができ、探索処理量そのも
のを削減できる。さらに、上で述べた前向きの推定尤度
関数g^(t)は、各仮説の尤度関数gi (t)を計算
するのと同時刻までの音声データのみを必要とするた
め、音声の終端を待つことなく、音声の入力と並行し
て、探索処理を行なえる。
【0030】式(3)において、ヒューリスティック力
を強くするため、つまり正解仮説を発見し易くするため
に、前向推定尤度関数g^(t)に重みWを与え、つま
りf i ′(t)=gi (t)−Wg^(t)の演算を行
うとよい。この重みWは実験的に求められる。例えば実
験条件を下記に示す。 分析条件 サンプリング周波数:12kHz フレーム周期:8m秒 窓幅:32m秒 プリエンファシス:0.97 特徴量:LPCケプストラム(16次),Δケプストラム(16次 ),Δ対数パワー 音響モデル 混合連続分布HMM,状態数3,混合分布数4,対角化共分散行列 音素モデル数:54 評価用音声データ 音素バランス216単語 話者:MAU,MHT,FAF,FSU 電子協提案の100都市名 話者:男性A,男性B,女性A,女性B 先ず全探索を行って、最適候補(最終的に最も評価値が
高くなる候補)の尤度関数を求め、先に述べた計算方法
1〜3と5とをそれぞれ用いて前向き推定尤度関数g^
(t)を求め、次に最適候補の尤度関数とg^(t)と
の距離を単位時間当りの対数尤度差とみなして、この距
離が最小になるように重みWを決定する。このようにし
て216単語及び100都市名のタスク(各タスク男性
話者1名)の全ての単語に対して重みWを求めた結果は
下記のようになった。
【0031】 216単語(MAU) 100都市名(男性A) 方法1 0.913 0.914 方法2 1.022 1.024 方法3 0.958 0.962 方法5 0.974 0.981 重みWは真値と推定値の文法の制約の違いによるものと
考えられ、1に近いほど両者の文法の制約が近いことを
示している。
【0032】先の実験で得られた重みWの値を用いて、
216単語及び100都市名を対象とした単語認識実験
を行った結果を示す。重みWの値としては両タスクで推
定された重みWは近い値であるから、共通に用い、計算
方法1ではW=0.91、計算方法2ではW=1.0
2、計算方法3ではW=0.96、計算方法5ではW=
0.98とした。この場合の認識実験結果を、全探索を行っ
た場合と、従来の後向き推定尤度関数を用いた場合の実
験結果も合わせて図4に示す。
【0033】この結果より、この発明によれば、従来の
後向き推定尤度関数h^(t)を用いる場合と同程度の
認識精度が得られることが理解される。計算方法2及び
5では推定尤度関数g^(t)を求めるために、既に計
算された出力確率あるいは尤度関数のみを用いているの
で、認識処理全体の処理量を低く抑えることができ、処
理時間も短かい。なお図4の認識処理時間は認識処理全
体の処理量に対応した時間である。なお推定尤度関数の
推定精度の良さは方法1、方法3、方法2、方法5の順
となった。
【0034】上述において仮説の評価値としてfi
(t)の最大値を用いたが、例えばその最大値となる時
刻とその前後のいくつかの時刻におけるfi ′(t)の
平均値を仮説の評価値としてもよい、つまりfi
(t)の最大値と対応したものを評価値とする。また上
述において各1個の音素を順次連結する場合に限らず、
途中で複数の連続した音素を連結する場合もある。更に
この発明は音響モデルとしてHMMを用いる場合に限ら
ず、標準パターンを用い、DPマッチングにより認識す
る場合などにも適用できる。DPマッチング等では上述
における尤度は距離又は類似度と呼ばれることが多く、
距離の場合は小さいほど照合での適合が良いことを示
し、上述での大小関係は反対となる。
【0035】
【発明の効果】この発明の方法の効果を以下に示す。 ・各仮説の尤度関数の時刻に対応する尤度の増分を打ち
消すことにより、仮説の評価値を高精度に計算すること
ができ、認識精度を向上させることができる。 ・高精度に仮説の評価値を求めることが出来るので、ビ
ーム探索の仮説を残すための条件を厳しくすることがで
き、探索処理そのものの処理量を削減できる。
【0036】・仮説の評価値を計算する際に音声区間全
体のデータを必要としないので、音声入力中に並行して
探索処理を行なうことができ、認識結果待ち時間を短縮
できる。
【図面の簡単な説明】
【図1】Aはある仮説iの尤度関数gi (t)の例を示
す図、Bは共通の前向き推定尤度関数g^(t)の例を
示す図、Cは時刻正規化された尤度関数fi ′(t)の
例を示す図である。
【図2】Aは音素を認識単位とする音声認識処理の手順
を示す図、Bは木構造に表現された音素連結の文法例を
示す図である。
【図3】Aはトレリス計算の結果得られた尤度関数の例
を示す図、Bは時刻正規化された尤度関数fi (t)の
例を示す図である。
【図4】この発明方法、及び従来法による単語音声認識
の実験結果を示す図である。
フロントページの続き (56)参考文献 Douglas B.Paul,Al gorithms for an Op timal A* Search an d Linearizing the Search in the Stac k Decoder,Proc.ICA SSP91,p.693−696,1991年5月 野田喜昭,嵯峨山茂樹,前向き尤度を 用いたA*ビーム探索によるHMM−L R音声認識,電子情報通信学会技術研究 報告[音声],SP94−23,p.1− 7,1994年6月17日 野田喜昭,嵯峨山茂樹,前向きヒュー リスティック関数を用いたビーム探索に よるHMM−LR連続音声認識,電子情 報通信学会論文誌,D−II,Vol. J79−D−II,No8,p.1326− 1333,1996年8月20日 (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 G10L 15/18 G10L 15/28 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 音素のような音声単位の連結である仮説
    について対応する音響モデルと、入力音声とを照合し、
    その照合結果を尤度関数として得、その尤度関数からそ
    の仮説の評価値を求め、評価値の高い少くとも1個の仮
    説を残しながら入力音声に近い候補を横形探索法により
    探索する音声認識方法において、 各時刻において、探索の過程で計算された音響モデルの
    出力確率値の中から最大値を選び、時刻毎にその最大値
    を累積して、全ての仮説に共通な前向き推定尤度関数を
    求め、 各仮説の尤度関数と上記前向き推定関数との差をとり、 その差の最大値と対応する値をその仮説の評価値とする
    ことを特徴とする音声認識方法。
  2. 【請求項2】 音素のような音声単位の連結である仮説
    について対応する音響モデルと、入力音声とを照合し、
    その照合結果を尤度関数として得、その尤度関数からそ
    の仮説の評価値を求め、評価値の高い少くとも1個の仮
    説を残しながら入力音声に近い候補を横形探索法により
    探索する音声認識方法において、日本語特有の音素配列構造の制約が設けられた音素の
    合せと入力音声との照合によって、全ての仮説に共通な
    前向き推定尤度関数を求め、 各仮説の尤度関数と上記前向き推定関数との差をとり、 その差の最大値と対応する値をその仮説の評価値とする
    ことを特徴とする音声認識方法。
  3. 【請求項3】 音素のような音声単位の連結である仮説
    について対応する音響モデルと、入力音声とを照合し、
    その照合結果を尤度関数として得、その尤度関数からそ
    の仮説の評価値を求め、評価値の高い少くとも1個の仮
    説を残しながら入力音声に近い候補を横形探索法により
    探索する音声認識方法において、 探索の過程で計算された全ての仮説の尤度関数から各時
    刻の最大値を求め、その最大値と対応する前向き推定尤
    度関数を計算して、全ての仮説に共通な前向き推定尤度
    関数を求め、 各仮説の尤度関数と上記前向き推定関数との差をとり、 その差の最大値と対応する値をその仮説の評価値とする
    ことを特徴とする音声認識方法。
  4. 【請求項4】 上記音響モデルは、隠れマルコフモデル
    であることを特徴とする請求項1又は3のいずれかに記
    載の音声認識方法。
JP13333994A 1994-06-15 1994-06-15 音声認識方法 Expired - Lifetime JP3368989B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13333994A JP3368989B2 (ja) 1994-06-15 1994-06-15 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13333994A JP3368989B2 (ja) 1994-06-15 1994-06-15 音声認識方法

Publications (2)

Publication Number Publication Date
JPH086588A JPH086588A (ja) 1996-01-12
JP3368989B2 true JP3368989B2 (ja) 2003-01-20

Family

ID=15102413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13333994A Expired - Lifetime JP3368989B2 (ja) 1994-06-15 1994-06-15 音声認識方法

Country Status (1)

Country Link
JP (1) JP3368989B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215187A (ja) 2001-01-23 2002-07-31 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置
CN101416237B (zh) * 2006-05-01 2012-05-30 日本电信电话株式会社 基于源和室内声学的概率模型的语音去混响方法和设备
JP5161174B2 (ja) * 2009-08-28 2013-03-13 日本電信電話株式会社 経路探索装置、音声認識装置、これらの方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Douglas B.Paul,Algorithms for an Optimal A* Search and Linearizing the Search in the Stack Decoder,Proc.ICASSP91,p.693−696,1991年5月
野田喜昭,嵯峨山茂樹,前向きヒューリスティック関数を用いたビーム探索によるHMM−LR連続音声認識,電子情報通信学会論文誌,D−II,Vol.J79−D−II,No8,p.1326−1333,1996年8月20日
野田喜昭,嵯峨山茂樹,前向き尤度を用いたA*ビーム探索によるHMM−LR音声認識,電子情報通信学会技術研究報告[音声],SP94−23,p.1−7,1994年6月17日

Also Published As

Publication number Publication date
JPH086588A (ja) 1996-01-12

Similar Documents

Publication Publication Date Title
JP3672595B2 (ja) 結合されたストリングモデルの最小誤認率訓練
JP3549681B2 (ja) 連結数字の認識のための発声識別立証
US6125345A (en) Method and apparatus for discriminative utterance verification using multiple confidence measures
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
Jelinek et al. 25 Continuous speech recognition: Statistical methods
US20060085191A1 (en) Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
US20070067171A1 (en) Updating hidden conditional random field model parameters after processing individual training samples
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
US20040143435A1 (en) Method of speech recognition using hidden trajectory hidden markov models
US20050159951A1 (en) Method of speech recognition using multimodal variational inference with switching state space models
JP3496706B2 (ja) 音声認識方法及びそのプログラム記録媒体
JP2003208195A5 (ja)
JP3368989B2 (ja) 音声認識方法
JP3171107B2 (ja) 音声認識装置
Matsui et al. N-best-based instantaneous speaker adaptation method for speech recognition
JP2000352993A (ja) 音声認識システム及びヒドン・マルコフ・モデルの学習方法
JP3104900B2 (ja) 音声認識方法
JPH06266386A (ja) ワードスポッティング方法
WO1999028898A1 (fr) Systeme et procede de reconnaissance vocale
JP3494338B2 (ja) 音声認識方法
JP3868798B2 (ja) 音声認識装置
Rabiner et al. A continuous training procedure for connected digit recognition
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP2731133B2 (ja) 連続音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071115

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081115

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091115

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101115

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101115

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111115

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111115

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121115

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121115

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131115

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term