JP3668992B2 - 音声認識装置の構文制御グラフの生成方法 - Google Patents
音声認識装置の構文制御グラフの生成方法 Download PDFInfo
- Publication number
- JP3668992B2 JP3668992B2 JP26527894A JP26527894A JP3668992B2 JP 3668992 B2 JP3668992 B2 JP 3668992B2 JP 26527894 A JP26527894 A JP 26527894A JP 26527894 A JP26527894 A JP 26527894A JP 3668992 B2 JP3668992 B2 JP 3668992B2
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- phoneme
- graph
- phonological
- syntax
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【産業上の利用分野】
本発明は連続音声を認識し、音韻系列に変換する音声認識装置に関する。
【0002】
【従来の技術】
連続音声を音韻の連結したものとみなし、音韻モデルの連結である音韻モデル系列に従って入力音声を分析し、入力音声に当てはまる最適な音韻モデル系列をモデル演算手段によって求め、入力音声を、こうして得られる最適な音韻モデル系列の音韻の系列に変換する音声認識装置において、音韻モデル系列の当てはめの演算とは別に、音韻の境界を直接入力音声中より検出し、音韻モデル系列の当てはめ時に、音韻モデル間の遷移を検出された音韻境界付近に限定することで、認識精度を改善する音声認識装置が平成5年10月発行の日本音響学会講演論文集1−8−5「状態間遷移束縛型HMMによる音韻記述」に述べられている。さらに、平成6年3月発行の日本音響学会講演論文集2−P−11「境界尤度の信頼度を考慮した状態間遷移束縛型HMMによる音韻記述」には、音韻境界の検出法として共通コードブックを用いる方法が述べられている。
【0003】
図10は、この種の状態間遷移束縛型HMM(HMM/BT)による音声認識装置の構成図である。以下図10の各部を説明する。
音声区間検出手段1は、入力音声の短区間パワーの変化形状により音声区間を検出し、この音声区間内の音声信号R1を切り出して特徴抽出手段2に送る。
特徴抽出手段2は、音声区間内の音声信号R1中から長さ25.6msの時間窓を用いた15次線形予測メルケプストラム分析によって10ms毎に0〜10次のメルケプストラム係数からなる特徴パラメータ時系列R2を抽出し、境界尤度計算手段3、及び、モデル演算手段としてのHMM演算手段5aに送る。
【0004】
境界尤度計算手段3は、音韻境界パラメータ記憶手段4に記憶されている音韻境界パラメータR4を参照して、特徴パラメータ時系列R2より時刻t=1,2,…,Tについて、時刻tを中心に時間幅10フレームの範囲の0〜7次のメルケプストラム係数合計80(=10フレーム×8次元)個を1つの80次元ベクトル(以後、固定長セグメントと呼ぶ)として抽出し、これら固定長セグメントの中心に入力音声中の音韻境界が存在する尤度(境界尤度)を計算する。
中心時刻tの固定長セグメント(以後、Btと記す)の中央に音韻iとjの間の音韻境界ijが存在する境界尤度(以後、Cij(Bt)と記す)は式(1)に従って計算される。ここで、式(1)の分母は固定長セグメントBtの中央に音韻ijの境界が存在しないとする時の尤度で、分子は固定長セグメントBtの中央に音韻ijの境界が存在するとする時の尤度に対応し、式(1)は全体として、音韻ijの時刻tにおける境界尤度を表す。但し式中、Mbは共通要素分布の数(共通コードブックのサイズ)、N(Bt|μm,Σm)は第m番目の要素分布の平均μm及び分散Σmの多次元正規確率密度関数、Pmij及びQmijは音韻境界ijについて予め学習によって求められた多項式係数である。
【0005】
【数1】
【0006】
つぎに、HMM演算手段5aについて説明する。
図11はHMM演算手段5aの演算対象とする音韻系列HMMの構造を摸式的に示したものである。本HMMは状態数が丁度音韻数(nとする)と同じで、n状態(n=音韻数)からなり、各状態は、1つの音韻に対応づけられている。状態iから状態jへの遷移確率は、aijで、また、時刻tの特徴パラメータxtの状態jにおける出力確率は、bj(xt)で示されている。出力確率bj(xt)は、全音韻共通のM個の共通要素分布の混合ガウス分布で表されており、第m番目の平均ベクトルμm及び共分散行列Σmの要素ガウス分布の確率密度関数N(xt|μm,Σm)、及び、音韻jの分岐確率λmjとから式(2)で計算される。
【0007】
【数2】
【0008】
HMM演算手段5aは境界尤度計算手段3出力の境界尤度R3及びHMMパラメータ記憶手段6に記憶されているHMMパラメータR6を参照しビタビアルゴリズムに基づく漸化式である式(3)と式(4)を初期条件を与える式(5)の下で計算する。ここで、α(j,t)は、時刻tにおいて、状態jに留まる確率(前向き確率)を表し、β(j,t)は時刻tに状態jに至る一つ前の最適な状態番号を表すバックポインタである。
【0009】
【数3】
【0010】
上記漸化式で示されたように、HMM演算手段5aは、時刻tで音韻モデル間の遷移に対応する状態iから状態jへの状態間遷移に際して、音韻の境界尤度Cij(Bt)を参照して、音韻境界ijに依存した閾値θijと比較し、音韻の境界尤度が本閾値θijより大きい(Cij(Bt)>θijである)時だけ、状態間の遷移を許すようにしたため、状態間の遷移が入力音声中に推定される音韻境界でだけ状態遷移が起こるようになり、挿入誤りを減少することができる。なお、同一音韻内の状態の遷移(i=jのとき)については、境界尤度Cij(Bt)による制限は設けていない。
【0011】
音韻系列変換手段としての最適状態系列検出手段7aは、HMM演算結果R5として得られる前向確率α(j,t)及びバックポインタβ(j,t)の値から、最適状態系列R7(以後、β^(1),β^(2),…,β^(T)と記す)を出力する。最適状態系列R7は漸化式(式(6))を初期条件(式(7))の下で計算することで得る。なお、最適状態系列R7は認識結果の音韻系列を状態の番号の系列で表したものである。
【0012】
【数4】
【0013】
以上述べた構成の従来の状態間遷移束縛型HMM(HMM/BT)による音声認識装置は、音韻間の遷移に対応する状態間の遷移を入力音声より統計的に推定される音韻境界付近に制限するものであり、入力音声より直接得られる音韻境界情報により音韻境界以外での状態遷移が押さえられ、結果として挿入誤りが抑制される。このため、比較的高い認識精度が得られるが、多少の認識誤りがまだ生じる。これらの、認識誤りを解析すると、認識結果に、言語的には、音声データとしてありえない音韻の列、例えば、[k,ts,sh,ts,sh](以後、音韻の列をこのように音韻を[]で挾んで表す)が含まれていることが分かる。従って、言語的な知識によって、このような音韻の列を抑制できれば、認識性能をさらに改善することが可能である。
【0014】
【発明が解決しようとする課題】
従来のHMM/BTによる音声認識装置では、2音韻の列について、このような制限をすることは容易である。すなわち、例えばある音韻pのモデルの状態iから別の音韻qのモデルの状態jへの遷移の結果である音韻の列[p,q]が言語的に音声データとしてあり得ないとすれば、境界尤度Cij(Bt)に対する閾値θijを∞に設定することで、このような遷移を禁止することが簡単にできる。しかし、この方法では、「クツ」、「クシ」、「シツ」などの発声で第1母音が無声化したデータ[k,ts]、[k,sh]、[sh,ts]等の音韻列を認識する必要から、[k,ts]、[ts,sh]、[sh,ts]等の音韻の列に対応する状態間遷移を禁止することはできないので、上記の音韻列、例えば、[k,ts,sh,ts,sh]が認識結果として生じ得る。この様に上記従来のHMM/BTによる音声認識装置では、長さ3以上の音韻列について、言語的に音声データとしてあり得ない音韻の列が認識されることを禁止することができないという問題があった。
【0015】
従来より、言語モデルとして、音素や音節等の言語記号の列についての統計的言語モデルやオートマトン制御を用いると共に、音響モデルとして、音素や音節など認識単位の音響モデルを用いる音声認識方法がある。この種の音声認識方法として、言語記号としての音素の生起順序に関する統計的言語モデルを用い、かつ、音響モデルとして音素のHMMを用いる方法、また、言語記号として仮名、及び漢字の生起順序に関する統計的言語モデルを用い、音響モデルとして仮名に対応する音節のHMM、及び漢字の読みに対応するHMMを用いる方法(例えば、特開平4−73694)、さらに、言語モデルとして、日本語に対応する音節の列を許すように予め設計された音節のオートマトンで言語記号としての音素の生起順序を規定する有向グラフを、音響モデルとして音素HMMを用いる方法(例えば、平成2年3月発行の音響学会講演論文集2−P−26「音節オートマトンと話者適応を用いたHMMによる音素認識」)が提案されている。また、言語記号としての音節連鎖の統計的言語モデルと、音響モデルとして音素HMMを用いる方法(例えば、平成2年3月発行の日本音響学会講演論文集3−3−9「HMM音韻認識における音節連鎖統計情報の利用」)が提案されている。特にこの音節連鎖の言語モデルを用いる方法は、タスク依存性が少なく強い制限が期待できる。
【0016】
ところで、以上の技術では、音素のHMM、音節のHMM、あるいは、漢字の読みに対するHMMが音響モデルとして用いられ、かつ、これらのHMMに対応した言語記号の列の言語モデルが用いられている。また、音響モデルとしてのHMMは予め状態数や状態間の遷移の構造が決められたものが用いられている。
一方、連続音声中では、言語記号としての音節が音響音声学的な音韻特徴の時系列構造として実現されるとき、音声環境や個人差によって、各音韻特徴区間のスペクトルが変動すると共に、母音の無声化やバズバーの脱落などの音韻特徴区間の欠落により、音節内の音韻特徴系列が構成する音節の音韻構造自体が変動することが知られている(例えば、昭和59年発行の音声研究会資料S84−69「連続音節認識のための音節の変動の検討」)。従って、以後、上記の音韻特徴区間を音韻区間、またそのラベルを音韻記号と呼ぶことにすれば、音節や音素の音響モデルを、従来例のように予め決められた状態遷移の構造で表すよりも、音声環境や個人差に対応した、音韻のネットワーク構造で表すことが妥当であると考えられる。
【0017】
例えば、連続音声中の音節「つ」(音素表記では/cu/)が、どのような音韻列として実現されるかを音声データベース中に観察すると、母音の脱落や子音閉鎖区間の脱落(あるいは先行音韻との融合)などによって、音韻の列として、[ts],[ts, u] ,[cl,ts],[cl,ts,u]などとして実現されることが分かる。しかし、上記の音節のHMMを用いる方法では、このような構造変動を有するデータに対しても所定の状態数のグラフ構造を持ったHMMを学習する。このため、例えば、音節「つ」(音素列としては/cu/)が音声データベース中の音韻列として、[ts],[ts,u],[cl,ts],[cl,ts,u]と実現されていても、これに対して、所定の状態数のグラフ構造を持った音節HMMを学習する。この結果、スペクトルの変動だけではなく音韻の脱落などによる音節内の音韻構造が変化した未知音声に対しては音響モデル(音節HMM)の精度が低下するという問題があった。これは、音素のHMMを用いても同様である。例えば、「つ」の子音部を表す音素/c/は、音声データベース中の音韻列として、[ts],[cl,ts]などと実現されていても、これに対して、所定の状態数のグラフ構造を持った音素HMMを学習するため、スペクトルの変動だけではなく、音韻の脱落などによる音素内の音韻構造の変形を受けた未知音声に対しては音響モデル(音素HMM)の精度が低下する。
即ち従来の音素あるいは音節のHMMとその言語モデルを用いる音声認識方法では、音響モデルとして予め所定の状態遷移構造の音素や音節のHMMを用いているため、音素や音節の内部の音韻のスペクトルの変動と共に音韻の脱落などによる音節や音素の内部の音韻構造が変動した未知音声に対して、モデルの精度が低下するという問題があった。
【0018】
本発明は、上記のような問題点を解消するためになされたもので、第1の目的は、入力音声に音韻モデル系列を当てはめ入力音声を最適な音韻系列に変換する際、音韻モデル間の遷移時刻を入力音声中より推定された音韻境界付近に束縛する音声認識装置において、長さ3以上の音韻列に対して音韻の生起順序についての制限を導入し、音声データとしてあり得ない音韻の列が認識されることを防止すると共に、入力音声に対して仮定する音韻境界の種類を限定し音韻境界の推定精度を向上し、認識精度の改善された音声認識装置を提供するすることである。また、本発明の第2の目的は、入力音声に構文制御グラフに従って音韻モデル系列を当てはめ入力音声を最適な音韻系列に変換する音声認識装置の構文制御グラフの生成方法として、音素や音節内の音韻区間のスペクトルの変動と音韻の脱落などによる音節や音素内の音韻構造の変動の両者をモデル化した構文制御グラフの生成方法を提供することである。
【0021】
本発明の請求項1の音声認識装置の構文制御グラフの生成方法は、テキストデータベースから音節連鎖を抽出しこの音節連鎖に基づいて音節の生起順序を規定する音節構文グラフを求める過程と、音声データベースから、音節内部の音韻列の変動を表現するとともに音節内の音韻の生起順序を規定する音節内音韻グラフを求める過程と、前記音節構文グラフの音節相当部分に前記音節内音韻グラフを代入する過程を有する。
【0022】
本発明の請求項2の音声認識装置の構文制御グラフの生成方法は、入力音声を分析し、前記入力音声を音韻モデルの連結と見なして、前記入力音声に構文制御グラフの規定に従って音韻モデルの系列を当てはめ、前記入力音声を最適な音韻列に変換する音声認識装置の前記構文制御グラフの生成方法として、テキストデータベースから音節とその音節を囲む音節文脈とを音節データとして抽出しこれら音節データの生起順序を規定する音節構文グラフを求める過程と、音声データベースから、音節内部の音韻列の変動を表現するとともに前記音節データの音節文脈毎に音節内の音韻の生起順序を規定する音節内音韻グラフを求める過程と、前記音節構文グラフの前記音節データ相当部分には前記該音節データの音節文脈と一致する音節文脈から求められた前記音節内音韻グラフを代入する過程を有する。
【0024】
【作用】
本発明の請求項1の音声認識装置において、境界尤度算出手段は入力音声から音韻の境界尤度を算出する。また、モデル演算手段は前記境界尤度算出手段の算出した音韻の境界尤度が所定の値より大きく、かつ、選択する音韻モデルが長さ3以上の音韻列についての制約を満たす時だけ、最適な音韻モデルを選択する。
【0025】
本発明の請求項2の音声認識装置において、境界尤度計算手段は入力音声から音韻境界の種類に応じた音韻の境界尤度を算出する。また、モデル演算手段は前記境界尤度計算手段が算出した音韻境界の種類に応じた音韻の境界尤度と音韻境界の種類に応じて設定された値より大きく、かつ、選択する音韻モデルが長さ3以上の音韻列についての制約を満たす時に限り、最適な音韻モデルを選択する。
【0026】
本発明の請求項3の音声認識装置の構文制御グラフの生成方法において、音節構文グラフを求める過程はテキストデータベースから音節の生起順序を規定する音節のオートマトンに相当する音節構文グラフを求める。また、音節内音韻グラフを求める過程は、音声データベース中の音節区間の音韻列を抽出し音節内の音韻の生起順序を規定する音韻のオートマトンに相当する音節内音韻グラフを求める。さらに、最後の過程は前記音節構文グラフの音節相当部分に前記音節内音韻グラフを代入する。
【0027】
本発明の請求項4の音声認識装置の構文制御グラフの生成方法において、音節構文グラフを求める過程はテキストデータベースから音節とその音節を囲む音節文脈とを音節データとして抽出しこれら音節データのオートマトンに相当する音節構文グラフを求める。また、音節内音韻グラフを求める過程は音声データベースから前記音節データの音節文脈毎に音節区間の音韻列を抽出し音節文脈毎の音節内の音韻グラフを求める。さらに、最後の過程は前記音節構文グラフの前記音節データ相当部分に前記該音節データの音節文脈と一致する音節文脈から求められた前記音節内音韻グラフを代入する。
【0028】
本発明の請求項5の音声認識装置において、前記モデル演算手段は、請求項3又は4に記載の構文制御グラフの生成方法に基づいて生成された構文制御グラフを用いる。
【0029】
【実施例】
以下この発明の一実施例を説明する。
この実施例においては、音響モデルとして、1音韻を1状態で表す音韻のHMM(音韻HMM)を用い、ある入力音声はこれらの音韻HMMの列で表される。また、音韻は、子音閉鎖区間を子音破裂部とは別音韻と見なした、図2に示す29種類の音韻からなる体系を用いており、各音韻はこの図のように番号付けされている。以後、音韻はこの番号で参照される。
また、本実施例では、音響モデルとして、1音韻を1状態で表す音韻HMMを用いているため、音韻境界の生成は、音韻HMMの状態間の遷移として現れる。なお、1音韻に複数状態を有する音韻HMMを用いるときでも本発明は適用可能であることは言うまでもなく、この場合、音韻境界の生成は、音韻HMM間の遷移に対応する状態間の遷移として現れる。
また、本実施例では、モデル演算手段として、通常のトレリスアルゴリズムに基づくHMM演算における和の演算を最大化の演算に置き換えたビタビのアルゴリズムに基づくHMM演算手段を用いている。なお、通常のトレリスアルゴリズムに基づくHMM演算においても本発明が適用できることは言うまでもない。
【0030】
図1は、この発明の一実施例の音声認識装置の構成図である。以下図1の各部を説明する。
音声区間検出手段1は、入力音声の短区間パワーの変化形状により音声区間を検出し、この音声区間内の音声信号R1を切り出して特徴抽出手段2に送る。
特徴抽出手段2は、音声区間内の音声信号R1中から長さ25.6msの時間窓を用いた15次線形予測メルケプストラム分析によって10ms毎に0〜10次のメルケプストラム係数からなる特徴パラメータ時系列R2を抽出し境界尤度計算手段3、及び、モデル演算手段としてのHMM演算手段5に送る。
【0031】
境界尤度計算手段3は、音韻境界パラメータ記憶手段4に記憶されている音韻境界パラメータR4を参照して、特徴パラメータ時系列R2より時刻t=1,2,…,Tについて、時刻tを中心に時間幅10フレームの範囲の0〜7次のメルケプストラム係数合計80(=10フレーム×8次元)個を1つの80次元ベクトル(以後、固定長セグメントと呼ぶ)として抽出し、これら固定長セグメントの中心に入力音声中の音韻境界が存在する尤度(境界尤度)を計算する。
中心時刻tの固定長セグメント(以後、Btと記す)の中央に音韻iとjの間の音韻境界ijが存在する境界尤度(以後、Cij(Bt)と記す)は式(1)に従って計算される。ここで、式(1)の分母は固定長セグメントBtの中央に音韻ijの境界が存在しないとする時の尤度で、分子は固定長セグメントBtの中央に音韻ijの境界が存在するとする時の尤度に対応し、式(1)は全体として、音韻ijの時刻tにおける境界尤度を表す。但し式中、Mbは共通要素分布の数(共通コードブックのサイズ)、N(Bt|μm,Σm)は第m番目の要素分布の平均μm及び分散Σmの多次元正規確率密度関数、Pmij及びQmijは音韻境界ijについて予め学習によって求められた多項式係数である。
【0032】
次に、HMM演算手段5について説明する。
図3はHMM演算手段5が演算対象とするHMMの構造を模式的に示したものである。本HMM全体は、1音韻当たり1状態で表された音響モデルとしての音韻HMM(本例では全部で29種類ある)を構文制御グラフとしての音韻構文グラフに従って状態間遷移で連結したものである。即ち、本HMM中の状態を遷移して得られる状態の系列は音韻構文グラフに従って生成され得るある音韻の列に対応している。(音韻構文グラフの生成方法は後で説明する。)
特に、本図は、HMM演算手段5の漸化式計算を説明するため、状態pから状態qへの状態遷移の様子を示す。音韻構文グラフの各状態は、ある1つの音韻に対応づけられていて、例えば図3では状態qは音韻jに対応付けられていて、状態qにおける時刻tの特徴パラメータxtの出力確率は音韻jのパラメータを用いてbj(xt)として計算される。状態pから状態qへの遷移は、音韻iから音韻jの音韻境界パラメータに基づく境界尤度Cij(Bt)が閾値θijより大きく、かつ、構文制御グラフで状態pから状態qへの状態間の遷移が許される(これは、漸化式中δpq=1で示される)時、可能である。また、状態pから状態qへの遷移確率は、apqで示されている。出力確率bj(xt)は、全部でM個の共通ガウス分布の混合分布で表されており、第m番目の共通ガウス分布の平均ベクトルμm及び共分散行列Σm、及び、音韻jの分岐確率λmjをパラメータとして、式(8)で計算される。式中、N(xt|μm,Σm)は平均μm、分散Σmの正規確率密度関数を表す。上記出力確率計算用のパラメータはHMMパラメータ記憶手段6に記憶されている。
【0033】
【数5】
【0034】
HMM演算手段5は境界尤度計算手段3出力の境界尤度R3及びHMMパラメータR6及び構文制御手段8に記憶された構文制御情報R8を参照しビタビアルゴリズムに基づくHMM演算を行う。構文制御情報R8は構文制御グラフとしての音韻構文グラフを変換した結果として、各状態に対応する音韻番号の情報と、状態間の接続を表す情報からなる。状態は全部で、n状態あり、状態qに対応する音韻番号jはqの関数としてj=f(q)のごとく与えられる。また、状態pから状態qへの遷移の可能性はδpq=1で示される。HMM演算手段5におけるHMM演算は、式(9)および式(10)の漸化式を式(11)の初期条件の下で計算する。ここで、nは音韻構文グラフの状態数、α(q,t)は、時刻tにおいて、状態qに留まる確率(前向き確率)を表し、β(q,t)は時刻tに状態qに至る一つ前の最適な状態番号を表すバックポインタである。
【0035】
【数6】
【0036】
上記漸化式で示されたように、HMM演算手段5は、時刻tで音韻モデル間の遷移に対応する状態iから状態jへの状態間遷移に際して、音韻の境界尤度Cij(Bt)を参照して、音韻境界ijに依存した閾値θijと比較し、音韻の境界尤度が本閾値θijより大きく(Cij(Bt)>θijであり)、かつ、音韻構文グラフ中の遷移として許される(δpq=1である)時だけ、状態間の遷移を許すようにしたため、状態間の遷移が入力音声中に推定される音韻境界でだけ状態遷移が起こるようになり、非音韻境界での状態遷移が減少するため認識結果中の音韻の挿入誤りを減少すると共に、音韻構文グラフ中の遷移として許されない音韻の列が状態系列として選択されることが防止され、言語的に音声データとしてあり得ない音韻列が認識されることが防止される。なお、同一音韻内の状態の遷移(i=jのとき)については、境界尤度Cij(Bt)および音韻構文グラフによる選択の制限は設けていない。
【0037】
音韻系列変換手段としての最適状態系列検出手段7は、HMM演算結果R5として得られる前向確率α(q,t)及びバックポインタβ(q,t)の値から、最適状態系列R7(以後、β^(1),β^(2),…,β^(T)と記す)を出力する。最適状態系列R7は漸化式である式(12)を初期条件を示す式(13)の設定の下で計算することで得る。なお、最適状態系列R7は認識結果の音韻列を音韻構文グラフ中の音韻の状態の番号の系列で表したものであり、最適状態系列R7から音韻列への変換は簡単な1対1の関数関係により実現される。
【0038】
【数7】
【0039】
以上で、音声認識装置の構成の説明を終わり、以下、本実施例の音声認識装置で用いれれている音韻構文グラフの作成方法について説明する。
図4は、本実施例における音韻構文グラフの生成過程の説明図である。音韻構文グラフの生成過程は、全体として図のように過程I〜IIIからなる。
【0040】
過程Iでは、図中音節連鎖抽出において、大量のテキストデータベースから音節の列を抽出し、抽出されたすべての音節の列を受け入れるような音節を枝とする有向グラフ(音節構文グラフ)を作成する。この音節構文グラフは、言語制約を強く表現し、しかも、できるだけタスクに依存せず任意の文を受理するようにするため、例えば音節のトライグラム(三つ組)の列を受理するように構成する。図5は音節のテキストデータから、3音節連鎖を受理するような音節構文グラフを生成する過程を例示したものである。テキストデータが「ε#サイタサイタ#サクラガサイタ#ε」とあるとき、このテキストデータから、前後1つの音節環境に依存する三つ組として、(ε)#(サ),(#)サ(イ),(サ)イ(タ),(イ)タ(サ),(タ)サ(イ),(サ)イ(タ),(イ)タ(#),(タ)#(サ),(#)サ(ク),(サ)ク(ラ),(ク)ラ(ガ),(ラ)ガ(サ),(ガ)サ(イ),(サ)イ(タ),(イ)タ(#),(タ)#(ε)が抽出でき、これらの中で共通な三つ組を除くことで、図の中央に示すような音節の三つ組の集合が得られる。これらの三つ組の集合を、音声環境(音節の前後の文脈)の一致を条件として、接続することにより、音節の有向グラフ(音節構文グラフ)として、図の下のようなグラフが生成される。ここで、「ε」及び「#」はそれぞれ空白文字、及び、文または単語の境界を示す。また、音節の三つ組の表記で左右の()内の音節は中央の音節の環境(音節の文脈)を示す。
【0041】
過程IIでは、まず、音韻単位にラベル付けされた既知の大量の音声データから、音節に対応する区間の音韻ラベルの列(音韻列)を抽出し、音節と音韻列の対応関係を求める。次に、この対応関係から音節毎に音節の内部がどのような音韻列で実現されるかを網羅した表現として音韻を枝とする有向グラフ(音節内音韻グラフ)を作成する。ここで、音節の文脈毎に音節と音韻系列の対応関係を求めることで、音節の環境(音節文脈)に依存した音節内音韻グラフが得られる。
図6は例えば「#ウツクシク#ツツム#」という文章発声に対する音声データベース中の記述から音節内音韻グラフを抽出する様子を示したものである。まず、図上段の「音声データベース」の枠内の「音節列」で示される各音節の区間と、その下の「音韻列」の部分音韻列との対応を求め、音節毎に対応する部分音韻列の集合を求める(図中段)。つぎに、これら音節内音韻列集合中の共通部分を共通の枝とするなどして、各音節を音韻を枝とする有向グラフ(音節内音韻グラフ)に変換する(図下段)。音節文脈を考慮しない場合、音節「ツ」の音節内音韻グラフは、図下段中央に示すような4状態5枝の有向グラフとして抽出される。また、前後1音節の音節文脈を考慮した場合、例えば、音節「(ウ)ツ(ク)」は図最下段左に示すような3状態2枝の音節内音韻グラフとして抽出される。
【0042】
過程IIIでは、過程Iで得られた音節構文グラフ中のすべての音節の枝に対して、過程IIで得られた音節内音韻グラフを代入することで、音韻構文グラフを得る。
図7は前後1音節の音節文脈を考慮した音節構文グラフの一部分の枝について、音節内音韻グラフを代入する様子を示したものである。この例では、状態s1とs2を結ぶ枝に新たに状態s12が挿入された音韻構文グラフが生成される。この音韻構文グラフは音韻列として、(ウ)ツ(ク)という音節文脈中の音節「ツ」に対応して音韻列として、[cl,ts]だけが許される。
一方、前後の音節文脈を考慮しない場合、音節構文グラフ中の音節「ツ」に対応する枝に、図6の下段中央に示した音節「ツ」の音節内音韻グラフが代入され、生成される音韻構文グラフは、音節「ツ」に対して、[ts]、[cl,ts]、[cl,ts,u]、等の音韻列が許されることになる。
このように、音韻構文グラフの生成に当たり、音節文脈を考慮する方が、同じ音節に対して、認識すべき音韻列の種類が少なくなるため、より認識性能を向上するという効果が期待できる。(この効果は後で述べる実験で示される。)
【0043】
以上の過程I〜IIIで得られた音韻構文グラフを、前記構成の音声認識装置に基づく連続音声認識システムに適用することで、この装置に未知音声を入力した場合認識結果の音韻系列としての音韻記述中に現れる音韻列は、テキストデータベース中の音節の生起順序に従い、かつ、音声データベース中の音節内部の音韻列として観測されたものだけに限定される。この結果、言語的に音節列としてあり得ず、かつその音声データとしてあり得ない音韻列、例えば、[k,ts,sh,ts,sh]が認識されることを防止できる。なお、本実施例の音声認識装置は、音韻HMMを音響モデルとした、One Pass DP法(例えば、中川聖一著「確率モデルによる音声認識」)を構文制御に用いた音声認識装置と構成上類似している。しかし、本実施例の音声認識装置では、構文制御のために、テキストデータベース中の音節の生起順序に従って生成された音節構文グラフにつき、この音節構文グラフ中の音節相当部分に、音声データベース中で観測された音節内部の音韻列の変動を表現する音節内音韻グラフを代入して生成された音韻構文グラフが用いられている。また、音響モデルとしての音韻モデル間の状態遷移において、その遷移時刻が入力音声から直接得られる音韻境界の推定値情報(境界尤度)に基づいて束縛されている。従って、本実施例の音声認識装置は、音節列の言語知識と音節内の音韻構造の変動の知識の作用で、入力音声に対して仮定する音韻境界の種類が削減し、その結果の音韻境界の推定精度が向上する。また、逆に、入力音声の音韻境界は前後の音韻の種類に依存しているため、音韻列の生成において音韻境界の前後の音韻の種類が考慮された音韻列が認識されるという特長があり、認識精度が向上するという効果を有する。
【0044】
次に本実施例の音声認識装置について行った評価実験について述べる。ここでは、音韻および音韻境界に対してセミ連続分布モデルを用いたHMM/BTを用いて不特定話者の音韻記述実験を行った。共通の実験条件を図8に示す。
言語データは、一般のテキストデータを用いることもできるが、ここでは、学習用音声データである音韻バランス文からなる4024文の発声テキスト(音声記述)を用いた。音節構文グラフの生成における音節文脈としては文脈を考慮しない場合、音節のバイグラム(2つ組)を用いる場合、および、音節のトライグラム(三つ組)を用いる場合について実験を行った。音節内音韻グラフの抽出およびそれの音節構文グラフへの代入時の音節文脈に対する依存性を変えた複数の言語制約付き音韻グラフを作成し、それぞれについて音韻ベースの構文制御付きHMM/BT連続音声認識システムにより音韻認識性能を求めた。また、HMM/BTの音韻境界束縛をしない従来のHMM(1音韻1状態)を用いる場合についても実験を行った。
【0045】
図9は実験結果を示す。図では音韻境界の束縛を行うHMM(HMM/BT)と、音韻境界の束縛を行わないHMM(HMM without BT)について、各種の実験条件における音韻誤り率が示されている。(HMM/BTにおいて、境界尤度の閾値(θij)を音韻境界の種類に無関係に一定値(θ)にした場合について示す)。音韻誤り率は合計の誤り率と共に、内訳として置換、脱落、挿入の各誤り率が示されている。音韻誤り率は入力の音韻数に対して、それぞれの誤り形態の音韻認識の誤りが発生した割合として算出されている。また、音節内音韻グラフの抽出の際考慮した音節文脈依存性は先行音節数及び後続音節数の欄に示されている。さらに、音節構文グラフをテキストデータから抽出する際の音節構文グラフの音節を囲む音節文脈としては、図の左の第1欄に示されるように音節のバイグラム(bigram)および音節のトライグラム(trigram)の場合について実験結果が示されている。またさらに、参考のために、音節構文グラフ及び音韻構文グラフのテストセットパープレキシティが示されている。なお、一般に、テストセットパープレキシティが大きいほど構文による限定が小さい(構文の自由度が大きい)ことを意味する。
実験結果から、音節構文グラフの生成において、音節構文グラフの音節を囲む音節文脈として音節バイグラム及び音節トライグラムのいずれを用いても、音節文脈に依存しない(即ち先行音節数及び後続音節数が共に0の)文脈独立の音節内音韻グラフよりも、音節文脈に依存したの音節内音韻グラフを用いた方が音韻認識の誤りが少なくなっており、音節文脈に依存して音節内音韻グラフを用いる方法の方が認識性能がよい。これは音節内音韻グラフを音節文脈依存とすることで音節が音韻系列として実現される変動の幅が狭まるため、認識対象として仮定される音韻列の数が実質的に削減され、認識性能が向上したことによると考えられる。この考え方は、実際、音節文脈依存の場合の音韻パープレキシティが音節文脈に依存しない場合よりも小さく、従って構文自由度が減少していることからも説明される。また、HMM/BTとHMM(BTなし)との比較では、HMM/BTの方が圧倒的に認識誤りが少なく、音節構文グラフの音節を囲む音節文脈として後続音節数を2とした音節トライグラムを用いたとき、最小の音韻誤り率合計10.0%(最下行)が得られている。これは、HMM/BTに従来の音韻トライグラムによる構文グラフを用いる場合の54.0%(上から2行目)に対して、大幅な認識誤りの改善である。
【0048】
請求項1の発明によれば、前記構文制御グラフの生成方法として、テキストデータベースより音節連鎖を抽出しこの音節連鎖に基づいて音節の生起順序を規定する音節構文グラフを求める過程と、音声データベースから、音節内部の音韻列の変動を表現するとともに音節内の音韻の生起順序を規定する音節内音韻グラフを求める過程と、前記音節構文グラフの各枝に前記音節内音韻グラフを代入する過程を有する構文制御グラフの生成方法を用いたので、音節の生起順序と共に、音節内の音韻構造の変動が考慮された構文制御グラフを提供し、音韻のスペクトルの変動と音節内の音韻構造の変動の両者のモデル化が可能な音声認識装置を提供するという効果がある。
【0049】
請求項2の発明によれば、前記構文制御グラフの生成方法として、テキストデータベースから音節をその音節を囲む音節文脈と共に文脈付き音節として抽出しこれら文脈付き音節の生起順序を規定する音節構文グラフを求める過程と、音声データベースから、音節内部の音韻列の変動を表現するとともに前記文脈付き音節の音節文脈毎に音節内の音韻の生起順序を規定する音節内音韻グラフを求める過程と、前記音節構文グラフの前記文脈付き音節相当部分に前記文脈付き音節の音節文脈と一致する音節文脈から求められた前記音節内音韻グラフを代入する過程を有する構文制御グラフの生成方法を用いたので、音節の生起順序と共に、音節文脈に依存した音節内の音韻構造の変動を考慮した構文制御グラフを提供し、音韻のスペクトルの変動と音節文脈に依存した音節内の音韻構造の変動の両者のモデル化が可能な音声認識装置を提供するという効果がある。
【図面の簡単な説明】
【図1】この発明の一実施例の音声認識装置の構成図である。
【図2】この発明の一実施例の音韻体系の説明図である。
【図3】この発明の一実施例のHMMの構造を示す図である。
【図4】この発明の一実施例の音韻構文グラフの全体の生成過程を示す図である。
【図5】この発明の一実施例の音韻構文グラフの生成過程Iを例示する図である。
【図6】この発明の一実施例の音韻構文グラフの生成過程IIを例示する図である。
【図7】この発明の一実施例の音韻構文グラフの生成過程IIIを例示する図である。
【図8】この発明の一実施例を評価する際の条件を示す図である。
【図9】この発明の一実施例の評価結果を示す図である。
【図10】従来の音声認識装置の構成図である。
【図11】従来の音声認識装置におけるHMMの構造を示す図である。
【符号の説明】
1 音声区間検出手段
2 特徴抽出手段
3 境界尤度計算手段
4 音韻境界パラメータ記憶手段
5 HMM演算手段
6 HMMパラメータ記憶手段
7 最適状態系列検出手段
8 構文制御情報記憶手段
Claims (2)
- 入力音声を分析し、前記入力音声を音韻モデルの連結と見なして、前記入力音声に構文制御グラフの規定に従って音韻モデルの系列を当てはめ、前記入力音声を最適な音韻列に変換する音声認識装置の前記構文制御グラフの生成方法として、テキストデータベースから音節連鎖を抽出しこの音節連鎖に基づいて音節の生起順序を規定する音節構文グラフを求める過程と、音声データベースから、音節内部の音韻列の変動を表現するとともに音節内の音韻の生起順序を規定する音節内音韻グラフを求める過程と、前記音節構文グラフの音節相当部分に前記音節内音韻グラフを代入する過程とを有することを特徴とする音声認識装置の構文制御グラフの生成方法。
- 入力音声を分析し、前記入力音声を音韻モデルの連結と見なして、前記入力音声に構文制御グラフの規定に従って音韻モデルの系列を当てはめ、前記入力音声を最適な音韻列に変換する音声認識装置の前記構文制御グラフの生成方法として、テキストデータベースから音節をその音節を囲む音節文脈と共に文脈付き音節として抽出しこれら文脈付き音節の生起順序を規定する音節構文グラフを求める過程と、音声データベースから、音節内部の音韻列の変動を表現するとともに前記文脈付き音節の音節文脈毎に音節内の音韻の生起順序を規定する音節内音韻グラフを求める過程と、前記音節構文グラフの前記文脈付き音節相当部分に前記文脈付き音節の音節文脈と一致する音節文脈から求められた前記音節内音韻グラフを代入する過程とを有することを特徴とする音声認識装置の構文制御グラフの生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26527894A JP3668992B2 (ja) | 1994-10-28 | 1994-10-28 | 音声認識装置の構文制御グラフの生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26527894A JP3668992B2 (ja) | 1994-10-28 | 1994-10-28 | 音声認識装置の構文制御グラフの生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08123472A JPH08123472A (ja) | 1996-05-17 |
JP3668992B2 true JP3668992B2 (ja) | 2005-07-06 |
Family
ID=17415007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26527894A Expired - Lifetime JP3668992B2 (ja) | 1994-10-28 | 1994-10-28 | 音声認識装置の構文制御グラフの生成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3668992B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101250897B1 (ko) * | 2009-08-14 | 2013-04-04 | 한국전자통신연구원 | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 |
-
1994
- 1994-10-28 JP JP26527894A patent/JP3668992B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH08123472A (ja) | 1996-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10360898B2 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
US5682501A (en) | Speech synthesis system | |
KR101056080B1 (ko) | 음운 기반의 음성 인식 시스템 및 방법 | |
US7657430B2 (en) | Speech processing apparatus, speech processing method, program, and recording medium | |
Lamel et al. | High performance speaker-independent phone recognition using CDHMM. | |
US5949961A (en) | Word syllabification in speech synthesis system | |
US6029132A (en) | Method for letter-to-sound in text-to-speech synthesis | |
JP5040909B2 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
Gauvain et al. | Speaker-independent continuous speech dictation | |
US6134528A (en) | Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations | |
EP2888669B1 (en) | Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems | |
US7181391B1 (en) | Method, apparatus, and system for bottom-up tone integration to Chinese continuous speech recognition system | |
EP1460615B1 (en) | Voice processing device and method, recording medium, and program | |
EP2891147B1 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
Williams | Knowing what you don't know: roles for confidence measures in automatic speech recognition | |
Maia et al. | Towards the development of a brazilian portuguese text-to-speech system based on HMM. | |
Stefan-Adrian et al. | Rule-based automatic phonetic transcription for the Romanian language | |
JP3668992B2 (ja) | 音声認識装置の構文制御グラフの生成方法 | |
JP2001195087A (ja) | 音声認識システム | |
Chen et al. | Modeling pronunciation variation using artificial neural networks for English spontaneous speech. | |
Colla et al. | A connected speech recognition system using a diphone-based language model | |
JPH08248988A (ja) | 音声認識方法 | |
Puurula et al. | Vocabulary decomposition for Estonian open vocabulary speech recognition | |
JP3299170B2 (ja) | 音声登録認識装置 | |
JP2005534968A (ja) | 漢字語の読みの決定 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040414 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040721 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050404 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080422 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090422 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100422 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100422 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110422 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120422 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120422 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130422 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130422 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140422 Year of fee payment: 9 |
|
EXPY | Cancellation because of completion of term |