JP3668992B2

JP3668992B2 - 音声認識装置の構文制御グラフの生成方法

Info

Publication number: JP3668992B2
Application number: JP26527894A
Authority: JP
Inventors: 芳春阿部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1994-10-28
Filing date: 1994-10-28
Publication date: 2005-07-06
Anticipated expiration: 2020-07-06
Also published as: JPH08123472A

Description

【０００１】
【産業上の利用分野】
本発明は連続音声を認識し、音韻系列に変換する音声認識装置に関する。
【０００２】
【従来の技術】
連続音声を音韻の連結したものとみなし、音韻モデルの連結である音韻モデル系列に従って入力音声を分析し、入力音声に当てはまる最適な音韻モデル系列をモデル演算手段によって求め、入力音声を、こうして得られる最適な音韻モデル系列の音韻の系列に変換する音声認識装置において、音韻モデル系列の当てはめの演算とは別に、音韻の境界を直接入力音声中より検出し、音韻モデル系列の当てはめ時に、音韻モデル間の遷移を検出された音韻境界付近に限定することで、認識精度を改善する音声認識装置が平成５年１０月発行の日本音響学会講演論文集１−８−５「状態間遷移束縛型ＨＭＭによる音韻記述」に述べられている。さらに、平成６年３月発行の日本音響学会講演論文集２−Ｐ−１１「境界尤度の信頼度を考慮した状態間遷移束縛型ＨＭＭによる音韻記述」には、音韻境界の検出法として共通コードブックを用いる方法が述べられている。
【０００３】
図１０は、この種の状態間遷移束縛型ＨＭＭ（ＨＭＭ／ＢＴ）による音声認識装置の構成図である。以下図１０の各部を説明する。
音声区間検出手段１は、入力音声の短区間パワーの変化形状により音声区間を検出し、この音声区間内の音声信号Ｒ１を切り出して特徴抽出手段２に送る。
特徴抽出手段２は、音声区間内の音声信号Ｒ１中から長さ２５．６ｍｓの時間窓を用いた１５次線形予測メルケプストラム分析によって１０ｍｓ毎に０〜１０次のメルケプストラム係数からなる特徴パラメータ時系列Ｒ２を抽出し、境界尤度計算手段３、及び、モデル演算手段としてのＨＭＭ演算手段５ａに送る。
【０００４】
境界尤度計算手段３は、音韻境界パラメータ記憶手段４に記憶されている音韻境界パラメータＲ４を参照して、特徴パラメータ時系列Ｒ２より時刻ｔ＝１，２，…,Ｔについて、時刻ｔを中心に時間幅１０フレームの範囲の０〜７次のメルケプストラム係数合計８０（＝１０フレーム×８次元）個を１つの８０次元ベクトル（以後、固定長セグメントと呼ぶ）として抽出し、これら固定長セグメントの中心に入力音声中の音韻境界が存在する尤度（境界尤度）を計算する。
中心時刻ｔの固定長セグメント（以後、Ｂtと記す）の中央に音韻ｉとｊの間の音韻境界ijが存在する境界尤度（以後、Ｃij(Ｂt)と記す）は式（１）に従って計算される。ここで、式（１）の分母は固定長セグメントＢtの中央に音韻ijの境界が存在しないとする時の尤度で、分子は固定長セグメントＢtの中央に音韻ijの境界が存在するとする時の尤度に対応し、式（１）は全体として、音韻ijの時刻tにおける境界尤度を表す。但し式中、Ｍbは共通要素分布の数(共通コードブックのサイズ)、Ｎ（Ｂt｜μm，Σm）は第ｍ番目の要素分布の平均μm及び分散Σmの多次元正規確率密度関数、Ｐmij及びＱmijは音韻境界ijについて予め学習によって求められた多項式係数である。
【０００５】
【数１】

【０００６】
つぎに、ＨＭＭ演算手段５ａについて説明する。
図１１はＨＭＭ演算手段５ａの演算対象とする音韻系列ＨＭＭの構造を摸式的に示したものである。本ＨＭＭは状態数が丁度音韻数（ｎとする）と同じで、ｎ状態（ｎ＝音韻数）からなり、各状態は、１つの音韻に対応づけられている。状態ｉから状態ｊへの遷移確率は、ａijで、また、時刻ｔの特徴パラメータｘtの状態ｊにおける出力確率は、ｂj(ｘt)で示されている。出力確率ｂj(ｘt)は、全音韻共通のＭ個の共通要素分布の混合ガウス分布で表されており、第ｍ番目の平均ベクトルμm及び共分散行列Σmの要素ガウス分布の確率密度関数Ｎ(ｘt|μm,Σm)、及び、音韻ｊの分岐確率λmjとから式（２）で計算される。
【０００７】
【数２】

【０００８】
ＨＭＭ演算手段５ａは境界尤度計算手段３出力の境界尤度Ｒ３及びＨＭＭパラメータ記憶手段６に記憶されているＨＭＭパラメータＲ６を参照しビタビアルゴリズムに基づく漸化式である式（３）と式（４）を初期条件を与える式（５）の下で計算する。ここで、α(j,t)は、時刻ｔにおいて、状態ｊに留まる確率(前向き確率)を表し、β(j,t)は時刻ｔに状態ｊに至る一つ前の最適な状態番号を表すバックポインタである。
【０００９】
【数３】

【００１０】
上記漸化式で示されたように、ＨＭＭ演算手段５ａは、時刻ｔで音韻モデル間の遷移に対応する状態ｉから状態ｊへの状態間遷移に際して、音韻の境界尤度Ｃij（Ｂt）を参照して、音韻境界ijに依存した閾値θijと比較し、音韻の境界尤度が本閾値θijより大きい（Ｃij（Ｂt）＞θijである）時だけ、状態間の遷移を許すようにしたため、状態間の遷移が入力音声中に推定される音韻境界でだけ状態遷移が起こるようになり、挿入誤りを減少することができる。なお、同一音韻内の状態の遷移（ｉ＝ｊのとき）については、境界尤度Ｃij（Ｂt）による制限は設けていない。
【００１１】
音韻系列変換手段としての最適状態系列検出手段７ａは、ＨＭＭ演算結果Ｒ５として得られる前向確率α(j,t)及びバックポインタβ(j,t)の値から、最適状態系列Ｒ７（以後、β^(1),β^(2),…,β^(T)と記す）を出力する。最適状態系列Ｒ７は漸化式（式（６））を初期条件（式（７））の下で計算することで得る。なお、最適状態系列Ｒ７は認識結果の音韻系列を状態の番号の系列で表したものである。
【００１２】
【数４】

【００１３】
以上述べた構成の従来の状態間遷移束縛型ＨＭＭ（ＨＭＭ／ＢＴ）による音声認識装置は、音韻間の遷移に対応する状態間の遷移を入力音声より統計的に推定される音韻境界付近に制限するものであり、入力音声より直接得られる音韻境界情報により音韻境界以外での状態遷移が押さえられ、結果として挿入誤りが抑制される。このため、比較的高い認識精度が得られるが、多少の認識誤りがまだ生じる。これらの、認識誤りを解析すると、認識結果に、言語的には、音声データとしてありえない音韻の列、例えば、[ｋ,ｔｓ,ｓｈ,ｔｓ,ｓｈ]（以後、音韻の列をこのように音韻を[]で挾んで表す）が含まれていることが分かる。従って、言語的な知識によって、このような音韻の列を抑制できれば、認識性能をさらに改善することが可能である。
【００１４】
【発明が解決しようとする課題】
従来のＨＭＭ／ＢＴによる音声認識装置では、２音韻の列について、このような制限をすることは容易である。すなわち、例えばある音韻ｐのモデルの状態ｉから別の音韻ｑのモデルの状態ｊへの遷移の結果である音韻の列[ｐ,ｑ]が言語的に音声データとしてあり得ないとすれば、境界尤度Ｃij(Ｂt)に対する閾値θijを∞に設定することで、このような遷移を禁止することが簡単にできる。しかし、この方法では、「クツ」、「クシ」、「シツ」などの発声で第１母音が無声化したデータ[ｋ,ｔｓ]、[ｋ,ｓｈ]、[ｓｈ,ｔｓ]等の音韻列を認識する必要から、[ｋ,ｔｓ]、[ｔｓ,ｓｈ]、[ｓｈ,ｔｓ]等の音韻の列に対応する状態間遷移を禁止することはできないので、上記の音韻列、例えば、[ｋ,ｔｓ,ｓｈ,ｔｓ,ｓｈ]が認識結果として生じ得る。この様に上記従来のＨＭＭ／ＢＴによる音声認識装置では、長さ３以上の音韻列について、言語的に音声データとしてあり得ない音韻の列が認識されることを禁止することができないという問題があった。
【００１５】
従来より、言語モデルとして、音素や音節等の言語記号の列についての統計的言語モデルやオートマトン制御を用いると共に、音響モデルとして、音素や音節など認識単位の音響モデルを用いる音声認識方法がある。この種の音声認識方法として、言語記号としての音素の生起順序に関する統計的言語モデルを用い、かつ、音響モデルとして音素のＨＭＭを用いる方法、また、言語記号として仮名、及び漢字の生起順序に関する統計的言語モデルを用い、音響モデルとして仮名に対応する音節のＨＭＭ、及び漢字の読みに対応するＨＭＭを用いる方法（例えば、特開平４−７３６９４）、さらに、言語モデルとして、日本語に対応する音節の列を許すように予め設計された音節のオートマトンで言語記号としての音素の生起順序を規定する有向グラフを、音響モデルとして音素ＨＭＭを用いる方法（例えば、平成２年３月発行の音響学会講演論文集２−Ｐ−２６「音節オートマトンと話者適応を用いたＨＭＭによる音素認識」）が提案されている。また、言語記号としての音節連鎖の統計的言語モデルと、音響モデルとして音素ＨＭＭを用いる方法（例えば、平成２年３月発行の日本音響学会講演論文集３−３−９「ＨＭＭ音韻認識における音節連鎖統計情報の利用」）が提案されている。特にこの音節連鎖の言語モデルを用いる方法は、タスク依存性が少なく強い制限が期待できる。
【００１６】
ところで、以上の技術では、音素のＨＭＭ、音節のＨＭＭ、あるいは、漢字の読みに対するＨＭＭが音響モデルとして用いられ、かつ、これらのＨＭＭに対応した言語記号の列の言語モデルが用いられている。また、音響モデルとしてのＨＭＭは予め状態数や状態間の遷移の構造が決められたものが用いられている。
一方、連続音声中では、言語記号としての音節が音響音声学的な音韻特徴の時系列構造として実現されるとき、音声環境や個人差によって、各音韻特徴区間のスペクトルが変動すると共に、母音の無声化やバズバーの脱落などの音韻特徴区間の欠落により、音節内の音韻特徴系列が構成する音節の音韻構造自体が変動することが知られている（例えば、昭和５９年発行の音声研究会資料Ｓ８４−６９「連続音節認識のための音節の変動の検討」）。従って、以後、上記の音韻特徴区間を音韻区間、またそのラベルを音韻記号と呼ぶことにすれば、音節や音素の音響モデルを、従来例のように予め決められた状態遷移の構造で表すよりも、音声環境や個人差に対応した、音韻のネットワーク構造で表すことが妥当であると考えられる。
【００１７】
例えば、連続音声中の音節「つ」（音素表記では／ｃｕ／）が、どのような音韻列として実現されるかを音声データベース中に観察すると、母音の脱落や子音閉鎖区間の脱落（あるいは先行音韻との融合）などによって、音韻の列として、[ｔｓ]，[ｔｓ, ｕ] ，[ｃｌ,ｔｓ]，[ｃｌ,ｔｓ,ｕ]などとして実現されることが分かる。しかし、上記の音節のＨＭＭを用いる方法では、このような構造変動を有するデータに対しても所定の状態数のグラフ構造を持ったＨＭＭを学習する。このため、例えば、音節「つ」（音素列としては／ｃｕ／）が音声データベース中の音韻列として、[ｔｓ]，[ｔｓ,ｕ]，[ｃｌ,ｔｓ]，[ｃｌ,ｔｓ,ｕ]と実現されていても、これに対して、所定の状態数のグラフ構造を持った音節ＨＭＭを学習する。この結果、スペクトルの変動だけではなく音韻の脱落などによる音節内の音韻構造が変化した未知音声に対しては音響モデル（音節ＨＭＭ）の精度が低下するという問題があった。これは、音素のＨＭＭを用いても同様である。例えば、「つ」の子音部を表す音素／ｃ／は、音声データベース中の音韻列として、[ｔｓ]，[ｃｌ,ｔｓ]などと実現されていても、これに対して、所定の状態数のグラフ構造を持った音素ＨＭＭを学習するため、スペクトルの変動だけではなく、音韻の脱落などによる音素内の音韻構造の変形を受けた未知音声に対しては音響モデル（音素ＨＭＭ）の精度が低下する。
即ち従来の音素あるいは音節のＨＭＭとその言語モデルを用いる音声認識方法では、音響モデルとして予め所定の状態遷移構造の音素や音節のＨＭＭを用いているため、音素や音節の内部の音韻のスペクトルの変動と共に音韻の脱落などによる音節や音素の内部の音韻構造が変動した未知音声に対して、モデルの精度が低下するという問題があった。
【００１８】
本発明は、上記のような問題点を解消するためになされたもので、第１の目的は、入力音声に音韻モデル系列を当てはめ入力音声を最適な音韻系列に変換する際、音韻モデル間の遷移時刻を入力音声中より推定された音韻境界付近に束縛する音声認識装置において、長さ３以上の音韻列に対して音韻の生起順序についての制限を導入し、音声データとしてあり得ない音韻の列が認識されることを防止すると共に、入力音声に対して仮定する音韻境界の種類を限定し音韻境界の推定精度を向上し、認識精度の改善された音声認識装置を提供するすることである。また、本発明の第２の目的は、入力音声に構文制御グラフに従って音韻モデル系列を当てはめ入力音声を最適な音韻系列に変換する音声認識装置の構文制御グラフの生成方法として、音素や音節内の音韻区間のスペクトルの変動と音韻の脱落などによる音節や音素内の音韻構造の変動の両者をモデル化した構文制御グラフの生成方法を提供することである。
【００２１】
本発明の請求項１の音声認識装置の構文制御グラフの生成方法は、テキストデータベースから音節連鎖を抽出しこの音節連鎖に基づいて音節の生起順序を規定する音節構文グラフを求める過程と、音声データベースから、音節内部の音韻列の変動を表現するとともに音節内の音韻の生起順序を規定する音節内音韻グラフを求める過程と、前記音節構文グラフの音節相当部分に前記音節内音韻グラフを代入する過程を有する。
【００２２】
本発明の請求項２の音声認識装置の構文制御グラフの生成方法は、入力音声を分析し、前記入力音声を音韻モデルの連結と見なして、前記入力音声に構文制御グラフの規定に従って音韻モデルの系列を当てはめ、前記入力音声を最適な音韻列に変換する音声認識装置の前記構文制御グラフの生成方法として、テキストデータベースから音節とその音節を囲む音節文脈とを音節データとして抽出しこれら音節データの生起順序を規定する音節構文グラフを求める過程と、音声データベースから、音節内部の音韻列の変動を表現するとともに前記音節データの音節文脈毎に音節内の音韻の生起順序を規定する音節内音韻グラフを求める過程と、前記音節構文グラフの前記音節データ相当部分には前記該音節データの音節文脈と一致する音節文脈から求められた前記音節内音韻グラフを代入する過程を有する。
【００２４】
【作用】
本発明の請求項１の音声認識装置において、境界尤度算出手段は入力音声から音韻の境界尤度を算出する。また、モデル演算手段は前記境界尤度算出手段の算出した音韻の境界尤度が所定の値より大きく、かつ、選択する音韻モデルが長さ３以上の音韻列についての制約を満たす時だけ、最適な音韻モデルを選択する。
【００２５】
本発明の請求項２の音声認識装置において、境界尤度計算手段は入力音声から音韻境界の種類に応じた音韻の境界尤度を算出する。また、モデル演算手段は前記境界尤度計算手段が算出した音韻境界の種類に応じた音韻の境界尤度と音韻境界の種類に応じて設定された値より大きく、かつ、選択する音韻モデルが長さ３以上の音韻列についての制約を満たす時に限り、最適な音韻モデルを選択する。
【００２６】
本発明の請求項３の音声認識装置の構文制御グラフの生成方法において、音節構文グラフを求める過程はテキストデータベースから音節の生起順序を規定する音節のオートマトンに相当する音節構文グラフを求める。また、音節内音韻グラフを求める過程は、音声データベース中の音節区間の音韻列を抽出し音節内の音韻の生起順序を規定する音韻のオートマトンに相当する音節内音韻グラフを求める。さらに、最後の過程は前記音節構文グラフの音節相当部分に前記音節内音韻グラフを代入する。
【００２７】
本発明の請求項４の音声認識装置の構文制御グラフの生成方法において、音節構文グラフを求める過程はテキストデータベースから音節とその音節を囲む音節文脈とを音節データとして抽出しこれら音節データのオートマトンに相当する音節構文グラフを求める。また、音節内音韻グラフを求める過程は音声データベースから前記音節データの音節文脈毎に音節区間の音韻列を抽出し音節文脈毎の音節内の音韻グラフを求める。さらに、最後の過程は前記音節構文グラフの前記音節データ相当部分に前記該音節データの音節文脈と一致する音節文脈から求められた前記音節内音韻グラフを代入する。
【００２８】
本発明の請求項５の音声認識装置において、前記モデル演算手段は、請求項３又は４に記載の構文制御グラフの生成方法に基づいて生成された構文制御グラフを用いる。
【００２９】
【実施例】
以下この発明の一実施例を説明する。
この実施例においては、音響モデルとして、１音韻を１状態で表す音韻のＨＭＭ（音韻ＨＭＭ）を用い、ある入力音声はこれらの音韻ＨＭＭの列で表される。また、音韻は、子音閉鎖区間を子音破裂部とは別音韻と見なした、図２に示す２９種類の音韻からなる体系を用いており、各音韻はこの図のように番号付けされている。以後、音韻はこの番号で参照される。
また、本実施例では、音響モデルとして、１音韻を１状態で表す音韻ＨＭＭを用いているため、音韻境界の生成は、音韻ＨＭＭの状態間の遷移として現れる。なお、１音韻に複数状態を有する音韻ＨＭＭを用いるときでも本発明は適用可能であることは言うまでもなく、この場合、音韻境界の生成は、音韻ＨＭＭ間の遷移に対応する状態間の遷移として現れる。
また、本実施例では、モデル演算手段として、通常のトレリスアルゴリズムに基づくＨＭＭ演算における和の演算を最大化の演算に置き換えたビタビのアルゴリズムに基づくＨＭＭ演算手段を用いている。なお、通常のトレリスアルゴリズムに基づくＨＭＭ演算においても本発明が適用できることは言うまでもない。
【００３０】
図１は、この発明の一実施例の音声認識装置の構成図である。以下図１の各部を説明する。
音声区間検出手段１は、入力音声の短区間パワーの変化形状により音声区間を検出し、この音声区間内の音声信号Ｒ１を切り出して特徴抽出手段２に送る。
特徴抽出手段２は、音声区間内の音声信号Ｒ１中から長さ２５．６ｍｓの時間窓を用いた１５次線形予測メルケプストラム分析によって１０ｍｓ毎に０〜１０次のメルケプストラム係数からなる特徴パラメータ時系列Ｒ２を抽出し境界尤度計算手段３、及び、モデル演算手段としてのＨＭＭ演算手段５に送る。
【００３１】
境界尤度計算手段３は、音韻境界パラメータ記憶手段４に記憶されている音韻境界パラメータＲ４を参照して、特徴パラメータ時系列Ｒ２より時刻ｔ＝１，２，…,Ｔについて、時刻ｔを中心に時間幅１０フレームの範囲の０〜７次のメルケプストラム係数合計８０（＝１０フレーム×８次元）個を１つの８０次元ベクトル（以後、固定長セグメントと呼ぶ）として抽出し、これら固定長セグメントの中心に入力音声中の音韻境界が存在する尤度（境界尤度）を計算する。
中心時刻ｔの固定長セグメント（以後、Ｂtと記す）の中央に音韻ｉとｊの間の音韻境界ijが存在する境界尤度（以後、Ｃij(Ｂt)と記す）は式（１）に従って計算される。ここで、式（１）の分母は固定長セグメントＢtの中央に音韻ijの境界が存在しないとする時の尤度で、分子は固定長セグメントＢtの中央に音韻ijの境界が存在するとする時の尤度に対応し、式（１）は全体として、音韻ijの時刻tにおける境界尤度を表す。但し式中、Ｍbは共通要素分布の数(共通コードブックのサイズ)、Ｎ（Ｂt｜μm，Σm）は第ｍ番目の要素分布の平均μm及び分散Σmの多次元正規確率密度関数、Ｐmij及びＱmijは音韻境界ijについて予め学習によって求められた多項式係数である。
【００３２】
次に、ＨＭＭ演算手段５について説明する。
図３はＨＭＭ演算手段５が演算対象とするＨＭＭの構造を模式的に示したものである。本ＨＭＭ全体は、１音韻当たり１状態で表された音響モデルとしての音韻ＨＭＭ（本例では全部で２９種類ある）を構文制御グラフとしての音韻構文グラフに従って状態間遷移で連結したものである。即ち、本ＨＭＭ中の状態を遷移して得られる状態の系列は音韻構文グラフに従って生成され得るある音韻の列に対応している。（音韻構文グラフの生成方法は後で説明する。）
特に、本図は、ＨＭＭ演算手段５の漸化式計算を説明するため、状態ｐから状態ｑへの状態遷移の様子を示す。音韻構文グラフの各状態は、ある１つの音韻に対応づけられていて、例えば図３では状態ｑは音韻ｊに対応付けられていて、状態ｑにおける時刻ｔの特徴パラメータｘtの出力確率は音韻ｊのパラメータを用いてｂj(ｘt)として計算される。状態ｐから状態ｑへの遷移は、音韻ｉから音韻ｊの音韻境界パラメータに基づく境界尤度Ｃij(Ｂt)が閾値θijより大きく、かつ、構文制御グラフで状態ｐから状態ｑへの状態間の遷移が許される（これは、漸化式中δpq＝1で示される）時、可能である。また、状態ｐから状態ｑへの遷移確率は、ａpqで示されている。出力確率ｂj(ｘt)は、全部でＭ個の共通ガウス分布の混合分布で表されており、第ｍ番目の共通ガウス分布の平均ベクトルμm及び共分散行列Σm、及び、音韻ｊの分岐確率λmjをパラメータとして、式（８）で計算される。式中、Ｎ(ｘt|μm,Σm)は平均μm、分散Σmの正規確率密度関数を表す。上記出力確率計算用のパラメータはＨＭＭパラメータ記憶手段６に記憶されている。
【００３３】
【数５】

【００３４】
ＨＭＭ演算手段５は境界尤度計算手段３出力の境界尤度Ｒ３及びＨＭＭパラメータＲ６及び構文制御手段８に記憶された構文制御情報Ｒ８を参照しビタビアルゴリズムに基づくＨＭＭ演算を行う。構文制御情報Ｒ８は構文制御グラフとしての音韻構文グラフを変換した結果として、各状態に対応する音韻番号の情報と、状態間の接続を表す情報からなる。状態は全部で、ｎ状態あり、状態ｑに対応する音韻番号ｊはｑの関数としてｊ＝ｆ(ｑ)のごとく与えられる。また、状態ｐから状態ｑへの遷移の可能性はδpq＝1で示される。ＨＭＭ演算手段５におけるＨＭＭ演算は、式（９）および式（１０）の漸化式を式（１１）の初期条件の下で計算する。ここで、ｎは音韻構文グラフの状態数、α(q,t)は、時刻ｔにおいて、状態ｑに留まる確率(前向き確率)を表し、β(q,t)は時刻ｔに状態ｑに至る一つ前の最適な状態番号を表すバックポインタである。
【００３５】
【数６】

【００３６】
上記漸化式で示されたように、ＨＭＭ演算手段５は、時刻ｔで音韻モデル間の遷移に対応する状態ｉから状態ｊへの状態間遷移に際して、音韻の境界尤度Ｃij（Ｂt）を参照して、音韻境界ijに依存した閾値θijと比較し、音韻の境界尤度が本閾値θijより大きく（Ｃij（Ｂt）＞θijであり）、かつ、音韻構文グラフ中の遷移として許される（δpq＝１である）時だけ、状態間の遷移を許すようにしたため、状態間の遷移が入力音声中に推定される音韻境界でだけ状態遷移が起こるようになり、非音韻境界での状態遷移が減少するため認識結果中の音韻の挿入誤りを減少すると共に、音韻構文グラフ中の遷移として許されない音韻の列が状態系列として選択されることが防止され、言語的に音声データとしてあり得ない音韻列が認識されることが防止される。なお、同一音韻内の状態の遷移（ｉ＝ｊのとき）については、境界尤度Ｃij（Ｂt）および音韻構文グラフによる選択の制限は設けていない。
【００３７】
音韻系列変換手段としての最適状態系列検出手段７は、ＨＭＭ演算結果Ｒ５として得られる前向確率α(q,t)及びバックポインタβ(q,t)の値から、最適状態系列Ｒ７（以後、β^(1),β^(2),…,β^(T)と記す）を出力する。最適状態系列Ｒ７は漸化式である式（１２）を初期条件を示す式（１３）の設定の下で計算することで得る。なお、最適状態系列Ｒ７は認識結果の音韻列を音韻構文グラフ中の音韻の状態の番号の系列で表したものであり、最適状態系列Ｒ７から音韻列への変換は簡単な１対１の関数関係により実現される。
【００３８】
【数７】

【００３９】
以上で、音声認識装置の構成の説明を終わり、以下、本実施例の音声認識装置で用いれれている音韻構文グラフの作成方法について説明する。
図４は、本実施例における音韻構文グラフの生成過程の説明図である。音韻構文グラフの生成過程は、全体として図のように過程I〜IIIからなる。
【００４０】
過程Iでは、図中音節連鎖抽出において、大量のテキストデータベースから音節の列を抽出し、抽出されたすべての音節の列を受け入れるような音節を枝とする有向グラフ(音節構文グラフ)を作成する。この音節構文グラフは、言語制約を強く表現し、しかも、できるだけタスクに依存せず任意の文を受理するようにするため、例えば音節のトライグラム（三つ組）の列を受理するように構成する。図５は音節のテキストデータから、３音節連鎖を受理するような音節構文グラフを生成する過程を例示したものである。テキストデータが「ε＃サイタサイタ＃サクラガサイタ＃ε」とあるとき、このテキストデータから、前後１つの音節環境に依存する三つ組として、(ε)＃(サ),(＃)サ(イ),(サ)イ(タ),(イ)タ(サ),(タ)サ(イ),(サ)イ(タ),(イ)タ(＃),(タ)＃(サ),(＃)サ(ク),(サ)ク(ラ),(ク)ラ(ガ),(ラ)ガ(サ),(ガ)サ(イ),(サ)イ(タ),(イ)タ(＃),(タ)＃(ε)が抽出でき、これらの中で共通な三つ組を除くことで、図の中央に示すような音節の三つ組の集合が得られる。これらの三つ組の集合を、音声環境（音節の前後の文脈）の一致を条件として、接続することにより、音節の有向グラフ（音節構文グラフ）として、図の下のようなグラフが生成される。ここで、「ε」及び「＃」はそれぞれ空白文字、及び、文または単語の境界を示す。また、音節の三つ組の表記で左右の（）内の音節は中央の音節の環境（音節の文脈）を示す。
【００４１】
過程IIでは、まず、音韻単位にラベル付けされた既知の大量の音声データから、音節に対応する区間の音韻ラベルの列（音韻列）を抽出し、音節と音韻列の対応関係を求める。次に、この対応関係から音節毎に音節の内部がどのような音韻列で実現されるかを網羅した表現として音韻を枝とする有向グラフ(音節内音韻グラフ)を作成する。ここで、音節の文脈毎に音節と音韻系列の対応関係を求めることで、音節の環境（音節文脈）に依存した音節内音韻グラフが得られる。
図６は例えば「＃ウツクシク＃ツツム＃」という文章発声に対する音声データベース中の記述から音節内音韻グラフを抽出する様子を示したものである。まず、図上段の「音声データベース」の枠内の「音節列」で示される各音節の区間と、その下の「音韻列」の部分音韻列との対応を求め、音節毎に対応する部分音韻列の集合を求める（図中段）。つぎに、これら音節内音韻列集合中の共通部分を共通の枝とするなどして、各音節を音韻を枝とする有向グラフ（音節内音韻グラフ）に変換する（図下段）。音節文脈を考慮しない場合、音節「ツ」の音節内音韻グラフは、図下段中央に示すような４状態５枝の有向グラフとして抽出される。また、前後１音節の音節文脈を考慮した場合、例えば、音節「(ウ)ツ(ク)」は図最下段左に示すような３状態２枝の音節内音韻グラフとして抽出される。
【００４２】
過程IIIでは、過程Iで得られた音節構文グラフ中のすべての音節の枝に対して、過程IIで得られた音節内音韻グラフを代入することで、音韻構文グラフを得る。
図７は前後１音節の音節文脈を考慮した音節構文グラフの一部分の枝について、音節内音韻グラフを代入する様子を示したものである。この例では、状態ｓ1とｓ2を結ぶ枝に新たに状態ｓ12が挿入された音韻構文グラフが生成される。この音韻構文グラフは音韻列として、（ウ）ツ（ク）という音節文脈中の音節「ツ」に対応して音韻列として、[ｃｌ,ｔｓ]だけが許される。
一方、前後の音節文脈を考慮しない場合、音節構文グラフ中の音節「ツ」に対応する枝に、図６の下段中央に示した音節「ツ」の音節内音韻グラフが代入され、生成される音韻構文グラフは、音節「ツ」に対して、[ｔｓ]、[ｃｌ,ｔｓ]、[ｃｌ,ｔｓ,ｕ]、等の音韻列が許されることになる。
このように、音韻構文グラフの生成に当たり、音節文脈を考慮する方が、同じ音節に対して、認識すべき音韻列の種類が少なくなるため、より認識性能を向上するという効果が期待できる。（この効果は後で述べる実験で示される。）
【００４３】
以上の過程I〜IIIで得られた音韻構文グラフを、前記構成の音声認識装置に基づく連続音声認識システムに適用することで、この装置に未知音声を入力した場合認識結果の音韻系列としての音韻記述中に現れる音韻列は、テキストデータベース中の音節の生起順序に従い、かつ、音声データベース中の音節内部の音韻列として観測されたものだけに限定される。この結果、言語的に音節列としてあり得ず、かつその音声データとしてあり得ない音韻列、例えば、[ｋ,ｔｓ,ｓｈ,ｔｓ,ｓｈ]が認識されることを防止できる。なお、本実施例の音声認識装置は、音韻ＨＭＭを音響モデルとした、One Pass DP法（例えば、中川聖一著「確率モデルによる音声認識」）を構文制御に用いた音声認識装置と構成上類似している。しかし、本実施例の音声認識装置では、構文制御のために、テキストデータベース中の音節の生起順序に従って生成された音節構文グラフにつき、この音節構文グラフ中の音節相当部分に、音声データベース中で観測された音節内部の音韻列の変動を表現する音節内音韻グラフを代入して生成された音韻構文グラフが用いられている。また、音響モデルとしての音韻モデル間の状態遷移において、その遷移時刻が入力音声から直接得られる音韻境界の推定値情報（境界尤度）に基づいて束縛されている。従って、本実施例の音声認識装置は、音節列の言語知識と音節内の音韻構造の変動の知識の作用で、入力音声に対して仮定する音韻境界の種類が削減し、その結果の音韻境界の推定精度が向上する。また、逆に、入力音声の音韻境界は前後の音韻の種類に依存しているため、音韻列の生成において音韻境界の前後の音韻の種類が考慮された音韻列が認識されるという特長があり、認識精度が向上するという効果を有する。
【００４４】
次に本実施例の音声認識装置について行った評価実験について述べる。ここでは、音韻および音韻境界に対してセミ連続分布モデルを用いたＨＭＭ／ＢＴを用いて不特定話者の音韻記述実験を行った。共通の実験条件を図８に示す。
言語データは、一般のテキストデータを用いることもできるが、ここでは、学習用音声データである音韻バランス文からなる４０２４文の発声テキスト（音声記述）を用いた。音節構文グラフの生成における音節文脈としては文脈を考慮しない場合、音節のバイグラム（２つ組）を用いる場合、および、音節のトライグラム（三つ組）を用いる場合について実験を行った。音節内音韻グラフの抽出およびそれの音節構文グラフへの代入時の音節文脈に対する依存性を変えた複数の言語制約付き音韻グラフを作成し、それぞれについて音韻ベースの構文制御付きＨＭＭ／ＢＴ連続音声認識システムにより音韻認識性能を求めた。また、ＨＭＭ／ＢＴの音韻境界束縛をしない従来のＨＭＭ（１音韻１状態）を用いる場合についても実験を行った。
【００４５】
図９は実験結果を示す。図では音韻境界の束縛を行うＨＭＭ（ＨＭＭ／ＢＴ）と、音韻境界の束縛を行わないＨＭＭ（ＨＭＭ without ＢＴ）について、各種の実験条件における音韻誤り率が示されている。（ＨＭＭ／ＢＴにおいて、境界尤度の閾値（θij）を音韻境界の種類に無関係に一定値（θ）にした場合について示す）。音韻誤り率は合計の誤り率と共に、内訳として置換、脱落、挿入の各誤り率が示されている。音韻誤り率は入力の音韻数に対して、それぞれの誤り形態の音韻認識の誤りが発生した割合として算出されている。また、音節内音韻グラフの抽出の際考慮した音節文脈依存性は先行音節数及び後続音節数の欄に示されている。さらに、音節構文グラフをテキストデータから抽出する際の音節構文グラフの音節を囲む音節文脈としては、図の左の第１欄に示されるように音節のバイグラム（bigram）および音節のトライグラム（trigram）の場合について実験結果が示されている。またさらに、参考のために、音節構文グラフ及び音韻構文グラフのテストセットパープレキシティが示されている。なお、一般に、テストセットパープレキシティが大きいほど構文による限定が小さい（構文の自由度が大きい）ことを意味する。
実験結果から、音節構文グラフの生成において、音節構文グラフの音節を囲む音節文脈として音節バイグラム及び音節トライグラムのいずれを用いても、音節文脈に依存しない（即ち先行音節数及び後続音節数が共に０の）文脈独立の音節内音韻グラフよりも、音節文脈に依存したの音節内音韻グラフを用いた方が音韻認識の誤りが少なくなっており、音節文脈に依存して音節内音韻グラフを用いる方法の方が認識性能がよい。これは音節内音韻グラフを音節文脈依存とすることで音節が音韻系列として実現される変動の幅が狭まるため、認識対象として仮定される音韻列の数が実質的に削減され、認識性能が向上したことによると考えられる。この考え方は、実際、音節文脈依存の場合の音韻パープレキシティが音節文脈に依存しない場合よりも小さく、従って構文自由度が減少していることからも説明される。また、ＨＭＭ／ＢＴとＨＭＭ（ＢＴなし）との比較では、ＨＭＭ／ＢＴの方が圧倒的に認識誤りが少なく、音節構文グラフの音節を囲む音節文脈として後続音節数を２とした音節トライグラムを用いたとき、最小の音韻誤り率合計１０．０％（最下行）が得られている。これは、ＨＭＭ／ＢＴに従来の音韻トライグラムによる構文グラフを用いる場合の５４．０％（上から２行目）に対して、大幅な認識誤りの改善である。
【００４８】
請求項１の発明によれば、前記構文制御グラフの生成方法として、テキストデータベースより音節連鎖を抽出しこの音節連鎖に基づいて音節の生起順序を規定する音節構文グラフを求める過程と、音声データベースから、音節内部の音韻列の変動を表現するとともに音節内の音韻の生起順序を規定する音節内音韻グラフを求める過程と、前記音節構文グラフの各枝に前記音節内音韻グラフを代入する過程を有する構文制御グラフの生成方法を用いたので、音節の生起順序と共に、音節内の音韻構造の変動が考慮された構文制御グラフを提供し、音韻のスペクトルの変動と音節内の音韻構造の変動の両者のモデル化が可能な音声認識装置を提供するという効果がある。
【００４９】
請求項２の発明によれば、前記構文制御グラフの生成方法として、テキストデータベースから音節をその音節を囲む音節文脈と共に文脈付き音節として抽出しこれら文脈付き音節の生起順序を規定する音節構文グラフを求める過程と、音声データベースから、音節内部の音韻列の変動を表現するとともに前記文脈付き音節の音節文脈毎に音節内の音韻の生起順序を規定する音節内音韻グラフを求める過程と、前記音節構文グラフの前記文脈付き音節相当部分に前記文脈付き音節の音節文脈と一致する音節文脈から求められた前記音節内音韻グラフを代入する過程を有する構文制御グラフの生成方法を用いたので、音節の生起順序と共に、音節文脈に依存した音節内の音韻構造の変動を考慮した構文制御グラフを提供し、音韻のスペクトルの変動と音節文脈に依存した音節内の音韻構造の変動の両者のモデル化が可能な音声認識装置を提供するという効果がある。
【図面の簡単な説明】
【図１】この発明の一実施例の音声認識装置の構成図である。
【図２】この発明の一実施例の音韻体系の説明図である。
【図３】この発明の一実施例のＨＭＭの構造を示す図である。
【図４】この発明の一実施例の音韻構文グラフの全体の生成過程を示す図である。
【図５】この発明の一実施例の音韻構文グラフの生成過程Iを例示する図である。
【図６】この発明の一実施例の音韻構文グラフの生成過程IIを例示する図である。
【図７】この発明の一実施例の音韻構文グラフの生成過程IIIを例示する図である。
【図８】この発明の一実施例を評価する際の条件を示す図である。
【図９】この発明の一実施例の評価結果を示す図である。
【図１０】従来の音声認識装置の構成図である。
【図１１】従来の音声認識装置におけるＨＭＭの構造を示す図である。
【符号の説明】
１音声区間検出手段
２特徴抽出手段
３境界尤度計算手段
４音韻境界パラメータ記憶手段
５ＨＭＭ演算手段
６ＨＭＭパラメータ記憶手段
７最適状態系列検出手段
８構文制御情報記憶手段

Claims

入力音声を分析し、前記入力音声を音韻モデルの連結と見なして、前記入力音声に構文制御グラフの規定に従って音韻モデルの系列を当てはめ、前記入力音声を最適な音韻列に変換する音声認識装置の前記構文制御グラフの生成方法として、テキストデータベースから音節連鎖を抽出しこの音節連鎖に基づいて音節の生起順序を規定する音節構文グラフを求める過程と、音声データベースから、音節内部の音韻列の変動を表現するとともに音節内の音韻の生起順序を規定する音節内音韻グラフを求める過程と、前記音節構文グラフの音節相当部分に前記音節内音韻グラフを代入する過程とを有することを特徴とする音声認識装置の構文制御グラフの生成方法。
入力音声を分析し、前記入力音声を音韻モデルの連結と見なして、前記入力音声に構文制御グラフの規定に従って音韻モデルの系列を当てはめ、前記入力音声を最適な音韻列に変換する音声認識装置の前記構文制御グラフの生成方法として、テキストデータベースから音節をその音節を囲む音節文脈と共に文脈付き音節として抽出しこれら文脈付き音節の生起順序を規定する音節構文グラフを求める過程と、音声データベースから、音節内部の音韻列の変動を表現するとともに前記文脈付き音節の音節文脈毎に音節内の音韻の生起順序を規定する音節内音韻グラフを求める過程と、前記音節構文グラフの前記文脈付き音節相当部分に前記文脈付き音節の音節文脈と一致する音節文脈から求められた前記音節内音韻グラフを代入する過程とを有することを特徴とする音声認識装置の構文制御グラフの生成方法。