JP3027557B2

JP3027557B2 - 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体

Info

Publication number: JP3027557B2
Application number: JP9238565A
Authority: JP
Inventors: 元塚田; 博史山本; 芳典匂坂
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1997-09-03
Filing date: 1997-09-03
Publication date: 2000-04-04
Anticipated expiration: 2017-09-03
Also published as: JPH1185183A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識方法及び
装置、並びに音声認識処理プログラムを記録した記録媒
体に関する。

【０００２】

【従来の技術】自然発話音声の認識においては、Ｎ−ｇ
ｒａｍを基礎とする統計的言語モデルが広く使用されて
いる。これは、こうしたモデルが、逸脱した発話を受容
すると同時に探索の際の認識候補数を大幅に低減できる
ためである。一方で、音声翻訳装置を含む多くの音声対
話システムでは、音声認識装置の後端部が文法を使用し
て構文構造を解析している。通常これは、音声認識に使
用されるＮ−ｇｒａｍを基礎とする統計的言語モデルと
は無関係に開発されている。Ｎ−ｇｒａｍを基礎とする
統計的言語モデルと文法とは異なるタイプの言語制約と
して機能するため、音声対話システムの全体的性能を高
めるためには、統計的言語モデルだけでなく後端部の文
法をも音声認識上の制約として協働的に使用する必要が
ある。

【０００３】統計的言語モデルと厳格な文法的制約の両
方を統合する方法としては、文法を逸脱していない発話
のみを受容するものが多く提案されている（例えば、特
願平８−３３０６７９号など参照。）。さらに、後置の
文法によって近似された厳格な文法的制約を使用する認
識方法が提案されている（例えば、従来技術文献「F.C.
N. Pereira, et al.,“Finite-state approximation o
f phrase-structuregrammars", In 29th Annual Meetin
g of the Association for Computational Linguistic
s,pp.246-255,1991年」参照。）。

【０００４】

【発明が解決しようとする課題】しかしながら、こうし
た研究のように文法を自然発話音声認識に於ける厳格な
制約として使用することには幾つかの欠点がある。第一
に、自然発話音声は、言いよどみ、言い直しといった朗
読音声の場合には発生しない自然発話音声固有の言語的
現象によって文法を外れることが多い。第二に多くの場
合、厳格に文法的制約を適用することは頑強ではない。
文法によって長距離依存性を表現することは可能である
が、局部的エラーによって全体に悪影響が及ぶ場合が多
い。

【０００５】本発明の目的は以上の問題点を解決し、自
然発話音声がその固有の言語的現象によって文法を外れ
た場合であっても、従来技術に比較して高い認識率で音
声認識することができる音声認識方法及び装置、並び
に、音声認識処理プログラムを記録した記録媒体を提供
することにある。

【０００６】

【課題を解決するための手段】本発明に係る音声認識方
法は、入力される発声音声文の音声信号に基づいて上記
発声音声文を音声認識する音声認識方法であって、所定
の文脈自由文法を、文法的制約を表わす有限状態オート
マトンに変換するステップと、上記変換された有限状態
オートマトンを、自然発話における単語の挿入、脱落、
置換の状態遷移を含み文法的制約を表わす有限状態トラ
ンスデューサに変換するステップと、入力される発声音
声文の音声信号に基づいて、所定の統計的言語モデル
と、上記変換された有限状態トランスデューサとを参照
して、自然発話における単語の挿入、脱落、置換に該当
する単語にマーク付けするように上記発声音声文を音声
認識するステップと、上記音声認識された結果に基づい
て、上記マーク付けされた単語、もしくは、上記マーク
付けされた単語及びそれに隣接する単語を、文法を逸脱
した部分の単語として削除して音声認識結果を出力する
ステップとを含むことを特徴とする。

【０００７】また、本発明に係る音声認識装置は、入力
される発声音声文の音声信号に基づいて上記発声音声文
を音声認識する音声認識装置であって、所定の文脈自由
文法を、文法的制約を表わす有限状態オートマトンに変
換する第１の変換手段と、上記第１の変換手段によって
変換された有限状態オートマトンを、自然発話における
単語の挿入、脱落、置換の状態遷移を含み文法的制約を
表わす有限状態トランスデューサに変換する第２の変換
手段と、入力される発声音声文の音声信号に基づいて、
所定の統計的言語モデルと、上記第２の変換手段によっ
て変換された有限状態トランスデューサとを参照して、
自然発話における単語の挿入、脱落、置換に該当する単
語にマーク付けするように上記発声音声文を音声認識す
る音声認識手段と、上記音声認識手段によって音声認識
された結果に基づいて、上記マーク付けされた単語、も
しくは、上記マーク付けされた単語及びそれに隣接する
単語を、文法を逸脱した部分の単語として削除して音声
認識結果を出力する単語抽出手段とを備えたことを特徴
とする。

【０００８】さらに、本発明に係る音声認識処理プログ
ラムを記録した記録媒体は、入力される発声音声文の音
声信号に基づいて上記発声音声文を音声認識する音声認
識処理プログラムを記録した記録媒体であって、所定の
文脈自由文法を、文法的制約を表わす有限状態オートマ
トンに変換するステップと、上記変換された有限状態オ
ートマトンを、自然発話における単語の挿入、脱落、置
換の状態遷移を含み文法的制約を表わす有限状態トラン
スデューサに変換するステップと、入力される発声音声
文の音声信号に基づいて、所定の統計的言語モデルと、
上記変換された有限状態トランスデューサとを参照し
て、自然発話における単語の挿入、脱落、置換に該当す
る単語にマーク付けするように上記発声音声文を音声認
識するステップと、上記音声認識された結果に基づい
て、上記マーク付けされた単語、もしくは、上記マーク
付けされた単語及びそれに隣接する単語を、文法を逸脱
した部分の単語として削除して音声認識結果を出力する
ステップとを含む音声認識処理プログラムを記録したこ
とを特徴とする。

【０００９】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１０】図１に本発明に係る一実施形態の音声認識
装置のブロック図を示す。本実施形態の音声認識装置に
おいては、統計的言語モデルメモリ２２に予め作成され
て記憶されたＮ−ｇｒａｍ又は可変長Ｎ−ｇｒａｍなど
の統計的言語モデルを用いて絞り込んだ単語列の仮説
を、文法的な制約によってさらに絞り込むと同時に、文
法を逸脱した単語について、マーク付けすることによっ
て、認識された発話中の信頼性の高い単語と低い単語が
識別できるようにしたことを特徴とする。

【００１１】図１において、単語照合部４は、公知のワ
ン−パス・ビタビ復号化法を用いて、入力される発声音
声文の音声信号の特徴パラメータに基づいて上記発声音
声文の単語仮説を検出し尤度を計算して出力し、次い
で、第１の単語仮説絞込部６は、単語照合部４からバッ
ファメモリ５を介して出力される、終了時刻が等しく開
始時刻が異なる同一の単語の単語仮説に対して、統計的
言語モデルメモリ２２内の統計的言語モデルを参照し
て、当該単語の先頭音素環境毎に、発声開始時刻から当
該単語の終了時刻に至る計算された総尤度のうちの最も
高い尤度を有する１つの単語仮説で代表させるように単
語仮説の絞り込みを行う。ここで用いる統計的言語モデ
ルは、学習用テキストデータに基づいて言語モデル生成
部２０により生成されたものであって、統計的言語モデ
ル２２は、品詞クラス間のバイグラム（Ｎ＝２）を基本
としたものであるが、単独で信頼できる単語は品詞クラ
スより分離させ、単独のクラスとして取り扱い、さら
に、予測精度を向上させるため、頻出単語列に関しては
それらの単語を結合して一つのクラスとして取り扱い、
長い単語連鎖の表現を可能にさせ、こうして、生成され
たモデルは、品詞バイグラムと可変長単語Ｎ−グラムと
の特徴を併せ持つ統計的言語モデルとなり、遷移確率の
精度と信頼性とのバランスをとられたものである。

【００１２】本実施形態においては、文法的な制約とし
て、文脈自由文法（ＣＦＧ）で記述されたものを用い
る。ただし、効率的な制約の適用を実現するため、文脈
自由文法メモリ４１に記憶された文脈自由文法（ＣＦ
Ｇ）を、第１の文法変換部３１によって予め有限状態オ
ートマトン（ＦＳＡ）に近似変換して、有限状態オート
マトンメモリ４２に格納する。さらに、多少の文法的な
逸脱を許容するとともに、逸脱した単語にマーク付けす
るために、有限状態オートマトンメモリ４２に格納され
た有限状態オートマトンを、第２の文法変換部３２によ
って、単語の付加、削除及び置換の状態遷移を含む有限
状態トランスデューサ（ＦＳＴ）に変換して有限状態ト
ランスデューサ（ＦＳＴ）メモリ４３に格納する。そし
て、第２の単語仮説絞込部７は、こうして作られた有限
状態トランスデューサ（ＦＳＴ）を用いて、第１の単語
仮説絞込部６から出力される単語列の仮説を絞り込むと
同時に、文法を逸脱した単語にマーク付けする。最後
に、単語抽出部８は、マーク付けされた単語（又は、さ
らにはその周辺の単語）を取り除くことにより、信頼性
の高い単語列からなる発話断片を抽出して音声認識結果
として出力する。

【００１３】図１において、単語照合部４に接続され、
音素ＨＭＭメモリ１１に格納される音素ＨＭＭは、各状
態を含んで表され、各状態はそれぞれ以下の情報を有す
る。（ａ）状態番号（ｂ）受理可能なコンテキストクラス（ｃ）先行状態、及び後続状態のリスト（ｄ）出力確率密度分布のパラメータ（ｅ）自己遷移確率及び後続状態への遷移確率なお、本実施形態において用いる音素ＨＭＭは、各分布
がどの話者に由来するかを特定する必要があるため、所
定の話者混合ＨＭＭを変換して生成する。ここで、出力
確率密度関数は３４次元の対角共分散行列をもつ混合ガ
ウス分布である。また、単語照合部４に接続され、単語
辞書メモリ１２に格納される単語辞書は、音素ＨＭＭの
各単語毎にシンボルで表した読みを示すシンボル列を格
納する。

【００１４】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して単語照合部４に入力される。

【００１５】単語照合部４は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ３を介して入力される特
徴パラメータのデータに基づいて、音素ＨＭＭと単語辞
書とを用いて単語仮説を検出し尤度を計算して出力す
る。ここで、単語照合部４は、各時刻の各ＨＭＭの状態
毎に、単語内の尤度と発声開始からの尤度を計算する。
尤度は、単語の識別番号、単語の開始時刻、先行単語の
違い毎に個別にもつ。また、計算処理量の削減のため
に、音素ＨＭＭ及び単語辞書とに基づいて計算される総
尤度のうちの低い尤度のグリッド仮説を削減する。単語
照合部４は、その結果の単語仮説と尤度の情報を発声開
始時刻からの時間情報（具体的には、例えばフレーム番
号）とともにバッファメモリ５を介して単語仮説絞込部
６に出力する。

【００１６】単語仮説絞込部６は、単語照合部４からバ
ッファメモリ５を介して出力される単語仮説に基づい
て、統計的言語モデル２２を参照して、終了時刻が等し
く開始時刻が異なる同一の単語の単語仮説に対して、当
該単語の先頭音素環境毎に、発声開始時刻から当該単語
の終了時刻に至る計算された総尤度のうちの最も高い尤
度を有する１つの単語仮説で代表させるように単語仮説
の絞り込みを行った後、絞り込み後のすべての単語仮説
の単語列のうち、最大の総尤度を有する仮説の単語列を
認識結果として出力する。本実施形態においては、好ま
しくは、処理すべき当該単語の先頭音素環境とは、当該
単語より先行する単語仮説の最終音素と、当該単語の単
語仮説の最初の２つの音素とを含む３つの音素並びをい
う。

【００１７】例えば、図２に示すように、（ｉ−１）番
目の単語Ｗ_i-1の次に、音素列ａ₁，ａ₂，…，ａ_nからな
るｉ番目の単語Ｗ_iがくるときに、単語Ｗ_i-1の単語仮説
として６つの仮説Ｗａ，Ｗｂ，Ｗｃ，Ｗｄ，Ｗｅ，Ｗｆ
が存在している。ここで、前者３つの単語仮説Ｗａ，Ｗ
ｂ，Ｗｃの最終音素は／ｘ／であるとし、後者３つの単
語仮説Ｗｄ，Ｗｅ，Ｗｆの最終音素は／ｙ／であるとす
る。終了時刻ｔ_eと先頭音素環境が等しい仮説（図２で
は先頭音素環境が“ｘ／ａ₁／ａ₂”である上から３つの
単語仮説）のうち総尤度が最も高い仮説（例えば、図２
において１番上の仮説）以外を削除する。なお、上から
４番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がｘではなくｙであるので、
上から４番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に１つのみ仮説を残す。図２の例
では、最終音素／ｘ／に対して１つの仮説を残し、最終
音素／ｙ／に対して１つの仮説を残す。

【００１８】次いで、第１及び第２の文法変換部３１，
３２の処理について詳述する。第１の文法変換部３１
は、文脈自由文法（ＣＦＧ）から有限状態オートマトン
（ＦＳＡ）を自動生成する処理部である。文脈自由文法
（ＣＦＧ）は、次表に示す（Ｖ_T，Ｖ_N，Ｐ，Ｓ）の４つ
の組みで表される。

【００１９】

【表１】文脈自由文法（ＣＦＧ） ─────────────── Ｖ_T：終端記号の有限集合Ｖ_N：非終端記号の有限集合Ｐ：生成規則の有限集合Ｓ：開始記号 ───────────────

【００２０】開始記号を生成規則を用いて書き換え、最
終的に得られる終端記号列の集合が、この文脈自由文法
で表される言語である。終端記号とは、生成規則の左辺
に現れない記号であり、生成規則によって最終的に生成
される記号列の構成要素である。非終端記号は、それ以
外の生成規則に現れる記号である。生成規則は、一つの
非終端記号を０個以上の終端又は非終端記号に書き換え
る規則である。次に、その規則の一例を示す。

【００２１】

【数１】Ｖ_T＝｛ｄｅｔ，ｎｏｕｎ，ｐｒｏｎ，ｐｒｅ
ｐ，ｖｅｒｂ｝Ｖ_N＝｛ＳＥＮＴ，ＮＰ，ＶＰ，ＰＰ｝Ｐ：次の表２参照。Ｓ＝ＳＥＮＴ

【００２２】ここで、ｄｅｔは冠詞、ｎｏｕｎは名詞、
ｐｒｏｎは代名詞、ｐｒｅｐは前置詞、ｖｅｒｂは動詞
を示す。また、ＳＥＮＴは開始記号、ＮＰは名詞句、Ｖ
Ｐは動詞句、ＰＰは前置詞句を示す。また、英語のため
の生成規則の一例を次の表に示す。

【００２３】

【表２】英語のための生成規則の一例 ─────────────── ＳＥＮＴ→ＮＰ，ＶＰ，ＮＰＳＥＮＴ→ＳＥＮＴ，ＰＰＮＰ→ｄｅｔ，ｎｏｕｎＮＰ→ｐｒｏｎＮＰ→ＮＰ，ＰＰＰＰ→ｐｒｅｐ，ＮＰＶＰ→ｖｅｒｂ ───────────────

【００２４】ここで、例えば、表２の第１行目は、開始
記号ＳＥＮＴは、ＮＰ，ＶＰ，又はＮＰを生成すること
を示している。本実施形態で用いる有限状態オートマト
ン（ＦＳＡ）は、入力記号列を受理するかしないかを決
定する仮想的な機械であって、次に示す（Ｑ，Σ，
ｑ₀，Ｆ，Ｅ）の５つの組みで表される。

【００２５】

【表３】 ───────────────────────────── Ｑ：状態の有限集合 Σ：入力記号の有限集合ｑ₀∈Ｑ：初期状態Ｆ⊆Ｑ：最終状態の有限集合Ｅ⊆Ｑ×（Σ∪｛ε｝）×Ｑ：状態遷移の有限集合Ｅは、遷移前の状態、入力記号、遷移後の状態の３つの組みからなる。 ─────────────────────────────

【００２６】ＦＳＡの基本動作は、初期状態から始ま
り、入力記号を読みつつ、状態を遷移するというもので
ある。入力を読み終わったとき、最終状態に到達するこ
とが可能であれば、その記号列を受理する。状態遷移で
使われているεは、特別な入力記号で、入力を読むこと
なしに遷移が可能であることを表す。任意の状態におい
て、ある入力記号が決まったとき、一意に遷移先の状態
がきまるＦＳＡを決定的であるという。任意のＦＳＡ
は、決定的でかつ状態数が最小である等価なＦＳＡに一
意に変換が可能であるという性質を持っている。この変
換処理は公知であって、例えば、従来技術文献「ジェイ
・ホップクロフトほか(訳者野崎ほか)，“オートマトン
言語理論−計算論Ｉ”，ｐｐ．１７−７０及びｐｐ７１
−９８，サイエンス社，昭和５９年８月２５日発行」な
どに開示されている。しかしながら、ＦＳＡで表現でき
る言語のクラスよりも、ＣＦＧで表現できる言語のクラ
スが大きいため、一般的には、ＣＦＧを等価なＦＳＡに
自動変換することはできない。従って、本実施形態で
は、例えば、ペレイラのアルゴリズム（例えば、前掲の
従来技術文献「F. C. N. Pereira, et al.」）を用い
て、ＣＦＧを近似的に、ＦＳＡに変換する。すなわち、
本実施形態では、ペレイラのアルゴリズムに基づいて、
第１の文法変換処理を実行して、ＣＦＧを近似されたＦ
ＳＡに変換する。第１の文法変換処理は、具体的には、
表４のＣＦＧ規則を例にとると、次のようにして行われ
る。

【表４】 ―――――――――― Ｓ→ａ，Ｓ，ｂ．Ｓ→ｃ． ―――――――――― この文法では、非終端記号はＳのみで、開始記号を兼ね
る。ａ，ｂが終端記号である。（１）特別な非終端記号Ｓ’及び特別な規則「Ｓ’→開
始記号」すなわち「Ｓ’→Ｓ」を導入する。（２）ＣＦＧ規則の右辺の終端／非終端記号の前後にド
ットを記した、ドットつき規則を導入する。ドットは、
入力終端記号列に対する現在の文法規則上での処理位置
を表す。（３）｛Ｓ’→．Ｓ｝の閉包を求める。閉包とは、ドッ
トの直後に現れる非終端記号を左辺に持つすべての規則
について、右辺の先頭にドットのついたドットつき規則
を再帰的に追加してゆく処理である。この結果、ドット
つき規則の集合｛Ｓ’→．Ｓ，Ｓ→．ａＳｂ，Ｓ→．
ｃ｝が得られる。（４）次に示す手順によって、ドットつき規則の閉包集
合を状態としたＦＳＡを構築する。図１２乃至図１５の
四角又は丸はＦＳＡの状態を表し、矢印は遷移を表す。
二重線の四角又は二重丸は、最終状態を表す。また、始
端をもたない矢印の終端となっている状態は、初期状態
を表す。矢印上に記された記号は、入力記号（ＣＦＧの
終端記号に対応する。）を表す。（４ａ）閉包集合｛Ｓ’→．Ｓ，Ｓ→．ａＳｂ，Ｓ→．
ｃ｝を初期状態にする。（４ｂ）初期状態となるドットつき規則の閉包集合から
始まり、そこから終端・非終端記号で遷移できるドット
つき規則の閉包集合を再帰的に生成する（図１２参
照。）。ドットつき規則「Ｓ’→Ｓ．」を含む状態を、
最終状態とする。（４ｃ）右辺の最終端にドットのある規則と、その規則
の左辺の終端記号の直後にドットがあるようなドットつ
き規則をすべての閉包集合から探す。前者の規則を含む
閉包集合から、後者の規則を含む閉包集合へ、ε遷移を
追加する（図１３参照。）。（４ｄ）非終端記号のついた遷移を消去する（図１４参
照。）。（５）さらに、図１５に示すように、決定的かつ最小な
ＦＳＡに変換する。

【００２７】図３に、数１のＣＦＧの例に対して第１の
文法変換処理を実行することにより、作成した近似され
たＦＳＡを示す。丸は状態を、矢印は遷移を表す。二重
丸は最終状態をあらわす。また、始端をもたない矢印の
終端となっている状態は、初期状態を表す。矢印上に記
された記号は、入力記号を表す。当該ＦＳＡは、決定的
であり、最小である。

【００２８】先の例のＣＦＧの終端記号、すなわちＦＳ
Ａの入力記号は、単語の品詞を表している。“Ｉｓａ
ｗａｇｉｒｌｗｉｔｈａｔｅｌｅｓｃｏｐ
ｅ”という例文は、“Ｉ（ｐｒｏｎ）ｓａｗ（ｖｅｒ
ｂ）ａ（ｄｅｔ）ｇｉｒｌ（ｎｏｕｎ）ｗｉｔｈ（ｐｒ
ｅｐ）ａ（ｄｅｔ）ｔｅｌｅｓｃｏｐｅ（ｎｏｕｎ）”
のように、単語と品詞を対応づけることができる。ＣＦ
Ｇの生成規則においては、“ｗｉｔｈ（ｐｒｅｐ）ａ
（ｄｅｔ）ｔｅｌｅｓｃｏｐｅ（ｎｏｕｎ）”という前
置詞句（ＰＰ）は、規則「ＮＰ→ＮＰ，ＰＰ」を用い
て、生成されるか、それとも規則「ＳＥＮＴ→ＳＥＮ
Ｔ，ＰＰ」を用いて生成されるか曖昧である。それに対
して、変換されたＦＳＡにおいては、状態遷移の曖昧性
なく、決定的にこの例文を受理することが可能である。
最適化されたＦＳＡのもつ、このような性質により、Ｃ
ＦＧをそのまま文法的制約の表現として用いた場合と比
べて、より効率的な制約適用が可能となる。

【００２９】第２の文法変換部３２は、文法的制約を表
現するＦＳＡを、多少の文法的な逸脱を許容するととも
に、逸脱した単語にマーク付する有限状態トランスデュ
ーサ（ＦＳＴ）に変換する処理部である。ＦＳＴは、Ｆ
ＳＡに出力記号を追加した次表の６つの組（Ｑ，Σ，
Σ’，ｑ₀，Ｆ，Ｅ’）で表されるもので、入力シンボ
ル列が受理されるとき、対応する出力シンボル列を出力
する。

【００３０】

【表５】 ─────────────────────────── Ｑ：状態の有限集合 Σ：入力記号の有限集合 Σ’：出力記号の有限集合ｑ₀⊆Ｑ：初期状態Ｆ⊆Ｑ：最終状態の有限集合Ｅ’⊆Ｑ×（Σ∪｛ε｝）×Σ’＊×Ｑ：状態遷移の有限集合Ｅ’は、遷移前の状態、入力記号、出力記号列、遷移後の状態の４つの組からなる。 ───────────────────────────

【００３１】第２の文法変換部３２では、決定的なＦＳ
Ａから、図５乃至図７の第２の文法変換処理によって、
付加・脱落・置換を考慮することで、文法的な逸脱を許
容するＦＳＴを生成する。

【００３２】図５乃至図７は、図１の第２の文法変換部
３２によって実行される第２の文法変換処理を示すフロ
ーチャートである。図５において、まず、ステップＳ１
において、有限状態オートマトンメモリ４２から有限状
態オートマトン（ＦＳＡ）を読み込み、ステップＳ２で
初期設定処理を実行するため、状態遷移の有限集合Ｅ’
にゼロのデータφを代入するとともに、出力記号の有限
集合Σ’に入力記号の有限集合Σを代入する。次いで、
ステップＳ３でａ∈Σの各要素ａに対して付加記号Ｉｎ
ｓ＜ａ＞、脱落記号Ｄｅｌ＜ａ＞及び置換記号Ｓｕｂｓ
ｔ＜ａ＞を出力記号の有限集合Σ’に追加する。そし
て、ステップＳ４でａ∈Σのすべての要素ａについてス
テップＳ３の処理を実行したか否かが判断され、ＮＯの
ときはステップＳ３の処理を繰り返す一方、ＹＥＳのと
きはステップＳ５に進む。ステップＳ５でＦＳＡの各状
態遷移（ｑ₁，ａ，ｑ₂）に対して状態遷移に有限集合
Ｅ’に状態遷移を追加する。そして、ステップＳ６でＦ
ＳＡのすべての状態遷移（ｑ₁，ａ，ｑ₂）に対してステ
ップＳ５の処理を実行したか否かが判断され、ＮＯのと
きはステップＳ５の処理を繰り返す一方、ＹＥＳのとき
は図６のステップＳ７に進む。

【００３３】図６のステップＳ７において、１つの状態
遷移（ｑ₁，ａ，ａ，ｑ₂）に対して脱落を示す状態遷移
（ｑ₁，ε，Ｄｅｌ＜ａ＞，ｑ₂）を追加する。次いで、
ステップＳ８でｂ∈Σの各要素ｂに対して置換を表わす
状態遷移（ｑ₁，ａ，Ｓｕｂｓｔ＜ｂ＞，ｑ₂）を追加す
る。そして、ステップＳ９でｂ∈Σのすべての要素ｂに
ついてＳ８の処理を実行したか否かが判断され、ＮＯの
ときはステップＳ８の処理を繰り返す一方、ＹＥＳのと
きはステップＳ１０に進む。ステップＳ１０ですべての
状態遷移（ｑ₁，ａ，ａ，ｑ₂）に対してＳ７の処理を実
行したか否かが判断され、ＮＯのときはステップＳ７以
降の処理を繰り返す一方、ＹＥＳのときはステップＳ１
１に進む。次いで、ステップＳ１１でｑ∈Ｑの１つの要
素ｑに対して、かつａ∈Σの各要素ａに対して付加を表
わす状態遷移（ｑ，ａ，Ｉｎｓ＜ａ＞，ｑ）を追加す
る。そして、ステップＳ１２でａ∈Σのすべての要素ｑ
に対してＳ１１の処理を実行したか否かが判断され、Ｎ
ＯのときはステップＳ１１の処理を繰り返す一方、ＹＥ
ＳのときはステップＳ１３に進む。さらに、ステップＳ
１３でｑ∈Ｑのすべての要素ｑに対してＳ１１の処理を
実行したか否かが判断され、ＮＯのときはステップＳ１
１の処理を繰り返す一方、ＹＥＳのときはの図７のステ
ップＳ１４に進む。最後に、図７のステップＳ１４で得
られた有限状態トランスデューサ（ＦＳＴ）を有限状態
トランスデューサ（ＦＳＴ）メモリ４３に書き込む。こ
れで、第２の文法変換処理を終了する。

【００３４】図４に、図３の近似されたＦＳＡから生成
したＦＳＴを示す。スラッシュの左辺が入力記号、右辺
が出力記号を表す。疑問符が含まれている状態遷移は、
疑問符をそれぞれの入力シンボルに置き換えた複数の状
態遷移に相当する。

【００３５】第２の単語仮説絞込部７は、公知の単語グ
ラフ（例えば、従来技術文献「T. Shimizu, et al.,“S
pontaneous dialogue speech recognition using cross
-word context constrained word graphs", In Proceed
ings of ICASSP,1996年」参照。）の形式で表現された
単語列仮説のもっともらしさを、第２の文法変換部３２
で生成したＦＳＴを用いて、再尤度づけするとともに、
単語とＦＳＴの出力記号とを対応づける処理部である。
単語グラフは、入力記号が単語であるＦＳＡを状態遷移
毎に遷移尤度をもつように拡張したものとみなすことが
できる。また、この第２の単語仮説絞込部７では、あら
かじめＦＳＴの方にも、状態遷移の尤もらしさを表現す
る遷移尤度が与えられていると想定する。ＦＳＴの遷移
尤度の与え方には、さまさまな方法が考えられるが、例
えば、付加・脱落・挿入を表す遷移を通ったときに、ペ
ナルティを課す値として−１を、その他の遷移には、ペ
ナルティなしを表す０を与える。さらに、単語グラフの
遷移尤度ＸとＦＳＴの遷移尤度Ｙから新たな尤度を求め
る関数ｆを用意する。この関数ｆについても、様々な実
現が考えられるが、例えば単語グラフの尤度を無視し
て、ｆ（Ｘ，Ｙ）＝Ｙのような関数を用いる。

【００３６】単語グラフと尤度つきＦＳＴの両方に受理
される単語列について、この再尤度づけ関数ｆを用いて
計算する累積尤度を最大化するように、「単語とＦＳＴ
の出力記号の対応」列を求めるのが、第２の単語仮説絞
込部７である。第２の単語仮説絞込部７によって実行さ
れた第２の単語仮説絞込処理のフローチャートを図８乃
至図１０に示す。この処理のアルゴリズムは、例えば従
来技術文献「ジェイ・ホップクロフトほか，“オートマ
トン理論−計算論Ｉ”，サイエンス社，ｐｐ．７７」に
開示され、複数のＦＳＡが与えられたとき、これらすべ
てのＦＳＡに共通して受理される入力記号列を受理する
ようなＦＳＡを求めるアルゴリズムと、例えば従来技術
文献「J.Pearl,“Heuristics",Addison-Wesley,Readin
g,MA,1984年」に開示され、各辺にコストの定義された
有向グラフにおいて、最適パスを効率良く求めるＡ＊ア
ルゴリズムを融合したものである。当該処理中で用いら
れている変数などの意味を次の表に示す。

【００３７】

【表６】 ─────────────────────────────────── 単語グラフ：（Ｑ_wg，Σ_wg，ｑ₀，Ｆ_wg，Ｅ_wg）Ｑ_wg：状態の有限集合 Σ_wg：入力記号（単語）の有限集合ｑ₀∈Ｑ_wg：初期状態Ｆ_wg⊆Ｑ_wg：最終状態の有限集合Ｅ_wg⊆Ｑ_wg×（Σ_wg∪｛ε｝）×Ｑ_wg：状態遷移の有限集合。 ─────────────────────────────────── ＦＳＴ：（Ｑ_fst，Σ_fst，Σ’_fst，ｐ₀，Ｆ_fst，Ｅ’_fst）Ｑ_fst：状態の有限集合 Σ_fst：入力記号（品詞）の有限集合 Σ’_fst：出力記号の有限集合ｐ₀∈Ｑ_fst：初期状態Ｆ_fst⊆Ｑ_fst：最終状態の有限集合Ｅ’_fst⊆Ｑ_fst×(Σ_fst∪{ε})×Σ’_fst＊×Ｑ_fst：状態遷移の有限集合。 ─────────────────────────────────── Ｓｃｏｒｅ_wg，Ｓｃｏｒｅ_fst：状態遷移に遷移尤度を与える関数 ─────────────────────────────────── ｇ［ｑ，ｐ］：初期状態（ｑ₀，ｐ₀）から（ｑ，ｐ）までの最尤パスを格納する添字つき変数。本変数に格納されるパスとは、単語グラフの状態とＦＳＴの状態の組を新たな状態としたときの状態遷移の列をいう。この新たな状態遷移は、（単語グラフの状態とＦＳＴの状態の組、単語、品詞、ＦＳＴの出力記号列、単語グラフの状態とＦＳＴの状態の組）の４つ組からなる。 ───────────────────────────────────

【００３８】次いで、図８乃至図１０を参照して、第２
の単語仮説絞込処理について説明する。図８において、
まず、ステップＳ２１で初期設定処理を実行し、ここ
で、単語グラフの状態とＦＳＴの状態の組の集合ＯＰＥ
Ｎに初期状態｛（ｑ₀，ｐ₀）｝を代入し、初期状態［ｑ
₀，ｐ₀］までの最尤パスｇ［ｑ₀，ｐ₀］に長さφのパス
を表すＮＵＬＬを代入する。次いで、ステップＳ２２で
状態（ｑ１，ｑ２）∈ＯＰＥＮのうちパスｇ［ｑ₁，
ｑ₂］の尤度が最大のものを１つ取り出す。そして、ス
テップＳ２３でｑ₁∈Ｆ_wgかつｑ₂∈Ｆ_fstであるか否か
を判断し、ＹＥＳであれば、ステップＳ２４でｇ
［ｑ₁，ｑ₂］を最尤パスと判断して単語抽出部８に出力
して当該第２の単語仮説絞込処理を終了する。一方、ス
テップＳ２３でＮＯであるときは、ステップＳ２５で状
態（ｑ₁，ｑ₂）を変数データＯＰＥＮから取り除き、図
９のステップＳ２６に進む。

【００３９】図９のステップＳ２６で、状態（ｑ₂，
ε，α，ｑ₄）∈Ｅ_fstである状態ｑ₄について、（ａ）変数データＯＰＥＮに状態（ｑ₁，ｑ₂）を追加す
る。（ｂ）パスｇ［ｑ₁，ｑ₂］の後ろに（（ｑ₁，ｑ₂，ε，
ε，α，（ｑ₁，ｑ₄））を継ぎ足したものを変数ｇ［ｑ
₁，ｑ₄］に代入する。（ｃ）パスｇ［ｑ₁，ｑ₂］の尤度として、ｇ［ｑ₁，
ｑ₂］の尤度＋ｆ（０，Ｓｃｏｒｅ_fst（ｑ₂，ε，α，
ｑ₄））を設定する。そして、ステップＳ２７で状態（ｑ₂，ε，α，ｑ₄）∈
Ｅ_fstであるすべての状態ｑ₄についてＳ２６の処理を実
行したか否かが判断され、ＮＯのときはステップＳ２６
の処理を繰り返す一方、ＹＥＳのときはステップＳ２８
に進む。次いで、ステップＳ２８では、（ｑ₁，ｗ，
ｑ₃）∈Ｅ_wgかつ（ｑ₂，ｐｏｓ，α，ｑ₄）∈Ｅ_fstかつ
ｗ∈ｐｏｓである状態（ｑ₃，ｑ₄）を見つけて、（ａ）変数データＯＰＥＮに状態（ｑ₃，ｑ₄）を追加す
る。（ｂ）パスｇ［ｑ₁，ｑ₂］の後ろに、（（ｑ₁，ｑ₂），
ｗ，ｐｏｓ，α，（ｑ₃，ｑ₄））を継ぎ足したものを変
数ｇ［ｑ₃，ｑ₄］に代入する。（ｃ）パスｇ［ｑ₃，ｑ₄］の尤度として、ｇ［ｑ₁，
ｑ₂］の尤度＋ｆ（Ｓｃｏｒｅ_wg（ｑ₁，ｗ，ｑ₃），Ｓ
ｃｏｒｅ_fst（ｑ₂，ｗ，α，ｑ₄））を設定する。そして、ステップＳ２９で、ステップＳ２８の条件のす
べての状態（ｑ₃，ｑ₄）に対してＳ２８の処理を実行し
たか否かが判断され、ＮＯのときはステップＳ２８の処
理を繰り返す一方、ＹＥＳのときは図１０のステップＳ
３０に進む。

【００４０】ステップＳ３０では、最尤パス候補の終端
の状態集合を示す変数データＯＰＥＮが空集合であるか
否かが判断され、ＮＯのときはステップＳ２２に戻り上
記の処理を繰り返す一方、ＹＥＳのときは、ステップＳ
３１で「単語列の仮説なし」を単語抽出部８に出力し、
当該第２の単語仮説絞込処理を終了する。

【００４１】例えば、単語列“ｈｉｓａｗｇｉｒｌ
ｗｉｔｈａｔｅｌｅｓｃｏｐｅ”は単語グラフの
特殊な場合と考えることができるが、各々の単語の品詞
が次の（ａ）のようであるとすると、第２の単語仮説絞
込処理における最尤パス探索によって、単語とΣ’_fst
＊の要素は、次の（ｂ）のように対応づけることができ
る。（ａ）ｈｉ（ｉｎｔｅｒｊ），ｓａｗ（ｖｅｒｂ），ｇ
ｉｒｌ（ｎｏｕｎ），ｗｉｔｈ（ｐｒｅｐ），ａ（ｄｅ
ｔ），ｔｅｌｅｓｃｏｐｅ（ｎｏｕｎ）（ｂ）ｈｉ（Ｓｕｂｓｔ＜ｐｒｏｎ＞），ｓａｗ（ｖｅ
ｒｂ），ε（Ｄｅｌ＜ｄｅｔ＞），ｇｉｒｌ（ｎｏｕ
ｎ），ｗｉｔｈ（ｐｒｅｐ），ａ（ｄｅｔ），ｔｅｌｅ
ｓｃｏｐｅ（ｎｏｕｎ）

【００４２】最後に、単語抽出部８は、信頼性の高い単
語を抽出する処理を実行する処理部であって、第２の単
語仮説絞込部７で得られた結果の最尤パスについて、次
の方法で信頼性の低いと思われる単語を削除する。すな
わち、Ｓｕｂｓｔ，Ｄｅｌ，Ｉｎｓでマーク付された単
語を削除する。この変形例としては、Ｓｕｂｓｔ，Ｄｅ
ｌ，Ｉｎｓでマーク付された単語および、それに隣接す
る単語を削除してもよい。例えば、“ｈｉ（Ｓｕｂｓｔ
＜ｐｒｏｎ＞），ｓａｗ（ｖｅｒｂ），ε（Ｄｅｌ＜ｄ
ｅｔ＞），ｇｉｒｌ（ｎｏｕｎ），ｗｉｔｈ（ｐｒｅ
ｐ），ａ（ｄｅｔ），ｔｅｌｅｓｃｏｐｅ（ｎｏｕ
ｎ）”の例では、本実施形態の方法によって、“ｓａｗ
（ｖｅｒｂ）”，“ｇｉｒｌ（ｎｏｕｎ），ｗｉｔｈ
（ｐｒｅｐ），ａ（ｄｅｔ），ｔｅｌｅｓｃｏｐｅ（ｎ
ｏｕｎ）”が、変形例の方法によって、“ｗｉｔｈ（ｐ
ｒｅｐ），ａ（ｄｅｔ），ｔｅｌｅｓｃｏｐｅ（ｎｏｕ
ｎ）”が得られる。

【００４３】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の２つの音素とを含
む３つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも１つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。

【００４４】以上の実施形態において、特徴抽出部２
と、単語照合部４と、第１と第２の単語仮説絞込部６，
７と、言語モデル生成部２０と、第１と第２の文法変換
部３１，３２とは、例えば、デジタル電子計算機で構成
される一方、バッファメモリ３，５と、音素ＨＭＭメモ
リ１１と、単語辞書メモリ１２と、学習用テキストデー
タメモリ２１と、統計的言語モデルメモリ２２と、文脈
自由文法メモリ４１と、有限状態オートマトンメモリ４
２と、有限状態トランスデューサメモリ４３とは、例え
ばハードディスクメモリなどの記憶装置で構成される。
なお、以上の実施形態において、単語照合部４と、第１
と第２の単語仮説絞込部６，７は音声認識手段を構成し
ている。

【００４５】本実施形態の音声認識装置のすべての音声
認識処理のための音声認識処理プログラムを、光ディス
ク又は光磁気ディスクなどの記録媒体に記録して、例え
ば１つのデジタル電子計算機で当該処理プログラムを実
行するように構成してもよい。

【００４６】

【実施例】本発明者は、本実施形態の音声認識装置の性
能を評価するために、以下の実験を行った。ここでは、
Ｎ−ｇｒａｍに基づく統計学的言語モデルのみを使用し
て認識される最上位（トップベスト）単語列の信頼性
と、最上位の単語列をロバスト・パージング、すなわち
頑健なパージング（本実施形態における第２の単語仮説
絞込部７及び単語抽出部８によって構成されるパージン
グ処理部によるパージング処理をいう。）することによ
り取得される断片的な単語列の信頼性を比較した。音声
認識タスクには、本特許出願人が所有する自然音声デー
タベースに含まれる５５のホテル予約会話を使用した。
このデータベースの場合、会話は２カ国語であり、話者
は通訳を介して会話している。認識実験には、のべ２
２，６９５単語からなる日本語による１，５３５発話を
使用した。また、文脈自由文法は音声認識用に開発され
たものを使用した。この文法は１８３２項目の規則で構
成され、文ではなくポーズ挿入可能な発話断片を文法の
単位としている。文法は認識実験に使用された５５会話
に含まれる９会話を使用して開発した。Ｎ−ｇｒａｍに
基づく統計学的言語モデルとしては、先の５５会話を含
む９８会話で作成した可変長Ｎ−ｇｒａｍを使用した。

【００４７】単語セグメントの信頼性の評価には、情報
検索の研究分野で使用される適合率を使用する。適合率
は以下のように定義される。

【数２】適合率＝合致した単語数／認識された単語数×１００合致した単語数とは認識された単語列と正解単語列との
間で一致する単語の最大数である。一般的な認識率とは
分母が異なっており、分母が正解単語数ならば通常の認
識率となる。

【００４８】可変長Ｎ−ｇｒａｍを使用した最上位（ト
ップベスト）の認識結果における適合率は、６８％であ
った。これに対して、頑健なパージングによって得られ
た発話断片の適合率は７３％であった。この実験は、我
々が提案する音声認識方法を使用すれば、発話に含まれ
る信頼性の高い断片を獲得することが可能であることを
示している。

【００４９】音声認識のためには、取得する部分発話断
片の信頼性だけでなく頑健なパージングの正解単語カバ
ー率を高めることも必要である。

【数３】正解単語の適用範囲＝（頑健なパージングの出
力正解単語数）／（頑健なパージングの入力正解単語
数）×１００通常、同じ文法的制約を用いる場合であっても、本実施
形態の頑健なパージングの柔軟性によって得られる発話
断片の信頼性と正解単語のカバー率との間にはトレード
オフが存在する。このトレードオフの関係を調べるた
め、本発明に係る本実施形態のきつい頑健なパージング
についても認識実験を行った。

【００５０】きつい頑健なパージングは、挿入、削除及
び置換を隣接単語を含めて無視することによって達成さ
れる。これは隣接単語が、挿入、削除、置換の影響をう
けて信頼性が低いと考えられるためである。例えば、こ
のきつい頑健なパージング法を使用した場合、“ｈｉ
（Ｓｕｂｓｔ＜ｐｒｏｎ＞），ｓａｗ（ｖｅｒｂ），ε
（Ｄｅｌ＜ｄｅｔ＞），ｇｉｒｌ（ｎｏｕｎ），ｗｉｔ
ｈ（ｐｒｅｐ），ａ（ｄｅｔ），ｔｅｌｅｓｃｏｐｅ
（ｎｏｕｎ）”からは、“ｓａｗ（ｖｅｒｂ）”，“ｇ
ｉｒｌ（ｎｏｕｎ），ｗｉｔｈ（ｐｒｅｐ），ａ（ｄｅ
ｔ），ｔｅｌｅｓｃｏｐｅ（ｎｏｕｎ）”が得られる。

【００５１】図１１は、頑健なパージングによって棄却
された単語の割合を示している。図１１から明らかなよ
うに、本実施形態のきつい頑健なパージングを使用すれ
ば、７３％の信頼性を８１％に向上させることができ
る。しかし、反対に正解単語のカバー率は８９％≒（４
７％＋１４％）／６８％から６９％≒４７％／６８％に
低減する。現在使用している文法の最大の問題は、その
辞書項目が実験に用いた認識対象発話を不十分にカバー
していないという点にある。我々の頑健なパージング法
では、文法の語彙項目に含まれない単語は挿入または置
換と見なされる。この語彙数の欠如を反映して、我々の
文法の認識対象発話カバー率はゆるい頑健なパージング
法を用いた場合８９％であり、きつい方法を用いた場合
は７１％である。これらの比率はそれぞれ、上述の正解
単語カバー率８９％と６９％にほぼ等しい。従って、文
法上の辞書項目が十分でさえあれば、正解単語をさらに
カバーすることが可能となる。

【００５２】頑健な音声対話システムを達成するため、
我々は、Ｎ−ｇｒａｍに基づく統計学的言語モデルを使
用した認識結果を頑健なパージング処理を行うことによ
り信頼できる部分的な発話断片を得る認識方法を発明し
た。我々の方法は、ＣＦＧによって表現された文法的制
約を効果的に適用可能な表現に近似変換することによっ
て頑健なパージングに使用している。後段の文法を文法
的制約として使用することにより、音声対話システム全
体の性能を向上させることができる。自然発話音声認識
の実験を通して、我々の方法がＮ−ｇｒａｍに基づく統
計学的言語モデルだけを使用する従来の連続音声認識と
比べて信頼性の高い部分発話断片を取得可能であること
を示した。信頼できる発話断片を求めた後、その情報を
用いて、それ以外の部分を求めなおす再探索法にも拡張
が可能である。我々の認識方法は、マルチパス探索法に
基づく頑健な認識にも拡張可能である。こうした方法は
最初のパスの後に信頼できるセグメントの情報を使用す
る。特に未知語を含んだ発話の認識には、このタイプの
探索方法が不可欠である。

【００５３】以上説明したように、本実施形態によれ
ば、以下の特有の効果を有する。（ａ）統計的な言語制約と、文法的な制約とを、本実施
形態のように組み合わせることにより、単独の制約を用
いた場合より、文法的でない自然発話を、高い精度で認
識可能であり、信頼性の高い区間を見つけることができ
る。（ｂ）有限状態オートマトンに基づいた近似的な文法制
約を用いることで、効率的な制約適用が可能である。従
って、音声認識処理を従来技術に比較して高速で実行す
ることができる。（ｃ）文法を逸脱した部分の単語を無視することによっ
て、信頼性高く認識された発話断片を求めることができ
る。これによって、求められた発話断片に対する音声認
識率を従来技術に比較して大幅に向上させることができ
る。（ｄ）本実施形態は、信頼性高く認識された発話断片に
基づいて、発話理解処理を進める音声対話方法及び装置
や、この発話断片情報をもとに、認識候補の再探索を行
うマルチパス探索方法に適用することができる。これら
の方法及び装置では、それぞれ頑健な音声理解、音声認
識が可能となる。

【００５４】

【発明の効果】以上詳述したように本発明によれば、入
力される発声音声文の音声信号に基づいて上記発声音声
文を音声認識する音声認識方法及び装置、並びに、音声
認識処理プログラムを記録した記録媒体であって、所定
の文脈自由文法を、文法的制約を表わす有限状態オート
マトンに変換し、上記変換された有限状態オートマトン
を、自然発話における単語の挿入、脱落、置換の状態遷
移を含み文法的制約を表わす有限状態トランスデューサ
に変換し、入力される発声音声文の音声信号に基づい
て、所定の統計的言語モデルと、上記変換された有限状
態トランスデューサとを参照して、自然発話における単
語の挿入、脱落、置換に該当する単語にマーク付けする
ように上記発声音声文を音声認識し、上記音声認識され
た結果に基づいて、上記マーク付けされた単語、もしく
は、上記マーク付けされた単語及びそれに隣接する単語
を、文法を逸脱した部分の単語として削除して音声認識
結果を出力する。

【００５５】従って、本発明によれば、以下の特有の効
果を有する。（ａ）統計的な言語制約と、文法的な制約とを、本発明
のように組み合わせることにより、単独の制約を用いた
場合より、文法的でない自然発話を、高い精度で認識可
能であり、信頼性の高い区間を見つけることができる。（ｂ）有限状態オートマトンに基づいた近似的な文法制
約を用いることで、効率的な制約適用が可能である。従
って、音声認識処理を従来技術に比較して高速で実行す
ることができる。（ｃ）文法を逸脱した部分の単語を無視することによっ
て、信頼性高く認識された発話断片を求めることができ
る。これによって、音声認識率を従来技術に比較して大
幅に向上させることができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である音声認識装置
のブロック図である。

【図２】図１の音声認識装置における第１の単語仮説
絞込部６の処理を示すタイミングチャートである。

【図３】図１の第１の文法変換部３１によって変換さ
れた近似された有限状態オートマトン（ＦＳＡ）の一例
を示す図である。

【図４】図１の第２の文法変換部３２によって変換さ
れた近似された有限状態トランスデューサ（ＦＳＴ）の
一例を示す図である。

【図５】図１の第２の文法変換部３２によって実行さ
れる第２の文法変換処理の第１の部分を示すフローチャ
ートである。

【図６】図１の第２の文法変換部３２によって実行さ
れる第２の文法変換処理の第２の部分を示すフローチャ
ートである。

【図７】図１の第２の文法変換部３２によって実行さ
れる第２の文法変換処理の第３の部分を示すフローチャ
ートである。

【図８】図１の第２の単語仮説絞込部７によって実行
される第２の単語仮説絞込処理の第１の部分を示すフロ
ーチャートである。

【図９】図１の第２の単語仮説絞込部７によって実行
される第２の単語仮説絞込処理の第２の部分を示すフロ
ーチャートである。

【図１０】図１の第２の単語仮説絞込部７によって実
行される第２の単語仮説絞込処理の第３の部分を示すフ
ローチャートである。

【図１１】図１の音声認識装置のシミュレーション結
果であって、第２の単語仮説絞込部７によって棄却され
た単語の割合を示す図である。

【図１２】図１の第１の文法変換部３１によって実行
される第１の文法変換処理におけるドットつき規則の閉
包集合と集合間の遷移を示す状態遷移図である。

【図１３】図１の第１の文法変換部３１によって実行
される第１の文法変換処理におけるε遷移の追加を示す
状態遷移図である。

【図１４】図１の第１の文法変換部３１によって実行
される第１の文法変換処理における非終端記号の遷移の
削除を示す状態遷移図である。

【図１５】図１の第１の文法変換部３１によって実行
される第１の文法変換処理における決定的かつ最小なＦ
ＳＡへの変換を示す状態遷移図である。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３，５…バッファメモリ、４…単語照合部、６…第１の単語仮説絞込部、７…第２の単語仮説絞込部、８…単語抽出部、１１…音素ＨＭＭメモリ、１２…単語辞書メモリ、２０…言語モデル生成部、２１…学習用テキストデータ、２２…統計的言語モデル、３１…第１の文法変換部、３２…第２の文法変換部、４１…文脈自由文法（ＣＦＧ）メモリ、４２…有限状態オートマトン（ＦＳＡ）メモリ、４３…有限状態トランスデューサ（ＦＳＴ）メモリ。

フロントページの続き (72)発明者匂坂芳典京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (56)参考文献特開平８−123476（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力される発声音声文の音声信号に基づ
いて上記発声音声文を音声認識する音声認識方法であっ
て、所定の文脈自由文法を、文法的制約を表わす有限状態オ
ートマトンに変換するステップと、上記変換された有限状態オートマトンを、自然発話にお
ける単語の挿入、脱落、置換の状態遷移を含み文法的制
約を表わす有限状態トランスデューサに変換するステッ
プと、入力される発声音声文の音声信号に基づいて、所定の統
計的言語モデルと、上記変換された有限状態トランスデ
ューサとを参照して、自然発話における単語の挿入、脱
落、置換に該当する単語にマーク付けするように上記発
声音声文を音声認識するステップと、上記音声認識された結果に基づいて、上記マーク付けさ
れた単語、もしくは、上記マーク付けされた単語及びそ
れに隣接する単語を、文法を逸脱した部分の単語として
削除して音声認識結果を出力するステップとを含むこと
を特徴とする音声認識方法。
【請求項２】入力される発声音声文の音声信号に基づ
いて上記発声音声文を音声認識する音声認識装置であっ
て、所定の文脈自由文法を、文法的制約を表わす有限状態オ
ートマトンに変換する第１の変換手段と、上記第１の変換手段によって変換された有限状態オート
マトンを、自然発話における単語の挿入、脱落、置換の
状態遷移を含み文法的制約を表わす有限状態トランスデ
ューサに変換する第２の変換手段と、入力される発声音声文の音声信号に基づいて、所定の統
計的言語モデルと、上記第２の変換手段によって変換さ
れた有限状態トランスデューサとを参照して、自然発話
における単語の挿入、脱落、置換に該当する単語にマー
ク付けするように上記発声音声文を音声認識する音声認
識手段と、上記音声認識手段によって音声認識された結果に基づい
て、上記マーク付けされた単語、もしくは、上記マーク
付けされた単語及びそれに隣接する単語を、文法を逸脱
した部分の単語として削除して音声認識結果を出力する
単語抽出手段とを備えたことを特徴とする音声認識装
置。
【請求項３】入力される発声音声文の音声信号に基づ
いて上記発声音声文を音声認識する音声認識処理プログ
ラムを記録した記録媒体であって、所定の文脈自由文法を、文法的制約を表わす有限状態オ
ートマトンに変換するステップと、上記変換された有限状態オートマトンを、自然発話にお
ける単語の挿入、脱落、置換の状態遷移を含み文法的制
約を表わす有限状態トランスデューサに変換するステッ
プと、入力される発声音声文の音声信号に基づいて、所定の統
計的言語モデルと、上記変換された有限状態トランスデ
ューサとを参照して、自然発話における単語の挿入、脱
落、置換に該当する単語にマーク付けするように上記発
声音声文を音声認識するステップと、上記音声認識された結果に基づいて、上記マーク付けさ
れた単語、もしくは、上記マーク付けされた単語及びそ
れに隣接する単語を、文法を逸脱した部分の単語として
削除して音声認識結果を出力するステップとを含む音声
認識処理プログラムを記録したことを特徴とする音声認
識処理プログラムを記録した記録媒体。