JPH08123479A

JPH08123479A - 連続音声認識装置

Info

Publication number: JPH08123479A
Application number: JP6262248A
Authority: JP
Inventors: Toru Shimizu; 徹清水; Masayasu Monzen; 聖康門前; Shoichi Matsunaga; 昭一松永; Shingaa Hararudo; ハラルド・シンガー
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1994-10-26
Filing date: 1994-10-26
Publication date: 1996-05-17

Abstract

(57)【要約】【目的】音素照合の処理時間を短縮して音声認識の計
算量を削減することができ、しかも従来例に比較して音
声認識率を改善することができる連続音声認識装置を提
供する。【構成】ＬＲパーザは、音素履歴木と状態ネットワー
クとを格納するメモリを備え、文脈自由文法を参照して
フレームに同期して動作する探索部から入力される検出
音素に基づいて音素履歴木と状態ネットワークとを展開
して作成し、状態ネットワークの各ノードにおける予測
音素の和集合を音素履歴木の対応するノードにおけるメ
モリに格納するとともに、予測音素の和集合を探索部に
出力し、探索部は、ＬＲパーザからの予測音素の和集合
に基づいてＨＭＭを参照して、入力フレーム番号とＨＭ
Ｍの状態番号と予測音素と音素履歴木のノードとからな
るグリッド仮説を作成して音素履歴木の尤度を計算し所
定の尤度を有する音素履歴木から得られる文字列を音声
認識結果として出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力される発声音声文
を、発声音声の所定の時間に対応するフレームに同期し
て、連続的に音声認識する連続音声認識装置に関する。

【０００２】

【従来の技術】高精度の連続音声認識装置を構成するた
めの従来例の方法が、例えば、北研二ほか，“ＨＭＭ音
韻認識と拡張ＬＲ構文解析法を用いた連続音声認識”，
情報処理学会論文誌，Ｖｏｌ．３１，Ｎｏ．３，ｐｐ．
４７２−４８０，１９９０年３月において開示されてい
る。この従来例の方法は、入力記号を左から右に一方向
に読みながら、バックトラックなしに決定的に解析を進
めることができる従来の拡張ＬＲ構文解析法で用いられ
る構文解析動作表から入力音声データ中の音韻を予測
し、予測された音韻の尤度を、隠れマルコフモデル（以
下、ＨＭＭという。）の音韻照合により調べることによ
り、音声認識と言語処理を同時に音素同期で進行させる
ことを特徴としている。

【０００３】この従来例の方法では、文法規則は、ＬＲ
テーブルの生成系により、予めＬＲテーブル（動作表及
び行先表）に変換しておきそれぞれの音韻モデルも予め
用意しておく。この方法の音素同期型ＨＭＭ−ＬＲパー
ザは、ＬＲテーブルから、発話された音声データ中の音
韻を予測し、予測された音韻に対してＨＭＭの音韻照合
を駆動することにより、予測された音韻の尤度を計算す
る。これにより、音声認識と言語処理とを同時進行させ
る。ここで、セルというデータ構造が導入される。セル
は、解析に必要な情報を保存しておくためのデータ構造
であり、入力音声データに対する認識候補のそれぞれに
つき１つのセルが用いられ、次の２つの情報がセルに格
納される。（ａ）ＬＲパーザの状態スタック、及び（ｂ）認識され
た音韻列の時間軸上の各点での尤度を格納しておくため
の配列である確率テーブル。この従来例の方法は、ＬＲテーブルを予測に用いるとい
う点が、従来のＬＲ構文解析法とは大きく異なる点であ
り、この従来例の方法の特徴となっている。また、この
方法では、音声認識と言語処理の間に音韻／単語ラティ
ス等の中間的なデータを介さないため、効率的かつ高精
度に音声データの処理を実行することができるという利
点がある。

【０００４】

【発明が解決しようとする課題】一般に、連続発声され
た音声文の音声認識では、文節発声に比較して文法的曖
昧性が増加するが、従来例の音素同期型ＨＭＭ−ＬＲパ
ーザでは、１つのＬＲスタックを１つのセルで表現する
ために、文法的曖昧性の増加に伴い、複数の仮説を生成
するために、同一音素列に対する仮説数も増加する。こ
のため、音素照合が重複し処理時間が多くなる問題点が
あった。また、音素同期型探索では尤度の正規化が必要
であるが、正規化の精度が悪いと音声認識率が低下する
問題点があった。

【０００５】本発明の目的は以上の問題点を解決し、音
素照合の処理時間を短縮して音声認識の計算量を削減す
ることができ、しかも従来例に比較して音声認識率を改
善することができる連続音声認識装置を提供することに
ある。

【０００６】

【課題を解決するための手段】本発明に係る連続音声認
識装置は、入力される発声音声文に基づいて、発声音声
の所定の時間に対応するフレームに同期して動作し、所
定の隠れマルコフモデルを参照して音素を検出してその
尤度を計算する探索手段と、上記探索手段によって検出
された音素に基づいて所定の文脈自由文法を参照して次
の音素を予測して当該予測音素を上記探索手段に出力す
る統語解析手段とを備え、上記入力された発声音声文を
連続的に音声認識する連続音声認識装置であって、上記
統語解析手段は、音素履歴木と状態ネットワークとを格
納する記憶手段を備え、上記文脈自由文法を参照して、
上記探索手段から入力される検出音素に基づいて、上記
音素履歴木と上記状態ネットワークとを展開して作成
し、上記状態ネットワークの各ノードにおける予測音素
の和集合を上記音素履歴木の対応するノードにおける上
記記憶手段に格納するとともに、上記予測音素の和集合
を上記探索手段に出力し、上記探索手段は、上記統語解
析手段から出力された予測音素の和集合に基づいて、上
記隠れマルコフモデルを参照して、入力フレーム番号
と、隠れマルコフモデルの状態番号と、予測音素と、音
素履歴木のノードとからなるグリッド仮説を作成して当
該音素履歴木の尤度を計算し、所定の尤度を有する音素
履歴木から得られる文字列を音声認識結果として出力す
ることを特徴とする。

【０００７】

【作用】以上のように構成された連続音声認識装置にお
いては、上記統語解析手段は、音素履歴木と状態ネット
ワークとを格納する記憶手段を備え、上記文脈自由文法
を参照して、上記探索手段から入力される検出音素に基
づいて、上記音素履歴木と上記状態ネットワークとを展
開して作成し、上記状態ネットワークの各ノードにおけ
る予測音素の和集合を上記音素履歴木の対応するノード
における上記記憶手段に格納するとともに、上記予測音
素の和集合を上記探索手段に出力する。そして、上記探
索手段は、上記統語解析手段から出力された予測音素の
和集合に基づいて、上記隠れマルコフモデルを参照し
て、入力フレーム番号と、隠れマルコフモデルの状態番
号と、予測音素と、音素履歴木のノードとからなるグリ
ッド仮説を作成して当該音素履歴木の尤度を計算し、所
定の尤度を有する音素履歴木から得られる文字列を音声
認識結果として出力する。

【０００８】

【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図１は、本発明に係る一実施例である
連続音声認識装置のブロック図である。本実施例の連続
音声認識装置は、マイクロホン１と、特徴抽出部２と、
バッファメモリ３と、探索部４と、いわゆる統語解析部
と呼ばれるＬＲパーザ５とを備え、マイクロホン１に入
力される発声音声を、所定の複数の音声データに対する
フレームで同期しながら連続的に音声認識する装置であ
る。この装置は、特に、文脈自由文法を参照する連続音
声認識装置において、音素予測を行うＬＲパーザ５と、
音素系列を探索する探索部４とを分離することにより、
ＬＲパーザ５の音素予測時に同一の音素系列に対する文
法的解釈が複数生じる場合において、ＬＲパーザ５は、
音素系列の違いのみに基づいて予測音素の和集合を探索
部４に出力し、探索部４における仮説数を削減すること
を特徴としている。

【０００９】本実施例においては、音声認識のための統
計的音素モデルセットとしてＨＭＭを使用している。Ｈ
ＭＭはガウス分布を含む状態の結合で構成される。本実
施例においては、ＨＭＭのパラメータとして、ガウス分
布で表現される出力確率及び遷移確率を有する。

【００１０】次いで、本実施例のフレーム同期型ＨＭＭ
−ＬＲ（left-to-right rightmost型）不特定話者連続
音声認識装置について説明する。この装置は、ＨＭＭメ
モリ７に格納されたＨＭＭの表現形式を用いている。

【００１１】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して探索部４に入力される。

【００１２】探索部４に接続されるＨＭＭメモリ７内の
ＨＭＭは、各状態をノードとする音素ＨＭＭであり、各
状態はそれぞれ以下の情報を有する。（ａ）状態番号（ｂ）受理可能なコンテキストクラス（ｃ）出力確率密度分布のパラメータ（ｄ）自己遷移確率及び後続状態への遷移確率

【００１３】探索部４に接続されるグリッド仮説メモリ
６内のグリッド仮説は、図４に示すように、次の４個の
パラメータで決定される仮説である。（ａ）ｉ：入力フレーム番号；（ｂ）ｊ：検出中のＨＭＭの状態番号；（ｃ）ｎ：ＬＲパーザ５によって予測された予測音素；（ｄ）ｓ：前のフレームで認識された音素履歴木のノー
ド。探索部４は、メモリ６内のグリッド仮説をワン・パス・
ヴィタービ（ＯｎｅＰａｓｓＶｉｔｅｒｖｉ）サーチ
に基づいて、各フレーム毎に展開しながら計算する。そ
して、各フレーム毎に計算された仮説の尤度の累積値に
基づき枝刈りを行なう。すなわち、探索部４は、音声デ
ータのフレーム毎にフレーム同期して動作し、ＨＭＭメ
モリ７内のＨＭＭを用いてフレーム内の音声データに対
するグリッド仮説が計算され、このグリッド仮説の尤度
の累積値により検出された音素をＬＲパーザ５に出力す
る。

【００１４】一方、文脈自由文法データベースメモリ２
０内の所定の文脈自由文法（ＣＦＧ）を公知の通り自動
的に変換してＬＲテーブルを作成してＬＲテーブルメモ
リ２１に格納される。ＬＲパーザ５は、上記ＬＲテーブ
ル２１を参照して、音素履歴木５１とＬＲ状態ネットワ
ーク５２を展開して作成することにより、入力された検
出音素について左から右方向に、後戻りなしに処理す
る。音素履歴木５１とＬＲ状態ネットワーク５２とはＬ
Ｒパーザ５内のＲＡＭに格納される。ＬＲ状態ネットワ
ーク５２は、ＬＲスタックをグラフ構造化したもので、
ノードはスタックの状態、枝は処理の実行時の遷移を表
す。ＬＲ状態ネットワーク５２は音素検出に際してのみ
動的に展開される。一度展開したノード系列に対する処
理は、ＬＲパーザ処理を実行せずトレースのみで高速に
行なう。また、音素履歴木５１は、音素系列を木構造で
表したもので、グリッド仮説とＬＲ状態ネットワーク５
２とを結び付ける役目を果たす。当該音素履歴木５１の
ノードのＲＡＭには、ＬＲ状態ネットワーク５２で得ら
れる予測音素の和集合が格納保持される。なお、構文的
にあいまいさがある場合は、ＬＲ状態ネットワーク５２
における枝を分割してすべての候補の解析が平行して処
理される。ＬＲパーザ５は、ＬＲテーブルメモリ１３内
のＬＲテーブルから次にくる後続の音素を予測して、上
記音素履歴木５１のノードに保持された予測音素の和集
合を探索部４に出力する。

【００１５】これに応答して、探索部４は、その音素に
対応するＨＭＭメモリ７内の情報を参照して照合し、そ
の尤度の累積値を計算して、順次音素を連接していくこ
とにより、連続音声の認識を行い、その音声認識結果デ
ータを出力する。上記連続音声の認識において、複数の
音素が予測された場合は、これらすべての存在をチェッ
クし、ビームサーチの方法により、部分的な音声認識の
尤度の高い部分木を残すという枝刈りを行って高速処理
を実現する。

【００１６】図２は、図１の探索部４によって実行され
る探索処理を示すフローチャートである。図２に示すよ
うに、まず、ステップＳ１においては、文頭における予
測音素の集合をＬＲパーザ５の音素履歴木５１から読み
出す。次いで、ステップＳ２において、予測音素の集合
Ｌに対する時刻０のグリッド仮説の集合を作成する。そ
して、ステップＳ３で入力フレーム番号に対応した時刻
パラメータｉを０にセットする。さらに、ステップＳ４
で、時刻ｉのすべてのグリッド仮説に対して時刻ｔ＋１
のグリッド仮説が作成されたか否かが判断され、作成さ
れていないとき（ステップＳ４でＮＯ）ステップＳ５に
おいてグリッド仮説により音素を検出したか否かが判断
される。音素を検出したとき（ステップＳ５でＹＥＳ）
ステップＳ６でＬＲパーザ５の音素履歴木５１から予測
音素の和集合を読み出してステップＳ７に進む。一方、
ステップＳ５で音素を検出しないときは（ステップＳ５
でＮＯ）そのままステップＳ７に進む。ステップＳ７で
は、時刻ｔ＋１のグリッド仮説を生成して、ステップＳ
４に戻る。

【００１７】ステップＳ４で、時刻ｉのすべてのグリッ
ド仮説に対して時刻ｔ＋１のグリッド仮説が作成された
とき（ステップＳ４でＹＥＳ）は、ステップＳ８で時刻
パラメータｉを１だけインクリメントして更新して、ス
テップＳ９で時刻パラメータｉが所望の目標時刻Ｉに到
達したか否かが判断される。到達していないときは（ス
テップＳ９でＮＯ）ステップＳ４に戻り処理を続ける。
一方到達しているときは（ステップＳ９でＹＥＳ）ステ
ップＳ１０で、最も尤度の高いグリッド仮説の音素履歴
木のノードから得られる文字列を音声認識結果として出
力する。

【００１８】図３は、図１のＬＲパーザ５によって実行
されるＬＲパージング処理を示すフローチャートであ
る。図３に示すように、まず、ステップＳ２１におい
て、検出音素ｎと音素履歴木５１のノードｓを探索部４
から入力する。次いで、ステップＳ２１で、音素履歴木
５１のノードｓに枝ｎを接続し新たなノードｓ’とす
る。さらに、ステップＳ２３で音素履歴木５１のノード
ｓにリンクしたＬＲ状態ネットワーク５２のノードの組
Ｌを求める。そして、ステップＳ２４で、まず、予測音
素Ｃを空集合φとセットするとともに、次のノードのＬ
Ｒ状態ネットワーク５２のノードノ組Ｌ’を空集合φと
セットしてステップＳ２５の判断分岐に進む。

【００１９】ステップＳ２５では、ｐ∈Ｌのすべてのノ
ードｐについて検出音素ｎに対応するＬＲ状態ネットワ
ーク５２の展開を行ったか否かが判断される。すべての
検出音素ｐについて行っていないときは（ステップＳ２
５でＮＯ）ステップＳ２６において、ＬＲ状態ネットワ
ーク５２のノードｐの枝ｎを接続して、新たなノード
ｐ’とする。そして、ステップＳ２７では、新たなノー
ドｐ’における予測音素の集合Ｃ（ｐ’）を求める。さ
らに、ステップＳ２８で、予測音素の集合Ｃと、新たな
ノードｐ’における予測音素の集合Ｃ（ｐ’）との和集
合を、予測音素の集合Ｃとおくとともに、次のノードの
ＬＲ状態ネットワークのノードの組Ｌ’と、新たなノー
ドｐ’との和集合を、新たなＬＲ状態ネットワークのノ
ードの組Ｌ’とおいて、ステップＳ２５に戻る。すなわ
ち、ｐ∈Ｌのすべてのノードｐについて検出音素ｎに対
応するＬＲ状態ネットワーク５２の展開を行うまで、ス
テップＳ２６乃至Ｓ２８の処理が実行される。

【００２０】そして、ｐ∈Ｌのすべてのノードｐについ
て検出音素ｎに対応するＬＲ状態ネットワーク５２の展
開を行ったときは（ステップＳ２５でＹＥＳ）、ステッ
プＳ２９で音素履歴木５１のノードｓ’に、予測音素の
集合ＣとＬＲ状態ネットワーク５２のノードの組Ｌ’と
を保存する。保存された情報は、探索部４から読み出さ
れる。

【００２１】図４は、図１の連続音声認識装置によって
実行される連続音声認識処理を示す概念のブロック図で
ある。この連続音声認識装置の特徴は、音素履歴木５１
を用いて、探索部４とＬＲパーザ５との機能を分離した
ことと、探索部４での仮説の比較を高速化したことであ
る。これらについて以下に詳述する。

【００２２】グリッド仮説は、入力フレーム番号、ＨＭ
Ｍの状態番号、予測音素、及び音素履歴木５１のノード
でのみ区別される。従って、音素履歴木５１の１つのノ
ードが指しているＬＲ状態ネットワーク５２のノード数
はグリッド仮説の数に影響を与えない。例えば、音素履
歴木５１の１つのノードにおける、“ｈ−ａ−ｄ”の
“ｄ”に対応する、ＬＲ状態ネットワーク５２のノード
である、“ｈ−ａ−ｄ”の“ｄ”はノード３とノード１
１の２状態が存在し、その状態数はグリッド仮説の数に
影響を与えない。すなわち、音素履歴木５１は同一音素
系列に対する文法仮説のパッキング機能を有する。従来
の音素同期型ＨＭＭ−ＬＲ音声認識装置では、この種の
パッキングは行なわれていない。なお、ＬＲ状態ネット
ワーク５２におけるノード０からノード１などの移動
（シフト）は、ＬＲパーザ５の状態記号をスタックに積
む動作であり、ノード２から１０ヘは、スタック上の記
号を文法規則によりまとめあげていく動作である還元
（reduce）を示している。

【００２３】逆に、音素履歴木５１や状態ネットワーク
５２の展開をグリッド仮説の音素検出時のみ行なうこと
により、探索部４の音素照合処理の曖昧性はＬＲパーザ
５の処理の負荷にならない。同一のグリッド仮説のマー
ジや、自然数Ｎ個の最尤候補を求めるためのグリッド仮
説の枝刈りは、探索部４のみで実行可能である。すなわ
ち、音素履歴木のノード、予測音素、及びＨＭＭ状態番
号が同一のグリッド仮説は尤度が最も大きいグリッド仮
説のみを残せばよい。また、音素系列が異なっても、Ｌ
Ｒ状態ネットワーク５２のノードと、ＨＭＭ状態番号と
が同一のグリッド仮説は以降の時刻の音響尤度が等しい
ので、その時点で尤度の大きい順に自然数Ｎ個の候補を
残せばＮ個の最尤候補を求めることができる。なお、枝
刈りは、例えば次の３つの方法のうちの１つを用いるこ
とができる。（ａ）尤度の評価値の上位Ｎ個の最尤候補を残す。（ｂ）尤度の評価値が、所定の尤度のしきい値以上の候
補を残す。（ｃ）最大の尤度から所定の値だけ減少させた値をしき
い値として用いて、尤度の評価値が当該しきい値以上の
候補を残す。

【００２４】さらに、本実施例においては、フレーム同
期型処理で頻繁に発生する同一のグリッド仮説、すなわ
ち、入力フレーム番号と、音素履歴木のノードと、予測
音素と、ＨＭＭ状態番号が同じグリッド仮説のマージに
おいて、音素系列の比較が、音素履歴木５１のノードの
比較のみで高速に行なうことができるという特有の利点
がある。

【００２５】以上の実施例においては、ＨＭＭを用いて
いるが、本発明はこれに限らず、隠れマルコフネットワ
ーク（以下、ＨＭ網という。）を用いても良い。以上の
実施例においては、ワン・パス・ヴィタービサーチの方
法を用いているが、本発明はこれに限らず、ツー・パス
・サーチ又はスリー・パス・サーチなどのマルチ・パス
・ヴィタービサーチの方法を用いてもよい。

【００２６】本発明者は、本実施例の連続音声認識装置
の有効性を確認するために、特定話者文節音声認識シミ
ュレーション及び特定話者文認識シミュレーションを行
った。当該シミュレーションにおいては、音声資料は本
出願人が所有の「国際会議に関する問い合わせ」に関す
るタスクを用いた。ここで、文節音声認識では、１２対
話、７０１文節の文節を用いてシミュレーションを行う
一方、文音声認識では、７対話、１３６文章の文章を用
いてシミュレーションを行った。文脈自由文法は、タス
ク依存型文節内文法（パープレキシティーが２．６６で
ある。）および文文法（パープレキシティーが２．７９
である。）を用い、音響モデルはＨＭ網を用いた。この
ＨＭ網において、５２４０単語の偶数番目の単語から学
習し状態数６００を有する。特徴抽出部２の音響分析に
おいては、次のパラメータを用いた。（ａ）標本化周波数：１２ｋＨｚ；（ｂ）フレーム周期：５ｍｓ；（ｃ）ハミング窓：３０ｍｓ；（ｄ）特徴パラメータ：１次乃至１６次ＬＰＣケプスト
ラム、１次乃至１６次ΔＬＰＣケプストラム、対数パワ
ー、及びΔ対数パワー。

【００２７】上記特定話者モデルを用いた文節音声認識
及び文音声認識の結果をそれぞれ表１及び表２に示す。
文節音声認識実験では従来例の音素同期型ＨＭＭ−ＬＲ
連続音声認識装置の結果も併せて示す。なお、表１及び
表２において、トップ１は尤度が最大の１個のもののみ
の認識率であり、トップ５は尤度が最大から５位までの
５個のものの認識率であり、トップ１０は尤度が最大か
ら１０位までの１０個のものの認識率である。

【００２８】

【表１】特定話者文節音声認識実験における文節認識率（％）と１文節あたりのＣＰＵ時間（秒） ─────────────────────────────────── 文節認識率（％） ──────────────────── ビーム幅トップ１トップ５トップ１０ＣＰＵ時間（秒） ─────────────────────────────────── ５０８４．７８７．７８７．７０．８ ─────────────────────────────────── １００９０．７９４．６９４．７１．９ ─────────────────────────────────── ２００９３．６９８．７９９．０５．１ ─────────────────────────────────── ４００９３．９９９．３９９．７１３．９ ─────────────────────────────────── ８００９４．０９９．４９９．９３９．１ ─────────────────────────────────── ２５０＊９１．０９８．６ − ６．３ ─────────────────────────────────── （注）＊は従来例の音素同期型ＨＭＭ−ＬＲパーザによる結果

【００２９】

【表２】特定話者文音声認識実験における文認識率（％）と１文章あたりのＣＰＵ時間（秒） ─────────────────────────────────── 文認識率（％） ──────────────────── ビーム幅トップ１トップ５トップ１０ＣＰＵ時間（秒） ─────────────────────────────────── １００５０．０５２．２５２．２３．７ ─────────────────────────────────── ２００５６．６５９．６５９．６５．６ ─────────────────────────────────── ４００６３．２７０．６７０．６１０．１ ─────────────────────────────────── ８００６５．４７６．５７６．５２１．１ ─────────────────────────────────── １６００６９．１８０．９８０．９４４．３ ─────────────────────────────────── ３２００７０．６８２．４８３．１８７．４ ───────────────────────────────────

【００３０】表１から明らかなように、枝刈りのビーム
幅が２００であるフレーム同期型連続音声認識の認識率
及びＣＰＵ時間はともに、ビーム幅が２５０である従来
例の音素同期型音声認識装置の性能を上回り、フレーム
同期型処理の有効性が確認された。また、表２から明ら
かなように、文認識では文節認識に比較してかなり大き
なビーム幅が必要であるものの、ある程度のビーム幅を
確保すれば、例えば３２００のビーム幅であって、メモ
リサイズが１１Ｍバイトを確保すれば、文音声認識が可
能であることが示された。

【００３１】以上説明したように、文脈自由文法を参照
する連続音声認識装置において、音素予測を行うＬＲパ
ーザ５と、音素系列を探索する探索部４とを分離するこ
とにより、ＬＲパーザ５の音素予測時に同一の音素系列
に対する文法的解釈が複数生じる場合において、ＬＲパ
ーザ５は、音素系列の違いのみに基づいて予測音素の和
集合を探索部４に出力し、探索部４におけるグリッド仮
説の仮説数を削減し、文法的解釈の多様性を音素列の探
索の複雑さに反映することがない。従って、音素照合の
処理時間を短縮して音声認識の計算量を削減することが
でき、しかも従来例に比較して音声認識率を改善するこ
とができる。特に、文法的解釈が多様な文音声認識にお
いて削減効果が大きい。

【００３２】以上の実施例において、特徴抽出部２と、
探索部４と、ＬＲパーザ５とはそれぞれ、例えばＣＰＵ
で構成されるディジタル計算機にてなる。

【００３３】

【発明の効果】以上詳述したように本発明によれば、入
力される発声音声文に基づいて、発声音声の所定の時間
に対応するフレームに同期して動作し、所定の隠れマル
コフモデルを参照して音素を検出してその尤度を計算す
る探索手段と、上記探索手段によって検出された音素に
基づいて所定の文脈自由文法を参照して次の音素を予測
して当該予測音素を上記探索手段に出力する統語解析手
段とを備え、上記入力された発声音声文を連続的に音声
認識する連続音声認識装置であって、上記統語解析手段
は、音素履歴木と状態ネットワークとを格納する記憶手
段を備え、上記文脈自由文法を参照して、上記探索手段
から入力される検出音素に基づいて、上記音素履歴木と
上記状態ネットワークとを展開して作成し、上記状態ネ
ットワークの各ノードにおける予測音素の和集合を上記
音素履歴木の対応するノードにおける上記記憶手段に格
納するとともに、上記予測音素の和集合を上記探索手段
に出力し、上記探索手段は、上記統語解析手段から出力
された予測音素の和集合に基づいて、上記隠れマルコフ
モデルを参照して、入力フレーム番号と、隠れマルコフ
モデルの状態番号と、予測音素と、音素履歴木のノード
とからなるグリッド仮説を作成して当該音素履歴木の尤
度を計算し、所定の尤度を有する音素履歴木から得られ
る文字列を音声認識結果として出力する。

【００３４】従って、文脈自由文法を参照する連続音声
認識装置において、音素予測を行う統語解析手段と、音
素系列を探索する探索手段とを分離することにより、統
語解析手段の音素予測時に同一の音素系列に対する文法
的解釈が複数生じる場合において、統語解析手段は、音
素系列の違いのみに基づいて予測音素の和集合を探索手
段に出力し、探索手段におけるグリッド仮説の仮説数を
削減し、文法的解釈の多様性を音素列の探索の複雑さに
反映することがない。従って、音素照合の処理時間を短
縮して音声認識の計算量を削減することができ、しかも
従来例に比較して音声認識率を改善することができる。
特に、文法的解釈が多様な文音声認識において削減効果
が大きい。

【図面の簡単な説明】

【図１】本発明に係る一実施例である連続音声認識装
置のブロック図である。

【図２】図１の探索部４によって実行される探索処理
を示すフローチャートである。

【図３】図１のＬＲパーザ５によって実行されるＬＲ
パージング処理を示すフローチャートである。

【図４】図１の連続音声認識装置によって実行される
連続音声認識処理を示す概念のブロック図である。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３…バッファメモリ、４…探索部、５…ＬＲパーザ、６…グリッド仮説メモリ、７…隠れマルコフモデルメモリ（ＨＭＭメモリ）、２０…文脈自由文法データベースメモリ、２１…ＬＲテーブル。

───────────────────────────────────────────────────── フロントページの続き (72)発明者松永昭一京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (72)発明者ハラルド・シンガー京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内

Claims

【特許請求の範囲】

【請求項１】入力される発声音声文に基づいて、発声
音声の所定の時間に対応するフレームに同期して動作
し、所定の隠れマルコフモデルを参照して音素を検出し
てその尤度を計算する探索手段と、上記探索手段によって検出された音素に基づいて所定の
文脈自由文法を参照して次の音素を予測して当該予測音
素を上記探索手段に出力する統語解析手段とを備え、上
記入力された発声音声文を連続的に音声認識する連続音
声認識装置であって、上記統語解析手段は、音素履歴木と状態ネットワークと
を格納する記憶手段を備え、上記文脈自由文法を参照し
て、上記探索手段から入力される検出音素に基づいて、
上記音素履歴木と上記状態ネットワークとを展開して作
成し、上記状態ネットワークの各ノードにおける予測音
素の和集合を上記音素履歴木の対応するノードにおける
上記記憶手段に格納するとともに、上記予測音素の和集
合を上記探索手段に出力し、上記探索手段は、上記統語解析手段から出力された予測
音素の和集合に基づいて、上記隠れマルコフモデルを参
照して、入力フレーム番号と、隠れマルコフモデルの状
態番号と、予測音素と、音素履歴木のノードとからなる
グリッド仮説を作成して当該音素履歴木の尤度を計算
し、所定の尤度を有する音素履歴木から得られる文字列
を音声認識結果として出力することを特徴とする連続音
声認識装置。