JPH08123479A - 連続音声認識装置 - Google Patents

連続音声認識装置

Info

Publication number
JPH08123479A
JPH08123479A JP6262248A JP26224894A JPH08123479A JP H08123479 A JPH08123479 A JP H08123479A JP 6262248 A JP6262248 A JP 6262248A JP 26224894 A JP26224894 A JP 26224894A JP H08123479 A JPH08123479 A JP H08123479A
Authority
JP
Japan
Prior art keywords
phoneme
history tree
speech recognition
predicted
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6262248A
Other languages
English (en)
Inventor
Toru Shimizu
徹 清水
Masayasu Monzen
聖康 門前
Shoichi Matsunaga
昭一 松永
Shingaa Hararudo
ハラルド・シンガー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP6262248A priority Critical patent/JPH08123479A/ja
Publication of JPH08123479A publication Critical patent/JPH08123479A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音素照合の処理時間を短縮して音声認識の計
算量を削減することができ、しかも従来例に比較して音
声認識率を改善することができる連続音声認識装置を提
供する。 【構成】 LRパーザは、音素履歴木と状態ネットワー
クとを格納するメモリを備え、文脈自由文法を参照して
フレームに同期して動作する探索部から入力される検出
音素に基づいて音素履歴木と状態ネットワークとを展開
して作成し、状態ネットワークの各ノードにおける予測
音素の和集合を音素履歴木の対応するノードにおけるメ
モリに格納するとともに、予測音素の和集合を探索部に
出力し、探索部は、LRパーザからの予測音素の和集合
に基づいてHMMを参照して、入力フレーム番号とHM
Mの状態番号と予測音素と音素履歴木のノードとからな
るグリッド仮説を作成して音素履歴木の尤度を計算し所
定の尤度を有する音素履歴木から得られる文字列を音声
認識結果として出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力される発声音声文
を、発声音声の所定の時間に対応するフレームに同期し
て、連続的に音声認識する連続音声認識装置に関する。
【0002】
【従来の技術】高精度の連続音声認識装置を構成するた
めの従来例の方法が、例えば、北研二ほか,“HMM音
韻認識と拡張LR構文解析法を用いた連続音声認識”,
情報処理学会論文誌,Vol.31,No.3,pp.
472−480,1990年3月において開示されてい
る。この従来例の方法は、入力記号を左から右に一方向
に読みながら、バックトラックなしに決定的に解析を進
めることができる従来の拡張LR構文解析法で用いられ
る構文解析動作表から入力音声データ中の音韻を予測
し、予測された音韻の尤度を、隠れマルコフモデル(以
下、HMMという。)の音韻照合により調べることによ
り、音声認識と言語処理を同時に音素同期で進行させる
ことを特徴としている。
【0003】この従来例の方法では、文法規則は、LR
テーブルの生成系により、予めLRテーブル(動作表及
び行先表)に変換しておきそれぞれの音韻モデルも予め
用意しておく。この方法の音素同期型HMM−LRパー
ザは、LRテーブルから、発話された音声データ中の音
韻を予測し、予測された音韻に対してHMMの音韻照合
を駆動することにより、予測された音韻の尤度を計算す
る。これにより、音声認識と言語処理とを同時進行させ
る。ここで、セルというデータ構造が導入される。セル
は、解析に必要な情報を保存しておくためのデータ構造
であり、入力音声データに対する認識候補のそれぞれに
つき1つのセルが用いられ、次の2つの情報がセルに格
納される。 (a)LRパーザの状態スタック、及び(b)認識され
た音韻列の時間軸上の各点での尤度を格納しておくため
の配列である確率テーブル。 この従来例の方法は、LRテーブルを予測に用いるとい
う点が、従来のLR構文解析法とは大きく異なる点であ
り、この従来例の方法の特徴となっている。また、この
方法では、音声認識と言語処理の間に音韻/単語ラティ
ス等の中間的なデータを介さないため、効率的かつ高精
度に音声データの処理を実行することができるという利
点がある。
【0004】
【発明が解決しようとする課題】一般に、連続発声され
た音声文の音声認識では、文節発声に比較して文法的曖
昧性が増加するが、従来例の音素同期型HMM−LRパ
ーザでは、1つのLRスタックを1つのセルで表現する
ために、文法的曖昧性の増加に伴い、複数の仮説を生成
するために、同一音素列に対する仮説数も増加する。こ
のため、音素照合が重複し処理時間が多くなる問題点が
あった。また、音素同期型探索では尤度の正規化が必要
であるが、正規化の精度が悪いと音声認識率が低下する
問題点があった。
【0005】本発明の目的は以上の問題点を解決し、音
素照合の処理時間を短縮して音声認識の計算量を削減す
ることができ、しかも従来例に比較して音声認識率を改
善することができる連続音声認識装置を提供することに
ある。
【0006】
【課題を解決するための手段】本発明に係る連続音声認
識装置は、入力される発声音声文に基づいて、発声音声
の所定の時間に対応するフレームに同期して動作し、所
定の隠れマルコフモデルを参照して音素を検出してその
尤度を計算する探索手段と、上記探索手段によって検出
された音素に基づいて所定の文脈自由文法を参照して次
の音素を予測して当該予測音素を上記探索手段に出力す
る統語解析手段とを備え、上記入力された発声音声文を
連続的に音声認識する連続音声認識装置であって、上記
統語解析手段は、音素履歴木と状態ネットワークとを格
納する記憶手段を備え、上記文脈自由文法を参照して、
上記探索手段から入力される検出音素に基づいて、上記
音素履歴木と上記状態ネットワークとを展開して作成
し、上記状態ネットワークの各ノードにおける予測音素
の和集合を上記音素履歴木の対応するノードにおける上
記記憶手段に格納するとともに、上記予測音素の和集合
を上記探索手段に出力し、上記探索手段は、上記統語解
析手段から出力された予測音素の和集合に基づいて、上
記隠れマルコフモデルを参照して、入力フレーム番号
と、隠れマルコフモデルの状態番号と、予測音素と、音
素履歴木のノードとからなるグリッド仮説を作成して当
該音素履歴木の尤度を計算し、所定の尤度を有する音素
履歴木から得られる文字列を音声認識結果として出力す
ることを特徴とする。
【0007】
【作用】以上のように構成された連続音声認識装置にお
いては、上記統語解析手段は、音素履歴木と状態ネット
ワークとを格納する記憶手段を備え、上記文脈自由文法
を参照して、上記探索手段から入力される検出音素に基
づいて、上記音素履歴木と上記状態ネットワークとを展
開して作成し、上記状態ネットワークの各ノードにおけ
る予測音素の和集合を上記音素履歴木の対応するノード
における上記記憶手段に格納するとともに、上記予測音
素の和集合を上記探索手段に出力する。そして、上記探
索手段は、上記統語解析手段から出力された予測音素の
和集合に基づいて、上記隠れマルコフモデルを参照し
て、入力フレーム番号と、隠れマルコフモデルの状態番
号と、予測音素と、音素履歴木のノードとからなるグリ
ッド仮説を作成して当該音素履歴木の尤度を計算し、所
定の尤度を有する音素履歴木から得られる文字列を音声
認識結果として出力する。
【0008】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図1は、本発明に係る一実施例である
連続音声認識装置のブロック図である。本実施例の連続
音声認識装置は、マイクロホン1と、特徴抽出部2と、
バッファメモリ3と、探索部4と、いわゆる統語解析部
と呼ばれるLRパーザ5とを備え、マイクロホン1に入
力される発声音声を、所定の複数の音声データに対する
フレームで同期しながら連続的に音声認識する装置であ
る。この装置は、特に、文脈自由文法を参照する連続音
声認識装置において、音素予測を行うLRパーザ5と、
音素系列を探索する探索部4とを分離することにより、
LRパーザ5の音素予測時に同一の音素系列に対する文
法的解釈が複数生じる場合において、LRパーザ5は、
音素系列の違いのみに基づいて予測音素の和集合を探索
部4に出力し、探索部4における仮説数を削減すること
を特徴としている。
【0009】本実施例においては、音声認識のための統
計的音素モデルセットとしてHMMを使用している。H
MMはガウス分布を含む状態の結合で構成される。本実
施例においては、HMMのパラメータとして、ガウス分
布で表現される出力確率及び遷移確率を有する。
【0010】次いで、本実施例のフレーム同期型HMM
−LR(left-to-right rightmost型)不特定話者連続
音声認識装置について説明する。この装置は、HMMメ
モリ7に格納されたHMMの表現形式を用いている。
【0011】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して探索部4に入力される。
【0012】探索部4に接続されるHMMメモリ7内の
HMMは、各状態をノードとする音素HMMであり、各
状態はそれぞれ以下の情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)出力確率密度分布のパラメータ (d)自己遷移確率及び後続状態への遷移確率
【0013】探索部4に接続されるグリッド仮説メモリ
6内のグリッド仮説は、図4に示すように、次の4個の
パラメータで決定される仮説である。 (a)i:入力フレーム番号; (b)j:検出中のHMMの状態番号; (c)n:LRパーザ5によって予測された予測音素; (d)s:前のフレームで認識された音素履歴木のノー
ド。 探索部4は、メモリ6内のグリッド仮説をワン・パス・
ヴィタービ(OnePass Vitervi)サーチ
に基づいて、各フレーム毎に展開しながら計算する。そ
して、各フレーム毎に計算された仮説の尤度の累積値に
基づき枝刈りを行なう。すなわち、探索部4は、音声デ
ータのフレーム毎にフレーム同期して動作し、HMMメ
モリ7内のHMMを用いてフレーム内の音声データに対
するグリッド仮説が計算され、このグリッド仮説の尤度
の累積値により検出された音素をLRパーザ5に出力す
る。
【0014】一方、文脈自由文法データベースメモリ2
0内の所定の文脈自由文法(CFG)を公知の通り自動
的に変換してLRテーブルを作成してLRテーブルメモ
リ21に格納される。LRパーザ5は、上記LRテーブ
ル21を参照して、音素履歴木51とLR状態ネットワ
ーク52を展開して作成することにより、入力された検
出音素について左から右方向に、後戻りなしに処理す
る。音素履歴木51とLR状態ネットワーク52とはL
Rパーザ5内のRAMに格納される。LR状態ネットワ
ーク52は、LRスタックをグラフ構造化したもので、
ノードはスタックの状態、枝は処理の実行時の遷移を表
す。LR状態ネットワーク52は音素検出に際してのみ
動的に展開される。一度展開したノード系列に対する処
理は、LRパーザ処理を実行せずトレースのみで高速に
行なう。また、音素履歴木51は、音素系列を木構造で
表したもので、グリッド仮説とLR状態ネットワーク5
2とを結び付ける役目を果たす。当該音素履歴木51の
ノードのRAMには、LR状態ネットワーク52で得ら
れる予測音素の和集合が格納保持される。なお、構文的
にあいまいさがある場合は、LR状態ネットワーク52
における枝を分割してすべての候補の解析が平行して処
理される。LRパーザ5は、LRテーブルメモリ13内
のLRテーブルから次にくる後続の音素を予測して、上
記音素履歴木51のノードに保持された予測音素の和集
合を探索部4に出力する。
【0015】これに応答して、探索部4は、その音素に
対応するHMMメモリ7内の情報を参照して照合し、そ
の尤度の累積値を計算して、順次音素を連接していくこ
とにより、連続音声の認識を行い、その音声認識結果デ
ータを出力する。上記連続音声の認識において、複数の
音素が予測された場合は、これらすべての存在をチェッ
クし、ビームサーチの方法により、部分的な音声認識の
尤度の高い部分木を残すという枝刈りを行って高速処理
を実現する。
【0016】図2は、図1の探索部4によって実行され
る探索処理を示すフローチャートである。図2に示すよ
うに、まず、ステップS1においては、文頭における予
測音素の集合をLRパーザ5の音素履歴木51から読み
出す。次いで、ステップS2において、予測音素の集合
Lに対する時刻0のグリッド仮説の集合を作成する。そ
して、ステップS3で入力フレーム番号に対応した時刻
パラメータiを0にセットする。さらに、ステップS4
で、時刻iのすべてのグリッド仮説に対して時刻t+1
のグリッド仮説が作成されたか否かが判断され、作成さ
れていないとき(ステップS4でNO)ステップS5に
おいてグリッド仮説により音素を検出したか否かが判断
される。音素を検出したとき(ステップS5でYES)
ステップS6でLRパーザ5の音素履歴木51から予測
音素の和集合を読み出してステップS7に進む。一方、
ステップS5で音素を検出しないときは(ステップS5
でNO)そのままステップS7に進む。ステップS7で
は、時刻t+1のグリッド仮説を生成して、ステップS
4に戻る。
【0017】ステップS4で、時刻iのすべてのグリッ
ド仮説に対して時刻t+1のグリッド仮説が作成された
とき(ステップS4でYES)は、ステップS8で時刻
パラメータiを1だけインクリメントして更新して、ス
テップS9で時刻パラメータiが所望の目標時刻Iに到
達したか否かが判断される。到達していないときは(ス
テップS9でNO)ステップS4に戻り処理を続ける。
一方到達しているときは(ステップS9でYES)ステ
ップS10で、最も尤度の高いグリッド仮説の音素履歴
木のノードから得られる文字列を音声認識結果として出
力する。
【0018】図3は、図1のLRパーザ5によって実行
されるLRパージング処理を示すフローチャートであ
る。図3に示すように、まず、ステップS21におい
て、検出音素nと音素履歴木51のノードsを探索部4
から入力する。次いで、ステップS21で、音素履歴木
51のノードsに枝nを接続し新たなノードs’とす
る。さらに、ステップS23で音素履歴木51のノード
sにリンクしたLR状態ネットワーク52のノードの組
Lを求める。そして、ステップS24で、まず、予測音
素Cを空集合φとセットするとともに、次のノードのL
R状態ネットワーク52のノードノ組L’を空集合φと
セットしてステップS25の判断分岐に進む。
【0019】ステップS25では、p∈Lのすべてのノ
ードpについて検出音素nに対応するLR状態ネットワ
ーク52の展開を行ったか否かが判断される。すべての
検出音素pについて行っていないときは(ステップS2
5でNO)ステップS26において、LR状態ネットワ
ーク52のノードpの枝nを接続して、新たなノード
p’とする。そして、ステップS27では、新たなノー
ドp’における予測音素の集合C(p’)を求める。さ
らに、ステップS28で、予測音素の集合Cと、新たな
ノードp’における予測音素の集合C(p’)との和集
合を、予測音素の集合Cとおくとともに、次のノードの
LR状態ネットワークのノードの組L’と、新たなノー
ドp’との和集合を、新たなLR状態ネットワークのノ
ードの組L’とおいて、ステップS25に戻る。すなわ
ち、p∈Lのすべてのノードpについて検出音素nに対
応するLR状態ネットワーク52の展開を行うまで、ス
テップS26乃至S28の処理が実行される。
【0020】そして、p∈Lのすべてのノードpについ
て検出音素nに対応するLR状態ネットワーク52の展
開を行ったときは(ステップS25でYES)、ステッ
プS29で音素履歴木51のノードs’に、予測音素の
集合CとLR状態ネットワーク52のノードの組L’と
を保存する。保存された情報は、探索部4から読み出さ
れる。
【0021】図4は、図1の連続音声認識装置によって
実行される連続音声認識処理を示す概念のブロック図で
ある。この連続音声認識装置の特徴は、音素履歴木51
を用いて、探索部4とLRパーザ5との機能を分離した
ことと、探索部4での仮説の比較を高速化したことであ
る。これらについて以下に詳述する。
【0022】グリッド仮説は、入力フレーム番号、HM
Mの状態番号、予測音素、及び音素履歴木51のノード
でのみ区別される。従って、音素履歴木51の1つのノ
ードが指しているLR状態ネットワーク52のノード数
はグリッド仮説の数に影響を与えない。例えば、音素履
歴木51の1つのノードにおける、“h−a−d”の
“d”に対応する、LR状態ネットワーク52のノード
である、“h−a−d”の“d”はノード3とノード1
1の2状態が存在し、その状態数はグリッド仮説の数に
影響を与えない。すなわち、音素履歴木51は同一音素
系列に対する文法仮説のパッキング機能を有する。従来
の音素同期型HMM−LR音声認識装置では、この種の
パッキングは行なわれていない。なお、LR状態ネット
ワーク52におけるノード0からノード1などの移動
(シフト)は、LRパーザ5の状態記号をスタックに積
む動作であり、ノード2から10ヘは、スタック上の記
号を文法規則によりまとめあげていく動作である還元
(reduce)を示している。
【0023】逆に、音素履歴木51や状態ネットワーク
52の展開をグリッド仮説の音素検出時のみ行なうこと
により、探索部4の音素照合処理の曖昧性はLRパーザ
5の処理の負荷にならない。同一のグリッド仮説のマー
ジや、自然数N個の最尤候補を求めるためのグリッド仮
説の枝刈りは、探索部4のみで実行可能である。すなわ
ち、音素履歴木のノード、予測音素、及びHMM状態番
号が同一のグリッド仮説は尤度が最も大きいグリッド仮
説のみを残せばよい。また、音素系列が異なっても、L
R状態ネットワーク52のノードと、HMM状態番号と
が同一のグリッド仮説は以降の時刻の音響尤度が等しい
ので、その時点で尤度の大きい順に自然数N個の候補を
残せばN個の最尤候補を求めることができる。なお、枝
刈りは、例えば次の3つの方法のうちの1つを用いるこ
とができる。 (a)尤度の評価値の上位N個の最尤候補を残す。 (b)尤度の評価値が、所定の尤度のしきい値以上の候
補を残す。 (c)最大の尤度から所定の値だけ減少させた値をしき
い値として用いて、尤度の評価値が当該しきい値以上の
候補を残す。
【0024】さらに、本実施例においては、フレーム同
期型処理で頻繁に発生する同一のグリッド仮説、すなわ
ち、入力フレーム番号と、音素履歴木のノードと、予測
音素と、HMM状態番号が同じグリッド仮説のマージに
おいて、音素系列の比較が、音素履歴木51のノードの
比較のみで高速に行なうことができるという特有の利点
がある。
【0025】以上の実施例においては、HMMを用いて
いるが、本発明はこれに限らず、隠れマルコフネットワ
ーク(以下、HM網という。)を用いても良い。以上の
実施例においては、ワン・パス・ヴィタービサーチの方
法を用いているが、本発明はこれに限らず、ツー・パス
・サーチ又はスリー・パス・サーチなどのマルチ・パス
・ヴィタービサーチの方法を用いてもよい。
【0026】本発明者は、本実施例の連続音声認識装置
の有効性を確認するために、特定話者文節音声認識シミ
ュレーション及び特定話者文認識シミュレーションを行
った。当該シミュレーションにおいては、音声資料は本
出願人が所有の「国際会議に関する問い合わせ」に関す
るタスクを用いた。ここで、文節音声認識では、12対
話、701文節の文節を用いてシミュレーションを行う
一方、文音声認識では、7対話、136文章の文章を用
いてシミュレーションを行った。文脈自由文法は、タス
ク依存型文節内文法(パープレキシティーが2.66で
ある。)および文文法(パープレキシティーが2.79
である。)を用い、音響モデルはHM網を用いた。この
HM網において、5240単語の偶数番目の単語から学
習し状態数600を有する。特徴抽出部2の音響分析に
おいては、次のパラメータを用いた。 (a)標本化周波数:12kHz; (b)フレーム周期:5ms; (c)ハミング窓:30ms; (d)特徴パラメータ:1次乃至16次LPCケプスト
ラム、1次乃至16次ΔLPCケプストラム、対数パワ
ー、及びΔ対数パワー。
【0027】上記特定話者モデルを用いた文節音声認識
及び文音声認識の結果をそれぞれ表1及び表2に示す。
文節音声認識実験では従来例の音素同期型HMM−LR
連続音声認識装置の結果も併せて示す。なお、表1及び
表2において、トップ1は尤度が最大の1個のもののみ
の認識率であり、トップ5は尤度が最大から5位までの
5個のものの認識率であり、トップ10は尤度が最大か
ら10位までの10個のものの認識率である。
【0028】
【表1】 特定話者文節音声認識実験における文節認識率(%)と 1文節あたりのCPU時間(秒) ─────────────────────────────────── 文節認識率(%) ──────────────────── ビーム幅 トップ1 トップ5 トップ10 CPU時間(秒) ─────────────────────────────────── 50 84.7 87.7 87.7 0.8 ─────────────────────────────────── 100 90.7 94.6 94.7 1.9 ─────────────────────────────────── 200 93.6 98.7 99.0 5.1 ─────────────────────────────────── 400 93.9 99.3 99.7 13.9 ─────────────────────────────────── 800 94.0 99.4 99.9 39.1 ─────────────────────────────────── 250* 91.0 98.6 − 6.3 ─────────────────────────────────── (注)*は従来例の音素同期型HMM−LRパーザによる結果
【0029】
【表2】 特定話者文音声認識実験における文認識率(%)と 1文章あたりのCPU時間(秒) ─────────────────────────────────── 文認識率(%) ──────────────────── ビーム幅 トップ1 トップ5 トップ10 CPU時間(秒) ─────────────────────────────────── 100 50.0 52.2 52.2 3.7 ─────────────────────────────────── 200 56.6 59.6 59.6 5.6 ─────────────────────────────────── 400 63.2 70.6 70.6 10.1 ─────────────────────────────────── 800 65.4 76.5 76.5 21.1 ─────────────────────────────────── 1600 69.1 80.9 80.9 44.3 ─────────────────────────────────── 3200 70.6 82.4 83.1 87.4 ───────────────────────────────────
【0030】表1から明らかなように、枝刈りのビーム
幅が200であるフレーム同期型連続音声認識の認識率
及びCPU時間はともに、ビーム幅が250である従来
例の音素同期型音声認識装置の性能を上回り、フレーム
同期型処理の有効性が確認された。また、表2から明ら
かなように、文認識では文節認識に比較してかなり大き
なビーム幅が必要であるものの、ある程度のビーム幅を
確保すれば、例えば3200のビーム幅であって、メモ
リサイズが11Mバイトを確保すれば、文音声認識が可
能であることが示された。
【0031】以上説明したように、文脈自由文法を参照
する連続音声認識装置において、音素予測を行うLRパ
ーザ5と、音素系列を探索する探索部4とを分離するこ
とにより、LRパーザ5の音素予測時に同一の音素系列
に対する文法的解釈が複数生じる場合において、LRパ
ーザ5は、音素系列の違いのみに基づいて予測音素の和
集合を探索部4に出力し、探索部4におけるグリッド仮
説の仮説数を削減し、文法的解釈の多様性を音素列の探
索の複雑さに反映することがない。従って、音素照合の
処理時間を短縮して音声認識の計算量を削減することが
でき、しかも従来例に比較して音声認識率を改善するこ
とができる。特に、文法的解釈が多様な文音声認識にお
いて削減効果が大きい。
【0032】以上の実施例において、特徴抽出部2と、
探索部4と、LRパーザ5とはそれぞれ、例えばCPU
で構成されるディジタル計算機にてなる。
【0033】
【発明の効果】以上詳述したように本発明によれば、入
力される発声音声文に基づいて、発声音声の所定の時間
に対応するフレームに同期して動作し、所定の隠れマル
コフモデルを参照して音素を検出してその尤度を計算す
る探索手段と、上記探索手段によって検出された音素に
基づいて所定の文脈自由文法を参照して次の音素を予測
して当該予測音素を上記探索手段に出力する統語解析手
段とを備え、上記入力された発声音声文を連続的に音声
認識する連続音声認識装置であって、上記統語解析手段
は、音素履歴木と状態ネットワークとを格納する記憶手
段を備え、上記文脈自由文法を参照して、上記探索手段
から入力される検出音素に基づいて、上記音素履歴木と
上記状態ネットワークとを展開して作成し、上記状態ネ
ットワークの各ノードにおける予測音素の和集合を上記
音素履歴木の対応するノードにおける上記記憶手段に格
納するとともに、上記予測音素の和集合を上記探索手段
に出力し、上記探索手段は、上記統語解析手段から出力
された予測音素の和集合に基づいて、上記隠れマルコフ
モデルを参照して、入力フレーム番号と、隠れマルコフ
モデルの状態番号と、予測音素と、音素履歴木のノード
とからなるグリッド仮説を作成して当該音素履歴木の尤
度を計算し、所定の尤度を有する音素履歴木から得られ
る文字列を音声認識結果として出力する。
【0034】従って、文脈自由文法を参照する連続音声
認識装置において、音素予測を行う統語解析手段と、音
素系列を探索する探索手段とを分離することにより、統
語解析手段の音素予測時に同一の音素系列に対する文法
的解釈が複数生じる場合において、統語解析手段は、音
素系列の違いのみに基づいて予測音素の和集合を探索手
段に出力し、探索手段におけるグリッド仮説の仮説数を
削減し、文法的解釈の多様性を音素列の探索の複雑さに
反映することがない。従って、音素照合の処理時間を短
縮して音声認識の計算量を削減することができ、しかも
従来例に比較して音声認識率を改善することができる。
特に、文法的解釈が多様な文音声認識において削減効果
が大きい。
【図面の簡単な説明】
【図1】 本発明に係る一実施例である連続音声認識装
置のブロック図である。
【図2】 図1の探索部4によって実行される探索処理
を示すフローチャートである。
【図3】 図1のLRパーザ5によって実行されるLR
パージング処理を示すフローチャートである。
【図4】 図1の連続音声認識装置によって実行される
連続音声認識処理を示す概念のブロック図である。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…探索部、 5…LRパーザ、 6…グリッド仮説メモリ、 7…隠れマルコフモデルメモリ(HMMメモリ)、 20…文脈自由文法データベースメモリ、 21…LRテーブル。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松永 昭一 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 ハラルド・シンガー 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力される発声音声文に基づいて、発声
    音声の所定の時間に対応するフレームに同期して動作
    し、所定の隠れマルコフモデルを参照して音素を検出し
    てその尤度を計算する探索手段と、 上記探索手段によって検出された音素に基づいて所定の
    文脈自由文法を参照して次の音素を予測して当該予測音
    素を上記探索手段に出力する統語解析手段とを備え、上
    記入力された発声音声文を連続的に音声認識する連続音
    声認識装置であって、 上記統語解析手段は、音素履歴木と状態ネットワークと
    を格納する記憶手段を備え、上記文脈自由文法を参照し
    て、上記探索手段から入力される検出音素に基づいて、
    上記音素履歴木と上記状態ネットワークとを展開して作
    成し、上記状態ネットワークの各ノードにおける予測音
    素の和集合を上記音素履歴木の対応するノードにおける
    上記記憶手段に格納するとともに、上記予測音素の和集
    合を上記探索手段に出力し、 上記探索手段は、上記統語解析手段から出力された予測
    音素の和集合に基づいて、上記隠れマルコフモデルを参
    照して、入力フレーム番号と、隠れマルコフモデルの状
    態番号と、予測音素と、音素履歴木のノードとからなる
    グリッド仮説を作成して当該音素履歴木の尤度を計算
    し、所定の尤度を有する音素履歴木から得られる文字列
    を音声認識結果として出力することを特徴とする連続音
    声認識装置。
JP6262248A 1994-10-26 1994-10-26 連続音声認識装置 Pending JPH08123479A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6262248A JPH08123479A (ja) 1994-10-26 1994-10-26 連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6262248A JPH08123479A (ja) 1994-10-26 1994-10-26 連続音声認識装置

Publications (1)

Publication Number Publication Date
JPH08123479A true JPH08123479A (ja) 1996-05-17

Family

ID=17373142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6262248A Pending JPH08123479A (ja) 1994-10-26 1994-10-26 連続音声認識装置

Country Status (1)

Country Link
JP (1) JPH08123479A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001048737A2 (en) * 1999-12-23 2001-07-05 Intel Corporation Speech recognizer with a lexical tree based n-gram language model
CN107112008A (zh) * 2014-11-13 2017-08-29 微软技术许可有限责任公司 基于预测的序列识别
CN108694939A (zh) * 2018-05-23 2018-10-23 广州视源电子科技股份有限公司 语音搜索优化方法、装置和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001048737A2 (en) * 1999-12-23 2001-07-05 Intel Corporation Speech recognizer with a lexical tree based n-gram language model
WO2001048737A3 (en) * 1999-12-23 2002-11-14 Intel Corp Speech recognizer with a lexical tree based n-gram language model
CN107112008A (zh) * 2014-11-13 2017-08-29 微软技术许可有限责任公司 基于预测的序列识别
CN107112008B (zh) * 2014-11-13 2020-10-13 微软技术许可有限责任公司 基于预测的序列识别
CN108694939A (zh) * 2018-05-23 2018-10-23 广州视源电子科技股份有限公司 语音搜索优化方法、装置和系统

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
US6397179B2 (en) Search optimization system and method for continuous speech recognition
US7013277B2 (en) Speech recognition apparatus, speech recognition method, and storage medium
US6961701B2 (en) Voice recognition apparatus and method, and recording medium
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JPH05197389A (ja) 音声認識装置
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2886117B2 (ja) 音声認識装置
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2871557B2 (ja) 音声認識装置
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP2905674B2 (ja) 不特定話者連続音声認識方法
JPH08123479A (ja) 連続音声認識装置
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2938865B1 (ja) 音声認識装置
CN1346112A (zh) 汉语连续语音识别的集成预测搜索方法
Pylkkönen et al. Using phone durations in Finnish large vocabulary continuous speech recognition
JP2731133B2 (ja) 連続音声認識装置
JP3766111B2 (ja) 音声認識装置
JP2986703B2 (ja) 音声認識装置
Shan et al. Phone lattice reconstruction for embedded language recognition in LVCSR
JPH07104782A (ja) 音声認識装置
JPH0981179A (ja) 話者適応化装置及び音声認識装置