JP2781739B2

JP2781739B2 - 連続音声認識装置

Info

Publication number: JP2781739B2
Application number: JP7088041A
Authority: JP
Inventors: 寿幸竹沢; 穂積田中; 輝李; ハラルド・シンガー
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1995-04-13
Filing date: 1995-04-13
Publication date: 1998-07-30
Anticipated expiration: 2013-07-30
Also published as: JPH08286694A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、連続音声認識装置に関
し、特に、単一又は複数の文節、あるいは単一又は複数
の単語からなる発話音声を効率的に音声認識する連続音
声認識装置に関する。

【０００２】

【従来の技術】従来の連続音声認識装置として、例え
ば、音素コンテキスト依存ＬＲパーザにより、逐次状態
分割法（Successive State Splitting：ＳＳＳ）で自動
生成された隠れマルコフ網（以下、ＨＭ網という。）を
駆動して音声認識処理を実行する装置（以下、従来例と
いう。）が、文献１「永井明人ほか，“逐次状態分割法
（ＳＳＳ）と音素コンテキスト依存ＬＲパーザを統合し
たＳＳＳ−ＬＲ連続音声認識システム”，電子情報通信
学会技術報告，ＳＰ９２−３３，ｐｐ．６９−７６，３
５５−１９９２年」において開示されている。この連続
音声認識装置は、音素継続時間を制御するために、逐次
状態分割法を用いてＨＭ網とは独立に生成した音素コン
テキスト依存の音素継続時間モデルを使用することを特
徴とし、より高い認識率を有し高速で処理することがで
きたことが上記文献１において報告されている。

【０００３】

【発明が解決しようとする課題】上記従来例の連続音声
認識装置において、音素環境依存の精密な音素モデルを
利用すると、音素モデルの連接可能性を実行時に調べな
がら、音声認識の処理を進めなければならず、音声認識
処理の効率がきわめて悪いという問題点があった。しか
も、単語又は文節の境界において、後に実行される還元
（reduce）処理の時点で棄却されるにもかかわらず、音
素照合時には接続可能とみなされてしまう異音モデルの
数が増大してしまい、処理時間が増大するとともに、認
識率が大幅に低下していた。

【０００４】本発明の目的は以上の問題点を解決し、従
来例に比較して処理時間を短縮することができるととも
に、認識率を改善することができる連続音声認識装置を
提供することにある。

【０００５】

【課題を解決するための手段】本発明に係る請求項１記
載の連続音声認識装置は、入力される発声音声に基づい
て所定の隠れマルコフモデルを参照して音素認識し、か
つ所定のＬＲ構文解析テーブルを参照して構文解析する
ことにより、上記発声音声を音声認識する音声認識手段
を備えた連続音声認識装置において、音素間の接続関係
を示す所定の異音規則に基づいて、上記ＬＲ構文解析テ
ーブルにおいて単語内及び単語間における音素の連接の
可能性がない部分を削除して最適化されたＬＲ構文解析
テーブルを出力する最適化処理手段を備え、上記音声認
識手段は、上記最適化されたＬＲ構文解析テーブルを参
照して構文解析することにより、上記発声音声を音声認
識することを特徴とする。

【０００６】また、請求項２記載の連続音声認識装置
は、請求項１記載の連続音声認識装置において、上記Ｌ
Ｒ構文解析テーブルは、一連の状態番号が付された各状
態における動作を示す動作表と、各状態における動作を
実行した後の行き先の状態を示す行先表とを備え、上記
最適化処理手段は、上記異音規則に基づいて、上記ＬＲ
構文解析テーブルの動作表中で不正な還元動作を削除す
る第１の処理手段と、上記ＬＲ構文解析テーブルの動作
表中で、直前がシフト動作である不正なシフト動作を削
除する第２の処理手段と、上記ＬＲ構文解析テーブルの
動作表中で空の状態、及び空の状態へのシフト動作を削
除する第３の処理手段と、上記ＬＲ構文解析テーブルの
動作表中で既に除去されたシフト動作に至る還元動作を
削除する第４の処理手段と、上記ＬＲ構文解析テーブル
の動作表中で既に除去された動作命令からしか到達でき
ない動作命令を、上記ＬＲ構文解析テーブルの行先表を
用いて検査して削除する第５の処理手段と、上記ＬＲ構
文解析テーブルの動作表中で状態がないところを削除し
て、状態番号を詰めることにより圧縮処理を実行する第
６の処理手段とを備えたことを特徴とする。

【０００７】

【作用】本発明に係る請求項１記載の連続音声認識装置
においては、上記最適化処理手段は、音素間の接続関係
を示す所定の異音規則に基づいて、上記ＬＲ構文解析テ
ーブルにおいて単語内及び単語間における音素の連接の
可能性がない部分を削除して最適化されたＬＲ構文解析
テーブルを出力する。そして、上記音声認識手段は、入
力される発声音声に基づいて所定の隠れマルコフモデル
を参照して音素認識し、かつ上記最適化されたＬＲ構文
解析テーブルを参照して構文解析することにより、上記
発声音声を音声認識する。

【０００８】また、請求項２記載の連続音声認識装置の
上記最適化処理手段においては、上記第１の処理手段
は、上記異音規則に基づいて、上記ＬＲ構文解析テーブ
ルの動作表中で不正な還元動作を削除し、上記第２の処
理手段は、上記ＬＲ構文解析テーブルの動作表中で、直
前がシフト動作である不正なシフト動作を削除し、上記
第３の処理手段は、上記ＬＲ構文解析テーブルの動作表
中で空の状態、及び空の状態へのシフト動作を削除す
る。次いで、上記第４の処理手段は、上記ＬＲ構文解析
テーブルの動作表中で既に除去されたシフト動作に至る
還元動作を削除し、上記第５の処理手段は、上記ＬＲ構
文解析テーブルの動作表中で既に除去された動作命令か
らしか到達できない動作命令を、上記ＬＲ構文解析テー
ブルの行先表を用いて検査して削除する。さらに、上記
第６の処理手段は、上記ＬＲ構文解析テーブルの動作表
中で状態がないところを削除して、状態番号を詰めるこ
とにより圧縮処理を実行する。

【０００９】

【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図１に本発明に係る一実施例の連続音
声認識装置を示す。この実施例の連続音声認識装置は、
音声認識過程で生ずる音素環境の無駄な連接情報をあら
かじめ除去することにより、単語間のすべての連接可能
性を調べ尽くしたＬＲ構文解析テーブル（以下、ＬＲテ
ーブルという。）を予め用意することによって、「発明
が解決しようとする問題点」で述べた２つの問題点を解
決することを特徴としている。ここで、この連続音声認
識装置は、大きく分けて、音素照合部４と、音素環境依
存型ＧＬＲパーザ（この一般化されたＬＲ構文解析部
を、以下、ＬＲパーザという。）５とを備え、ＬＲパー
ザ５は、ＬＲテーブル最適化処理部６によって、音素を
基礎とするＬＲテーブル２６から音素環境依存型ＬＲテ
ーブルを最適化してＬＲテーブル１３を参照して構文解
析処理を実行することを特徴とする。なお、隠れマルコ
フ網１１と、話者モデル１２と、ＬＲテーブル１３，２
６とはそれぞれ、例えばハードディスクなどの記憶装置
に記憶される。

【００１０】次の数１は、本発明の実施例を示すため
の、簡単な文脈自由文法規則の一例である。

【００１１】

【数１】（１）Ｓ→ＮＰ（２）Ｎ→ａｎｉ（brother）（３）Ｎ→ａｎｅ（sister）（４）Ｐ→ｇａ（５）Ｐ→ｎｉ

【００１２】ここで、Ｓは文であり、Ｎは名詞であり、
Ｐは助詞である。上記数１の（１）の規則は、「文Ｓ
は、名詞Ｎと、助詞Ｐがこの順序で並んだものであ
る。」ということを示している。また、例えば、上記数
１の（２）の規則は、「名詞Ｎは、ａｎｉ（兄）であ
る。」ということを示しており、さらに、上記数１の
（４）の規則は、「助詞Ｐは、ｇａ（が）である。」と
いうことを示している。従って、この数１で表された文
法規則は、“ａｎｉ／ｇａ（兄が）”、“ａｎｉ／ｎｉ
（兄に）”、“ａｎｅ／ｇａ（姉が）”、及び“ａｎｅ
／ｎｉ（姉に）”という４つの文節を受理して適用する
ことができる。

【００１３】次いで、次の数２に、異音（allophone）
マップ２２の一例を示す。

【数２】

【００１４】この数２の異音マップは以下を示してい
る。異音“ｉ１”は、先行音素（すなわち、左側の音
素）に“ｎ”があり、後続音素（すなわち、右側の音
素）に“ｇ”がある。異音“ｇ２”は、先行音素（すな
わち、左側の音素）に“ｉ”があり、後続音素（すなわ
ち、右側の音素）に“ａ”がある。つまり、“ｉ１”の
後続音素に“ｇ”があり、“ｇ２”の先行音素に“ｉ”
がある。従って、異音“ｇ２”は異音“ｉ１”のあとに
接続可能である。このような接続可能性を“１”，
“０”を用いて表にすることができる。この表が接続行
列（connection matrix）であり、その例を表１に示
す。なお、表１において“１”も“０”も記載がない欄
は、未定義であって不定のものである。

【００１５】

【表１】

【００１６】まず、音素環境独立型語彙規則２１及び異
音環境マップ２２において、単語の中を異音（allophon
e）表記に変換する。数３は、その結果を示している。

【００１７】

【数３】（１）Ｓ→ＮＰ（２）’ Ｎ→ａｎ１ｉ（３）’ Ｎ→ａｎ２ｅ（４）’ Ｐ→ｇａ（５）’ Ｐ→ｎｉ（６）ａ→ａ１（７）ａ→ａ２（８）ｉ→ｉ１（９）ｉ→ｉ２（１０）ｅ→ｅ１（１１）ｅ→ｅ２（１２）ｇ→ｇ１（１３）ｇ→ｇ２（１４）ｎ→ｎ１（１５）ｎ→ｎ２

【００１８】上記数３における（２）’は先行音素（左
側）がａで後続音素（右側）がｉである環境ではｎはｎ
１となること（表１参照。）を示しており、（３）’は
先行音素（左側）がａで後続音素（右側）がｅである環
境ではｎはｎ２となること（表１参照。）を示してい
る。また、（４）’及び（５）’は前後に出現しうる音
素環境が決定しないので、音素を異音表記に置き換えら
れないことを示している。ここで、上記数３において、
（１）及び（２）’乃至（５）’は従来例の音素環境依
存型語彙規則であり、（６）乃至（１５）は異音規則２
４を示している。すなわち、異音規則２４は、音素間の
対応関係を示している。

【００１９】そして、文脈自由文法規則２０と、音素環
境依存型語彙規則２３と、異音規則２４とに基づいて、
規範的なＬＲ（Canonical ＬＲ：ＣＬＲ）法による音素
を基礎とするＬＲテーブル（構文解析表）２６を作成す
る。さらに，異音接続行列２５とに基づいて、ＬＲテー
ブル２６を最適化して音素環境依存型ＬＲテーブル１３
を作成する。表２に、上記音素を基礎とするＬＲテーブ
ル２６と、それを最適化する処理を実行して得られる音
素環境依存型ＬＲテーブル１３とを示す。

【００２０】

【表２】

【００２１】表２において、ＬＲテーブル２６は、左側
部分の動作表と、右側部分の行先表とからなり、動作表
は、一連の状態番号が付された各状態において上側に示
す音素が入力されたときにどのような構文解析動作を実
行するかを示す一方、各状態において動作を実行後に移
動する先の状態番号を示す。

【００２２】本実施例において用いる音素環境依存型Ｌ
Ｒテーブル１３を生成するまでのフローをまとめると、
図２のようになる。図２に示すように、一般にわかりや
すい、利用可能な単語をローマ字で表記するような関係
を示す音素環境独立型語彙規則２１と、異音の前後に出
現することができる音素の関係を示す異音環境マップ２
２とに基づいて、前後の音素環境が決定する箇所のみ異
音表記に置き換えた音素環境依存型語彙規則を生成する
一方、上記異音環境マップ２２から、音素間の接続関係
を示す異音規則２４を生成する。また、上記異音環境マ
ップ２２に基づいて、音素間の接続関係を行列で示す異
音接続行列２５を作成する。そして、文脈自由文法規則
２０と、音素環境依存型語彙規則２３と、異音規則２４
とに基づいて、音素を基礎とするＬＲテーブル２６を作
成する。さらに、ＬＲテーブル最適化処理部６は、音素
を基礎とするＬＲテーブル２６と上記異音接続行列２５
とに基づいて、以下に詳述するように、ＬＲテーブル２
６を最適化処理して最適化された音素環境依存型ＬＲテ
ーブル１３を自動的に作成する。

【００２３】次いで、図１のＬＲテーブル最適化処理部
６によって実行されるＬＲテーブル最適化処理につい
て、表２に示したＬＲテーブル２６を例にとり、以下に
詳述する。この最適化処理は、大きく分けて、（１）接
続検査処理と、（２）制約伝搬処理と、（３）圧縮処理
とからなる。

【００２４】まず、接続検査処理においては、以下のス
テップＳ１及びＳ２とを実行する。（ａ）ステップＳ１においては、異音規則に基づき、処
理すべきＬＲテーブル２６の動作表中で不正な還元（re
duce）動作を削除する（表２において（ａ）で示
す。）。表２の例においては、例えば、状態（state）
１１“ｒ１４（規則１４による還元操作を行なう）”の
うち先読みが“ｉ２”のものは、異音“ｎ１”と異音
“ｉ２”が接続不可能なので除去される。ここで、先行
音素は規則の右辺からわかる。後続音素は“ｒ１４”の
記されている動作テーブル（action table）の先読み
（lookahead）からわかる。ただし、先読みが“ｉ１”
のものは残る。（ｂ）次いで、ステップＳ２においては、ＬＲテーブル
２６の動作表中で、直前がシフト（移動遷移）動作であ
る、不正なシフト動作を削除する（表２において（ｂ）
で示す。）。表２の例においては、例えば、状態（stat
e）６の“ｓ１６”は、異音“ｎ１”と異音“ｉ２”が
接続不可能なので、除去されねばならない。先行音素は
状態６へシフトする命令から、この場合、状態３の“ｓ
６”の動作表の先読みからわかる。後続音素は状態６の
“ｓ１６”の動作表の先読みからわかる。

【００２５】次に、制約伝搬（constraint propagatio
n）処理を実行するが、以下のステップＳ３、Ｓ４及び
Ｓ５からなる。（ｃ）まず、ステップＳ３では、ＬＲテーブル２６の動
作表中で空（empty）の状態、及び空の状態へのシフト
動作を削除する（表２において（ｃ）で示す。）。表２
においては、例えば、すべての動作（action）が除去さ
れて、空になってしまう状態ができたら、その空の状
態、及びその空の状態へシフトする命令を除去する必要
がある。例えば、状態８は、ステップＳ１により、空の
状態になってしまったので、除去される。さらに、状態
８へ遷移する命令、つまり、状態４の“ｓ８”は除去す
る必要がある。（ｄ）次いで、ステップＳ４においては、ＬＲテーブル
２６の動作表中で既に除去されたシフト動作に至る還元
動作を削除する（表２において、（ｄ）で示す。）。表
２においては、例えば、状態１５で先読みが“ｇ１”の
“ｒ８”には、還元操作の直後に、状態１７に遷移する
命令が存在する。状態１７で先読みが“ｇ１”のところ
にある次の動作は“ｒ２”である。“ｒ２”の操作を行
なうと、状態４へ遷移することになるが、状態４で先読
みが“ｇ１”のところにあるべき“ｓ８”は既にステッ
プＳ３により除去されている。従って、先読みが“ｇ
１”である、状態１５の“ｒ８”と状態１７の“ｒ２”
も除去される必要がある。（ｅ）さらに、ステップＳ５においては、ＬＲテーブル
２６の動作表において既に除去された動作命令からしか
到達できない動作命令を、表２の右側に示す行先表を使
って検査して削除する（表２において、（ｅ）で示
す）。表２においては、例えば、状態２０で先読みが
“ｎ１”の“ｒ３”には、行先動作命令から到達可能で
ある。これは、行先表に２０という数字があるからわか
る。具体的には、状態１８で先読みが“ｎ１”の“ｒ１
０”と、状態１９で先読みが“ｎ１”の“ｒ１１”があ
り、それらは既にステップＳ１において除去されてい
る。従って、この命令も除去される必要がある。

【００２６】上記ステップＳ５の後、ステップＳ６にお
いて、処理すべきＬＲテーブル２６において動作命令が
除去できないか否かが判断され、除去できる場合は、ス
テップＳ３に戻ってステップＳ３乃至Ｓ５の処理を、動
作命令が除去できなくなるまで繰り返す。動作命令を除
去できない場合は、ステップＳ７において、ＬＲテーブ
ル２６中で状態がないところなどの状態を削除して、状
態番号を詰めることにより圧縮処理を実行する。これ
で、ＬＲテーブル最適化処理を終了する。

【００２７】従って、上記ステップＳ１乃至Ｓ５におい
ては、処理すべきＬＲテーブル２６において単語内及び
単語間における音素の連接の可能性がない部分を削除し
た後、ステップＳ７において、上記の削除により状態が
ない部分を削除することによりＬＲテーブル２６を圧縮
している。

【００２８】以上に述べたＬＲテーブル最適化処理によ
り得られた音素環境依存型ＬＲテーブル１３を、図１に
示すＳＳＳ（Successive State Splitting：逐次状態分
割法）−ＬＲ（left-to-right rightmost型）不特定話
者連続音声認識装置に適用する。この装置は、ＨＭ網１
１と呼ばれる音素環境依存型の効率のよいＨＭＭの表現
形式を用いている。また、上記ＳＳＳにおいては、音素
の特徴空間上に割り当てられた確率的定常信号源（状
態）の間の確率的な遷移により音声パラメータの時間的
な推移を表現した確率モデルに対して、尤度最大化の基
準に基づいて個々の状態をコンテキスト方向又は時間方
向へ分割するという操作を繰り返すことによって、モデ
ルの精密化を逐次的に実行する。

【００２９】図１において、話者の発声音声はマイクロ
ホン１ａに入力されて音声信号に変換された後、Ａ／Ｄ
変換器１ｂに入力される。Ａ／Ｄ変換器１ｂは入力され
た音声信号をＡ／Ｄ変換した後特徴抽出部２に出力し、
特徴抽出部２は、例えばＬＰＣ分析を実行し、対数パワ
ー、１６次ケプストラム係数、Δ対数パワー及び１６次
Δケプストラム係数を含む３４次元の特徴パラメータを
抽出する。抽出された特徴パラメータの時系列はバッフ
ァメモリ３を介して音素照合部４に入力される。

【００３０】音素照合部４に接続されるＨＭ網１１は、
各状態をノードとする複数のネットワークとして表さ
れ、各状態はそれぞれ以下の情報を有する。（ａ）状態番号（ｂ）受理可能なコンテキストクラス（ｃ）先行状態、及び後続状態のリスト（ｄ）出力確率密度分布のパラメータ（ｅ）自己遷移確率及び後続状態への遷移確率

【００３１】なお、本実施例において、話者パージング
のためのＨＭ網は、各分布がどの話者に由来するかを特
定する必要があるため、所定の話者混合ＨＭ網を変換し
て作成する。ここで、出力確率密度関数は３４次元の対
角共分散行列をもつ混合ガウス分布であり、各分布はあ
る特定の話者のサンプルを用いて学習されている。

【００３２】音素照合部４は、ＬＲパーザ５からの音素
照合要求に応じて音素照合処理を実行する。このとき
に、ＬＲパーザ５からは、音素照合区間及び照合対象音
素とその前後の音素から成る音素コンテキスト情報が渡
される。音素照合部４は、受け取った音素コンテキスト
情報に基づいてそのようなコンテキストを受理すること
ができるＨＭ網上の状態を、先行状態リストと後続状態
リストの制約内で連結することによって、１つのモデル
が選択される。そして、このモデルを用いて音素照合区
間内のデータに対する尤度が計算され、この尤度の値が
音素照合スコアとしてＬＲパーザ５に返される。このと
きに用いられるモデルは、隠れマルコフモデル（以下、
ＨＭＭという。）と等価であるために、尤度の計算には
通常のＨＭＭで用いられている前向きパスアルゴリズム
をそのまま使用する。

【００３３】ＬＲパーザ５は、例えば音素継続時間長モ
デルを含む、話者モデル１２と上記最適化されたＬＲテ
ーブル１３とを参照して、入力された音素予測データに
ついて左から右方向に、後戻りなしに処理する。構文的
にあいまいさがある場合は、スタックを分割してすべて
の候補の解析が平行して処理される。ＬＲパーザ５は、
ＬＲテーブル１３を参照して次にくる音素を予測して音
素予測データを音素照合部４に出力する。これに応答し
て、音素照合部４は、その音素に対応するＨＭ網１１内
の情報を参照して照合し、その尤度を音声認識スコアと
してＬＲパーザ５に戻し、順次音素を連接していくこと
により、連続音声の認識を行っている。複数の音素が予
測された場合は、これらすべての存在をチェックし、ビ
ームサーチの方法により、部分的な音声認識の尤度の高
い部分木を残すという枝刈りを行って高速処理を実現す
る。入力された話者音声の最後まで処理した後、全体の
尤度が最大のもの又は所定の上位複数個のものを認識結
果データ又は結果候補データとして出力する。

【００３４】以上説明したように、この発明に係る実施
例によれば、音声認識過程で生ずる音素環境の無駄な連
接情報をあらかじめ除去してＬＲテーブルを作成する。
すなわち、処理すべきＬＲテーブル２６において単語内
及び単語間における音素の連接の可能性がない部分を削
除した後、上記の削除により状態がない部分を削除する
ことによりＬＲテーブル２６を圧縮して最適化されたＬ
Ｒテーブル１３を参照して音声認識処理を実行するの
で、従来例に比較して効率的であってより高性能な連続
音声認識装置を実現できる。

【００３５】以上の実施例において、特徴抽出部２と、
音素照合部３と、ＬＲパーザ５と、ＬＲテーブル生成部
６とは、例えばディジタル計算機によって構成される。

【００３６】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の連続音声認識装置によれば、入力される発声音
声に基づいて所定の隠れマルコフモデルを参照して音素
認識し、かつ所定のＬＲ構文解析テーブルを参照して構
文解析することにより、上記発声音声を音声認識する音
声認識手段を備えた連続音声認識装置において、音素間
の接続関係を示す所定の異音規則に基づいて、上記ＬＲ
構文解析テーブルにおいて単語内及び単語間における音
素の連接の可能性がない部分を削除して最適化されたＬ
Ｒ構文解析テーブルを出力する最適化処理手段を備え、
上記音声認識手段は、上記最適化されたＬＲ構文解析テ
ーブルを参照して構文解析することにより、上記発声音
声を音声認識する。すなわち、音声認識過程で生ずる音
素環境の無駄な連接情報をあらかじめ除去してＬＲ解析
構文テーブルを作成する。すなわち、処理すべきＬＲ解
析構文テーブルにおいて単語内及び単語間における音素
の連接の可能性がない部分を削除して、圧縮して最適化
されたＬＲ解析構文テーブルを参照して音声認識処理を
実行するので、従来例に比較して効率的であってより高
性能な連続音声認識装置を実現できる。

【００３７】また、請求項２記載の連続音声認識装置に
よれば、上記ＬＲ構文解析テーブルは、一連の状態番号
が付された各状態における動作を示す動作表と、各状態
における動作を実行した後の行き先の状態を示す行先表
とを備え、上記最適化処理手段は、上記異音規則に基づ
いて、上記ＬＲ構文解析テーブルの動作表中で不正な還
元動作を削除する第１の処理手段と、上記ＬＲ構文解析
テーブルの動作表中で、直前がシフト動作である不正な
シフト動作を削除する第２の処理手段と、上記ＬＲ構文
解析テーブルの動作表中で空の状態、及び空の状態への
シフト動作を削除する第３の処理手段と、上記ＬＲ構文
解析テーブルの動作表中で既に除去されたシフト動作に
至る還元動作を削除する第４の処理手段と、上記ＬＲ構
文解析テーブルの動作表中で既に除去された動作命令か
らしか到達できない動作命令を、上記ＬＲ構文解析テー
ブルの行先表を用いて検査して削除する第５の処理手段
と、上記ＬＲ構文解析テーブルの動作表中で状態がない
ところを削除して、状態番号を詰めることにより圧縮処
理を実行する第６の処理手段とを備える。従って、従来
例に比較して効率的であってより高性能な連続音声認識
を実行するために必要かつ十分なＬＲ構文解析テーブル
を得ることができる。

【図面の簡単な説明】

【図１】本発明に係る一実施例である連続音声認識装
置のブロック図である。

【図２】図１の連続音声認識装置において用いられる
音素環境依存型ＬＲテーブルを作成する方法を示すフロ
ーチャートである。

【図３】図２のＬＲテーブル生成処理を示すフローチ
ャートである。

【符号の説明】

１ａ…マイクロホン、１ｂ…Ａ／Ｄ変換器、２…特徴抽出部、３…バッファメモリ、４…音素照合部、５…音素環境依存型ＧＬＲパーザ（ＬＲパーザ）、６…ＬＲテーブル最適化処理部、６ａ…ＬＲテーブル最適化処理、１１…隠れマルコフ網（ＨＭ網）、１２…話者モデル、１３…音素環境依存型ＬＲテーブル、２０…文脈自由文法規則、２１…音素環境独立型語彙規則、２２…異音環境マップ、２３…音素環境依存型語彙規則、２４…異音規則、２５…異音接続行列、２６…音素を基礎とするＬＲテーブル。

───────────────────────────────────────────────────── フロントページの続き (72)発明者李輝京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (72)発明者ハラルド・シンガー京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (56)参考文献特公平５−52506（ＪＰ，Ｂ２) 人工知能学会誌ＶＯＬ．11，ＮＯ. ２，Ｐ．246−254（平成８年３月) 電子情報通信学会技術研究報告［音声］ＳＰ91−23，Ｐ．41−48（平成３年６月) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 535 G10L 3/00 531 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力される発声音声に基づいて所定の隠
れマルコフモデルを参照して音素認識し、かつ所定のＬ
Ｒ構文解析テーブルを参照して構文解析することによ
り、上記発声音声を音声認識する音声認識手段を備えた
連続音声認識装置において、音素間の接続関係を示す所定の異音規則に基づいて、上
記ＬＲ構文解析テーブルにおいて単語内及び単語間にお
ける音素の連接の可能性がない部分を削除して最適化さ
れたＬＲ構文解析テーブルを出力する最適化処理手段を
備え、上記音声認識手段は、上記最適化されたＬＲ構文解析テ
ーブルを参照して構文解析することにより、上記発声音
声を音声認識することを特徴とする連続音声認識装置。
【請求項２】上記ＬＲ構文解析テーブルは、一連の状
態番号が付された各状態における動作を示す動作表と、
各状態における動作を実行した後の行き先の状態を示す
行先表とを備え、上記最適化処理手段は、上記異音規則に基づいて、上記ＬＲ構文解析テーブルの
動作表中で不正な還元動作を削除する第１の処理手段
と、上記ＬＲ構文解析テーブルの動作表中で、直前がシフト
動作である不正なシフト動作を削除する第２の処理手段
と、上記ＬＲ構文解析テーブルの動作表中で空の状態、及び
空の状態へのシフト動作を削除する第３の処理手段と、上記ＬＲ構文解析テーブルの動作表中で既に除去された
シフト動作に至る還元動作を削除する第４の処理手段
と、上記ＬＲ構文解析テーブルの動作表中で既に除去された
動作命令からしか到達できない動作命令を、上記ＬＲ構
文解析テーブルの行先表を用いて検査して削除する第５
の処理手段と、上記ＬＲ構文解析テーブルの動作表中で状態がないとこ
ろを削除して、状態番号を詰めることにより圧縮処理を
実行する第６の処理手段とを備えたことを特徴とする請
求項１記載の連続音声認識装置。