JP2781739B2 - 連続音声認識装置 - Google Patents

連続音声認識装置

Info

Publication number
JP2781739B2
JP2781739B2 JP7088041A JP8804195A JP2781739B2 JP 2781739 B2 JP2781739 B2 JP 2781739B2 JP 7088041 A JP7088041 A JP 7088041A JP 8804195 A JP8804195 A JP 8804195A JP 2781739 B2 JP2781739 B2 JP 2781739B2
Authority
JP
Japan
Prior art keywords
syntax analysis
state
phoneme
speech recognition
deleting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7088041A
Other languages
English (en)
Other versions
JPH08286694A (ja
Inventor
寿幸 竹沢
穂積 田中
輝 李
ハラルド・シンガー
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP7088041A priority Critical patent/JP2781739B2/ja
Publication of JPH08286694A publication Critical patent/JPH08286694A/ja
Application granted granted Critical
Publication of JP2781739B2 publication Critical patent/JP2781739B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、連続音声認識装置に関
し、特に、単一又は複数の文節、あるいは単一又は複数
の単語からなる発話音声を効率的に音声認識する連続音
声認識装置に関する。
【0002】
【従来の技術】従来の連続音声認識装置として、例え
ば、音素コンテキスト依存LRパーザにより、逐次状態
分割法(Successive State Splitting:SSS)で自動
生成された隠れマルコフ網(以下、HM網という。)を
駆動して音声認識処理を実行する装置(以下、従来例と
いう。)が、文献1「永井明人ほか,“逐次状態分割法
(SSS)と音素コンテキスト依存LRパーザを統合し
たSSS−LR連続音声認識システム”,電子情報通信
学会技術報告,SP92−33,pp.69−76,3
55−1992年」において開示されている。この連続
音声認識装置は、音素継続時間を制御するために、逐次
状態分割法を用いてHM網とは独立に生成した音素コン
テキスト依存の音素継続時間モデルを使用することを特
徴とし、より高い認識率を有し高速で処理することがで
きたことが上記文献1において報告されている。
【0003】
【発明が解決しようとする課題】上記従来例の連続音声
認識装置において、音素環境依存の精密な音素モデルを
利用すると、音素モデルの連接可能性を実行時に調べな
がら、音声認識の処理を進めなければならず、音声認識
処理の効率がきわめて悪いという問題点があった。しか
も、単語又は文節の境界において、後に実行される還元
(reduce)処理の時点で棄却されるにもかかわらず、音
素照合時には接続可能とみなされてしまう異音モデルの
数が増大してしまい、処理時間が増大するとともに、認
識率が大幅に低下していた。
【0004】本発明の目的は以上の問題点を解決し、従
来例に比較して処理時間を短縮することができるととも
に、認識率を改善することができる連続音声認識装置を
提供することにある。
【0005】
【課題を解決するための手段】本発明に係る請求項1記
載の連続音声認識装置は、入力される発声音声に基づい
て所定の隠れマルコフモデルを参照して音素認識し、か
つ所定のLR構文解析テーブルを参照して構文解析する
ことにより、上記発声音声を音声認識する音声認識手段
を備えた連続音声認識装置において、音素間の接続関係
を示す所定の異音規則に基づいて、上記LR構文解析テ
ーブルにおいて単語内及び単語間における音素の連接の
可能性がない部分を削除して最適化されたLR構文解析
テーブルを出力する最適化処理手段を備え、上記音声認
識手段は、上記最適化されたLR構文解析テーブルを参
照して構文解析することにより、上記発声音声を音声認
識することを特徴とする。
【0006】また、請求項2記載の連続音声認識装置
は、請求項1記載の連続音声認識装置において、上記L
R構文解析テーブルは、一連の状態番号が付された各状
態における動作を示す動作表と、各状態における動作を
実行した後の行き先の状態を示す行先表とを備え、上記
最適化処理手段は、上記異音規則に基づいて、上記LR
構文解析テーブルの動作表中で不正な還元動作を削除す
る第1の処理手段と、上記LR構文解析テーブルの動作
表中で、直前がシフト動作である不正なシフト動作を削
除する第2の処理手段と、上記LR構文解析テーブルの
動作表中で空の状態、及び空の状態へのシフト動作を削
除する第3の処理手段と、上記LR構文解析テーブルの
動作表中で既に除去されたシフト動作に至る還元動作を
削除する第4の処理手段と、上記LR構文解析テーブル
の動作表中で既に除去された動作命令からしか到達でき
ない動作命令を、上記LR構文解析テーブルの行先表を
用いて検査して削除する第5の処理手段と、上記LR構
文解析テーブルの動作表中で状態がないところを削除し
て、状態番号を詰めることにより圧縮処理を実行する第
6の処理手段とを備えたことを特徴とする。
【0007】
【作用】本発明に係る請求項1記載の連続音声認識装置
においては、上記最適化処理手段は、音素間の接続関係
を示す所定の異音規則に基づいて、上記LR構文解析テ
ーブルにおいて単語内及び単語間における音素の連接の
可能性がない部分を削除して最適化されたLR構文解析
テーブルを出力する。そして、上記音声認識手段は、入
力される発声音声に基づいて所定の隠れマルコフモデル
を参照して音素認識し、かつ上記最適化されたLR構文
解析テーブルを参照して構文解析することにより、上記
発声音声を音声認識する。
【0008】また、請求項2記載の連続音声認識装置の
上記最適化処理手段においては、上記第1の処理手段
は、上記異音規則に基づいて、上記LR構文解析テーブ
ルの動作表中で不正な還元動作を削除し、上記第2の処
理手段は、上記LR構文解析テーブルの動作表中で、直
前がシフト動作である不正なシフト動作を削除し、上記
第3の処理手段は、上記LR構文解析テーブルの動作表
中で空の状態、及び空の状態へのシフト動作を削除す
る。次いで、上記第4の処理手段は、上記LR構文解析
テーブルの動作表中で既に除去されたシフト動作に至る
還元動作を削除し、上記第5の処理手段は、上記LR構
文解析テーブルの動作表中で既に除去された動作命令か
らしか到達できない動作命令を、上記LR構文解析テー
ブルの行先表を用いて検査して削除する。さらに、上記
第6の処理手段は、上記LR構文解析テーブルの動作表
中で状態がないところを削除して、状態番号を詰めるこ
とにより圧縮処理を実行する。
【0009】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図1に本発明に係る一実施例の連続音
声認識装置を示す。この実施例の連続音声認識装置は、
音声認識過程で生ずる音素環境の無駄な連接情報をあら
かじめ除去することにより、単語間のすべての連接可能
性を調べ尽くしたLR構文解析テーブル(以下、LRテ
ーブルという。)を予め用意することによって、「発明
が解決しようとする問題点」で述べた2つの問題点を解
決することを特徴としている。ここで、この連続音声認
識装置は、大きく分けて、音素照合部4と、音素環境依
存型GLRパーザ(この一般化されたLR構文解析部
を、以下、LRパーザという。)5とを備え、LRパー
ザ5は、LRテーブル最適化処理部6によって、音素を
基礎とするLRテーブル26から音素環境依存型LRテ
ーブルを最適化してLRテーブル13を参照して構文解
析処理を実行することを特徴とする。なお、隠れマルコ
フ網11と、話者モデル12と、LRテーブル13,2
6とはそれぞれ、例えばハードディスクなどの記憶装置
に記憶される。
【0010】次の数1は、本発明の実施例を示すため
の、簡単な文脈自由文法規則の一例である。
【0011】
【数1】(1) S→NP (2) N→ani(brother) (3) N→ane(sister) (4) P→ga (5) P→ni
【0012】ここで、Sは文であり、Nは名詞であり、
Pは助詞である。上記数1の(1)の規則は、「文S
は、名詞Nと、助詞Pがこの順序で並んだものであ
る。」ということを示している。また、例えば、上記数
1の(2)の規則は、「名詞Nは、ani(兄)であ
る。」ということを示しており、さらに、上記数1の
(4)の規則は、「助詞Pは、ga(が)である。」と
いうことを示している。従って、この数1で表された文
法規則は、“ani/ga(兄が)”、“ani/ni
(兄に)”、“ane/ga(姉が)”、及び“ane
/ni(姉に)”という4つの文節を受理して適用する
ことができる。
【0013】次いで、次の数2に、異音(allophone)
マップ22の一例を示す。
【数2】
【0014】この数2の異音マップは以下を示してい
る。異音“i1”は、先行音素(すなわち、左側の音
素)に“n”があり、後続音素(すなわち、右側の音
素)に“g”がある。異音“g2”は、先行音素(すな
わち、左側の音素)に“i”があり、後続音素(すなわ
ち、右側の音素)に“a”がある。つまり、“i1”の
後続音素に“g”があり、“g2”の先行音素に“i”
がある。従って、異音“g2”は異音“i1”のあとに
接続可能である。このような接続可能性を“1”,
“0”を用いて表にすることができる。この表が接続行
列(connection matrix)であり、その例を表1に示
す。なお、表1において“1”も“0”も記載がない欄
は、未定義であって不定のものである。
【0015】
【表1】
【0016】まず、音素環境独立型語彙規則21及び異
音環境マップ22において、単語の中を異音(allophon
e)表記に変換する。数3は、その結果を示している。
【0017】
【数3】(1) S→NP (2)’ N→an1i (3)’ N→an2e (4)’ P→ga (5)’ P→ni (6) a→a1 (7) a→a2 (8) i→i1 (9) i→i2 (10) e→e1 (11) e→e2 (12) g→g1 (13) g→g2 (14) n→n1 (15) n→n2
【0018】上記数3における(2)’は先行音素(左
側)がaで後続音素(右側)がiである環境ではnはn
1となること(表1参照。)を示しており、(3)’は
先行音素(左側)がaで後続音素(右側)がeである環
境ではnはn2となること(表1参照。)を示してい
る。また、(4)’及び(5)’は前後に出現しうる音
素環境が決定しないので、音素を異音表記に置き換えら
れないことを示している。ここで、上記数3において、
(1)及び(2)’乃至(5)’は従来例の音素環境依
存型語彙規則であり、(6)乃至(15)は異音規則2
4を示している。すなわち、異音規則24は、音素間の
対応関係を示している。
【0019】そして、文脈自由文法規則20と、音素環
境依存型語彙規則23と、異音規則24とに基づいて、
規範的なLR(Canonical LR:CLR)法による音素
を基礎とするLRテーブル(構文解析表)26を作成す
る。さらに,異音接続行列25とに基づいて、LRテー
ブル26を最適化して音素環境依存型LRテーブル13
を作成する。表2に、上記音素を基礎とするLRテーブ
ル26と、それを最適化する処理を実行して得られる音
素環境依存型LRテーブル13とを示す。
【0020】
【表2】
【0021】表2において、LRテーブル26は、左側
部分の動作表と、右側部分の行先表とからなり、動作表
は、一連の状態番号が付された各状態において上側に示
す音素が入力されたときにどのような構文解析動作を実
行するかを示す一方、各状態において動作を実行後に移
動する先の状態番号を示す。
【0022】本実施例において用いる音素環境依存型L
Rテーブル13を生成するまでのフローをまとめると、
図2のようになる。図2に示すように、一般にわかりや
すい、利用可能な単語をローマ字で表記するような関係
を示す音素環境独立型語彙規則21と、異音の前後に出
現することができる音素の関係を示す異音環境マップ2
2とに基づいて、前後の音素環境が決定する箇所のみ異
音表記に置き換えた音素環境依存型語彙規則を生成する
一方、上記異音環境マップ22から、音素間の接続関係
を示す異音規則24を生成する。また、上記異音環境マ
ップ22に基づいて、音素間の接続関係を行列で示す異
音接続行列25を作成する。そして、文脈自由文法規則
20と、音素環境依存型語彙規則23と、異音規則24
とに基づいて、音素を基礎とするLRテーブル26を作
成する。さらに、LRテーブル最適化処理部6は、音素
を基礎とするLRテーブル26と上記異音接続行列25
とに基づいて、以下に詳述するように、LRテーブル2
6を最適化処理して最適化された音素環境依存型LRテ
ーブル13を自動的に作成する。
【0023】次いで、図1のLRテーブル最適化処理部
6によって実行されるLRテーブル最適化処理につい
て、表2に示したLRテーブル26を例にとり、以下に
詳述する。この最適化処理は、大きく分けて、(1)接
続検査処理と、(2)制約伝搬処理と、(3)圧縮処理
とからなる。
【0024】まず、接続検査処理においては、以下のス
テップS1及びS2とを実行する。 (a)ステップS1においては、異音規則に基づき、処
理すべきLRテーブル26の動作表中で不正な還元(re
duce)動作を削除する(表2において(a)で示
す。)。表2の例においては、例えば、状態(state)
11“r14(規則14による還元操作を行なう)”の
うち先読みが“i2”のものは、異音“n1”と異音
“i2”が接続不可能なので除去される。ここで、先行
音素は規則の右辺からわかる。後続音素は“r14”の
記されている動作テーブル(action table)の先読み
(lookahead)からわかる。ただし、先読みが“i1”
のものは残る。 (b)次いで、ステップS2においては、LRテーブル
26の動作表中で、直前がシフト(移動遷移)動作であ
る、不正なシフト動作を削除する(表2において(b)
で示す。)。表2の例においては、例えば、状態(stat
e)6の“s16”は、異音“n1”と異音“i2”が
接続不可能なので、除去されねばならない。先行音素は
状態6へシフトする命令から、この場合、状態3の“s
6”の動作表の先読みからわかる。後続音素は状態6の
“s16”の動作表の先読みからわかる。
【0025】次に、制約伝搬(constraint propagatio
n)処理を実行するが、以下のステップS3、S4及び
S5からなる。 (c)まず、ステップS3では、LRテーブル26の動
作表中で空(empty)の状態、及び空の状態へのシフト
動作を削除する(表2において(c)で示す。)。表2
においては、例えば、すべての動作(action)が除去さ
れて、空になってしまう状態ができたら、その空の状
態、及びその空の状態へシフトする命令を除去する必要
がある。例えば、状態8は、ステップS1により、空の
状態になってしまったので、除去される。さらに、状態
8へ遷移する命令、つまり、状態4の“s8”は除去す
る必要がある。 (d)次いで、ステップS4においては、LRテーブル
26の動作表中で既に除去されたシフト動作に至る還元
動作を削除する(表2において、(d)で示す。)。表
2においては、例えば、状態15で先読みが“g1”の
“r8”には、還元操作の直後に、状態17に遷移する
命令が存在する。状態17で先読みが“g1”のところ
にある次の動作は“r2”である。“r2”の操作を行
なうと、状態4へ遷移することになるが、状態4で先読
みが“g1”のところにあるべき“s8”は既にステッ
プS3により除去されている。従って、先読みが“g
1”である、状態15の“r8”と状態17の“r2”
も除去される必要がある。 (e)さらに、ステップS5においては、LRテーブル
26の動作表において既に除去された動作命令からしか
到達できない動作命令を、表2の右側に示す行先表を使
って検査して削除する(表2において、(e)で示
す)。表2においては、例えば、状態20で先読みが
“n1”の“r3”には、行先動作命令から到達可能で
ある。これは、行先表に20という数字があるからわか
る。具体的には、状態18で先読みが“n1”の“r1
0”と、状態19で先読みが“n1”の“r11”があ
り、それらは既にステップS1において除去されてい
る。従って、この命令も除去される必要がある。
【0026】上記ステップS5の後、ステップS6にお
いて、処理すべきLRテーブル26において動作命令が
除去できないか否かが判断され、除去できる場合は、ス
テップS3に戻ってステップS3乃至S5の処理を、動
作命令が除去できなくなるまで繰り返す。動作命令を除
去できない場合は、ステップS7において、LRテーブ
ル26中で状態がないところなどの状態を削除して、状
態番号を詰めることにより圧縮処理を実行する。これ
で、LRテーブル最適化処理を終了する。
【0027】従って、上記ステップS1乃至S5におい
ては、処理すべきLRテーブル26において単語内及び
単語間における音素の連接の可能性がない部分を削除し
た後、ステップS7において、上記の削除により状態が
ない部分を削除することによりLRテーブル26を圧縮
している。
【0028】以上に述べたLRテーブル最適化処理によ
り得られた音素環境依存型LRテーブル13を、図1に
示すSSS(Successive State Splitting:逐次状態分
割法)−LR(left-to-right rightmost型)不特定話
者連続音声認識装置に適用する。この装置は、HM網1
1と呼ばれる音素環境依存型の効率のよいHMMの表現
形式を用いている。また、上記SSSにおいては、音素
の特徴空間上に割り当てられた確率的定常信号源(状
態)の間の確率的な遷移により音声パラメータの時間的
な推移を表現した確率モデルに対して、尤度最大化の基
準に基づいて個々の状態をコンテキスト方向又は時間方
向へ分割するという操作を繰り返すことによって、モデ
ルの精密化を逐次的に実行する。
【0029】図1において、話者の発声音声はマイクロ
ホン1aに入力されて音声信号に変換された後、A/D
変換器1bに入力される。A/D変換器1bは入力され
た音声信号をA/D変換した後特徴抽出部2に出力し、
特徴抽出部2は、例えばLPC分析を実行し、対数パワ
ー、16次ケプストラム係数、Δ対数パワー及び16次
Δケプストラム係数を含む34次元の特徴パラメータを
抽出する。抽出された特徴パラメータの時系列はバッフ
ァメモリ3を介して音素照合部4に入力される。
【0030】音素照合部4に接続されるHM網11は、
各状態をノードとする複数のネットワークとして表さ
れ、各状態はそれぞれ以下の情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率
【0031】なお、本実施例において、話者パージング
のためのHM網は、各分布がどの話者に由来するかを特
定する必要があるため、所定の話者混合HM網を変換し
て作成する。ここで、出力確率密度関数は34次元の対
角共分散行列をもつ混合ガウス分布であり、各分布はあ
る特定の話者のサンプルを用いて学習されている。
【0032】音素照合部4は、LRパーザ5からの音素
照合要求に応じて音素照合処理を実行する。このとき
に、LRパーザ5からは、音素照合区間及び照合対象音
素とその前後の音素から成る音素コンテキスト情報が渡
される。音素照合部4は、受け取った音素コンテキスト
情報に基づいてそのようなコンテキストを受理すること
ができるHM網上の状態を、先行状態リストと後続状態
リストの制約内で連結することによって、1つのモデル
が選択される。そして、このモデルを用いて音素照合区
間内のデータに対する尤度が計算され、この尤度の値が
音素照合スコアとしてLRパーザ5に返される。このと
きに用いられるモデルは、隠れマルコフモデル(以下、
HMMという。)と等価であるために、尤度の計算には
通常のHMMで用いられている前向きパスアルゴリズム
をそのまま使用する。
【0033】LRパーザ5は、例えば音素継続時間長モ
デルを含む、話者モデル12と上記最適化されたLRテ
ーブル13とを参照して、入力された音素予測データに
ついて左から右方向に、後戻りなしに処理する。構文的
にあいまいさがある場合は、スタックを分割してすべて
の候補の解析が平行して処理される。LRパーザ5は、
LRテーブル13を参照して次にくる音素を予測して音
素予測データを音素照合部4に出力する。これに応答し
て、音素照合部4は、その音素に対応するHM網11内
の情報を参照して照合し、その尤度を音声認識スコアと
してLRパーザ5に戻し、順次音素を連接していくこと
により、連続音声の認識を行っている。複数の音素が予
測された場合は、これらすべての存在をチェックし、ビ
ームサーチの方法により、部分的な音声認識の尤度の高
い部分木を残すという枝刈りを行って高速処理を実現す
る。入力された話者音声の最後まで処理した後、全体の
尤度が最大のもの又は所定の上位複数個のものを認識結
果データ又は結果候補データとして出力する。
【0034】以上説明したように、この発明に係る実施
例によれば、音声認識過程で生ずる音素環境の無駄な連
接情報をあらかじめ除去してLRテーブルを作成する。
すなわち、処理すべきLRテーブル26において単語内
及び単語間における音素の連接の可能性がない部分を削
除した後、上記の削除により状態がない部分を削除する
ことによりLRテーブル26を圧縮して最適化されたL
Rテーブル13を参照して音声認識処理を実行するの
で、従来例に比較して効率的であってより高性能な連続
音声認識装置を実現できる。
【0035】以上の実施例において、特徴抽出部2と、
音素照合部3と、LRパーザ5と、LRテーブル生成部
6とは、例えばディジタル計算機によって構成される。
【0036】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の連続音声認識装置によれば、入力される発声音
声に基づいて所定の隠れマルコフモデルを参照して音素
認識し、かつ所定のLR構文解析テーブルを参照して構
文解析することにより、上記発声音声を音声認識する音
声認識手段を備えた連続音声認識装置において、音素間
の接続関係を示す所定の異音規則に基づいて、上記LR
構文解析テーブルにおいて単語内及び単語間における音
素の連接の可能性がない部分を削除して最適化されたL
R構文解析テーブルを出力する最適化処理手段を備え、
上記音声認識手段は、上記最適化されたLR構文解析テ
ーブルを参照して構文解析することにより、上記発声音
声を音声認識する。すなわち、音声認識過程で生ずる音
素環境の無駄な連接情報をあらかじめ除去してLR解析
構文テーブルを作成する。すなわち、処理すべきLR解
析構文テーブルにおいて単語内及び単語間における音素
の連接の可能性がない部分を削除して、圧縮して最適化
されたLR解析構文テーブルを参照して音声認識処理を
実行するので、従来例に比較して効率的であってより高
性能な連続音声認識装置を実現できる。
【0037】また、請求項2記載の連続音声認識装置に
よれば、上記LR構文解析テーブルは、一連の状態番号
が付された各状態における動作を示す動作表と、各状態
における動作を実行した後の行き先の状態を示す行先表
とを備え、上記最適化処理手段は、上記異音規則に基づ
いて、上記LR構文解析テーブルの動作表中で不正な還
元動作を削除する第1の処理手段と、上記LR構文解析
テーブルの動作表中で、直前がシフト動作である不正な
シフト動作を削除する第2の処理手段と、上記LR構文
解析テーブルの動作表中で空の状態、及び空の状態への
シフト動作を削除する第3の処理手段と、上記LR構文
解析テーブルの動作表中で既に除去されたシフト動作に
至る還元動作を削除する第4の処理手段と、上記LR構
文解析テーブルの動作表中で既に除去された動作命令か
らしか到達できない動作命令を、上記LR構文解析テー
ブルの行先表を用いて検査して削除する第5の処理手段
と、上記LR構文解析テーブルの動作表中で状態がない
ところを削除して、状態番号を詰めることにより圧縮処
理を実行する第6の処理手段とを備える。従って、従来
例に比較して効率的であってより高性能な連続音声認識
を実行するために必要かつ十分なLR構文解析テーブル
を得ることができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施例である連続音声認識装
置のブロック図である。
【図2】 図1の連続音声認識装置において用いられる
音素環境依存型LRテーブルを作成する方法を示すフロ
ーチャートである。
【図3】 図2のLRテーブル生成処理を示すフローチ
ャートである。
【符号の説明】
1a…マイクロホン、 1b…A/D変換器、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…音素環境依存型GLRパーザ(LRパーザ)、 6…LRテーブル最適化処理部、 6a…LRテーブル最適化処理、 11…隠れマルコフ網(HM網)、 12…話者モデル、 13…音素環境依存型LRテーブル、 20…文脈自由文法規則、 21…音素環境独立型語彙規則、 22…異音環境マップ、 23…音素環境依存型語彙規則、 24…異音規則、 25…異音接続行列、 26…音素を基礎とするLRテーブル。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 李 輝 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (72)発明者 ハラルド・シンガー 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 特公 平5−52506(JP,B2) 人工知能学会誌 VOL.11,NO. 2,P.246−254(平成8年3月) 電子情報通信学会技術研究報告[音声 ]SP91−23,P.41−48(平成3年6 月) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 535 G10L 3/00 531 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力される発声音声に基づいて所定の隠
    れマルコフモデルを参照して音素認識し、かつ所定のL
    R構文解析テーブルを参照して構文解析することによ
    り、上記発声音声を音声認識する音声認識手段を備えた
    連続音声認識装置において、 音素間の接続関係を示す所定の異音規則に基づいて、上
    記LR構文解析テーブルにおいて単語内及び単語間にお
    ける音素の連接の可能性がない部分を削除して最適化さ
    れたLR構文解析テーブルを出力する最適化処理手段を
    備え、 上記音声認識手段は、上記最適化されたLR構文解析テ
    ーブルを参照して構文解析することにより、上記発声音
    声を音声認識することを特徴とする連続音声認識装置。
  2. 【請求項2】 上記LR構文解析テーブルは、一連の状
    態番号が付された各状態における動作を示す動作表と、
    各状態における動作を実行した後の行き先の状態を示す
    行先表とを備え、上記最適化処理手段は、 上記異音規則に基づいて、上記LR構文解析テーブルの
    動作表中で不正な還元動作を削除する第1の処理手段
    と、 上記LR構文解析テーブルの動作表中で、直前がシフト
    動作である不正なシフト動作を削除する第2の処理手段
    と、 上記LR構文解析テーブルの動作表中で空の状態、及び
    空の状態へのシフト動作を削除する第3の処理手段と、 上記LR構文解析テーブルの動作表中で既に除去された
    シフト動作に至る還元動作を削除する第4の処理手段
    と、 上記LR構文解析テーブルの動作表中で既に除去された
    動作命令からしか到達できない動作命令を、上記LR構
    文解析テーブルの行先表を用いて検査して削除する第5
    の処理手段と、 上記LR構文解析テーブルの動作表中で状態がないとこ
    ろを削除して、状態番号を詰めることにより圧縮処理を
    実行する第6の処理手段とを備えたことを特徴とする請
    求項1記載の連続音声認識装置。
JP7088041A 1995-04-13 1995-04-13 連続音声認識装置 Expired - Fee Related JP2781739B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7088041A JP2781739B2 (ja) 1995-04-13 1995-04-13 連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7088041A JP2781739B2 (ja) 1995-04-13 1995-04-13 連続音声認識装置

Publications (2)

Publication Number Publication Date
JPH08286694A JPH08286694A (ja) 1996-11-01
JP2781739B2 true JP2781739B2 (ja) 1998-07-30

Family

ID=13931750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7088041A Expired - Fee Related JP2781739B2 (ja) 1995-04-13 1995-04-13 連続音声認識装置

Country Status (1)

Country Link
JP (1) JP2781739B2 (ja)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
人工知能学会誌 VOL.11,NO.2,P.246−254(平成8年3月)
電子情報通信学会技術研究報告[音声]SP91−23,P.41−48(平成3年6月)

Also Published As

Publication number Publication date
JPH08286694A (ja) 1996-11-01

Similar Documents

Publication Publication Date Title
Hori et al. Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US7711561B2 (en) Speech recognition system and technique
US8849668B2 (en) Speech recognition apparatus and method
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP2000200273A (ja) 発話意図認識装置
US11869491B2 (en) Abstract generation device, method, program, and recording medium
JP3027543B2 (ja) 連続音声認識装置
JP2999768B1 (ja) 音声認識誤り訂正装置
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2886117B2 (ja) 音声認識装置
JP2871557B2 (ja) 音声認識装置
JP3009636B2 (ja) 音声言語解析装置
JP2781739B2 (ja) 連続音声認識装置
Nakagawa Speaker-independent continuous-speech recognition by phoneme-based word spotting and time-synchronous context-free parsing
JP3059413B2 (ja) 自然言語理解装置及び自然言語理解システム
JP3027557B2 (ja) 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体
JP2001013992A (ja) 音声理解装置
JP2905686B2 (ja) 音声認識装置
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3766111B2 (ja) 音声認識装置
JP3009654B1 (ja) 機械翻訳処理装置
JP3355248B2 (ja) 連続音声認識方式
JP2901850B2 (ja) 統計的言語モデルを用いた音声認識方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110515

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140515

Year of fee payment: 16

LAPS Cancellation because of no payment of annual fees