JP3027557B2 - 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体 - Google Patents

音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体

Info

Publication number
JP3027557B2
JP3027557B2 JP9238565A JP23856597A JP3027557B2 JP 3027557 B2 JP3027557 B2 JP 3027557B2 JP 9238565 A JP9238565 A JP 9238565A JP 23856597 A JP23856597 A JP 23856597A JP 3027557 B2 JP3027557 B2 JP 3027557B2
Authority
JP
Japan
Prior art keywords
word
speech
finite state
grammar
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP9238565A
Other languages
English (en)
Other versions
JPH1185183A (ja
Inventor
元 塚田
博史 山本
芳典 匂坂
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP9238565A priority Critical patent/JP3027557B2/ja
Publication of JPH1185183A publication Critical patent/JPH1185183A/ja
Application granted granted Critical
Publication of JP3027557B2 publication Critical patent/JP3027557B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識方法及び
装置、並びに音声認識処理プログラムを記録した記録媒
体に関する。
【0002】
【従来の技術】自然発話音声の認識においては、N−g
ramを基礎とする統計的言語モデルが広く使用されて
いる。これは、こうしたモデルが、逸脱した発話を受容
すると同時に探索の際の認識候補数を大幅に低減できる
ためである。一方で、音声翻訳装置を含む多くの音声対
話システムでは、音声認識装置の後端部が文法を使用し
て構文構造を解析している。通常これは、音声認識に使
用されるN−gramを基礎とする統計的言語モデルと
は無関係に開発されている。N−gramを基礎とする
統計的言語モデルと文法とは異なるタイプの言語制約と
して機能するため、音声対話システムの全体的性能を高
めるためには、統計的言語モデルだけでなく後端部の文
法をも音声認識上の制約として協働的に使用する必要が
ある。
【0003】統計的言語モデルと厳格な文法的制約の両
方を統合する方法としては、文法を逸脱していない発話
のみを受容するものが多く提案されている(例えば、特
願平8−330679号など参照。)。さらに、後置の
文法によって近似された厳格な文法的制約を使用する認
識方法が提案されている(例えば、従来技術文献「F.C.
N. Pereira, et al.,“Finite-state approximation o
f phrase-structuregrammars", In 29th Annual Meetin
g of the Association for Computational Linguistic
s,pp.246-255,1991年」参照。)。
【0004】
【発明が解決しようとする課題】しかしながら、こうし
た研究のように文法を自然発話音声認識に於ける厳格な
制約として使用することには幾つかの欠点がある。第一
に、自然発話音声は、言いよどみ、言い直しといった朗
読音声の場合には発生しない自然発話音声固有の言語的
現象によって文法を外れることが多い。第二に多くの場
合、厳格に文法的制約を適用することは頑強ではない。
文法によって長距離依存性を表現することは可能である
が、局部的エラーによって全体に悪影響が及ぶ場合が多
い。
【0005】本発明の目的は以上の問題点を解決し、自
然発話音声がその固有の言語的現象によって文法を外れ
た場合であっても、従来技術に比較して高い認識率で音
声認識することができる音声認識方法及び装置、並び
に、音声認識処理プログラムを記録した記録媒体を提供
することにある。
【0006】
【課題を解決するための手段】本発明に係る音声認識方
法は、入力される発声音声文の音声信号に基づいて上記
発声音声文を音声認識する音声認識方法であって、所定
の文脈自由文法を、文法的制約を表わす有限状態オート
マトンに変換するステップと、上記変換された有限状態
オートマトンを、自然発話における単語の挿入、脱落、
置換の状態遷移を含み文法的制約を表わす有限状態トラ
ンスデューサに変換するステップと、入力される発声音
声文の音声信号に基づいて、所定の統計的言語モデル
と、上記変換された有限状態トランスデューサとを参照
して、自然発話における単語の挿入、脱落、置換に該当
する単語にマーク付けするように上記発声音声文を音声
認識するステップと、上記音声認識された結果に基づい
て、上記マーク付けされた単語、もしくは、上記マーク
付けされた単語及びそれに隣接する単語を、文法を逸脱
した部分の単語として削除して音声認識結果を出力する
ステップとを含むことを特徴とする。
【0007】また、本発明に係る音声認識装置は、入力
される発声音声文の音声信号に基づいて上記発声音声文
を音声認識する音声認識装置であって、所定の文脈自由
文法を、文法的制約を表わす有限状態オートマトンに変
換する第1の変換手段と、上記第1の変換手段によって
変換された有限状態オートマトンを、自然発話における
単語の挿入、脱落、置換の状態遷移を含み文法的制約を
表わす有限状態トランスデューサに変換する第2の変換
手段と、入力される発声音声文の音声信号に基づいて、
所定の統計的言語モデルと、上記第2の変換手段によっ
て変換された有限状態トランスデューサとを参照して、
自然発話における単語の挿入、脱落、置換に該当する単
語にマーク付けするように上記発声音声文を音声認識す
る音声認識手段と、上記音声認識手段によって音声認識
された結果に基づいて、上記マーク付けされた単語、も
しくは、上記マーク付けされた単語及びそれに隣接する
単語を、文法を逸脱した部分の単語として削除して音声
認識結果を出力する単語抽出手段とを備えたことを特徴
とする。
【0008】さらに、本発明に係る音声認識処理プログ
ラムを記録した記録媒体は、入力される発声音声文の音
声信号に基づいて上記発声音声文を音声認識する音声認
識処理プログラムを記録した記録媒体であって、所定の
文脈自由文法を、文法的制約を表わす有限状態オートマ
トンに変換するステップと、上記変換された有限状態オ
ートマトンを、自然発話における単語の挿入、脱落、置
換の状態遷移を含み文法的制約を表わす有限状態トラン
スデューサに変換するステップと、入力される発声音声
文の音声信号に基づいて、所定の統計的言語モデルと、
上記変換された有限状態トランスデューサとを参照し
て、自然発話における単語の挿入、脱落、置換に該当す
る単語にマーク付けするように上記発声音声文を音声認
識するステップと、上記音声認識された結果に基づい
て、上記マーク付けされた単語、もしくは、上記マーク
付けされた単語及びそれに隣接する単語を、文法を逸脱
した部分の単語として削除して音声認識結果を出力する
ステップとを含む音声認識処理プログラムを記録したこ
とを特徴とする。
【0009】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0010】図1に本発明に係る一実施形態の音声認識
装置のブロック図を示す。本実施形態の音声認識装置に
おいては、統計的言語モデルメモリ22に予め作成され
て記憶されたN−gram又は可変長N−gramなど
の統計的言語モデルを用いて絞り込んだ単語列の仮説
を、文法的な制約によってさらに絞り込むと同時に、文
法を逸脱した単語について、マーク付けすることによっ
て、認識された発話中の信頼性の高い単語と低い単語が
識別できるようにしたことを特徴とする。
【0011】図1において、単語照合部4は、公知のワ
ン−パス・ビタビ復号化法を用いて、入力される発声音
声文の音声信号の特徴パラメータに基づいて上記発声音
声文の単語仮説を検出し尤度を計算して出力し、次い
で、第1の単語仮説絞込部6は、単語照合部4からバッ
ファメモリ5を介して出力される、終了時刻が等しく開
始時刻が異なる同一の単語の単語仮説に対して、統計的
言語モデルメモリ22内の統計的言語モデルを参照し
て、当該単語の先頭音素環境毎に、発声開始時刻から当
該単語の終了時刻に至る計算された総尤度のうちの最も
高い尤度を有する1つの単語仮説で代表させるように単
語仮説の絞り込みを行う。ここで用いる統計的言語モデ
ルは、学習用テキストデータに基づいて言語モデル生成
部20により生成されたものであって、統計的言語モデ
ル22は、品詞クラス間のバイグラム(N=2)を基本
としたものであるが、単独で信頼できる単語は品詞クラ
スより分離させ、単独のクラスとして取り扱い、さら
に、予測精度を向上させるため、頻出単語列に関しては
それらの単語を結合して一つのクラスとして取り扱い、
長い単語連鎖の表現を可能にさせ、こうして、生成され
たモデルは、品詞バイグラムと可変長単語N−グラムと
の特徴を併せ持つ統計的言語モデルとなり、遷移確率の
精度と信頼性とのバランスをとられたものである。
【0012】本実施形態においては、文法的な制約とし
て、文脈自由文法(CFG)で記述されたものを用い
る。ただし、効率的な制約の適用を実現するため、文脈
自由文法メモリ41に記憶された文脈自由文法(CF
G)を、第1の文法変換部31によって予め有限状態オ
ートマトン(FSA)に近似変換して、有限状態オート
マトンメモリ42に格納する。さらに、多少の文法的な
逸脱を許容するとともに、逸脱した単語にマーク付けす
るために、有限状態オートマトンメモリ42に格納され
た有限状態オートマトンを、第2の文法変換部32によ
って、単語の付加、削除及び置換の状態遷移を含む有限
状態トランスデューサ(FST)に変換して有限状態ト
ランスデューサ(FST)メモリ43に格納する。そし
て、第2の単語仮説絞込部7は、こうして作られた有限
状態トランスデューサ(FST)を用いて、第1の単語
仮説絞込部6から出力される単語列の仮説を絞り込むと
同時に、文法を逸脱した単語にマーク付けする。最後
に、単語抽出部8は、マーク付けされた単語(又は、さ
らにはその周辺の単語)を取り除くことにより、信頼性
の高い単語列からなる発話断片を抽出して音声認識結果
として出力する。
【0013】図1において、単語照合部4に接続され、
音素HMMメモリ11に格納される音素HMMは、各状
態を含んで表され、各状態はそれぞれ以下の情報を有す
る。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施形態において用いる音素HMMは、各分布
がどの話者に由来するかを特定する必要があるため、所
定の話者混合HMMを変換して生成する。ここで、出力
確率密度関数は34次元の対角共分散行列をもつ混合ガ
ウス分布である。また、単語照合部4に接続され、単語
辞書メモリ12に格納される単語辞書は、音素HMMの
各単語毎にシンボルで表した読みを示すシンボル列を格
納する。
【0014】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
【0015】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMMと単語辞
書とを用いて単語仮説を検出し尤度を計算して出力す
る。ここで、単語照合部4は、各時刻の各HMMの状態
毎に、単語内の尤度と発声開始からの尤度を計算する。
尤度は、単語の識別番号、単語の開始時刻、先行単語の
違い毎に個別にもつ。また、計算処理量の削減のため
に、音素HMM及び単語辞書とに基づいて計算される総
尤度のうちの低い尤度のグリッド仮説を削減する。単語
照合部4は、その結果の単語仮説と尤度の情報を発声開
始時刻からの時間情報(具体的には、例えばフレーム番
号)とともにバッファメモリ5を介して単語仮説絞込部
6に出力する。
【0016】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデル22を参照して、終了時刻が等し
く開始時刻が異なる同一の単語の単語仮説に対して、当
該単語の先頭音素環境毎に、発声開始時刻から当該単語
の終了時刻に至る計算された総尤度のうちの最も高い尤
度を有する1つの単語仮説で代表させるように単語仮説
の絞り込みを行った後、絞り込み後のすべての単語仮説
の単語列のうち、最大の総尤度を有する仮説の単語列を
認識結果として出力する。本実施形態においては、好ま
しくは、処理すべき当該単語の先頭音素環境とは、当該
単語より先行する単語仮説の最終音素と、当該単語の単
語仮説の最初の2つの音素とを含む3つの音素並びをい
う。
【0017】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
【0018】次いで、第1及び第2の文法変換部31,
32の処理について詳述する。第1の文法変換部31
は、文脈自由文法(CFG)から有限状態オートマトン
(FSA)を自動生成する処理部である。文脈自由文法
(CFG)は、次表に示す(VT,VN,P,S)の4つ
の組みで表される。
【0019】
【表1】 文脈自由文法(CFG) ─────────────── VT:終端記号の有限集合 VN:非終端記号の有限集合 P:生成規則の有限集合 S:開始記号 ───────────────
【0020】開始記号を生成規則を用いて書き換え、最
終的に得られる終端記号列の集合が、この文脈自由文法
で表される言語である。終端記号とは、生成規則の左辺
に現れない記号であり、生成規則によって最終的に生成
される記号列の構成要素である。非終端記号は、それ以
外の生成規則に現れる記号である。生成規則は、一つの
非終端記号を0個以上の終端又は非終端記号に書き換え
る規則である。次に、その規則の一例を示す。
【0021】
【数1】VT={det,noun,pron,pre
p,verb} VN={SENT,NP,VP,PP} P:次の表2参照。 S=SENT
【0022】ここで、detは冠詞、nounは名詞、
pronは代名詞、prepは前置詞、verbは動詞
を示す。また、SENTは開始記号、NPは名詞句、V
Pは動詞句、PPは前置詞句を示す。また、英語のため
の生成規則の一例を次の表に示す。
【0023】
【表2】 英語のための生成規則の一例 ─────────────── SENT→NP,VP,NP SENT→SENT,PP NP→det,noun NP→pron NP→NP,PP PP→prep,NP VP→verb ───────────────
【0024】ここで、例えば、表2の第1行目は、開始
記号SENTは、NP,VP,又はNPを生成すること
を示している。本実施形態で用いる有限状態オートマト
ン(FSA)は、入力記号列を受理するかしないかを決
定する仮想的な機械であって、次に示す(Q,Σ,
0,F,E)の5つの組みで表される。
【0025】
【表3】 ───────────────────────────── Q:状態の有限集合 Σ:入力記号の有限集合 q0∈Q:初期状態 F⊆Q:最終状態の有限集合 E⊆Q×(Σ∪{ε})×Q: 状態遷移の有限集合Eは、遷移前の状態、入力記号、 遷移後の状態の3つの組みからなる。 ─────────────────────────────
【0026】FSAの基本動作は、初期状態から始ま
り、入力記号を読みつつ、状態を遷移するというもので
ある。入力を読み終わったとき、最終状態に到達するこ
とが可能であれば、その記号列を受理する。状態遷移で
使われているεは、特別な入力記号で、入力を読むこと
なしに遷移が可能であることを表す。任意の状態におい
て、ある入力記号が決まったとき、一意に遷移先の状態
がきまるFSAを決定的であるという。任意のFSA
は、決定的でかつ状態数が最小である等価なFSAに一
意に変換が可能であるという性質を持っている。この変
換処理は公知であって、例えば、従来技術文献「ジェイ
・ホップクロフトほか(訳者野崎ほか),“オートマトン
言語理論−計算論I”,pp.17−70及びpp71
−98,サイエンス社,昭和59年8月25日発行」な
どに開示されている。しかしながら、FSAで表現でき
る言語のクラスよりも、CFGで表現できる言語のクラ
スが大きいため、一般的には、CFGを等価なFSAに
自動変換することはできない。従って、本実施形態で
は、例えば、ペレイラのアルゴリズム(例えば、前掲の
従来技術文献「F. C. N. Pereira, et al.」)を用い
て、CFGを近似的に、FSAに変換する。すなわち、
本実施形態では、ペレイラのアルゴリズムに基づいて、
第1の文法変換処理を実行して、CFGを近似されたF
SAに変換する。第1の文法変換処理は、具体的には、
表4のCFG規則を例にとると、次のようにして行われ
る。
【表4】 ―――――――――― S→a,S,b. S→c. ―――――――――― この文法では、非終端記号はSのみで、開始記号を兼ね
る。a,bが終端記号である。 (1)特別な非終端記号S’及び特別な規則「S’→開
始記号」すなわち「S’→S」を導入する。 (2)CFG規則の右辺の終端/非終端記号の前後にド
ットを記した、ドットつき規則を導入する。ドットは、
入力終端記号列に対する現在の文法規則上での処理位置
を表す。 (3){S’→.S}の閉包を求める。閉包とは、ドッ
トの直後に現れる非終端記号を左辺に持つすべての規則
について、右辺の先頭にドットのついたドットつき規則
を再帰的に追加してゆく処理である。この結果、ドット
つき規則の集合{S’→.S,S→.aSb,S→.
c}が得られる。 (4)次に示す手順によって、ドットつき規則の閉包集
合を状態としたFSAを構築する。図12乃至図15の
四角又は丸はFSAの状態を表し、矢印は遷移を表す。
二重線の四角又は二重丸は、最終状態を表す。また、始
端をもたない矢印の終端となっている状態は、初期状態
を表す。矢印上に記された記号は、入力記号(CFGの
終端記号に対応する。)を表す。 (4a)閉包集合{S’→.S,S→.aSb,S→.
c}を初期状態にする。 (4b)初期状態となるドットつき規則の閉包集合から
始まり、そこから終端・非終端記号で遷移できるドット
つき規則の閉包集合を再帰的に生成する(図12参
照。)。ドットつき規則「S’→S.」を含む状態を、
最終状態とする。 (4c)右辺の最終端にドットのある規則と、その規則
の左辺の終端記号の直後にドットがあるようなドットつ
き規則をすべての閉包集合から探す。前者の規則を含む
閉包集合から、後者の規則を含む閉包集合へ、ε遷移を
追加する(図13参照。)。 (4d)非終端記号のついた遷移を消去する(図14参
照。)。 (5)さらに、図15に示すように、決定的かつ最小な
FSAに変換する。
【0027】図3に、数1のCFGの例に対して第1の
文法変換処理を実行することにより、作成した近似され
たFSAを示す。丸は状態を、矢印は遷移を表す。二重
丸は最終状態をあらわす。また、始端をもたない矢印の
終端となっている状態は、初期状態を表す。矢印上に記
された記号は、入力記号を表す。当該FSAは、決定的
であり、最小である。
【0028】先の例のCFGの終端記号、すなわちFS
Aの入力記号は、単語の品詞を表している。“I sa
w a girl with a telescop
e”という例文は、“I(pron)saw(ver
b)a(det)girl(noun)with(pr
ep)a(det)telescope(noun)”
のように、単語と品詞を対応づけることができる。CF
Gの生成規則においては、“with(prep)a
(det)telescope(noun)”という前
置詞句(PP)は、規則「NP→NP,PP」を用い
て、生成されるか、それとも規則「SENT→SEN
T,PP」を用いて生成されるか曖昧である。それに対
して、変換されたFSAにおいては、状態遷移の曖昧性
なく、決定的にこの例文を受理することが可能である。
最適化されたFSAのもつ、このような性質により、C
FGをそのまま文法的制約の表現として用いた場合と比
べて、より効率的な制約適用が可能となる。
【0029】第2の文法変換部32は、文法的制約を表
現するFSAを、多少の文法的な逸脱を許容するととも
に、逸脱した単語にマーク付する有限状態トランスデュ
ーサ(FST)に変換する処理部である。FSTは、F
SAに出力記号を追加した次表の6つの組(Q,Σ,
Σ’,q0,F,E’)で表されるもので、入力シンボ
ル列が受理されるとき、対応する出力シンボル列を出力
する。
【0030】
【表5】 ─────────────────────────── Q:状態の有限集合 Σ:入力記号の有限集合 Σ’:出力記号の有限集合 q0⊆Q:初期状態 F⊆Q:最終状態の有限集合 E’⊆Q×(Σ∪{ε})×Σ’*×Q: 状態遷移の有限集合E’は、遷移前の状態、入力記号、 出力記号列、遷移後の状態の4つの組からなる。 ───────────────────────────
【0031】第2の文法変換部32では、決定的なFS
Aから、図5乃至図7の第2の文法変換処理によって、
付加・脱落・置換を考慮することで、文法的な逸脱を許
容するFSTを生成する。
【0032】図5乃至図7は、図1の第2の文法変換部
32によって実行される第2の文法変換処理を示すフロ
ーチャートである。図5において、まず、ステップS1
において、有限状態オートマトンメモリ42から有限状
態オートマトン(FSA)を読み込み、ステップS2で
初期設定処理を実行するため、状態遷移の有限集合E’
にゼロのデータφを代入するとともに、出力記号の有限
集合Σ’に入力記号の有限集合Σを代入する。次いで、
ステップS3でa∈Σの各要素aに対して付加記号In
s<a>、脱落記号Del<a>及び置換記号Subs
t<a>を出力記号の有限集合Σ’に追加する。そし
て、ステップS4でa∈Σのすべての要素aについてス
テップS3の処理を実行したか否かが判断され、NOの
ときはステップS3の処理を繰り返す一方、YESのと
きはステップS5に進む。ステップS5でFSAの各状
態遷移(q1,a,q2)に対して状態遷移に有限集合
E’に状態遷移を追加する。そして、ステップS6でF
SAのすべての状態遷移(q1,a,q2)に対してステ
ップS5の処理を実行したか否かが判断され、NOのと
きはステップS5の処理を繰り返す一方、YESのとき
は図6のステップS7に進む。
【0033】図6のステップS7において、1つの状態
遷移(q1,a,a,q2)に対して脱落を示す状態遷移
(q1,ε,Del<a>,q2)を追加する。次いで、
ステップS8でb∈Σの各要素bに対して置換を表わす
状態遷移(q1,a,Subst<b>,q2)を追加す
る。そして、ステップS9でb∈Σのすべての要素bに
ついてS8の処理を実行したか否かが判断され、NOの
ときはステップS8の処理を繰り返す一方、YESのと
きはステップS10に進む。ステップS10ですべての
状態遷移(q1,a,a,q2)に対してS7の処理を実
行したか否かが判断され、NOのときはステップS7以
降の処理を繰り返す一方、YESのときはステップS1
1に進む。次いで、ステップS11でq∈Qの1つの要
素qに対して、かつa∈Σの各要素aに対して付加を表
わす状態遷移(q,a,Ins<a>,q)を追加す
る。そして、ステップS12でa∈Σのすべての要素q
に対してS11の処理を実行したか否かが判断され、N
OのときはステップS11の処理を繰り返す一方、YE
SのときはステップS13に進む。さらに、ステップS
13でq∈Qのすべての要素qに対してS11の処理を
実行したか否かが判断され、NOのときはステップS1
1の処理を繰り返す一方、YESのときはの図7のステ
ップS14に進む。最後に、図7のステップS14で得
られた有限状態トランスデューサ(FST)を有限状態
トランスデューサ(FST)メモリ43に書き込む。こ
れで、第2の文法変換処理を終了する。
【0034】図4に、図3の近似されたFSAから生成
したFSTを示す。スラッシュの左辺が入力記号、右辺
が出力記号を表す。疑問符が含まれている状態遷移は、
疑問符をそれぞれの入力シンボルに置き換えた複数の状
態遷移に相当する。
【0035】第2の単語仮説絞込部7は、公知の単語グ
ラフ(例えば、従来技術文献「T. Shimizu, et al.,“S
pontaneous dialogue speech recognition using cross
-word context constrained word graphs", In Proceed
ings of ICASSP,1996年」参照。)の形式で表現された
単語列仮説のもっともらしさを、第2の文法変換部32
で生成したFSTを用いて、再尤度づけするとともに、
単語とFSTの出力記号とを対応づける処理部である。
単語グラフは、入力記号が単語であるFSAを状態遷移
毎に遷移尤度をもつように拡張したものとみなすことが
できる。また、この第2の単語仮説絞込部7では、あら
かじめFSTの方にも、状態遷移の尤もらしさを表現す
る遷移尤度が与えられていると想定する。FSTの遷移
尤度の与え方には、さまさまな方法が考えられるが、例
えば、付加・脱落・挿入を表す遷移を通ったときに、ペ
ナルティを課す値として−1を、その他の遷移には、ペ
ナルティなしを表す0を与える。さらに、単語グラフの
遷移尤度XとFSTの遷移尤度Yから新たな尤度を求め
る関数fを用意する。この関数fについても、様々な実
現が考えられるが、例えば単語グラフの尤度を無視し
て、f(X,Y)=Yのような関数を用いる。
【0036】単語グラフと尤度つきFSTの両方に受理
される単語列について、この再尤度づけ関数fを用いて
計算する累積尤度を最大化するように、「単語とFST
の出力記号の対応」列を求めるのが、第2の単語仮説絞
込部7である。第2の単語仮説絞込部7によって実行さ
れた第2の単語仮説絞込処理のフローチャートを図8乃
至図10に示す。この処理のアルゴリズムは、例えば従
来技術文献「ジェイ・ホップクロフトほか,“オートマ
トン理論−計算論I”,サイエンス社,pp.77」に
開示され、複数のFSAが与えられたとき、これらすべ
てのFSAに共通して受理される入力記号列を受理する
ようなFSAを求めるアルゴリズムと、例えば従来技術
文献「J.Pearl,“Heuristics",Addison-Wesley,Readin
g,MA,1984年」に開示され、各辺にコストの定義された
有向グラフにおいて、最適パスを効率良く求めるA*ア
ルゴリズムを融合したものである。当該処理中で用いら
れている変数などの意味を次の表に示す。
【0037】
【表6】 ─────────────────────────────────── 単語グラフ:(Qwg,Σwg,q0,Fwg,Ewg) Qwg:状態の有限集合 Σwg:入力記号(単語)の有限集合 q0∈Qwg:初期状態 Fwg⊆Qwg:最終状態の有限集合 Ewg⊆Qwg×(Σwg∪{ε})×Qwg:状態遷移の有限集合。 ─────────────────────────────────── FST:(Qfst,Σfst,Σ’fst,p0,Ffst,E’fst) Qfst:状態の有限集合 Σfst:入力記号(品詞)の有限集合 Σ’fst:出力記号の有限集合 p0∈Qfst:初期状態 Ffst⊆Qfst:最終状態の有限集合 E’fst⊆Qfst×(Σfst∪{ε})×Σ’fst*×Qfst:状態遷移の有限集合。 ─────────────────────────────────── Scorewg,Scorefst:状態遷移に遷移尤度を与える関数 ─────────────────────────────────── g[q,p]: 初期状態(q0,p0)から(q,p)までの最尤パスを格納する添字つき変数 。 本変数に格納されるパスとは、単語グラフの状態とFSTの状態の組を新たな 状態としたときの状態遷移の列をいう。この新たな状態遷移は、(単語グラフの 状態とFSTの状態の組、単語、品詞、FSTの出力記号列、単語グラフの状態 とFSTの状態の組)の4つ組からなる。 ───────────────────────────────────
【0038】次いで、図8乃至図10を参照して、第2
の単語仮説絞込処理について説明する。図8において、
まず、ステップS21で初期設定処理を実行し、ここ
で、単語グラフの状態とFSTの状態の組の集合OPE
Nに初期状態{(q0,p0)}を代入し、初期状態[q
0,p0]までの最尤パスg[q0,p0]に長さφのパス
を表すNULLを代入する。次いで、ステップS22で
状態(q1,q2)∈OPENのうちパスg[q1
2]の尤度が最大のものを1つ取り出す。そして、ス
テップS23でq1∈Fwgかつq2∈Ffstであるか否か
を判断し、YESであれば、ステップS24でg
[q1,q2]を最尤パスと判断して単語抽出部8に出力
して当該第2の単語仮説絞込処理を終了する。一方、ス
テップS23でNOであるときは、ステップS25で状
態(q1,q2)を変数データOPENから取り除き、図
9のステップS26に進む。
【0039】図9のステップS26で、状態(q2
ε,α,q4)∈Efstである状態q4について、 (a)変数データOPENに状態(q1,q2)を追加す
る。 (b)パスg[q1,q2]の後ろに((q1,q2,ε,
ε,α,(q1,q4))を継ぎ足したものを変数g[q
1,q4]に代入する。 (c)パスg[q1,q2]の尤度として、g[q1
2]の尤度+f(0,Scorefst(q2,ε,α,
4))を設定する。 そして、ステップS27で状態(q2,ε,α,q4)∈
fstであるすべての状態q4についてS26の処理を実
行したか否かが判断され、NOのときはステップS26
の処理を繰り返す一方、YESのときはステップS28
に進む。次いで、ステップS28では、(q1,w,
3)∈Ewgかつ(q2,pos,α,q4)∈Efstかつ
w∈posである状態(q3,q4)を見つけて、 (a)変数データOPENに状態(q3,q4)を追加す
る。 (b)パスg[q1,q2]の後ろに、((q1,q2),
w,pos,α,(q3,q4))を継ぎ足したものを変
数g[q3,q4]に代入する。 (c)パスg[q3,q4]の尤度として、g[q1
2]の尤度+f(Scorewg(q1,w,q3),S
corefst(q2,w,α,q4))を設定する。 そして、ステップS29で、ステップS28の条件のす
べての状態(q3,q4)に対してS28の処理を実行し
たか否かが判断され、NOのときはステップS28の処
理を繰り返す一方、YESのときは図10のステップS
30に進む。
【0040】ステップS30では、最尤パス候補の終端
の状態集合を示す変数データOPENが空集合であるか
否かが判断され、NOのときはステップS22に戻り上
記の処理を繰り返す一方、YESのときは、ステップS
31で「単語列の仮説なし」を単語抽出部8に出力し、
当該第2の単語仮説絞込処理を終了する。
【0041】例えば、単語列“hi saw girl
with a telescope”は単語グラフの
特殊な場合と考えることができるが、各々の単語の品詞
が次の(a)のようであるとすると、第2の単語仮説絞
込処理における最尤パス探索によって、単語とΣ’fst
*の要素は、次の(b)のように対応づけることができ
る。 (a)hi(interj),saw(verb),g
irl(noun),with(prep),a(de
t),telescope(noun) (b)hi(Subst<pron>),saw(ve
rb),ε(Del<det>),girl(nou
n),with(prep),a(det),tele
scope(noun)
【0042】最後に、単語抽出部8は、信頼性の高い単
語を抽出する処理を実行する処理部であって、第2の単
語仮説絞込部7で得られた結果の最尤パスについて、次
の方法で信頼性の低いと思われる単語を削除する。すな
わち、Subst,Del,Insでマーク付された単
語を削除する。この変形例としては、Subst,De
l,Insでマーク付された単語および、それに隣接す
る単語を削除してもよい。例えば、“hi(Subst
<pron>),saw(verb),ε(Del<d
et>),girl(noun),with(pre
p),a(det),telescope(nou
n)”の例では、本実施形態の方法によって、“saw
(verb)”,“girl(noun),with
(prep),a(det),telescope(n
oun)”が、変形例の方法によって、“with(p
rep),a(det),telescope(nou
n)”が得られる。
【0043】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0044】以上の実施形態において、特徴抽出部2
と、単語照合部4と、第1と第2の単語仮説絞込部6,
7と、言語モデル生成部20と、第1と第2の文法変換
部31,32とは、例えば、デジタル電子計算機で構成
される一方、バッファメモリ3,5と、音素HMMメモ
リ11と、単語辞書メモリ12と、学習用テキストデー
タメモリ21と、統計的言語モデルメモリ22と、文脈
自由文法メモリ41と、有限状態オートマトンメモリ4
2と、有限状態トランスデューサメモリ43とは、例え
ばハードディスクメモリなどの記憶装置で構成される。
なお、以上の実施形態において、単語照合部4と、第1
と第2の単語仮説絞込部6,7は音声認識手段を構成し
ている。
【0045】本実施形態の音声認識装置のすべての音声
認識処理のための音声認識処理プログラムを、光ディス
ク又は光磁気ディスクなどの記録媒体に記録して、例え
ば1つのデジタル電子計算機で当該処理プログラムを実
行するように構成してもよい。
【0046】
【実施例】本発明者は、本実施形態の音声認識装置の性
能を評価するために、以下の実験を行った。ここでは、
N−gramに基づく統計学的言語モデルのみを使用し
て認識される最上位(トップベスト)単語列の信頼性
と、最上位の単語列をロバスト・パージング、すなわち
頑健なパージング(本実施形態における第2の単語仮説
絞込部7及び単語抽出部8によって構成されるパージン
グ処理部によるパージング処理をいう。)することによ
り取得される断片的な単語列の信頼性を比較した。音声
認識タスクには、本特許出願人が所有する自然音声デー
タベースに含まれる55のホテル予約会話を使用した。
このデータベースの場合、会話は2カ国語であり、話者
は通訳を介して会話している。認識実験には、のべ2
2,695単語からなる日本語による1,535発話を
使用した。また、文脈自由文法は音声認識用に開発され
たものを使用した。この文法は1832項目の規則で構
成され、文ではなくポーズ挿入可能な発話断片を文法の
単位としている。文法は認識実験に使用された55会話
に含まれる9会話を使用して開発した。N−gramに
基づく統計学的言語モデルとしては、先の55会話を含
む98会話で作成した可変長N−gramを使用した。
【0047】単語セグメントの信頼性の評価には、情報
検索の研究分野で使用される適合率を使用する。適合率
は以下のように定義される。
【数2】 適合率=合致した単語数/認識された単語数×100 合致した単語数とは認識された単語列と正解単語列との
間で一致する単語の最大数である。一般的な認識率とは
分母が異なっており、分母が正解単語数ならば通常の認
識率となる。
【0048】可変長N−gramを使用した最上位(ト
ップベスト)の認識結果における適合率は、68%であ
った。これに対して、頑健なパージングによって得られ
た発話断片の適合率は73%であった。この実験は、我
々が提案する音声認識方法を使用すれば、発話に含まれ
る信頼性の高い断片を獲得することが可能であることを
示している。
【0049】音声認識のためには、取得する部分発話断
片の信頼性だけでなく頑健なパージングの正解単語カバ
ー率を高めることも必要である。
【数3】正解単語の適用範囲=(頑健なパージングの出
力正解単語数)/(頑健なパージングの入力正解単語
数)×100 通常、同じ文法的制約を用いる場合であっても、本実施
形態の頑健なパージングの柔軟性によって得られる発話
断片の信頼性と正解単語のカバー率との間にはトレード
オフが存在する。このトレードオフの関係を調べるた
め、本発明に係る本実施形態のきつい頑健なパージング
についても認識実験を行った。
【0050】きつい頑健なパージングは、挿入、削除及
び置換を隣接単語を含めて無視することによって達成さ
れる。これは隣接単語が、挿入、削除、置換の影響をう
けて信頼性が低いと考えられるためである。例えば、こ
のきつい頑健なパージング法を使用した場合、“hi
(Subst<pron>),saw(verb),ε
(Del<det>),girl(noun),wit
h(prep),a(det),telescope
(noun)”からは、“saw(verb)”,“g
irl(noun),with(prep),a(de
t),telescope(noun)”が得られる。
【0051】図11は、頑健なパージングによって棄却
された単語の割合を示している。図11から明らかなよ
うに、本実施形態のきつい頑健なパージングを使用すれ
ば、73%の信頼性を81%に向上させることができ
る。しかし、反対に正解単語のカバー率は89%≒(4
7%+14%)/68%から69%≒47%/68%に
低減する。現在使用している文法の最大の問題は、その
辞書項目が実験に用いた認識対象発話を不十分にカバー
していないという点にある。我々の頑健なパージング法
では、文法の語彙項目に含まれない単語は挿入または置
換と見なされる。この語彙数の欠如を反映して、我々の
文法の認識対象発話カバー率はゆるい頑健なパージング
法を用いた場合89%であり、きつい方法を用いた場合
は71%である。これらの比率はそれぞれ、上述の正解
単語カバー率89%と69%にほぼ等しい。従って、文
法上の辞書項目が十分でさえあれば、正解単語をさらに
カバーすることが可能となる。
【0052】頑健な音声対話システムを達成するため、
我々は、N−gramに基づく統計学的言語モデルを使
用した認識結果を頑健なパージング処理を行うことによ
り信頼できる部分的な発話断片を得る認識方法を発明し
た。我々の方法は、CFGによって表現された文法的制
約を効果的に適用可能な表現に近似変換することによっ
て頑健なパージングに使用している。後段の文法を文法
的制約として使用することにより、音声対話システム全
体の性能を向上させることができる。自然発話音声認識
の実験を通して、我々の方法がN−gramに基づく統
計学的言語モデルだけを使用する従来の連続音声認識と
比べて信頼性の高い部分発話断片を取得可能であること
を示した。信頼できる発話断片を求めた後、その情報を
用いて、それ以外の部分を求めなおす再探索法にも拡張
が可能である。我々の認識方法は、マルチパス探索法に
基づく頑健な認識にも拡張可能である。こうした方法は
最初のパスの後に信頼できるセグメントの情報を使用す
る。特に未知語を含んだ発話の認識には、このタイプの
探索方法が不可欠である。
【0053】以上説明したように、本実施形態によれ
ば、以下の特有の効果を有する。 (a)統計的な言語制約と、文法的な制約とを、本実施
形態のように組み合わせることにより、単独の制約を用
いた場合より、文法的でない自然発話を、高い精度で認
識可能であり、信頼性の高い区間を見つけることができ
る。 (b)有限状態オートマトンに基づいた近似的な文法制
約を用いることで、効率的な制約適用が可能である。従
って、音声認識処理を従来技術に比較して高速で実行す
ることができる。 (c)文法を逸脱した部分の単語を無視することによっ
て、信頼性高く認識された発話断片を求めることができ
る。これによって、求められた発話断片に対する音声認
識率を従来技術に比較して大幅に向上させることができ
る。 (d)本実施形態は、信頼性高く認識された発話断片に
基づいて、発話理解処理を進める音声対話方法及び装置
や、この発話断片情報をもとに、認識候補の再探索を行
うマルチパス探索方法に適用することができる。これら
の方法及び装置では、それぞれ頑健な音声理解、音声認
識が可能となる。
【0054】
【発明の効果】以上詳述したように本発明によれば、入
力される発声音声文の音声信号に基づいて上記発声音声
文を音声認識する音声認識方法及び装置、並びに、音声
認識処理プログラムを記録した記録媒体であって、所定
の文脈自由文法を、文法的制約を表わす有限状態オート
マトンに変換し、上記変換された有限状態オートマトン
を、自然発話における単語の挿入、脱落、置換の状態遷
移を含み文法的制約を表わす有限状態トランスデューサ
に変換し、入力される発声音声文の音声信号に基づい
て、所定の統計的言語モデルと、上記変換された有限状
態トランスデューサとを参照して、自然発話における単
語の挿入、脱落、置換に該当する単語にマーク付けする
ように上記発声音声文を音声認識し、上記音声認識され
た結果に基づいて、上記マーク付けされた単語、もしく
は、上記マーク付けされた単語及びそれに隣接する単語
を、文法を逸脱した部分の単語として削除して音声認識
結果を出力する。
【0055】従って、本発明によれば、以下の特有の効
果を有する。 (a)統計的な言語制約と、文法的な制約とを、本発明
のように組み合わせることにより、単独の制約を用いた
場合より、文法的でない自然発話を、高い精度で認識可
能であり、信頼性の高い区間を見つけることができる。 (b)有限状態オートマトンに基づいた近似的な文法制
約を用いることで、効率的な制約適用が可能である。従
って、音声認識処理を従来技術に比較して高速で実行す
ることができる。 (c)文法を逸脱した部分の単語を無視することによっ
て、信頼性高く認識された発話断片を求めることができ
る。これによって、音声認識率を従来技術に比較して大
幅に向上させることができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である音声認識装置
のブロック図である。
【図2】 図1の音声認識装置における第1の単語仮説
絞込部6の処理を示すタイミングチャートである。
【図3】 図1の第1の文法変換部31によって変換さ
れた近似された有限状態オートマトン(FSA)の一例
を示す図である。
【図4】 図1の第2の文法変換部32によって変換さ
れた近似された有限状態トランスデューサ(FST)の
一例を示す図である。
【図5】 図1の第2の文法変換部32によって実行さ
れる第2の文法変換処理の第1の部分を示すフローチャ
ートである。
【図6】 図1の第2の文法変換部32によって実行さ
れる第2の文法変換処理の第2の部分を示すフローチャ
ートである。
【図7】 図1の第2の文法変換部32によって実行さ
れる第2の文法変換処理の第3の部分を示すフローチャ
ートである。
【図8】 図1の第2の単語仮説絞込部7によって実行
される第2の単語仮説絞込処理の第1の部分を示すフロ
ーチャートである。
【図9】 図1の第2の単語仮説絞込部7によって実行
される第2の単語仮説絞込処理の第2の部分を示すフロ
ーチャートである。
【図10】 図1の第2の単語仮説絞込部7によって実
行される第2の単語仮説絞込処理の第3の部分を示すフ
ローチャートである。
【図11】 図1の音声認識装置のシミュレーション結
果であって、第2の単語仮説絞込部7によって棄却され
た単語の割合を示す図である。
【図12】 図1の第1の文法変換部31によって実行
される第1の文法変換処理におけるドットつき規則の閉
包集合と集合間の遷移を示す状態遷移図である。
【図13】 図1の第1の文法変換部31によって実行
される第1の文法変換処理におけるε遷移の追加を示す
状態遷移図である。
【図14】 図1の第1の文法変換部31によって実行
される第1の文法変換処理における非終端記号の遷移の
削除を示す状態遷移図である。
【図15】 図1の第1の文法変換部31によって実行
される第1の文法変換処理における決定的かつ最小なF
SAへの変換を示す状態遷移図である。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…第1の単語仮説絞込部、 7…第2の単語仮説絞込部、 8…単語抽出部、 11…音素HMMメモリ、 12…単語辞書メモリ、 20…言語モデル生成部、 21…学習用テキストデータ、 22…統計的言語モデル、 31…第1の文法変換部、 32…第2の文法変換部、 41…文脈自由文法(CFG)メモリ、 42…有限状態オートマトン(FSA)メモリ、 43…有限状態トランスデューサ(FST)メモリ。
フロントページの続き (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 特開 平8−123476(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力される発声音声文の音声信号に基づ
    いて上記発声音声文を音声認識する音声認識方法であっ
    て、 所定の文脈自由文法を、文法的制約を表わす有限状態オ
    ートマトンに変換するステップと、 上記変換された有限状態オートマトンを、自然発話にお
    ける単語の挿入、脱落、置換の状態遷移を含み文法的制
    約を表わす有限状態トランスデューサに変換するステッ
    プと、 入力される発声音声文の音声信号に基づいて、所定の統
    計的言語モデルと、上記変換された有限状態トランスデ
    ューサとを参照して、自然発話における単語の挿入、脱
    落、置換に該当する単語にマーク付けするように上記発
    声音声文を音声認識するステップと、 上記音声認識された結果に基づいて、上記マーク付けさ
    れた単語、もしくは、上記マーク付けされた単語及びそ
    れに隣接する単語を、文法を逸脱した部分の単語として
    削除して音声認識結果を出力するステップとを含むこと
    を特徴とする音声認識方法。
  2. 【請求項2】 入力される発声音声文の音声信号に基づ
    いて上記発声音声文を音声認識する音声認識装置であっ
    て、 所定の文脈自由文法を、文法的制約を表わす有限状態オ
    ートマトンに変換する第1の変換手段と、 上記第1の変換手段によって変換された有限状態オート
    マトンを、自然発話における単語の挿入、脱落、置換の
    状態遷移を含み文法的制約を表わす有限状態トランスデ
    ューサに変換する第2の変換手段と、 入力される発声音声文の音声信号に基づいて、所定の統
    計的言語モデルと、上記第2の変換手段によって変換さ
    れた有限状態トランスデューサとを参照して、自然発話
    における単語の挿入、脱落、置換に該当する単語にマー
    ク付けするように上記発声音声文を音声認識する音声認
    識手段と、 上記音声認識手段によって音声認識された結果に基づい
    て、上記マーク付けされた単語、もしくは、上記マーク
    付けされた単語及びそれに隣接する単語を、文法を逸脱
    した部分の単語として削除して音声認識結果を出力する
    単語抽出手段とを備えたことを特徴とする音声認識装
    置。
  3. 【請求項3】 入力される発声音声文の音声信号に基づ
    いて上記発声音声文を音声認識する音声認識処理プログ
    ラムを記録した記録媒体であって、 所定の文脈自由文法を、文法的制約を表わす有限状態オ
    ートマトンに変換するステップと、 上記変換された有限状態オートマトンを、自然発話にお
    ける単語の挿入、脱落、置換の状態遷移を含み文法的制
    約を表わす有限状態トランスデューサに変換するステッ
    プと、 入力される発声音声文の音声信号に基づいて、所定の統
    計的言語モデルと、上記変換された有限状態トランスデ
    ューサとを参照して、自然発話における単語の挿入、脱
    落、置換に該当する単語にマーク付けするように上記発
    声音声文を音声認識するステップと、 上記音声認識された結果に基づいて、上記マーク付けさ
    れた単語、もしくは、上記マーク付けされた単語及びそ
    れに隣接する単語を、文法を逸脱した部分の単語として
    削除して音声認識結果を出力するステップとを含む音声
    認識処理プログラムを記録したことを特徴とする音声認
    識処理プログラムを記録した記録媒体。
JP9238565A 1997-09-03 1997-09-03 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体 Expired - Fee Related JP3027557B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9238565A JP3027557B2 (ja) 1997-09-03 1997-09-03 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9238565A JP3027557B2 (ja) 1997-09-03 1997-09-03 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JPH1185183A JPH1185183A (ja) 1999-03-30
JP3027557B2 true JP3027557B2 (ja) 2000-04-04

Family

ID=17032122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9238565A Expired - Fee Related JP3027557B2 (ja) 1997-09-03 1997-09-03 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3027557B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293189A (ja) * 1999-04-02 2000-10-20 Toshiba Corp 音声認識装置および方法
JP5118280B2 (ja) * 1999-10-19 2013-01-16 ソニー エレクトロニクス インク 自然言語インターフェースコントロールシステム
JP4267385B2 (ja) 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
JP6232282B2 (ja) * 2013-12-26 2017-11-15 日本放送協会 音声認識誤り修正装置
JP6406988B2 (ja) * 2014-11-21 2018-10-17 日本放送協会 音声認識誤り修正装置

Also Published As

Publication number Publication date
JPH1185183A (ja) 1999-03-30

Similar Documents

Publication Publication Date Title
US6374224B1 (en) Method and apparatus for style control in natural language generation
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
US6278968B1 (en) Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US6266642B1 (en) Method and portable apparatus for performing spoken language translation
US6223150B1 (en) Method and apparatus for parsing in a spoken language translation system
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
US6243669B1 (en) Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6282507B1 (en) Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US7379870B1 (en) Contextual filtering
US20020198713A1 (en) Method and apparatus for perfoming spoken language translation
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
US20040220809A1 (en) System with composite statistical and rules-based grammar model for speech recognition and natural language understanding
US6449589B1 (en) Elimination of left recursion from context-free grammars
EP1475779B1 (en) System with composite statistical and rules-based grammar model for speech recognition and natural language understanding
KR100726875B1 (ko) 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
JP3027557B2 (ja) 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体
JP2999768B1 (ja) 音声認識誤り訂正装置
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
Isotani et al. An automatic speech translation system on PDAs for travel conversation
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
JPH08248980A (ja) 音声認識装置
JP3009636B2 (ja) 音声言語解析装置
Kumar et al. Linguistically Informed Post-processing for ASR Error correction in Sanskrit.

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100128

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110128

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120128

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130128

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140128

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees