JPH0638197B2 - 連続音声認識装置 - Google Patents

連続音声認識装置

Info

Publication number
JPH0638197B2
JPH0638197B2 JP63266472A JP26647288A JPH0638197B2 JP H0638197 B2 JPH0638197 B2 JP H0638197B2 JP 63266472 A JP63266472 A JP 63266472A JP 26647288 A JP26647288 A JP 26647288A JP H0638197 B2 JPH0638197 B2 JP H0638197B2
Authority
JP
Japan
Prior art keywords
phoneme
parser
state
hmm
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63266472A
Other languages
English (en)
Other versions
JPH02113297A (ja
Inventor
研二 北
豪 川端
博昭 斎藤
Original Assignee
株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール自動翻訳電話研究所 filed Critical 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority to JP63266472A priority Critical patent/JPH0638197B2/ja
Publication of JPH02113297A publication Critical patent/JPH02113297A/ja
Publication of JPH0638197B2 publication Critical patent/JPH0638197B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は連続音声認識装置に関し、特に、LRテーブ
ルを入力音声データの予測に用い、この予測をHMM音
韻認識装置の音韻照合機能で検証することにより、音声
認識と言語処理を統一的に行なうような連続音声認識装
置に関する。
[従来の技術] 従来より、音声を計算機上で処理する場合には、「音声
認識」と「言語処理」という2つのフェーズの処理が必
要であった。音声認識では、発生された音声データか
ら、音韻列または単語列というようなシンボリックなデ
ータを生成する。一方、言語処理は、音声認識の出力で
シンボリックなデータを解析し、言語の統語構造または
意味構造と呼ばれるものを生成する。
音声認識および言語処理共に従来より様々な方式が提案
されているが、以下では代表的なものとして、音声認識
についてはHMM(Hidden Morkov Mo
del)法について説明し、言語処理についてはLR
(Left to Right)法と呼ばれるものにつ
いて説明する。
計算機科学、特にプログラミング言語の処理系の分野で
は、構文解析の技術に関し、十分な研究がなされ、その
うちの1つの方式にLRパーザと呼ばれるものがある。
LRパーザはいわゆるSHIFT−REDUCE型のパ
ーザの1種であり、入力記号を左から右に読みながら解
析を進めるものである。LRパーザは、内部に「状態」
と呼ばれるものを保持しており、現在の状態と入力記号
を用いて、次にとるべき動作を決定する。LRパーザの
動作には、 ACCEPT ERROR SHIFT REDUCE の4つが許されている。ACCEPTは、LRパーザへ
の入力記号列が受理されたことを示す。ERRORは、
LRパーザへの入力記号列が受理されなかったことを示
す。SHIFTは、現在LRパーザが見ている入力記号
および現在の状態をスタックに積む。REDUCEは、
文法規則を使って、スタックの最上段にある記号をより
大きな単位の記号に還元する。REDUCEの際には、
使われた文法規則の右辺にある文法規則の数だけ、スタ
ックから状態記号および入力記号を取除く。
現在の状態と入力記号から、LRパーザの動作を決定す
るためには、LRテーブルと呼ばれる表を参照する。L
Rテーブルは、LRパーザでの解析に先立ち、予め用意
しておく必要がある。LRテーブルは、文法規則から機
械的に構成することができる。
第4図は文法規則の一例を示す図であり、第5図は第4
図に示した文法規則をLRテーブルに変換した例を示す
図である。
LRテーブルは第5図に示すように、ACTIONテー
ブルとGOTOテーブルと呼ばれる2つの表からなって
いる。ACTIONテーブルは縦軸方向にLRパーザの
状態を記し、横軸方向に入力記号を記したテーブルであ
り、テーブルの1区画には、LRパーザのとるべき動作
が記されている。第5図でaccと記された動作はAC
CEPTのことであり、テーブル中の空欄はERROR
を示す。
sで始まる記号は、SHIFTを表わしており、sの後
に記された数字は、SHIFT動作を行なった後に、L
Rパーザがとるべき状態である。rで始まる記号は、R
EDUCEを表わしており、rの後に記された数字nは
n番目の文法規則を用いた還元動作を行なうことを示し
ている。LRパーザはREDUCE動作を行なった後
に、GOTOテーブルを参照する。GOTOテーブル
は、縦軸方向にLRパーザの状態を記し、横軸方向に非
終端記号を記したテーブルである。LRパーザはRED
UCE動作の結果作られた非終端記号と現在の状態か
ら、GOTOテーブルにより新しい状態を決定する。
解析が開始した時点でのLRパーザの状態は0であり、
LRパーザがACCEPT動作を行ない入力記号列を受
理するか、またはERROR動作を行ない入力記号列を
受理しないかで、解析は終了する。LRパーザは、いく
つまで入力記号を先読みするかで、LRテーブルに少し
ずつ違いが現われる。入力記号の先読みをしないLRパ
ーザをLR(0)パーザ、n個の入力記号の先読みを行
なうパーザをLR(n)パーザと一般に呼ぶが、基本的
な動作はすべて同じである。
上述のLRパーザでは、LRテーブルの動作欄にはただ
1つの動作しか記述されていないが、複数の動作を記述
することにより、入力記号列の並列的な処理を行なう手
法が近年開発された。これにより、自然言語のような曖
昧な入力を持つ言語をLRパーザで処理することができ
る。この発明では、単にLRパーザと呼んでいるのは、
この拡張されたLRパーザのことを指している。
一方、音声認識の分野では、発話を確率的な状態遷移と
みなして認識処理する手法があり、HMM方式と呼ばれ
ている。
第6図はHMM方式で用いる典型的な音韻モデルの図で
ある。次に、第6図を参照して、HMMによる音韻認識
の方法について説明する。HMMの各弧には状態間の遷
移の確率と、記号の出力確率の値が与えられており、こ
れらの値に基づいて確率的に記号列を出力する。HMM
方式を用いて音韻認識を行なうためには、予め音韻の種
類だけHMMを用意し、それぞれ学習用音韻データの記
号列を最も高い確率で出力するように、音韻HMMの確
率値を学習しておき、次に、未知音声データの記号列に
対して、すべてのHMMからその記号列が出力される確
率を計算して、最も高い確率が得られるHMMに対応す
る音韻を認識結果とする。
この未知音声データに対する確率を計算する操作を音韻
照合と称する。この操作は、たとえば第6図のHMMに
対しては、次のような手順で実現される。
(記号の定義) N:未知音声データに対する記号列の長さ Oi:未知音声データ記号列のi番目の記号 M:照合される音韻HMMの状態の数 a(i,j):照合される音韻HMMにおいて状態iと
状態jを結ぶ弧の遷移確率 b(i,j,k):照合される音韻HMMにおいて状態
iと状態jを結ぶ弧が記号kを出力する確率 (初期化) P(0,0)=1.0 P(0,j)=1.0e−∞(j=1…M) P(i,0)=1.0e−∞(i=1…N) (漸化計算(i=1…N,j=1…M)) P(i,j)=P(i−1,j)×a(j,j) ×b(j,j,Oi)+P(i−1,j−1) ×a(j−1,j)×b(j−1,j,Oi) Q(i)=P(i,M)(i=1…N) 音素照合の結果は、確率テーブルQ(1)…Q(N)の
中に求められる。
[発明が解決しようとする課題] 従来、音声認識と言語処理は全く別のフェーズの処理と
して扱われており、これを統一的な見地から処理しよう
とする試みは皆無であった。音声認識では、連続的なデ
ータを扱うのに対して、言語処理はシンボルというディ
スクリートなデータを扱うため、これら2つの処理を融
合することは極めて困難であった。音声認識と言語処理
は、橋渡し的な中間的なデータを介して行なわれてきた
ため、非効率的で中間のデータの信頼性にも問題があっ
た。
それゆえに、この発明の主たる目的は、音声認識と言語
処理を統一的に扱うことにより、中間的なデータを介す
ることなく、信頼性の高い効率的な処理方式を提供する
ことである。
[課題を解決するための手段] この発明は連続音声認識装置であって、入力された音声
の各音韻に対する確率を計算するHMM音韻照合部と、
LRテーブルのアクション指定項目を音韻予測に用いる
予測LRパーザ部を備え、予測LRパーザ部はHMM音
韻照合部を駆動することにより、予測された音韻の存在
確率を求めるように構成される。
[作用] この発明にかかる連続音声認識装置は、LRテーブルを
入力音声データ中の音韻の予測に用い、この予測をHM
M音韻認識装置の音韻照合機能で検証することにより、
音声認識と言語処理を統一的に扱うようにしたものであ
る。
より具体的に説明すると、通常言語解析でLRパーザを
使う場合には、パーザがまず入力記号を取出し、取出さ
れた入力記号と現在の状態からLRテーブルを参照し、
パーザの次の動作を決定するという処理が行なわれる。
ここでのLRテーブルの用いられ方は、いわば事後処理
的なものである。LRテーブルをこのように使えるの
は、入力が記号というシンボリックなものであるためで
あり、音声データのような連続的なデータ構造を持つも
のにそのまま適用することはできない。
そこで、この発明では、LRテーブルを事後処理的に用
いるのではなく、むしろこれを積極的に入力記号の予測
に用いる。すなわち、或る状態においてその状態のAC
TIONテーブルの横1列を調べ、SHIFTまたはR
EDUCEの動作指定子がある音韻をすべて選び出して
音韻照合を行なう。これは文法に規定された制限下で、
次の音韻を予測していることになる。これによって、音
声認識と言語解析が一体となって行なわれるため、音声
認識と言語解析の間に中間的なデータを介することな
く、非常に効率的に音声データの処理を行なうことがで
きる。
[発明の実施例] 第1図はこの発明の一実施例の概略ブロック図である。
まず、第1図を参照して、この発明の一実施例の構成に
ついて説明する。入力端子400を介して音声信号がH
MM音韻照合部401に与えられる。HMM音韻照合部
401はHMM音韻モデル402を用いて、音韻を照合
するものである。予測LRパーザ部405は、LRテー
ブル406から次の音韻を予測するものであり、予測さ
れた音韻が音声信号中に実際に存在するか否かを調べる
ために、制御信号をHMM音韻照合部401に与えてこ
れを起動させる。HMM音韻照合部401による予測音
韻に対する照合結果404は予測LRパーザ部405に
返される。予測LRパーザ部405はACCEPT動作
をLRテーブル406中に見つけるまで、同様の操作を
繰返す。そして、予測LRパーザ部405から認識結果
407が出力される。
次に、LRテーブル406とHMMの音韻照合機能を用
いて、音声認識と言語処理を統一的に扱う方式について
説明する。なお、「状態」という語は、HMMとLRの
両方で用いられるため、混乱のおそれのある場合には、
「状態(HMM)」とか「状態(LR)」と記すことに
する。また、この方式に基づいて、連続音声を処理する
装置は、以下では単にパーザと呼ぶことにする。
説明を簡単にするため、ここでは処理の結果として構文
解析木を出力するものと仮定する。ここで、構文解析木
とは文を1次元の単語列として表現し、これらの関係を
木のように表わしたものである。各文法規則に、規則が
適用されたときに駆動される手続(LRパーザの用語で
はファンクション)を付随させることにより、より一般
的かつ複雑な処理を行なわせることが可能である。
パーザは、いくつかの可能性のある構文解析木を同時に
成長させる。構文解析木は、その構文解析木が受容され
る確率値が付与されており、この確率値が予め決められ
ているしきい値以下になると、その構文解析木は成長さ
せる価値がないとみなし、却下される。パーザは現在成
長させている構文解析木に関する情報を記憶しておくた
めの場所をいくつか持っている。この場所を以下ではセ
ルと称する。1つのセルには、1つの構文解析木が対応
している。現在までに受理されている構文解析木に対応
するセルをアクティブなセルと称する。
第2図はこの発明の一実施例の具体的な動作を説明する
ためのフロー図であり、第3図は認識の途中経過を模式
的に示した図である。
次に、第2図および第3図を参照して、この発明の一実
施例の具体的な動作について説明する。まず、セルに記
憶される情報には、第3図に示すように以下のようなも
のがある。
LRパーザの状態スタック。
前回の音韻照合で計算された確率テーブルQ(1)
…Q(N)の値。
但し、Nは入力音声データに対する記号列の長さであ
る。
第2図に示すように、解析が開始した時点のステップ
(図示ではSPと略称する)SP1において、セルCは
ただ1つだけ存在し、そのただ1つのセルCのLRパー
ザの状態スタックの最上段には、状態(LR)0がプッ
シュされる。また、このセルCの確率テーブルQには、
以下の値が初期値として入れられる。
Q(0)=1.0 Q(i)=1.0e−∞(i=1…N) 解析はステップSP2ないしSP12によって行なわれ
る。
ステップSP2において、予測LRパーザ部405は、
アクティブなセルがあるか否かを判別し、なければ解析
を終了し、あればステップSP3において、アクティブ
なセルを1つ選び出し、そのセルのLR状態スタックの
最上段の状態(LR)Sを読み、LRテーブルの状態
(S)に対応する動作欄を調べる。そして、予測LRパ
ーザ部405は動作欄にある動作の数だけセルのコピー
を作る。作られたセルのコピーは、1つの動作を実行す
るのに用いられる。以下の操作は、このコピーされたセ
ルに対して行なわれる。ステップSP4において、コピ
ーにより作られたセルがあるか否かが判別され、なけれ
ばステップSP2に戻り、あればステップSP5に進
む。ステップSP5において、各セルに対応する動作が
調べられ、選ばれた動作がSHIFTであれば、ステッ
プSP6に進む。ステップSP6において、SHIFT
されるべき入力記号AがHMM音韻照合部401で音韻
照合される。このとき、セル中の確率テーブルの値が以
下のようにして更新される。
(漸次計算) P(0,j)=1.0e−∞(j=1…M′) P(i,0)=Q(i)(i=1…N) P(i,j)=P(i−1,j)×a(j,i) ×b(j,j,Oi)+P(i−1,j−1) ×a(j−1,i)×b(j−1,j,Oi) (i=1…N,j=1…M′) Q(i)=P(i,M′)(i=1…N) 但し、M′は記号AのHMMでの状態数) 上述の計算で更新された確率テーブルQ(1)…Q
(N)の中で最も高い確率値を持つQ(i)がしきい値
よりも小さいか否かがステップSP7において判別され
る。もし、最も高い確率値を持つQ(i)がしきい値よ
りも小さければ、ステップSP8においてこのセルが捨
てられ、アクティブでなくなる。しかしながら、しきい
値よりも小さくなければ、ステップSP9において、L
R状態スタックに新しい状態(LR)が積まれる。この
場合、セルはアクティブのままである。
一方、前述のステップSP5において、選ばれた動作が
REDUCEであれば、ステップSP10に進み、文法
規則による還元動作が実行される。これは通常のLRパ
ーザと全く同じ動作である。このとき、セルはアクティ
ブなままである。ただし、これはLR(0)テーブルを
用いている場合であり、LR(n)(n>0)テーブル
を用いる際には、REDUCE動作を引き起こした入力
記号をHMMで音韻照合する必要がある。この際には確
率テーブルの更新を前述のステップSP6と同様にして
行なう必要がある。
また、ステップSR5において、選ばれた動作がACC
EPTであることが判別され、しかもステップSP11
において入力音声データがすべて処理されているか否か
が判別され、すべて処理されていれば、解析は終了する
(成功)。そうでなければこのセルはステップSP12
において捨てられステップSP2に戻る。
次に、第4図に示した文法および第5図に示したLRテ
ーブルを用いて、この発明における連続音声認識方法に
ついて説明する。第4図に示した文法は、次に示す4つ
の文を受理する。
kaneokure(金送れ) kaneokure(金をくれ) okure(送れ) kure(くれ) 今、のokureが発生されたとして、解析例を示
す。初期状態では、パーザの状態(LR)は0(スタッ
クの最上段が0)であるため、まずACTIONテーブ
ルの状態0の欄を横1列調べる。この例の場合、音韻k
と音韻oにSHIFT動作が指定されているため、入力
音声の最初は音韻kか音韻oであるという予測を立て
る。
ここで、HMM音韻照合を音韻kと音韻oに対して起動
する。実際の発声は「okure」であるため、音韻k
に対するHMM音韻照合の結果得られる確率テーブル
は、低い確率値しか含んでおらず、音韻kで始まる構文
解析木は却下される。この結果、音韻oで始まる構文解
析木を成長させることになる。
状態0で、音韻oにはSHIFT5という動作が指定さ
れているので、SHIFT動作を実行し状態は5にな
る。すなわち、状態5がスタックに積まれる。ACTI
ONテーブルの状態5の欄では、音韻kにSHIFT動
作が指定されているだけなので、音韻kを音韻照合した
後でSHIFT動作を実行し、状態は13になる。以
下、同様の操作を繰返す。
状態13で音韻uを照合し、SHIFT16を実行す
る。
状態16で音韻rを照合し、SHIFT19を実行す
る。
状態19で音韻eを照合し、SHIFT20を実行す
る。
状態20にはREDUCE5が指定されているので、5
番目の文法規則 VP→okure を用いて還元動作を実行する。還元動作では、文法規則
の右辺にある文法記号の数だけ(今の場合5)スタック
から記号を取除く。したがって、スタック最上段には状
態0があることになる。ここで、GOTOテーブルを参
照する。スタック最上段の状態と還元動作の後得られた
記号(今の場合VP)とからGOTOテーブルを用い
て、新しいパーザの状態(今の場合3)を求める。
同様にして、状態3でREDUCE2を実行して、パー
ザは状態6になる。ACTIONテーブルの状態6の欄
には、ACCEPT動作が指定されている。入力音声が
すべて処理されたことを確認して解析は終了する。
[発明の効果] 以上のように、この発明によれば、連続音声の認識にお
いて、LRテーブルを入力音声データの予測に用い、こ
の予測をHMM音韻認識部の音韻照合機能で検証するよ
うにしたので、音声認識と言語処理を統一的に扱うこと
ができる。
【図面の簡単な説明】
第1図はこの発明の一実施例の概略ブロック図である。
第2図はこの発明の一実施例の動作を説明するためのフ
ロー図である。第3図は認識の途中経過を模式的に示し
た図である。第4図は文法規則の例を示した図である。
第5図は文法規則をLRテーブルに変換した例を示す図
である。第6図はHMMの一例を示した図である。 図において、400は入力端子、401はHMM音韻照
合部、405は予測LRパーザ部、406はLRテーブ
ルを示す。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 斎藤 博昭 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール自動翻 訳電話研究所内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力された音声の各音韻に対する確率を計
    算するHMM(Hidden Morkov Model)音韻照合部と、 LR(Left to Right)テーブルのアクション指定項目
    を音韻予測に用いる予測LRパーザ部を備え、 前記予測LRパーザ部は、前記HMM音韻照合部を駆動
    することにより、予測された音韻の存在確率を求めるこ
    とを特徴とする、連続音声認識装置。
JP63266472A 1988-10-22 1988-10-22 連続音声認識装置 Expired - Fee Related JPH0638197B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63266472A JPH0638197B2 (ja) 1988-10-22 1988-10-22 連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63266472A JPH0638197B2 (ja) 1988-10-22 1988-10-22 連続音声認識装置

Publications (2)

Publication Number Publication Date
JPH02113297A JPH02113297A (ja) 1990-04-25
JPH0638197B2 true JPH0638197B2 (ja) 1994-05-18

Family

ID=17431406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63266472A Expired - Fee Related JPH0638197B2 (ja) 1988-10-22 1988-10-22 連続音声認識装置

Country Status (1)

Country Link
JP (1) JPH0638197B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0595861B1 (fr) * 1991-07-19 1998-03-11 SOLVAY (Société Anonyme) Procede de fabrication d'une solution aqueuse de chlorure de sodium
US8885706B2 (en) 2011-09-16 2014-11-11 Google Inc. Apparatus and methodology for a video codec system with noise reduction capability
US9131073B1 (en) 2012-03-02 2015-09-08 Google Inc. Motion estimation aided noise reduction

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0595861B1 (fr) * 1991-07-19 1998-03-11 SOLVAY (Société Anonyme) Procede de fabrication d'une solution aqueuse de chlorure de sodium
US8885706B2 (en) 2011-09-16 2014-11-11 Google Inc. Apparatus and methodology for a video codec system with noise reduction capability
US9131073B1 (en) 2012-03-02 2015-09-08 Google Inc. Motion estimation aided noise reduction

Also Published As

Publication number Publication date
JPH02113297A (ja) 1990-04-25

Similar Documents

Publication Publication Date Title
CN111480197B (zh) 语音识别系统
Kita et al. HMM continuous speech recognition using predictive LR parsing
US5995931A (en) Method for modeling and recognizing speech including word liaisons
US6058365A (en) Speech processing using an expanded left to right parser
EP1444686B1 (en) Hmm-based text-to-phoneme parser and method for training same
JP2000075895A (ja) 連続音声認識用n最良検索方法
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
WO2003005347A1 (en) Grammars for speech recognition
Moore et al. Integrating speech and natural-language processing
JP4689032B2 (ja) シンタックス上の置換規則を実行する音声認識装置
JPH0638197B2 (ja) 連続音声認識装置
JP2886117B2 (ja) 音声認識装置
JP2871420B2 (ja) 音声対話システム
JP2002278579A (ja) 音声データ検索装置
Mohri Weighted grammar tools: the GRM library
JP2905686B2 (ja) 音声認識装置
JPS6229796B2 (ja)
JPH08248979A (ja) 音声認識装置
JPH10187185A (ja) 言語処理装置および方法
EP0469485B1 (en) Language processing system using an expanded LR parser
JPH11102196A (ja) 音声対話システム及び音声対話方法及び記録媒体
Diller Automatic lexical generation for speech recognition
JP3818154B2 (ja) 音声認識方法
JP4631076B2 (ja) 音素単位セットを最適化する方法及びシステム
JPH09281989A (ja) 音声認識装置および方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees