JP3484077B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP3484077B2 JP3484077B2 JP19522398A JP19522398A JP3484077B2 JP 3484077 B2 JP3484077 B2 JP 3484077B2 JP 19522398 A JP19522398 A JP 19522398A JP 19522398 A JP19522398 A JP 19522398A JP 3484077 B2 JP3484077 B2 JP 3484077B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- backtrack
- word
- node
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
用いてモデル照合を行う音声認識装置に関するものであ
る。
Free Grammer)や有限状態文法(FS
G:Finite State Grammer)によ
る文法規則を用いて連続単語認識を行う方式の1つとし
て、ビームサーチ方式によるN−bestサーチ法があ
る。ここでは、Richard Schwartz,S
teve Austin共著“A Compariso
n of SeveralApproximate A
lgorithms”(IEEE ICASSP91,
ページ701〜704)に示されたものを一例として従
来の技術を説明する。以下、文法規則を有限状態文法で
あるとし、認識方式としてHMM(Hidden Ma
rkov Model)を用い、認識単位を単語とし、
ビームサーチを併用する音声認識装置を一例として説明
を行う。
図8において、音響分析手段31は、入力音声S31を
音響分析し、分析パラメータS32に変換する。確率演
算手段32は、分析パラメータS32の各モデルに対す
る確率S33を計算する。認識モデル記憶手段35は、
認識モデルの情報を記憶する。文法記憶手段36は、単
語間の接続を表す有限状態文法を記憶する。モデル照合
手段37は、認識に先立ち文法情報S38に従い、認識
モデルS36を内部のローカルメモリ上に取り込み必要
となる演算領域を確保し、確率S33を用いてVite
rbi演算を行い、バックトラック情報S39を出力す
る。バックトラック手段38は、順次入力されるバック
トラック情報S39を内部に記憶し、音声の終端におい
てバックトラック処理を行い、認識結果S40としてス
コアの大きな規定の個数の単語系列を出力する。
いて説明する。従来の音声認識装置の説明のため、認識
装置の認識対象は図9に示す住所とする。「鎌倉市上町
屋」は「1丁目」が続き、「鎌倉市大船」「藤沢市江ノ
島」には「1丁目」と「2丁目」が続く。「藤沢市辻
堂」には「1丁目」「2丁目」「3丁目」が続く。有限
状態文法では、状態を示すノードとノード間の遷移を示
すアークにより表現される。前述の住所を表す有限状態
文法である文法情報S38の例を図10に、単語番号と
地名の対応関係を図11示す。図10では、ノードを単
語として、許される単語の接続をアーク(図中、矢印で
示す)として示している。図中、W1〜W11という単
語と、その接続情報が矢印で示されている。この対応関
係を図11に示す。W10,W11は、無音を表す特別
な単語であるが、挿入可能な位置を明示するため、無音
を文法情報に含んでいる。この情報は、図8において、
文法記憶手段36に格納されている。文法は、単語W1
0から始まり、単語W11で終了する。
は、文法情報S38に含まれる全ての認識モデルの情報
が格納されている。図12に、認識モデル記憶手段35
の内容を示す。それぞれ単語に対応する認識モデルの内
容が含まれている。単語W1〜W11の内、いずれかの
単語wに対する3つの状態からなる認識モデルの構造の
一例を図13に示す。Sw 1,Sw 2,Sw 3で示して
いるのは状態であり、確率演算手段32で演算される確
率bw (i)と対応している。Sw 0は、前の単語との
接続に用いる疑似状態であり、Sw 4は、次の単語の認
識モデルとの接続に用いる疑似状態である。Sw 0に
は、前の単語の最終ステートのスコアがコピーされる。
矢印で示しているのが状態遷移である。状態iから状態
jへの遷移には、aw (i,j)という遷移確率に基づ
くスコアが付与されている。aw (0,1)には、スコ
ア0が与えられている。前記確率演算手段32から出力
される確率S33であるbw (i)とこの遷移確率によ
り、HMMの各状態のスコアDw (i)が演算され更新
される。図21に示すように、モデル照合手段37の内
部には、スコアテーブル100とマークテーブル200
と後述する先行単語テーブル300が記憶されている。
スコアテーブル100の構成要素は、図22に示すよう
な各状態のスコアDw (i)と先頭フレーム番号Bw
(i)である。先頭フレーム番号とは、その単語wが何
フレーム目から始まっているかを示すものである。図2
2に示す例は、図13に示す単語wのスコアテーブルで
あり、各単語W1〜W11についてそれぞれ図21に示
すようにスコアテーブルが存在している。マークテーブ
ル200は、図23に示すように、ビームサーチにより
その単語wのHMM演算を行うか否かを指定するもので
あり、マーク値m(w)が1であればHMM演算を行う
ものとする。マーク値m(w)が0であればHMM演算
を行わない。
れを図14に示す。一文の音声信号は、F個のフレーム
に渡って転送されるものとし、この図において、一文の
音声の認識を開始する時に、ステップ701の初期化が
行われ、音声区間の1フレーム分の音声データが入力さ
れる度に、ステップ702〜ステップ705までの処理
がF回繰り返され、一文の処理が終了すると、ステップ
706においてバックトラック処理の指示が出力され
る。バックトラック手段38では、バックトラック情報
S39をもとに、認識結果を求めるバックトラック処理
が行われる。
ル記憶手段35には、前述の内容のデータが納められて
おり、モデル照合手段37の中には必要なメモリが確保
されているものとする。まず、認識処理が開始される
と、内部テーブルを初期化する(ステップ701)。各状
態のスコアDw (i)の内、最初の状態Sw (0)のス
コアDw (0)は0(良いスコア)に設定され、他の全
てのスコアは小さい値、例えば、−1000(悪い値)
に設定される。図10に示す文法情報を用いて認識する
場合には、スコアDW10 (0)が0に設定され、スコア
DW10 (0)を除く残りの状態のスコアDW1(i)〜D
W11 (i)は、全ては−1000に設定される。また、
先頭フレーム番号の初期値として、BW10 (0)に0が
設定される。また、単語W10を除いた単語W1〜W
9,W11に対してマークテーブルには、マーク値m
(w)は0に設定される。次に、ステップ702〜ステ
ップ705までの処理が音声信号の各フレームについて
繰り返し行われる。ステップ702では、HMM演算が
行われ、各状態のスコアと各単語の単語スコアが更新さ
れる。ステップ703では、ビームサーチが行われ、ス
コアの低い単語の認識モデルがHMM演算の範囲から除
去される。ステップ704では、単語モデル間のスコア
が伝搬されるとともに、バックトラック情報S39が出
力される。
の流れについて説明する。図15は、HMM演算の流れ
を説明する図である。単語W1〜W11の各単語wにつ
いて、ステップ302〜ステップ305まで処理を繰り
返す。演算量削減のためビームサーチを用いているた
め、マークテーブルのマーク値m(w)が1であれば、
単語wのHMM演算(ステップ303)を行い、m
(w)が0であれば、この処理をスキップするものとす
る。ステップ306では、単語内での状態のスコアDw
(i)の最大値を示す単語wのビームサーチの評価値P
(w)から定数K1を減算し、ビームサーチの閾値T1
を求めている。
理について詳しく説明する。図16は、1フレームにお
ける単語wに関するHMM処理の流れを示す図である。
単語wの状態数をIw とする。まず、ステップ206に
おいて、最終状態への遷移を計算する。続いて、状態i
について、ステップ202〜ステップ205までの処理
を繰り返す。ステップ209において、2つの遷移のス
コアを比較し、ステップ207又はステップ208の処
理を選択する。図中、P(w)は、単語wのビームサー
チの評価値であり、ステップ202〜ステップ205ま
での処理を繰り返すことにより、単語内での状態のスコ
アDw (i)の最大値を選択する。
チ処理について説明する。図17は、ビームサーチ処理
の流れを示すものである。ステップ402において、単
語wの状態の最高スコアが閾値T1より小さな場合は、
ステップ403において、その単語のスコアテーブルの
スコアDw (i)を−1000に初期化して、マークテ
ーブルのスコア値m(w)を0にリセットする。
処理について説明する。図18は、スコア転送処理の流
れを示すものである。スコア転送処理では、図19に示
す先行単語テーブル300を用いて処理を行う。先行単
語テーブル300は、図10に示す文法情報S38に基
づき予め作成しておき、図21に示すように、モデル照
合手段37の内部に記憶されている。スコア転送処理
は、先行する単語から後の単語へスコアを転送する処理
をいう。もし、先行する単語が複数ある場合は、最も高
いスコアを有している単語が用いられ、その単語の最終
状態のスコアと現在のフレーム番号とが後の単語の先頭
状態に転送される。
テーブルを参照して、単語wの先行単語群G(w)の
内、先行単語vの最終状態のスコアDv の内、最もスコ
アの高い先行単語vmax を求める(式1)。この単語v
max の最終状態のスコアを単語wの先頭状態のスコアに
コピーする(式2)。更に、(式3)において、現在の
フレーム番号fを単語wの先頭状態の先頭フレーム番号
Bw (0)としていれる。
の先行単語群G(w)は、W7,W8,W9である。単
語W7,W8,W9の最終状態のスコアDv の内、最も
スコアの高い先行単語をW8とすると(vmax =W
8)、単語W8の最終状態のスコアを単語W11の先頭
状態のスコアにコピーする。また、現在のフレーム番号
fがBw (0)に設定される。
の先頭状態のスコアが規定の閾値T1以上であれば、ス
テップ504において、以下の(式4),(式5),
(式6)に示すバックトラッキング情報を図25に示す
バックトラッキングメモリ400に記憶するとともに、
ステップ505において、マークテーブルのマーク値を
1としてHMM演算対象とする。 Dback(f,w,v)=Dw (0)−Dv (iv +1)(式4) Bback(f,w,v)=Bw (Iv +1) (式5) Vback(f,w,v)=v (式6)
0,420,430には、図24に示す値が設定され
る。バックトラッキングメモリ410には、最も高いス
コアとの差分が記憶される。
8のバックトラック手段38において、バックトラッキ
ング処理が行われ、認識結果であるスコアの高い上位の
単語列が求まる。バックトラック処理の流れを、図20
に示す。バックトラック処理には、図26に示すような
3つのスタック510,520,530からなるスタッ
ク500を用いる。まず、ステップ601において、図
26に示すように、スタック500にW11の最終状態
のデータを積む。ステップ602において、スタック5
10の中から最高のスコアのデータを取り出し、(f,
w)の組をスタック520と530から得る。 d=d1=DW11 (IW11 +1) (式7) f=f1=BW11 (IW11 +1) (式8) w=W11 (式9)
が得られる。次に、バックトラッキングメモリの中から
(f,w)の組合せに一致する全ての先行単語vについ
て、(式10),(式11),(式12)に示すよう
に、順次バックトラッキング情報をバックトラッキング
メモリ400から取り出す。 Dstack =d−Dback(f,w,v) (式10) Bstack =Bback(f,w,v) (式11) Vstack =Vback(f,w,v) (式12)
る最初の単語であるW10までバックトラックしたな
ら、ステップ607で記憶しておいた単語列の履歴を結
果として出力する。そうでなければ、ステップ603に
おいて、(式10),(式11,(式12)により新た
に作成したデータを、ステップ605において、新たに
スタックに積む。例えば、(f1,W11)の組合せに
一致する全ての先行単語vは、W7,W8,W9であ
り、W7,W8,W9についてのバックトラッキング情
報をバックトラッキングメモリ400から取り出し、図
27に示すように、スタック500に記憶する。次に、
再びステップ602において、スタック510の中から
最高のスコアのデータを取り出し、(f,w)の組をス
タック520と530から得る。もし、d1−D
back(f1,w11,w8)が、この中で最高のスコア
なら、Bback(f1,w11,w8)とw8の組を得
る。そして、この組に対してステップ603〜ステップ
606を実行する。その結果、得られたW4,W5,W
6についてのバックトラッキング情報を図28に示す。
そして、ステップ603〜ステップ606において、バ
ックトラック処理を繰り返す。バックトラッキングして
いく過程で得られた単語列の履歴は、それぞれのデータ
の中に記憶しておく。ステップ607で記憶しておいた
単語列の履歴を結果として出力することにより、上位1
位の単語列が得られる。上位1位のデータを除いた残り
のデータに対して、2回目のバックトラック処理を行
い、上位2位の単語列が得られる。上記の処理をnが1
0になるまで繰り返すことにより、上位10位までの単
語列を得ることができる。
は、以上のように構成されているので、バックトラック
情報S39を記憶するためのバックトラック手段38の
メモリ用に非常に大きな容量が必要であった。この発明
は、上記のような問題点を解消するためになされたもの
で、より少ないメモリで大語彙の認識を行なえる音声認
識装置を提供するものである。
装置は、ノードを相互接続するアークからなる文法ネッ
トワークを用いて、文法規則を記憶する文法記憶手段
と、入力音声を分析し、分析パラメータを出力する音響
分析手段と、分析パラメータの確率を計算し確率を出力
する確率演算手段と、前記確率を用いて前記文法規則に
指定される認識モデルとの照合を行ない、バックトラッ
ク情報を出力するモデル照合手段と、前記バックトラッ
ク情報を記憶し、上記文法規則を参照してバックトラッ
ク情報を遡り検索して認識結果を得るバックトラック手
段とを備えることを特徴とする。
報の中に、文法規則のみでどのノードまで一意に遡り検
索できるかを示す遡り情報を含めて出力し、前記バック
トラック手段は、バックトラック情報と、文法規則から
得られた遡り情報とを併用しながら一意に遡り検索が可
能なノードまで遡り検索を行うことを特徴とする。
可能なノードのバックトラック情報を出力しないことを
特徴とする。
持つノードを遡り情報として出力することを特徴とす
る。
ノードを持たないノードに対するバックトラック情報を
出力しないことを特徴とする。
るノードを動的に記憶する先行ノード記憶テーブルを備
え、先行ノード記憶テーブルに記憶された先行ノードが
1つのみの場合には、一意に遡り検索できるノードとし
てバックトラック情報を出力せず、先行ノードが複数存
在する場合には、バックトラック情報を出力することを
特徴とする。
を用いて動的に選択された先行ノードを先行ノード記憶
テーブルに動的に記憶することを特徴とする。
ーブルの各ノードに対して最初に記憶された先行ノード
を固定的に記憶することを特徴とする。
ード記憶テーブルの各ノードに対して過去に記憶した先
行ノードの数を記憶することを特徴とする。
しながら、この発明の実施の形態を説明する。ここで
は、従来の音声認識装置の説明と同様に文法規則を有限
状態文法とし、認識方式としてHMM(Hidden
Markov Model)を用い、認識単位を単語と
する音声認識装置を一例として説明を行う。図1に、こ
の発明による実施の形態1の音声認識装置を示す。図1
において、音響分析手段11は、入力音声を音響分析
し、分析パラメータS12に変換する。確率演算手段1
2は、分析パラメータS12の各モデルに対する確率を
計算し、確率S13を出力する。モデル照合手段14
は、認識モデルを用いて前記確率S13を用いて活性化
されている認識モデル記憶手段15に記憶された認識モ
デルS14との照合を行い、単語のスコアを含むバック
トラック情報S17を出力する。バックトラック手段1
6は、前記バックトラック情報S17を記憶し、単語を
遡って認識結果S18を得る。
は、従来のものとほぼ同様であり、また、図14,図1
5,図17に示す動作フローも同じである。しかし、バ
ックトラック処理に関わる機能が異なり、本実施の形態
の特徴を形成している。スコアテーブル100の構成要
素が図29に示すように1つ増加し、先頭単語番号Rw
(i)を記憶する構成となっている。先頭単語番号と
は、どの単語まで遡れば先行単語を複数持つ単語か又は
どの単語まで遡れば文法情報の先頭単語かを指定してい
る情報である。つまり、先頭単語番号に至るまでは、一
意に遡っても良いことを意味している。図10の文法情
報では、W10,W7,W8,W11の単語が先頭単語
番号の対象となる単語である。
である。単語W1〜W6,W9の先頭単語番号は、W1
0である。単語W7の先頭単語は、W7である。単語W
8の先頭単語は、W8である。単語W11の先頭単語
は、W11である。また、先頭単語番号Rw (i)をバ
ックトラック情報として記憶するために、図31に示す
ように、バックトラッキングメモリ400に先頭単語用
バックトラッキングメモリ440が追加されている。ま
た、この実施の形態でも図19に示した先行単語テーブ
ル300を用いる。また、先行単語テーブル300の値
は、予め固定値として記憶されているものとする。
は、実施の形態1における単語wに対するHMM演算の
流れを示す図である。従来例のHMM演算とは、ステッ
プ906とステップ907に先頭単語番号Rw (i)の
処理が書かれてある所が異なっている。先頭単語番号R
w (i)は、先頭フレーム番号Bw (i)と同様に、よ
り高いスコアに付随して伝搬されていく。
は、実施の形態1におけるスコア転送の処理の流れを示
す図である。ステップ802において、従来例と同様に
(式1),(式2)の処理が行われた後、以下の(式1
3),(式14)の要素が単語間を転送される。
の先行単語群G(w)が単語W7,W8,W9であり、
最終状態のスコアDV の内、(式1)による最もスコア
の高い単語vmax をW8とすると、W8の最終状態のス
コアを単語W11の先頭状態のスコアにコピーする(式
2)。同様に、W8の先頭フレーム番号を単語W11の
先頭状態の先頭フレーム番号にコピーする(式13)。
同様に、W8の先頭単語番号を単語W11の先頭状態の
先頭単語番号にコピーする(式14)。一方、もし、図
32において、単語W7,W8,W9の最終状態のスコ
アDV の内、(式1)による最もスコアの高い単語v
max をW7とすると、W7の最終状態のスコアを単語W
11の先頭状態のスコアにコピーする(式2)。同様
に、W7の先頭フレーム番号を単語W11の先頭状態の
先頭フレーム番号にコピーする(式13)。同様に、W
7の先頭単語番号を単語W11の先頭状態の先頭単語番
号にコピーする(式14)。更に、もし、図32におい
て、単語W7,W8,W9の最終状態のスコアDV の
内、(式1)による最もスコアの高い単語vmax をW9
とすると、W9の最終状態のスコアを単語W11の先頭
状態のスコアにコピーする(式2)。同様に、W9の先
頭フレーム番号を単語W11の先頭状態の先頭フレーム
番号にコピーする(式13)。同様に、W9の先頭単語
番号を単語W11の先頭状態の先頭単語番号にコピーす
る(式14)。続いて、ステップ808において、先行
単語が複数ある場合のみステップ804の処理を行う。
単語W8は先行単語が複数あるので、ステップ804の
処理を行う。ステップ804においては、以下の(式1
5),(式16)に示す通り、先頭単語番号wと先頭フ
レーム番号fがセットされ、バックトラック情報が出力
される。 Bw (0)=f (式15) Rw (0)=w (式16)
ク情報が出力された場合を示している。また、単語W7
の場合も先行単語が複数あるので、バックトラック情報
が出力される。しかし、先行単語がただ1つしかない単
語W1〜W6,W9の場合には、バックトラック情報は
バックトラッキングメモリ400には出力されない。バ
ックトラック情報として従来例と同様に(式4),(式
5),(式6)による情報に加え、以下の先頭単語番号
の要素が出力される。 Rback(f,w,v)=Rv (Iv +1) (式17)
0に示した従来例と変わらないが、単語間の情報が全て
バックトラック情報として記憶されているわけではない
ため、常にバックトラック情報を用いて遡るのではな
く、単語が先頭単語情報と一致するまでは先行単語情報
を用いて遡る。そのため、従来例で用いた図20のステ
ップ603の処理の代わりに、図4に示す遡り処理(ス
テップ120)とバックトラック処理(ステップ12
4)が挿入される。
体的に説明する。図4に示すステップ601において、
図34に示すように、先頭単語用のスタック540を含
むスタック500に対して初期値を設定する。即ち、単
語W11の最終状態のデータをスタック500に積む。
図30に示すように、単語W11の先頭単語番号はW1
1であるから、スタック540には単語W11の先頭単
語番号として、RW11 (IW11 +1)の内容であるW1
1が設定される。その他のスタック510,520,5
30は、従来例に示した図26の設定と同じである。次
に、ステップ602において、スタック510の中から
最高のスコアのデータを取り出し、(f,w)の組をス
タック520,530から得る。次に、ステップ121
でスタック530から先行単語を変数wに代入する。図
34に示す場合は、単語W11が変数wに取り出され
る。次に、ステップ122において、変数wへ取り出し
た単語W11とスタック540の先頭単語の値が比較さ
れる。スタック540には、単語W11が記憶されてい
るため、ステップ122の比較の結果、単語W11はバ
ックトラック処理を行う単語であると判断され、ステッ
プ124に進む。ステップ124で、単語W11に対す
るバックトラック処理を行う。即ち、(f,w)の組合
せに一致する全ての先行単語vについて、(式10),
(式11),(式12)及び以下の(式18)によりバ
ックトラッキング情報をバックトラッキングメモリ40
0から取り出す。ここでは、単語W11の先行単語W
7,W8,W9についてバックトラッキングメモリ40
0からバックトラッキング情報が取り出される。 Rstack =Rback(f,w,v) (式18) ステップ604においてはまだ単語W10に到達してい
ないので、ステップ605に進む。ステップ605にお
いては、(式10),(式11),(式12)及び(式
18)により求められた値をスタック500に設定す
る。
設定される。スタック510,520,530に設定さ
れる値は、図27に示した従来の値と同じものである。
スタック540には、単語W7,W8,W9に対してそ
れぞれ単語W7,W8,W10が先頭単語として設定さ
れる。ステップ606においては、(f,w)の組合せ
に一致する他の先行単語vについて、バックトラック処
理が行われたかどうかがチェックされる。図34では、
単語W11の1組しかないので、ステップ602へ戻
る。
設定された状態で、再び図4に示すステップ602が実
行される。図35において、最高のスコアを示すデータ
が単語W8ではなく単語W9とすると、単語W9を取り
出す。次に、ステップ121で単語W9を変数wへ取り
出し、ステップ122において、変数wへ取り出した単
語W9とスタック540の先頭単語W10を比較する。
一致しないので、ステップ123において、単語W9の
先行単語群の先頭にある単語を取り出す。この時点で単
語W9用のバックトラック処理がスキップされたことに
なる。図19に示すように、単語W9の先行単語は単語
W6であるので、先行単語W6が先行単語テーブル30
0から変数wに取り出される。再び、ステップ122で
変数wに取り出した先行単語W6とスタック540の先
頭単語W10が比較される。一致しないので、再びステ
ップ123において、単語W6の先行単語群の中から、
先頭の先行単語が変数wに取り出される。この時点で単
語W6用のバックトラック処理がスキップされたことに
なる。図19に示すように、単語W6の先行単語は1つ
しかなく、その先頭は単語W2である。この単語W2が
変数wに取り出される。ステップ122において、変数
wへ取り出した単語W2とスタック540の先頭単語W
10が比較される。一致しないので、ステップ123で
単語W2の先行単語群の先頭の単語W10を変数wに取
り出す。この時点で単語W2用のバックトラック処理が
スキップされたことになる。ステップ122において、
変数wに取り出したW10とスタック540の先頭単語
W10が一致するので、ステップ124によりバックト
ラック処理を行う。次に、ステップ604においては、
バックトラック処理を行った単語がW10であるため、
ステップ607に進み、上位1位の単語列を出力する。
次に、ステップ608により、以上述べた処理を10回
繰り返すことにより、上位10位までの単語列を得るこ
とができる。
情報としてバックトラッキングメモリに記憶させること
により、全ての単語に対してバックトラック処理を行う
のではなく、先頭単語に至った場合にバックトラック処
理を行うようにしたので、バックトラック情報を記憶す
るバックトラッキングメモリの容量を削減するととも
に、バックトラック処理の高速化を図ることができる。
が、これは音節や音素や半音節や音素片などでもよく、
同様に効果を奏する。また、音声認識方式をHMMとし
て説明してきたが、DP(ダイナミックプログラミン
グ)マッチングやニューラルネットによる認識方式を用
いても良く、同様に効果を奏する。また、文法規則を有
限状態文法として説明をしてきたが、部分文法の中の単
語の代わりに、別の部分文法を指定するようにすれば、
文脈自由文法も表せるようになり、同様に効果を奏す
る。
において、先行単語が1つしかない単語においてバック
トラック情報を出力することを抑止したが、本実施の形
態では、更に有効なアークが1つしかない場合もビーム
サーチによりバックトラック情報を出力することを抑止
する場合を説明する。例えば、図5は、認識処理に進ん
でいるある時点でのビーム内に残っている単語とアーク
の一例を示した図である。図中、白抜きの単語と、実線
のアークがビーム内に残っており、有効であることを示
している。実施の形態1では、W11の単語は構文情報
上、複数の単語につながっているため、バックトラック
情報を出力する必要があったが、図5の例においては、
W11は有効なアークは1つしかなかため、バックトラ
ック情報を出力しなくとも遡ることができるはずであ
る。
終状態のスコアが閾値T1より大きいという(式19)
の条件を満たすものとし、一旦有効となり、先行単語テ
ーブルに登録された後は、認識が終了するまで先行単語
テーブルから消去されることはないものとする。 Dv (Iv +1)>T1 (式19)
理中は固定としていた先行単語テーブルを認識処理中に
動的に書き換えられる構成とし、認識途中でビームサー
チにより有効となったアークより活性化された先行単語
をこの先行単語テーブルに動的に登録することにより、
有効な先行するアークを複数持たない単語のバックトラ
ック情報を出力することを抑止する。例えば、図6は、
先行単語テーブルの初期状態であり、この段階では有効
な先行単語は1つも存在しない。図7は、図5の段階の
先行単語テーブルの様子を示し、単語W7のみ先行単語
の数N(w)が1より大きな値となるため、図2のステ
ップ808の条件に合致するため、W7のみバックトラ
ック情報を出力することとなる。
を用いるため、アークの有効、或いは、無効は動的に変
化する。従って、先行単語テーブルに登録される有効な
先行単語がある期間のみ複数存在する場合もあるし、あ
る期間のみ1つだけ存在する場合もあるし、ある期間の
み1つも存在しない場合がある。或いは、一度有効とな
ったアークが、その後無効となってしまう場合もある。
そこで、先行単語テーブルは、少なくとも最初に活性化
された先行単語を記憶するものとし、その最初に活性化
された先行単語が無効となる場合でも、先行単語テーブ
ルに記憶させたままにしておく。このように、一度活性
化された先行単語を記憶し続けることにより、バックト
ラック処理が行えなくなるという不具合を防止すること
ができる。このように、最初に活性化された先行単語を
記憶し続ける場合には、先行単語テーブルにおいて、先
行単語が1つも登録されていない単語は、処理の間中一
度も活性化されなかった単語であることを示している。
このように、一度も活性化されなかった単語に対して
は、バックトラック処理が発生することはない。また、
先行単語テーブルには、各単語毎に過去に活性化した先
行単語の数を記憶しておいてもよい。過去に活性化した
先行単語の数が0の場合には、過去に活性化した先行単
語がないことを即座に知ることができる。また、過去に
活性化した先行単語の数が1の場合には、一意に遡り検
索ができるノードであると判断することができる。ま
た、過去に活性化した先行単語の数が2以上の場合に
は、一意に遡り検索できる単語であるかどうかを実際に
チェックする。即ち、その時点において、活性化されて
いる単語が複数存在するか否かをチェックし、複数存在
する場合にはバックトラック情報を出力し、1つのみの
場合にはバックトラック情報を出力しない。
とノードからなる文法規則を用いる音声認識装置におい
て、過去に活性化した単語の数と最初に活性化された先
行単語を記憶する先行単語テーブルを備え、活性化され
ている単語が1つのみの場合には、バックトラック情報
を出力せず、バックトラック情報のない単語に対して
は、最初に活性化した先行アークの方へ文法規則を用い
て遡り検索するバックトラック手段を備えるものであ
る。
を持たないノードは、バックトラック情報を出力しない
ため、必要とするメモリ量の小さな音声認識装置が得ら
れるという効果がある。
ドを複数持たないノードは、バックトラック情報を出力
しないため、必要とするメモリ量の小さな音声認識装置
が得られるという効果がある。
するので、バックトラック処理を高速に行える音声認識
装置が得られるという効果がある。
テーブルを動的に書き換えるので、バックトラック情報
の出力を動的に変更することができる。
式により先行ノード記憶テーブルに記憶する先行ノード
の数を絞ることができるので、更にメモリ量を小さくす
ることができる。
示す図である。
す図である。
を示す図である。
流れを説明する図である。
る図である。
である。
る図である。
る。
である。
る。
する図である。
る。
ある。
る。
る。
ある。
を示す図である。
作を説明する図である。
作を説明する図である。
ある。
ある。
ル照合手段、15 認識モデル記憶手段、16 バック
トラック手段、17 文法記憶手段、31 音響分析手
段、32 確率演算手段、35 認識モデル記憶手段、
36 文法記憶手段、37 モデル照合手段、38 バ
ックトラック手段、S11 入力音声、S12 分析パ
ラメータ、S13 確率、S14 認識モデル、S17
バックトラック情報、S18 認識結果、S19 部
分文法、S31 入力音声、S32 分析パラメータ、
S33 確率、S36 認識モデル、S38 文法情
報、S39 バックトラック情報、S40 認識結果、
aw (i,j) 状態iから状態jへの遷移確率、bw
(i) 確率(S33)、Bw (i) 先頭フレーム番
号、Dw (i) 状態iのスコア、g(w,1) 先頭
の先行単語、G(w)単語wの先行単語群、m(w)
マークテーブル、i 状態、Iv 単語vの状態数、I
w 単語wの状態数、P(w) 単語wのビームサーチ
の評価値、Sw 0,Sw 4 疑似状態、Sw 1,Sw
2,Sw 3 状態、T1 閾値、v 先行単語、W1〜
W11 単語、w W1〜W11のいずれかの単語番
号。
Claims (7)
- 【請求項1】 ノードを相互接続するアークからなる文
法ネットワークを用いて、文法規則を記憶する文法記憶
手段と、 入力音声を分析し、分析パラメータを出力する音響分析
手段と、 分析パラメータの確率を計算し確率を出力する確率演算
手段と、 前記確率を用いて前記文法規則に指定される認識モデル
との照合を行ない、バックトラック情報を出力するモデ
ル照合手段と、 前記バックトラック情報を記憶し、上記文法規則を参照
してバックトラック情報を遡り検索して認識結果を得る
バックトラック手段とを備え、 前記モデル照合手段は、バックトラック情報の中に、文
法規則のみでどのノードまで一意に遡り検索できるかを
示す遡り情報を含めて出力し、前記バックトラック手段
は、バックトラック情報と、文法規則から得られた遡り
情報とを併用しながら一意に遡り検索が可能なノードま
で遡り検索を行い、 前記モデル照合手段は、一意に遡り検索が可能なノード
のバックトラック情報を出力しないことを特徴とする音
声認識装置。 - 【請求項2】 ノードを相互接続するアークからなる文
法ネットワークを用いて、文法規則を記憶する文法記憶
手段と、 入力音声を分析し、分析パラメータを出力する音響分析
手段と、 分析パラメータの確率を計算し確率を出力する確率演算
手段と、 前記確率を用いて前記文法規則に指定される認識モデル
との照合を行ない、バックトラック情報を出力するモデ
ル照合手段と、 前記バックトラック情報を記憶し、上記文法規則を参照
してバックトラック情報を遡り検索して認識結果を得る
バックトラック手段とを備え、 前記モデル照合手段は、バックトラック情報の中に、文
法規則のみでどのノードまで一意に遡り検索できるかを
示す遡り情報を含めて出力し、前記バックトラック手段
は、バックトラック情報と、文法規則から得られた遡り
情報とを併用しながら一意に遡り検索が可能なノードま
で遡り検索を行い、 前記モデル照合手段は、先行ノードを複数持つノードを
遡り情報として出力することを特徴とする音声認識装
置。 - 【請求項3】 ノードを相互接続するアークからなる文
法ネットワークを用いて、文法規則を記憶する文法記憶
手段と、 入力音声を分析し、分析パラメータを出力する音響分析
手段と、 分析パラメータの確率を計算し確率を出力する確率演算
手段と、 前記確率を用いて前記文法規則に指定される認識モデル
との照合を行ない、バックトラック情報を出力するモデ
ル照合手段と、 前記バックトラック情報を記憶し、上記文法規則を参照
してバックトラック情報を遡り検索して認識結果を得る
バックトラック手段とを備え、 前記モデル照合手段は、バックトラック情報の中に、文
法規則のみでどのノードまで一意に遡り検索できるかを
示す遡り情報を含めて出力し、前記バックトラック手段
は、バックトラック情報と、文法規則から得られた遡り
情報とを併用しながら一意に遡り検索が可能なノードま
で遡り検索を行い、 前記モデル照合手段は、1つしか先行するノードを持た
ないノードに対するバックトラック情報を出力しないこ
とを特徴とする音声認識装置。 - 【請求項4】 ノードを相互接続するアークからなる文
法ネットワークを用いて、文法規則を記憶する文法記憶
手段と、 入力音声を分析し、分析パラメータを出力する音響分析
手段と、 分析パラメータの確率を計算し確率を出力する確率演算
手段と、 前記確率を用いて前記文法規則に指定される認識モデル
との照合を行ない、バックトラック情報を出力するモデ
ル照合手段と、 前記バックトラック情報を記憶し、上記文法規則を参照
してバックトラック情報を遡り検索して認識結果を得る
バックトラック手段とを備え、 前記モデル照合手段は、各ノードに先行するノードを動
的に記憶する先行ノード記憶テーブルを備え、先行ノー
ド記憶テーブルに記憶された先行ノードが1つのみの場
合には、一意に遡り検索できるノードとしてバックトラ
ック情報を出力 せず、先行ノードが複数存在する場合に
は、バックトラック情報を出力することを特徴とする音
声認識装置。 - 【請求項5】 前記モデル照合手段は、ビームサーチ方
式を用いて動的に選択された先行ノードを先行ノード記
憶テーブルに動的に記憶することを特徴とする請求項4
記載の音声認識装置。 - 【請求項6】 前記モデル照合手段は、先行ノード記憶
テーブルの各ノードに対して最初に記憶された先行ノー
ドを固定的に記憶することを特徴とする請求項4記載の
音声認識装置。 - 【請求項7】 前記モデル照合手段は、少なくとも先行
ノード記憶テーブルの各ノードに対して過去に記憶した
先行ノードの数を記憶することを特徴とする請求項4記
載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19522398A JP3484077B2 (ja) | 1998-07-10 | 1998-07-10 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19522398A JP3484077B2 (ja) | 1998-07-10 | 1998-07-10 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000029491A JP2000029491A (ja) | 2000-01-28 |
JP3484077B2 true JP3484077B2 (ja) | 2004-01-06 |
Family
ID=16337522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19522398A Expired - Lifetime JP3484077B2 (ja) | 1998-07-10 | 1998-07-10 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3484077B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3763388B2 (ja) | 2000-02-07 | 2006-04-05 | 日本パーカライジング株式会社 | 無段変速機用転動体 |
JP2005114964A (ja) * | 2003-10-07 | 2005-04-28 | Xanavi Informatics Corp | 音声認識方法および音声認識処理装置 |
-
1998
- 1998-07-10 JP JP19522398A patent/JP3484077B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2000029491A (ja) | 2000-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100371926C (zh) | 通过响应输入语句而输出应答语句的交互对话装置和方法 | |
EP1178466B1 (en) | Recognition system using lexical trees | |
US5995930A (en) | Method and apparatus for recognizing spoken words in a speech signal by organizing the vocabulary in the form of a tree | |
JPH07219578A (ja) | 音声認識方法 | |
Schwartz et al. | Multiple-pass search strategies | |
JP4289715B2 (ja) | 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法 | |
Nocera et al. | Phoneme lattice based A* search algorithm for speech recognition | |
JPH0728487A (ja) | 音声認識方法 | |
US20070038451A1 (en) | Voice recognition for large dynamic vocabularies | |
JP2003208195A5 (ja) | ||
JP3484077B2 (ja) | 音声認識装置 | |
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP3039634B2 (ja) | 音声認識装置 | |
JP3546633B2 (ja) | 音声認識装置 | |
JP3813491B2 (ja) | 連続音声認識装置およびそのプログラム | |
JP3914709B2 (ja) | 音声認識方法およびシステム | |
JP3440840B2 (ja) | 音声認識方法及びその装置 | |
JP3042455B2 (ja) | 連続音声認識方式 | |
JP3315565B2 (ja) | 音声認識装置 | |
JP4104831B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP3999913B2 (ja) | 音声認識システム及び方法並びに音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3559479B2 (ja) | 連続音声認識方法 | |
JP2867695B2 (ja) | 連続音声認識装置 | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JPH08241096A (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20031007 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071017 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081017 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091017 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091017 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101017 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111017 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121017 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131017 Year of fee payment: 10 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |