JP3484077B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3484077B2
JP3484077B2 JP19522398A JP19522398A JP3484077B2 JP 3484077 B2 JP3484077 B2 JP 3484077B2 JP 19522398 A JP19522398 A JP 19522398A JP 19522398 A JP19522398 A JP 19522398A JP 3484077 B2 JP3484077 B2 JP 3484077B2
Authority
JP
Japan
Prior art keywords
information
backtrack
word
node
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP19522398A
Other languages
English (en)
Other versions
JP2000029491A (ja
Inventor
知弘 岩▲さき▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP19522398A priority Critical patent/JP3484077B2/ja
Publication of JP2000029491A publication Critical patent/JP2000029491A/ja
Application granted granted Critical
Publication of JP3484077B2 publication Critical patent/JP3484077B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、所定の文法規則を
用いてモデル照合を行う音声認識装置に関するものであ
る。
【0002】
【従来の技術】文脈自由文法(CFG:Context
Free Grammer)や有限状態文法(FS
G:Finite State Grammer)によ
る文法規則を用いて連続単語認識を行う方式の1つとし
て、ビームサーチ方式によるN−bestサーチ法があ
る。ここでは、Richard Schwartz,S
teve Austin共著“A Compariso
n of SeveralApproximate A
lgorithms”(IEEE ICASSP91,
ページ701〜704)に示されたものを一例として従
来の技術を説明する。以下、文法規則を有限状態文法で
あるとし、認識方式としてHMM(Hidden Ma
rkov Model)を用い、認識単位を単語とし、
ビームサーチを併用する音声認識装置を一例として説明
を行う。
【0003】従来の音声認識装置の構成を図8に示す。
図8において、音響分析手段31は、入力音声S31を
音響分析し、分析パラメータS32に変換する。確率演
算手段32は、分析パラメータS32の各モデルに対す
る確率S33を計算する。認識モデル記憶手段35は、
認識モデルの情報を記憶する。文法記憶手段36は、単
語間の接続を表す有限状態文法を記憶する。モデル照合
手段37は、認識に先立ち文法情報S38に従い、認識
モデルS36を内部のローカルメモリ上に取り込み必要
となる演算領域を確保し、確率S33を用いてVite
rbi演算を行い、バックトラック情報S39を出力す
る。バックトラック手段38は、順次入力されるバック
トラック情報S39を内部に記憶し、音声の終端におい
てバックトラック処理を行い、認識結果S40としてス
コアの大きな規定の個数の単語系列を出力する。
【0004】このような構成の音声認識装置の動作につ
いて説明する。従来の音声認識装置の説明のため、認識
装置の認識対象は図9に示す住所とする。「鎌倉市上町
屋」は「1丁目」が続き、「鎌倉市大船」「藤沢市江ノ
島」には「1丁目」と「2丁目」が続く。「藤沢市辻
堂」には「1丁目」「2丁目」「3丁目」が続く。有限
状態文法では、状態を示すノードとノード間の遷移を示
すアークにより表現される。前述の住所を表す有限状態
文法である文法情報S38の例を図10に、単語番号と
地名の対応関係を図11示す。図10では、ノードを単
語として、許される単語の接続をアーク(図中、矢印で
示す)として示している。図中、W1〜W11という単
語と、その接続情報が矢印で示されている。この対応関
係を図11に示す。W10,W11は、無音を表す特別
な単語であるが、挿入可能な位置を明示するため、無音
を文法情報に含んでいる。この情報は、図8において、
文法記憶手段36に格納されている。文法は、単語W1
0から始まり、単語W11で終了する。
【0005】図8において、認識モデル記憶手段35に
は、文法情報S38に含まれる全ての認識モデルの情報
が格納されている。図12に、認識モデル記憶手段35
の内容を示す。それぞれ単語に対応する認識モデルの内
容が含まれている。単語W1〜W11の内、いずれかの
単語wに対する3つの状態からなる認識モデルの構造の
一例を図13に示す。Sw 1,Sw 2,Sw 3で示して
いるのは状態であり、確率演算手段32で演算される確
率bw (i)と対応している。Sw 0は、前の単語との
接続に用いる疑似状態であり、Sw 4は、次の単語の認
識モデルとの接続に用いる疑似状態である。Sw 0に
は、前の単語の最終ステートのスコアがコピーされる。
矢印で示しているのが状態遷移である。状態iから状態
jへの遷移には、aw (i,j)という遷移確率に基づ
くスコアが付与されている。aw (0,1)には、スコ
ア0が与えられている。前記確率演算手段32から出力
される確率S33であるbw (i)とこの遷移確率によ
り、HMMの各状態のスコアDw (i)が演算され更新
される。図21に示すように、モデル照合手段37の内
部には、スコアテーブル100とマークテーブル200
と後述する先行単語テーブル300が記憶されている。
スコアテーブル100の構成要素は、図22に示すよう
な各状態のスコアDw (i)と先頭フレーム番号Bw
(i)である。先頭フレーム番号とは、その単語wが何
フレーム目から始まっているかを示すものである。図2
2に示す例は、図13に示す単語wのスコアテーブルで
あり、各単語W1〜W11についてそれぞれ図21に示
すようにスコアテーブルが存在している。マークテーブ
ル200は、図23に示すように、ビームサーチにより
その単語wのHMM演算を行うか否かを指定するもので
あり、マーク値m(w)が1であればHMM演算を行う
ものとする。マーク値m(w)が0であればHMM演算
を行わない。
【0006】モデル照合手段37における認識処理の流
れを図14に示す。一文の音声信号は、F個のフレーム
に渡って転送されるものとし、この図において、一文の
音声の認識を開始する時に、ステップ701の初期化が
行われ、音声区間の1フレーム分の音声データが入力さ
れる度に、ステップ702〜ステップ705までの処理
がF回繰り返され、一文の処理が終了すると、ステップ
706においてバックトラック処理の指示が出力され
る。バックトラック手段38では、バックトラック情報
S39をもとに、認識結果を求めるバックトラック処理
が行われる。
【0007】認識に先立ち文法記憶手段36、認識モデ
ル記憶手段35には、前述の内容のデータが納められて
おり、モデル照合手段37の中には必要なメモリが確保
されているものとする。まず、認識処理が開始される
と、内部テーブルを初期化する(ステップ701)。各状
態のスコアDw (i)の内、最初の状態Sw (0)のス
コアDw (0)は0(良いスコア)に設定され、他の全
てのスコアは小さい値、例えば、−1000(悪い値)
に設定される。図10に示す文法情報を用いて認識する
場合には、スコアDW10 (0)が0に設定され、スコア
W10 (0)を除く残りの状態のスコアDW1(i)〜D
W11 (i)は、全ては−1000に設定される。また、
先頭フレーム番号の初期値として、BW10 (0)に0が
設定される。また、単語W10を除いた単語W1〜W
9,W11に対してマークテーブルには、マーク値m
(w)は0に設定される。次に、ステップ702〜ステ
ップ705までの処理が音声信号の各フレームについて
繰り返し行われる。ステップ702では、HMM演算が
行われ、各状態のスコアと各単語の単語スコアが更新さ
れる。ステップ703では、ビームサーチが行われ、ス
コアの低い単語の認識モデルがHMM演算の範囲から除
去される。ステップ704では、単語モデル間のスコア
が伝搬されるとともに、バックトラック情報S39が出
力される。
【0008】次に、ステップ702で示したHMM演算
の流れについて説明する。図15は、HMM演算の流れ
を説明する図である。単語W1〜W11の各単語wにつ
いて、ステップ302〜ステップ305まで処理を繰り
返す。演算量削減のためビームサーチを用いているた
め、マークテーブルのマーク値m(w)が1であれば、
単語wのHMM演算(ステップ303)を行い、m
(w)が0であれば、この処理をスキップするものとす
る。ステップ306では、単語内での状態のスコアDw
(i)の最大値を示す単語wのビームサーチの評価値P
(w)から定数K1を減算し、ビームサーチの閾値T1
を求めている。
【0009】ステップ303の単語wのHMM演算の処
理について詳しく説明する。図16は、1フレームにお
ける単語wに関するHMM処理の流れを示す図である。
単語wの状態数をIw とする。まず、ステップ206に
おいて、最終状態への遷移を計算する。続いて、状態i
について、ステップ202〜ステップ205までの処理
を繰り返す。ステップ209において、2つの遷移のス
コアを比較し、ステップ207又はステップ208の処
理を選択する。図中、P(w)は、単語wのビームサー
チの評価値であり、ステップ202〜ステップ205ま
での処理を繰り返すことにより、単語内での状態のスコ
アDw (i)の最大値を選択する。
【0010】次に、ステップ703に示したビームサー
チ処理について説明する。図17は、ビームサーチ処理
の流れを示すものである。ステップ402において、単
語wの状態の最高スコアが閾値T1より小さな場合は、
ステップ403において、その単語のスコアテーブルの
スコアDw (i)を−1000に初期化して、マークテ
ーブルのスコア値m(w)を0にリセットする。
【0011】次に、ステップ704に示したスコア転送
処理について説明する。図18は、スコア転送処理の流
れを示すものである。スコア転送処理では、図19に示
す先行単語テーブル300を用いて処理を行う。先行単
語テーブル300は、図10に示す文法情報S38に基
づき予め作成しておき、図21に示すように、モデル照
合手段37の内部に記憶されている。スコア転送処理
は、先行する単語から後の単語へスコアを転送する処理
をいう。もし、先行する単語が複数ある場合は、最も高
いスコアを有している単語が用いられ、その単語の最終
状態のスコアと現在のフレーム番号とが後の単語の先頭
状態に転送される。
【0012】即ち、ステップ502において、先行単語
テーブルを参照して、単語wの先行単語群G(w)の
内、先行単語vの最終状態のスコアDv の内、最もスコ
アの高い先行単語vmax を求める(式1)。この単語v
max の最終状態のスコアを単語wの先頭状態のスコアに
コピーする(式2)。更に、(式3)において、現在の
フレーム番号fを単語wの先頭状態の先頭フレーム番号
w (0)としていれる。
【0013】
【数1】
【0014】 Bw (0)=f (式3)
【0015】例えば、図24に示すように、単語W11
の先行単語群G(w)は、W7,W8,W9である。単
語W7,W8,W9の最終状態のスコアDv の内、最も
スコアの高い先行単語をW8とすると(vmax =W
8)、単語W8の最終状態のスコアを単語W11の先頭
状態のスコアにコピーする。また、現在のフレーム番号
fがBw (0)に設定される。
【0016】そして、ステップ503において、単語w
の先頭状態のスコアが規定の閾値T1以上であれば、ス
テップ504において、以下の(式4),(式5),
(式6)に示すバックトラッキング情報を図25に示す
バックトラッキングメモリ400に記憶するとともに、
ステップ505において、マークテーブルのマーク値を
1としてHMM演算対象とする。 Dback(f,w,v)=Dw (0)−Dv (iv +1)(式4) Bback(f,w,v)=Bw (Iv +1) (式5) Vback(f,w,v)=v (式6)
【0017】例えば、各バックトラッキングメモリ41
0,420,430には、図24に示す値が設定され
る。バックトラッキングメモリ410には、最も高いス
コアとの差分が記憶される。
【0018】全フレームのHMM演算が終了すると、図
8のバックトラック手段38において、バックトラッキ
ング処理が行われ、認識結果であるスコアの高い上位の
単語列が求まる。バックトラック処理の流れを、図20
に示す。バックトラック処理には、図26に示すような
3つのスタック510,520,530からなるスタッ
ク500を用いる。まず、ステップ601において、図
26に示すように、スタック500にW11の最終状態
のデータを積む。ステップ602において、スタック5
10の中から最高のスコアのデータを取り出し、(f,
w)の組をスタック520と530から得る。 d=d1=DW11 (IW11 +1) (式7) f=f1=BW11 (IW11 +1) (式8) w=W11 (式9)
【0019】図26では、まず、(f1,W11)の組
が得られる。次に、バックトラッキングメモリの中から
(f,w)の組合せに一致する全ての先行単語vについ
て、(式10),(式11),(式12)に示すよう
に、順次バックトラッキング情報をバックトラッキング
メモリ400から取り出す。 Dstack =d−Dback(f,w,v) (式10) Bstack =Bback(f,w,v) (式11) Vstack =Vback(f,w,v) (式12)
【0020】ステップ604において、文法情報におけ
る最初の単語であるW10までバックトラックしたな
ら、ステップ607で記憶しておいた単語列の履歴を結
果として出力する。そうでなければ、ステップ603に
おいて、(式10),(式11,(式12)により新た
に作成したデータを、ステップ605において、新たに
スタックに積む。例えば、(f1,W11)の組合せに
一致する全ての先行単語vは、W7,W8,W9であ
り、W7,W8,W9についてのバックトラッキング情
報をバックトラッキングメモリ400から取り出し、図
27に示すように、スタック500に記憶する。次に、
再びステップ602において、スタック510の中から
最高のスコアのデータを取り出し、(f,w)の組をス
タック520と530から得る。もし、d1−D
back(f1,w11,w8)が、この中で最高のスコア
なら、Bback(f1,w11,w8)とw8の組を得
る。そして、この組に対してステップ603〜ステップ
606を実行する。その結果、得られたW4,W5,W
6についてのバックトラッキング情報を図28に示す。
そして、ステップ603〜ステップ606において、バ
ックトラック処理を繰り返す。バックトラッキングして
いく過程で得られた単語列の履歴は、それぞれのデータ
の中に記憶しておく。ステップ607で記憶しておいた
単語列の履歴を結果として出力することにより、上位1
位の単語列が得られる。上位1位のデータを除いた残り
のデータに対して、2回目のバックトラック処理を行
い、上位2位の単語列が得られる。上記の処理をnが1
0になるまで繰り返すことにより、上位10位までの単
語列を得ることができる。
【0021】
【発明が解決しようとする課題】従来の音声認識装置
は、以上のように構成されているので、バックトラック
情報S39を記憶するためのバックトラック手段38の
メモリ用に非常に大きな容量が必要であった。この発明
は、上記のような問題点を解消するためになされたもの
で、より少ないメモリで大語彙の認識を行なえる音声認
識装置を提供するものである。
【0022】
【課題を解決するための手段】この発明に係る音声認識
装置は、ノードを相互接続するアークからなる文法ネッ
トワークを用いて、文法規則を記憶する文法記憶手段
と、入力音声を分析し、分析パラメータを出力する音響
分析手段と、分析パラメータの確率を計算し確率を出力
する確率演算手段と、前記確率を用いて前記文法規則に
指定される認識モデルとの照合を行ない、バックトラッ
ク情報を出力するモデル照合手段と、前記バックトラッ
ク情報を記憶し、上記文法規則を参照してバックトラッ
ク情報を遡り検索して認識結果を得るバックトラック手
段とを備えることを特徴とする。
【0023】前記モデル照合手段は、バックトラック情
報の中に、文法規則のみでどのノードまで一意に遡り検
索できるかを示す遡り情報を含めて出力し、前記バック
トラック手段は、バックトラック情報と、文法規則から
得られた遡り情報とを併用しながら一意に遡り検索が可
能なノードまで遡り検索を行うことを特徴とする。
【0024】前記モデル照合手段は、一意に遡り検索が
可能なノードのバックトラック情報を出力しないことを
特徴とする。
【0025】前記モデル照合手段は、先行ノードを複数
持つノードを遡り情報として出力することを特徴とす
る。
【0026】前記モデル照合手段は、1つしか先行する
ノードを持たないノードに対するバックトラック情報を
出力しないことを特徴とする。
【0027】前記モデル照合手段は、各ノードに先行す
るノードを動的に記憶する先行ノード記憶テーブルを備
え、先行ノード記憶テーブルに記憶された先行ノードが
1つのみの場合には、一意に遡り検索できるノードとし
てバックトラック情報を出力せず、先行ノードが複数存
在する場合には、バックトラック情報を出力することを
特徴とする。
【0028】前記モデル照合手段は、ビームサーチ方式
を用いて動的に選択された先行ノードを先行ノード記憶
テーブルに動的に記憶することを特徴とする。
【0029】前記モデル照合手段は、先行ノード記憶テ
ーブルの各ノードに対して最初に記憶された先行ノード
を固定的に記憶することを特徴とする。
【0030】前記モデル照合手段は、少なくとも先行ノ
ード記憶テーブルの各ノードに対して過去に記憶した先
行ノードの数を記憶することを特徴とする。
【0031】
【発明の実施の形態】実施の形態1.以下、図面を参照
しながら、この発明の実施の形態を説明する。ここで
は、従来の音声認識装置の説明と同様に文法規則を有限
状態文法とし、認識方式としてHMM(Hidden
Markov Model)を用い、認識単位を単語と
する音声認識装置を一例として説明を行う。図1に、こ
の発明による実施の形態1の音声認識装置を示す。図1
において、音響分析手段11は、入力音声を音響分析
し、分析パラメータS12に変換する。確率演算手段1
2は、分析パラメータS12の各モデルに対する確率を
計算し、確率S13を出力する。モデル照合手段14
は、認識モデルを用いて前記確率S13を用いて活性化
されている認識モデル記憶手段15に記憶された認識モ
デルS14との照合を行い、単語のスコアを含むバック
トラック情報S17を出力する。バックトラック手段1
6は、前記バックトラック情報S17を記憶し、単語を
遡って認識結果S18を得る。
【0032】本実施の形態における音声認識装置の構成
は、従来のものとほぼ同様であり、また、図14,図1
5,図17に示す動作フローも同じである。しかし、バ
ックトラック処理に関わる機能が異なり、本実施の形態
の特徴を形成している。スコアテーブル100の構成要
素が図29に示すように1つ増加し、先頭単語番号Rw
(i)を記憶する構成となっている。先頭単語番号と
は、どの単語まで遡れば先行単語を複数持つ単語か又は
どの単語まで遡れば文法情報の先頭単語かを指定してい
る情報である。つまり、先頭単語番号に至るまでは、一
意に遡っても良いことを意味している。図10の文法情
報では、W10,W7,W8,W11の単語が先頭単語
番号の対象となる単語である。
【0033】図30は、各単語の先頭単語番号を示す図
である。単語W1〜W6,W9の先頭単語番号は、W1
0である。単語W7の先頭単語は、W7である。単語W
8の先頭単語は、W8である。単語W11の先頭単語
は、W11である。また、先頭単語番号Rw (i)をバ
ックトラック情報として記憶するために、図31に示す
ように、バックトラッキングメモリ400に先頭単語用
バックトラッキングメモリ440が追加されている。ま
た、この実施の形態でも図19に示した先行単語テーブ
ル300を用いる。また、先行単語テーブル300の値
は、予め固定値として記憶されているものとする。
【0034】まず、HMM演算について説明する。図2
は、実施の形態1における単語wに対するHMM演算の
流れを示す図である。従来例のHMM演算とは、ステッ
プ906とステップ907に先頭単語番号Rw (i)の
処理が書かれてある所が異なっている。先頭単語番号R
w (i)は、先頭フレーム番号Bw (i)と同様に、よ
り高いスコアに付随して伝搬されていく。
【0035】次に、スコア転送について説明する。図3
は、実施の形態1におけるスコア転送の処理の流れを示
す図である。ステップ802において、従来例と同様に
(式1),(式2)の処理が行われた後、以下の(式1
3),(式14)の要素が単語間を転送される。
【0036】
【数2】
【0037】例えば、図32に示すように、単語W11
の先行単語群G(w)が単語W7,W8,W9であり、
最終状態のスコアDV の内、(式1)による最もスコア
の高い単語vmax をW8とすると、W8の最終状態のス
コアを単語W11の先頭状態のスコアにコピーする(式
2)。同様に、W8の先頭フレーム番号を単語W11の
先頭状態の先頭フレーム番号にコピーする(式13)。
同様に、W8の先頭単語番号を単語W11の先頭状態の
先頭単語番号にコピーする(式14)。一方、もし、図
32において、単語W7,W8,W9の最終状態のスコ
アDV の内、(式1)による最もスコアの高い単語v
max をW7とすると、W7の最終状態のスコアを単語W
11の先頭状態のスコアにコピーする(式2)。同様
に、W7の先頭フレーム番号を単語W11の先頭状態の
先頭フレーム番号にコピーする(式13)。同様に、W
7の先頭単語番号を単語W11の先頭状態の先頭単語番
号にコピーする(式14)。更に、もし、図32におい
て、単語W7,W8,W9の最終状態のスコアDV
内、(式1)による最もスコアの高い単語vmax をW9
とすると、W9の最終状態のスコアを単語W11の先頭
状態のスコアにコピーする(式2)。同様に、W9の先
頭フレーム番号を単語W11の先頭状態の先頭フレーム
番号にコピーする(式13)。同様に、W9の先頭単語
番号を単語W11の先頭状態の先頭単語番号にコピーす
る(式14)。続いて、ステップ808において、先行
単語が複数ある場合のみステップ804の処理を行う。
単語W8は先行単語が複数あるので、ステップ804の
処理を行う。ステップ804においては、以下の(式1
5),(式16)に示す通り、先頭単語番号wと先頭フ
レーム番号fがセットされ、バックトラック情報が出力
される。 Bw (0)=f (式15) Rw (0)=w (式16)
【0038】図33は、単語W8についてバックトラッ
ク情報が出力された場合を示している。また、単語W7
の場合も先行単語が複数あるので、バックトラック情報
が出力される。しかし、先行単語がただ1つしかない単
語W1〜W6,W9の場合には、バックトラック情報は
バックトラッキングメモリ400には出力されない。バ
ックトラック情報として従来例と同様に(式4),(式
5),(式6)による情報に加え、以下の先頭単語番号
の要素が出力される。 Rback(f,w,v)=Rv (Iv +1) (式17)
【0039】バックトラック処理の全体の流れは、図2
0に示した従来例と変わらないが、単語間の情報が全て
バックトラック情報として記憶されているわけではない
ため、常にバックトラック情報を用いて遡るのではな
く、単語が先頭単語情報と一致するまでは先行単語情報
を用いて遡る。そのため、従来例で用いた図20のステ
ップ603の処理の代わりに、図4に示す遡り処理(ス
テップ120)とバックトラック処理(ステップ12
4)が挿入される。
【0040】この実施の形態のバックトラック処理を具
体的に説明する。図4に示すステップ601において、
図34に示すように、先頭単語用のスタック540を含
むスタック500に対して初期値を設定する。即ち、単
語W11の最終状態のデータをスタック500に積む。
図30に示すように、単語W11の先頭単語番号はW1
1であるから、スタック540には単語W11の先頭単
語番号として、RW11 (IW11 +1)の内容であるW1
1が設定される。その他のスタック510,520,5
30は、従来例に示した図26の設定と同じである。次
に、ステップ602において、スタック510の中から
最高のスコアのデータを取り出し、(f,w)の組をス
タック520,530から得る。次に、ステップ121
でスタック530から先行単語を変数wに代入する。図
34に示す場合は、単語W11が変数wに取り出され
る。次に、ステップ122において、変数wへ取り出し
た単語W11とスタック540の先頭単語の値が比較さ
れる。スタック540には、単語W11が記憶されてい
るため、ステップ122の比較の結果、単語W11はバ
ックトラック処理を行う単語であると判断され、ステッ
プ124に進む。ステップ124で、単語W11に対す
るバックトラック処理を行う。即ち、(f,w)の組合
せに一致する全ての先行単語vについて、(式10),
(式11),(式12)及び以下の(式18)によりバ
ックトラッキング情報をバックトラッキングメモリ40
0から取り出す。ここでは、単語W11の先行単語W
7,W8,W9についてバックトラッキングメモリ40
0からバックトラッキング情報が取り出される。 Rstack =Rback(f,w,v) (式18) ステップ604においてはまだ単語W10に到達してい
ないので、ステップ605に進む。ステップ605にお
いては、(式10),(式11),(式12)及び(式
18)により求められた値をスタック500に設定す
る。
【0041】この状態で、図35に示す値がスタックに
設定される。スタック510,520,530に設定さ
れる値は、図27に示した従来の値と同じものである。
スタック540には、単語W7,W8,W9に対してそ
れぞれ単語W7,W8,W10が先頭単語として設定さ
れる。ステップ606においては、(f,w)の組合せ
に一致する他の先行単語vについて、バックトラック処
理が行われたかどうかがチェックされる。図34では、
単語W11の1組しかないので、ステップ602へ戻
る。
【0042】図35に示すような値がスタック500に
設定された状態で、再び図4に示すステップ602が実
行される。図35において、最高のスコアを示すデータ
が単語W8ではなく単語W9とすると、単語W9を取り
出す。次に、ステップ121で単語W9を変数wへ取り
出し、ステップ122において、変数wへ取り出した単
語W9とスタック540の先頭単語W10を比較する。
一致しないので、ステップ123において、単語W9の
先行単語群の先頭にある単語を取り出す。この時点で単
語W9用のバックトラック処理がスキップされたことに
なる。図19に示すように、単語W9の先行単語は単語
W6であるので、先行単語W6が先行単語テーブル30
0から変数wに取り出される。再び、ステップ122で
変数wに取り出した先行単語W6とスタック540の先
頭単語W10が比較される。一致しないので、再びステ
ップ123において、単語W6の先行単語群の中から、
先頭の先行単語が変数wに取り出される。この時点で単
語W6用のバックトラック処理がスキップされたことに
なる。図19に示すように、単語W6の先行単語は1つ
しかなく、その先頭は単語W2である。この単語W2が
変数wに取り出される。ステップ122において、変数
wへ取り出した単語W2とスタック540の先頭単語W
10が比較される。一致しないので、ステップ123で
単語W2の先行単語群の先頭の単語W10を変数wに取
り出す。この時点で単語W2用のバックトラック処理が
スキップされたことになる。ステップ122において、
変数wに取り出したW10とスタック540の先頭単語
W10が一致するので、ステップ124によりバックト
ラック処理を行う。次に、ステップ604においては、
バックトラック処理を行った単語がW10であるため、
ステップ607に進み、上位1位の単語列を出力する。
次に、ステップ608により、以上述べた処理を10回
繰り返すことにより、上位10位までの単語列を得るこ
とができる。
【0043】以上のように、先頭単語をバックトラック
情報としてバックトラッキングメモリに記憶させること
により、全ての単語に対してバックトラック処理を行う
のではなく、先頭単語に至った場合にバックトラック処
理を行うようにしたので、バックトラック情報を記憶す
るバックトラッキングメモリの容量を削減するととも
に、バックトラック処理の高速化を図ることができる。
【0044】以上、認識単位を単語として説明してきた
が、これは音節や音素や半音節や音素片などでもよく、
同様に効果を奏する。また、音声認識方式をHMMとし
て説明してきたが、DP(ダイナミックプログラミン
グ)マッチングやニューラルネットによる認識方式を用
いても良く、同様に効果を奏する。また、文法規則を有
限状態文法として説明をしてきたが、部分文法の中の単
語の代わりに、別の部分文法を指定するようにすれば、
文脈自由文法も表せるようになり、同様に効果を奏す
る。
【0045】実施の形態2.実施の形態1では、図10
において、先行単語が1つしかない単語においてバック
トラック情報を出力することを抑止したが、本実施の形
態では、更に有効なアークが1つしかない場合もビーム
サーチによりバックトラック情報を出力することを抑止
する場合を説明する。例えば、図5は、認識処理に進ん
でいるある時点でのビーム内に残っている単語とアーク
の一例を示した図である。図中、白抜きの単語と、実線
のアークがビーム内に残っており、有効であることを示
している。実施の形態1では、W11の単語は構文情報
上、複数の単語につながっているため、バックトラック
情報を出力する必要があったが、図5の例においては、
W11は有効なアークは1つしかなかため、バックトラ
ック情報を出力しなくとも遡ることができるはずであ
る。
【0046】ここで有効なアークとは、先行単語vの最
終状態のスコアが閾値T1より大きいという(式19)
の条件を満たすものとし、一旦有効となり、先行単語テ
ーブルに登録された後は、認識が終了するまで先行単語
テーブルから消去されることはないものとする。 Dv (Iv +1)>T1 (式19)
【0047】そこで、実施の形態1においては、認識処
理中は固定としていた先行単語テーブルを認識処理中に
動的に書き換えられる構成とし、認識途中でビームサー
チにより有効となったアークより活性化された先行単語
をこの先行単語テーブルに動的に登録することにより、
有効な先行するアークを複数持たない単語のバックトラ
ック情報を出力することを抑止する。例えば、図6は、
先行単語テーブルの初期状態であり、この段階では有効
な先行単語は1つも存在しない。図7は、図5の段階の
先行単語テーブルの様子を示し、単語W7のみ先行単語
の数N(w)が1より大きな値となるため、図2のステ
ップ808の条件に合致するため、W7のみバックトラ
ック情報を出力することとなる。
【0048】この実施の形態においては、ビームサーチ
を用いるため、アークの有効、或いは、無効は動的に変
化する。従って、先行単語テーブルに登録される有効な
先行単語がある期間のみ複数存在する場合もあるし、あ
る期間のみ1つだけ存在する場合もあるし、ある期間の
み1つも存在しない場合がある。或いは、一度有効とな
ったアークが、その後無効となってしまう場合もある。
そこで、先行単語テーブルは、少なくとも最初に活性化
された先行単語を記憶するものとし、その最初に活性化
された先行単語が無効となる場合でも、先行単語テーブ
ルに記憶させたままにしておく。このように、一度活性
化された先行単語を記憶し続けることにより、バックト
ラック処理が行えなくなるという不具合を防止すること
ができる。このように、最初に活性化された先行単語を
記憶し続ける場合には、先行単語テーブルにおいて、先
行単語が1つも登録されていない単語は、処理の間中一
度も活性化されなかった単語であることを示している。
このように、一度も活性化されなかった単語に対して
は、バックトラック処理が発生することはない。また、
先行単語テーブルには、各単語毎に過去に活性化した先
行単語の数を記憶しておいてもよい。過去に活性化した
先行単語の数が0の場合には、過去に活性化した先行単
語がないことを即座に知ることができる。また、過去に
活性化した先行単語の数が1の場合には、一意に遡り検
索ができるノードであると判断することができる。ま
た、過去に活性化した先行単語の数が2以上の場合に
は、一意に遡り検索できる単語であるかどうかを実際に
チェックする。即ち、その時点において、活性化されて
いる単語が複数存在するか否かをチェックし、複数存在
する場合にはバックトラック情報を出力し、1つのみの
場合にはバックトラック情報を出力しない。
【0049】以上のように、この実施の形態は、アーク
とノードからなる文法規則を用いる音声認識装置におい
て、過去に活性化した単語の数と最初に活性化された先
行単語を記憶する先行単語テーブルを備え、活性化され
ている単語が1つのみの場合には、バックトラック情報
を出力せず、バックトラック情報のない単語に対して
は、最初に活性化した先行アークの方へ文法規則を用い
て遡り検索するバックトラック手段を備えるものであ
る。
【0050】
【発明の効果】この発明によれば、1つしか先行ノード
を持たないノードは、バックトラック情報を出力しない
ため、必要とするメモリ量の小さな音声認識装置が得ら
れるという効果がある。
【0051】また、この発明によれば、有効な先行ノー
ドを複数持たないノードは、バックトラック情報を出力
しないため、必要とするメモリ量の小さな音声認識装置
が得られるという効果がある。
【0052】また、この発明によれば、一意に遡り検索
するので、バックトラック処理を高速に行える音声認識
装置が得られるという効果がある。
【0053】また、この発明によれば、先行ノード記憶
テーブルを動的に書き換えるので、バックトラック情報
の出力を動的に変更することができる。
【0054】また、この発明によれば、ビームサーチ方
式により先行ノード記憶テーブルに記憶する先行ノード
の数を絞ることができるので、更にメモリ量を小さくす
ることができる。
【図面の簡単な説明】
【図1】 実施の形態1に基づく音声認識装置の構成を
示す図である。
【図2】 実施の形態1におけるHMM演算の流れを示
す図である。
【図3】 実施の形態1におけるスコア転送処理の流れ
を示す図である。
【図4】 実施の形態1におけるバックトラック処理の
流れを説明する図である。
【図5】 ビーム内に残っている単語とアークを説明す
る図である。
【図6】 有効先行単語テーブルの初期値を説明する図
である。
【図7】 有効先行単語テーブルの途中の様子を説明す
る図である。
【図8】 従来の音声認識装置の構成を示す図である。
【図9】 従来例の説明に用いる住所を示す図である。
【図10】 文法情報の一例を示す図である。
【図11】 単語番号と地名の対応関係を示す図であ
る。
【図12】 認識モデル記憶手段の内容の一例を示す図
である。
【図13】 音節HMMの一例を示す図である。
【図14】 認識処理の流れを示す図である。
【図15】 HMM演算の処理の流れを説明する図であ
る。
【図16】 1単語内のHMM演算の処理の流れを説明
する図である。
【図17】 ビームサーチ処理を説明する図である。
【図18】 スコア転送処理の流れを説明する図であ
る。
【図19】 先行単語テーブルの一例を示す図である。
【図20】 バックトラック処理の流れを説明する図で
ある。
【図21】 モデル照合手段のテーブルを示す図であ
る。
【図22】 スコアテーブルを示す図である。
【図23】 マークテーブルを示す図である。
【図24】 モデル照合手段の動作を示す図である。
【図25】 バックトラッキングメモリを示す図であ
る。
【図26】 スタックを示す図である。
【図27】 スタックを示す図である。
【図28】 スタックを示す図である。
【図29】 実施の形態1のスコアテーブルを示す図で
ある。
【図30】 各単語の先頭単語を示す図である。
【図31】 実施の形態1のバックトラッキングメモリ
を示す図である。
【図32】 実施の形態1におけるモデル照合手段の動
作を説明する図である。
【図33】 実施の形態1におけるモデル照合手段の動
作を説明する図である。
【図34】 実施の形態1におけるスタックを示す図で
ある。
【図35】 実施の形態1におけるスタックを示す図で
ある。
【符号の説明】
11 音響分析手段、12 確率演算手段、14 モデ
ル照合手段、15 認識モデル記憶手段、16 バック
トラック手段、17 文法記憶手段、31 音響分析手
段、32 確率演算手段、35 認識モデル記憶手段、
36 文法記憶手段、37 モデル照合手段、38 バ
ックトラック手段、S11 入力音声、S12 分析パ
ラメータ、S13 確率、S14 認識モデル、S17
バックトラック情報、S18 認識結果、S19 部
分文法、S31 入力音声、S32 分析パラメータ、
S33 確率、S36 認識モデル、S38 文法情
報、S39 バックトラック情報、S40 認識結果、
w (i,j) 状態iから状態jへの遷移確率、bw
(i) 確率(S33)、Bw (i) 先頭フレーム番
号、Dw (i) 状態iのスコア、g(w,1) 先頭
の先行単語、G(w)単語wの先行単語群、m(w)
マークテーブル、i 状態、Iv 単語vの状態数、I
w 単語wの状態数、P(w) 単語wのビームサーチ
の評価値、Sw 0,Sw 4 疑似状態、Sw 1,Sw
2,Sw 3 状態、T1 閾値、v 先行単語、W1〜
W11 単語、w W1〜W11のいずれかの単語番
号。

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 ノードを相互接続するアークからなる文
    法ネットワークを用いて、文法規則を記憶する文法記憶
    手段と、 入力音声を分析し、分析パラメータを出力する音響分析
    手段と、 分析パラメータの確率を計算し確率を出力する確率演算
    手段と、 前記確率を用いて前記文法規則に指定される認識モデル
    との照合を行ない、バックトラック情報を出力するモデ
    ル照合手段と、 前記バックトラック情報を記憶し、上記文法規則を参照
    してバックトラック情報を遡り検索して認識結果を得る
    バックトラック手段とを備え 前記モデル照合手段は、バックトラック情報の中に、文
    法規則のみでどのノードまで一意に遡り検索できるかを
    示す遡り情報を含めて出力し、前記バックトラック手段
    は、バックトラック情報と、文法規則から得られた遡り
    情報とを併用しながら一意に遡り検索が可能なノードま
    で遡り検索を行い、 前記モデル照合手段は、一意に遡り検索が可能なノード
    のバックトラック情報を出力しないことを特徴とする音
    声認識装置。
  2. 【請求項2】 ノードを相互接続するアークからなる文
    法ネットワークを用いて、文法規則を記憶する文法記憶
    手段と、 入力音声を分析し、分析パラメータを出力する音響分析
    手段と、 分析パラメータの確率を計算し確率を出力する確率演算
    手段と、 前記確率を用いて前記文法規則に指定される認識モデル
    との照合を行ない、バックトラック情報を出力するモデ
    ル照合手段と、 前記バックトラック情報を記憶し、上記文法規則を参照
    してバックトラック情報を遡り検索して認識結果を得る
    バックトラック手段とを備え 前記モデル照合手段は、バックトラック情報の中に、文
    法規則のみでどのノードまで一意に遡り検索できるかを
    示す遡り情報を含めて出力し、前記バックトラック手段
    は、バックトラック情報と、文法規則から得られた遡り
    情報とを併用しながら一意に遡り検索が可能なノードま
    で遡り検索を行い、 前記モデル照合手段は、先行ノードを複数持つノードを
    遡り情報として出力することを特徴とする音声認識装
    置。
  3. 【請求項3】 ノードを相互接続するアークからなる文
    法ネットワークを用いて、文法規則を記憶する文法記憶
    手段と、 入力音声を分析し、分析パラメータを出力する音響分析
    手段と、 分析パラメータの確率を計算し確率を出力する確率演算
    手段と、 前記確率を用いて前記文法規則に指定される認識モデル
    との照合を行ない、バックトラック情報を出力するモデ
    ル照合手段と、 前記バックトラック情報を記憶し、上記文法規則を参照
    してバックトラック情報を遡り検索して認識結果を得る
    バックトラック手段とを備え 前記モデル照合手段は、バックトラック情報の中に、文
    法規則のみでどのノードまで一意に遡り検索できるかを
    示す遡り情報を含めて出力し、前記バックトラック手段
    は、バックトラック情報と、文法規則から得られた遡り
    情報とを併用しながら一意に遡り検索が可能なノードま
    で遡り検索を行い、 前記モデル照合手段は、1つしか先行するノードを持た
    ないノードに対するバックトラック情報を出力しないこ
    とを特徴とする音声認識装置。
  4. 【請求項4】 ノードを相互接続するアークからなる文
    法ネットワークを用いて、文法規則を記憶する文法記憶
    手段と、 入力音声を分析し、分析パラメータを出力する音響分析
    手段と、 分析パラメータの確率を計算し確率を出力する確率演算
    手段と、 前記確率を用いて前記文法規則に指定される認識モデル
    との照合を行ない、バックトラック情報を出力するモデ
    ル照合手段と、 前記バックトラック情報を記憶し、上記文法規則を参照
    してバックトラック情報を遡り検索して認識結果を得る
    バックトラック手段とを備え 前記モデル照合手段は、各ノードに先行するノードを動
    的に記憶する先行ノード記憶テーブルを備え、先行ノー
    ド記憶テーブルに記憶された先行ノードが1つのみの場
    合には、一意に遡り検索できるノードとしてバックトラ
    ック情報を出力 せず、先行ノードが複数存在する場合に
    は、バックトラック情報を出力することを特徴とする音
    声認識装置。
  5. 【請求項5】 前記モデル照合手段は、ビームサーチ方
    式を用いて動的に選択された先行ノードを先行ノード記
    憶テーブルに動的に記憶することを特徴とする請求項
    記載の音声認識装置。
  6. 【請求項6】 前記モデル照合手段は、先行ノード記憶
    テーブルの各ノードに対して最初に記憶された先行ノー
    ドを固定的に記憶することを特徴とする請求項記載の
    音声認識装置。
  7. 【請求項7】 前記モデル照合手段は、少なくとも先行
    ノード記憶テーブルの各ノードに対して過去に記憶した
    先行ノードの数を記憶することを特徴とする請求項
    載の音声認識装置。
JP19522398A 1998-07-10 1998-07-10 音声認識装置 Expired - Lifetime JP3484077B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19522398A JP3484077B2 (ja) 1998-07-10 1998-07-10 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19522398A JP3484077B2 (ja) 1998-07-10 1998-07-10 音声認識装置

Publications (2)

Publication Number Publication Date
JP2000029491A JP2000029491A (ja) 2000-01-28
JP3484077B2 true JP3484077B2 (ja) 2004-01-06

Family

ID=16337522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19522398A Expired - Lifetime JP3484077B2 (ja) 1998-07-10 1998-07-10 音声認識装置

Country Status (1)

Country Link
JP (1) JP3484077B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3763388B2 (ja) 2000-02-07 2006-04-05 日本パーカライジング株式会社 無段変速機用転動体
JP2005114964A (ja) * 2003-10-07 2005-04-28 Xanavi Informatics Corp 音声認識方法および音声認識処理装置

Also Published As

Publication number Publication date
JP2000029491A (ja) 2000-01-28

Similar Documents

Publication Publication Date Title
CN100371926C (zh) 通过响应输入语句而输出应答语句的交互对话装置和方法
EP1178466B1 (en) Recognition system using lexical trees
US5995930A (en) Method and apparatus for recognizing spoken words in a speech signal by organizing the vocabulary in the form of a tree
JPH07219578A (ja) 音声認識方法
Schwartz et al. Multiple-pass search strategies
JP4289715B2 (ja) 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
Nocera et al. Phoneme lattice based A* search algorithm for speech recognition
JPH0728487A (ja) 音声認識方法
US20070038451A1 (en) Voice recognition for large dynamic vocabularies
JP2003208195A5 (ja)
JP3484077B2 (ja) 音声認識装置
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP3039634B2 (ja) 音声認識装置
JP3546633B2 (ja) 音声認識装置
JP3813491B2 (ja) 連続音声認識装置およびそのプログラム
JP3914709B2 (ja) 音声認識方法およびシステム
JP3440840B2 (ja) 音声認識方法及びその装置
JP3042455B2 (ja) 連続音声認識方式
JP3315565B2 (ja) 音声認識装置
JP4104831B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP3999913B2 (ja) 音声認識システム及び方法並びに音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3559479B2 (ja) 連続音声認識方法
JP2867695B2 (ja) 連続音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JPH08241096A (ja) 音声認識方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20031007

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071017

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081017

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091017

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091017

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101017

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111017

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121017

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131017

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term