JP3484077B2

JP3484077B2 - 音声認識装置

Info

Publication number: JP3484077B2
Application number: JP19522398A
Authority: JP
Inventors: 知弘岩▲さき▼
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1998-07-10
Filing date: 1998-07-10
Publication date: 2004-01-06
Anticipated expiration: 2018-07-10
Also published as: JP2000029491A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、所定の文法規則を
用いてモデル照合を行う音声認識装置に関するものであ
る。

【０００２】

【従来の技術】文脈自由文法（ＣＦＧ：Ｃｏｎｔｅｘｔ
ＦｒｅｅＧｒａｍｍｅｒ）や有限状態文法（ＦＳ
Ｇ：ＦｉｎｉｔｅＳｔａｔｅＧｒａｍｍｅｒ）によ
る文法規則を用いて連続単語認識を行う方式の１つとし
て、ビームサーチ方式によるＮ−ｂｅｓｔサーチ法があ
る。ここでは、ＲｉｃｈａｒｄＳｃｈｗａｒｔｚ，Ｓ
ｔｅｖｅＡｕｓｔｉｎ共著“ＡＣｏｍｐａｒｉｓｏ
ｎｏｆＳｅｖｅｒａｌＡｐｐｒｏｘｉｍａｔｅＡ
ｌｇｏｒｉｔｈｍｓ”（ＩＥＥＥＩＣＡＳＳＰ９１，
ページ７０１〜７０４）に示されたものを一例として従
来の技術を説明する。以下、文法規則を有限状態文法で
あるとし、認識方式としてＨＭＭ（ＨｉｄｄｅｎＭａ
ｒｋｏｖＭｏｄｅｌ）を用い、認識単位を単語とし、
ビームサーチを併用する音声認識装置を一例として説明
を行う。

【０００３】従来の音声認識装置の構成を図８に示す。
図８において、音響分析手段３１は、入力音声Ｓ３１を
音響分析し、分析パラメータＳ３２に変換する。確率演
算手段３２は、分析パラメータＳ３２の各モデルに対す
る確率Ｓ３３を計算する。認識モデル記憶手段３５は、
認識モデルの情報を記憶する。文法記憶手段３６は、単
語間の接続を表す有限状態文法を記憶する。モデル照合
手段３７は、認識に先立ち文法情報Ｓ３８に従い、認識
モデルＳ３６を内部のローカルメモリ上に取り込み必要
となる演算領域を確保し、確率Ｓ３３を用いてＶｉｔｅ
ｒｂｉ演算を行い、バックトラック情報Ｓ３９を出力す
る。バックトラック手段３８は、順次入力されるバック
トラック情報Ｓ３９を内部に記憶し、音声の終端におい
てバックトラック処理を行い、認識結果Ｓ４０としてス
コアの大きな規定の個数の単語系列を出力する。

【０００４】このような構成の音声認識装置の動作につ
いて説明する。従来の音声認識装置の説明のため、認識
装置の認識対象は図９に示す住所とする。「鎌倉市上町
屋」は「１丁目」が続き、「鎌倉市大船」「藤沢市江ノ
島」には「１丁目」と「２丁目」が続く。「藤沢市辻
堂」には「１丁目」「２丁目」「３丁目」が続く。有限
状態文法では、状態を示すノードとノード間の遷移を示
すアークにより表現される。前述の住所を表す有限状態
文法である文法情報Ｓ３８の例を図１０に、単語番号と
地名の対応関係を図１１示す。図１０では、ノードを単
語として、許される単語の接続をアーク（図中、矢印で
示す）として示している。図中、Ｗ１〜Ｗ１１という単
語と、その接続情報が矢印で示されている。この対応関
係を図１１に示す。Ｗ１０，Ｗ１１は、無音を表す特別
な単語であるが、挿入可能な位置を明示するため、無音
を文法情報に含んでいる。この情報は、図８において、
文法記憶手段３６に格納されている。文法は、単語Ｗ１
０から始まり、単語Ｗ１１で終了する。

【０００５】図８において、認識モデル記憶手段３５に
は、文法情報Ｓ３８に含まれる全ての認識モデルの情報
が格納されている。図１２に、認識モデル記憶手段３５
の内容を示す。それぞれ単語に対応する認識モデルの内
容が含まれている。単語Ｗ１〜Ｗ１１の内、いずれかの
単語ｗに対する３つの状態からなる認識モデルの構造の
一例を図１３に示す。Ｓ^w１，Ｓ^w２，Ｓ^w３で示して
いるのは状態であり、確率演算手段３２で演算される確
率ｂ^w（ｉ）と対応している。Ｓ^w０は、前の単語との
接続に用いる疑似状態であり、Ｓ^w４は、次の単語の認
識モデルとの接続に用いる疑似状態である。Ｓ^w０に
は、前の単語の最終ステートのスコアがコピーされる。
矢印で示しているのが状態遷移である。状態ｉから状態
ｊへの遷移には、ａ^w（ｉ，ｊ）という遷移確率に基づ
くスコアが付与されている。ａ^w（０，１）には、スコ
ア０が与えられている。前記確率演算手段３２から出力
される確率Ｓ３３であるｂ^w（ｉ）とこの遷移確率によ
り、ＨＭＭの各状態のスコアＤ^w（ｉ）が演算され更新
される。図２１に示すように、モデル照合手段３７の内
部には、スコアテーブル１００とマークテーブル２００
と後述する先行単語テーブル３００が記憶されている。
スコアテーブル１００の構成要素は、図２２に示すよう
な各状態のスコアＤ^w （ｉ）と先頭フレーム番号Ｂ^w
（ｉ）である。先頭フレーム番号とは、その単語ｗが何
フレーム目から始まっているかを示すものである。図２
２に示す例は、図１３に示す単語ｗのスコアテーブルで
あり、各単語Ｗ１〜Ｗ１１についてそれぞれ図２１に示
すようにスコアテーブルが存在している。マークテーブ
ル２００は、図２３に示すように、ビームサーチにより
その単語ｗのＨＭＭ演算を行うか否かを指定するもので
あり、マーク値ｍ（ｗ）が１であればＨＭＭ演算を行う
ものとする。マーク値ｍ（ｗ）が０であればＨＭＭ演算
を行わない。

【０００６】モデル照合手段３７における認識処理の流
れを図１４に示す。一文の音声信号は、Ｆ個のフレーム
に渡って転送されるものとし、この図において、一文の
音声の認識を開始する時に、ステップ７０１の初期化が
行われ、音声区間の１フレーム分の音声データが入力さ
れる度に、ステップ７０２〜ステップ７０５までの処理
がＦ回繰り返され、一文の処理が終了すると、ステップ
７０６においてバックトラック処理の指示が出力され
る。バックトラック手段３８では、バックトラック情報
Ｓ３９をもとに、認識結果を求めるバックトラック処理
が行われる。

【０００７】認識に先立ち文法記憶手段３６、認識モデ
ル記憶手段３５には、前述の内容のデータが納められて
おり、モデル照合手段３７の中には必要なメモリが確保
されているものとする。まず、認識処理が開始される
と、内部テーブルを初期化する(ステップ７０１)。各状
態のスコアＤ^w （ｉ）の内、最初の状態Ｓ^w （０）のス
コアＤ^w （０）は０（良いスコア）に設定され、他の全
てのスコアは小さい値、例えば、−１０００（悪い値）
に設定される。図１０に示す文法情報を用いて認識する
場合には、スコアＤ^W10 （０）が０に設定され、スコア
Ｄ^W10 （０）を除く残りの状態のスコアＤ^W1（ｉ）〜Ｄ
^W11 （ｉ）は、全ては−１０００に設定される。また、
先頭フレーム番号の初期値として、Ｂ^W10 （０）に０が
設定される。また、単語Ｗ１０を除いた単語Ｗ１〜Ｗ
９，Ｗ１１に対してマークテーブルには、マーク値ｍ
（ｗ）は０に設定される。次に、ステップ７０２〜ステ
ップ７０５までの処理が音声信号の各フレームについて
繰り返し行われる。ステップ７０２では、ＨＭＭ演算が
行われ、各状態のスコアと各単語の単語スコアが更新さ
れる。ステップ７０３では、ビームサーチが行われ、ス
コアの低い単語の認識モデルがＨＭＭ演算の範囲から除
去される。ステップ７０４では、単語モデル間のスコア
が伝搬されるとともに、バックトラック情報Ｓ３９が出
力される。

【０００８】次に、ステップ７０２で示したＨＭＭ演算
の流れについて説明する。図１５は、ＨＭＭ演算の流れ
を説明する図である。単語Ｗ１〜Ｗ１１の各単語ｗにつ
いて、ステップ３０２〜ステップ３０５まで処理を繰り
返す。演算量削減のためビームサーチを用いているた
め、マークテーブルのマーク値ｍ（ｗ）が１であれば、
単語ｗのＨＭＭ演算（ステップ３０３）を行い、ｍ
（ｗ）が０であれば、この処理をスキップするものとす
る。ステップ３０６では、単語内での状態のスコアＤ^w
（ｉ）の最大値を示す単語ｗのビームサーチの評価値Ｐ
（ｗ）から定数Ｋ１を減算し、ビームサーチの閾値Ｔ１
を求めている。

【０００９】ステップ３０３の単語ｗのＨＭＭ演算の処
理について詳しく説明する。図１６は、１フレームにお
ける単語ｗに関するＨＭＭ処理の流れを示す図である。
単語ｗの状態数をＩ^w とする。まず、ステップ２０６に
おいて、最終状態への遷移を計算する。続いて、状態ｉ
について、ステップ２０２〜ステップ２０５までの処理
を繰り返す。ステップ２０９において、２つの遷移のス
コアを比較し、ステップ２０７又はステップ２０８の処
理を選択する。図中、Ｐ（ｗ）は、単語ｗのビームサー
チの評価値であり、ステップ２０２〜ステップ２０５ま
での処理を繰り返すことにより、単語内での状態のスコ
アＤ^w （ｉ）の最大値を選択する。

【００１０】次に、ステップ７０３に示したビームサー
チ処理について説明する。図１７は、ビームサーチ処理
の流れを示すものである。ステップ４０２において、単
語ｗの状態の最高スコアが閾値Ｔ１より小さな場合は、
ステップ４０３において、その単語のスコアテーブルの
スコアＤ^w （ｉ）を−１０００に初期化して、マークテ
ーブルのスコア値ｍ（ｗ）を０にリセットする。

【００１１】次に、ステップ７０４に示したスコア転送
処理について説明する。図１８は、スコア転送処理の流
れを示すものである。スコア転送処理では、図１９に示
す先行単語テーブル３００を用いて処理を行う。先行単
語テーブル３００は、図１０に示す文法情報Ｓ３８に基
づき予め作成しておき、図２１に示すように、モデル照
合手段３７の内部に記憶されている。スコア転送処理
は、先行する単語から後の単語へスコアを転送する処理
をいう。もし、先行する単語が複数ある場合は、最も高
いスコアを有している単語が用いられ、その単語の最終
状態のスコアと現在のフレーム番号とが後の単語の先頭
状態に転送される。

【００１２】即ち、ステップ５０２において、先行単語
テーブルを参照して、単語ｗの先行単語群Ｇ（ｗ）の
内、先行単語ｖの最終状態のスコアＤ^v の内、最もスコ
アの高い先行単語ｖ_max を求める（式１）。この単語ｖ
_max の最終状態のスコアを単語ｗの先頭状態のスコアに
コピーする（式２）。更に、（式３）において、現在の
フレーム番号ｆを単語ｗの先頭状態の先頭フレーム番号
Ｂ^w （０）としていれる。

【００１３】

【数１】

【００１４】Ｂ^w （０）＝ｆ（式３）

【００１５】例えば、図２４に示すように、単語Ｗ１１
の先行単語群Ｇ（ｗ）は、Ｗ７，Ｗ８，Ｗ９である。単
語Ｗ７，Ｗ８，Ｗ９の最終状態のスコアＤ^v の内、最も
スコアの高い先行単語をＷ８とすると（ｖ_max ＝Ｗ
８）、単語Ｗ８の最終状態のスコアを単語Ｗ１１の先頭
状態のスコアにコピーする。また、現在のフレーム番号
ｆがＢ^w （０）に設定される。

【００１６】そして、ステップ５０３において、単語ｗ
の先頭状態のスコアが規定の閾値Ｔ１以上であれば、ス
テップ５０４において、以下の（式４），（式５），
（式６）に示すバックトラッキング情報を図２５に示す
バックトラッキングメモリ４００に記憶するとともに、
ステップ５０５において、マークテーブルのマーク値を
１としてＨＭＭ演算対象とする。Ｄ_back（ｆ，ｗ，ｖ）＝Ｄ^w （０）−Ｄ^v （ｉ^v ＋１）（式４）Ｂ_back（ｆ，ｗ，ｖ）＝Ｂ^w （Ｉ^v ＋１）（式５）Ｖ_back（ｆ，ｗ，ｖ）＝ｖ（式６）

【００１７】例えば、各バックトラッキングメモリ４１
０，４２０，４３０には、図２４に示す値が設定され
る。バックトラッキングメモリ４１０には、最も高いス
コアとの差分が記憶される。

【００１８】全フレームのＨＭＭ演算が終了すると、図
８のバックトラック手段３８において、バックトラッキ
ング処理が行われ、認識結果であるスコアの高い上位の
単語列が求まる。バックトラック処理の流れを、図２０
に示す。バックトラック処理には、図２６に示すような
３つのスタック５１０，５２０，５３０からなるスタッ
ク５００を用いる。まず、ステップ６０１において、図
２６に示すように、スタック５００にＷ１１の最終状態
のデータを積む。ステップ６０２において、スタック５
１０の中から最高のスコアのデータを取り出し、（ｆ，
ｗ）の組をスタック５２０と５３０から得る。ｄ＝ｄ１＝Ｄ^W11（Ｉ^W11＋１）（式７）ｆ＝ｆ１＝Ｂ^W11（Ｉ^W11＋１）（式８）ｗ＝Ｗ１１（式９）

【００１９】図２６では、まず、（ｆ１，Ｗ１１）の組
が得られる。次に、バックトラッキングメモリの中から
（ｆ，ｗ）の組合せに一致する全ての先行単語ｖについ
て、（式１０），（式１１），（式１２）に示すよう
に、順次バックトラッキング情報をバックトラッキング
メモリ４００から取り出す。Ｄ_stack ＝ｄ−Ｄ_back（ｆ，ｗ，ｖ）（式１０）Ｂ_stack ＝Ｂ_back（ｆ，ｗ，ｖ）（式１１）Ｖ_stack ＝Ｖ_back（ｆ，ｗ，ｖ）（式１２）

【００２０】ステップ６０４において、文法情報におけ
る最初の単語であるＷ１０までバックトラックしたな
ら、ステップ６０７で記憶しておいた単語列の履歴を結
果として出力する。そうでなければ、ステップ６０３に
おいて、（式１０），（式１１，（式１２）により新た
に作成したデータを、ステップ６０５において、新たに
スタックに積む。例えば、（ｆ１，Ｗ１１）の組合せに
一致する全ての先行単語ｖは、Ｗ７，Ｗ８，Ｗ９であ
り、Ｗ７，Ｗ８，Ｗ９についてのバックトラッキング情
報をバックトラッキングメモリ４００から取り出し、図
２７に示すように、スタック５００に記憶する。次に、
再びステップ６０２において、スタック５１０の中から
最高のスコアのデータを取り出し、（ｆ，ｗ）の組をス
タック５２０と５３０から得る。もし、ｄ１−Ｄ
_back（ｆ１，ｗ１１，ｗ８）が、この中で最高のスコア
なら、Ｂ_back（ｆ１，ｗ１１，ｗ８）とｗ８の組を得
る。そして、この組に対してステップ６０３〜ステップ
６０６を実行する。その結果、得られたＷ４，Ｗ５，Ｗ
６についてのバックトラッキング情報を図２８に示す。
そして、ステップ６０３〜ステップ６０６において、バ
ックトラック処理を繰り返す。バックトラッキングして
いく過程で得られた単語列の履歴は、それぞれのデータ
の中に記憶しておく。ステップ６０７で記憶しておいた
単語列の履歴を結果として出力することにより、上位１
位の単語列が得られる。上位１位のデータを除いた残り
のデータに対して、２回目のバックトラック処理を行
い、上位２位の単語列が得られる。上記の処理をｎが１
０になるまで繰り返すことにより、上位１０位までの単
語列を得ることができる。

【００２１】

【発明が解決しようとする課題】従来の音声認識装置
は、以上のように構成されているので、バックトラック
情報Ｓ３９を記憶するためのバックトラック手段３８の
メモリ用に非常に大きな容量が必要であった。この発明
は、上記のような問題点を解消するためになされたもの
で、より少ないメモリで大語彙の認識を行なえる音声認
識装置を提供するものである。

【００２２】

【課題を解決するための手段】この発明に係る音声認識
装置は、ノードを相互接続するアークからなる文法ネッ
トワークを用いて、文法規則を記憶する文法記憶手段
と、入力音声を分析し、分析パラメータを出力する音響
分析手段と、分析パラメータの確率を計算し確率を出力
する確率演算手段と、前記確率を用いて前記文法規則に
指定される認識モデルとの照合を行ない、バックトラッ
ク情報を出力するモデル照合手段と、前記バックトラッ
ク情報を記憶し、上記文法規則を参照してバックトラッ
ク情報を遡り検索して認識結果を得るバックトラック手
段とを備えることを特徴とする。

【００２３】前記モデル照合手段は、バックトラック情
報の中に、文法規則のみでどのノードまで一意に遡り検
索できるかを示す遡り情報を含めて出力し、前記バック
トラック手段は、バックトラック情報と、文法規則から
得られた遡り情報とを併用しながら一意に遡り検索が可
能なノードまで遡り検索を行うことを特徴とする。

【００２４】前記モデル照合手段は、一意に遡り検索が
可能なノードのバックトラック情報を出力しないことを
特徴とする。

【００２５】前記モデル照合手段は、先行ノードを複数
持つノードを遡り情報として出力することを特徴とす
る。

【００２６】前記モデル照合手段は、１つしか先行する
ノードを持たないノードに対するバックトラック情報を
出力しないことを特徴とする。

【００２７】前記モデル照合手段は、各ノードに先行す
るノードを動的に記憶する先行ノード記憶テーブルを備
え、先行ノード記憶テーブルに記憶された先行ノードが
１つのみの場合には、一意に遡り検索できるノードとし
てバックトラック情報を出力せず、先行ノードが複数存
在する場合には、バックトラック情報を出力することを
特徴とする。

【００２８】前記モデル照合手段は、ビームサーチ方式
を用いて動的に選択された先行ノードを先行ノード記憶
テーブルに動的に記憶することを特徴とする。

【００２９】前記モデル照合手段は、先行ノード記憶テ
ーブルの各ノードに対して最初に記憶された先行ノード
を固定的に記憶することを特徴とする。

【００３０】前記モデル照合手段は、少なくとも先行ノ
ード記憶テーブルの各ノードに対して過去に記憶した先
行ノードの数を記憶することを特徴とする。

【００３１】

【発明の実施の形態】実施の形態１．以下、図面を参照
しながら、この発明の実施の形態を説明する。ここで
は、従来の音声認識装置の説明と同様に文法規則を有限
状態文法とし、認識方式としてＨＭＭ（Ｈｉｄｄｅｎ
ＭａｒｋｏｖＭｏｄｅｌ）を用い、認識単位を単語と
する音声認識装置を一例として説明を行う。図１に、こ
の発明による実施の形態１の音声認識装置を示す。図１
において、音響分析手段１１は、入力音声を音響分析
し、分析パラメータＳ１２に変換する。確率演算手段１
２は、分析パラメータＳ１２の各モデルに対する確率を
計算し、確率Ｓ１３を出力する。モデル照合手段１４
は、認識モデルを用いて前記確率Ｓ１３を用いて活性化
されている認識モデル記憶手段１５に記憶された認識モ
デルＳ１４との照合を行い、単語のスコアを含むバック
トラック情報Ｓ１７を出力する。バックトラック手段１
６は、前記バックトラック情報Ｓ１７を記憶し、単語を
遡って認識結果Ｓ１８を得る。

【００３２】本実施の形態における音声認識装置の構成
は、従来のものとほぼ同様であり、また、図１４，図１
５，図１７に示す動作フローも同じである。しかし、バ
ックトラック処理に関わる機能が異なり、本実施の形態
の特徴を形成している。スコアテーブル１００の構成要
素が図２９に示すように１つ増加し、先頭単語番号Ｒ^w
（ｉ）を記憶する構成となっている。先頭単語番号と
は、どの単語まで遡れば先行単語を複数持つ単語か又は
どの単語まで遡れば文法情報の先頭単語かを指定してい
る情報である。つまり、先頭単語番号に至るまでは、一
意に遡っても良いことを意味している。図１０の文法情
報では、Ｗ１０，Ｗ７，Ｗ８，Ｗ１１の単語が先頭単語
番号の対象となる単語である。

【００３３】図３０は、各単語の先頭単語番号を示す図
である。単語Ｗ１〜Ｗ６，Ｗ９の先頭単語番号は、Ｗ１
０である。単語Ｗ７の先頭単語は、Ｗ７である。単語Ｗ
８の先頭単語は、Ｗ８である。単語Ｗ１１の先頭単語
は、Ｗ１１である。また、先頭単語番号Ｒ^w （ｉ）をバ
ックトラック情報として記憶するために、図３１に示す
ように、バックトラッキングメモリ４００に先頭単語用
バックトラッキングメモリ４４０が追加されている。ま
た、この実施の形態でも図１９に示した先行単語テーブ
ル３００を用いる。また、先行単語テーブル３００の値
は、予め固定値として記憶されているものとする。

【００３４】まず、ＨＭＭ演算について説明する。図２
は、実施の形態１における単語ｗに対するＨＭＭ演算の
流れを示す図である。従来例のＨＭＭ演算とは、ステッ
プ９０６とステップ９０７に先頭単語番号Ｒ^w （ｉ）の
処理が書かれてある所が異なっている。先頭単語番号Ｒ
^w （ｉ）は、先頭フレーム番号Ｂ^w （ｉ）と同様に、よ
り高いスコアに付随して伝搬されていく。

【００３５】次に、スコア転送について説明する。図３
は、実施の形態１におけるスコア転送の処理の流れを示
す図である。ステップ８０２において、従来例と同様に
（式１），（式２）の処理が行われた後、以下の（式１
３），（式１４）の要素が単語間を転送される。

【００３６】

【数２】

【００３７】例えば、図３２に示すように、単語Ｗ１１
の先行単語群Ｇ（ｗ）が単語Ｗ７，Ｗ８，Ｗ９であり、
最終状態のスコアＤ^V の内、（式１）による最もスコア
の高い単語ｖ_max をＷ８とすると、Ｗ８の最終状態のス
コアを単語Ｗ１１の先頭状態のスコアにコピーする（式
２）。同様に、Ｗ８の先頭フレーム番号を単語Ｗ１１の
先頭状態の先頭フレーム番号にコピーする（式１３）。
同様に、Ｗ８の先頭単語番号を単語Ｗ１１の先頭状態の
先頭単語番号にコピーする（式１４）。一方、もし、図
３２において、単語Ｗ７，Ｗ８，Ｗ９の最終状態のスコ
アＤ^V の内、（式１）による最もスコアの高い単語ｖ
_max をＷ７とすると、Ｗ７の最終状態のスコアを単語Ｗ
１１の先頭状態のスコアにコピーする（式２）。同様
に、Ｗ７の先頭フレーム番号を単語Ｗ１１の先頭状態の
先頭フレーム番号にコピーする（式１３）。同様に、Ｗ
７の先頭単語番号を単語Ｗ１１の先頭状態の先頭単語番
号にコピーする（式１４）。更に、もし、図３２におい
て、単語Ｗ７，Ｗ８，Ｗ９の最終状態のスコアＤ^V の
内、（式１）による最もスコアの高い単語ｖ_max をＷ９
とすると、Ｗ９の最終状態のスコアを単語Ｗ１１の先頭
状態のスコアにコピーする（式２）。同様に、Ｗ９の先
頭フレーム番号を単語Ｗ１１の先頭状態の先頭フレーム
番号にコピーする（式１３）。同様に、Ｗ９の先頭単語
番号を単語Ｗ１１の先頭状態の先頭単語番号にコピーす
る（式１４）。続いて、ステップ８０８において、先行
単語が複数ある場合のみステップ８０４の処理を行う。
単語Ｗ８は先行単語が複数あるので、ステップ８０４の
処理を行う。ステップ８０４においては、以下の（式１
５），（式１６）に示す通り、先頭単語番号ｗと先頭フ
レーム番号ｆがセットされ、バックトラック情報が出力
される。Ｂ^w （０）＝ｆ（式１５）Ｒ^w （０）＝ｗ（式１６）

【００３８】図３３は、単語Ｗ８についてバックトラッ
ク情報が出力された場合を示している。また、単語Ｗ７
の場合も先行単語が複数あるので、バックトラック情報
が出力される。しかし、先行単語がただ１つしかない単
語Ｗ１〜Ｗ６，Ｗ９の場合には、バックトラック情報は
バックトラッキングメモリ４００には出力されない。バ
ックトラック情報として従来例と同様に（式４），（式
５），（式６）による情報に加え、以下の先頭単語番号
の要素が出力される。Ｒ_back（ｆ，ｗ，ｖ）＝Ｒ^v （Ｉ^v ＋１）（式１７）

【００３９】バックトラック処理の全体の流れは、図２
０に示した従来例と変わらないが、単語間の情報が全て
バックトラック情報として記憶されているわけではない
ため、常にバックトラック情報を用いて遡るのではな
く、単語が先頭単語情報と一致するまでは先行単語情報
を用いて遡る。そのため、従来例で用いた図２０のステ
ップ６０３の処理の代わりに、図４に示す遡り処理（ス
テップ１２０）とバックトラック処理（ステップ１２
４）が挿入される。

【００４０】この実施の形態のバックトラック処理を具
体的に説明する。図４に示すステップ６０１において、
図３４に示すように、先頭単語用のスタック５４０を含
むスタック５００に対して初期値を設定する。即ち、単
語Ｗ１１の最終状態のデータをスタック５００に積む。
図３０に示すように、単語Ｗ１１の先頭単語番号はＷ１
１であるから、スタック５４０には単語Ｗ１１の先頭単
語番号として、Ｒ^W11（Ｉ^W11＋１）の内容であるＷ１
１が設定される。その他のスタック５１０，５２０，５
３０は、従来例に示した図２６の設定と同じである。次
に、ステップ６０２において、スタック５１０の中から
最高のスコアのデータを取り出し、（ｆ，ｗ）の組をス
タック５２０，５３０から得る。次に、ステップ１２１
でスタック５３０から先行単語を変数ｗに代入する。図
３４に示す場合は、単語Ｗ１１が変数ｗに取り出され
る。次に、ステップ１２２において、変数ｗへ取り出し
た単語Ｗ１１とスタック５４０の先頭単語の値が比較さ
れる。スタック５４０には、単語Ｗ１１が記憶されてい
るため、ステップ１２２の比較の結果、単語Ｗ１１はバ
ックトラック処理を行う単語であると判断され、ステッ
プ１２４に進む。ステップ１２４で、単語Ｗ１１に対す
るバックトラック処理を行う。即ち、（ｆ，ｗ）の組合
せに一致する全ての先行単語ｖについて、（式１０），
（式１１），（式１２）及び以下の（式１８）によりバ
ックトラッキング情報をバックトラッキングメモリ４０
０から取り出す。ここでは、単語Ｗ１１の先行単語Ｗ
７，Ｗ８，Ｗ９についてバックトラッキングメモリ４０
０からバックトラッキング情報が取り出される。Ｒ_stack ＝Ｒ_back（ｆ，ｗ，ｖ）（式１８）ステップ６０４においてはまだ単語Ｗ１０に到達してい
ないので、ステップ６０５に進む。ステップ６０５にお
いては、（式１０），（式１１），（式１２）及び（式
１８）により求められた値をスタック５００に設定す
る。

【００４１】この状態で、図３５に示す値がスタックに
設定される。スタック５１０，５２０，５３０に設定さ
れる値は、図２７に示した従来の値と同じものである。
スタック５４０には、単語Ｗ７，Ｗ８，Ｗ９に対してそ
れぞれ単語Ｗ７，Ｗ８，Ｗ１０が先頭単語として設定さ
れる。ステップ６０６においては、（ｆ，ｗ）の組合せ
に一致する他の先行単語ｖについて、バックトラック処
理が行われたかどうかがチェックされる。図３４では、
単語Ｗ１１の１組しかないので、ステップ６０２へ戻
る。

【００４２】図３５に示すような値がスタック５００に
設定された状態で、再び図４に示すステップ６０２が実
行される。図３５において、最高のスコアを示すデータ
が単語Ｗ８ではなく単語Ｗ９とすると、単語Ｗ９を取り
出す。次に、ステップ１２１で単語Ｗ９を変数ｗへ取り
出し、ステップ１２２において、変数ｗへ取り出した単
語Ｗ９とスタック５４０の先頭単語Ｗ１０を比較する。
一致しないので、ステップ１２３において、単語Ｗ９の
先行単語群の先頭にある単語を取り出す。この時点で単
語Ｗ９用のバックトラック処理がスキップされたことに
なる。図１９に示すように、単語Ｗ９の先行単語は単語
Ｗ６であるので、先行単語Ｗ６が先行単語テーブル３０
０から変数ｗに取り出される。再び、ステップ１２２で
変数ｗに取り出した先行単語Ｗ６とスタック５４０の先
頭単語Ｗ１０が比較される。一致しないので、再びステ
ップ１２３において、単語Ｗ６の先行単語群の中から、
先頭の先行単語が変数ｗに取り出される。この時点で単
語Ｗ６用のバックトラック処理がスキップされたことに
なる。図１９に示すように、単語Ｗ６の先行単語は１つ
しかなく、その先頭は単語Ｗ２である。この単語Ｗ２が
変数ｗに取り出される。ステップ１２２において、変数
ｗへ取り出した単語Ｗ２とスタック５４０の先頭単語Ｗ
１０が比較される。一致しないので、ステップ１２３で
単語Ｗ２の先行単語群の先頭の単語Ｗ１０を変数ｗに取
り出す。この時点で単語Ｗ２用のバックトラック処理が
スキップされたことになる。ステップ１２２において、
変数ｗに取り出したＷ１０とスタック５４０の先頭単語
Ｗ１０が一致するので、ステップ１２４によりバックト
ラック処理を行う。次に、ステップ６０４においては、
バックトラック処理を行った単語がＷ１０であるため、
ステップ６０７に進み、上位１位の単語列を出力する。
次に、ステップ６０８により、以上述べた処理を１０回
繰り返すことにより、上位１０位までの単語列を得るこ
とができる。

【００４３】以上のように、先頭単語をバックトラック
情報としてバックトラッキングメモリに記憶させること
により、全ての単語に対してバックトラック処理を行う
のではなく、先頭単語に至った場合にバックトラック処
理を行うようにしたので、バックトラック情報を記憶す
るバックトラッキングメモリの容量を削減するととも
に、バックトラック処理の高速化を図ることができる。

【００４４】以上、認識単位を単語として説明してきた
が、これは音節や音素や半音節や音素片などでもよく、
同様に効果を奏する。また、音声認識方式をＨＭＭとし
て説明してきたが、ＤＰ（ダイナミックプログラミン
グ）マッチングやニューラルネットによる認識方式を用
いても良く、同様に効果を奏する。また、文法規則を有
限状態文法として説明をしてきたが、部分文法の中の単
語の代わりに、別の部分文法を指定するようにすれば、
文脈自由文法も表せるようになり、同様に効果を奏す
る。

【００４５】実施の形態２．実施の形態１では、図１０
において、先行単語が１つしかない単語においてバック
トラック情報を出力することを抑止したが、本実施の形
態では、更に有効なアークが１つしかない場合もビーム
サーチによりバックトラック情報を出力することを抑止
する場合を説明する。例えば、図５は、認識処理に進ん
でいるある時点でのビーム内に残っている単語とアーク
の一例を示した図である。図中、白抜きの単語と、実線
のアークがビーム内に残っており、有効であることを示
している。実施の形態１では、Ｗ１１の単語は構文情報
上、複数の単語につながっているため、バックトラック
情報を出力する必要があったが、図５の例においては、
Ｗ１１は有効なアークは１つしかなかため、バックトラ
ック情報を出力しなくとも遡ることができるはずであ
る。

【００４６】ここで有効なアークとは、先行単語ｖの最
終状態のスコアが閾値Ｔ１より大きいという（式１９）
の条件を満たすものとし、一旦有効となり、先行単語テ
ーブルに登録された後は、認識が終了するまで先行単語
テーブルから消去されることはないものとする。Ｄ^v （Ｉ^v ＋１）＞Ｔ１（式１９）

【００４７】そこで、実施の形態１においては、認識処
理中は固定としていた先行単語テーブルを認識処理中に
動的に書き換えられる構成とし、認識途中でビームサー
チにより有効となったアークより活性化された先行単語
をこの先行単語テーブルに動的に登録することにより、
有効な先行するアークを複数持たない単語のバックトラ
ック情報を出力することを抑止する。例えば、図６は、
先行単語テーブルの初期状態であり、この段階では有効
な先行単語は１つも存在しない。図７は、図５の段階の
先行単語テーブルの様子を示し、単語Ｗ７のみ先行単語
の数Ｎ（ｗ）が１より大きな値となるため、図２のステ
ップ８０８の条件に合致するため、Ｗ７のみバックトラ
ック情報を出力することとなる。

【００４８】この実施の形態においては、ビームサーチ
を用いるため、アークの有効、或いは、無効は動的に変
化する。従って、先行単語テーブルに登録される有効な
先行単語がある期間のみ複数存在する場合もあるし、あ
る期間のみ１つだけ存在する場合もあるし、ある期間の
み１つも存在しない場合がある。或いは、一度有効とな
ったアークが、その後無効となってしまう場合もある。
そこで、先行単語テーブルは、少なくとも最初に活性化
された先行単語を記憶するものとし、その最初に活性化
された先行単語が無効となる場合でも、先行単語テーブ
ルに記憶させたままにしておく。このように、一度活性
化された先行単語を記憶し続けることにより、バックト
ラック処理が行えなくなるという不具合を防止すること
ができる。このように、最初に活性化された先行単語を
記憶し続ける場合には、先行単語テーブルにおいて、先
行単語が１つも登録されていない単語は、処理の間中一
度も活性化されなかった単語であることを示している。
このように、一度も活性化されなかった単語に対して
は、バックトラック処理が発生することはない。また、
先行単語テーブルには、各単語毎に過去に活性化した先
行単語の数を記憶しておいてもよい。過去に活性化した
先行単語の数が０の場合には、過去に活性化した先行単
語がないことを即座に知ることができる。また、過去に
活性化した先行単語の数が１の場合には、一意に遡り検
索ができるノードであると判断することができる。ま
た、過去に活性化した先行単語の数が２以上の場合に
は、一意に遡り検索できる単語であるかどうかを実際に
チェックする。即ち、その時点において、活性化されて
いる単語が複数存在するか否かをチェックし、複数存在
する場合にはバックトラック情報を出力し、１つのみの
場合にはバックトラック情報を出力しない。

【００４９】以上のように、この実施の形態は、アーク
とノードからなる文法規則を用いる音声認識装置におい
て、過去に活性化した単語の数と最初に活性化された先
行単語を記憶する先行単語テーブルを備え、活性化され
ている単語が１つのみの場合には、バックトラック情報
を出力せず、バックトラック情報のない単語に対して
は、最初に活性化した先行アークの方へ文法規則を用い
て遡り検索するバックトラック手段を備えるものであ
る。

【００５０】

【発明の効果】この発明によれば、１つしか先行ノード
を持たないノードは、バックトラック情報を出力しない
ため、必要とするメモリ量の小さな音声認識装置が得ら
れるという効果がある。

【００５１】また、この発明によれば、有効な先行ノー
ドを複数持たないノードは、バックトラック情報を出力
しないため、必要とするメモリ量の小さな音声認識装置
が得られるという効果がある。

【００５２】また、この発明によれば、一意に遡り検索
するので、バックトラック処理を高速に行える音声認識
装置が得られるという効果がある。

【００５３】また、この発明によれば、先行ノード記憶
テーブルを動的に書き換えるので、バックトラック情報
の出力を動的に変更することができる。

【００５４】また、この発明によれば、ビームサーチ方
式により先行ノード記憶テーブルに記憶する先行ノード
の数を絞ることができるので、更にメモリ量を小さくす
ることができる。

【図面の簡単な説明】

【図１】実施の形態１に基づく音声認識装置の構成を
示す図である。

【図２】実施の形態１におけるＨＭＭ演算の流れを示
す図である。

【図３】実施の形態１におけるスコア転送処理の流れ
を示す図である。

【図４】実施の形態１におけるバックトラック処理の
流れを説明する図である。

【図５】ビーム内に残っている単語とアークを説明す
る図である。

【図６】有効先行単語テーブルの初期値を説明する図
である。

【図７】有効先行単語テーブルの途中の様子を説明す
る図である。

【図８】従来の音声認識装置の構成を示す図である。

【図９】従来例の説明に用いる住所を示す図である。

【図１０】文法情報の一例を示す図である。

【図１１】単語番号と地名の対応関係を示す図であ
る。

【図１２】認識モデル記憶手段の内容の一例を示す図
である。

【図１３】音節ＨＭＭの一例を示す図である。

【図１４】認識処理の流れを示す図である。

【図１５】ＨＭＭ演算の処理の流れを説明する図であ
る。

【図１６】１単語内のＨＭＭ演算の処理の流れを説明
する図である。

【図１７】ビームサーチ処理を説明する図である。

【図１８】スコア転送処理の流れを説明する図であ
る。

【図１９】先行単語テーブルの一例を示す図である。

【図２０】バックトラック処理の流れを説明する図で
ある。

【図２１】モデル照合手段のテーブルを示す図であ
る。

【図２２】スコアテーブルを示す図である。

【図２３】マークテーブルを示す図である。

【図２４】モデル照合手段の動作を示す図である。

【図２５】バックトラッキングメモリを示す図であ
る。

【図２６】スタックを示す図である。

【図２７】スタックを示す図である。

【図２８】スタックを示す図である。

【図２９】実施の形態１のスコアテーブルを示す図で
ある。

【図３０】各単語の先頭単語を示す図である。

【図３１】実施の形態１のバックトラッキングメモリ
を示す図である。

【図３２】実施の形態１におけるモデル照合手段の動
作を説明する図である。

【図３３】実施の形態１におけるモデル照合手段の動
作を説明する図である。

【図３４】実施の形態１におけるスタックを示す図で
ある。

【図３５】実施の形態１におけるスタックを示す図で
ある。

【符号の説明】

１１音響分析手段、１２確率演算手段、１４モデ
ル照合手段、１５認識モデル記憶手段、１６バック
トラック手段、１７文法記憶手段、３１音響分析手
段、３２確率演算手段、３５認識モデル記憶手段、
３６文法記憶手段、３７モデル照合手段、３８バ
ックトラック手段、Ｓ１１入力音声、Ｓ１２分析パ
ラメータ、Ｓ１３確率、Ｓ１４認識モデル、Ｓ１７
バックトラック情報、Ｓ１８認識結果、Ｓ１９部
分文法、Ｓ３１入力音声、Ｓ３２分析パラメータ、
Ｓ３３確率、Ｓ３６認識モデル、Ｓ３８文法情
報、Ｓ３９バックトラック情報、Ｓ４０認識結果、
ａ^w （ｉ，ｊ）状態ｉから状態ｊへの遷移確率、ｂ^w
（ｉ）確率（Ｓ３３）、Ｂ^w （ｉ）先頭フレーム番
号、Ｄ^w （ｉ）状態ｉのスコア、ｇ（ｗ，１）先頭
の先行単語、Ｇ（ｗ）単語ｗの先行単語群、ｍ（ｗ）
マークテーブル、ｉ状態、Ｉ^v 単語ｖの状態数、Ｉ
^w 単語ｗの状態数、Ｐ（ｗ）単語ｗのビームサーチ
の評価値、Ｓ^w ０，Ｓ^w ４疑似状態、Ｓ^w １，Ｓ^w
２，Ｓ^w ３状態、Ｔ１閾値、ｖ先行単語、Ｗ１〜
Ｗ１１単語、ｗＷ１〜Ｗ１１のいずれかの単語番
号。

Claims

(57)【特許請求の範囲】

【請求項１】ノードを相互接続するアークからなる文
法ネットワークを用いて、文法規則を記憶する文法記憶
手段と、入力音声を分析し、分析パラメータを出力する音響分析
手段と、分析パラメータの確率を計算し確率を出力する確率演算
手段と、前記確率を用いて前記文法規則に指定される認識モデル
との照合を行ない、バックトラック情報を出力するモデ
ル照合手段と、前記バックトラック情報を記憶し、上記文法規則を参照
してバックトラック情報を遡り検索して認識結果を得る
バックトラック手段とを備え、前記モデル照合手段は、バックトラック情報の中に、文
法規則のみでどのノードまで一意に遡り検索できるかを
示す遡り情報を含めて出力し、前記バックトラック手段
は、バックトラック情報と、文法規則から得られた遡り
情報とを併用しながら一意に遡り検索が可能なノードま
で遡り検索を行い、前記モデル照合手段は、一意に遡り検索が可能なノード
のバックトラック情報を出力しないことを特徴とする音
声認識装置。
【請求項２】ノードを相互接続するアークからなる文
法ネットワークを用いて、文法規則を記憶する文法記憶
手段と、入力音声を分析し、分析パラメータを出力する音響分析
手段と、分析パラメータの確率を計算し確率を出力する確率演算
手段と、前記確率を用いて前記文法規則に指定される認識モデル
との照合を行ない、バックトラック情報を出力するモデ
ル照合手段と、前記バックトラック情報を記憶し、上記文法規則を参照
してバックトラック情報を遡り検索して認識結果を得る
バックトラック手段とを備え、前記モデル照合手段は、バックトラック情報の中に、文
法規則のみでどのノードまで一意に遡り検索できるかを
示す遡り情報を含めて出力し、前記バックトラック手段
は、バックトラック情報と、文法規則から得られた遡り
情報とを併用しながら一意に遡り検索が可能なノードま
で遡り検索を行い、前記モデル照合手段は、先行ノードを複数持つノードを
遡り情報として出力することを特徴とする音声認識装
置。
【請求項３】ノードを相互接続するアークからなる文
法ネットワークを用いて、文法規則を記憶する文法記憶
手段と、入力音声を分析し、分析パラメータを出力する音響分析
手段と、分析パラメータの確率を計算し確率を出力する確率演算
手段と、前記確率を用いて前記文法規則に指定される認識モデル
との照合を行ない、バックトラック情報を出力するモデ
ル照合手段と、前記バックトラック情報を記憶し、上記文法規則を参照
してバックトラック情報を遡り検索して認識結果を得る
バックトラック手段とを備え、前記モデル照合手段は、バックトラック情報の中に、文
法規則のみでどのノードまで一意に遡り検索できるかを
示す遡り情報を含めて出力し、前記バックトラック手段
は、バックトラック情報と、文法規則から得られた遡り
情報とを併用しながら一意に遡り検索が可能なノードま
で遡り検索を行い、前記モデル照合手段は、１つしか先行するノードを持た
ないノードに対するバックトラック情報を出力しないこ
とを特徴とする音声認識装置。
【請求項４】ノードを相互接続するアークからなる文
法ネットワークを用いて、文法規則を記憶する文法記憶
手段と、入力音声を分析し、分析パラメータを出力する音響分析
手段と、分析パラメータの確率を計算し確率を出力する確率演算
手段と、前記確率を用いて前記文法規則に指定される認識モデル
との照合を行ない、バックトラック情報を出力するモデ
ル照合手段と、前記バックトラック情報を記憶し、上記文法規則を参照
してバックトラック情報を遡り検索して認識結果を得る
バックトラック手段とを備え、前記モデル照合手段は、各ノードに先行するノードを動
的に記憶する先行ノード記憶テーブルを備え、先行ノー
ド記憶テーブルに記憶された先行ノードが１つのみの場
合には、一意に遡り検索できるノードとしてバックトラ
ック情報を出力せず、先行ノードが複数存在する場合に
は、バックトラック情報を出力することを特徴とする音
声認識装置。
【請求項５】前記モデル照合手段は、ビームサーチ方
式を用いて動的に選択された先行ノードを先行ノード記
憶テーブルに動的に記憶することを特徴とする請求項４
記載の音声認識装置。
【請求項６】前記モデル照合手段は、先行ノード記憶
テーブルの各ノードに対して最初に記憶された先行ノー
ドを固定的に記憶することを特徴とする請求項４記載の
音声認識装置。
【請求項７】前記モデル照合手段は、少なくとも先行
ノード記憶テーブルの各ノードに対して過去に記憶した
先行ノードの数を記憶することを特徴とする請求項４記
載の音声認識装置。