JP2938865B1

JP2938865B1 - 音声認識装置

Info

Publication number: JP2938865B1
Application number: JP10241416A
Authority: JP
Inventors: マイク・シュスター; 篤中村
Original assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Current assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date: 1998-08-27
Filing date: 1998-08-27
Publication date: 1999-08-25
Anticipated expiration: 2018-08-27
Also published as: JP2000075885A

Abstract

【要約】【課題】従来例に比較して高精度で近似した言語尤度
を用いてより高い認識率でかつ高速で音声認識すること
ができる音声認識装置を提供する。【解決手段】単語辞書初期化処理部１０は、メモリ学
習用テキストデータに基づいて木構造単語辞書を生成し
て、木構造の各ノードに対して近似言語尤度である先読
み確率を計算して付与する。単語照合部６は、音素照合
部４から入力される単語仮説毎に、メモリ２２内の木構
造単語辞書における単語の非終端状態に与える近似言語
尤度である先読み確率を、メモリ２３内の統計的言語モ
デルのＮ−ｇｒａｍの確率データに基づいて計算するこ
とによりメモリ２２内の木構造単語辞書を更新して、更
新された木構造単語辞書を用いて、入力される音声信号
を音声認識する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、木構造単語辞書を
用いて音声認識を行う音声認識装置に関する。

【０００２】

【従来の技術】近年、連続音声認識装置において、その
性能を高めるために統計的言語モデルを用いる方法が研
究されている。これは、統計的言語モデルを用いて、次
単語を予測し探索空間を削減することにより、認識率の
向上および計算時間の削減の効果を狙ったものである。
最近盛んに用いられている統計的言語モデルとしてＮ−
ｇｒａｍ（Ｎ−ｇｒａｍ；ここで、Ｎは２以上の自然数
である。）がある。これは、大規模なテキストデータを
学習し、直前のＮ−１個の単語から次の単語への遷移確
率を統計的に与えるものである。複数Ｌ個の単語列ｗ₁ ^L
＝ｗ₁，ｗ₂，…，ｗ_Lの生成確率Ｐ（ｗ₁ ^L）は次式で表
される。

【０００３】

【数１】

【０００４】ここで、ｗ_tは単語列ｗ₁ ^Lのうちｔ番目の
１つの単語を表し、ｗ_i ^jはｉ番目からｊ番目の単語列を
表わす。上記数１において、確率Ｐ（ｗ_t｜
ｗ_t+1-N ^t-1）は、Ｎ個の単語からなる単語列ｗ_t+1-N ^t-1
が発声された後に単語ｗ_tが発声される確率であり、以
下同様に、確率Ｐ（Ａ｜Ｂ）は単語又は単語列Ｂが発声
された後に単語Ａが発声される確率を意味する。また、
数１における「Π」はｔ＝１からＬまでの確率Ｐ（ｗ_t
｜ｗ_t+1-N ^t-1）の積を意味し、以下同様である。

【０００５】ところで、近年、上記統計的言語モデルＮ
−ｇｒａｍを用いて連続音声認識の性能を向上させる手
法が盛んに提案されている（例えば、従来技術文献１
「Ｌ．Ｒ．Ｂａｈｌｅｔａｌ．，“ＡＭａｘｉｍ
ｕｍＬｉｋｅｌｉｈｏｏｄＡｐｐｒｏａｃｈｔｏ
ＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉ
ｔｉｏｎ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏ
ｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃ
ｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｐｐ．１７９−
１９０，１９８３年」及び従来技術文献２「清水ほか，
“単語グラフを用いた自由発話音声認識”，電子情報通
信学会技術報告，ＳＰ９５−８８，ｐｐ．４９−５４，
平成７年」参照。）。

【０００６】しかしながら、Ｎ−ｇｒａｍはパラメータ
数が多く、それぞれの値を正確に求めるためには、莫大
な量のテキストデータが必要とされる。この問題を解決
する方法として、学習用テキストデータに出現しない単
語遷移に対しても遷移確率を与える平滑化の手法（例え
ば、従来技術文献３「Ｆ．Ｊｅｌｉｎｅｋｅｔａ
ｌ．，“Ｉｎｔｅｒｐｏｌａｔｅｄｅｓｔｉｍａｔｉ
ｏｎｏｆＭａｒｋｏｖＳｏｕｒｃｅＰａｒａｍ
ｅｔｅｒｓｆｒｏｍＳｐａｒｓｅＤａｔａ”，Ｐ
ｒｏｃｅｅｄｉｎｇｓｏｆＷｏｒｋｓｈｏｐＰａ
ｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎｉｎＰｒａｃ
ｔｉｃｅ，ｐｐ．３８１−３８７，１９８０年」、従来
技術文献４「Ｓ．Ｍ．Ｋａｔｚｅｔａｌ．，“Ｅｓ
ｔｉｍａｔｉｏｎｏｆＰｒｏｂａｂｉｌｉｔｉｅｓ
ｆｒｏｍＳｐａｒｓｅＤａｔａｆｏｒｔｈｅ
ＬａｎｇｕａｇｅｍｏｄｅｌＣｏｍｐｏｎｅｎｔ
ｏｆａＳｐｅｅｃｈＲｅｃｏｇｎｉｚｅｒ”，
ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕ
ｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒ
ｏｃｅｓｓｉｎｇ，ｐｐ．４００−４０１，１９８７
年」及び従来技術文献５「川端ほか，“二項事後分布に
基づくＮ−ｇｒａｍ統計的言語モデルのＢａｃｋ−ｏｆ
ｆ平滑化”，電子情報通信学会技術報告、ＳＰ９５−９
３，ｐｐ１−６，平成７年」参照。）や、クラス分類、
可変長Ｎ−ｇｒａｍ等パラメータの数を減少させる手法
（例えば、従来技術文献６「Ｐ．Ｆ．Ｂｒｏｗｎｅｔ
ａｌ．，“Ｃｌａｓｓ−Ｂａｓｅｄｎ−ｇｒａｍ
ｍｏｄｅｌｓｏｆｎａｔｕｒａｌｌａｎｇｕａｇ
ｅ”，ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔ
ｉｃｓ，Ｖｏｌ．１８，Ｎｏ．４，ｐｐ．４６７−４７
９，１９９２年」、従来技術文献７「Ｔ．Ｒ．Ｎｉｅｓ
ｌｅｒｅｔａｌ．，“ＡＶａｒｉａｂｌｅ−Ｌｅ
ｎｇｔｈＣａｔｅｇｏｒｙ−ＢａｓｅｄＮ−ｇｒａ
ｍＬａｎｇｕａｇｅＭｏｄｅｌ”，Ｐｒｏｃｅｅｄ
ｉｎｇｓｏｆＩＣＡＳＳＰ ’９６，Ｖｏｌ．１，
ｐｐ．１６４−１６７，１９９６年」及び従来技術文献
８「政瀧ほか，“連続音声認識のための可変長連鎖統計
統計的言語モデル”，電子情報通信学会技術報告，ＳＰ
９５−７３，ｐｐ．１−６，平成７年」参照。）等が数
多く提案されている。しかしながら、これらの手法を用
いても、精度の良い統計的言語モデルを構築するために
は、相当量のデータを用いる必要があると考えられる。

【０００７】以上の問題点を解決するために、従来技術
文献９「ＶｏｌｋｅｒＳｔｅｉｎｂｉｓｓｅｔａ
ｌ．，“Ｉｍｐｒｏｖｅｍｅｎｔｓｉｎｂｅａｍ
ｓｅａｒｃｈ”，ＩＣＬＳＰ９４，Ｙｏｋｏｈａ
ｍａ，Ｊａｐａｎ，ｐｐ．２１４３−２１４６」及
び従来技術文献１０「ＳｔｅｆａｎＯｒｔｍａｎｎｓ
ｅｔａｌ．，“Ａｗｏｒｄｇｒａｐｈａｌｇ
ｏｒｉｔｈｍｆｏｒｌａｒｇｅｖｏｃａｂｕｌａｒ
ｙｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈｒｅｃｏｇｎ
ｉｔｉｏｎ”，ＣｏｍｐｕｔｅｒＳｐｅｅｃｈ＆
Ｌａｎｇｕａｇｅ，１９９７，１１，ｐｐ．４
３−７２」において、木構造単語辞書を用いた音声認識
方法（以下、従来例という。）が開示されている。この
従来例では、木構造辞書の非終端状態（非終端ノード）
に対する近似言語尤度として、当該ノードが属するすべ
ての単語のｕｎｉｇｒａｍ確率のうち最大のものを用い
ている。ここで、単語のｕｎｉｇｒａｍ確率とは、１つ
の単語の出現確率をいう。

【０００８】この従来例において用いている統計的言語
モデルによるｕｎｉｇｒａｍ先読み方法の処理について
説明する。木構造単語辞書内の各ノードのｐ_lookahead
を設定する手順は以下の通りである。（１）木構造単語辞書内の各リーフノードに関して、次
式に示すように、このリーフノードで終了する単語のす
べてのｕｎｉｇｒａｍ（Ｗ_leafnodeと表示される単語セ
ット）確率Ｐ（ｗ）の最大値を計算して各リーフノード
における先読み確率ｐ_lookahead（leafnode）に設定す
る。同音異義語及び複数の発音のため、１つのリーフノ
ードにおいて終了する単語が数個である可能性もある。

【０００９】

【数２】ｐ_lookahead（leafnode）＝ＭＡＸ{Ｐ(ｗ)} ここで、ｗ∈Ｗ_leafnode

【００１０】（２）すべての非リーフノードにおける先
読み確率ｐ_lookaheadに対して、そこからリーフノード
に枝分かれするすべての子ノードの先読み確率ｐ
_lookahead（child-node）の最大値を設定する。

【００１１】

【数３】ｐ_lookahead（non-leafnode）＝ＭＡＸ{ｐ
_lookahead（child-node）}

【００１２】従来例のｕｎｉｇｒａｍの先読み方法は現
時点で展開された単語仮説に依存せず、従って、統計的
手順であって、通常は事前に１度だけ計算されるべきも
のであることに注意する。ここで、従来例の方法による
実施例を以下に示す。この実施例で用いられたｕｎｉｇ
ｒａｍの統計的言語モデルの一例を次の表に示す。ま
た、上述の処理で得られた木構造単語辞書を図４に示
す。

【００１３】

【表１】

【００１４】

【発明が解決しようとする課題】しかしながら、従来例
で用いる近似言語尤度は単語のｕｎｉｇｒａｍ確率に基
づいているために、近似の精度が低く、認識に要する計
算時間の短縮効果が十分でない。従って、計算コストが
高く、また、木構造単語辞書を記憶するメモリの容量が
比較的大きいという問題点があった。

【００１５】本発明の目的は以上の問題点を解決し、従
来例に比較して高精度で近似した言語尤度を用いてより
高い認識率でかつ高速で音声認識することができる音声
認識装置を提供することにある。

【００１６】

【課題を解決するための手段】本発明に係る請求項１記
載の音声認識装置は、学習用テキストデータに基づいて
木構造単語辞書を生成して、木構造の各ノードに対して
近似言語尤度である先読み確率を計算して付与し、上記
木構造単語辞書を用いて入力される音声信号を音声認識
する音声認識手段を備えた音声認識装置において、Ｎが
２以上の自然数である単語のＮ−ｇｒａｍの確率データ
を含む統計的言語モデルを記憶する記憶手段を備え、上
記音声認識手段は、生成される単語仮説毎に、上記木構
造単語辞書における単語の非終端状態に与える近似言語
尤度である先読み確率を、上記記憶手段に記憶された統
計的言語モデルのＮ−ｇｒａｍの確率データに基づいて
計算することにより上記木構造単語辞書を更新して、上
記更新された木構造単語辞書を用いて、入力される音声
信号を音声認識することを特徴とする。

【００１７】また、請求項２記載の音声認識装置は、請
求項１記載の音声認識装置において、上記音声認識手段
は、学習用テキストデータに基づいて木構造単語辞書を
生成する生成手段と、上記木構造単語辞書において各リ
ーフノードに対して、リーフノードで終了する単語のす
べてのｕｎｉｇｒａｍの最大確率を先読み確率として計
算して付与する第１の付与手段と、上記木構造単語辞書
においてすべてのリーフノードでないノードに対してそ
の先読み確率にリーフノードに対して分岐するすべての
子ノードの最大確率を設定して付与することにより上記
木構造単語辞書を別の記憶手段に記憶する第２の付与手
段と、生成される単語仮説毎に、単語仮説の各組に対し
て単語のｕｎｉｇｒａｍを除く上記記憶手段に記憶され
た統計的言語モデルにおいて存在するすべてのＮ−ｇｒ
ａｍの入力データの最大のＮ−ｇｒａｍ確率に拡張して
各リーフノードの先読み確率を計算して上記別の記憶手
段に記憶された木構造単語辞書に付与する第３の付与手
段と、上記木構造単語辞書においてリーフノードでない
すべてのノードに対してその先読み確率に、リーフノー
ドに対して分岐するすべての子ノードの最大確率を設定
して付与することにより、上記別の記憶手段に記憶され
た木構造単語辞書を更新する第４の付与手段と、上記更
新された木構造単語辞書と、上記記憶手段に記憶された
統計的言語モデルを用いて、入力された音声信号に対し
て最尤の単語仮説を探索決定して認識結果として出力す
る探索認識手段とを備えたことを特徴とする。

【００１８】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１９】図１は、本発明に係る一実施形態である連
続音声認識装置のブロック図である。この実施形態の連
続音声認識装置においては、単語辞書初期化処理部１０
は、メモリ学習用テキストデータに基づいて二分木形式
の木構造単語辞書を生成して、木構造の各ノードに対し
て近似言語尤度である先読み確率を計算して付与して木
構造単語辞書メモリ２１，２２に格納し、Ｎが２以上の
自然数である単語のＮ−ｇｒａｍの確率データを含む統
計的言語モデルを記憶する統計的言語モデルメモリ２３
が備えられる。ここで、単語照合部６は、音素照合部４
から入力される単語仮説毎に、メモリ２２内の木構造単
語辞書における単語の非終端状態に与える近似言語尤度
である先読み確率を、メモリ２３内の統計的言語モデル
のＮ−ｇｒａｍの確率データに基づいて計算することに
より上記メモリ２２内の木構造単語辞書を更新して、上
記更新された木構造単語辞書を用いて、入力される音声
信号を音声認識することを特徴としている。

【００２０】ところで、音声認識装置における最も可能
性の高い仮説を探索（サーチ）する処理は、認識可能な
すべての単語を包含する単語辞書に基づいて行ってい
る。従来例の音声認識装置においては、通常、木構造単
語辞書（メモリ内に、認識可能な単語が単なる直線的リ
ストではなく木構造として表示されている。）が使用さ
れる。木構造単語辞書が使用される場合は、木構造単語
辞書を用いた探索時に統計的言語モデル確率をできるだ
け早く組み込むために、統計的言語モデルの先読み方法
と呼ばれる手順が使用される。使用頻度の高い手順の１
つはｕｎｉｇｒａｍの先読み方法であり、従来例で説明
したものである。一方、本実施形態では、この従来例の
方法を拡張して探索速度を約２０％向上させることがで
きるオンデマンドのＮ−ｇｒａｍ先読み方法を用いる。

【００２１】まず、統計的言語モデルの先読み方法につ
いて説明する。統計的言語モデルによる先読み方法は、
木構造単語辞書を使用する多くの音声認識装置で使用さ
れている。探索中に木構造単語辞書に入った時点では、
単語の同一性はリーフノード（単語が終了するノードで
あり、単語の終端状態をいう。）に達するまで判らず、
従って木構造単語辞書内での正確な言語モデル確率も不
明である。良好な高速探索性能を得るためには、木構造
単語辞書を通過する間にできるだけ早く言語モデル確率
を組み込む必要がある。木構造辞書を使用する多くの音
声認識システムにおいては、木構造辞書内に言語モデル
確率の推定値を組み込むために、統計的言語モデルの先
読み方法と呼ばれる手順が使用される。統計的言語モデ
ルの先読み確率（ｐ_lookahead）は、木構造辞書のあら
ゆるノードに帰属している。それらが既に設定済みであ
るものとすれば、それは探索中に以下のように使用され
る。

【００２２】（ａ）ノードに入ると、現在の全体のスコ
アにｐ_lookahead（ノード）を加算する。（ｂ）ノードを離れると、現在の全体のスコアからｐ
_lookahead（ノード）を減算する。

【００２３】この方法は、統計的言語モデルの先読み方
法を何も使用しない場合よりも早く弱い言語モデル確率
を有するノードの枝刈り（プルーニング）を促進し、探
索の速度向上をもたらす。辞書における各ノードのｐ
_lookaheadを設定するための方法について説明する。

【００２４】本実施形態に係る単語辞書初期化処理部１
０は、学習用テキストメモリ２に記憶された複数の発声
音声文のテキストデータ（コーパス）と、統計的言語モ
デルメモリ２３内の単語のｕｎｉｇｒａｍ確率データと
に基づいて、二分木形式の木構造単語辞書を生成し、従
来例の方法を用いて各ノードに対して先読み確率ｐ_lo
_okaheadを計算して付与することにより、初期値の木構
造単語辞書を生成してメモリ２１に記憶した後、メモリ
２２にコピーする。そして、次の処理により、音素照合
部４からバッファメモリ５を介して単語照合部６に単語
仮説が入力される毎に（オンデマンド）、メモリ２２内
の木構造単語辞書を更新して、メモリ２２内の木構造単
語辞書とメモリ２３内の統計的言語モデルとを用いて最
尤の単語仮説を探索決定して認識結果として出力する。

【００２５】本実施形態に係るオンデマンドのＮ−ｇｒ
ａｍ先読み方法は新規の統計的言語モデルの先読み手順
であり、その処理点で展開された仮説の制約を組み込ん
でいる。これにより、従来例のｕｎｉｇｒａｍの先読み
方法の手順と比較して実際の言語モデル確率の推定値が
向上し、曳いては枝刈り精度の向上、それ故の高速探索
が導かれる。速度の増加分は約２０％である。

【００２６】次いで、オンデマンドのＮ−ｇｒａｍ先読
み方法の処理は以下の通りである。（１）探索開始前に上記のｕｎｉｇｒａｍの先読み方法
の手順によってすべてのノードの先読み確率ｐ
_lookaheadを初期化する。（２）各単語セットに関して仮説Ｈ_iを計算し、統計的
言語モデルにおいて、ｕｎｉｇｒａｍの初期化中に既に
設定されたｕｎｉｇｒａｍを除く、統計的言語モデルに
おいて存在するすべてのＮ−ｇｒａｍのデータ（Ｈ_i，
ｗ）のうちの最大Ｎ−ｇｒａｍ確率Ｐ（ｗ│Ｈ_i）に拡
張する。単語ｗに帰属する関連リーフノード（同音異義
語及び複数の発音のため数個になる可能性がある。）を
識別し、先読み確率ｐ_lookaheadとして、次式に示すよ
うに、計算された確率及び設定済みのｕｎｉｇｒａｍの
先読み確率ｐ_lookaheadのうちの最大値を設定する。

【００２７】

【数４】ｐ_lookahead（leafnode）＝ＭＡＸ{Ｐ（ｗ|Ｈ_i）} ∀Ｈ_i及び∀ｗ∈{Ｎ−ｇｒａｍに存在する（Ｈ_i，ｗ）}

【００２８】（３）すべての非リーフノード（すなわ
ち、リーフノードでないノードであって、単語の非終端
状態をいう。）に関して、その先読み確率ｐ_lookahead
を、次式のように、リーフノードに枝分かれするすべて
の子ノードの先読み確率ｐ_lookah _ead（child-node）の
最大値に設定する。

【００２９】

【数５】ｐ_lookahead（non-leafnode）＝ＭＡＸ{ｐ
_lookahead（child-node）}

【００３０】この手順は、通常のｕｎｉｇｒａｍの先読
み方法の場合のように事前に実行することのできない新
規単語仮説セットが展開される毎に実行しなければなら
ない。この追加的な手順に関わらず、言語モデル確率が
正確であればあるほど枝刈りがより正確となり、全探索
の高速化が導かれる。

【００３１】次いで、オンデマンドのＮ−ｇｒａｍ先読
み方法の一例について説明する。ここで、展開すべき仮
説リストに依存して、すべてのＮ−ｇｒａｍ確率が使用
されることに注意する。統計的言語モデルの一例を次の
表に示し、メモリ７内に記憶される展開すべき仮説リス
トの一例を次の表に示す。これらを用いて作成された木
構造単語辞書を図５に示す。なお、次の表における単語
ｗ₁，ｗ₂，ｗ₃，ｗ₄，…は、例えば音素列で表現された
単語である。

【００３２】

【表２】

【００３３】

【表３】

【００３４】展開すべき仮説リストメモリ７では、単語
照合部６の処理により出てきた単語仮説の履歴を一時的
に記憶する。図５に示すように、木構造単語辞書におい
ては、ルートノードＲＮからリーフノードＬＮに向かっ
て二分木形式で木が成長してゆき、各ノードで先読み確
率ｐ_lookaheadが付与され、単語照合部６による処理に
より単語仮説が入力される毎に上記付与された各ノード
の先読み確率ｐ_lookah _eadが更新されて単語照合され
る。ここで、ルートノードＲＮからリーフノードＬＮに
向かう方向が子ノードに向かう方向である。

【００３５】図２は、図１の単語辞書初期化処理部１０
によって実行される単語辞書初期化処理を示すフローチ
ャートである。なお、統計的言語モデルメモリ２３に
は、複数の発声音声文を含むコーパスである学習用テキ
ストデータに基づいて、ｔｒｉｇｒａｍ以上の単語のＮ
−ｇｒａｍの連接確率データが予め記憶される。

【００３６】図２において、ステップＳ１において、メ
モリ２０内の学習用テキストデータと、メモリ２３内の
統計的言語モデルのうちのｕｎｉｇｒａｍの確率データ
とに基づいて二分木形式の木構造単語辞書を生成する。
次いで、ステップＳ２において木構造において各リーフ
ノードＬＮに対して、リーフノードＬＮで終了する単語
のすべてのｕｎｉｇｒａｍの最大確率を先読み確率ｐ
_lookahead（leafnode）として計算して付与する。さら
に、ステップＳ３においてすべてのリーフノードＬＦで
ないノードに対してその先読み確率ｐ_lookahead（non-l
eafnode）にリーフノードに対して分岐するすべての子
ノードの最大確率を設定して付与する。最後に、ステッ
プＳ４において生成された確率付き木構造単語辞書をメ
モリ２１に記憶するとともに、メモリ２２にコピーして
記憶して、当該単語辞書初期化処理を終了する。

【００３７】図３は、図１の単語照合部６によって実行
される単語照合処理を示すフローチャートである。図３
において、まず、ステップＳ１１において単語仮説が入
力されたかが判断され、入力されるまで待機し、入力さ
れる毎に、次のステップＳ１２乃至Ｓ１４の処理が実行
される。次いで、ステップＳ１２において単語仮説Ｈ_i
の各組に対して単語のｕｎｉｇｒａｍを含まない統計的
言語モデルにおいて存在するすべてのＮ−ｇｒａｍの入
力データ（Ｈ_i，ｗ）の最大のＮ−ｇｒａｍ確率ｐ（ｗ
│Ｈ_i）に拡張して各リーフノードの先読み確率ｐ
_lookahead（leafnode）を計算して付与する。さらに、
ステップＳ１３においてリーフノードでないすべてのノ
ードに対してその先読み確率ｐ_lookahead（non-leafnod
e）に、リーフノードに対して分岐するすべての子ノー
ドの最大確率を設定して付与して、メモリ２２内の木構
造単語辞書を更新する。最後に、ステップＳ１４で、更
新されたメモリ２２内の木構造単語辞書と、メモリ２３
内の統計的言語モデルを用いて最尤の単語仮説を探索決
定して認識結果として出力する。

【００３８】次いで、図１に示す連続音声認識装置の構
成及び動作について説明する。図１において、音素照合
部４に接続された音素隠れマルコフモデル（以下、隠れ
マルコフモデルをＨＭＭという。）メモリ１１内の音素
ＨＭＭは、各状態を含んで表され、各状態はそれぞれ以
下の情報を有する。（ａ）状態番号、（ｂ）受理可能なコンテキストクラ
ス、（ｃ）先行状態、及び後続状態のリスト、（ｄ）出
力確率密度分布のパラメータ、及び（ｅ）自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素ＨＭＭは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合ＨＭＭを変換
して生成する。ここで、出力確率密度関数は３４次元の
対角共分散行列をもつ混合ガウス分布である。

【００３９】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して音素照合部４に入力される。
音素照合部４は、ワン−パス・ビタビ復号化法を用い
て、バッファメモリ３を介して入力される特徴パラメー
タのデータに基づいて、音素ＨＭＭ１１を用いて音素列
の単語仮説を検出し尤度を計算してバッファメモリ５を
介して単語照合部６に出力する。単語照合部６は、図３
の単語照合処理を実行して、メモリ２２内の木構造単語
辞書を更新しかつメモリ２３内の統計的言語モデルとメ
モリ７内の展開すべき仮説リストを参照して最尤の単語
仮説を探索決定して認識結果として出力する。

【００４０】以上の実施形態において、特徴抽出部２
と、音素照合部４と、単語照合部６と、単語辞書初期化
処理部１０とは、例えば、デジタル電子計算機などのコ
ンピュータで構成され、バッファメモリ３，５と、展開
すべき仮説リストメモリ７と、音素ＨＭＭメモリ１１
と、学習用テキストデータメモリ２０、木構造単語辞書
メモリ２１，２２と、統計的言語モデルメモリ２３と
は、例えばハードデイスクメモリなどの記憶装置で構成
される。なお、メモリ２３内の統計的言語モデルは、好
ましくは、Ｎが２以上の自然数であるＮ−ｇｒａｍの統
計的言語モデルであり、より好ましくは、ｔｒｉｇｒａ
ｍの統計的言語モデルである。

【００４１】本発明に係る本実施形態によれば、上述の
オンデマンドのＮ−ｇｒａｍ先読み方法を用いることに
より、従来例に比較してより小さな記憶領域で精度の高
い言語尤度の近似値計算ができ、従来例に比べて、高い
認識率で音声認識することができ、しかも、認識に要す
る計算時間を大幅に短縮させることができる。

【００４２】以上の実施形態において、図２の単語辞書
初期化処理を、単語照合部６でも実行し、音素照合部４
からバッファメモリ５を介して単語照合部６に入力され
る毎に、オンデマンドで実行するように構成してもよ
い。

【００４３】以上の実施形態においては、二分木形式の
木構造単語辞書を生成しているが，本発明はこれに限ら
ず、複数Ｎ分木形式の木構造単語辞書であってもよい。

【００４４】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の音声認識装置によれば、学習用テキストデータ
に基づいて木構造単語辞書を生成して、木構造の各ノー
ドに対して近似言語尤度である先読み確率を計算して付
与し、上記木構造単語辞書を用いて入力される音声信号
を音声認識する音声認識手段を備えた音声認識装置にお
いて、Ｎが２以上の自然数である単語のＮ−ｇｒａｍの
確率データを含む統計的言語モデルを記憶する記憶手段
を備え、上記音声認識手段は、生成される単語仮説毎
に、上記木構造単語辞書における単語の非終端状態に与
える近似言語尤度である先読み確率を、上記記憶手段に
記憶された統計的言語モデルのＮ−ｇｒａｍの確率デー
タに基づいて計算することにより上記木構造単語辞書を
更新して、上記更新された木構造単語辞書を用いて、入
力される音声信号を音声認識する。従って、従来例に比
較してより小さな記憶領域で精度の高い言語尤度の近似
値計算ができ、従来例に比べて、高い認識率で音声認識
することができ、しかも、認識に要する計算時間を大幅
に短縮させることができる。

【００４５】また、請求項２記載の音声認識装置によれ
ば、請求項１記載の音声認識装置において、上記音声認
識手段は、学習用テキストデータに基づいて木構造単語
辞書を生成する生成手段と、上記木構造単語辞書におい
て各リーフノードに対して、リーフノードで終了する単
語のすべてのｕｎｉｇｒａｍの最大確率を先読み確率と
して計算して付与する第１の付与手段と、上記木構造単
語辞書においてすべてのリーフノードでないノードに対
してその先読み確率にリーフノードに対して分岐するす
べての子ノードの最大確率を設定して付与することによ
り上記木構造単語辞書を別の記憶手段に記憶する第２の
付与手段と、生成される単語仮説毎に、単語仮説の各組
に対して単語のｕｎｉｇｒａｍを除く上記記憶手段に記
憶された統計的言語モデルにおいて存在するすべてのＮ
−ｇｒａｍの入力データの最大のＮ−ｇｒａｍ確率に拡
張して各リーフノードの先読み確率を計算して上記別の
記憶手段に記憶された木構造単語辞書に付与する第３の
付与手段と、上記木構造単語辞書においてリーフノード
でないすべてのノードに対してその先読み確率に、リー
フノードに対して分岐するすべての子ノードの最大確率
を設定して付与することにより、上記別の記憶手段に記
憶された木構造単語辞書を更新する第４の付与手段と、
上記更新された木構造単語辞書と、上記記憶手段に記憶
された統計的言語モデルを用いて、入力された音声信号
に対して最尤の単語仮説を探索決定して認識結果として
出力する探索認識手段とを備える。従って、従来例に比
較してより小さな記憶領域で精度の高い言語尤度の近似
値計算ができ、従来例に比べて、高い認識率で音声認識
することができ、しかも、認識に要する計算時間を大幅
に短縮させることができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である連続音声認識
装置のブロック図である。

【図２】図１の単語辞書初期化処理部１０によって実
行される単語辞書初期化処理を示すフローチャートであ
る。

【図３】図１の単語照合部６によって実行される単語
照合処理を示すフローチャートである。

【図４】従来例の木構造単語辞書の木構造構成の一例
を示す構造図である。

【図５】本実施形態の木構造単語辞書の木構造構成の
一例を示す構造図である。

【符号の説明】１…マイクロホン、２…特徴抽出部、３，５…バッファメモリ、４…単語照合部、６…単語照合部、７…展開すべき仮説リストメモリ、１０…単語辞書初期化処理部、１１…音素ＨＭＭメモリ、２１，２２…木構造単語辞書メモリ、２３…統計的言語モデルメモリ。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平10−198395（ＪＰ，Ａ) 特開平９−34486（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 - 9/20 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】学習用テキストデータに基づいて木構造
単語辞書を生成して、木構造の各ノードに対して近似言
語尤度である先読み確率を計算して付与し、上記木構造
単語辞書を用いて入力される音声信号を音声認識する音
声認識手段を備えた音声認識装置において、Ｎが２以上の自然数である単語のＮ−ｇｒａｍの確率デ
ータを含む統計的言語モデルを記憶する記憶手段を備
え、上記音声認識手段は、生成される単語仮説毎に、上記木
構造単語辞書における単語の非終端状態に与える近似言
語尤度である先読み確率を、上記記憶手段に記憶された
統計的言語モデルのＮ−ｇｒａｍの確率データに基づい
て計算することにより上記木構造単語辞書を更新して、
上記更新された木構造単語辞書を用いて、入力される音
声信号を音声認識することを特徴とする音声認識装置。
【請求項２】請求項１記載の音声認識装置において、
上記音声認識手段は、学習用テキストデータに基づいて木構造単語辞書を生成
する生成手段と、上記木構造単語辞書において各リーフノードに対して、
リーフノードで終了する単語のすべてのｕｎｉｇｒａｍ
の最大確率を先読み確率として計算して付与する第１の
付与手段と、上記木構造単語辞書においてすべてのリーフノードでな
いノードに対してその先読み確率にリーフノードに対し
て分岐するすべての子ノードの最大確率を設定して付与
することにより上記木構造単語辞書を別の記憶手段に記
憶する第２の付与手段と、生成される単語仮説毎に、単語仮説の各組に対して単語
のｕｎｉｇｒａｍを除く上記記憶手段に記憶された統計
的言語モデルにおいて存在するすべてのＮ−ｇｒａｍの
入力データの最大のＮ−ｇｒａｍ確率に拡張して各リー
フノードの先読み確率を計算して上記別の記憶手段に記
憶された木構造単語辞書に付与する第３の付与手段と、上記木構造単語辞書においてリーフノードでないすべて
のノードに対してその先読み確率に、リーフノードに対
して分岐するすべての子ノードの最大確率を設定して付
与することにより、上記別の記憶手段に記憶された木構
造単語辞書を更新する第４の付与手段と、上記更新された木構造単語辞書と、上記記憶手段に記憶
された統計的言語モデルを用いて、入力された音声信号
に対して最尤の単語仮説を探索決定して認識結果として
出力する探索認識手段とを備えたことを特徴とする音声
認識装置。