JPH1097271A

JPH1097271A - 言語モデル構成法、音声認識用モデル及び音声認識方法

Info

Publication number: JPH1097271A
Application number: JP8251743A
Authority: JP
Inventors: Kazuhiro Arai; 和博荒井; Shoichi Matsunaga; 昭一松永; Shigeki Sagayama; 茂樹嵯峨山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-09-24
Filing date: 1996-09-24
Publication date: 1998-04-14

Abstract

(57)【要約】【課題】大語彙に対しても簡単にモデルを作ることが
できる。【解決手段】学習データを１つの初期クラスタとし
（１）、その単語ごとの出現回数を単語出現確率とし、
クラスタの乱雑さの大きいクラスタを選択し（２）、そ
のクラスタに先行するクラスタとして初期クラスタを追
加し、これと分割するクラスタ伸長（３）と、前記選択
したクラスタを、各クラスタ内の単語出現確率の組間の
差が小さくなるように複数のクラスタに分割し（４）、
前記伸長と分割中の乱雑さが小さくなる方にクラスタ構
造を変更し（５，６）、十分乱雑さが小さくなるまでク
ラスタ選択（２）に戻って上記処理を繰返す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は例えば音声認識に
用いられる言語モデルを構成する方法、その言語モデ
ル、およびその言語モデルを用いた音声認識方法に関す
る。

【０００２】

【従来の技術】例えば音声認識装置において、順次現わ
れる複数の単語候補を配列した複数の単語列について尤
もらしいものを選出して認識結果を出力する。従来、単
語列の尤もらしさを測る尺度としては、学習データ内に
現れる単語連鎖から、個々の単語列に対してその出現確
率を求めておく方法が採られている。この方法の場合、
取り扱う単語の個数をＮとすれば、単語の２つ組に対す
る出現確率は全部でＮ²通りある。また、単語の３つ組
に対する出現確率はＮ³通りあり、出現確率の数は膨大
となる。単語数が数千を越える場合には現在の計算機ア
ーキテクチャでは、上述の単語のすべての組み合わせに
対する出現確率をメモリ上に同時に載せることは困難
で、ファイルからの読み込みなどで出現確率の算定を実
現している。しかし、音声認識処理など実時間性が必要
とされる場合には処理速度が低下してしまい、効率的で
有効性の高いシステムを実現することは困難である。更
にデータサイズの観点から、数千語を扱う場合に参照す
る単語列の長さを３単語以上にすることは現実上不可能
であり、単語の出現が先行する長い単語列の影響を受け
る場合に詳細なモデル化をすることが困難であった。

【０００３】更に学習データに現れなかった単語列に対
しては種々の近似、推定法が提案されているが、いずれ
の方法でも高い精度で次単語の出現を推定できるもので
はなかった。

【０００４】

【発明が解決しようとする課題】上述のように従来の技
術には、以下のような解決されていない課題がある。・取り扱う単語数が数千以上の場合、単語の２つ組みあ
るいは３つ組みに対するすべての出現確率を計算機メモ
リ上に保持することは困難である。・これまでの言語モデルは単語列で構成され、単語の出
現が先行する長い単語列の影響を受ける場合に詳細なモ
デル化をすることが困難であった。・学習データに現れなかった単語列に対しては単語出現
確率の精度が低下してしまうという問題があった。

【０００５】

【課題を解決するための手段】この発明の言語モデル構
成法では単語の出現確率を求める際に、単語列そのもの
を扱うのではなく、単語の集合であるクラスタを対象と
する。単語の並びは単語列中の各単語が属するクラスタ
の連鎖によって表現される。クラスタの連鎖構造は、以
下の方法により構成される。即ち、単一のクラスタを初
期値とし、クラスタを時間方向への増加、あるいはクラ
スタの分割を逐次行なうことによりクラスタ構造を詳細
化する。クラスタ構造が確定した段階で各クラスタ経路
で表現される単語列の数を基に単語出現確率を計算す
る。１つのクラスタには単語列において、類似した単語
が集められる。

【０００６】この発明の言語モデルでは前記この発明の
言語モデル構成法により作られた複数の単語をそれぞれ
含む複数クラスタと、クラスタ経路及びこれに接続され
る単語の出現確率の対応表とにより構成される。この発
明の音声認識方法はこの発明の言語モデルを用いて認識
処理を行なう。

【０００７】

【発明の実施の形態】図１にこの発明による言語モデル
構成法の一実施例における処理手順を示す。初期クラス
タ生成部１で学習データから初期クラスタを生成し、次
にクラスタ選択部２でクラスタを選択し、その選択した
クラスタをクラスタ伸長部３で時間方向に伸長（増加）
し、また、選択したクラスタを、クラスタ分割部４で分
割する。次にこれらクラスタの伸長結果と、分割結果か
ら伸長・分割判定部５でクラスタ構造の変更が、伸長に
よるか、分割によるかの何れが好ましいかの判定を行
い、その判定された結果にもとづき、クラスタ構造変更
部６で伸長又は分割によるクラスタ構造の変更を行な
う。

【０００８】この変更されたクラスタ構造の各クラスタ
についてその単語の出現確率を出現確率計数部７で再計
算し、次に処理終了判定部８でクラスタ構造変更処理が
所定の終了条件を満したかの判定がなされ、処理終了条
件を満していなければ、クラスタ選択部２によるクラス
タ選択処理に戻り同様のことが繰返される。処理終了判
定部８で処理が終了したと判定されると、単語出現確率
係数部９で、各単語の条件付き出現確率を計算する。クラスタ経路各クラスタ内の単語出現頻度は、以下の方法により求め
られる。例えば、３つの単語から成る単語列ｗ₁，
ｗ₂，ｗ₃において、単語ｗ₁がクラスタＣ₁内に格納
されており、かつ、後続する単語ｗ₂が、クラスタＣ₁
に後続するクラスタＣ₂に格納され、更に単語ｗ₂に後
続する単語ｗ₃がクラスタＣ₂に後続するクラスタＣ₃
に格納されている場合を「単語列ｗ₁，ｗ₂，ｗ₃はク
ラスタ経路Ｃ ₁，Ｃ₂，Ｃ₃で表現される」と表す。一
般に長さがＮのクラスタ経路Ｃ₁，Ｃ ₂，…Ｃ_Nで表現
される現実に存在し得る単語列ｗ₁，ｗ₂，…ｗ_Nの数
を計数することにより、単語ｗ₁のクラスタＣ₁におけ
る出現頻度が求められる。従って、クラスタＣ_i内の単
語出現確率を求めるには、Ｃ_iを始端とするクラスタ経
路を求め、前記、クラスタ経路で表現できる単語列の数
に基づいてクラスタＣ_i内の各単語の単語出現頻度を求
め、更に前記、各単語の単語出現頻度の総和と、各単語
ごとの単語出現頻度とから、前者に対する後者の比とし
て単語出現確率を得る。クラスタＣ_iを始端としてクラ
スタ経路を遡のぼってクラスタ経路で表現できる単語列
の数に基づいてクラスタＣ_i内の各単語の単語出現頻度
を求めて同様にクラスタＣ_i内各単語の出現確率を求め
ることもできる。

【０００９】以下に図１に示した処理の順に沿って各機
能構成部について詳述する。初期クラスタ学習初期クラスタ生成部１において初期クラスタが学習され
る。つまり初期クラスタ生成部１は学習データを参照し
て、前の学習データ内での各単語の出現回数から各単語
ごとの出現確率（ｕｎｉｇｒａｍ）を計算し、学習デー
タ内に現れるすべての単語に対する出現確率が初期クラ
スタ内に格納される。つまり、初期クラスタは例えば１
つであって、これに学習データ中の全単語が格納され、
この初期状態ではクラスタ経路は存在しないから、前記
クラスタ経路より求めた単語出現確率として、前記ｕｎ
ｉｇｒａｍが初期クラスタに格納される。クラスタの選択クラスタ選択部２において、すべてのクラスタに対し
て、クラスタＣ_t内にある各単語の出現確率から式
（１）で与えられるエントロピーＨ（Ｃ_t）を求める。

【００１０】Ｈ（Ｃ_t）＝−Σ^Nt _i=1 ｐ（ｗ_i）・ｌｏｇ₂｛ｐ（ｗ_i）｝（１）ここで、Ｎ_tはクラスタＣ_t内の単語数、ｐ（ｗ_i）は
クラスタＣ_tにおける単語ｗ_iの出現確率である。エン
トロピーＨ（Ｃ_t）はクラスタＣ_tの乱雑さを示し、エ
ントロピーが大きいことはクラスタＣ_tに含まれる単語
の類似性のばらつきが大きいことを示す。すべてのクラ
スタの中でエントロピーＨ（Ｃ_t）の値が最大のクラス
タが選択され、当該クラスタの分割または伸長によって
クラスタ構造の変更が行なわれる。クラスタの分割クラスタ分割部４ではクラスタ選択部２で選択されたク
ラスタが分割されるが、クラスタの分割は、クラスタ内
のある単語ｗ_bよりも出現確率の大きい単語のクラスタ
と、小さい単語のクラスタとの２つのクラスタに分割す
る。この際、分割後の２つのクラスタ内それぞれの単語
出現確率の和が同程度になるようにする。即ち、クラス
タＣ_tの分割を行なう際には、クラスタ内に格納されて
いる単語ｗ_iに対して、式（２），（３）で表される値
Ｓ₁（ｉ）及びＳ₂（ｉ）を求める。

【００１１】Ｓ₁（ｉ）＝Σⁱ _j=1ｐ（ｗ_j）（２）Ｓ₂（ｉ）＝Σ^Nt _j=i+1 ｐ（ｗ_j）（３）ここで、Ｎ_tはクラスタＣ_t内に格納されている単語
数、ｐ（ｗ_j）は単語ｗ _jの出現確率である。クラスタ
内の各単語に対して、Ｓ₁（ｉ）とＳ₂（ｉ）との差分
の絶対値を求め、この絶対値が最小となる単語ｗ_bを１
つ選択する。

【００１２】単語ｗ_bよりも出現確率の大きい単語は新
規に作成されたクラスタＣ_t1に格納され、単語ｗ_bより
出現確率の小さい単語は新規に作成されたクラスタＣ_t2
に格納される。クラスタＣ_tに格納されていた単語のす
べてがクラスタＣ_t1あるいはＣ_t2のいずれかに格納さ
れ、既存のクラスタＣ_tは消滅する。クラスタの伸長クラスタ伸長部３はクラスタ選択部２で選択されたクラ
スタを時間方向に増加して伸長する。クラスタの伸長
は、図３に示すようにまず着目するクラスタＣ_tに時間
的に先行するクラスタＣ_aを新規に追加する。新規に追
加するクラスタＣ _a内には、この発明の処理で用いる全
単語を格納しておく。この追加されたクラスタＣ_a内の
各単語の出現確率をクラスタ経路を用いて計算し、クラ
スタ分割部４における分割手法と同様の処理により新規
に追加したクラスタＣ_aを２つのクラスタＣ_a1とＣ_a2に
分割する。上記の方法により、先行する２つのクラスタ
が新規に生成される。同様にクラスタＣ_tに対して時間
的に後続するクラスタＣ_aを追加し、このクラスタＣ_a
をＣ_a1，Ｃ_a2に分割に分割して伸長してもよい。この場
合のクラスタＣ_aの各単語の出現確率は、クラスタ経路
を遡のぼることにより単語列の数を求めて計算する。伸長・分割の判断伸長・分割判定部５はクラスタ構造を変更する際に、分
割による変更が望ましいのか、あるいは伸長による変更
が望ましいのかを逐次、判断する。このためクラスタ伸
長部３、クラスタ分割部４でそれぞれ着目するクラスタ
Ｃ_tを仮に伸長、分割し、それぞれの場合において生成
されたクラスタＣ_t1，Ｃ_t2，Ｃ_a1，Ｃ_a2がどの程度乱雑
さを低減させたのかを比較し、より低減させた構造を選
択する。つまり乱雑さ低減の程度を規準に選択する。

【００１３】図４に伸長・分割の判断における処理の流
れの例を示す。図４ではクラスタ２が分割・伸長の対象
クラスタとして選択されたと仮定する。クラスタ伸長部
３及びクラスタ分割部４での処理の結果、仮のクラスタ
構造が２つ生成される。即ち、伸長の結果、クラスタ
３，４が生成され、分割の結果、クラスタ２が消滅し、
クラスタ２′及び２″が生成される。伸長・分割判定部
５では、新規に生成された４つのクラスタ２′，２″，
３，４に対して式（１）を適用して各クラスタのエント
ロピーを求める。そして、上記４つのクラスタのうち、
エントロピーが最小であるクラスタを含むクラスタ構造
を選択する。図４では上記の比較の結果、伸長により変
更されたクラスタ構造が選択されている。処理の繰り返し出現確率計数部７では、変更後のクラスタ構造における
各クラスタに対し、各単語の出現確率を再度計数する。
ここにおける単語出現確率の計数方法は先に述べたクラ
スタ経路を利用する方法を用いる。

【００１４】上述の処理によりクラスタの分割及び伸長
を繰り返すことにより、逐次、クラスタ構造を詳細化す
る。処理判定部８は、クラスタ構造内のクラスタ数が例
えば５００とか１０００などの初期の個数になった時
点、あるいは、式（１）で求められるクラスタのエント
ロピーの最大値が初期の値以下になった、などの終了条
件を満たした場合に処理の繰り返しを中断する。これら
の値は要求される認識率が得られるように、多数回の実
験により決める。

【００１５】以上の処理の流れの様子を図２に例示す
る。（１）初期クラスタ１がまず選択（クラスタ選択）
され、（２）クラスタ１の「伸長」によりクラスタ２と
３が生成（クラスタ構造の変更）される。各クラスタ内
の単語出現確率を再計算した後、クラスタ３が選択さ
れ、（３）クラスタ３の「分割」により、クラスタ４が
生成される。この（３）番目のクラスタ構造に対してク
ラスタ１が分割または伸長の対象クラスタとして選択さ
れ、（４）クラスタ１の「分割」によりクラスタ構造の
変更が行なわれ、クラスタ５が生成されると共に、クラ
スタ１に先行するクラスタ２，３及び４がそれぞれクラ
スタ５に先行するクラスタ６，７及び８として転写され
る。

【００１６】各クラスタ内には、単語と単語の出現確率
が格納されている。複数のクラスタが連鎖する場合、ク
ラスタ内の単語出現確率は単語連鎖の出現確率を表す。
この発明では、上記の処理手順により、単語の連鎖確率
を個々の単語に対して計算するのではなく、複数の単語
を格納したクラスタの連鎖に対する連鎖確率として定式
化する。単語出現確率の計数単語出現確率を求めるため、上述の繰り返し処理が終了
し、クラスタ構造が確定した段階で、単語出現確率計数
部９において、学習データ内で観測された単語列を参照
して、各単語の条件付き出現確率を求める。図５に例を
示す。クラスタ経路Ｃ₁，Ｃ₂，…Ｃ_Nにおいて、クラ
スタ経路Ｃ₁，Ｃ₂，…Ｃ_N-1で表現される単語列の数
をＮ１、また経路Ｃ₁，Ｃ₂，…Ｃ_Nで表現される単語
列でクラスタＣ_Nにおいて単語ｗ_iが利用された単語列
の数をＮ２とする。

【００１７】このとき、クラスタ経路Ｃ₁，Ｃ₂，…Ｃ
_N-1で表現される単語列が観測された後に、単語ｗ_iが
出現する確率Ｐ（ｗ_i｜Ｃ₁，Ｃ₂，…Ｃ_N-1）は、式
（４）で与えられる。Ｐ（ｗ_i｜Ｃ₁，Ｃ₂，…Ｃ_N-1）＝Ｎ１／Ｎ２（４）学習データ中の単語列に上記の計数処理を適用すること
により、ある単語列が現れた後に、単語ｗ_iが出現する
確率が求められる。

【００１８】図６に単語例が出現した後にある単語が出
現する確率を求める際に必要となる、クラスタ経路ごと
の単語出現確率テーブルの例を示す。このテーブルに
は、クラスタ経路ごとに、そのクラスタ経路で表現でき
る単語列数Ｎ１、クラスタ経路ごとの各単語の出現頻度
Ｎ２が記述されている。単語ｗ_iの出現確率Ｐ（ｗ_i｜
Ｃ₁，Ｃ₂，…Ｃ_N-1）はテーブルの２カラム目に記述
されているＮ１と４カラム目に記述されているＮ２とか
ら求められる。

【００１９】音声認識処理の際には、認識の結果得られ
た複数の単語列候補に対して、図５を参照して述べた方
法により計算される単語出現確率が適用される。即ち、
音声認識結果を参照して、出現確率を求めるべき単語ｗ
_pに先行する各単語が言語モデルのどのクラスタに属す
るのかを判定し、単語ｗ_pに先行するクラスタ経路を特
定する。特定されたクラスタ経路で表現される単語列の
数と、当該クラスタ経路に後続して単語ｗ_pが現れる回
数（計数方法についてはいずれも図５参照の説明と同
一）から単語ｗ_pのクラスタ経路を条件とする条件付き
出現確率が求められる。上述の処理を各単語ごとに出現
順に順次行ない、各単語に対する出現確率を求める。ま
た、上述の処理で得られた各単語ごとの出現確率の積を
求めることにより、複数の単語から構成される文章の出
現確率を得ることができる。音声認識処理における言語
モデル利用の例を図７に示す。

【００２０】図７では、音声認識の結果得られた単語列
の候補、ｗ₁，ｗ₂，ｗ₃，ｗ₄，ｗ₅…に対して、言
語モデルを適用して単語列の尤もらしさを計算する方法
を示している。図７のＡでは、単語列ｗ₁，ｗ₂が出現
した後に単語ｗ₃が出現する確率を求めている。即ち、
単語列ｗ₁，ｗ₂がクラスタ経路Ｃ₄，Ｃ₂で表現さ
れ、単語ｗ₃がクラスタＣ₁にあるとした場合、単語列
ｗ₁，ｗ₂が出現した後に単語ｗ ₃が出現する確率Ｐ
（ｗ₃｜ｗ₂，ｗ₁）は、単語クラスタＣ₂とＣ₄を用
いてＰ（ｗ₃｜Ｃ₂，Ｃ₄）と表される。更に確率Ｐ
（ｗ₃｜Ｃ₂，Ｃ₄）はクラスタ経路Ｃ₂，Ｃ₄で表現
される単語列の頻度数Ｎ（Ｃ₂，Ｃ₄）とクラスタ経路
Ｃ₂，Ｃ₄で表現される単語列に単語ｗ₃が後続する頻
度数Ｎ（ｗ₃，Ｃ₂，Ｃ ₄）を基に計算される。

【００２１】同様に、図７のＢでは、単語例ｗ₁，
ｗ₂，ｗ₃が出現した後に単語ｗ₄が出現する確率を、
また同図Ｃでは、単語列ｗ₃，ｗ₄が出現した後に単語
ｗ₅が出現する確率をそれぞれ求めている。従ってこの
発明による音声認識方法は例えば図８に示すように端子
１１から認識されるべき音声が入力され、分析特徴抽出
部１２で分析されてその音声の特徴量が抽出され、その
特徴量と、記憶部１３に記憶されている標準パターンと
比較部１４で比較され、近い標準パターンから、更に単
語認識部１５で単語の候補が認識され、認識処理が進む
に従って例えば図９Ａに示すように３つの単語列の候補
が得られる。この各単語列の候補について、その各単語
が属するクラスタをクラスタ−単語対応記憶部１６を参
照して、クラスタ経路形成部１７から、例えば第１単語
列候補ｗ₁₁，ｗ₁₂，ｗ₁₃，ｗ₁₄，ｗ₁₅について各単語が
属するクラスタの連鎖として、図９Ｂに示すようにクラ
スタ経路Ｃ_1a，Ｃ_1b，Ｃ_1c，Ｃ_1d，Ｃ_1eが形成される。
このクラスタ経路の形成と共に単語出現確率選出部１８
により、図６に示したクラスタ経路ごとの単語出現確率
表を記憶部１９を参照して求める。つまりクラスタＣ_1a
の次に単語ｗ₁₂が出現する確率Ｐ₁₁を求め、次にクラス
タ経路Ｃ_1a，Ｃ_1bの次に単語ｗ₁₃が出現する確率Ｐ₁₂を
求め、以下同様にクラスタ経路を伸ばすごとに単語出現
確率を求め、図９Ｃに示すように最終単語ｗ₁₅の出現確
率Ｐ₁₄が求められると、その単語列の候補についての単
語出現確率の積Ｐ₁₁×Ｐ₁₂×Ｐ₁₃×Ｐ₁₄＝Ｐ₁を演算し
て、第１単語列候補、つまり文章の出現確率Ｐ₁を得
る。同様にして第２、第３単語列候補（文章）の出現確
率Ｐ₂，Ｐ₃を求め、これら単語列候補の出現確率
Ｐ₁，Ｐ₂，Ｐ₃中の最大のものの単語列（文章）を認
識結果として出力する。

【００２２】上述において、クラスタ分割は、１つのク
ラスタを２つのクラスタに分割したが、任意の複数のク
ラスタに分割してもよい。この場合は例えば３つのクラ
スタに分割する場合は、分割前のクラスタ内の二つの単
語ｗ_b1，ｗ_b2の出現確率Ｐ₁，Ｐ₂（Ｐ₁＜Ｐ₂）につ
き、Ｐ₁より小さい出現確率の単語をクラスタＣ_t1に、
出現確率がＰ₁とＰ₂の間の単語をクラスタＣ_t2に、出
現確率がＰ₂以上の単語をクラスタＣ_t3にそれぞれ格納
し、これら分割されたクラスタＣ_t1，Ｃ_t2，Ｃ _t3にそれ
ぞれ格納されている単語の出現確率の和Ｓ₁，Ｓ₂，Ｓ
₃の相互の差が、なるべく小さくなるようにｗ_b1，ｗ_b2
を選択する。

【００２３】また初期クラスタは、適当に複数のクラス
タとして構成してもよい。

【００２４】

【発明の効果】この発明では以下の効果が期待できる。・大語彙にたいしても簡約な言語モデルを構成できる。・長い単語列の影響を受ける単語の生成を詳細にモデル
化できる。・単語列をクラスタ経路に変換するため学習データに現
れなかった単語列に対しても精度の高い出現確率を得る
ことができる。従って高い認識率が得られる。

【図面の簡単な説明】

【図１】この発明による言語モデル構成方法の処理手順
の例を示す図。

【図２】分割伸長処理の一処理例であって、クラスタ１
の分割、クラスタ３の分割、クラスタ１に分割が順次行
なわれた場合のクラスタ構造の変化を表す図。

【図３】クラスタ伸長の処理手順の模式図。

【図４】伸長・分割の判断の処理手順の例を示す図。

【図５】単語出現確率の計数方法を説明するためのクラ
スタ経路Ｃ₁，Ｃ₂，……を示す図。

【図６】クラスタ経路と単語出現確率と対応表の例を示
す図。

【図７】音声認識処理時に行なう単語列の出現確率の計
算の手順を示す図。

【図８】この発明による音声認識方法の処理手順を示す
図。

【図９】音声認識における候補単語と、クラスタ経路
と、出現確率とを示す図。

Claims

【特許請求の範囲】

【請求項１】複数の単語と単語出現確率から成るクラ
スタを逐次、時間方向へ増加、あるいはクラスタを分割
することにより言語モデルを構成することを特徴とする
言語モデル構成法。
【請求項２】請求項１に記載の言語モデル構成法にお
いて、クラスタの乱雑さ（エントロピー）を最小にするという
規準で上記クラスタの分割及び増加を行なうことを特徴
とする言語モデル構成法。
【請求項３】請求項１又は２に記載の言語モデル構成
法において、上記クラスタの分割は常に２つに分割することを特徴と
する言語モデル構成法。
【請求項４】請求項１又は２に記載の言語モデル構成
法において、上記クラスタの分割は任意の個数に分割することを特徴
とする言語モデル構成法。
【請求項５】請求項３又は４に記載の言語モデル構成
法において、上記クラスタの分割は、分割後の各クラスタにおける単
語出現確率の和の差分を最小にするという規準で行なう
ことを特徴とする言語モデル構成法。
【請求項６】請求項１乃至５の何れかに記載の言語モ
デル構成法において、上記クラスタの伸長は複数個のクラスタを時間軸上で後
続させて行なうことを特徴とする言語モデル構成法。
【請求項７】請求項１乃至５の何れかに記載の言語モ
デル構成法において、上記クラスタの伸長は複数個のクラスタを時間軸上で先
行させて行なうことを特徴とする言語モデル構成法。
【請求項８】請求項１乃至７の何れかに記載の言語モ
デル構成法において、クラスタ経路の１つのクラスタ内の各単語についてこれ
を一端とし、そのクラスタ経路に沿って各クラスタから
１組づつ取出して得られる単語列の数の和に対する、各
単語について得られる単語列の数の比をその単語に対す
る上記単語出現確率とし、初期クラスタでは学習データ
中の各単語の出現回数からその単語に対する上記単語出
現確率を求めることを特徴とする請求項１乃至７の何れ
かに記載の言語モデル構成法。
【請求項９】複数の単語をそれぞれ含む複数のクラス
タと、存在し得る単語列と対応したクラスタ連鎖よりなるクラ
スタ経路と、そのクラスタ経路に接続される各単語の出
現確率との対応表とからなる音声認識用言語モデル。
【請求項１０】複数の単語をそれぞれ含む複数のクラ
スタと、クラスタ連鎖よりなるクラスタ経路と、そのク
ラスタ経路に接続される各単語の出現確率との対応表と
からなる言語モデルを用意しておき、入力音声を単語列候補として得る単語認識過程と、上記単語列候補の各単語が属するクラスタを上記言語モ
デルより求めてクラスタ経路を得る過程と、そのクラスタ経路におけるその１つのクラスタとこれと
接続されるべき上記単語列候補中の対応単語の出現確率
をそれぞれ上記言語モデルより求める過程と、これら求めた出現確率からその単語列候補の出現確率を
求める過程とを有する音声認識方法。