JP2001236088A

JP2001236088A - 統計的言語モデル作成装置、統計的言語モデル作成方法及び統計的言語モデル作成プログラムが記述された記録媒体

Info

Publication number: JP2001236088A
Application number: JP2000044894A
Authority: JP
Inventors: Yuzo Maruta; 裕三丸田; Yoshiharu Abe; 芳春阿部; Hirotaka Goi; 啓恭伍井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2000-02-22
Filing date: 2000-02-22
Publication date: 2001-08-31

Abstract

(57)【要約】【課題】クラスタ言語モデルを用いて条件付き確率を
近似する場合、特殊な単語連鎖についての接続情報が失
われるため、言語モデルの精度が劣化する課題があっ
た。【解決手段】各クラスタの各次元における代表分布と
分布偏差を参照して、各クラスタから特殊接続次元を検
出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声認識装置に
用いられる統計的言語モデル作成装置及び統計的言語モ
デル作成方法に関するものである。

【０００２】

【従来の技術】図１１は例えば特開平１１−８５１７９
号公報に示された従来の統計的言語モデル作成方法を示
すフローチャートである。図において、ＳＴ１は先験的
言語知識によるクラスタ分類ステップ、ＳＴ２は分割対
象のクラスタの候補（以下、「分割クラスタ候補」とい
う）を選択する選択ステップ、ＳＴ３は分割クラスタ候
補の中心単語候補の設定と単語の分配を行う設定・分配
ステップ、ＳＴ４はエントロピー基準による単語の再分
配及びエントロピーの試算を行う再分配・試算ステッ
プ、ＳＴ５は中心単語候補に対するエントロピー試算の
終了を判定する判定ステップ、ＳＴ６は当該クラスタの
中で、最もエントロピーが小さくなる中心単語とエント
ロピーの値を記録する記録ステップ、ＳＴ７はすべての
クラスタの分割に対するエントロピー試算の終了を判定
する判定ステップ、ＳＴ８はエントロピーが最も低くな
るようなクラスタ分割を行うクラスタ分割ステップ、Ｓ
Ｔ９は所望のクラスタ数であるか否かを判定する判定ス
テップである。

【０００３】次に動作について説明する．まず、予め用
意したテキストデータを使用して、先験的言語知識（自
立語と付属語、あるいは、品詞の知識など）によるクラ
スタ分類を実行する（ステップＳＴ１）。これにより、
クラスタ数が“Ｇ”のモデルを作成する。例えば、自立
語と付属語の二クラスタの場合にはＧ＝２である。

【０００４】次に、Ｇ個のクラスタのうち、分割クラス
タ候補を一つ選択する（ステップＳＴ２）。ここでは、
分割クラスタ候補をｇとする。そして、分割クラスタ候
補ｇを二分割するものと仮定し、その場合におけるクラ
スタの分割後の中心となる単語（以下、「中心単語」と
いう）ｇ_ｊ，ｇ_ｌを定め、その分割によるエントロピー
の値Ｈｇを試算する（ステップＳＴ３）。

【０００５】この中心単語ｇ_ｊ，ｇ_ｌの設定は次のよう
に行う。まず、クラスタ内の異なる単語ｘ，ｙの距離ｄ
ｉｓ（ｘ，ｙ）を、それぞれの単語の後に生起する単語
ｋの頻度分布のＫｕｌｌｂａｃｋ距離ｄｉｓａ（ｘ，
ｙ）と、それぞれの単語の前に生起する単語ｈの頻度分
布のＫｕｌｌｂａｃｋ距離ｄｉｓｂ（ｘ，ｙ）の和とし
て表すものとする。即ち、単語ｘの後に単語ｋが生起す
る確率をＰ（ｋ｜ｘ）、単語ｙの後に単語ｋが生起する
確率をＰ（ｋ｜ｙ）、単語ｘの前に単語ｈが生起する確
率をＱ（ｈ｜ｘ）、単語ｙの前に単語ｈが生起する確率
をＱ（ｈ｜ｙ）とすると、単語ｘ，ｙの距離ｄｉｓ
（ｘ，ｙ）は下記に示す通りとなる。

【０００６】

【数１】

【０００７】そして、中心単語ｇ_ｊ，ｇ_ｌを二分割する
ときの歪みＤ（ｇ_ｊ，ｇ_ｌ）を下記のように表して、こ
の歪みが最小になる単語ｇ_ｊｍｉｎ，ｇ_ｌｍｉｎを中心
単語ｇ_ｊ，ｇ_ｌに設定する。クラスタｇ内の各単語ｉ
は、中心単語ｇ_ｊ又は中心単語ｇ_ｌのうち、距離の近い
方の中心単語に帰属させる。Ｄ（ｇ_ｊ，ｇ_ｌ）＝Σ_ｉ∈ｇ（ｍｉｎ（ｄｉｓ（ｇ_ｊ，
ｉ），ｄｉｓ（ｇ_ｌ，ｉ）））

【０００８】次に、エントロピー基準による単語の再配
分とエントロピーの試算を実行する（ステップＳＴ
４）。即ち、クラスタｇ内の各単語ｉは、距離の近い方
の中心単語に帰属させているので、これをエントロピー
基準での初期クラスタとするために、エントロピーが減
少するように再配分する。

【０００９】そして、当該クラスタｇのすべての中心単
語候補に対するエントロピーの試算が終了するまで上記
の処理を繰り返し（ステップＳＴ５）、その試算が終了
すると、当該クラスタｇの中で、最もエントロピーが小
さくなる中心単語ｇ_ｊ，ｇ_ｌとエントロピーの値Ｈｇを
記録する（ステップＳＴ６）。

【００１０】その後、ステップＳＴ２に戻り、次の分割
クラスタ候補を選択し、ステップＳＴ７の条件を満たす
限りステップＳＴ３〜ＳＴ６の処理を繰り返す。こうし
て、先験的言語知識によりクラスタ分けされたすべての
クラスタの分割に対するエントロピーの値Ｈｇを試算す
る。

【００１１】次に、すべてのクラスタｇ（１≦ｇ≦Ｇ）
において、エントロピーの値Ｈｇが最小になるクラスタ
を実際に分割し、クラスタを一つ増やす（Ｇ←Ｇ＋１）
処理を実行する（ステップＳＴ８）。ただし、単語の分
配は上記エントロピー基準によるものとする。以下、ス
テップＳＴ２〜ＳＴ８の処理を、クラスタの数Ｇが所望
の数になるまで繰り返し実行する（ステップＳＴ９）。

【００１２】以上のようにして、クラスタ言語モデルを
作成すると、そのクラスタ言語モデルを用いて、単語列
ｗ_１，ｗ_２，…，ｗ_ｉ−１が出現した後に、単語ｗ_ｉが
出現する条件付き確率を以下のように近似する。ただ
し、単語ｗ_１∈クラスタＣ_１などの関係があるものとす
る。なお、以降の数式において〜は近似を意味するもの
とする。Ｐ（ｗ_ｉ｜ｗ_１，ｗ_２，ｗ₃，…，ｗ_ｉ−１）〜Ｐ（ｗ
_ｉ｜Ｃ_ｉ）Ｐ（Ｃ_ｉ｜Ｃ_１，Ｃ_２，…，Ｃ_ｉ−１）

【００１３】特に、バイグラムモデルの場合には以下の
ように近似する。Ｐ（ｗ_ｉ｜ｗ_１，ｗ_２，ｗ₃，…，ｗ_ｉ−１）〜Ｐ（ｗ
_ｉ｜ｗ_ｉ−１）〜Ｐ（ｗ_ｉ｜Ｃ_ｉ）Ｐ（Ｃ_ｉ｜
Ｃ_ｉ−１）

【００１４】また、トライグラムモデルの場合には以下
のように近似する。Ｐ（ｗ_ｉ｜ｗ_１，ｗ_２，ｗ₃，…，ｗ_ｉ−１）〜Ｐ（ｗ
_ｉ｜ｗ_ｉ−２，ｗ_ｉ−１）〜Ｐ（ｗ_ｉ｜Ｃ_ｉ）Ｐ（Ｃ_ｉ
｜Ｃ_ｉ−２，Ｃ_ｉ−１）

【００１５】

【発明が解決しようとする課題】従来の統計的言語モデ
ル作成方法は以上のように構成されているので、単語間
における特有の接続関係が失われてしまう可能性がある
課題があった。例えば、ｗ_１＝「東京」、ｗ_１’＝「神
奈川」が同じクラスタＣ_１に所属する場合を考える。ク
ラスタＣ_１は類似の接続をもつ単語が集まっているた
め、例えば、ｗ_２＝「へ」，「経由」，「に」，「出
身」などの場合には、「東京」及び「神奈川」に係る条
件付き確率が略一致することが予想される。例えばＰ
（ｗ_２｜ｗ_１）＝Ｐ（“へ”｜“東京”）≒Ｐ（ｗ_２｜
ｗ_１’）＝Ｐ（“へ”｜“神奈川”）となる。しかし、
ｗ_２＝「品川」（「品川」はクラスタＣ_２に所属するも
のとする）などの場合、一般常識的には「東京」−「品
川」の単語連鎖の出現確率が大きくなるのに対し、「神
奈川」−「品川」の単語連鎖の出現確率が小さくなり、
その出現確率が大きく異なることが予想される。

【００１６】ところが、クラスタ言語モデルを用いて条
件付き確率を近似する場合、Ｐ（ｗ _２｜ｗ_１）＝Ｐ（Ｃ
_２｜Ｃ_１）Ｐ（ｗ_２｜Ｃ_２）となり、一方Ｐ（ｗ_２’｜
ｗ_１）＝Ｐ（Ｃ_２｜Ｃ_１）Ｐ（ｗ_２｜Ｃ_２）になるの
で、Ｐ（“品川”｜“東京”）＝Ｐ（“品川”｜“神奈
川”）となり、「東京」−「品川」の単語連鎖の出現確
率と、「神奈川」−「品川」の単語連鎖の出現確率が等
しくなる。このため、クラスタ言語モデルを用いて条件
付き確率を近似する場合、特殊な単語連鎖についての接
続情報が失われるため、言語モデルの精度が劣化する課
題があった。

【００１７】この発明は上記のような課題を解決するた
めになされたもので、単語間における特有の接続関係を
失うことなく、統計的言語モデルを作成することができ
る統計的言語モデル作成装置、統計的言語モデル作成方
法及び統計的言語モデル作成プログラムが記述された記
録媒体を得ることを目的とする。

【００１８】

【課題を解決するための手段】この発明に係る統計的言
語モデル作成装置は、各クラスタの各次元における代表
分布と分布偏差を参照して、各クラスタから特殊接続次
元を検出する検出手段を設けたものである。

【００１９】この発明に係る統計的言語モデル作成装置
は、検出手段が特殊接続次元以外の次元の接続確率を代
表分布の接続確率に置換するようにしたものである。

【００２０】この発明に係る統計的言語モデル作成装置
は、クラスタリング手段が単語の接続確率分布を圧縮し
て、圧縮後の接続確率分布を予備クラスタリングし、各
予備クラスタ内において圧縮前の接続確率分布をクラス
タリングするようにしたものである。

【００２１】この発明に係る統計的言語モデル作成装置
は、クラスタリング手段が記録手段により記録されてい
る（Ｎ−１）グラムのクラスタリング結果を参照して、
Ｎグラムクラスタの予備選択を実施するようにしたもの
である。

【００２２】この発明に係る統計的言語モデル作成装置
は、コーパスに存在しない単語連鎖の連鎖確率を推定す
る場合に備えて、記録手段により記録されている各クラ
スタ間の連鎖頻度を計算し、その連鎖頻度が０であれ
ば、バックオフ係数に重みを付加する重み付加手段を設
けたものである。

【００２３】この発明に係る統計的言語モデル作成方法
は、各クラスタの各次元における代表分布と分布偏差を
参照して、各クラスタから特殊接続次元を検出するよう
にしたものである。

【００２４】この発明に係る統計的言語モデル作成方法
は、特殊接続次元以外の次元の接続確率を代表分布の接
続確率に置換するようにしたものである。

【００２５】この発明に係る統計的言語モデル作成方法
は、単語の接続確率分布を圧縮して、圧縮後の接続確率
分布を予備クラスタリングし、各予備クラスタ内におい
て圧縮前の接続確率分布をクラスタリングするようにし
たものである。

【００２６】この発明に係る統計的言語モデル作成方法
は、記録されている（Ｎ−１）グラムのクラスタリング
結果を参照して、Ｎグラムクラスタの予備選択を実施す
るようにしたものである。

【００２７】この発明に係る統計的言語モデル作成方法
は、コーパスに存在しない単語連鎖の連鎖確率を推定す
る場合に備えて、記録されている各クラスタ間の連鎖頻
度を計算し、その連鎖頻度が０であれば、バックオフ係
数に重みを付加するようにしたものである。

【００２８】この発明に係る統計的言語モデル作成プロ
グラムが記述された記録媒体は、各クラスタの各次元に
おける代表分布と分布偏差を参照して、各クラスタから
特殊接続次元を検出する検出処理手順を設けたものであ
る。

【００２９】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１による統
計的言語モデル作成装置を示す構成図であり、図におい
て、１はある特定の題目に関するコーパスを記録するコ
ーパス記録部、２はコーパスに存在する単語の連鎖頻度
を計数する単語連鎖頻度計数部、３は単語連鎖頻度計数
部２により計数された単語の連鎖頻度からコーパスに存
在する単語の接続確率分布を計算する単語接続確率分布
計算部である。なお、コーパス記録部１、単語連鎖頻度
計数部２及び単語接続確率分布計算部３から確率分布計
算手段が構成されている。

【００３０】４は単語接続確率分布計算部３により計算
された単語の接続確率分布をクラスタリングする確率分
布クラスタリング部、５は確率分布クラスタリング部４
によりクラスタリングされたクラスタを記録するクラス
タ記録部、６は各クラスタの各次元における代表分布を
計算する代表分布計算部、７は代表分布計算部６により
計算された代表分布を記録する代表分布記録部、８は各
クラスタの各次元における分布偏差を計算する分布偏差
計算部である。なお、確率分布クラスタリング部４、代
表分布計算部６及び分布偏差計算部８からクラスタリン
グ手段が構成されている。

【００３１】９は代表分布計算部６により計算された代
表分布と分布偏差計算部８により計算された分布偏差を
参照して、各クラスタから特殊接続次元を検出する単語
特殊接続検出部（検出手段）、１０は単語特殊接続検出
部９により検出された特殊接続次元の接続確率を記録す
る単語特殊接続記録部である。なお、クラスタ記録部５
及び単語特殊接続記録部１０から記録手段が構成されて
いる。

【００３２】図２は確率分布クラスタリング部４の内部
を示す構成図であり、図において、１１はＭ個のクラス
タ中心を初期設定するクラスタ中心初期設定部、１２は
単語の接続確率分布を分類する所属クラスタ決定部、１
３はＭ個のクラスタ中心を更新するクラスタ中心更新
部、１４は収束判定部である。なお、図３はこの発明の
実施の形態１による統計的言語モデル作成方法を示すフ
ローチャートであり、図４は確率分布クラスタリング部
４の処理を示すフローチャートである。

【００３３】次に動作について説明する。この実施の形
態１では、バイグラム言語モデルを作成する場合につい
て説明する。まず、単語連鎖頻度計数部２は、コーパス
記録部１からコーパスを取得し、そのコーパスに存在す
る単語の連鎖頻度Ｎ（ｗ_ｉ，ｗ_ｊ）を計数する（ステッ
プＳＴ１１）。

【００３４】例えば、「国会」、「議事堂」、「議
員」、「運営」という語彙（単語）が登録されていると
き、コーパス内に存在する連接単語が下記の回数だけ出
現する場合、これらの語彙の連鎖頻度Ｎ（ｗ_１，ｗ_２）
は次のようになる。 “国会議事堂” → ５回 “国会議員” → ３回 “国会運営” → ４回Ｎ（ｗ_１，ｗ_２）＝Ｎ（“国会”，“議事堂”）＝５Ｎ（ｗ_１，ｗ_２）＝Ｎ（“国会”，“議員”）＝３Ｎ（ｗ_１，ｗ_２）＝Ｎ（“国会”，“運営”）＝４

【００３５】単語接続確率分布計算部３は、単語連鎖頻
度計数部２が単語の連鎖頻度Ｎ（ｗ _ｉ，ｗ_ｊ）を計数す
ると、単語の連鎖頻度Ｎ（ｗ_ｉ，ｗ_ｊ）からコーパスに
存在する単語の接続確率分布ｆ（ｗ）を計算する（ステ
ップＳＴ１２）。単語ｗ_１に後続する単語の接続確率分
布ｆ（ｗ_１）は、条件付き確率のベクトル表現として、
次のように表すことができる。ただし、ｘは後続する単
語、ｎは語彙の数である。ｆ（ｗ_１）＝｛Ｐ（ｘ_１｜ｗ_１），Ｐ（ｘ_２｜ｗ_１），…，Ｐ（ｘ
_ｎ｜ｗ_１）｝

【００３６】また、条件付き確率Ｐ（ｘ_１｜ｗ_１）等
は、単語連鎖頻度Ｎ（ｗ_ｉ，ｗ_ｊ）を用いて、以下のよ
うに計算することができる。Ｐ（ｘ_１｜ｗ_１）＝Ｎ（ｗ_１，ｘ_１）／Ｎ（ｗ_１，＊）ただし、Ｎ（ｗ_１，＊）は、単語ｗ_１に対して、何れか
の単語が接続する連鎖確率であり、上記例において、単
語ｗ_１＝“国会”とすると、Ｎ（ｗ_１，＊）＝５＋３＋
４＝１２となる。また、ｘ_１＝“議事堂”とすると、Ｐ
（ｘ_１｜ｗ_１）＝５／１２≒０．４１７となる。

【００３７】以上の手順により、すべての単語ｗについ
て、その接続確率分布ｆ（ｗ）を計算する。これによ
り、ｎ次元のベクトルがｎ個作成されることになる。

【００３８】確率分布クラスタリング部４は、単語接続
確率分布計算部３がｎ個の単語の接続確率分布ｆ（ｗ）
を計算すると、ｎ個の単語の接続確率分布ｆ（ｗ）をク
ラスタリングして、それぞれＭ個のクラスタに分割し
（ステップＳＴ１３）、そのクラスタリング結果をクラ
スタ記録部５に格納する。なお、接続確率分布ｆ（ｗ）
はベクトル表現であるため、接続確率分布ｆ（ｗ）のク
ラスタリングは、例えば、「パターン情報処理」（長尾
真著，コロナ社，１９８３年）ｐｐ．１１７に記載され
ているＫ平均法などを用いて実行する。

【００３９】具体的には、まず、確率分布クラスタリン
グ部４のクラスタ中心初期設定部１１が、Ｍ個（Ｍは予
め設定した値）のクラスタ中心Ｃ_１，Ｃ_２，Ｃ_３，…，
Ｃ_Ｍを適当に設定する（ステップＳＴ２１）。ここで、
Ｃ_１，Ｃ_２等はそれぞれｎ次元のベクトルである。

【００４０】次に、確率分布クラスタリング部４の所属
クラスタ決定部１２は、クラスタ中心Ｃ_ｋ（ただし、ｋ
＝１，２，３，…，Ｍ）と、接続確率分布ｆ（ｗ）との
分布間距離をｄｉｓ（ｆ（ｗ），Ｃ_ｋ）として、その分
布間距離ｄｉｓ（ｆ（ｗ），Ｃ_ｋ）が最小となるような
クラスタＣ_ｋに各接続確率分布ｆ（ｗ）を分類する（ス
テップＳＴ２２）。分布間距離の定義としては、上述し
たＫｕｌｌｂａｃｋ距離や、よく知られているユークリ
ッド距離を用いることができる。

【００４１】次に、確率分布クラスタリング部４のクラ
スタ中心更新部１３は、すべてのクラスタ中心Ｃ_ｋを更
新する（ステップＳＴ２３）。即ち、下記に示す距離の
総和ｒが最小となるように、クラスタ中心Ｃ_ｋを更新す
る。ｒ＝Σ_ｗ∈Ｃｋｄｉｓ（ｆ（ｗ），Ｃ_ｋ）

【００４２】次に、確率分布クラスタリング部４の収束
判定部１４は、クラスタ中心更新部１３がクラスタ中心
Ｃ_ｋの更新処理を実行すると、更新の前後において、ク
ラスタ中心Ｃ_ｋに変化があるか否かを判定し、変化がな
ければ更新処理が収束したものと判断し、確率分布クラ
スタリング部４の処理を終了する。一方、変化があれば
更新処理が収束していないものと判断し、ステップＳＴ
２２の処理に戻る（ステップＳＴ２４）。

【００４３】代表分布計算部６は、確率分布クラスタリ
ング部４がクラスタリングを完了すると、各クラスタの
各次元における代表分布Ｐ＿ａｖ（Ｃ）を計算し（ステ
ップＳＴ１４）、その代表分布Ｐ＿ａｖ（Ｃ）を代表分
布記録部７に格納する。ここで、代表分布Ｐ＿ａｖ
（Ｃ）はｎ次元のベクトルであり、クラスタＣ_ｉの代表
分布をＰ＿ａｖ（Ｃ_ｉ）とすると、クラスタＣ_ｉの代表
分布Ｐ＿ａｖ（Ｃ_ｉ）は次のようになる。ただし、Ｎは
クラスタＣ_ｉに所属する接続確率分布ｆ（ｗ）の数、ｊ
はｎの要素である。Ｐ＿ａｖ（Ｃ_ｉ）＝｛Ｐ＿ａｖ（Ｃ_ｉ，ｘ_１），Ｐ＿ａ
ｖ（Ｃ_ｉ，ｘ_２），…，Ｐ＿ａｖ（Ｃ_ｉ，ｘ_ｎ）｝Ｐ＿ａｖ（Ｃ_ｉ，ｘ_ｊ）＝Σ_ｗ∈ＣｉＰ（ｘ_ｊ｜ｗ）／
Ｎ

【００４４】次に、分布偏差計算部８は、各クラスタの
各次元毎に、当該次元に所属する接続確率分布ｆ（ｗ）
の分布偏差、即ち、クラスタ偏差σ（Ｃ）を計算する
（ステップＳＴ１５）。ここで、クラスタ偏差σ（Ｃ）
はｎ次元のベクトルであり、クラスタＣ_ｉの偏差をσ
（Ｃ_ｉ）とすると、クラスタ偏差σ（Ｃ_ｉ）は次のよう
になる。 σ（Ｃ_ｉ）＝｛σ（Ｃ_ｉ，ｘ_１），σ（Ｃ_ｉ，ｘ_２），
…，σ（Ｃ_ｉ，ｘ_ｎ）｝ σ（Ｃ_ｉ，ｘ_ｊ）^２＝Σ_ｗ∈Ｃｉ（（Ｐ＿ａｖ（Ｃ_ｉ，
ｘ_ｊ）−Ｐ（ｘ_ｊ｜ｗ））^２／Ｎ）

【００４５】次に、単語特殊接続検出部９は、代表分布
計算部６により計算された代表分布Ｐ＿ａｖ（Ｃ）と分
布偏差計算部８により計算されたクラスタ偏差σ（Ｃ）
を参照し、各クラスタに所属する接続確率分布ｆ（ｗ）
において、特殊な接続次元を検出する（ステップＳＴ１
６）。即ち、あるクラスタＣに所属する接続確率分布ｆ
（ｗ）の第ｉ次元が下式を満たすときは、第ｉ次元が特
殊接続次元であると判断し、下式を満たさないときは、
第ｉ次元が特殊接続次元でないと判断する。ただし、Ｂ
は１〜６程度の適当な定数であり、実験的に決定する。｜Ｐ＿ａｖ（Ｃ，ｘ_ｉ）−Ｐ（ｘ_ｉ｜ｗ）｜＞σ（Ｃ，
ｘ_ｉ）×Ｂ

【００４６】そして、単語特殊接続検出部９は、第ｉ次
元が特殊接続次元である場合には、第ｉ次元の接続確率
Ｐ（ｘ_ｉ｜ｗ）を変更しないが、第ｉ次元が特殊接続次
元でない場合には、クラスタリングによる情報量を削減
するため、第ｉ次元の接続確率Ｐ（ｘ_ｉ｜ｗ）を代表分
布の接続確率Ｐ＿ａｖ（Ｃ，ｘ_ｉ）に置き換える。

【００４７】ただし、第ｉ次元の接続確率Ｐ（ｘ_ｉ｜
ｗ）を代表分布の接続確率Ｐ＿ａｖ（Ｃ，ｘ_ｉ）に置き
換えると、接続確率の和が“１”にならなくなるので、
各クラスタに所属する接続確率分布ｆ（ｗ）において、
正規化定数Ａ（ｗ）を計算する（ステップＳＴ１７）。

【００４８】

【数２】

【００４９】最後に、単語特殊接続検出部９は、検出し
た特殊接続次元ｉと、その次元の接続確率Ｐ（ｘ_ｉ｜
ｗ）と、正規化定数Ａ（ｗ）とを単語特殊接続記録部１
０に格納する（ステップＳＴ１８）。

【００５０】これにより、言語モデルの作成が完了する
が、その言語モデルを参照して、ｗ _ａ−ｗ_ｂの単語連鎖
の接続確率を推定する場合、特殊接続次元でない場合に
は、Ｐ＿ａｖ（Ｃ_ａ，ｗ_ｂ）／Ａ（ｗ_ａ）を接続確率と
し、特殊接続次元である場合には、Ｐ（ｗ_ｂ｜ｗ_ａ）／
Ａ（ｗ_ａ）を接続確率とする。ただし、単語ｗ_ａはクラ
スタＣ_ａに所属しているものとする。

【００５１】以上で明らかなように、この実施の形態１
によれば、各クラスタの各次元における代表分布と分布
偏差を参照して、各クラスタから特殊接続次元を検出す
るように構成したので、統計的な言語モデルを作成する
際、単語間における特有の接続関係を示す情報を保存す
ることができる効果を奏する。また、第ｉ次元が特殊接
続次元でない場合には、第ｉ次元の接続確率を代表分布
の接続確率に置換するように構成したので、クラスタリ
ングによる情報量を削減することができる効果を奏す
る。

【００５２】なお、この実施の形態１では、単語特殊接
続検出部９等の構成要素を有する統計的言語モデル作成
装置について示したが、これらの構成要素をソフトウエ
ア（構成要素の処理手順を記述したプログラム）で構成
し、そのソフトウエアをコンピュータが読み取り可能な
所定の記録媒体に記述するようにしてもよい。

【００５３】実施の形態２．図５はこの発明の実施の形
態２による統計的言語モデル作成装置を示す構成図であ
り、図において、図１と同一符号は同一または相当部分
を示すので説明を省略する。２１は単語接続確率分布計
算部３により計算された単語の接続確率分布を圧縮する
確率分布圧縮作成部、２２は圧縮後の接続確率分布を予
備クラスタリングする圧縮確率分布クラスタリング部で
ある。なお、確率分布圧縮作成部２１及び圧縮確率分布
クラスタリング部２２はクラスタリング手段を構成す
る。図６はこの発明の実施の形態２による統計的言語モ
デル作成方法を示すフローチャートである。

【００５４】次に動作について説明する。上記実施の形
態１では、語彙数が増加すると単語の接続確率分布と、
その次元数とが増加するので、計算時間が飛躍的に増加
する。例えば、ｎ＝６００００程度の語彙とすると、６
００００次元の接続確率分布が６００００個存在するこ
とになる。そこで、この実施の形態２では、語彙の増加
に伴う処理時間の増大を回避するため、接続確率分布の
次元圧縮を実施するものである。具体的には、以下の処
理を実行する。

【００５５】確率分布圧縮作成部２１は、上記実施の形
態１と同様にして、単語接続確率分布計算部３が単語の
接続確率分布を計算すると、その単語の接続確率分布を
圧縮する（ステップＳＴ３１）。即ち、圧縮前の次元数
（語彙数に等しい）をｎ、圧縮後の次元数をｍとして、
圧縮前の接続確率分布ｆ（ｗ）＝｛Ｐ（ｘ_１｜ｗ），Ｐ
（ｘ_２｜ｗ），…，Ｐ（ｘ_ｎ｜ｗ）｝から圧縮後の接続
確率分布ｚ（ｗ）＝｛Ｑ（１），Ｑ（２），…，Ｑ
（ｍ）｝を作成する。ただし、圧縮後の接続確率分布ｚ
（ｗ）の第ｉ次元であるＱ（ｉ）は次の通りである。

【００５６】

【数３】

【００５７】次に、圧縮確率分布クラスタリング部２２
は、Ｋ平均法などを用いて、圧縮後の接続確率分布ｚ
（ｗ）のクラスタリングを実行して、Ｎ_１個のクラスタ
に分割する（ステップＳＴ３２）。クラスタリングの手
法は上記実施の形態１と同様であるため省略する（ただ
し、次元は異なる）。この処理では、ベクトルの次元数
が少ないので処理の高速化を図ることができる。

【００５８】確率分布クラスタリング部４は、圧縮確率
分布クラスタリング部２２が圧縮後の接続確率分布ｚ
（ｗ）をＮ_１個のクラスタに分割すると、各クラスタ内
において、圧縮前の接続確率分布ｆ（ｗ）をクラスタリ
ングして、Ｎ_２個のクラスタに分割する（ステップＳＴ
３３，ＳＴ３４）。この処理では、クラスタリングの対
象となる確率分布ベクトルの数が圧縮された接続確率分
布に限定されているので、処理の高速化を図ることがで
きる。以後は、上記実施の形態１と同様の処理を実行す
る。

【００５９】以上のような処理を実行して、最終的には
Ｎ_１・Ｎ_２個のクラスタを得るが（ステップＳＴ３５，
ＳＴ３６）が、単語の接続確率分布ｆ（ｗ）を圧縮して
からクラスタリングを実行するので、語彙数が増加して
も、処理時間の大きな増加を招くことなく、クラスタリ
ングを実行することができる効果を奏する。

【００６０】なお、上記実施の形態１，２では、バイグ
ラムの言語モデルを作成する場合について説明したが、
これに限るものではなく、例えば、トライグラムや、よ
り高次のＮ−グラムの言語モデルも同様に作成すること
ができる。

【００６１】実施の形態３．図７はこの発明の実施の形
態３による統計的言語モデル作成装置を示す構成図であ
り、図において、図１と同一符号は同一または相当部分
を示すので説明を省略する。３１は（Ｎ−１）グラムの
クラスタリング結果を記録する（Ｎ−１）グラムクラス
タ記録部（記録手段）、３２は単語の接続確率分布ｆ
（ｗ）をクラスタリングする際、（Ｎ−１）グラムのク
ラスタリング結果を参照して、Ｎグラムクラスタの予備
選択を実施する確率分布クラスタリング部（クラスタリ
ング手段）である。図８はこの発明の実施の形態３によ
る統計的言語モデル作成方法を示すフローチャートであ
る。

【００６２】次に動作について説明する。この実施の形
態３では、Ｎグラムの言語モデル（Ｎ≧３）を作成する
場合に適用するものであるが、ここでは、Ｎ＝３の言語
モデル、即ち、トライグラムの言語モデルを作成する場
合について説明する。

【００６３】トライグラムの場合、確率分布ベクトル
は、先行単語ｗ_１，ｗ_２の元で、単語ｘが出現する条件
付き確率になるので、下記に示すようなベクトルとな
る。ｆ（ｗ_１，ｗ_２）＝｛Ｐ（ｘ_１｜ｗ_１，ｗ_２），Ｐ（ｘ
_２｜ｗ_１，ｗ_２），…，Ｐ（ｘ_ｎ｜ｗ_１，ｗ_２）｝このとき、Ｐ（ｘ_ｊ｜ｗ_１，ｗ_２）は、単語連鎖頻度を
用いて記述することができる。Ｐ（ｘ_ｊ｜ｗ_１，ｗ_２）＝Ｎ（ｗ_１，ｗ_２，ｘ_ｊ）／Ｎ
（ｗ_１，ｗ_２，＊）ただし、Ｎ（ｗ_１，ｗ_２，＊）は、単語ｗ_１−ｗ_２−＊
という３つ組の連鎖頻度である。また、ｊはｎの要素で
ある。

【００６４】したがって、ｆ（ｗ_１，ｗ_２）のベクトル
の次元はｎ（語彙数）であるが、ベクトルの数はｎの二
乗になるので、語彙数が大きくなれば、ベクトルの数が
飛躍的に増加する。例えば、ｎ＝６００００程度の語彙
とすると、６００００次元のベクトルとなり、３６００
００００００個のクラスタを作成しなければならず、こ
れは現実的ではない。そこで、この実施の形態３では、
この問題を解消するために、クラスタの予備選択を実行
して処理の高速性を高めるものである。具体的には次の
通りである。ただし、本説明に先立つ処理（ステップＳ
Ｔ１１，ＳＴ１２）は、トライグラムとバイグラム（実
施の形態１）の違いを除けば同様であるので、その説明
を省略する。

【００６５】まず、（Ｎ−１）グラムクラスタ記録部３
１は、図１におけるクラスタ記録部５に相当するもので
あり、バイグラムのクラスタリングを実行する際、予
め、所属クラスタ決定部１２により決定された各接続確
率分布ｆ（ｗ）の所属クラスタを記録する。即ち、トラ
イグラムのクラスタリングを実行する前に、バイグラム
のクラスタリング結果を記録する。

【００６６】確率分布クラスタリング部３２は、（Ｎ−
１）グラムクラスタ記録部３１からバイグラムにおける
クラスタリング結果を取得する（ステップＳＴ４１）。
次に、確率分布クラスタリング部３２は、変数ｉ，ｊを
“０”に初期化し（ステップＳＴ４２）、接続確率分布
ｆ（ｗ_ｉ，ｗ_ｊ）が既にクラスタリングされているか否
かをチェックする（ステップＳＴ４３）。

【００６７】接続確率分布ｆ（ｗ_ｉ，ｗ_ｊ）がクラスタ
済みであれば、変数jが単語数（語彙）以上であるか否
かをチェックし（ステップＳＴ４４）、単語数以上でな
ければ、変数jをインクリメントして（ステップＳＴ４
５）、ステップＳＴ４３の処理に戻る。一方、単語数以
上であれば、変数ｉが単語数（語彙）以上であるか否か
をチェックし（ステップＳＴ４６）、単語数以上でなけ
れば、変数ｉをインクリメントして、ｊ＝０とし（ステ
ップＳＴ４７）、ステップＳＴ４３の処理に戻る。単語
数以上であれば、処理を終了する。

【００６８】次に、確率分布クラスタリング部３２は、
ステップＳＴ４３において、クラスタ済みでないと判定
した場合、接続確率分布ｆ（ｗ_ｉ，ｗ_ｊ）を予備選択候
補とし、変数ｋ，ｍを“０”に初期化する（ステップＳ
Ｔ４８）。次に、接続確率分布ｆ（ｗ_ｋ，ｗ_ｍ）が既に
クラスタリングされているか否かをチェックする（ステ
ップＳＴ４９）。

【００６９】接続確率分布ｆ（ｗ_ｋ，ｗ_ｍ）がクラスタ
済みであれば、変数ｍが単語数（語彙）以上であるか否
かをチェックし（ステップＳＴ５３）、単語数以上でな
ければ、変数ｍをインクリメントして（ステップＳＴ５
４）、ステップＳＴ４９の処理に戻る。一方、単語数以
上であれば、変数ｋが単語数（語彙）以上であるか否か
をチェックし（ステップＳＴ５５）、単語数以上でなけ
れば、変数ｋをインクリメントして、ｍ＝０とし、ステ
ップＳＴ４９の処理に戻る。単語数以上であれば、予備
選択を終了して、後述するステップＳＴ５７の処理に進
む。

【００７０】確率分布クラスタリング部３２は、ステッ
プＳＴ４９において、クラスタ済みでなければ、単語ｗ
_ｉと単語ｗ_ｋは、バイグラムのクラスタリングにより、
所属が同一のクラスタに決定されたか否かをチェックす
る（ステップＳＴ５０）。同じクラスタでなければ、接
続確率分布ｆ（ｗ_ｋ，ｗ_ｍ）を予備選択しないものとし
て、ステップＳＴ５３の処理に進む。同じクラスタであ
れば、単語ｗ_ｊと単語ｗ_ｍがバイグラムのクラスタリン
グにより、所属が同一のクラスタに決定されたか否かを
チェックする（ステップＳＴ５１）。同じクラスタでな
ければ、接続確率分布ｆ（ｗ_ｋ，ｗ_ｍ）を予備選択しな
いものとして、ステップＳＴ５３の処理に進む。同じク
ラスタであれば、接続確率分布ｆ（ｗ_ｋ，ｗ_ｍ）を予備
選択したものとして、予備選択候補にする（ステップＳ
Ｔ５２）。

【００７１】確率分布クラスタリング部３２は、予備選
択が終了すると、予備選択候補の接続確率分布ｆ
（ｗ_ｋ，ｗ_ｍ）についてクラスタリングを実行する（ス
テップＳＴ５７）。クラスタリングの詳細については、
上記実施の形態１，２と同様であるため説明を省略す
る。また、以降の処理は上記実施の形態１，２と同様で
あるため説明を省略する。

【００７２】以上で明らかなように、この実施の形態３
によれば、（Ｎ−１）グラムクラスタ記録部３１により
記録されている（Ｎ−１）グラムのクラスタリング結果
を参照して、Ｎグラムクラスタの予備選択を実施するよ
うに構成したので、クラスタリングするベクトルの数を
減少させることができるようになり、その結果、処理の
高速化を図ることができる効果を奏する。

【００７３】実施の形態４．図９はこの発明の実施の形
態４による統計的言語モデル作成装置を示す構成図であ
り、図において、図１と同一符号は同一または相当部分
を示すので説明を省略する。４１は上位のモジュール
（図示せず）から連鎖確率を推定する先行単語ｗ_ｉと後
続単語ｗ_ｊを取得する単語取得部、４２は先行単語ｗ_ｉ
と後続単語ｗ_ｊがコーパスに存在するか否かを確認する
コーパス出現確認部、４３はクラスタ−クラスタ間の連
鎖頻度を計算するクラスタ連鎖計数部、４４はクラスタ
連鎖計数部４３により計算された連鎖頻度が０であれ
ば、バックオフ係数に重みを付加する重み設定部であ
る。なお、単語取得部４１、コーパス出現確認部４２、
クラスタ連鎖計数部４３及び重み設定部４４により重み
付加手段が構成されている。図１０はこの発明の実施の
形態４による統計的言語モデル作成方法を示すフローチ
ャートである。

【００７４】次に動作について説明する。この実施の形
態４は、上記実施の形態１〜３において作成された言語
モデルを用いて、コーパスにない単語連鎖の連鎖確率を
推定するものである。

【００７５】コーパスにない単語連鎖の連鎖確率は、Ｐ
（ｘ｜ｗ）＝Ｎ（ｗ，ｘ）／Ｎ（ｗ，＊）から明らかな
ように、“０”になるが、コーパスに偶々存在しないだ
けで、実際にはあり得る単語連鎖も存在するので、連鎖
確率を“０”にするのは適当でない。

【００７６】そこで、コーパスにない単語連鎖の連鎖確
率を推定する場合、一般的にはバックオフ処理を実行す
る。バックオフとは、「音声情報処理」（北研二，中村
哲，永田昌明共著，森北出版株式会社，１９９６年）の
ｐ３４に記載されているように、コーパスに存在する単
語連鎖確率の和を“１”より小さく見積もり、残りをコ
ーパスにない単語連鎖の連鎖確率に割り当てる近似方法
である。即ち、バックオフ係数として適当な分配関数α
を定めて、コーパスに存在しない単語連鎖の確率Ｐ（ｗ
_ｊ｜ｗ_ｉ）を下記に示すように近似するものである。Ｐ（ｗ_ｊ｜ｗ_ｉ）＝α・Ｐ（ｗ_ｊ）

【００７７】この実施の形態４では、以下に示すような
バックオフ処理を実行する。まず、単語取得部４１は、
上位のモジュール（図示せず）から連鎖確率を推定する
先行単語ｗ_ｉと後続単語ｗ_ｊを取得する（ステップＳＴ
６１）。次に、コーパス出現確認部４２は、先行単語ｗ
_ｉと後続単語ｗ_ｊがコーパスに存在するか否かを確認す
る（ステップＳＴ６２）。即ち、Ｎ（ｗ_ｉ，ｗ_ｊ）＞０
であるか否かを判定する。

【００７８】クラスタ連鎖計数部４３は、Ｎ（ｗ_ｉ，ｗ
_ｊ）＞０であれば、コーパスに存在するので、上記実施
の形態１にしたがった単語連鎖の確率Ｐ（ｗ_ｊ｜ｗ_ｉ）
を出力する（ステップＳＴ６３）。一方、Ｎ（ｗ_ｉ，ｗ
_ｊ）＝０であれば、コーパスに存在しないので、クラス
タ記録部５に記録されているクラスタリング結果を参照
してクラスタ連鎖を計数し、上記実施の形態１のような
クラスタリングを実行した場合に、接続確率分布ｆ（ｗ
_ｉ）が属するクラスタをＣ_ｉなどとして、クラスタ−ク
ラスタ間の連鎖頻度Ｎ（Ｃ_ｉ，Ｃ_ｊ）を計算する（ステ
ップＳＴ６４）。Ｎ（Ｃ_ｉ，Ｃ_ｊ）＝Σ_{ｗｉ∈Ｃｉ，ｗｊ∈Ｃｊ}Ｎ
（ｗ_ｉ，ｗ_ｊ）

【００７９】ここで、クラスタ−クラスタ間の連鎖頻度
Ｎ（Ｃ_ｉ，Ｃ_ｊ）は、似ている単語グループから、別の
似ている単語グループへの連鎖頻度と考えることができ
る。Ｎ（Ｃ_ｉ，Ｃ_ｊ）＝０の場合、クラスタＣ_ｉに所属
する何れかの単語ｗ_ｉから、クラスタＣ_ｊに所属する何
れかの単語ｗ_ｊに連鎖する可能性は極めて小さいことを
意味している。一方、Ｎ（Ｃ_ｉ，Ｃ_ｊ）＞０の場合は、
Ｎ（ｗ_ｉ，ｗ_ｊ）＝０であっても、他の似ている単語は
連鎖しているため、先行単語ｗ_ｉと後続単語ｗ _ｊは連鎖
する可能性があることを意味している。

【００８０】そして、重み設定部４４は、バックオフ係
数である分配関数αを調整するため、Ｎ（Ｃ_ｉ，Ｃ_ｊ）
＝０の場合、適当な重み係数Ｒ（０＜Ｒ＜１）を定め
て、下記に示す単語連鎖の確率Ｐ（ｗ_ｊ｜ｗ_ｉ）を出力
する（ステップＳＴ６５，ＳＴ６６）。Ｐ（ｗ_ｊ｜ｗ_ｉ）＝α・Ｒ・Ｐ（ｗ_ｊ）一方、Ｎ（Ｃ_ｉ，Ｃ_ｊ）＞０の場合、下記に示す単語連
鎖の確率Ｐ（ｗ_ｊ｜ｗ _ｉ）を出力する（ステップＳＴ６
５，ＳＴ６７）。Ｐ（ｗ_ｊ｜ｗ_ｉ）＝α・Ｐ（ｗ_ｊ）

【００８１】以上で明らかなように、この実施の形態４
によれば、コーパスに存在しない単語連鎖の連鎖確率を
推定する場合に備えて、記録されている各クラスタ間の
連鎖頻度を計算し、その連鎖頻度が０であれば、バック
オフ係数に重みを付加するように構成したので、コーパ
スに存在せず、接続する可能性が極めて低い単語連鎖は
小さくなり、その結果、言語モデルの性能が向上する効
果を奏する。

【００８２】

【発明の効果】以上のように、この発明によれば、各ク
ラスタの各次元における代表分布と分布偏差を参照し
て、各クラスタから特殊接続次元を検出する検出手段を
設けるように構成したので、統計的な言語モデルを作成
する際、単語間における特有の接続関係を示す情報を保
存することができる効果がある。

【００８３】この発明によれば、検出手段が特殊接続次
元以外の次元の接続確率を代表分布の接続確率に置換す
るように構成したので、クラスタリングによる情報量を
削減することができる効果がある。

【００８４】この発明によれば、クラスタリング手段が
単語の接続確率分布を圧縮して、圧縮後の接続確率分布
を予備クラスタリングし、各予備クラスタ内において圧
縮前の接続確率分布をクラスタリングするように構成し
たので、語彙数が増加しても、処理時間の大きな増加を
招くことなく、クラスタリングを実行することができる
効果がある。

【００８５】この発明によれば、クラスタリング手段が
記録手段により記録されている（Ｎ−１）グラムのクラ
スタリング結果を参照して、Ｎグラムクラスタの予備選
択を実施するように構成したので、クラスタリングする
ベクトルの数を減少させることができるようになり、そ
の結果、処理の高速化を図ることができる効果がある。

【００８６】この発明によれば、コーパスに存在しない
単語連鎖の連鎖確率を推定する場合に備えて、記録手段
により記録されている各クラスタ間の連鎖頻度を計算
し、その連鎖頻度が０であれば、バックオフ係数に重み
を付加する重み付加手段を設けるように構成したので、
コーパスに存在せず、接続する可能性が極めて低い単語
連鎖を小さくすることができる結果、言語モデルの性能
を高めることができる効果がある。

【００８７】この発明によれば、各クラスタの各次元に
おける代表分布と分布偏差を参照して、各クラスタから
特殊接続次元を検出するように構成したので、統計的な
言語モデルを作成する際、単語間における特有の接続関
係を示す情報を保存することができる効果がある。

【００８８】この発明によれば、特殊接続次元以外の次
元の接続確率を代表分布の接続確率に置換するように構
成したので、クラスタリングによる情報量を削減するこ
とができる効果がある。

【００８９】この発明によれば、単語の接続確率分布を
圧縮して、圧縮後の接続確率分布を予備クラスタリング
し、各予備クラスタ内において圧縮前の接続確率分布を
クラスタリングするように構成したので、語彙数が増加
しても、処理時間の大きな増加を招くことなく、クラス
タリングを実行することができる効果がある。

【００９０】この発明によれば、記録されている（Ｎ−
１）グラムのクラスタリング結果を参照して、Ｎグラム
クラスタの予備選択を実施するように構成したので、ク
ラスタリングするベクトルの数を減少させることができ
るようになり、その結果、処理の高速化を図ることがで
きる効果がある。

【００９１】この発明によれば、コーパスに存在しない
単語連鎖の連鎖確率を推定する場合に備えて、記録され
ている各クラスタ間の連鎖頻度を計算し、その連鎖頻度
が０であれば、バックオフ係数に重みを付加するように
構成したので、コーパスに存在せず、接続する可能性が
極めて低い単語連鎖を小さくすることができる結果、言
語モデルの性能を高めることができる効果がある。

【００９２】この発明によれば、各クラスタの各次元に
おける代表分布と分布偏差を参照して、各クラスタから
特殊接続次元を検出する検出処理手順を設けるように構
成したので、統計的な言語モデルを作成する際、単語間
における特有の接続関係を示す情報を保存することがで
きる効果がある。

【図面の簡単な説明】

【図１】この発明の実施の形態１による統計的言語モ
デル作成装置を示す構成図である。

【図２】確率分布クラスタリング部の内部を示す構成
図である。

【図３】この発明の実施の形態１による統計的言語モ
デル作成方法を示すフローチャートである。

【図４】確率分布クラスタリング部の処理を示すフロ
ーチャートである。

【図５】この発明の実施の形態２による統計的言語モ
デル作成装置を示す構成図である。

【図６】この発明の実施の形態２による統計的言語モ
デル作成方法を示すフローチャートである。

【図７】この発明の実施の形態３による統計的言語モ
デル作成装置を示す構成図である。

【図８】この発明の実施の形態３による統計的言語モ
デル作成方法を示すフローチャートである。

【図９】この発明の実施の形態４による統計的言語モ
デル作成装置を示す構成図である。

【図１０】この発明の実施の形態４による統計的言語
モデル作成方法を示すフローチャートである。

【図１１】従来の統計的言語モデル作成方法を示すフ
ローチャートである。

【符号の説明】

１コーパス記録部（確率分布計算手段）、２単語連
鎖頻度計数部（確率分布計算手段）、３単語接続確率
分布計算部（確率分布計算手段）、４確率分布クラス
タリング部（クラスタリング手段）、５クラスタ記録
部（記録手段）、６代表分布計算部（クラスタリング
手段）、７代表分布記録部、８分布偏差計算部（ク
ラスタリング手段）、９単語特殊接続検出部（検出手
段）、１０単語特殊接続記録部（記録手段）、１１
クラスタ中心初期設定部、１２所属クラスタ決定部、１
３クラスタ中心更新部、１４収束判定部、２１確
率分布圧縮作成部（クラスタリング手段）、２２圧縮
確率分布クラスタリング部（クラスタリング手段）、３
１（Ｎ−１）グラムクラスタ記録部（記録手段）、３
２確率分布クラスタリング部（クラスタリング手
段）、４１単語取得部（重み付加手段）、４２コー
パス出現確認部（重み付加手段）、４３クラスタ連鎖
計数部（重み付加手段）、４４重み設定部（重み付加
手段）。

───────────────────────────────────────────────────── フロントページの続き (72)発明者伍井啓恭東京都千代田区丸の内二丁目２番３号三菱電機株式会社内Ｆターム(参考） 5D015 HH12 HH16 9A001 GG05 HH07 HH11 HH17

Claims

【特許請求の範囲】

【請求項１】コーパスに存在する単語の接続確率分布
を計算する確率分布計算手段と、上記確率分布計算手段
により計算された単語の接続確率分布をクラスタリング
して、各クラスタの各次元における代表分布と分布偏差
を計算するクラスタリング手段と、上記クラスタリング
手段により計算された代表分布と分布偏差を参照して、
各クラスタから特殊接続次元を検出する検出手段と、上
記クラスタリング手段のクラスタリング結果を記録する
とともに、上記検出手段により検出された特殊接続次元
の接続確率を記録する記録手段とを備えた統計的言語モ
デル作成装置。
【請求項２】検出手段は、特殊接続次元以外の次元の
接続確率を代表分布の接続確率に置換することを特徴と
する請求項１記載の統計的言語モデル作成装置。
【請求項３】クラスタリング手段は、確率分布計算手
段により計算された単語の接続確率分布をクラスタリン
グする際、その接続確率分布を圧縮して、圧縮後の接続
確率分布を予備クラスタリングし、各予備クラスタ内に
おいて圧縮前の接続確率分布をクラスタリングすること
を特徴とする請求項１記載の統計的言語モデル作成装
置。
【請求項４】クラスタリング手段は、確率分布計算手
段により計算された単語の接続確率分布をクラスタリン
グする際、記録手段により記録されている（Ｎ−１）グ
ラムのクラスタリング結果を参照して、Ｎグラムクラス
タの予備選択を実施することを特徴とする請求項１記載
の統計的言語モデル作成装置。
【請求項５】コーパスに存在しない単語連鎖の連鎖確
率を推定する場合に備えて、記録手段により記録されて
いる各クラスタ間の連鎖頻度を計算し、その連鎖頻度が
０であれば、バックオフ係数に重みを付加する重み付加
手段を設けたことを特徴とする請求項１から請求項４の
うちのいずれか１項記載の統計的言語モデル作成装置。
【請求項６】コーパスに存在する単語の接続確率分布
を計算し、その単語の接続確率分布をクラスタリングし
て、各クラスタの各次元における代表分布と分布偏差を
計算すると、その代表分布と分布偏差を参照して、各ク
ラスタから特殊接続次元を検出し、そのクラスタリング
結果と、その特殊接続次元の接続確率を記録する統計的
言語モデル作成方法。
【請求項７】特殊接続次元以外の次元の接続確率を代
表分布の接続確率に置換することを特徴とする請求項６
記載の統計的言語モデル作成方法。
【請求項８】単語の接続確率分布をクラスタリングす
る際、その接続確率分布を圧縮して、圧縮後の接続確率
分布を予備クラスタリングし、各予備クラスタ内におい
て圧縮前の接続確率分布をクラスタリングすることを特
徴とする請求項６記載の統計的言語モデル作成方法。
【請求項９】単語の接続確率分布をクラスタリングす
る際、記録されている（Ｎ−１）グラムのクラスタリン
グ結果を参照して、Ｎグラムクラスタの予備選択を実施
することを特徴とする請求項６記載の統計的言語モデル
作成方法。
【請求項１０】コーパスに存在しない単語連鎖の連鎖
確率を推定する場合に備えて、記録されている各クラス
タ間の連鎖頻度を計算し、その連鎖頻度が０であれば、
バックオフ係数に重みを付加することを特徴とする請求
項６から請求項９のうちのいずれか１項記載の統計的言
語モデル作成方法。
【請求項１１】コーパスに存在する単語の接続確率分
布を計算する確率分布計算処理手順と、上記確率分布計
算処理手順により計算された単語の接続確率分布をクラ
スタリングして、各クラスタの各次元における代表分布
と分布偏差を計算するクラスタリング処理手順と、上記
クラスタリング処理手順により計算された代表分布と分
布偏差を参照して、各クラスタから特殊接続次元を検出
する検出処理手順と、上記クラスタリング処理手順のク
ラスタリング結果を記録するとともに、上記検出処理手
順により検出された特殊接続次元の接続確率を記録する
記録処理手順とを備えた統計的言語モデル作成プログラ
ムが記述された記録媒体。