JPH10319989A

JPH10319989A - 統計的言語モデル及びその作成方法

Info

Publication number: JPH10319989A
Application number: JP9127061A
Authority: JP
Inventors: Shoichi Matsunaga; 昭一松永
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-05-16
Filing date: 1997-05-16
Publication date: 1998-12-04

Abstract

(57)【要約】【課題】単語間の局所的関係のみならず大局的関係も
捕えて音声認識を行うことができ、かつ記憶容量も小と
することができる。【解決手段】テキストデータを当間にもとづき、初期
クラスタに分け（Ａ１）、出現済との高い順に所定数
（５０）の単語（列）を選択し（Ａ２）、その各１つに
ついてクラスタより分離してクラスタ候補を作り（Ａ
４）、また接続可能な各単語（列）と接続してクラスタ
候補を作り（Ａ５）かつ、これらクラスタ候補をＰ（ｗ
_i｜Ｃ_i）Ｐ（ｗ_i｜ｗ_i-1，Ｒ_i-1）、つまりクラス
タＣ_iでのｗ_iの出現確率と、ｗ_i-1とそのカテゴリ
（自立語か付属語）と異なるカテゴリで最も近いクラス
タＲ_i-1とに対するｗ_iの出現確率との積を基準とし
て、各クラスタ候補の最良のものを求めて、これを新た
なクラスタとし（Ａ６）、クラスタ数が所定数となるま
で、Ａ２〜Ａ６を繰返す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、単語列よりなる
音声の認識に利用される統計的言語モデル及びその作成
方法に関する。

【０００２】

【従来の技術】統計的言語モデルを用いた音声認識は図
５に示すようにして行われている。Ａ／Ｄ変換器１でデ
ジタル信号に変換され、特徴抽出部２においてＬＰＣケ
プストラム分析された後、１フレーム（例えば１０ミリ
秒）ごとに特徴パラメータに変換される。この特徴パラ
メータは、例えばＬＰＣケプストラム係数である。学習
用音声データベースより、上記特徴パラメータと同一形
式で、音素標準パターンを作り、音響モデルメモリ４に
記憶してある。この音素標準パターンは、例えば隠れマ
ルコフモデルによる音素モデルである。また、上記学習
用テキストデータベースより作成された統計的言語モデ
ルが統計的言語モデルメモリ５に記憶してある。

【０００３】音声認識部３ではメモリ５内の、統計的言
語モデルを用いて選出した複数の単語候補について、そ
の単語候補の読みを表わす音素列パターンを標準パター
ンメモリ４から読みだし、入力音声の特徴パラメータの
時系列との類似尤度をそれぞれ求める。また、新たに選
出した単語を含む各仮説の単語系列を、統計的言語モデ
ルメモリ５から読み出し、その生起の尤度をそれぞれ求
める。この類似の尤度と生起の尤度の和を総合尤度と
し、この値の最も高い仮説の単語系列を、認識結果とし
て認識結果出力部６へ出力する。

【０００４】前記統計的言語モデルとしては、文中にお
いて、過去の直前のｎ−１個の連続する単語列から、次
の単語の出現確率を推定する単語ｎ−ｇｒａｍモデル
（バイグラム（ｎ＝２の場合）、トライグラム（ｎ＝３
の場合））は大語彙の連続音声認識においてその有効性
が広く示されている（例えば、Bahl, L. R., Jelinek,
F. & Mercer, R. L. : A maximum likelihood approach
to continuous speechrecognition. IEEE Transaction
on Pattern Analysis and Machine Intelligence PAMI
-5, pp. 179-190(1983)) 。しかしながら、このモデル
は主に局所的な連続する２，３語の制約を表すため、離
れた単語間の大局的な特徴を捕えにくくなる問題があっ
た。また、一般に、日本語の形態素解析を行うと、助詞
や活用などで単語が短く分割され、このモデル化は効率
的とは言えない。ｎを増加させることにより、この問題
を軽減することができるが、統計的言語モデルを格納す
るための容量が膨大になることや大規模なテキストが必
要となるという問題がある。

【０００５】これらの問題に対処するために、大局的特
徴を考慮できるモデルとして、トリガモデルが提案され
ている（例えば、“ A stochastic language model for
speech recognition integrating local and global c
onstraints, ”Proc. ICASSP-94, pp. II-5-II8(199
4))。これらは、離れた単語間の格関係や呼応表現を扱
える要素を持つ。しかし、やはり統計的言語モデルを格
納するための容量が膨大になることや大規模なテキスト
が必要となるという問題がある。

【０００６】一方、ｎを増加させても容量が膨大になら
ないようにするために、可変（単位）長ｎ−ｇｒａｍや
品詞やクラスタリングによるクラスｎ−ｇｒａｍ（例え
ば、政瀧浩和，他：“連続音声認識のための品詞単語可
変長Ｎ−ｇｒａｍ，”音学講論（1996-3）pp. 195-196
(1996))が提案されている。この方法では、容量を低減
することはできるが、離れた単語間の大局的な特徴を捕
えにくくなる問題があり、このモデル化は効率的ではな
いという問題点があった。

【０００７】

【発明が解決しようとする課題】この発明の目的は、以
上の問題点を解決し、局所的な関係のみならず大局的な
関係を捕えて音声認識することを可能とし、かつ記憶容
量が少なく実現できる単語クラスタを用い、かつクラス
タの数と種類を制御して逐次学習により効率的に言語モ
デルを作成する統計的言語モデル作成法と、これにより
作成された統計的言語モデルを提供することにある。

【０００８】

【課題を解決するための手段】この発明による統計的言
語モデルは、単語列ｗ₁，ｗ₂，…，ｗ_i-1が発声され
た後に、単語ｗ_iが発声される確率Ｐ（ｗ_i｜ｗ₁，ｗ
₂，…，ｗ_i-1）が、上記単語ｗ_iもしくはｗ_iの属す
る単語クラスタＣ_iと、その直前の単語ｗ_i-1もしくは
ｗ_i-1の属する単語クラスタＣ_i-1と、直前の単語ｗ
_i-1もしくはそのｗ_i-1が属する単語クラスタのカテゴ
リと異なる上記単語列ｗ_i，ｗ₂，…，ｗ _i-1における
最後部の単語クラスタＲとによって決定されるものであ
る。

【０００９】さらに、この発明に係る請求項２記載の統
計的言語モデルでは、上記確率Ｐ（ｗ_i｜ｗ₁，ｗ₂，
…，ｗ_i-1）が次式で近似されている。Ｐ（ｗ_i｜ｗ₁，ｗ₂，…，ｗ_i-1）〜Ｐ（ｗ_i｜Ｃ_i）・Ｐ（Ｃ_i｜Ｃ_i-1,Ｒ_i-1） …（１）ここでＰ（ｗ_i｜Ｃ_i）は単語クラスタＣ_iで単語ｗ_i
が出現する確率であり、Ｒ_i-1はＣ_i-1の単語クラスタ
のカテゴリと異なるカテゴリでそれより前で最も近い単
語クラスタであり、Ｐ（Ｃ_i｜Ｃ_i-1,Ｒ_i-1）は
Ｃ_i-1，Ｒ_i-1の後にＣ_iが現われる確率である。

【００１０】またさらに、この発明に係る請求項３記載
の統計的言語モデルは、上記単語もしくは単語クラスタ
のカテゴリは自立語、付属語、自立語と付属語の連結語
であることを特徴とし、単語クラスタとそれに属する単
語は同じカテゴリであることを特徴とする。またさら
に、この発明に係る請求項４記載の統計的言語モデルの
作成方法において、単語の属性を考慮して、すべての単
語を複数個のクラスタに分離し、式（１）の確率を初期
状態の統計的言語モデルとして生成する生成過程と、出
現頻度の高い単語群もしくは単語列群を予備的に選択す
る選択過程と、上記生成過程によって生成された初期状
態の統計的言語モデルに対し、上記高頻度の単語の中か
ら一つを選択して単語クラスタから分離して、新しい単
語クラスタ候補を生成すると共に式（１）に基づき指標
を求める分離過程と、上記生成過程によって生成された
統計的言語モデルに対し、上記高頻度の単語の中から一
つ選択した単語を単語結合させて新しい単語クラスタ候
補を生成すると共に式（１）に基づく指標を求める結合
過程と、上記分離過程と上記結合過程を上記高頻度の単
語の全てについて行った後、これら単語クラスタ候補中
のその最良のものを選択して新たな単語クラスタとする
クラスタ生成過程と、統計的言語モデルのクラスタ数が
所望の数になるまで、上記選択過程、上記分離過程、上
記結合過程、上記更新過程を繰り返す繰返し過程とを有
する。

【００１１】

【発明の実施の形態】この発明による音声認識部が用い
る統計的言語モデルについて説明する。統計的言語モデ
ルはテキストデータより作成する。テキストデータの各
単語はあらかじめ自立語と付属語に区別する。文Ｓが単
語列ｗ₁，ｗ₂，…_,ｗ_N（ｗ₁ ^Nと表す）からなると
し、その出現確率はＰ（Ｓ）＝Ｐ（ｗ₁，ｗ₂，…_,ｗ_n）＝Π_i=1 ^NＰ（ｗ_i｜ｗ₁ ^i-1） …（２）で表される。Ｐ（ｗ_i｜ｗ_i ^i-1）はｗ₁，ｗ₂，…_,
ｗ_i-1の系列の次にｗ_iが現われる確率である。

【００１２】ここで、単語ｗ_iの最も近隣の単語のみ
を、局所および大局的制約として考慮する。単語列ｗ₁
^i-1の最も後部の付属語のカテゴリを持つ単語を
ｆ_i-1、自立語のカテゴリを持つ単語をｈ_i-1とする。
また、双方のカテゴリに属する単語も存在するとする。
単語ｗ_iに対して、ｗ_i-1及びｆ_i-1，ｈ_i-1を用いて
Ｐ（ｗ _i｜ｗ_i ^i-1）を以下のように近似する。

【００１３】Ｐ（ｗ_i｜ｗ₁ ^i-1）〜Ｐ（ｗ_i｜
ｗ_i-1，ｈ_i-1，ｆ_i-1）ｆ，ｈの定義によりｗ_i-1はｈ_i-1もしくはｆ_i-1のど
ちらかのカテゴリを必ず持つから、Ｐ（ｗ_i｜ｗ_i-1，ｈ_i-1，ｆ_i-1）＝Ｐ（ｗ_i｜ｗ_i-1，ｆ_i-1），ｗ_i-1が自立語のカテゴリの場合Ｐ（ｗ_i｜ｗ_i-1，ｈ_i-1），ｗ_i-1が付属語のカテゴリの場合Ｐ（ｗ_i｜ｗ_i-1，ｗ_i-2），ｗ_i-1が双方のカテゴリの場合と記述できる。

【００１４】つまり１つ前の単語ｗ_i-1と、かつ、その
単語ｗ_i-1のカテゴリと異なるカテゴリで、そのｗ_i-1
に最も近い単語に対し、単語ｗ_iが出現する確率として
Ｐ（ｗ_i｜ｗ₁ ^i-1）を近似する。ｗ_i-1に対しｗ_iが
出現する確率は従来のバイグラムであり、局所的制約を
しており、ｆ_i-1又はｈ_i-1に対しｗ_iが出現する確率
は大局的制約をしており、Ｐ（ｗ_i｜ｗ_i-1，ｆ
_i-1（又はｈ_i-1））は局所的制約と大局的制約を同時
に行っている。

【００１５】単語列ｗ₁，ｗ₂，…，ｗ₈の各単語のカ
テゴリが図２Ｃに示す場合、ｗ₈についてみるとその前
の単語ｗ₇のカテゴリがｈであるから、ｆ_i-1はｗ₅と
なり、ｗ₇についてみるとその前の単語ｗ₆のカテゴリ
がｈであるから、ｆ_i-1はｗ ₅となり、単語ｗ₆につい
てみるとその前ｗ₅のカテゴリはｆであるからｈ_i-1は
ｗ₃となる。このようにＰ（ｗ_i｜ｗ_i-1，ｆ_i-1（又
はｈ_i-1））は注目の単語に対し、ある程度離れ、かつ
直前の単語のカテゴリと異なる単語による制約を受ける
ことになる。

【００１６】次に、容量の削減のために単語クラスを用
いて、以下の様に近似を行う。Ｐ（ｗ_i｜ｗ₁，ｗ₂，…，ｗ_i-1）〜Ｐ（ｗ_i｜Ｃ_i）・Ｐ（Ｃ_i｜Ｃ_i-1,Ｒ_i-1） …（３）ここで、Ｃ_iはｗ_iの属する単語クラスタであって、単
語クラスタに属する単語は、全て自立語もしくは全て付
属語であるように同一カテゴリとして複数のクラスタを
設定し、たとえば、品詞情報を用いることが、一つの方
法であり、Ｒ_i-1はｈ_i-1もしくはｆ_i-1の属する単語
クラスタであって、Ｃ_i-1のカテゴリと異なるものであ
る。

【００１７】次にこの発明による統計的言語モデルの作
成方法の実施例を図１を用いて説明する。ステップＡ１
では初期単語クラスタを例えば品詞情報により設定す
る。ステップＡ２では出現頻度の高い単語もしくは単語
列を、すべての単語（列）の中から選ぶ（例えば、出現
頻度の高い２００個）。

【００１８】次にステップＡ３では、ステップＡ２で選
択した単語（列）を１個づつ順に選択する。すべての単
語もしくは単語列を選択し終えた場合にはステップＡ６
に進む。ステップＡ４ではステップＡ３で選択した一つ
の単語（列）を選択して単語クラスタから分離し、例え
ば図２Ａに示すように単語クラスタＣ_mから単語（列）
ｗ_nを分離し、ｗ_nよりなる新たな単語クラスタ（候
補）と、Ｃ_mからｗ_nを除去した単語クラスタＣ_m−ｗ
_nとする。このようにして新しくクラスタ候補を生成す
る場合のペナルティーを計算する。このときのペナルテ
ィーの計算は、例えば式（４）で計算する。

【００１９】 −Σ_i.jＰ（Ｃ_i,Ｒ_j) Σ_kＰ（ｗ_k｜Ｃ_i）Ｐ（Ｃ_i｜Ｃ_i-1,Ｒ_j） log(Ｐ（ｗ_k｜Ｃ_i）Ｐ（Ｃ_i｜Ｃ_i-1,Ｒ_j）） …（４）ここで単語ｗ_kは単語クラスタＣ_iを構成する単語であ
り、Ｃ_i-1はｗ_kの直前の単語のクラスタ、Ｒ_jはｗ_k
と大局的関係を持つ単語のクラスタであり、前記例では
Ｃ_i-1のカテゴリと異なるカテゴリでＣ_i-1より前でこ
れに最も接近しているものである。このペナルティーの
計算は統計的言語モデルの作成で用いられるエントロピ
ーを最小化する手法に準拠したものであり、（Ｐ（ｗ_k
｜Ｃ_i）Ｐ（Ｃ_i｜Ｃ_i-1，Ｒ_j）の期待値が最大にな
るような指標を与えるものであればよい。

【００２０】このステップＡ３で計算したペナルティー
と対応した選択単語（列）とを記憶してステップＡ３へ
戻る。ステップＡ５ではステップ２において選択した単
語（列）の一つを選択して、テキストデータ中のこれと
接続するすべての単語に対して、連続する単語を結合し
て一つの単語（列）とした場合の、ペナルティーを式
（４）で計算する。そして、単語列のペナルティーが最
も小さくなる単語（列）対とその値を記憶しておき、ス
テップＡ３に戻る。このとき、自立語と自立語が結合し
た場合には、カテゴリを自立語とする。付属語と付属語
が結合した場合には、カテゴリーを付属語とする。自立
語と付属語が結合した場合には、カテゴリーは自立語と
付属語の双方とする。自立語と付属語の双方のカテゴリ
ーをもつ単語列と、単語もしくは単語列が結合した場合
には、カテゴリーは自立語と付属語の双方とする。この
単語（列）より、単語クラスタは例えば図２Ｂに示すよ
うに、選択された単語（列）ｗ_mと、単語（列）ｗ_nと
を結合することにより、新たな単語列ｗ_mｗ_n＝ｗ_mnを
含む単語クラスタ（候補）が、単語（列）ｗ_mを含む単
語クラスタ、単語（列）ｗ_nを含む単語クラスタの他に
生成されることになる。

【００２１】ステップＡ６では、ステップＡ２で選択し
たすべての単語（列）中で、ステップＡ４の計算および
ステップＡ５の計算の中で、最もペナルティーの低くな
る場合の記憶していた単語もしくは単語列について、単
語の単語クラスタからの分離、もしくは単語（列）の結
合を実行する。この操作により、実際に単語クラスタ数
が一つ増えることになる。

【００２２】ステップＡ７では、単語クラスタ数が所望
の数にまで増加した場合には処理を終了する。そうでな
い場合には、ステップＡ２に戻り、新しく高頻度単語
（列）を選ぶ。図３はモデル作成の途中段階における単
語クラスタの分割（Ｃ₃，Ｃ₄，Ｃ₅）と単語の結合
（ｗ₃，ｗ₄）の例、及び単語ｗ₅，ｗ₆での確率の値
を示している。

【００２３】ステップＢ１は初期状態の文の単語列と、
各単語の属するクラスタとカテゴリーを示している。こ
のときの単語ｗ₅の出現確率は、Ｐ（ｗ₅｜Ｃ₅）Ｐ
（Ｃ₅｜Ｃ₄，Ｃ₁）となることを示している。ステッ
プＢ２では単語ｗ₃がクラスタＣ₃から分割され、単語
ｗ₃の単語クラスタが１つ増加し、更に処理を進めた結
果、単語ｗ₄がクラスタＣ₄から分割され、単語ｗ₄の
単語クラスタが増加した状態を示している。

【００２４】ステップＢ３は単語ｗ₃とｗ₄が結合した
単語クラスタが増加した状態と、ステップＢ４は単語ｗ
₅がクラスタＣ₅から分割されて単語ｗ₅の単語クラス
タが生成した状態をそれぞれ示し、このときの単語ｗ₅
の出現確率は、Ｐ（ｗ_k｜Ｃ _i）＝Ｐ（ｗ_3,4｜
ｗ_3,4）＝１であるからＰ（ｗ₅｜ｗ_3,4，Ｃ₁）とな
る。本発明者は、以上説明したこの実施例の統計的言語
モデルを用いてパープレキシティーによる評価を行うた
めに、シミュレーションを行った。パープレキシティー
の小さい言語モデルが、より良い音声認識性能を得るこ
とができることが知られているため、パープレキシティ
ーの値を従来の統計的言語モデルと比較することでこの
発明の能力は、音声認識実験を行わなくとも明らかにな
る。

【００２５】実験は自由発話データベースの旅行会話の
書き起しを用いて行った。使用したデータは、２．２×
１０⁴文章、３．５×１０⁴単語よりなり、異なり語彙
数は６．４×１０³である。初期値の単語クラスタのク
ラス数は８０である。モデルの評価は同じ旅行会話の別
のテキスト４９０文章、７．４×１０³単語を用いて行
った。この発明のモデルの性能と従来のモデル（バイグ
ラム、トライグラム、大局的制約を用いない場合の統計
的言語モデル、及び単語クラスタを用いないで大局的制
約を用いた言語モデル）との比較を図４に示す。この発
明ではクラス数を増加させることでパープレキシティを
より低下させることができた。比較的、容量が少ない状
態で、パープレキシティはクラス数２４０でほぼバイグ
ラムと等価となり、４６０クラスでトライグラムを下回
る。また、大局的制約を用いない場合の統計的言語モデ
ル、及び単語クラスタを用いないで大局的制約を用いた
言語モデルよりも小さくなり、この発明による統計的言
語モデルがより優れていることを示している。

【００２６】以上説明したように、この発明の統計的言
語モデルを用いると文中の、局所的な関係のみならず大
局的な関係を捕えて音声認識ができ、かつ記憶容量が少
なく実現できる単語クラスタを用い、そのクラスタの数
と種類を制御して逐次学習により言語モデルを効率的に
作成することができる。

【００２７】

【発明の効果】以上、詳述したように、この発明によれ
ば、文中の、局所的な関係のみならず大局的な関係を捕
えることで、言語モデルによる次単語の予測能力を向上
させ、また、記憶容量が少なく実現できる単語クラスタ
を用いることで、記憶容量を押さえ、さらにクラスタの
数と種類を制御して逐次学習により効率的に言語モデル
を作成することができ、単語クラスタを適切に設定でき
るため、所望の大きさもしくは予測制度に応じた統計的
言語モデルを提供できる。

【図面の簡単な説明】

【図１】この発明による言語モデル生成処理の実施例を
示すフローチャート。

【図２】Ａは分離による単語クラスタの生成を示す図、
Ｂは結合による単語クラスタの生成を示す図、Ｃは文中
の大局的制約の例を示す図である。

【図３】図１の統計的言語モデルの生成処理の過程にお
ける確率値の例を示した図。

【図４】この発明のモデルと従来のモデルとの評価実験
シミュレーションの結果を示す図。

【図５】統計的言語モデルを用いた音声認識装置の機能
構成を示す図。

Claims

【特許請求の範囲】

【請求項１】単語列ｗ₁，ｗ₂，…，ｗ_i-1の後に、
単語ｗ_iが出現する確率Ｐ（ｗ_i｜ｗ₁，ｗ₂，…，ｗ
_i-1）が、上記単語ｗ_iもしくはｗ_iの属する単語クラスタＣ
_iと、上記単語ｗ_iの直前の単語ｗ_i-1もしくはｗ_i-1の属す
る単語クラスタＣ_i-1と、上記単語列ｗ_i，ｗ₂，…，ｗ_i-1における直前の単語
もしくはその単語の属する単語クラスタのカテゴリと異
なるそれより前のカテゴリの単語クラスタＲと、によって決定されることを特徴とする統計的言語モデ
ル。
【請求項２】上記確率Ｐ（ｗ_i｜ｗ₁，ｗ₂，…，ｗ
_i-1）が次の式で近似されていることを特徴とする請求
項１記載の統計的言語モデル。Ｐ（ｗ_i｜Ｃ_i）・Ｐ（Ｃ_i｜Ｃ_i-1,Ｒ_i-1）Ｐ（ｗ_i｜Ｃ_i）は単語クラスタＣ_iに単語ｗ_iが出現
する確率、Ｒ_i-1は単語クラスタＣ_i-1のカテゴリと異
なるカテゴリのそれより前の最初の単語クラスタ、Ｐ
（Ｃ_i｜Ｃ_i-1,Ｒ_i-1）はＣ_i-1かつＲ_i-1に対し、Ｃ
_iの出現確率である。
【請求項３】上記単語もしくは単語クラスタのカテゴ
リは自立語、付属語、自立語と付属語の連結語であるこ
とを特徴とし、単語クラスタとそれに属する単語は同じ
カテゴリであることを特徴とする請求項１又は２記載の
統計的言語モデル。
【請求項４】テキストデータを、単語の属性を考慮し
て、すべての単語を複数個の単語クラスタに分離する生
成過程と、出現頻度の高い単語群もしくは単語列群を予備的に選択
する選択過程と、上記高頻度の単語又は単語列の中から一つを選択して単
語クラスタから分離し、新しい単語クラスタ候補を生成
すると共にその指標を請求項２の式に基づき求める分離
過程と、上記高頻度の単語又は単語列の中から一つを選択して単
語又は単語列と結合させて新しい単語クラスタ候補を生
成すると共にその指標を請求項２の近似式にもとづいて
求める結合過程と、上記選択された単語又は単語列の全てについて上記分離
過程および上記結合過程によりそれぞれ生成した単語ク
ラスタ候補中の最も指標の大きいものと対応する単語ク
ラスタ候補を単語クラスタとする単語クラスタ生成過程
と、上記選択過程、上記分離過程、上記結合過程、上記クラ
スタ生成過程とのクラスタ数が所望の数までなるまで繰
り返して、統計的言語モデルを生成する繰り返し過程と
を有する統計的言語モデル作成方法。