JPH1185179A - 統計的言語モデルの作成方法 - Google Patents

統計的言語モデルの作成方法

Info

Publication number
JPH1185179A
JPH1185179A JP9250356A JP25035697A JPH1185179A JP H1185179 A JPH1185179 A JP H1185179A JP 9250356 A JP9250356 A JP 9250356A JP 25035697 A JP25035697 A JP 25035697A JP H1185179 A JPH1185179 A JP H1185179A
Authority
JP
Japan
Prior art keywords
word
class
language model
words
statistical language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9250356A
Other languages
English (en)
Inventor
Shoichi Matsunaga
昭一 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9250356A priority Critical patent/JPH1185179A/ja
Publication of JPH1185179A publication Critical patent/JPH1185179A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 連続音声認識用のより高度な統計的言語モデ
ルを作成するための、より優れた初期クラスを提供す
る。 【解決手段】 単語列w1,w2,・・・,wi-1が発声
された後に、単語wiが発声される確率P(wi|w1
2,・・・,wi-1)を、単語wiの属する単語クラス
タCiを用いて確率P(wi|Ci)P(Ci|C1,C2
・・・,Ci-1)と近似して求める統計的言語モデルに
おいて、クラスタの初期セットを品詞等の言語的知識と
単語間の距離に基づき自動クラスタリングにより設定す
る。また、クラスタリングで、当該単語の直前直後の単
語の出現頻度分布の違いの大きさを単語間距離として設
定する。さらに、クラスタリングで、クラス分割をクラ
スバイグラムのエントロピー基準で繰り返し分割してい
き、初期クラスを設定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大語彙の連続音声
認識などに用いられる統計的言語モデル(単語n-gramモ
デル)の作成方法に関する。
【0002】
【従来の技術】文中において、過去の直前のn−1個の
連続する単語列から、次の単語の出現確率を推定する単
語n-gramモデル(バイグラム(n=2の場合)、トライ
グラム(n=3の場合)など)は統計的言語モデルとし
て、大語彙の連続音声認識においてその有効性が広く示
されている(例えば、Bahl,L.R.,Jelinek,F.
& Mercer,R.L.:A maximum likelihood approach
to continuous speechrecognition.IEEE Transa
ction on Pattern Analysis and MachineIntellige
nce PAMI−5,pp.179−190(198
3))。しかしながら、このモデルは主に局所的な連続
する2,3語の制約を表すため、離れた単語間の大局的
な特徴を捕えにくくなる問題があった。また、一般に、
日本語の形態素解析を行うと、助詞や活用などで単語が
短く分割され、このモデル化は効率的とは言えない。n
を増加させることにより、この問題を軽減することがで
きるが、統計的言語モデルを格納するための容量が膨大
になることや大規模なテキストが必要となるという問題
がある。
【0003】従来、nを増加させても容量が膨大になら
ないようにする方法として、品詞やクラスタリングによ
るクラスn-gramがある(例えば、政瀧浩和,他:“連続
音声認識のための品詞単語可変長N-gram”音学講論
(1996−3)pp.195−196(1996))。
しかし、この方法では、容量を低減することはできる
が、nが大きくなるとクラス設定の処理量が膨大にな
り、また、特定のタスクにチューニングされた言語モデ
ルのクラスとなり、他のタスクへ適用できる頑健なモデ
ルとはなりにくいという問題があった。また、より高度
な統計的言語モデルを作成する初期クラスの設定法とし
て、従来は、品詞等の先見的言語知識を用いているが、
それだけでは適切なモデルの初期値とはならなかった。
【0004】
【発明が解決しようとする課題】本発明の目的は、上記
従来の問題点を解決し、より高度な統計的言語モデルを
作成するための初期クラスを、品詞等の先見的な言語知
識と自動クラスタリングをもとに作成する方法を提供す
ることにある。
【0005】
【課題を解決するための手段】本発明は、単語列w1
2,・・・,wi-1が発声された後に、単語wiが発声
される確率P(wi|w1,w2,・・・,wi-1)を、単
語wiの属する単語クラスタCiを用いて確率P(wi
i)P(Ci|C1,C2,・・・,Ci-1)と近似して
求める統計的言語モデルにおいて、クラスタCiの初期
セットを品詞等の言語的知識と単語間の距離に基づいて
自動クラスタリングにより設定することを特徴とする。
【0006】また、本発明は、上記クラスタリングにお
いて、単語間の距離を当該単語の直前直後の単語の出現
頻度分布の違いの大きさを、単語間距離として設定する
ことを特徴とする。
【0007】さらに、本発明は、上記クラスタリングに
おいて、クラス分割をクラスバイグラムのエントロピー
基準で繰り返し分割していき、初期クラスを設定するこ
とを特徴とする。
【0008】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1は、本発明の一実施
形態である連続音声認識システムのブロック図を示す。
図1において、話者の発声した音声信号はA/D変換部
1でデジタルデータに変換された後、特徴抽出部2で音
声の音響特徴パラメータを抽出する。特徴パラメータの
時系列は音声認識部3に入力される。音声認識部3で
は、音響モデル(例えば、隠れマルコフモデル)4およ
び高次の統計的言語モデル(単語n-gramモデル)5を用
いて認識を行い、より高い尤度を持つ単語列を音声認識
結果として出力する。この高次の統計的言語モデル5
は、本発明により作成された言語モデルの初期クラス6
を用いて作成する。
【0009】以下に、本発明による、統計的言語モデル
の初期クラスの作成方法について説明する。言語モデル
はテキストデータより作成する。各単語はあらかじめ自
立語と付属語、あるいは品詞等の先見的知識が付与され
ている。文Sが単語列w1,w2,・・・,wN(w1 N
表す)からなるとし、その確率は次の数1で表される。
【0010】
【数1】
【0011】上記数1を、単語クラスを用いて、次の数
2の様に近似を行う。これにより、言語モデルに要する
容量が大幅に削減される。
【0012】
【数2】
【0013】ここで、Ciは単語wiの属する単語クラス
である。従来は、単語クラスの初期クラスとしては、単
語クラスに属する単語を、自立語もしくは付属語ごとに
複数のクラスタを設定する場合が多い。たとえば、品詞
情報を用いることが、一つの方法である。
【0014】上記単語クラスの初期クラスの設定を、先
見的言語知識によるクラス分類の情報を保持したまま、
以下の逐次学習方法でより、精度良いモデルとすること
ができる。ここで、エントロピ基準でクラスを設定する
が、ここでは初期クラスの設定であるから、最も影響の
大きい直前の単語クラスのみの影響を考慮する。即ち、
クラスバイグラムを用いたエントロピが小さくなるよう
に近似する。即ち、初期クラスの設定のための確率は、
次の数3のようになる。
【0015】
【数3】
【0016】図2に、本発明による統計的言語モデルの
初期クラスの生成処理フローチャートを示す。なお、図
2の処理は、実際には、いわゆるコンピュータ上で自動
的に実行されるものである。以下、図2の各ステップに
ついて説明する。
【0017】ステップS1では、テキストデータを使用
して、先見的言語知識によるクラス分類を行う。これに
より、クラス数Gのモデルを作成する。例えば、自立語
と付属語の二クラスの場合にはG←2とする。その後、
ステップS2で、分割するクラスの候補を一つ選択す
る。これをgとする。
【0018】次に、ステップS3では、g番目のクラス
の二分割を行うと仮定した場合の、クラスの分割後の中
心となる単語(以後、中心単語と呼ぶ)gj,glを定
め、その分割によるエントロピの値Hgを試算する。こ
の設定においては、クラス内の二つの異なる単語x,y
の距離dis(x,y)を、それぞれの単語の後に生起す
る単語kの頻度分布のKullback距離 disa(x,y)=Σk(p(k|x)−p(k|y))・(logp(k|x)
−logp(k|y)) (p(k|x)は単語xの後に単語kが出現する条件付
き確率)および、それぞれの単語の前に生起する単語h
の頻度分布のKullback距離 disb(x,y)=Σh(q(h|x)−q(h|y))・(logq(h|x)
−logq(h|y)) (q(k|x)は単語xの前に単語kが出現する条件付
き確率)の和で表す。即ち、 dis(x,y)=disa(x,y)+disb(x,y) とする。この時、gj,glを中心単語として二分割する
ときの歪みを D(gj,gl)=Σi(min(dis(gj,i),dis(gl,
i))) とする。この歪みを最小とする中心単語(gjmax,g
lmax)を設定する。クラスg内の単語iは、それぞれの
中心単語との距離の近い方へ帰属させる。
【0019】次に、ステップS4では、エントロピ基準
による単語の再分配とエントロピの試算を行う。即ち、
上記クラスgの分割における、それぞれの中心単語への
帰属が距離を基準としているため、これをエントロピ基
準での初期クラスとするために、エントロピが減少する
ように、再分配する。
【0020】ステップS3,S4を、当該クラスgのす
べての中心単語候補に対するエントロピの試算が終了す
るまで繰り返し、終了したなら、ステップS5で、当該
クラスgの最もエントロピの小さくなる中心単語とエン
トロピの値を記憶する。このときの最小になるエントロ
ピの値をHgとする。
【0021】その後、ステップS2に戻り、次の分割す
るクラスの候補を選択し、ステップS3〜S5の処理を
繰り返す。こうして、先験的言語知識によりクラス分け
されたすべててのクラスの分割に対するエントロピを試
算する。
【0022】次に、ステップS6では、総てのクラスg
(1≦g≦G)において、エントロピの値Hgが最小に
なるクラスを実際に分割し、クラスを一つ増やす(G←
G+1)。単語の分配は上記エントロピ基準による。
【0023】以下、ステップS2からステップS6まで
を、クラスの数Gが所望の数になるまで繰り返す。
【0024】本発明では、分割するクラス以外の他のク
ラス間での単語の再配分を行わないため、ステップS1
で使用した先見的言語知識を用いたクラスの属性は継承
されることになり、より高次のモデルを作成する際に、
従来の初期クラスと同様に、属性を利用できる。
【0025】以下に、上述した本実施例の統計的言語モ
デルを用いてパープレキシティーによる評価を行うため
に、具体的にシミュレーションを行った結果を示す。パ
ープレキシティーの小さい言語モデルが、より良い音声
認識性能を得ることができることが知られているため、
パープレキシティーの値を従来の方式と比較すること
で、本発明の初期クラスの能力は、音声認識実験を行わ
なくとも明らかになる。
【0026】評価は新聞記事のデータベースを用い、
9,212単語の辞書を設定し、6ヵ月分の中から未知
語を含まない文章(2.6×106単語)を学習データと
した。モデルの評価は新聞の別月のテキスト1ヵ月分
(4.3×105単語)を用いて、品詞情報により与えら
れる10クラス及び100クラスに分割した初期クラス
を用いた場合と、本発明によるクラス化を比較した。本
発明による方法では、図2のステップS1で自立語と付
属語で2クラスに分割を行った後に、エントロピ基準に
より、それぞれ、5,10,15,20,80クラスま
で分割を行った初期クラスを用いた。
【0027】図3に、評価結果を示す。クラス数とパー
プレキシティーの値を比較することにより、本発明によ
る初期クラスを用いる方がパープレキシティーの値は小
さくなり、本発明による統計的言語モデルの初期クラス
がより優れていることが分かる。
【0028】
【発明の効果】以上、詳述したように、本発明によれ
ば、単語クラスを用いた統計的言語モデルの単語クラス
の初期クラスの設定を、自立語や付属語などの先見的言
語知識によるクラスの情報を保持したまま、直前の単語
クラスの影響のみを考慮したエントロピ基準でクラス分
割して行くことで、より優れた初期クラスを設定でき
る。したがって、音声認識のための先見的知識を用いた
より高度な統計的言語モデル(例えば、先の政瀧浩和、
他“連続音声認識のための品詞単語可変長N-gram”音
学講論(1996−3)pp.195−196(199
6)など)の初期クラスとして用いることで、次単語の
予測能力を向上させ、記憶容量を押さえた統計的言語モ
デルを提供できるという利点がある。
【図面の簡単な説明】
【図1】本発明に係る一実施形態である連続音声認識シ
ステムのブロック図である。
【図2】本発明による言語モデルの初期クラスの生成処
理を示すフローチャートである。
【図3】本発明による具体的な評価結果の一例を示す。
【符号の説明】
1 A/D変換部 2 特徴抽出部 3 音声認識部 4 音響モデル 5 言語モデル 6 言語モデルの初期クラス

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 単語列w1,w2,・・・,wi-1が発声
    された後に、単語wが発声される確率P(wi|w1,w
    2,・・・,wi-1)を、単語wiの属する単語クラスタ
    iを用いて、確率P(wi|Ci)P(Ci|C1,C2
    ・・・,Ci-1)と近似して求める統計的言語モデルに
    おいて、 上記クラスタの初期セットを品詞等の言語的知識と単語
    間の距離に基づいて自動クラスタリングにより設定する
    ことを特徴とする統計的言語モデルの作成方法。
  2. 【請求項2】 請求項1記載の統計的言語モデルの作成
    方法において、単語間の距離を、当該単語の直前直後の
    単語の出現頻度分布の違いの大きさを単語間距離として
    設定することを特徴とする統計的言語モデルの作成方
    法。
  3. 【請求項3】 請求項1記載の統計的言語モデルの作成
    方法において、単語wiとそのクラスCi及びその直前の
    単語のクラスCi-1のみを考慮したエントロピー基準で
    繰り返しクラス分割していき、初期クラスを設定するこ
    とを特徴とする統計的言語モデルの作成方法。
JP9250356A 1997-09-16 1997-09-16 統計的言語モデルの作成方法 Pending JPH1185179A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9250356A JPH1185179A (ja) 1997-09-16 1997-09-16 統計的言語モデルの作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9250356A JPH1185179A (ja) 1997-09-16 1997-09-16 統計的言語モデルの作成方法

Publications (1)

Publication Number Publication Date
JPH1185179A true JPH1185179A (ja) 1999-03-30

Family

ID=17206710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9250356A Pending JPH1185179A (ja) 1997-09-16 1997-09-16 統計的言語モデルの作成方法

Country Status (1)

Country Link
JP (1) JPH1185179A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100376032B1 (ko) * 2000-10-12 2003-03-15 (주)언어와 컴퓨터 음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법
KR20040051349A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 출현불가능한 어휘조합에 대한 정보를 반영한 연속 음성인식 방법
US7653541B2 (en) 2002-11-21 2010-01-26 Sony Corporation Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100376032B1 (ko) * 2000-10-12 2003-03-15 (주)언어와 컴퓨터 음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법
US7653541B2 (en) 2002-11-21 2010-01-26 Sony Corporation Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
KR20040051349A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 출현불가능한 어휘조합에 대한 정보를 반영한 연속 음성인식 방법

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
US6073091A (en) Apparatus and method for forming a filtered inflected language model for automatic speech recognition
CN109065032B (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
JP4267385B2 (ja) 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
JPH06318096A (ja) 言語モデリング・システム及び言語モデルを形成する方法
JPH05289692A (ja) ワードを予測する会話認識装置用言語生成装置及び方法
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP2001242884A (ja) 音声認識装置および音声認識方法、並びに記録媒体
US20180068652A1 (en) Apparatus and method for training a neural network language model, speech recognition apparatus and method
CN111145729A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
JP2001249684A (ja) 音声認識装置および音声認識方法、並びに記録媒体
CN112562640B (zh) 多语言语音识别方法、装置、系统及计算机可读存储介质
Yamamoto et al. Multi-class composite N-gram language model
Kipyatkova et al. A study of neural network Russian language models for automatic continuous speech recognition systems
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JPH1185179A (ja) 統計的言語モデルの作成方法
JP2001242885A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2001188557A (ja) 最大エントロピ音声モデルの生成方法
JP3950957B2 (ja) 言語処理装置および方法
JP2002091484A (ja) 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2965529B2 (ja) 音声認識装置
JP2938865B1 (ja) 音声認識装置
KR20040055417A (ko) 대화체 연속음성인식 장치 및 방법
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム