JP2001236088A - 統計的言語モデル作成装置、統計的言語モデル作成方法及び統計的言語モデル作成プログラムが記述された記録媒体 - Google Patents

統計的言語モデル作成装置、統計的言語モデル作成方法及び統計的言語モデル作成プログラムが記述された記録媒体

Info

Publication number
JP2001236088A
JP2001236088A JP2000044894A JP2000044894A JP2001236088A JP 2001236088 A JP2001236088 A JP 2001236088A JP 2000044894 A JP2000044894 A JP 2000044894A JP 2000044894 A JP2000044894 A JP 2000044894A JP 2001236088 A JP2001236088 A JP 2001236088A
Authority
JP
Japan
Prior art keywords
clustering
cluster
connection
distribution
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000044894A
Other languages
English (en)
Inventor
Yuzo Maruta
裕三 丸田
Yoshiharu Abe
芳春 阿部
Hirotaka Goi
啓恭 伍井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000044894A priority Critical patent/JP2001236088A/ja
Publication of JP2001236088A publication Critical patent/JP2001236088A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 クラスタ言語モデルを用いて条件付き確率を
近似する場合、特殊な単語連鎖についての接続情報が失
われるため、言語モデルの精度が劣化する課題があっ
た。 【解決手段】 各クラスタの各次元における代表分布と
分布偏差を参照して、各クラスタから特殊接続次元を検
出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識装置に
用いられる統計的言語モデル作成装置及び統計的言語モ
デル作成方法に関するものである。
【0002】
【従来の技術】図11は例えば特開平11−85179
号公報に示された従来の統計的言語モデル作成方法を示
すフローチャートである。図において、ST1は先験的
言語知識によるクラスタ分類ステップ、ST2は分割対
象のクラスタの候補(以下、「分割クラスタ候補」とい
う)を選択する選択ステップ、ST3は分割クラスタ候
補の中心単語候補の設定と単語の分配を行う設定・分配
ステップ、ST4はエントロピー基準による単語の再分
配及びエントロピーの試算を行う再分配・試算ステッ
プ、ST5は中心単語候補に対するエントロピー試算の
終了を判定する判定ステップ、ST6は当該クラスタの
中で、最もエントロピーが小さくなる中心単語とエント
ロピーの値を記録する記録ステップ、ST7はすべての
クラスタの分割に対するエントロピー試算の終了を判定
する判定ステップ、ST8はエントロピーが最も低くな
るようなクラスタ分割を行うクラスタ分割ステップ、S
T9は所望のクラスタ数であるか否かを判定する判定ス
テップである。
【0003】次に動作について説明する.まず、予め用
意したテキストデータを使用して、先験的言語知識(自
立語と付属語、あるいは、品詞の知識など)によるクラ
スタ分類を実行する(ステップST1)。これにより、
クラスタ数が“G”のモデルを作成する。例えば、自立
語と付属語の二クラスタの場合にはG=2である。
【0004】次に、G個のクラスタのうち、分割クラス
タ候補を一つ選択する(ステップST2)。ここでは、
分割クラスタ候補をgとする。そして、分割クラスタ候
補gを二分割するものと仮定し、その場合におけるクラ
スタの分割後の中心となる単語(以下、「中心単語」と
いう)g,gを定め、その分割によるエントロピー
の値Hgを試算する(ステップST3)。
【0005】この中心単語g,gの設定は次のよう
に行う。まず、クラスタ内の異なる単語x,yの距離d
is(x,y)を、それぞれの単語の後に生起する単語
kの頻度分布のKullback距離disa(x,
y)と、それぞれの単語の前に生起する単語hの頻度分
布のKullback距離disb(x,y)の和とし
て表すものとする。即ち、単語xの後に単語kが生起す
る確率をP(k|x)、単語yの後に単語kが生起する
確率をP(k|y)、単語xの前に単語hが生起する確
率をQ(h|x)、単語yの前に単語hが生起する確率
をQ(h|y)とすると、単語x,yの距離dis
(x,y)は下記に示す通りとなる。
【0006】
【数1】
【0007】そして、中心単語g,gを二分割する
ときの歪みD(g,g)を下記のように表して、こ
の歪みが最小になる単語gjmin,glminを中心
単語g,gに設定する。クラスタg内の各単語i
は、中心単語g又は中心単語gのうち、距離の近い
方の中心単語に帰属させる。 D(g,g)=Σi∈g(min(dis(g
i),dis(g,i)))
【0008】次に、エントロピー基準による単語の再配
分とエントロピーの試算を実行する(ステップST
4)。即ち、クラスタg内の各単語iは、距離の近い方
の中心単語に帰属させているので、これをエントロピー
基準での初期クラスタとするために、エントロピーが減
少するように再配分する。
【0009】そして、当該クラスタgのすべての中心単
語候補に対するエントロピーの試算が終了するまで上記
の処理を繰り返し(ステップST5)、その試算が終了
すると、当該クラスタgの中で、最もエントロピーが小
さくなる中心単語g,gとエントロピーの値Hgを
記録する(ステップST6)。
【0010】その後、ステップST2に戻り、次の分割
クラスタ候補を選択し、ステップST7の条件を満たす
限りステップST3〜ST6の処理を繰り返す。こうし
て、先験的言語知識によりクラスタ分けされたすべての
クラスタの分割に対するエントロピーの値Hgを試算す
る。
【0011】次に、すべてのクラスタg(1≦g≦G)
において、エントロピーの値Hgが最小になるクラスタ
を実際に分割し、クラスタを一つ増やす(G←G+1)
処理を実行する(ステップST8)。ただし、単語の分
配は上記エントロピー基準によるものとする。以下、ス
テップST2〜ST8の処理を、クラスタの数Gが所望
の数になるまで繰り返し実行する(ステップST9)。
【0012】以上のようにして、クラスタ言語モデルを
作成すると、そのクラスタ言語モデルを用いて、単語列
,w,…,wi−1が出現した後に、単語w
出現する条件付き確率を以下のように近似する。ただ
し、単語w∈クラスタCなどの関係があるものとす
る。なお、以降の数式において〜は近似を意味するもの
とする。 P(w|w,w,w3,…,wi−1)〜P(w
|C)P(C|C,C,…,Ci−1
【0013】特に、バイグラムモデルの場合には以下の
ように近似する。 P(w|w,w,w3,…,wi−1)〜P(w
|wi−1)〜P(w|C)P(C
i−1
【0014】また、トライグラムモデルの場合には以下
のように近似する。 P(w|w,w,w3,…,wi−1)〜P(w
|wi−2,wi−1)〜P(w|C)P(C
|Ci−2,Ci−1
【0015】
【発明が解決しようとする課題】従来の統計的言語モデ
ル作成方法は以上のように構成されているので、単語間
における特有の接続関係が失われてしまう可能性がある
課題があった。例えば、w=「東京」、w’=「神
奈川」が同じクラスタCに所属する場合を考える。ク
ラスタCは類似の接続をもつ単語が集まっているた
め、例えば、w=「へ」,「経由」,「に」,「出
身」などの場合には、「東京」及び「神奈川」に係る条
件付き確率が略一致することが予想される。例えばP
(w|w)=P(“へ”|“東京”)≒P(w
’)=P(“へ”|“神奈川”)となる。しかし、
=「品川」(「品川」はクラスタCに所属するも
のとする)などの場合、一般常識的には「東京」−「品
川」の単語連鎖の出現確率が大きくなるのに対し、「神
奈川」−「品川」の単語連鎖の出現確率が小さくなり、
その出現確率が大きく異なることが予想される。
【0016】ところが、クラスタ言語モデルを用いて条
件付き確率を近似する場合、P(w |w)=P(C
|C)P(w|C)となり、一方P(w’|
)=P(C|C)P(w|C)になるの
で、P(“品川”|“東京”)=P(“品川”|“神奈
川”)となり、「東京」−「品川」の単語連鎖の出現確
率と、「神奈川」−「品川」の単語連鎖の出現確率が等
しくなる。このため、クラスタ言語モデルを用いて条件
付き確率を近似する場合、特殊な単語連鎖についての接
続情報が失われるため、言語モデルの精度が劣化する課
題があった。
【0017】この発明は上記のような課題を解決するた
めになされたもので、単語間における特有の接続関係を
失うことなく、統計的言語モデルを作成することができ
る統計的言語モデル作成装置、統計的言語モデル作成方
法及び統計的言語モデル作成プログラムが記述された記
録媒体を得ることを目的とする。
【0018】
【課題を解決するための手段】この発明に係る統計的言
語モデル作成装置は、各クラスタの各次元における代表
分布と分布偏差を参照して、各クラスタから特殊接続次
元を検出する検出手段を設けたものである。
【0019】この発明に係る統計的言語モデル作成装置
は、検出手段が特殊接続次元以外の次元の接続確率を代
表分布の接続確率に置換するようにしたものである。
【0020】この発明に係る統計的言語モデル作成装置
は、クラスタリング手段が単語の接続確率分布を圧縮し
て、圧縮後の接続確率分布を予備クラスタリングし、各
予備クラスタ内において圧縮前の接続確率分布をクラス
タリングするようにしたものである。
【0021】この発明に係る統計的言語モデル作成装置
は、クラスタリング手段が記録手段により記録されてい
る(N−1)グラムのクラスタリング結果を参照して、
Nグラムクラスタの予備選択を実施するようにしたもの
である。
【0022】この発明に係る統計的言語モデル作成装置
は、コーパスに存在しない単語連鎖の連鎖確率を推定す
る場合に備えて、記録手段により記録されている各クラ
スタ間の連鎖頻度を計算し、その連鎖頻度が0であれ
ば、バックオフ係数に重みを付加する重み付加手段を設
けたものである。
【0023】この発明に係る統計的言語モデル作成方法
は、各クラスタの各次元における代表分布と分布偏差を
参照して、各クラスタから特殊接続次元を検出するよう
にしたものである。
【0024】この発明に係る統計的言語モデル作成方法
は、特殊接続次元以外の次元の接続確率を代表分布の接
続確率に置換するようにしたものである。
【0025】この発明に係る統計的言語モデル作成方法
は、単語の接続確率分布を圧縮して、圧縮後の接続確率
分布を予備クラスタリングし、各予備クラスタ内におい
て圧縮前の接続確率分布をクラスタリングするようにし
たものである。
【0026】この発明に係る統計的言語モデル作成方法
は、記録されている(N−1)グラムのクラスタリング
結果を参照して、Nグラムクラスタの予備選択を実施す
るようにしたものである。
【0027】この発明に係る統計的言語モデル作成方法
は、コーパスに存在しない単語連鎖の連鎖確率を推定す
る場合に備えて、記録されている各クラスタ間の連鎖頻
度を計算し、その連鎖頻度が0であれば、バックオフ係
数に重みを付加するようにしたものである。
【0028】この発明に係る統計的言語モデル作成プロ
グラムが記述された記録媒体は、各クラスタの各次元に
おける代表分布と分布偏差を参照して、各クラスタから
特殊接続次元を検出する検出処理手順を設けたものであ
る。
【0029】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による統
計的言語モデル作成装置を示す構成図であり、図におい
て、1はある特定の題目に関するコーパスを記録するコ
ーパス記録部、2はコーパスに存在する単語の連鎖頻度
を計数する単語連鎖頻度計数部、3は単語連鎖頻度計数
部2により計数された単語の連鎖頻度からコーパスに存
在する単語の接続確率分布を計算する単語接続確率分布
計算部である。なお、コーパス記録部1、単語連鎖頻度
計数部2及び単語接続確率分布計算部3から確率分布計
算手段が構成されている。
【0030】4は単語接続確率分布計算部3により計算
された単語の接続確率分布をクラスタリングする確率分
布クラスタリング部、5は確率分布クラスタリング部4
によりクラスタリングされたクラスタを記録するクラス
タ記録部、6は各クラスタの各次元における代表分布を
計算する代表分布計算部、7は代表分布計算部6により
計算された代表分布を記録する代表分布記録部、8は各
クラスタの各次元における分布偏差を計算する分布偏差
計算部である。なお、確率分布クラスタリング部4、代
表分布計算部6及び分布偏差計算部8からクラスタリン
グ手段が構成されている。
【0031】9は代表分布計算部6により計算された代
表分布と分布偏差計算部8により計算された分布偏差を
参照して、各クラスタから特殊接続次元を検出する単語
特殊接続検出部(検出手段)、10は単語特殊接続検出
部9により検出された特殊接続次元の接続確率を記録す
る単語特殊接続記録部である。なお、クラスタ記録部5
及び単語特殊接続記録部10から記録手段が構成されて
いる。
【0032】図2は確率分布クラスタリング部4の内部
を示す構成図であり、図において、11はM個のクラス
タ中心を初期設定するクラスタ中心初期設定部、12は
単語の接続確率分布を分類する所属クラスタ決定部、1
3はM個のクラスタ中心を更新するクラスタ中心更新
部、14は収束判定部である。なお、図3はこの発明の
実施の形態1による統計的言語モデル作成方法を示すフ
ローチャートであり、図4は確率分布クラスタリング部
4の処理を示すフローチャートである。
【0033】次に動作について説明する。この実施の形
態1では、バイグラム言語モデルを作成する場合につい
て説明する。まず、単語連鎖頻度計数部2は、コーパス
記録部1からコーパスを取得し、そのコーパスに存在す
る単語の連鎖頻度N(w,w)を計数する(ステッ
プST11)。
【0034】例えば、「国会」、「議事堂」、「議
員」、「運営」という語彙(単語)が登録されていると
き、コーパス内に存在する連接単語が下記の回数だけ出
現する場合、これらの語彙の連鎖頻度N(w,w
は次のようになる。 “国会議事堂” → 5回 “国会議員” → 3回 “国会運営” → 4回 N(w,w)=N(“国会”,“議事堂”)=5 N(w,w)=N(“国会”,“議員”)=3 N(w,w)=N(“国会”,“運営”)=4
【0035】単語接続確率分布計算部3は、単語連鎖頻
度計数部2が単語の連鎖頻度N(w ,w)を計数す
ると、単語の連鎖頻度N(w,w)からコーパスに
存在する単語の接続確率分布f(w)を計算する(ステ
ップST12)。単語wに後続する単語の接続確率分
布f(w)は、条件付き確率のベクトル表現として、
次のように表すことができる。ただし、xは後続する単
語、nは語彙の数である。f(w) ={P(x|w),P(x|w),…,P(x
|w)}
【0036】また、条件付き確率P(x|w)等
は、単語連鎖頻度N(w,w)を用いて、以下のよ
うに計算することができる。 P(x|w)=N(w,x)/N(w,*) ただし、N(w,*)は、単語wに対して、何れか
の単語が接続する連鎖確率であり、上記例において、単
語w=“国会”とすると、N(w,*)=5+3+
4=12となる。また、x=“議事堂”とすると、P
(x|w)=5/12≒0.417となる。
【0037】以上の手順により、すべての単語wについ
て、その接続確率分布f(w)を計算する。これによ
り、n次元のベクトルがn個作成されることになる。
【0038】確率分布クラスタリング部4は、単語接続
確率分布計算部3がn個の単語の接続確率分布f(w)
を計算すると、n個の単語の接続確率分布f(w)をク
ラスタリングして、それぞれM個のクラスタに分割し
(ステップST13)、そのクラスタリング結果をクラ
スタ記録部5に格納する。なお、接続確率分布f(w)
はベクトル表現であるため、接続確率分布f(w)のク
ラスタリングは、例えば、「パターン情報処理」(長尾
真著,コロナ社,1983年)pp.117に記載され
ているK平均法などを用いて実行する。
【0039】具体的には、まず、確率分布クラスタリン
グ部4のクラスタ中心初期設定部11が、M個(Mは予
め設定した値)のクラスタ中心C,C,C,…,
を適当に設定する(ステップST21)。ここで、
,C等はそれぞれn次元のベクトルである。
【0040】次に、確率分布クラスタリング部4の所属
クラスタ決定部12は、クラスタ中心C(ただし、k
=1,2,3,…,M)と、接続確率分布f(w)との
分布間距離をdis(f(w),C)として、その分
布間距離dis(f(w),C)が最小となるような
クラスタCに各接続確率分布f(w)を分類する(ス
テップST22)。分布間距離の定義としては、上述し
たKullback距離や、よく知られているユークリ
ッド距離を用いることができる。
【0041】次に、確率分布クラスタリング部4のクラ
スタ中心更新部13は、すべてのクラスタ中心Cを更
新する(ステップST23)。即ち、下記に示す距離の
総和rが最小となるように、クラスタ中心Cを更新す
る。 r=Σw∈Ckdis(f(w),C
【0042】次に、確率分布クラスタリング部4の収束
判定部14は、クラスタ中心更新部13がクラスタ中心
の更新処理を実行すると、更新の前後において、ク
ラスタ中心Cに変化があるか否かを判定し、変化がな
ければ更新処理が収束したものと判断し、確率分布クラ
スタリング部4の処理を終了する。一方、変化があれば
更新処理が収束していないものと判断し、ステップST
22の処理に戻る(ステップST24)。
【0043】代表分布計算部6は、確率分布クラスタリ
ング部4がクラスタリングを完了すると、各クラスタの
各次元における代表分布P_av(C)を計算し(ステ
ップST14)、その代表分布P_av(C)を代表分
布記録部7に格納する。ここで、代表分布P_av
(C)はn次元のベクトルであり、クラスタCの代表
分布をP_av(C)とすると、クラスタCの代表
分布P_av(C)は次のようになる。ただし、Nは
クラスタCに所属する接続確率分布f(w)の数、j
はnの要素である。 P_av(C)={P_av(C,x),P_a
v(C,x),…,P_av(C,x)} P_av(C,x)=Σw∈CiP(x|w)/
【0044】次に、分布偏差計算部8は、各クラスタの
各次元毎に、当該次元に所属する接続確率分布f(w)
の分布偏差、即ち、クラスタ偏差σ(C)を計算する
(ステップST15)。ここで、クラスタ偏差σ(C)
はn次元のベクトルであり、クラスタCの偏差をσ
(C)とすると、クラスタ偏差σ(C)は次のよう
になる。 σ(C)={σ(C,x),σ(C,x),
…,σ(C,x)} σ(C,x =Σw∈Ci((P_av(C
)−P(x|w))/N)
【0045】次に、単語特殊接続検出部9は、代表分布
計算部6により計算された代表分布P_av(C)と分
布偏差計算部8により計算されたクラスタ偏差σ(C)
を参照し、各クラスタに所属する接続確率分布f(w)
において、特殊な接続次元を検出する(ステップST1
6)。即ち、あるクラスタCに所属する接続確率分布f
(w)の第i次元が下式を満たすときは、第i次元が特
殊接続次元であると判断し、下式を満たさないときは、
第i次元が特殊接続次元でないと判断する。ただし、B
は1〜6程度の適当な定数であり、実験的に決定する。 |P_av(C,x)−P(x|w)|>σ(C,
)×B
【0046】そして、単語特殊接続検出部9は、第i次
元が特殊接続次元である場合には、第i次元の接続確率
P(x|w)を変更しないが、第i次元が特殊接続次
元でない場合には、クラスタリングによる情報量を削減
するため、第i次元の接続確率P(x|w)を代表分
布の接続確率P_av(C,x)に置き換える。
【0047】ただし、第i次元の接続確率P(x
w)を代表分布の接続確率P_av(C,x)に置き
換えると、接続確率の和が“1”にならなくなるので、
各クラスタに所属する接続確率分布f(w)において、
正規化定数A(w)を計算する(ステップST17)。
【0048】
【数2】
【0049】最後に、単語特殊接続検出部9は、検出し
た特殊接続次元iと、その次元の接続確率P(x
w)と、正規化定数A(w)とを単語特殊接続記録部1
0に格納する(ステップST18)。
【0050】これにより、言語モデルの作成が完了する
が、その言語モデルを参照して、w −wの単語連鎖
の接続確率を推定する場合、特殊接続次元でない場合に
は、P_av(C,w)/A(w)を接続確率と
し、特殊接続次元である場合には、P(w|w)/
A(w)を接続確率とする。ただし、単語wはクラ
スタCに所属しているものとする。
【0051】以上で明らかなように、この実施の形態1
によれば、各クラスタの各次元における代表分布と分布
偏差を参照して、各クラスタから特殊接続次元を検出す
るように構成したので、統計的な言語モデルを作成する
際、単語間における特有の接続関係を示す情報を保存す
ることができる効果を奏する。また、第i次元が特殊接
続次元でない場合には、第i次元の接続確率を代表分布
の接続確率に置換するように構成したので、クラスタリ
ングによる情報量を削減することができる効果を奏す
る。
【0052】なお、この実施の形態1では、単語特殊接
続検出部9等の構成要素を有する統計的言語モデル作成
装置について示したが、これらの構成要素をソフトウエ
ア(構成要素の処理手順を記述したプログラム)で構成
し、そのソフトウエアをコンピュータが読み取り可能な
所定の記録媒体に記述するようにしてもよい。
【0053】実施の形態2.図5はこの発明の実施の形
態2による統計的言語モデル作成装置を示す構成図であ
り、図において、図1と同一符号は同一または相当部分
を示すので説明を省略する。21は単語接続確率分布計
算部3により計算された単語の接続確率分布を圧縮する
確率分布圧縮作成部、22は圧縮後の接続確率分布を予
備クラスタリングする圧縮確率分布クラスタリング部で
ある。なお、確率分布圧縮作成部21及び圧縮確率分布
クラスタリング部22はクラスタリング手段を構成す
る。図6はこの発明の実施の形態2による統計的言語モ
デル作成方法を示すフローチャートである。
【0054】次に動作について説明する。上記実施の形
態1では、語彙数が増加すると単語の接続確率分布と、
その次元数とが増加するので、計算時間が飛躍的に増加
する。例えば、n=60000程度の語彙とすると、6
0000次元の接続確率分布が60000個存在するこ
とになる。そこで、この実施の形態2では、語彙の増加
に伴う処理時間の増大を回避するため、接続確率分布の
次元圧縮を実施するものである。具体的には、以下の処
理を実行する。
【0055】確率分布圧縮作成部21は、上記実施の形
態1と同様にして、単語接続確率分布計算部3が単語の
接続確率分布を計算すると、その単語の接続確率分布を
圧縮する(ステップST31)。即ち、圧縮前の次元数
(語彙数に等しい)をn、圧縮後の次元数をmとして、
圧縮前の接続確率分布f(w)={P(x|w),P
(x|w),…,P(x|w)}から圧縮後の接続
確率分布z(w)={Q(1),Q(2),…,Q
(m)}を作成する。ただし、圧縮後の接続確率分布z
(w)の第i次元であるQ(i)は次の通りである。
【0056】
【数3】
【0057】次に、圧縮確率分布クラスタリング部22
は、K平均法などを用いて、圧縮後の接続確率分布z
(w)のクラスタリングを実行して、N個のクラスタ
に分割する(ステップST32)。クラスタリングの手
法は上記実施の形態1と同様であるため省略する(ただ
し、次元は異なる)。この処理では、ベクトルの次元数
が少ないので処理の高速化を図ることができる。
【0058】確率分布クラスタリング部4は、圧縮確率
分布クラスタリング部22が圧縮後の接続確率分布z
(w)をN個のクラスタに分割すると、各クラスタ内
において、圧縮前の接続確率分布f(w)をクラスタリ
ングして、N個のクラスタに分割する(ステップST
33,ST34)。この処理では、クラスタリングの対
象となる確率分布ベクトルの数が圧縮された接続確率分
布に限定されているので、処理の高速化を図ることがで
きる。以後は、上記実施の形態1と同様の処理を実行す
る。
【0059】以上のような処理を実行して、最終的には
・N個のクラスタを得るが(ステップST35,
ST36)が、単語の接続確率分布f(w)を圧縮して
からクラスタリングを実行するので、語彙数が増加して
も、処理時間の大きな増加を招くことなく、クラスタリ
ングを実行することができる効果を奏する。
【0060】なお、上記実施の形態1,2では、バイグ
ラムの言語モデルを作成する場合について説明したが、
これに限るものではなく、例えば、トライグラムや、よ
り高次のN−グラムの言語モデルも同様に作成すること
ができる。
【0061】実施の形態3.図7はこの発明の実施の形
態3による統計的言語モデル作成装置を示す構成図であ
り、図において、図1と同一符号は同一または相当部分
を示すので説明を省略する。31は(N−1)グラムの
クラスタリング結果を記録する(N−1)グラムクラス
タ記録部(記録手段)、32は単語の接続確率分布f
(w)をクラスタリングする際、(N−1)グラムのク
ラスタリング結果を参照して、Nグラムクラスタの予備
選択を実施する確率分布クラスタリング部(クラスタリ
ング手段)である。図8はこの発明の実施の形態3によ
る統計的言語モデル作成方法を示すフローチャートであ
る。
【0062】次に動作について説明する。この実施の形
態3では、Nグラムの言語モデル(N≧3)を作成する
場合に適用するものであるが、ここでは、N=3の言語
モデル、即ち、トライグラムの言語モデルを作成する場
合について説明する。
【0063】トライグラムの場合、確率分布ベクトル
は、先行単語w,wの元で、単語xが出現する条件
付き確率になるので、下記に示すようなベクトルとな
る。 f(w,w)={P(x|w,w),P(x
|w,w),…,P(x|w,w)} このとき、P(x|w,w)は、単語連鎖頻度を
用いて記述することができる。 P(x|w,w)=N(w,w,x)/N
(w,w,*) ただし、N(w,w,*)は、単語w−w−*
という3つ組の連鎖頻度である。また、jはnの要素で
ある。
【0064】したがって、f(w,w)のベクトル
の次元はn(語彙数)であるが、ベクトルの数はnの二
乗になるので、語彙数が大きくなれば、ベクトルの数が
飛躍的に増加する。例えば、n=60000程度の語彙
とすると、60000次元のベクトルとなり、3600
000000個のクラスタを作成しなければならず、こ
れは現実的ではない。そこで、この実施の形態3では、
この問題を解消するために、クラスタの予備選択を実行
して処理の高速性を高めるものである。具体的には次の
通りである。ただし、本説明に先立つ処理(ステップS
T11,ST12)は、トライグラムとバイグラム(実
施の形態1)の違いを除けば同様であるので、その説明
を省略する。
【0065】まず、(N−1)グラムクラスタ記録部3
1は、図1におけるクラスタ記録部5に相当するもので
あり、バイグラムのクラスタリングを実行する際、予
め、所属クラスタ決定部12により決定された各接続確
率分布f(w)の所属クラスタを記録する。即ち、トラ
イグラムのクラスタリングを実行する前に、バイグラム
のクラスタリング結果を記録する。
【0066】確率分布クラスタリング部32は、(N−
1)グラムクラスタ記録部31からバイグラムにおける
クラスタリング結果を取得する(ステップST41)。
次に、確率分布クラスタリング部32は、変数i,jを
“0”に初期化し(ステップST42)、接続確率分布
f(w,w)が既にクラスタリングされているか否
かをチェックする(ステップST43)。
【0067】接続確率分布f(w,w)がクラスタ
済みであれば、変数jが単語数(語彙)以上であるか否
かをチェックし(ステップST44)、単語数以上でな
ければ、変数jをインクリメントして(ステップST4
5)、ステップST43の処理に戻る。一方、単語数以
上であれば、変数iが単語数(語彙)以上であるか否か
をチェックし(ステップST46)、単語数以上でなけ
れば、変数iをインクリメントして、j=0とし(ステ
ップST47)、ステップST43の処理に戻る。単語
数以上であれば、処理を終了する。
【0068】次に、確率分布クラスタリング部32は、
ステップST43において、クラスタ済みでないと判定
した場合、接続確率分布f(w,w)を予備選択候
補とし、変数k,mを“0”に初期化する(ステップS
T48)。次に、接続確率分布f(w,w)が既に
クラスタリングされているか否かをチェックする(ステ
ップST49)。
【0069】接続確率分布f(w,w)がクラスタ
済みであれば、変数mが単語数(語彙)以上であるか否
かをチェックし(ステップST53)、単語数以上でな
ければ、変数mをインクリメントして(ステップST5
4)、ステップST49の処理に戻る。一方、単語数以
上であれば、変数kが単語数(語彙)以上であるか否か
をチェックし(ステップST55)、単語数以上でなけ
れば、変数kをインクリメントして、m=0とし、ステ
ップST49の処理に戻る。単語数以上であれば、予備
選択を終了して、後述するステップST57の処理に進
む。
【0070】確率分布クラスタリング部32は、ステッ
プST49において、クラスタ済みでなければ、単語w
と単語wは、バイグラムのクラスタリングにより、
所属が同一のクラスタに決定されたか否かをチェックす
る(ステップST50)。同じクラスタでなければ、接
続確率分布f(w,w)を予備選択しないものとし
て、ステップST53の処理に進む。同じクラスタであ
れば、単語wと単語wがバイグラムのクラスタリン
グにより、所属が同一のクラスタに決定されたか否かを
チェックする(ステップST51)。同じクラスタでな
ければ、接続確率分布f(w,w)を予備選択しな
いものとして、ステップST53の処理に進む。同じク
ラスタであれば、接続確率分布f(w,w)を予備
選択したものとして、予備選択候補にする(ステップS
T52)。
【0071】確率分布クラスタリング部32は、予備選
択が終了すると、予備選択候補の接続確率分布f
(w,w)についてクラスタリングを実行する(ス
テップST57)。クラスタリングの詳細については、
上記実施の形態1,2と同様であるため説明を省略す
る。また、以降の処理は上記実施の形態1,2と同様で
あるため説明を省略する。
【0072】以上で明らかなように、この実施の形態3
によれば、(N−1)グラムクラスタ記録部31により
記録されている(N−1)グラムのクラスタリング結果
を参照して、Nグラムクラスタの予備選択を実施するよ
うに構成したので、クラスタリングするベクトルの数を
減少させることができるようになり、その結果、処理の
高速化を図ることができる効果を奏する。
【0073】実施の形態4.図9はこの発明の実施の形
態4による統計的言語モデル作成装置を示す構成図であ
り、図において、図1と同一符号は同一または相当部分
を示すので説明を省略する。41は上位のモジュール
(図示せず)から連鎖確率を推定する先行単語wと後
続単語wを取得する単語取得部、42は先行単語w
と後続単語wがコーパスに存在するか否かを確認する
コーパス出現確認部、43はクラスタ−クラスタ間の連
鎖頻度を計算するクラスタ連鎖計数部、44はクラスタ
連鎖計数部43により計算された連鎖頻度が0であれ
ば、バックオフ係数に重みを付加する重み設定部であ
る。なお、単語取得部41、コーパス出現確認部42、
クラスタ連鎖計数部43及び重み設定部44により重み
付加手段が構成されている。図10はこの発明の実施の
形態4による統計的言語モデル作成方法を示すフローチ
ャートである。
【0074】次に動作について説明する。この実施の形
態4は、上記実施の形態1〜3において作成された言語
モデルを用いて、コーパスにない単語連鎖の連鎖確率を
推定するものである。
【0075】コーパスにない単語連鎖の連鎖確率は、P
(x|w)=N(w,x)/N(w,*)から明らかな
ように、“0”になるが、コーパスに偶々存在しないだ
けで、実際にはあり得る単語連鎖も存在するので、連鎖
確率を“0”にするのは適当でない。
【0076】そこで、コーパスにない単語連鎖の連鎖確
率を推定する場合、一般的にはバックオフ処理を実行す
る。バックオフとは、「音声情報処理」(北研二,中村
哲,永田昌明共著,森北出版株式会社,1996年)の
p34に記載されているように、コーパスに存在する単
語連鎖確率の和を“1”より小さく見積もり、残りをコ
ーパスにない単語連鎖の連鎖確率に割り当てる近似方法
である。即ち、バックオフ係数として適当な分配関数α
を定めて、コーパスに存在しない単語連鎖の確率P(w
|w)を下記に示すように近似するものである。 P(w|w)=α・P(w
【0077】この実施の形態4では、以下に示すような
バックオフ処理を実行する。まず、単語取得部41は、
上位のモジュール(図示せず)から連鎖確率を推定する
先行単語wと後続単語wを取得する(ステップST
61)。次に、コーパス出現確認部42は、先行単語w
と後続単語wがコーパスに存在するか否かを確認す
る(ステップST62)。即ち、N(w,w)>0
であるか否かを判定する。
【0078】クラスタ連鎖計数部43は、N(w,w
)>0であれば、コーパスに存在するので、上記実施
の形態1にしたがった単語連鎖の確率P(w|w
を出力する(ステップST63)。一方、N(w,w
)=0であれば、コーパスに存在しないので、クラス
タ記録部5に記録されているクラスタリング結果を参照
してクラスタ連鎖を計数し、上記実施の形態1のような
クラスタリングを実行した場合に、接続確率分布f(w
)が属するクラスタをCなどとして、クラスタ−ク
ラスタ間の連鎖頻度N(C,C)を計算する(ステ
ップST64)。 N(C,C)=Σwi∈Ci,wj∈Cj
(w,w
【0079】ここで、クラスタ−クラスタ間の連鎖頻度
N(C,C)は、似ている単語グループから、別の
似ている単語グループへの連鎖頻度と考えることができ
る。N(C,C)=0の場合、クラスタCに所属
する何れかの単語wから、クラスタCに所属する何
れかの単語wに連鎖する可能性は極めて小さいことを
意味している。一方、N(C,C)>0の場合は、
N(w,w)=0であっても、他の似ている単語は
連鎖しているため、先行単語wと後続単語w は連鎖
する可能性があることを意味している。
【0080】そして、重み設定部44は、バックオフ係
数である分配関数αを調整するため、N(C,C
=0の場合、適当な重み係数R(0<R<1)を定め
て、下記に示す単語連鎖の確率P(w|w)を出力
する(ステップST65,ST66)。 P(w|w)=α・R・P(w) 一方、N(C,C)>0の場合、下記に示す単語連
鎖の確率P(w|w )を出力する(ステップST6
5,ST67)。 P(w|w)=α・P(w
【0081】以上で明らかなように、この実施の形態4
によれば、コーパスに存在しない単語連鎖の連鎖確率を
推定する場合に備えて、記録されている各クラスタ間の
連鎖頻度を計算し、その連鎖頻度が0であれば、バック
オフ係数に重みを付加するように構成したので、コーパ
スに存在せず、接続する可能性が極めて低い単語連鎖は
小さくなり、その結果、言語モデルの性能が向上する効
果を奏する。
【0082】
【発明の効果】以上のように、この発明によれば、各ク
ラスタの各次元における代表分布と分布偏差を参照し
て、各クラスタから特殊接続次元を検出する検出手段を
設けるように構成したので、統計的な言語モデルを作成
する際、単語間における特有の接続関係を示す情報を保
存することができる効果がある。
【0083】この発明によれば、検出手段が特殊接続次
元以外の次元の接続確率を代表分布の接続確率に置換す
るように構成したので、クラスタリングによる情報量を
削減することができる効果がある。
【0084】この発明によれば、クラスタリング手段が
単語の接続確率分布を圧縮して、圧縮後の接続確率分布
を予備クラスタリングし、各予備クラスタ内において圧
縮前の接続確率分布をクラスタリングするように構成し
たので、語彙数が増加しても、処理時間の大きな増加を
招くことなく、クラスタリングを実行することができる
効果がある。
【0085】この発明によれば、クラスタリング手段が
記録手段により記録されている(N−1)グラムのクラ
スタリング結果を参照して、Nグラムクラスタの予備選
択を実施するように構成したので、クラスタリングする
ベクトルの数を減少させることができるようになり、そ
の結果、処理の高速化を図ることができる効果がある。
【0086】この発明によれば、コーパスに存在しない
単語連鎖の連鎖確率を推定する場合に備えて、記録手段
により記録されている各クラスタ間の連鎖頻度を計算
し、その連鎖頻度が0であれば、バックオフ係数に重み
を付加する重み付加手段を設けるように構成したので、
コーパスに存在せず、接続する可能性が極めて低い単語
連鎖を小さくすることができる結果、言語モデルの性能
を高めることができる効果がある。
【0087】この発明によれば、各クラスタの各次元に
おける代表分布と分布偏差を参照して、各クラスタから
特殊接続次元を検出するように構成したので、統計的な
言語モデルを作成する際、単語間における特有の接続関
係を示す情報を保存することができる効果がある。
【0088】この発明によれば、特殊接続次元以外の次
元の接続確率を代表分布の接続確率に置換するように構
成したので、クラスタリングによる情報量を削減するこ
とができる効果がある。
【0089】この発明によれば、単語の接続確率分布を
圧縮して、圧縮後の接続確率分布を予備クラスタリング
し、各予備クラスタ内において圧縮前の接続確率分布を
クラスタリングするように構成したので、語彙数が増加
しても、処理時間の大きな増加を招くことなく、クラス
タリングを実行することができる効果がある。
【0090】この発明によれば、記録されている(N−
1)グラムのクラスタリング結果を参照して、Nグラム
クラスタの予備選択を実施するように構成したので、ク
ラスタリングするベクトルの数を減少させることができ
るようになり、その結果、処理の高速化を図ることがで
きる効果がある。
【0091】この発明によれば、コーパスに存在しない
単語連鎖の連鎖確率を推定する場合に備えて、記録され
ている各クラスタ間の連鎖頻度を計算し、その連鎖頻度
が0であれば、バックオフ係数に重みを付加するように
構成したので、コーパスに存在せず、接続する可能性が
極めて低い単語連鎖を小さくすることができる結果、言
語モデルの性能を高めることができる効果がある。
【0092】この発明によれば、各クラスタの各次元に
おける代表分布と分布偏差を参照して、各クラスタから
特殊接続次元を検出する検出処理手順を設けるように構
成したので、統計的な言語モデルを作成する際、単語間
における特有の接続関係を示す情報を保存することがで
きる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による統計的言語モ
デル作成装置を示す構成図である。
【図2】 確率分布クラスタリング部の内部を示す構成
図である。
【図3】 この発明の実施の形態1による統計的言語モ
デル作成方法を示すフローチャートである。
【図4】 確率分布クラスタリング部の処理を示すフロ
ーチャートである。
【図5】 この発明の実施の形態2による統計的言語モ
デル作成装置を示す構成図である。
【図6】 この発明の実施の形態2による統計的言語モ
デル作成方法を示すフローチャートである。
【図7】 この発明の実施の形態3による統計的言語モ
デル作成装置を示す構成図である。
【図8】 この発明の実施の形態3による統計的言語モ
デル作成方法を示すフローチャートである。
【図9】 この発明の実施の形態4による統計的言語モ
デル作成装置を示す構成図である。
【図10】 この発明の実施の形態4による統計的言語
モデル作成方法を示すフローチャートである。
【図11】 従来の統計的言語モデル作成方法を示すフ
ローチャートである。
【符号の説明】
1 コーパス記録部(確率分布計算手段)、2 単語連
鎖頻度計数部(確率分布計算手段)、3 単語接続確率
分布計算部(確率分布計算手段)、4 確率分布クラス
タリング部(クラスタリング手段)、5 クラスタ記録
部(記録手段)、6 代表分布計算部(クラスタリング
手段)、7 代表分布記録部、8 分布偏差計算部(ク
ラスタリング手段)、9 単語特殊接続検出部(検出手
段)、10 単語特殊接続記録部(記録手段)、11
クラスタ中心初期設定部、12所属クラスタ決定部、1
3 クラスタ中心更新部、14 収束判定部、21 確
率分布圧縮作成部(クラスタリング手段)、22 圧縮
確率分布クラスタリング部(クラスタリング手段)、3
1 (N−1)グラムクラスタ記録部(記録手段)、3
2 確率分布クラスタリング部(クラスタリング手
段)、41 単語取得部(重み付加手段)、42 コー
パス出現確認部(重み付加手段)、43 クラスタ連鎖
計数部(重み付加手段)、44 重み設定部(重み付加
手段)。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 伍井 啓恭 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5D015 HH12 HH16 9A001 GG05 HH07 HH11 HH17

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 コーパスに存在する単語の接続確率分布
    を計算する確率分布計算手段と、上記確率分布計算手段
    により計算された単語の接続確率分布をクラスタリング
    して、各クラスタの各次元における代表分布と分布偏差
    を計算するクラスタリング手段と、上記クラスタリング
    手段により計算された代表分布と分布偏差を参照して、
    各クラスタから特殊接続次元を検出する検出手段と、上
    記クラスタリング手段のクラスタリング結果を記録する
    とともに、上記検出手段により検出された特殊接続次元
    の接続確率を記録する記録手段とを備えた統計的言語モ
    デル作成装置。
  2. 【請求項2】 検出手段は、特殊接続次元以外の次元の
    接続確率を代表分布の接続確率に置換することを特徴と
    する請求項1記載の統計的言語モデル作成装置。
  3. 【請求項3】 クラスタリング手段は、確率分布計算手
    段により計算された単語の接続確率分布をクラスタリン
    グする際、その接続確率分布を圧縮して、圧縮後の接続
    確率分布を予備クラスタリングし、各予備クラスタ内に
    おいて圧縮前の接続確率分布をクラスタリングすること
    を特徴とする請求項1記載の統計的言語モデル作成装
    置。
  4. 【請求項4】 クラスタリング手段は、確率分布計算手
    段により計算された単語の接続確率分布をクラスタリン
    グする際、記録手段により記録されている(N−1)グ
    ラムのクラスタリング結果を参照して、Nグラムクラス
    タの予備選択を実施することを特徴とする請求項1記載
    の統計的言語モデル作成装置。
  5. 【請求項5】 コーパスに存在しない単語連鎖の連鎖確
    率を推定する場合に備えて、記録手段により記録されて
    いる各クラスタ間の連鎖頻度を計算し、その連鎖頻度が
    0であれば、バックオフ係数に重みを付加する重み付加
    手段を設けたことを特徴とする請求項1から請求項4の
    うちのいずれか1項記載の統計的言語モデル作成装置。
  6. 【請求項6】 コーパスに存在する単語の接続確率分布
    を計算し、その単語の接続確率分布をクラスタリングし
    て、各クラスタの各次元における代表分布と分布偏差を
    計算すると、その代表分布と分布偏差を参照して、各ク
    ラスタから特殊接続次元を検出し、そのクラスタリング
    結果と、その特殊接続次元の接続確率を記録する統計的
    言語モデル作成方法。
  7. 【請求項7】 特殊接続次元以外の次元の接続確率を代
    表分布の接続確率に置換することを特徴とする請求項6
    記載の統計的言語モデル作成方法。
  8. 【請求項8】 単語の接続確率分布をクラスタリングす
    る際、その接続確率分布を圧縮して、圧縮後の接続確率
    分布を予備クラスタリングし、各予備クラスタ内におい
    て圧縮前の接続確率分布をクラスタリングすることを特
    徴とする請求項6記載の統計的言語モデル作成方法。
  9. 【請求項9】 単語の接続確率分布をクラスタリングす
    る際、記録されている(N−1)グラムのクラスタリン
    グ結果を参照して、Nグラムクラスタの予備選択を実施
    することを特徴とする請求項6記載の統計的言語モデル
    作成方法。
  10. 【請求項10】 コーパスに存在しない単語連鎖の連鎖
    確率を推定する場合に備えて、記録されている各クラス
    タ間の連鎖頻度を計算し、その連鎖頻度が0であれば、
    バックオフ係数に重みを付加することを特徴とする請求
    項6から請求項9のうちのいずれか1項記載の統計的言
    語モデル作成方法。
  11. 【請求項11】 コーパスに存在する単語の接続確率分
    布を計算する確率分布計算処理手順と、上記確率分布計
    算処理手順により計算された単語の接続確率分布をクラ
    スタリングして、各クラスタの各次元における代表分布
    と分布偏差を計算するクラスタリング処理手順と、上記
    クラスタリング処理手順により計算された代表分布と分
    布偏差を参照して、各クラスタから特殊接続次元を検出
    する検出処理手順と、上記クラスタリング処理手順のク
    ラスタリング結果を記録するとともに、上記検出処理手
    順により検出された特殊接続次元の接続確率を記録する
    記録処理手順とを備えた統計的言語モデル作成プログラ
    ムが記述された記録媒体。
JP2000044894A 2000-02-22 2000-02-22 統計的言語モデル作成装置、統計的言語モデル作成方法及び統計的言語モデル作成プログラムが記述された記録媒体 Pending JP2001236088A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000044894A JP2001236088A (ja) 2000-02-22 2000-02-22 統計的言語モデル作成装置、統計的言語モデル作成方法及び統計的言語モデル作成プログラムが記述された記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000044894A JP2001236088A (ja) 2000-02-22 2000-02-22 統計的言語モデル作成装置、統計的言語モデル作成方法及び統計的言語モデル作成プログラムが記述された記録媒体

Publications (1)

Publication Number Publication Date
JP2001236088A true JP2001236088A (ja) 2001-08-31

Family

ID=18567585

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000044894A Pending JP2001236088A (ja) 2000-02-22 2000-02-22 統計的言語モデル作成装置、統計的言語モデル作成方法及び統計的言語モデル作成プログラムが記述された記録媒体

Country Status (1)

Country Link
JP (1) JP2001236088A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009501943A (ja) * 2005-07-15 2009-01-22 マイクロソフト コーポレーション 適応コーディングおよびデコーディングでの複数のエントロピモデルの選択的使用
JP2009163109A (ja) * 2008-01-09 2009-07-23 Mitsubishi Electric Corp 言語モデル生成装置及び音声認識装置
CN112669851A (zh) * 2021-03-17 2021-04-16 北京远鉴信息技术有限公司 一种语音识别方法、装置、电子设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009501943A (ja) * 2005-07-15 2009-01-22 マイクロソフト コーポレーション 適応コーディングおよびデコーディングでの複数のエントロピモデルの選択的使用
JP2009163109A (ja) * 2008-01-09 2009-07-23 Mitsubishi Electric Corp 言語モデル生成装置及び音声認識装置
CN112669851A (zh) * 2021-03-17 2021-04-16 北京远鉴信息技术有限公司 一种语音识别方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
Liu et al. Efficient lattice rescoring using recurrent neural network language models
Goel et al. Minimum Bayes-risk methods in automatic speech recognition
US6108628A (en) Speech recognition method and apparatus using coarse and fine output probabilities utilizing an unspecified speaker model
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US6260013B1 (en) Speech recognition system employing discriminatively trained models
US6275801B1 (en) Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems
US5787395A (en) Word and pattern recognition through overlapping hierarchical tree defined by relational features
US7418386B2 (en) Method, apparatus and system for building a compact language model for large vocabulary continuous speech recognition (LVCSR) system
KR20040104420A (ko) 텍스트 및 음성 분류를 위하여 언어 모델을 구별하는트레이닝
CN101548285A (zh) 自动语音识别方法和设备
US8140334B2 (en) Apparatus and method for recognizing voice
JP2001236088A (ja) 統計的言語モデル作成装置、統計的言語モデル作成方法及び統計的言語モデル作成プログラムが記述された記録媒体
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2002091484A (ja) 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2938865B1 (ja) 音声認識装置
JP3494338B2 (ja) 音声認識方法
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
Ma et al. An improved VQ based algorithm for recognizing speaker-independent isolated words
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
JP2000259175A (ja) 音声認識装置
CN111583915B (zh) n-gram语言模型的优化方法、装置、计算机设备和存储介质
JP3009640B2 (ja) 音響モデル生成装置及び音声認識装置
JP3550350B2 (ja) 音声認識方法及びプログラム記録媒体