JP2968792B1 - 統計的言語モデル生成装置及び音声認識装置 - Google Patents

統計的言語モデル生成装置及び音声認識装置

Info

Publication number
JP2968792B1
JP2968792B1 JP10264656A JP26465698A JP2968792B1 JP 2968792 B1 JP2968792 B1 JP 2968792B1 JP 10264656 A JP10264656 A JP 10264656A JP 26465698 A JP26465698 A JP 26465698A JP 2968792 B1 JP2968792 B1 JP 2968792B1
Authority
JP
Japan
Prior art keywords
class
word
language model
speech
statistical language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10264656A
Other languages
English (en)
Other versions
JP2000099085A (ja
Inventor
博史 山本
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Original Assignee
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk filed Critical Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority to JP10264656A priority Critical patent/JP2968792B1/ja
Application granted granted Critical
Publication of JP2968792B1 publication Critical patent/JP2968792B1/ja
Publication of JP2000099085A publication Critical patent/JP2000099085A/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

【要約】 【課題】 パラメータ数を増大させずに、遷移確率の予
測精度及び信頼性を改善することができる統計的言語モ
デルを生成する。 【解決手段】 言語モデル生成部20は、学習用テキス
トデータメモリ13内の学習用テキストデータに基づい
てすべての単語をそれぞれ、処理対象の単語の前に接続
される単語の品詞属性に基づくtoクラスの品詞クラス
に分類し、処理対象の単語の後に接続される単語の品詞
属性に基づくfromクラスの品詞クラスに分類する。
次いで、複数の単語が連続したときに固有の読みが与え
られる結合単語についてtoクラスについて結合単語内
の最先の単語の品詞クラスにクラス分類し、fromク
ラスについて結合単語内の最後の単語の品詞クラスにク
ラス分類した後、処理対象の単語の前の接続と後ろの接
続毎に複数の品詞クラスを有する多重クラスN−gra
mの出現確率を計算してその統計的言語モデルを生成す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、学習用テキストデ
ータに基づいて統計的言語モデルを生成する統計的言語
モデル生成装置、及び上記統計的言語モデルを用いて、
入力される発声音声文の音声信号を音声認識する音声認
識装置に関する。
【0002】
【従来の技術】近年、連続音声認識装置において、その
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、言語モデルを用いて、次単語を予測し
探索空間を削減することにより、認識率の向上及び計算
時間の削減の効果を狙ったものである。最近盛んに用い
られている言語モデルとしてN−グラム(N−gra
m)がある。これは、大規模なテキストデータを学習
し、直前のN−1個の単語から次の単語への遷移確率を
統計的に与えるものである。複数L個の単語列w1 L=w
1,w2,…,wLの生成確率P(w1 L)は次式で表され
る。
【0003】
【数1】
【0004】ここで、wtは単語列w1 Lのうちt番目の
1つの単語を表し、wi jはi番目からj番目の単語列を
表わす。上記数1において、確率P(wt
t+1-N t-1)は、N個の単語からなる単語列wt+1-N t-1
が発声された後に単語wtが発声される確率であり、以
下同様に、確率P(A|B)は単語又は単語列Bが発声
された後に単語Aが発声される確率を意味する。また、
数1における「Π」はt=1からLまでの確率P(wt
|wt+1-N t-1)の積を意味し、以下同様である。
【0005】N−グラムは極めて単純なものでありなが
ら、構築の容易さ、統計的音響モデルとの相性の良さ、
認識率向上や計算時間の短縮の効果が大きい等の理由
で、連続音声認識には非常に有効である(例えば、従来
技術文献1「L.R.Bahlほか,“A Maxim
um Likelihood Approach to
Continuous Speech Recogni
tion”,IEEETransaction on
Pattern Analysis andMachi
ne Intelligence, pp.179−1
90,1983年」、従来技術文献2「P.C.Woo
dlandほか,“THE 1994 HTK Lar
ge Vocabulary Speech Reco
gnition System”,Proceedin
gs of ICASSP95’,Vol.1,pp.
73−76,1995年」、従来技術文献3「村上ほ
か,“単語のtrigramを利用した文音声認識と自
由発話認識への拡張”,電子情報通信学会技術研究報
告,SP93−127,pp71−78,平成6年」参
照。)。
【0006】一般に、N−グラムの言語モデルは、Nを
大きくすると長い単語連鎖を取り扱うことにより次単語
の精度は高くなるが、パラメータ数が多くなり、学習デ
ータ量が少ない場合は出現頻度の低い単語に信頼できる
遷移確率を与えることはできない。例えば語彙数が5,
000語のとき、トライグラム(trigram)(N
=3)の全ての単語の遷移組は(5,000)3=1,
250億であるから、信頼できる遷移確率を求めるため
には、数千億単語以上からなる膨大なテキストデータが
必要となる。これだけの膨大なテキストデータを集める
のは事実上不可能である。逆に、Nを小さくすると、遷
移確率の信頼性は高くなるが、短い単語連鎖しか取り扱
うことができず、次単語の予測精度は低くなる。
【0007】この問題を解決するため、次のような方法
が提案されている。 (1)補間による未学習遷移確率の推定方法 この方法は、例えば、Deleted Interpo
lation(削除補間法)(例えば、従来技術文献4
「F.Jelinekほか,“Interpolate
d estimation of Markov So
urce Parameters from Spar
se Data”,Proceedings of W
orkshop Pattern Recogniti
on in Practice,pp.381−37,
1980年」参照。)や、Back−off Smoo
thing法(従来技術文献5「S.M.Katz,
“Estimation of Probabilit
ies from Sparse Data for
the Language model Compon
ent of a Speech Recognize
r”,IEEE Transaction on Ac
oustics, Speech, andSigna
l Processing,Vol.ASSP−35,
No.3,pp.400−401,1987年3月」参
照。)等に代表される方法で、小さいNのN−グラム
(N−gram)の値で遷移確率を補間することによ
り、学習用テキストデータには存在しない単語遷移に対
しても、遷移確率を与えることができる。しかしなが
ら、出現頻度の低い単語に関しては信頼できる遷移確率
を与えられない恐れがある。
【0008】(2)クラスN−グラムによるパラメータ
数の削減方法 この方法は、相互情報量に基づくクラスタリング(例え
ば、従来技術文献6「P.F.Brownほか,“Cl
ass−Based n−gram models o
f natural language”,Compu
tational Linguistics,Vol.
18,No.4,pp467−479,1992年」参
照。)や、品詞(従来技術文献7「周ほか,“確率モデ
ルによる日本語の大語彙連続音声認識”,情報処理学
会,第51回全国大会講演論文集,pp119−12
0,平成7年」参照。)等によるクラス間のN−グラム
を考えたもので、L個の単語の文生成確率P(w1 L)は
一般に次式で表される。
【0009】
【数2】
【0010】ここで、ctは単語wtの属するクラスを表
し、ci jはi番目からj番目のクラス列を表わす。上記
数2で、P(ct|ct-N+1 t+1)は、直前の(N−1)
個の単語の属するクラスから次の単語の属するクラスへ
の遷移確率を表す。クラス数が50のとき、トライグラ
ムの全てのクラス間の遷移の組は503=125,00
0であるから、数十万単語程度と単語N−グラムに比べ
てかなり小規模なテキストデータで遷移確率が求められ
ると考えられる。しかしながら、単語間の特有な連接関
係を表現することができないので、次単語の予測精度は
悪くなると考えられる。
【0011】以上の問題点を解決し、従来例に比較して
遷移確率の予測精度及び信頼性を改善することができる
統計的言語モデルを生成する方法が、本特許出願人によ
り特許出願された特開平9−134192号公報におい
て開示されている。この従来例の方法では、品詞クラス
間のバイグラムを初期状態の統計的言語モデルとし、単
語の品詞クラスからの分離可能な第1の分離クラス候補
と、連接単語又は単語列の結合によって単語の品詞クラ
スから分離可能な第2の分離クラス候補とを検索し、次
単語の予測の難易度を表わすエントロピーを用いて、ク
ラスを分離することによるエントロピーの減少量を計算
する。次いで、計算されたエントロピーの減少量の中で
最大のクラス分離を選択してクラス分離を実行すること
により、品詞のバイグラムと可変長Nの単語のN−グラ
ムとを含む統計的言語モデルを生成し、所定のクラス数
になるまで上記処理を繰り返すことを特徴としている。
【0012】
【発明が解決しようとする課題】しかしながら、この方
法で生成された、品詞のバイグラムと可変長Nの単語の
N−グラムとを含む統計的言語モデルにおいても、次単
語予測の信頼性はいまだ比較的低いという問題点があっ
た。
【0013】また、従来技術文献8「政瀧ほか,“連続
音声認識のための可変長連鎖統計言語モデル”,電子情
報通信学会技術報告,SP95−73,pp.1−6,
平成7年」において、次単語予測の信頼性を向上させる
ために、可変長連鎖統計言語モデルが提案されている
が、品詞情報の精度に言語モデルの性能が左右され、ま
た、クラスの分離にともなってパラメータ数が大幅に増
大するという問題点があった。
【0014】本発明の目的は以上の問題点を解決し、従
来例に比較して、パラメータ数を増大させずに、遷移確
率の予測精度及び信頼性を改善することができる統計的
言語モデルを生成することができる統計的言語モデル生
成装置、及び、当該統計的言語モデルを用いて従来例に
比較して高い音声認識率で音声認識することができる音
声認識装置を提供することにある。
【0015】
【課題を解決するための手段】本発明に係る請求項1記
載の統計的言語モデル生成装置は、所定の話者の発声音
声文を書き下した学習用テキストデータに基づいて、す
べての単語をそれぞれ、処理対象の単語の前に接続され
る単語の品詞属性に基づくtoクラスの品詞クラスに分
類する第1の分類手段と、上記学習用テキストデータに
基づいて、すべての単語をそれぞれ、処理対象の単語の
後に接続される単語の品詞属性に基づくfromクラス
の品詞クラスに分類する第2の分類手段と、複数の単語
が連続したときに固有の読みが与えられる複数の単語の
列である所定の結合単語について、toクラスの品詞ク
ラスについて結合単語内の最先の単語の品詞クラスにク
ラス分類する一方、fromクラスの品詞クラスについ
て結合単語内の最後の単語の品詞クラスにクラス分類す
る第3の分類手段と、上記第1の分類手段と上記第2の
分類手段と上記第3の分類手段とによってクラス分類さ
れた単語データに基づいて、処理対象の単語の前の接続
と後ろの接続毎に複数の品詞クラスを有する多重クラス
N−gramの出現確率を計算することにより多重クラ
スN−gramの統計的言語モデルを生成する第1の生
成手段とを備えたことを特徴とする。
【0016】また、請求項2記載の統計的言語モデル生
成装置は、請求項1記載の統計的言語モデル生成装置に
おいて、上記第1の生成手段によって生成された多重ク
ラスN−gramの統計的言語モデルに基づいて、所定
数より出現回数が多い単語ペアを結合単語として導入
し、当該結合単語に対して、toクラスの品詞クラスに
ついては当該結合単語内の最先の単語の品詞クラスにク
ラス分類する一方、fromクラスの品詞クラスについ
ては当該結合単語内の最後の単語の品詞クラスにクラス
分類する第3の分類手段と、上記第3の分類手段によっ
てクラス分類されて結合単語が導入された統計的言語モ
デルにおいて結合単語を含む多重クラス複合N−gra
mの出現確率を計算することにより多重クラス複合N−
gramの統計的言語モデルを生成する第2の生成手段
とをさらに備えたことを特徴とする。
【0017】さらに、請求項3記載の統計的言語モデル
生成装置は、請求項2記載の統計的言語モデル生成装置
において、上記第2の生成手段によって生成された多重
クラスN−gramの統計的言語モデルにおいて、所定
数より出現回数が多い単語ペアが存在するときに、上記
第2の生成手段によって生成された多重クラスN−gr
amの統計的言語モデルに基づいて、所定数より出現回
数が多い単語ペアを結合単語として導入し、上記第3の
分類手段の処理と、上記第2の生成手段の処理とを繰り
返して実行して、上記多重クラスN−gramの統計的
言語モデルを更新する制御手段をさらに備えたことを特
徴とする。
【0018】また、本発明に係る請求項4記載の音声認
識装置は、入力される発声音声文の音声信号に基づい
て、所定の統計的言語モデルを用いて音声認識する音声
認識手段を備えた音声認識装置において、上記音声認識
手段は、請求項1、2又は3記載の統計的言語モデル生
成装置によって生成された統計的言語モデルを用いて音
声認識することを特徴とする。
【0019】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0020】図1は、本発明に係る一実施形態である連
続音声認識装置のブロック図である。この実施形態の連
続音声認識装置は、学習用テキストデータメモリ13内
の学習用テキストデータに基づいて多重クラスbigr
am(バイグラム)の統計的言語モデルを生成する言語
モデル生成部20と、上記生成された多重クラスbig
ramの統計的言語モデルに基づいて多重クラス複合b
igramの統計的言語モデルを生成する言語モデル生
成部30とを備え、上記生成された多重クラスbigr
amの統計的言語モデル又は多重クラス複合bigra
mの統計的言語モデルをスイッチSWを用いて選択的に
切り換えることにより参照して連続音声認識することを
特徴としている。
【0021】音声認識装置においては、言語モデルとし
て単語N−gramが広く用いられている。単語N−g
ramは作成の簡便さ等の優れた点が多い一方、大量の
学習データを必要とするという問題点がある。このため
大量のデータの収集が難しい分野ではしばしば単語N−
gramを縮退させたクラスN−gramが用いられて
いる。クラスN−gramにおいて、クラスをどのよう
に設定するかはモデルの性能に直結する重要な問題であ
り、本実施形態では、その効率的な設定手法の1つとし
て接続の方向性を考慮した多重クラスとそれを用いたN
−gramを用いる。
【0022】まず、品詞によるクラスについて説明す
る。クラスN−gramにおけるクラスの指標としては
品詞情報がよく用いられる。そこで、本発明者は、ま
ず、品詞情報に基づくクラス分類を行ったクラスbig
ramと単語bigramの性能比較を行った。学習セ
ットはのべ単語数459,383単語、異なり単語数
7,221単語であり、クラスは品詞情報に基づく15
8クラスを用いた。実験結果はのべ単語数6,826の
テストセットにおいて、クラスbigramがパープレ
キシティ31.53であったのに対して、単語bigr
amでは18.51であり、両者の間にはかなりの差が
あることがわかる。この原因はクラス分類に用いた品詞
情報は単語の性質全体を表わすものであるため、N−g
ramにおいて重要な単語の接続性を純粋にあらわして
いるとは言い難いためと考えられる。
【0023】この状況に鑑みて本発明者は、以下に示す
多重クラスN−gramを発明した。ここで、品詞情報
によるクラス分類を行う場合と、単語の接続性のみに着
目してクラス分類を行う場合の違いに関して考える。例
として全節で用いた品詞分類の1つである動詞活用語尾
のうち次の3つを対象としてみる。 (a)「き:語尾、五段カ行、連用形」 (b)「し:語尾、五段サ行、連用形」 (c)「く:語尾、五段カ行、終止形」 これらは異なった品詞を持つために(ここでは、3つの
品詞にクラス分類される)、品詞情報によるクラス分類
では各々別のクラスとされる。この場合どのような単語
が前にくるか後にくるか、各々3通りの接続を考えるこ
とになる。しかしながら、これらに対してどのような単
語が前にくるかだけを考えた場合、「き」と「く」は同
じと考えることができ、どのような単語が後にくるかだ
けを考えた場合、「き」と「し」は同じと考えることが
できる。従って、どのような単語が前にくるか、後にく
るかという性質を個別に考え、それぞれに対して別々に
クラスを割り当てれば各々2通りの接続を考えればよい
ことになり、通常のクラス分類よりも効率的なクラス分
類を行うことができる。
【0024】本実施形態では、前者である前にある単語
の接続性(fromの接続性)に関するクラスをtoク
ラスと呼び、後者である後続する単語の接続性(toの
接続性)をfromクラスと呼ぶことにし、個々の単語
はtoクラス、fromクラスの2つのクラス属性(品
詞属性)を持つと考えることにする。これによれば、上
記の3つの単語はtoクラスでは (a)「き、く:語尾、五段カ行」 (b)「し:語尾、五段サ行」 の2つのクラスで表現でき、fromクラスでは (a)「き、し:語尾、五段、連用形」 (b)「く:語尾、五段、終止形」 の2つのクラスで表現できる。この考え方はN≧3の場
合に対してもそのまま拡張可能で、この場合、個々の単
語はN個のクラス属性を持つことになる。このクラス属
性のことを多重クラスと呼び、これを用いたN−gra
mを多重クラスN−gramと呼ぶ。N=2としたとき
の多重クラスbigramの出現確率は、は次式で表わ
される。
【0025】
【数3】P(Wn|Wn−1)≒P(Ct(Wn)|C
f(Wn−1))×P(Wn|Ct(Wn))
【0026】ここで、Ctは、処理対象の単語が属する
toクラスを表わし、Cfはfromクラスを表わすも
のとする。このときのパラメータ数はクラスN−gra
mが、クラス数の自乗+単語数となるのに対して、to
クラス数×fromクラス数+単語数となる。
【0027】次いで、結合単語の導入について説明す
る。N−gramにとって都合の良い単語の単位は実際
に音声認識を行う場合に都合の良い単語の単位と一致す
るとは限らない。これは、例えば「二十日(はつか)」
のよう特定の単語が連続した場合に固有の読みが与えら
れる場合があるからである。本実施形態では、複数の単
語が連続したときに固有の読みが与えられる複数の単語
の列を結合単語という。この場合は結合単語を辞書に新
たなエントリーとして加える必要が生じるが、通常のN
−gramでは結合単語を新たに導入した場合は再学習
が必要であり、またこれにともなって新たなデータスパ
ースの問題を引き起こす可能性がある。すなわち、デー
タ数が減少した後に確率値を計算するために、統計的言
語モデルの信頼性が低下する可能性が生じる。これに対
して、多重クラスbigramを用いた場合は再学習な
しに結合単語の導入が可能でありデータスパースの問題
を引き起こすこともない。単語Xの後に結合単語A+
B,単語Cという列が引き続いて出現する確率は次式で
表される。
【0028】
【数4】P(C|A+B)=P(Ct(A+B)|Cf
(X))×P(A+B|Ct(A+B))×P(Ct
(C)|Cf(A+B))×P(C|Ct(C))
【0029】ここで、結合単語A+Bの前にどのような
単語が来るかは単語Aのそれと同じで、結合単語A+B
の後にどのような単語が来るかは単語Bのそれと同じと
考えれば、次式のようにおくことができる。
【0030】
【数5】Ct(A+B)=Ct(A)
【数6】Cf(A+B)=Cf(B)
【0031】従って、数4は次式のようになる。
【0032】
【数7】P(C|A+B)≒P(Ct(A)|Cf
(X))×P(A+B|Ct(A))×P(Ct(C)
|Cf(B))×P(C|Ct(C))ここで、
【数8】P(A+B|Ct(A))=P(A|Ct
(A))×P(B|A)である。
【0033】出現確率P(B|A)は多重クラスbig
ramでは、上記数3に従って次式を得る。
【0034】
【数9】P(B|A)=P(Ct(B)|Cf(A))
×P(B|Ct(B))
【0035】そして、上記数7はさらに次式のようにな
る。
【0036】
【数10】P(C|A+B)≒P(Ct(A)|Cf
(X))×P(A|Ct(A))×P(Ct(B)|C
f(A))×P(B|Ct(B))×P(Ct(C)|
Cf(B))×P(C|Ct(C))
【0037】従って、結合単語A+Bの導入後に必要な
パラメータは、上記数10に従って、すべて元の多重ク
ラスbigramから再学習なしに求めることができ
る。またこのときに増加したパラメータは結合単語A+
Bのtoクラス内のunigram(ユニグラム)ただ
1つとなる。
【0038】さらに、自動クラス分類を用いた多重クラ
スbigramの統計的言語モデルの生成手順について
説明する。品詞によるクラス分類はN−gramにとっ
て必ずしも適切なのもではなく、接続性のみに着目した
クラス分類が望ましい。そこで接続性のみに着目したク
ラスをコーパスから自動的に規定することを考えた。ク
ラス分類の方法は次の手順で行う。
【0039】(SS1)各単語に対しその単語の接続性
を表わすベクトルを与える。このベクトルはクラスbi
gramのクラスに対しては前後の単語の接続を同時に
考慮する必要があるため、この単語からの前向き及び後
向きの単語bigramの確率値を並べたものとなる。
また、多重クラスbigramの各々のクラスにおいて
は片側の接続性のみを考慮するためtoクラスでは後向
きの単語bigram、fromクラスでは前向きの単
語bigramの確率値となる。 (SS2)1単語を1クラスとする。 (SS3)2つのクラスを統合した場合のunigra
m確率で重み付けされた分散の上昇が最小となるものを
選択して、クラス統合する。 (SS4)与えられたクラス数になるまで上記ステップ
SS3の手順をくりかえす。
【0040】従って、言語モデル生成部20は、複数の
発声音声文を含むコーパスを予め格納した学習用テキス
トデータメモリ13内の学習用テキストデータに基づい
て、上記のクラス分類を行って、多重クラスbigra
mの統計的言語モデルを生成して統計的言語モデルメモ
リ21に格納する。
【0041】図3は、図1の言語モデル生成部20によ
って実行される第1の言語モデル生成処理を示すフロー
チャートである。図3において、まず、ステップS1に
おいて、学習テキストデータを学習用テキストデータメ
モリ13から読み出す。次いで、ステップS2におい
て、すべての単語をtoの接続性に関してtoクラスで
クラス分類(クラスタリング)する。すなわち、toク
ラスについては、処理対象の単語の前に接続される単語
の品詞属性に基づいてクラス分類する。そして、ステッ
プS3において、すべての単語をfromの接続性に関
してfromクラスでクラス分類する。すなわち、fr
omクラスについては、処理対象の単語の後に接続され
る単語の品詞属性に基づいてクラス分類する。さらに、
ステップS4において、予め決められた結合単語に対し
て、toクラスについて結合単語内の最先の単語のクラ
スにクラス分類し、fromクラスについて結合単語内
の最後の単語のクラスにクラス分類する。そして、ステ
ップS5において、生成されたクラス分類された単語間
の結合(又は接続)に関するデータを用いて多重クラス
bigramの出現確率を計算することにより多重クラ
スbigramの統計的言語モデルを生成して統計的言
語モデルメモリ21に格納して当該第1の言語モデル生
成処理を終了する。ここで、結合単語の出現確率は、数
10を用いて計算でき、上述のように、結合単語の導入
によって統計的言語モデルについての再学習は必要はな
い。なお、ステップS2の処理と、ステップS3の処理
の順序は入れかわってもよい。
【0042】ところで、クラスbigramは少ないパ
ラメータ数で表現が可能であるが、精度的には単語N−
gramに比べると不満がのこる。一方、単語N−gr
amは精度的には高いものが得られるが学習データ数が
十分でない場合には信頼性の乏しいものとなってしま
う。学習データ数が十分でない場合にも精度と信頼性を
保つためにクラスbigram、単語N−gram双方
の短所を補うモデルとして上述の多重クラスN−gra
mを元にしたクラスと結合単語による多重クラス複合N
−gramについて以下説明する。
【0043】学習データの量が単語N−gramに対し
ては不十分なためクラスbigramを用いる場合で
も、すべての単語ペアについてデータが不十分であるわ
けではない。そこで単語ペアについて出現回数が十分で
あれば十分は信頼性があると考えられるため、単語bi
gramを用い、そうでない場合はクラスbigram
という方法がとれる。この方法では単語列A,Bの出現
回数が十分な場合、単語Xの後に単語列A,B,Cがこ
の順に続く出現確率は次式のようになる。
【0044】
【数11】P(C(A)|C(X))×P(A|C
(A))×P(B|A)×P(C(C)|C(B))×
P(C|C(C))
【0045】さらに、上述の多重クラスbigramを
用いた場合は、上記数11は次式のようになる。
【0046】
【数12】P(Ct(A)|Cf(X))×P(A|C
t(A))×P(B|A)×P(Ct(C)|Cf
(B))×P(C|Ct(C))
【0047】ここで、次式のようにおく。
【0048】
【数13】Ct(A)=Ct(A+B)
【数14】Cf(B)=Cf(A+B)
【0049】従って、上記数12は次式のようになる。
【0050】
【数15】P(Ct(A+B)|Cf(X))×P(A
+B|Ct(A+B))×P(Ct(C)|Cf(A+
B))×P(C|Ct(C))
【0051】上記数15は多重クラスbigramを用
いた場合は、結合単語を導入することで、多重クラスb
igramの形式を保ったまま部分的に単語bigra
mを表現でき、その際新規に必要なパラメータは結合単
語のunigramのみであることを示している。この
ことは単語trigram以上(すなわち、N−gra
m;N≧3)に関しても同様であり、その場合は3単語
からなる結合単語を導入することになる。具体的な統計
的言語モデルの作成方法としては次のような手順をと
る。
【0052】(SS11)初期状態として多重クラスb
igramを与える。 (SS12)単語ペアのうち出現回数が一定値以上のも
のを結合単語として辞書に加える。この結合単語のto
クラスは先行単語のtoクラスと同じ、fromクラス
は後続単語のfromクラスと同じとする。 (SS13)新たに加わった結合単語も含めてステップ
SS12の手順を繰り返す。出現回数が一定値以上のも
のが存在しない場合は終了する。このようにして得られ
たモデルを多重クラス複合N−gramと呼ぶことにす
る。
【0053】次いで、多重クラス複合N−gramを可
変長N−gramと比較する。クラスbigramと単
語N−gramの短所を補い合うモデルとしては、従来
技術の項で説明した可変長N−gramがある。可変長
N−gramはクラスbigramをベースとし、クラ
スの中から単語を分離し、独立したクラスにするという
操作と分離された単語から結合単語を生成し新たなクラ
スとするという操作をエントロピーの減少を基準にして
繰り返すものである。可変長N−gramは良い性能を
示すモデルであるが、次のような問題点があり、多重ク
ラス複合N−gramではこの問題は解決されている。
【0054】(I)クラスから分離された単語からでな
いと結合単語を生成することができないため、すでに適
切なクラス分類が行われている場合でもクラス分離を行
う必要がある。 (II)クラスから分離された単語は通常十分大きなユ
ニグラム出現数を持つが、バイグラムに対しては必ずし
もそうとは言えないため新たにデータスパースの問題を
引き起こすことがある。
【0055】そして、多重クラス複合N−gramと可
変長N−gramとの違いをまとめると表1のようにな
る。
【0056】
【表1】 可変長N−gramと多重クラス複合N−gramとの相違点 ―――――――――――――――――――――――――――――――――― 可変長N−gram 多重クラス複合N−gram ―――――――――――――――――――――――――――――――――― 分離の対象 クラスから単語 クラスbigramから 単語bigram ―――――――――――――――――――――――――――――――――― 分離の基準 エントロピーの減少 単語ペアの出現回数 ―――――――――――――――――――――――――――――――――― N−gram クラスbigram クラスbigram の表現単位 クラス-単語bigram 単語N−gram 単語-クラスbigram 単語N−gram ―――――――――――――――――――――――――――――――――― パラメータ数 分離単語数+ 結合単語数 の増分 結合単語数の自乗 ――――――――――――――――――――――――――――――――――
【0057】このうち、N−gramの表現単位に関し
ては可変長N−gramの方が自由度があるが、初期ク
ラスの設定が適切な場合はクラス−単語bigram、
単語−クラスbigramとクラスbigramの間の
差は小さいため問題にはならないと考えられる。また、
分離の基準に関しては可変長N−gramで出現回数を
基準とすることも、多重クラス複合N−gramでエン
トロピーを基準とすることも可能なため本質的な差では
ない。
【0058】図4は、図1の言語モデル生成部30によ
って実行される第2の言語モデル生成処理を示すフロー
チャートである。図4において、まず、ステップS11
において、多重クラスバイグラムの統計的言語モデルを
メモリ21から読み出す。次いで、ステップS12にお
いて所定数より出現回数が多い単語ペアを結合単語とし
て導入する。ここで、toクラスについて結合単語内の
最先の単語のクラスにクラス分類し、fromクラスに
ついて結合単語内の最後の単語のクラスにクラス分類す
る。さらに、ステップS13において結合単語を含む多
重クラス複合bigramの出現確率を計算することに
より多重クラス複合bigramの統計的言語モデルを
生成して統計的言語モデルメモリ31に格納して更新す
る。そして、ステップS14において所定数(例えば、
本実施形態では、20回である。)よりも出現回数が多
い単語ペアが存在するか否かが判断され、存在するとき
は、ステップS12に戻り、所定数よりも出現回数が多
い単語ペアを結合単語として導入して統計的言語モデル
を再学習する。ステップS14で、所定数よりも出現回
数が多い単語ペアが存在しないときは、多重クラス複合
bigramの統計的言語モデルを生成できたとして当
該第2の言語モデル生成処理を終了する。
【0059】次いで、図1に示す連続音声認識装置の構
成及び動作について説明する。図1において、単語照合
部4に接続された音素隠れマルコフモデル(以下、隠れ
マルコフモデルをHMMという。)メモリ11内の音素
HMMは、各状態を含んで表され、各状態はそれぞれ以
下の情報を有する。 (a)状態番号、(b)受理可能なコンテキストクラ
ス、(c)先行状態、及び後続状態のリスト、(d)出
力確率密度分布のパラメータ、及び(e)自己遷移確率
及び後続状態への遷移確率。 なお、本実施形態において用いる音素HMMは、各分布
がどの話者に由来するかを特定する必要があるため、所
定の話者混合HMMを変換して生成する。ここで、出力
確率密度関数は34次元の対角共分散行列をもつ混合ガ
ウス分布である。また、単語照合部4に接続された単語
辞書メモリ12内の単語辞書は、音素HMMメモリ11
内の音素HMMの各単語毎にシンボルで表した読みを示
すシンボル列を格納する。
【0060】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
【0061】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMM11と単
語辞書12とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部4は、各時刻の各HMM
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素HMM11及び単語辞書12とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部4は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報(具体的には、例え
ばフレーム番号)とともにバッファメモリ5を介して単
語仮説絞込部6に出力する。
【0062】ここで、スイッチSWをa側に切り換えた
とき、統計的言語モデルメモリ21が単語仮説絞込部6
に接続されて単語仮説絞込部6は統計的言語モデルメモ
リ21内の多重クラスbigramの統計的言語モデル
を参照して処理を行う一方、スイッチSWをb側に切り
換えたとき、統計的言語モデルメモリ31が単語仮説絞
込部6に接続されて単語仮説絞込部6は統計的言語モデ
ルメモリ31内の多重クラス複合bigramの統計的
言語モデルを参照して処理を行う。
【0063】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ21又は31内の統計的言
語モデルを参照して、終了時刻が等しく開始時刻が異な
る同一の単語の単語仮説に対して、当該単語の先頭音素
環境毎に、発声開始時刻から当該単語の終了時刻に至る
計算された総尤度のうちの最も高い尤度を有する1つの
単語仮説で代表させるように単語仮説の絞り込みを行っ
た後、絞り込み後のすべての単語仮説の単語列のうち、
最大の総尤度を有する仮説の単語列を認識結果として出
力する。なお、タスク適応化された統計的言語モデル
は、各タスク毎に1つの統計的言語モデルを備え、単語
仮説絞込部6は、音声認識しようとするタスクに対応す
る統計的言語モデルを選択的に参照する。本実施形態に
おいては、好ましくは、処理すべき当該単語の先頭音素
環境とは、当該単語より先行する単語仮説の最終音素
と、当該単語の単語仮説の最初の2つの音素とを含む3
つの音素並びをいう。
【0064】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
【0065】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0066】以上の実施形態において、特徴抽出部2
と、単語照合部4と、単語仮説絞込部6と、言語モデル
生成部20,30とは、例えば、デジタル電子計算機な
どのコンピュータで構成され、バッファメモリ3,5
と、音素HMMメモリ11と、単語辞書メモリ12と、
学習用テキストデータメモリ13と、統計的言語モデル
メモリ21,31とは、例えばハードデイスクメモリな
どの記憶装置で構成される。
【0067】以上実施形態においては、単語照合部4と
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMM11を参照
する音素照合部と、例えばOne Pass DPアル
ゴリズムを用いて統計的言語モデルを参照して単語の音
声認識を行う音声認識部とで構成してもよい。
【0068】
【実施例】本発明者は、本実施形態で生成した多重クラ
スN−gram及び多重クラス複合N−gramの統計
的言語モデルの性能を確認するため、以下のように評価
実験を行った。
【0069】上述の第1の言語モデル生成処理の手順に
従って得られたクラスに基づいてクラスbigramと
多重クラスbigramに対してパープレキシティの評
価をおこなった。多重クラスbigramにおいてはt
oクラス数とfromクラス数が一致している必要はな
いが、比較のため同一クラス数とした。実験の結果、ク
ラスbigramにおいてはクラス数500で、また多
重クラスbigramにおいてはクラス数350でほぼ
単語bigramと同等のパープレキシティを示した。
その実験結果の詳細は図5に示す通りで、図5から明ら
かなように、多重クラスbigramを用いた場合はク
ラスbigramよりも少ないクラス数で同程度の性能
を維持できていることがわかる。
【0070】次いで、多重クラスN−gramの統計的
言語モデルを用いた連続単語認識実験結果について説明
する。連続単語認識においてはパープレキシティの大小
は必ずしも単語認識率に直結するとは言えない。そこ
で、連続単語認識実験を行い、多重クラスbigram
の性能評価を行った。比較は41会話536発声を対象
にほぼ単語bigramと同等のパープレキシティを示
す350クラスの多重クラスと500クラスのクラスb
igram、及び単語bigramについて行った。実
験結果は単語認識率において、多重クラスbigram
で70.09%、クラスbigramで69.78%で
あった。また単語bigramの場合は68.95%で
あった。このことから多重クラスbigramは連続単
語認識においてもパープレキシティ同様少ないパラメー
タ数で同等以上の認識性能を示している。
【0071】以上説明したように、クラスN−gram
におけるクラスの設定方法として個々の単語に対して、
接続の方向性ごとに複数のクラスを持たせる多重クラス
N−gramの統計的言語モデルの生成方法について開
示した。それを用いた多重クラスbigramにおいて
従来のクラスbigramより少ないクラス数で同等の
性能を示すことを確認した。また、この多重クラスN−
gramは言語モデルの学習時と認識時の単語の定義を
変える必要がある場合、言語モデルの再学習が不要であ
るため有用な言語モデルと考えられる。
【0072】次いで、多重クラス複合N−gramの統
計的言語モデルについてのパープレキシティによる評価
実験とその結果について説明する。まず、多重クラス複
合N−gramの性能評価としてパープレキシティの評
価を行った。多重クラス複合N−gramの初期クラス
としては、上述の第1の言語モデル生成処理により自動
クラス分類をしたものを用い、単語結合のための出現回
数は20回と設定した。この条件でのべ単語数459,
383単語、異なり単語数7,360単語の学習セット
を用いたときののべ単語数6,826のテストセットに
おける結果を図6に示す。図6において、可変長500
は、可変長N−gramで分離クラス数が500の場合
であり、可変長1000は、可変長N−gramで分離
クラス数が1000の場合である。図6から明らかなよ
うに、クラス数400においてほぼ単語trigram
に近い性能を示していることがわかる。このとき分離さ
れた結合単語の総数は2,212単語であり、これらの
結合単語の学習セットにおける出現回数、すなわち単語
N−gramの使用回数は116,525で、これは全
体の約20%を占める。また3単語以上の結合単語の出
現回数、すなわち単語trigram以上の使用回数は
60,529回で、全体の約10%である。
【0073】次いで、多重クラス複合N−gramの統
計的言語モデルを用いた連続単語認識によるによる評価
実験とその結果について説明する。連続単語認識におい
てはパープレキシティの大小は必ずしも単語認識率に直
結するとは言えない。そこで、連続単語認識実験を行
い、多重クラス複合bigramの性能評価を行った。
実験はクラス数100、200、300、400の多重
クラス複合N−gramと比較対象として、分離クラス
数1,000、総クラス数1,158の可変長N−gr
amに対して行った。認識対象は41会話536発声で
ある。認識結果は表2に示す通りである。
【0074】
【表2】 クラス数と認識率の関係 ―――――――――――――――――――――――――――――――――― クラス数 パラメータ数 パープレキシティ ワードアキュラシー ―――――――――――――――――――――――――――――――――― 100 19433 19.62 74.47 200 49433 17.54 76.30 300 99433 16.83 74.89 400 169433 16.29 75.79 ―――――――――――――――――――――――――――――――――― 可変長N-gram1348426 14.84 75.51 ――――――――――――――――――――――――――――――――――
【0075】表2から明らかなように、多重クラス複合
N−gramはクラス数200の場合においても可変長
N−gramと同等の認識性能を示している。またこの
ときの多重クラス複合N−gramのパラメータ数は可
変長N−gramの4%以下であり、単語bigram
の千分の1以下である。
【0076】以上説明したように、多重クラスbigr
amをベースとしたクラスと結合単語の複合N−gra
mの統計的言語モデルの生成方法を開示した。このモデ
ルは出現回数の十分でない単語ペアに関しては多重クラ
スbigramを用い、出現回数が十分な単語列に関し
ては単語N−gramを使うため精度と頑健さを兼ね備
えたモデルとなっている。また、結合単語の導入の際に
新たなクラス生成を必要としないため非常に少ないパラ
メータ数(単語bigramの千分の1以下)しか要求
されず、かつ表現形式は多重クラスbigramの形の
ままであるためデコーディングにとっても扱いやすいモ
デルとなっている。モデルの性能は認識実験からも単語
trigramに近いパープレキシティと可変長N−g
ramと同等の単語認識率を得ることが示された。
【0077】上述の多重クラスN−gram又は多重ク
ラス複合N−gramの統計的言語モデルを用いて音声
認識する図1の連続音声認識装置においては、次の単語
の予測精度及び信頼性を大幅に向上させることができる
ので、音声認識率を大幅に向上させることができ、しか
もパラメータ数が増大しないので、使用メモリ容量を低
減させることができる。
【0078】以上の実施形態においては、多重クラスb
igram及び多重クラス複合bigramについて詳
述しているが、本発明はこれに限らず、それぞれ多重ク
ラスN−gram及び多重クラス複合N−gram(こ
こで、N≧2である。)に容易に拡張することができ
る。
【0079】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の統計的言語モデル生成装置によれば、所定の話
者の発声音声文を書き下した学習用テキストデータに基
づいて、すべての単語をそれぞれ、処理対象の単語の前
に接続される単語の品詞属性に基づくtoクラスの品詞
クラスに分類する第1の分類手段と、上記学習用テキス
トデータに基づいて、すべての単語をそれぞれ、処理対
象の単語の後に接続される単語の品詞属性に基づくfr
omクラスの品詞クラスに分類する第2の分類手段と、
複数の単語が連続したときに固有の読みが与えられる複
数の単語の列である所定の結合単語について、toクラ
スの品詞クラスについて結合単語内の最先の単語の品詞
クラスにクラス分類する一方、fromクラスの品詞ク
ラスについて結合単語内の最後の単語の品詞クラスにク
ラス分類する第3の分類手段と、上記第1の分類手段と
上記第2の分類手段と上記第3の分類手段とによってク
ラス分類された単語データに基づいて、処理対象の単語
の前の接続と後ろの接続毎に複数の品詞クラスを有する
多重クラスN−gramの出現確率を計算することによ
り多重クラスN−gramの統計的言語モデルを生成す
る第1の生成手段とを備える。従って、本発明によれ
ば、従来例に比較してパラメータ数を増大させずに、遷
移確率の予測精度及び信頼性を改善することができる統
計的言語モデルを生成することができる。
【0080】また、請求項2記載の統計的言語モデル生
成装置によれば、請求項1記載の統計的言語モデル生成
装置において、上記第1の生成手段によって生成された
多重クラスN−gramの統計的言語モデルに基づい
て、所定数より出現回数が多い単語ペアを結合単語とし
て導入し、当該結合単語に対して、toクラスの品詞ク
ラスについては当該結合単語内の最先の単語の品詞クラ
スにクラス分類する一方、fromクラスの品詞クラス
については当該結合単語内の最後の単語の品詞クラスに
クラス分類する第3の分類手段と、上記第3の分類手段
によってクラス分類されて結合単語が導入された統計的
言語モデルにおいて結合単語を含む多重クラス複合N−
gramの出現確率を計算することにより多重クラス複
合N−gramの統計的言語モデルを生成する第2の生
成手段とをさらに備える。従って、本発明によれば、従
来例に比較してパラメータ数を増大させずに、遷移確率
の予測精度及び信頼性を改善することができる統計的言
語モデルを生成することができる。
【0081】さらに、請求項3記載の統計的言語モデル
生成装置によれば、請求項2記載の統計的言語モデル生
成装置において、上記第2の生成手段によって生成され
た多重クラスN−gramの統計的言語モデルにおい
て、所定数より出現回数が多い単語ペアが存在するとき
に、上記第2の生成手段によって生成された多重クラス
N−gramの統計的言語モデルに基づいて、所定数よ
り出現回数が多い単語ペアを結合単語として導入し、上
記第3の分類手段の処理と、上記第2の生成手段の処理
とを繰り返して実行して、上記多重クラスN−gram
の統計的言語モデルを更新する制御手段をさらに備え
る。従って、本発明によれば、従来例に比較してパラメ
ータ数を増大させずに、遷移確率の予測精度及び信頼性
を改善することができる統計的言語モデルを生成するこ
とができる。
【0082】また、本発明に係る請求項4記載の音声認
識装置によれば、入力される発声音声文の音声信号に基
づいて、所定の統計的言語モデルを用いて音声認識する
音声認識手段を備えた音声認識装置において、上記音声
認識手段は、請求項1、2又は3記載の統計的言語モデ
ル生成装置によって生成された統計的言語モデルを用い
て音声認識する。従って、本発明によれば、従来例に比
較してパラメータ数を増大させずに、遷移確率の予測精
度及び信頼性を改善することができる統計的言語モデル
を生成することができる。それ故、音声認識率を大幅に
向上させることができ、しかもパラメータ数が増大しな
いので、使用メモリ容量を低減させることができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
【図2】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
【図3】 図1の言語モデル生成部20によって実行さ
れる第1の言語モデル生成処理を示すフローチャートで
ある。
【図4】 図1の言語モデル生成部30によって実行さ
れる第2の言語モデル生成処理を示すフローチャートで
ある。
【図5】 図3の第1の言語モデル生成処理によって生
成された多重クラスbigramとその他の統計的言語
モデルにおける実験結果であって、クラス数に対するパ
ープレキシティを示すグラフである。
【図6】 図4の第2の言語モデル生成処理によって生
成された多重クラス複合bigramとその他の統計的
言語モデルにおける実験結果であって、クラス数に対す
るパープレキシティを示すグラフである。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMMメモリ、 12…単語辞書メモリ、 13…学習用テキストデータメモリ、 20,30…言語モデル生成部、 21,31…統計的言語モデルメモリ、 SW…スイッチ。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 電子情報通信学会技術研究報告[言語 理解とコミュニケーション]Vol. 98,No.460,NLC98−38,「接続 の方向性を考慮した多重クラス複合 N −gram 言語モデル」p.49−54 (1998/12/10) 日本音響学会平成10年度秋季研究発表 会講演論文集▲I▼(1998/9/24)2 −1−19「接続の方向性を考慮した多重 クラス複合 N−gram モデル」 p.75−76 電子情報通信学会論文誌 Vol.J 81−D−▲II▼,No.9,Sept ember 1998,「品詞および可変長 単語列の複合 N−gramの自動生 成」p.1929−1936(1998/9/25) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 537 G06F 15/20 514 G06F 15/38 JICSTファイル(JOIS) 実用ファイル(PATOLIS) 特許ファイル(PATOLIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 所定の話者の発声音声文を書き下した学
    習用テキストデータに基づいて、すべての単語をそれぞ
    れ、処理対象の単語の前に接続される単語の品詞属性に
    基づくtoクラスの品詞クラスに分類する第1の分類手
    段と、 上記学習用テキストデータに基づいて、すべての単語を
    それぞれ、処理対象の単語の後に接続される単語の品詞
    属性に基づくfromクラスの品詞クラスに分類する第
    2の分類手段と、 複数の単語が連続したときに固有の読みが与えられる複
    数の単語の列である所定の結合単語について、toクラ
    スの品詞クラスについて結合単語内の最先の単語の品詞
    クラスにクラス分類する一方、fromクラスの品詞ク
    ラスについて結合単語内の最後の単語の品詞クラスにク
    ラス分類する第3の分類手段と、 上記第1の分類手段と上記第2の分類手段と上記第3の
    分類手段とによってクラス分類された単語データに基づ
    いて、処理対象の単語の前の接続と後ろの接続毎に複数
    の品詞クラスを有する多重クラスN−gramの出現確
    率を計算することにより多重クラスN−gramの統計
    的言語モデルを生成する第1の生成手段とを備えたこと
    を特徴とする統計的言語モデル生成装置。
  2. 【請求項2】 請求項1記載の統計的言語モデル生成装
    置において、 上記第1の生成手段によって生成された多重クラスN−
    gramの統計的言語モデルに基づいて、所定数より出
    現回数が多い単語ペアを結合単語として導入し、当該結
    合単語に対して、toクラスの品詞クラスについては当
    該結合単語内の最先の単語の品詞クラスにクラス分類す
    る一方、fromクラスの品詞クラスについては当該結
    合単語内の最後の単語の品詞クラスにクラス分類する第
    3の分類手段と、 上記第3の分類手段によってクラス分類されて結合単語
    が導入された統計的言語モデルにおいて結合単語を含む
    多重クラス複合N−gramの出現確率を計算すること
    により多重クラス複合N−gramの統計的言語モデル
    を生成する第2の生成手段とをさらに備えたことを特徴
    とする統計的言語モデル生成装置。
  3. 【請求項3】 請求項2記載の統計的言語モデル生成装
    置において、 上記第2の生成手段によって生成された多重クラスN−
    gramの統計的言語モデルにおいて、所定数より出現
    回数が多い単語ペアが存在するときに、上記第2の生成
    手段によって生成された多重クラスN−gramの統計
    的言語モデルに基づいて、所定数より出現回数が多い単
    語ペアを結合単語として導入し、上記第3の分類手段の
    処理と、上記第2の生成手段の処理とを繰り返して実行
    して、上記多重クラスN−gramの統計的言語モデル
    を更新する制御手段をさらに備えたことを特徴とする統
    計的言語モデル生成装置。
  4. 【請求項4】 入力される発声音声文の音声信号に基づ
    いて、所定の統計的言語モデルを用いて音声認識する音
    声認識手段を備えた音声認識装置において、 上記音声認識手段は、請求項1、2又は3記載の統計的
    言語モデル生成装置によって生成された統計的言語モデ
    ルを用いて音声認識することを特徴とする音声認識装
    置。
JP10264656A 1998-09-18 1998-09-18 統計的言語モデル生成装置及び音声認識装置 Expired - Fee Related JP2968792B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10264656A JP2968792B1 (ja) 1998-09-18 1998-09-18 統計的言語モデル生成装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10264656A JP2968792B1 (ja) 1998-09-18 1998-09-18 統計的言語モデル生成装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JP2968792B1 true JP2968792B1 (ja) 1999-11-02
JP2000099085A JP2000099085A (ja) 2000-04-07

Family

ID=17406393

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10264656A Expired - Fee Related JP2968792B1 (ja) 1998-09-18 1998-09-18 統計的言語モデル生成装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP2968792B1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7124080B2 (en) * 2001-11-13 2006-10-17 Microsoft Corporation Method and apparatus for adapting a class entity dictionary used with language models
KR101630436B1 (ko) * 2015-04-01 2016-06-15 한국과학기술원 언어의 비종속적 자질 추출 방법
KR20190090646A (ko) * 2018-01-25 2019-08-02 필아이티 주식회사 단어 예측을 수행하는 방법 및 모바일 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成10年度秋季研究発表会講演論文集▲I▼(1998/9/24)2−1−19「接続の方向性を考慮した多重クラス複合 N−gram モデル」p.75−76
電子情報通信学会技術研究報告[言語理解とコミュニケーション]Vol.98,No.460,NLC98−38,「接続の方向性を考慮した多重クラス複合 N−gram 言語モデル」p.49−54(1998/12/10)
電子情報通信学会論文誌 Vol.J81−D−▲II▼,No.9,September 1998,「品詞および可変長単語列の複合 N−gramの自動生成」p.1929−1936(1998/9/25)

Also Published As

Publication number Publication date
JP2000099085A (ja) 2000-04-07

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
JP3004254B2 (ja) 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
US4876720A (en) Speech recognition system
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3444108B2 (ja) 音声認識装置
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3176210B2 (ja) 音声認識方法及び音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2938865B1 (ja) 音声認識装置
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
JP3039399B2 (ja) 非母国語音声認識装置
JP2000356997A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2905674B2 (ja) 不特定話者連続音声認識方法
JP2000259175A (ja) 音声認識装置
JP2002268677A (ja) 統計的言語モデル生成装置及び音声認識装置
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
JPH1185184A (ja) 音声認識装置
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置
JP2000250583A (ja) 統計的言語モデル生成装置及び音声認識装置
JP4689497B2 (ja) 音声認識装置
JPH10254480A (ja) 音声認識方法
JP2975540B2 (ja) 自由発話音声認識装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100820

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110820

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110820

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120820

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees