JP2000075886A - 統計的言語モデル生成装置及び音声認識装置 - Google Patents

統計的言語モデル生成装置及び音声認識装置

Info

Publication number
JP2000075886A
JP2000075886A JP10243024A JP24302498A JP2000075886A JP 2000075886 A JP2000075886 A JP 2000075886A JP 10243024 A JP10243024 A JP 10243024A JP 24302498 A JP24302498 A JP 24302498A JP 2000075886 A JP2000075886 A JP 2000075886A
Authority
JP
Japan
Prior art keywords
language model
cluster
statistical language
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10243024A
Other languages
English (en)
Other versions
JP2938866B1 (ja
Inventor
Hirokazu Masataki
浩和 政瀧
Yoshinori Kosaka
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP10243024A priority Critical patent/JP2938866B1/ja
Application granted granted Critical
Publication of JP2938866B1 publication Critical patent/JP2938866B1/ja
Publication of JP2000075886A publication Critical patent/JP2000075886A/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 遷移確率の予測精度及び信頼性を改善可能な
統計的言語モデルを生成し、統計的言語モデルを用いて
より高い音声認識率で音声認識する。 【解決手段】 学習用テキストデータ全体をクラスタリ
ング処理部40によって自動的にクラスタリングしてク
ラスタ毎のテキストデータをメモリ21に記憶し、言語
モデル生成部42によりMAP推定法を用いて各クラス
タ毎の統計的言語モデルを生成してメモリ32に記憶す
る。一方、学習用テキストデータ全体に対して統計的言
語モデルを生成してメモリ31に記憶する。単語照合部
4による単語仮説の生成の後、単語仮説絞込部6aはメ
モリ31内の統計的言語モデルを用いて単語仮説の絞込
処理を実行した後、言語モデル選択部8はメモリ32内
の各クラスタの統計的言語モデルのうちで文生成確率が
最大のモデルを選択して、単語仮説絞込部6bは選択さ
れたモデルを用いて再度の絞込処理を行って認識結果を
出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、学習用テキストデ
ータに基づいて統計的言語モデルを生成する統計的言語
モデル生成装置、及び上記統計的言語モデルを用いて、
入力される発声音声文の音声信号を音声認識する音声認
識装置に関する。
【0002】
【従来の技術】近年、連続音声認識装置において、その
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、言語モデルを用いて、次単語を予測し
探索空間を削減することにより、認識率の向上及び計算
時間の削減の効果を狙ったものである。最近盛んに用い
られている言語モデルとしてN−gram(N−グラ
ム;ここで、Nは2以上の自然数である。)がある。こ
れは、大規模なテキストデータを学習し、直前のN−1
個の単語から次の単語への遷移確率を統計的に与えるも
のである。複数L個の単語列w1 L=w1,w2,…,wL
の生成確率P(w1 L)は次式で表される。
【0003】
【数1】
【0004】ここで、wtは単語列w1 Lのうちt番目の
1つの単語を表し、wi jはi番目からj番目の単語列を
表わす。上記数1において、確率P(wt
t+1-N t-1)は、N個の単語からなる単語列wt+1-N t-1
が発声された後に単語wtが発声される確率であり、以
下同様に、確率P(A|B)は単語又は単語列Bが発声
された後に単語Aが発声される確率を意味する。また、
数1における「Π」はt=1からLまでの確率P(wt
|wt+1-N t-1)の積を意味し、以下同様である。
【0005】ところで、近年、上記統計的言語モデルN
−gramを用いて連続音声認識の性能を向上させる手
法が盛んに提案されている(例えば、従来技術文献1
「L.R.Bahl et al.,“A Maxim
um LikelihoodApproach to
Continuous Speech Recogni
tion”,IEEE Transactions o
n PatternAnalysis and Mac
hine Intelligence,pp.179−
190,1983年」及び従来技術文献2「清水ほか,
“単語グラフを用いた自由発話音声認識”,電子情報通
信学会技術報告,SP95−88,pp.49−54,
平成7年」参照。)。
【0006】しかしながら、N−gramはパラメータ
数が多く、それぞれの値を正確に求めるためには、莫大
な量のテキストデータが必要とされる。この問題を解決
する方法として、学習用テキストデータに出現しない単
語遷移に対しても遷移確率を与える平滑化の手法(例え
ば、従来技術文献3「F.Jelinek et a
l.,“Interpolated estimati
on of Markov Source Param
eters from Sparse Data”,P
roceedings of Workshop Pa
ttern Recognition in Prac
tice,pp.381−387,1980年」、従来
技術文献4「S.M.Katz et al.,“Es
timation of Probabilities
from Sparse Data for the
Language model Component
of a Speech Recognizer”,
IEEE Transactions on Acou
stics,Speech,and SignalPr
ocessing,pp.400−401,1987
年」及び従来技術文献5「川端ほか,“二項事後分布に
基づくN−gram言語モデルのBack−off平滑
化”,電子情報通信学会技術報告、SP95−93,p
p1−6,平成7年」参照。)や、クラス分類、可変長
N−gram等パラメータの数を減少させる手法(例え
ば、従来技術文献6「P.F.Brown et a
l.,“Class−Based n−gram mo
dels of naturallanguage”,
Computational Linguistic
s,Vol.18,No.4,pp.467−479,
1992年」、従来技術文献7「T.R.Niesle
r et al.,“A Variable−Leng
th Category−Based N−gram
Language Model”,Proceedin
gs of ICASSP ’96,Vol.1,p
p.164−167,1996年」及び従来技術文献8
「政瀧ほか,“連続音声認識のための可変長連鎖統計言
語モデル”,電子情報通信学会技術報告,SP95−7
3,pp.1−6,平成7年」参照。)等が数多く提案
されている。しかしながら、これらの手法を用いても、
精度の良い言語モデルを構築するためには、相当量のデ
ータを用いる必要があると考えられる。
【0007】現在、実用化に向けて研究が行われている
連続音声認識システムは、ホテル予約・スケジューリン
グ等、タスクを限定し、システムのパフォーマンスの向
上させている物が多い。しかしながら、タスク毎に大量
の言語データを集めるのは困難である。特に、日本語の
場合は、英語等のように単語の区切りが明確ではなく、
通常人間が手作業で単語の切り出し・形態素解析の作業
を行うため、大量のデータを集めるのはさらに困難であ
る。しかしながら、データ量を増やすために、他のタス
クのデータを用いるた場合、言語的特徴はタスク毎に異
なるため、単純にデータを混合しても目的のタスク特有
の言語特徴を効果的に表現することはできないと考えら
れる。
【0008】これらの問題を解決する手段として、言語
モデルのタスク適応を考えられている。すなわち、目的
のタスク以外のデータも含めた大量のデータを学習する
ことによりデータ量の問題を解決し、得られたモデルの
言語特徴を目的のタスクに適応させる方法である。タス
ク適応の手法として、従来提案されているものには大量
のデータで作成したN−gramと、目的タスクのデー
タで作成したN−gramとを重みづけにより混合する
方法(例えば、従来技術文献9「伊藤ほか,“小量テキ
ストによる言語モデルのタスク適応の検討”,日本音響
学会講演論文集,1−3−19,pp.37−38,平
成8年9月」及び従来技術文献10,「坂本ほか,“音
声認識における統計的言語モデルの選択の効果”,日本
音響学会講演論文集,1−Q−24,pp.157−1
58,平成6年3月」参照。)がある。
【0009】例えば、従来技術文献9の手法を用いた第
1の従来例のタスク適応化処理は、小量テキストに重み
をかけて大量テキストと混合するものであり、次の手順
によって言語モデルを作成する。 (a)小量テキストを、重み付きで大量テキストに加え
る。重み係数をwとすると、小量テキスト中でm回出現
した単語は、大量テキスト中で(w・m)回出現した単
語と同等に扱われることになる。 (b)このようにしてできたテキストの中で、出現頻度
が一定回数未満の単語を、未知語を表す記号に置き換え
る。すなわち、語彙の制限を行う。 (c)テキストから統計を取り,N−gramモデルを
構築する。
【0010】しかしながら、第1の従来例のタスク適応
化処理においては、重み係数wは1つのみしか使用して
いないので、言語モデルにおける遷移確率の予測精度は
いまだ比較的低く、当該言語モデルを用いて音声認識を
したときの音声認識率は比較的低いという問題点があっ
た。
【0011】この第1の従来例の問題点を解決するため
に、本発明者は、特開平10−198395号の特許出
願(以下、第2の従来例という。)において、特定のタ
スクのN−gram言語モデルの精度を向上させるた
め、MAP推定(最大事後確率推定)によるタスク適応
の手法を提案している。
【0012】
【発明が解決しようとする課題】しかしながら、第2の
従来例の手法は単語列毎にタスク間のN−gram遷移
確率の平均、及び分散を用いてパラメータ推定を行うた
め、テキスト全体があらかじめ複数のタスクに分割され
ている必要があり、単一のタスクのデータには適用でき
ないという問題点があった。また、データ量が比較的多
いタスクにおいては、タスク適応の効果が小さいという
問題があった。
【0013】本発明の目的は以上の問題点を解決し、各
タスクに対する適応効果が大きく、従来例に比較して遷
移確率の予測精度及び信頼性を改善することができる統
計的言語モデルを生成することができる統計的言語モデ
ル生成装置、及び、当該統計的言語モデルを用いて従来
例に比較して高い音声認識率で音声認識することができ
る音声認識装置を提供することにある。
【0014】
【課題を解決するための手段】本発明に係る請求項1記
載の統計的言語モデル生成装置は、複数のクラスタの統
計的言語モデルを記憶する記憶手段と、所定の複数の発
声音声文を含む学習用テキストデータに基づいて各発声
音声文に対する統計的言語モデルを生成して、各発声音
声文が各クラスタに対応するように、上記生成した統計
的言語モデルを上記記憶手段に記憶する初期化手段と、
上記学習用テキストデータの各発声音声文について、各
クラスタにおける統計的言語モデルの文生成確率を計算
して最大の文生成確率を有するクラスタを選択してその
発声音声文を所属させるように上記記憶手段に記憶する
クラスタ選択手段と、発声音声文が属するクラスタが変
化したときに、各クラスタ毎に、上記クラスタ選択手段
によって選択された発声音声文を用いて上記記憶手段に
記憶された各統計的言語モデルを更新して、各クラスタ
に対応した統計的言語モデルを生成するモデル変更手段
と、上記複数の発声音声文に属するクラスタが1文も変
化しなくなるまで、上記クラスタ選択手段の処理と、上
記モデル変更手段の処理を繰り返す制御手段とを備えた
ことを特徴とする。
【0015】また、請求項2記載の統計的言語モデル生
成装置は、請求項1記載の統計的言語モデル生成装置に
おいて、さらに、上記記憶手段に記憶された各クラスタ
毎のテキストデータに基づいて、最尤推定法を用いて各
クラスタ毎に単語のN−gram(Nは2以上の自然数
である。)の遷移確率を演算する第1の演算手段と、上
記第1の演算手段によって演算された各クラスタ毎の単
語のN−gramの遷移確率の出現分布を事前知識の所
定の確率分布と仮定し、各クラスタ毎の確率分布の加重
平均及び加重分散を演算した後、演算された加重平均と
加重分散に基づいて事前知識の確率分布のパラメータを
演算する第2の演算手段と、上記第2の演算手段によっ
て演算された事前知識の確率分布のパラメータと、上記
学習用テキストデータうちの特定クラスタのテキストデ
ータの事後知識における処理対象の単語列の直前の単語
列の出現回数と、処理対象の単語列の出現回数とに基づ
いて、各クラスタ毎の単語のN−gramの遷移確率を
計算することにより、各クラスタ毎の単語のN−gra
mの遷移確率を含む統計的言語モデルを生成する第3の
演算手段とを備えたことを特徴とする。
【0016】さらに、請求項3記載の統計的言語モデル
生成装置は、請求項2記載の統計的言語モデル生成装置
において、さらに、上記第3の演算手段によって演算さ
れた各クラスタ毎の単語のN−gramの遷移確率に基
づいて,所定の平滑化処理を実行し、処理後の各クラス
タ毎の単語のN−gramの遷移確率を含む統計的言語
モデルを生成する第1の生成手段を備えたことを特徴と
する。
【0017】またさらに、請求項4記載の統計的言語モ
デル生成装置は、請求項3記載の統計的言語モデル生成
装置において、さらに、上記学習用テキストデータに基
づいて、最尤推定法を用いて単語のN−gram(Nは
2以上の自然数である。)の遷移確率を演算して、上記
単語のN−gramの遷移確率を含む別の統計的言語モ
デルを生成する第2の生成手段を備えたことを特徴とす
る。
【0018】本発明に係る請求項5記載の音声認識装置
は、入力される発声音声文の音声信号に基づいて、所定
の統計的言語モデルを用いて音声認識する音声認識装置
において、請求項4記載の統計的言語モデル生成装置
と、上記第2の生成手段によって生成された別の統計的
言語モデルを用いて、入力される発声音声文の音声信号
を音声認識して第1の認識仮説を出力する第1の音声認
識手段と、上記第1の音声認識手段から出力される第1
の認識仮説に応答して、上記第1の生成手段によって生
成された各クラスタ毎の統計的言語モデルを用いて、入
力される発声音声文の音声信号を音声認識して、文生成
確率が最大のクラスタの統計的言語モデル生成装置を選
択するモデル選択手段と、上記モデル選択手段によって
選択されたクラスタの統計的言語モデルを用いて、上記
第1の音声認識手段から出力される第1の認識仮説に対
して絞込処理を行って第2の認識仮説を生成して認識結
果として出力する第2の音声認識手段とを備えたことを
特徴とする。
【0019】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0020】図1に本発明に係る一実施形態の連続音声
認識装置のブロック図を示す。本実施形態の連続音声認
識装置は、図1において、特に、クラスタリング処理部
40と、2つの言語モデル生成部41,42と、2つの
単語仮説絞込部6a,6bを備えたことを特徴としてい
る。本実施形態では、上述した第2の従来例の問題点を
解決するためには、同一タスクの文でも、さまざまな内
容の文が存在し、タスクという尺度よりも、文毎の内容
で分類した方が言語的特徴がより明確になる考えられ
る。本実施形態では、これらの問題を解決し、さらに精
度の高いN−gram言語モデルを得るため、学習用テ
キストデータメモリ20内のテキストデータのコーパス
全体をクラスタリング処理部40によって自動的にクラ
スタリングし、言語モデル生成部42において、MAP
推定を用いてそれぞれのクラスタ毎にN−gram言語
モデルを構築する。また、精度を向上させるため、従来
の単語N−gramに代り、可変長N−gram(品詞
と可変長単語列の複合N−gram)を用いる。
【0021】すなわち、本実施形態の連続音声認識装置
は、言語モデルの学習に用いるテキストコーパスをクラ
スタリングし、クラスタ毎の言語特徴を明確にさせ、言
語モデルの精度を向上させる。しかしながら、入力され
た音声の発話文が属するクラスタをあらかじめ知ること
は不可能である。このため、まず最初に、入力音声をコ
ーパス全体で作成した言語モデルで認識を行い、次に、
認識結果からクラスタ別の言語モデルを1つのみ選択し
再度認識を行う、という2段階の認識を行う。
【0022】中間認識結果Wからクラスタ別の言語モデ
ルLMcの選択は、次式のように確率が最も高いものを
選択することにより行う。
【0023】
【数2】
【0024】上記式は、Bayes則を用いると、次式
のように表される。
【0025】
【数3】
【0026】ここで、P(LMk)は、言語モデルLM
kの事前確率である。この確率は前発話の内容等より求
めることができるが、本実施形態ではこの確率に関して
は考慮しない。従って、次の式によりクラスタ言語モデ
ルを選択する。
【0027】
【数4】
【0028】すなわち、K個のクラスタのそれぞれのモ
デルLMkで認識結果文Wに対する生成確率P(W|L
Mk)(1≦k≦K)を求め、確率の最も高いクラスタ
モデルLMcを選択する。この選択処理は、言語モデル
選択部8により行われる。
【0029】次いで、クラスタリング処理部40による
コーパスのクラスタリングについて説明する。コーパス
を自動クラスタリングするために、公知のK−mean
s法に類似した方法を用いた。K−means法は、サ
ンプルを距離が最も近いクラスタ中心に所属させる形で
クラスタリングを行う手法である。この手法を文のクラ
スタリングに適用するため、次の2点で通常の方法と異
なる。 (1)クラスタ中心ベクトルをそのクラスタに属する文
で生成される言語モデルとする。 (2)距離尺度に文の生成確率P(W|LMk)を用い
る。
【0030】これらは、前述した認識結果からクラスタ
モデルの選択で用いる手法と同一であり、妥当な方法で
あると考える。以下に、クラスタリングの手順を示す。 <ステップSS1>クラスタモデルの初期化:クラスタ
数をKとし、適当な手法によりコーパスからK文を選択
して全クラスタに1文ずつ配置し、クラスタ毎の言語モ
デルLM1、LM2、…、LMKを作成する。 <ステップSS2>クラスタの選択:コーパスの全文に
ついて、各クラスタにおける言語モデルの文生成確率を
求め、最も確率の高いクラスタを選択し、その文を所属
させる。 <ステップSS3>クラスタモデルの変更:各クラスタ
毎に、ステップSS2で選択した文を用いて言語モデル
LM1、LM2、…、LMKを更新する。 <ステップSS4>終了条件:文の属するクラスタが1
文も変化しない場合、クラスタリングを終了する。それ
以外の場合は、ステップSS2及びSS3の処理を繰り
返す。ただし、ある程度の回数を繰り返してもクラスタ
リングが収束しない場合は強制終了させる。
【0031】次いで、MAP推定によるN−gramの
適応について説明する。クラスタリングを行うことによ
り、クラスタ毎の言語的特徴は明確になるものの、クラ
スタ毎のデータ量は減少するため、N−gramのパラ
メータ推定の精度が低下することが考えられる。このた
め、第2の従来例で開示されたMAP推定を用いた適応
の手法を用い、パラメータ推定の精度を向上させる。
【0032】まず、MAP推定法による遷移確率の算出
について述べる。通常、N−gramの遷移確率は、M
L(Maximum Likelihood;最尤)推
定法により算出される。最尤推定法は、観測したサンプ
ル値(すなわち、テキストデータの単語)xに対して、
遷移確率pが決まったときに単語xとなる尤度関数f
(x|p)を最大にさせる値として、N−gram遷移
確率pMLが次式で定められる。
【0033】
【数5】
【0034】ここで、関数argmaxは、pを変化し
たときに関数の引数が最大となるときのpの値を示す関
数である。議論を簡単にするため、単語wkからwlへの
bigramの遷移確率p(wl|wk)について考え、
また、以下のような変数の定義を行う。 (a)N:学習用テキストデータ中の単語wkの出現回
数。 (b)n:学習用テキストデータ中の単語列wklの出
現回数。 (c)p:単語wkからwlへの遷移確率。
【0035】このとき尤度関数f(x|p)は、単語w
kがN回観測され、次に単語wlに続く回数がn回で、そ
れ以外の単語に続く回数が(N−n)回であるから、次
式を得ることができる。
【0036】
【数6】f(p)=pn(1−p)N-n
【0037】f(p)の最大化条件dlogf(p)/
dp=0を解くことにより、N−gramの遷移確率は
次式のように計算される。
【0038】
【数7】pML=n/N
【0039】従って、もし単語列wklが観測データ上
で出現しない場合、n=0であるから、遷移確率は0と
推定されてしまう。これに対して、MAP(Maxim
umA−posteriori Probabilit
y;最大事後確率)推定においては、最尤推定法を用い
て、観測したサンプル値xに対して、遷移確率pが決定
される事後確率関数h(p|x)を最大化する値とし
て、N−gramの遷移確率が次式で求められる。
【0040】
【数8】
【0041】ここで、Bayes則を用いると、上記数
8は次式のように変形される。
【0042】
【数9】
【0043】ここで、g(p)は、各クラスタのテキス
トデータに基づいて予め決定される、N−gramの遷
移確率pの事前分布である。すなわち、MAP推定法を
用いると、N−gramの遷移確率はある事前知識より
得られる分布g(p)に従う変数とし、この事前分布と
実際に観測されたサンプル値とを用いて、実際の遷移確
率が推定される。このため、観測データで出現しない単
語遷移に対しても、事前知識により0でない遷移確率を
与えることができる。
【0044】次いで、bigramを例にとり、MAP
推定法によりN−gramの遷移確率を求める方法を示
す。ただし、変数の定義は上述と同じものを用いる。ま
ず、遷移確率pの事前分布としてベータ分布(apα-1
(1−p)β-1,ここで、α及びβはベータ分布の正の
パラメータであり、aは正規化のための正の定数であ
る。)を用いる。なお、0≦p≦1である。ベータ分布
を用いる理由は次の2点である。 (a)ベータ分布は2項分布の自然共役事前分布で、M
AP推定によるパラメータの解が求まりやすい。 (b)ベータ分布のパラメータα,βを変化させること
により、様々な形状の分布を表すことができる。 ここで、ベータ分布は、連続変数の確率分布の一種であ
り、ガンマ関数をもとにして構成されるベータ関数が表
示に含まれる。なお、本実施形態においては、ベータ分
布を用いるが、本発明はこれに限らず、ベータ分布に代
えて、ディリクレ分布を用いてもよい。ディリクレ分布
は、ベータ分布を多変量分布に拡張したものであり、多
項分布の自然共役事前分布である。
【0045】上記数9のMAP推定法の定義に従うと、
遷移確率pMAPは、尤度関数f(p)と事前分布g
(p)とを用いて次式のように求められる。
【0046】
【数10】
【0047】ここで、関数L(p)が最大となるための
条件dlogL(p)/dp=0をpについて解くと、
単語のbigramの遷移確率pMAPは次式のように求
まる。
【0048】
【数11】pMAP=(n+α−1)/(N+α+β−
2)
【0049】ここで、パラメータα及びβは、事前分布
であるベータ分布のパラメータであるが、これらは、次
式のように求めることができる。なお、ベータ分布の平
均μ及び分散σ2は以下の式となることが知られている
(例えば、従来技術文献5参照。)。
【0050】
【数12】μ=α/(α+β) σ2=(αβ)/{(α+β)2(α+β+1)}
【0051】これらの式をα,α+βについて解くと、
次式が得られる。
【0052】
【数13】α={μ2(1−μ)}/σ2−μ α+β={μ(1−μ)}/σ2−1
【0053】以上より、観測テキストデータから頻度を
計算することにより得られるパラメータN,n、及び事
前分布の平均μ及び分散σ2により、上記数11及び数
13を用いて、単語のbigramの遷移確率を求める
ことができる。
【0054】これまでの議論は、単語のbigramに
ついてのみの議論であったが、一般に、MAP推定法に
よるN−gramの遷移確率p(wn|w1 n-1)は、直
前の単語wkを直前の単語列w1 n-1と置き換え、パラメ
ータN及びnを次のように定義すれば、同じ議論が通用
することは明らかである。 (a)N:学習用テキストデータ中の単語列w1 n-1の出
現回数(c(w1 n-1))、すなわち、処理対象の単語列
の直前の単語列の出現回数である。 (b)n:学習用テキストデータ中の単語列w1 nの出現
回数(c(w1 n))、すなわち、処理対象の単語列の出
現回数である。
【0055】次いで、MAP推定法を用いたクラスタ適
応化処理について述べる。上述のMAP推定法によるN
−gramをクラスタ適応化に応用するために、図3に
示すように、複数のクラスタより構成される大量のテキ
ストデータから構成される不特定のタスクのテキストデ
ータに基づくN−gramを事前知識とし、目的の特定
クラスタiのテキストデータ21−iを事後知識とみな
す。不特定のクラスタのN−gramを事前知識とみな
したとき、その事前分布は、各クラスタにおけるN−g
ram遷移確率の分布と考えることができる。ただし、
各クラスタにおけるN−gram遷移確率は最尤推定法
により求められる。この事前分布をベータ分布と仮定し
てMAP推定法の事前分布として用いる。このとき、事
前分布の加重平均μ、及び加重分散σ2は次式で求めら
れる。
【0056】
【数14】
【数15】
【0057】ここで、ci(w1 n-1)はクラスタiにお
いて単語列w1 n-1の出現頻度であり、pi(wn
1 n-1)はクラスタiにおける単語列w1 n-1からwn
の遷移確率である。また、事後知識を目的のクラスタの
テキストデータとすると、前述のパラメータN及びnは
次のように表される。 (a)N:目的の特定クラスタiのテキストデータ21
−i中の単語列w1 n-1の出現頻度、すなわち、処理対象
の単語列の直前の単語列の出現回数である。 (b)n:目的の特定クラスタiのテキストデータ21
−i中の単語列w1 nの出現頻度、すなわち、処理対象の
単語列の出現回数である。 以上の加重平均μ,加重分散σ2,パラメータn及びN
を上述の数10及び数12に代入することにより、MA
P推定法によるタスク適応後のN−gram遷移確率が
得られる。
【0058】さらに、Back−off平滑化法による
遷移確率の平滑化について述べる。上記でMAP推定法
によるタスク適応の基本原理を述べたが、実際に言語モ
デルとして使用するには、2つの問題がある。1つは、
平滑化の問題である。不特定タスクの大量のテキストデ
ータを用いても、出現しない単語列が存在し、MAP推
定法を用いても、N−gramの遷移確率が0となって
しまう。従って、平滑化処理によりテキストに出現しな
い単語組に対しても、0でない遷移確率を与える必要が
ある。もう1つの問題は、本発明に係るタスク適応化処
理は、全ての遷移確率を独立に求める手法であるため、
遷移確率の和が1になるとは限らない。連続音声認識等
に適用する際は、問題とはならないが、パープレキシテ
ィで評価する際は、1に正規化されていないと、正しい
評価ができない。従って、近年盛んに用いられているB
ack−Off平滑化法(例えば、従来技術文献4参
照。)を拡張して、これらの問題を解決する方法を述べ
る。
【0059】単語列w1 nが不特定のクラスタのテキスト
データ21−kに含まれる場合は、上記のタスク適応化
処理により、遷移確率pMAP(wn|w1 n-1)を求め、チ
ューリング(Turing)推定法により、確率pMAP
(wn|w1 n-1)を軽減する。ただし、軽減係数は不特
定のクラスタのテキストデータ31の頻度(c
I(w1 n))を用いて計算する。当該軽減により生じた
確率の余剰分をw1 nが不特定のクラスタのテキストデー
タ31に含まれない単語連鎖に対して、(n−1)−g
ramの遷移確率に比例して配分する。以上をまとめる
と、クラスタ適応化されたN−gramの平滑化後の遷
移確率Ps(wn|w1 n-1)は次式で表される。
【0060】
【数16】 Ps(wn|w1 n-1) =Ph(wn|w1 n-1),cI(w1 n-1)>0のとき =α(w1 n-1)Ps(wn|w2 n-1),cI(w1 n-1)=0,cI(w2 n-1)>0のとき =Ps(wn|w2 n-1),cI(w1 n-1)=0,cI(w2 n-1)=0のとき
【0061】上記の数16において、Phはクラスタ適
応化により得られる確率に軽減係数をかけたものであ
り、次式で与えられる。
【0062】
【数17】Ph(wn|w1 n-1)={cI(w1 n)+1}
/{cI(w1 n)}×{ncI(w1 n)+1}/{n
ci(w1 n)}・pMAP(w1 n
【0063】ここで、ncは、不特定のクラスタのテキ
ストデータ31中にc回出現する単語列の種類数(異な
り)であり、また、数16で、α(w1 n-1)は正規化の
ための係数であり、次のように求められる。
【0064】
【数18】α(w1 n-1)=Aa/Ab ここで、 Aa≡1− Σ Ph(wn|w1 n-1) wn:cI(w1 n)>0 Ab≡1− Σ Ph(wn|w1 n-1) wn:cI(w2 n)>0
【0065】以上のBack−off平滑化法を応用し
た手法を用いることにより、学習データ上に出現しない
単語連鎖に対しても確率値を与えることができる。ま
た、遷移確率pMAPが正規化されていなくても、上記数
18においてαを求める際に正規化の計算を行うため、
遷移確率の和は自動的に1になる。
【0066】従って、本実施形態で用いるMAP推定法
によるN−gramの適応手法について要約すると、以
下の通りとなる。MAP推定法による単語列hから次単
語wへの単語N−gramの遷移確率P(w|h)は次
式により与えられる。
【0067】
【数19】P(w|h)={N(h,w)+α−1}/
(N(h)+α+β−2)
【0068】ここで、N(#)はそのクラスタでの単語
(列)#の出現頻度である。また、α及びβは事前分布
として用いるベータ分布(apα-1(1−p)β-1
a)のパラメータであり、次式により求められる。
【0069】
【数20】α={μ2(1―μ)/σ2}−μ
【数21】α+β={μ(1−μ)/σ2}−1
【0070】上式のμ及びσ2は、クラスタ毎の遷移確
率P(w|h)の分布の平均及び分散である。また、本
実施形態で用いる可変長N−gramは、クラスN−g
ramを基本としたモデルであり、遷移確率はP(ws
|c(ws))・P(c(ws)|c(h))として与
えられる。ただし、wsは可変長の単語列で、c(#)
は単語(列)#の属するクラスである。P(c(ws)
|c(h))はクラス間の遷移確率であり、上記数19
と同様に与えることができる。また、P(ws|c(w
s))はその単語の属するクラスから単語の出現確率で
あり、MAP推定により次式で与えられる。
【0071】
【数22】P(ws|c(ws))={N(ws)+α
−1}/{N(c(ws))+α+β−2}
【0072】また、公知のBack−off平滑化法を
用い、コーパス上に出現しなかった単語遷移に対して確
率を与えるとともに、遷移確率の和が1になるよう確率
の正規化を行う。
【0073】図4は、図1のクラスタリング処理部40
によって実行されるクラスタリング処理を示すフローチ
ャートである。図4において、まず、ステップS1にお
いて学習用テキストデータメモリ20からK個の発声音
声文をランダムに選択し、ステップS2において、上記
選択した発声音声文を、学習用テキストデータメモリ2
1の各メモリ21−1乃至21−Kに、クラスタ1から
クラスタMへの順番に1文ずつ書き込む。次いで、ステ
ップS3において学習用テキストデータメモリ21の各
クラスタのテキストデータを読み出し、ステップS4に
おいて上記読み出した各クラスタのテキストデータか
ら、各クラスタ毎に統計的言語モデルを生成する。ここ
で、生成された統計的言語モデルはクラスタリング処理
部40の内部メモリ又は統計的言語モデルメモリ32に
記憶される。
【0074】さらに、ステップS5において学習用テキ
ストデータメモリ20から1文ずつ読み出し、ステップ
S6においてステップS4で生成した各統計的言語モデ
ルに対して、ステップS5で読み出した文の生成確率を
計算し、確率の最も高いクラスタCを選択し、ステップ
S7においてステップS5で読み出した文を、学習用テ
キストデータメモリ21のメモリ21−CにクラスタC
として書き込む。そして、ステップS8においてステッ
プS5で読み出した文は最後の文か否かが判断され、N
Oであるときは、次の文を処理するために、ステップS
5に戻る。一方、ステップS8でYESのときは、ステ
ップS9において、ステップS6で選択されたクラスタ
Cが1文でも変化したか否かが判断され、YESのとき
は再度クラスタリング処理を実行するために、ステップ
S3に戻る。ステップS9でNOであるときは、当該ク
ラスタリング処理を終了する。
【0075】図5は、図1の言語モデル生成部41によ
って実行される言語モデル生成処理を示すフローチャー
トである。図5において、まず、ステップS11におい
て学習用テキストデータメモリ20からコーパスのテキ
ストデータを読み出し、ステップS12において読み出
したテキストデータに基づいて最尤推定法を用いて単語
bigramの遷移確率を数6を用いて計算する。次い
で、ステップS13において計算された単語bigra
mの遷移確率を含む統計的言語モデルを生成して、統計
的言語モデルメモリ31に記憶して当該言語モデル生成
処理を終了する。
【0076】図6は、図1の言語モデル生成部42によ
って実行される言語モデル生成処理を示すフローチャー
トである。図6において、まず、ステップS21におい
て学習用テキストデータメモリ20から各クラスタkの
テキストデータ21−k(k=1,2,…,K)を読み
出す。次いで、ステップS22において、読み出した各
クラスタkのテキストデータ21−kに基づいて最尤推
定法を用いて各クラスタk毎に単語bigramの遷移
確率を数6を用いて計算し、ステップS23において各
クラスタkの単語bigramの遷移確率の出現頻度分
布をベータ分布と仮定し、ベータ分布の加重平均μ及び
加重分散σ2を数13及び数14を用いて計算した後こ
れらに基づいて数12を用いてパラメータα及びβを計
算する。さらに、ステップS24において事前知識のパ
ラメータα及びβと、特定クラスタのテキストデータ2
1−iの事後知識のパラメータN及びnとに基づいて数
10を用いて各クラスタk毎の単語bigramの遷移
確率pを計算する。ここで、上記ステップS21からS
24までの処理は、すべてのクラスタk=1,2,…,
Kについて実行される。さらに、ステップS25におい
て各クラスタk毎の単語bigramの遷移確率pに基
づいてBack−off平滑化処理を実行し、処理後の
各クラスタk毎の単語bigramの遷移確率を含む統
計的言語モデルを生成して、クラスタ適応化された統計
的言語モデルメモリ32に記憶して、当該言語モデル生
成処理を終了する。
【0077】次いで、図1に示す連続音声認識装置の構
成及び動作について説明する。図1において、単語照合
部4に接続された音素隠れマルコフモデル(以下、隠れ
マルコフモデルをHMMという。)メモリ11内の音素
HMMは、各状態を含んで表され、各状態はそれぞれ以
下の情報を有する。 (a)状態番号、(b)受理可能なコンテキストクラ
ス、(c)先行状態、及び後続状態のリスト、(d)出
力確率密度分布のパラメータ、及び(e)自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素HMMは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合HMMを変換
して生成する。ここで、出力確率密度関数は34次元の
対角共分散行列をもつ混合ガウス分布である。また、単
語照合部4に接続された単語辞書メモリ12内の単語辞
書は、音素HMMメモリ11内の音素HMMの各単語毎
にシンボルで表した読みを示すシンボル列を格納する。
【0078】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
【0079】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMM11と単
語辞書12とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部4は、各時刻の各HMM
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素HMM11及び単語辞書12とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部4は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報(具体的には、例え
ばフレーム番号)とともにバッファメモリ5を介して単
語仮説絞込部6aに出力する。
【0080】単語仮説絞込部6aは、単語照合部4から
バッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ32内の統計的言語モデル
を参照して、終了時刻が等しく開始時刻が異なる同一の
単語の単語仮説に対して、当該単語の先頭音素環境毎
に、発声開始時刻から当該単語の終了時刻に至る計算さ
れた総尤度のうちの最も高い尤度を有する1つの単語仮
説で代表させるように単語仮説の絞り込みを行った後、
絞り込み後のすべての単語仮説の単語列のうち、最大の
総尤度を有する仮説の単語列を認識結果としてバッファ
メモリ7を介して言語モデル選択部8に出力する。本実
施形態においては、好ましくは、処理すべき当該単語の
先頭音素環境とは、当該単語より先行する単語仮説の最
終音素と、当該単語の単語仮説の最初の2つの音素とを
含む3つの音素並びをいう。
【0081】単語仮説絞込部6aの処理においては、例
えば、図2に示すように、(i−1)番目の単語Wi-1
の次に、音素列a1,a2,…,anからなるi番目の単
語Wiがくるときに、単語Wi-1の単語仮説として6つの
仮説Wa,Wb,Wc,Wd,We,Wfが存在してい
る。ここで、前者3つの単語仮説Wa,Wb,Wcの最
終音素は/x/であるとし、後者3つの単語仮説Wd,
We,Wfの最終音素は/y/であるとする。終了時刻
eと先頭音素環境が等しい仮説(図2では先頭音素環
境が“x/a1/a2”である上から3つの単語仮説)の
うち総尤度が最も高い仮説(例えば、図2において1番
上の仮説)以外を削除する。なお、上から4番めの仮説
は先頭音素環境が違うため、すなわち、先行する単語仮
説の最終音素がxではなくyであるので、上から4番め
の仮説を削除しない。すなわち、先行する単語仮説の最
終音素毎に1つのみ仮説を残す。図2の例では、最終音
素/x/に対して1つの仮説を残し、最終音素/y/に
対して1つの仮説を残す。
【0082】次いで、言語モデル選択部8は、上述のよ
うに、数4に従ってクラスタの統計的言語モデルを統計
的言語モデルメモリ32から選択し、すなわち、K個の
クラスタのそれぞれのモデルLMkで認識結果文Wに対
する生成確率P(W|LMk)(1≦k≦K)を求め、
確率の最も高いクラスタモデルLMcを選択して、その
選択情報を単語仮説絞込部6bに出力する。これに応答
して、単語仮説絞込部6bは、単語仮説絞込部6aによ
って絞り込まれた単語仮説に対して、再度、統計的言語
モデルメモリ32で選択された統計的言語モデルを用い
て、単語仮説絞込部6aと同様の処理を実行して、単語
仮説の絞込処理を実行して、処理後の例えば最尤の絞り
込んだ単語仮説(ここで、n−bestでもよい。)を
認識結果として出力する。
【0083】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0084】以上の実施形態において、特徴抽出部2
と、単語照合部4と、単語仮説絞込部6a,6bと、ク
ラスタリング処理部40と、言語モデル生成部41,4
2とは、例えば、デジタル電子計算機などのコンピュー
タで構成され、バッファメモリ3,5と、音素HMMメ
モリ11と、単語辞書メモリ12と、学習用テキストデ
ータメモリ20,21と、統計的言語モデルメモリ3
1,32とは、例えばハードデイスクメモリなどの記憶
装置で構成される。
【0085】以上実施形態においては、単語照合部4と
単語仮説絞込部6a,6bとを用いて音声認識を行って
いるが、本発明はこれに限らず、例えば、音素HMM1
1を参照する音素照合部と、例えばOne Pass
DPアルゴリズムを用いて統計的言語モデルを参照して
単語の音声認識を行う音声認識部とで構成してもよい。
ただし、本実施形態の場合、統計的言語モデルメモリ3
1を参照して音声認識する第1の音声認識部と、統計的
言語モデルメモリ32内で言語モデル選択部8によって
選択された1つのクラスタの統計的言語モデルを参照し
て音声認識する第2の音声認識部とを備えることにな
る。
【0086】
【実施例】本発明者は、本実施形態で用いるタスク適応
化された統計的言語モデルの性能を確認するため、評価
実験を行った。実験で用いたデータは、本特許出願人が
所有する自然発話データベース(例えば、従来技術文献
11「T.Morimoto et al.,“A S
peech and Language Databa
se for Speech Translation
Research”,ICSLP,pp.1791−
1794,1994年」参照。)であり、本データベー
スのサイズは、1,332対話、32,074文、59
7,626単語で、語彙は7、221語である。このう
ち評価用として「ホテルの部屋の予約」タスクから40
対話、1166文、18、381単語を選択し、残りの
データを言語モデルの学習に使用した。
【0087】最初にテストセットパープレキシティによ
り評価を行った。可変長N−gramは活用形及び活用
型を含む158品詞による初期クラスから、500クラ
ス分離を行ったモデルを使用した。クラスタ数4、8、
16、32、64の時のクラスタモデルと、データベー
ス全体で作成したモデル(クラスタ数1)とのパープレ
キシティの比較を表1に示す。
【0088】
【表1】 パープレキシティによる比較 ―――――――――――――――――――――――――――――――――― 全体モデル クラスタモデル(クラスタ数) 4 8 16 32 64 ―――――――――――――――――――――――――――――――――― 14.21 13.00 12.33 11.44 10.44 9.72 ――――――――――――――――――――――――――――――――――
【0089】ここで、パープレキシティとは以下のよう
に定義される。例えば、複数n個の単語からなる長い単
語列w1 n=w12…wnがあるときのエントロピーH
(n)は次式で表される。
【0090】
【数23】H(n)=−(1/n)・log2
(w1 n
【0091】ここで、P(w1 n)は単語列w1 nの生成確
率であり、パープレキシティPP(n)は次式で表され
る。
【0092】
【数24】PP(n)=2H(n)
【0093】上記表1より、クラスタ数に比例してパー
プレキシティが減少しており、クラスタ毎の言語的特徴
がよりできたと考えられる。クラスタ数が64の時は、
全体モデルよりもパープレキシティが約32%減少し
た。また、評価に用いた「ホテルの部屋の予約」タスク
のデータは、データ量が多いために第2の従来例では、
タスク適応の効果は、単語bigramで5%程度と小
さかったが、本実施形態に係る装置では、文の内容毎に
適応モデルを作成するため、大きな精度向上が得られた
と考えられる。計算量の都合のため、クラスタ数は最大
64としたが、さらにクラスタ数を増加させることによ
り、パープレキシティは減少すると考えられる。ただ
し、クラスタ数を多くしすぎると各クラスタのデータ量
が少なくなりすぎ、パラメータ推定が困難になるため、
限界はあると考えられる。
【0094】次に、連続音声認識に適用した際の認識率
によって評価を行った。音響モデルにはML−SSS法
(従来技術文献12「M.Ostendorf et
al.,”HMM topology design
using maximumlikelihood s
uccessive state splittin
g”,Computer Speech and la
nguage,No.11,pp.17−41,199
7年」参照。)によるHMM網(801状態5混合分
布)の不特定話者モデルを用い、単語グラフサーチ法
(従来技術文献13「清水ほか,”単語グラフを用いた
自由発話音声認識”,電子情報通信学会研究報告,SP
95−88,pp.49−54,1995年12月」参
照。)により認識解の探索を行った。言語モデルは、コ
ーパス全体で作成したモデルとクラスタ数4、16、6
4のクラスタモデルとを比較した。表2に単語認識率
(Accuracy)(%)及び文認識率(%)を示
す。
【0095】
【表2】 連続音声認識における性能比較 ―――――――――――――――――――――――――――――――――― 認識率の種類 全体モデル クラスタモデル(クラスタ数) 4 16 64 ―――――――――――――――――――――――――――――――――― 単語認識率 77.66 78.69 79.06 78.54 ―――――――――――――――――――――――――――――――――― 文認識率 33.43 35.82 36.12 37.31 ――――――――――――――――――――――――――――――――――
【0096】上記表2より、単語認識率はクラスタ数1
6の時に全体モデルより約1.4%向上(改善率約6
%)し、文認識率はクラスタ数64の時に最大約3.9
%向上(改善率約6%)し、連続音声認識における有効
性を確認した。クラスタ数64の時の単語認識率はクラ
スタ数4、16の時よりも低下しているが、これは、誤
認識が生じた際にクラスタモデルの選択が正しく行われ
ないことが原因と考えられる。
【0097】以上説明したように、本実施形態によれ
ば、コーパスの各文をクラスタリングし、それぞれのク
ラスタ毎にMAP推定によるN−gram型の言語モデ
ルを作成することにより言語特徴をより効果的に表現で
きる手法を開示している。実験の結果、パープレキシテ
ィは最大約32%減少し、また、連続音声認識に適用し
た際、単語認識率及び文認識率共に最大約6%改善し、
本手法の有効性を確認した。すなわち、本実施形態によ
れば、少量のテキストデータを用いて、従来例に比較し
て、より高い遷移確率の予測精度及び信頼性を有する統
計的言語モデルを生成することができるとともに、タス
ク選択を自動的に行うことができ、選択された統計的言
語モデルを用いて音声認識することにより、従来例に比
較してより高い音声認識率で連続的に音声認識すること
ができる。
【0098】以上の実施形態において、統計的言語モデ
ルは、N−gramの言語モデルを含むが、ここで、N
は2及び3に限らず、4以上の自然数であってもよい。
【0099】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の統計的言語モデル生成装置によれば、複数のク
ラスタの統計的言語モデルを記憶する記憶手段と、所定
の複数の発声音声文を含む学習用テキストデータに基づ
いて各発声音声文に対する統計的言語モデルを生成し
て、各発声音声文が各クラスタに対応するように、上記
生成した統計的言語モデルを上記記憶手段に記憶する初
期化手段と、上記学習用テキストデータの各発声音声文
について、各クラスタにおける統計的言語モデルの文生
成確率を計算して最大の文生成確率を有するクラスタを
選択してその発声音声文を所属させるように上記記憶手
段に記憶するクラスタ選択手段と、発声音声文が属する
クラスタが変化したときに、各クラスタ毎に、上記クラ
スタ選択手段によって選択された発声音声文を用いて上
記記憶手段に記憶された各統計的言語モデルを更新し
て、各クラスタに対応した統計的言語モデルを生成する
モデル変更手段と、上記複数の発声音声文に属するクラ
スタが1文も変化しなくなるまで、上記クラスタ選択手
段の処理と、上記モデル変更手段の処理を繰り返す制御
手段とを備える。従って、少量のテキストデータを用い
て、従来例に比較して、より高い遷移確率の予測精度及
び信頼性を有する統計的言語モデルを生成することがで
きる。
【0100】また、請求項2記載の統計的言語モデル生
成装置によれば、請求項1記載の統計的言語モデル生成
装置において、さらに、上記記憶手段に記憶された各ク
ラスタ毎のテキストデータに基づいて、最尤推定法を用
いて各クラスタ毎に単語のN−gram(Nは2以上の
自然数である。)の遷移確率を演算する第1の演算手段
と、上記第1の演算手段によって演算された各クラスタ
毎の単語のN−gramの遷移確率の出現分布を事前知
識の所定の確率分布と仮定し、各クラスタ毎の確率分布
の加重平均及び加重分散を演算した後、演算された加重
平均と加重分散に基づいて事前知識の確率分布のパラメ
ータを演算する第2の演算手段と、上記第2の演算手段
によって演算された事前知識の確率分布のパラメータ
と、上記学習用テキストデータうちの特定クラスタのテ
キストデータの事後知識における処理対象の単語列の直
前の単語列の出現回数と、処理対象の単語列の出現回数
とに基づいて、各クラスタ毎の単語のN−gramの遷
移確率を計算することにより、各クラスタ毎の単語のN
−gramの遷移確率を含む統計的言語モデルを生成す
る第3の演算手段とを備える。従って、少量のテキスト
データを用いて、従来例に比較して、より高い遷移確率
の予測精度及び信頼性を有する統計的言語モデルを生成
することができる。
【0101】さらに、請求項3記載の統計的言語モデル
生成装置によれば、請求項2記載の統計的言語モデル生
成装置において、さらに、上記第3の演算手段によって
演算された各クラスタ毎の単語のN−gramの遷移確
率に基づいて,所定の平滑化処理を実行し、処理後の各
クラスタ毎の単語のN−gramの遷移確率を含む統計
的言語モデルを生成する第1の生成手段を備える。従っ
て、少量のテキストデータを用いて、従来例に比較し
て、より高い遷移確率の予測精度及び信頼性を有する統
計的言語モデルを生成することができる。
【0102】またさらに、請求項4記載の統計的言語モ
デル生成装置によれば、請求項3記載の統計的言語モデ
ル生成装置において、さらに、上記学習用テキストデー
タに基づいて、最尤推定法を用いて単語のN−gram
(Nは2以上の自然数である。)の遷移確率を演算し
て、上記単語のN−gramの遷移確率を含む別の統計
的言語モデルを生成する第2の生成手段を備える。従っ
て、少量のテキストデータを用いて、従来例に比較し
て、より高い遷移確率の予測精度及び信頼性を有する統
計的言語モデルを生成することができる。
【0103】本発明に係る請求項5記載の音声認識装置
によれば、入力される発声音声文の音声信号に基づい
て、所定の統計的言語モデルを用いて音声認識する音声
認識装置において、請求項4記載の統計的言語モデル生
成装置と、上記第2の生成手段によって生成された別の
統計的言語モデルを用いて、入力される発声音声文の音
声信号を音声認識して第1の認識仮説を出力する第1の
音声認識手段と、上記第1の音声認識手段から出力され
る第1の認識仮説に応答して、上記第1の生成手段によ
って生成された各クラスタ毎の統計的言語モデルを用い
て、入力される発声音声文の音声信号を音声認識して、
文生成確率が最大のクラスタの統計的言語モデル生成装
置を選択するモデル選択手段と、上記モデル選択手段に
よって選択されたクラスタの統計的言語モデルを用い
て、上記第1の音声認識手段から出力される第1の認識
仮説に対して絞込処理を行って第2の認識仮説を生成し
て認識結果として出力する第2の音声認識手段とを備え
る。従って、少量のテキストデータを用いて、従来例に
比較して、より高い遷移確率の予測精度及び信頼性を有
する統計的言語モデルを生成することができるととも
に、タスク選択を自動的に行うことができ、選択された
統計的言語モデルを用いて音声認識することにより、従
来例に比較してより高い音声認識率で連続的に音声認識
することができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
【図2】 図1の連続音声認識装置における単語仮説絞
込部6a及び6bの処理を示すタイミングチャートであ
る。
【図3】 図1の言語モデル生成部42の処理を示すブ
ロック図である。
【図4】 図1のクラスタリング処理部40によって実
行されるクラスタリング処理を示すフローチャートであ
る。
【図5】 図1の言語モデル生成部41によって実行さ
れる言語モデル生成処理を示すフローチャートである。
【図6】 図1の言語モデル生成部42によって実行さ
れる言語モデル生成処理を示すフローチャートである。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3,5,7…バッファメモリ、 4…単語照合部、 6a,6b…単語仮説絞込部、 8…言語モデル選択部、 11…音素HMMメモリ、 12…単語辞書メモリ、 20,21…学習用テキストデータメモリ、 21−k…各クラスタのテキストデータメモリ、 31,32…統計的言語モデルメモリ、 32−k…各クラスタの統計的言語モデルメモリ、 41,42…言語モデル生成部。
フロントページの続き (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 Fターム(参考) 5D015 GG01 GG05 HH14

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数のクラスタの統計的言語モデルを記
    憶する記憶手段と、 所定の複数の発声音声文を含む学習用テキストデータに
    基づいて各発声音声文に対する統計的言語モデルを生成
    して、各発声音声文が各クラスタに対応するように、上
    記生成した統計的言語モデルを上記記憶手段に記憶する
    初期化手段と、 上記学習用テキストデータの各発声音声文について、各
    クラスタにおける統計的言語モデルの文生成確率を計算
    して最大の文生成確率を有するクラスタを選択してその
    発声音声文を所属させるように上記記憶手段に記憶する
    クラスタ選択手段と、 発声音声文が属するクラスタが変化したときに、各クラ
    スタ毎に、上記クラスタ選択手段によって選択された発
    声音声文を用いて上記記憶手段に記憶された各統計的言
    語モデルを更新して、各クラスタに対応した統計的言語
    モデルを生成するモデル変更手段と、 上記複数の発声音声文に属するクラスタが1文も変化し
    なくなるまで、上記クラスタ選択手段の処理と、上記モ
    デル変更手段の処理を繰り返す制御手段とを備えたこと
    を特徴とする統計的言語モデル生成装置。
  2. 【請求項2】 請求項1記載の統計的言語モデル生成装
    置において、上記統計的言語モデル生成装置はさらに、 上記記憶手段に記憶された各クラスタ毎のテキストデー
    タに基づいて、最尤推定法を用いて各クラスタ毎に単語
    のN−gram(Nは2以上の自然数である。)の遷移
    確率を演算する第1の演算手段と、 上記第1の演算手段によって演算された各クラスタ毎の
    単語のN−gramの遷移確率の出現分布を事前知識の
    所定の確率分布と仮定し、各クラスタ毎の確率分布の加
    重平均及び加重分散を演算した後、演算された加重平均
    と加重分散に基づいて事前知識の確率分布のパラメータ
    を演算する第2の演算手段と、 上記第2の演算手段によって演算された事前知識の確率
    分布のパラメータと、上記学習用テキストデータうちの
    特定クラスタのテキストデータの事後知識における処理
    対象の単語列の直前の単語列の出現回数と、処理対象の
    単語列の出現回数とに基づいて、各クラスタ毎の単語の
    N−gramの遷移確率を計算することにより、各クラ
    スタ毎の単語のN−gramの遷移確率を含む統計的言
    語モデルを生成する第3の演算手段とを備えたことを特
    徴とする統計的言語モデル生成装置。
  3. 【請求項3】 請求項2記載の統計的言語モデル生成装
    置において、上記統計的言語モデル生成装置はさらに、 上記第3の演算手段によって演算された各クラスタ毎の
    単語のN−gramの遷移確率に基づいて,所定の平滑
    化処理を実行し、処理後の各クラスタ毎の単語のN−g
    ramの遷移確率を含む統計的言語モデルを生成する第
    1の生成手段を備えたことを特徴とする統計的言語モデ
    ル生成装置。
  4. 【請求項4】 請求項3記載の統計的言語モデル生成装
    置において、上記統計的言語モデル生成装置はさらに、 上記学習用テキストデータに基づいて、最尤推定法を用
    いて単語のN−gram(Nは2以上の自然数であ
    る。)の遷移確率を演算して、上記単語のN−gram
    の遷移確率を含む別の統計的言語モデルを生成する第2
    の生成手段を備えたことを特徴とする統計的言語モデル
    生成装置。
  5. 【請求項5】 入力される発声音声文の音声信号に基づ
    いて、所定の統計的言語モデルを用いて音声認識する音
    声認識装置において、 請求項4記載の統計的言語モデル生成装置と、 上記第2の生成手段によって生成された別の統計的言語
    モデルを用いて、入力される発声音声文の音声信号を音
    声認識して第1の認識仮説を出力する第1の音声認識手
    段と、 上記第1の音声認識手段から出力される第1の認識仮説
    に応答して、上記第1の生成手段によって生成された各
    クラスタ毎の統計的言語モデルを用いて、入力される発
    声音声文の音声信号を音声認識して、文生成確率が最大
    のクラスタの統計的言語モデル生成装置を選択するモデ
    ル選択手段と、 上記モデル選択手段によって選択されたクラスタの統計
    的言語モデルを用いて、上記第1の音声認識手段から出
    力される第1の認識仮説に対して絞込処理を行って第2
    の認識仮説を生成して認識結果として出力する第2の音
    声認識手段とを備えたことを特徴とする音声認識装置。
JP10243024A 1998-08-28 1998-08-28 統計的言語モデル生成装置及び音声認識装置 Expired - Fee Related JP2938866B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10243024A JP2938866B1 (ja) 1998-08-28 1998-08-28 統計的言語モデル生成装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10243024A JP2938866B1 (ja) 1998-08-28 1998-08-28 統計的言語モデル生成装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JP2938866B1 JP2938866B1 (ja) 1999-08-25
JP2000075886A true JP2000075886A (ja) 2000-03-14

Family

ID=17097746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10243024A Expired - Fee Related JP2938866B1 (ja) 1998-08-28 1998-08-28 統計的言語モデル生成装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP2938866B1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005106853A (ja) * 2003-09-26 2005-04-21 Nec Corp 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム
WO2007052884A1 (en) * 2005-11-07 2007-05-10 Electronics And Telecommunications Research Institute Text input system and method based on voice recognition
WO2007108500A1 (ja) * 2006-03-23 2007-09-27 Nec Corporation 音声認識システム、音声認識方法および音声認識用プログラム
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
WO2008004666A1 (fr) * 2006-07-07 2008-01-10 Nec Corporation Dispositif, procédé et programme de reconnaissance vocale
WO2010100853A1 (ja) * 2009-03-04 2010-09-10 日本電気株式会社 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
US9251135B2 (en) 2013-08-13 2016-02-02 International Business Machines Corporation Correcting N-gram probabilities by page view information
JP2017049612A (ja) * 2013-01-29 2017-03-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005106853A (ja) * 2003-09-26 2005-04-21 Nec Corp 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム
WO2007052884A1 (en) * 2005-11-07 2007-05-10 Electronics And Telecommunications Research Institute Text input system and method based on voice recognition
JP5062171B2 (ja) * 2006-03-23 2012-10-31 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラム
WO2007108500A1 (ja) * 2006-03-23 2007-09-27 Nec Corporation 音声認識システム、音声認識方法および音声認識用プログラム
US8781837B2 (en) 2006-03-23 2014-07-15 Nec Corporation Speech recognition system and method for plural applications
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US8831943B2 (en) 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
JP5212910B2 (ja) * 2006-07-07 2013-06-19 日本電気株式会社 音声認識装置、音声認識方法、および音声認識用プログラム
WO2008004666A1 (fr) * 2006-07-07 2008-01-10 Nec Corporation Dispositif, procédé et programme de reconnaissance vocale
WO2010100853A1 (ja) * 2009-03-04 2010-09-10 日本電気株式会社 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
JP2017049612A (ja) * 2013-01-29 2017-03-09 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム
US9251135B2 (en) 2013-08-13 2016-02-02 International Business Machines Corporation Correcting N-gram probabilities by page view information
US9311291B2 (en) 2013-08-13 2016-04-12 International Business Machines Corporation Correcting N-gram probabilities by page view information

Also Published As

Publication number Publication date
JP2938866B1 (ja) 1999-08-25

Similar Documents

Publication Publication Date Title
US6108628A (en) Speech recognition method and apparatus using coarse and fine output probabilities utilizing an unspecified speaker model
Chen et al. Advances in speech transcription at IBM under the DARPA EARS program
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US6260013B1 (en) Speech recognition system employing discriminatively trained models
EP0771461B1 (en) Method and apparatus for speech recognition using optimised partial probability mixture tying
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
EP2888669B1 (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
JP2004362584A (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
WO2018066436A1 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
Kadyan et al. A comparative study of deep neural network based Punjabi-ASR system
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2002342323A (ja) 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP3027544B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP3444108B2 (ja) 音声認識装置
JP3628245B2 (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP2938865B1 (ja) 音声認識装置
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP4689497B2 (ja) 音声認識装置
Kumar et al. Speech Recognition Using Hmm and Combinations: A Review

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090611

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110611

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110611

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120611

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120611

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140611

Year of fee payment: 15

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees