JPH10198395A - 統計的言語モデル生成装置及び音声認識装置 - Google Patents

統計的言語モデル生成装置及び音声認識装置

Info

Publication number
JPH10198395A
JPH10198395A JP9002733A JP273397A JPH10198395A JP H10198395 A JPH10198395 A JP H10198395A JP 9002733 A JP9002733 A JP 9002733A JP 273397 A JP273397 A JP 273397A JP H10198395 A JPH10198395 A JP H10198395A
Authority
JP
Japan
Prior art keywords
word
language model
task
statistical language
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9002733A
Other languages
English (en)
Other versions
JP3027544B2 (ja
Inventor
Hirokazu Masataki
浩和 政瀧
Yoshinori Kosaka
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP9002733A priority Critical patent/JP3027544B2/ja
Publication of JPH10198395A publication Critical patent/JPH10198395A/ja
Application granted granted Critical
Publication of JP3027544B2 publication Critical patent/JP3027544B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 遷移確率の予測精度及び信頼性を改善可能な
統計的言語モデルを生成し、統計的言語モデルを用いて
より高い音声認識率で音声認識する。 【解決手段】 複数のタスク毎の学習用テキストデータ
に基づいて最尤推定法を用いて各タスク毎に単語N−g
ramの遷移確率を演算し、当該遷移確率の出現分布を
事前知識の確率分布と仮定し、各タスク毎の確率分布の
加重平均及び加重分散を演算した後、演算された加重平
均と加重分散に基づいて事前知識の確率分布のパラメー
タを演算する。次いで、演算された事前知識の確率分布
のパラメータと、学習用テキストデータ内の特定タスク
のテキストデータの事後知識における処理対象の単語列
の直前の単語列の出現回数と、処理対象の単語列の出現
回数とに基づいて各タスク毎の単語N−gramの遷移
確率を計算することにより統計的言語モデルを生成す
る。また、当該統計的言語モデルを用いて音声認識す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、学習用テキストデ
ータに基づいて統計的言語モデルを生成する統計的言語
モデル生成装置、及び上記統計的言語モデルを用いて、
入力される発声音声文の音声信号を音声認識する音声認
識装置に関する。
【0002】
【従来の技術】近年、連続音声認識装置において、その
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、言語モデルを用いて、次単語を予測し
探索空間を削減することにより、認識率の向上および計
算時間の削減の効果を狙ったものである。最近盛んに用
いられている言語モデルとしてN−gram(N−グラ
ム;ここで、Nは2以上の自然数である。)がある。こ
れは、大規模なテキストデータを学習し、直前のN−1
個の単語から次の単語への遷移確率を統計的に与えるも
のである。複数L個の単語列w1 L=w1,w2,…,wL
の生成確率P(w1 L)は次式で表される。
【0003】
【数1】
【0004】ここで、wtは単語列w1 Lのうちt番目の
1つの単語を表し、wi jはi番目からj番目の単語列を
表わす。上記数1において、確率P(wt
t+1-N t-1)は、N個の単語からなる単語列wt+1-N t-1
が発声された後に単語wtが発声される確率であり、以
下同様に、確率P(A|B)は単語又は単語列Bが発声
された後に単語Aが発声される確率を意味する。また、
数1における「Π」はt=1からLまでの確率P(wt
|wt+1-N t-1)の積を意味し、以下同様である。
【0005】ところで、近年、上記統計的言語モデルN
−gramを用いて連続音声認識の性能を向上させる手
法が盛んに提案されている(例えば、従来技術文献1
「L.R.Bahl et al.,“A Maxim
um LikelihoodApproach to
Continuous Speech Recogni
tion”,IEEE Transactions o
n PatternAnalysis and Mac
hine Intelligence,pp.179−
190,1983年」及び従来技術文献2「清水ほか,
“単語グラフを用いた自由発話音声認識”,電子情報通
信学会技術報告,SP95−88,pp.49−54,
平成7年」参照。)。
【0006】しかしながら、N−gramはパラメータ
数が多く、それぞれの値を正確に求めるためには、莫大
な量のテキストデータが必要とされる。この問題を解決
する方法として、学習用テキストデータに出現しない単
語遷移に対しても遷移確率を与える平滑化の手法(例え
ば、従来技術文献3「F.Jelinek et a
l.,“Interpolated estimati
on of Markov Source Param
eters from Sparse Data”,P
roceedings of Workshop Pa
ttern Recognition in Prac
tice,pp.381−387,1980年」、従来
技術文献4「S.M.Katz et al.,“Es
timation of Probabilities
from Sparse Data for the
Language model Component
of a Speech Recognizer”,
IEEE Transactions on Acou
stics,Speech,and SignalPr
ocessing,pp.400−401,1987
年」及び従来技術文献5「川端ほか,“二項事後分布に
基づくN−gram言語モデルのBack−off平滑
化”,電子情報通信学会技術報告、SP95−93,p
p1−6,平成7年」参照。)や、クラス分類、可変長
N−gram等パラメータの数を減少させる手法(例え
ば、従来技術文献6「P.F.Brown et a
l.,“Class−Based n−gram mo
dels of naturallanguage”,
Computational Linguistic
s,Vol.18,No.4,pp.467−479,
1992年」、従来技術文献7「T.R.Niesle
r et al.,“A Variable−Leng
th Category−Based N−gram
Language Model”,Proceedin
gs of ICASSP ’96,Vol.1,p
p.164−167,1996年」及び従来技術文献8
「政瀧ほか,“連続音声認識のための可変長連鎖統計言
語モデル”,電子情報通信学会技術報告,SP95−7
3,pp.1−6,平成7年」参照。)等が数多く提案
されている。しかしながら、これらの手法を用いても、
精度の良い言語モデルを構築するためには、相当量のデ
ータを用いる必要があると考えられる。
【0007】現在、実用化に向けて研究が行われている
連続音声認識システムは、ホテル予約・スケジューリン
グ等、タスクを限定し、システムのパフォーマンスの向
上させている物が多い。しかしながら、タスク毎に大量
の言語データを集めるのは困難である。特に、日本語の
場合は、英語等のように単語の区切りが明確ではなく、
通常人間が手作業で単語の切り出し・形態素解析の作業
を行うため、大量のデータを集めるのはさらに困難であ
る。しかしながら、データ量を増やすために、他のタス
クのデータを用いるた場合、言語的特徴はタスク毎に異
なるため、単純にデータを混合しても目的のタスク特有
の言語特徴を効果的に表現することはできないと考えら
れる。
【0008】これらの問題を解決する手段として、言語
モデルのタスク適応を考えられている。すなわち、目的
のタスク以外のデータも含めた大量のデータを学習する
ことによりデータ量の問題を解決し、得られたモデルの
言語特徴を目的のタスクに適応させる方法である。タス
ク適応の手法として、従来提案されているものには大量
のデータで作成したN−gramと、目的タスクのデー
タで作成したN−gramとを重みづけにより混合する
方法(例えば、従来技術文献9「伊藤ほか,“小量テキ
ストによる言語モデルのタスク適応の検討”,日本音響
学会講演論文集,1−3−19,pp.37−38,平
成8年9月」及び従来技術文献10,「坂本ほか,“音
声認識における統計的言語モデルの選択の効果”,日本
音響学会講演論文集,1−Q−24,pp.157−1
58,平成6年3月」参照。)がある。
【0009】例えば、従来技術文献9の手法を用いた従
来例のタスク適応化処理は、小量テキストに重みをかけ
て大量テキストと混合するものであり、次の手順によっ
て言語モデルを作成する。 (a)小量テキストを、重み付きで大量テキストに加え
る。重み係数をwとすると、小量テキスト中でm回出現
した単語は、大量テキスト中で(w・m)回出現した単
語と同等に扱われることになる。 (b)このようにしてできたテキストの中で、出現頻度
が一定回数未満の単語を、未知語を表す記号に置き換え
る。すなわち、語彙の制限を行う。 (c)テキストから統計を取り,N−gramモデルを
構築する。
【0010】
【発明が解決しようとする課題】しかしながら、従来例
のタスク適応化処理においては、重み係数wは1つのみ
しか使用していないので、言語モデルにおける遷移確率
の予測精度はいまだ比較的低く、当該言語モデルを用い
て音声認識をしたときの音声認識率は比較的低いという
問題点があった。
【0011】本発明の目的は以上の問題点を解決し、従
来例に比較して遷移確率の予測精度及び信頼性を改善す
ることができる統計的言語モデルを生成することができ
る統計的言語モデル生成装置、及び、当該統計的言語モ
デルを用いて従来例に比較して高い音声認識率で音声認
識することができる音声認識装置を提供することにあ
る。
【0012】
【課題を解決するための手段】本発明に係る請求項1記
載の統計的言語モデル生成装置は、所定の複数のタスク
毎の学習用テキストデータに基づいて最尤推定法を用い
て各タスク毎に単語のN−gram(Nは2以上の自然
数である。)の遷移確率を演算する第1の演算手段と、
上記第1の演算手段によって演算された各タスク毎の単
語のN−gramの遷移確率の出現分布を事前知識の所
定の確率分布と仮定し、各タスク毎の確率分布の加重平
均及び加重分散を演算した後、演算された加重平均と加
重分散に基づいて事前知識の確率分布のパラメータを演
算する第2の演算手段と、上記第2の演算手段によって
演算された事前知識の確率分布のパラメータと、上記学
習用テキストデータ内の特定タスクのテキストデータの
事後知識における処理対象の単語列の直前の単語列の出
現回数と、処理対象の単語列の出現回数とに基づいて、
各タスク毎の単語のN−gramの遷移確率を計算する
ことにより、各タスク毎の単語のN−gramの遷移確
率を含む統計的言語モデルを生成する第3の演算手段と
を備えたことを特徴とする。
【0013】また、請求項2記載の統計的言語モデル生
成装置は、請求項1記載の統計的言語モデル生成装置に
おいて、上記確率分布は、ベータ分布又はディリクレ分
布であることを特徴とする。
【0014】さらに、請求項3記載の統計的言語モデル
生成装置は、請求項1又は2記載の統計的言語モデル生
成装置において、さらに、上記第3の演算手段によって
演算された各タスク毎の単語のN−gramの遷移確率
に基づいて,所定の平滑化処理を実行し、処理後の各タ
スク毎の単語のN−gramの遷移確率を含む統計的言
語モデルを生成する第4の演算手段を備えたことを特徴
とする。
【0015】本発明に係る請求項4記載の音声認識装置
は、入力される発声音声文の音声信号に基づいて、所定
の統計的言語モデルを用いて音声認識する音声認識手段
を備えた音声認識装置において、上記音声認識手段は、
請求項1、2又は3記載の統計的言語モデル生成装置に
よって生成された統計的言語モデルを参照して音声認識
することを特徴とする。
【0016】本発明に係る請求項5記載の音声認識装置
は、入力される発声音声文の音声信号に基づいて上記発
声音声文の単語仮説を検出し尤度を計算することによ
り、連続的に音声認識する音声認識手段を備えた音声認
識装置において、上記音声認識手段は、請求項1、2又
は3記載の統計的言語モデル生成装置によって生成され
た統計的言語モデルを参照して、終了時刻が等しく開始
時刻が異なる同一の単語の単語仮説に対して、当該単語
の先頭音素環境毎に、発声開始時刻から当該単語の終了
時刻に至る計算された総尤度のうちの最も高い尤度を有
する1つの単語仮説で代表させるように単語仮説の絞り
込みを行うことを特徴とする。
【0017】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1に本発明に係る一実
施形態の連続音声認識装置のブロック図を示す。本実施
形態の連続音声認識装置は、公知のワン−パス・ビタビ
復号化法を用いて、入力される発声音声文の音声信号の
特徴パラメータに基づいて上記発声音声文の単語仮説を
検出し尤度を計算して出力する単語照合部4を備えた連
続音声認識装置において、単語照合部4からバッファメ
モリ5を介して出力される、終了時刻が等しく開始時刻
が異なる同一の単語の単語仮説に対して、タスク適応化
された統計的言語モデルメモリ(以下、統計的言語モデ
ルメモリという。)22内のタスク適合化された統計的
言語モデルを参照して、当該単語の先頭音素環境毎に、
発声開始時刻から当該単語の終了時刻に至る計算された
総尤度のうちの最も高い尤度を有する1つの単語仮説で
代表させるように単語仮説の絞り込みを行う単語仮説絞
込部6を備えたことを特徴とする。
【0018】ここで用いる統計的言語モデルは、それぞ
れ単語列からなる各タスクmのテキストデータ30−m
(m=1,2,…,M)を区分されて備えた学習用テキ
ストデータに基づいて言語モデル生成部20により生成
されたものであって、統計的言語モデル22は、各タス
ク毎にタスク適合化された各タスク毎の単語間のN−g
ram(N=2,3)を含む。本発明に係る実施形態に
おいては、当該統計的言語モデルを生成するときに、M
AP(Maximum A−posteriori P
robability:最大事後確率)推定法を用いた
処理を用いる。この処理においては、図3に示すよう
に、不特定タスクのテキストデータ30−1乃至30−
Mに基づいて生成されるN−gramを含む統計的言語
モデル31を事前知識とする一方、目的の特定タスクi
のテキストデータ30−iを事後知識としてMAP推定
法を用いて、データ量に応じて安定性の高いパラメータ
推定を行った後、Back−off平滑化法による平滑
化処理を実行することによりタスク適応化されたN−g
ramを含む統計的言語モデルを得ることを特徴とす
る。ここで、目的の特定タスクiのテキストデータ30
−iは、不特定タスクのテキストデータ30−m(m=
1,2,…,M)のうちの1つの特定タスクのテキスト
データである。
【0019】まず、MAP推定法による遷移確率の算出
について述べる。通常、N−gramの遷移確率は、M
L(Maximum Likelihood;最尤)推
定法により算出される。最尤推定法は、観測したサンプ
ル値(すなわち、テキストデータの単語)xに対して、
遷移確率pが決まったときに単語xとなる尤度関数f
(x|p)を最大にさせる値として、N−gram遷移
確率pMLが次式で定められる。
【0020】
【数2】
【0021】ここで、関数argmaxは、pを変化し
たときに関数の引数が最大となるときのpの値を示す関
数である。議論を簡単にするため、単語wkからwlへの
bigramの遷移確率p(wl|wk)について考え、
また、以下のような変数の定義を行う。 (a)N:学習用テキストデータ中の単語wkの出現回
数。 (b)n:学習用テキストデータ中の単語列wklの出
現回数。 (c)p:単語wkからwlへの遷移確率。
【0022】このとき尤度関数f(x|p)は、単語w
kがN回観測され、次に単語wlに続く回数がn回で、そ
れ以外の単語に続く回数が(N−n)回であるから、次
式を得ることができる。
【0023】
【数3】f(p)=pn(1−p)N-n
【0024】f(p)の最大化条件dlogf(p)/
dp=0を解くことにより、N−gramの遷移確率は
次式のように計算される。
【0025】
【数4】pML=n/N
【0026】従って、もし単語列wklが観測データ上
で出現しない場合、n=0であるから、遷移確率は0と
推定されてしまう。これに対して、MAP(Maxim
umA−posteriori Probabilit
y;最大事後確率)推定においては、最尤推定法を用い
て、観測したサンプル値xに対して、遷移確率pが決定
される事後確率関数h(p|x)を最大化する値とし
て、N−gramの遷移確率が次式で求められる。
【0027】
【数5】
【0028】ここで、Bayes則を用いると、上記数
5は次式のように変形される。
【0029】
【数6】
【0030】ここで、g(p)は、不特定タスクのテキ
ストデータ30−1乃至30−Mに基づいて予め決定さ
れる、N−gramの遷移確率pの事前分布である。す
なわち、MAP推定法を用いると、N−gramの遷移
確率はある事前知識より得られる分布g(p)に従う変
数とし、この事前分布と実際に観測されたサンプル値と
を用いて、実際の遷移確率が推定される。このため、観
測データで出現しない単語遷移に対しても、事前知識に
より0でない遷移確率を与えることができる。
【0031】次いで、bigramを例にとり、MAP
推定法によりN−gramの遷移確率を求める方法を示
す。ただし、変数の定義は上述と同じものを用いる。ま
ず、遷移確率pの事前分布としてベータ分布(apα-1
(1−p)β-1,ここで、α及びβはベータ分布の正の
パラメータであり、aは正規化のための正の定数であ
る。)を用いる。なお、0≦p≦1である。ベータ分布
を用いる理由は次の2点である。 (a)ベータ分布は2項分布の自然共役事前分布で、M
AP推定によるパラメータの解が求まりやすい。 (b)ベータ分布のパラメータα,βを変化させること
により、様々な形状の分布を表すことができる。 ここで、ベータ分布は、連続変数の確率分布の一種であ
り、ガンマ関数をもとにして構成されるベータ関数が表
示に含まれる。なお、本実施形態においては、ベータ分
布を用いるが、本発明はこれに限らず、ベータ分布に代
えて、ディリクレ分布を用いてもよい。ディリクレ分布
は、ベータ分布を多変量分布に拡張したものであり、多
項分布の自然共役事前分布である。
【0032】上記数6のMAP推定法の定義に従うと、
遷移確率pMAPは、尤度関数f(p)と事前分布g
(p)とを用いて次式のように求められる。
【0033】
【数7】
【0034】ここで、関数L(p)が最大となるための
条件dlogL(p)/dp=0をpについて解くと、
単語のbigramの遷移確率pMAPは次式のように求
まる。
【0035】
【数8】pMAP=(n+α−1)/(N+α+β−2)
【0036】ここで、パラメータα及びβは、事前分布
であるベータ分布のパラメータであるが、これらは、次
式のように求めることができる。なお、ベータ分布の平
均μ及び分散σ2は以下の式となることが知られている
(例えば、従来技術文献5参照。)。
【0037】
【数9】μ=α/(α+β) σ2=(αβ)/{(α+β)2(α+β+1)}
【0038】これらの式をα,α+βについて解くと、
次式が得られる。
【0039】
【数10】α={μ2(1−μ)}/σ2−μ α+β={μ(1−μ)}/σ2−1
【0040】以上より、観測テキストデータから頻度を
計算することにより得られるパラメータN,n、及び事
前分布の平均μ及び分散σ2により、上記数8及び数1
0を用いて、単語のbigramの遷移確率を求めるこ
とができる。
【0041】これまでの議論は、単語のbigramに
ついてのみの議論であったが、一般に、MAP推定法に
よるN−gramの遷移確率p(wn|w1 n-1)は、直
前の単語wkを直前の単語列w1 n-1と置き換え、パラメ
ータN及びnを次のように定義すれば、同じ議論が通用
することは明らかである。 (a)N:学習用テキストデータ中の単語列w1 n-1の出
現回数(c(w1 n-1))、すなわち、処理対象の単語列
の直前の単語列の出現回数である。 (b)n:学習用テキストデータ中の単語列w1 nの出現
回数(c(w1 n))、すなわち、処理対象の単語列の出
現回数である。
【0042】次いで、MAP推定法を用いたタスク適応
化処理について述べる。上述のMAP推定法によるN−
gramをタスク適応化に応用するために、図3に示す
ように、複数のタスクより構成される大量のテキストデ
ータから作成される不特定タスクのテキストデータ30
−mに基づくN−gramを事前知識とし、目的の特定
タスクiのテキストデータ30−iを事後知識とみな
す。不特定タスクのN−gramを事前知識とみなした
とき、その事前分布は、各タスクにおけるN−gram
遷移確率の分布と考えることができる。ただし、各タス
クにおけるN−gram遷移確率は最尤推定法により求
められる。この事前分布をベータ分布と仮定し、図4に
示すように、MAP推定法の事前分布として用いる。こ
のとき、事前分布の加重平均μ、及び加重分散σ2は次
式で求められる。
【0043】
【数11】
【数12】
【0044】ここで、ci(w1 n-1)はタスクiにおい
て単語列w1 n-1の出現頻度であり、pi(wn|w1 n-1
はタスクiにおける単語列w1 n-1からwnへの遷移確率
である。また、事後知識を目的のタスクのテキストデー
タとすると、前述のパラメータN及びnは次のように表
される。 (a)N:目的の特定タスクiのテキストデータ30−
i中の単語列w1 n-1の出現頻度、すなわち、処理対象の
単語列の直前の単語列の出現回数である。 (b)n:目的の特定タスクiのテキストデータ30−
i中の単語列w1 nの出現頻度、すなわち、処理対象の単
語列の出現回数である。 以上の加重平均μ,加重分散σ2,パラメータn及びN
を上述の数7及び数9に代入することにより、MAP推
定法によるタスク適応後のN−gram遷移確率が得ら
れる。
【0045】さらに、Back−off平滑化法による
遷移確率の平滑化について述べる。上記でMAP推定法
によるタスク適応の基本原理を述べたが、実際に言語モ
デルとして使用するには、2つの問題がある。1つは、
平滑化の問題である。不特定タスクの大量のテキストデ
ータを用いても、出現しない単語列が存在し、MAP推
定法を用いても、N−gramの遷移確率が0となって
しまう。従って、平滑化処理によりテキストに出現しな
い単語組に対しても、0でない遷移確率を与える必要が
ある。もう1つの問題は、本発明に係るタスク適応化処
理は、全ての遷移確率を独立に求める手法であるため、
遷移確率の和が1になるとは限らない。連続音声認識等
に適用する際は、問題とはならないが、パープレキシテ
ィで評価する際は、1に正規化されていないと、正しい
評価ができない。従って、近年盛んに用いられているB
ack−Off平滑化法(例えば、従来技術文献4参
照。)を拡張して、これらの問題を解決する方法を述べ
る。
【0046】単語列w1 nが不特定タスクのテキストデー
タ30−mに含まれる場合は、上記のタスク適応化処理
により、遷移確率pMAP(wn|w1 n-1)を求め、チュー
リング(Turing)推定法により、確率pMAP(wn
|w1 n-1)を軽減する。ただし、軽減係数は不特定タス
クのテキストデータ30−mの頻度(cI(w1 n))を
用いて計算する。当該軽減により生じた確率の余剰分を
1 nが不特定タスクのテキストデータ30−mに含まれ
ない単語連鎖に対して、(n−1)−gramの遷移確
率に比例して配分する。以上をまとめると、タスク適応
化されたN−gramの平滑化後の遷移確率Ps(wn
|w1 n-1)は次式で表される。
【0047】
【数13】 Ps(wn|w1 n-1) =Ph(wn|w1 n-1),cI(w1 n-1)>0のとき =α(w1 n-1)Ps(wn|w2 n-1),cI(w1 n-1)=0,cI(w2 n-1)>0のとき =Ps(wn|w2 n-1),cI(w1 n-1)=0,cI(w2 n-1)=0のとき
【0048】上記の数12において、Phはタスク適応
化により得られる確率に軽減係数をかけたものであり、
次式で与えられる。
【0049】
【数14】 Ph(wn|w1 n-1) ={cI(w1 n)+1}/{cI(w1 n)} ×{ncI(w1 n)+1}/{nci(w1 n)}・pMAP(w1 n
【0050】ここで、ncは、不特定タスクのテキスト
データ30−m中にc回出現する単語列の種類数(異な
り)であり、また、数13で、α(w1 n-1)は正規化の
ための係数であり、次のように求められる。
【0051】
【数15】α(w1 n-1)=Aa/Ab ここで、
【0052】以上のBack−off平滑化法を応用し
た手法を用いることにより、学習データ上に出現しない
単語連鎖に対しても確率値を与えることができる。ま
た、遷移確率pMAPが正規化されていなくても、上記数
15においてαを求める際に正規化の計算を行うため、
遷移確率の和は自動的に1になる。
【0053】図5は、言語モデル生成部20によって実
行される言語モデル生成処理の詳細を示すフローチャー
トであり、以下、図5を参照して当該処理について説明
する。なお、以下の各処理は各単語列毎に実行される。
まず、ステップS1では、各タスクmのテキストデータ
30−mを記憶する学習用テキストデータメモリ21か
ら各タスクmのテキストデータ30−mを読み出す。次
いで、ステップS2において、ステップS2において、
読み出した各タスクのテキストデータ30−mに基づい
て最尤推定法を用いて各タスク毎に単語のbigram
の遷移確率を数3を用いて計算する。そして、ステップ
S3において、各タスク毎の単語bigramの遷移確
率の出現分布をベータ分布と仮定し、ベータ分布の加重
平均μ及び加重分散σ2を数10及び数11を用いて計
算した後、これらに基づいて数9を用いてベータ分布の
パラメータα及びβを計算する。さらに、ステップS4
において、事前知識のパラメータα及びβと、特定タス
クiのテキストデータ30−iの事後知識のパラメータ
N及びnとに基づいて、数7を用いて各タスク毎の単語
bigramの遷移確率pを計算する。そして、ステッ
プS5において、各タスク毎の単語bigramの遷移
確率pに基づいて,Back−off平滑化処理を実行
し、処理後の各タスク毎の単語bigramの遷移確率
を含む統計的言語モデルを生成して、統計的言語モデル
メモリ22に記憶する。以上で、言語モデル生成処理を
終了する。
【0054】次いで、図1に示す連続音声認識装置の構
成及び動作について説明する。図1において、単語照合
部4に接続された音素隠れマルコフモデル(以下、隠れ
マルコフモデルをHMMという。)メモリ11内の音素
HMMは、各状態を含んで表され、各状態はそれぞれ以
下の情報を有する。 (a)状態番号、(b)受理可能なコンテキストクラ
ス、(c)先行状態、及び後続状態のリスト、(d)出
力確率密度分布のパラメータ、及び(e)自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素HMMは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合HMMを変換
して生成する。ここで、出力確率密度関数は34次元の
対角共分散行列をもつ混合ガウス分布である。また、単
語照合部4に接続された単語辞書メモリ12内の単語辞
書は、音素HMMメモリ11内の音素HMMの各単語毎
にシンボルで表した読みを示すシンボル列を格納する。
【0055】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
【0056】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMM11と単
語辞書12とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部4は、各時刻の各HMM
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素HMM11及び単語辞書12とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部4は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報(具体的には、例え
ばフレーム番号)とともにバッファメモリ5を介して単
語仮説絞込部6に出力する。
【0057】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ22内のタスク適応化され
た統計的言語モデルを参照して、終了時刻が等しく開始
時刻が異なる同一の単語の単語仮説に対して、当該単語
の先頭音素環境毎に、発声開始時刻から当該単語の終了
時刻に至る計算された総尤度のうちの最も高い尤度を有
する1つの単語仮説で代表させるように単語仮説の絞り
込みを行った後、絞り込み後のすべての単語仮説の単語
列のうち、最大の総尤度を有する仮説の単語列を認識結
果として出力する。なお、タスク適応化された統計的言
語モデルは、各タスク毎に1つの統計的言語モデルを備
え、単語仮説絞込部6は、音声認識しようとするタスク
に対応する統計的言語モデルを選択的に参照する。本実
施形態においては、好ましくは、処理すべき当該単語の
先頭音素環境とは、当該単語より先行する単語仮説の最
終音素と、当該単語の単語仮説の最初の2つの音素とを
含む3つの音素並びをいう。
【0058】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
【0059】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0060】以上の実施形態において、特徴抽出部2
と、単語照合部4と、単語仮説絞込部6と、言語モデル
生成部20とは、例えば、デジタル電子計算機などのコ
ンピュータで構成され、バッファメモリ3,5と、音素
HMMメモリ11と、単語辞書メモリ12と、学習用テ
キストデータメモリ21と、統計的言語モデルメモリ2
2とは、例えばハードデイスクメモリなどの記憶装置で
構成される。
【0061】以上実施形態においては、単語照合部4と
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMM11を参照
する音素照合部と、例えばOne Pass DPアル
ゴリズムを用いて統計的言語モデルを参照して単語の音
声認識を行う音声認識部とで構成してもよい。
【0062】
【実施例】本発明者は、本実施形態で用いるタスク適応
化された統計的言語モデルの性能を確認するため、評価
実験を行った。実験用いたデータは、本特許出願人が所
有する自然発話データベース(例えば、従来技術文献1
1「T.Morimotoet al.,“A Spe
ech and Language Database
for Speech Translation R
esearch”,ICSLP,pp.1791−17
94,1994年」参照。)であり、現在1,098会
話、449,070単語(のべ)、6,797(異な
り)単語で構成されている。また、このデータベースは
表1に示すように、15タスクから構成されており、各
タスクの単語数を表2に示す。これらのデータのうち、
約1/4の会話をランダムに選んでテストセットとし
て、残りの会話を学習セットとして使用した。ただし、
各タスクから最低でも1会話はテストセットとして選択
している。
【0063】
【表1】 タスク一覧 ────────────────────────────── タスク番号 会話数 内容 ────────────────────────────── 1 491 ホテルのサービス 2 351 ホテルの部屋の予約 3 50 観光バス・旅行パックの問い合わせ 4 36 ホテルの会議室の相談・予約 5 28 交通手段の問い合わせ 6 24 ホテルの部屋の相談 7 22 飛行機のフライトの予約 8 22 定期バス・列車の切符の問い合わせ 9 20 レンタカーの問い合わせ 10 14 演劇・コンサートのチケットの予約 11 12 レストランの予約 12 8 トラブル・忘れ物 13 8 料理の注文 14 8 道案内 15 4 ショッピング ──────────────────────────────
【0064】
【表2】
【0065】ここで、本発明に係る統計的言語モデルを
評価するために、パープレキシティを用いる。例えば、
複数n個の単語からなる長い単語列w1 n=w12…wn
があるときのエントロピーH(n)は次式で表される。
【0066】
【数16】 H(n)=−(1/n)・log2P(w1 n
【0067】ここで、P(w1 n)は単語列w1 nの生成確
率であり、パープレキシティPP(n)は次式で表され
る。
【0068】
【数17】PP(n)=2H(n)
【0069】当該実験における統計的言語モデルとして
は、次の3種類のモデルを考える。 (a)不特定タスクモデル:全タスクのテキストで作成
したN−gram。 (b)特定タスクモデル:各タスクのテキストのみで作
成したN−gram。 (c)タスク適応モデル:不特定タスクモデルを各タス
クに適応したN−gram。 これらの統計的言語モデルをタスク毎に、単語のbig
ram及び単語のtrigramで作成した。そして、
本発明者は、本実施形態のタスク適応化された統計的言
語モデルを図1の連続音声認識装置に適用し、当該統計
的言語モデルの効果を確認した。音素認識の実験条件を
表3に示す。また、音響をパラメータもあわせて表3に
示す。
【0070】
【表3】 実験条件 ─────────────────────────────────── 分析条件 サンプリング周波数:12KHz, ハミング窓:20ms, フレーム周期:10ms ─────────────────────────────────── 使用パラメータ 16次LPCケプストラム+16次Δケプストラム +logパワー+Δlogパワー ─────────────────────────────────── 音響モデル HM網の男女別不特定話者モデル 400状態,5混合 ───────────────────────────────────
【0071】表3において、HM網の男女別不特定話者
モデルについては、従来技術文献12「小坂ほか,“話
者混合SSSによる不特定話者音声認識”,日本音響学
会講演論文集,2−5−9,pp.135−136,平
成4年」に開示されている。この実験では、単語グラフ
を用いた連続音声認識法を用いて音響モデルおよび言語
モデルを連続音声認識装置に適用した。さらに、各モデ
ル及び各タスク毎のテストセットパープレキシティ値を
表4に示す。表4において、不特定タスクモデルはすべ
てのタスクの学習セットを用いて学習される一方、特定
タスクモデルとタスク適応化モデルは各対応するタスク
の学習セットを用いて学習される。そして、パープレキ
シティ値は各タスクのテストセットを入力データとして
用いたときに得られた値である。
【0072】
【表4】 各モデルのタスク別パープレキシティ ─────────────────────────────────── 不特定タスクモデル 特定タスクモデル タスク適応化モデル ───────────────────────────── タスク番号 Bigram Trigram Bigram Trigram Bigram Trigram ─────────────────────────────────── 1 23.168 17.948 22.923 18.260 22.085 17.515 2 14.837 10.071 13.842 9.941 13.402 9.612 3 26.523 17.383 23.910 17.196 20.684 14.705 4 31.270 24.693 38.164 32.811 29.280 24.470 5 24.164 16.544 21.774 16.574 18.328 13.656 6 17.122 11.192 14.661 11.350 12.540 9.127 7 21.106 14.181 18.358 14.656 15.274 11.383 8 21.134 14.288 14.077 11.177 13.351 10.523 9 25.149 18.154 25.897 20.743 20.443 16.097 10 16.582 10.820 14.060 10.931 11.368 8.148 11 12.970 8.867 12.261 9.611 9.564 6.935 12 32.921 19.402 25.232 18.385 19.921 13.399 13 30.294 22.416 32.757 31.567 21.541 19.338 14 35.490 27.108 45.853 41.285 28.155 23.707 15 44.088 34.214 47.324 44.573 31.854 27.896 ─────────────────────────────────── 平均 25.121 17.819 24.740 20.604 19.186 15.101 ───────────────────────────────────
【0073】表4から明らかなように、タスク適応化モ
デルのパープレキシティは、不特定タスクモデルと比較
して、平均で24%(bigram),15%(tri
gram)低くなっている。特定タスクモデルと比較し
ても、平均で22%(bigram),27%(tri
gram)低い。さらに、タスク適応化モデルのパープ
レキシティは、全てのタスクでbigram,trig
ramの両方の場合において、不特定タスクモデル及び
特定モデルのいずれよりも低い。従って、本実施形態の
方法により、N−gramのタスク適応化が効果的に行
われていることが示せた。
【0074】不特定タスクモデルと特定タスクモデルの
パープレキシティを比較すると、bigramでは、特
定モデルのパープレキシティの方が不特定モデルよりも
低い値を示す場合が多いが、trigramでは、不特
定タスクモデルの方が特定タスクモデルよりも低い場合
が多い。これは、単語bigramでは、学習のスパー
ス性(密度がうすい、つまり疎であること。)が低いた
め、特徴を表すことのできる特定タスクモデルの方が有
利であるが、trigramでは、学習がよりスパース
であるため、特定タスクの少ない量のテキストデータで
は、信頼できるパラメータ推定が行われていないことが
原因と考えられる。従って、タスク適応を行うと、大量
のテキストデータを用いたことにより、学習のスパース
性が解決でき、さらに、タスク適応化を行うことによ
り、そのタスクの言語特徴を表現できたものと考えられ
る。
【0075】テキストデータ量が少ないタスク12及び
15等では、タスク適応化によるパープレキシティの減
少が非常に大きい。特にタスク12では、不特定タスク
モデルと比較して39%(bigram)及び30%
(trigram)、特定タスクモデルと比較して21
%(bigram)及び27%(trigram)パー
プレキシティが減少している。すなわち、目的のタスク
のテキストデータが少量しか集まらない場合に、タスク
適応化を使用する効果が大きいと言える。ただし、学習
量の多いタスク1及び2のタスクにおいては、タスク適
応化によるパープレキシティの減少の割合が小さい。こ
れは、特定タスクモデルにおいては、そのタスクのテキ
ストデータ量が多いため、学習のスパース性がある程度
解決できているためと考えられる。
【0076】以上説明したように、本実施形態によれ
ば、MAP推定法を用いることにより、大量のデータか
ら作成されるN−gramをデータ量に応じて目的のタ
スクに効果的に適応化を行う手法を提案した。実験の結
果、タスク適応化によるパープレキシティの減少効果が
確認され、数千語程度の少量のテキストデータを用いる
だけで、適応化前のモデルよりも大幅に精度の良いN−
gramが構築できることがわかった。すなわち、少量
のテキストデータを用いて、従来例に比較して、より高
い遷移確率の予測精度及び信頼性を有する統計的言語モ
デルを生成することができるとともに、当該統計的言語
モデルを用いて音声認識することにより、従来例に比較
してより高い音声認識率で連続的に音声認識することが
できる。
【0077】以上の実施形態において、統計的言語モデ
ルは、N−gramの言語モデルを含むが、ここで、N
は2及び3に限らず、4以上の自然数であってもよい。
【0078】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の統計的言語モデル生成装置によれば、所定の複
数のタスク毎の学習用テキストデータに基づいて最尤推
定法を用いて各タスク毎に単語のN−gram(Nは2
以上の自然数である。)の遷移確率を演算する第1の演
算手段と、上記第1の演算手段によって演算された各タ
スク毎の単語のN−gramの遷移確率の出現分布を事
前知識の所定の確率分布と仮定し、各タスク毎の確率分
布の加重平均及び加重分散を演算した後、演算された加
重平均と加重分散に基づいて事前知識の確率分布のパラ
メータを演算する第2の演算手段と、上記第2の演算手
段によって演算された事前知識の確率分布のパラメータ
と、上記学習用テキストデータ内の特定タスクのテキス
トデータの事後知識における処理対象の単語列の直前の
単語列の出現回数と、処理対象の単語列の出現回数とに
基づいて、各タスク毎の単語のN−gramの遷移確率
を計算することにより、各タスク毎の単語のN−gra
mの遷移確率を含む統計的言語モデルを生成する第3の
演算手段とを備える。従って、少量のテキストデータを
用いて、従来例に比較して、より高い遷移確率の予測精
度及び信頼性を有する統計的言語モデルを生成すること
ができる。
【0079】また、請求項2記載の統計的言語モデル生
成装置においては、請求項1記載の統計的言語モデル生
成装置において、上記確率分布は、ベータ分布又はディ
リクレ分布である。従って、少量のテキストデータを用
いて、従来例に比較して、より高い遷移確率の予測精度
及び信頼性を有する統計的言語モデルを生成することが
できる。
【0080】さらに、請求項3記載の統計的言語モデル
生成装置においては、請求項1又は2記載の統計的言語
モデル生成装置において、さらに、上記第3の演算手段
によって演算された各タスク毎の単語のN−gramの
遷移確率に基づいて,所定の平滑化処理を実行し、処理
後の各タスク毎の単語のN−gramの遷移確率を含む
統計的言語モデルを生成する第4の演算手段を備える。
従って、少量のテキストデータを用いて、従来例に比較
して、より高い遷移確率の予測精度及び信頼性を有する
統計的言語モデルを生成することができる。
【0081】本発明に係る請求項4記載の音声認識装置
においては、入力される発声音声文の音声信号に基づい
て、所定の統計的言語モデルを用いて音声認識する音声
認識手段を備えた音声認識装置において、上記音声認識
手段は、請求項1、2又は3記載の統計的言語モデル生
成装置によって生成された統計的言語モデルを参照して
音声認識する。従って、従来例に比較して、より高い遷
移確率の予測精度及び信頼性を有する統計的言語モデル
を用いて音声認識することにより、従来例に比較してよ
り高い音声認識率で連続的に音声認識することができ
る。
【0082】本発明に係る請求項5記載の音声認識装置
は、入力される発声音声文の音声信号に基づいて上記発
声音声文の単語仮説を検出し尤度を計算することによ
り、連続的に音声認識する音声認識手段を備えた音声認
識装置において、上記音声認識手段は、請求項1、2又
は3記載の統計的言語モデル生成装置によって生成され
た統計的言語モデルを参照して、終了時刻が等しく開始
時刻が異なる同一の単語の単語仮説に対して、当該単語
の先頭音素環境毎に、発声開始時刻から当該単語の終了
時刻に至る計算された総尤度のうちの最も高い尤度を有
する1つの単語仮説で代表させるように単語仮説の絞り
込みを行う。従って、従来例に比較して、より高い遷移
確率の予測精度及び信頼性を有する統計的言語モデルを
用いて音声認識することにより、従来例に比較してより
高い音声認識率で連続的に音声認識することができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
【図2】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
【図3】 図1の言語モデル生成部20の処理を示すブ
ロック図である。
【図4】 図1の言語モデル生成部20によって実行さ
れるN−gramのタスク適応化処理における事前分布
を示すグラフである。
【図5】 図1の言語モデル生成部20によって実行さ
れる言語モデル生成処理を示すフローチャートである。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMMメモリ、 12…単語辞書メモリ、 20…言語モデル生成部、 21…学習用テキストデータメモリ、 22…タスク適応化された統計的言語モデルメモリ、 30−1乃至30−M…タスクのテキストデータ、 31…不特定タスクのN−gramを含む統計的言語モ
デル、 32…MAP推定法を用いたパラメータ推定処理、 33…平滑化処理。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 所定の複数のタスク毎の学習用テキスト
    データに基づいて最尤推定法を用いて各タスク毎に単語
    のN−gram(Nは2以上の自然数である。)の遷移
    確率を演算する第1の演算手段と、 上記第1の演算手段によって演算された各タスク毎の単
    語のN−gramの遷移確率の出現分布を事前知識の所
    定の確率分布と仮定し、各タスク毎の確率分布の加重平
    均及び加重分散を演算した後、演算された加重平均と加
    重分散に基づいて事前知識の確率分布のパラメータを演
    算する第2の演算手段と、 上記第2の演算手段によって演算された事前知識の確率
    分布のパラメータと、上記学習用テキストデータ内の特
    定タスクのテキストデータの事後知識における処理対象
    の単語列の直前の単語列の出現回数と、処理対象の単語
    列の出現回数とに基づいて、各タスク毎の単語のN−g
    ramの遷移確率を計算することにより、各タスク毎の
    単語のN−gramの遷移確率を含む統計的言語モデル
    を生成する第3の演算手段とを備えたことを特徴とする
    統計的言語モデル生成装置。
  2. 【請求項2】 上記確率分布は、ベータ分布又はディリ
    クレ分布であることを特徴とする請求項1記載の統計的
    言語モデル生成装置。
  3. 【請求項3】 上記統計的言語モデル生成装置はさら
    に、上記第3の演算手段によって演算された各タスク毎
    の単語のN−gramの遷移確率に基づいて,所定の平
    滑化処理を実行し、処理後の各タスク毎の単語のN−g
    ramの遷移確率を含む統計的言語モデルを生成する第
    4の演算手段を備えたことを特徴とする請求項1又は2
    記載の統計的言語モデル生成装置。
  4. 【請求項4】 入力される発声音声文の音声信号に基づ
    いて、所定の統計的言語モデルを用いて音声認識する音
    声認識手段を備えた音声認識装置において、 上記音声認識手段は、請求項1、2又は3記載の統計的
    言語モデル生成装置によって生成された統計的言語モデ
    ルを参照して音声認識することを特徴とする音声認識装
    置。
  5. 【請求項5】 入力される発声音声文の音声信号に基づ
    いて上記発声音声文の単語仮説を検出し尤度を計算する
    ことにより、連続的に音声認識する音声認識手段を備え
    た音声認識装置において、 上記音声認識手段は、請求項1、2又は3記載の統計的
    言語モデル生成装置によって生成された統計的言語モデ
    ルを参照して、終了時刻が等しく開始時刻が異なる同一
    の単語の単語仮説に対して、当該単語の先頭音素環境毎
    に、発声開始時刻から当該単語の終了時刻に至る計算さ
    れた総尤度のうちの最も高い尤度を有する1つの単語仮
    説で代表させるように単語仮説の絞り込みを行うことを
    特徴とする音声認識装置。
JP9002733A 1997-01-10 1997-01-10 統計的言語モデル生成装置及び音声認識装置 Expired - Fee Related JP3027544B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9002733A JP3027544B2 (ja) 1997-01-10 1997-01-10 統計的言語モデル生成装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9002733A JP3027544B2 (ja) 1997-01-10 1997-01-10 統計的言語モデル生成装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JPH10198395A true JPH10198395A (ja) 1998-07-31
JP3027544B2 JP3027544B2 (ja) 2000-04-04

Family

ID=11537536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9002733A Expired - Fee Related JP3027544B2 (ja) 1997-01-10 1997-01-10 統計的言語モデル生成装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP3027544B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099087A (ja) * 1998-09-15 2000-04-07 Koninkl Philips Electronics Nv 言語音声モデルを適応させる方法及び音声認識システム
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
JP2006201553A (ja) * 2005-01-21 2006-08-03 Nippon Telegr & Teleph Corp <Ntt> 識別的学習方法、装置、プログラム、音声認識装置、プログラム、これらのプログラムを記録した記録媒体
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US7310601B2 (en) 2004-06-08 2007-12-18 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus and speech recognition method
US7409342B2 (en) 2003-06-30 2008-08-05 International Business Machines Corporation Speech recognition device using statistical language model
CN111177331A (zh) * 2019-11-25 2020-05-19 云知声智能科技股份有限公司 一种对话意图识别方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251135B2 (en) 2013-08-13 2016-02-02 International Business Machines Corporation Correcting N-gram probabilities by page view information

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099087A (ja) * 1998-09-15 2000-04-07 Koninkl Philips Electronics Nv 言語音声モデルを適応させる方法及び音声認識システム
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
US7409342B2 (en) 2003-06-30 2008-08-05 International Business Machines Corporation Speech recognition device using statistical language model
US7603277B2 (en) 2003-06-30 2009-10-13 Nuance Communications, Inc. Speech recognition device using statistical language model
US7698137B2 (en) 2003-06-30 2010-04-13 Nuance Communications, Inc. Speech recognition device using statistical language model
US7310601B2 (en) 2004-06-08 2007-12-18 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus and speech recognition method
JP2006201553A (ja) * 2005-01-21 2006-08-03 Nippon Telegr & Teleph Corp <Ntt> 識別的学習方法、装置、プログラム、音声認識装置、プログラム、これらのプログラムを記録した記録媒体
JP4533160B2 (ja) * 2005-01-21 2010-09-01 日本電信電話株式会社 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US8831943B2 (en) 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
CN111177331A (zh) * 2019-11-25 2020-05-19 云知声智能科技股份有限公司 一种对话意图识别方法及装置
CN111177331B (zh) * 2019-11-25 2023-04-18 云知声智能科技股份有限公司 一种对话意图识别方法及装置

Also Published As

Publication number Publication date
JP3027544B2 (ja) 2000-04-04

Similar Documents

Publication Publication Date Title
US10460721B2 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
US7542901B2 (en) Methods and apparatus for generating dialog state conditioned language models
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
JP2003308090A (ja) 音声認識装置、音声認識方法および音声認識プログラム
Kadyan et al. A comparative study of deep neural network based Punjabi-ASR system
JP3027544B2 (ja) 統計的言語モデル生成装置及び音声認識装置
US20030097263A1 (en) Decision tree based speech recognition
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JPH1185188A (ja) 音声認識方法及びそのプログラム記録媒体
JP3444108B2 (ja) 音声認識装置
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
Zhang Joint training methods for tandem and hybrid speech recognition systems using deep neural networks
JP3628245B2 (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
US6928409B2 (en) Speech recognition using polynomial expansion and hidden markov models
US20040243410A1 (en) Speech recognition method and apparatus utilizing segment models
JP2938865B1 (ja) 音声認識装置
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
Nankaku et al. Acoustic modeling with contextual additive structure for HMM-based speech recognition
JP3035239B2 (ja) 話者正規化装置、話者適応化装置及び音声認識装置
Shigli et al. Automatic dialect and accent speech recognition of South Indian English
JP2731133B2 (ja) 連続音声認識装置
Thandil et al. Automatic speech recognition system for utterances in Malayalam language
JP3589508B2 (ja) 話者適応音声認識方法および話者適応音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100128

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110128

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120128

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130128

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140128

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees