JP3029803B2 - 音声認識のための単語モデル生成装置及び音声認識装置 - Google Patents

音声認識のための単語モデル生成装置及び音声認識装置

Info

Publication number
JP3029803B2
JP3029803B2 JP8309094A JP30909496A JP3029803B2 JP 3029803 B2 JP3029803 B2 JP 3029803B2 JP 8309094 A JP8309094 A JP 8309094A JP 30909496 A JP30909496 A JP 30909496A JP 3029803 B2 JP3029803 B2 JP 3029803B2
Authority
JP
Japan
Prior art keywords
model
word
variance
segment
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8309094A
Other languages
English (en)
Other versions
JPH10149189A (ja
Inventor
芳典 匂坂
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP8309094A priority Critical patent/JP3029803B2/ja
Publication of JPH10149189A publication Critical patent/JPH10149189A/ja
Application granted granted Critical
Publication of JP3029803B2 publication Critical patent/JP3029803B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識のための
単語モデル生成装置及び音声認識装置に関する。
【0002】
【従来の技術】現在まで成功を収めている音声認識シス
テムのほとんどは、隠れマルコフモデル(以下、HMM
という。)を参照して音声認識するものであるが、その
一方で、近年、HMMの欠点に対処するための新しいモ
デル化方法も数多く提案されてきている。HMMの制限
として次の2つのものが挙げられる。 (1)継続時間モデルが貧弱である。 (2)状態系列のもとで観測系列の独立性が仮定されて
いる。
【0003】HMMの状態継続時間長モデルは幾何学的
な分布によって暗黙的に与えられているという第1番目
の制限は、継続時間状態分布を明示的に導入することで
処理されてきた。第2番目の制限である観測系列の条件
付き独立の仮定は、実用的には有益であるが現実的では
ないということが広く認識されている。とりわけ、第2
番目の問題に対して、すなわち特徴パラメータの時間方
向の相関を取り入れることを目的としたモデル化の研究
が近年数多くなされている。パラメトリックなモデリン
グ手法としては、HMMの平均値を絶対時間の関数とし
てモデル化する方法(例えば、従来技術文献1「L.Den
g,“A generalized hidden Markov modelwith state-co
nditioned trend functions of time for the speech s
ignal",IEEE Transactions on Signal Processing,Vol.
l27,pp.65-78,1992年」及び従来技術文献2「L.Deng et
al.,“HMMs with mixtures of trend functions for a
utomatic speech recognition",International Synposi
um on Speech,Image Processing and Neural Networks,
pp.702-705,1994年」参照。)、確率的セグメントモデ
ルによる方法(例えば、従来技術文献3「M.Ostendorf
et al.,“A stochastic segment model for phoneme-ba
sed continuous speech recognition",IEEETransaction
s on Acoustic,Speech and Signal Processing,Vol.37,
No.12,pp.1857-1869,1989年」及び従来技術文献4「H.G
ish et al.,“A Segmental Speech Model with Applica
tions to Word Spotting",Proceedings of ICASSP-93,p
p.II-447-II-450,1993年」参照。)、ノンパラメトリッ
クな方法(例えば、従来技術文献5「W.Goldenthal et
al.,“Statistical Trajectory Models for PhoneticRe
cognition",Proceedings of ICSLP-94,pp.1871-1873,19
96年」及び従来技術文献6「O.Ghitza et al.,“Hidden
Markov Models with Templates as Non-stationary St
ates:An Application to Speech Recognition",Compute
r Speech andLanguage,No.2,pp.101-119,1993年」参
照。)などがある。
【0004】また、固定長セグメントからセグメント統
計量を抽出する方法として、従来技術文献7「山本一公
ほか,“セグメント単位入力HMMとその評価”,電子
情報通信学会技術報告,SP95−104,pp.77
−84,1995年12月」において種々の比較がなさ
れており、従来技術文献8「L.Bahl,et al.,“Performa
nce of the IBM Large Vocabulary Continuous Speech
Recognition System on the ARPA Wall Street Journal
Task",Proceedings of ICASSP-95,pp.41-44,1995年」
では大語彙連続音声認識システムに適用されている。ま
た、ニューラルネットワークに基づく音声認識手法にお
いても、リカレントニューラルネットワークにより特徴
パラメータの時間的相関を取り入れる試みがなされてい
る(例えば、従来技術文献9「T.Robinson et al.,“IP
A:Improbed Phone Modelling with Recurrent Neural N
etworks",Proceedings of ICASSP-94,pp.I-37-I-40,199
4年」参照。)。
【0005】ここで、特に、例えば従来技術文献4にお
いて提案された確率的セグメントモデルである単一分布
セグメントモデルの生成方法(以下、従来例という。)
について以下述べる。ここでいう確率的セグメントモデ
ルとは、セグメント内の特徴量の平均値を相対的な時間
の線形多項式によって表現するというモデルである。時
刻tにおけるD次元の特徴パラメータのベクトル系列
(例えば、ケプストラム係数)をytとすると、長さL
のランダム長観測セグメント系列y1 L=[y1,y2
…,yL]が音素ラベル“a”から生成される確率は、
次式によって与えられる。
【0006】
【数1】P(y1,y2,…,yL,L|a)=P(y1
2,…,yL|L,a)P(L|a)
【0007】ここで、上記数1の右辺のP(y1,y2
…,yL|L,a)はy1,y2,…yLが長さL及び音素
ラベルaから生成するときの出力確率を表し、P(L|
a)は音素ラベルaが長さLとなるときの継続時間長確
率を表す。いま、出力確率分布が単一ガウス分布f
(・)で与えられているとき、出力確率P(y1,y2
…,yL|L,a)は次式で表わすことができる。
【0008】
【数2】
【0009】ここで、Σaは音素ラベル“a”のD×D
の分散行列を表し、μatは、時刻tにおけるD次元の平
均ベクトルを表す。ここで、平均ベクトルμatは、
【数3】μat=zL ta で表され、平均軌跡μatをR次で表す場合、行列B
aは、
【数4】Ba=[ba0,ba1,…,baRT で表わすことができ、また行列zL tは(R+1)次元の
ベクトルとして、次式で表わすことができる。
【0010】
【数5】 zL t =[1,0,0,…,0],t=1のとき =[1,(t−1)/(L−1),{(t−1)/(L−1)}2,…,
{(t−1)/(L−1)}R],1<t≦Lのとき
【0011】すなわち、全てのランダム長観測セグメン
トは0から1の時間として正規化される。以後、表記を
簡単にするため、音素ラベル“a”の表示を除くことに
する。ある観測セグメントYi=[yi,1,yi,2,…,
i,Li]に対する平均Bと分散Σをパラメータにもつセ
グメントモデルの平均の最尤推定値Biは、L×(R+
1)次元の行列ZLをZL=[zL 1,zL 2,…,zL LT
とすると、次式で表わすことができる。本明細書におい
て、下付きの下付きを表せないので、下付きの添字にお
いて、LiはLiと表しており、以下同様である。
【0012】
【数6】Bi=YiLi T[ZLiLi T-1
【0013】そして、分散Σiは、次式で表わすことが
できる。
【0014】
【数7】
【0015】ここで、3つの統計量(Bi,Σi,Li
は、セグメントYiをセグメントモデルとして表すため
の十分な統計量となる。着目しているモデル“a”に対
する全てのセグメントに対してこの統計量を求めると、
モデルパラメータの最尤推定値の平均Bhと分散Σhは次
式で表わすことができる(例えば、従来技術文献4参
照。)。
【0016】
【数8】
【数9】
【0017】すなわち、Iaは、音素ラベル“a”の集
合であり、数8及び数9における和Σは、iが音素ラベ
ルaに属するデータについての和である。また、行列右
上に示すTは行列の転置を示し、行列右上に示す−1は
逆行列を示す。
【0018】
【発明が解決しようとする課題】しかしながら、従来例
の方法では、いまだ音素認識率が比較的低いという問題
点があった。本発明の目的は以上の問題点を解決し、従
来例に比較して音素認識率を改善することができる音声
認識のための単語モデル生成装置及び音声認識装置を提
供することにある。
【0019】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識のための単語モデル生成装置は、所定のテ
キストに対する複数の音素を含む音声特徴パラメータと
それに対して付与された音素ラベルデータとに基づい
て、各音素ラベル毎に、観測系列の平均値を時間の相対
的な関数としてモデル化した所定の確率的セグメントモ
デルの平均と分散を計算した後、所定の混合数になるま
で尤度最大化基準による所定のクラスタリング方法によ
り各音声特徴パラメータを複数のクラスタにクラスタリ
ングして、各クラスタの重みを計算し、各クラスタに対
する平均、分散、及び重みを含むモデルパラメータを有
する混合分布の確率的セグメントモデルを生成する第1
の生成手段と、上記第1の生成手段によって生成された
混合分布の確率的セグメントモデルに基づいて、上記テ
キストの各単語毎の音声特徴パラメータを含む単語モデ
ルを生成する第2の生成手段とを備えたことを特徴とす
る。
【0020】また、請求項2記載の単語モデル生成装置
は、請求項1記載の単語モデル生成装置において、上記
第1の生成手段によって生成された混合分布の確率的セ
グメントモデルに基づいて、所定のEMアルゴリズムを
用いて、推定後の確率的セグメントモデルの出力確率の
対数尤度と推定後の確率的セグメントモデルからの所定
の継続時間長を出力する対数尤度と推定後の所定番目の
確率的セグメントモデルが出力される対数尤度を含む尤
度値が最大となるように最尤推定することにより、各音
素ラベル毎に、各クラスタに対する平均、分散、及び重
みを含むモデルパラメータを有する混合分布の確率的セ
グメントモデルを生成する第3の生成手段を備え、上記
第2の生成手段は、上記第3の生成手段によって生成さ
れた混合分布の確率的セグメントモデルに基づいて、上
記テキストの各単語毎の音声特徴パラメータを含む単語
モデルを生成することを特徴とする。
【0021】さらに、請求項3記載の単語モデル生成装
置は、請求項1又は2記載の単語モデル生成装置におい
て、上記第1の生成手段又は上記第3の生成手段によっ
て生成された混合分布の確率的セグメントモデルに基づ
いて、各クラスタに対する分散を時間変化の関数として
表した分散を計算することにより、各音素ラベル毎に、
各クラスタに対する平均、分散、及び重みを含むモデル
パラメータを有する混合分布の確率的セグメントモデル
を生成する第4の生成手段を備え、上記第2の生成手段
は、上記第4の計算手段によって生成された混合分布の
確率的セグメントモデルに基づいて、上記テキストの各
単語毎の音声特徴パラメータを含む単語モデルを生成す
ることを特徴とする。
【0022】また、請求項4記載の単語モデル生成装置
は、請求項1、2又は3記載の単語モデル生成装置にお
いて、上記単語モデルのモデルパラメータは、各音素ラ
ベルに対する継続時間長分布を含むことを特徴とする。
【0023】さらに、請求項5記載の単語モデル生成装
置は、請求項1乃至4のうちの1つに記載の単語モデル
生成装置と、上記単語モデル生成装置によって生成され
た単語モデルを用いて、入力された文字列からなる発声
音声文の音声信号を音声認識する音声認識手段とを備え
たことを特徴とする。
【0024】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0025】<実施形態の概要>図1は、本発明に係る
実施形態である自由発話音声認識装置のブロック図であ
り、図2(a)は従来例に係るモデルパラメータ生成装
置20の入力パラメータと出力パラメータとを示すブロ
ック図であり、図2(b)は第1の実施形態に係るモデ
ルパラメータ生成装置20aの入力パラメータと出力パ
ラメータとを示すブロック図であり、図2(c)は第2
の実施形態に係るモデルパラメータ生成装置20bの入
力パラメータと出力パラメータとを示すブロック図であ
り、図2(d)は第3の実施形態に係るモデルパラメー
タ生成装置20cの入力パラメータと出力パラメータと
を示すブロック図である。
【0026】本発明に係る実施形態では、音声特徴パラ
メータファイルメモリ30内の観測系列(音声特徴パラ
メータ)の平均値を時間の相対的な関数として単一混合
分布の確率的セグメントモデルによりモデル化している
Gishらの方法(従来技術文献4参照。)を多混合分
布に拡張した場合のモデルパラメータの推定方法につい
て述べる。図2(b),(c)及び(d)に示すよう
に、多混合分布における確率的セグメントモデルは、平
均値、分散、分布の重み、継続時間をパラメータとする
モデルであり、平均値の時間変化を任意次数の線形回帰
モデルとして表現するという特徴をもつ。この混合分布
セグメントモデルのモデルパラメータ推定法として、H
MMの場合と同様に、クラスタリングによる方法及び公
知のEM(Estimation-Maximization)アルゴリズムに
よる方法について定式化を行なう。さらに、より詳細な
モデル化を目的として、平均値に加え、分散の変化も時
間変化の関数として表現することを考え、近似手法を用
いてモデルパラメータを推定する方法を考案した。ま
た、本実施形態に対応する実施例においては、上記混合
分布化の評価のために、コンテキスト非依存音素の混合
分布セグメントモデルを作成し、本出願人が所有し、音
声波形及びラベル情報を含むTIMIT(TI(テキサ
スインストゥルメンツ)及びMIT(マサチューセッツ
工科大学)の略である。)データベースを用いた母音識
別実験を行なった。またこのとき、従来広く用いられて
いるHMMの状態数、混合数を多くの組合せにより実験
することにより、確率的セグメントモデルとHMMとの
詳細な性能比較も行なっている。従来技術文献2の実験
では、3状態のleft-to-rightHMMにおいて、回帰次
数を0,1,2として比較した結果は報告されている
が、HMMの状態数を更に増加させた場合との比較は報
告されていない。本実施形態において、多混合分布にお
ける確率的セグメントモデルにモデル化している点が従
来技術文献1と大きく異なる点である。
【0027】本実施形態では、音響的特徴パラメータ又
は音響的特徴量は、具体的には、ケプストラム係数を人
間の聴覚に合わせて補正した10次元のメル・ケプスト
ラム係数(以下、MFCCという。)とパワー(又はエ
ネルギー)とを含む11個の特徴パラメータである。
【0028】<混合分布セグメントモデル>まず、従来
例の単一分布セグメントモデルを混合分布へ拡張するこ
とを考える。以下で説明するセグメントモデルにおける
前提条件は、従来例で述べた条件と同様であり、時刻t
におけるD次元の特徴パラメータのベクトル系列(例え
ば、ケプストラム係数)をytとし、長さLのランダム
長観測セグメント系列y1 L=[y1,y2,…,yL]を
考えている。ここで、時刻tにおけるD次元の特徴パラ
メータのベクトル系列の各特徴パラメータは、例えば、
5ミリ秒の期間の1フレーム毎に観測される。上記数2
で表される単一ガウス分布を以下のように混合数Mの多
混合分布として表す。
【0029】
【数10】 ここで、
【数11】N(yt,Bk,Σk)=1/{(2π)D/2
Σk1/2}×exp{−(1/2)(yt−zL tkT
Σk -1(yt−zL tk)} であり、重みwkの総和は次式を満足する。
【0030】
【数12】
【0031】上記数10における平均Bk,分散Σk,重
みwkを求める方法として、HMMのモデルパラメータ
の推定法と同様に、セグメントのクラスタリングに基づ
くもの(以下、第1の実施形態という。)、EMアルゴ
リズムを用いた再推定に基づくもの(以下、第2の実施
形態という。)が考えられる。以下、これらの計算方法
について述べる。
【0032】<クラスタリング法によるモデル化(第1
の実施形態)>混合分布のセグメントモデルを作成する
方法の1つとして、セグメントの集合として表される特
徴量空間を尤度最大化基準に基づいてクラスタリングす
ることが考えられる。すなわちセグメント集合を、次式
の尤度最大化基準によるLBGアルゴリズム(例えば、
従来技術文献13「中川聖一著,“確率モデルによる音
声認識”,pp.27−28,電子情報通信学会発行,
昭和63年7月1日」参照。)を用いて複数M個にクラ
スタリングする。ここで、尤度Pは次式で表わすことが
できる。
【0033】
【数13】
【0034】ここで、μcはクラスタの平均軌跡ベクト
ルであり、Σcはクラスタの共分散行列である。ここ
で、各クラスタの重みwnは、次式で表わすことができ
る。
【0035】
【数14】
【0036】ここで、Niは、それぞれのクラスタ内の
学習セグメント数を表す。
【0037】第1の実施形態において、特徴パラメータ
のベクトル系列の平均値は、数8で表される平均値を、
例えば、直線又は曲線で所定の回帰分析法により回帰し
て、回帰係数を求める。また、分散は、数9で表され、
各クラスタの重みwnは数14で表される。さらに、継
続時間長分布は、各音素ラベルに対する学習データから
得られる頻度を総数で除したものを音素ごとに計算する
ことにより表される。
【0038】<EMアルゴリズムを用いたモデルの再推
定(第2の実施形態)>多混合の場合、上述したクラス
タリング結果は、モデルパラメータの最尤推定値とはな
らない。そこで、HMMの場合と同様に、EMアルゴリ
ズムを用いた繰り返し手法に基づいてパラメータを再推
定し、最尤推定値を求める。セグメントモデルにおける
モデルパラメータの再推定を行なうに際し、HMMの場
合と同様に次式で与えられるQ関数を導入する。モデル
パラメータΦb,Φに対する対数尤度の期待値を表わす
Q(Φb,Φ)は次式で表わすことができる。
【0039】
【数15】
【0040】ここで、Φ及びΦbはそれぞれ現在のモデ
ル、再推定後のモデルを表し、kは混合分布のインデッ
クスを表す。また、P(y1 L,L,k|Φb)はモデル
パラメータΦbを用いた場合の長さLの観測系列y1 L
インデックスkから出力される確率を表し、E[A│
B]はBの条件におけるAの期待値を表わす。本実施形
態においては、1つの音響単位(例えば音素である。)
に対して、1つのセグメントモデル(すなわち、状態数
が1となる。)でモデル化することを考えているため、
通常のHMMにおけるEMアルゴリズムの状態の総和は
出てこない。ここで、logP(y1 L,L,k|Φb)
は次式で表わすことができる。
【0041】
【数16】
【0042】上記数16において、右辺第1項は再推定
後のモデルの出力確率の対数尤度を、第2項は再推定後
のモデルから継続時間長Lを出力する対数尤度を、第3
項は再推定後のk番目のモデルが出力される対数尤度を
表す。ここで、第2項は、着目しているモデルパラメー
タの平均Bk,分散Σk,重みwkに依存しない。すなわ
ち再推定の有無によらない一定の値をとるため、結局、
上記数15の最大化は、次式の数17をモデルパラメー
タの平均Bk,分散Σkについて最大化し、次式の数18
をモデルパラメータの重みwkについて最大化すること
と等価になる。
【0043】
【数17】
【数18】
【0044】上記数17及び数18における{P(k,
1 L|Φ)/P(y1 L|Φ)}は、現在のモデルパラメ
ータΦを用いて計算できるため、定数として扱うことが
できる。今、時刻tにおけるこの値をγk,tとすると、
これは、前向き変数αt及び後向き変数βtを用いて以下
のように効率的に計算できる。
【0045】
【数19】 γk,t =αtβt+1kk(yt+1)/P(y1 L|Φ),t=1,2,…,L−1のとき =αL/P(y1 L|Φ),t=Lのとき
【0046】前向き変数αt及び後向き変数βtは、HM
Mの場合と同様に以下の再帰的計算により求められる。
【0047】
【数20】 αt =f(y1),t=1のとき =αt-1f(yt),t=2,3,…,Lのとき
【数21】 βt =1,t=Lのとき =βt+1f(yt+1),t=L−1,L−2,…,1のと
【0048】次いで、平均軌跡の計算方法について述べ
る。まず、平均軌跡の再推定値を求めることを考える。
上記数16及び数17より、m番目の分布に対する平均
軌跡ベクトルBbm=[bbm0,bbm1,…,bbmRTの値
は、上記数17をbbmrに関して偏微分したものを零と
おき、次式を解くことにより得られる。
【0049】
【数22】∂Q1/∂(bbmr)=0
【0050】上記数10及び数17より数22は、次式
で表わすことができる。
【0051】
【数23】
【0052】ここで、上記数11及び数3より、次式を
得ることができ、
【数24】∂{fbm(yt)}/∂(bbmr)={fb
m(yt)}Σbm -1(yt−μbm,t){(t−1)/(L
−1)}r ここで、m番目の分布の分散の逆数を表わすΣbm -1は時
刻tとは独立の定数であることから、次式を求めればよ
いことになる。
【0053】
【数25】
【0054】上記数25を簡単な表現形式で記述する
と、次式で表わすことができる。
【0055】
【数26】 ただし、
【数27】
【数28】
【0056】ここで、C(l)は特徴パラメータの次元
dに寄らないスカラー定数であり、V(r)は次元依存
のベクトル定数であることに注意されたい。結局、数2
6を満たすbbmuは、次式をd=1,2,…,Dについ
て解くことにより得られる。
【0057】
【数29】
【0058】さらに、分散の再推定値の計算方法につい
て述べる。平均軌跡の計算と同様に、上記数16及び数
17から、m番目の分布に対する分散Σbmの値は、数1
7をi行j列の要素σbmijについて偏微分したものを零
とおき、次式を解くことにより得られる。
【数30】∂Q1/∂(σbmij)=0 上記数10及び数17より上記数30は、次式で表わす
ことができる。
【0059】
【数31】
【0060】ここで、数11より、次式で表わすことが
できるので、
【0061】
【数32】∂{fbm(yt)}/∂(σbmij)={fbm
(yt)}{−1/(2|σbmij|)+(yt−μbm,t
i(yt−μbm,tj/2(σbmij2
【0062】上記数32を数31に代入し、両辺に−2
(σbmij2を乗算すると、次式を得ることができる。
【0063】
【数33】
【0064】これより、上記数33を満たすΣbmは、次
式を計算することにより得られる。
【0065】
【数34】
【0066】本来ならば、上記数34は上記数29から
得られた平均軌跡の結果を用いるべきであるが、HMM
の場合現在の平均値の結果を用いた場合と大差がないこ
とが確かめられているため(従来技術文献10参
照。)、本実施形態では現在の平均軌跡の結果を用いて
分散の再推定を行なっている。
【0067】またさらに、重みの計算方法について述べ
る。分布mに対する重みwbmは、HMMの場合と同様に
して、公知のラグランジェの未定乗数法を用いれば、上
記数18から、次式で表わすことができる。
【0068】
【数35】
【0069】なお、初期パラメータの決定方法として
は、混合分布のセグメントモデルの初期パラメータに
は、なるべく良いものを与えることが望ましく、ここで
は、上述のクラスタリングによるモデル化で得られたパ
ラメータを初期値として与える。
【0070】第2の実施形態において、特徴パラメータ
のベクトル系列の平均値bbmuは、上記数29をd=
1,2,…,Dについて解くことにより計算でき、計算
した平均値を、例えば、直線又は曲線で所定の回帰分析
法により回帰して、回帰係数を求める。また、分散Σbm
は、数34で表され、各クラスタの重みwbnは数35で
表される。さらに、継続時間長分布は、各音素ラベルに
対する学習データから得られる頻度を総数で除したもの
を音素ごとに計算することにより表される。
【0071】<分散の時変モデル化(第3の実施形態)
>上述のセグメントモデルでは、1つのセグメント内の
分散値が一定の値をとっていた。これは、HMMにおけ
る個々の状態がそれぞれ個別の分散値を保持できること
を考えると、分散に着目した場合、HMMの方が観測系
列の分散の時間変化の表現能力が高いということを意味
している。つまり、HMMの状態数を増加させていった
場合、セグメントモデルの認識性能がHMMより劣って
しまう可能性がある。そこで、第3の実施形態では、こ
れまで分散を時不変の定数として扱っていたものを平均
軌跡と同様に、時間の関数としてモデル化することを試
みる。分散の時変モデルは、上記数11における分散Σ
kを時間変化の関数Σk,tとして表すことにより実現でき
る。
【0072】ここで、分散Σkを時間変化の関数Σk,t
次式で表わすことができ、
【数36】Σk,t=zL tk 分散軌跡をW次で表す場合、W次の線形回帰係数のベク
トルを表わすGkは、次式で表わすことができ、
【数37】Gk=[gk0,gk1,…,gkWT ここで、gk0,gk1,…,gkWは分散軌跡の0次からW
次までの回帰係数を表わす。また、1からLまでの系列
を0から1に線形伸縮する関数を表わすzL tは上記数5
と同様に、(W+1)次元のベクトルとして、次式で表
わすことができる。
【0073】
【数38】 zL t =[1,0,0,…,0],t=1のとき =[1,(t−1)/(L−1),{(t−1)/(L−1)}2,…,
{(t−1)/(L−1)}W],1<t≦Lのとき
【0074】分散を時変とした場合のEMアルゴリズム
においても、出力確率を時変の分散を用いて計算すると
いう部分のみが変わるため、平均軌跡、重みの計算は、
クラスタリングによるモデル化の方法と同様に行なうこ
とができる。ただし、分散の計算式が以下のように異な
る。
【0075】次いで、時変分散の計算方法について述べ
る。分散の時変モデル化においても、EMアルゴリズム
を用いたモデルの再推定における方法と同様に、数16
及び数17、m番目の分布に対する分散Σbm,tの値
は、上記数17をi行j列の要素σbm,t,ij=[sb
m,ij0,sbm,ij1,…,sbm,ijWTのsbm,ijrについて
偏微分したものを零とおき、次式を解くことにより得ら
れる。
【0076】
【数39】
【0077】ただし、ここで、
【数40】∂(fbm(yt))/∂(sbm,ijr)=(fbm
(yt)){−1/(2|σbm,t,ij|)+(yt−μbm,t)i(yt
−μbm,t)j/2(σbm,t,ij)2}{(t−1)/(L−1)}r すなわち、次式を得る。
【0078】
【数41】
【0079】ここで、σbm,t,ijは時刻tに依存する値
であるため、線形方程式として解くことはできない。そ
こで、上記数41における分母のσbm,t,ijを現在の分
散軌跡σm,t,ijで代用するという近似手法を導入するこ
とを考える。すなわち、上記数41を、次式として計算
する。
【0080】
【数42】
【0081】このとき、EMアルゴリズムを用いたモデ
ルの再推定における平均軌跡の計算方法と同様に線形方
程式として解くことができ、次式を求めればよいことに
なる。
【0082】
【数43】
【0083】上記数43を簡単な表現形式で記述する
と、次式で表わすことができる。
【0084】
【数44】
【0085】ただし、
【数45】
【数46】 ここで、 である。
【0086】ここで、H(l)及びZ(r)は共に次元
依存のベクトル定数であることに注意されたい。結局、
上記数44を満たすsbm,ijuは、次式をd=1,2,
…,Dについて解くことにより得られる。
【0087】
【数47】
【0088】第3の実施形態において、特徴パラメータ
のベクトル系列の平均値bbmuは、上記数29をd=
1,2,…,Dについて解くことにより計算でき、計算
した平均値を、例えば、直線又は曲線で所定の回帰分析
法により回帰して、回帰係数を求める。また、分散sb
m,ijuは、数47をd=1,2,…,Dについて解くこ
とにより得られ、得られた分散を例えば、直線又は曲線
で所定の回帰分析法により回帰して、回帰係数を求め
る。さらに、各クラスタの重みwbnは数35で表され
る。またさらに、継続時間長分布は、各音素ラベルに対
する学習データから得られる頻度を総数で除したものを
音素ごとに計算することにより表される。
【0089】<モデルパラメータ生成方法の要約>図2
において、音声特徴パラメータファイルは、所定の多数
のテキストデータの文章を特定の話者が読んで図1のマ
イクロホン1に対して発声したときに、特徴抽出部3の
出力として得られる音声特徴パラメータのデータファイ
ルであって、図1の音声特徴パラメータファイルメモリ
30に予め格納される。また、音素ラベルファイルは、
上記音声特徴パラメータファイルに対して人為的に付与
された音素ラベルのデータファイルであって、図1の音
素ラベルファイルメモリ31に予め格納される。
【0090】図2(a)は従来例に係るモデルパラメー
タ生成装置20の入力パラメータと出力パラメータとを
示すブロック図である。図2(a)に示すように、モデ
ルパラメータ生成装置20は、音声特徴パラメータファ
イルと、音素ラベルファイルと、予め決められた状態数
と、予め決められた混合数とに基づいて、数8及び数9
を用いてモデルパラメータの生成を行って、モデルパラ
メータとして、平均値、分散、遷移確率及び重みを出力
する。
【0091】これに対して、図2(b)は第1の実施形
態に係るモデルパラメータ生成装置20aの入力パラメ
ータと出力パラメータとを示すブロック図である。図2
(b)に示すように、モデルパラメータ生成装置20a
は、音声特徴パラメータファイルと、音素ラベルファイ
ルと、予め決められてキーボード40を用いて入力され
た混合数とに基づいて、数13及び数14を用いてモデ
ルパラメータの生成を行って、モデルパラメータとし
て、平均値の回帰係数、分散、重み、及び継続時間長分
布を出力する。ここで、継続時間長分布は、各音素ラベ
ルに対する学習データから得られる頻度を総数で除した
ものを音素ごとに計算することにより表される。すなわ
ち、第1の実施形態では、所定のテキストに対する複数
の音素を含む音声特徴パラメータとそれに対して付与さ
れた音素ラベルデータとに基づいて、各音素ラベル毎
に、隠れマルコフモデルの平均値を時間の相対的な関数
としてモデル化した所定の確率的セグメントモデルの平
均と分散を計算した後、所定の混合数になるまで尤度最
大化基準による所定のクラスタリング方法により各音声
特徴パラメータを複数のクラスタにクラスタリングし
て、各クラスタの重みを計算し、各クラスタに対する平
均、分散、及び重みを含むモデルパラメータを有する混
合分布の確率的セグメントモデルを生成する。
【0092】図2(c)は第2の実施形態に係るモデル
パラメータ生成装置20bの入力パラメータと出力パラ
メータとを示すブロック図である。図2(c)に示すよ
うに、モデルパラメータ生成装置20bは、音声特徴パ
ラメータファイルと、音素ラベルファイルと、予め決め
られてキーボード40を用いて入力された混合数とに基
づいて、数29、数34及び数35を用いてモデルパラ
メータの生成を行って、モデルパラメータとして、平均
値の回帰係数、分散、重み、及び継続時間長分布を出力
する。すなわち、第2の実施形態においては、第1の実
施形態の方法によって生成された混合分布の確率的セグ
メントモデルに基づいて、所定のEMアルゴリズムを用
いて、推定後の確率的セグメントモデルの出力確率の対
数尤度と推定後の確率的セグメントモデルからの所定の
継続時間長を出力する対数尤度と推定後の所定番目の確
率的セグメントモデルが出力される対数尤度を含む尤度
値が最大となるように最尤推定することにより、各音素
ラベル毎に、各クラスタに対する平均、分散、及び重み
を含むモデルパラメータを有する混合分布の確率的セグ
メントモデルを生成する。
【0093】図2(d)は第3の実施形態に係るモデル
パラメータ生成装置20cの入力パラメータと出力パラ
メータとを示すブロック図である。図2(d)に示すよ
うに、モデルパラメータ生成装置20cは、音声特徴パ
ラメータファイルと、音素ラベルファイルと、予め決め
られてキーボード40を用いて入力された混合数とに基
づいて、数29、数47及び数35を用いてモデルパラ
メータの生成を行って、モデルパラメータとして、平均
値の回帰係数、分散の回帰係数、重み、及び継続時間長
分布を出力する。すなわち、第3の実施形態では、第1
の実施形態又は第2の実施形態の方法によって生成され
た混合分布の確率的セグメントモデルに基づいて、各ク
ラスタに対する分散を時間変化の関数として表した分散
を計算することにより、各音素ラベル毎に、各クラスタ
に対する平均、分散、及び重みを含むモデルパラメータ
を有する混合分布の確率的セグメントモデルを生成す
る。
【0094】以上の各実施形態において、モデルパラメ
ータとして継続時間長分布を検出して出力しているが、
本発明はこれに限らず、モデルパラメータとして継続時
間長分布を含まず出力しなくてもよい。
【0095】<各実施形態のモデルパラメータ生成処理
>図3は、第1の実施形態であるモデルパラメータ生成
装置20aによって実行される第1のモデルパラメータ
生成処理を示すフローチャートである。
【0096】図3において、まず、ステップS1におい
て、複数の音素ラベルのうち1つの対象音素ラベルを選
択してその音声特徴パラメータを、音素ラベルファイル
31を参照して音声特徴パラメータファイルメモリ30
から読み出す。次いで、ステップS2では、対象音素ラ
ベルに属する全音声特徴パラメータに基づいて数8及び
数9を用いて、平均Bhと分散Σhを計算する。さらに、
ステップS3において、(Bh,Σh)を有するクラスタ
C1と、(Bh+σ,Σh+σ)を有するクラスタC2と
に2分割する。ここで、σは予め設定された微小値(例
えば0.001)である。次いで、ステップS4で、各
音声特徴パラメータはクラスタC1とクラスタC2のど
ちらに属するかをマハラノビル距離などによる方法を用
いて距離を計算することにより決定する。すなわち、各
音声特徴パラメータは距離が短い方のクラスタに帰属さ
れる。さらに、ステップS5では、クラスタC1及びC
2に属する音声特徴パラメータを用いて再度それぞれの
平均Bhと分散Σhを数8及び数9を用いて計算する。そ
して、ステップS6では、クラスタ数が予め決められた
混合数以上になったか否かが判断される。クラスタ数<
混合数のときは、ステップS7で各クラスタに対して数
13を用いて尤度Pを計算し、尤度値Pが最小のクラス
タを次の分割対象とし、ステップS3に戻り、上記の処
理を繰り返す。
【0097】一方、ステップS6でクラスタ数≧混合数
であるときは、ステップS8で各クラスタのセグメント
数に基づいて数14を用いて重みwnを計算する。そし
て、ステップS9ですべての音素ラベルについて処理が
終了したか否かが判断され、終了していないときは、ス
テップS10で次の1つの対象音素ラベルを選択して音
素ラベルファイル31を参照して音声特徴パラメータフ
ァイルメモリ30から読み出す。一方、ステップS9
で、終了しているときは、ステップS11で生成された
モデルパラメータを図1のモデルパラメータメモリ32
に出力して書き込む。
【0098】図4は、第2の実施形態であるモデルパラ
メータ生成装置20bによって実行される第2のモデル
パラメータ生成処理を示すフローチャートである。
【0099】図4において、まず、ステップS21で図
3の第1のモデルパラメータ生成処理を実行する。次い
で、ステップS22で複数の音素ラベルのうち1つの対
象音素ラベルを選択してモデルパラメータを、モデルパ
ラメータメモリ32から読み出す。ステップS23で混
合数パラメータmを1に設定し、ステップS24でm番
目の混合分布のモデルパラメータを対象とする。そし
て、ステップS25で繰り返し数を示すパラメータiを
1に設定し、ステップS26で生成対象音素ラベルに属
する全特徴パラメータと現在のモデルパラメータとに基
づいて数29、数34及び数35を用いて平均bbmu
分散Σbm及び重みwbmを計算する。さらに、ステップS
27でパラメータiが予め決められてキーボード40を
用いて入力された繰り返し回数以上となったか否かが判
断され、繰り返し回数未満であるときは、ステップS2
8でパラメータiを1だけインクリメントしてステップ
S26に戻り、上記の処理を繰り返す。
【0100】一方、ステップS27でパラメータiが繰
り返し回数以上となったときに、ステップS29で混合
数パラメータmが予め決められてキーボード40を用い
て入力された混合数M以上となったか否かが判断され
る。混合数M未満であるときは、ステップS30で混合
数パラメータmを1だけインクリメントしてステップS
24に戻り、上記の処理を繰り返す。一方、ステップS
29でm≧Mであるときは、ステップS31ですべての
音素ラベルについて処理が終了したか否かが判断され、
終了していないときは、ステップS32で、次の1つの
対象音素ラベルを選択して音声特徴パラメータを、音素
ラベルファイルメモリ31を参照して音声特徴パラメー
タファイルメモリ30から読み出す。そして、ステップ
S23に戻り、上記の処理を繰り返す。一方、ステップ
S31で終了したときは、ステップS33で生成された
モデルパラメータをモデルパラメータメモリ32に出力
して書き込む。
【0101】図5は、第3の実施形態であるモデルパラ
メータ生成装置20cによって実行される第3のモデル
パラメータ生成処理を示すフローチャートである。
【0102】図5において、まず、ステップS41で図
3の第1のモデルパラメータ生成処理又は図4の第2の
モデルパラメータ生成処理を実行する。次いで、ステッ
プS42で複数の音素ラベルのうち1つの対象音素ラベ
ルを選択してモデルパラメータを、モデルパラメータメ
モリ32から読み出す。ステップS43で混合数パラメ
ータmを1に設定し、ステップS44でm番目の混合分
布のモデルパラメータを対象とする。そして、ステップ
S45で繰り返し数を示すパラメータiを1に設定し、
ステップS46で生成対象音素ラベルに属する全特徴パ
ラメータと現在のモデルパラメータとに基づいて数2
9、数47及び数35を用いて平均bbmu、分散sb
m,iju及び重みwbmを計算する。さらに、ステップS4
7でパラメータiが予め決められてキーボード40を用
いて入力された繰り返し回数以上となったか否かが判断
され、繰り返し回数未満であるときは、ステップS48
でパラメータiを1だけインクリメントしてステップS
46に戻り、上記の処理を繰り返す。
【0103】一方、ステップS47でパラメータiが繰
り返し回数以上となったときに、ステップS49で混合
数パラメータmが予め決められてキーボード40を用い
て入力された混合数M以上となったか否かが判断され
る。混合数M未満であるときは、ステップS50で混合
数パラメータmを1だけインクリメントしてステップS
44に戻り、上記の処理を繰り返す。一方、ステップS
49でm≧Mであるときは、ステップS51ですべての
音素ラベルについて処理が終了したか否かが判断され、
終了していないときは、ステップS52で、次の1つの
対象音素ラベルを選択して音声特徴パラメータを、音素
ラベルファイルメモリ31を参照して音声特徴パラメー
タファイルメモリ30から読み出す。そして、ステップ
S43に戻り、上記の処理を繰り返す。一方、ステップ
S51で終了したときは、ステップS53で生成された
モデルパラメータをモデルパラメータメモリ32に出力
して書き込む。
【0104】第3の実施形態においては、図5のステッ
プS41に示すように、第1の実施形態に係る第1のモ
デルパラメータ生成処理を実行して得られたモデルパラ
メータに基づいて、第3の実施形態に係るモデルパラメ
ータ生成処理を実行してもよいし、もしくは、第2の実
施形態に係る第2のモデルパラメータ生成処理を実行し
て得られたモデルパラメータに基づいて、第3の実施形
態に係るモデルパラメータ生成処理を実行してもよい。
【0105】<自由発話音声認識装置>次いで、図1に
示す自由発話音声認識装置の構成及び動作について説明
する。図1において、文字列からなる発声音声文である
話者の発声音声はマイクロホン1に入力されて音声信号
に変換された後、A/D変換部2に入力される。A/D
変換部2は、入力された音声信号を所定のサンプリング
周波数でA/D変換した後、変換後のデジタルデータを
特徴抽出部3に出力する。次いで、特徴抽出部3は、入
力される音声信号のデジタルデータに対して、例えばL
PC分析を実行し、10次元のMFCCとパワーとを含
む11次元の特徴パラメータを抽出する。抽出された特
徴パラメータの時系列はバッファメモリ4を介して単語
レベル照合部5に入力される。
【0106】単語モデル生成部10は、モデルパラメー
タメモリ32に格納されたモデルパラメータに基づい
て、尤度最大の単語モデル生成処理を以下の如く実行し
て単語モデルを生成する。すなわち、上記モデルパラメ
ータにおける同一の単語である複数N個の単語の音響的
特徴量から最大尤度を有する当該単語の代表の音素ラベ
ルのサンプルを検出し、検出された代表の音素ラベルの
サンプルと、複数N個の単語の音素ラベルのサンプルと
の時間的な対応付けを動的時間整合法により行って時間
的に正規化を行い、時間的に正規化された代表の音素ラ
ベルのサンプルと、上記複数N個の音素ラベルのサンプ
ルとを各単語毎に混合することにより、単語毎に音響的
特徴量を含む単語モデルを生成して、単語モデルメモリ
7に格納する。要約すれば、単語モデル生成部10は、
上記生成された混合分布の確率的セグメントモデルに基
づいて、上記テキストの各単語毎の音声特徴パラメータ
を含む単語モデルを生成する。
【0107】単語レベル照合部5に接続される単語モデ
ルメモリ7内の単語モデルは、前後の音素環境を連結す
る環境依存型音素モデルが縦続に連結されてなり、かつ
縦続に連結された複数の状態を含んで構成され、各状態
はそれぞれ以下の情報を有する。 (a)状態番号、(b)11次元の音響的特徴量の平均
値、(c)11次元の音響的特徴量の分散、(d)継続
時間、(e)各クラスタの重み、及び、(f)音素ラベ
ルに対応するセグメントコード。
【0108】単語レベル照合部5と文レベル照合部6と
は音声認識回路部を構成し、文レベル照合部6には、品
詞や単語の出力確率及び品詞間や単語間の遷移確率など
を含み文法規則メモリ8に記憶された文法規則と、シソ
ーラスの出力確率や対話管理規則を含み意味的規則メモ
リ9に記憶された意味的規則とが連結される。単語レベ
ル照合部5は、入力された音響的特徴量の時系列を上記
メモリ7内の単語モデルと照合して少なくとも1つの音
声認識候補単語を検出し、検出された候補単語に対して
尤度を計算し、最大の尤度を有する候補単語を認識結果
の単語として文レベル照合器6に出力する。さらに、文
レベル照合器6は入力された認識結果の単語に基づい
て、上記文法規則と意味的規則とを含む言語モデルを参
照して文レベルの照合処理を実行することにより、最終
的な音声認識結果の文を出力する。もし、言語モデルで
適合受理されない単語があれば、その情報を単語レベル
照合器5に帰還して再度単語レベルの照合を実行する。
単語レベル照合部5と文レベル照合部6は、複数の音素
からなる単語を順次連接していくことにより、自由発話
の連続音声の認識を行い、その音声認識結果データを出
力する。
【0109】以上のように構成された自由発話音声認識
装置において、A/D変換部2と、特徴抽出部3と、単
語レベル照合部5と、文レベル照合部6と、単語モデル
生成部10と、モデルパラメータ生成部20a,20
b,20cとはそれぞれ、例えば、デジタル計算機によ
って構成される。また、バッファメモリ4と、文法規則
メモリ8と、意味的規則メモリ9と、音声特徴パラメー
タファイルメモリ30と、音素ラベルファイルメモリ3
1と、モデルパラメータメモリ32と、単語モデルメモ
リ7とはそれぞれ、例えば、ハードディスクメモリによ
って構成される。
【0110】<モデル化の例>図6は、第1の実施形態
のセグメントモデルによるメルケプストラム係数の1次
及び2次の係数CC1,CC2の平均値の時間変化のモ
デル化の一例を示すグラフである。図6において、太線
は観測系列であり、点線は回帰係数0次によるモデル化
の一例であり、破線は回帰係数1次によるモデル化の一
例であり、一点鎖線は回帰係数2次によるモデル化の一
例である。図6から明らかなように、回帰係数の次数を
大きくしていくに従がって、観測系列とのずれが小さく
なっていくことが分かる。
【0111】図7(a)は第2の実施形態のEM法によ
る推定値モデルによるメルケプストラム係数の1次及び
2次の係数CC1,CC2の平均値の時間変化のモデル
化の一例を示すグラフであり、図7(b)は第3の実施
形態の分散の時変モデルによるメルケプストラム係数の
1次及び2次の係数CC1,CC2の平均値の時間変化
のモデル化の一例を示すグラフである。図7において、
太線は平均軌跡のモデル化の一例であり、一点鎖線は平
均軌跡±σのモデル化の一例である。ここで、σは標準
偏差である。図7から明らかなように、(a)のEM法
ではセグメントの全区間の渡って標準偏差が一定(すな
わち分散が一定)であるが、(b)の分散の時変モデル
ではセグメントの初め(規格化時間0付近)及び終り
(規格化時間1.0付近)の分散が中心部分(規格化時
間0.5付近)よりも大きくなっていることが分かる。
【0112】
【実施例】さらに、本発明者による、図1の自由発話音
声認識装置を用いて実験を行った結果について述べる。
本発明者は、上述の第1の実施形態に係るクラスタリン
グによるモデル化(以下、クラスタリング法とい
う。)、第2の実施形態に係るEMアルゴリズムを用い
たモデルの再推定(以下、再推定法という。)、及び第
3の実施形態に係る分散の時変モデル化の効果を調べる
ために、英語の不特定話者音声データベースのTIMI
T(TI及びMITの略である。)データベースを用い
た母音識別実験を行なった。
【0113】まず、実験条件及び音声資料について述べ
る。音声資料は本出願人が所有するTIMITデータベ
ースの音素ラベル情報を用いて切り出した16母音を用
いた。これは、Gish(従来技術文献4)やBacc
hiani(従来技術文献12)らが、混合分布セグメ
ントモデルの説明で述べたセグメントモデルにより、同
様の音声資料を用いて認識実験を行なっており、比較が
行なえるようにするためである。音素ラベル情報から、
45ミリ秒以上の母音を学習(TIMITデータベース
中のトレイン(train)データ全て)及び識別(TIM
ITデータベース中のテストデータ全て)に用いた。こ
こで、45ミリ秒以上のデータを用いたのは、従来例の
HMMとの比較を行なう際に、状態数を増加させた場合
でも学習及び音素識別に使用するサンプル数を同数にす
るためである。また、学習、音素識別に用いた母音デー
タの総数はそれぞれ41,014個、14,981個で
ある。
【0114】次いで、特徴パラメータ抽出においては、
上述のように切り出されたサンプリング周波数16kH
zの母音波形に対して、分析窓長25.6ミリ秒、フレ
ーム周期5ミリ秒により、分析次数10次のメルケプス
トラム分析(MFCC)(例えば、従来技術文献10参
照。)を行なった。そして、尤度計算においては、セグ
メントの境界は既知であるため、長さLの音素識別対象
セグメントkに対して、次式の尤度が最大となるモデル
mhを識別結果とした。
【0115】
【数48】
【0116】ここで、関数argmax(・)は引数を
最大にするmの値を表わす関数である。上記数48の右
辺は、対数をとっても大小関係は変わらないので、次式
を得ることができる。
【0117】
【数49】
【0118】ここで、上記数49の右辺第1項は出力確
率の対数尤度であり、上記数10により計算され、第2
項は学習データの継続時間長分布のヒストグラムから得
られる対数尤度である。ここで、クラスタリング法、再
推定法、分散の時変モデル化の比較のための音素識別実
験においては、正確にこれらの効果を測定するために、
上記数49の右辺第2項、すなわち継続時間長分布は用
いていない。次に、HMMとの比較のために、分散の時
変モデルにおいて、継続時間長分布を用いた実験を行な
った。ここで、logP(k|m,L)とlogP(L
|m)のダイナミックレンジを合わせるために、log
P(k|m,L)をセグメント長Lで割ったものとlo
gP(L|m)との和で尤度計算を行なった。
【0119】さらに、実験結果及び考察、再推定の効果
について述べる。上述のEMアルゴリズムを用いたモデ
ルの再推定(第2の実施形態)の説明で述べた、クラス
タリング法による結果を表1に示し、第2の実施形態に
係るEMアルゴリズムを用いたモデルの再推定を行なっ
た結果を表2に示す。EMアルゴリズムの初期値にはク
ラスタリングによる結果を与えた。ここで、1混合分布
の場合は、クラスタリングによるモデルパラメータと、
EMアルゴリズムによるものは同じになることに注意さ
れたい。
【0120】
【表1】 クラスタリング法による母音識別率(%) ─────────────────────────────────── 回帰次数 混合数 ────────────────────────────── 1 3 5 7 9 ─────────────────────────────────── 0 44.2 44.6 44.8 45.3 45.8 1 51.0 52.9 54.8 54.6 54.6 2 52.5 54.2 56.2 56.2 57.0 ───────────────────────────────────
【0121】
【表2】 再推定法による母音識別率(%) ─────────────────────────────────── 回帰次数 混合数 ────────────────────────────── 1 3 5 7 9 ─────────────────────────────────── 0 44.2 46.7 46.7 47.0 47.5 1 51.0 53.3 53.9 53.9 54.7 2 52.5 54.6 55.6 56.1 56.5 ───────────────────────────────────
【0122】表1、表2の両方の結果から、次のことが
わかる。 (1)混合数を増加させていくに従い母音識別率が改善
されている。 (2)回帰次数が高次になるほど高い母音識別率が得ら
れている。
【0123】また、回帰係数を0次から1次へ変化させ
た場合の母音識別率の改善効果は大きいが、1次を2次
とした時はさほど大きくない。これは、回帰次数を更に
大きく(3次以上)していっても、識別性能の向上はさ
ほど見込めないことを示唆していると考えられる。ま
た、表1と表2とを比較すると、回帰次数が0次の場合
は、全ての混合数においてEMアルゴリズムにより母音
識別率が向上しているが、1次、2次の場合はむしろ悪
くなっているものもあり、再推定による効果はあまり見
られなかった。これは、クラスタリング法を行なう際の
音素セグメントがハンドラベルによる質の良いデータと
して与えられたためであると思われる。
【0124】次いで、上述の分散の時変モデル化(第3
の実施形態)についても同様の母音識別実験を行なっ
た。これまでのモデルでは、分散が時間不変の一定値を
とっていたのに対し、この結果は、分散を時間と共に変
化する軌跡として、EMアルゴリズムの再推定を行なっ
たものである。ここで、平均及び分散の軌跡の回帰次数
は共に2としている。本実施形態では、音素環境非依存
の音素モデルを1状態のセグメントモデルでモデル化し
ているため、音素の入り渡り、出渡りにおける分散は、
音素の中心付近の分散よりも一般に値が大きくなると予
想される。この現象をモデル化するためには、分散の軌
跡の回帰次数を最低2次とする必要があると考えられる
ため、ここでは2次とした。また、初期値はクラスタリ
ングによる結果を与えた。すなわち、数37における初
期値のgk1,gk2は共に0とした。この場合の母音識別
結果を表3に示す。
【0125】
【表3】 分散の時変モデル化による母音識別率(%)(継続時間確率なし) ─────────────────────────────────── 回帰次数 混合数 ────────────────────────────── 1 3 5 7 9 ─────────────────────────────────── 2 53.0 55.0 56.1 56.7 57.2 ───────────────────────────────────
【0126】表3を、表2の分散を時不変とした再推定
による結果(平均軌跡の回帰次数=2)と比較すると、
全ての混合数において母音識別率が向上していることか
ら、分散の時変モデル化は、識別性能の観点からも有効
であると考えられる。
【0127】次いで、HMMとセグメントモデルの母音
識別結果を比較・検討するために、HMMを用いた同様
の識別実験を行なった。学習方法及び母音認識方法とし
て、図1を参照して示した従来技術文献10の方法を用
いた。状態数1、3、5、7、9の母音識別結果を表4
に示す。
【0128】
【表4】 HMMによる母音識別率(%) ─────────────────────────────────── 状態数 混合数 ────────────────────────────── 1 3 5 7 9 ─────────────────────────────────── 1 44.3 46.8 46.6 47.0 47.3 3 51.0 51.6 53.3 54.0 54.1 5 52.9 55.1 55.8 56.4 56.7 7 54.5 56.4 57.3 58.1 57.9 9 55.5 58.3 58.5 59.5 59.5 ───────────────────────────────────
【0129】表4に示す結果から、次のことが言える。 (1)いずれの状態数においても混合数7で飽和してい
る。 (2)状態数の増加による母音識別率の改善は徐々に小
さくなっているが、飽和しているとは言えない。 しかしながら、これ以上、状態数を増加させると、発話
スピードの速い(すなわち9フレーム程度の)音声の識
別が困難となるため、9状態(45ミリ秒)程度までが
適切であると考えられる。
【0130】次に、表3の結果の分散の時変モデル化に
よって得られたセグメントモデルに対して、継続時間長
分布も考慮して母音識別実験を行なった結果を表4に示
す。
【0131】
【表5】 分散の時変モデル化(回帰次数=2)による母音識別率(%) (継続時間確率あり) ─────────────────────────────────── 状態数 混合数 ────────────────────────────── 1 3 5 7 9 ─────────────────────────────────── 2 56.6 57.8 59.0 59.6 59.8 ───────────────────────────────────
【0132】表5を表3と比較すると、全ての混合数に
おいて3%程度母音識別率が向上していることが分か
る。これは、継続時間長分布が実際のセグメント長の分
布により表されている効果であると考えられる。次に、
表5と表3を比較すると、分散の時変モデル化によって
得られたセグメントモデルは、全ての混合数において9
状態のHMMと同程度の高い識別性能を示していること
が分かる。ところで、状態数を9としたHMMでは9フ
レーム以上のデータに対してのみしか尤度計算が行なえ
ない。よって、8フレーム以下のデータに対しても認識
を行なうためには、HMMの状態のスキップを許すナル
遷移を入れた構造にするか、状態数を減らすという方法
が一般に取られる。例えば、3フレーム以上のデータに
対して尤度を計算するためには(回帰次数2次のセグメ
ントモデルは3フレーム以上のデータに対して尤度が計
算できる。)、3状態のHMMを用いる必要があり、こ
の場合、セグメントモデルの識別性能は、HMMに比べ
て全ての混合数において5%以上母音識別率が良いとい
うことも分かる。
【0133】以上説明したように、本発明に係る実施形
態においては、確率的セグメントモデルの認識性能向上
を目的として、混合分布モデルの作成方法を述べた。混
合分布モデルの作成方法として、第1の実施形態に係る
セグメントのクラスタリングによる方法、第2の実施形
態に係るEMアルゴリズムを用いたモデルの再推定によ
り混合分布を求める方法、第3の実施形態に係る、平均
に加えて分散も時間変化の軌跡としてモデル化し、EM
アルゴリズムによるモデルの再推定を行なう方法の3つ
の手法を述べた。そして、TIMITデータベースを用
いた母音識別実験を行なった結果、セグメントモデルの
混合数を増加させることにより、音素識別率が向上する
ことが確かめられた。また、第3の実施形態に係る分散
の時変モデル化は、第1及び第2の実施形態の方法に比
べて高い識別性能が得られ、このモデル化が有効である
ことが示された。また、HMMとの結果の比較により、
1つの音素を1状態で平均及び分散の軌跡を回帰次数2
次でモデル化したセグメントモデルは、9状態のHMM
と同程度の高い識別性能を示すことが分かった。
【0134】本実施形態の効果を要約すれば、以下の通
りである。 (A)従来技術のHMMよりも少ないモデルパラメータ
数で確率的セグメントモデルを生成することができ、当
該確率的セグメントモデルに基づいて生成された単語モ
デルを用いて音素認識することにより、従来例に比較し
て音素認識率を改善することができる。 (B)上述の理論的な定式化により、混合分布の確率的
セグメントモデルのモデルパラメータを手作業によら
ず、自動的に決定できるので、生成コストを小さくする
ことができる。
【0135】以上の実施形態において、音素に対して混
合分布セグメントモデルを作成したが、本発明はこれに
限らず、音素に限定せず、例えば、音響的特徴量に基づ
くセグメント単位(ASU)をセグメントモデルでモデ
ル化し、このモデルを用いて音声認識してもよい(例え
ば、従来技術文献11「深田俊明ほか,“音響的セグメ
ント単位を用いた自由発話音声認識”,日本音響学会講
演論文集,1−5−16,1996年3月」及び従来技
術文献12参照。)。当該変形例の音声認識装置におい
ては、以下のようにして、音響的特徴量に基づくセグメ
ント単位に基づいた単語モデルを作成して音声認識す
る。
【0136】(1)予め生成された音響的特徴量に基づ
くセグメント単位の最尤セグメントコード系列と、単語
毎の各音素の時間を含む音素データベースとを比較する
ことにより、処理音素の前後のコンテキスト環境が一致
する複数M個のセグメントコードのサンプルを検出し、
検出された複数M個のセグメントコードのサンプルの中
から最大尤度を有する代表のセグメントコードのサンプ
ルを検出し、上記代表のセグメントコードのサンプル
と、上記複数M個のセグメントコードのサンプルとの間
の時間的な対応付けを動的時間整合法により行って時間
的に正規化を行い、時間的に正規化された代表のセグメ
ントコードのサンプルと、上記複数M個のセグメントコ
ードのサンプルとを各単語毎に混合することにより、処
理音素の前後のコンテキスト環境が一致する音素列毎に
音響的特徴量を含む各単語の音素モデルを生成する。こ
こで、好ましくは、処理音素の前後のコンテキスト環境
が一致する度合いに応じた混合比率を用いて、時間的に
正規化された代表のセグメントコードのサンプルと、上
記複数M個のセグメントコードのサンプルとを各単語毎
に混合する。 (2)上記音素データベースにおける同一の単語である
複数N個の単語の音響的特徴量から最大尤度を有する当
該単語の代表のセグメントコードのサンプルを検出し、
検出された代表のセグメントのサンプルと、複数N個の
単語のセグメントコードのサンプルとの時間的な対応付
けを動的時間整合法により行って時間的に正規化を行
い、時間的に正規化された代表のセグメントコードのサ
ンプルと、上記複数N個のセグメントコードのサンプル
とを各単語毎に混合することにより、単語毎に音響的特
徴量を含む第1の単語モデルを生成する。 (3)複数の単語の学習用テキストデータから各単語を
読み出して、上記音素データベース中の各同一単語の複
数の音素モデルを組み合わせることにより、各単語毎に
音響的特徴量を含む第2の単語モデルを生成する。 (4)上記第1の単語モデルと上記第2の単語モデルと
を、当該モデルの音響的特徴量を用いて時間的な対応付
けを動的時間整合法により行って時間的に正規化を行
い、時間的に正規化された第1と第2の単語モデルを混
合することにより、単語毎に音響的特徴量を含む第3の
単語モデルを生成する。ここで、好ましくは、学習用テ
キストデータ中に存在する生成すべき単語モデルの単語
のデータ量に応じた混合比率を用いて、時間的に正規化
された第1と第2の単語モデルを混合する。 (5)そして、上記作成された第3の単語モデルを用い
て、入力された文字列からなる発声音声文の音声信号を
音声認識する。
【0137】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の音声認識のための単語モデル生成装置は、所定
のテキストに対する複数の音素を含む音声特徴パラメー
タとそれに対して付与された音素ラベルデータとに基づ
いて、各音素ラベル毎に、観測系列の平均値を時間の相
対的な関数としてモデル化した所定の確率的セグメント
モデルの平均と分散を計算した後、所定の混合数になる
まで尤度最大化基準による所定のクラスタリング方法に
より各音声特徴パラメータを複数のクラスタにクラスタ
リングして、各クラスタの重みを計算し、各クラスタに
対する平均、分散、及び重みを含むモデルパラメータを
有する混合分布の確率的セグメントモデルを生成する第
1の生成手段と、上記第1の生成手段によって生成され
た混合分布の確率的セグメントモデルに基づいて、上記
テキストの各単語毎の音声特徴パラメータを含む単語モ
デルを生成する第2の生成手段とを備える。従って、従
来技術のHMMよりも少ないモデルパラメータ数で確率
的セグメントモデルを生成することができ、当該確率的
セグメントモデルに基づいて生成された単語モデルを用
いて音素認識することにより、従来例に比較して音素認
識率を改善することができる。また、上述の理論的な定
式化により、混合分布の確率的セグメントモデルのモデ
ルパラメータを手作業によらず、自動的に決定できるの
で、生成コストを小さくすることができる。
【0138】また、請求項2記載の単語モデル生成装置
においては、請求項1記載の単語モデル生成装置におい
て、上記第1の生成手段によって生成された混合分布の
確率的セグメントモデルに基づいて、所定のEMアルゴ
リズムを用いて、推定後の確率的セグメントモデルの出
力確率の対数尤度と推定後の確率的セグメントモデルか
らの所定の継続時間長を出力する対数尤度と推定後の所
定番目の確率的セグメントモデルが出力される対数尤度
を含む尤度値が最大となるように最尤推定することによ
り、各音素ラベル毎に、各クラスタに対する平均、分
散、及び重みを含むモデルパラメータを有する混合分布
の確率的セグメントモデルを生成する第3の生成手段を
備え、上記第2の生成手段は、上記第3の生成手段によ
って生成された混合分布の確率的セグメントモデルに基
づいて、上記テキストの各単語毎の音声特徴パラメータ
を含む単語モデルを生成する。従って、従来技術のHM
Mよりも少ないモデルパラメータ数で確率的セグメント
モデルを生成することができ、当該確率的セグメントモ
デルに基づいて生成された単語モデルを用いて音素認識
することにより、従来例及び請求項1記載の単語モデル
生成装置に比較して音素認識率を改善することができ
る。また、上述の理論的な定式化により、混合分布の確
率的セグメントモデルのモデルパラメータを手作業によ
らず、自動的に決定できるので、生成コストを小さくす
ることができる。
【0139】さらに、請求項3記載の単語モデル生成装
置は、請求項1又は2記載の単語モデル生成装置におい
て、上記第1の生成手段又は上記第3の生成手段によっ
て生成された混合分布の確率的セグメントモデルに基づ
いて、各クラスタに対する分散を時間変化の関数として
表した分散を計算することにより、各音素ラベル毎に、
各クラスタに対する平均、分散、及び重みを含むモデル
パラメータを有する混合分布の確率的セグメントモデル
を生成する第4の生成手段を備え、上記第2の生成手段
は、上記第4の計算手段によって生成された混合分布の
確率的セグメントモデルに基づいて、上記テキストの各
単語毎の音声特徴パラメータを含む単語モデルを生成す
ることを特徴とする。従って、従来技術のHMMよりも
少ないモデルパラメータ数で確率的セグメントモデルを
生成することができ、当該確率的セグメントモデルに基
づいて生成された単語モデルを用いて音素認識すること
により、従来例及び請求項1記載の単語モデル生成装置
に比較して音素認識率を改善することができる。また、
上述の理論的な定式化により、混合分布の確率的セグメ
ントモデルのモデルパラメータを手作業によらず、自動
的に決定できるので、生成コストを小さくすることがで
きる。
【0140】また、請求項4記載の単語モデル生成装置
は、請求項1、2又は3記載の単語モデル生成装置にお
いて、好ましくは、上記単語モデルのモデルパラメータ
は、各音素ラベルに対する継続時間長分布を含む。従っ
て、従来技術のHMMよりも少ないモデルパラメータ数
で確率的セグメントモデルを生成することができ、当該
確率的セグメントモデルに基づいて生成された単語モデ
ルを用いて音素認識することにより、従来例及び請求項
1乃至3記載の単語モデル生成装置に比較して音素認識
率を改善することができる。また、上述の理論的な定式
化により、混合分布の確率的セグメントモデルのモデル
パラメータを手作業によらず、自動的に決定できるの
で、生成コストを小さくすることができる。
【0141】さらに、請求項5記載の単語モデル生成装
置は、請求項1乃至4のうちの1つに記載の単語モデル
生成装置と、上記単語モデル生成装置によって生成され
た単語モデルを用いて、入力された文字列からなる発声
音声文の音声信号を音声認識する音声認識手段とを備え
る。従って、従来技術のHMMよりも少ないモデルパラ
メータ数で確率的セグメントモデルを生成することがで
き、当該確率的セグメントモデルに基づいて生成された
単語モデルを用いて音声認識することにより、従来例に
比較して音声認識率を改善することができる。
【図面の簡単な説明】
【図1】 本発明に係る実施形態である自由発話音声認
識装置のブロック図である。
【図2】 (a)は従来例に係るモデルパラメータ生成
装置20の入力パラメータと出力パラメータとを示すブ
ロック図であり、(b)は第1の実施形態に係るモデル
パラメータ生成装置20aの入力パラメータと出力パラ
メータとを示すブロック図であり、(c)は第2の実施
形態に係るモデルパラメータ生成装置20bの入力パラ
メータと出力パラメータとを示すブロック図であり、
(d)は第3の実施形態に係るモデルパラメータ生成装
置20cの入力パラメータと出力パラメータとを示すブ
ロック図である。
【図3】 第1の実施形態であるモデルパラメータ生成
装置20aによって実行される第1のモデルパラメータ
生成処理を示すフローチャートである。
【図4】 第2の実施形態であるモデルパラメータ生成
装置20bによって実行される第2のモデルパラメータ
生成処理を示すフローチャートである。
【図5】 第3の実施形態であるモデルパラメータ生成
装置20cによって実行される第3のモデルパラメータ
生成処理を示すフローチャートである。
【図6】 第1の実施形態のセグメントモデルによるメ
ルケプストラム係数の1次及び2次の係数CC1,CC
2の平均値の時間変化のモデル化の一例を示すグラフで
ある。
【図7】 (a)は第2の実施形態のEM法による推定
値モデルによるメルケプストラム係数の1次及び2次の
係数CC1,CC2の平均値の時間変化のモデル化の一
例を示すグラフであり、(b)は第3の実施形態の分散
の時変モデルによるメルケプストラム係数の1次及び2
次の係数CC1,CC2の平均値の時間変化のモデル化
の一例を示すグラフである。
【符号の説明】
1…マイクロホン、 2…A/D変換部、 3…特徴抽出部、 4…バッファメモリ、 5…単語レベル照合部、 6…文レベル照合部、 7…単語モデルメモリ、 8…文法規則メモリ、 9…意味的規則メモリ、 10…単語モデル生成部、 20,20a,20b,20c…モデルパラメータ生成
部、 30…音声特徴パラメータファイルメモリ、 31…音素ラベルファイルメモリ、 32…モデルパラメータメモリ、 40…キーボード。
フロントページの続き (56)参考文献 特開 平7−13592(JP,A) 特開 平4−227569(JP,A) Proceedings of 1993 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.2,”A Segment al Speech Model wi th Applications to Word Spotting”p.▲ II▼.447−▲II▼.450 Proceedings of 1996 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,”Design of a Speech Recognit ion System based o n Acosutically Der ived Segmental Uni ts”p.443−446 (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 G10L 15/14 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 所定のテキストに対する複数の音素を含
    む音声特徴パラメータとそれに対して付与された音素ラ
    ベルデータとに基づいて、各音素ラベル毎に、観測系列
    の平均値を時間の相対的な関数としてモデル化した所定
    の確率的セグメントモデルの平均と分散を計算した後、
    所定の混合数になるまで尤度最大化基準による所定のク
    ラスタリング方法により各音声特徴パラメータを複数の
    クラスタにクラスタリングして、各クラスタの重みを計
    算し、各クラスタに対する平均、分散、及び重みを含む
    モデルパラメータを有する混合分布の確率的セグメント
    モデルを生成する第1の生成手段と、 上記第1の生成手段によって生成された混合分布の確率
    的セグメントモデルに基づいて、上記テキストの各単語
    毎の音声特徴パラメータを含む単語モデルを生成する第
    2の生成手段とを備えたことを特徴とする音声認識のた
    めの単語モデル生成装置。
  2. 【請求項2】 上記第1の生成手段によって生成された
    混合分布の確率的セグメントモデルに基づいて、所定の
    EMアルゴリズムを用いて、推定後の確率的セグメント
    モデルの出力確率の対数尤度と推定後の確率的セグメン
    トモデルからの所定の継続時間長を出力する対数尤度と
    推定後の所定番目の確率的セグメントモデルが出力され
    る対数尤度を含む尤度値が最大となるように最尤推定す
    ることにより、各音素ラベル毎に、各クラスタに対する
    平均、分散、及び重みを含むモデルパラメータを有する
    混合分布の確率的セグメントモデルを生成する第3の生
    成手段を備え、 上記第2の生成手段は、上記第3の生成手段によって生
    成された混合分布の確率的セグメントモデルに基づい
    て、上記テキストの各単語毎の音声特徴パラメータを含
    む単語モデルを生成することを特徴とする請求項1記載
    の単語モデル生成装置。
  3. 【請求項3】 上記第1の生成手段又は上記第3の生成
    手段によって生成された混合分布の確率的セグメントモ
    デルに基づいて、各クラスタに対する分散を時間変化の
    関数として表した分散を計算することにより、各音素ラ
    ベル毎に、各クラスタに対する平均、分散、及び重みを
    含むモデルパラメータを有する混合分布の確率的セグメ
    ントモデルを生成する第4の生成手段を備え、 上記第2の生成手段は、上記第4の計算手段によって生
    成された混合分布の確率的セグメントモデルに基づい
    て、上記テキストの各単語毎の音声特徴パラメータを含
    む単語モデルを生成することを特徴とする請求項1又は
    2記載の単語モデル生成装置。
  4. 【請求項4】 上記単語モデルのモデルパラメータは、
    各音素ラベルに対する継続時間長分布を含むことを特徴
    とする請求項1、2又は3記載の単語モデル生成装置。
  5. 【請求項5】 請求項1乃至4のうちの1つに記載の単
    語モデル生成装置と、 上記単語モデル生成装置によって生成された単語モデル
    を用いて、入力された文字列からなる発声音声文の音声
    信号を音声認識する音声認識手段とを備えたことを特徴
    とする音声認識装置。
JP8309094A 1996-11-20 1996-11-20 音声認識のための単語モデル生成装置及び音声認識装置 Expired - Fee Related JP3029803B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8309094A JP3029803B2 (ja) 1996-11-20 1996-11-20 音声認識のための単語モデル生成装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8309094A JP3029803B2 (ja) 1996-11-20 1996-11-20 音声認識のための単語モデル生成装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JPH10149189A JPH10149189A (ja) 1998-06-02
JP3029803B2 true JP3029803B2 (ja) 2000-04-10

Family

ID=17988821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8309094A Expired - Fee Related JP3029803B2 (ja) 1996-11-20 1996-11-20 音声認識のための単語モデル生成装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP3029803B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4054507B2 (ja) 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
US7617104B2 (en) * 2003-01-21 2009-11-10 Microsoft Corporation Method of speech recognition using hidden trajectory Hidden Markov Models
JP4711111B2 (ja) * 2005-02-17 2011-06-29 日本電気株式会社 発話様式推定装置、発話様式推定方法及び発話様式推定プログラム
JP4902378B2 (ja) * 2007-02-06 2012-03-21 日本放送協会 混合モデル初期値算出装置及び混合モデル初期値算出プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Proceedings of 1993 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.2,"A Segmental Speech Model with Applications to Word Spotting"p.▲II▼.447−▲II▼.450
Proceedings of 1996 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1,"Design of a Speech Recognition System based on Acosutically Derived Segmental Units"p.443−446

Also Published As

Publication number Publication date
JPH10149189A (ja) 1998-06-02

Similar Documents

Publication Publication Date Title
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP2986792B2 (ja) 話者正規化処理装置及び音声認識装置
EP1269464B1 (en) Discriminative training of hidden markov models for continuous speech recognition
US6801892B2 (en) Method and system for the reduction of processing time in a speech recognition system using the hidden markov model
US7587321B2 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
JPS62231996A (ja) 音声認識方法
JPH0555040B2 (ja)
JP2002014692A (ja) 音響モデル作成装置及びその方法
JPH01102599A (ja) 音声認識方法
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
JP2898568B2 (ja) 声質変換音声合成装置
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
CA2203649A1 (en) Decision tree classifier designed using hidden markov models
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
US6275799B1 (en) Reference pattern learning system
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JPH0895592A (ja) パターン認識方法
JP2983364B2 (ja) 隠れマルコフモデルと音声信号との類似度計算方法
JP2923243B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
JP2976795B2 (ja) 話者適応化方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090204

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100204

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110204

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120204

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130204

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees