JPH10149189A - 音声認識のための単語モデル生成装置及び音声認識装置 - Google Patents
音声認識のための単語モデル生成装置及び音声認識装置Info
- Publication number
- JPH10149189A JPH10149189A JP8309094A JP30909496A JPH10149189A JP H10149189 A JPH10149189 A JP H10149189A JP 8309094 A JP8309094 A JP 8309094A JP 30909496 A JP30909496 A JP 30909496A JP H10149189 A JPH10149189 A JP H10149189A
- Authority
- JP
- Japan
- Prior art keywords
- model
- word
- segment
- variance
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
ができる音声認識のための単語モデル生成装置及び音声
認識装置を提供する。 【解決手段】 モデルパラメータ生成部20aはテキス
トに対する複数の音素を含む音声特徴パラメータとそれ
に対して付与された音素ラベルデータとに基づいて、各
音素ラベル毎に、観測系列の平均値を時間の相対的な関
数としてモデル化した所定の確率的セグメントモデルの
平均と分散を計算した後、所定の混合数になるまで尤度
最大化基準による所定のクラスタリング方法により各音
声特徴パラメータを複数のクラスタにクラスタリングし
て、各クラスタの重みを計算し、各クラスタに対する平
均、分散、重みを含むモデルパラメータを有する混合分
布の確率的セグメントモデルを生成する。単語モデル生
成部10は生成された混合分布の確率的セグメントモデ
ルに基づいて各単語毎の音声特徴パラメータを含む単語
モデルを生成する。
Description
単語モデル生成装置及び音声認識装置に関する。
テムのほとんどは、隠れマルコフモデル(以下、HMM
という。)を参照して音声認識するものであるが、その
一方で、近年、HMMの欠点に対処するための新しいモ
デル化方法も数多く提案されてきている。HMMの制限
として次の2つのものが挙げられる。 (1)継続時間モデルが貧弱である。 (2)状態系列のもとで観測系列の独立性が仮定されて
いる。
な分布によって暗黙的に与えられているという第1番目
の制限は、継続時間状態分布を明示的に導入することで
処理されてきた。第2番目の制限である観測系列の条件
付き独立の仮定は、実用的には有益であるが現実的では
ないということが広く認識されている。とりわけ、第2
番目の問題に対して、すなわち特徴パラメータの時間方
向の相関を取り入れることを目的としたモデル化の研究
が近年数多くなされている。パラメトリックなモデリン
グ手法としては、HMMの平均値を絶対時間の関数とし
てモデル化する方法(例えば、従来技術文献1「L.Den
g,“A generalized hidden Markov modelwith state-co
nditioned trend functions of time for the speech s
ignal",IEEE Transactions on Signal Processing,Vol.
l27,pp.65-78,1992年」及び従来技術文献2「L.Deng et
al.,“HMMs with mixtures of trend functions for a
utomatic speech recognition",International Synposi
um on Speech,Image Processing and Neural Networks,
pp.702-705,1994年」参照。)、確率的セグメントモデ
ルによる方法(例えば、従来技術文献3「M.Ostendorf
et al.,“A stochastic segment model for phoneme-ba
sed continuous speech recognition",IEEETransaction
s on Acoustic,Speech and Signal Processing,Vol.37,
No.12,pp.1857-1869,1989年」及び従来技術文献4「H.G
ish et al.,“A Segmental Speech Model with Applica
tions to Word Spotting",Proceedings of ICASSP-93,p
p.II-447-II-450,1993年」参照。)、ノンパラメトリッ
クな方法(例えば、従来技術文献5「W.Goldenthal et
al.,“Statistical Trajectory Models for PhoneticRe
cognition",Proceedings of ICSLP-94,pp.1871-1873,19
96年」及び従来技術文献6「O.Ghitza et al.,“Hidden
Markov Models with Templates as Non-stationary St
ates:An Application to Speech Recognition",Compute
r Speech andLanguage,No.2,pp.101-119,1993年」参
照。)などがある。
計量を抽出する方法として、従来技術文献7「山本一公
ほか,“セグメント単位入力HMMとその評価”,電子
情報通信学会技術報告,SP95−104,pp.77
−84,1995年12月」において種々の比較がなさ
れており、従来技術文献8「L.Bahl,et al.,“Performa
nce of the IBM Large Vocabulary Continuous Speech
Recognition System on the ARPA Wall Street Journal
Task",Proceedings of ICASSP-95,pp.41-44,1995年」
では大語彙連続音声認識システムに適用されている。ま
た、ニューラルネットワークに基づく音声認識手法にお
いても、リカレントニューラルネットワークにより特徴
パラメータの時間的相関を取り入れる試みがなされてい
る(例えば、従来技術文献9「T.Robinson et al.,“IP
A:Improbed Phone Modelling with Recurrent Neural N
etworks",Proceedings of ICASSP-94,pp.I-37-I-40,199
4年」参照。)。
いて提案された確率的セグメントモデルである単一分布
セグメントモデルの生成方法(以下、従来例という。)
について以下述べる。ここでいう確率的セグメントモデ
ルとは、セグメント内の特徴量の平均値を相対的な時間
の線形多項式によって表現するというモデルである。時
刻tにおけるD次元の特徴パラメータのベクトル系列
(例えば、ケプストラム係数)をytとすると、長さL
のランダム長観測セグメント系列y1 L=[y1,y2,
…,yL]が音素ラベル“a”から生成される確率は、
次式によって与えられる。
y2,…,yL|L,a)P(L|a)
…,yL|L,a)はy1,y2,…yLが長さL及び音素
ラベルaから生成するときの出力確率を表し、P(L|
a)は音素ラベルaが長さLとなるときの継続時間長確
率を表す。いま、出力確率分布が単一ガウス分布f
(・)で与えられているとき、出力確率P(y1,y2,
…,yL|L,a)は次式で表わすことができる。
の分散行列を表し、μatは、時刻tにおけるD次元の平
均ベクトルを表す。ここで、平均ベクトルμatは、
aは、
ベクトルとして、次式で表わすことができる。
{(t−1)/(L−1)}R],1<t≦Lのとき
トは0から1の時間として正規化される。以後、表記を
簡単にするため、音素ラベル“a”の表示を除くことに
する。ある観測セグメントYi=[yi,1,yi,2,…,
yi,Li]に対する平均Bと分散Σをパラメータにもつセ
グメントモデルの平均の最尤推定値Biは、L×(R+
1)次元の行列ZLをZL=[zL 1,zL 2,…,zL L]T
とすると、次式で表わすことができる。本明細書におい
て、下付きの下付きを表せないので、下付きの添字にお
いて、LiはLiと表しており、以下同様である。
できる。
は、セグメントYiをセグメントモデルとして表すため
の十分な統計量となる。着目しているモデル“a”に対
する全てのセグメントに対してこの統計量を求めると、
モデルパラメータの最尤推定値の平均Bhと分散Σhは次
式で表わすことができる(例えば、従来技術文献4参
照。)。
合であり、数8及び数9における和Σは、iが音素ラベ
ルaに属するデータについての和である。また、行列右
上に示すTは行列の転置を示し、行列右上に示す−1は
逆行列を示す。
の方法では、いまだ音素認識率が比較的低いという問題
点があった。本発明の目的は以上の問題点を解決し、従
来例に比較して音素認識率を改善することができる音声
認識のための単語モデル生成装置及び音声認識装置を提
供することにある。
載の音声認識のための単語モデル生成装置は、所定のテ
キストに対する複数の音素を含む音声特徴パラメータと
それに対して付与された音素ラベルデータとに基づい
て、各音素ラベル毎に、観測系列の平均値を時間の相対
的な関数としてモデル化した所定の確率的セグメントモ
デルの平均と分散を計算した後、所定の混合数になるま
で尤度最大化基準による所定のクラスタリング方法によ
り各音声特徴パラメータを複数のクラスタにクラスタリ
ングして、各クラスタの重みを計算し、各クラスタに対
する平均、分散、及び重みを含むモデルパラメータを有
する混合分布の確率的セグメントモデルを生成する第1
の生成手段と、上記第1の生成手段によって生成された
混合分布の確率的セグメントモデルに基づいて、上記テ
キストの各単語毎の音声特徴パラメータを含む単語モデ
ルを生成する第2の生成手段とを備えたことを特徴とす
る。
は、請求項1記載の単語モデル生成装置において、上記
第1の生成手段によって生成された混合分布の確率的セ
グメントモデルに基づいて、所定のEMアルゴリズムを
用いて、推定後の確率的セグメントモデルの出力確率の
対数尤度と推定後の確率的セグメントモデルからの所定
の継続時間長を出力する対数尤度と推定後の所定番目の
確率的セグメントモデルが出力される対数尤度を含む尤
度値が最大となるように最尤推定することにより、各音
素ラベル毎に、各クラスタに対する平均、分散、及び重
みを含むモデルパラメータを有する混合分布の確率的セ
グメントモデルを生成する第3の生成手段を備え、上記
第2の生成手段は、上記第3の生成手段によって生成さ
れた混合分布の確率的セグメントモデルに基づいて、上
記テキストの各単語毎の音声特徴パラメータを含む単語
モデルを生成することを特徴とする。
置は、請求項1又は2記載の単語モデル生成装置におい
て、上記第1の生成手段又は上記第3の生成手段によっ
て生成された混合分布の確率的セグメントモデルに基づ
いて、各クラスタに対する分散を時間変化の関数として
表した分散を計算することにより、各音素ラベル毎に、
各クラスタに対する平均、分散、及び重みを含むモデル
パラメータを有する混合分布の確率的セグメントモデル
を生成する第4の生成手段を備え、上記第2の生成手段
は、上記第4の計算手段によって生成された混合分布の
確率的セグメントモデルに基づいて、上記テキストの各
単語毎の音声特徴パラメータを含む単語モデルを生成す
ることを特徴とする。
は、請求項1、2又は3記載の単語モデル生成装置にお
いて、上記単語モデルのモデルパラメータは、各音素ラ
ベルに対する継続時間長分布を含むことを特徴とする。
置は、請求項1乃至4のうちの1つに記載の単語モデル
生成装置と、上記単語モデル生成装置によって生成され
た単語モデルを用いて、入力された文字列からなる発声
音声文の音声信号を音声認識する音声認識手段とを備え
たことを特徴とする。
る実施形態について説明する。
実施形態である自由発話音声認識装置のブロック図であ
り、図2(a)は従来例に係るモデルパラメータ生成装
置20の入力パラメータと出力パラメータとを示すブロ
ック図であり、図2(b)は第1の実施形態に係るモデ
ルパラメータ生成装置20aの入力パラメータと出力パ
ラメータとを示すブロック図であり、図2(c)は第2
の実施形態に係るモデルパラメータ生成装置20bの入
力パラメータと出力パラメータとを示すブロック図であ
り、図2(d)は第3の実施形態に係るモデルパラメー
タ生成装置20cの入力パラメータと出力パラメータと
を示すブロック図である。
メータファイルメモリ30内の観測系列(音声特徴パラ
メータ)の平均値を時間の相対的な関数として単一混合
分布の確率的セグメントモデルによりモデル化している
Gishらの方法(従来技術文献4参照。)を多混合分
布に拡張した場合のモデルパラメータの推定方法につい
て述べる。図2(b),(c)及び(d)に示すよう
に、多混合分布における確率的セグメントモデルは、平
均値、分散、分布の重み、継続時間をパラメータとする
モデルであり、平均値の時間変化を任意次数の線形回帰
モデルとして表現するという特徴をもつ。この混合分布
セグメントモデルのモデルパラメータ推定法として、H
MMの場合と同様に、クラスタリングによる方法及び公
知のEM(Estimation-Maximization)アルゴリズムに
よる方法について定式化を行なう。さらに、より詳細な
モデル化を目的として、平均値に加え、分散の変化も時
間変化の関数として表現することを考え、近似手法を用
いてモデルパラメータを推定する方法を考案した。ま
た、本実施形態に対応する実施例においては、上記混合
分布化の評価のために、コンテキスト非依存音素の混合
分布セグメントモデルを作成し、本出願人が所有し、音
声波形及びラベル情報を含むTIMIT(TI(テキサ
スインストゥルメンツ)及びMIT(マサチューセッツ
工科大学)の略である。)データベースを用いた母音識
別実験を行なった。またこのとき、従来広く用いられて
いるHMMの状態数、混合数を多くの組合せにより実験
することにより、確率的セグメントモデルとHMMとの
詳細な性能比較も行なっている。従来技術文献2の実験
では、3状態のleft-to-rightHMMにおいて、回帰次
数を0,1,2として比較した結果は報告されている
が、HMMの状態数を更に増加させた場合との比較は報
告されていない。本実施形態において、多混合分布にお
ける確率的セグメントモデルにモデル化している点が従
来技術文献1と大きく異なる点である。
は音響的特徴量は、具体的には、ケプストラム係数を人
間の聴覚に合わせて補正した10次元のメル・ケプスト
ラム係数(以下、MFCCという。)とパワー(又はエ
ネルギー)とを含む11個の特徴パラメータである。
例の単一分布セグメントモデルを混合分布へ拡張するこ
とを考える。以下で説明するセグメントモデルにおける
前提条件は、従来例で述べた条件と同様であり、時刻t
におけるD次元の特徴パラメータのベクトル系列(例え
ば、ケプストラム係数)をytとし、長さLのランダム
長観測セグメント系列y1 L=[y1,y2,…,yL]を
考えている。ここで、時刻tにおけるD次元の特徴パラ
メータのベクトル系列の各特徴パラメータは、例えば、
5ミリ秒の期間の1フレーム毎に観測される。上記数2
で表される単一ガウス分布を以下のように混合数Mの多
混合分布として表す。
Σk|1/2}×exp{−(1/2)(yt−zL tBk)T
Σk -1(yt−zL tBk)} であり、重みwkの総和は次式を満足する。
みwkを求める方法として、HMMのモデルパラメータ
の推定法と同様に、セグメントのクラスタリングに基づ
くもの(以下、第1の実施形態という。)、EMアルゴ
リズムを用いた再推定に基づくもの(以下、第2の実施
形態という。)が考えられる。以下、これらの計算方法
について述べる。
の実施形態)>混合分布のセグメントモデルを作成する
方法の1つとして、セグメントの集合として表される特
徴量空間を尤度最大化基準に基づいてクラスタリングす
ることが考えられる。すなわちセグメント集合を、次式
の尤度最大化基準によるLBGアルゴリズム(例えば、
従来技術文献13「中川聖一著,“確率モデルによる音
声認識”,pp.27−28,電子情報通信学会発行,
昭和63年7月1日」参照。)を用いて複数M個にクラ
スタリングする。ここで、尤度Pは次式で表わすことが
できる。
ルであり、Σcはクラスタの共分散行列である。ここ
で、各クラスタの重みwnは、次式で表わすことができ
る。
学習セグメント数を表す。
のベクトル系列の平均値は、数8で表される平均値を、
例えば、直線又は曲線で所定の回帰分析法により回帰し
て、回帰係数を求める。また、分散は、数9で表され、
各クラスタの重みwnは数14で表される。さらに、継
続時間長分布は、各音素ラベルに対する学習データから
得られる頻度を総数で除したものを音素ごとに計算する
ことにより表される。
定(第2の実施形態)>多混合の場合、上述したクラス
タリング結果は、モデルパラメータの最尤推定値とはな
らない。そこで、HMMの場合と同様に、EMアルゴリ
ズムを用いた繰り返し手法に基づいてパラメータを再推
定し、最尤推定値を求める。セグメントモデルにおける
モデルパラメータの再推定を行なうに際し、HMMの場
合と同様に次式で与えられるQ関数を導入する。モデル
パラメータΦb,Φに対する対数尤度の期待値を表わす
Q(Φb,Φ)は次式で表わすことができる。
ル、再推定後のモデルを表し、kは混合分布のインデッ
クスを表す。また、P(y1 L,L,k|Φb)はモデル
パラメータΦbを用いた場合の長さLの観測系列y1 Lが
インデックスkから出力される確率を表し、E[A│
B]はBの条件におけるAの期待値を表わす。本実施形
態においては、1つの音響単位(例えば音素である。)
に対して、1つのセグメントモデル(すなわち、状態数
が1となる。)でモデル化することを考えているため、
通常のHMMにおけるEMアルゴリズムの状態の総和は
出てこない。ここで、logP(y1 L,L,k|Φb)
は次式で表わすことができる。
後のモデルの出力確率の対数尤度を、第2項は再推定後
のモデルから継続時間長Lを出力する対数尤度を、第3
項は再推定後のk番目のモデルが出力される対数尤度を
表す。ここで、第2項は、着目しているモデルパラメー
タの平均Bk,分散Σk,重みwkに依存しない。すなわ
ち再推定の有無によらない一定の値をとるため、結局、
上記数15の最大化は、次式の数17をモデルパラメー
タの平均Bk,分散Σkについて最大化し、次式の数18
をモデルパラメータの重みwkについて最大化すること
と等価になる。
y1 L|Φ)/P(y1 L|Φ)}は、現在のモデルパラメ
ータΦを用いて計算できるため、定数として扱うことが
できる。今、時刻tにおけるこの値をγk,tとすると、
これは、前向き変数αt及び後向き変数βtを用いて以下
のように効率的に計算できる。
Mの場合と同様に以下の再帰的計算により求められる。
き
る。まず、平均軌跡の再推定値を求めることを考える。
上記数16及び数17より、m番目の分布に対する平均
軌跡ベクトルBbm=[bbm0,bbm1,…,bbmR]Tの値
は、上記数17をbbmrに関して偏微分したものを零と
おき、次式を解くことにより得られる。
で表わすことができる。
得ることができ、
m(yt)}Σbm -1(yt−μbm,t){(t−1)/(L
−1)}r ここで、m番目の分布の分散の逆数を表わすΣbm -1は時
刻tとは独立の定数であることから、次式を求めればよ
いことになる。
と、次式で表わすことができる。
dに寄らないスカラー定数であり、V(r)は次元依存
のベクトル定数であることに注意されたい。結局、数2
6を満たすbbmuは、次式をd=1,2,…,Dについ
て解くことにより得られる。
て述べる。平均軌跡の計算と同様に、上記数16及び数
17から、m番目の分布に対する分散Σbmの値は、数1
7をi行j列の要素σbmijについて偏微分したものを零
とおき、次式を解くことにより得られる。
ことができる。
できるので、
(yt)}{−1/(2|σbmij|)+(yt−μbm,t)
i(yt−μbm,t)j/2(σbmij)2}
(σbmij)2を乗算すると、次式を得ることができる。
式を計算することにより得られる。
得られた平均軌跡の結果を用いるべきであるが、HMM
の場合現在の平均値の結果を用いた場合と大差がないこ
とが確かめられているため(従来技術文献10参
照。)、本実施形態では現在の平均軌跡の結果を用いて
分散の再推定を行なっている。
る。分布mに対する重みwbmは、HMMの場合と同様に
して、公知のラグランジェの未定乗数法を用いれば、上
記数18から、次式で表わすことができる。
は、混合分布のセグメントモデルの初期パラメータに
は、なるべく良いものを与えることが望ましく、ここで
は、上述のクラスタリングによるモデル化で得られたパ
ラメータを初期値として与える。
のベクトル系列の平均値bbmuは、上記数29をd=
1,2,…,Dについて解くことにより計算でき、計算
した平均値を、例えば、直線又は曲線で所定の回帰分析
法により回帰して、回帰係数を求める。また、分散Σbm
は、数34で表され、各クラスタの重みwbnは数35で
表される。さらに、継続時間長分布は、各音素ラベルに
対する学習データから得られる頻度を総数で除したもの
を音素ごとに計算することにより表される。
>上述のセグメントモデルでは、1つのセグメント内の
分散値が一定の値をとっていた。これは、HMMにおけ
る個々の状態がそれぞれ個別の分散値を保持できること
を考えると、分散に着目した場合、HMMの方が観測系
列の分散の時間変化の表現能力が高いということを意味
している。つまり、HMMの状態数を増加させていった
場合、セグメントモデルの認識性能がHMMより劣って
しまう可能性がある。そこで、第3の実施形態では、こ
れまで分散を時不変の定数として扱っていたものを平均
軌跡と同様に、時間の関数としてモデル化することを試
みる。分散の時変モデルは、上記数11における分散Σ
kを時間変化の関数Σk,tとして表すことにより実現でき
る。
次式で表わすことができ、
トルを表わすGkは、次式で表わすことができ、
次までの回帰係数を表わす。また、1からLまでの系列
を0から1に線形伸縮する関数を表わすzL tは上記数5
と同様に、(W+1)次元のベクトルとして、次式で表
わすことができる。
{(t−1)/(L−1)}W],1<t≦Lのとき
においても、出力確率を時変の分散を用いて計算すると
いう部分のみが変わるため、平均軌跡、重みの計算は、
クラスタリングによるモデル化の方法と同様に行なうこ
とができる。ただし、分散の計算式が以下のように異な
る。
る。分散の時変モデル化においても、EMアルゴリズム
を用いたモデルの再推定における方法と同様に、数16
及び数17、m番目の分布に対する分散Σbm,tの値
は、上記数17をi行j列の要素σbm,t,ij=[sb
m,ij0,sbm,ij1,…,sbm,ijW]Tのsbm,ijrについて
偏微分したものを零とおき、次式を解くことにより得ら
れる。
(yt)){−1/(2|σbm,t,ij|)+(yt−μbm,t)i(yt
−μbm,t)j/2(σbm,t,ij)2}{(t−1)/(L−1)}r すなわち、次式を得る。
であるため、線形方程式として解くことはできない。そ
こで、上記数41における分母のσbm,t,ijを現在の分
散軌跡σm,t,ijで代用するという近似手法を導入するこ
とを考える。すなわち、上記数41を、次式として計算
する。
ルの再推定における平均軌跡の計算方法と同様に線形方
程式として解くことができ、次式を求めればよいことに
なる。
と、次式で表わすことができる。
依存のベクトル定数であることに注意されたい。結局、
上記数44を満たすsbm,ijuは、次式をd=1,2,
…,Dについて解くことにより得られる。
のベクトル系列の平均値bbmuは、上記数29をd=
1,2,…,Dについて解くことにより計算でき、計算
した平均値を、例えば、直線又は曲線で所定の回帰分析
法により回帰して、回帰係数を求める。また、分散sb
m,ijuは、数47をd=1,2,…,Dについて解くこ
とにより得られ、得られた分散を例えば、直線又は曲線
で所定の回帰分析法により回帰して、回帰係数を求め
る。さらに、各クラスタの重みwbnは数35で表され
る。またさらに、継続時間長分布は、各音素ラベルに対
する学習データから得られる頻度を総数で除したものを
音素ごとに計算することにより表される。
において、音声特徴パラメータファイルは、所定の多数
のテキストデータの文章を特定の話者が読んで図1のマ
イクロホン1に対して発声したときに、特徴抽出部3の
出力として得られる音声特徴パラメータのデータファイ
ルであって、図1の音声特徴パラメータファイルメモリ
30に予め格納される。また、音素ラベルファイルは、
上記音声特徴パラメータファイルに対して人為的に付与
された音素ラベルのデータファイルであって、図1の音
素ラベルファイルメモリ31に予め格納される。
タ生成装置20の入力パラメータと出力パラメータとを
示すブロック図である。図2(a)に示すように、モデ
ルパラメータ生成装置20は、音声特徴パラメータファ
イルと、音素ラベルファイルと、予め決められた状態数
と、予め決められた混合数とに基づいて、数8及び数9
を用いてモデルパラメータの生成を行って、モデルパラ
メータとして、平均値、分散、遷移確率及び重みを出力
する。
態に係るモデルパラメータ生成装置20aの入力パラメ
ータと出力パラメータとを示すブロック図である。図2
(b)に示すように、モデルパラメータ生成装置20a
は、音声特徴パラメータファイルと、音素ラベルファイ
ルと、予め決められてキーボード40を用いて入力され
た混合数とに基づいて、数13及び数14を用いてモデ
ルパラメータの生成を行って、モデルパラメータとし
て、平均値の回帰係数、分散、重み、及び継続時間長分
布を出力する。ここで、継続時間長分布は、各音素ラベ
ルに対する学習データから得られる頻度を総数で除した
ものを音素ごとに計算することにより表される。すなわ
ち、第1の実施形態では、所定のテキストに対する複数
の音素を含む音声特徴パラメータとそれに対して付与さ
れた音素ラベルデータとに基づいて、各音素ラベル毎
に、隠れマルコフモデルの平均値を時間の相対的な関数
としてモデル化した所定の確率的セグメントモデルの平
均と分散を計算した後、所定の混合数になるまで尤度最
大化基準による所定のクラスタリング方法により各音声
特徴パラメータを複数のクラスタにクラスタリングし
て、各クラスタの重みを計算し、各クラスタに対する平
均、分散、及び重みを含むモデルパラメータを有する混
合分布の確率的セグメントモデルを生成する。
パラメータ生成装置20bの入力パラメータと出力パラ
メータとを示すブロック図である。図2(c)に示すよ
うに、モデルパラメータ生成装置20bは、音声特徴パ
ラメータファイルと、音素ラベルファイルと、予め決め
られてキーボード40を用いて入力された混合数とに基
づいて、数29、数34及び数35を用いてモデルパラ
メータの生成を行って、モデルパラメータとして、平均
値の回帰係数、分散、重み、及び継続時間長分布を出力
する。すなわち、第2の実施形態においては、第1の実
施形態の方法によって生成された混合分布の確率的セグ
メントモデルに基づいて、所定のEMアルゴリズムを用
いて、推定後の確率的セグメントモデルの出力確率の対
数尤度と推定後の確率的セグメントモデルからの所定の
継続時間長を出力する対数尤度と推定後の所定番目の確
率的セグメントモデルが出力される対数尤度を含む尤度
値が最大となるように最尤推定することにより、各音素
ラベル毎に、各クラスタに対する平均、分散、及び重み
を含むモデルパラメータを有する混合分布の確率的セグ
メントモデルを生成する。
パラメータ生成装置20cの入力パラメータと出力パラ
メータとを示すブロック図である。図2(d)に示すよ
うに、モデルパラメータ生成装置20cは、音声特徴パ
ラメータファイルと、音素ラベルファイルと、予め決め
られてキーボード40を用いて入力された混合数とに基
づいて、数29、数47及び数35を用いてモデルパラ
メータの生成を行って、モデルパラメータとして、平均
値の回帰係数、分散の回帰係数、重み、及び継続時間長
分布を出力する。すなわち、第3の実施形態では、第1
の実施形態又は第2の実施形態の方法によって生成され
た混合分布の確率的セグメントモデルに基づいて、各ク
ラスタに対する分散を時間変化の関数として表した分散
を計算することにより、各音素ラベル毎に、各クラスタ
に対する平均、分散、及び重みを含むモデルパラメータ
を有する混合分布の確率的セグメントモデルを生成す
る。
ータとして継続時間長分布を検出して出力しているが、
本発明はこれに限らず、モデルパラメータとして継続時
間長分布を含まず出力しなくてもよい。
>図3は、第1の実施形態であるモデルパラメータ生成
装置20aによって実行される第1のモデルパラメータ
生成処理を示すフローチャートである。
て、複数の音素ラベルのうち1つの対象音素ラベルを選
択してその音声特徴パラメータを、音素ラベルファイル
31を参照して音声特徴パラメータファイルメモリ30
から読み出す。次いで、ステップS2では、対象音素ラ
ベルに属する全音声特徴パラメータに基づいて数8及び
数9を用いて、平均Bhと分散Σhを計算する。さらに、
ステップS3において、(Bh,Σh)を有するクラスタ
C1と、(Bh+σ,Σh+σ)を有するクラスタC2と
に2分割する。ここで、σは予め設定された微小値(例
えば0.001)である。次いで、ステップS4で、各
音声特徴パラメータはクラスタC1とクラスタC2のど
ちらに属するかをマハラノビル距離などによる方法を用
いて距離を計算することにより決定する。すなわち、各
音声特徴パラメータは距離が短い方のクラスタに帰属さ
れる。さらに、ステップS5では、クラスタC1及びC
2に属する音声特徴パラメータを用いて再度それぞれの
平均Bhと分散Σhを数8及び数9を用いて計算する。そ
して、ステップS6では、クラスタ数が予め決められた
混合数以上になったか否かが判断される。クラスタ数<
混合数のときは、ステップS7で各クラスタに対して数
13を用いて尤度Pを計算し、尤度値Pが最小のクラス
タを次の分割対象とし、ステップS3に戻り、上記の処
理を繰り返す。
であるときは、ステップS8で各クラスタのセグメント
数に基づいて数14を用いて重みwnを計算する。そし
て、ステップS9ですべての音素ラベルについて処理が
終了したか否かが判断され、終了していないときは、ス
テップS10で次の1つの対象音素ラベルを選択して音
素ラベルファイル31を参照して音声特徴パラメータフ
ァイルメモリ30から読み出す。一方、ステップS9
で、終了しているときは、ステップS11で生成された
モデルパラメータを図1のモデルパラメータメモリ32
に出力して書き込む。
メータ生成装置20bによって実行される第2のモデル
パラメータ生成処理を示すフローチャートである。
3の第1のモデルパラメータ生成処理を実行する。次い
で、ステップS22で複数の音素ラベルのうち1つの対
象音素ラベルを選択してモデルパラメータを、モデルパ
ラメータメモリ32から読み出す。ステップS23で混
合数パラメータmを1に設定し、ステップS24でm番
目の混合分布のモデルパラメータを対象とする。そし
て、ステップS25で繰り返し数を示すパラメータiを
1に設定し、ステップS26で生成対象音素ラベルに属
する全特徴パラメータと現在のモデルパラメータとに基
づいて数29、数34及び数35を用いて平均bbmu、
分散Σbm及び重みwbmを計算する。さらに、ステップS
27でパラメータiが予め決められてキーボード40を
用いて入力された繰り返し回数以上となったか否かが判
断され、繰り返し回数未満であるときは、ステップS2
8でパラメータiを1だけインクリメントしてステップ
S26に戻り、上記の処理を繰り返す。
り返し回数以上となったときに、ステップS29で混合
数パラメータmが予め決められてキーボード40を用い
て入力された混合数M以上となったか否かが判断され
る。混合数M未満であるときは、ステップS30で混合
数パラメータmを1だけインクリメントしてステップS
24に戻り、上記の処理を繰り返す。一方、ステップS
29でm≧Mであるときは、ステップS31ですべての
音素ラベルについて処理が終了したか否かが判断され、
終了していないときは、ステップS32で、次の1つの
対象音素ラベルを選択して音声特徴パラメータを、音素
ラベルファイルメモリ31を参照して音声特徴パラメー
タファイルメモリ30から読み出す。そして、ステップ
S23に戻り、上記の処理を繰り返す。一方、ステップ
S31で終了したときは、ステップS33で生成された
モデルパラメータをモデルパラメータメモリ32に出力
して書き込む。
メータ生成装置20cによって実行される第3のモデル
パラメータ生成処理を示すフローチャートである。
3の第1のモデルパラメータ生成処理又は図4の第2の
モデルパラメータ生成処理を実行する。次いで、ステッ
プS42で複数の音素ラベルのうち1つの対象音素ラベ
ルを選択してモデルパラメータを、モデルパラメータメ
モリ32から読み出す。ステップS43で混合数パラメ
ータmを1に設定し、ステップS44でm番目の混合分
布のモデルパラメータを対象とする。そして、ステップ
S45で繰り返し数を示すパラメータiを1に設定し、
ステップS46で生成対象音素ラベルに属する全特徴パ
ラメータと現在のモデルパラメータとに基づいて数2
9、数47及び数35を用いて平均bbmu、分散sb
m,iju及び重みwbmを計算する。さらに、ステップS4
7でパラメータiが予め決められてキーボード40を用
いて入力された繰り返し回数以上となったか否かが判断
され、繰り返し回数未満であるときは、ステップS48
でパラメータiを1だけインクリメントしてステップS
46に戻り、上記の処理を繰り返す。
り返し回数以上となったときに、ステップS49で混合
数パラメータmが予め決められてキーボード40を用い
て入力された混合数M以上となったか否かが判断され
る。混合数M未満であるときは、ステップS50で混合
数パラメータmを1だけインクリメントしてステップS
44に戻り、上記の処理を繰り返す。一方、ステップS
49でm≧Mであるときは、ステップS51ですべての
音素ラベルについて処理が終了したか否かが判断され、
終了していないときは、ステップS52で、次の1つの
対象音素ラベルを選択して音声特徴パラメータを、音素
ラベルファイルメモリ31を参照して音声特徴パラメー
タファイルメモリ30から読み出す。そして、ステップ
S43に戻り、上記の処理を繰り返す。一方、ステップ
S51で終了したときは、ステップS53で生成された
モデルパラメータをモデルパラメータメモリ32に出力
して書き込む。
プS41に示すように、第1の実施形態に係る第1のモ
デルパラメータ生成処理を実行して得られたモデルパラ
メータに基づいて、第3の実施形態に係るモデルパラメ
ータ生成処理を実行してもよいし、もしくは、第2の実
施形態に係る第2のモデルパラメータ生成処理を実行し
て得られたモデルパラメータに基づいて、第3の実施形
態に係るモデルパラメータ生成処理を実行してもよい。
示す自由発話音声認識装置の構成及び動作について説明
する。図1において、文字列からなる発声音声文である
話者の発声音声はマイクロホン1に入力されて音声信号
に変換された後、A/D変換部2に入力される。A/D
変換部2は、入力された音声信号を所定のサンプリング
周波数でA/D変換した後、変換後のデジタルデータを
特徴抽出部3に出力する。次いで、特徴抽出部3は、入
力される音声信号のデジタルデータに対して、例えばL
PC分析を実行し、10次元のMFCCとパワーとを含
む11次元の特徴パラメータを抽出する。抽出された特
徴パラメータの時系列はバッファメモリ4を介して単語
レベル照合部5に入力される。
タメモリ32に格納されたモデルパラメータに基づい
て、尤度最大の単語モデル生成処理を以下の如く実行し
て単語モデルを生成する。すなわち、上記モデルパラメ
ータにおける同一の単語である複数N個の単語の音響的
特徴量から最大尤度を有する当該単語の代表の音素ラベ
ルのサンプルを検出し、検出された代表の音素ラベルの
サンプルと、複数N個の単語の音素ラベルのサンプルと
の時間的な対応付けを動的時間整合法により行って時間
的に正規化を行い、時間的に正規化された代表の音素ラ
ベルのサンプルと、上記複数N個の音素ラベルのサンプ
ルとを各単語毎に混合することにより、単語毎に音響的
特徴量を含む単語モデルを生成して、単語モデルメモリ
7に格納する。要約すれば、単語モデル生成部10は、
上記生成された混合分布の確率的セグメントモデルに基
づいて、上記テキストの各単語毎の音声特徴パラメータ
を含む単語モデルを生成する。
ルメモリ7内の単語モデルは、前後の音素環境を連結す
る環境依存型音素モデルが縦続に連結されてなり、かつ
縦続に連結された複数の状態を含んで構成され、各状態
はそれぞれ以下の情報を有する。 (a)状態番号、(b)11次元の音響的特徴量の平均
値、(c)11次元の音響的特徴量の分散、(d)継続
時間、(e)各クラスタの重み、及び、(f)音素ラベ
ルに対応するセグメントコード。
は音声認識回路部を構成し、文レベル照合部6には、品
詞や単語の出力確率及び品詞間や単語間の遷移確率など
を含み文法規則メモリ8に記憶された文法規則と、シソ
ーラスの出力確率や対話管理規則を含み意味的規則メモ
リ9に記憶された意味的規則とが連結される。単語レベ
ル照合部5は、入力された音響的特徴量の時系列を上記
メモリ7内の単語モデルと照合して少なくとも1つの音
声認識候補単語を検出し、検出された候補単語に対して
尤度を計算し、最大の尤度を有する候補単語を認識結果
の単語として文レベル照合器6に出力する。さらに、文
レベル照合器6は入力された認識結果の単語に基づい
て、上記文法規則と意味的規則とを含む言語モデルを参
照して文レベルの照合処理を実行することにより、最終
的な音声認識結果の文を出力する。もし、言語モデルで
適合受理されない単語があれば、その情報を単語レベル
照合器5に帰還して再度単語レベルの照合を実行する。
単語レベル照合部5と文レベル照合部6は、複数の音素
からなる単語を順次連接していくことにより、自由発話
の連続音声の認識を行い、その音声認識結果データを出
力する。
装置において、A/D変換部2と、特徴抽出部3と、単
語レベル照合部5と、文レベル照合部6と、単語モデル
生成部10と、モデルパラメータ生成部20a,20
b,20cとはそれぞれ、例えば、デジタル計算機によ
って構成される。また、バッファメモリ4と、文法規則
メモリ8と、意味的規則メモリ9と、音声特徴パラメー
タファイルメモリ30と、音素ラベルファイルメモリ3
1と、モデルパラメータメモリ32と、単語モデルメモ
リ7とはそれぞれ、例えば、ハードディスクメモリによ
って構成される。
のセグメントモデルによるメルケプストラム係数の1次
及び2次の係数CC1,CC2の平均値の時間変化のモ
デル化の一例を示すグラフである。図6において、太線
は観測系列であり、点線は回帰係数0次によるモデル化
の一例であり、破線は回帰係数1次によるモデル化の一
例であり、一点鎖線は回帰係数2次によるモデル化の一
例である。図6から明らかなように、回帰係数の次数を
大きくしていくに従がって、観測系列とのずれが小さく
なっていくことが分かる。
る推定値モデルによるメルケプストラム係数の1次及び
2次の係数CC1,CC2の平均値の時間変化のモデル
化の一例を示すグラフであり、図7(b)は第3の実施
形態の分散の時変モデルによるメルケプストラム係数の
1次及び2次の係数CC1,CC2の平均値の時間変化
のモデル化の一例を示すグラフである。図7において、
太線は平均軌跡のモデル化の一例であり、一点鎖線は平
均軌跡±σのモデル化の一例である。ここで、σは標準
偏差である。図7から明らかなように、(a)のEM法
ではセグメントの全区間の渡って標準偏差が一定(すな
わち分散が一定)であるが、(b)の分散の時変モデル
ではセグメントの初め(規格化時間0付近)及び終り
(規格化時間1.0付近)の分散が中心部分(規格化時
間0.5付近)よりも大きくなっていることが分かる。
声認識装置を用いて実験を行った結果について述べる。
本発明者は、上述の第1の実施形態に係るクラスタリン
グによるモデル化(以下、クラスタリング法とい
う。)、第2の実施形態に係るEMアルゴリズムを用い
たモデルの再推定(以下、再推定法という。)、及び第
3の実施形態に係る分散の時変モデル化の効果を調べる
ために、英語の不特定話者音声データベースのTIMI
T(TI及びMITの略である。)データベースを用い
た母音識別実験を行なった。
る。音声資料は本出願人が所有するTIMITデータベ
ースの音素ラベル情報を用いて切り出した16母音を用
いた。これは、Gish(従来技術文献4)やBacc
hiani(従来技術文献12)らが、混合分布セグメ
ントモデルの説明で述べたセグメントモデルにより、同
様の音声資料を用いて認識実験を行なっており、比較が
行なえるようにするためである。音素ラベル情報から、
45ミリ秒以上の母音を学習(TIMITデータベース
中のトレイン(train)データ全て)及び識別(TIM
ITデータベース中のテストデータ全て)に用いた。こ
こで、45ミリ秒以上のデータを用いたのは、従来例の
HMMとの比較を行なう際に、状態数を増加させた場合
でも学習及び音素識別に使用するサンプル数を同数にす
るためである。また、学習、音素識別に用いた母音デー
タの総数はそれぞれ41,014個、14,981個で
ある。
上述のように切り出されたサンプリング周波数16kH
zの母音波形に対して、分析窓長25.6ミリ秒、フレ
ーム周期5ミリ秒により、分析次数10次のメルケプス
トラム分析(MFCC)(例えば、従来技術文献10参
照。)を行なった。そして、尤度計算においては、セグ
メントの境界は既知であるため、長さLの音素識別対象
セグメントkに対して、次式の尤度が最大となるモデル
mhを識別結果とした。
最大にするmの値を表わす関数である。上記数48の右
辺は、対数をとっても大小関係は変わらないので、次式
を得ることができる。
率の対数尤度であり、上記数10により計算され、第2
項は学習データの継続時間長分布のヒストグラムから得
られる対数尤度である。ここで、クラスタリング法、再
推定法、分散の時変モデル化の比較のための音素識別実
験においては、正確にこれらの効果を測定するために、
上記数49の右辺第2項、すなわち継続時間長分布は用
いていない。次に、HMMとの比較のために、分散の時
変モデルにおいて、継続時間長分布を用いた実験を行な
った。ここで、logP(k|m,L)とlogP(L
|m)のダイナミックレンジを合わせるために、log
P(k|m,L)をセグメント長Lで割ったものとlo
gP(L|m)との和で尤度計算を行なった。
について述べる。上述のEMアルゴリズムを用いたモデ
ルの再推定(第2の実施形態)の説明で述べた、クラス
タリング法による結果を表1に示し、第2の実施形態に
係るEMアルゴリズムを用いたモデルの再推定を行なっ
た結果を表2に示す。EMアルゴリズムの初期値にはク
ラスタリングによる結果を与えた。ここで、1混合分布
の場合は、クラスタリングによるモデルパラメータと、
EMアルゴリズムによるものは同じになることに注意さ
れたい。
わかる。 (1)混合数を増加させていくに従い母音識別率が改善
されている。 (2)回帰次数が高次になるほど高い母音識別率が得ら
れている。
た場合の母音識別率の改善効果は大きいが、1次を2次
とした時はさほど大きくない。これは、回帰次数を更に
大きく(3次以上)していっても、識別性能の向上はさ
ほど見込めないことを示唆していると考えられる。ま
た、表1と表2とを比較すると、回帰次数が0次の場合
は、全ての混合数においてEMアルゴリズムにより母音
識別率が向上しているが、1次、2次の場合はむしろ悪
くなっているものもあり、再推定による効果はあまり見
られなかった。これは、クラスタリング法を行なう際の
音素セグメントがハンドラベルによる質の良いデータと
して与えられたためであると思われる。
の実施形態)についても同様の母音識別実験を行なっ
た。これまでのモデルでは、分散が時間不変の一定値を
とっていたのに対し、この結果は、分散を時間と共に変
化する軌跡として、EMアルゴリズムの再推定を行なっ
たものである。ここで、平均及び分散の軌跡の回帰次数
は共に2としている。本実施形態では、音素環境非依存
の音素モデルを1状態のセグメントモデルでモデル化し
ているため、音素の入り渡り、出渡りにおける分散は、
音素の中心付近の分散よりも一般に値が大きくなると予
想される。この現象をモデル化するためには、分散の軌
跡の回帰次数を最低2次とする必要があると考えられる
ため、ここでは2次とした。また、初期値はクラスタリ
ングによる結果を与えた。すなわち、数37における初
期値のgk1,gk2は共に0とした。この場合の母音識別
結果を表3に示す。
による結果(平均軌跡の回帰次数=2)と比較すると、
全ての混合数において母音識別率が向上していることか
ら、分散の時変モデル化は、識別性能の観点からも有効
であると考えられる。
識別結果を比較・検討するために、HMMを用いた同様
の識別実験を行なった。学習方法及び母音認識方法とし
て、図1を参照して示した従来技術文献10の方法を用
いた。状態数1、3、5、7、9の母音識別結果を表4
に示す。
る。 (2)状態数の増加による母音識別率の改善は徐々に小
さくなっているが、飽和しているとは言えない。 しかしながら、これ以上、状態数を増加させると、発話
スピードの速い(すなわち9フレーム程度の)音声の識
別が困難となるため、9状態(45ミリ秒)程度までが
適切であると考えられる。
よって得られたセグメントモデルに対して、継続時間長
分布も考慮して母音識別実験を行なった結果を表4に示
す。
おいて3%程度母音識別率が向上していることが分か
る。これは、継続時間長分布が実際のセグメント長の分
布により表されている効果であると考えられる。次に、
表5と表3を比較すると、分散の時変モデル化によって
得られたセグメントモデルは、全ての混合数において9
状態のHMMと同程度の高い識別性能を示していること
が分かる。ところで、状態数を9としたHMMでは9フ
レーム以上のデータに対してのみしか尤度計算が行なえ
ない。よって、8フレーム以下のデータに対しても認識
を行なうためには、HMMの状態のスキップを許すナル
遷移を入れた構造にするか、状態数を減らすという方法
が一般に取られる。例えば、3フレーム以上のデータに
対して尤度を計算するためには(回帰次数2次のセグメ
ントモデルは3フレーム以上のデータに対して尤度が計
算できる。)、3状態のHMMを用いる必要があり、こ
の場合、セグメントモデルの識別性能は、HMMに比べ
て全ての混合数において5%以上母音識別率が良いとい
うことも分かる。
態においては、確率的セグメントモデルの認識性能向上
を目的として、混合分布モデルの作成方法を述べた。混
合分布モデルの作成方法として、第1の実施形態に係る
セグメントのクラスタリングによる方法、第2の実施形
態に係るEMアルゴリズムを用いたモデルの再推定によ
り混合分布を求める方法、第3の実施形態に係る、平均
に加えて分散も時間変化の軌跡としてモデル化し、EM
アルゴリズムによるモデルの再推定を行なう方法の3つ
の手法を述べた。そして、TIMITデータベースを用
いた母音識別実験を行なった結果、セグメントモデルの
混合数を増加させることにより、音素識別率が向上する
ことが確かめられた。また、第3の実施形態に係る分散
の時変モデル化は、第1及び第2の実施形態の方法に比
べて高い識別性能が得られ、このモデル化が有効である
ことが示された。また、HMMとの結果の比較により、
1つの音素を1状態で平均及び分散の軌跡を回帰次数2
次でモデル化したセグメントモデルは、9状態のHMM
と同程度の高い識別性能を示すことが分かった。
りである。 (A)従来技術のHMMよりも少ないモデルパラメータ
数で確率的セグメントモデルを生成することができ、当
該確率的セグメントモデルに基づいて生成された単語モ
デルを用いて音素認識することにより、従来例に比較し
て音素認識率を改善することができる。 (B)上述の理論的な定式化により、混合分布の確率的
セグメントモデルのモデルパラメータを手作業によら
ず、自動的に決定できるので、生成コストを小さくする
ことができる。
合分布セグメントモデルを作成したが、本発明はこれに
限らず、音素に限定せず、例えば、音響的特徴量に基づ
くセグメント単位(ASU)をセグメントモデルでモデ
ル化し、このモデルを用いて音声認識してもよい(例え
ば、従来技術文献11「深田俊明ほか,“音響的セグメ
ント単位を用いた自由発話音声認識”,日本音響学会講
演論文集,1−5−16,1996年3月」及び従来技
術文献12参照。)。当該変形例の音声認識装置におい
ては、以下のようにして、音響的特徴量に基づくセグメ
ント単位に基づいた単語モデルを作成して音声認識す
る。
くセグメント単位の最尤セグメントコード系列と、単語
毎の各音素の時間を含む音素データベースとを比較する
ことにより、処理音素の前後のコンテキスト環境が一致
する複数M個のセグメントコードのサンプルを検出し、
検出された複数M個のセグメントコードのサンプルの中
から最大尤度を有する代表のセグメントコードのサンプ
ルを検出し、上記代表のセグメントコードのサンプル
と、上記複数M個のセグメントコードのサンプルとの間
の時間的な対応付けを動的時間整合法により行って時間
的に正規化を行い、時間的に正規化された代表のセグメ
ントコードのサンプルと、上記複数M個のセグメントコ
ードのサンプルとを各単語毎に混合することにより、処
理音素の前後のコンテキスト環境が一致する音素列毎に
音響的特徴量を含む各単語の音素モデルを生成する。こ
こで、好ましくは、処理音素の前後のコンテキスト環境
が一致する度合いに応じた混合比率を用いて、時間的に
正規化された代表のセグメントコードのサンプルと、上
記複数M個のセグメントコードのサンプルとを各単語毎
に混合する。 (2)上記音素データベースにおける同一の単語である
複数N個の単語の音響的特徴量から最大尤度を有する当
該単語の代表のセグメントコードのサンプルを検出し、
検出された代表のセグメントのサンプルと、複数N個の
単語のセグメントコードのサンプルとの時間的な対応付
けを動的時間整合法により行って時間的に正規化を行
い、時間的に正規化された代表のセグメントコードのサ
ンプルと、上記複数N個のセグメントコードのサンプル
とを各単語毎に混合することにより、単語毎に音響的特
徴量を含む第1の単語モデルを生成する。 (3)複数の単語の学習用テキストデータから各単語を
読み出して、上記音素データベース中の各同一単語の複
数の音素モデルを組み合わせることにより、各単語毎に
音響的特徴量を含む第2の単語モデルを生成する。 (4)上記第1の単語モデルと上記第2の単語モデルと
を、当該モデルの音響的特徴量を用いて時間的な対応付
けを動的時間整合法により行って時間的に正規化を行
い、時間的に正規化された第1と第2の単語モデルを混
合することにより、単語毎に音響的特徴量を含む第3の
単語モデルを生成する。ここで、好ましくは、学習用テ
キストデータ中に存在する生成すべき単語モデルの単語
のデータ量に応じた混合比率を用いて、時間的に正規化
された第1と第2の単語モデルを混合する。 (5)そして、上記作成された第3の単語モデルを用い
て、入力された文字列からなる発声音声文の音声信号を
音声認識する。
1記載の音声認識のための単語モデル生成装置は、所定
のテキストに対する複数の音素を含む音声特徴パラメー
タとそれに対して付与された音素ラベルデータとに基づ
いて、各音素ラベル毎に、観測系列の平均値を時間の相
対的な関数としてモデル化した所定の確率的セグメント
モデルの平均と分散を計算した後、所定の混合数になる
まで尤度最大化基準による所定のクラスタリング方法に
より各音声特徴パラメータを複数のクラスタにクラスタ
リングして、各クラスタの重みを計算し、各クラスタに
対する平均、分散、及び重みを含むモデルパラメータを
有する混合分布の確率的セグメントモデルを生成する第
1の生成手段と、上記第1の生成手段によって生成され
た混合分布の確率的セグメントモデルに基づいて、上記
テキストの各単語毎の音声特徴パラメータを含む単語モ
デルを生成する第2の生成手段とを備える。従って、従
来技術のHMMよりも少ないモデルパラメータ数で確率
的セグメントモデルを生成することができ、当該確率的
セグメントモデルに基づいて生成された単語モデルを用
いて音素認識することにより、従来例に比較して音素認
識率を改善することができる。また、上述の理論的な定
式化により、混合分布の確率的セグメントモデルのモデ
ルパラメータを手作業によらず、自動的に決定できるの
で、生成コストを小さくすることができる。
においては、請求項1記載の単語モデル生成装置におい
て、上記第1の生成手段によって生成された混合分布の
確率的セグメントモデルに基づいて、所定のEMアルゴ
リズムを用いて、推定後の確率的セグメントモデルの出
力確率の対数尤度と推定後の確率的セグメントモデルか
らの所定の継続時間長を出力する対数尤度と推定後の所
定番目の確率的セグメントモデルが出力される対数尤度
を含む尤度値が最大となるように最尤推定することによ
り、各音素ラベル毎に、各クラスタに対する平均、分
散、及び重みを含むモデルパラメータを有する混合分布
の確率的セグメントモデルを生成する第3の生成手段を
備え、上記第2の生成手段は、上記第3の生成手段によ
って生成された混合分布の確率的セグメントモデルに基
づいて、上記テキストの各単語毎の音声特徴パラメータ
を含む単語モデルを生成する。従って、従来技術のHM
Mよりも少ないモデルパラメータ数で確率的セグメント
モデルを生成することができ、当該確率的セグメントモ
デルに基づいて生成された単語モデルを用いて音素認識
することにより、従来例及び請求項1記載の単語モデル
生成装置に比較して音素認識率を改善することができ
る。また、上述の理論的な定式化により、混合分布の確
率的セグメントモデルのモデルパラメータを手作業によ
らず、自動的に決定できるので、生成コストを小さくす
ることができる。
置は、請求項1又は2記載の単語モデル生成装置におい
て、上記第1の生成手段又は上記第3の生成手段によっ
て生成された混合分布の確率的セグメントモデルに基づ
いて、各クラスタに対する分散を時間変化の関数として
表した分散を計算することにより、各音素ラベル毎に、
各クラスタに対する平均、分散、及び重みを含むモデル
パラメータを有する混合分布の確率的セグメントモデル
を生成する第4の生成手段を備え、上記第2の生成手段
は、上記第4の計算手段によって生成された混合分布の
確率的セグメントモデルに基づいて、上記テキストの各
単語毎の音声特徴パラメータを含む単語モデルを生成す
ることを特徴とする。従って、従来技術のHMMよりも
少ないモデルパラメータ数で確率的セグメントモデルを
生成することができ、当該確率的セグメントモデルに基
づいて生成された単語モデルを用いて音素認識すること
により、従来例及び請求項1記載の単語モデル生成装置
に比較して音素認識率を改善することができる。また、
上述の理論的な定式化により、混合分布の確率的セグメ
ントモデルのモデルパラメータを手作業によらず、自動
的に決定できるので、生成コストを小さくすることがで
きる。
は、請求項1、2又は3記載の単語モデル生成装置にお
いて、好ましくは、上記単語モデルのモデルパラメータ
は、各音素ラベルに対する継続時間長分布を含む。従っ
て、従来技術のHMMよりも少ないモデルパラメータ数
で確率的セグメントモデルを生成することができ、当該
確率的セグメントモデルに基づいて生成された単語モデ
ルを用いて音素認識することにより、従来例及び請求項
1乃至3記載の単語モデル生成装置に比較して音素認識
率を改善することができる。また、上述の理論的な定式
化により、混合分布の確率的セグメントモデルのモデル
パラメータを手作業によらず、自動的に決定できるの
で、生成コストを小さくすることができる。
置は、請求項1乃至4のうちの1つに記載の単語モデル
生成装置と、上記単語モデル生成装置によって生成され
た単語モデルを用いて、入力された文字列からなる発声
音声文の音声信号を音声認識する音声認識手段とを備え
る。従って、従来技術のHMMよりも少ないモデルパラ
メータ数で確率的セグメントモデルを生成することがで
き、当該確率的セグメントモデルに基づいて生成された
単語モデルを用いて音声認識することにより、従来例に
比較して音声認識率を改善することができる。
識装置のブロック図である。
装置20の入力パラメータと出力パラメータとを示すブ
ロック図であり、(b)は第1の実施形態に係るモデル
パラメータ生成装置20aの入力パラメータと出力パラ
メータとを示すブロック図であり、(c)は第2の実施
形態に係るモデルパラメータ生成装置20bの入力パラ
メータと出力パラメータとを示すブロック図であり、
(d)は第3の実施形態に係るモデルパラメータ生成装
置20cの入力パラメータと出力パラメータとを示すブ
ロック図である。
装置20aによって実行される第1のモデルパラメータ
生成処理を示すフローチャートである。
装置20bによって実行される第2のモデルパラメータ
生成処理を示すフローチャートである。
装置20cによって実行される第3のモデルパラメータ
生成処理を示すフローチャートである。
ルケプストラム係数の1次及び2次の係数CC1,CC
2の平均値の時間変化のモデル化の一例を示すグラフで
ある。
値モデルによるメルケプストラム係数の1次及び2次の
係数CC1,CC2の平均値の時間変化のモデル化の一
例を示すグラフであり、(b)は第3の実施形態の分散
の時変モデルによるメルケプストラム係数の1次及び2
次の係数CC1,CC2の平均値の時間変化のモデル化
の一例を示すグラフである。
部、 30…音声特徴パラメータファイルメモリ、 31…音素ラベルファイルメモリ、 32…モデルパラメータメモリ、 40…キーボード。
Claims (5)
- 【請求項1】 所定のテキストに対する複数の音素を含
む音声特徴パラメータとそれに対して付与された音素ラ
ベルデータとに基づいて、各音素ラベル毎に、観測系列
の平均値を時間の相対的な関数としてモデル化した所定
の確率的セグメントモデルの平均と分散を計算した後、
所定の混合数になるまで尤度最大化基準による所定のク
ラスタリング方法により各音声特徴パラメータを複数の
クラスタにクラスタリングして、各クラスタの重みを計
算し、各クラスタに対する平均、分散、及び重みを含む
モデルパラメータを有する混合分布の確率的セグメント
モデルを生成する第1の生成手段と、 上記第1の生成手段によって生成された混合分布の確率
的セグメントモデルに基づいて、上記テキストの各単語
毎の音声特徴パラメータを含む単語モデルを生成する第
2の生成手段とを備えたことを特徴とする音声認識のた
めの単語モデル生成装置。 - 【請求項2】 上記第1の生成手段によって生成された
混合分布の確率的セグメントモデルに基づいて、所定の
EMアルゴリズムを用いて、推定後の確率的セグメント
モデルの出力確率の対数尤度と推定後の確率的セグメン
トモデルからの所定の継続時間長を出力する対数尤度と
推定後の所定番目の確率的セグメントモデルが出力され
る対数尤度を含む尤度値が最大となるように最尤推定す
ることにより、各音素ラベル毎に、各クラスタに対する
平均、分散、及び重みを含むモデルパラメータを有する
混合分布の確率的セグメントモデルを生成する第3の生
成手段を備え、 上記第2の生成手段は、上記第3の生成手段によって生
成された混合分布の確率的セグメントモデルに基づい
て、上記テキストの各単語毎の音声特徴パラメータを含
む単語モデルを生成することを特徴とする請求項1記載
の単語モデル生成装置。 - 【請求項3】 上記第1の生成手段又は上記第3の生成
手段によって生成された混合分布の確率的セグメントモ
デルに基づいて、各クラスタに対する分散を時間変化の
関数として表した分散を計算することにより、各音素ラ
ベル毎に、各クラスタに対する平均、分散、及び重みを
含むモデルパラメータを有する混合分布の確率的セグメ
ントモデルを生成する第4の生成手段を備え、 上記第2の生成手段は、上記第4の計算手段によって生
成された混合分布の確率的セグメントモデルに基づい
て、上記テキストの各単語毎の音声特徴パラメータを含
む単語モデルを生成することを特徴とする請求項1又は
2記載の単語モデル生成装置。 - 【請求項4】 上記単語モデルのモデルパラメータは、
各音素ラベルに対する継続時間長分布を含むことを特徴
とする請求項1、2又は3記載の単語モデル生成装置。 - 【請求項5】 請求項1乃至4のうちの1つに記載の単
語モデル生成装置と、 上記単語モデル生成装置によって生成された単語モデル
を用いて、入力された文字列からなる発声音声文の音声
信号を音声認識する音声認識手段とを備えたことを特徴
とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8309094A JP3029803B2 (ja) | 1996-11-20 | 1996-11-20 | 音声認識のための単語モデル生成装置及び音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8309094A JP3029803B2 (ja) | 1996-11-20 | 1996-11-20 | 音声認識のための単語モデル生成装置及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10149189A true JPH10149189A (ja) | 1998-06-02 |
JP3029803B2 JP3029803B2 (ja) | 2000-04-10 |
Family
ID=17988821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8309094A Expired - Fee Related JP3029803B2 (ja) | 1996-11-20 | 1996-11-20 | 音声認識のための単語モデル生成装置及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3029803B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004226982A (ja) * | 2003-01-21 | 2004-08-12 | Microsoft Corp | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 |
JP2006227319A (ja) * | 2005-02-17 | 2006-08-31 | Nec Corp | 発話様式推定装置、発話様式推定方法及び発話様式推定プログラム |
US7155390B2 (en) | 2000-03-31 | 2006-12-26 | Canon Kabushiki Kaisha | Speech information processing method and apparatus and storage medium using a segment pitch pattern model |
JP2008191467A (ja) * | 2007-02-06 | 2008-08-21 | Nippon Hoso Kyokai <Nhk> | 混合モデル初期値算出装置及び混合モデル初期値算出プログラム |
-
1996
- 1996-11-20 JP JP8309094A patent/JP3029803B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7155390B2 (en) | 2000-03-31 | 2006-12-26 | Canon Kabushiki Kaisha | Speech information processing method and apparatus and storage medium using a segment pitch pattern model |
JP2004226982A (ja) * | 2003-01-21 | 2004-08-12 | Microsoft Corp | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 |
JP2006227319A (ja) * | 2005-02-17 | 2006-08-31 | Nec Corp | 発話様式推定装置、発話様式推定方法及び発話様式推定プログラム |
JP4711111B2 (ja) * | 2005-02-17 | 2011-06-29 | 日本電気株式会社 | 発話様式推定装置、発話様式推定方法及び発話様式推定プログラム |
JP2008191467A (ja) * | 2007-02-06 | 2008-08-21 | Nippon Hoso Kyokai <Nhk> | 混合モデル初期値算出装置及び混合モデル初期値算出プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3029803B2 (ja) | 2000-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2965537B2 (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
EP1269464B1 (en) | Discriminative training of hidden markov models for continuous speech recognition | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
US7587321B2 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system | |
JPS62231996A (ja) | 音声認識方法 | |
JPH01102599A (ja) | 音声認識方法 | |
US5734793A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
JPH05216490A (ja) | 音声コード化装置及び方法並びに音声認識装置及び方法 | |
JPH02238496A (ja) | 音声認識装置 | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
KR20050082253A (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
US20010032075A1 (en) | Speech recognition method, apparatus and storage medium | |
JP2012529664A (ja) | テキスト音声合成方法及びシステム | |
KR101664815B1 (ko) | 스피치 모델 생성 방법 | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
Yılmaz et al. | Noise robust exemplar matching using sparse representations of speech | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JPH1185186A (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
CA2203649A1 (en) | Decision tree classifier designed using hidden markov models | |
JP2852210B2 (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
JPH0895592A (ja) | パターン認識方法 | |
JP2923243B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP3571821B2 (ja) | 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法 | |
JP2976795B2 (ja) | 話者適応化方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090204 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100204 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110204 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120204 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130204 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140204 Year of fee payment: 14 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |