JP3029803B2

JP3029803B2 - 音声認識のための単語モデル生成装置及び音声認識装置

Info

Publication number: JP3029803B2
Application number: JP8309094A
Authority: JP
Inventors: 芳典匂坂
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1996-11-20
Filing date: 1996-11-20
Publication date: 2000-04-10
Anticipated expiration: 2016-11-20
Also published as: JPH10149189A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識のための
単語モデル生成装置及び音声認識装置に関する。

【０００２】

【従来の技術】現在まで成功を収めている音声認識シス
テムのほとんどは、隠れマルコフモデル（以下、ＨＭＭ
という。）を参照して音声認識するものであるが、その
一方で、近年、ＨＭＭの欠点に対処するための新しいモ
デル化方法も数多く提案されてきている。ＨＭＭの制限
として次の２つのものが挙げられる。（１）継続時間モデルが貧弱である。（２）状態系列のもとで観測系列の独立性が仮定されて
いる。

【０００３】ＨＭＭの状態継続時間長モデルは幾何学的
な分布によって暗黙的に与えられているという第１番目
の制限は、継続時間状態分布を明示的に導入することで
処理されてきた。第２番目の制限である観測系列の条件
付き独立の仮定は、実用的には有益であるが現実的では
ないということが広く認識されている。とりわけ、第２
番目の問題に対して、すなわち特徴パラメータの時間方
向の相関を取り入れることを目的としたモデル化の研究
が近年数多くなされている。パラメトリックなモデリン
グ手法としては、ＨＭＭの平均値を絶対時間の関数とし
てモデル化する方法（例えば、従来技術文献１「L.Den
g,“A generalized hidden Markov modelwith state-co
nditioned trend functions of time for the speech s
ignal",IEEE Transactions on Signal Processing,Vol.
l27,pp.65-78,1992年」及び従来技術文献２「L.Deng et
al.,“HMMs with mixtures of trend functions for a
utomatic speech recognition",International Synposi
um on Speech,Image Processing and Neural Networks,
pp.702-705,1994年」参照。）、確率的セグメントモデ
ルによる方法（例えば、従来技術文献３「M.Ostendorf
et al.,“A stochastic segment model for phoneme-ba
sed continuous speech recognition",IEEETransaction
s on Acoustic,Speech and Signal Processing,Vol.37,
No.12,pp.1857-1869,1989年」及び従来技術文献４「H.G
ish et al.,“A Segmental Speech Model with Applica
tions to Word Spotting",Proceedings of ICASSP-93,p
p.II-447-II-450,1993年」参照。）、ノンパラメトリッ
クな方法（例えば、従来技術文献５「W.Goldenthal et
al.,“Statistical Trajectory Models for PhoneticRe
cognition",Proceedings of ICSLP-94,pp.1871-1873,19
96年」及び従来技術文献６「O.Ghitza et al.,“Hidden
Markov Models with Templates as Non-stationary St
ates:An Application to Speech Recognition",Compute
r Speech andLanguage,No.2,pp.101-119,1993年」参
照。）などがある。

【０００４】また、固定長セグメントからセグメント統
計量を抽出する方法として、従来技術文献７「山本一公
ほか，“セグメント単位入力ＨＭＭとその評価”，電子
情報通信学会技術報告，ＳＰ９５−１０４，ｐｐ．７７
−８４，１９９５年１２月」において種々の比較がなさ
れており、従来技術文献８「L.Bahl,et al.,“Performa
nce of the IBM Large Vocabulary Continuous Speech
Recognition System on the ARPA Wall Street Journal
Task",Proceedings of ICASSP-95,pp.41-44,1995年」
では大語彙連続音声認識システムに適用されている。ま
た、ニューラルネットワークに基づく音声認識手法にお
いても、リカレントニューラルネットワークにより特徴
パラメータの時間的相関を取り入れる試みがなされてい
る（例えば、従来技術文献９「T.Robinson et al.,“IP
A:Improbed Phone Modelling with Recurrent Neural N
etworks",Proceedings of ICASSP-94,pp.I-37-I-40,199
4年」参照。）。

【０００５】ここで、特に、例えば従来技術文献４にお
いて提案された確率的セグメントモデルである単一分布
セグメントモデルの生成方法（以下、従来例という。）
について以下述べる。ここでいう確率的セグメントモデ
ルとは、セグメント内の特徴量の平均値を相対的な時間
の線形多項式によって表現するというモデルである。時
刻ｔにおけるＤ次元の特徴パラメータのベクトル系列
（例えば、ケプストラム係数）をｙ_tとすると、長さＬ
のランダム長観測セグメント系列ｙ₁ ^L＝［ｙ₁，ｙ₂，
…，ｙ_L］が音素ラベル“ａ”から生成される確率は、
次式によって与えられる。

【０００６】

【数１】Ｐ（ｙ₁，ｙ₂，…，ｙ_L，Ｌ｜ａ）＝Ｐ（ｙ₁，
ｙ₂，…，ｙ_L｜Ｌ，ａ）Ｐ（Ｌ｜ａ）

【０００７】ここで、上記数１の右辺のＰ（ｙ₁，ｙ₂，
…，ｙ_L｜Ｌ，ａ）はｙ₁，ｙ₂，…ｙ_Lが長さＬ及び音素
ラベルａから生成するときの出力確率を表し、Ｐ（Ｌ｜
ａ）は音素ラベルａが長さＬとなるときの継続時間長確
率を表す。いま、出力確率分布が単一ガウス分布ｆ
（・）で与えられているとき、出力確率Ｐ（ｙ₁，ｙ₂，
…，ｙ_L｜Ｌ，ａ）は次式で表わすことができる。

【０００８】

【数２】

【０００９】ここで、Σ_aは音素ラベル“ａ”のＤ×Ｄ
の分散行列を表し、μ_atは、時刻ｔにおけるＤ次元の平
均ベクトルを表す。ここで、平均ベクトルμ_atは、

【数３】μ_at＝ｚ_L ^tＢ_a で表され、平均軌跡μ_atをＲ次で表す場合、行列Ｂ
_aは、

【数４】Ｂ_a＝［ｂ_a0，ｂ_a1，…，ｂ_aR］^T で表わすことができ、また行列ｚ_L ^tは（Ｒ＋１）次元の
ベクトルとして、次式で表わすことができる。

【００１０】

【数５】ｚ_L ^t ＝［１，０，０，…，０］，ｔ＝１のとき＝[１,(ｔ−１)／(Ｌ−１),{(ｔ−１)／(Ｌ−１)}²,…,
{(ｔ−１)／(Ｌ−１)}^R]，１＜ｔ≦Ｌのとき

【００１１】すなわち、全てのランダム長観測セグメン
トは０から１の時間として正規化される。以後、表記を
簡単にするため、音素ラベル“ａ”の表示を除くことに
する。ある観測セグメントＹ_i＝［ｙ_i,1，ｙ_i,2，…，
ｙ_i,Li］に対する平均Ｂと分散Σをパラメータにもつセ
グメントモデルの平均の最尤推定値Ｂ_iは、Ｌ×（Ｒ＋
１）次元の行列Ｚ_LをＺ_L＝［ｚ_L ¹，ｚ_L ²，…，ｚ_L ^L］^T
とすると、次式で表わすことができる。本明細書におい
て、下付きの下付きを表せないので、下付きの添字にお
いて、Ｌ_iはＬｉと表しており、以下同様である。

【００１２】

【数６】Ｂ_i＝Ｙ_iＺ_Li ^T［Ｚ_LiＺ_Li ^T］^-1

【００１３】そして、分散Σ_iは、次式で表わすことが
できる。

【００１４】

【数７】

【００１５】ここで、３つの統計量（Ｂ_i，Σ_i，Ｌ_i）
は、セグメントＹ_iをセグメントモデルとして表すため
の十分な統計量となる。着目しているモデル“ａ”に対
する全てのセグメントに対してこの統計量を求めると、
モデルパラメータの最尤推定値の平均Ｂhと分散Σhは次
式で表わすことができる（例えば、従来技術文献４参
照。）。

【００１６】

【数８】

【数９】

【００１７】すなわち、Ｉ_aは、音素ラベル“ａ”の集
合であり、数８及び数９における和Σは、ｉが音素ラベ
ルａに属するデータについての和である。また、行列右
上に示すＴは行列の転置を示し、行列右上に示す−１は
逆行列を示す。

【００１８】

【発明が解決しようとする課題】しかしながら、従来例
の方法では、いまだ音素認識率が比較的低いという問題
点があった。本発明の目的は以上の問題点を解決し、従
来例に比較して音素認識率を改善することができる音声
認識のための単語モデル生成装置及び音声認識装置を提
供することにある。

【００１９】

【課題を解決するための手段】本発明に係る請求項１記
載の音声認識のための単語モデル生成装置は、所定のテ
キストに対する複数の音素を含む音声特徴パラメータと
それに対して付与された音素ラベルデータとに基づい
て、各音素ラベル毎に、観測系列の平均値を時間の相対
的な関数としてモデル化した所定の確率的セグメントモ
デルの平均と分散を計算した後、所定の混合数になるま
で尤度最大化基準による所定のクラスタリング方法によ
り各音声特徴パラメータを複数のクラスタにクラスタリ
ングして、各クラスタの重みを計算し、各クラスタに対
する平均、分散、及び重みを含むモデルパラメータを有
する混合分布の確率的セグメントモデルを生成する第１
の生成手段と、上記第１の生成手段によって生成された
混合分布の確率的セグメントモデルに基づいて、上記テ
キストの各単語毎の音声特徴パラメータを含む単語モデ
ルを生成する第２の生成手段とを備えたことを特徴とす
る。

【００２０】また、請求項２記載の単語モデル生成装置
は、請求項１記載の単語モデル生成装置において、上記
第１の生成手段によって生成された混合分布の確率的セ
グメントモデルに基づいて、所定のＥＭアルゴリズムを
用いて、推定後の確率的セグメントモデルの出力確率の
対数尤度と推定後の確率的セグメントモデルからの所定
の継続時間長を出力する対数尤度と推定後の所定番目の
確率的セグメントモデルが出力される対数尤度を含む尤
度値が最大となるように最尤推定することにより、各音
素ラベル毎に、各クラスタに対する平均、分散、及び重
みを含むモデルパラメータを有する混合分布の確率的セ
グメントモデルを生成する第３の生成手段を備え、上記
第２の生成手段は、上記第３の生成手段によって生成さ
れた混合分布の確率的セグメントモデルに基づいて、上
記テキストの各単語毎の音声特徴パラメータを含む単語
モデルを生成することを特徴とする。

【００２１】さらに、請求項３記載の単語モデル生成装
置は、請求項１又は２記載の単語モデル生成装置におい
て、上記第１の生成手段又は上記第３の生成手段によっ
て生成された混合分布の確率的セグメントモデルに基づ
いて、各クラスタに対する分散を時間変化の関数として
表した分散を計算することにより、各音素ラベル毎に、
各クラスタに対する平均、分散、及び重みを含むモデル
パラメータを有する混合分布の確率的セグメントモデル
を生成する第４の生成手段を備え、上記第２の生成手段
は、上記第４の計算手段によって生成された混合分布の
確率的セグメントモデルに基づいて、上記テキストの各
単語毎の音声特徴パラメータを含む単語モデルを生成す
ることを特徴とする。

【００２２】また、請求項４記載の単語モデル生成装置
は、請求項１、２又は３記載の単語モデル生成装置にお
いて、上記単語モデルのモデルパラメータは、各音素ラ
ベルに対する継続時間長分布を含むことを特徴とする。

【００２３】さらに、請求項５記載の単語モデル生成装
置は、請求項１乃至４のうちの１つに記載の単語モデル
生成装置と、上記単語モデル生成装置によって生成され
た単語モデルを用いて、入力された文字列からなる発声
音声文の音声信号を音声認識する音声認識手段とを備え
たことを特徴とする。

【００２４】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００２５】＜実施形態の概要＞図１は、本発明に係る
実施形態である自由発話音声認識装置のブロック図であ
り、図２（ａ）は従来例に係るモデルパラメータ生成装
置２０の入力パラメータと出力パラメータとを示すブロ
ック図であり、図２（ｂ）は第１の実施形態に係るモデ
ルパラメータ生成装置２０ａの入力パラメータと出力パ
ラメータとを示すブロック図であり、図２（ｃ）は第２
の実施形態に係るモデルパラメータ生成装置２０ｂの入
力パラメータと出力パラメータとを示すブロック図であ
り、図２（ｄ）は第３の実施形態に係るモデルパラメー
タ生成装置２０ｃの入力パラメータと出力パラメータと
を示すブロック図である。

【００２６】本発明に係る実施形態では、音声特徴パラ
メータファイルメモリ３０内の観測系列（音声特徴パラ
メータ）の平均値を時間の相対的な関数として単一混合
分布の確率的セグメントモデルによりモデル化している
Ｇｉｓｈらの方法（従来技術文献４参照。）を多混合分
布に拡張した場合のモデルパラメータの推定方法につい
て述べる。図２（ｂ），（ｃ）及び（ｄ）に示すよう
に、多混合分布における確率的セグメントモデルは、平
均値、分散、分布の重み、継続時間をパラメータとする
モデルであり、平均値の時間変化を任意次数の線形回帰
モデルとして表現するという特徴をもつ。この混合分布
セグメントモデルのモデルパラメータ推定法として、Ｈ
ＭＭの場合と同様に、クラスタリングによる方法及び公
知のＥＭ（Estimation-Maximization）アルゴリズムに
よる方法について定式化を行なう。さらに、より詳細な
モデル化を目的として、平均値に加え、分散の変化も時
間変化の関数として表現することを考え、近似手法を用
いてモデルパラメータを推定する方法を考案した。ま
た、本実施形態に対応する実施例においては、上記混合
分布化の評価のために、コンテキスト非依存音素の混合
分布セグメントモデルを作成し、本出願人が所有し、音
声波形及びラベル情報を含むＴＩＭＩＴ（ＴＩ（テキサ
スインストゥルメンツ）及びＭＩＴ（マサチューセッツ
工科大学）の略である。）データベースを用いた母音識
別実験を行なった。またこのとき、従来広く用いられて
いるＨＭＭの状態数、混合数を多くの組合せにより実験
することにより、確率的セグメントモデルとＨＭＭとの
詳細な性能比較も行なっている。従来技術文献２の実験
では、３状態のleft-to-rightＨＭＭにおいて、回帰次
数を０，１，２として比較した結果は報告されている
が、ＨＭＭの状態数を更に増加させた場合との比較は報
告されていない。本実施形態において、多混合分布にお
ける確率的セグメントモデルにモデル化している点が従
来技術文献１と大きく異なる点である。

【００２７】本実施形態では、音響的特徴パラメータ又
は音響的特徴量は、具体的には、ケプストラム係数を人
間の聴覚に合わせて補正した１０次元のメル・ケプスト
ラム係数（以下、ＭＦＣＣという。）とパワー（又はエ
ネルギー）とを含む１１個の特徴パラメータである。

【００２８】＜混合分布セグメントモデル＞まず、従来
例の単一分布セグメントモデルを混合分布へ拡張するこ
とを考える。以下で説明するセグメントモデルにおける
前提条件は、従来例で述べた条件と同様であり、時刻ｔ
におけるＤ次元の特徴パラメータのベクトル系列（例え
ば、ケプストラム係数）をｙ_tとし、長さＬのランダム
長観測セグメント系列ｙ₁ ^L＝［ｙ₁，ｙ₂，…，ｙ_L］を
考えている。ここで、時刻ｔにおけるＤ次元の特徴パラ
メータのベクトル系列の各特徴パラメータは、例えば、
５ミリ秒の期間の１フレーム毎に観測される。上記数２
で表される単一ガウス分布を以下のように混合数Ｍの多
混合分布として表す。

【００２９】

【数１０】ここで、

【数１１】Ｎ（ｙ_t，Ｂ_k，Σ_k）＝１／｛（２π）^D/2｜
Σ_k｜^1/2｝×ｅｘｐ｛−（１／２）（ｙ_t−ｚ_L ^tＢ_k）^T
Σ_k ^-1（ｙ_t−ｚ_L ^tＢ_k）｝であり、重みｗ_kの総和は次式を満足する。

【００３０】

【数１２】

【００３１】上記数１０における平均Ｂ_k，分散Σ_k，重
みｗ_kを求める方法として、ＨＭＭのモデルパラメータ
の推定法と同様に、セグメントのクラスタリングに基づ
くもの（以下、第１の実施形態という。）、ＥＭアルゴ
リズムを用いた再推定に基づくもの（以下、第２の実施
形態という。）が考えられる。以下、これらの計算方法
について述べる。

【００３２】＜クラスタリング法によるモデル化（第１
の実施形態）＞混合分布のセグメントモデルを作成する
方法の１つとして、セグメントの集合として表される特
徴量空間を尤度最大化基準に基づいてクラスタリングす
ることが考えられる。すなわちセグメント集合を、次式
の尤度最大化基準によるＬＢＧアルゴリズム（例えば、
従来技術文献１３「中川聖一著，“確率モデルによる音
声認識”，ｐｐ．２７−２８，電子情報通信学会発行，
昭和６３年７月１日」参照。）を用いて複数Ｍ個にクラ
スタリングする。ここで、尤度Ｐは次式で表わすことが
できる。

【００３３】

【数１３】

【００３４】ここで、μ_cはクラスタの平均軌跡ベクト
ルであり、Σ_cはクラスタの共分散行列である。ここ
で、各クラスタの重みｗ_nは、次式で表わすことができ
る。

【００３５】

【数１４】

【００３６】ここで、Ｎ_iは、それぞれのクラスタ内の
学習セグメント数を表す。

【００３７】第１の実施形態において、特徴パラメータ
のベクトル系列の平均値は、数８で表される平均値を、
例えば、直線又は曲線で所定の回帰分析法により回帰し
て、回帰係数を求める。また、分散は、数９で表され、
各クラスタの重みｗ_nは数１４で表される。さらに、継
続時間長分布は、各音素ラベルに対する学習データから
得られる頻度を総数で除したものを音素ごとに計算する
ことにより表される。

【００３８】＜ＥＭアルゴリズムを用いたモデルの再推
定（第２の実施形態）＞多混合の場合、上述したクラス
タリング結果は、モデルパラメータの最尤推定値とはな
らない。そこで、ＨＭＭの場合と同様に、ＥＭアルゴリ
ズムを用いた繰り返し手法に基づいてパラメータを再推
定し、最尤推定値を求める。セグメントモデルにおける
モデルパラメータの再推定を行なうに際し、ＨＭＭの場
合と同様に次式で与えられるＱ関数を導入する。モデル
パラメータΦｂ，Φに対する対数尤度の期待値を表わす
Ｑ（Φb，Φ）は次式で表わすことができる。

【００３９】

【数１５】

【００４０】ここで、Φ及びΦbはそれぞれ現在のモデ
ル、再推定後のモデルを表し、ｋは混合分布のインデッ
クスを表す。また、Ｐ（ｙ₁ ^L，Ｌ，ｋ｜Φb）はモデル
パラメータΦbを用いた場合の長さＬの観測系列ｙ₁ ^Lが
インデックスｋから出力される確率を表し、Ｅ［Ａ│
Ｂ］はＢの条件におけるＡの期待値を表わす。本実施形
態においては、１つの音響単位（例えば音素である。）
に対して、１つのセグメントモデル（すなわち、状態数
が１となる。）でモデル化することを考えているため、
通常のＨＭＭにおけるＥＭアルゴリズムの状態の総和は
出てこない。ここで、ｌｏｇＰ（ｙ₁ ^L，Ｌ，ｋ｜Φb）
は次式で表わすことができる。

【００４１】

【数１６】

【００４２】上記数１６において、右辺第１項は再推定
後のモデルの出力確率の対数尤度を、第２項は再推定後
のモデルから継続時間長Ｌを出力する対数尤度を、第３
項は再推定後のｋ番目のモデルが出力される対数尤度を
表す。ここで、第２項は、着目しているモデルパラメー
タの平均Ｂ_k，分散Σ_k，重みｗ_kに依存しない。すなわ
ち再推定の有無によらない一定の値をとるため、結局、
上記数１５の最大化は、次式の数１７をモデルパラメー
タの平均Ｂ_k，分散Σ_kについて最大化し、次式の数１８
をモデルパラメータの重みｗ_kについて最大化すること
と等価になる。

【００４３】

【数１７】

【数１８】

【００４４】上記数１７及び数１８における｛Ｐ（ｋ，
ｙ₁ ^L｜Φ）／Ｐ（ｙ₁ ^L｜Φ）｝は、現在のモデルパラメ
ータΦを用いて計算できるため、定数として扱うことが
できる。今、時刻ｔにおけるこの値をγ_k,tとすると、
これは、前向き変数α_t及び後向き変数β_tを用いて以下
のように効率的に計算できる。

【００４５】

【数１９】 γ_k,t ＝α_tβ_t+1ｗ_kｆ_k（ｙ_t+1）／Ｐ（ｙ₁ ^L｜Φ），ｔ＝１，２，…，Ｌ−１のとき＝α_L／Ｐ（ｙ₁ ^L｜Φ），ｔ＝Ｌのとき

【００４６】前向き変数α_t及び後向き変数β_tは、ＨＭ
Ｍの場合と同様に以下の再帰的計算により求められる。

【００４７】

【数２０】 α_t ＝ｆ（ｙ₁），ｔ＝１のとき＝α_t-1ｆ（ｙ_t），ｔ＝２，３，…，Ｌのとき

【数２１】 β_t ＝１，ｔ＝Ｌのとき＝β_t+1ｆ（ｙ_t+1），ｔ＝Ｌ−１，Ｌ−２，…，１のと
き

【００４８】次いで、平均軌跡の計算方法について述べ
る。まず、平均軌跡の再推定値を求めることを考える。
上記数１６及び数１７より、ｍ番目の分布に対する平均
軌跡ベクトルＢb_m＝［ｂb_m0，ｂb_m1，…，ｂb_mR］^Tの値
は、上記数１７をｂb_mrに関して偏微分したものを零と
おき、次式を解くことにより得られる。

【００４９】

【数２２】∂Ｑ₁／∂（ｂb_mr）＝０

【００５０】上記数１０及び数１７より数２２は、次式
で表わすことができる。

【００５１】

【数２３】

【００５２】ここで、上記数１１及び数３より、次式を
得ることができ、

【数２４】∂｛ｆb_m（ｙ_t）｝／∂（ｂb_mr）＝｛ｆb
_m（ｙ_t）｝Σb_m ^-1（ｙ_t−μb_m,t）｛（ｔ−１）／（Ｌ
−１）｝^r ここで、ｍ番目の分布の分散の逆数を表わすΣb_m ^-1は時
刻ｔとは独立の定数であることから、次式を求めればよ
いことになる。

【００５３】

【数２５】

【００５４】上記数２５を簡単な表現形式で記述する
と、次式で表わすことができる。

【００５５】

【数２６】ただし、

【数２７】

【数２８】

【００５６】ここで、Ｃ（ｌ）は特徴パラメータの次元
ｄに寄らないスカラー定数であり、Ｖ（ｒ）は次元依存
のベクトル定数であることに注意されたい。結局、数２
６を満たすｂb_muは、次式をｄ＝１，２，…，Ｄについ
て解くことにより得られる。

【００５７】

【数２９】

【００５８】さらに、分散の再推定値の計算方法につい
て述べる。平均軌跡の計算と同様に、上記数１６及び数
１７から、ｍ番目の分布に対する分散Σb_mの値は、数１
７をｉ行ｊ列の要素σb_mijについて偏微分したものを零
とおき、次式を解くことにより得られる。

【数３０】∂Ｑ₁／∂（σb_mij）＝０上記数１０及び数１７より上記数３０は、次式で表わす
ことができる。

【００５９】

【数３１】

【００６０】ここで、数１１より、次式で表わすことが
できるので、

【００６１】

【数３２】∂｛ｆb_m（ｙ_t）｝／∂（σb_mij）＝｛ｆb_m
（ｙ_t）｝｛−１／（２｜σb_mij｜）＋（ｙ_t−μb_m,t）
_i（ｙ_t−μb_m,t）_j／２（σb_mij）²｝

【００６２】上記数３２を数３１に代入し、両辺に−２
（σb_mij）²を乗算すると、次式を得ることができる。

【００６３】

【数３３】

【００６４】これより、上記数３３を満たすΣb_mは、次
式を計算することにより得られる。

【００６５】

【数３４】

【００６６】本来ならば、上記数３４は上記数２９から
得られた平均軌跡の結果を用いるべきであるが、ＨＭＭ
の場合現在の平均値の結果を用いた場合と大差がないこ
とが確かめられているため（従来技術文献１０参
照。）、本実施形態では現在の平均軌跡の結果を用いて
分散の再推定を行なっている。

【００６７】またさらに、重みの計算方法について述べ
る。分布ｍに対する重みｗb_mは、ＨＭＭの場合と同様に
して、公知のラグランジェの未定乗数法を用いれば、上
記数１８から、次式で表わすことができる。

【００６８】

【数３５】

【００６９】なお、初期パラメータの決定方法として
は、混合分布のセグメントモデルの初期パラメータに
は、なるべく良いものを与えることが望ましく、ここで
は、上述のクラスタリングによるモデル化で得られたパ
ラメータを初期値として与える。

【００７０】第２の実施形態において、特徴パラメータ
のベクトル系列の平均値ｂb_muは、上記数２９をｄ＝
１，２，…，Ｄについて解くことにより計算でき、計算
した平均値を、例えば、直線又は曲線で所定の回帰分析
法により回帰して、回帰係数を求める。また、分散Σb_m
は、数３４で表され、各クラスタの重みｗb_nは数３５で
表される。さらに、継続時間長分布は、各音素ラベルに
対する学習データから得られる頻度を総数で除したもの
を音素ごとに計算することにより表される。

【００７１】＜分散の時変モデル化（第３の実施形態）
＞上述のセグメントモデルでは、１つのセグメント内の
分散値が一定の値をとっていた。これは、ＨＭＭにおけ
る個々の状態がそれぞれ個別の分散値を保持できること
を考えると、分散に着目した場合、ＨＭＭの方が観測系
列の分散の時間変化の表現能力が高いということを意味
している。つまり、ＨＭＭの状態数を増加させていった
場合、セグメントモデルの認識性能がＨＭＭより劣って
しまう可能性がある。そこで、第３の実施形態では、こ
れまで分散を時不変の定数として扱っていたものを平均
軌跡と同様に、時間の関数としてモデル化することを試
みる。分散の時変モデルは、上記数１１における分散Σ
_kを時間変化の関数Σ_k,tとして表すことにより実現でき
る。

【００７２】ここで、分散Σ_kを時間変化の関数Σ_k,tは
次式で表わすことができ、

【数３６】Σ_k,t＝ｚ_L ^tＧ_k 分散軌跡をＷ次で表す場合、Ｗ次の線形回帰係数のベク
トルを表わすＧ_kは、次式で表わすことができ、

【数３７】Ｇ_k＝［ｇ_k0，ｇ_k1，…，ｇ_kW］^T ここで、ｇ_k0，ｇ_k1，…，ｇ_kWは分散軌跡の０次からＷ
次までの回帰係数を表わす。また、１からＬまでの系列
を０から１に線形伸縮する関数を表わすｚ_L ^tは上記数５
と同様に、（Ｗ＋１）次元のベクトルとして、次式で表
わすことができる。

【００７３】

【数３８】ｚ_L ^t ＝［１，０，０，…，０］，ｔ＝１のとき＝[１,(ｔ−１)／(Ｌ−１),{(ｔ−１)／(Ｌ−１)}²,…,
{(ｔ−１)／(Ｌ−１)}^W],１＜ｔ≦Ｌのとき

【００７４】分散を時変とした場合のＥＭアルゴリズム
においても、出力確率を時変の分散を用いて計算すると
いう部分のみが変わるため、平均軌跡、重みの計算は、
クラスタリングによるモデル化の方法と同様に行なうこ
とができる。ただし、分散の計算式が以下のように異な
る。

【００７５】次いで、時変分散の計算方法について述べ
る。分散の時変モデル化においても、ＥＭアルゴリズム
を用いたモデルの再推定における方法と同様に、数１６
及び数１７、ｍ番目の分布に対する分散Σｂ_m,tの値
は、上記数１７をｉ行ｊ列の要素σb_m,t,ij＝［ｓb
_m,ij0，ｓb_m,ij1，…，ｓb_m,ijW］^Tのｓb_m,ijrについて
偏微分したものを零とおき、次式を解くことにより得ら
れる。

【００７６】

【数３９】

【００７７】ただし、ここで、

【数４０】∂（ｆb_m（ｙ_t））／∂（ｓb_m,ijr）＝(ｆb_m
(ｙ_t)){−１／(２｜σb_m,t,ij｜)＋(ｙ_t−μb_m,t)_i(ｙ_t
−μb_m,t)_j／２(σb_m,t,ij)²}{(ｔ−１)／(Ｌ−１)}^r すなわち、次式を得る。

【００７８】

【数４１】

【００７９】ここで、σb_m,t,ijは時刻ｔに依存する値
であるため、線形方程式として解くことはできない。そ
こで、上記数４１における分母のσb_m,t,ijを現在の分
散軌跡σ_m,t,ijで代用するという近似手法を導入するこ
とを考える。すなわち、上記数４１を、次式として計算
する。

【００８０】

【数４２】

【００８１】このとき、ＥＭアルゴリズムを用いたモデ
ルの再推定における平均軌跡の計算方法と同様に線形方
程式として解くことができ、次式を求めればよいことに
なる。

【００８２】

【数４３】

【００８３】上記数４３を簡単な表現形式で記述する
と、次式で表わすことができる。

【００８４】

【数４４】

【００８５】ただし、

【数４５】

【数４６】ここで、である。

【００８６】ここで、Ｈ（ｌ）及びＺ（ｒ）は共に次元
依存のベクトル定数であることに注意されたい。結局、
上記数４４を満たすｓb_m,ijuは、次式をｄ＝１，２，
…，Ｄについて解くことにより得られる。

【００８７】

【数４７】

【００８８】第３の実施形態において、特徴パラメータ
のベクトル系列の平均値ｂb_muは、上記数２９をｄ＝
１，２，…，Ｄについて解くことにより計算でき、計算
した平均値を、例えば、直線又は曲線で所定の回帰分析
法により回帰して、回帰係数を求める。また、分散ｓb
_m,ijuは、数４７をｄ＝１，２，…，Ｄについて解くこ
とにより得られ、得られた分散を例えば、直線又は曲線
で所定の回帰分析法により回帰して、回帰係数を求め
る。さらに、各クラスタの重みｗb_nは数３５で表され
る。またさらに、継続時間長分布は、各音素ラベルに対
する学習データから得られる頻度を総数で除したものを
音素ごとに計算することにより表される。

【００８９】＜モデルパラメータ生成方法の要約＞図２
において、音声特徴パラメータファイルは、所定の多数
のテキストデータの文章を特定の話者が読んで図１のマ
イクロホン１に対して発声したときに、特徴抽出部３の
出力として得られる音声特徴パラメータのデータファイ
ルであって、図１の音声特徴パラメータファイルメモリ
３０に予め格納される。また、音素ラベルファイルは、
上記音声特徴パラメータファイルに対して人為的に付与
された音素ラベルのデータファイルであって、図１の音
素ラベルファイルメモリ３１に予め格納される。

【００９０】図２（ａ）は従来例に係るモデルパラメー
タ生成装置２０の入力パラメータと出力パラメータとを
示すブロック図である。図２（ａ）に示すように、モデ
ルパラメータ生成装置２０は、音声特徴パラメータファ
イルと、音素ラベルファイルと、予め決められた状態数
と、予め決められた混合数とに基づいて、数８及び数９
を用いてモデルパラメータの生成を行って、モデルパラ
メータとして、平均値、分散、遷移確率及び重みを出力
する。

【００９１】これに対して、図２（ｂ）は第１の実施形
態に係るモデルパラメータ生成装置２０ａの入力パラメ
ータと出力パラメータとを示すブロック図である。図２
（ｂ）に示すように、モデルパラメータ生成装置２０ａ
は、音声特徴パラメータファイルと、音素ラベルファイ
ルと、予め決められてキーボード４０を用いて入力され
た混合数とに基づいて、数１３及び数１４を用いてモデ
ルパラメータの生成を行って、モデルパラメータとし
て、平均値の回帰係数、分散、重み、及び継続時間長分
布を出力する。ここで、継続時間長分布は、各音素ラベ
ルに対する学習データから得られる頻度を総数で除した
ものを音素ごとに計算することにより表される。すなわ
ち、第１の実施形態では、所定のテキストに対する複数
の音素を含む音声特徴パラメータとそれに対して付与さ
れた音素ラベルデータとに基づいて、各音素ラベル毎
に、隠れマルコフモデルの平均値を時間の相対的な関数
としてモデル化した所定の確率的セグメントモデルの平
均と分散を計算した後、所定の混合数になるまで尤度最
大化基準による所定のクラスタリング方法により各音声
特徴パラメータを複数のクラスタにクラスタリングし
て、各クラスタの重みを計算し、各クラスタに対する平
均、分散、及び重みを含むモデルパラメータを有する混
合分布の確率的セグメントモデルを生成する。

【００９２】図２（ｃ）は第２の実施形態に係るモデル
パラメータ生成装置２０ｂの入力パラメータと出力パラ
メータとを示すブロック図である。図２（ｃ）に示すよ
うに、モデルパラメータ生成装置２０ｂは、音声特徴パ
ラメータファイルと、音素ラベルファイルと、予め決め
られてキーボード４０を用いて入力された混合数とに基
づいて、数２９、数３４及び数３５を用いてモデルパラ
メータの生成を行って、モデルパラメータとして、平均
値の回帰係数、分散、重み、及び継続時間長分布を出力
する。すなわち、第２の実施形態においては、第１の実
施形態の方法によって生成された混合分布の確率的セグ
メントモデルに基づいて、所定のＥＭアルゴリズムを用
いて、推定後の確率的セグメントモデルの出力確率の対
数尤度と推定後の確率的セグメントモデルからの所定の
継続時間長を出力する対数尤度と推定後の所定番目の確
率的セグメントモデルが出力される対数尤度を含む尤度
値が最大となるように最尤推定することにより、各音素
ラベル毎に、各クラスタに対する平均、分散、及び重み
を含むモデルパラメータを有する混合分布の確率的セグ
メントモデルを生成する。

【００９３】図２（ｄ）は第３の実施形態に係るモデル
パラメータ生成装置２０ｃの入力パラメータと出力パラ
メータとを示すブロック図である。図２（ｄ）に示すよ
うに、モデルパラメータ生成装置２０ｃは、音声特徴パ
ラメータファイルと、音素ラベルファイルと、予め決め
られてキーボード４０を用いて入力された混合数とに基
づいて、数２９、数４７及び数３５を用いてモデルパラ
メータの生成を行って、モデルパラメータとして、平均
値の回帰係数、分散の回帰係数、重み、及び継続時間長
分布を出力する。すなわち、第３の実施形態では、第１
の実施形態又は第２の実施形態の方法によって生成され
た混合分布の確率的セグメントモデルに基づいて、各ク
ラスタに対する分散を時間変化の関数として表した分散
を計算することにより、各音素ラベル毎に、各クラスタ
に対する平均、分散、及び重みを含むモデルパラメータ
を有する混合分布の確率的セグメントモデルを生成す
る。

【００９４】以上の各実施形態において、モデルパラメ
ータとして継続時間長分布を検出して出力しているが、
本発明はこれに限らず、モデルパラメータとして継続時
間長分布を含まず出力しなくてもよい。

【００９５】＜各実施形態のモデルパラメータ生成処理
＞図３は、第１の実施形態であるモデルパラメータ生成
装置２０ａによって実行される第１のモデルパラメータ
生成処理を示すフローチャートである。

【００９６】図３において、まず、ステップＳ１におい
て、複数の音素ラベルのうち１つの対象音素ラベルを選
択してその音声特徴パラメータを、音素ラベルファイル
３１を参照して音声特徴パラメータファイルメモリ３０
から読み出す。次いで、ステップＳ２では、対象音素ラ
ベルに属する全音声特徴パラメータに基づいて数８及び
数９を用いて、平均Ｂhと分散Σhを計算する。さらに、
ステップＳ３において、（Ｂh，Σh）を有するクラスタ
Ｃ１と、（Ｂh＋σ，Σh＋σ）を有するクラスタＣ２と
に２分割する。ここで、σは予め設定された微小値（例
えば０．００１）である。次いで、ステップＳ４で、各
音声特徴パラメータはクラスタＣ１とクラスタＣ２のど
ちらに属するかをマハラノビル距離などによる方法を用
いて距離を計算することにより決定する。すなわち、各
音声特徴パラメータは距離が短い方のクラスタに帰属さ
れる。さらに、ステップＳ５では、クラスタＣ１及びＣ
２に属する音声特徴パラメータを用いて再度それぞれの
平均Ｂhと分散Σhを数８及び数９を用いて計算する。そ
して、ステップＳ６では、クラスタ数が予め決められた
混合数以上になったか否かが判断される。クラスタ数＜
混合数のときは、ステップＳ７で各クラスタに対して数
１３を用いて尤度Ｐを計算し、尤度値Ｐが最小のクラス
タを次の分割対象とし、ステップＳ３に戻り、上記の処
理を繰り返す。

【００９７】一方、ステップＳ６でクラスタ数≧混合数
であるときは、ステップＳ８で各クラスタのセグメント
数に基づいて数１４を用いて重みｗ_nを計算する。そし
て、ステップＳ９ですべての音素ラベルについて処理が
終了したか否かが判断され、終了していないときは、ス
テップＳ１０で次の１つの対象音素ラベルを選択して音
素ラベルファイル３１を参照して音声特徴パラメータフ
ァイルメモリ３０から読み出す。一方、ステップＳ９
で、終了しているときは、ステップＳ１１で生成された
モデルパラメータを図１のモデルパラメータメモリ３２
に出力して書き込む。

【００９８】図４は、第２の実施形態であるモデルパラ
メータ生成装置２０ｂによって実行される第２のモデル
パラメータ生成処理を示すフローチャートである。

【００９９】図４において、まず、ステップＳ２１で図
３の第１のモデルパラメータ生成処理を実行する。次い
で、ステップＳ２２で複数の音素ラベルのうち１つの対
象音素ラベルを選択してモデルパラメータを、モデルパ
ラメータメモリ３２から読み出す。ステップＳ２３で混
合数パラメータｍを１に設定し、ステップＳ２４でｍ番
目の混合分布のモデルパラメータを対象とする。そし
て、ステップＳ２５で繰り返し数を示すパラメータｉを
１に設定し、ステップＳ２６で生成対象音素ラベルに属
する全特徴パラメータと現在のモデルパラメータとに基
づいて数２９、数３４及び数３５を用いて平均ｂb_mu、
分散Σb_m及び重みｗb_mを計算する。さらに、ステップＳ
２７でパラメータｉが予め決められてキーボード４０を
用いて入力された繰り返し回数以上となったか否かが判
断され、繰り返し回数未満であるときは、ステップＳ２
８でパラメータｉを１だけインクリメントしてステップ
Ｓ２６に戻り、上記の処理を繰り返す。

【０１００】一方、ステップＳ２７でパラメータｉが繰
り返し回数以上となったときに、ステップＳ２９で混合
数パラメータｍが予め決められてキーボード４０を用い
て入力された混合数Ｍ以上となったか否かが判断され
る。混合数Ｍ未満であるときは、ステップＳ３０で混合
数パラメータｍを１だけインクリメントしてステップＳ
２４に戻り、上記の処理を繰り返す。一方、ステップＳ
２９でｍ≧Ｍであるときは、ステップＳ３１ですべての
音素ラベルについて処理が終了したか否かが判断され、
終了していないときは、ステップＳ３２で、次の１つの
対象音素ラベルを選択して音声特徴パラメータを、音素
ラベルファイルメモリ３１を参照して音声特徴パラメー
タファイルメモリ３０から読み出す。そして、ステップ
Ｓ２３に戻り、上記の処理を繰り返す。一方、ステップ
Ｓ３１で終了したときは、ステップＳ３３で生成された
モデルパラメータをモデルパラメータメモリ３２に出力
して書き込む。

【０１０１】図５は、第３の実施形態であるモデルパラ
メータ生成装置２０ｃによって実行される第３のモデル
パラメータ生成処理を示すフローチャートである。

【０１０２】図５において、まず、ステップＳ４１で図
３の第１のモデルパラメータ生成処理又は図４の第２の
モデルパラメータ生成処理を実行する。次いで、ステッ
プＳ４２で複数の音素ラベルのうち１つの対象音素ラベ
ルを選択してモデルパラメータを、モデルパラメータメ
モリ３２から読み出す。ステップＳ４３で混合数パラメ
ータｍを１に設定し、ステップＳ４４でｍ番目の混合分
布のモデルパラメータを対象とする。そして、ステップ
Ｓ４５で繰り返し数を示すパラメータｉを１に設定し、
ステップＳ４６で生成対象音素ラベルに属する全特徴パ
ラメータと現在のモデルパラメータとに基づいて数２
９、数４７及び数３５を用いて平均ｂb_mu、分散ｓb
_m,iju及び重みｗb_mを計算する。さらに、ステップＳ４
７でパラメータｉが予め決められてキーボード４０を用
いて入力された繰り返し回数以上となったか否かが判断
され、繰り返し回数未満であるときは、ステップＳ４８
でパラメータｉを１だけインクリメントしてステップＳ
４６に戻り、上記の処理を繰り返す。

【０１０３】一方、ステップＳ４７でパラメータｉが繰
り返し回数以上となったときに、ステップＳ４９で混合
数パラメータｍが予め決められてキーボード４０を用い
て入力された混合数Ｍ以上となったか否かが判断され
る。混合数Ｍ未満であるときは、ステップＳ５０で混合
数パラメータｍを１だけインクリメントしてステップＳ
４４に戻り、上記の処理を繰り返す。一方、ステップＳ
４９でｍ≧Ｍであるときは、ステップＳ５１ですべての
音素ラベルについて処理が終了したか否かが判断され、
終了していないときは、ステップＳ５２で、次の１つの
対象音素ラベルを選択して音声特徴パラメータを、音素
ラベルファイルメモリ３１を参照して音声特徴パラメー
タファイルメモリ３０から読み出す。そして、ステップ
Ｓ４３に戻り、上記の処理を繰り返す。一方、ステップ
Ｓ５１で終了したときは、ステップＳ５３で生成された
モデルパラメータをモデルパラメータメモリ３２に出力
して書き込む。

【０１０４】第３の実施形態においては、図５のステッ
プＳ４１に示すように、第１の実施形態に係る第１のモ
デルパラメータ生成処理を実行して得られたモデルパラ
メータに基づいて、第３の実施形態に係るモデルパラメ
ータ生成処理を実行してもよいし、もしくは、第２の実
施形態に係る第２のモデルパラメータ生成処理を実行し
て得られたモデルパラメータに基づいて、第３の実施形
態に係るモデルパラメータ生成処理を実行してもよい。

【０１０５】＜自由発話音声認識装置＞次いで、図１に
示す自由発話音声認識装置の構成及び動作について説明
する。図１において、文字列からなる発声音声文である
話者の発声音声はマイクロホン１に入力されて音声信号
に変換された後、Ａ／Ｄ変換部２に入力される。Ａ／Ｄ
変換部２は、入力された音声信号を所定のサンプリング
周波数でＡ／Ｄ変換した後、変換後のデジタルデータを
特徴抽出部３に出力する。次いで、特徴抽出部３は、入
力される音声信号のデジタルデータに対して、例えばＬ
ＰＣ分析を実行し、１０次元のＭＦＣＣとパワーとを含
む１１次元の特徴パラメータを抽出する。抽出された特
徴パラメータの時系列はバッファメモリ４を介して単語
レベル照合部５に入力される。

【０１０６】単語モデル生成部１０は、モデルパラメー
タメモリ３２に格納されたモデルパラメータに基づい
て、尤度最大の単語モデル生成処理を以下の如く実行し
て単語モデルを生成する。すなわち、上記モデルパラメ
ータにおける同一の単語である複数Ｎ個の単語の音響的
特徴量から最大尤度を有する当該単語の代表の音素ラベ
ルのサンプルを検出し、検出された代表の音素ラベルの
サンプルと、複数Ｎ個の単語の音素ラベルのサンプルと
の時間的な対応付けを動的時間整合法により行って時間
的に正規化を行い、時間的に正規化された代表の音素ラ
ベルのサンプルと、上記複数Ｎ個の音素ラベルのサンプ
ルとを各単語毎に混合することにより、単語毎に音響的
特徴量を含む単語モデルを生成して、単語モデルメモリ
７に格納する。要約すれば、単語モデル生成部１０は、
上記生成された混合分布の確率的セグメントモデルに基
づいて、上記テキストの各単語毎の音声特徴パラメータ
を含む単語モデルを生成する。

【０１０７】単語レベル照合部５に接続される単語モデ
ルメモリ７内の単語モデルは、前後の音素環境を連結す
る環境依存型音素モデルが縦続に連結されてなり、かつ
縦続に連結された複数の状態を含んで構成され、各状態
はそれぞれ以下の情報を有する。（ａ）状態番号、（ｂ）１１次元の音響的特徴量の平均
値、（ｃ）１１次元の音響的特徴量の分散、（ｄ）継続
時間、（ｅ）各クラスタの重み、及び、（ｆ）音素ラベ
ルに対応するセグメントコード。

【０１０８】単語レベル照合部５と文レベル照合部６と
は音声認識回路部を構成し、文レベル照合部６には、品
詞や単語の出力確率及び品詞間や単語間の遷移確率など
を含み文法規則メモリ８に記憶された文法規則と、シソ
ーラスの出力確率や対話管理規則を含み意味的規則メモ
リ９に記憶された意味的規則とが連結される。単語レベ
ル照合部５は、入力された音響的特徴量の時系列を上記
メモリ７内の単語モデルと照合して少なくとも１つの音
声認識候補単語を検出し、検出された候補単語に対して
尤度を計算し、最大の尤度を有する候補単語を認識結果
の単語として文レベル照合器６に出力する。さらに、文
レベル照合器６は入力された認識結果の単語に基づい
て、上記文法規則と意味的規則とを含む言語モデルを参
照して文レベルの照合処理を実行することにより、最終
的な音声認識結果の文を出力する。もし、言語モデルで
適合受理されない単語があれば、その情報を単語レベル
照合器５に帰還して再度単語レベルの照合を実行する。
単語レベル照合部５と文レベル照合部６は、複数の音素
からなる単語を順次連接していくことにより、自由発話
の連続音声の認識を行い、その音声認識結果データを出
力する。

【０１０９】以上のように構成された自由発話音声認識
装置において、Ａ／Ｄ変換部２と、特徴抽出部３と、単
語レベル照合部５と、文レベル照合部６と、単語モデル
生成部１０と、モデルパラメータ生成部２０ａ，２０
ｂ，２０ｃとはそれぞれ、例えば、デジタル計算機によ
って構成される。また、バッファメモリ４と、文法規則
メモリ８と、意味的規則メモリ９と、音声特徴パラメー
タファイルメモリ３０と、音素ラベルファイルメモリ３
１と、モデルパラメータメモリ３２と、単語モデルメモ
リ７とはそれぞれ、例えば、ハードディスクメモリによ
って構成される。

【０１１０】＜モデル化の例＞図６は、第１の実施形態
のセグメントモデルによるメルケプストラム係数の１次
及び２次の係数ＣＣ１，ＣＣ２の平均値の時間変化のモ
デル化の一例を示すグラフである。図６において、太線
は観測系列であり、点線は回帰係数０次によるモデル化
の一例であり、破線は回帰係数１次によるモデル化の一
例であり、一点鎖線は回帰係数２次によるモデル化の一
例である。図６から明らかなように、回帰係数の次数を
大きくしていくに従がって、観測系列とのずれが小さく
なっていくことが分かる。

【０１１１】図７（ａ）は第２の実施形態のＥＭ法によ
る推定値モデルによるメルケプストラム係数の１次及び
２次の係数ＣＣ１，ＣＣ２の平均値の時間変化のモデル
化の一例を示すグラフであり、図７（ｂ）は第３の実施
形態の分散の時変モデルによるメルケプストラム係数の
１次及び２次の係数ＣＣ１，ＣＣ２の平均値の時間変化
のモデル化の一例を示すグラフである。図７において、
太線は平均軌跡のモデル化の一例であり、一点鎖線は平
均軌跡±σのモデル化の一例である。ここで、σは標準
偏差である。図７から明らかなように、（ａ）のＥＭ法
ではセグメントの全区間の渡って標準偏差が一定（すな
わち分散が一定）であるが、（ｂ）の分散の時変モデル
ではセグメントの初め（規格化時間０付近）及び終り
（規格化時間１．０付近）の分散が中心部分（規格化時
間０．５付近）よりも大きくなっていることが分かる。

【０１１２】

【実施例】さらに、本発明者による、図１の自由発話音
声認識装置を用いて実験を行った結果について述べる。
本発明者は、上述の第１の実施形態に係るクラスタリン
グによるモデル化（以下、クラスタリング法とい
う。）、第２の実施形態に係るＥＭアルゴリズムを用い
たモデルの再推定（以下、再推定法という。）、及び第
３の実施形態に係る分散の時変モデル化の効果を調べる
ために、英語の不特定話者音声データベースのＴＩＭＩ
Ｔ（ＴＩ及びＭＩＴの略である。）データベースを用い
た母音識別実験を行なった。

【０１１３】まず、実験条件及び音声資料について述べ
る。音声資料は本出願人が所有するＴＩＭＩＴデータベ
ースの音素ラベル情報を用いて切り出した１６母音を用
いた。これは、Ｇｉｓｈ（従来技術文献４）やＢａｃｃ
ｈｉａｎｉ（従来技術文献１２）らが、混合分布セグメ
ントモデルの説明で述べたセグメントモデルにより、同
様の音声資料を用いて認識実験を行なっており、比較が
行なえるようにするためである。音素ラベル情報から、
４５ミリ秒以上の母音を学習（ＴＩＭＩＴデータベース
中のトレイン（train）データ全て）及び識別（ＴＩＭ
ＩＴデータベース中のテストデータ全て）に用いた。こ
こで、４５ミリ秒以上のデータを用いたのは、従来例の
ＨＭＭとの比較を行なう際に、状態数を増加させた場合
でも学習及び音素識別に使用するサンプル数を同数にす
るためである。また、学習、音素識別に用いた母音デー
タの総数はそれぞれ４１，０１４個、１４，９８１個で
ある。

【０１１４】次いで、特徴パラメータ抽出においては、
上述のように切り出されたサンプリング周波数１６ｋＨ
ｚの母音波形に対して、分析窓長２５．６ミリ秒、フレ
ーム周期５ミリ秒により、分析次数１０次のメルケプス
トラム分析（ＭＦＣＣ）（例えば、従来技術文献１０参
照。）を行なった。そして、尤度計算においては、セグ
メントの境界は既知であるため、長さＬの音素識別対象
セグメントｋに対して、次式の尤度が最大となるモデル
ｍhを識別結果とした。

【０１１５】

【数４８】

【０１１６】ここで、関数ａｒｇｍａｘ（・）は引数を
最大にするｍの値を表わす関数である。上記数４８の右
辺は、対数をとっても大小関係は変わらないので、次式
を得ることができる。

【０１１７】

【数４９】

【０１１８】ここで、上記数４９の右辺第１項は出力確
率の対数尤度であり、上記数１０により計算され、第２
項は学習データの継続時間長分布のヒストグラムから得
られる対数尤度である。ここで、クラスタリング法、再
推定法、分散の時変モデル化の比較のための音素識別実
験においては、正確にこれらの効果を測定するために、
上記数４９の右辺第２項、すなわち継続時間長分布は用
いていない。次に、ＨＭＭとの比較のために、分散の時
変モデルにおいて、継続時間長分布を用いた実験を行な
った。ここで、ｌｏｇＰ（ｋ｜ｍ，Ｌ）とｌｏｇＰ（Ｌ
｜ｍ）のダイナミックレンジを合わせるために、ｌｏｇ
Ｐ（ｋ｜ｍ，Ｌ）をセグメント長Ｌで割ったものとｌｏ
ｇＰ（Ｌ｜ｍ）との和で尤度計算を行なった。

【０１１９】さらに、実験結果及び考察、再推定の効果
について述べる。上述のＥＭアルゴリズムを用いたモデ
ルの再推定（第２の実施形態）の説明で述べた、クラス
タリング法による結果を表１に示し、第２の実施形態に
係るＥＭアルゴリズムを用いたモデルの再推定を行なっ
た結果を表２に示す。ＥＭアルゴリズムの初期値にはク
ラスタリングによる結果を与えた。ここで、１混合分布
の場合は、クラスタリングによるモデルパラメータと、
ＥＭアルゴリズムによるものは同じになることに注意さ
れたい。

【０１２０】

【表１】クラスタリング法による母音識別率（％） ─────────────────────────────────── 回帰次数混合数 ────────────────────────────── １３５７９ ─────────────────────────────────── ０４４．２４４．６４４．８４５．３４５．８１５１．０５２．９５４．８５４．６５４．６２５２．５５４．２５６．２５６．２５７．０ ───────────────────────────────────

【０１２１】

【表２】再推定法による母音識別率（％） ─────────────────────────────────── 回帰次数混合数 ────────────────────────────── １３５７９ ─────────────────────────────────── ０４４．２４６．７４６．７４７．０４７．５１５１．０５３．３５３．９５３．９５４．７２５２．５５４．６５５．６５６．１５６．５ ───────────────────────────────────

【０１２２】表１、表２の両方の結果から、次のことが
わかる。（１）混合数を増加させていくに従い母音識別率が改善
されている。（２）回帰次数が高次になるほど高い母音識別率が得ら
れている。

【０１２３】また、回帰係数を０次から１次へ変化させ
た場合の母音識別率の改善効果は大きいが、１次を２次
とした時はさほど大きくない。これは、回帰次数を更に
大きく（３次以上）していっても、識別性能の向上はさ
ほど見込めないことを示唆していると考えられる。ま
た、表１と表２とを比較すると、回帰次数が０次の場合
は、全ての混合数においてＥＭアルゴリズムにより母音
識別率が向上しているが、１次、２次の場合はむしろ悪
くなっているものもあり、再推定による効果はあまり見
られなかった。これは、クラスタリング法を行なう際の
音素セグメントがハンドラベルによる質の良いデータと
して与えられたためであると思われる。

【０１２４】次いで、上述の分散の時変モデル化（第３
の実施形態）についても同様の母音識別実験を行なっ
た。これまでのモデルでは、分散が時間不変の一定値を
とっていたのに対し、この結果は、分散を時間と共に変
化する軌跡として、ＥＭアルゴリズムの再推定を行なっ
たものである。ここで、平均及び分散の軌跡の回帰次数
は共に２としている。本実施形態では、音素環境非依存
の音素モデルを１状態のセグメントモデルでモデル化し
ているため、音素の入り渡り、出渡りにおける分散は、
音素の中心付近の分散よりも一般に値が大きくなると予
想される。この現象をモデル化するためには、分散の軌
跡の回帰次数を最低２次とする必要があると考えられる
ため、ここでは２次とした。また、初期値はクラスタリ
ングによる結果を与えた。すなわち、数３７における初
期値のｇ_k1，ｇ_k2は共に０とした。この場合の母音識別
結果を表３に示す。

【０１２５】

【表３】分散の時変モデル化による母音識別率（％）（継続時間確率なし） ─────────────────────────────────── 回帰次数混合数 ────────────────────────────── １３５７９ ─────────────────────────────────── ２５３．０５５．０５６．１５６．７５７．２ ───────────────────────────────────

【０１２６】表３を、表２の分散を時不変とした再推定
による結果（平均軌跡の回帰次数＝２）と比較すると、
全ての混合数において母音識別率が向上していることか
ら、分散の時変モデル化は、識別性能の観点からも有効
であると考えられる。

【０１２７】次いで、ＨＭＭとセグメントモデルの母音
識別結果を比較・検討するために、ＨＭＭを用いた同様
の識別実験を行なった。学習方法及び母音認識方法とし
て、図１を参照して示した従来技術文献１０の方法を用
いた。状態数１、３、５、７、９の母音識別結果を表４
に示す。

【０１２８】

【表４】ＨＭＭによる母音識別率（％） ─────────────────────────────────── 状態数混合数 ────────────────────────────── １３５７９ ─────────────────────────────────── １４４．３４６．８４６．６４７．０４７．３３５１．０５１．６５３．３５４．０５４．１５５２．９５５．１５５．８５６．４５６．７７５４．５５６．４５７．３５８．１５７．９９５５．５５８．３５８．５５９．５５９．５ ───────────────────────────────────

【０１２９】表４に示す結果から、次のことが言える。（１）いずれの状態数においても混合数７で飽和してい
る。（２）状態数の増加による母音識別率の改善は徐々に小
さくなっているが、飽和しているとは言えない。しかしながら、これ以上、状態数を増加させると、発話
スピードの速い（すなわち９フレーム程度の）音声の識
別が困難となるため、９状態（４５ミリ秒）程度までが
適切であると考えられる。

【０１３０】次に、表３の結果の分散の時変モデル化に
よって得られたセグメントモデルに対して、継続時間長
分布も考慮して母音識別実験を行なった結果を表４に示
す。

【０１３１】

【表５】分散の時変モデル化（回帰次数＝２）による母音識別率（％）（継続時間確率あり） ─────────────────────────────────── 状態数混合数 ────────────────────────────── １３５７９ ─────────────────────────────────── ２５６．６５７．８５９．０５９．６５９．８ ───────────────────────────────────

【０１３２】表５を表３と比較すると、全ての混合数に
おいて３％程度母音識別率が向上していることが分か
る。これは、継続時間長分布が実際のセグメント長の分
布により表されている効果であると考えられる。次に、
表５と表３を比較すると、分散の時変モデル化によって
得られたセグメントモデルは、全ての混合数において９
状態のＨＭＭと同程度の高い識別性能を示していること
が分かる。ところで、状態数を９としたＨＭＭでは９フ
レーム以上のデータに対してのみしか尤度計算が行なえ
ない。よって、８フレーム以下のデータに対しても認識
を行なうためには、ＨＭＭの状態のスキップを許すナル
遷移を入れた構造にするか、状態数を減らすという方法
が一般に取られる。例えば、３フレーム以上のデータに
対して尤度を計算するためには（回帰次数２次のセグメ
ントモデルは３フレーム以上のデータに対して尤度が計
算できる。）、３状態のＨＭＭを用いる必要があり、こ
の場合、セグメントモデルの識別性能は、ＨＭＭに比べ
て全ての混合数において５％以上母音識別率が良いとい
うことも分かる。

【０１３３】以上説明したように、本発明に係る実施形
態においては、確率的セグメントモデルの認識性能向上
を目的として、混合分布モデルの作成方法を述べた。混
合分布モデルの作成方法として、第１の実施形態に係る
セグメントのクラスタリングによる方法、第２の実施形
態に係るＥＭアルゴリズムを用いたモデルの再推定によ
り混合分布を求める方法、第３の実施形態に係る、平均
に加えて分散も時間変化の軌跡としてモデル化し、ＥＭ
アルゴリズムによるモデルの再推定を行なう方法の３つ
の手法を述べた。そして、ＴＩＭＩＴデータベースを用
いた母音識別実験を行なった結果、セグメントモデルの
混合数を増加させることにより、音素識別率が向上する
ことが確かめられた。また、第３の実施形態に係る分散
の時変モデル化は、第１及び第２の実施形態の方法に比
べて高い識別性能が得られ、このモデル化が有効である
ことが示された。また、ＨＭＭとの結果の比較により、
１つの音素を１状態で平均及び分散の軌跡を回帰次数２
次でモデル化したセグメントモデルは、９状態のＨＭＭ
と同程度の高い識別性能を示すことが分かった。

【０１３４】本実施形態の効果を要約すれば、以下の通
りである。（Ａ）従来技術のＨＭＭよりも少ないモデルパラメータ
数で確率的セグメントモデルを生成することができ、当
該確率的セグメントモデルに基づいて生成された単語モ
デルを用いて音素認識することにより、従来例に比較し
て音素認識率を改善することができる。（Ｂ）上述の理論的な定式化により、混合分布の確率的
セグメントモデルのモデルパラメータを手作業によら
ず、自動的に決定できるので、生成コストを小さくする
ことができる。

【０１３５】以上の実施形態において、音素に対して混
合分布セグメントモデルを作成したが、本発明はこれに
限らず、音素に限定せず、例えば、音響的特徴量に基づ
くセグメント単位（ＡＳＵ）をセグメントモデルでモデ
ル化し、このモデルを用いて音声認識してもよい（例え
ば、従来技術文献１１「深田俊明ほか，“音響的セグメ
ント単位を用いた自由発話音声認識”，日本音響学会講
演論文集，１−５−１６，１９９６年３月」及び従来技
術文献１２参照。）。当該変形例の音声認識装置におい
ては、以下のようにして、音響的特徴量に基づくセグメ
ント単位に基づいた単語モデルを作成して音声認識す
る。

【０１３６】（１）予め生成された音響的特徴量に基づ
くセグメント単位の最尤セグメントコード系列と、単語
毎の各音素の時間を含む音素データベースとを比較する
ことにより、処理音素の前後のコンテキスト環境が一致
する複数Ｍ個のセグメントコードのサンプルを検出し、
検出された複数Ｍ個のセグメントコードのサンプルの中
から最大尤度を有する代表のセグメントコードのサンプ
ルを検出し、上記代表のセグメントコードのサンプル
と、上記複数Ｍ個のセグメントコードのサンプルとの間
の時間的な対応付けを動的時間整合法により行って時間
的に正規化を行い、時間的に正規化された代表のセグメ
ントコードのサンプルと、上記複数Ｍ個のセグメントコ
ードのサンプルとを各単語毎に混合することにより、処
理音素の前後のコンテキスト環境が一致する音素列毎に
音響的特徴量を含む各単語の音素モデルを生成する。こ
こで、好ましくは、処理音素の前後のコンテキスト環境
が一致する度合いに応じた混合比率を用いて、時間的に
正規化された代表のセグメントコードのサンプルと、上
記複数Ｍ個のセグメントコードのサンプルとを各単語毎
に混合する。（２）上記音素データベースにおける同一の単語である
複数Ｎ個の単語の音響的特徴量から最大尤度を有する当
該単語の代表のセグメントコードのサンプルを検出し、
検出された代表のセグメントのサンプルと、複数Ｎ個の
単語のセグメントコードのサンプルとの時間的な対応付
けを動的時間整合法により行って時間的に正規化を行
い、時間的に正規化された代表のセグメントコードのサ
ンプルと、上記複数Ｎ個のセグメントコードのサンプル
とを各単語毎に混合することにより、単語毎に音響的特
徴量を含む第１の単語モデルを生成する。（３）複数の単語の学習用テキストデータから各単語を
読み出して、上記音素データベース中の各同一単語の複
数の音素モデルを組み合わせることにより、各単語毎に
音響的特徴量を含む第２の単語モデルを生成する。（４）上記第１の単語モデルと上記第２の単語モデルと
を、当該モデルの音響的特徴量を用いて時間的な対応付
けを動的時間整合法により行って時間的に正規化を行
い、時間的に正規化された第１と第２の単語モデルを混
合することにより、単語毎に音響的特徴量を含む第３の
単語モデルを生成する。ここで、好ましくは、学習用テ
キストデータ中に存在する生成すべき単語モデルの単語
のデータ量に応じた混合比率を用いて、時間的に正規化
された第１と第２の単語モデルを混合する。（５）そして、上記作成された第３の単語モデルを用い
て、入力された文字列からなる発声音声文の音声信号を
音声認識する。

【０１３７】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の音声認識のための単語モデル生成装置は、所定
のテキストに対する複数の音素を含む音声特徴パラメー
タとそれに対して付与された音素ラベルデータとに基づ
いて、各音素ラベル毎に、観測系列の平均値を時間の相
対的な関数としてモデル化した所定の確率的セグメント
モデルの平均と分散を計算した後、所定の混合数になる
まで尤度最大化基準による所定のクラスタリング方法に
より各音声特徴パラメータを複数のクラスタにクラスタ
リングして、各クラスタの重みを計算し、各クラスタに
対する平均、分散、及び重みを含むモデルパラメータを
有する混合分布の確率的セグメントモデルを生成する第
１の生成手段と、上記第１の生成手段によって生成され
た混合分布の確率的セグメントモデルに基づいて、上記
テキストの各単語毎の音声特徴パラメータを含む単語モ
デルを生成する第２の生成手段とを備える。従って、従
来技術のＨＭＭよりも少ないモデルパラメータ数で確率
的セグメントモデルを生成することができ、当該確率的
セグメントモデルに基づいて生成された単語モデルを用
いて音素認識することにより、従来例に比較して音素認
識率を改善することができる。また、上述の理論的な定
式化により、混合分布の確率的セグメントモデルのモデ
ルパラメータを手作業によらず、自動的に決定できるの
で、生成コストを小さくすることができる。

【０１３８】また、請求項２記載の単語モデル生成装置
においては、請求項１記載の単語モデル生成装置におい
て、上記第１の生成手段によって生成された混合分布の
確率的セグメントモデルに基づいて、所定のＥＭアルゴ
リズムを用いて、推定後の確率的セグメントモデルの出
力確率の対数尤度と推定後の確率的セグメントモデルか
らの所定の継続時間長を出力する対数尤度と推定後の所
定番目の確率的セグメントモデルが出力される対数尤度
を含む尤度値が最大となるように最尤推定することによ
り、各音素ラベル毎に、各クラスタに対する平均、分
散、及び重みを含むモデルパラメータを有する混合分布
の確率的セグメントモデルを生成する第３の生成手段を
備え、上記第２の生成手段は、上記第３の生成手段によ
って生成された混合分布の確率的セグメントモデルに基
づいて、上記テキストの各単語毎の音声特徴パラメータ
を含む単語モデルを生成する。従って、従来技術のＨＭ
Ｍよりも少ないモデルパラメータ数で確率的セグメント
モデルを生成することができ、当該確率的セグメントモ
デルに基づいて生成された単語モデルを用いて音素認識
することにより、従来例及び請求項１記載の単語モデル
生成装置に比較して音素認識率を改善することができ
る。また、上述の理論的な定式化により、混合分布の確
率的セグメントモデルのモデルパラメータを手作業によ
らず、自動的に決定できるので、生成コストを小さくす
ることができる。

【０１３９】さらに、請求項３記載の単語モデル生成装
置は、請求項１又は２記載の単語モデル生成装置におい
て、上記第１の生成手段又は上記第３の生成手段によっ
て生成された混合分布の確率的セグメントモデルに基づ
いて、各クラスタに対する分散を時間変化の関数として
表した分散を計算することにより、各音素ラベル毎に、
各クラスタに対する平均、分散、及び重みを含むモデル
パラメータを有する混合分布の確率的セグメントモデル
を生成する第４の生成手段を備え、上記第２の生成手段
は、上記第４の計算手段によって生成された混合分布の
確率的セグメントモデルに基づいて、上記テキストの各
単語毎の音声特徴パラメータを含む単語モデルを生成す
ることを特徴とする。従って、従来技術のＨＭＭよりも
少ないモデルパラメータ数で確率的セグメントモデルを
生成することができ、当該確率的セグメントモデルに基
づいて生成された単語モデルを用いて音素認識すること
により、従来例及び請求項１記載の単語モデル生成装置
に比較して音素認識率を改善することができる。また、
上述の理論的な定式化により、混合分布の確率的セグメ
ントモデルのモデルパラメータを手作業によらず、自動
的に決定できるので、生成コストを小さくすることがで
きる。

【０１４０】また、請求項４記載の単語モデル生成装置
は、請求項１、２又は３記載の単語モデル生成装置にお
いて、好ましくは、上記単語モデルのモデルパラメータ
は、各音素ラベルに対する継続時間長分布を含む。従っ
て、従来技術のＨＭＭよりも少ないモデルパラメータ数
で確率的セグメントモデルを生成することができ、当該
確率的セグメントモデルに基づいて生成された単語モデ
ルを用いて音素認識することにより、従来例及び請求項
１乃至３記載の単語モデル生成装置に比較して音素認識
率を改善することができる。また、上述の理論的な定式
化により、混合分布の確率的セグメントモデルのモデル
パラメータを手作業によらず、自動的に決定できるの
で、生成コストを小さくすることができる。

【０１４１】さらに、請求項５記載の単語モデル生成装
置は、請求項１乃至４のうちの１つに記載の単語モデル
生成装置と、上記単語モデル生成装置によって生成され
た単語モデルを用いて、入力された文字列からなる発声
音声文の音声信号を音声認識する音声認識手段とを備え
る。従って、従来技術のＨＭＭよりも少ないモデルパラ
メータ数で確率的セグメントモデルを生成することがで
き、当該確率的セグメントモデルに基づいて生成された
単語モデルを用いて音声認識することにより、従来例に
比較して音声認識率を改善することができる。

【図面の簡単な説明】

【図１】本発明に係る実施形態である自由発話音声認
識装置のブロック図である。

【図２】（ａ）は従来例に係るモデルパラメータ生成
装置２０の入力パラメータと出力パラメータとを示すブ
ロック図であり、（ｂ）は第１の実施形態に係るモデル
パラメータ生成装置２０ａの入力パラメータと出力パラ
メータとを示すブロック図であり、（ｃ）は第２の実施
形態に係るモデルパラメータ生成装置２０ｂの入力パラ
メータと出力パラメータとを示すブロック図であり、
（ｄ）は第３の実施形態に係るモデルパラメータ生成装
置２０ｃの入力パラメータと出力パラメータとを示すブ
ロック図である。

【図３】第１の実施形態であるモデルパラメータ生成
装置２０ａによって実行される第１のモデルパラメータ
生成処理を示すフローチャートである。

【図４】第２の実施形態であるモデルパラメータ生成
装置２０ｂによって実行される第２のモデルパラメータ
生成処理を示すフローチャートである。

【図５】第３の実施形態であるモデルパラメータ生成
装置２０ｃによって実行される第３のモデルパラメータ
生成処理を示すフローチャートである。

【図６】第１の実施形態のセグメントモデルによるメ
ルケプストラム係数の１次及び２次の係数ＣＣ１，ＣＣ
２の平均値の時間変化のモデル化の一例を示すグラフで
ある。

【図７】（ａ）は第２の実施形態のＥＭ法による推定
値モデルによるメルケプストラム係数の１次及び２次の
係数ＣＣ１，ＣＣ２の平均値の時間変化のモデル化の一
例を示すグラフであり、（ｂ）は第３の実施形態の分散
の時変モデルによるメルケプストラム係数の１次及び２
次の係数ＣＣ１，ＣＣ２の平均値の時間変化のモデル化
の一例を示すグラフである。

【符号の説明】

１…マイクロホン、２…Ａ／Ｄ変換部、３…特徴抽出部、４…バッファメモリ、５…単語レベル照合部、６…文レベル照合部、７…単語モデルメモリ、８…文法規則メモリ、９…意味的規則メモリ、１０…単語モデル生成部、２０，２０ａ，２０ｂ，２０ｃ…モデルパラメータ生成
部、３０…音声特徴パラメータファイルメモリ、３１…音素ラベルファイルメモリ、３２…モデルパラメータメモリ、４０…キーボード。

フロントページの続き (56)参考文献特開平７−13592（ＪＰ，Ａ) 特開平４−227569（ＪＰ，Ａ) Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1993 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．２，”ＡＳｅｇｍｅｎｔａｌＳｐｅｅｃｈＭｏｄｅｌｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓｔｏＷｏｒｄＳｐｏｔｔｉｎｇ”ｐ．▲ ＩＩ▼．447−▲ＩＩ▼．450 Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1996 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１，”ＤｅｓｉｇｎｏｆａＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＳｙｓｔｅｍｂａｓｅｄｏｎＡｃｏｓｕｔｉｃａｌｌｙＤｅｒｉｖｅｄＳｅｇｍｅｎｔａｌＵｎｉｔｓ”ｐ．443−446 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/06 G10L 15/14 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】所定のテキストに対する複数の音素を含
む音声特徴パラメータとそれに対して付与された音素ラ
ベルデータとに基づいて、各音素ラベル毎に、観測系列
の平均値を時間の相対的な関数としてモデル化した所定
の確率的セグメントモデルの平均と分散を計算した後、
所定の混合数になるまで尤度最大化基準による所定のク
ラスタリング方法により各音声特徴パラメータを複数の
クラスタにクラスタリングして、各クラスタの重みを計
算し、各クラスタに対する平均、分散、及び重みを含む
モデルパラメータを有する混合分布の確率的セグメント
モデルを生成する第１の生成手段と、上記第１の生成手段によって生成された混合分布の確率
的セグメントモデルに基づいて、上記テキストの各単語
毎の音声特徴パラメータを含む単語モデルを生成する第
２の生成手段とを備えたことを特徴とする音声認識のた
めの単語モデル生成装置。
【請求項２】上記第１の生成手段によって生成された
混合分布の確率的セグメントモデルに基づいて、所定の
ＥＭアルゴリズムを用いて、推定後の確率的セグメント
モデルの出力確率の対数尤度と推定後の確率的セグメン
トモデルからの所定の継続時間長を出力する対数尤度と
推定後の所定番目の確率的セグメントモデルが出力され
る対数尤度を含む尤度値が最大となるように最尤推定す
ることにより、各音素ラベル毎に、各クラスタに対する
平均、分散、及び重みを含むモデルパラメータを有する
混合分布の確率的セグメントモデルを生成する第３の生
成手段を備え、上記第２の生成手段は、上記第３の生成手段によって生
成された混合分布の確率的セグメントモデルに基づい
て、上記テキストの各単語毎の音声特徴パラメータを含
む単語モデルを生成することを特徴とする請求項１記載
の単語モデル生成装置。
【請求項３】上記第１の生成手段又は上記第３の生成
手段によって生成された混合分布の確率的セグメントモ
デルに基づいて、各クラスタに対する分散を時間変化の
関数として表した分散を計算することにより、各音素ラ
ベル毎に、各クラスタに対する平均、分散、及び重みを
含むモデルパラメータを有する混合分布の確率的セグメ
ントモデルを生成する第４の生成手段を備え、上記第２の生成手段は、上記第４の計算手段によって生
成された混合分布の確率的セグメントモデルに基づい
て、上記テキストの各単語毎の音声特徴パラメータを含
む単語モデルを生成することを特徴とする請求項１又は
２記載の単語モデル生成装置。
【請求項４】上記単語モデルのモデルパラメータは、
各音素ラベルに対する継続時間長分布を含むことを特徴
とする請求項１、２又は３記載の単語モデル生成装置。
【請求項５】請求項１乃至４のうちの１つに記載の単
語モデル生成装置と、上記単語モデル生成装置によって生成された単語モデル
を用いて、入力された文字列からなる発声音声文の音声
信号を音声認識する音声認識手段とを備えたことを特徴
とする音声認識装置。