JP2982689B2

JP2982689B2 - 情報量基準を用いた標準パターン作成方式

Info

Publication number: JP2982689B2
Application number: JP8122758A
Authority: JP
Inventors: 浩一篠田
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1996-04-19
Filing date: 1996-04-19
Publication date: 1999-11-29
Anticipated expiration: 2016-04-19
Also published as: JPH09288492A; EP0802523A2; EP0802523A3; US5960396A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、パターン認識にお
けるパターン作成方式に関し、特に、標準パターンを用
いた音声認識システム並びに混合連続分布モデル型ＨＭ
Ｍによる音声認識システムにおける標準パターン作成方
式に関する。

【０００２】

【従来の技術】近年、音声パターンの機械による認識に
関する研究が行われ、数々の方法が提案されている。こ
の中で、よく使われる代表的なものに、隠れマルコフモ
デル（ＨＭＭ；hidden Markov model）を用いた方法が
ある。

【０００３】そして、ＨＭＭを用いた音声認識システム
として、誰の声でも認識できることを目的とした不特定
話者の認識システムが盛んに研究・開発されている。Ｈ
ＭＭは、各単語あるいは各音素ごとに少数の状態からな
る推移図（マルコフモデル）を構成し、入力音声がいず
れのモデルによって生成された可能性が最も大きいかを
調べて認識する方法であり、この時観測されるのは推移
によって生じるスペクトル列であって状態そのものは観
測されないことから「隠れ」と呼ばれている。各モデル
について、学習サンプルを用いて各状態でのスペクトル
パラメータの生起確率と状態間の推移確率を推定してお
き、認識時には、入力音声を各モデルにあてはめて入力
音声を生成する確率が最も高いモデルを選択して認識結
果とする。

【０００４】以下、ＨＭＭを例にとり、図１を参照し
て、音声認識システムについて説明する。図１に示すよ
うに、標準パターン記憶部１０３、入力パターン作成部
１０１、認識部１０２、認識結果出力部１０４からな
る。

【０００５】音声認識システムに入力された話者の発声
は、入力パターン作成部１０１に入力され、アナログデ
ジタル変換、音声分析などの過程を経て、ある時間長を
もつ「フレーム」と呼ばれる単位ごとの特徴ベクトルの
時系列に変換される。この特徴ベクトルの時系列を、
「入力パターン」と呼ぶ。

【０００６】フレームの長さは通常１０ｍｓから１００
ｍｓ程度である。特徴ベクトルは、その時刻における音
声スペクトルの特徴量を抽出したもので、通常、１０次
元から１００次元である。

【０００７】標準パターン記憶部１０３には、ＨＭＭが
記憶されている。ＨＭＭは音声の情報源のモデルの１つ
であり、話者の音声を用いてそのパラメータを学習する
ことができる。ＨＭＭについては認識部の説明で詳しく
説明する。ＨＭＭは通常各認識単位ごとに用意される。
ここでは、認識単位として音素を例にとる。

【０００８】例えば、不特定話者認識システムでは、標
準パターン記憶部１０３のＨＭＭとして、予め多くの話
者の発声を用いて学習した不特定話者ＨＭＭが用いられ
る。

【０００９】今、１０００単語を認識対象とする場合を
想定する。つまり１０００単語の認識候補から１単語の
正解を求める。単語を認識する場合には、各音素のＨＭ
Ｍを連結して、認識候補単語のＨＭＭを作成する。１０
００単語認識の場合には１０００単語分の単語ＨＭＭを
作成する。

【００１０】認識部１０２では、単語ＨＭＭを用いて入
力パターンの認識を行なう。ＨＭＭは、音声の情報源の
モデルであり、音声パターンの様々な揺らぎに対処する
ため、標準パターンの記述に統計的な考えが導入されて
いる。なお、ＨＭＭの詳細な説明は、例えば刊行物（ラ
ビナー、ジュアング著、古井訳「音声認識の基礎
（下）」、ＮＴＴアドバンステクノロジ、１９９５、第
１０２〜１８７頁）（文献１）の記載が参照される。

【００１１】各音素のＨＭＭは、それぞれ、通常１から
１０個の状態とその間の状態遷移から構成される。

【００１２】通常は、始状態と終状態が定義されてお
り、単位時間ごとに、各状態からシンボルが出力され、
状態遷移が行なわれる。

【００１３】各音素の音声は、始状態から終状態までの
状態遷移の間にＨＭＭから出力されるシンボルの時系列
として表される。各状態にはシンボルの出現確率が、状
態間の各遷移には遷移確率が、定義されている。

【００１４】遷移確率パラメータは、音声パターンの時
間的な揺らぎを表現するためのパラメータである。出力
確率パラメータは、音声パターンの音声の揺らぎを表現
するものである。始状態の確率をある値に定め、状態遷
移ごとに出現確率、遷移確率を掛けていくことにより、
発声がそのモデルから発生する確率を求めることができ
る。

【００１５】逆に、発声を観測した場合、それが、ある
ＨＭＭから発生したと仮定するとその発生確率が計算で
きることになる。

【００１６】そして、ＨＭＭによる音声認識では、各認
識候補に対してＨＭＭを用意し、発声が入力されると、
各々のＨＭＭにおいて、発生確率を求め、最大となるＨ
ＭＭを発生源と決定し、そのＨＭＭに対応する認識候補
をもって認識結果とする。

【００１７】出力確率パラメータには、離散確率分布表
現と連続確率分布表現があるが、ここでは連続確率表現
を例にとる。連続確率分布表現では、混合連続分布、す
なわち、複数のガウス分布を重みつきで加算した分布が
使われる。以下の例では出力確率は混合連続確率分布と
する。出力確率パラメータ、遷移確率パラメータ、複数
のガウス分布の重み係数などのパラメータは、モデルに
対応する学習音声を与えてバウム−ウェルチアルゴリズ
ムと呼ばれるアルゴリズムにより予め学習される。

【００１８】以下に、単語認識時の処理を数式で説明
し、次にパラメータの学習について説明する。

【００１９】まず、認識時の処理について説明する。特
徴ベクトルの時系列として表現された入力パターンＯを
次式（１）とする。

【００２０】Ｏ＝ｏ₁，ｏ₂，…，ｏ_t，…，ｏ_T …(1)

【００２１】ここで、Ｔは入力パターンの総フレーム数
である。認識候補単語Ｗ₁，Ｗ₂，…，Ｗ_Nとする。Ｎは
認識候補単語数である。

【００２２】各々の単語Ｗ_nの単語ＨＭＭと、入力パタ
ーンＯと、の間のマッチングは以下のように行なわれ
る。以下、必要のない限り添字ｎを省略する。

【００２３】まず、単語ＨＭＭにおいて、状態ｊから状
態ｉへの遷移確率をａ_ji、出力確率分布の混合重み
ｃ_im、各要素ガウス分布の平均ベクトルをμ_im、共分散
行列をΣ_imとする。ここで、ｔは入力時刻、ｉ，ｊはＨ
ＭＭの状態、ｍは混合要素番号を表す。前向き確率α_t
（ｉ）に関する次式（２）、（３）の漸化式計算を行
う。この前向き確率α_t（ｉ）は、部分的な観測系列
ｏ₁，ｏ₂，…，ｏ_tを出力し、時刻ｔに状態ｉに存在す
る確率である。

【００２４】

【数１】

【００２５】ここで、π_iは初期状態がｉである確率で
あり、ｂ_i（ｏ_t）は、次式（４）で定義される。

【００２６】

【数２】

【００２７】ここで、Ｋは入力フレームおよび平均ベク
トルの次元数である。

【００２８】単語Ｗ_nに対する入力パターンに対する尤
度は次式（６）により求められる。

【００２９】

【数３】

【００３０】Ｉは最終状態である。この処理を各単語モ
デルについて行ない、入力パターンＸに対する認識結果
単語

【００３１】

【数４】

【００３２】は、次式（７）で与えられる。

【００３３】

【数５】

【００３４】認識結果単語は、認識結果出力部１０４に
送られる。認識結果出力部１０４は、認識結果を画面上
に出力する、あるいは、認識結果に対応した制御命令を
別の装置に送るなどの処理を行なう。

【００３５】次に、学習について説明する。まず、以下
の後向き確率を導入する。

【００３６】

【数６】

【００３７】β_T（ｉ）は時刻ｔ、状態ｉが与えられた
ときの、時刻ｔ＋１から終端までの部分的な観測系列の
確率である。前向き確率と後向き確率を用いて、観測系
統Ｏが与えられたときに、時刻ｔに状態ｉに存在する確
率γ_t（ｉ）は、次式（１０）で与えられる。

【００３８】

【数７】

【００３９】また、時刻ｔに状態ｉに存在し、時刻ｔ＋
１に状態ｊに存在する確率ξ_t（ｉ，ｊ）は、次式（１
１）で与えられる。

【００４０】

【数８】

【００４１】また、連続出力確率分布の場合に、時刻ｔ
に状態番号ｉのｋ番目の混合要素に存在する確率γ′_t
（ｉ，ｋ）は、次式（１２）で与えられる。

【００４２】

【数９】

【００４３】以上の計算値に基づき、π，ａ，ｃ、μ，
Σの推定値はそれぞれ次式（１３）〜（１７）で与えら
れる。

【００４４】

【数１０】

【００４５】バウム−ウェルチアルゴリズムでは、これ
らの推定値をもとにパラメータを更新し、さらにそのパ
ラメータを用いてまた推定値を推定するという繰り返し
を行なう。繰り返し毎に観測系列の確率が大きくなるこ
とが証明されている。

【００４６】以上、ＨＭＭを例にとり音声認識装置につ
いて説明した。

【００４７】不特定話者ＨＭＭとして、ここでは、音素
単位毎に標準パターンを作成する場合を説明したが、他
にも半音節単位、３音素連鎖単位など、様々な単位が考
えられる。

【００４８】半音節単位とは、音節を半分に区切った単
位、３音節連鎖単位とは、音素において、発声における
直前および直後の音素をともに考慮した音素単位であ
る。例えば「ことば」は、「ｋｏｔｏｂａ」と表記され
るが、最初の／ｏ／は前が／ｋ／、後ろが／ｔ／である
のに対し、２番目の／ｏ／は前が／ｔ／、後ろが／ｂ／
と、前後の音素が違うためこの２つの／ｏ／は違うもの
と見なし、別々に標準パターンが作られる。

【００４９】通常の日本語の場合、音素単位は３０〜５
０、半音節単位は２６０程度、３音素連鎖単位は３００
０〜５０００の種類がある。もし、学習用の発声データ
が十分な量存在していれば、単位種類数が多ければ多い
ほど認識性能が向上する。

【００５０】しかしながら、不特定話者ＨＭＭの学習に
は、通常多くの話者の発声を必要とし、常に十分な量の
発声が得られるとは限らない。

【００５１】すなわち、例えば、半音節を認識単位とし
た場合、各認識単位ごとに４状態、各状態ごとに２つの
要素ガウス分布を付随させているが、十分な認識性能を
得るためには、話者８５名２５０単語程度の発声を必要
とする。

【００５２】より種類数の少ない単位を用いた場合に
は、学習用発声はより少なくても十分であるが、種類数
の多い単位を用いる場合には学習用発声はより多く必要
である。単位数に比して、学習用発声が少なすぎる場
合、パラメータ推定が不安定になったり、対応する学習
データがないパラメータが出現したりする現象が起き、
認識性能が劣化する。

【００５３】

【発明が解決しようとする課題】上記したように、従来
の方法においては、不特定話者ＨＭＭの学習には、多量
の発声データを用いる。しかしながら、ある限られた量
の学習用発声が与えられた場合、認識単位種類数はどの
程度が適当であるか、あるいは、与えられた認識単位種
類数に対し、どの程度の量の学習用発声が必要か、とい
う問いに答える基準は現在まで提案・実現されていない
というのが実状である。

【００５４】このため、従来、認識単位を変えてはテス
トデータを用いて認識評価実験を行ない、その結果をも
とに、最適な認識単位を作成するという試行錯誤的な手
法が行なわれてきた。

【００５５】しかし、この従来の方法は、学習用発声以
外に、テスト用発声も十分な量用意する必要があり、ま
た、標準パターン作成および認識実験の繰り返しに多く
の計算時間を必要とする。

【００５６】従って、本発明は、上記事情に鑑みてなさ
れたものであって、その目的は、与えられた学習用発声
に対し最適な認識単位を、情報量基準を用いて自動的に
決定することを可能としたパターン作成方法を提供する
ことにある。

【００５７】

【課題を解決するための手段】前記目的を達成するた
め、本発明は、標準パターンを用いるパターン認識にお
いて、入力データから入力パターンを作成する入力パタ
ーン作成手段と、各々のカテゴリの標準パターン作成用
パラメータを作成する標準パターン作成用パラメータ作
成手段と、全カテゴリ集合を複数のクラスタに分割しク
ラスタ集合を作成するクラスタ集合作成手段と、各々の
クラスタ内の全カテゴリに共通の標準パターンを作成す
る共有標準パターン作成手段と、前記クラスタ集合作成
手段により作成された互いに異なる複数のクラスタ集合
の中から、情報量基準を用いて最適なクラスタ集合を選
択する最適クラスタ集合選択手段と、前記最適クラスタ
集合の共有標準パターンを各カテゴリの標準パターンと
して記憶する標準パターン記憶手段と、を含むことを特
徴とする標準パターン作成方式を提供する。

【００５８】

【発明の実施の形態】本発明の好ましい実施の形態を以
下に説明する。図１は、本発明が適用される音声認識シ
ステムの全体構成を示したものであり、本発明の標準パ
ターン作成システムは、図１に示す標準パターン作成部
１０５に適用されるものである。すなわち、本発明の情
報量基準を用いたパターン作成方式は、標準パターンを
用いるパターン認識であって、入力データから入力パタ
ーンを作成する入力パターン作成手段（図２の２０１、
図１の１０１に対応する）と、各々のカテゴリの標準パ
ターン作成用パラメータを作成する標準パターン作成用
パラメータ作成手段（図２の２０３）と、全カテゴリ集
合を複数のクラスタに分割しクラスタ集合を作成するク
ラスタ集合作成手段（図２の２０４）と、各々のクラス
タ内の全カテゴリに共通の標準パターンを作成する共有
標準パターン作成手段（図２の２０５）と、前記クラス
タ集合作成手段により作成された互いに異なる複数のク
ラスタ集合の中から、情報量基準を用いて最適なクラス
タ集合を選択する最適クラスタ集合選択手段（図２の２
０６）と、前記最適クラスタ集合の共有標準パターンを
各カテゴリの標準パターンとして記憶する標準パターン
記憶手段（図２の２０７、図１の１０３に対応する）
と、を備えている。

【００５９】本発明は、別の実施の形態において、クラ
スタ集合作成手段においてクラスタの木構造を作成する
ことにより複数のクラスタ集合を作成するクラスタ木構
造作成手段（図３の３０３）をもつことを特徴とする。

【００６０】また、本発明においては、標準パターン選
択手段において、好ましくは記述長最小原理が用いられ
る。

【００６１】さらに、本発明においては、標準パターン
選択手段において、情報量基準として好ましくは赤池弘
次氏により提唱されたＡＩＣが用いられる（ＡＩＣにつ
いては、例えば文献（H.Akaike: A New-Look at the St
atistical Mode Identification, IEEE, Trans. on Aut
omatic Control AC-19-6,716/723(1974)）、及び文献
（赤池弘次、「情報量基準とは何か」、数理科学、(昭5
1-3) 5-11 (1976)）等が参照される）。

【００６２】そして、本発明においては、好ましくは、
入力として音声を用い、クラスタの木構造として音韻木
を用いる。

【００６３】本発明においては、好ましくは、入力とし
て音声を用い、クラスタの木構造を、標準パターンに対
する音響空間における距離を用いた階層クラスタリング
を用いる。

【００６４】本発明においては、標準パターンとして、
好ましくは隠れマルコフモデル（ＨＭＭ）を用いる。

【００６５】本発明によるパターン作成方式について、
図２を参照して説明する。ここでは、特にＨＭＭとし
て、ｌｅｆｔ−ｔｏ−ｒｉｇｈｔＨＭＭ（レフト・ツ
ー・ライトＨＭＭ）を例にとる。

【００６６】レフト・ツー・ライトＨＭＭとは、時間の
経過につれての系の状態番号が大きくなるモデルであ
る。つまり系の状態が左から右へと進む特性をもつ。ま
た、最も認識単位種類数が少な認識単位として、音素単
位を仮定し、最も認識単位種類数が多い認識単位とし
て、３音素連鎖単位を仮定した場合について説明する。
また、情報量基準としては、記述長最小原理を用いる。

【００６７】まず、最初に、音素ＨＭＭ、３音素連鎖Ｈ
ＭＭの学習を同時に行なう。まず、それぞれの単語が、
３音素連鎖認識単位の記号列で記述され、これをもと
に、音声データを用いて、３音素連鎖ＨＭＭが学習され
る。

【００６８】音素ＨＭＭのパラメータは、３音素連鎖Ｈ
ＭＭのパラメータの結びとして学習される。「結び」と
は、異なる認識単位、状態、分布間でパラメータを共有
することを指す。例えば、状態ｉ₁から状態ｊへの遷移
確率と状態ｉ₂とから状態ｊへの遷移確率の結びａ_i,
_jは、次式（１８）で与えられる。

【００６９】

【数１１】

【００７０】また、状態ｉ₁、混合要素ｋ₁の平均ベクト
ルと状態ｉ₂、混合要素ｋ₂の平均ベクトルの結びμ
_ikは、次式（１９）で与えられる。

【００７１】

【数１２】

【００７２】このように音素ＨＭＭのパラメータは３音
素連鎖ＨＭＭのパラメータの重み付き平均の形で求める
ことができる。以上の処理は、図２の標準パターン用パ
ラメータ作成手段２０３に対応する。

【００７３】次に、音素単位を、前後の音素の情報を用
いて分割していく。分割された後のそれぞれの単位をこ
こではクラスタと呼ぶ。すなわち、音素単位は複数のク
ラスタから構成されることになる。

【００７４】この複数のクラスタからなる集合を「クラ
スタ集合」と呼ぶ。分割は最初に２つに分割をし、さら
に分割された単位についてまた２分割を行なうという作
業を繰り返すことで行なう。繰り返しは、適当なところ
で停止する。もっとも細かく分割すると、分割された各
認識単位は３音素連鎖単位と等しくなる。

【００７５】分割の基準としては、例えば、前後の音素
の弁別素性と呼ばれる性質を用いる。たとえば、音素／
ａ／に対応する音素単位“ａ”を分割する場合、前の音
素が破裂音（例えば、／ｂ／，／ｄ／，／ｇ／，／ｐ
／，／ｔ／，／ｋ／）であるかないか、あるいは、後ろ
の音素が有声である（例えば、／ｂ／，／ｍ／，／ｚ
／）か、無声であるか（例えば、／ｓ／，／ｋ／）など
の条件で２分割を行なう。

【００７６】分割の基準は予め用意されるが、一般にそ
の種類は数１０〜数１００ほどである。なお、ここでは
分割の対象として、音素単位ではなく、音素単位の状態
をとる。すなわち、音素に対し、属する状態ごとに分割
の方法を別々とする。例えば音素単位の第１状態と第２
状態とは互いに異なる分割の仕方とされる。この方が、
音素単位全体を分割するよりも、より一層きめ細かい分
割を行なうことにより、より性能の向上が期待できる。

【００７７】また、各状態の確率分布は単一ガウス分布
であるものと仮定し、さらに、同じ音素に対応する音素
単位も３音素連鎖単位に対して、同一の遷移確率を用い
ることにする。

【００７８】以上の処理が、図２のクラスタ集合作成手
段２０４の処理に対応する。分割の方法は大変たくさん
ある。すなわち、可能なクラスタ集合の種類は大変多
い。このため、多数の種類のクラスタ集合が作成され
る。

【００７９】次に、各々のクラスタ集合における各々の
クラスタに対して標準パターンを作成する。この標準パ
ターンはこのクラスタに属するカテゴリの標準パターン
の結びとして学習される。その作成方法は上で既に述べ
た。これは、図２の共有標準パターン作成手段２０５に
対応する。

【００８０】次に、記述長最小原理を用いて、多くの異
なるクラスタ集合の中から入力データに対し最適なクラ
スタ集合を求める。

【００８１】記述長最小（ＭｉｎｉｍｕｍＤｅｓｃｒ
ｉｐｔｉｏｎＬｅｎｇｔｈ；ＭＤＬ）原理は最近の情
報理論および計算論的学習理論の研究から、データに対
し最適な確率モデルを選択する問題において、有効であ
ることが実証されている。記述長最小原理は、例えば、
刊行物（韓太舜著、「岩波講座応用数学１１、情報と符
号化の数理」、岩波書店（１９９４）（以下、文献２）
の、第２４９〜２７５頁）の記載が参照される。

【００８２】ＭＤＬ原理は、確率モデルｉ＝１，…，Ｍ
のうち、データｘ^N＝ｘ₁，…，ｘ_Nの記述長を最小とす
るモデルが最適なモデルであると主張する。記述長は次
式（２０）で表される。

【００８３】

【数１３】

【００８４】ここで、ｋ⁽ⁱ⁾はモデルｉの次数、

【００８５】

【数１４】

【００８６】はデータｘ^Nに対するモデルｉのパラメー
タθ⁽ⁱ⁾＝（θ₁ ⁽ⁱ⁾，…，θ_k(i) ⁽ⁱ⁾）の最尤推定量であ
る。

【００８７】上式（２０）の右辺第１項は、データに対
する対数尤度を符号反転させたもの、第２項はモデルの
複雑さを表す量である。

【００８８】モデルが複雑になるほど、第１項は小さく
なり、第２項は大きくなる。このように両者の間にはト
レードオフがあり、ある適当な複雑さをもったモデルが
最適なモデルとして選択される。

【００８９】さて、この記述長最小原理を用いて、ある
クラスタ集合Ｕに対する記述長は次のように計算され
る。

【００９０】今、クラスタ集合Ｕの要素の各クラスタを
Ｓ₁，…，Ｓ_Mとする。ここで、ＭはＵにおける要素クラ
スタの個数である。今、データの状態Ｓ_mに対する尤度
Ｌ（Ｓ_m）は以下の式（２１）、（２２）のように近似
できる。

【００９１】

【数１５】

【００９２】ここで、

【００９３】

【数１６】

【００９４】であり、ｓはクラスタＳ_mに含まれるすべ
ての３音素連鎖単位の状態、また、Ｋは共有標準パター
ンとして用いられる平均ベクトルおよび分散の次元数で
ある。また、μｓ_m、Σｓ_mは、それぞれクラスタＳ_mに
おける共有標準パターンの平均ベクトルおよび分散であ
る。

【００９５】この結果を用いると、クラスタ集合Ｕに対
する記述長ｌ（Ｕ）は、次式（２４）、（２５）のよう
に表せる。

【００９６】

【数１７】

【００９７】ここで、

【００９８】

【数１８】

【００９９】である。

【０１００】このＶは、クラスタ集合Ｕに対応するすべ
てのデータのフレーム数に相当する量であり、分割の方
法によらない。

【０１０１】全ての可能なクラスタ集合に関して、記述
長ｌ（Ｕ）を計算し、最も小さいｌ（Ｕ）をもつクラス
タ集合Ｕを選択する。以上の処理は、図２の最適クラス
タ集合選択手段２０６の処理に対応する。

【０１０２】次に、最適クラスタ集合の各クラスタの共
有標準パターンを用いて標準パターンを作成する。

【０１０３】前述したように、選択された最適クラスタ
集合を構成する各クラスタは、１つの共有標準パター
ン、すなわち、平均ベクトルと分散をもつ。これらをこ
のクラスタに属するすべての状態の平均値と分割する。
そしてその後、それぞれの３音素連鎖認識単位の標準パ
ターンとして記憶する。以上は、図２の標準パターン記
憶手段２０７に対応する。

【０１０４】さて、可能な分割の種類、すなわち、クラ
スタ集合Ｕの数は通常大変多い。

【０１０５】そこで、本発明の第２の実施の形態におい
ては、図３に示すように、クラスタの木構造を作成する
ことにより計算量を削減する（木構造クラスタ作成手段
３０３参照）。これを以下に説明する。

【０１０６】１つの音素ｐに対して述べる。まず、音素
ｐに対するノード（節点）を作成する。今、このノード
をルートノードと呼ぶ。ルートノードの共有標準パター
ンは、この音素に対応するすべての３音素連鎖単位を全
て結びの関係にしたときに得られる。

【０１０７】今、音素ｐに対する、分割条件の１つ１つ
を記号Ｑ₁，…，Ｑ_Rで表す。ここで、Ｒは全条件の数で
ある。この分割条件すべてについて、分割を行ない、記
述長の変化を調べる。もとのクラスタをＳ₀、２分割し
たときのクラスタをそれぞれ、Ｓ₁、Ｓ₂としたとき、記
述長の変化分Δは次式（２７）、（２８）で表される。

【０１０８】

【数１９】

【０１０９】この記述長の変化分Δが最小となる分割条
件を求め、そのとき変化分Δ＜０ならば２分割を行な
い、もし、変化分Δ＞０ならば分割を行なわない。

【０１１０】分割を行なう場合には、さらに分割された
ノードＳ₁、Ｓ₂それぞれについて上と同様に分割毎の記
述長を計算し、記述長が減少する場合には、最も減少量
の大きい分割条件で、分割を行なう。以上の処理を繰り
返す。結果として、分割の履歴は２分木の木構造で表現
される。

【０１１１】システムに実装する際には、以上の処理を
再帰的に行なうことにより、情報量基準の意味で最適な
分割を求めることが可能である。

【０１１２】また、計算量も大幅に削減される。以上
は、図３に示した、クラスタ木構造作成手段を用いた標
準パターン作成手段３０３の説明である。

【０１１３】上記実施の形態では、情報量基準として、
記述長最小原理を用いる場合についてのみ説明したが、
赤池情報量基準（Information Crireia；「ＡＩＣ」と
いう）を用いた場合、すなわちＡＩＣ＝−２ｌｏｇ
_e（最大尤度）＋２（パラメータ数）の最大尤度に式
（２０）で用いた最尤推定量ｘ^N等を用いることもでき
る。この場合、モデル決定においては、種々のモデルの
パラメータを最尤法で推定し、その中でＡＩＣを最小と
するものが最良のモデルとして選択され、もし、二つの
モデルが同程度に適合していれば、ＡＩＣの第１項は等
しいことから、第２項のパラメータ数が少ない方のモデ
ルが選択される。あるいはＡＩＣ以外にも他の類似の情
報量基準を用いた場合においても容易に適用可能であ
る。

【０１１４】また、ここでは、木構造の作成方法として
音韻規則（弁別素性）を用いて作成する方法を説明した
が、音響空間上の距離を用いて木構造を作成することも
可能である。

【０１１５】

【実施例】図２は、本発明の一実施例の構成を示すブロ
ック図である。

【０１１６】図２を参照して、入力パターン作成手段２
０１は、入力パターンを保持し、標準パターン作成用パ
ラメータ作成手段２０３は、各カテゴリの標準パターン
を作成するのに必要なパラメータを計算し出力する。ク
ラスタ集合作成手段２０４では、カテゴリ集合を分割し
クラスタ集合とする。共有標準パターン作成手段２０５
では、各クラスタ集合の各クラスタの標準パターンを求
める。最適クラスタ選択手段２０６は、複数のクラスタ
集合および共有標準パターンを入力とし、情報量基準を
用いて最適なクラスタを選択する。標準パターン記憶手
段２０７は最適クラスタ集合の共有標準パターンを各カ
テゴリの標準パターンとして記憶する。

【０１１７】図３は、本発明の別の実施例の構成を示す
ブロック図である。

【０１１８】図３を参照して、入力パターン作成手段３
０１は入力パターンを保持する。標準パターン作成用パ
ラメータ作成手段３０２は、各カテゴリの標準パターン
を作成するのに必要なパラメータを計算し出力する。ク
ラスタ作成手段３０４では、カテゴリ集合を分割し木構
造クラスタ集合とする。共有標準パターン作成手段３０
５では、各クラスタ集合の各クラスタ木構造の標準パタ
ーンを求める。最適クラスタ選択手段３０６は、複数の
クラスタ集合および共有標準パターンを入力とし、情報
量基準を用いて最適なクラスタを選択する。標準パター
ン記憶手段３０７は、最適クラスタ集合の共有標準パタ
ーンを各カテゴリの標準パターンとして記憶する。

【０１１９】

【発明の効果】以上説明したように、本発明によれば、
パターン認識における標準パターンの学習において、情
報量基準を用いることにより、与えられた学習データに
対し、情報量基準の意味で最適な認識単位を作成するこ
とができる。

【０１２０】本発明においては、データ量が少ない時に
は、種類数の小さい認識単位を、データ量が多い時に
は、多くの種類の認識単位を生成する。過学習の問題
や、学習データのないカテゴリが生じる問題を、回避し
た、安定な学習が可能で、高い認識性能をもった標準パ
ターンが作成可能である。

【図面の簡単な説明】

【図１】音声認識システムの全体構成を示す図である。

【図２】本発明の要部の一実施例の構成を示すブロック
図である。

【図３】本発明の要部の別の実施例の構成を示すブロッ
ク図である。

【符号の説明】

１０１標準パターン記憶部１０２入力パターン作成部１０３認識部１０４認識結果出力部１０５標準パターン作成部２０１、３０１入力パターン作成手段２０３、３０２標準パターン作成用パラメータ作成手
段２０４、３０４クラスタ集合作成手段２０５、３０５共有標準パターン作成手段２０６、３０６最適クラスタ選択手段２０７標準パターン記憶手段

フロントページの続き (56)参考文献電子情報通信学会技術研究報告［音声］ＳＰ93−26，ｐ．17〜24（1993（平成５）年６月) 日本音響学会講演論文集（平成８年３月）３−５−19，ｐ．145〜146 電子情報通信学会技術研究報告［音声］ＳＰ93−25，ｐ．９〜16（1993（平成５）年６月) 電子情報通信学会技術研究報告［音声］ＳＰ93−79，ｐ．９〜15（1993（平成５）年12月) 日本音響学会講演論文集（平成８年９月）２−３−11，ｐ．69−70 電子情報通信学会技術研究報告［音声］ＳＰ96−22，ｐ．９〜15（1996（平成８）年６月) Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1994 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１”ＡｕｔｏｍａｔｉｃＴｒａｉｎｉｎｇｏｆＰｈｏｎｅｍｅＤｉｃｔｉｏｎａｒｙｂａｓｅｄｏｎＭｕｔｕａｌＩｎｆｏｒｍａｔｉｏｎＣｒｉｔｅｒｉｏｎ”ｐ．▲ Ｉ▼−241〜▲Ｉ▼−244 (58)調査した分野(Int.Cl.⁶，ＤＢ名) C10L 3/00 535 C10L 3/00 521 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】標準パターンを用いるパターン認識におい
て、入力データから入力パターンを作成する入力パターン作
成手段と、各々のカテゴリの標準パターン作成用パラメータを作成
する標準パターン作成用パラメータ作成手段と、全カテゴリ集合を複数のクラスタに分割しクラスタ集合
を作成するクラスタ集合作成手段と、各々のクラスタ内の全カテゴリに共通の標準パターンを
作成する共有標準パターン作成手段と、前記クラスタ集合作成手段により作成された互いに異な
る複数のクラスタ集合の中から、情報量基準を用いて最
適なクラスタ集合を選択する最適クラスタ集合選択手段
と、前記最適クラスタ集合の共有標準パターンを各カテゴリ
の標準パターンとして記憶する標準パターン記憶手段
と、を含むことを特徴とする標準パターン作成方式。
【請求項２】前記クラスタ集合作成手段が、クラスタの
木構造を作成することにより複数のクラスタ集合を作成
するクラスタ木構造作成手段を含むことを特徴とする請
求項１記載の標準パターン作成方式。
【請求項３】前記標準パターン選択手段が、前記複数標
準パターンから１つの標準パターンを情報量基準を用い
て選択する際に記述長最小原理を用いることを特徴とす
る請求項１又は２に記載の標準パターン作成方式。
【請求項４】前記標準パターン選択手段が、前記複数標
準パターンから１つの標準パターンを情報量基準を用い
て選択する際の情報量基準として、ＡＩＣ基準を用いる
ことを特徴とする請求項１又は２に記載の標準パターン
作成方式。
【請求項５】入力として音声を用い、前記クラスタの木
構造として音韻木を用いることを特徴とする請求項２〜
４のいずれか一に記載の標準パターン作成方式。
【請求項６】入力として音声を用い、前記クラスタの木
構造を、標準パターンに対する音響空間における距離を
用いた階層クラスタリングを用いて作成することを特徴
とする請求項２〜４のいずれか一に記載の標準パターン
作成方式。
【請求項７】請求項１〜６のいずれか一に記載の前記標
準パターン作成手段を含み、入力として音声を用い、前
記標準パターン作成方式の前記標準パターン記憶手段を
参照して入力パターンの認識を行うことにより認識結果
を出力することを特徴とする音声認識システム。