JP3453456B2

JP3453456B2 - 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置

Info

Publication number: JP3453456B2
Application number: JP15148995A
Authority: JP
Inventors: 康弘小森; 恭則大洞
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1995-06-19
Filing date: 1995-06-19
Publication date: 2003-10-06
Anticipated expiration: 2018-10-06
Also published as: EP0750293B1; DE69629763D1; EP0750293A2; EP0750293A3; DE69629763T2; JPH096386A; US5812975A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、例えば音声認識用モデ
ル等に使用される状態遷移モデルの設計方法及び該状態
遷移モデルを用いた音声認識装置に関するものである。

【０００２】

【従来の技術】ここでは、音声認識用のモデルにＨＭＭ
（隠れマルコフモデル）を用いて説明する。

【０００３】計算機の能力が劇的に高速化したのに伴
い、音声認識システムの実用化の研究や製品化が、盛ん
に行なわれるようになってきた。これらシステムでは、
統計的なモデルであるＨＭＭを採用している。なかで
も、より高性能を示すtriphone HMMは、盛んに研究され
ている。このtriphone HMMは、先行音素及び後続音素と
いった音素環境の違いを細分化したものである。しか
し、このtriphone HMMはモデル数が非常に多くなるた
め、データに対する学習効率(trainability)が低下し、
性能の良いモデルを構成することができない。さらに、
この場合の計算量もモデル数に比例して非常に大きくな
るため、実時間で処理することが重要である音声認識に
おいては大きな問題となっている。

【０００４】そこで、これらの問題に対して、「共有構
造ＨＭＭ」という考え方に基づき、以下に示す幾つかの
解決方法の研究が行なわれている。音響特徴が類似し
たＨＭＭ自身を共有するgeneralized triphone HMM（K.
F.Lee, H.W,Hon, Large-vocabulary speaker-independe
nt continuous speech recognition using HMM, ICASSP
88, pp. 123-126）音響特徴が類似したＨＭＭの状態
を共有するshared-state HMM（Mei-Yuh Hwang, X.D.Hua
ng, Subphonetic modeling with Markov States - SENO
N, ICASSP92,pp.I33-I36，S.J.Young, P.Woodland, The
use of state tyingin continuousspeech recognitio
n, Eurospeech93, pp.2203-2206, 1993）音響特徴が
類似したＨＭＭの分布を共有するtied-mixture HMM（J.
Bellegarda, D.Nahamoo, Tied mixture continuous par
ameter models forlarge vocabularisolated speech re
cognition, ICASSP89, pp.13-16, D.Paul, The Lincoln
robust continuous speech recognition, ICASSP89, p
p.449-452）中でも、、を同時に実現する鷹見の逐
次状態分割法（Successive State Splitting (SSS))
（鷹見、嵯峨山：「逐次分割法による隠れマルコフネッ
トワークの自動生成」信学論 J76-DII, No. 10, pp, 21
55-2164, 1993)によるshared-state HMMは、音素環境を
考慮しながら共有する状態をtop-downに決定するため、
精度良いshared-state triphone HMMを作成できる方法
として知られている。

【０００５】一方、上述したX.D. HuangやS. J. Young
らは、Buttom-up mergeにより、shared-state triphone
HMMを作成する方法を提案し、良好な結果を得ている。
更に、高橋らは、〜を統合したＨＭＭの作成方法も
提案している（高橋、嵯峨山「４階層共有後続の音素Ｈ
ＭＭ」信学技法 SP94-73, pp.25-32, 1994-12）。

【０００６】

【発明が解決しようとしている課題】本願では、予め全
てのtriphoneを用意し、これらtriphoneの状態をクラス
タリング（clustering）する点では、前述のX.D.Huang
やS. J.Youngらの方法と類似しているが、クラスタリン
グにおいてローカルな類似性のみを考慮したマージによ
るクラスタリングとは異なり、全音声空間を考慮したto
p-downのクラスタリングを行なっており、全音声空間を
考慮しているため、効率の良いクラスタリングが可能と
なっている。

【０００７】一方、ＳＳＳとは同じtop-downの手法であ
るが、ＳＳＳでは逐次分割を行うために、あるtriphone
の終端状態が他のtriphoneの始端状態と共有されること
はなく、ここに非効率な部分が存在する。一般に音声は
連続的に変換しているので、連結可能なtriphoneの終端
状態と、次のtriphoneの始端状態とが共有されること
は、比較的当然のことと考えられる。前述のS.J.Young
らの方法においても、音素クラス内の状態の共有のみを
考慮しているため、音素間にまたがる状態の共有はでき
ない。ＳＳＳにおけるこのような欠点に対し、鷹見は、
逐次分割の過程に融合をとり入れて回避しており（鷹見
「状態分割法による隠れマルコフ網の非現効率向上」、
音講論、1-8-4, pp.7-8, 1994-10）、また、高橋らは、
tied-mixtured HMMを併用することで回避している。し
かし、我々は直接、状態レベルで考慮する方が望ましい
と考える。

【０００８】また、前述したＳＳＳでは、逐次分割を行
なうため、不特定話者ＨＭＭを作成するときは、直接Ｓ
ＳＳを適用すると話者方向に分割されてしまう問題があ
る。このため、ある話者でＳＳＳを行なって状態共有の
構造を得る必要があり、これは、ある話者に関して非常
に多くデータを必要とする点や、ある話者の構造を不特
定話者に流用しなければならないという問題もある。

【０００９】本発明は上記従来例に鑑みてなされたもの
で、高速に音声認識を行うことができる状態共有モデル
の設計方法及び装置を提供することを目的とする。

【００１０】又、本発明の他の目的は、音素クラス間、
或は音素クラス内で状態の共有を行なうことができる状
態共有モデルの設計方法及び装置を提供することにあ
る。

【００１１】又本発明の他の目的は、不特定話者の音素
の状態共有構造を得ることができ、効率良く状態遷移モ
デルを設計できる状態共有モデルの設計方法及び装置を
提供することにある。

【００１２】

【課題を解決するための手段】本発明の一側面によれ
ば、状態の平均および分散で表現される状態遷移モデル
の状態共有構造を設計する状態共有モデルの設計方法で
あって、音声空間における両環境依存型状態遷移モデル
における全ての状態を初期クラスタとして設定する工程
と、前記初期クラスタを包含するクラスタから、状態の
平均および分散を用いたクラスタ間の距離尺度に基づき
新たなクラスタを作成していくことでトップダウン・ク
ラスタリングするクラスタリング工程と、前記クラスタ
リング工程によりクラスタリングされたクラスタの中か
ら、距離の近いクラスタを状態遷移モデルに割り当てる
ことにより状態共有構造を決定する工程と、前記決定さ
れた状態共有構造に基づいて、前記両環境依存型の状態
をまとめ、状態共有モデルを学習する工程とを有するこ
とを特徴とする状態共有モデルの設計方法が提供され
る。

【００１３】本発明の別の側面によれば、状態の平均お
よび分散で表現される状態遷移モデルの状態共有構造を
設計する状態共有モデルの設計装置であって、音声空間
における両環境依存型状態遷移モデルにおける全ての状
態を初期クラスタとして設定する設定手段と、前記初期
クラスタを包含するクラスタから、状態の平均および分
散を用いたクラスタ間の距離尺度に基づき新たなクラス
タを作成していくことでトップダウン・クラスタリング
するクラスタリング手段と、前記クラスタリング手段に
よりクラスタリングされたクラスタの中から、距離の近
いクラスタを状態遷移モデルに割り当てることにより状
態共有構造を決定する決定手段と、前記決定された状態
共有構造に基づいて、前記両環境依存型の状態をまと
め、状態共有モデルを学習する学習手段とを有すること
を特徴とする状態共有モデルの設計装置が提供される。
本発明の更に別の側面によれば、状態の平均および分散
で表現される状態遷移モデルの状態共有構造を設計する
状態共有モデル設計方法であって、全音声空間における
両環境依存型状態遷移モデルの状態を初期クラスタとし
て学習する工程と、全初期クラスタの平均値及び分散に
基づいて新クラスタを作成する工程と、前記新クラスタ
と各初期クラスタとの距離に基づいて、前記初期クラス
タから複数の初期クラスタを選択する工程と、前記選択
された複数の初期クラスタを核として前記初期クラスタ
を分類して新複数クラスタを作成する工程とを備えるこ
とを特徴とする状態共有モデル設計方法も提供される。
本発明の更に別の側面によれば、状態の平均および分散
で表現される状態遷移モデルの状態共有構造を設計する
状態共有モデル設計装置であって、全音声空間における
両環境依存型状態遷移モデルの状態を初期クラスタとし
て学習する学習手段と、全初期クラスタの平均値及び分
散に基づいて新クラスタを作成する新クラスタ作成手段
と、前記新クラスタと各初期クラスタとの距離に基づい
て、前記初期クラスタから複数の初期クラスタを選択す
る初期クラスタ選択手段と、前記選択された複数の初期
クラスタを核として前記初期クラスタを分類して新複数
クラスタを作成する複数クラスタ作成手段とを有するこ
とを特徴とする状態共有モデル設計装置も提供される。

【００１４】

【作用】以上の構成において、音声空間における両環境
依存型状態遷移モデルの状態を初期クラスタとして設定
し、その初期クラスタを包含するクラスタをトップダウ
ン・クラスタリングする。このトップダウンクラスタリ
ング工程によりクラスタリングされたクラスタの中か
ら、距離の近いクラスタを状態遷移モデルに割り当てる
ことにより状態共有構造を決定し、その決定された状態
共有構造に基づいて、前記両環境依存型の状態をまと
め、状態共有モデルとするように動作する。

【００１５】また本発明の音声認識装置は、音声情報を
入力し、その入力手段により入力された音声情報を分析
し、その分析手段により分析された音声情報と状態遷移
モデルとの尤度を求め、最も大きい尤度を有する言語を
認識結果として出力する。ここで状態遷移モデルは、音
声空間における両環境依存型状態遷移モデルの状態を初
期クラスタとして設定し、前記初期クラスタを包含する
クラスタをトップダウン・クラスタリングし、そのクラ
スタリングされたクラスタの中から、距離の近いクラス
タを状態遷移モデルとして割り当てることにより状態共
有構造を決定し、その決定された状態共有構造に基づい
て、前記両環境依存型の状態をまとめ、状態共有モデル
を学習することにより得られている。

【００１６】

【実施例】以下、添付図面を参照して本発明の好適な実
施例を詳細に説明する。

【００１７】本発明の第１実施例である音声認識用の状
態共有構造モデルの設計方法を以下に記す。

【００１８】図１は、本発明の第１実施例の処理を示す
フローチャートである。

【００１９】図１において、１０１は初期クラスタを設
計する手段（工程）、１０２は、２のべき乗のクラスタ
を作成する一般的なＬＢＧ法などのトップダウン（top-
down）クラスタリング、即ち、少数のクラスタから始め
て、順次クラスタ数を増加させて詳細化を進めていく手
法による手段（工程）、１０３はtriphone（先行音素と
後続音素を考慮したモデル）HMMの状態共有構造を決定
する手段（工程）、１０４は、状態共有構造のtriphone
HMMを学習する手段（工程）を示している。

【００２０】以下、これら各手段（工程）の詳細を説明
する。初期クラスタの設計（１０１）。（Ａ）全てのtriphone HMMを不特定話者のデータで学習
する。

【００２１】（ａ）適当な状態数で１分布の音素（phon
e）ＨＭＭを学習する。

【００２２】（ｂ）続いて、phone（音素）ＨＭＭを初
期モデルとし右環境依存型（right-context）ＨＭＭを
学習する。

【００２３】（ｃ）さらに、right-context HMMを初期
モデルとし、両環境依存型（triphone）ＨＭＭを学習す
る。

【００２４】（Ｂ）triphoneの全ての状態を初期クラス
タとする。

【００２５】図２は、ＨＭＭを説明するための図で、一
般的な状態と、その状態遷移モデルを示している。

【００２６】図２において、ａは状態遷移確率を示し、
ｂは、その状態の出力確率を示している。更に、μは、
状態の平均値、σは、その分散を示している。ＬＢＧ
法によるtop-down クラスタリング（１０２）。

【００２７】ここで行なうtop-down クラスタリング
は、出力確率分布を考慮した距離尺度を用いたＬＢＧ法
に基づいて行なう。また、状態遷移確率（ａ）を無視
し、ＨＭＭ間の類似度を求める場合に重要なパラメータ
と考えられる出力確率（ｂ）のみにより定義する。

【００２８】この処理を示すフローチャートを図３に示
す。

【００２９】まずステップＳ１で、ｍ＝１とし、ステッ
プＳ２で、全初期クラスタ｛φi｝を包含するクラスタ
Φmを１つ作成する。次にステップＳ３に進み、ｍの値
がクラスタの総数Ｍ（例えば６００）に等しくなったか
どうかを調べ、等しくなると処理を終了するが、そうで
ないときはステップＳ４に進む。

【００３０】ステップＳ４では、クラスタΦmに所属す
る全初期クラスタ｛φi｝より、次式に従って新しいク
ラスタΦmを作成する。即ち、出力確率の平均値μとそ
の分散σの２乗に基づいて新しいクラスタΦmを作成す
る。ここで、ｍはクラスタ番号、Ｎは、クラスタΦmに
属している総初期クラスタ数を表わしている。

【００３１】

【数１】

【００３２】

【数２】

【００３３】次にステップＳ５に進み、このクラスタΦ
mに属している初期クラスタ｛φi｝の中で、クラスタΦ
mに最も遠い初期クラスタφpと、その初期クラスタφp
に最も遠い初期クラスタφqを求める。これら２つのク
ラスタ間の距離尺度ｄ（φp，φq）としては、Kullback
情報量、Chernoff距離、正規化ユークリッド（Euclid）
距離や、ユークリッド距離などを用いることができる
が、ここでは、Bhattacharyya距離を用いている。このB
hattacharyya距離は単一ガウス分布の場合、以下の式で
計算できる。

【００３４】

【数３】

【００３５】尚、ここで、μi，Σiはそれぞれ平均値、
分散を表している。

【００３６】次にステップＳ６に進み、クラスタΦmに
属している初期クラスタ｛φi｝を、ステップＳ５で求
めたクラスタφpとφqに近いクラスタに分け、各々の新
クラスタΦmとΦM+1を求める。

【００３７】これを図４を参照して説明すると、音声空
間４０１において、いまクラスタΦmが音声空間４０１
のほぼ中央に位置しているとし、クラスタφpが音声空
間４０１の右端近傍に位置しているとすると、クラスタ
φqは音声空間の左端近傍に位置することになる。そし
て、初期クラスタ｛φi｝を、これら２つのクラスタφ
p、φqに近い２つに分けると、音声空間４０１はその略
中心より２つに分割されたことになる。これにより新ク
ラスタの総数Ｍは、２となる。

【００３８】次にステップＳ７に進み、新しい総数とな
ったクラスタ｛Φi｝に対して、全初期クラスタ｛φi｝
を用い、K-means（Ｋミーンズ）クラスタリングを行な
う。このK-meansクラスタリングを、規定のイタレーシ
ョン数となるか、或は総歪みＤmが閾値以下になるまで
行い、最大総歪みのクラスタΦdを探して、ｍ＝ｄとし
てステップＳ３に戻る。

【００３９】尚、各クラスタの総歪みは、次式で求めら
れる。

【００４０】

【数４】

【００４１】こうしてクラスタの総数が、規定の個数
（例えば６００）を越えると、この処理を終了する。こ
れでＭ個の共有状態が決定されたことになる。 triphone HMMの状態共有構造の決定（１０３）前述の初期クラスタの設計（１０１）で設計されたtrip
hone HMMの各状態に対して、top-downクラスタリング
（１０２）で設計されたクラスタの内、最も近いクラス
タを割り当て、その共有状態の番号によりtriphone HMM
の状態共有構造を決定する。この距離の判定には、前述
したBhattacharyya距離を用い、この状態の割り当てを
行なった。これにより音響的に近い状態は、triphone同
士の間で、或はtriphone内で状態が共有される。

【００４２】図４における／ａ・Ｚ・ｉ／等の記号は、
１つのtriphoneを表わし、この場合図２に示すような３
つの状態のモデルを表している。又、このtriphoneが、
右の音素が“ｉ”で、左の音素に“ａ”が存在する音素
“Ｚ”であることを示している。例えば図４において、
／ａ・Ｚ・ｉ／，／ａ・Ｚ・ｙ／及び／ａ・Ｚ・ａ／の
第１の状態は同じ状態４０２で表され、／ａ・Ｚ・ｉ
／，／ａ・Ｚ・ｙ／の第２の状態は同じ状態４０３で、
／ａ・Ｚ・ａ／の第２の状態だけが他の状態４０４で表
される。このように、／ａ・Ｚ・ｉ／，／ａ・Ｚ・ｙ／
は、第１〜第３のいずれの状態も、それぞれ同じ状態で
共有されているため全く区別されない。しかしながら、
例えば「アジア」と「アジャア」の例で説明すると、こ
れらはそれぞれ音素列とtriphoneとにより以下のように
表される。なお、ここでｑは、音素が存在しない無音部分を示して
いる。ここで、ｑＡｚ，ａＺｉ，ａＺｙは等しいため、
この部分では区別できないが、ｚＩａ，ｚＹａもしくは
ｉＡｑ，ｙＡｑのいずれかが同一の共有構造でなけれ
ば、この部分で「アジア」と「アジャア」とが区別でき
るため、実際の認識処理では問題がないと考えられる。

【００４３】また場合によって（特に全共有状態数が少
ないとき）、中心音素の異なるtriphoneで対応する各状
態が全て同じ状態を共有してしまうことが起こり得る。
この場合、分割の必要があれば、区別したいtriphoneの
ある状態（例えば中心状態）の共有状態番号を全共有状
態番号より１つ増やした共有状態番号を割り当てること
により、全てのtriphoneが異なる音響特徴を表すように
修正することもできる。状態共有triphone HMMの学習（１０４）で決定された共有状態構造に基づき、triphoneの状態
を１つに(tied)して、tied-state学習を行なう。この学
習には、従来法である例えば、EM-algorithm（ＥＭアル
ゴリズム）を用いる。

【００４４】図５は、本実施例の音声認識処理装置にお
ける音声認識処理を示すブロック図である。

【００４５】この実施例では、ＨＭＭ５０５は、前述の
実施例で示した手法５１０により作成されている。マイ
クロフォン等により入力された音声信号は、切出し部５
０１で音声区間が切り出され、その切出された音声信号
は音響分析部５０２で分析される。尤度計算部５０３
は、ＨＭＭ５０５を用いて、ＨＭＭの状態毎の尤度を求
める。その尤度と、文法（グラマ）５０６とＨＭＭ５０
５により作成された音声認識ネットワーク５０７とを用
いて、言語探索部５０４により、尤度が最大となる言語
系列を求めて、それを音声認識結果として出力する。

【００４６】図６は本実施例の音声認識処理装置におい
て、１０名の不特定話者が発声した１００文を、約１０
００単語からなる文法を用いて認識した結果を示す図で
ある。図において、文認識率（％）は、入力した音声を
認識した結果が全て正解であった文の率を示し、単語認
識率（％）は、発声した文内の単語正解率を示してい
る。

【００４７】以上のように、第１実施例における手法に
より共有状態総数を６００とした状態共有構造に基づい
て音声認識を行うことにより、従来の音素(phone)ＨＭ
Ｍ、右環境依存型（right-context）ＨＭＭ及びtriphon
eＨＭＭと比べても、十分に高い文認識率及び単語認識
率が得られた。

【００４８】次に本発明の第２実施例を説明する。

【００４９】前述のクラスタリングのアルゴリズムは、
分散σを考慮した距離尺度を用いているため、初期クラ
スタ｛φi｝の数や目標クラスタ数が非常に多いときに
は、計算量が莫大になるため、全てのクラスタ間の距離
の計算に計算量の大きい距離計算を用いると、より多く
の時間を要する。そこで、ここでは距離計算に、簡易な
距離計算と、正確な距離を求める高度な計算の２つを使
用し、目標としているクラスタ総数に対して、ある程度
少ない数値までは簡易な距離計算を用い、それ以上で目
標としているクラスタ数に到るまでは正確な距離計算を
用いる。これにより、距離計算にようする時間を短縮し
て、高速化を図った。尚、この第２実施例では、簡易な
距離計算にユークリッド（Euclid）距離とし、正確な距
離計算をBhattacharyya距離による計算で求めている。

【００５０】図７は、本発明の第２実施例による処理の
流れ図を示す図である。

【００５１】まず７０１で、全初期クラスタ｛φi｝を
含むクラスタΦmを作成する。これは図３のＳ，Ｓ２に
相当している。７０２では、所望のクラスタ総数（Ｍ）
になったか否かを判定し、Ｍ以下のときは処理を継続
し、そうでないときは処理を終了する。７０３では、次
のクラスタリングを簡単な距離計算か、正確な距離計算
のいずれを用いるかを判定する。これには、所望のクラ
スタ総数（Ｍ）（例えば６００）に対して、それよりも
小さい数（Ｍ−ｘ）（例えばｘ＝１０とすると５９０）
までは、７０４に進んで、簡単な距離計算を用いてクラ
スタリングを行なう。

【００５２】また、クラスタの数ｍが（Ｍ−ｘ）以上で
あれば７０５に進み、所望のクラスタ数（Ｍ）までは正
確な距離計算によりクラスタリングを行なう。これら７
０４及び７０５における処理は、計算方法が異なるのみ
で、図３のステップＳ４〜ステップＳ７の処理に相当し
ている。即ち、７０５では、Bhattacharyya距離を使用
しているので、図３のステップＳ４〜Ｓ７と同様の処理
であり、７０４では、ユークリッド距離を用いているの
で、図３のステップＳ４〜Ｓ７でユークリッド距離に基
づく計算を行うことにより実現できる。こうして、７０
４或は７０５で新たにクラスタ数が１つ増加され（ｍ＝
ｍ＋１）、また７０２の処理に戻る。

【００５３】尚、本実施例における距離計算は、上述の
Bhattacharyya距離やユークリッド距離以外であっても
良い。

【００５４】また前述の実施例では、音声認識用モデル
としてＨＭＭを用いているが、分布を持つ状態遷移モデ
ルであればＨＭＭでなくても構わない。さらに、モデル
の単位としては、triphoneを用いているが、認識の単位
としては、音素でも何でも構わない。

【００５５】また、前述の実施例では、特に音声認識に
関して用いるように記述されているが、同様な分布を持
つモデルを用いたパターン認識のモデル設計にも、この
ような手法を用いることが可能である。

【００５６】尚、本発明は、複数の機器から構成される
システムに適用しても、１つの機器から成る装置に適用
しても良い。また、本発明はシステム或は装置に本発明
を実施するプログラムを供給することによって達成され
る場合にも適用できる。

【００５７】以上説明したように本実施例によれば、（１）全音声空間を考慮したtop-down クラスタリング
によりを作成する。（２）音素クラス間、音素クラス内での状態の共有が可
能である。（３）不特定話者の状態共有構造を直接設計できる。

【００５８】という特徴を持ち、効率の良い状態共有構
造triphone HMMをtop-downクラスタリングに基づいて設
計でき、本方法で設計された音声認識モデルを用いれ
ば、高速で高性能な音声認識が実現できる。

【００５９】

【発明の効果】以上説明したように本発明によれば、高
速に音声認識を行うことができるという効果がある。

【００６０】また本発明によれば、音素クラス間、或は
音素クラス内で状態の共有を行なうことができる。

【００６１】更に本発明によれば、不特定話者の音素の
状態共有構造を得ることができ、効率良く状態遷移モデ
ルを設計できるという効果がある。

【００６２】

【図面の簡単な説明】

【図１】本発明の第１実施例の処理を示すフローチャー
トである。

【図２】ＨＭＭにおける状態及びその状態遷移のモデル
図である。

【図３】トップダウンクラスタリングの処理を示すフロ
ーチャートを示す図である。

【図４】状態共有型ＨＭＭを説明するための図である。

【図５】本実施例の音声認識処理装置における音声認識
処理を示すブロック図である。

【図６】本実施例の音声認識処理装置において、１０名
の不特定話者が発声した１００文を、１０００単語から
なる文法を用いて認識した結果を示す図である。

【図７】本発明の第２実施例による処理の流れ図を示す
図である。

【符号の説明】

５０１切出し部５０２音響分析部５０３尤度計算部５０４言語探索部５０５ＨＭＭ

───────────────────────────────────────────────────── フロントページの続き (56)参考文献Ｋａｉ−ＦｕＬｅｅｅｔａｌ, ＡｌｌｏｐｈｏｎｅＣｌｕｓｔｅｒｉｎｇｆｏｒＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，Ｐｒｏｃ．ＩＣＡＳＳＰ90，1990 年，ｐ．749−752 高橋敏、他，４階層共有構造の音素ＨＭＭ，電子情報通信学会技術研究報告［音声］，日本，1994年12月，ＳＰ94− 73，ｐ．25−32 小森康弘，他，Ｔｏｐ−ＤｏｗｎＣｌｕｓｔｅｒｉｎｇに基づく効率的なＳｈａｒｅｄ−ＳｔａｔｅＴｒｉｐｈｏｎｅＨＭＭ，電子情報通信学会技術研究報告［音声］，1995年６月22日，ＳＰ95−21，ｐ．23−30 小森康弘，他，Ｔｏｐ−ＤｏｗｎＣｌｕｓｔｅｒｉｎｇによる状態共有ＴｒｉｐｈｏｎｅＨＭＭ，日本音響学会平成９年度秋季研究発表会講演論文集, 1995年９月，２−２−15，ｐ．67−68 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/06 G10L 15/14 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】状態の平均および分散で表現される状態
遷移モデルの状態共有構造を設計する状態共有モデルの
設計方法であって、音声空間における両環境依存型状態遷移モデルにおける
全ての状態を初期クラスタとして設定する工程と、前記初期クラスタを包含するクラスタから、状態の平均
および分散を用いたクラスタ間の距離尺度に基づき新た
なクラスタを作成していくことでトップダウン・クラス
タリングするクラスタリング工程と、前記クラスタリング工程によりクラスタリングされたク
ラスタの中から、距離の近いクラスタを状態遷移モデル
に割り当てることにより状態共有構造を決定する工程
と、前記決定された状態共有構造に基づいて、前記両環境依
存型の状態をまとめ、状態共有モデルを学習する工程
と、を有することを特徴とする状態共有モデルの設計方法。
【請求項２】前記クラスタリング工程は、所定数のク
ラスタまでは簡易な距離計算に基づいてクラスタリング
を行い、前記所定数以上の計算ではより精度の高い距離
計算に基づいてクラスタリングを行うことを特徴とする
請求項１に記載の状態共有モデルの設計方法。
【請求項３】前記精度の高い距離計算は、Bhattachar
yya距離による計算であることを特徴とする請求項２に
記載の状態共有モデルの設計方法。
【請求項４】前記簡易な距離計算は、ユークリッド距
離による計算であることを特徴とする請求項２に記載の
状態共有モデルの設計方法。
【請求項５】請求項１から４までのいずれかに記載の
状態共有モデルの設計方法により設計された状態共有モ
デルを用いて音声認識を行う音声認識方法。
【請求項６】状態の平均および分散で表現される状態
遷移モデルの状態共有構造を設計する状態共有モデルの
設計装置であって、音声空間における両環境依存型状態遷移モデルにおける
全ての状態を初期クラスタとして設定する設定手段と、前記初期クラスタを包含するクラスタから、状態の平均
および分散を用いたクラスタ間の距離尺度に基づき新た
なクラスタを作成していくことでトップダウン・クラス
タリングするクラスタリング手段と、前記クラスタリング手段によりクラスタリングされたク
ラスタの中から、距離の近いクラスタを状態遷移モデル
に割り当てることにより状態共有構造を決定する決定手
段と、前記決定された状態共有構造に基づいて、前記両環境依
存型の状態をまとめ、状態共有モデルを学習する学習手
段と、を有することを特徴とする状態共有モデルの設計装置。
【請求項７】前記クラスタリング手段は、所定数のク
ラスタまでは簡易な距離計算に基づいてクラスタリング
を行い、前記所定数以上の計算ではより精度の高い距離
計算に基づいてクラスタリングを行うことを特徴とする
請求項６に記載の状態共有モデルの設計装置。
【請求項８】前記精度の高い距離計算は、Bhattachar
yya距離による計算であることを特徴とする請求項７に
記載の状態共有モデルの設計装置。
【請求項９】前記簡易な距離計算は、ユークリッド距
離による計算であることを特徴とする請求項７に記載の
状態共有モデルの設計装置。
【請求項１０】請求項６から９までのいずれかに記載
の状態共有モデルの設計装置により設計された状態共有
モデルを用いて音声認識を行う音声認識装置。
【請求項１１】状態の平均および分散で表現される状
態遷移モデルの状態共有構造を設計する状態共有モデル
設計方法であって、全音声空間における両環境依存型状態遷移モデルの状態
を初期クラスタとして学習する工程と、全初期クラスタの平均値及び分散に基づいて新クラスタ
を作成する工程と、前記新クラスタと各初期クラスタとの距離に基づいて、
前記初期クラスタから複数の初期クラスタを選択する工
程と、前記選択された複数の初期クラスタを核として前記初期
クラスタを分類して新複数クラスタを作成する工程とを
備えることを特徴とする状態共有モデル設計方法。
【請求項１２】前記作成された新複数クラスタの各々
について、各クラスタに含まれるクラスタを初期クラス
タとして前記各工程を繰り返すことを特徴とする請求項
１１に記載の状態共有モデル設計方法。
【請求項１３】前記全音声空間は、認識対象として定
めた空間とすることを特徴とする請求項１１に記載の状
態共有モデル設計方法。
【請求項１４】請求項１１から１３までのいずれかに
記載の状態共有モデル設計方法により設計された状態共
有モデルを用いて音声認識を行う音声認識方法。
【請求項１５】状態の平均および分散で表現される状
態遷移モデルの状態共有構造を設計する状態共有モデル
設計装置であって、全音声空間における両環境依存型状態遷移モデルの状態
を初期クラスタとして学習する学習手段と、全初期クラスタの平均値及び分散に基づいて新クラスタ
を作成する新クラスタ作成手段と、前記新クラスタと各初期クラスタとの距離に基づいて、
前記初期クラスタから複数の初期クラスタを選択する初
期クラスタ選択手段と、前記選択された複数の初期クラスタを核として前記初期
クラスタを分類して新複数クラスタを作成する複数クラ
スタ作成手段とを有することを特徴とする状態共有モデ
ル設計装置。
【請求項１６】前記作成された新複数クラスタの各々
について、各クラスタに含まれるクラスタを初期クラス
タとして前記各工程を繰り返すよう制御する繰り返しク
ラスタ作成手段を有することを特徴とする請求項１５に
記載の状態共有モデル設計装置。
【請求項１７】前記全音声空間は、認識対象として定
めた空間とすることを特徴とする請求項１５に記載の状
態共有モデル設計装置。
【請求項１８】請求項１５から１７までのいずれかに
記載の状態共有モデル設計装置により設計された状態共
有モデルを用いて音声認識を行う音声認識装置。