JP3453456B2 - 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 - Google Patents

状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置

Info

Publication number
JP3453456B2
JP3453456B2 JP15148995A JP15148995A JP3453456B2 JP 3453456 B2 JP3453456 B2 JP 3453456B2 JP 15148995 A JP15148995 A JP 15148995A JP 15148995 A JP15148995 A JP 15148995A JP 3453456 B2 JP3453456 B2 JP 3453456B2
Authority
JP
Japan
Prior art keywords
state
clusters
cluster
initial
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP15148995A
Other languages
English (en)
Other versions
JPH096386A (ja
Inventor
康弘 小森
恭則 大洞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP15148995A priority Critical patent/JP3453456B2/ja
Priority to EP96304526A priority patent/EP0750293B1/en
Priority to US08/665,503 priority patent/US5812975A/en
Priority to DE69629763T priority patent/DE69629763T2/de
Publication of JPH096386A publication Critical patent/JPH096386A/ja
Application granted granted Critical
Publication of JP3453456B2 publication Critical patent/JP3453456B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えば音声認識用モデ
ル等に使用される状態遷移モデルの設計方法及び該状態
遷移モデルを用いた音声認識装置に関するものである。
【0002】
【従来の技術】ここでは、音声認識用のモデルにHMM
(隠れマルコフモデル)を用いて説明する。
【0003】計算機の能力が劇的に高速化したのに伴
い、音声認識システムの実用化の研究や製品化が、盛ん
に行なわれるようになってきた。これらシステムでは、
統計的なモデルであるHMMを採用している。なかで
も、より高性能を示すtriphone HMMは、盛んに研究され
ている。このtriphone HMMは、先行音素及び後続音素と
いった音素環境の違いを細分化したものである。しか
し、このtriphone HMMはモデル数が非常に多くなるた
め、データに対する学習効率(trainability)が低下し、
性能の良いモデルを構成することができない。さらに、
この場合の計算量もモデル数に比例して非常に大きくな
るため、実時間で処理することが重要である音声認識に
おいては大きな問題となっている。
【0004】そこで、これらの問題に対して、「共有構
造HMM」という考え方に基づき、以下に示す幾つかの
解決方法の研究が行なわれている。響特徴が類似し
たHMM自身を共有するgeneralized triphone HMM(K.
F.Lee, H.W,Hon, Large-vocabulary speaker-independe
nt continuous speech recognition using HMM, ICASSP
88, pp. 123-126)響特徴が類似したHMMの状態
を共有するshared-state HMM(Mei-Yuh Hwang, X.D.Hua
ng, Subphonetic modeling with Markov States - SENO
N, ICASSP92,pp.I33-I36,S.J.Young, P.Woodland, The
use of state tyingin continuousspeech recognitio
n, Eurospeech93, pp.2203-2206, 1993)響特徴が
類似したHMMの分布を共有するtied-mixture HMM(J.
Bellegarda, D.Nahamoo, Tied mixture continuous par
ameter models forlarge vocabularisolated speech re
cognition, ICASSP89, pp.13-16, D.Paul, The Lincoln
robust continuous speech recognition, ICASSP89, p
p.449-452)中でも、、を同時に実現する鷹見の逐
次状態分割法(Successive State Splitting (SSS))
(鷹見、嵯峨山:「逐次分割法による隠れマルコフネッ
トワークの自動生成」信学論 J76-DII, No. 10, pp, 21
55-2164, 1993)によるshared-state HMMは、音素環境を
考慮しながら共有する状態をtop-downに決定するため、
精度良いshared-state triphone HMMを作成できる方法
として知られている。
【0005】一方、上述したX.D. HuangやS. J. Young
らは、Buttom-up mergeにより、shared-state triphone
HMMを作成する方法を提案し、良好な結果を得ている。
更に、高橋らは、〜を統合したHMMの作成方法も
提案している(高橋、嵯峨山「4階層共有後続の音素H
MM」信学技法 SP94-73, pp.25-32, 1994-12)。
【0006】
【発明が解決しようとしている課題】本願では、予め全
てのtriphoneを用意し、これらtriphoneの状態をクラス
タリング(clustering)する点では、前述のX.D.Huang
やS. J.Youngらの方法と類似しているが、クラスタリン
グにおいてローカルな類似性のみを考慮したマージによ
るクラスタリングとは異なり、全音声空間を考慮したto
p-downのクラスタリングを行なっており、全音声空間を
考慮しているため、効率の良いクラスタリングが可能と
なっている。
【0007】一方、SSSとは同じtop-downの手法であ
るが、SSSでは逐次分割を行うために、あるtriphone
の終端状態が他のtriphoneの始端状態と共有されること
はなく、ここに非効率な部分が存在する。一般に音声は
連続的に変換しているので、連結可能なtriphoneの終端
状態と、次のtriphoneの始端状態とが共有されること
は、比較的当然のことと考えられる。前述のS.J.Young
らの方法においても、音素クラス内の状態の共有のみを
考慮しているため、音素間にまたがる状態の共有はでき
ない。SSSにおけるこのような欠点に対し、鷹見は、
逐次分割の過程に融合をとり入れて回避しており(鷹見
「状態分割法による隠れマルコフ網の非現効率向上」、
音講論、1-8-4, pp.7-8, 1994-10)、また、高橋らは、
tied-mixtured HMMを併用することで回避している。し
かし、我々は直接、状態レベルで考慮する方が望ましい
と考える。
【0008】また、前述したSSSでは、逐次分割を行
なうため、不特定話者HMMを作成するときは、直接S
SSを適用すると話者方向に分割されてしまう問題があ
る。このため、ある話者でSSSを行なって状態共有の
構造を得る必要があり、これは、ある話者に関して非常
に多くデータを必要とする点や、ある話者の構造を不特
定話者に流用しなければならないという問題もある。
【0009】本発明は上記従来例に鑑みてなされたもの
で、高速に音声認識を行うことができる状態共有モデル
の設計方法及び装置を提供することを目的とする。
【0010】又、本発明の他の目的は、音素クラス間、
或は音素クラス内で状態の共有を行なうことができる状
共有モデルの設計方法及び装置を提供することにあ
る。
【0011】又本発明の他の目的は、不特定話者の音素
の状態共有構造を得ることができ、効率良く状態遷移モ
デルを設計できる状態共有モデルの設計方法及び装置
提供することにある。
【0012】
【課題を解決するための手段】本発明の一側面によれ
ば、状態の平均および分散で表現される状態遷移モデル
の状態共有構造を設計する状態共有モデルの設計方法で
あって、音声空間における両環境依存型状態遷移モデル
における全ての状態を初期クラスタとして設定する工程
と、前記初期クラスタを包含するクラスタから、状態の
平均および分散を用いたクラスタ間の距離尺度に基づき
新たなクラスタを作成していくことでトップダウン・ク
ラスタリングするクラスタリング工程と、前記クラスタ
リング工程によりクラスタリングされたクラスタの中か
ら、距離の近いクラスタを状態遷移モデルに割り当てる
ことにより状態共有構造を決定する工程と、前記決定さ
れた状態共有構造に基づいて、前記両環境依存型の状態
をまとめ、状態共有モデルを学習する工程とを有するこ
とを特徴とする状態共有モデルの設計方法が提供され
る。
【0013】本発明の別の側面によれば、状態の平均お
よび分散で表現される状態遷移モデルの状態共有構造を
設計する状態共有モデルの設計装置であって、音声空間
における両環境依存型状態遷移モデルにおける全ての
態を初期クラスタとして設定する設定手段と、前記初期
クラスタを包含するクラスタから、状態の平均および分
を用いたクラスタ間の距離尺度に基づき新たなクラス
タを作成していくことでトップダウン・クラスタリング
するクラスタリング手段と、前記クラスタリング手段に
よりクラスタリングされたクラスタの中から、距離の近
いクラスタを状態遷移モデルに割り当てることにより状
態共有構造を決定する決定手段と、前記決定された状態
共有構造に基づいて、前記両環境依存型の状態をまと
め、状態共有モデルを学習する学習手段とを有すること
を特徴とする状態共有モデルの設計装置が提供される。
本発明の更に別の側面によれば、状態の平均および分散
で表現される状態遷移モデルの状態共有構造を設計する
状態共有モデル設計方法であって、全音声空間における
両環境依存型状態遷移モデルの状態を初期クラスタとし
て学習する工程と、全初期クラスタの平均値及び分散に
基づいて新クラスタを作成する工程と、前記新クラスタ
と各初期クラスタとの距離に基づいて、前記初期クラス
タから複数の初期クラスタを選択する工程と、前記選択
された複数の初期クラスタを核として前記初期クラスタ
を分類して新複数クラスタを作成する工程とを備えるこ
とを特徴とする状態共有モデル設計方法も提供される。
本発明の更に別の側面によれば、状態の平均および分散
で表現される状態遷移モデルの状態共有構造を設計する
状態共有モデル設計装置であって、全音声空間における
両環境依存型状態遷移モデルの状態を初期クラスタとし
て学習する学習手段と、全初期クラスタの平均値及び分
散に基づいて新クラスタを作成する新クラスタ作成手段
と、前記新クラスタと各初期クラスタとの距離に基づい
て、前記初期クラスタから複数の初期クラスタを選択す
る初期クラスタ選択手段と、前記選択された複数の初期
クラスタを核として前記初期クラスタを分類して新複数
クラスタを作成する複数クラスタ作成手段とを有するこ
とを特徴とする状態共有モデル設計装置も提供される。
【0014】
【作用】以上の構成において、音声空間における両環境
依存型状態遷移モデルの状態を初期クラスタとして設定
し、その初期クラスタを包含するクラスタをトップダウ
ン・クラスタリングする。このトップダウンクラスタリ
ング工程によりクラスタリングされたクラスタの中か
ら、距離の近いクラスタを状態遷移モデルに割り当てる
ことにより状態共有構造を決定し、その決定された状態
共有構造に基づいて、前記両環境依存型の状態をまと
め、状態共有モデルとするように動作する。
【0015】また本発明の音声認識装置は、音声情報を
入力し、その入力手段により入力された音声情報を分析
し、その分析手段により分析された音声情報と状態遷移
モデルとの尤度を求め、最も大きい尤度を有する言語を
認識結果として出力する。ここで状態遷移モデルは、音
声空間における両環境依存型状態遷移モデルの状態を初
期クラスタとして設定し、前記初期クラスタを包含する
クラスタをトップダウン・クラスタリングし、そのクラ
スタリングされたクラスタの中から、距離の近いクラス
タを状態遷移モデルとして割り当てることにより状態共
有構造を決定し、その決定された状態共有構造に基づい
て、前記両環境依存型の状態をまとめ、状態共有モデル
を学習することにより得られている。
【0016】
【実施例】以下、添付図面を参照して本発明の好適な実
施例を詳細に説明する。
【0017】本発明の第1実施例である音声認識用の状
態共有構造モデルの設計方法を以下に記す。
【0018】図1は、本発明の第1実施例の処理を示す
フローチャートである。
【0019】図1において、101は初期クラスタを設
計する手段(工程)、102は、2のべき乗のクラスタ
を作成する一般的なLBG法などのトップダウン(top-
down)クラスタリング、即ち、少数のクラスタから始め
て、順次クラスタ数を増加させて詳細化を進めていく手
法による手段(工程)、103はtriphone(先行音素と
後続音素を考慮したモデル)HMMの状態共有構造を決定
する手段(工程)、104は、状態共有構造のtriphone
HMMを学習する手段(工程)を示している。
【0020】以下、これら各手段(工程)の詳細を説明
する。 初期クラスタの設計(101)。 (A)全てのtriphone HMMを不特定話者のデータで学習
する。
【0021】(a)適当な状態数で1分布の音素(phon
e)HMMを学習する。
【0022】(b)続いて、phone(音素)HMMを初
期モデルとし右環境依存型(right-context)HMMを
学習する。
【0023】(c)さらに、right-context HMMを初期
モデルとし、両環境依存型(triphone)HMMを学習す
る。
【0024】(B)triphoneの全ての状態を初期クラス
タとする。
【0025】図2は、HMMを説明するための図で、一
般的な状態と、その状態遷移モデルを示している。
【0026】図2において、aは状態遷移確率を示し、
bは、その状態の出力確率を示している。更に、μは、
状態の平均値、σは、その分散を示している。LBG
法によるtop-down クラスタリング(102)。
【0027】ここで行なうtop-down クラスタリング
は、出力確率分布を考慮した距離尺度を用いたLBG法
に基づいて行なう。また、状態遷移確率(a)を無視
し、HMM間の類似度を求める場合に重要なパラメータ
と考えられる出力確率(b)のみにより定義する。
【0028】この処理を示すフローチャートを図3に示
す。
【0029】まずステップS1で、m=1とし、ステッ
プS2で、全初期クラスタ{φi}を包含するクラスタ
Φmを1つ作成する。次にステップS3に進み、mの値
がクラスタの総数M(例えば600)に等しくなったか
どうかを調べ、等しくなると処理を終了するが、そうで
ないときはステップS4に進む。
【0030】ステップS4では、クラスタΦmに所属す
る全初期クラスタ{φi}より、次式に従って新しいク
ラスタΦmを作成する。即ち、出力確率の平均値μとそ
の分散σの2乗に基づいて新しいクラスタΦmを作成す
る。ここで、mはクラスタ番号、Nは、クラスタΦmに
属している総初期クラスタ数を表わしている。
【0031】
【数1】
【0032】
【数2】
【0033】次にステップS5に進み、このクラスタΦ
mに属している初期クラスタ{φi}の中で、クラスタΦ
mに最も遠い初期クラスタφpと、その初期クラスタφp
に最も遠い初期クラスタφqを求める。これら2つのク
ラスタ間の距離尺度d(φp,φq)としては、Kullback
情報量、Chernoff距離、正規化ユークリッド(Euclid)
距離や、ユークリッド距離などを用いることができる
が、ここでは、Bhattacharyya距離を用いている。このB
hattacharyya距離は単一ガウス分布の場合、以下の式で
計算できる。
【0034】
【数3】
【0035】尚、ここで、μi,Σiはそれぞれ平均値、
分散を表している。
【0036】次にステップS6に進み、クラスタΦmに
属している初期クラスタ{φi}を、ステップS5で求
めたクラスタφpとφqに近いクラスタに分け、各々の新
クラスタΦmとΦM+1を求める。
【0037】これを図4を参照して説明すると、音声空
間401において、いまクラスタΦmが音声空間401
のほぼ中央に位置しているとし、クラスタφpが音声空
間401の右端近傍に位置しているとすると、クラスタ
φqは音声空間の左端近傍に位置することになる。そし
て、初期クラスタ{φi}を、これら2つのクラスタφ
p、φqに近い2つに分けると、音声空間401はその略
中心より2つに分割されたことになる。これにより新ク
ラスタの総数Mは、2となる。
【0038】次にステップS7に進み、新しい総数とな
ったクラスタ{Φi}に対して、全初期クラスタ{φi}
を用い、K-means(Kミーンズ)クラスタリングを行な
う。このK-meansクラスタリングを、規定のイタレーシ
ョン数となるか、或は総歪みDmが閾値以下になるまで
行い、最大総歪みのクラスタΦdを探して、m=dとし
て ステップS3に戻る。
【0039】尚、各クラスタの総歪みは、次式で求めら
れる。
【0040】
【数4】
【0041】こうしてクラスタの総数が、規定の個数
(例えば600)を越えると、この処理を終了する。こ
れでM個の共有状態が決定されたことになる。 triphone HMMの状態共有構造の決定(103) 前述の初期クラスタの設計(101)で設計されたtrip
hone HMMの各状態に対して、top-downクラスタリング
(102)で設計されたクラスタの内、最も近いクラス
タを割り当て、その共有状態の番号によりtriphone HMM
の状態共有構造を決定する。この距離の判定には、前述
したBhattacharyya距離を用い、この状態の割り当てを
行なった。これにより音響的に近い状態は、triphone同
士の間で、或はtriphone内で状態が共有される。
【0042】図4における/a・Z・i/等の記号は、
1つのtriphoneを表わし、この場合図2に示すような3
つの状態のモデルを表している。又、このtriphoneが、
右の音素が“i”で、左の音素に“a”が存在する音素
“Z”であることを示している。例えば図4において、
/a・Z・i/,/a・Z・y/及び/a・Z・a/の
第1の状態は同じ状態402で表され、/a・Z・i
/,/a・Z・y/の第2の状態は同じ状態403で、
/a・Z・a/の第2の状態だけが他の状態404で表
される。このように、/a・Z・i/,/a・Z・y/
は、第1〜第3のいずれの状態も、それぞれ同じ状態で
共有されているため全く区別されない。しかしながら、
例えば「アジア」と「アジャア」の例で説明すると、こ
れらはそれぞれ音素列とtriphoneとにより以下のように
表される。 なお、ここでqは、音素が存在しない無音部分を示して
いる。ここで、qAz,aZi,aZyは等しいため、
この部分では区別できないが、zIa,zYaもしくは
iAq,yAqのいずれかが同一の共有構造でなけれ
ば、この部分で「アジア」と「アジャア」とが区別でき
るため、実際の認識処理では問題がないと考えられる。
【0043】また場合によって(特に全共有状態数が少
ないとき)、中心音素の異なるtriphoneで対応する各状
態が全て同じ状態を共有してしまうことが起こり得る。
この場合、分割の必要があれば、区別したいtriphoneの
ある状態(例えば中心状態)の共有状態番号を全共有状
態番号より1つ増やした共有状態番号を割り当てること
により、全てのtriphoneが異なる音響特徴を表すように
修正することもできる。 状態共有triphone HMMの学習(104) で決定された共有状態構造に基づき、triphoneの状態
を1つに(tied)して、tied-state学習を行なう。この学
習には、従来法である例えば、EM-algorithm(EMアル
ゴリズム)を用いる。
【0044】図5は、本実施例の音声認識処理装置にお
ける音声認識処理を示すブロック図である。
【0045】この実施例では、HMM505は、前述の
実施例で示した手法510により作成されている。マイ
クロフォン等により入力された音声信号は、切出し部5
01で音声区間が切り出され、その切出された音声信号
は音響分析部502で分析される。尤度計算部503
は、HMM505を用いて、HMMの状態毎の尤度を求
める。その尤度と、文法(グラマ)506とHMM50
5により作成された音声認識ネットワーク507とを用
いて、言語探索部504により、尤度が最大となる言語
系列を求めて、それを音声認識結果として出力する。
【0046】図6は本実施例の音声認識処理装置におい
て、10名の不特定話者が発声した100文を、約10
00単語からなる文法を用いて認識した結果を示す図で
ある。図において、文認識率(%)は、入力した音声を
認識した結果が全て正解であった文の率を示し、単語認
識率(%)は、発声した文内の単語正解率を示してい
る。
【0047】以上のように、第1実施例における手法に
より共有状態総数を600とした状態共有構造に基づい
て音声認識を行うことにより、従来の音素(phone)HM
M、右環境依存型(right-context)HMM及びtriphon
eHMMと比べても、十分に高い文認識率及び単語認識
率が得られた。
【0048】次に本発明の第2実施例を説明する。
【0049】前述のクラスタリングのアルゴリズムは、
分散σを考慮した距離尺度を用いているため、初期クラ
スタ{φi}の数や目標クラスタ数が非常に多いときに
は、計算量が莫大になるため、全てのクラスタ間の距離
の計算に計算量の大きい距離計算を用いると、より多く
の時間を要する。そこで、ここでは距離計算に、簡易な
距離計算と、正確な距離を求める高度な計算の2つを使
用し、目標としているクラスタ総数に対して、ある程度
少ない数値までは簡易な距離計算を用い、それ以上で目
標としているクラスタ数に到るまでは正確な距離計算を
用いる。これにより、距離計算にようする時間を短縮し
て、高速化を図った。尚、この第2実施例では、簡易な
距離計算にユークリッド(Euclid)距離とし、正確な距
離計算をBhattacharyya距離による計算で求めている。
【0050】図7は、本発明の第2実施例による処理の
流れ図を示す図である。
【0051】まず701で、全初期クラスタ{φi}を
含むクラスタΦmを作成する。これは図3のS,S2に
相当している。702では、所望のクラスタ総数(M)
になったか否かを判定し、M以下のときは処理を継続
し、そうでないときは処理を終了する。703では、次
のクラスタリングを簡単な距離計算か、正確な距離計算
のいずれを用いるかを判定する。これには、所望のクラ
スタ総数(M)(例えば600)に対して、それよりも
小さい数(M−x)(例えばx=10とすると590)
までは、704に進んで、簡単な距離計算を用いてクラ
スタリングを行なう。
【0052】また、クラスタの数mが(M−x)以上で
あれば705に進み、所望のクラスタ数(M)までは正
確な距離計算によりクラスタリングを行なう。これら7
04及び705における処理は、計算方法が異なるのみ
で、図3のステップS4〜ステップS7の処理に相当し
ている。即ち、705では、Bhattacharyya距離を使用
しているので、図3のステップS4〜S7と同様の処理
であり、704では、ユークリッド距離を用いているの
で、図3のステップS4〜S7でユークリッド距離に基
づく計算を行うことにより実現できる。こうして、70
4或は705で新たにクラスタ数が1つ増加され(m=
m+1)、また702の処理に戻る。
【0053】尚、本実施例における距離計算は、上述の
Bhattacharyya距離やユークリッド距離以外であっても
良い。
【0054】また前述の実施例では、音声認識用モデル
としてHMMを用いているが、分布を持つ状態遷移モデ
ルであればHMMでなくても構わない。さらに、モデル
の単位としては、triphoneを用いているが、認識の単位
としては、音素でも何でも構わない。
【0055】また、前述の実施例では、特に音声認識に
関して用いるように記述されているが、同様な分布を持
つモデルを用いたパターン認識のモデル設計にも、この
ような手法を用いることが可能である。
【0056】尚、本発明は、複数の機器から構成される
システムに適用しても、1つの機器から成る装置に適用
しても良い。また、本発明はシステム或は装置に本発明
を実施するプログラムを供給することによって達成され
る場合にも適用できる。
【0057】以上説明したように本実施例によれば、 (1)全音声空間を考慮したtop-down クラスタリング
によりを作成する。 (2)音素クラス間、音素クラス内での状態の共有が可
能である。 (3)不特定話者の状態共有構造を直接設計できる。
【0058】という特徴を持ち、効率の良い状態共有構
造triphone HMMをtop-downクラスタリングに基づいて設
計でき、本方法で設計された音声認識モデルを用いれ
ば、高速で高性能な音声認識が実現できる。
【0059】
【発明の効果】以上説明したように本発明によれば、高
速に音声認識を行うことができるという効果がある。
【0060】また本発明によれば、音素クラス間、或は
音素クラス内で状態の共有を行なうことができる。
【0061】更に本発明によれば、不特定話者の音素の
状態共有構造を得ることができ、効率良く状態遷移モデ
ルを設計できるという効果がある。
【0062】
【図面の簡単な説明】
【図1】本発明の第1実施例の処理を示すフローチャー
トである。
【図2】HMMにおける状態及びその状態遷移のモデル
図である。
【図3】トップダウンクラスタリングの処理を示すフロ
ーチャートを示す図である。
【図4】状態共有型HMMを説明するための図である。
【図5】本実施例の音声認識処理装置における音声認識
処理を示すブロック図である。
【図6】本実施例の音声認識処理装置において、10名
の不特定話者が発声した100文を、1000単語から
なる文法を用いて認識した結果を示す図である。
【図7】本発明の第2実施例による処理の流れ図を示す
図である。
【符号の説明】
501 切出し部 502 音響分析部 503 尤度計算部 504 言語探索部 505 HMM
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 Kai−Fu Lee et al, Allophone Clusteri ng for Continuous Speech Recognitio n,Proc.ICASSP90,1990 年,p.749−752 高橋敏、他,4階層共有構造の音素H MM,電子情報通信学会技術研究報告 [音声],日本,1994年12月,SP94− 73,p.25−32 小森康弘,他,Top−Down C lusteringに基づく効率的なS hared−State Tripho ne HMM,電子情報通信学会技術研 究報告[音声],1995年 6月22日,S P95−21,p.23−30 小森康弘,他,Top−Down C lusteringによる状態共有Tr iphone HMM,日本音響学会平 成9年度秋季研究発表会講演論文集, 1995年 9月,2−2−15,p.67−68 (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 G10L 15/14 JICSTファイル(JOIS)

Claims (18)

    (57)【特許請求の範囲】
  1. 【請求項1】 状態の平均および分散で表現される状態
    遷移モデルの状態共有構造を設計する状態共有モデルの
    設計方法であって、 音声空間における両環境依存型状態遷移モデルにおける
    全ての状態を初期クラスタとして設定する工程と、 前記初期クラスタを包含するクラスタから、状態の平均
    および分散を用いたクラスタ間の距離尺度に基づき新た
    なクラスタを作成していくことでトップダウン・クラス
    タリングするクラスタリング工程と、 前記クラスタリング工程によりクラスタリングされたク
    ラスタの中から、距離の近いクラスタを状態遷移モデル
    に割り当てることにより状態共有構造を決定する工程
    と、 前記決定された状態共有構造に基づいて、前記両環境依
    存型の状態をまとめ、状態共有モデルを学習する工程
    と、 を有することを特徴とする状態共有モデルの設計方法。
  2. 【請求項2】 前記クラスタリング工程は、所定数のク
    ラスタまでは簡易な距離計算に基づいてクラスタリング
    を行い、前記所定数以上の計算ではより精度の高い距離
    計算に基づいてクラスタリングを行うことを特徴とする
    請求項1に記載の状態共有モデルの設計方法。
  3. 【請求項3】 前記精度の高い距離計算は、Bhattachar
    yya距離による計算であることを特徴とする請求項2に
    記載の状態共有モデルの設計方法。
  4. 【請求項4】 前記簡易な距離計算は、ユークリッド距
    離による計算であることを特徴とする請求項2に記載の
    状態共有モデルの設計方法。
  5. 【請求項5】 請求項1から4までのいずれかに記載の
    状態共有モデルの設計方法により設計された状態共有モ
    デルを用いて音声認識を行う音声認識方法。
  6. 【請求項6】 状態の平均および分散で表現される状態
    遷移モデルの状態共有構造を設計する状態共有モデルの
    設計装置であって、 音声空間における両環境依存型状態遷移モデルにおける
    全ての状態を初期クラスタとして設定する設定手段と、 前記初期クラスタを包含するクラスタから、状態の平均
    および分散を用いたク ラスタ間の距離尺度に基づき新た
    なクラスタを作成していくことでトップダウン・クラス
    タリングするクラスタリング手段と、 前記クラスタリング手段によりクラスタリングされたク
    ラスタの中から、距離の近いクラスタを状態遷移モデル
    に割り当てることにより状態共有構造を決定する決定手
    段と、 前記決定された状態共有構造に基づいて、前記両環境依
    存型の状態をまとめ、状態共有モデルを学習する学習手
    段と、 を有することを特徴とする状態共有モデルの設計装置。
  7. 【請求項7】 前記クラスタリング手段は、所定数のク
    ラスタまでは簡易な距離計算に基づいてクラスタリング
    を行い、前記所定数以上の計算ではより精度の高い距離
    計算に基づいてクラスタリングを行うことを特徴とする
    請求項6に記載の状態共有モデルの設計装置。
  8. 【請求項8】 前記精度の高い距離計算は、Bhattachar
    yya距離による計算であることを特徴とする請求項7に
    記載の状態共有モデルの設計装置。
  9. 【請求項9】 前記簡易な距離計算は、ユークリッド距
    離による計算であることを特徴とする請求項7に記載の
    状態共有モデルの設計装置。
  10. 【請求項10】 請求項6から9までのいずれかに記載
    の状態共有モデルの設計装置により設計された状態共有
    モデルを用いて音声認識を行う音声認識装置。
  11. 【請求項11】 状態の平均および分散で表現される状
    態遷移モデルの状態共有構造を設計する状態共有モデル
    設計方法であって、 全音声空間における両環境依存型状態遷移モデルの状態
    を初期クラスタとして学習する工程と、 全初期クラスタの平均値及び分散に基づいて新クラスタ
    を作成する工程と、 前記新クラスタと各初期クラスタとの距離に基づいて、
    前記初期クラスタから複数の初期クラスタを選択する工
    程と、 前記選択された複数の初期クラスタを核として前記初期
    クラスタを分類して新複数クラスタを作成する工程とを
    備えることを特徴とする状態共有モデル設計方法。
  12. 【請求項12】 前記作成された新複数クラスタの各々
    について、各クラスタに含まれるクラスタを初期クラス
    タとして前記各工程を繰り返すことを特徴とする請求項
    11に記載の状態共有モデル設計方法。
  13. 【請求項13】 前記全音声空間は、認識対象として定
    めた空間とすることを特徴とする請求項11に記載の状
    態共有モデル設計方法。
  14. 【請求項14】 請求項11から13までのいずれかに
    記載の状態共有モデル設計方法により設計された状態共
    有モデルを用いて音声認識を行う音声認識方法。
  15. 【請求項15】 状態の平均および分散で表現される状
    態遷移モデルの状態共有構造を設計する状態共有モデル
    設計装置であって、 全音声空間における両環境依存型状態遷移モデルの状態
    を初期クラスタとして学習する学習手段と、 全初期クラスタの平均値及び分散に基づいて新クラスタ
    を作成する新クラスタ作成手段と、 前記新クラスタと各初期クラスタとの距離に基づいて、
    前記初期クラスタから複数の初期クラスタを選択する初
    期クラスタ選択手段と、 前記選択された複数の初期クラスタを核として前記初期
    クラスタを分類して新複数クラスタを作成する複数クラ
    スタ作成手段とを有することを特徴とする状態共有モデ
    ル設計装置。
  16. 【請求項16】 前記作成された新複数クラスタの各々
    について、各クラスタに含まれるクラスタを初期クラス
    タとして前記各工程を繰り返すよう制御する繰り返しク
    ラスタ作成手段を有することを特徴とする請求項15に
    記載の状態共有モデル設計装置。
  17. 【請求項17】 前記全音声空間は、認識対象として定
    めた空間とすることを特徴とする請求項15に記載の状
    態共有モデル設計装置。
  18. 【請求項18】 請求項15から17までのいずれかに
    記載の状態共有モデル設計装置により設計された状態共
    有モデルを用いて音声認識を行う音声認識装置。
JP15148995A 1995-06-19 1995-06-19 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 Expired - Fee Related JP3453456B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP15148995A JP3453456B2 (ja) 1995-06-19 1995-06-19 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
EP96304526A EP0750293B1 (en) 1995-06-19 1996-06-18 Triphone hidden Markov model (HMM) design method and apparatus
US08/665,503 US5812975A (en) 1995-06-19 1996-06-18 State transition model design method and voice recognition method and apparatus using same
DE69629763T DE69629763T2 (de) 1995-06-19 1996-06-18 Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15148995A JP3453456B2 (ja) 1995-06-19 1995-06-19 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置

Publications (2)

Publication Number Publication Date
JPH096386A JPH096386A (ja) 1997-01-10
JP3453456B2 true JP3453456B2 (ja) 2003-10-06

Family

ID=15519621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15148995A Expired - Fee Related JP3453456B2 (ja) 1995-06-19 1995-06-19 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置

Country Status (4)

Country Link
US (1) US5812975A (ja)
EP (1) EP0750293B1 (ja)
JP (1) JP3453456B2 (ja)
DE (1) DE69629763T2 (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JPH10187195A (ja) * 1996-12-26 1998-07-14 Canon Inc 音声合成方法および装置
JP3962445B2 (ja) 1997-03-13 2007-08-22 キヤノン株式会社 音声処理方法及び装置
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6317712B1 (en) * 1998-02-03 2001-11-13 Texas Instruments Incorporated Method of phonetic modeling using acoustic decision tree
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
US6263309B1 (en) 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6405159B2 (en) 1998-06-03 2002-06-11 Sbc Technology Resources, Inc. Method for categorizing, describing and modeling types of system users
JP2000047696A (ja) 1998-07-29 2000-02-18 Canon Inc 情報処理方法及び装置、その記憶媒体
AU1520000A (en) * 1998-11-25 2000-06-13 Sony Electronics Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
US7086007B1 (en) 1999-05-27 2006-08-01 Sbc Technology Resources, Inc. Method for integrating user models to interface design
JP3969908B2 (ja) 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
KR100434538B1 (ko) * 1999-11-17 2004-06-05 삼성전자주식회사 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US6526379B1 (en) * 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6778643B1 (en) * 2000-03-21 2004-08-17 Sbc Technology Resources, Inc. Interface and method of designing an interface
US20040006473A1 (en) 2002-07-02 2004-01-08 Sbc Technology Resources, Inc. Method and system for automated categorization of statements
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP3728172B2 (ja) 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP3728177B2 (ja) 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
US6910000B1 (en) * 2000-06-02 2005-06-21 Mitsubishi Electric Research Labs, Inc. Generalized belief propagation for probabilistic systems
US7024350B2 (en) * 2000-07-20 2006-04-04 Microsoft Corporation Compact easily parseable binary format for a context-free grammer
WO2002027535A1 (en) * 2000-09-28 2002-04-04 Intel Corporation Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
WO2002029615A1 (en) 2000-09-30 2002-04-11 Intel Corporation Search method based on single triphone tree for large vocabulary continuous speech recognizer
US7006969B2 (en) 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
US7369993B1 (en) 2000-11-02 2008-05-06 At&T Corp. System and method of pattern recognition in very high-dimensional space
US6801656B1 (en) 2000-11-06 2004-10-05 Koninklijke Philips Electronics N.V. Method and apparatus for determining a number of states for a hidden Markov model in a signal processing system
US7065201B2 (en) 2001-07-31 2006-06-20 Sbc Technology Resources, Inc. Telephone call processing in an interactive voice response call management system
US7305070B2 (en) 2002-01-30 2007-12-04 At&T Labs, Inc. Sequential presentation of long instructions in an interactive voice response system
US6914975B2 (en) 2002-02-21 2005-07-05 Sbc Properties, L.P. Interactive dialog-based training method
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
US7027586B2 (en) 2003-12-18 2006-04-11 Sbc Knowledge Ventures, L.P. Intelligently routing customer communications
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
US7643686B2 (en) * 2004-11-17 2010-01-05 Eastman Kodak Company Multi-tiered image clustering by event
US7634406B2 (en) * 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
US7805301B2 (en) * 2005-07-01 2010-09-28 Microsoft Corporation Covariance estimation for pattern recognition
US20070213988A1 (en) * 2006-03-10 2007-09-13 International Business Machines Corporation Using speech processing technologies for verification sequence instances
US20070260459A1 (en) * 2006-05-04 2007-11-08 Texas Instruments, Incorporated System and method for generating heterogeneously tied gaussian mixture models for automatic speech recognition acoustic models
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
US8244534B2 (en) * 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
US8060360B2 (en) * 2007-10-30 2011-11-15 Microsoft Corporation Word-dependent transition models in HMM based word alignment for statistical machine translation

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US5165007A (en) * 1985-02-01 1992-11-17 International Business Machines Corporation Feneme-based Markov models for words
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
US4918731A (en) * 1987-07-17 1990-04-17 Ricoh Company, Ltd. Speech recognition method and apparatus
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
JPH0296800A (ja) * 1988-10-03 1990-04-09 Nec Corp 連続音声認識装置
JPH02239292A (ja) * 1989-03-13 1990-09-21 Canon Inc 音声合成装置
US5073939A (en) * 1989-06-08 1991-12-17 Itt Corporation Dynamic time warping (DTW) apparatus for use in speech recognition systems
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
US5444817A (en) * 1991-10-02 1995-08-22 Matsushita Electric Industrial Co., Ltd. Speech recognizing apparatus using the predicted duration of syllables
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US5535305A (en) * 1992-12-31 1996-07-09 Apple Computer, Inc. Sub-partitioned vector quantization of probability density functions
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5615286A (en) * 1995-05-05 1997-03-25 Bell Communications Research, Inc. Method for determining a most likely sequence of states

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Kai−Fu Lee et al,Allophone Clustering for Continuous Speech Recognition,Proc.ICASSP90,1990年,p.749−752
小森康弘,他,Top−Down Clusteringによる状態共有Triphone HMM,日本音響学会平成9年度秋季研究発表会講演論文集,1995年 9月,2−2−15,p.67−68
小森康弘,他,Top−Down Clusteringに基づく効率的なShared−State Triphone HMM,電子情報通信学会技術研究報告[音声],1995年 6月22日,SP95−21,p.23−30
高橋敏、他,4階層共有構造の音素HMM,電子情報通信学会技術研究報告[音声],日本,1994年12月,SP94−73,p.25−32

Also Published As

Publication number Publication date
EP0750293B1 (en) 2003-09-03
DE69629763D1 (de) 2003-10-09
EP0750293A2 (en) 1996-12-27
EP0750293A3 (en) 1997-10-08
DE69629763T2 (de) 2004-07-15
JPH096386A (ja) 1997-01-10
US5812975A (en) 1998-09-22

Similar Documents

Publication Publication Date Title
JP3453456B2 (ja) 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
US5983178A (en) Speaker clustering apparatus based on feature quantities of vocal-tract configuration and speech recognition apparatus therewith
US10629185B2 (en) Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model
US5865626A (en) Multi-dialect speech recognition method and apparatus
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
US20050228666A1 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
Kundu et al. Joint acoustic factor learning for robust deep neural network based automatic speech recognition
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
KR19990083632A (ko) 최대가능성방법을포함한고유음성에기초한스피커및환경적응방법
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP3176210B2 (ja) 音声認識方法及び音声認識装置
Zhu et al. Gaussian free cluster tree construction using deep neural network.
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
Johansen A comparison of hybrid HMM architecture using global discriminating training
JP2905674B2 (ja) 不特定話者連続音声認識方法
JP3104900B2 (ja) 音声認識方法
JPH08248975A (ja) 標準パターン学習装置およびこの装置を使用した音声認識装置
JP3315565B2 (ja) 音声認識装置
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030704

LAPS Cancellation because of no payment of annual fees