JP2001100779A - 音響モデル学習方法 - Google Patents
音響モデル学習方法Info
- Publication number
- JP2001100779A JP2001100779A JP27422299A JP27422299A JP2001100779A JP 2001100779 A JP2001100779 A JP 2001100779A JP 27422299 A JP27422299 A JP 27422299A JP 27422299 A JP27422299 A JP 27422299A JP 2001100779 A JP2001100779 A JP 2001100779A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- hmm
- distribution
- continuous distribution
- decision tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
特性の表現性向上。 【解決手段】 先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、混合連続分布HMM
を対象として学習する。また、共有するHMMの集合を
代表する出力連続分布として、要素となる全分布の平均
値と分散値を結合した連続分布を求める。
Description
に関し、特に、前後音素環境を考慮したトライフォンの
音素決定木により音声認識単位を決定する方法に関す
る。
の主流はトライフォンである。トライフォンは、先行音
素と中心音素と後続音素との3音素連鎖により定義さ
れ、学習データから学習によって作成される。先行音素
と後続音素が中心の音素に対するる前後音素環境をな
す。
ライフォン(3音素連鎖)の総異音数は数万個のオーダ
ーに達する。また、トライフォンが学習データに出現し
なかったり、出現してもその数が極めて少ないことがあ
る。
未出現や数が少ない3音素連鎖の存在のため、従来、図
3に示すように、音素決定木による音声認識単位の決定
手法によって、HMM(隠れマルコフモデル)の共有化
を行い、パラメータを削減することが行われている。
有されていないトライフォン各状態(HMM)の単一連
続分布を学習により作成する。ステップS11参照。
態(HMM)の集合(以下、ノードと呼ぶ)、つまり、
中心音素が共通のHMMのノードを作成する。ステップ
S12参照。
後音素環境に関する複数の決定木のうち、基準となる情
報量が分割前に比べて分割後に最も向上する決定木によ
って、ノードの分割を行う(ステップS13〜S16参
照)。以下に、ノードの分割と、基準となる情報量の計
算方法を説明する。
うに、トライフォンは先行音素と中心音素と後続音素と
の3音素連鎖により定義され、ノード(トライフォンの
集合)に対して音素決定木は例えば下記(1) 〜(3) に例
示するように定義される。各音素決定木により1つのノ
ードを2つのノードに分割する。 (1) 先行音素が母音(a、i、u、e、o)で、後続音
素は問わない。 (2) 先行音素が鼻音(n、m、NN)で、後続音素は問
わない。 (3) 後続音素が破裂音(p、t、k)で、先行音素は問
わない。
する。或るノードに含まれる複数のトライフォンをそれ
ぞれ表現するパラメータから、当該ノードを代表するパ
ラメータを求め、この代表パラメータにより、基準とな
る情報量を計算する。一般的には、ノードに含まれる各
トライフォンを表現する連続分布から、ノード全体を表
現する連続分布を求め、基準となる情報量として、学習
データに対するノード全体を表現する連続分布の尤度を
利用する。
分割手法で基準となる情報量が最も向上する音素決定木
を選び、選んだ音素決定木によりノード分割を行う。こ
の操作を、分割後の基準となる情報量が予め設定した閾
値を超えるまで順次繰り返す(ステップS17からステ
ップS13へのループ参照)。
なる情報量が閾値を超えたら、ノードの分割を停止する
(ステップS18参照)。
のトライフォンは、1つのHMMを共有することにな
る。このとき、共有するHMMとして、一般的には、末
端ノードに含まれる各トライフォンをそれぞれ構成する
複数の単一連続分布のうち、1つの単一連続分布を選択
して出力する。つまり、1つの単一連続分布で共有する
HMMを代表する。ステップS19参照。
Mとしては、ノード11に含まれる各トライフォン12
a〜12nをそれぞれ構成する複数の単一連続分布13
a〜13nのうち、いずれか1つの単一連続分布13i
を選択して出力する。
は、従来、単一連続分布HMMに対して行われており、
認識性能が高い混合連続分布HMMに対して音素決定木
による音声認識単位の決定手法は適用されていないとい
う第1の課題がある。
MMはノードを構成する分布の1つを選択しているた
め、共有する全音素環境の音響特性を表現できていない
という第2の課題がある。
を解決することにある。
上記第1の課題を解決する音響モデル学習方法であり、
先行音素と後続音素の音素決定木による音声認識単位の
決定方法において、混合連続分布HMMを対象とするこ
とを特徴とする。請求項2に係る発明も、上記第1の課
題を解決する音響モデル学習方法であり、先行音素と後
続音素の音素決定木による音声認識単位の決定方法にお
いて、混合連続分布HMMを対象とし、この分布をクラ
スタリングした後、混合連続分布HMMとして出力する
ことを特徴とする。請求項3に係る発明も、上記第1の
課題を解決する音響モデル学習方法であり、先行音素と
後続音素の音素決定木による音声認識単位の決定方法に
おいて、混合連続分布HMMを対象とし、この分布を離
散値と見なし、K−means法(ケイ−ミーンズ法)
によりクラスタリングを行った後、混合連続分布HMM
として出力することを特徴とする。請求項4に係る発明
は、上記第1及び第2の課題を解決する音響モデル学習
方法であり、先行音素と後続音素の音素決定木による音
声認識単位の決定方法において、混合連続分布HMMを
対象とし、クラスタリング後の共有するHMMの集合を
代表する出力連続分布として、要素となる全分布の平均
値と分散値を結合した連続分布を求めることを特徴とす
る。
解決する音響モデル学習方法であり、先行音素と後続音
素の音素決定木による音声認識単位の決定方法におい
て、共有するHMM(HMMは隠れマルコフモデル)の
集合を代表する出力連続分布として、要素となる全分布
の平均値と分散値を結合した連続分布を求めることを特
徴とする。
る音響モデル学習方法の手順を示す。
されていないトライフォン各状態(HMM)の混合連続
分布を学習により作成し、用意する。ステップS1参
照。
る各トライフォンに対して、共有化を許容するHMMの
ノードを作成する。ステップS2参照。
決定木により、混合連続分布HMMを対象として、分割
する。ステップS3〜S6参照。
合連続分布HMMは、情報量が最大になるように構成す
る。その構成方法の例を以下に述べる。
含まれるトライフォンを構成する全分布を予め定めたク
ラスタ数にクラスタする。図2において、1はノード、
2a〜2nはノード1に含まれる状態、3a〜3nは連
続分布であり、各状態は複数の連続分布HMMに対応し
ている。つまり、混合連続分布HMMとなっている。図
示の例では、クラスタ数はクラスタ4a〜4cの3個で
ある。
のK-means法(ケイ・ミーンズ法:離散データのクラス
タリング法)、ボトムアップ式のFurthest Neighbor 法
(ファーゼスト・ネイバー法:離散/連続データのクラ
スタリング法))等を用いる。但し、各クラスタに含ま
れる連続分布HMMの数は複数とし、予め下限を設けて
おく。
はHMM各状態の学習データ中の出現回数、状態を構成
する混合連続分布の分布重み、平均値及び分散が与えら
れ、また、近似的に各分布の出現回数が計算可能である
ため、この分布出現回数を重み付けしてセントロイド計
算を行う。
クラスタに含まれる全分布から新しい混合連続分布を1
つ合成して代表分布とする。図2では、連続混合分布5
a〜5cが各クラスタ4a〜4c毎に新しく合成した代
表分布である。
数1に示すように、全分布の平均値を出現回数で重み付
け平均して求める。
数2に示すように、全分布の分散(組内分散)と、分布
間の分散(組間分散)と、出現回数から求める。
3に示すように、学習データ中の出現回数の割合から求
める。
利用して、従来と同様、基準となる情報量を計算して、
分割後の基準となる情報量が分割前に比べて最も向上す
る決定木によって、ノードの分割を行う
分割で基準となる情報量が最も向上する音素決定木を選
び、選んだ音素決定木によりノード分割を行う。この操
作を、分割後の基準となる情報量が予め設定した閾値を
超えるまで順次繰り返す(ステップS7からステップS
3へのループ参照)。
なる情報量が閾値を超えたら、ノードの分割を停止する
(ステップS8参照)。
イフォンは、1つのHMMを共有することになる。この
とき、共有するHMMとして、共有化を行うノードに対
して、前述した手順を利用してこの手順により新しい連
続混合分布を合成して求め、この合成した連続混合分布
を出力する。ステップS9参照。つまり、数1〜数3に
基づき当該ノードに含まれる全分布から新しい混合連続
分布を1つ合成して出力する。
HMMの集合を代表する出力連続分布として、要素とな
る全分布の平均値と分散値を結合した新しい連続分布を
求めることにより、従来は1つの分布を選択するだけの
ために共有する全音素環境の音響特性を表現できていな
いという課題を解決できる。つまり、共有する全音素環
境の音響特性を表現できる。
力連続分布として、要素となる全分布の平均値と分散値
を結合した連続分布を求めるという手法を、単一連続分
布HMMを対象とした従来方法に適用することにより、
単一連続分布HMMを対象とした場合でも、共有する全
音素環境の音響特性を表現できる。
高い混合連続分布HMMに対して音素決定木による音声
認識単位の決定を行うことができる。
あいでも、共有する全音素環境の音響特性を表現するこ
とができる。
の手順を示す図。
連続分布構成法を示す図。
図。
Claims (5)
- 【請求項1】 先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、混合連続分布HMM
(HMMは隠れマルコフモデル)を対象とすることを特
徴とする音響モデル学習方法。 - 【請求項2】 先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、混合連続分布HMM
(HMMは隠れマルコフモデル)を対象とし、この分布
をクラスタリングした後、混合連続分布HMMとして出
力することを特徴とする請求項1記載の音響モデル学習
方法。 - 【請求項3】 先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、混合連続分布HMM
(隠れマルコフモデル)を対象とし、この分布を離散値
と見なし、K−means法(ケイ−ミーンズ法)によ
りクラスタリングを行った後、混合連続分布HMMとし
て出力することを特徴とする音響モデル学習方法。 - 【請求項4】 先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、混合連続分布HMM
(HMMは隠れマルコフモデル)を対象とし、クラスタ
リング後の共有するHMMの集合を代表する出力連続分
布として、要素となる全分布の平均値と分散値を結合し
た連続分布を求めることを特徴とする音響モデル学習方
法。 - 【請求項5】 先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、共有するHMM(H
MMは隠れマルコフモデル)の集合を代表する出力連続
分布として、要素となる全分布の平均値と分散値を結合
した連続分布を求めることを特徴とする音響モデル学習
方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27422299A JP3547349B2 (ja) | 1999-09-28 | 1999-09-28 | 音響モデル学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27422299A JP3547349B2 (ja) | 1999-09-28 | 1999-09-28 | 音響モデル学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001100779A true JP2001100779A (ja) | 2001-04-13 |
JP3547349B2 JP3547349B2 (ja) | 2004-07-28 |
Family
ID=17538736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27422299A Expired - Fee Related JP3547349B2 (ja) | 1999-09-28 | 1999-09-28 | 音響モデル学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3547349B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004094257A (ja) * | 2002-09-03 | 2004-03-25 | Microsoft Corp | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 |
US8112277B2 (en) | 2007-10-24 | 2012-02-07 | Kabushiki Kaisha Toshiba | Apparatus, method, and program for clustering phonemic models |
-
1999
- 1999-09-28 JP JP27422299A patent/JP3547349B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004094257A (ja) * | 2002-09-03 | 2004-03-25 | Microsoft Corp | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 |
JP4499389B2 (ja) * | 2002-09-03 | 2010-07-07 | マイクロソフト コーポレーション | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 |
US7788096B2 (en) | 2002-09-03 | 2010-08-31 | Microsoft Corporation | Method and apparatus for generating decision tree questions for speech processing |
US8112277B2 (en) | 2007-10-24 | 2012-02-07 | Kabushiki Kaisha Toshiba | Apparatus, method, and program for clustering phonemic models |
Also Published As
Publication number | Publication date |
---|---|
JP3547349B2 (ja) | 2004-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9508347B2 (en) | Method and device for parallel processing in model training | |
EP0750293B1 (en) | Triphone hidden Markov model (HMM) design method and apparatus | |
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
WO2015003436A1 (en) | Method and device for parallel processing in model training | |
CN103310784B (zh) | 文本到语音的方法和系统 | |
EP3076389A1 (en) | Statistical-acoustic-model adaptation method, acoustic-model learning method suitable for statistical-acoustic-model adaptation, storage medium in which parameters for building deep neural network are stored, and computer program for adapting statistical acoustic model | |
JP2002529800A (ja) | 音声認識のための音響モデルを階層的に構成してそのモデルを未知のドメインに適合させる装置及び方法 | |
JPH11272291A (ja) | 音響判断ツリ―を用いたフォネティック・モデル化方法 | |
US20050228666A1 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system | |
JPH0782348B2 (ja) | 音声認識用サブワードモデル生成方法 | |
JP2980228B2 (ja) | 音声認識用音響モデル生成方法 | |
JP2003524805A (ja) | 音声認識システムの自動的再学習 | |
JP2002244689A (ja) | 平均声の合成方法及び平均声からの任意話者音声の合成方法 | |
Rosdi et al. | Isolated malay speech recognition using Hidden Markov Models | |
CN109461447B (zh) | 一种基于深度学习的端到端说话人分割方法及系统 | |
CN113190678B (zh) | 基于参数稀疏共享的中国方言语种分类系统 | |
JP2001100779A (ja) | 音響モデル学習方法 | |
US20050187771A1 (en) | Decoding multiple HMM sets using a single sentence grammar | |
US20090222266A1 (en) | Apparatus, method, and recording medium for clustering phoneme models | |
CN111599342A (zh) | 音色选择方法和选择系统 | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
Shinozaki | HMM state clustering based on efficient cross-validation | |
JP2003005785A (ja) | 音源の分離方法および分離装置 | |
US8112277B2 (en) | Apparatus, method, and program for clustering phonemic models | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040323 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040413 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090423 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090423 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100423 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100423 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130423 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160423 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |