JP2001100779A - 音響モデル学習方法 - Google Patents

音響モデル学習方法

Info

Publication number
JP2001100779A
JP2001100779A JP27422299A JP27422299A JP2001100779A JP 2001100779 A JP2001100779 A JP 2001100779A JP 27422299 A JP27422299 A JP 27422299A JP 27422299 A JP27422299 A JP 27422299A JP 2001100779 A JP2001100779 A JP 2001100779A
Authority
JP
Japan
Prior art keywords
phoneme
hmm
distribution
continuous distribution
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP27422299A
Other languages
English (en)
Other versions
JP3547349B2 (ja
Inventor
Tsuneo Kato
恒夫 加藤
Shingo Kuroiwa
眞吾 黒岩
Norio Higuchi
宜男 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
DDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DDI Corp filed Critical DDI Corp
Priority to JP27422299A priority Critical patent/JP3547349B2/ja
Publication of JP2001100779A publication Critical patent/JP2001100779A/ja
Application granted granted Critical
Publication of JP3547349B2 publication Critical patent/JP3547349B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 認識性能向上と、共有する全音素環境の音響
特性の表現性向上。 【解決手段】 先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、混合連続分布HMM
を対象として学習する。また、共有するHMMの集合を
代表する出力連続分布として、要素となる全分布の平均
値と分散値を結合した連続分布を求める。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音響モデル学習方法
に関し、特に、前後音素環境を考慮したトライフォンの
音素決定木により音声認識単位を決定する方法に関す
る。
【0002】
【従来の技術】現在、音声認識に用いられる音響モデル
の主流はトライフォンである。トライフォンは、先行音
素と中心音素と後続音素との3音素連鎖により定義さ
れ、学習データから学習によって作成される。先行音素
と後続音素が中心の音素に対するる前後音素環境をな
す。
【0003】しかし、音素は40種類程度あるため、ト
ライフォン(3音素連鎖)の総異音数は数万個のオーダ
ーに達する。また、トライフォンが学習データに出現し
なかったり、出現してもその数が極めて少ないことがあ
る。
【0004】上述した膨大な総異音数と、学習データに
未出現や数が少ない3音素連鎖の存在のため、従来、図
3に示すように、音素決定木による音声認識単位の決定
手法によって、HMM(隠れマルコフモデル)の共有化
を行い、パラメータを削減することが行われている。
【0005】図3において、従来は、学習データから共
有されていないトライフォン各状態(HMM)の単一連
続分布を学習により作成する。ステップS11参照。
【0006】次に、共有化を許容するトライフォン各状
態(HMM)の集合(以下、ノードと呼ぶ)、つまり、
中心音素が共通のHMMのノードを作成する。ステップ
S12参照。
【0007】次に、各ノードについて、予め設定した前
後音素環境に関する複数の決定木のうち、基準となる情
報量が分割前に比べて分割後に最も向上する決定木によ
って、ノードの分割を行う(ステップS13〜S16参
照)。以下に、ノードの分割と、基準となる情報量の計
算方法を説明する。
【0008】ノードの分割について説明する。前述のよ
うに、トライフォンは先行音素と中心音素と後続音素と
の3音素連鎖により定義され、ノード(トライフォンの
集合)に対して音素決定木は例えば下記(1) 〜(3) に例
示するように定義される。各音素決定木により1つのノ
ードを2つのノードに分割する。 (1) 先行音素が母音(a、i、u、e、o)で、後続音
素は問わない。 (2) 先行音素が鼻音(n、m、NN)で、後続音素は問
わない。 (3) 後続音素が破裂音(p、t、k)で、先行音素は問
わない。
【0009】基準となる情報量の計算方法について説明
する。或るノードに含まれる複数のトライフォンをそれ
ぞれ表現するパラメータから、当該ノードを代表するパ
ラメータを求め、この代表パラメータにより、基準とな
る情報量を計算する。一般的には、ノードに含まれる各
トライフォンを表現する連続分布から、ノード全体を表
現する連続分布を求め、基準となる情報量として、学習
データに対するノード全体を表現する連続分布の尤度を
利用する。
【0010】分割後の全末端ノードに対しても、同様の
分割手法で基準となる情報量が最も向上する音素決定木
を選び、選んだ音素決定木によりノード分割を行う。こ
の操作を、分割後の基準となる情報量が予め設定した閾
値を超えるまで順次繰り返す(ステップS17からステ
ップS13へのループ参照)。
【0011】全ての分割後の末端ノードにおいて基準と
なる情報量が閾値を超えたら、ノードの分割を停止する
(ステップS18参照)。
【0012】以上により、同じ末端ノードに属する複数
のトライフォンは、1つのHMMを共有することにな
る。このとき、共有するHMMとして、一般的には、末
端ノードに含まれる各トライフォンをそれぞれ構成する
複数の単一連続分布のうち、1つの単一連続分布を選択
して出力する。つまり、1つの単一連続分布で共有する
HMMを代表する。ステップS19参照。
【0013】図4を参照すれば、従来は、共有するHM
Mとしては、ノード11に含まれる各トライフォン12
a〜12nをそれぞれ構成する複数の単一連続分布13
a〜13nのうち、いずれか1つの単一連続分布13i
を選択して出力する。
【0014】
【発明が解決しようとする課題】しかし、上述した手法
は、従来、単一連続分布HMMに対して行われており、
認識性能が高い混合連続分布HMMに対して音素決定木
による音声認識単位の決定手法は適用されていないとい
う第1の課題がある。
【0015】また、上述した従来手法では、共有するH
MMはノードを構成する分布の1つを選択しているた
め、共有する全音素環境の音響特性を表現できていない
という第2の課題がある。
【0016】そこで、本発明の目的は、上記2つの課題
を解決することにある。
【0017】
【課題を解決するための手段】請求項1に係る発明は、
上記第1の課題を解決する音響モデル学習方法であり、
先行音素と後続音素の音素決定木による音声認識単位の
決定方法において、混合連続分布HMMを対象とするこ
とを特徴とする。請求項2に係る発明も、上記第1の課
題を解決する音響モデル学習方法であり、先行音素と後
続音素の音素決定木による音声認識単位の決定方法にお
いて、混合連続分布HMMを対象とし、この分布をクラ
スタリングした後、混合連続分布HMMとして出力する
ことを特徴とする。請求項3に係る発明も、上記第1の
課題を解決する音響モデル学習方法であり、先行音素と
後続音素の音素決定木による音声認識単位の決定方法に
おいて、混合連続分布HMMを対象とし、この分布を離
散値と見なし、K−means法(ケイ−ミーンズ法)
によりクラスタリングを行った後、混合連続分布HMM
として出力することを特徴とする。請求項4に係る発明
は、上記第1及び第2の課題を解決する音響モデル学習
方法であり、先行音素と後続音素の音素決定木による音
声認識単位の決定方法において、混合連続分布HMMを
対象とし、クラスタリング後の共有するHMMの集合を
代表する出力連続分布として、要素となる全分布の平均
値と分散値を結合した連続分布を求めることを特徴とす
る。
【0018】請求項5に係る発明は、上記第2の課題を
解決する音響モデル学習方法であり、先行音素と後続音
素の音素決定木による音声認識単位の決定方法におい
て、共有するHMM(HMMは隠れマルコフモデル)の
集合を代表する出力連続分布として、要素となる全分布
の平均値と分散値を結合した連続分布を求めることを特
徴とする。
【0019】
【発明の実施の形態】図1に本発明の一実施形態例に係
る音響モデル学習方法の手順を示す。
【0020】図1において、まず、学習データから共有
されていないトライフォン各状態(HMM)の混合連続
分布を学習により作成し、用意する。ステップS1参
照。
【0021】次に、混合連続分布HMMにより構成され
る各トライフォンに対して、共有化を許容するHMMの
ノードを作成する。ステップS2参照。
【0022】次に、各ノードを、先行音素と後続音素の
決定木により、混合連続分布HMMを対象として、分割
する。ステップS3〜S6参照。
【0023】ノード分割の際、情報量の計算に用いる混
合連続分布HMMは、情報量が最大になるように構成す
る。その構成方法の例を以下に述べる。
【0024】(1) 図2に示すように、分割後のノードに
含まれるトライフォンを構成する全分布を予め定めたク
ラスタ数にクラスタする。図2において、1はノード、
2a〜2nはノード1に含まれる状態、3a〜3nは連
続分布であり、各状態は複数の連続分布HMMに対応し
ている。つまり、混合連続分布HMMとなっている。図
示の例では、クラスタ数はクラスタ4a〜4cの3個で
ある。
【0025】(1a)クラスタリングには、トップダウン式
のK-means法(ケイ・ミーンズ法:離散データのクラス
タリング法)、ボトムアップ式のFurthest Neighbor 法
(ファーゼスト・ネイバー法:離散/連続データのクラ
スタリング法))等を用いる。但し、各クラスタに含ま
れる連続分布HMMの数は複数とし、予め下限を設けて
おく。
【0026】(1b)クラスタリング時の入力データとして
はHMM各状態の学習データ中の出現回数、状態を構成
する混合連続分布の分布重み、平均値及び分散が与えら
れ、また、近似的に各分布の出現回数が計算可能である
ため、この分布出現回数を重み付けしてセントロイド計
算を行う。
【0027】(2) クラスタリング後、各クラスタ毎に、
クラスタに含まれる全分布から新しい混合連続分布を1
つ合成して代表分布とする。図2では、連続混合分布5
a〜5cが各クラスタ4a〜4c毎に新しく合成した代
表分布である。
【0028】(2a)この合成される分布の平均値は、下記
数1に示すように、全分布の平均値を出現回数で重み付
け平均して求める。
【0029】
【数1】
【0030】(2b)また、合成される分布の分散は、下記
数2に示すように、全分布の分散(組内分散)と、分布
間の分散(組間分散)と、出現回数から求める。
【0031】
【数2】
【0032】(2c)合成される分布の分布重みは、下記数
3に示すように、学習データ中の出現回数の割合から求
める。
【0033】
【数3】
【0034】以上の手順によって求めた連続混合分布を
利用して、従来と同様、基準となる情報量を計算して、
分割後の基準となる情報量が分割前に比べて最も向上す
る決定木によって、ノードの分割を行う
【0035】分割後の全末端ノードに対しても、同様の
分割で基準となる情報量が最も向上する音素決定木を選
び、選んだ音素決定木によりノード分割を行う。この操
作を、分割後の基準となる情報量が予め設定した閾値を
超えるまで順次繰り返す(ステップS7からステップS
3へのループ参照)。
【0036】全ての分割後の末端ノードにおいて基準と
なる情報量が閾値を超えたら、ノードの分割を停止する
(ステップS8参照)。
【0037】以上により、同じ末端ノードに属するトラ
イフォンは、1つのHMMを共有することになる。この
とき、共有するHMMとして、共有化を行うノードに対
して、前述した手順を利用してこの手順により新しい連
続混合分布を合成して求め、この合成した連続混合分布
を出力する。ステップS9参照。つまり、数1〜数3に
基づき当該ノードに含まれる全分布から新しい混合連続
分布を1つ合成して出力する。
【0038】このように、クラスタリング後の共有する
HMMの集合を代表する出力連続分布として、要素とな
る全分布の平均値と分散値を結合した新しい連続分布を
求めることにより、従来は1つの分布を選択するだけの
ために共有する全音素環境の音響特性を表現できていな
いという課題を解決できる。つまり、共有する全音素環
境の音響特性を表現できる。
【0039】また、共有するHMMの集合を代表する出
力連続分布として、要素となる全分布の平均値と分散値
を結合した連続分布を求めるという手法を、単一連続分
布HMMを対象とした従来方法に適用することにより、
単一連続分布HMMを対象とした場合でも、共有する全
音素環境の音響特性を表現できる。
【0040】
【発明の効果】以上より、本発明によれば、認識性能が
高い混合連続分布HMMに対して音素決定木による音声
認識単位の決定を行うことができる。
【0041】また、単一連続分布HMMを対象としたば
あいでも、共有する全音素環境の音響特性を表現するこ
とができる。
【図面の簡単な説明】
【図1】本発明の実施形態例に係る音響モデル学習方法
の手順を示す図。
【図2】本発明のの実施形態例に係るノードを表現する
連続分布構成法を示す図。
【図3】従来の音響モデル学習方法の手順をを示す図。
【図4】従来のノードを表現する連続分布構成法を示す
図。
【符号の説明】
1 ノード 2a〜2n 状態 3a〜3n 連続分布 4a〜4c クラスタ 5a〜5c クラスタ毎に新しく合成した連続混合分布
───────────────────────────────────────────────────── フロントページの続き (72)発明者 樋口 宜男 埼玉県上福岡市大原二丁目1番15号 株式 会社ケイディディ研究所内 Fターム(参考) 5D015 GG04 HH23

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 先行音素と後続音素の音素決定木による
    音声認識単位の決定方法において、混合連続分布HMM
    (HMMは隠れマルコフモデル)を対象とすることを特
    徴とする音響モデル学習方法。
  2. 【請求項2】 先行音素と後続音素の音素決定木による
    音声認識単位の決定方法において、混合連続分布HMM
    (HMMは隠れマルコフモデル)を対象とし、この分布
    をクラスタリングした後、混合連続分布HMMとして出
    力することを特徴とする請求項1記載の音響モデル学習
    方法。
  3. 【請求項3】 先行音素と後続音素の音素決定木による
    音声認識単位の決定方法において、混合連続分布HMM
    (隠れマルコフモデル)を対象とし、この分布を離散値
    と見なし、K−means法(ケイ−ミーンズ法)によ
    りクラスタリングを行った後、混合連続分布HMMとし
    て出力することを特徴とする音響モデル学習方法。
  4. 【請求項4】 先行音素と後続音素の音素決定木による
    音声認識単位の決定方法において、混合連続分布HMM
    (HMMは隠れマルコフモデル)を対象とし、クラスタ
    リング後の共有するHMMの集合を代表する出力連続分
    布として、要素となる全分布の平均値と分散値を結合し
    た連続分布を求めることを特徴とする音響モデル学習方
    法。
  5. 【請求項5】 先行音素と後続音素の音素決定木による
    音声認識単位の決定方法において、共有するHMM(H
    MMは隠れマルコフモデル)の集合を代表する出力連続
    分布として、要素となる全分布の平均値と分散値を結合
    した連続分布を求めることを特徴とする音響モデル学習
    方法。
JP27422299A 1999-09-28 1999-09-28 音響モデル学習方法 Expired - Fee Related JP3547349B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27422299A JP3547349B2 (ja) 1999-09-28 1999-09-28 音響モデル学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27422299A JP3547349B2 (ja) 1999-09-28 1999-09-28 音響モデル学習方法

Publications (2)

Publication Number Publication Date
JP2001100779A true JP2001100779A (ja) 2001-04-13
JP3547349B2 JP3547349B2 (ja) 2004-07-28

Family

ID=17538736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27422299A Expired - Fee Related JP3547349B2 (ja) 1999-09-28 1999-09-28 音響モデル学習方法

Country Status (1)

Country Link
JP (1) JP3547349B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094257A (ja) * 2002-09-03 2004-03-25 Microsoft Corp 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US8112277B2 (en) 2007-10-24 2012-02-07 Kabushiki Kaisha Toshiba Apparatus, method, and program for clustering phonemic models

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094257A (ja) * 2002-09-03 2004-03-25 Microsoft Corp 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JP4499389B2 (ja) * 2002-09-03 2010-07-07 マイクロソフト コーポレーション 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US7788096B2 (en) 2002-09-03 2010-08-31 Microsoft Corporation Method and apparatus for generating decision tree questions for speech processing
US8112277B2 (en) 2007-10-24 2012-02-07 Kabushiki Kaisha Toshiba Apparatus, method, and program for clustering phonemic models

Also Published As

Publication number Publication date
JP3547349B2 (ja) 2004-07-28

Similar Documents

Publication Publication Date Title
US9508347B2 (en) Method and device for parallel processing in model training
EP0750293B1 (en) Triphone hidden Markov model (HMM) design method and apparatus
JP4328698B2 (ja) 素片セット作成方法および装置
WO2015003436A1 (en) Method and device for parallel processing in model training
CN103310784B (zh) 文本到语音的方法和系统
EP3076389A1 (en) Statistical-acoustic-model adaptation method, acoustic-model learning method suitable for statistical-acoustic-model adaptation, storage medium in which parameters for building deep neural network are stored, and computer program for adapting statistical acoustic model
JP2002529800A (ja) 音声認識のための音響モデルを階層的に構成してそのモデルを未知のドメインに適合させる装置及び方法
JPH11272291A (ja) 音響判断ツリ―を用いたフォネティック・モデル化方法
US20050228666A1 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
JPH0782348B2 (ja) 音声認識用サブワードモデル生成方法
JP2980228B2 (ja) 音声認識用音響モデル生成方法
JP2003524805A (ja) 音声認識システムの自動的再学習
JP2002244689A (ja) 平均声の合成方法及び平均声からの任意話者音声の合成方法
Rosdi et al. Isolated malay speech recognition using Hidden Markov Models
CN109461447B (zh) 一种基于深度学习的端到端说话人分割方法及系统
CN113190678B (zh) 基于参数稀疏共享的中国方言语种分类系统
JP2001100779A (ja) 音響モデル学習方法
US20050187771A1 (en) Decoding multiple HMM sets using a single sentence grammar
US20090222266A1 (en) Apparatus, method, and recording medium for clustering phoneme models
CN111599342A (zh) 音色选择方法和选择系统
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
Shinozaki HMM state clustering based on efficient cross-validation
JP2003005785A (ja) 音源の分離方法および分離装置
US8112277B2 (en) Apparatus, method, and program for clustering phonemic models
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040413

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090423

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090423

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100423

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100423

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160423

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees