JP3446666B2 - 音声認識用音響モデルの話者適応装置及び方法 - Google Patents

音声認識用音響モデルの話者適応装置及び方法

Info

Publication number
JP3446666B2
JP3446666B2 JP18265099A JP18265099A JP3446666B2 JP 3446666 B2 JP3446666 B2 JP 3446666B2 JP 18265099 A JP18265099 A JP 18265099A JP 18265099 A JP18265099 A JP 18265099A JP 3446666 B2 JP3446666 B2 JP 3446666B2
Authority
JP
Japan
Prior art keywords
speaker
phoneme
storage unit
adaptive
utterance data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP18265099A
Other languages
English (en)
Other versions
JP2001013986A (ja
Inventor
晋也 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP18265099A priority Critical patent/JP3446666B2/ja
Publication of JP2001013986A publication Critical patent/JP2001013986A/ja
Application granted granted Critical
Publication of JP3446666B2 publication Critical patent/JP3446666B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識用音響モ
デルを用いた話者適応装置に関し、特に適応発声に応じ
た話者クラスタリングデータを用いた話者適応装置及び
方法に関する。
【0002】
【従来の技術】話者クラスタリングを用いた話者適応手
法、音声認識における音響モデルを特定の話者に適応さ
せる手法として、例えば「電子情報通信学会論文誌 Vo
l.J78-D-II No.1の第1頁〜第9頁、1995年」に掲
載された「木構造話者クラスタリングを用いた話者適
応」と題する論文が参照される。
【0003】この種の話者クラスタリングは、上記論文
にも記載されているように、あらかじめ多数の話者につ
いて各話者の発声で作成された特定話者用標準パターン
を作成し、標準パターン間の距離を定義した上、K-mean
s法など公知のクラスタリング手法を用いて、話者単位
のクラスタリングを行なっている。
【0004】また話者クラスタリングを用いた話者適応
は、クラスタ毎に属するすべての話者発声を用いて学習
された標準パターンを、適応話者発声を用いて尤度など
で選択し、これを適応後の標準パターンとしている。
【0005】
【発明が解決しようとする課題】しかしながら、上記し
た従来の手法は下記記載の問題点を有している。
【0006】話者のすべての発声(音素)を一まとめに
して分類している、ということである。
【0007】これに対し、ある話者Aと話者Bは音素1
の発声に対しては似ているが、音素2の発声に関しては
話者Aは話者Bとは似ていず、別の話者Cと似ている、
という場合もあり得る。
【0008】このように、音素毎に話者クラスタリング
の最適なクラスタ分けが異なる可能性がある。このた
め、クラスタリング結果は、おおざっぱになり、良い話
者適応ができない可能性がある。
【0009】したがって本発明は、上記問題点に鑑みて
なされたものであって、その目的は、音素のできるだけ
細かいグループ毎に話者クラスタリングを行ない、適切
な話者クラスタを作成し選択することで、より緻密な話
者適応を可能とする装置及び方法を提供することにあ
る。
【0010】
【課題を解決するための手段】前記目的を達成する本発
明の新話者の音声(「適応話者発声」という)を用いて
話者用の標準パターンを自動作成する話者適応化装置に
おいて、適応話者の適応発声データを音素のグループに
分ける音素グルーピング手段と、各音素グループ毎に、
複数の標準パターンを記憶する記憶手段と、前記音素グ
ループに対応する適応話者発声との類似性から標準パタ
ーンを選択する選択手段と、を備える。
【0011】また、本発明は、適応話者の適応発声デー
タを音素のグループに分ける音素グルーピング手段と、
各音素グループ毎に、複数の学習発声情報を記憶する記
憶手段と、前記音素グループに対応する適応話者発声と
の類似性から学習発声情報を選択する選択手段と、を備
える。
【0012】本発明においては、音素グループ毎の複数
の標準パターンまたは学習発声情報を、話者クラスタリ
ングによって作成する。
【0013】また、本発明において、前記音素グルーピ
ング手段が、音素のグループ分けにおいて、音素の階層
的分類木を用いる。あるいは、前記音素グルーピング手
段が、音素のグループ分けにおいて、各音素グループに
おける適応話者の発声量に応じて音素分類木上で適切な
階層のグループ分けを選ぶ。
【0014】
【発明の実施の形態】本発明の実施の形態について説明
する。本発明は、話者の発声を一まとめにして話者クラ
スタリングするのでなく、音素のグループ毎に、話者ク
ラスタリングを行ない、音素の適切な話者クラスタを作
成して選択することで、より緻密な話者適応を行なうよ
うにしたものである。本発明の話者適応装置は、その好
ましい実施の形態において、音素のグループ分けを適応
発声データに応じて細かく行なう音素グルーピング手段
(図1の21)と、各音素グループに対して個別にクラ
スタリング、選択を行う話者クラスタリング手段(図1
の22)と、クラスタ選択手段(図1の23)とを備
え、音素別の話者クラスタ選択による話者適応を実現し
ている。
【0015】本発明の話者適応装置は、すべての音素の
グループ分けに対して、予め話者クラスタリングを行っ
て記憶装置の記憶しておくようにしてもよい。
【0016】本発明は、その好ましい実施の形態におい
て、HMM(Hidden Markov Model:隠れマルコフモ
デル)を適応する対象の適応話者の発声データを記憶す
る適応話者発声データ記憶部と、音素の分類情報が予め
記憶されている音素分類木記憶部と、複数話者の発声が
予め記憶されている学習話者発声データ記憶部と、適応
する元のHMMが記憶されている適応HMM記憶部と、
適応話者発声データを前記適応話者発声データ記憶部よ
り読み出し、発声数の少ない音素について、類似してい
る音素を、前記音素分類木記憶部の分類に基づきグルー
プ化し、複数の音素グループを出力する音素グルーピン
グ手段(21)と、前記音素グルーピング手段から出力
された複数の音素グループのそれぞれについて、学習話
者発声データを前記学習話者発声データ記憶部より読み
出して、話者単位で、クラスタリングを行ない、クラス
タ化された学習話者発声データを、音素グループ毎に出
力する話者クラスタリング手段(22)と、音素グルー
プ毎に、その音素グループに対応する適応話者発声デー
タを、前記適応話者発声データ記憶部より読み出して、
入力された学習話者発声データのクラスタのそれぞれと
比較し、最も適当なクラスタを出力するクラスタ選択手
段(23)と、音素グループ毎の学習話者発声データク
ラスタを用いて、適応元のHMMを、前記適応HMM記
憶部より読み出し、適応を行ないHMMを出力するHM
M適応手段(24)と、を備える。これらの各手段21
〜24は、データ処理装置で実行されるプログラムによ
りその処理が実現される。この場合、該プログラムを記
録した記録媒体もしくは通信媒体から該プログラムを読
み出し、データ処理装置で実行することで本発明を実施
することができる。
【0017】また本発明は、その好ましい実施の形態に
おいて、HMM(Hidden MarkovModel:隠れマルコフ
モデル)を適応する対象の適応話者の発声データを記憶
する適応話者発声データ記憶部と、音素の分類情報及
び、話者クラスタリング情報を記憶する音素分類木及び
クラスタ情報記憶部と、複数話者の発声が予め記憶され
ている学習話者発声データ記憶部と、適応する元のHM
Mが記憶されている適応HMM記憶部と、入力された適
応話者発声データを前記適応話者発声データ記憶部より
得て、発声数の少ない音素について似ている音素を前記
音素分類木及びクラスタ情報記憶部の分類に基づきグル
ープ化し、複数の音素グループと同時に、前記音素分類
木及びクラスタ情報記憶部から得たそれに対する話者ク
ラスタリング情報を出力する音素グルーピング選択手段
(21A)と、受け取った音素グループ及び話者クラス
タリング情報毎に、前記音素グループに対応する適応話
者発声データを前記適応話者発声データ記憶部より読み
出し、話者クラスタリング情報に対して必要に応じて学
習話者発声データを前記学習話者発声データ記憶部から
読み出し、クラスタごとにHMMを構成し、もっとも適
当なクラスタの情報を出力するクラスタ選択手段(2
3)と、入力の音素グループ毎学習話者発声データクラ
スタの情報から、必要に応じて学習データを前記学習話
者発声データ記憶部から読み出し、適応元のHMMを前
記適応HMM記憶部より読み出し、適応を行ないその結
果のHMMを出力するHMM適応手段(24)と、を備
える。これらの各手段21A、23、24は、データ処
理装置で実行されるプログラムによりその処理が実現さ
れる。この場合、該プログラムを記録した記録媒体もし
くは通信媒体から該プログラムを読み出し、データ処理
装置で実行することで本発明を実施することができる。
【0018】また本発明の方法は、以下のステップより
なる。
【0019】ステップ1:適応話者発声データを、HM
M(Hidden Markov Model:隠れマルコフモデル)を
適応する対象の適応話者の発声データを記憶する適応話
者発声データ記憶部より読み出し、発声数の少ない音素
について、類似している音素を、音素の分類情報が予め
記憶されている音素分類木記憶部の分類に基づきグルー
プ化し、複数の音素グループを出力する。
【0020】ステップ2:前記ステップ1で出力された
複数の音素グループのそれぞれについて、学習話者発声
データを、複数話者の発声が予め記憶されている学習話
者発声データ記憶部より読み出して、話者単位で、クラ
スタリングを行ない、クラスタ化された学習話者発声デ
ータを、音素グループ毎に出力する。
【0021】ステップ3:音素グループ毎に、その音素
グループに対応する適応話者発声データを、前記適応話
者発声データ記憶部より読み出して、入力された学習話
者発声データのクラスタのそれぞれと比較し、最も適当
なクラスタを出力する。
【0022】ステップ4:音素グループ毎の学習話者発
声データクラスタを用いて、適応元のHMMを、適応す
る元のHMMが記憶されている適応HMM記憶部より読
み出し、適応を行ないHMMを出力する。
【0023】また本発明の方法は、以下のステップより
なる。
【0024】ステップ1:入力された適応話者発声デー
タを、HMM(Hidden Markov Model:隠れマルコフ
モデル)を適応する対象の適応話者の発声データを記憶
する適応話者発声データ記憶部より得て、発声数の少な
い音素について似ている音素を、音素の分類情報及び、
話者クラスタリング情報を記憶する音素分類木及びクラ
スタ情報記憶部の分類に基づきグループ化し、複数の音
素グループと同時に、前記音素分類木及びクラスタ情報
記憶部から得たそれに対する話者クラスタリング情報を
出力する。
【0025】ステップ2:ステップ1から受け取った音
素グループ及び話者クラスタリング情報毎に、前記音素
グループに対応する適応話者発声データを、複数話者の
発声が予め記憶されている適応話者発声データ記憶部よ
り読み出し、話者クラスタリング情報に対して必要に応
じて学習話者発声データを前記学習話者発声データ記憶
部から読み出し、クラスタごとにHMMを構成し、もっ
とも適当なクラスタの情報を出力する。
【0026】ステップ3:ステップ2で出力された音素
グループ毎の学習話者発声データクラスタの情報から、
必要に応じて学習データを前記学習話者発声データ記憶
部から読み出し、適応元のHMMを、適応する元のHM
Mが記憶されている適応HMM記憶部より読み出し、適
応を行ないその結果のHMMを出力する。
【0027】
【実施例】次に、本発明の実施例について図面を参照し
て詳細に説明する。図1は、本発明の第1の実施例の構
成を示す図である。図1を参照すると、本発明の第1の
実施例は、発声データ、標準パターンHMM(隠れマル
コフモデル)などを保存する記憶装置1と、データ処理
装置2とを備えて構成されている。
【0028】記憶装置1は、適応話者発声データ記憶部
11と、音素分類木記憶部12と、学習話者発声データ
記憶部13と、適応HMM記憶部14とを含む。
【0029】データ処理装置2は、音素グルーピング手
段21と、話者クラスタリング手段22と、クラスタ選
択手段23と、HMM適応手段24とを含む。
【0030】不図示の音声入力手段から入力されディジ
タル信号に変換された、HMMを適応する対象の適応話
者の発声データを、適応話者発声データ記憶部11に記
憶される。
【0031】音素分類木記憶部12には全音素の分類情
報が予め記憶されている。
【0032】学習話者発声データ記憶部13には、多数
の話者の発声が予め記憶されている。適応HMM記憶部
14には、適応する元のHMMが記憶される。
【0033】音素グルーピング手段21は、適応話者発
声データを適応話者発声データ記憶部11より読み出
し、発声数の少ない音素について、類似している音素
を、音素分類木記憶部12の分類に基づきグループ化
し、複数の音素グループを出力する。
【0034】話者クラスタリング手段22は、音素グル
ーピング手段21から出力された複数の音素グループの
それぞれについて、学習話者発声データを学習話者発声
データ記憶部12より読み出して、話者単位で、クラス
タリングを行ない、クラスタ化された学習話者発声デー
タを、音素グループ毎に出力する。
【0035】クラスタ選択手段23は、音素グループ毎
に、その音素グループに対応する適応話者発声データ
を、適応話者発声データ記憶部11より読み出して、入
力された学習話者発声データのクラスタのそれぞれと比
較し、最も適当なクラスタを出力する。
【0036】HMM適応手段24は、音素グループ毎の
学習話者発声データクラスタを用いて、適応元のHMM
を、適応HMM記憶部13より読み出し、適応を行な
い、その結果のHMMを出力する。
【0037】次に、図1を参照して、本実施例の全体の
動作について詳細に説明する。
【0038】音素グルーピング手段21で音素グループ
を作るに際して、音素分類木記憶部12に記憶された音
素分類木を用いる。図3に、音素分類木の具体的な一例
を示す。図3を参照すると、ルートに全音素があり、そ
の子ノードに子音、母音があり、子音は、その子ノード
として有声音、無声音を持ち、母音は「A」、「I」、
「U」、「E」、「O」をリーフとして持つ。以下、音
素グルーピング手段21の動作を説明する。
【0039】まず、音素分類木の最上階層のノードに音
素を分類し、それらのノード全てについて下記のステッ
プ(a)以下の探索を開始する。図3に示す例では、最
上階層のノードは一つであるため、そこに全音素が分類
され、最初に唯一の探索ノードとして探索が開始され
る。
【0040】ステップa:各ノードにおいて、 ステップb:子ノードがない場合、そのノードを分類結
果の一つとし、そのノードの探索を終了する。
【0041】ステップc:子ノードがある場合、そのノ
ードの子ノードそれぞれについて各音素分類に含まれる
全音素の適応話者発声を適応話者発声データ記憶部11
から探し、発声数が十分あるかどうかを調べてゆく。
【0042】ここで、「十分ある」とは、個数あるいは
個数とその記述長の線形和が、予め定められた閾値以上
であることをいう。
【0043】その後、 ステップd:一つの子ノードでも発声数が十分量ない場
合、その子ノードの親ノードを分類結果の一つとし、そ
のノードの探索を終了する。
【0044】ステップe:すべての子ノードで発声数が
十分量ある場合、その各子ノードについて、ステップa
以降の探索を再帰的に行なう。
【0045】ステップf:すべてのノードでの探索が終
われば、出力を行ない動作を終了する。
【0046】以上の処理により、音素グルーピング手段
21は、各音素分類結果に対する適応話者発声が少なく
なりすぎない程度に細かく音素をグループ分けできる。
【0047】話者クラスタリング手段22は、ノード集
合の個々に対し、そのノードに分類されている音素に対
応する学習話者発声データを学習話者発声データ記憶部
13よりすべて読み出し、それらの音素のHMMを作成
し、話者クラスタリングを行い、その結果、音素グルー
プ毎にクラスタに別れた学習話者発話データを出力す
る。
【0048】クラスタ選択手段23は、音素グループ毎
に、クラスタ分けされた学習データについてHMMを作
成し、適応発声に対する尤度のもっとも大きいものを選
択し、その学習発声データを出力する。結果、すべての
音素に対し学習データが揃う。
【0049】HMM適応手段24は、入力の学習発声を
用いて、適応HMM記憶部14のHMMを話者適応ある
いは特定話者学習し、話者適応後のHMMを出力する。
【0050】なお、適応HMM記憶部14を用いずに、
入力の学習発声のみを用いてHMMを作成する場合して
もよい。
【0051】次に本発明の第2の実施例について説明す
る。図2は、本発明の第2の実施例の構成を示す図であ
る。図2を参照すると、本発明の第2の実施例は、前記
第1の実施例と同様、発声データ、HMMなどを保存す
る記憶装置1とデータ処理装置2を備えて構成されてお
り、記憶装置1は、適応話者発声データ記憶部11と、
音素分類木及対応する話者クラスタ情報記憶部15と、
学習話者発声データ記憶部13と、適応HMM記憶部1
4とを含む。
【0052】データ処理装置2は、音素グルーピング手
段21と、クラスタ選択手段22と、HMM適応手段2
3とを含む。
【0053】前記第1の実施例と相違している点は、音
素分類木及び対応する話者クラスタ情報記憶部15であ
る。これは、全音素の分類情報の他に、分類それぞれに
対して予め前記第1の実施例と同様な話者クラスタリン
グを行なっておき、その結果の情報を付加した木が記録
されている。
【0054】ここで、話者クラスタリング結果の情報と
は、学習話者発声データをクラスタに分割できる情報を
さす。この場合、学習話者発声データ記憶部13に、同
データを記憶させ、必要に応じて各部で読み込むものと
する。
【0055】また、話者クラスタリング結果の情報を、
分割された学習発声とすると、学習話者発声データ記憶
部13は必要ない。
【0056】図4は、この例を示す図であり、話者クラ
スタリング結果の情報を、クラスタに分割された学習発
声によって作成されたHMMとした場合の構成を示して
いる。図4を参照すると、音素分類木と、各音素分類に
ついて、話者クラスタリング結果の情報をもとにクラス
タに分割された学習発声によって作成されたHMMを記
憶する記憶部16を備えている。図4に示す実施例にお
いても、学習話者発声データが、それによって作成され
たHMMを指すものとすれば、以下の説明がそのまま当
てはまる。
【0057】適応話者発声データ記憶部11は、HMM
を適応する対象の話者の発声データを記憶している。適
応HMM記憶部14は適応する元のHMMが記憶されて
いる。
【0058】データ処理装置2における処理の流れを説
明する。
【0059】まず音素グルーピング手段21は、入力さ
れた適応話者発声データを適応話者発声データ記憶部1
1より得て、発声数の少ない音素について似ている音素
を記憶部12の分類に基づきグループ化し、複数の音素
グループと同時に、音素分類及びクラスタ情報記憶部1
2から得たそれに対する話者クラスタリング情報を出力
する。この時、必要に応じて学習話者発声データ記憶部
13よりデータを受け取る。音素のグループ決定法は、
前記第1の実施例と同様である。
【0060】クラスタ選択手段22は、受け取った音素
グループ及び話者クラスタリング情報毎に、その音素グ
ループに対応する適応話者発声データを適応話者発声デ
ータ記憶部11より読み出し、話者クラスタリング情報
に対して必要に応じて学習話者発声データを学習話者発
声データ記憶部13から読み出し、クラスタごとにHM
Mを構成し、前者を後者のそれぞれと比較し、もっとも
適当なクラスタの情報を出力する。
【0061】クラスタと適応話者発声の比較、選択法
は、前記第1の実施例と同様である。
【0062】HMM適応手段23は、入力の音素グルー
プ毎学習話者発声データクラスタの情報から、必要に応
じて学習データを学習話者発声データ記憶部13から読
み出し、適応元のHMMを適応HMM記憶部14より読
み出し、適応を行ないその結果のHMMを出力する。前
記第1の実施例と同様に、適応HMM記憶部14を用い
ず読み込んだ学習話者発声データだけでHMMを作成す
ることもできる。図4は、この場合の構成を示す。
【0063】なお、本発明の第2の実施例では、あらか
じめ話者クラスタリングを行っておくので、話者適応を
何度も行う場合、速度面向上が得られる。
【0064】
【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。
【0065】本発明の第1の効果は、適応話者の発声に
応じて細かい音素グループ別に話者クラスタリングを行
ない、クラスタを選択することで、その結果適応話者に
より近い学習話者発声データを緻密に集めることができ
る、ということである。
【0066】本発明の第2の効果は、より性能のよい話
者適応を行うことができる、ということである。
【図面の簡単な説明】
【図1】本発明の第1の実施例の構成を示す示すブロッ
ク図である。
【図2】本発明の第2の実施例の構成を示す示すブロッ
ク図である。
【図3】本発明の第1の実施例を説明するための図であ
り、音素分類木の一例を示す図である。
【図4】本発明の第3の実施例の構成を示す示すブロッ
ク図である。
【符号の説明】
1 記憶装置 2 データ処理装置 11 適応話者発声データ記憶部 12 音素分類木記憶部 13 学習話者発声データ記憶部 14 適応HMM記憶部 15 音素分類木及びクラスタ情報記憶部 16 音素分類木及びクラスタ・HMM情報記憶部 21 音素グルーピング手段 22 話者クラスタリング手段 23 クラスタ選択手段 24 HMM適応手段
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭63−309998(JP,A) 特開 昭57−161899(JP,A) 鈴木基之、阿部俊朗、森大毅、牧野正 三、阿曽弘具,音素ごとの木構造話者ク ラスタリングによる話者適応,電子情報 通信学会論文誌,日本,電子情報通信学 会,1999年 6月25日,J82−D−I I、第6号,981−989 (58)調査した分野(Int.Cl.7,DB名) G10L 15/10 G10L 15/06

Claims (11)

    (57)【特許請求の範囲】
  1. 【請求項1】新話者の音声(「適応話者発声」という)
    を用いて話者用の標準パターンを自動作成する話者適応
    化装置において、 適応話者の適応発声データを音素のグループに分ける
    段であって、発声数の少ない音素について類似している
    音素をまとめてグループ化し、音素グループを出力する
    音素グルーピング手段と、 各音素グループ毎に複数の標準パターンを記憶する記憶
    手段と、 前記音素グループに対応する適応話者発声との類似性か
    ら標準パターンを選択する選択手段と、 を備えたことを特徴とする話者適応装置。
  2. 【請求項2】新話者の音声(以下「適応話者発声」)を
    用いてその話者用の標準パターンを自動作成する話者適
    応化装置において、 適応話者の適応発声データを音素のグループに分ける
    段であって、発声数の少ない音素について類似している
    音素をまとめてグループ化し、音素グループを出力する
    音素グルーピング手段と、 各音素グループ毎に複数の学習発声情報を記憶する記憶
    手段と、 前記音素グループに対応する適応話者発声との類似性か
    ら学習発声情報を選択する選択手段と、 を備えたことを特徴とする話者適応装置。
  3. 【請求項3】請求項1又は2に記載の話者適応装置にお
    いて、音素グループ毎の複数の標準パターンまたは学習
    発声情報を、話者クラスタリングによって作成する手段
    を備えたことを特徴とする話者適応装置。
  4. 【請求項4】前記音素グルーピング手段が、音素のグル
    ープ分けにおいて、音素の階層的分類木を用いる、こと
    を特徴とする請求項1乃至3のいずれか一に記載の話者
    適応装置。
  5. 【請求項5】前記音素グルーピング手段が、音素のグル
    ープ分けにおいて、各音素グループにおける適応話者の
    発声量に応じて音素分類木上で適切な階層のグループ分
    けを選ぶ、ことを特徴とする請求項1乃至3のいずれか
    一に記載の話者適応装置。
  6. 【請求項6】音声入力手段から入力されディジタル信号
    に変換されHMM(Hidden MarkovModel:隠れマルコ
    フモデル)を適応する対象の適応話者の発声データを記
    憶する適応話者発声データ記憶部と、 音素の分類情報が予め記憶されている音素分類木記憶部
    と、 複数話者の発声が予め記憶されている学習話者発声デー
    タ記憶部と、 適応する元のHMMが記憶されている適応HMM記憶部
    と、 適応話者発声データを前記適応話者発声データ記憶部よ
    り読み出し、発声数の少ない音素について、類似してい
    る音素を、前記音素分類木記憶部の分類に基づきグルー
    プ化し、複数の音素グループを出力する音素グルーピン
    グ手段と、 前記音素グルーピング手段から出力された複数の音素グ
    ループのそれぞれについて、学習話者発声データを前記
    学習話者発声データ記憶部より読み出して、話者単位
    で、クラスタリングを行ない、クラスタ化された学習話
    者発声データを、音素グループ毎に出力する話者クラス
    タリング手段と、 音素グループ毎に、該音素グループに対応する適応話者
    発声データを、前記適応話者発声データ記憶部より読み
    出して、前記話者クラスタリング手段から出力された学
    習話者発声データのクラスタのそれぞれと比較し、最適
    なクラスタを出力するクラスタ選択手段と、 音素グループ毎の学習話者発声データクラスタを用い
    て、適応元のHMMを、前記適応HMM記憶部より読み
    出し、適応を行ないHMMを出力するHMM適応手段
    と、 を備えたことを特徴とする話者適応装置。
  7. 【請求項7】音声入力手段から入力されディジタル信号
    に変換されHMM(Hidden MarkovModel:隠れマルコ
    フモデル)を適応する対象の適応話者の発声データを記
    憶する適応話者発声データ記憶部と、 音素の分類情報、及び、話者クラスタリング情報を記憶
    する音素分類木及びクラスタ情報記憶部と、 複数話者の発声が予め記憶されている学習話者発声デー
    タ記憶部と、 適応する元のHMMが記憶されている適応HMM記憶部
    と、 入力された適応話者発声データを前記適応話者発声デー
    タ記憶部より得て、発声数の少ない音素について類似し
    ている音素を前記音素分類木及びクラスタ情報記憶部の
    分類に基づきグループ化し、複数の音素グループと同時
    に、前記音素分類木及びクラスタ情報記憶部から得た前
    記音素グループに対する話者クラスタリング情報を出力
    する音素グルーピング選択手段と、 前記音素グルーピング選択手段から出力された音素グル
    ープ及び話者クラスタリング情報毎に、前記音素グルー
    プに対応する適応話者発声データを前記適応話者発声デ
    ータ記憶部より読み出し、前記話者クラスタリング情報
    に対して必要に応じて学習話者発声データを前記学習話
    者発声データ記憶部から読み出し、クラスタごとにHM
    Mを構成し、最適なクラスタの情報を出力するクラスタ
    選択手段と、 前記クラスタ選択手段から出力された音素グループ毎の
    学習話者発声データクラスタの情報から、必要に応じて
    学習データを前記学習話者発声データ記憶部から読み出
    し、適応元のHMMを前記適応HMM記憶部より読み出
    し、適応を行なってHMMを出力するHMM適応手段
    と、 を備えたことを特徴とする話者適応装置。
  8. 【請求項8】(a)適応話者発声データを、HMM(Hi
    dden Markov Model:隠れマルコフモデル)を適応す
    る対象の適応話者の発声データを記憶する適応話者発声
    データ記憶部より読み出し、発声数の少ない音素につい
    て、類似している音素を、音素の分類情報が予め記憶さ
    れている音素分類木記憶部の分類に基づきグループ化
    し、複数の音素グループを出力するステップと、 (b)前記ステップ(a)で出力された複数の音素グル
    ープのそれぞれについて、学習話者発声データを、複数
    話者の発声が予め記憶されている学習話者発声データ記
    憶部より読み出して、話者単位で、クラスタリングを行
    ない、クラスタ化された学習話者発声データを、音素グ
    ループ毎に出力するステップと、 (c)音素グループ毎に、該音素グループに対応する適
    応話者発声データを、前記適応話者発声データ記憶部よ
    り読み出して、入力された学習話者発声データのクラス
    タのそれぞれと比較し、最適なクラスタを出力するステ
    ップと、 (d)音素グループ毎の学習話者発声データクラスタを
    用いて、適応元のHMMを、適応する元のHMMが記憶
    されている適応HMM記憶部より読み出し、適応を行な
    いHMMを出力するステップと、 を含むことを特徴とする話者適応方法。
  9. 【請求項9】(a)入力された適応話者発声データを、
    HMM(Hidden Markov Model:隠れマルコフモデ
    ル)を適応する対象の適応話者の発声データを記憶する
    適応話者発声データ記憶部より得て、発声数の少ない音
    素について似ている音素を、音素の分類情報、及び話者
    クラスタリング情報を記憶する音素分類木及びクラスタ
    情報記憶部の分類に基づきグループ化し、複数の音素グ
    ループと同時に、前記音素分類木及びクラスタ情報記憶
    部から得た音声グループに対する話者クラスタリング情
    報を出力するステップと、 (b)ステップ(a)で出力された音素グループ及び話
    者クラスタリング情報毎に、前記音素グループに対応す
    る適応話者発声データを、複数話者の発声が予め記憶さ
    れている適応話者発声データ記憶部より読み出し、話者
    クラスタリング情報に対して必要に応じて学習話者発声
    データを前記学習話者発声データ記憶部から読み出し、
    クラスタごとにHMMを構成し、最適なクラスタの情報
    を出力するステップと、 (c)入力の音素グループ毎の学習話者発声データクラ
    スタの情報から、必要に応じて学習データを前記学習話
    者発声データ記憶部から読み出し、適応元のHMMを、
    適応する元のHMMが記憶されている適応HMM記憶部
    より読み出し、適応を行ないその結果のHMMを出力す
    るステップと、 を含むことを特徴とする話者適応方法。
  10. 【請求項10】音声入力手段から入力されディジタル信
    号に変換されHMM(Hidden MarkovModel:隠れマル
    コフモデル)を適応する対象の適応話者の発声データを
    記憶する適応話者発声データ記憶部と、 音素の分類情報が予め記憶されている音素分類木記憶部
    と、 複数話者の発声が予め記憶されている学習話者発声デー
    タ記憶部と、 適応する元のHMMが記憶されている適応HMM記憶部
    と、 データ処理装置と、を備えた話者適応装置において、 (a)適応話者発声データを前記適応話者発声データ記
    憶部より読み出し、発声数の少ない音素について、類似
    している音素を、前記音素分類木記憶部の分類に基づき
    グループ化し、複数の音素グループを出力する音素グル
    ーピング処理と、 (b)前記音素グルーピング処理から出力された複数の
    音素グループのそれぞれについて、学習話者発声データ
    を前記学習話者発声データ記憶部より読み出して、話者
    単位で、クラスタリングを行ない、クラスタ化された学
    習話者発声データを、音素グループ毎に出力する話者ク
    ラスタリング処理と、 (c)音素グループ毎に、その音素グループに対応する
    適応話者発声データを、前記適応話者発声データ記憶部
    より読み出して、入力された学習話者発声データのクラ
    スタのそれぞれと比較し、最も適当なクラスタを出力す
    るクラスタ選択処理と、 (d)音素グループ毎の学習話者発声データクラスタを
    用いて、適応元のHMMを、前記適応HMM記憶部より
    読み出し、適応を行ないHMMを出力するHMM適応処
    理と、 の前記(a)乃至(d)の処理を前記データ処理装置で
    実行させるためのプログラムを記録した記録媒体。
  11. 【請求項11】音声入力手段から入力されディジタル信
    号に変換されHMM(Hidden MarkovModel:隠れマル
    コフモデル)を適応する対象の適応話者の発声データを
    記憶する適応話者発声データ記憶部と、 音素の分類情報、及び、話者クラスタリング情報を記憶
    する音素分類木及びクラスタ情報記憶部と、 複数話者の発声が予め記憶されている学習話者発声デー
    タ記憶部と、 適応する元のHMMが記憶されている適応HMM記憶部
    と、 データ処理装置とを備えた話者適応装置において、 (a)入力された適応話者発声データを前記適応話者発
    声データ記憶部より得て、発声数の少ない音素について
    似ている音素を前記音素分類木及びクラスタ情報記憶部
    の分類に基づきグループ化し、複数の音素グループと同
    時に、前記音素分類木及びクラスタ情報記憶部から得た
    それに対する話者クラスタリング情報を出力する音素グ
    ルーピング選択処理と、 (b)前記音素グルーピング選択処理より受け取った音
    素グループ及び話者クラスタリング情報毎に、前記音素
    グループに対応する適応話者発声データを前記適応話者
    発声データ記憶部より読み出し、話者クラスタリング情
    報に対して必要に応じて学習話者発声データを前記学習
    話者発声データ記憶部から読み出し、クラスタごとにH
    MMを構成し、もっとも適当なクラスタの情報を出力す
    るクラスタ選択処理と、 (c)前記クラスタ選択処理で出力された音素グループ
    毎学習話者発声データクラスタの情報から、必要に応じ
    て学習データを前記学習話者発声データ記憶部から読み
    出し、適応元のHMMを前記適応HMM記憶部より読み
    出し、適応を行ないその結果のHMMを出力するHMM
    適応処理と、 の前記(a)乃至()の処理を前記データ処理装置で
    実行させるためのプログラムを記録した記録媒体。
JP18265099A 1999-06-29 1999-06-29 音声認識用音響モデルの話者適応装置及び方法 Expired - Lifetime JP3446666B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18265099A JP3446666B2 (ja) 1999-06-29 1999-06-29 音声認識用音響モデルの話者適応装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18265099A JP3446666B2 (ja) 1999-06-29 1999-06-29 音声認識用音響モデルの話者適応装置及び方法

Publications (2)

Publication Number Publication Date
JP2001013986A JP2001013986A (ja) 2001-01-19
JP3446666B2 true JP3446666B2 (ja) 2003-09-16

Family

ID=16122030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18265099A Expired - Lifetime JP3446666B2 (ja) 1999-06-29 1999-06-29 音声認識用音響モデルの話者適応装置及び方法

Country Status (1)

Country Link
JP (1) JP3446666B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4705535B2 (ja) * 2006-08-31 2011-06-22 日本放送協会 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鈴木基之、阿部俊朗、森大毅、牧野正三、阿曽弘具,音素ごとの木構造話者クラスタリングによる話者適応,電子情報通信学会論文誌,日本,電子情報通信学会,1999年 6月25日,J82−D−II、第6号,981−989

Also Published As

Publication number Publication date
JP2001013986A (ja) 2001-01-19

Similar Documents

Publication Publication Date Title
JP5768093B2 (ja) 音声処理システム
JP4590692B2 (ja) 音響モデル作成装置及びその方法
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
JP4109063B2 (ja) 音声認識装置及び音声認識方法
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
US5715367A (en) Apparatuses and methods for developing and using models for speech recognition
Metze et al. A flexible stream architecture for ASR using articulatory features
US7272561B2 (en) Speech recognition device and speech recognition method
JP4220449B2 (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JPH06175696A (ja) 音声コード化装置及びその方法並びに音声認識装置及びその方法
JPH07287593A (ja) スピーカーデータのクラスタリング方法
US6868381B1 (en) Method and apparatus providing hypothesis driven speech modelling for use in speech recognition
KR20180028893A (ko) 음성 인식 시스템 및 방법
US7133827B1 (en) Training speech recognition word models from word samples synthesized by Monte Carlo techniques
Fainberg et al. Acoustic model adaptation from raw waveforms with SincNet
Nanavare et al. Recognition of human emotions from speech processing
JP5083951B2 (ja) 音声処理装置およびプログラム
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP3446666B2 (ja) 音声認識用音響モデルの話者適応装置及び方法
Schuller et al. Feature selection and stacking for robust discrimination of speech, monophonic singing, and polyphonic music
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
Han et al. Trajectory clustering for solving the trajectory folding problem in automatic speech recognition
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
Mohanty et al. Double ended speech enabled system in Indian travel & tourism industry

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030603

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070704

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080704

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090704

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100704

Year of fee payment: 7