JPH07230295A - 話者適応化方式 - Google Patents
話者適応化方式Info
- Publication number
- JPH07230295A JPH07230295A JP6020734A JP2073494A JPH07230295A JP H07230295 A JPH07230295 A JP H07230295A JP 6020734 A JP6020734 A JP 6020734A JP 2073494 A JP2073494 A JP 2073494A JP H07230295 A JPH07230295 A JP H07230295A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- unit
- recognition
- input
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
の単語HMMを保持する。入力パターン作成部102は
入力音声に対し、音声分析を行ない入力パターンXを作
成する。作成された入力パターンXは認識部103にお
いて標準パターン記憶部101における単語HMMを用
いて認識をされ、認識結果出力部104から認識結果が
出力される。適応化用標準パターン選択部105は、認
識結果単語の表記を参照して適応化初期単語HMMを用
意する。教師あり適応化部106では、入力パターンX
および適応化初期単語HMMを用いた尤度計算を、1つ
または複数の入力パターンについて行なったのち、適応
化後の平均ベクトルを計算し適応化後HMMを求める。
教師あり適応化部106より出力された適応化後HMM
は、標準パターン記憶部101に出力され、今までの認
識HMMのかわりに記憶される。
Description
置を使用者に速やかに適応させることを目的とした話者
適応化方式に関し、特に混合連続分布モデル型HMMを
用いた音声認識システムにおける教師なし話者適応化方
式に関する。
関する研究が行われ、数々の手法が提案されている。こ
の中で、よく使われる代表的な認識手法に、DPマッチ
ング(ダイナミックプログラミングマッチング)と呼ば
れる方法、並びに、隠れマルコフモデル(HMM)と呼
ばれる方法がある。このDPマッチングやHMMなどの
音声認識手法を用いた音声認識システムとして、誰の声
でも認識できることを目的とした不特定話者の認識シス
テムが盛んに研究・開発されている。
特定話者システムと違い、事前に使用者が発声を登録す
る必要がないという利点がある。しかしながら、近年、
次のような問題点が指摘された。まず、ほとんどの話者
において認識性能が特定話者システムより劣り、さら
に、認識性能が大幅に悪い話者(特異話者)が存在する
という点である。このような問題点を解決するために、
従来、特定話者システムにおいて用いられてきた、話者
適応化の技術を不特定話者システムにも適用しようとい
う研究が最近始まっている。
の適応化用データを用いて、認識システムを新しい使用
者(未知話者)に適応化させる方式を指す。話者適応化
方式の詳細については、「音声認識における話者適応化
技術」、古井貞煕著、テレビジョン学会誌、Vol.43、N
o. 9 、1989、pp.929-934に解説されている。
けられる。1つは教師あり話者適応化、もう1つは教師
なし話者適応化である。ここでの教師とは入力発声の発
声内容を表す音韻表記列を指す。教師あり適応化とは、
入力発声に対する音韻表記列が既知の場合の適応化手法
であり、適応化の際、未知話者に対し発声語彙を事前に
指示する必要がある。
する音韻表記列が未知の場合の適応化手法であり、未知
話者に対し入力発声の発声内容を限定しない、すなわ
ち、未知話者に対し発声内容を指示をする必要がなく、
実際に音声認識を使用中の入力音声を用いて、未知話者
に意識させずに適応化を行なえるため、使用者にとって
使いやすい方式である。
に比べ、適応化後の認識性能が低いため、現在は教師あ
り適応化がよく使われている。
音声認識装置について図6を参照して説明する。
声は、入力パターン作成部6−2に入力され、AD変換、
音声分析などの過程を経て、ある時間長をもつフレーム
と呼ばれる単位ごとの特徴ベクトルの時系列に変換され
る。この特徴ベクトルの時系列を、ここでは入力パター
ンと呼ぶ。フレームの長さは通常 10ms から100ms 程度
である。特徴ベクトルはその時刻における音声スペクト
ルの特徴量を抽出したもので、通常10次元から100 次元
である。
M(Hidden Markov Model )が記憶されている。HMM
は音声の情報源のモデルの1つであり、話者の音声を用
いてそのパラメータを学習することができる。HMMに
ついては認識部6−3の項の説明で詳しく述べる。
る。ここでは、認識単位として音素を例にとる。標準パ
ターン記憶部6−6のHMMは、別の使用者の発声を用
いて学習した異話者HMM、あるいは、予め多くの話者
の発声を用いて学習した不特定話者HMMなどが用いら
れる。
1000単語の認識候補から1単語の正解を求める場合を想
定する。単語を認識する場合には、各音素のHMMを連
結して、認識候補単語のHMMを作成する。1000単語認
識の場合には1000単語分の単語HMMを作成する。本説
明では、1000単語を例としたが、特に1000単語である必
要はなく何単語でもよい。また、認識対象として、例え
ば連続音節をとってもよい。連続音節とは、日本語(あ
るいは他の外国語認識ではその言語)に現れるすべての
音節の連結をネットワークで表現したHMMで認識を行
なうもので、事実上、日本語に現れるすべての発声を認
識することが可能である。これらの処理は語彙パターン
作成部6−5で行なわれる。
−5で作成された単語HMMを用いて入力パターンの認
識を行なう。HMMは、音声の情報源のモデルであり、
音声パターンの様々な揺らぎに対処するため、標準パタ
ーンの記述に統計的な考えが導入されている。HMMの
詳細な説明は、「確率モデルによる音声認識」、中川聖
一、電子情報通信学会編(昭63)(以下文献1)の40〜
46頁、55〜60頁、69〜74頁に記述されている。各音素の
HMMは、それぞれ、通常1から10個の状態とその間
の状態遷移から構成される。通常は始状態と終状態が定
義されており、単位時間ごとに、各状態からシンボルが
出力され、状態遷移が行なわれる。各音素の音声は、始
状態から終状態までの状態遷移の間にHMMから出力さ
れるシンボルの時系列として表される。各状態にはシン
ボルの出現確率が、状態間の各遷移には遷移確率が定義
されている。遷移確率パラメータは音声パタンの時間的
な揺らぎを表現するためのパラメータである。出現確率
パラメータは、音声パターンの声色の揺らぎを表現する
ものである。始状態の確率をある値に定め、状態遷移ご
とに出現確率、遷移確率を掛けていくことにより、発声
がそのモデルから発生する確率を求めることができる。
逆に、発声を観測した場合、それが、あるHMMから発
生したと仮定するとその発生確率が計算できることにな
る。
対してHMMを用意し、発声が入力されると、各々のH
MMにおいて、発生確率を求め、最大となるHMMを発
生源と決定し、そのHMMに対応する認識候補をもって
認識結果とする。
現と連続確率分布表現があるが、ここでは連続確率表現
を例にとる。連続確率分布表現では、混合連続分布、す
なわち、複数のガウス分布を重みつきで加算した分布が
使われる。出力確率パラメータ、遷移確率パラメータ、
複数のガウス分布の重みなどのパラメータは、モデルに
対応する学習音声を与えてバウムーウェルチアルゴリズ
ムと呼ばれるアルゴリズムにより予め学習されている。
バウムーウェルチアルゴリズムについては文献1に詳述
されている。以下の例では出力確率は混合連続確率分布
とする。
る。特徴ベクトルの時系列として表現された入力パター
ンXを X=x1 ,x2 ,x3 ,……xt ,……xT (1) とする。ここでTは入力パターンの総フレーム数であ
る。今、認識候補単語をW1 ,W2 ,前記WN とする。
N は認識候補単語数である。各々の単語WN の単語HM
Mと入力パターンXとの間のマッチングは以下のように
行なわれる。以下必要のない限り添字n を省略する。
態i への遷移確率をaji、出力確率分布の混合重みをλ
im、各要素ガウス分布(フレーム分布とよぶ)の平均ベ
クトルをμim、共分散行列をΣimとする。ここで、t は
入力時刻、i,j はHMMの状態、m は混合要素番号を表
す。前向き確率α(i,t) に関する次の漸化式計算を行
う。
は
である。この処理を各単語モデルについて行ない、入力
パターンXに対する認識結果単語
出力部に送られる。
上に出力する、あるいは、認識結果に対応した制御命令
を別の装置に送出するなどの処理を行なう。
いて説明した。
話者適応化技術について説明する。教師あり話者適応化
では、発声する単語あるいは文を予め使用者に指示し
て、単語表記と入力音声を用いてHMMのパラメータの
更新を行なう。このように予め発声に対する正解単語が
わかっているという意味で教師あり適応化と呼ばれる。
教師あり話者適応化方式としては、特願平2-203437「標
準パターン適応化方式」、あるいは、特願平4-203669
「音声認識装置」に記載されている手法があるが、ここ
では、特願平2-203437に基づく方式について簡単に述べ
る。
の負担を軽減するため、適応化に必要な入力発声の量を
なるべく少なくする必要がある。しかし、HMMは一般
にパラメータ数が多く、少量の適応化用発声で全パラメ
ータを適応化しようとすると、データの不足のためパラ
メータの推定精度が悪く、認識性能が向上しない可能性
がある。そこで、ここでの教師あり話者適応化では、H
MMのパラメータのうち、出力確率分布の平均ベクトル
のみを適応化する。平均ベクトルを選んだのは、これ
が、HMMのパラメータの中でもっとも認識性能に影響
があると考えられるからである。
の場合について述べ、後に混合ガウス分布の場合につい
て述べる。
れ、まず第1の段階について説明する。
6−11に適応化初期HMMを用意する。適応化初期H
MMとしては、例えば、多くの話者の発声で予め作成さ
れた不特定話者の音素HMMを用い、標準パターン記憶
部6−6に記憶されている音素HMMと同じでも良い
し、違ってもよい。また、適応化部6−9に各音素HM
Mの各状態ごとに特徴ベクトルの次元を持ったバッファ
B1(i)と、特徴ベクトルの個数を加算するための1
次元のバッファB2(i)を用意する。そして、各入力
発声ごとに以下の処理を行なう。
6−8にて入力音声から入力パターンを作成する。上で
述べたように、教師あり適応化の場合、正解単語は予め
わかっているため、適応化用辞書作成部6−7は入力さ
れた正解単語表記と作成された入力パターンから適応化
用辞書を作成する。次に語いパターン作成部6−10
は、適応化辞書の音素系列と音素毎の適応化初期HMM
を用いて入力パターンに対応する単語HMMを作成す
る。そして、適応化部6−9は、入力パターンと適応化
用単語HMMの間で尤度計算を行なう。ここでは、式
(2) 、(5) の代わりに、
ゴリズムと呼ばれる。式(7) と並行して、
る、前時刻の状態を配列Ψに記憶しておく。式(9) での
最終フレームTの計算が終ったのち、Ψを用いて、最終
フレームから最初のフレームまで順番に、各フレームに
対応する状態が求まる。すなわち、フレームtに対応す
る状態をS(t)と表すと、
ぶ。この処理により、各時刻の特徴ベクトルに対応する
状態が求められる。つぎに各時刻の特徴ベクトルxt ご
とに、
算を行なう。この処理を適応化用の発声単語数分だけ繰
り返す。
処理が終了した後、各音素HMMの各状態iに対応づけ
られたフレームの特徴ベクトルを、全入力パターンにわ
たって平均して、その状態の適応化後の平均ベクトルを
ない音素に対応するHMMをスペクトル内挿と呼ぶ手法
を用いて適応化する。スペクトル内挿では、適応化用発
声中に出現しなかった音素に対応する平均ベクトルを、
出現した音素の平均ベクトルの適応化前後の差分を用い
て推定する。
態の平均ベクトルの集合を集合A、含まれないHMMの
各状態の平均ベクトルの集合を集合Bとする。まず、集
合Aのすべての状態について適応化ベクトルΔA が計算
される。適応化ベクトルは、適応化後の平均ベクトルτ
A と、適応化前の平均ベクトルμA の差として定義され
る。次に、集合Bの状態の適応化ベクトルを適応化する
ために、集合Aの状態の適応化ベクトルを内挿すること
により求める。このアルゴリズムは以下の通りである。 1. 集合Aの状態j においては、適応化後の平均ベクト
ルτj Aはすでに求められている. 適応化ベクトルΔj Aは
以下の式で与えられる。
を示す添字である。適応化ベクトルΔj Aは集合Aにおけ
るすべての状態について計算される。 2. 集合Bの状態 iに対して, 適応化ベクトルΔi Bは、
集合Aの状態j の適応化ベクトルを内挿することにより
求める。
μj Aとの距離 di jの関数として定義される。例えば、w
i jは以下のように定義される。
を表す定数である。適応化ベクトルΔi Bは集合Bに属す
るすべての状態について計算される。 3. 新しい話者の状態i の平均ベクトルτi Bは、次式で
与えられる。
クトルである。 4. 2-3 の過程を集合Bのすべての状態について繰り返
す。上の手続きは、出力確率分布が混合ガウス分布であ
るHMMにも、状態内の複数の成分分布を別々に扱うこ
とにより、適用することができる。第1段階のバックト
ラックにおいては、状態内の成分分布のうち、対応する
特徴ベクトルの出現確率に重み係数を乗じた値が最大に
なるものを選び、集合Aに分類する。対応する適応化用
データのない成分分布は集合Bに分類される。第2段階
のスペクトル内挿は、集合Bの成分分布に対して行なわ
れる。すなわち、集合Bの成分分布の適応化ベクトル
は、すべての状態にわたる集合Aの成分分布の適応化ベ
クトルを用いたスペクトル内挿で求められる。
例を示したが、その他の分散、重み、遷移確率なども同
様の方式で適応化することが容易に可能である。また、
それらパラメータのうち、同時に複数のものを適応化す
ることが可能である。
6−6のそれまでのHMMに代わって記憶される。この
場合、話者別にHMMを記憶しておいても良いが、その
場合は認識の前処理として、使用者がHMMを選択する
か、あるいは、使用者の発声を用いて自動的にHMMを
選択する手段が必要になる。
に対する教師あり適応化を説明したが、単語あるいは文
を認識単位とした場合にも、それぞれの単語、文に対応
したHMMを作成することにより、容易に適応化でき
る。認識単位と入力発声の単位が同じ場合には( 例えば
単語単位のHMMと単語発声) 、適応化初期HMMを連
結する必要はなく、そのまま尤度計算を行ない適応化す
ることができる。
に説明した。
り適応化方式は、教師なし適応化時に比べ性能は高い。
しかし、使用者は、使用時の発声とは別に、トレーニン
グとして装置に指示された単語を発声しなければなら
ず、負担が大きいという欠点がある。
適応化において、使用者に意識させずに教師あり適応化
に匹敵するような性能をもつ教師なし適応化の手法を提
供することである。
に用いる標準パターンを入力音声パターンを用いて適応
化する話者適応化方式において、各認識候補単語を単位
とする予め定められた基準により作成された単語標準パ
ターンを保持する標準パターン記憶部と、入力音声に対
し音声分析を行ない入力パターンを作成する入力パター
ン作成部と、作成された前記入力パターンを前記標準パ
ターン記憶部における単語標準パターンを用いて単語を
認識をする認識部と、前記認識部における認識結果を出
力する認識結果出力部と、前記認識単語の表記を参照し
て予め決めれらた方法により適応化初期単語標準パター
ンを用意する適応化用標準パターン選択部と、前記適応
化初期単語標準パターンに基く前記入力パターンの尤度
計算を行ない前記尤度計算結果により求められた適応化
後単語標準パターンにより前記標準パターン記憶部にお
ける単語標準パターンを更新する教師あり適応化部とを
備えたことを特徴とする。
ーンを入力音声パターンを用いて適応化する話者適応化
方式において、音節,音素,などのサブワードを単位と
する予め定められた基準により作成されたサブワード標
準パターンを保持する標準パターン記憶部と、前記サブ
ワード標準パターンを用いて認識候補単語に対応する単
語標準パターンを作成する語彙パターン作成部と、入力
音声に対し音声分析を行ない入力パターンを作成する入
力パターン作成部と、作成された前記入力パターンを前
記語彙パターン作成部により作成された前記単語標準パ
ターンを用いて単語の認識をする認識部と、前記認識部
における認識結果を出力する認識結果出力部と、前記認
識単語の表記を参照して予め定めれらた方法により適応
化初期単語標準パターンを用意する適応化用標準パター
ン選択部と、前記適応化初期単語標準パターンに基く前
記入力パターンの尤度計算を行ない前記尤度計算結果に
より求められた適応化後サブワード標準パターンにより
前記標準パターン記憶部における前記サブワード標準パ
ターンを更新する教師あり適応化部とを備えたことを特
徴とする。
明において、前記入力パターンを記憶する入力パターン
記憶部と、前記入力パターン記憶部における前記入力パ
ターンを入力として前記認識部と前記認識結果出力部と
前記適応化用標準パターン選択部および前記教師あり適
応化部の動作を予め決めれらた変数が予め定められた基
準値に達するまで繰り返させる繰り返し制御部を備えた
ことを特徴とする。
ーンを入力音声パターンを用いて適応化する話者適応化
方式において、音節,音素,などのサブワードを単位と
する予め定められた基準により作成されたサブワード標
準パターンを保持する標準パターン記憶部と、前記サブ
ワード標準パターンを用いて認識候補単語に対応する単
語標準パターンを作成する語彙パターン作成部と、入力
音声に対し音声分析を行ない入力パターンを作成する入
力パターン作成部と、作成された前記入力パターンを記
憶する入力パターン記憶部と、前記入力パターン記憶部
における前記入力パターンと前記語彙パターン作成部に
より作成された前記単語標準パターンを用いて単語の認
識をする認識部と、前記認識部における認識結果を出力
する認識結果出力部と、前記認識単語に相当する前記語
彙パターン作成部における前記単語標準パターンに基く
前記入力パターンの尤度計算を行ない前記尤度計算結果
により求められた適応化後サブワード標準パターンによ
り前記標準パターン記憶部における前記サブワード標準
パターンを更新する教師あり適応化部と前記認識部と前
記認識結果出力部および前記教師あり適応化部の動作を
予め決めれらた変数が予め定められた基準値に達するま
で繰り返させる繰り返し制御部を備えたことを特徴とす
る。
ーンを入力音声パターンを用いて適応化する話者適応化
方式において、音節,音素,などのサブワードを単位と
する予め定められた基準により作成されたサブワード標
準パターンを保持する標準パターン記憶部と、前記サブ
ワード標準パターンを用いて認識候補単語に対応する単
語標準パターンを作成する語彙パターン作成部と、予め
定められた方法により作成された前記認識候補単語に対
応する基本標準パターンを記憶する基本標準パターン記
憶部と、入力音声に対し音声分析を行ない入力パターン
を作成する入力パターン作成部と、作成された前記入力
パターンを記憶する入力パターン記憶部と、前記入力パ
ターン記憶部における前記入力パターンと前記語彙パタ
ーン作成部により作成された前記単語標準パターンを用
いて単語の認識をする認識部と、前記認識部における認
識結果を出力する認識結果出力部と、前記認識単語に相
当する前記基本標準パターン記憶部における前記基本標
準パターンに基く前記入力パターンの尤度計算を行ない
前記尤度計算結果により求められた適応化後サブワード
標準パターンにより前記標準パターン記憶部における前
記サブワード標準パターンを更新する教師あり適応化部
と前記認識部と前記認識結果出力部および前記教師あり
適応化部の動作を予め決めれらた変数が予め定められた
基準値に達するまで繰り返させる繰り返し制御部を備え
たことを特徴とする。
る。
示す標準パターン記憶部101〜501,入力パターン
作成部102〜502,認識部103〜503,認識結
果出力部104〜504,語彙パターン作成部207,
309,409,510は、それぞれ従来技術の説明の
項で説明した標準パターン記憶部6−6,入力パターン
作成部6−2,認識部6−3,認識結果出力部6−4,
語彙パターン作成部6−5と同様であるため、本実施例
では、簡単な説明に届める。
従来技術で説明した場合と同様、HMMのパラメータの
中でもっとも認識性能に影響がある、出力確率分布の平
均ベクトルのみを適応化するものとする。
学習方式の一実施例のブロック図である。入力発声、お
よび、HMMの認識単位は、単語とする。標準パターン
記憶部101は各認識候補単語の単語HMMを保持す
る。単語HMMは不特定話者のHMM、あるいは、他の
話者のHMMである。入力パターン作成部102は入力
音声に対し、音声分析を行ない入力パターンXを作成す
る。作成された入力パターンXは認識部103において
標準パターン記憶部101における単語HMMを用いて
認識をされ、認識結果出力部104から認識結果が出力
される。
識結果単語の表記を参照して適応化初期単語HMMを用
意する。適応化初期単HMMは多くの話者の発声で予め
学習された不特定話者の単語HMM、あるいは、他の話
者の発声で学習された異話者の単語HMMであり、標準
パターン記憶部101の単語HMMでも良いし、それと
は別のものでもよい。
ンXおよび適応化初期単語HMMを用いた尤度計算を、
1つまたは複数の入力パターンについて行なったのち、
適応化後の平均ベクトルを計算し適応化後HMMを求め
る。教師あり適応化部の詳しい動作については従来の技
術の説明における適応化部6−9を参照されたい。教師
あり適応化部106より出力された適応化後HMMは、
標準パターン記憶部101に出力され、今までの認識H
MMのかわりに記憶される。
学習方式の一実施例のブロック図である。入力発声は単
語であるとする。標準パターン記憶部201は各音素の
HMMを保持する。語彙パターン作成部207は各音素
のHMMを用いて認識候補単語に対応する単語HMMを
作成する。入力パターン作成部202は入力音声に対
し、音声分析を行ない入力パターンXを作成する。作成
された入力パターンは認識部203において認識候補単
語の単語HMMを用いて認識をされ、認識結果出力部2
04から認識結果が出力される。適応化用辞書作成部2
05は、認識結果表記から適応化用辞書を作成する。
化用辞書を用いて適応化初期音素HMMを連結して適応
化初期単語HMMを作成する。適応化初期音素HMM
は、標準パターン記憶部201にある音素HMMでも良
いし、別の音素HMMでも良い。次に、作成された適応
化初期単語HMMと入力パターンを用いて尤度計算を、
1つまたは複数の入力パターンについて行なったのち、
適応化後の平均ベクトルを計算し適応化後HMMを求め
る。適応化されたHMMは、標準パターン記憶部201
に出力され、今までの認識HMMのかわりに記憶され
る。
学習方式の一実施例のブロック図である。第2の実施例
と異なる点は、繰り返し制御部308が制御することに
より適応化が繰り返し行なわれる点である。教師あり適
応化部306の適応化により作成された適応化後HMM
は、認識に用いた認識HMMに比べ、使用者の発声に対
し一般により高い認識性能を示す。したがって、この適
応化後HMMを用いて、もう一回入力パターンを認識す
れば、さらに良好な認識率を示すと考えられる。そし
て、その認識結果を用いて作成した適応化用辞書を用い
て適応化すればさらに認識性能の高い適応化後HMMが
作成される可能性がある。認識・適応化の繰り返しの際
には、繰り返し毎に入力パターンを作成する計算を省く
ために、最初の適応化の際に入力パターンを入力パター
ン記憶部307に記憶しておき、2回目以降の繰り返し
においては、入力パターンは、入力パターン記憶部30
7から出力されるものを用いる。繰り返し回数は、予め
決めておくか、あるいは、繰り返しごとに認識部303
における認識結果単語に対応する認識結果尤度を記憶し
ておき、前回の繰り返しにおける尤度と比較して尤度が
飽和したかどうかを判定し、飽和したら繰り返しをとめ
るなどの方法で決める。この繰り返し手段308は、第
1の実施例に対しても同様に適用でき、また、音素が認
識単位の場合でも、単語や文などの入力発声と同じ認識
単位の場合でも、同様に適用可能である。
学習方式の一実施例のブロック図である。第4の話者学
習方式では、第3の話者学習方式において、適応化初期
音素HMMとして、標準パターン記憶部に記憶された音
素HMMを用いる。繰り返しを行なうことにより、標準
パターン記憶部に記憶された音素HMMはすでに使用者
にある程度適応しているため、それを適応化の初期モデ
ルとして用いることにより、適応化が速やかに行なわれ
る。すなわち、認識・適応化の繰り返しの回数が減少す
る効果がある。また、この方式は、認識単位が単語であ
っても容易に適用可能である。
学習方式の一実施例のブロック図である。第5の話者学
習方式では、第3の話者学習方式において、適応化初期
HMMとして、基本標準パターン記憶部509に記憶さ
れた音素HMMを用いる。基本標準パターンは、予め多
数の話者の発声により学習された不特定話者HMMや、
他の使用者の発声により学習された異話者HMMを用い
る。この基本標準パターンは、繰り返しにより更新され
ることはない。第4の話者適応化方式では、前の繰り返
しにおける適応化後HMMを適応化初期HMMとしてい
るが、適応化が迅速に行なわれる反面、認識の際、誤認
識があると、それが、適応化の性能に与える影響がより
大きくなるという問題点がある。しかし、この第5の話
者適応化方式では、適応化において前ループから得る情
報は、教師となる適応化用辞書のみとなり、第4の話者
適応化方式に比べ、繰り返しの回数は多くかかるものの
誤認識の度合が少ないと考えられる。また、この方式
は、認識単位が単語であっても容易に適用可能である。
従来の装置を拡張変更することによって達成することが
できるという特徴を有する。
にあげたが、文、あるいは、会話発声においても同様な
手段で適応化可能である。また、認識方式としてHMM
を例にあげて説明したが、他の認識方式、例えば、NN、
DPマッチングなどの認識方式においても、認識・適応化
部は同様の手法を用いて構成できる。また、適応化手段
として、特願平2-203437の方式に基づく方式について説
明したが、他の教師あり適応化方式を用いても構成可能
である。さらに、認識・適応化手段において、認識単位
として、音素を例にとりあげたが、音素以外の、音節、
半音節など他の認識単位の場合も、本方式は容易に適用
可能である。
価実験の結果を述べる。評価実験は半音節を認識単位と
した混合ガウス分布HMMを用い、類似5000単語認
識を行なった。ここで、HMMの混合ガウス分布数は2
とし、多数話者のデータとして、男性46名女性39名
計85名の音素バランスを考慮した250単語1回発声
を用いた。また、評価話者として上の85名に含まれない
男性3名、女性4名計7名を用い、適応化用データ、お
よび、評価用データとしてそれぞれ、学習時とは異なる
語彙250単語1回発声を用いた。適応化用、評価用の
データの語彙はお互いに異なっている。分析条件は、サ
ンプリング周波数16 kHz、帯域0.1−7.2 kHz、
フレーム間隔10msで、メルケプストラム分析を用い
た。特徴ベクトルは正規化パワー差分、メルケプストラ
ム10次元、メルケプストラムの変化量10次元の計2
1次元である。また、適応化の初期HMMは話者85名
の発声データを用いて学習した不特定話者モデルを用い
た。
た場合について教師なし適応化の評価実験を行なった結
果、性能が大幅に向上し、話者7名平均で不特定話者認
識率84.5%のところ、適応化単語数250単語で教
師なし適応化後の認識率91.3%と誤りが半分近く減
少している。また、教師あり適応化と比べても、各々の
適応化用単語数において、1〜2%低いに過ぎない。
声認識装置を使用者が意識することなしに使用者に適応
させ、高い認識性能を得ることが可能になり、同時に使
用者の負担が軽減されユーザーインターフェースが向上
し、さらに、すでに教師あり適応化システムが存在して
いる場合、それを利用することによりわずかな手間で教
師なし適応化システムを構築可能になるという効果があ
る。
る。
る。
る。
る。
る。
Claims (5)
- 【請求項1】 音声認識に用いる標準パターンを入力音
声パターンを用いて適応化する話者適応化方式におい
て、各認識候補単語を単位とする予め定められた基準に
より作成された単語標準パターンを保持する標準パター
ン記憶部と、入力音声に対し音声分析を行ない入力パタ
ーンを作成する入力パターン作成部と、作成された前記
入力パターンを前記標準パターン記憶部における単語標
準パターンを用いて単語を認識をする認識部と、前記認
識部における認識結果を出力する認識結果出力部と、前
記認識単語の表記を参照して予め決めれらた方法により
適応化初期単語標準パターンを用意する適応化用標準パ
ターン選択部と、前記適応化初期単語標準パターンに基
く前記入力パターンの尤度計算を行ない前記尤度計算結
果により求められた適応化後単語標準パターンにより前
記標準パターン記憶部における単語標準パターンを更新
する教師あり適応化部とを備えたことを特徴とする話者
適応化方式。 - 【請求項2】 音声認識に用いる標準パターンを入力音
声パターンを用いて適応化する話者適応化方式におい
て、音節,音素,などのサブワードを単位とする予め定
められた基準により作成されたサブワード標準パターン
を保持する標準パターン記憶部と、前記サブワード標準
パターンを用いて認識候補単語に対応する単語標準パタ
ーンを作成する語彙パターン作成部と、入力音声に対し
音声分析を行ない入力パターンを作成する入力パターン
作成部と、作成された前記入力パターンを前記語彙パタ
ーン作成部により作成された前記単語標準パターンを用
いて単語の認識をする認識部と、前記認識部における認
識結果を出力する認識結果出力部と、前記認識単語の表
記を参照して予め定めれらた方法により適応化初期単語
標準パターンを用意する適応化用標準パターン選択部
と、前記適応化初期単語標準パターンに基く前記入力パ
ターンの尤度計算を行ない前記尤度計算結果により求め
られた適応化後サブワード標準パターンにより前記標準
パターン記憶部における前記サブワード標準パターンを
更新する教師あり適応化部とを備えたことを特徴とする
話者適応化方式。 - 【請求項3】 前記入力パターンを記憶する入力パター
ン記憶部と、前記入力パターン記憶部における前記入力
パターンを入力として前記認識部と前記認識結果出力部
と前記適応化用標準パターン選択部および前記教師あり
適応化部の動作を予め決めれらた変数が予め定められた
基準値に達するまで繰り返させる繰り返し制御部を備え
たことを特徴とする請求項1記載および請求項2記載の
話者適応化方式。 - 【請求項4】 音声認識に用いる標準パターンを入力音
声パターンを用いて適応化する話者適応化方式におい
て、音節,音素,などのサブワードを単位とする予め定
められた基準により作成されたサブワード標準パターン
を保持する標準パターン記憶部と、前記サブワード標準
パターンを用いて認識候補単語に対応する単語標準パタ
ーンを作成する語彙パターン作成部と、入力音声に対し
音声分析を行ない入力パターンを作成する入力パターン
作成部と、作成された前記入力パターンを記憶する入力
パターン記憶部と、前記入力パターン記憶部における前
記入力パターンと前記語彙パターン作成部により作成さ
れた前記単語標準パターンを用いて単語の認識をする認
識部と、前記認識部における認識結果を出力する認識結
果出力部と、前記認識単語に相当する前記語彙パターン
作成部における前記単語標準パターンに基く前記入力パ
ターンの尤度計算を行ない前記尤度計算結果により求め
られた適応化後サブワード標準パターンにより前記標準
パターン記憶部における前記サブワード標準パターンを
更新する教師あり適応化部と前記認識部と前記認識結果
出力部および前記教師あり適応化部の動作を予め決めれ
らた変数が予め定められた基準値に達するまで繰り返さ
せる繰り返し制御部を備えたことを特徴とする話者適応
化方式。 - 【請求項5】 音声認識に用いる標準パターンを入力音
声パターンを用いて適応化する話者適応化方式におい
て、音節,音素,などのサブワードを単位とする予め定
められた基準により作成されたサブワード標準パターン
を保持する標準パターン記憶部と、前記サブワード標準
パターンを用いて認識候補単語に対応する単語標準パタ
ーンを作成する語彙パターン作成部と、予め定められた
方法により作成された前記認識候補単語に対応する基本
標準パターンを記憶する基本標準パターン記憶部と、入
力音声に対し音声分析を行ない入力パターンを作成する
入力パターン作成部と、作成された前記入力パターンを
記憶する入力パターン記憶部と、前記入力パターン記憶
部における前記入力パターンと前記語彙パターン作成部
により作成された前記単語標準パターンを用いて単語の
認識をする認識部と、前記認識部における認識結果を出
力する認識結果出力部と、前記認識単語に相当する前記
基本標準パターン記憶部における前記基本標準パターン
に基く前記入力パターンの尤度計算を行ない前記尤度計
算結果により求められた適応化後サブワード標準パター
ンにより前記標準パターン記憶部における前記サブワー
ド標準パターンを更新する教師あり適応化部と前記認識
部と前記認識結果出力部および前記教師あり適応化部の
動作を予め決めれらた変数が予め定められた基準値に達
するまで繰り返させる繰り返し制御部を備えたことを特
徴とする話者適応化方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6020734A JP2976795B2 (ja) | 1994-02-18 | 1994-02-18 | 話者適応化方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6020734A JP2976795B2 (ja) | 1994-02-18 | 1994-02-18 | 話者適応化方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07230295A true JPH07230295A (ja) | 1995-08-29 |
JP2976795B2 JP2976795B2 (ja) | 1999-11-10 |
Family
ID=12035429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6020734A Expired - Fee Related JP2976795B2 (ja) | 1994-02-18 | 1994-02-18 | 話者適応化方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2976795B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0763815A2 (en) * | 1995-09-14 | 1997-03-19 | Pioneer Electronic Corporation | Method of preparing speech model and speech recognition apparatus using this method |
EP0762383A3 (en) * | 1995-08-30 | 1998-04-29 | Nec Corporation | Pattern adapting apparatus for speech or pattern recognition |
JP2015018186A (ja) * | 2013-07-12 | 2015-01-29 | 日本放送協会 | 適応化装置およびプログラム |
-
1994
- 1994-02-18 JP JP6020734A patent/JP2976795B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0762383A3 (en) * | 1995-08-30 | 1998-04-29 | Nec Corporation | Pattern adapting apparatus for speech or pattern recognition |
EP0763815A2 (en) * | 1995-09-14 | 1997-03-19 | Pioneer Electronic Corporation | Method of preparing speech model and speech recognition apparatus using this method |
EP0763815A3 (en) * | 1995-09-14 | 1998-05-06 | Pioneer Electronic Corporation | Method of preparing speech model and speech recognition apparatus using this method |
US5903865A (en) * | 1995-09-14 | 1999-05-11 | Pioneer Electronic Corporation | Method of preparing speech model and speech recognition apparatus using this method |
JP2015018186A (ja) * | 2013-07-12 | 2015-01-29 | 日本放送協会 | 適応化装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2976795B2 (ja) | 1999-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2009078256A1 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
JPH0372998B2 (ja) | ||
Zen et al. | An introduction of trajectory model into HMM-based speech synthesis | |
JP3092491B2 (ja) | 記述長最小基準を用いたパターン適応化方式 | |
US5706397A (en) | Speech recognition system with multi-level pruning for acoustic matching | |
KR20050083547A (ko) | 음성 처리 장치 및 방법, 기록 매체와 프로그램 | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
Rosdi et al. | Isolated malay speech recognition using Hidden Markov Models | |
JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
Shen et al. | Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition | |
JP3403838B2 (ja) | 句境界確率計算装置および句境界確率利用連続音声認識装置 | |
JP3039634B2 (ja) | 音声認識装置 | |
JP3589044B2 (ja) | 話者適応化装置 | |
JP2976795B2 (ja) | 話者適応化方式 | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
El Ouahabi et al. | Amazigh speech recognition using triphone modeling and clustering tree decision | |
JP3039399B2 (ja) | 非母国語音声認識装置 | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JP3105708B2 (ja) | 音声認識装置 | |
JP3033322B2 (ja) | 連続音声認識方法 | |
JP2005091504A (ja) | 音声認識装置 | |
JPH06175678A (ja) | 音声認識装置 | |
JP4654452B2 (ja) | 音響モデル生成装置、およびプログラム | |
Yun et al. | Stochastic lexicon modeling for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19990810 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100910 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |