JPH07230295A - 話者適応化方式 - Google Patents

話者適応化方式

Info

Publication number
JPH07230295A
JPH07230295A JP6020734A JP2073494A JPH07230295A JP H07230295 A JPH07230295 A JP H07230295A JP 6020734 A JP6020734 A JP 6020734A JP 2073494 A JP2073494 A JP 2073494A JP H07230295 A JPH07230295 A JP H07230295A
Authority
JP
Japan
Prior art keywords
pattern
unit
recognition
input
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6020734A
Other languages
English (en)
Other versions
JP2976795B2 (ja
Inventor
Koichi Shinoda
浩一 篠田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP6020734A priority Critical patent/JP2976795B2/ja
Publication of JPH07230295A publication Critical patent/JPH07230295A/ja
Application granted granted Critical
Publication of JP2976795B2 publication Critical patent/JP2976795B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音声認識装置の使用性を向上させる。 【構成】 標準パターン記憶部101は各認識候補単語
の単語HMMを保持する。入力パターン作成部102は
入力音声に対し、音声分析を行ない入力パターンXを作
成する。作成された入力パターンXは認識部103にお
いて標準パターン記憶部101における単語HMMを用
いて認識をされ、認識結果出力部104から認識結果が
出力される。適応化用標準パターン選択部105は、認
識結果単語の表記を参照して適応化初期単語HMMを用
意する。教師あり適応化部106では、入力パターンX
および適応化初期単語HMMを用いた尤度計算を、1つ
または複数の入力パターンについて行なったのち、適応
化後の平均ベクトルを計算し適応化後HMMを求める。
教師あり適応化部106より出力された適応化後HMM
は、標準パターン記憶部101に出力され、今までの認
識HMMのかわりに記憶される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識において認識装
置を使用者に速やかに適応させることを目的とした話者
適応化方式に関し、特に混合連続分布モデル型HMMを
用いた音声認識システムにおける教師なし話者適応化方
式に関する。
【0002】
【従来の技術】近年、音声パターンの機械による認識に
関する研究が行われ、数々の手法が提案されている。こ
の中で、よく使われる代表的な認識手法に、DPマッチ
ング(ダイナミックプログラミングマッチング)と呼ば
れる方法、並びに、隠れマルコフモデル(HMM)と呼
ばれる方法がある。このDPマッチングやHMMなどの
音声認識手法を用いた音声認識システムとして、誰の声
でも認識できることを目的とした不特定話者の認識シス
テムが盛んに研究・開発されている。
【0003】不特定話者システムは、使用者を特定した
特定話者システムと違い、事前に使用者が発声を登録す
る必要がないという利点がある。しかしながら、近年、
次のような問題点が指摘された。まず、ほとんどの話者
において認識性能が特定話者システムより劣り、さら
に、認識性能が大幅に悪い話者(特異話者)が存在する
という点である。このような問題点を解決するために、
従来、特定話者システムにおいて用いられてきた、話者
適応化の技術を不特定話者システムにも適用しようとい
う研究が最近始まっている。
【0004】話者適応化とは、学習に用いるよりも少量
の適応化用データを用いて、認識システムを新しい使用
者(未知話者)に適応化させる方式を指す。話者適応化
方式の詳細については、「音声認識における話者適応化
技術」、古井貞煕著、テレビジョン学会誌、Vol.43、N
o. 9 、1989、pp.929-934に解説されている。
【0005】話者適応化は大きく分けて2つの手法に分
けられる。1つは教師あり話者適応化、もう1つは教師
なし話者適応化である。ここでの教師とは入力発声の発
声内容を表す音韻表記列を指す。教師あり適応化とは、
入力発声に対する音韻表記列が既知の場合の適応化手法
であり、適応化の際、未知話者に対し発声語彙を事前に
指示する必要がある。
【0006】一方、教師なし適応化とは、入力発声に対
する音韻表記列が未知の場合の適応化手法であり、未知
話者に対し入力発声の発声内容を限定しない、すなわ
ち、未知話者に対し発声内容を指示をする必要がなく、
実際に音声認識を使用中の入力音声を用いて、未知話者
に意識させずに適応化を行なえるため、使用者にとって
使いやすい方式である。
【0007】一般に、教師なし適応化は教師あり適応化
に比べ、適応化後の認識性能が低いため、現在は教師あ
り適応化がよく使われている。
【0008】以下、従来の教師あり適応化技術を用いた
音声認識装置について図6を参照して説明する。
【0009】音声認識装置6−1に入力された話者の発
声は、入力パターン作成部6−2に入力され、AD変換、
音声分析などの過程を経て、ある時間長をもつフレーム
と呼ばれる単位ごとの特徴ベクトルの時系列に変換され
る。この特徴ベクトルの時系列を、ここでは入力パター
ンと呼ぶ。フレームの長さは通常 10ms から100ms 程度
である。特徴ベクトルはその時刻における音声スペクト
ルの特徴量を抽出したもので、通常10次元から100 次元
である。
【0010】一方、標準パターン記憶部6−6にはHM
M(Hidden Markov Model )が記憶されている。HMM
は音声の情報源のモデルの1つであり、話者の音声を用
いてそのパラメータを学習することができる。HMMに
ついては認識部6−3の項の説明で詳しく述べる。
【0011】HMMは通常各認識単位ごとに用意され
る。ここでは、認識単位として音素を例にとる。標準パ
ターン記憶部6−6のHMMは、別の使用者の発声を用
いて学習した異話者HMM、あるいは、予め多くの話者
の発声を用いて学習した不特定話者HMMなどが用いら
れる。
【0012】今、1000単語を認識対象とする場合、即ち
1000単語の認識候補から1単語の正解を求める場合を想
定する。単語を認識する場合には、各音素のHMMを連
結して、認識候補単語のHMMを作成する。1000単語認
識の場合には1000単語分の単語HMMを作成する。本説
明では、1000単語を例としたが、特に1000単語である必
要はなく何単語でもよい。また、認識対象として、例え
ば連続音節をとってもよい。連続音節とは、日本語(あ
るいは他の外国語認識ではその言語)に現れるすべての
音節の連結をネットワークで表現したHMMで認識を行
なうもので、事実上、日本語に現れるすべての発声を認
識することが可能である。これらの処理は語彙パターン
作成部6−5で行なわれる。
【0013】認識部6−3では、語彙パターン作成部6
−5で作成された単語HMMを用いて入力パターンの認
識を行なう。HMMは、音声の情報源のモデルであり、
音声パターンの様々な揺らぎに対処するため、標準パタ
ーンの記述に統計的な考えが導入されている。HMMの
詳細な説明は、「確率モデルによる音声認識」、中川聖
一、電子情報通信学会編(昭63)(以下文献1)の40〜
46頁、55〜60頁、69〜74頁に記述されている。各音素の
HMMは、それぞれ、通常1から10個の状態とその間
の状態遷移から構成される。通常は始状態と終状態が定
義されており、単位時間ごとに、各状態からシンボルが
出力され、状態遷移が行なわれる。各音素の音声は、始
状態から終状態までの状態遷移の間にHMMから出力さ
れるシンボルの時系列として表される。各状態にはシン
ボルの出現確率が、状態間の各遷移には遷移確率が定義
されている。遷移確率パラメータは音声パタンの時間的
な揺らぎを表現するためのパラメータである。出現確率
パラメータは、音声パターンの声色の揺らぎを表現する
ものである。始状態の確率をある値に定め、状態遷移ご
とに出現確率、遷移確率を掛けていくことにより、発声
がそのモデルから発生する確率を求めることができる。
逆に、発声を観測した場合、それが、あるHMMから発
生したと仮定するとその発生確率が計算できることにな
る。
【0014】HMMによる音声認識では、各認識候補に
対してHMMを用意し、発声が入力されると、各々のH
MMにおいて、発生確率を求め、最大となるHMMを発
生源と決定し、そのHMMに対応する認識候補をもって
認識結果とする。
【0015】出力確率パラメータには、離散確率分布表
現と連続確率分布表現があるが、ここでは連続確率表現
を例にとる。連続確率分布表現では、混合連続分布、す
なわち、複数のガウス分布を重みつきで加算した分布が
使われる。出力確率パラメータ、遷移確率パラメータ、
複数のガウス分布の重みなどのパラメータは、モデルに
対応する学習音声を与えてバウムーウェルチアルゴリズ
ムと呼ばれるアルゴリズムにより予め学習されている。
バウムーウェルチアルゴリズムについては文献1に詳述
されている。以下の例では出力確率は混合連続確率分布
とする。
【0016】以下に単語認識時の処理を数式で説明す
る。特徴ベクトルの時系列として表現された入力パター
ンXを X=x1 ,x2 ,x3 ,……xt ,……xT (1) とする。ここでTは入力パターンの総フレーム数であ
る。今、認識候補単語をW1 ,W2 ,前記WN とする。
N は認識候補単語数である。各々の単語WN の単語HM
Mと入力パターンXとの間のマッチングは以下のように
行なわれる。以下必要のない限り添字n を省略する。
【0017】まず、単語HMMにおいて、状態j から状
態i への遷移確率をaji、出力確率分布の混合重みをλ
im、各要素ガウス分布(フレーム分布とよぶ)の平均ベ
クトルをμim、共分散行列をΣimとする。ここで、t は
入力時刻、i,j はHMMの状態、m は混合要素番号を表
す。前向き確率α(i,t) に関する次の漸化式計算を行
う。
【0018】
【0019】ここで
【0020】
【0021】
【0022】単語Wn に対する入力パタンに対する尤度
【0023】
【0024】により求められる。ここで、Iは最終状態
である。この処理を各単語モデルについて行ない、入力
パターンXに対する認識結果単語
【0025】
【0026】は、
【0027】
【0028】で与えられる。認識結果単語は、認識結果
出力部に送られる。
【0029】認識結果出力部6−4は、認識結果を画面
上に出力する、あるいは、認識結果に対応した制御命令
を別の装置に送出するなどの処理を行なう。
【0030】以上、HMMを例にとり音声認識装置につ
いて説明した。
【0031】次に、この音声認識装置に対する教師あり
話者適応化技術について説明する。教師あり話者適応化
では、発声する単語あるいは文を予め使用者に指示し
て、単語表記と入力音声を用いてHMMのパラメータの
更新を行なう。このように予め発声に対する正解単語が
わかっているという意味で教師あり適応化と呼ばれる。
教師あり話者適応化方式としては、特願平2-203437「標
準パターン適応化方式」、あるいは、特願平4-203669
「音声認識装置」に記載されている手法があるが、ここ
では、特願平2-203437に基づく方式について簡単に述べ
る。
【0032】尚、教師あり話者適応化においては、話者
の負担を軽減するため、適応化に必要な入力発声の量を
なるべく少なくする必要がある。しかし、HMMは一般
にパラメータ数が多く、少量の適応化用発声で全パラメ
ータを適応化しようとすると、データの不足のためパラ
メータの推定精度が悪く、認識性能が向上しない可能性
がある。そこで、ここでの教師あり話者適応化では、H
MMのパラメータのうち、出力確率分布の平均ベクトル
のみを適応化する。平均ベクトルを選んだのは、これ
が、HMMのパラメータの中でもっとも認識性能に影響
があると考えられるからである。
【0033】簡単のため出力確率分布が単一ガウス分布
の場合について述べ、後に混合ガウス分布の場合につい
て述べる。
【0034】教師あり適応化は以下の2段階に分けら
れ、まず第1の段階について説明する。
【0035】まず、予め適応化初期標準パターン記憶部
6−11に適応化初期HMMを用意する。適応化初期H
MMとしては、例えば、多くの話者の発声で予め作成さ
れた不特定話者の音素HMMを用い、標準パターン記憶
部6−6に記憶されている音素HMMと同じでも良い
し、違ってもよい。また、適応化部6−9に各音素HM
Mの各状態ごとに特徴ベクトルの次元を持ったバッファ
B1(i)と、特徴ベクトルの個数を加算するための1
次元のバッファB2(i)を用意する。そして、各入力
発声ごとに以下の処理を行なう。
【0036】最初に認識時と同様に入力パターン作成部
6−8にて入力音声から入力パターンを作成する。上で
述べたように、教師あり適応化の場合、正解単語は予め
わかっているため、適応化用辞書作成部6−7は入力さ
れた正解単語表記と作成された入力パターンから適応化
用辞書を作成する。次に語いパターン作成部6−10
は、適応化辞書の音素系列と音素毎の適応化初期HMM
を用いて入力パターンに対応する単語HMMを作成す
る。そして、適応化部6−9は、入力パターンと適応化
用単語HMMの間で尤度計算を行なう。ここでは、式
(2) 、(5) の代わりに、
【0037】
【0038】
【0039】の漸化式を用いる。これは、ビタービアル
ゴリズムと呼ばれる。式(7) と並行して、
【0040】
【0041】の計算を行ない、各時刻の各状態におけ
る、前時刻の状態を配列Ψに記憶しておく。式(9) での
最終フレームTの計算が終ったのち、Ψを用いて、最終
フレームから最初のフレームまで順番に、各フレームに
対応する状態が求まる。すなわち、フレームtに対応す
る状態をS(t)と表すと、
【0042】
【0043】
【0044】である。この処理をバックトラックと呼
ぶ。この処理により、各時刻の特徴ベクトルに対応する
状態が求められる。つぎに各時刻の特徴ベクトルxt
とに、
【0045】
【0046】
【0047】の処理を行ない、B1,B2バッファの加
算を行なう。この処理を適応化用の発声単語数分だけ繰
り返す。
【0048】すべての入力発声について上の対応づけの
処理が終了した後、各音素HMMの各状態iに対応づけ
られたフレームの特徴ベクトルを、全入力パターンにわ
たって平均して、その状態の適応化後の平均ベクトルを
【0049】
【0050】とすると、
【0051】
【0052】と計算される。
【0053】第2の段階では、適応化用発声中に含まれ
ない音素に対応するHMMをスペクトル内挿と呼ぶ手法
を用いて適応化する。スペクトル内挿では、適応化用発
声中に出現しなかった音素に対応する平均ベクトルを、
出現した音素の平均ベクトルの適応化前後の差分を用い
て推定する。
【0054】今、適応化用発声に含まれるHMMの各状
態の平均ベクトルの集合を集合A、含まれないHMMの
各状態の平均ベクトルの集合を集合Bとする。まず、集
合Aのすべての状態について適応化ベクトルΔA が計算
される。適応化ベクトルは、適応化後の平均ベクトルτ
A と、適応化前の平均ベクトルμA の差として定義され
る。次に、集合Bの状態の適応化ベクトルを適応化する
ために、集合Aの状態の適応化ベクトルを内挿すること
により求める。このアルゴリズムは以下の通りである。 1. 集合Aの状態j においては、適応化後の平均ベクト
ルτj Aはすでに求められている. 適応化ベクトルΔj A
以下の式で与えられる。
【0055】
【0056】ここで、A は状態 jが集合Aに属すること
を示す添字である。適応化ベクトルΔj Aは集合Aにおけ
るすべての状態について計算される。 2. 集合Bの状態 iに対して, 適応化ベクトルΔi Bは、
集合Aの状態j の適応化ベクトルを内挿することにより
求める。
【0057】
【0058】適応化ベクトルΔj Aへの重みwi jはμi B
μj Aとの距離 di jの関数として定義される。例えば、w
i jは以下のように定義される。
【0059】
【0060】ここで mは重みwi jの距離 di jへの依存度
を表す定数である。適応化ベクトルΔi Bは集合Bに属す
るすべての状態について計算される。 3. 新しい話者の状態i の平均ベクトルτi Bは、次式で
与えられる。
【0061】
【0062】ここで、μI Bは適応化初期HMMの平均ベ
クトルである。 4. 2-3 の過程を集合Bのすべての状態について繰り返
す。上の手続きは、出力確率分布が混合ガウス分布であ
るHMMにも、状態内の複数の成分分布を別々に扱うこ
とにより、適用することができる。第1段階のバックト
ラックにおいては、状態内の成分分布のうち、対応する
特徴ベクトルの出現確率に重み係数を乗じた値が最大に
なるものを選び、集合Aに分類する。対応する適応化用
データのない成分分布は集合Bに分類される。第2段階
のスペクトル内挿は、集合Bの成分分布に対して行なわ
れる。すなわち、集合Bの成分分布の適応化ベクトル
は、すべての状態にわたる集合Aの成分分布の適応化ベ
クトルを用いたスペクトル内挿で求められる。
【0063】ここでは、平均ベクトルのみを適応化する
例を示したが、その他の分散、重み、遷移確率なども同
様の方式で適応化することが容易に可能である。また、
それらパラメータのうち、同時に複数のものを適応化す
ることが可能である。
【0064】適応化後のHMMは、標準パターン記憶部
6−6のそれまでのHMMに代わって記憶される。この
場合、話者別にHMMを記憶しておいても良いが、その
場合は認識の前処理として、使用者がHMMを選択する
か、あるいは、使用者の発声を用いて自動的にHMMを
選択する手段が必要になる。
【0065】ここまで、音素を認識単位としたHMM
に対する教師あり適応化を説明したが、単語あるいは文
を認識単位とした場合にも、それぞれの単語、文に対応
したHMMを作成することにより、容易に適応化でき
る。認識単位と入力発声の単位が同じ場合には( 例えば
単語単位のHMMと単語発声) 、適応化初期HMMを連
結する必要はなく、そのまま尤度計算を行ない適応化す
ることができる。
【0066】以上、従来の教師あり適応化について簡単
に説明した。
【0067】
【発明が解決しようとする課題】上述した従来の教師あ
り適応化方式は、教師なし適応化時に比べ性能は高い。
しかし、使用者は、使用時の発声とは別に、トレーニン
グとして装置に指示された単語を発声しなければなら
ず、負担が大きいという欠点がある。
【0068】本発明の目的は、音声認識システムの話者
適応化において、使用者に意識させずに教師あり適応化
に匹敵するような性能をもつ教師なし適応化の手法を提
供することである。
【0069】
【課題を解決するための手段】第1の発明は、音声認識
に用いる標準パターンを入力音声パターンを用いて適応
化する話者適応化方式において、各認識候補単語を単位
とする予め定められた基準により作成された単語標準パ
ターンを保持する標準パターン記憶部と、入力音声に対
し音声分析を行ない入力パターンを作成する入力パター
ン作成部と、作成された前記入力パターンを前記標準パ
ターン記憶部における単語標準パターンを用いて単語を
認識をする認識部と、前記認識部における認識結果を出
力する認識結果出力部と、前記認識単語の表記を参照し
て予め決めれらた方法により適応化初期単語標準パター
ンを用意する適応化用標準パターン選択部と、前記適応
化初期単語標準パターンに基く前記入力パターンの尤度
計算を行ない前記尤度計算結果により求められた適応化
後単語標準パターンにより前記標準パターン記憶部にお
ける単語標準パターンを更新する教師あり適応化部とを
備えたことを特徴とする。
【0070】第2の発明は、音声認識に用いる標準パタ
ーンを入力音声パターンを用いて適応化する話者適応化
方式において、音節,音素,などのサブワードを単位と
する予め定められた基準により作成されたサブワード標
準パターンを保持する標準パターン記憶部と、前記サブ
ワード標準パターンを用いて認識候補単語に対応する単
語標準パターンを作成する語彙パターン作成部と、入力
音声に対し音声分析を行ない入力パターンを作成する入
力パターン作成部と、作成された前記入力パターンを前
記語彙パターン作成部により作成された前記単語標準パ
ターンを用いて単語の認識をする認識部と、前記認識部
における認識結果を出力する認識結果出力部と、前記認
識単語の表記を参照して予め定めれらた方法により適応
化初期単語標準パターンを用意する適応化用標準パター
ン選択部と、前記適応化初期単語標準パターンに基く前
記入力パターンの尤度計算を行ない前記尤度計算結果に
より求められた適応化後サブワード標準パターンにより
前記標準パターン記憶部における前記サブワード標準パ
ターンを更新する教師あり適応化部とを備えたことを特
徴とする。
【0071】第3の発明は、第1の発明および第2の発
明において、前記入力パターンを記憶する入力パターン
記憶部と、前記入力パターン記憶部における前記入力パ
ターンを入力として前記認識部と前記認識結果出力部と
前記適応化用標準パターン選択部および前記教師あり適
応化部の動作を予め決めれらた変数が予め定められた基
準値に達するまで繰り返させる繰り返し制御部を備えた
ことを特徴とする。
【0072】第4の発明は、音声認識に用いる標準パタ
ーンを入力音声パターンを用いて適応化する話者適応化
方式において、音節,音素,などのサブワードを単位と
する予め定められた基準により作成されたサブワード標
準パターンを保持する標準パターン記憶部と、前記サブ
ワード標準パターンを用いて認識候補単語に対応する単
語標準パターンを作成する語彙パターン作成部と、入力
音声に対し音声分析を行ない入力パターンを作成する入
力パターン作成部と、作成された前記入力パターンを記
憶する入力パターン記憶部と、前記入力パターン記憶部
における前記入力パターンと前記語彙パターン作成部に
より作成された前記単語標準パターンを用いて単語の認
識をする認識部と、前記認識部における認識結果を出力
する認識結果出力部と、前記認識単語に相当する前記語
彙パターン作成部における前記単語標準パターンに基く
前記入力パターンの尤度計算を行ない前記尤度計算結果
により求められた適応化後サブワード標準パターンによ
り前記標準パターン記憶部における前記サブワード標準
パターンを更新する教師あり適応化部と前記認識部と前
記認識結果出力部および前記教師あり適応化部の動作を
予め決めれらた変数が予め定められた基準値に達するま
で繰り返させる繰り返し制御部を備えたことを特徴とす
る。
【0073】第5の発明は、音声認識に用いる標準パタ
ーンを入力音声パターンを用いて適応化する話者適応化
方式において、音節,音素,などのサブワードを単位と
する予め定められた基準により作成されたサブワード標
準パターンを保持する標準パターン記憶部と、前記サブ
ワード標準パターンを用いて認識候補単語に対応する単
語標準パターンを作成する語彙パターン作成部と、予め
定められた方法により作成された前記認識候補単語に対
応する基本標準パターンを記憶する基本標準パターン記
憶部と、入力音声に対し音声分析を行ない入力パターン
を作成する入力パターン作成部と、作成された前記入力
パターンを記憶する入力パターン記憶部と、前記入力パ
ターン記憶部における前記入力パターンと前記語彙パタ
ーン作成部により作成された前記単語標準パターンを用
いて単語の認識をする認識部と、前記認識部における認
識結果を出力する認識結果出力部と、前記認識単語に相
当する前記基本標準パターン記憶部における前記基本標
準パターンに基く前記入力パターンの尤度計算を行ない
前記尤度計算結果により求められた適応化後サブワード
標準パターンにより前記標準パターン記憶部における前
記サブワード標準パターンを更新する教師あり適応化部
と前記認識部と前記認識結果出力部および前記教師あり
適応化部の動作を予め決めれらた変数が予め定められた
基準値に達するまで繰り返させる繰り返し制御部を備え
たことを特徴とする。
【0074】
【実施例】次に、本発明について図面を参照して説明す
る。
【0075】説明の前提として、後述する図1〜図5に
示す標準パターン記憶部101〜501,入力パターン
作成部102〜502,認識部103〜503,認識結
果出力部104〜504,語彙パターン作成部207,
309,409,510は、それぞれ従来技術の説明の
項で説明した標準パターン記憶部6−6,入力パターン
作成部6−2,認識部6−3,認識結果出力部6−4,
語彙パターン作成部6−5と同様であるため、本実施例
では、簡単な説明に届める。
【0076】また、ここでの教師あり話者適応化では、
従来技術で説明した場合と同様、HMMのパラメータの
中でもっとも認識性能に影響がある、出力確率分布の平
均ベクトルのみを適応化するものとする。
【0077】図1は、請求項1の発明に係る第1の話者
学習方式の一実施例のブロック図である。入力発声、お
よび、HMMの認識単位は、単語とする。標準パターン
記憶部101は各認識候補単語の単語HMMを保持す
る。単語HMMは不特定話者のHMM、あるいは、他の
話者のHMMである。入力パターン作成部102は入力
音声に対し、音声分析を行ない入力パターンXを作成す
る。作成された入力パターンXは認識部103において
標準パターン記憶部101における単語HMMを用いて
認識をされ、認識結果出力部104から認識結果が出力
される。
【0078】適応化用標準パターン選択部105は、認
識結果単語の表記を参照して適応化初期単語HMMを用
意する。適応化初期単HMMは多くの話者の発声で予め
学習された不特定話者の単語HMM、あるいは、他の話
者の発声で学習された異話者の単語HMMであり、標準
パターン記憶部101の単語HMMでも良いし、それと
は別のものでもよい。
【0079】教師あり適応化部106では、入力パター
ンXおよび適応化初期単語HMMを用いた尤度計算を、
1つまたは複数の入力パターンについて行なったのち、
適応化後の平均ベクトルを計算し適応化後HMMを求め
る。教師あり適応化部の詳しい動作については従来の技
術の説明における適応化部6−9を参照されたい。教師
あり適応化部106より出力された適応化後HMMは、
標準パターン記憶部101に出力され、今までの認識H
MMのかわりに記憶される。
【0080】図2は、請求項2の発明に係る第2の話者
学習方式の一実施例のブロック図である。入力発声は単
語であるとする。標準パターン記憶部201は各音素の
HMMを保持する。語彙パターン作成部207は各音素
のHMMを用いて認識候補単語に対応する単語HMMを
作成する。入力パターン作成部202は入力音声に対
し、音声分析を行ない入力パターンXを作成する。作成
された入力パターンは認識部203において認識候補単
語の単語HMMを用いて認識をされ、認識結果出力部2
04から認識結果が出力される。適応化用辞書作成部2
05は、認識結果表記から適応化用辞書を作成する。
【0081】教師あり適応化部206では、まず、適応
化用辞書を用いて適応化初期音素HMMを連結して適応
化初期単語HMMを作成する。適応化初期音素HMM
は、標準パターン記憶部201にある音素HMMでも良
いし、別の音素HMMでも良い。次に、作成された適応
化初期単語HMMと入力パターンを用いて尤度計算を、
1つまたは複数の入力パターンについて行なったのち、
適応化後の平均ベクトルを計算し適応化後HMMを求め
る。適応化されたHMMは、標準パターン記憶部201
に出力され、今までの認識HMMのかわりに記憶され
る。
【0082】図3は、請求項3の発明に係る第3の話者
学習方式の一実施例のブロック図である。第2の実施例
と異なる点は、繰り返し制御部308が制御することに
より適応化が繰り返し行なわれる点である。教師あり適
応化部306の適応化により作成された適応化後HMM
は、認識に用いた認識HMMに比べ、使用者の発声に対
し一般により高い認識性能を示す。したがって、この適
応化後HMMを用いて、もう一回入力パターンを認識す
れば、さらに良好な認識率を示すと考えられる。そし
て、その認識結果を用いて作成した適応化用辞書を用い
て適応化すればさらに認識性能の高い適応化後HMMが
作成される可能性がある。認識・適応化の繰り返しの際
には、繰り返し毎に入力パターンを作成する計算を省く
ために、最初の適応化の際に入力パターンを入力パター
ン記憶部307に記憶しておき、2回目以降の繰り返し
においては、入力パターンは、入力パターン記憶部30
7から出力されるものを用いる。繰り返し回数は、予め
決めておくか、あるいは、繰り返しごとに認識部303
における認識結果単語に対応する認識結果尤度を記憶し
ておき、前回の繰り返しにおける尤度と比較して尤度が
飽和したかどうかを判定し、飽和したら繰り返しをとめ
るなどの方法で決める。この繰り返し手段308は、第
1の実施例に対しても同様に適用でき、また、音素が認
識単位の場合でも、単語や文などの入力発声と同じ認識
単位の場合でも、同様に適用可能である。
【0083】図4は、請求項4の発明に係る第4の話者
学習方式の一実施例のブロック図である。第4の話者学
習方式では、第3の話者学習方式において、適応化初期
音素HMMとして、標準パターン記憶部に記憶された音
素HMMを用いる。繰り返しを行なうことにより、標準
パターン記憶部に記憶された音素HMMはすでに使用者
にある程度適応しているため、それを適応化の初期モデ
ルとして用いることにより、適応化が速やかに行なわれ
る。すなわち、認識・適応化の繰り返しの回数が減少す
る効果がある。また、この方式は、認識単位が単語であ
っても容易に適用可能である。
【0084】図5は、請求項5の発明に係る第5の話者
学習方式の一実施例のブロック図である。第5の話者学
習方式では、第3の話者学習方式において、適応化初期
HMMとして、基本標準パターン記憶部509に記憶さ
れた音素HMMを用いる。基本標準パターンは、予め多
数の話者の発声により学習された不特定話者HMMや、
他の使用者の発声により学習された異話者HMMを用い
る。この基本標準パターンは、繰り返しにより更新され
ることはない。第4の話者適応化方式では、前の繰り返
しにおける適応化後HMMを適応化初期HMMとしてい
るが、適応化が迅速に行なわれる反面、認識の際、誤認
識があると、それが、適応化の性能に与える影響がより
大きくなるという問題点がある。しかし、この第5の話
者適応化方式では、適応化において前ループから得る情
報は、教師となる適応化用辞書のみとなり、第4の話者
適応化方式に比べ、繰り返しの回数は多くかかるものの
誤認識の度合が少ないと考えられる。また、この方式
は、認識単位が単語であっても容易に適用可能である。
【0085】以上述べた実施例は、いずれも図6に示す
従来の装置を拡張変更することによって達成することが
できるという特徴を有する。
【0086】なお、ここでは、認識対象として単語を例
にあげたが、文、あるいは、会話発声においても同様な
手段で適応化可能である。また、認識方式としてHMM
を例にあげて説明したが、他の認識方式、例えば、NN、
DPマッチングなどの認識方式においても、認識・適応化
部は同様の手法を用いて構成できる。また、適応化手段
として、特願平2-203437の方式に基づく方式について説
明したが、他の教師あり適応化方式を用いても構成可能
である。さらに、認識・適応化手段において、認識単位
として、音素を例にとりあげたが、音素以外の、音節、
半音節など他の認識単位の場合も、本方式は容易に適用
可能である。
【0087】以下に上述した第2の話者適応化方式の評
価実験の結果を述べる。評価実験は半音節を認識単位と
した混合ガウス分布HMMを用い、類似5000単語認
識を行なった。ここで、HMMの混合ガウス分布数は2
とし、多数話者のデータとして、男性46名女性39名
計85名の音素バランスを考慮した250単語1回発声
を用いた。また、評価話者として上の85名に含まれない
男性3名、女性4名計7名を用い、適応化用データ、お
よび、評価用データとしてそれぞれ、学習時とは異なる
語彙250単語1回発声を用いた。適応化用、評価用の
データの語彙はお互いに異なっている。分析条件は、サ
ンプリング周波数16 kHz、帯域0.1−7.2 kHz、
フレーム間隔10msで、メルケプストラム分析を用い
た。特徴ベクトルは正規化パワー差分、メルケプストラ
ム10次元、メルケプストラムの変化量10次元の計2
1次元である。また、適応化の初期HMMは話者85名
の発声データを用いて学習した不特定話者モデルを用い
た。
【0088】離散5000単語を適応化の認識対象とし
た場合について教師なし適応化の評価実験を行なった結
果、性能が大幅に向上し、話者7名平均で不特定話者認
識率84.5%のところ、適応化単語数250単語で教
師なし適応化後の認識率91.3%と誤りが半分近く減
少している。また、教師あり適応化と比べても、各々の
適応化用単語数において、1〜2%低いに過ぎない。
【0089】
【発明の効果】以上説明したように、本発明により、音
声認識装置を使用者が意識することなしに使用者に適応
させ、高い認識性能を得ることが可能になり、同時に使
用者の負担が軽減されユーザーインターフェースが向上
し、さらに、すでに教師あり適応化システムが存在して
いる場合、それを利用することによりわずかな手間で教
師なし適応化システムを構築可能になるという効果があ
る。
【図面の簡単な説明】
【図1】本発明の第1の実施例を示すブロック図であ
る。
【図2】本発明の第2の実施例を示すブロック図であ
る。
【図3】本発明の第3の実施例を示すブロック図であ
る。
【図4】本発明の第4の実施例を示すブロック図であ
る。
【図5】本発明の第5の実施例を示すブロック図であ
る。
【図6】従来技術の実施例を示すブロック図である。
【符号の説明】
101 標準パターン記憶部 102 入力パターン作成部 103 認識部 104 認識結果出力部 105 適応化用標準パターン選択部 106 教師あり適応化部 201 標準パターン記憶部 202 入力パターン作成部 203 認識部 204 認識結果出力部 205 適応化用辞書作成部 206 教師あり適応化部 207 語彙パターン作成部 301 標準パターン記憶部 302 入力パターン作成部 303 認識部 304 認識結果出力部 305 適応化用辞書作成部 306 教師あり適応化部 307 入力パターン記憶部 308 繰り返し制御部 309 語彙パターン作成部 401 標準パターン記憶部 402 入力パターン作成部 403 認識部 404 認識結果出力部 405 適応化用辞書作成部 406 教師あり適応化部 407 入力パターン記憶部 408 繰り返し制御部 409 語彙パターン作成部 501 標準パターン記憶部 502 入力パターン作成部 503 認識部 504 認識結果出力部 505 適応化用辞書作成部 506 教師あり適応化部 507 入力パターン記憶部 508 繰り返し制御部 509 基本標準パターン記憶部 510 語彙パターン作成部 6−1 音声認識装置 6−2 入力パターン作成部 6−3 認識部 6−4 認識結果出力部 6−5 語彙パターン作成部 6−6 標準パターン記憶部 6−7 適応化用辞書作成部 6−8 入力パターン作成部 6−9 適応化部 6−10 語彙パターン作成部 6−11 適応化初期標準パターン記憶部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声認識に用いる標準パターンを入力音
    声パターンを用いて適応化する話者適応化方式におい
    て、各認識候補単語を単位とする予め定められた基準に
    より作成された単語標準パターンを保持する標準パター
    ン記憶部と、入力音声に対し音声分析を行ない入力パタ
    ーンを作成する入力パターン作成部と、作成された前記
    入力パターンを前記標準パターン記憶部における単語標
    準パターンを用いて単語を認識をする認識部と、前記認
    識部における認識結果を出力する認識結果出力部と、前
    記認識単語の表記を参照して予め決めれらた方法により
    適応化初期単語標準パターンを用意する適応化用標準パ
    ターン選択部と、前記適応化初期単語標準パターンに基
    く前記入力パターンの尤度計算を行ない前記尤度計算結
    果により求められた適応化後単語標準パターンにより前
    記標準パターン記憶部における単語標準パターンを更新
    する教師あり適応化部とを備えたことを特徴とする話者
    適応化方式。
  2. 【請求項2】 音声認識に用いる標準パターンを入力音
    声パターンを用いて適応化する話者適応化方式におい
    て、音節,音素,などのサブワードを単位とする予め定
    められた基準により作成されたサブワード標準パターン
    を保持する標準パターン記憶部と、前記サブワード標準
    パターンを用いて認識候補単語に対応する単語標準パタ
    ーンを作成する語彙パターン作成部と、入力音声に対し
    音声分析を行ない入力パターンを作成する入力パターン
    作成部と、作成された前記入力パターンを前記語彙パタ
    ーン作成部により作成された前記単語標準パターンを用
    いて単語の認識をする認識部と、前記認識部における認
    識結果を出力する認識結果出力部と、前記認識単語の表
    記を参照して予め定めれらた方法により適応化初期単語
    標準パターンを用意する適応化用標準パターン選択部
    と、前記適応化初期単語標準パターンに基く前記入力パ
    ターンの尤度計算を行ない前記尤度計算結果により求め
    られた適応化後サブワード標準パターンにより前記標準
    パターン記憶部における前記サブワード標準パターンを
    更新する教師あり適応化部とを備えたことを特徴とする
    話者適応化方式。
  3. 【請求項3】 前記入力パターンを記憶する入力パター
    ン記憶部と、前記入力パターン記憶部における前記入力
    パターンを入力として前記認識部と前記認識結果出力部
    と前記適応化用標準パターン選択部および前記教師あり
    適応化部の動作を予め決めれらた変数が予め定められた
    基準値に達するまで繰り返させる繰り返し制御部を備え
    たことを特徴とする請求項1記載および請求項2記載の
    話者適応化方式。
  4. 【請求項4】 音声認識に用いる標準パターンを入力音
    声パターンを用いて適応化する話者適応化方式におい
    て、音節,音素,などのサブワードを単位とする予め定
    められた基準により作成されたサブワード標準パターン
    を保持する標準パターン記憶部と、前記サブワード標準
    パターンを用いて認識候補単語に対応する単語標準パタ
    ーンを作成する語彙パターン作成部と、入力音声に対し
    音声分析を行ない入力パターンを作成する入力パターン
    作成部と、作成された前記入力パターンを記憶する入力
    パターン記憶部と、前記入力パターン記憶部における前
    記入力パターンと前記語彙パターン作成部により作成さ
    れた前記単語標準パターンを用いて単語の認識をする認
    識部と、前記認識部における認識結果を出力する認識結
    果出力部と、前記認識単語に相当する前記語彙パターン
    作成部における前記単語標準パターンに基く前記入力パ
    ターンの尤度計算を行ない前記尤度計算結果により求め
    られた適応化後サブワード標準パターンにより前記標準
    パターン記憶部における前記サブワード標準パターンを
    更新する教師あり適応化部と前記認識部と前記認識結果
    出力部および前記教師あり適応化部の動作を予め決めれ
    らた変数が予め定められた基準値に達するまで繰り返さ
    せる繰り返し制御部を備えたことを特徴とする話者適応
    化方式。
  5. 【請求項5】 音声認識に用いる標準パターンを入力音
    声パターンを用いて適応化する話者適応化方式におい
    て、音節,音素,などのサブワードを単位とする予め定
    められた基準により作成されたサブワード標準パターン
    を保持する標準パターン記憶部と、前記サブワード標準
    パターンを用いて認識候補単語に対応する単語標準パタ
    ーンを作成する語彙パターン作成部と、予め定められた
    方法により作成された前記認識候補単語に対応する基本
    標準パターンを記憶する基本標準パターン記憶部と、入
    力音声に対し音声分析を行ない入力パターンを作成する
    入力パターン作成部と、作成された前記入力パターンを
    記憶する入力パターン記憶部と、前記入力パターン記憶
    部における前記入力パターンと前記語彙パターン作成部
    により作成された前記単語標準パターンを用いて単語の
    認識をする認識部と、前記認識部における認識結果を出
    力する認識結果出力部と、前記認識単語に相当する前記
    基本標準パターン記憶部における前記基本標準パターン
    に基く前記入力パターンの尤度計算を行ない前記尤度計
    算結果により求められた適応化後サブワード標準パター
    ンにより前記標準パターン記憶部における前記サブワー
    ド標準パターンを更新する教師あり適応化部と前記認識
    部と前記認識結果出力部および前記教師あり適応化部の
    動作を予め決めれらた変数が予め定められた基準値に達
    するまで繰り返させる繰り返し制御部を備えたことを特
    徴とする話者適応化方式。
JP6020734A 1994-02-18 1994-02-18 話者適応化方式 Expired - Fee Related JP2976795B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6020734A JP2976795B2 (ja) 1994-02-18 1994-02-18 話者適応化方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6020734A JP2976795B2 (ja) 1994-02-18 1994-02-18 話者適応化方式

Publications (2)

Publication Number Publication Date
JPH07230295A true JPH07230295A (ja) 1995-08-29
JP2976795B2 JP2976795B2 (ja) 1999-11-10

Family

ID=12035429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6020734A Expired - Fee Related JP2976795B2 (ja) 1994-02-18 1994-02-18 話者適応化方式

Country Status (1)

Country Link
JP (1) JP2976795B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0763815A2 (en) * 1995-09-14 1997-03-19 Pioneer Electronic Corporation Method of preparing speech model and speech recognition apparatus using this method
EP0762383A3 (en) * 1995-08-30 1998-04-29 Nec Corporation Pattern adapting apparatus for speech or pattern recognition
JP2015018186A (ja) * 2013-07-12 2015-01-29 日本放送協会 適応化装置およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0762383A3 (en) * 1995-08-30 1998-04-29 Nec Corporation Pattern adapting apparatus for speech or pattern recognition
EP0763815A2 (en) * 1995-09-14 1997-03-19 Pioneer Electronic Corporation Method of preparing speech model and speech recognition apparatus using this method
EP0763815A3 (en) * 1995-09-14 1998-05-06 Pioneer Electronic Corporation Method of preparing speech model and speech recognition apparatus using this method
US5903865A (en) * 1995-09-14 1999-05-11 Pioneer Electronic Corporation Method of preparing speech model and speech recognition apparatus using this method
JP2015018186A (ja) * 2013-07-12 2015-01-29 日本放送協会 適応化装置およびプログラム

Also Published As

Publication number Publication date
JP2976795B2 (ja) 1999-11-10

Similar Documents

Publication Publication Date Title
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JPH0372998B2 (ja)
Zen et al. An introduction of trajectory model into HMM-based speech synthesis
JP3092491B2 (ja) 記述長最小基準を用いたパターン適応化方式
US5706397A (en) Speech recognition system with multi-level pruning for acoustic matching
KR20050083547A (ko) 음성 처리 장치 및 방법, 기록 매체와 프로그램
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
Rosdi et al. Isolated malay speech recognition using Hidden Markov Models
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
Shen et al. Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP3039634B2 (ja) 音声認識装置
JP3589044B2 (ja) 話者適応化装置
JP2976795B2 (ja) 話者適応化方式
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
El Ouahabi et al. Amazigh speech recognition using triphone modeling and clustering tree decision
JP3039399B2 (ja) 非母国語音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP3105708B2 (ja) 音声認識装置
JP3033322B2 (ja) 連続音声認識方法
JP2005091504A (ja) 音声認識装置
JPH06175678A (ja) 音声認識装置
JP4654452B2 (ja) 音響モデル生成装置、およびプログラム
Yun et al. Stochastic lexicon modeling for speech recognition

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990810

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100910

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees