JPH07230295A

JPH07230295A - 話者適応化方式

Info

Publication number: JPH07230295A
Application number: JP6020734A
Authority: JP
Inventors: Koichi Shinoda; 浩一篠田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1994-02-18
Filing date: 1994-02-18
Publication date: 1995-08-29
Anticipated expiration: 2014-11-10
Also published as: JP2976795B2

Abstract

(57)【要約】【目的】音声認識装置の使用性を向上させる。【構成】標準パターン記憶部１０１は各認識候補単語
の単語ＨＭＭを保持する。入力パターン作成部１０２は
入力音声に対し、音声分析を行ない入力パターンＸを作
成する。作成された入力パターンＸは認識部１０３にお
いて標準パターン記憶部１０１における単語ＨＭＭを用
いて認識をされ、認識結果出力部１０４から認識結果が
出力される。適応化用標準パターン選択部１０５は、認
識結果単語の表記を参照して適応化初期単語ＨＭＭを用
意する。教師あり適応化部１０６では、入力パターンＸ
および適応化初期単語ＨＭＭを用いた尤度計算を、１つ
または複数の入力パターンについて行なったのち、適応
化後の平均ベクトルを計算し適応化後ＨＭＭを求める。
教師あり適応化部１０６より出力された適応化後ＨＭＭ
は、標準パターン記憶部１０１に出力され、今までの認
識ＨＭＭのかわりに記憶される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識において認識装
置を使用者に速やかに適応させることを目的とした話者
適応化方式に関し、特に混合連続分布モデル型ＨＭＭを
用いた音声認識システムにおける教師なし話者適応化方
式に関する。

【０００２】

【従来の技術】近年、音声パターンの機械による認識に
関する研究が行われ、数々の手法が提案されている。こ
の中で、よく使われる代表的な認識手法に、ＤＰマッチ
ング（ダイナミックプログラミングマッチング）と呼ば
れる方法、並びに、隠れマルコフモデル（ＨＭＭ）と呼
ばれる方法がある。このＤＰマッチングやＨＭＭなどの
音声認識手法を用いた音声認識システムとして、誰の声
でも認識できることを目的とした不特定話者の認識シス
テムが盛んに研究・開発されている。

【０００３】不特定話者システムは、使用者を特定した
特定話者システムと違い、事前に使用者が発声を登録す
る必要がないという利点がある。しかしながら、近年、
次のような問題点が指摘された。まず、ほとんどの話者
において認識性能が特定話者システムより劣り、さら
に、認識性能が大幅に悪い話者（特異話者）が存在する
という点である。このような問題点を解決するために、
従来、特定話者システムにおいて用いられてきた、話者
適応化の技術を不特定話者システムにも適用しようとい
う研究が最近始まっている。

【０００４】話者適応化とは、学習に用いるよりも少量
の適応化用データを用いて、認識システムを新しい使用
者（未知話者）に適応化させる方式を指す。話者適応化
方式の詳細については、「音声認識における話者適応化
技術」、古井貞煕著、テレビジョン学会誌、Vol.43、N
o. 9 、1989、pp.929-934に解説されている。

【０００５】話者適応化は大きく分けて２つの手法に分
けられる。１つは教師あり話者適応化、もう１つは教師
なし話者適応化である。ここでの教師とは入力発声の発
声内容を表す音韻表記列を指す。教師あり適応化とは、
入力発声に対する音韻表記列が既知の場合の適応化手法
であり、適応化の際、未知話者に対し発声語彙を事前に
指示する必要がある。

【０００６】一方、教師なし適応化とは、入力発声に対
する音韻表記列が未知の場合の適応化手法であり、未知
話者に対し入力発声の発声内容を限定しない、すなわ
ち、未知話者に対し発声内容を指示をする必要がなく、
実際に音声認識を使用中の入力音声を用いて、未知話者
に意識させずに適応化を行なえるため、使用者にとって
使いやすい方式である。

【０００７】一般に、教師なし適応化は教師あり適応化
に比べ、適応化後の認識性能が低いため、現在は教師あ
り適応化がよく使われている。

【０００８】以下、従来の教師あり適応化技術を用いた
音声認識装置について図６を参照して説明する。

【０００９】音声認識装置６−１に入力された話者の発
声は、入力パターン作成部６−２に入力され、AD変換、
音声分析などの過程を経て、ある時間長をもつフレーム
と呼ばれる単位ごとの特徴ベクトルの時系列に変換され
る。この特徴ベクトルの時系列を、ここでは入力パター
ンと呼ぶ。フレームの長さは通常 10ms から100ms 程度
である。特徴ベクトルはその時刻における音声スペクト
ルの特徴量を抽出したもので、通常10次元から100 次元
である。

【００１０】一方、標準パターン記憶部６−６にはＨＭ
Ｍ（Hidden Markov Model ）が記憶されている。ＨＭＭ
は音声の情報源のモデルの１つであり、話者の音声を用
いてそのパラメータを学習することができる。ＨＭＭに
ついては認識部６−３の項の説明で詳しく述べる。

【００１１】ＨＭＭは通常各認識単位ごとに用意され
る。ここでは、認識単位として音素を例にとる。標準パ
ターン記憶部６−６のＨＭＭは、別の使用者の発声を用
いて学習した異話者ＨＭＭ、あるいは、予め多くの話者
の発声を用いて学習した不特定話者ＨＭＭなどが用いら
れる。

【００１２】今、1000単語を認識対象とする場合、即ち
1000単語の認識候補から１単語の正解を求める場合を想
定する。単語を認識する場合には、各音素のＨＭＭを連
結して、認識候補単語のＨＭＭを作成する。1000単語認
識の場合には1000単語分の単語ＨＭＭを作成する。本説
明では、1000単語を例としたが、特に1000単語である必
要はなく何単語でもよい。また、認識対象として、例え
ば連続音節をとってもよい。連続音節とは、日本語（あ
るいは他の外国語認識ではその言語）に現れるすべての
音節の連結をネットワークで表現したＨＭＭで認識を行
なうもので、事実上、日本語に現れるすべての発声を認
識することが可能である。これらの処理は語彙パターン
作成部６−５で行なわれる。

【００１３】認識部６−３では、語彙パターン作成部６
−５で作成された単語ＨＭＭを用いて入力パターンの認
識を行なう。ＨＭＭは、音声の情報源のモデルであり、
音声パターンの様々な揺らぎに対処するため、標準パタ
ーンの記述に統計的な考えが導入されている。ＨＭＭの
詳細な説明は、「確率モデルによる音声認識」、中川聖
一、電子情報通信学会編（昭63）（以下文献１）の40〜
46頁、55〜60頁、69〜74頁に記述されている。各音素の
ＨＭＭは、それぞれ、通常１から１０個の状態とその間
の状態遷移から構成される。通常は始状態と終状態が定
義されており、単位時間ごとに、各状態からシンボルが
出力され、状態遷移が行なわれる。各音素の音声は、始
状態から終状態までの状態遷移の間にＨＭＭから出力さ
れるシンボルの時系列として表される。各状態にはシン
ボルの出現確率が、状態間の各遷移には遷移確率が定義
されている。遷移確率パラメータは音声パタンの時間的
な揺らぎを表現するためのパラメータである。出現確率
パラメータは、音声パターンの声色の揺らぎを表現する
ものである。始状態の確率をある値に定め、状態遷移ご
とに出現確率、遷移確率を掛けていくことにより、発声
がそのモデルから発生する確率を求めることができる。
逆に、発声を観測した場合、それが、あるＨＭＭから発
生したと仮定するとその発生確率が計算できることにな
る。

【００１４】ＨＭＭによる音声認識では、各認識候補に
対してＨＭＭを用意し、発声が入力されると、各々のＨ
ＭＭにおいて、発生確率を求め、最大となるＨＭＭを発
生源と決定し、そのＨＭＭに対応する認識候補をもって
認識結果とする。

【００１５】出力確率パラメータには、離散確率分布表
現と連続確率分布表現があるが、ここでは連続確率表現
を例にとる。連続確率分布表現では、混合連続分布、す
なわち、複数のガウス分布を重みつきで加算した分布が
使われる。出力確率パラメータ、遷移確率パラメータ、
複数のガウス分布の重みなどのパラメータは、モデルに
対応する学習音声を与えてバウムーウェルチアルゴリズ
ムと呼ばれるアルゴリズムにより予め学習されている。
バウムーウェルチアルゴリズムについては文献１に詳述
されている。以下の例では出力確率は混合連続確率分布
とする。

【００１６】以下に単語認識時の処理を数式で説明す
る。特徴ベクトルの時系列として表現された入力パター
ンＸをＸ＝ｘ₁，ｘ₂，ｘ₃，……ｘ_t，……ｘ_T （１）とする。ここでＴは入力パターンの総フレーム数であ
る。今、認識候補単語をＷ₁，Ｗ₂，前記Ｗ_Nとする。
N は認識候補単語数である。各々の単語Ｗ_Nの単語ＨＭ
Ｍと入力パターンＸとの間のマッチングは以下のように
行なわれる。以下必要のない限り添字n を省略する。

【００１７】まず、単語ＨＭＭにおいて、状態j から状
態i への遷移確率をａ_ji、出力確率分布の混合重みをλ
_im、各要素ガウス分布（フレーム分布とよぶ）の平均ベ
クトルをμ_im、共分散行列をΣ_imとする。ここで、t は
入力時刻、i,j はＨＭＭの状態、m は混合要素番号を表
す。前向き確率α(i,t) に関する次の漸化式計算を行
う。

【００１８】

【００１９】ここで

【００２０】

【００２１】

【００２２】単語Ｗ_nに対する入力パタンに対する尤度
は

【００２３】

【００２４】により求められる。ここで、Ｉは最終状態
である。この処理を各単語モデルについて行ない、入力
パターンＸに対する認識結果単語

【００２５】

【００２６】は、

【００２７】

【００２８】で与えられる。認識結果単語は、認識結果
出力部に送られる。

【００２９】認識結果出力部６−４は、認識結果を画面
上に出力する、あるいは、認識結果に対応した制御命令
を別の装置に送出するなどの処理を行なう。

【００３０】以上、ＨＭＭを例にとり音声認識装置につ
いて説明した。

【００３１】次に、この音声認識装置に対する教師あり
話者適応化技術について説明する。教師あり話者適応化
では、発声する単語あるいは文を予め使用者に指示し
て、単語表記と入力音声を用いてＨＭＭのパラメータの
更新を行なう。このように予め発声に対する正解単語が
わかっているという意味で教師あり適応化と呼ばれる。
教師あり話者適応化方式としては、特願平2-203437「標
準パターン適応化方式」、あるいは、特願平4-203669
「音声認識装置」に記載されている手法があるが、ここ
では、特願平2-203437に基づく方式について簡単に述べ
る。

【００３２】尚、教師あり話者適応化においては、話者
の負担を軽減するため、適応化に必要な入力発声の量を
なるべく少なくする必要がある。しかし、ＨＭＭは一般
にパラメータ数が多く、少量の適応化用発声で全パラメ
ータを適応化しようとすると、データの不足のためパラ
メータの推定精度が悪く、認識性能が向上しない可能性
がある。そこで、ここでの教師あり話者適応化では、Ｈ
ＭＭのパラメータのうち、出力確率分布の平均ベクトル
のみを適応化する。平均ベクトルを選んだのは、これ
が、ＨＭＭのパラメータの中でもっとも認識性能に影響
があると考えられるからである。

【００３３】簡単のため出力確率分布が単一ガウス分布
の場合について述べ、後に混合ガウス分布の場合につい
て述べる。

【００３４】教師あり適応化は以下の２段階に分けら
れ、まず第１の段階について説明する。

【００３５】まず、予め適応化初期標準パターン記憶部
６−１１に適応化初期ＨＭＭを用意する。適応化初期Ｈ
ＭＭとしては、例えば、多くの話者の発声で予め作成さ
れた不特定話者の音素ＨＭＭを用い、標準パターン記憶
部６−６に記憶されている音素ＨＭＭと同じでも良い
し、違ってもよい。また、適応化部６−９に各音素ＨＭ
Ｍの各状態ごとに特徴ベクトルの次元を持ったバッファ
Ｂ１（ｉ）と、特徴ベクトルの個数を加算するための１
次元のバッファＢ２（ｉ）を用意する。そして、各入力
発声ごとに以下の処理を行なう。

【００３６】最初に認識時と同様に入力パターン作成部
６−８にて入力音声から入力パターンを作成する。上で
述べたように、教師あり適応化の場合、正解単語は予め
わかっているため、適応化用辞書作成部６−７は入力さ
れた正解単語表記と作成された入力パターンから適応化
用辞書を作成する。次に語いパターン作成部６−１０
は、適応化辞書の音素系列と音素毎の適応化初期ＨＭＭ
を用いて入力パターンに対応する単語ＨＭＭを作成す
る。そして、適応化部６−９は、入力パターンと適応化
用単語ＨＭＭの間で尤度計算を行なう。ここでは、式
(2) 、(5) の代わりに、

【００３７】

【００３８】

【００３９】の漸化式を用いる。これは、ビタービアル
ゴリズムと呼ばれる。式(7) と並行して、

【００４０】

【００４１】の計算を行ない、各時刻の各状態におけ
る、前時刻の状態を配列Ψに記憶しておく。式(9) での
最終フレームＴの計算が終ったのち、Ψを用いて、最終
フレームから最初のフレームまで順番に、各フレームに
対応する状態が求まる。すなわち、フレームｔに対応す
る状態をＳ（ｔ）と表すと、

【００４２】

【００４３】

【００４４】である。この処理をバックトラックと呼
ぶ。この処理により、各時刻の特徴ベクトルに対応する
状態が求められる。つぎに各時刻の特徴ベクトルｘ_tご
とに、

【００４５】

【００４６】

【００４７】の処理を行ない、Ｂ１，Ｂ２バッファの加
算を行なう。この処理を適応化用の発声単語数分だけ繰
り返す。

【００４８】すべての入力発声について上の対応づけの
処理が終了した後、各音素ＨＭＭの各状態ｉに対応づけ
られたフレームの特徴ベクトルを、全入力パターンにわ
たって平均して、その状態の適応化後の平均ベクトルを

【００４９】

【００５０】とすると、

【００５１】

【００５２】と計算される。

【００５３】第２の段階では、適応化用発声中に含まれ
ない音素に対応するＨＭＭをスペクトル内挿と呼ぶ手法
を用いて適応化する。スペクトル内挿では、適応化用発
声中に出現しなかった音素に対応する平均ベクトルを、
出現した音素の平均ベクトルの適応化前後の差分を用い
て推定する。

【００５４】今、適応化用発声に含まれるＨＭＭの各状
態の平均ベクトルの集合を集合Ａ、含まれないＨＭＭの
各状態の平均ベクトルの集合を集合Ｂとする。まず、集
合Ａのすべての状態について適応化ベクトルΔ^Aが計算
される。適応化ベクトルは、適応化後の平均ベクトルτ
^Aと、適応化前の平均ベクトルμ^Aの差として定義され
る。次に、集合Ｂの状態の適応化ベクトルを適応化する
ために、集合Ａの状態の適応化ベクトルを内挿すること
により求める。このアルゴリズムは以下の通りである。 1. 集合Ａの状態j においては、適応化後の平均ベクト
ルτ_j ^Aはすでに求められている. 適応化ベクトルΔ_j ^Aは
以下の式で与えられる。

【００５５】

【００５６】ここで、A は状態 jが集合Ａに属すること
を示す添字である。適応化ベクトルΔ_j ^Aは集合Ａにおけ
るすべての状態について計算される。 2. 集合Ｂの状態 iに対して, 適応化ベクトルΔ_i ^Bは、
集合Ａの状態j の適応化ベクトルを内挿することにより
求める。

【００５７】

【００５８】適応化ベクトルΔ_j ^Aへの重みｗ_i ^jはμ_i ^Bと
μ_j ^Aとの距離 d_i ^jの関数として定義される。例えば、ｗ
_i ^jは以下のように定義される。

【００５９】

【００６０】ここで mは重みｗ_i ^jの距離 d_i ^jへの依存度
を表す定数である。適応化ベクトルΔ_i ^Bは集合Ｂに属す
るすべての状態について計算される。 3. 新しい話者の状態i の平均ベクトルτ_i ^Bは、次式で
与えられる。

【００６１】

【００６２】ここで、μ_I ^Bは適応化初期ＨＭＭの平均ベ
クトルである。 4. 2-3 の過程を集合Ｂのすべての状態について繰り返
す。上の手続きは、出力確率分布が混合ガウス分布であ
るＨＭＭにも、状態内の複数の成分分布を別々に扱うこ
とにより、適用することができる。第１段階のバックト
ラックにおいては、状態内の成分分布のうち、対応する
特徴ベクトルの出現確率に重み係数を乗じた値が最大に
なるものを選び、集合Ａに分類する。対応する適応化用
データのない成分分布は集合Ｂに分類される。第２段階
のスペクトル内挿は、集合Ｂの成分分布に対して行なわ
れる。すなわち、集合Ｂの成分分布の適応化ベクトル
は、すべての状態にわたる集合Ａの成分分布の適応化ベ
クトルを用いたスペクトル内挿で求められる。

【００６３】ここでは、平均ベクトルのみを適応化する
例を示したが、その他の分散、重み、遷移確率なども同
様の方式で適応化することが容易に可能である。また、
それらパラメータのうち、同時に複数のものを適応化す
ることが可能である。

【００６４】適応化後のＨＭＭは、標準パターン記憶部
６−６のそれまでのＨＭＭに代わって記憶される。この
場合、話者別にＨＭＭを記憶しておいても良いが、その
場合は認識の前処理として、使用者がＨＭＭを選択する
か、あるいは、使用者の発声を用いて自動的にＨＭＭを
選択する手段が必要になる。

【００６５】ここまで、音素を認識単位としたＨＭＭ
に対する教師あり適応化を説明したが、単語あるいは文
を認識単位とした場合にも、それぞれの単語、文に対応
したＨＭＭを作成することにより、容易に適応化でき
る。認識単位と入力発声の単位が同じ場合には( 例えば
単語単位のＨＭＭと単語発声) 、適応化初期ＨＭＭを連
結する必要はなく、そのまま尤度計算を行ない適応化す
ることができる。

【００６６】以上、従来の教師あり適応化について簡単
に説明した。

【００６７】

【発明が解決しようとする課題】上述した従来の教師あ
り適応化方式は、教師なし適応化時に比べ性能は高い。
しかし、使用者は、使用時の発声とは別に、トレーニン
グとして装置に指示された単語を発声しなければなら
ず、負担が大きいという欠点がある。

【００６８】本発明の目的は、音声認識システムの話者
適応化において、使用者に意識させずに教師あり適応化
に匹敵するような性能をもつ教師なし適応化の手法を提
供することである。

【００６９】

【課題を解決するための手段】第１の発明は、音声認識
に用いる標準パターンを入力音声パターンを用いて適応
化する話者適応化方式において、各認識候補単語を単位
とする予め定められた基準により作成された単語標準パ
ターンを保持する標準パターン記憶部と、入力音声に対
し音声分析を行ない入力パターンを作成する入力パター
ン作成部と、作成された前記入力パターンを前記標準パ
ターン記憶部における単語標準パターンを用いて単語を
認識をする認識部と、前記認識部における認識結果を出
力する認識結果出力部と、前記認識単語の表記を参照し
て予め決めれらた方法により適応化初期単語標準パター
ンを用意する適応化用標準パターン選択部と、前記適応
化初期単語標準パターンに基く前記入力パターンの尤度
計算を行ない前記尤度計算結果により求められた適応化
後単語標準パターンにより前記標準パターン記憶部にお
ける単語標準パターンを更新する教師あり適応化部とを
備えたことを特徴とする。

【００７０】第２の発明は、音声認識に用いる標準パタ
ーンを入力音声パターンを用いて適応化する話者適応化
方式において、音節，音素，などのサブワードを単位と
する予め定められた基準により作成されたサブワード標
準パターンを保持する標準パターン記憶部と、前記サブ
ワード標準パターンを用いて認識候補単語に対応する単
語標準パターンを作成する語彙パターン作成部と、入力
音声に対し音声分析を行ない入力パターンを作成する入
力パターン作成部と、作成された前記入力パターンを前
記語彙パターン作成部により作成された前記単語標準パ
ターンを用いて単語の認識をする認識部と、前記認識部
における認識結果を出力する認識結果出力部と、前記認
識単語の表記を参照して予め定めれらた方法により適応
化初期単語標準パターンを用意する適応化用標準パター
ン選択部と、前記適応化初期単語標準パターンに基く前
記入力パターンの尤度計算を行ない前記尤度計算結果に
より求められた適応化後サブワード標準パターンにより
前記標準パターン記憶部における前記サブワード標準パ
ターンを更新する教師あり適応化部とを備えたことを特
徴とする。

【００７１】第３の発明は、第１の発明および第２の発
明において、前記入力パターンを記憶する入力パターン
記憶部と、前記入力パターン記憶部における前記入力パ
ターンを入力として前記認識部と前記認識結果出力部と
前記適応化用標準パターン選択部および前記教師あり適
応化部の動作を予め決めれらた変数が予め定められた基
準値に達するまで繰り返させる繰り返し制御部を備えた
ことを特徴とする。

【００７２】第４の発明は、音声認識に用いる標準パタ
ーンを入力音声パターンを用いて適応化する話者適応化
方式において、音節，音素，などのサブワードを単位と
する予め定められた基準により作成されたサブワード標
準パターンを保持する標準パターン記憶部と、前記サブ
ワード標準パターンを用いて認識候補単語に対応する単
語標準パターンを作成する語彙パターン作成部と、入力
音声に対し音声分析を行ない入力パターンを作成する入
力パターン作成部と、作成された前記入力パターンを記
憶する入力パターン記憶部と、前記入力パターン記憶部
における前記入力パターンと前記語彙パターン作成部に
より作成された前記単語標準パターンを用いて単語の認
識をする認識部と、前記認識部における認識結果を出力
する認識結果出力部と、前記認識単語に相当する前記語
彙パターン作成部における前記単語標準パターンに基く
前記入力パターンの尤度計算を行ない前記尤度計算結果
により求められた適応化後サブワード標準パターンによ
り前記標準パターン記憶部における前記サブワード標準
パターンを更新する教師あり適応化部と前記認識部と前
記認識結果出力部および前記教師あり適応化部の動作を
予め決めれらた変数が予め定められた基準値に達するま
で繰り返させる繰り返し制御部を備えたことを特徴とす
る。

【００７３】第５の発明は、音声認識に用いる標準パタ
ーンを入力音声パターンを用いて適応化する話者適応化
方式において、音節，音素，などのサブワードを単位と
する予め定められた基準により作成されたサブワード標
準パターンを保持する標準パターン記憶部と、前記サブ
ワード標準パターンを用いて認識候補単語に対応する単
語標準パターンを作成する語彙パターン作成部と、予め
定められた方法により作成された前記認識候補単語に対
応する基本標準パターンを記憶する基本標準パターン記
憶部と、入力音声に対し音声分析を行ない入力パターン
を作成する入力パターン作成部と、作成された前記入力
パターンを記憶する入力パターン記憶部と、前記入力パ
ターン記憶部における前記入力パターンと前記語彙パタ
ーン作成部により作成された前記単語標準パターンを用
いて単語の認識をする認識部と、前記認識部における認
識結果を出力する認識結果出力部と、前記認識単語に相
当する前記基本標準パターン記憶部における前記基本標
準パターンに基く前記入力パターンの尤度計算を行ない
前記尤度計算結果により求められた適応化後サブワード
標準パターンにより前記標準パターン記憶部における前
記サブワード標準パターンを更新する教師あり適応化部
と前記認識部と前記認識結果出力部および前記教師あり
適応化部の動作を予め決めれらた変数が予め定められた
基準値に達するまで繰り返させる繰り返し制御部を備え
たことを特徴とする。

【００７４】

【実施例】次に、本発明について図面を参照して説明す
る。

【００７５】説明の前提として、後述する図１〜図５に
示す標準パターン記憶部１０１〜５０１，入力パターン
作成部１０２〜５０２，認識部１０３〜５０３，認識結
果出力部１０４〜５０４，語彙パターン作成部２０７，
３０９，４０９，５１０は、それぞれ従来技術の説明の
項で説明した標準パターン記憶部６−６，入力パターン
作成部６−２，認識部６−３，認識結果出力部６−４，
語彙パターン作成部６−５と同様であるため、本実施例
では、簡単な説明に届める。

【００７６】また、ここでの教師あり話者適応化では、
従来技術で説明した場合と同様、ＨＭＭのパラメータの
中でもっとも認識性能に影響がある、出力確率分布の平
均ベクトルのみを適応化するものとする。

【００７７】図１は、請求項１の発明に係る第１の話者
学習方式の一実施例のブロック図である。入力発声、お
よび、ＨＭＭの認識単位は、単語とする。標準パターン
記憶部１０１は各認識候補単語の単語ＨＭＭを保持す
る。単語ＨＭＭは不特定話者のＨＭＭ、あるいは、他の
話者のＨＭＭである。入力パターン作成部１０２は入力
音声に対し、音声分析を行ない入力パターンＸを作成す
る。作成された入力パターンＸは認識部１０３において
標準パターン記憶部１０１における単語ＨＭＭを用いて
認識をされ、認識結果出力部１０４から認識結果が出力
される。

【００７８】適応化用標準パターン選択部１０５は、認
識結果単語の表記を参照して適応化初期単語ＨＭＭを用
意する。適応化初期単ＨＭＭは多くの話者の発声で予め
学習された不特定話者の単語ＨＭＭ、あるいは、他の話
者の発声で学習された異話者の単語ＨＭＭであり、標準
パターン記憶部１０１の単語ＨＭＭでも良いし、それと
は別のものでもよい。

【００７９】教師あり適応化部１０６では、入力パター
ンＸおよび適応化初期単語ＨＭＭを用いた尤度計算を、
１つまたは複数の入力パターンについて行なったのち、
適応化後の平均ベクトルを計算し適応化後ＨＭＭを求め
る。教師あり適応化部の詳しい動作については従来の技
術の説明における適応化部６−９を参照されたい。教師
あり適応化部１０６より出力された適応化後ＨＭＭは、
標準パターン記憶部１０１に出力され、今までの認識Ｈ
ＭＭのかわりに記憶される。

【００８０】図２は、請求項２の発明に係る第２の話者
学習方式の一実施例のブロック図である。入力発声は単
語であるとする。標準パターン記憶部２０１は各音素の
ＨＭＭを保持する。語彙パターン作成部２０７は各音素
のＨＭＭを用いて認識候補単語に対応する単語ＨＭＭを
作成する。入力パターン作成部２０２は入力音声に対
し、音声分析を行ない入力パターンＸを作成する。作成
された入力パターンは認識部２０３において認識候補単
語の単語ＨＭＭを用いて認識をされ、認識結果出力部２
０４から認識結果が出力される。適応化用辞書作成部２
０５は、認識結果表記から適応化用辞書を作成する。

【００８１】教師あり適応化部２０６では、まず、適応
化用辞書を用いて適応化初期音素ＨＭＭを連結して適応
化初期単語ＨＭＭを作成する。適応化初期音素ＨＭＭ
は、標準パターン記憶部２０１にある音素ＨＭＭでも良
いし、別の音素ＨＭＭでも良い。次に、作成された適応
化初期単語ＨＭＭと入力パターンを用いて尤度計算を、
１つまたは複数の入力パターンについて行なったのち、
適応化後の平均ベクトルを計算し適応化後ＨＭＭを求め
る。適応化されたＨＭＭは、標準パターン記憶部２０１
に出力され、今までの認識ＨＭＭのかわりに記憶され
る。

【００８２】図３は、請求項３の発明に係る第３の話者
学習方式の一実施例のブロック図である。第２の実施例
と異なる点は、繰り返し制御部３０８が制御することに
より適応化が繰り返し行なわれる点である。教師あり適
応化部３０６の適応化により作成された適応化後ＨＭＭ
は、認識に用いた認識ＨＭＭに比べ、使用者の発声に対
し一般により高い認識性能を示す。したがって、この適
応化後ＨＭＭを用いて、もう一回入力パターンを認識す
れば、さらに良好な認識率を示すと考えられる。そし
て、その認識結果を用いて作成した適応化用辞書を用い
て適応化すればさらに認識性能の高い適応化後ＨＭＭが
作成される可能性がある。認識・適応化の繰り返しの際
には、繰り返し毎に入力パターンを作成する計算を省く
ために、最初の適応化の際に入力パターンを入力パター
ン記憶部３０７に記憶しておき、２回目以降の繰り返し
においては、入力パターンは、入力パターン記憶部３０
７から出力されるものを用いる。繰り返し回数は、予め
決めておくか、あるいは、繰り返しごとに認識部３０３
における認識結果単語に対応する認識結果尤度を記憶し
ておき、前回の繰り返しにおける尤度と比較して尤度が
飽和したかどうかを判定し、飽和したら繰り返しをとめ
るなどの方法で決める。この繰り返し手段３０８は、第
１の実施例に対しても同様に適用でき、また、音素が認
識単位の場合でも、単語や文などの入力発声と同じ認識
単位の場合でも、同様に適用可能である。

【００８３】図４は、請求項４の発明に係る第４の話者
学習方式の一実施例のブロック図である。第４の話者学
習方式では、第３の話者学習方式において、適応化初期
音素ＨＭＭとして、標準パターン記憶部に記憶された音
素ＨＭＭを用いる。繰り返しを行なうことにより、標準
パターン記憶部に記憶された音素ＨＭＭはすでに使用者
にある程度適応しているため、それを適応化の初期モデ
ルとして用いることにより、適応化が速やかに行なわれ
る。すなわち、認識・適応化の繰り返しの回数が減少す
る効果がある。また、この方式は、認識単位が単語であ
っても容易に適用可能である。

【００８４】図５は、請求項５の発明に係る第５の話者
学習方式の一実施例のブロック図である。第５の話者学
習方式では、第３の話者学習方式において、適応化初期
ＨＭＭとして、基本標準パターン記憶部５０９に記憶さ
れた音素ＨＭＭを用いる。基本標準パターンは、予め多
数の話者の発声により学習された不特定話者ＨＭＭや、
他の使用者の発声により学習された異話者ＨＭＭを用い
る。この基本標準パターンは、繰り返しにより更新され
ることはない。第４の話者適応化方式では、前の繰り返
しにおける適応化後ＨＭＭを適応化初期ＨＭＭとしてい
るが、適応化が迅速に行なわれる反面、認識の際、誤認
識があると、それが、適応化の性能に与える影響がより
大きくなるという問題点がある。しかし、この第５の話
者適応化方式では、適応化において前ループから得る情
報は、教師となる適応化用辞書のみとなり、第４の話者
適応化方式に比べ、繰り返しの回数は多くかかるものの
誤認識の度合が少ないと考えられる。また、この方式
は、認識単位が単語であっても容易に適用可能である。

【００８５】以上述べた実施例は、いずれも図６に示す
従来の装置を拡張変更することによって達成することが
できるという特徴を有する。

【００８６】なお、ここでは、認識対象として単語を例
にあげたが、文、あるいは、会話発声においても同様な
手段で適応化可能である。また、認識方式としてＨＭＭ
を例にあげて説明したが、他の認識方式、例えば、NN、
DPマッチングなどの認識方式においても、認識・適応化
部は同様の手法を用いて構成できる。また、適応化手段
として、特願平2-203437の方式に基づく方式について説
明したが、他の教師あり適応化方式を用いても構成可能
である。さらに、認識・適応化手段において、認識単位
として、音素を例にとりあげたが、音素以外の、音節、
半音節など他の認識単位の場合も、本方式は容易に適用
可能である。

【００８７】以下に上述した第２の話者適応化方式の評
価実験の結果を述べる。評価実験は半音節を認識単位と
した混合ガウス分布ＨＭＭを用い、類似５０００単語認
識を行なった。ここで、ＨＭＭの混合ガウス分布数は２
とし、多数話者のデータとして、男性４６名女性３９名
計８５名の音素バランスを考慮した２５０単語１回発声
を用いた。また、評価話者として上の85名に含まれない
男性３名、女性４名計７名を用い、適応化用データ、お
よび、評価用データとしてそれぞれ、学習時とは異なる
語彙２５０単語１回発声を用いた。適応化用、評価用の
データの語彙はお互いに異なっている。分析条件は、サ
ンプリング周波数１６ kHz、帯域０．１−７．２ kHz、
フレーム間隔１０ｍｓで、メルケプストラム分析を用い
た。特徴ベクトルは正規化パワー差分、メルケプストラ
ム１０次元、メルケプストラムの変化量１０次元の計２
１次元である。また、適応化の初期ＨＭＭは話者８５名
の発声データを用いて学習した不特定話者モデルを用い
た。

【００８８】離散５０００単語を適応化の認識対象とし
た場合について教師なし適応化の評価実験を行なった結
果、性能が大幅に向上し、話者７名平均で不特定話者認
識率８４．５％のところ、適応化単語数２５０単語で教
師なし適応化後の認識率９１．３％と誤りが半分近く減
少している。また、教師あり適応化と比べても、各々の
適応化用単語数において、１〜２％低いに過ぎない。

【００８９】

【発明の効果】以上説明したように、本発明により、音
声認識装置を使用者が意識することなしに使用者に適応
させ、高い認識性能を得ることが可能になり、同時に使
用者の負担が軽減されユーザーインターフェースが向上
し、さらに、すでに教師あり適応化システムが存在して
いる場合、それを利用することによりわずかな手間で教
師なし適応化システムを構築可能になるという効果があ
る。

【図面の簡単な説明】

【図１】本発明の第１の実施例を示すブロック図であ
る。

【図２】本発明の第２の実施例を示すブロック図であ
る。

【図３】本発明の第３の実施例を示すブロック図であ
る。

【図４】本発明の第４の実施例を示すブロック図であ
る。

【図５】本発明の第５の実施例を示すブロック図であ
る。

【図６】従来技術の実施例を示すブロック図である。

【符号の説明】

１０１標準パターン記憶部１０２入力パターン作成部１０３認識部１０４認識結果出力部１０５適応化用標準パターン選択部１０６教師あり適応化部２０１標準パターン記憶部２０２入力パターン作成部２０３認識部２０４認識結果出力部２０５適応化用辞書作成部２０６教師あり適応化部２０７語彙パターン作成部３０１標準パターン記憶部３０２入力パターン作成部３０３認識部３０４認識結果出力部３０５適応化用辞書作成部３０６教師あり適応化部３０７入力パターン記憶部３０８繰り返し制御部３０９語彙パターン作成部４０１標準パターン記憶部４０２入力パターン作成部４０３認識部４０４認識結果出力部４０５適応化用辞書作成部４０６教師あり適応化部４０７入力パターン記憶部４０８繰り返し制御部４０９語彙パターン作成部５０１標準パターン記憶部５０２入力パターン作成部５０３認識部５０４認識結果出力部５０５適応化用辞書作成部５０６教師あり適応化部５０７入力パターン記憶部５０８繰り返し制御部５０９基本標準パターン記憶部５１０語彙パターン作成部６−１音声認識装置６−２入力パターン作成部６−３認識部６−４認識結果出力部６−５語彙パターン作成部６−６標準パターン記憶部６−７適応化用辞書作成部６−８入力パターン作成部６−９適応化部６−１０語彙パターン作成部６−１１適応化初期標準パターン記憶部

Claims

【特許請求の範囲】

【請求項１】音声認識に用いる標準パターンを入力音
声パターンを用いて適応化する話者適応化方式におい
て、各認識候補単語を単位とする予め定められた基準に
より作成された単語標準パターンを保持する標準パター
ン記憶部と、入力音声に対し音声分析を行ない入力パタ
ーンを作成する入力パターン作成部と、作成された前記
入力パターンを前記標準パターン記憶部における単語標
準パターンを用いて単語を認識をする認識部と、前記認
識部における認識結果を出力する認識結果出力部と、前
記認識単語の表記を参照して予め決めれらた方法により
適応化初期単語標準パターンを用意する適応化用標準パ
ターン選択部と、前記適応化初期単語標準パターンに基
く前記入力パターンの尤度計算を行ない前記尤度計算結
果により求められた適応化後単語標準パターンにより前
記標準パターン記憶部における単語標準パターンを更新
する教師あり適応化部とを備えたことを特徴とする話者
適応化方式。
【請求項２】音声認識に用いる標準パターンを入力音
声パターンを用いて適応化する話者適応化方式におい
て、音節，音素，などのサブワードを単位とする予め定
められた基準により作成されたサブワード標準パターン
を保持する標準パターン記憶部と、前記サブワード標準
パターンを用いて認識候補単語に対応する単語標準パタ
ーンを作成する語彙パターン作成部と、入力音声に対し
音声分析を行ない入力パターンを作成する入力パターン
作成部と、作成された前記入力パターンを前記語彙パタ
ーン作成部により作成された前記単語標準パターンを用
いて単語の認識をする認識部と、前記認識部における認
識結果を出力する認識結果出力部と、前記認識単語の表
記を参照して予め定めれらた方法により適応化初期単語
標準パターンを用意する適応化用標準パターン選択部
と、前記適応化初期単語標準パターンに基く前記入力パ
ターンの尤度計算を行ない前記尤度計算結果により求め
られた適応化後サブワード標準パターンにより前記標準
パターン記憶部における前記サブワード標準パターンを
更新する教師あり適応化部とを備えたことを特徴とする
話者適応化方式。
【請求項３】前記入力パターンを記憶する入力パター
ン記憶部と、前記入力パターン記憶部における前記入力
パターンを入力として前記認識部と前記認識結果出力部
と前記適応化用標準パターン選択部および前記教師あり
適応化部の動作を予め決めれらた変数が予め定められた
基準値に達するまで繰り返させる繰り返し制御部を備え
たことを特徴とする請求項１記載および請求項２記載の
話者適応化方式。
【請求項４】音声認識に用いる標準パターンを入力音
声パターンを用いて適応化する話者適応化方式におい
て、音節，音素，などのサブワードを単位とする予め定
められた基準により作成されたサブワード標準パターン
を保持する標準パターン記憶部と、前記サブワード標準
パターンを用いて認識候補単語に対応する単語標準パタ
ーンを作成する語彙パターン作成部と、入力音声に対し
音声分析を行ない入力パターンを作成する入力パターン
作成部と、作成された前記入力パターンを記憶する入力
パターン記憶部と、前記入力パターン記憶部における前
記入力パターンと前記語彙パターン作成部により作成さ
れた前記単語標準パターンを用いて単語の認識をする認
識部と、前記認識部における認識結果を出力する認識結
果出力部と、前記認識単語に相当する前記語彙パターン
作成部における前記単語標準パターンに基く前記入力パ
ターンの尤度計算を行ない前記尤度計算結果により求め
られた適応化後サブワード標準パターンにより前記標準
パターン記憶部における前記サブワード標準パターンを
更新する教師あり適応化部と前記認識部と前記認識結果
出力部および前記教師あり適応化部の動作を予め決めれ
らた変数が予め定められた基準値に達するまで繰り返さ
せる繰り返し制御部を備えたことを特徴とする話者適応
化方式。
【請求項５】音声認識に用いる標準パターンを入力音
声パターンを用いて適応化する話者適応化方式におい
て、音節，音素，などのサブワードを単位とする予め定
められた基準により作成されたサブワード標準パターン
を保持する標準パターン記憶部と、前記サブワード標準
パターンを用いて認識候補単語に対応する単語標準パタ
ーンを作成する語彙パターン作成部と、予め定められた
方法により作成された前記認識候補単語に対応する基本
標準パターンを記憶する基本標準パターン記憶部と、入
力音声に対し音声分析を行ない入力パターンを作成する
入力パターン作成部と、作成された前記入力パターンを
記憶する入力パターン記憶部と、前記入力パターン記憶
部における前記入力パターンと前記語彙パターン作成部
により作成された前記単語標準パターンを用いて単語の
認識をする認識部と、前記認識部における認識結果を出
力する認識結果出力部と、前記認識単語に相当する前記
基本標準パターン記憶部における前記基本標準パターン
に基く前記入力パターンの尤度計算を行ない前記尤度計
算結果により求められた適応化後サブワード標準パター
ンにより前記標準パターン記憶部における前記サブワー
ド標準パターンを更新する教師あり適応化部と前記認識
部と前記認識結果出力部および前記教師あり適応化部の
動作を予め決めれらた変数が予め定められた基準値に達
するまで繰り返させる繰り返し制御部を備えたことを特
徴とする話者適応化方式。