JPH01161399A

JPH01161399A - 音声認識装置における話者適応化方法

Info

Publication number: JPH01161399A
Application number: JP62320459A
Authority: JP
Inventors: Akihiro Imamura; 明弘今村; Ryohei Nakatsu; 良平中津
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1987-12-18
Filing date: 1987-12-18
Publication date: 1989-06-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】「産業上の利用分野」この発明は音声認識装置における認識用の標準パターン
を利用者の音声に適応させる話者適応化方法に関するも
のである。

「従来の技術」音声認識技術は近年急速に進歩し、人間にとりて特別な
訓練を必要としない情報Δ力手段の一つとして実用化さ
れはじめている。しかし利用者を゛特定しない不特定話
者型の音声認識を高精旋で可能とするためには、音声の
個人差に充分対処できる方式が必要であり、現状の技術
の中でこれを完全に克服できるものは、まだ確立されて
いナイ。

このような音声の個人差に対処する一つの方法として、
認識装置に組み込まれる標準パターンを利用者の音声に
適応させようとする研究が行われている。例えば「日本
音響学会音声研究会資料５８３−２１（１９８３年６月
）（：掲載されている論文“多数話者単語背戸認識にお
ける話者適応化の検討”」（以下、文献〔１〕と称する
）では、１０００単語の語檗に対して標準パターン構成
用として２０名の話者を用意し、この２０名それぞれの
パターンを標準パターンとして利用者が発声した上記語
案中の１００語の認識を行い、その結果認識率が最高と
なる標準パターン構成用の話者を１名あるいは複数名選
択して、利用者に適応化された標準パターンを作成して
いる。

また別の例「日本音響学会講演論文集１−５−１４（１
−５−１４（Ｐａ、１９８７年３月）に掲載されている
論文１多数話者単語音声認識におけるパターンセットを
用いた学習適応化手法”Ｊ（１２Ｌ下、文献〔２〕と称
する）では、いくつかにグループ分けされた学習用話者
セットに対して認識率が最高となるように最適化された
複数個の標準パターンセットを予め用意しておき、利用
者の発声における母音などの特徴が最も類似している学
習用話者セットに対応する標準パターンセットを利用者
に適応化された標準パターンとしている。

「発明が解決しようとする問題点」ところで、文献で１〕の方法は、利用者に適応化された
標準パターンの選択時に認識率を評価基準として使用し
ている。このため統計的に有意な認識率を得るため（二
は、入力に対する正解の情報と充分な数の学習データが
必要となる。従りて適応化が充分（：行われるまでには
多くの入力と計算量を必要とし、利用者の負担も大きい
という問題点がある。また文献〔２〕の方法では、予め
用意されたいくつかの話者セットに対する最適な標準パ
ターンセット、を、認識時には直接的に使用されない母
音の類似性などの評価基準によって未知の利用者に割り
当てている。このため未知の利用者に対して得られた標
準パターンセットが最適であるとは必ずしも保証されな
いという欠点がある＠さら（二イスれの未知の利用者に
対しても有効であ６ような予め用意するべき話者セット
の決定も容易ではない。

この発明は上記文献［”ｌ：ｌ　、　［”２］に代表さ
れる従来の方法が持つ問題点を解消し、未知の利用者に
対して少ない学習データ数及び計算量で最適な標準パタ
ーンセットを構成し、良好な認識性能を発揮することが
可能な音声認識装置における話者適応化方法を提供する
ことを目的とする。

「問題点を解決するための手段」この発明による音声認識装置における話者適応化方法は
、全認識対象語実に対応する複数話者の発声パターンを
初期標準パターンセットとして予め用意しておき、利用
者が上記語粟ζ；属するいずれかの単語を発声入力する
のを受けて、上記初期標準パターンセットのうち入力さ
れた単語カテゴリに属する全パターンと入カバターンと
の距離を算出し、この算出された距離が小さいパターン
から順にいくつかを初期標準パターンセットの中から選
択すること、あるいは上記のように選択されたパターン
セットに未知の利用者自身の発声入カバターンを付加す
ることにより未知の利用者に対する標準パターンセット
を作成し、音声認識を行うことを特徴とする。

「作　用」このようにして作成された未知の利用者Ｃ：対する標準
パターンセットでは、利用者の各発声入力に対して正解
となる単語カテゴリにおいて、利用者のパターン（；近
接するパターンのみが存在し、初期標準パターンセット
内で正解単語のカテゴリ内に存在しても利用者の発声か
ら大きな距離にあり、むしろ他の単語の認識時に誤認識
を発生させるようなパターンは排除されることになる。

このような作用により、この発明による音声認識装置に
おける話者適応化方法によって作成された標準パターン
セットでは、初期標準パターンセットをそのまま用いる
よりも誤認識を低減でき、高い話者適応効果を発揮する
ことが可能である。

「実施例」以下、この発明の実施例を図面を参照しながら説明する
。

第１因はこの発明のｆＪｌｌの実施例を示すブロック図
である。この図において１は音声入力部、２は音声分析
部、３は第１距離計算部、４は認識判定部、５は認識結
果出力部、６は学習内容表示部、７は適応化標準パター
ン記憶部、８は初期標準パターン記憶部、９は適応化標
準パターン選択部、１０は学習内容発生部、１１は第２
距離計算部である。ここでは認識対像としてＮ単語の語
粟な考え、それぞれ番号ｎ’Ｊｚ付ける。

認識対象語ｔ：Ｗ＝　（ｎｌｎ＝１．２．−−−ＪＪ）
初期標準パターン記憶部８（＝は上記語粟の音声パター
ンがＭ大分記憶されているものとし、これらの初期標準
パターン発声者に番号ｍを付ける。

初期標準パターン発声者：　Ｉｎ　＝１　ｍ　２　ｍ・
・・０Ｍまたｍ番の人が発声したｎ番の単語に相当する
初期標準パターン記憶部８内の音声パターンをＳ（ｎ　
、ｍ）と表す。各音声パターンＳ（ｎ、ｍ）は、音声分
析部２で行われる音声の特徴抽出の結果と同様に特徴ベ
クトルの時系列として表現される。

第１距離計算部３と第２距離計算部１１におけるパター
ン間距離の計算処理には、公知のＤＰマツチング法を用
いるのが有効である。例えば「Ｉ　　Ｅ　　Ｅ　　Ｅ　
　　　Ｔｒａｎｓａｃｔｉｏｎｓ　　ｏｎ　　Ａｃｏｕ
ｓｔｉｃｓ　　、５ｐｅｅｃｈａｎｄ　Ｓｉｇｎａｌ　
Ｐｒｏｃｅｓｓｉｎｇ　、　ＶＯｌ、ＡＳ　５ｐ−２６
、ＮＯ，１。

ｐａｇｅ　４３−４９．Ｆｅｂ、、　１９７８に掲載さ
れている論文”　Ｄｙｎａｍｉｃ　Ｐｒｏｇｒａｍｍｉ
ｎｇ　ＡｌｇｏｒｉｔｈｍＯＩ）ｔｉｍｉＺａｔｉｏｎ
ｆｏｒ　５ｐｏｋｅｎ　Ｗｏｒｄ　Ｒｅｃｏｇｎｉｔｉ
ｏｎ　’　Ｊ　に掲載されている方式が一例として考え
られる。

適応化ＩＰＩ孕パターン選択部９で選択するパターンの
数は、ここでは各単語あたりＬ個として説明する。この
各単語で選択するパターンの数は、本実施例のようＣ二
すべての単語で同一の数である必要はなく単語ごとに設
定してもよい。本実施例の動作は適応化学習モードと認
識モードに分かれている。適応化学習モードでの動作は
以下の通りである。

まず学習内容発生部１０により□てＮ単語の認゛識対象
語案の中から１個の単語ｎ、が決定され、利用者には学
習内容表示部６を通して単語ｎ１の発声指示が行われる
。これを受けて利用者が指示された徴ベクトルの時系列
である音声パターンｖ０１に変換される。

次に第２距離計算部１１では入力された音声パターンＶ
。１と初期標準パターン記憶部８内で０１番の単語に属
する全音声パターンＳ（ｎｌ−ｍ）とのパターン間距離
Ｄ（’１−ｒｎ）（但し、”　＝１　ｍ　２　ｍ・・・
、Ｍ）を算出する。　　　　− 適応化標準パターン選択部９では、距離１）（ｎ、。

ｍ）が最小であるもの、すなわち入力された利用者の音
声パターンｖｎ１に最も近いものから順に数えた時、ｋ
番目に位置する初期標準パターン発声者番号を示す近接
話者テーブルＴ（’１＝ｋ）（但し、ｋ＝１．２．・・
・、Ｍ）を作成し、次に単語番号が１１で発声者番号が
Ｔ（’ｒ、’）（但°し、ｉ＝ｔ＊２．・・・、Ｌ）で
ある音声パターン、合計り個を初期標準パターン記憶部
８から選択するように適応化標準パターン記憶部７に指
示する。

適応化標準パターン記憶部７には、認識モード時に使用
する各単、％Ｈの音声パターンｐ（ｎ、ｉ）が記憶され
るが、学習発声が一つも入力されていない場合、ｐ（ｎ
、ｉ）は初期標準パターン記憶部８内の全音声パターン
Ｓ（ｎ、ｉ）と一致している。

Ｐ　　（ｎ、１）＝Ｓ（ｎ、ｉ）但し、’＝１．２ｓ”
”ｓＮ’　”　１　ａ　２　＊・・・０Ｍ学習が開始されて適応化標準パターン選択部９から上記
のような指示が出されると、適応化標準パターン記憶部
７は単語番号ｎ８に属する音声パターンのうち指示され
た発声者番号Ｔ（ｎｌ−ｉ）（但し、ｉ　”　１　ｓ　
２　ｍ・・・、Ｌ）を持つものだけを初期標準パターン
記憶部８から抽出し、それまで適応化標準パターン記憶
部７内で０１番の単語用として記憶していた音声パター
ンのセットと置き換え、記憶する。

Ｐ（ｎｓ−’）＝Ｓ（’ｔ　、Ｔ（’１．ｉ））但し、
’　＝１６２　ｍ・・・、Ｉ、　　　（４）Ｐ（’１−
’）”削除但し、ｉ＝ｒ、＋１．Ｌ＋２．・・・１Ｍ以上の動作に
より、適応化標準パターン記憶部７内の音声パターンセ
ットは利用者が発声した単語ｎ１に適応化されたことに
なり、単語ｎｌに対する適応化学習処理が完了する。異
なる単語に対してもこの適応化学習処理を引続き行い、
全単語Ｎ個の適応化学習処理が完了した時点で適応化学
習モードが終了する。

次に認識モードでの動作について説明する。適応化学習
モードから認識モードへの移行は１．全単語に対する学
習が完了した時点、一部の単語に対する学習が完了した
時点のいずれでも可能である。

利用者の音声は、適応化学習モード時と同様に音声入力
部１に入力され、次に音声分析部２で特徴ベクトルの時
系列である音声パターンＸに変換される。

次に第１距離計算部３では適応化標準パターン記憶部７
に記憶されている各単語ｎに属する全音声パターンＰ（
ｎ、ｉ）と音声パターンＸとのパターン間距離Ｄ（ｎ、
ｉ）（但し、’　”　１−２　＃・・・、Ｎ、学習が完
了した単語：ｉ＝Ｘ、Ｚ。

・・・、Ｌ、学習が完了していない単語：　ｉ　、”　
１　＋２、・・・、Ｍ）を算出する。

認識判定部４では、第１距離計算部３で得られた距離］
）（ｎ、ｉ）を単語間で相互比較し、最小の距離値（二
対応する単語０＝ｎ°を決定し、認識結果出力部５へ認
識結果として出力する。

以上の適応化学習モード及び認識モー゛ドの動作により
、第１の実施例では未知の利用者に対して少ない学習用
データ数及び計算量で最適な標準パターンセットを構成
し、良好な認識性能を発揮することが可能な音声認識装
置（二おける話者適応化を行うことができる。

第２図はこの発明の第２の実施例を示すプロツク図であ
る。この図において１から１１までの構成要素は第１の
実施例と同じであるが、この実施例では適応化標準パタ
ーン選択部９を近接話者選択部１２と距離情報蓄積部１
３とで構成している。

ここでは認識対象としてＮ単語の搭集を考え、そ：れぞ
れ番号ｎを付ける。

認識対象搭集：Ｗ＝　（ｎｌｎ＝１．２ｍ・・・、Ｎ）
初ＩＶＩ準パターン記憶部８（二は上記語集の音声パタ
ーンがＭ大分記憶されているものとし、これらの初期標
準パターン発声者：：番号ｍを付ける。

初期標準パターン発声者：　ｍ”　１　＃　２　＊・・
・１Ｍまたｍ番の人が発声した０番の単語に相当する初
期標準パターン記憶部８内の音声パターン″Ｉｈ：ｓ（
ｎ　、ｍ）と表す。各音声パターン３（ｎ、ｍ）は音声
分析部２で行われる音声の特徴抽出の結果と同様（二特
徴ベクトルの時系列として表現される。

適応化標準パターン選択部９で選択するパターンの数は
、ここでは各単語あたりＬ個として説明する。この各単
語で選択するパターンの数は、本実施例のよう（二すべ
ての単語で同一の数である必要はなく単語ごとに設定し
てもよい。

本実施例の動作は適応化学習モードと認識モードに分か
れている。適応化学習モードでの動作は以下の通りであ
る。

まず学習内容発生部１０によってＮ単語の認識対象搭集
の中から１個の単語ｎ１が決定され、利用者には学習内
容表示部６を通して単語ｎｌの発声指示が行われる。こ
れを受けて利用者が指示された単語ｎ１を発声し、音声
入力部１へ入力すると、入力された音声は音声分析部２
によりて特徴抽出され、特徴ベクトルの時系列である音
声パターンＶ、　ｔに変換される。

次に第２距離計算部１１では入力された音声パターンｖ
ｎｔと初期標準パターン記憶部８内でｎ１番の単語に属
する全音声パターン５（ｎｌ、ｍ）とのパターン間距離
Ｄ（ｎｔ−”）（但し、ｍ＝１．２゜・・・、Ｍ）な算
出する。

この算出されたパターン間距離］）（ｎ、、ｍ）は、距
離情報蓄積部１３に送られ、距離Ｄ（ｎｌ、ｍ）が最小
であるもの、すなわち入力された利用者の音声パターン
Ｖ。１に最も近いものから順に数えた時、各初期標準パ
ターン発声者ｍが第何番目に位置するかを示す近接順位
値Ｕ□（’ｔｏ”）（但し、ｍ＝１．２．・・・、Ｍ）
に変換され蓄積される。

これ以降この実施例では、すでに学習音声の入力がｊ個
の単語（単語番号が０１からｎｊ、但し、ｊは１からＮ
のいずれかである）について行われており、距離情報蓄
積部１３にはｊ個の単語分の近接順位値Ｕｏ（ｎｔ−ｍ
）（但し、’　”　１　ｍ　２　＋　”・・＊　Ｊ　、
”　”　１　ｓ　２　＊・・・、Ｍ）が蓄積されている
とする。

近接話者選択部１２では、すでに学習音声の入力が行わ
れているｊ個の単語分の近接順位値Ｕ。

（ｎｌ、ｍ）において発声者ｍごとに各単語を通して総
和をとった各発声者ｍの総合近接順位値Ｕ（ｍを算出す
る。

次にこの総合近接順位値Ｕ　（ｍ）が最小であるもの、
すなわち入力されたｊ個の単語を通して考えた時に利用
者の音声パ多−ンに最も近いものから順に数えた時、ｋ
番目に位置する初期標準パターン発声者番号を示す近接
話者テーブルＴ　（ｋ）　（但し、ｋ＝１．２．・・・
、Ｍ）を作成し、次に入力済みのｊ個の単語（単語番号
が０１からｎｊ）で発声者番号がＴ（ｉ）（但し、’　
＝１　＊　２　＃・・・。

Ｌ）である音声パターン、各単語につき合計り個を初期
標準パターン記憶部８から選択するように適応化標準パ
ターン記憶部７に指示する。

適応化標準パターン記憶部７には、認識モード時に使用
する各単語ｎの音声パターンｐ（ｎ、ｉ）が記憶される
が、学習発声が一つも入力されていない場合、Ｐ（ｎ、
ｉ）は初期標準パターン記憶部８内の全音声パターンｓ
＜ｎ＝＞と一致している。

ｐ（ｎ、す＝Ｓ（ｎ、ｉ）　　但し、’　＝　１　ｍ　
２　ｍ　”　”　’　＊　Ｎｉ”　１　＃　２　ｍ・・
・、Ｍ学習が開始されて適応化標準パターン選択部９から上記
のような指示が出されると、適応化標準パターン記憶部
７は入力され起ｊ個の単語（単語番号ｎ１から口・）そ
れぞれ（二属する音声パターンのうち指示された発声者
番号Ｔ　（ｉ）　（但し、ｉ＝１．２．・・・、Ｌ）を
持つものだけを初期標準パターン記憶部８から抽出し、
それまで適応化標準パターン記憶部７内で１１から（１
３番の単語用として記憶していた音声パターンのセット
と置き換え記憶する。

Ｐ（ｎｋ、１）＝Ｓ（ｎｋ、Ｔ（ｉ））但し、ｋ＝１．
２．・・・、ｊ、１＝１ｅｌ・・・、Ｌ、１（１０）Ｐ
（ｎｋ、ｉ）：削除　但し、ｋ＝ｘ、ｚ、−−−、ｊ、
ｉ＝Ｌ＋１．Ｌ＋２．・・・、　Ｍ　　　　　　　　（
１１）以上の動作により、適応化標準パターン記憶部７
内の音声パターンセットは利用者が発声したｊ個の単語
ｎ１からｎｊに適応化されたことになり、ｊ個の単語に
対する適応化学習処理が完了する。

残りの単語に対してもこの適応化学習処理を引続き行い
、全単語Ｎ個の適応化学習処理が完了した時点で適応化
学習モードが終了する。認識モードの動作は第１の実施
例の場合と同様である。

以上の適応化学習モード及び認識モードの動作（＝より
、第２の実施例では未知の利用者に対して少ない学習用
データ数及び計算量で最適な標準パターンセットを構成
し、良好な認識性能を発揮することが可能な音声認識装
置におけ、る話者適応化を行うことができる。

本実施例では、適応化モードから認識モードへ移行する
際、学習が完了していない単語については初期標準パタ
ーン記憶部８内の音声パターンすべてを使用することと
なりでいるが、これｔ学習済みの単語で得られたものと
同一の話者：　Ｔ　（ｉ）（但し、ｉ＝ｘ　、　２　、
・”・・、Ｌ）が発声した音声パターンを学習が完了し
ていない単語からも選択することとし、認識モードに移
行してもよい。

輌３図はこの発明の第３の実施例を示すブロック−であ
る。この図において１から１１までの構成要素は第１の
実施例と同じであり、学習音声蓄積部１４が更に設けら
れている。

ここでは認識対象としてＮ単語の搭集な考え、それぞれ
番号ｎを付ける。

認識対象語案：Ｗ＝　（ｎｌｎ＝１．２．−−−、Ｎ）
初期標準パターン記憶部８には上記搭集の音声パターン
がＭ大分記憶されているものとし、これらの初期標準パ
ターン発声者に番号ｍを付ける。

初期標準パターン発声者：ｍ＝１．２．・・・９Ｍまた
ｍ番の人が発声した０番の単語に相当する初期標準パタ
ーン記憶部８内の音声パターンをＳ（ｎ　、ｍ）と表す
。各音声パタニンＳ（ｎ、ｍ）は、音声分析部２で行わ
れる音声の特徴抽出の結果と同様に特徴ベクトルの時系
列として表現される。

適応化標準パターン選択部９で選択するパターンの数は
、ここでは各単語あたりＬ＋１個として説明する。この
各単語で選択するパターンの数は、本実施例のようＣ二
すべての単語で同一の数である必要はなく単語ごとに設
定してもよい。本実施例の動作は適応化学習モードと認
識モードに分かれている。適応化学習モードでの動作は
以下の通りである。

まず学習内容発生部１０１ｍよってＮ単語の認識対象語
承の中から１個の単語ｎ１が決定され、利用者には学習
内容表示部６を通して単語ｎ１の発声指示が行われる。

これを受けて利用者が指示された単語ｎ１を発声し、音
声入力部１へ入力すると、入力された音声は音声分析部
２によって特徴抽出され、特徴ベクトルの時系列である
音声パターンｖｏ１に変換される。

得られた音声パターンＶ。１は学習音声蓄積部１４に単
語ｎ１のパターンとして、蓄積される。

一方、第２距離計算部１１では入力された音声パターン
Ｖ。１と初期標準パターン記憶部８内で０１番の単語に
属する全音声パターンＳ（ｎｌｊｍ）とのパターン間距
離Ｄ（’１−”）（但し、ｍ＝１゜２、・・・、Ｍ）を
算出する。

適応化標準パターン選択部９では、距離ｐ（ｎｌ。

ｍ）が最小であるもの、すなわち入力された利用者の音
声パターンＶ。１に最も近いものから順に数えた時、ｋ
番目に位置する初期標準パターン発声者番号を示す近接
話、者テーブルＴ（ｎｌ、ｋ）（但し、ｋ＝１　、２　
、・・・１Ｍ）、を作成し、次に単語番号が０１で発声
者番号がＴ　（ｎｔｏ、ｉ）（但し、ｎ＝１．ｚ、・・
・、Ｌ）である音声パターン、合計Ｌｍを初期標塾パタ
ーン記憶部８から選択するように適応化標準パターン記
憶部７に指示する。

適応化標桑パターン記憶部７には、認識モード時に使用
する各単語０の音声パターンＰ　（ｎ、ｉ）が記憶され
るが、学習発声が一つも入力されていない場合、ｐ（ｎ
、ｉ）は初期標準パターン記憶部８内の全音声パターン
Ｓ（ｎ、ｉ）と一致している。　　　　。

Ｐ（ｎ、１）＝Ｓ（ｎ、ｉ）但し、ｎ＝１１２１−−−
ＩＮｊ　”　ｌ　ｓ　２　＋・・・０Ｍ学習が開始されて適応化漂賭パターン選択部９から上記
のような指示が出されると、適応化標準パターン記憶部
７は単語番号ｎ１に属する音声パターンのうち指示され
た発声者番号Ｔ　（ｎｌ−ｉ）（但し、ｎ＝１．２　、
・・・、Ｌ）’＆持つものだけを初期標塾パターン記憶
部８から抽出し、また学習音声蓄積部１４からは先に蓄
積した音声パターンＶ旧を抽出し、これらを合わせてそ
れまで適応化標塾パターン記憶部７内で０１番の単語用
として記憶していた音声パターンのセットと置キ換工記
憶する。

Ｐ（’ｓ、−’）＝Ｓ（’ｔ　−Ｔ（’ｔ　−ｉ））但
し、ｎ＝１＊２ｓ　・・・、　Ｌ　　　　　　　　　　
　（１５）Ｐ（ｎ、　、　Ｌ＋１　）＝Ｖｏ、　　　　
　　　　　　　（１６）Ｐ（’１＝ｉ）：削除但し、ｎ＝Ｌ＋２．ｔ、＋３．・・・、　Ｍ　　　　　
　　（１７）以上の動作により、適応化標準パターン記
憶部７、内の音声パターンセットは利用者の発声した単
語ｎ１に適応化されたことになり、単語ｎ１に対する適
応化学習処理が完了する。異なる単語に対してもこの適
応化学習処理を引続き行い、全単語Ｎ個の適応化学習処
理が完了した時点で適応化学習モードが終了する。

次に認識モードでの動作について説明する。適応化学習
モードから認識モードへの移行は、全単語に対する学習
が完了した時点、一部の単語に対する学習が完了した時
点のいずれでも可能である。

利用者の音声は、適応化学習モード時と同様（二音声入
力部１に入力され、次に音声分析部２で特徴ベクトルの
時系列である音声パターンＸに変換される。

次に第１距離計算部３では適応化標準パターン記憶部７
に記憶されている各単語ｎ（：属する全音声パターンｐ
（ｎ、ｉ）と音声パターンＸとのパターン間距離Ｄ（ｎ
、ｉ）（但し、ｎ＝１．２゜・・・、Ｎ、学習が完了し
た単語：ｎ＝ｘ、２゜・・・、Ｌ＋１、学習が完了して
いない単語：ｎ＝１．２．・・・、Ｍ）を算出する。

認識判定部４では、第１距離計算部３で得られた距離１
）（ｎ、ｉ）を単語間、で相互比較し、最小の距離値シ
一対応する単語ｎ　＝　ｎ’を決定し、認識結果出力部
５へ認識結果として出力する。

以上の適応化学習モード及び認識モードの動作により、
第３の実施例では未知の利用者に対して少ない学習用デ
ータ数及び計算量で最適な標準パ　。

ターンセットを構成し、良好な認識性能を発揮すること
が可能な音声認識装置における話者適応化を行うことが
できる。

第４図はこの発明の第４の実施例を示すブロック図であ
る。この図において１から１１までと１４の構成要素は
第３の実施例と同じであるが、この実施例では適応化標
準パターン選択部９を近接話者選択部１２と距離情報蓄
積部１３とで構成している。ここでは認識対象としてＮ
単語の語柔を考え、それぞれ番号ｎを付ける。

認識対象語Ｓ：：Ｗ＝（ｎｌｎ＝１．２．、、、、Ｎ）
初期標幣パターン記憶部８には上記語梁の音声パターン
がＭ成分記憶されているものとし、これらの初期標準パ
ターン発声者に番号ｍを付ける。

初期標準パターン発声者：ｍ＝１．２．・・・１Ｍまた
ｍ番の人が発声したｎ番の単語に相当する初期標準パタ
ーン記憶部８内の音声パターンをＳ（ｎ　、　ｍ　）と
表す。各音声パターンＳ（ｎ、ｍ）は音声分析部２で行
われる音声の特徴抽出の結果と同様に特徴ベクトルの時
系列として表現される。

適応化標準パターン選択部９で選択するパターンの数は
、ここでは各単語あたりＬ＋１個として説明する。この
各単語で選択するパターンの数は、本実施例のようにす
べての単語で同一の数である必要はなく単語ごとに設定
してもよい。

本実施例の動作は適応化学習モードと認識モードに分か
れている。適応化学習モードでの動作は以下のｊｉりで
ある。

まず学習内容発生部１０によってＮ単語の認識対象搭集
の中から１個の単語ｎ工が決定され、利用者には学習内
容表示部１ｍして単語ｎ１の発声指示が行われる。これ
を受けて利用者が指示された単語ｎ１を発声し、音声入
力部１へ入力すると、入力された音声は音声分析部２４
二、よって特徴抽出され、特徴ベクトルの時系列である
音声パターンＸ　゛Ｖｎｌに変換される。得られた゛音声パターン間距離は
学習音声蓄積部１４に単語ｎ１のパターンとして蓄積さ
れる。

一方、第２距離計算部１１では入力された音声パター？
Ｖｎ１と初期標準パターン記憶部８内で口。

番の単語に属する全音声パターン５（ｎｌ、ｍ）とのパ
ターン間距離Ｄ（’１−ｍ）（但し、ｍは１からＭ）を
算出する。

この算出されたパターン間距離Ｄ（’ｔ−ｍ）は距離情
報蓄積部１３に送られ、距離Ｄ（’ｓ１ｍ）が最小であ
るもの、すなわち入力された利用者の音声パターンＶ□
に最も近いものから順に数えた時、各初期標準パターン
発声者ｍが第何番目に位置するかを示す近接順位値Ｕ。

（ｎｓ−ｍ）（但し、ｍ＝１．２．・・・、Ｍ）に変換
され蓄積される。

これ以降この実施例では、すでに学習音声の入力がｊ個
の単語（単語番号がｎ、からｎｊ、但し、ｊは１からＮ
のいずれかである）について行われており、頃離情報蓄
積部１３にはｊ個の単語分の近接順位値Ｕ。（’１−ｍ
）（但し、ｎ＝ｘ、ｚ、−・・、ｊ％”　”　１　＊　
２　ｅ・・・、Ｍ）が蓄積されているとする。

（ｎｌ、ｍ）において発声者ｍごとに各単語を通して総
和をとって各発声者ｍの総合近接順位値Ｕ（”　）、”
ｉ’に算出する。

但し、””　１　＊　２−・・・、Ｍ　　　　　　　　
　　（♀０）次にこの総合近接順位値Ｕ　（ｍ）が最小
であるもの、すなわち入力されたｊ個の単語を通して考
えた時に利用者の音声パターンに最も近いものから順に
数えた時、ｋ番目Ｃ二位置する初期標準パターン発声者
番号を示す近接話者テーブルＴ　（ｋ）　（但し、ｋ＝
１．２．・・・、Ｍ）を作成し、次に入力済みのｊ個の
単語（単語番号が０１からｎｊ）で発声者番号がＴ（ｉ
）（但し、ｒ　”　１　＊　２　ｅ・・・。

適応化標準パターン記憶部７には、認識モード時に使用
する各単語ｎの音声パターンＰ（ｎ、ｉ）が記憶される
が、学習発声が一つも入力されていない場合、Ｐ（ｎ、
ｉ）は初期標準パターン記憶部８内の全音声パターンＳ
（ｎ、ｉ）と一致している。

Ｐ（ｎ、１）＝Ｓ（ｎ、ｉ）但し、ｎ＝ｊｌｅ””＊Ｎ　　ｉ＝１．２．””＊Ｍ学
習が開始されて適応化標準パターン選択部９から上記の
ような指示が出されると、適応化標準パターン記憶部７
は入力されたｊ個の単語（単語番号ｎ１からｎｊ）それ
ぞれに属する音声パターンのうち指示された発声者番号
Ｔ（ｉ）（但し、ｉ＝１゜２、・・・、Ｌ）を持つもの
だけを初期標準パターン記憶部８から抽出し、また学習
音声蓄積部１４からは先に蓄積したｊ個の単語分の汗声
パターンｖｏ１からＶ。ｊを抽出し、これらを合わせて
それまで適応化標準パターン記憶部７内でｎ、からｎｊ
番の単語用として記憶していた音声パターンのセットと
置き換え記憶する。

ＰＣｎｋ　、　ｉ　）　＝Ｓ（ｎｋ　、Ｔ（ｉ））但し
、ｋ＝１　、２　、・・・、ｊ ’　＝１　ｍ　２　ｍ・・・、　Ｌ　　　　　　　　　
　（２２）Ｐ　（ｎｋ、　Ｌ＋　１　）＝Ｖｎｋ但し、ｋ＝１．２．・・・、　ｊ　　　　　　　　　　
（２３）ｐ（ｎｋ、ｉ）：削除但し、ｋ＝１．２．・・・、ｊｉ＝Ｌ＋２．Ｌ＋３　、・・・、Ｍ　　　　　（２４）
以上の動作により、適応化標準パターン記憶部７内の音
声パターンセットは利用者の発声したｊ個の単語ｎ１か
らｎｊに適応化されたことになり、ｊ個の単語（二対す
る適応化学習処理が完了する。

残りの単語（二対してもこの適応化学習処理を引続き行
い、全単語Ｎ個の適応化学習処理が完了した時点で適応
化学習モードが終了する。認識モードの動作は第３の実
施例と同様である。

以上の適応化学習モード及び認識モードの動作により、
第４の実施例では未知の利用者に対して少ない学習用デ
ータ数及び計算量で最゛適な標準パターンセットを構成
し、良好な認識性能を発揮することが可能な音声認識装
置における話者適応化を行うことができる。

本実施例では、適応化モードから認識モードへ移行する
際、学習が完了していない単語については初期標準パタ
ーン記憶部８内の音声パターンすべてを使用することと
なっているが、これを学習済みの単語で得られたものと
同一の話者：Ｔ（ｉ）（但し、ｉ＝１．２．・・・、Ｌ
）が発声した音声パターンを学習が完了していない単語
からも選択することとし、認識モードに移行してもよい
。

「発明の効果」この発明による音声認識装置Ｃ：おける話者適応化方法
では、パターン間距離を評価基準として、各単語で利用
者の発声した学習音声パターンに近接する音声パターン
だけを初期標準パターンセットの中から選択したもの、
あるいは上記のように選択されたものに利用者自身の音
声パターンを付加したもの、を適応化された標準パター
ンセットとすることによりて話者適応化を実現している
。

この発明で使用している音声パターンの選択の評価基準
、すなわちパターン間の距離は、認識処理を行う場合に
使用するものと共迎化が可能であり、認識率を求める場
合よりも計算量が少ない。

さらにこの発明では利用者の学習音声が一つあれば、そ
の単語カテゴリにおいては最適化が可能であることから
、必要とする学習量が少なく、利用者に対する学習時の
負担も少ない。

従ってこの発明（二よれば、認識率を最大化する話者を
選択する、あるいはいくつかの話者セットに対して最適
となるように予め用意された複数の標準パターンセット
のうちの一つを選択するなどの従来の方法に比べて、少
ない学習データ数及び計算量で、未知の利用者に対して
良好な認識性能を発揮する音声認識装置（＝おける話者
適応化方法が実現できる。

【図面の簡単な説明】

第１図はこの発明の第１の実施例を示す装置のブロック
構成図、第２図はこの発明の第２の実施例を示す装置の
ブロック構成図、′！Ｊ１３図はこの発明の′ＷＩ３の
実施例を示す装置のブロック構成図、第４図はこの発明
の第４の実施例を示す装置のブロック構成図である。特許出願人　　日本電信電話株式会社代　理　　人　　　草　　野　　　　　卓オ　１　図矛　２　図＞　３　図オ　４　図

Claims

【特許請求の範囲】

（１）全認識対象語彙に対する複数話者の発声で構成さ
れた初期標準パターンセット内の各音声パターンと利用
者の音声パターンとの距離情報により、各語彙毎に前記
初期標準パターンセット内から該利用者の音声パターン
に近接する１個または複数個の音声パターンを選択し、
これらを該利用者用の標準パターンセットとすることを
特徴とする音声認識装置における話者適応化方法。
（２）全認識対象語彙に対する複数話者の発声で構成さ
れた初期標準パターンセット内の各音声パターンと利用
者の音声パターンとの距離情報により、各語彙毎に前記
初期標準パターンセット内から該利用者の音声パターン
に近接する１個または複数個の音声パターンを選択し、
これらの音声パターンと該利用者自身の音声パターンと
を該利用者用の標準パターンセットとすることを特徴と
する音声認識装置における話者適応化方法。
（３）該利用者の音声パターンに近接する１個または複
数個の音声パターンとして、全認識対象語彙または一部
の認識対象語彙を総合して該利用者の音声パターンに近
接している１名または複数名の話者を選択し、その話者
の音声パターンを各語彙で用いることを特徴とする特許
請求の範囲第（１）項または（２）項記載の音声認識装
置における話者適応化方法。