JPH01161399A - 音声認識装置における話者適応化方法 - Google Patents
音声認識装置における話者適応化方法Info
- Publication number
- JPH01161399A JPH01161399A JP62320459A JP32045987A JPH01161399A JP H01161399 A JPH01161399 A JP H01161399A JP 62320459 A JP62320459 A JP 62320459A JP 32045987 A JP32045987 A JP 32045987A JP H01161399 A JPH01161399 A JP H01161399A
- Authority
- JP
- Japan
- Prior art keywords
- standard pattern
- pattern
- voice
- user
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000006978 adaptation Effects 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 abstract description 19
- 230000000694 effects Effects 0.000 abstract description 4
- 230000003044 adaptive effect Effects 0.000 description 62
- 238000004458 analytical method Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 210000004243 sweat Anatomy 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 102000005717 Myeloma Proteins Human genes 0.000 description 1
- 108010045503 Myeloma Proteins Proteins 0.000 description 1
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
「産業上の利用分野」
この発明は音声認識装置における認識用の標準パターン
を利用者の音声に適応させる話者適応化方法に関するも
のである。
を利用者の音声に適応させる話者適応化方法に関するも
のである。
「従来の技術」
音声認識技術は近年急速に進歩し、人間にとりて特別な
訓練を必要としない情報Δ力手段の一つとして実用化さ
れはじめている。しかし利用者を゛特定しない不特定話
者型の音声認識を高精旋で可能とするためには、音声の
個人差に充分対処できる方式が必要であり、現状の技術
の中でこれを完全に克服できるものは、まだ確立されて
いナイ。
訓練を必要としない情報Δ力手段の一つとして実用化さ
れはじめている。しかし利用者を゛特定しない不特定話
者型の音声認識を高精旋で可能とするためには、音声の
個人差に充分対処できる方式が必要であり、現状の技術
の中でこれを完全に克服できるものは、まだ確立されて
いナイ。
このような音声の個人差に対処する一つの方法として、
認識装置に組み込まれる標準パターンを利用者の音声に
適応させようとする研究が行われている。例えば「日本
音響学会音声研究会資料583−21(1983年6月
)(:掲載されている論文“多数話者単語背戸認識にお
ける話者適応化の検討”」(以下、文献〔1〕と称する
)では、1000単語の語檗に対して標準パターン構成
用として20名の話者を用意し、この20名それぞれの
パターンを標準パターンとして利用者が発声した上記語
案中の100語の認識を行い、その結果認識率が最高と
なる標準パターン構成用の話者を1名あるいは複数名選
択して、利用者に適応化された標準パターンを作成して
いる。
認識装置に組み込まれる標準パターンを利用者の音声に
適応させようとする研究が行われている。例えば「日本
音響学会音声研究会資料583−21(1983年6月
)(:掲載されている論文“多数話者単語背戸認識にお
ける話者適応化の検討”」(以下、文献〔1〕と称する
)では、1000単語の語檗に対して標準パターン構成
用として20名の話者を用意し、この20名それぞれの
パターンを標準パターンとして利用者が発声した上記語
案中の100語の認識を行い、その結果認識率が最高と
なる標準パターン構成用の話者を1名あるいは複数名選
択して、利用者に適応化された標準パターンを作成して
いる。
また別の例「日本音響学会講演論文集1−5−14(1
−5−14(Pa、1987年3月)に掲載されている
論文1多数話者単語音声認識におけるパターンセットを
用いた学習適応化手法”J(12L下、文献〔2〕と称
する)では、いくつかにグループ分けされた学習用話者
セットに対して認識率が最高となるように最適化された
複数個の標準パターンセットを予め用意しておき、利用
者の発声における母音などの特徴が最も類似している学
習用話者セットに対応する標準パターンセットを利用者
に適応化された標準パターンとしている。
−5−14(Pa、1987年3月)に掲載されている
論文1多数話者単語音声認識におけるパターンセットを
用いた学習適応化手法”J(12L下、文献〔2〕と称
する)では、いくつかにグループ分けされた学習用話者
セットに対して認識率が最高となるように最適化された
複数個の標準パターンセットを予め用意しておき、利用
者の発声における母音などの特徴が最も類似している学
習用話者セットに対応する標準パターンセットを利用者
に適応化された標準パターンとしている。
「発明が解決しようとする問題点」
ところで、文献で1〕の方法は、利用者に適応化された
標準パターンの選択時に認識率を評価基準として使用し
ている。このため統計的に有意な認識率を得るため(二
は、入力に対する正解の情報と充分な数の学習データが
必要となる。従りて適応化が充分(:行われるまでには
多くの入力と計算量を必要とし、利用者の負担も大きい
という問題点がある。また文献〔2〕の方法では、予め
用意されたいくつかの話者セットに対する最適な標準パ
ターンセット、を、認識時には直接的に使用されない母
音の類似性などの評価基準によって未知の利用者に割り
当てている。このため未知の利用者に対して得られた標
準パターンセットが最適であるとは必ずしも保証されな
いという欠点がある@さら(二イスれの未知の利用者に
対しても有効であ6ような予め用意するべき話者セット
の決定も容易ではない。
標準パターンの選択時に認識率を評価基準として使用し
ている。このため統計的に有意な認識率を得るため(二
は、入力に対する正解の情報と充分な数の学習データが
必要となる。従りて適応化が充分(:行われるまでには
多くの入力と計算量を必要とし、利用者の負担も大きい
という問題点がある。また文献〔2〕の方法では、予め
用意されたいくつかの話者セットに対する最適な標準パ
ターンセット、を、認識時には直接的に使用されない母
音の類似性などの評価基準によって未知の利用者に割り
当てている。このため未知の利用者に対して得られた標
準パターンセットが最適であるとは必ずしも保証されな
いという欠点がある@さら(二イスれの未知の利用者に
対しても有効であ6ような予め用意するべき話者セット
の決定も容易ではない。
この発明は上記文献[”l:l 、 [”2]に代表さ
れる従来の方法が持つ問題点を解消し、未知の利用者に
対して少ない学習データ数及び計算量で最適な標準パタ
ーンセットを構成し、良好な認識性能を発揮することが
可能な音声認識装置における話者適応化方法を提供する
ことを目的とする。
れる従来の方法が持つ問題点を解消し、未知の利用者に
対して少ない学習データ数及び計算量で最適な標準パタ
ーンセットを構成し、良好な認識性能を発揮することが
可能な音声認識装置における話者適応化方法を提供する
ことを目的とする。
「問題点を解決するための手段」
この発明による音声認識装置における話者適応化方法は
、全認識対象語実に対応する複数話者の発声パターンを
初期標準パターンセットとして予め用意しておき、利用
者が上記語粟ζ;属するいずれかの単語を発声入力する
のを受けて、上記初期標準パターンセットのうち入力さ
れた単語カテゴリに属する全パターンと入カバターンと
の距離を算出し、この算出された距離が小さいパターン
から順にいくつかを初期標準パターンセットの中から選
択すること、あるいは上記のように選択されたパターン
セットに未知の利用者自身の発声入カバターンを付加す
ることにより未知の利用者に対する標準パターンセット
を作成し、音声認識を行うことを特徴とする。
、全認識対象語実に対応する複数話者の発声パターンを
初期標準パターンセットとして予め用意しておき、利用
者が上記語粟ζ;属するいずれかの単語を発声入力する
のを受けて、上記初期標準パターンセットのうち入力さ
れた単語カテゴリに属する全パターンと入カバターンと
の距離を算出し、この算出された距離が小さいパターン
から順にいくつかを初期標準パターンセットの中から選
択すること、あるいは上記のように選択されたパターン
セットに未知の利用者自身の発声入カバターンを付加す
ることにより未知の利用者に対する標準パターンセット
を作成し、音声認識を行うことを特徴とする。
「作 用」
このようにして作成された未知の利用者C:対する標準
パターンセットでは、利用者の各発声入力に対して正解
となる単語カテゴリにおいて、利用者のパターン(;近
接するパターンのみが存在し、初期標準パターンセット
内で正解単語のカテゴリ内に存在しても利用者の発声か
ら大きな距離にあり、むしろ他の単語の認識時に誤認識
を発生させるようなパターンは排除されることになる。
パターンセットでは、利用者の各発声入力に対して正解
となる単語カテゴリにおいて、利用者のパターン(;近
接するパターンのみが存在し、初期標準パターンセット
内で正解単語のカテゴリ内に存在しても利用者の発声か
ら大きな距離にあり、むしろ他の単語の認識時に誤認識
を発生させるようなパターンは排除されることになる。
このような作用により、この発明による音声認識装置に
おける話者適応化方法によって作成された標準パターン
セットでは、初期標準パターンセットをそのまま用いる
よりも誤認識を低減でき、高い話者適応効果を発揮する
ことが可能である。
おける話者適応化方法によって作成された標準パターン
セットでは、初期標準パターンセットをそのまま用いる
よりも誤認識を低減でき、高い話者適応効果を発揮する
ことが可能である。
「実施例」
以下、この発明の実施例を図面を参照しながら説明する
。
。
第1因はこの発明のfJllの実施例を示すブロック図
である。この図において1は音声入力部、2は音声分析
部、3は第1距離計算部、4は認識判定部、5は認識結
果出力部、6は学習内容表示部、7は適応化標準パター
ン記憶部、8は初期標準パターン記憶部、9は適応化標
準パターン選択部、10は学習内容発生部、11は第2
距離計算部である。ここでは認識対像としてN単語の語
粟な考え、それぞれ番号n’Jz付ける。
である。この図において1は音声入力部、2は音声分析
部、3は第1距離計算部、4は認識判定部、5は認識結
果出力部、6は学習内容表示部、7は適応化標準パター
ン記憶部、8は初期標準パターン記憶部、9は適応化標
準パターン選択部、10は学習内容発生部、11は第2
距離計算部である。ここでは認識対像としてN単語の語
粟な考え、それぞれ番号n’Jz付ける。
認識対象語t:W= (nln=1.2.−−−JJ)
初期標準パターン記憶部8(=は上記語粟の音声パター
ンがM大分記憶されているものとし、これらの初期標準
パターン発声者に番号mを付ける。
初期標準パターン記憶部8(=は上記語粟の音声パター
ンがM大分記憶されているものとし、これらの初期標準
パターン発声者に番号mを付ける。
初期標準パターン発声者: In =1 m 2 m・
・・0Mまたm番の人が発声したn番の単語に相当する
初期標準パターン記憶部8内の音声パターンをS(n
、m)と表す。各音声パターンS(n、m)は、音声分
析部2で行われる音声の特徴抽出の結果と同様に特徴ベ
クトルの時系列として表現される。
・・0Mまたm番の人が発声したn番の単語に相当する
初期標準パターン記憶部8内の音声パターンをS(n
、m)と表す。各音声パターンS(n、m)は、音声分
析部2で行われる音声の特徴抽出の結果と同様に特徴ベ
クトルの時系列として表現される。
第1距離計算部3と第2距離計算部11におけるパター
ン間距離の計算処理には、公知のDPマツチング法を用
いるのが有効である。例えば「I E E E
Transactions on Acou
stics 、5peechand Signal
Processing 、 VOl、AS 5p−26
、NO,1。
ン間距離の計算処理には、公知のDPマツチング法を用
いるのが有効である。例えば「I E E E
Transactions on Acou
stics 、5peechand Signal
Processing 、 VOl、AS 5p−26
、NO,1。
page 43−49.Feb、、 1978に掲載さ
れている論文” Dynamic Programmi
ng AlgorithmOI)timiZation
for 5poken Word Recogniti
on ’ J に掲載されている方式が一例として考え
られる。
れている論文” Dynamic Programmi
ng AlgorithmOI)timiZation
for 5poken Word Recogniti
on ’ J に掲載されている方式が一例として考え
られる。
適応化IPI孕パターン選択部9で選択するパターンの
数は、ここでは各単語あたりL個として説明する。この
各単語で選択するパターンの数は、本実施例のようC二
すべての単語で同一の数である必要はなく単語ごとに設
定してもよい。本実施例の動作は適応化学習モードと認
識モードに分かれている。適応化学習モードでの動作は
以下の通りである。
数は、ここでは各単語あたりL個として説明する。この
各単語で選択するパターンの数は、本実施例のようC二
すべての単語で同一の数である必要はなく単語ごとに設
定してもよい。本実施例の動作は適応化学習モードと認
識モードに分かれている。適応化学習モードでの動作は
以下の通りである。
まず学習内容発生部10により□てN単語の認゛識対象
語案の中から1個の単語n、が決定され、利用者には学
習内容表示部6を通して単語n1の発声指示が行われる
。これを受けて利用者が指示された徴ベクトルの時系列
である音声パターンv01に変換される。
語案の中から1個の単語n、が決定され、利用者には学
習内容表示部6を通して単語n1の発声指示が行われる
。これを受けて利用者が指示された徴ベクトルの時系列
である音声パターンv01に変換される。
次に第2距離計算部11では入力された音声パターンV
。1と初期標準パターン記憶部8内で01番の単語に属
する全音声パターンS(nl−m)とのパターン間距離
D(’1−rn)(但し、” =1 m 2 m・・・
、M)を算出する。 − 適応化標準パターン選択部9では、距離1)(n、。
。1と初期標準パターン記憶部8内で01番の単語に属
する全音声パターンS(nl−m)とのパターン間距離
D(’1−rn)(但し、” =1 m 2 m・・・
、M)を算出する。 − 適応化標準パターン選択部9では、距離1)(n、。
m)が最小であるもの、すなわち入力された利用者の音
声パターンvn1に最も近いものから順に数えた時、k
番目に位置する初期標準パターン発声者番号を示す近接
話者テーブルT(’1=k)(但し、k=1.2.・・
・、M)を作成し、次に単語番号が11で発声者番号が
T(’r、’)(但°し、i=t*2.・・・、L)で
ある音声パターン、合計り個を初期標準パターン記憶部
8から選択するように適応化標準パターン記憶部7に指
示する。
声パターンvn1に最も近いものから順に数えた時、k
番目に位置する初期標準パターン発声者番号を示す近接
話者テーブルT(’1=k)(但し、k=1.2.・・
・、M)を作成し、次に単語番号が11で発声者番号が
T(’r、’)(但°し、i=t*2.・・・、L)で
ある音声パターン、合計り個を初期標準パターン記憶部
8から選択するように適応化標準パターン記憶部7に指
示する。
適応化標準パターン記憶部7には、認識モード時に使用
する各単、%Hの音声パターンp(n、i)が記憶され
るが、学習発声が一つも入力されていない場合、p(n
、i)は初期標準パターン記憶部8内の全音声パターン
S(n、i)と一致している。
する各単、%Hの音声パターンp(n、i)が記憶され
るが、学習発声が一つも入力されていない場合、p(n
、i)は初期標準パターン記憶部8内の全音声パターン
S(n、i)と一致している。
P (n、1)=S(n、i)但し、’=1.2s”
”sN’ ” 1 a 2 *・・・0M 学習が開始されて適応化標準パターン選択部9から上記
のような指示が出されると、適応化標準パターン記憶部
7は単語番号n8に属する音声パターンのうち指示され
た発声者番号T(nl−i)(但し、i ” 1 s
2 m・・・、L)を持つものだけを初期標準パターン
記憶部8から抽出し、それまで適応化標準パターン記憶
部7内で01番の単語用として記憶していた音声パター
ンのセットと置き換え、記憶する。
”sN’ ” 1 a 2 *・・・0M 学習が開始されて適応化標準パターン選択部9から上記
のような指示が出されると、適応化標準パターン記憶部
7は単語番号n8に属する音声パターンのうち指示され
た発声者番号T(nl−i)(但し、i ” 1 s
2 m・・・、L)を持つものだけを初期標準パターン
記憶部8から抽出し、それまで適応化標準パターン記憶
部7内で01番の単語用として記憶していた音声パター
ンのセットと置き換え、記憶する。
P(ns−’)=S(’t 、T(’1.i))但し、
’ =162 m・・・、I、 (4)P(’1−
’)”削除 但し、i=r、+1.L+2.・・・1M以上の動作に
より、適応化標準パターン記憶部7内の音声パターンセ
ットは利用者が発声した単語n1に適応化されたことに
なり、単語nlに対する適応化学習処理が完了する。異
なる単語に対してもこの適応化学習処理を引続き行い、
全単語N個の適応化学習処理が完了した時点で適応化学
習モードが終了する。
’ =162 m・・・、I、 (4)P(’1−
’)”削除 但し、i=r、+1.L+2.・・・1M以上の動作に
より、適応化標準パターン記憶部7内の音声パターンセ
ットは利用者が発声した単語n1に適応化されたことに
なり、単語nlに対する適応化学習処理が完了する。異
なる単語に対してもこの適応化学習処理を引続き行い、
全単語N個の適応化学習処理が完了した時点で適応化学
習モードが終了する。
次に認識モードでの動作について説明する。適応化学習
モードから認識モードへの移行は1.全単語に対する学
習が完了した時点、一部の単語に対する学習が完了した
時点のいずれでも可能である。
モードから認識モードへの移行は1.全単語に対する学
習が完了した時点、一部の単語に対する学習が完了した
時点のいずれでも可能である。
利用者の音声は、適応化学習モード時と同様に音声入力
部1に入力され、次に音声分析部2で特徴ベクトルの時
系列である音声パターンXに変換される。
部1に入力され、次に音声分析部2で特徴ベクトルの時
系列である音声パターンXに変換される。
次に第1距離計算部3では適応化標準パターン記憶部7
に記憶されている各単語nに属する全音声パターンP(
n、i)と音声パターンXとのパターン間距離D(n、
i)(但し、’ ” 1−2 #・・・、N、学習が完
了した単語:i=X、Z。
に記憶されている各単語nに属する全音声パターンP(
n、i)と音声パターンXとのパターン間距離D(n、
i)(但し、’ ” 1−2 #・・・、N、学習が完
了した単語:i=X、Z。
・・・、L、学習が完了していない単語: i 、”
1 +2、・・・、M)を算出する。
1 +2、・・・、M)を算出する。
認識判定部4では、第1距離計算部3で得られた距離]
)(n、i)を単語間で相互比較し、最小の距離値(二
対応する単語0=n°を決定し、認識結果出力部5へ認
識結果として出力する。
)(n、i)を単語間で相互比較し、最小の距離値(二
対応する単語0=n°を決定し、認識結果出力部5へ認
識結果として出力する。
以上の適応化学習モード及び認識モー゛ドの動作により
、第1の実施例では未知の利用者に対して少ない学習用
データ数及び計算量で最適な標準パターンセットを構成
し、良好な認識性能を発揮することが可能な音声認識装
置(二おける話者適応化を行うことができる。
、第1の実施例では未知の利用者に対して少ない学習用
データ数及び計算量で最適な標準パターンセットを構成
し、良好な認識性能を発揮することが可能な音声認識装
置(二おける話者適応化を行うことができる。
第2図はこの発明の第2の実施例を示すプロツク図であ
る。この図において1から11までの構成要素は第1の
実施例と同じであるが、この実施例では適応化標準パタ
ーン選択部9を近接話者選択部12と距離情報蓄積部1
3とで構成している。
る。この図において1から11までの構成要素は第1の
実施例と同じであるが、この実施例では適応化標準パタ
ーン選択部9を近接話者選択部12と距離情報蓄積部1
3とで構成している。
ここでは認識対象としてN単語の搭集を考え、そ:れぞ
れ番号nを付ける。
れ番号nを付ける。
認識対象搭集:W= (nln=1.2m・・・、N)
初IVI準パターン記憶部8(二は上記語集の音声パタ
ーンがM大分記憶されているものとし、これらの初期標
準パターン発声者::番号mを付ける。
初IVI準パターン記憶部8(二は上記語集の音声パタ
ーンがM大分記憶されているものとし、これらの初期標
準パターン発声者::番号mを付ける。
初期標準パターン発声者: m” 1 # 2 *・・
・1Mまたm番の人が発声した0番の単語に相当する初
期標準パターン記憶部8内の音声パターン″Ih:s(
n 、m)と表す。各音声パターン3(n、m)は音声
分析部2で行われる音声の特徴抽出の結果と同様(二特
徴ベクトルの時系列として表現される。
・1Mまたm番の人が発声した0番の単語に相当する初
期標準パターン記憶部8内の音声パターン″Ih:s(
n 、m)と表す。各音声パターン3(n、m)は音声
分析部2で行われる音声の特徴抽出の結果と同様(二特
徴ベクトルの時系列として表現される。
適応化標準パターン選択部9で選択するパターンの数は
、ここでは各単語あたりL個として説明する。この各単
語で選択するパターンの数は、本実施例のよう(二すべ
ての単語で同一の数である必要はなく単語ごとに設定し
てもよい。
、ここでは各単語あたりL個として説明する。この各単
語で選択するパターンの数は、本実施例のよう(二すべ
ての単語で同一の数である必要はなく単語ごとに設定し
てもよい。
本実施例の動作は適応化学習モードと認識モードに分か
れている。適応化学習モードでの動作は以下の通りであ
る。
れている。適応化学習モードでの動作は以下の通りであ
る。
まず学習内容発生部10によってN単語の認識対象搭集
の中から1個の単語n1が決定され、利用者には学習内
容表示部6を通して単語nlの発声指示が行われる。こ
れを受けて利用者が指示された単語n1を発声し、音声
入力部1へ入力すると、入力された音声は音声分析部2
によりて特徴抽出され、特徴ベクトルの時系列である音
声パターンV、 tに変換される。
の中から1個の単語n1が決定され、利用者には学習内
容表示部6を通して単語nlの発声指示が行われる。こ
れを受けて利用者が指示された単語n1を発声し、音声
入力部1へ入力すると、入力された音声は音声分析部2
によりて特徴抽出され、特徴ベクトルの時系列である音
声パターンV、 tに変換される。
次に第2距離計算部11では入力された音声パターンv
ntと初期標準パターン記憶部8内でn1番の単語に属
する全音声パターン5(nl、m)とのパターン間距離
D(nt−”)(但し、m=1.2゜・・・、M)な算
出する。
ntと初期標準パターン記憶部8内でn1番の単語に属
する全音声パターン5(nl、m)とのパターン間距離
D(nt−”)(但し、m=1.2゜・・・、M)な算
出する。
この算出されたパターン間距離])(n、、m)は、距
離情報蓄積部13に送られ、距離D(nl、m)が最小
であるもの、すなわち入力された利用者の音声パターン
V。1に最も近いものから順に数えた時、各初期標準パ
ターン発声者mが第何番目に位置するかを示す近接順位
値U□(’to”)(但し、m=1.2.・・・、M)
に変換され蓄積される。
離情報蓄積部13に送られ、距離D(nl、m)が最小
であるもの、すなわち入力された利用者の音声パターン
V。1に最も近いものから順に数えた時、各初期標準パ
ターン発声者mが第何番目に位置するかを示す近接順位
値U□(’to”)(但し、m=1.2.・・・、M)
に変換され蓄積される。
これ以降この実施例では、すでに学習音声の入力がj個
の単語(単語番号が01からnj、但し、jは1からN
のいずれかである)について行われており、距離情報蓄
積部13にはj個の単語分の近接順位値Uo(nt−m
)(但し、’ ” 1 m 2 + ”・・* J 、
” ” 1 s 2 *・・・、M)が蓄積されている
とする。
の単語(単語番号が01からnj、但し、jは1からN
のいずれかである)について行われており、距離情報蓄
積部13にはj個の単語分の近接順位値Uo(nt−m
)(但し、’ ” 1 m 2 + ”・・* J 、
” ” 1 s 2 *・・・、M)が蓄積されている
とする。
近接話者選択部12では、すでに学習音声の入力が行わ
れているj個の単語分の近接順位値U。
れているj個の単語分の近接順位値U。
(nl、m)において発声者mごとに各単語を通して総
和をとった各発声者mの総合近接順位値U(mを算出す
る。
和をとった各発声者mの総合近接順位値U(mを算出す
る。
次にこの総合近接順位値U (m)が最小であるもの、
すなわち入力されたj個の単語を通して考えた時に利用
者の音声パ多−ンに最も近いものから順に数えた時、k
番目に位置する初期標準パターン発声者番号を示す近接
話者テーブルT (k) (但し、k=1.2.・・・
、M)を作成し、次に入力済みのj個の単語(単語番号
が01からnj)で発声者番号がT(i)(但し、’
=1 * 2 #・・・。
すなわち入力されたj個の単語を通して考えた時に利用
者の音声パ多−ンに最も近いものから順に数えた時、k
番目に位置する初期標準パターン発声者番号を示す近接
話者テーブルT (k) (但し、k=1.2.・・・
、M)を作成し、次に入力済みのj個の単語(単語番号
が01からnj)で発声者番号がT(i)(但し、’
=1 * 2 #・・・。
L)である音声パターン、各単語につき合計り個を初期
標準パターン記憶部8から選択するように適応化標準パ
ターン記憶部7に指示する。
標準パターン記憶部8から選択するように適応化標準パ
ターン記憶部7に指示する。
適応化標準パターン記憶部7には、認識モード時に使用
する各単語nの音声パターンp(n、i)が記憶される
が、学習発声が一つも入力されていない場合、P(n、
i)は初期標準パターン記憶部8内の全音声パターンs
<n=>と一致している。
する各単語nの音声パターンp(n、i)が記憶される
が、学習発声が一つも入力されていない場合、P(n、
i)は初期標準パターン記憶部8内の全音声パターンs
<n=>と一致している。
p(n、す=S(n、i) 但し、’ = 1 m
2 m ” ” ’ * Ni” 1 # 2 m・・
・、M 学習が開始されて適応化標準パターン選択部9から上記
のような指示が出されると、適応化標準パターン記憶部
7は入力され起j個の単語(単語番号n1から口・)そ
れぞれ(二属する音声パターンのうち指示された発声者
番号T (i) (但し、i=1.2.・・・、L)を
持つものだけを初期標準パターン記憶部8から抽出し、
それまで適応化標準パターン記憶部7内で11から(1
3番の単語用として記憶していた音声パターンのセット
と置き換え記憶する。
2 m ” ” ’ * Ni” 1 # 2 m・・
・、M 学習が開始されて適応化標準パターン選択部9から上記
のような指示が出されると、適応化標準パターン記憶部
7は入力され起j個の単語(単語番号n1から口・)そ
れぞれ(二属する音声パターンのうち指示された発声者
番号T (i) (但し、i=1.2.・・・、L)を
持つものだけを初期標準パターン記憶部8から抽出し、
それまで適応化標準パターン記憶部7内で11から(1
3番の単語用として記憶していた音声パターンのセット
と置き換え記憶する。
P(nk、1)=S(nk、T(i))但し、k=1.
2.・・・、j、1=1el・・・、L、1(10)P
(nk、i):削除 但し、k=x、z、−−−、j、
i=L+1.L+2.・・・、 M (
11)以上の動作により、適応化標準パターン記憶部7
内の音声パターンセットは利用者が発声したj個の単語
n1からnjに適応化されたことになり、j個の単語に
対する適応化学習処理が完了する。
2.・・・、j、1=1el・・・、L、1(10)P
(nk、i):削除 但し、k=x、z、−−−、j、
i=L+1.L+2.・・・、 M (
11)以上の動作により、適応化標準パターン記憶部7
内の音声パターンセットは利用者が発声したj個の単語
n1からnjに適応化されたことになり、j個の単語に
対する適応化学習処理が完了する。
残りの単語に対してもこの適応化学習処理を引続き行い
、全単語N個の適応化学習処理が完了した時点で適応化
学習モードが終了する。認識モードの動作は第1の実施
例の場合と同様である。
、全単語N個の適応化学習処理が完了した時点で適応化
学習モードが終了する。認識モードの動作は第1の実施
例の場合と同様である。
以上の適応化学習モード及び認識モードの動作(=より
、第2の実施例では未知の利用者に対して少ない学習用
データ数及び計算量で最適な標準パターンセットを構成
し、良好な認識性能を発揮することが可能な音声認識装
置におけ、る話者適応化を行うことができる。
、第2の実施例では未知の利用者に対して少ない学習用
データ数及び計算量で最適な標準パターンセットを構成
し、良好な認識性能を発揮することが可能な音声認識装
置におけ、る話者適応化を行うことができる。
本実施例では、適応化モードから認識モードへ移行する
際、学習が完了していない単語については初期標準パタ
ーン記憶部8内の音声パターンすべてを使用することと
なりでいるが、これt学習済みの単語で得られたものと
同一の話者: T (i)(但し、i=x 、 2 、
・”・・、L)が発声した音声パターンを学習が完了し
ていない単語からも選択することとし、認識モードに移
行してもよい。
際、学習が完了していない単語については初期標準パタ
ーン記憶部8内の音声パターンすべてを使用することと
なりでいるが、これt学習済みの単語で得られたものと
同一の話者: T (i)(但し、i=x 、 2 、
・”・・、L)が発声した音声パターンを学習が完了し
ていない単語からも選択することとし、認識モードに移
行してもよい。
輌3図はこの発明の第3の実施例を示すブロック−であ
る。この図において1から11までの構成要素は第1の
実施例と同じであり、学習音声蓄積部14が更に設けら
れている。
る。この図において1から11までの構成要素は第1の
実施例と同じであり、学習音声蓄積部14が更に設けら
れている。
ここでは認識対象としてN単語の搭集な考え、それぞれ
番号nを付ける。
番号nを付ける。
認識対象語案:W= (nln=1.2.−−−、N)
初期標準パターン記憶部8には上記搭集の音声パターン
がM大分記憶されているものとし、これらの初期標準パ
ターン発声者に番号mを付ける。
初期標準パターン記憶部8には上記搭集の音声パターン
がM大分記憶されているものとし、これらの初期標準パ
ターン発声者に番号mを付ける。
初期標準パターン発声者:m=1.2.・・・9Mまた
m番の人が発声した0番の単語に相当する初期標準パタ
ーン記憶部8内の音声パターンをS(n 、m)と表す
。各音声パタニンS(n、m)は、音声分析部2で行わ
れる音声の特徴抽出の結果と同様に特徴ベクトルの時系
列として表現される。
m番の人が発声した0番の単語に相当する初期標準パタ
ーン記憶部8内の音声パターンをS(n 、m)と表す
。各音声パタニンS(n、m)は、音声分析部2で行わ
れる音声の特徴抽出の結果と同様に特徴ベクトルの時系
列として表現される。
適応化標準パターン選択部9で選択するパターンの数は
、ここでは各単語あたりL+1個として説明する。この
各単語で選択するパターンの数は、本実施例のようC二
すべての単語で同一の数である必要はなく単語ごとに設
定してもよい。本実施例の動作は適応化学習モードと認
識モードに分かれている。適応化学習モードでの動作は
以下の通りである。
、ここでは各単語あたりL+1個として説明する。この
各単語で選択するパターンの数は、本実施例のようC二
すべての単語で同一の数である必要はなく単語ごとに設
定してもよい。本実施例の動作は適応化学習モードと認
識モードに分かれている。適応化学習モードでの動作は
以下の通りである。
まず学習内容発生部101mよってN単語の認識対象語
承の中から1個の単語n1が決定され、利用者には学習
内容表示部6を通して単語n1の発声指示が行われる。
承の中から1個の単語n1が決定され、利用者には学習
内容表示部6を通して単語n1の発声指示が行われる。
これを受けて利用者が指示された単語n1を発声し、音
声入力部1へ入力すると、入力された音声は音声分析部
2によって特徴抽出され、特徴ベクトルの時系列である
音声パターンvo1に変換される。
声入力部1へ入力すると、入力された音声は音声分析部
2によって特徴抽出され、特徴ベクトルの時系列である
音声パターンvo1に変換される。
得られた音声パターンV。1は学習音声蓄積部14に単
語n1のパターンとして、蓄積される。
語n1のパターンとして、蓄積される。
一方、第2距離計算部11では入力された音声パターン
V。1と初期標準パターン記憶部8内で01番の単語に
属する全音声パターンS(nljm)とのパターン間距
離D(’1−”)(但し、m=1゜2、・・・、M)を
算出する。
V。1と初期標準パターン記憶部8内で01番の単語に
属する全音声パターンS(nljm)とのパターン間距
離D(’1−”)(但し、m=1゜2、・・・、M)を
算出する。
適応化標準パターン選択部9では、距離p(nl。
m)が最小であるもの、すなわち入力された利用者の音
声パターンV。1に最も近いものから順に数えた時、k
番目に位置する初期標準パターン発声者番号を示す近接
話、者テーブルT(nl、k)(但し、k=1 、2
、・・・1M)、を作成し、次に単語番号が01で発声
者番号がT (nto、i)(但し、n=1.z、・・
・、L)である音声パターン、合計Lmを初期標塾パタ
ーン記憶部8から選択するように適応化標準パターン記
憶部7に指示する。
声パターンV。1に最も近いものから順に数えた時、k
番目に位置する初期標準パターン発声者番号を示す近接
話、者テーブルT(nl、k)(但し、k=1 、2
、・・・1M)、を作成し、次に単語番号が01で発声
者番号がT (nto、i)(但し、n=1.z、・・
・、L)である音声パターン、合計Lmを初期標塾パタ
ーン記憶部8から選択するように適応化標準パターン記
憶部7に指示する。
適応化標桑パターン記憶部7には、認識モード時に使用
する各単語0の音声パターンP (n、i)が記憶され
るが、学習発声が一つも入力されていない場合、p(n
、i)は初期標準パターン記憶部8内の全音声パターン
S(n、i)と一致している。 。
する各単語0の音声パターンP (n、i)が記憶され
るが、学習発声が一つも入力されていない場合、p(n
、i)は初期標準パターン記憶部8内の全音声パターン
S(n、i)と一致している。 。
P(n、1)=S(n、i)但し、n=1121−−−
INj ” l s 2 +・・・0M 学習が開始されて適応化漂賭パターン選択部9から上記
のような指示が出されると、適応化標準パターン記憶部
7は単語番号n1に属する音声パターンのうち指示され
た発声者番号T (nl−i)(但し、n=1.2 、
・・・、L)’&持つものだけを初期標塾パターン記憶
部8から抽出し、また学習音声蓄積部14からは先に蓄
積した音声パターンV旧を抽出し、これらを合わせてそ
れまで適応化標塾パターン記憶部7内で01番の単語用
として記憶していた音声パターンのセットと置キ換工記
憶する。
INj ” l s 2 +・・・0M 学習が開始されて適応化漂賭パターン選択部9から上記
のような指示が出されると、適応化標準パターン記憶部
7は単語番号n1に属する音声パターンのうち指示され
た発声者番号T (nl−i)(但し、n=1.2 、
・・・、L)’&持つものだけを初期標塾パターン記憶
部8から抽出し、また学習音声蓄積部14からは先に蓄
積した音声パターンV旧を抽出し、これらを合わせてそ
れまで適応化標塾パターン記憶部7内で01番の単語用
として記憶していた音声パターンのセットと置キ換工記
憶する。
P(’s、−’)=S(’t −T(’t −i))但
し、n=1*2s ・・・、 L
(15)P(n、 、 L+1 )=Vo、
(16)P(’1=i):削除 但し、n=L+2.t、+3.・・・、 M
(17)以上の動作により、適応化標準パターン記
憶部7、内の音声パターンセットは利用者の発声した単
語n1に適応化されたことになり、単語n1に対する適
応化学習処理が完了する。異なる単語に対してもこの適
応化学習処理を引続き行い、全単語N個の適応化学習処
理が完了した時点で適応化学習モードが終了する。
し、n=1*2s ・・・、 L
(15)P(n、 、 L+1 )=Vo、
(16)P(’1=i):削除 但し、n=L+2.t、+3.・・・、 M
(17)以上の動作により、適応化標準パターン記
憶部7、内の音声パターンセットは利用者の発声した単
語n1に適応化されたことになり、単語n1に対する適
応化学習処理が完了する。異なる単語に対してもこの適
応化学習処理を引続き行い、全単語N個の適応化学習処
理が完了した時点で適応化学習モードが終了する。
次に認識モードでの動作について説明する。適応化学習
モードから認識モードへの移行は、全単語に対する学習
が完了した時点、一部の単語に対する学習が完了した時
点のいずれでも可能である。
モードから認識モードへの移行は、全単語に対する学習
が完了した時点、一部の単語に対する学習が完了した時
点のいずれでも可能である。
利用者の音声は、適応化学習モード時と同様(二音声入
力部1に入力され、次に音声分析部2で特徴ベクトルの
時系列である音声パターンXに変換される。
力部1に入力され、次に音声分析部2で特徴ベクトルの
時系列である音声パターンXに変換される。
次に第1距離計算部3では適応化標準パターン記憶部7
に記憶されている各単語n(:属する全音声パターンp
(n、i)と音声パターンXとのパターン間距離D(n
、i)(但し、n=1.2゜・・・、N、学習が完了し
た単語:n=x、2゜・・・、L+1、学習が完了して
いない単語:n=1.2.・・・、M)を算出する。
に記憶されている各単語n(:属する全音声パターンp
(n、i)と音声パターンXとのパターン間距離D(n
、i)(但し、n=1.2゜・・・、N、学習が完了し
た単語:n=x、2゜・・・、L+1、学習が完了して
いない単語:n=1.2.・・・、M)を算出する。
認識判定部4では、第1距離計算部3で得られた距離1
)(n、i)を単語間、で相互比較し、最小の距離値シ
一対応する単語n = n’を決定し、認識結果出力部
5へ認識結果として出力する。
)(n、i)を単語間、で相互比較し、最小の距離値シ
一対応する単語n = n’を決定し、認識結果出力部
5へ認識結果として出力する。
以上の適応化学習モード及び認識モードの動作により、
第3の実施例では未知の利用者に対して少ない学習用デ
ータ数及び計算量で最適な標準パ 。
第3の実施例では未知の利用者に対して少ない学習用デ
ータ数及び計算量で最適な標準パ 。
ターンセットを構成し、良好な認識性能を発揮すること
が可能な音声認識装置における話者適応化を行うことが
できる。
が可能な音声認識装置における話者適応化を行うことが
できる。
第4図はこの発明の第4の実施例を示すブロック図であ
る。この図において1から11までと14の構成要素は
第3の実施例と同じであるが、この実施例では適応化標
準パターン選択部9を近接話者選択部12と距離情報蓄
積部13とで構成している。ここでは認識対象としてN
単語の語柔を考え、それぞれ番号nを付ける。
る。この図において1から11までと14の構成要素は
第3の実施例と同じであるが、この実施例では適応化標
準パターン選択部9を近接話者選択部12と距離情報蓄
積部13とで構成している。ここでは認識対象としてN
単語の語柔を考え、それぞれ番号nを付ける。
認識対象語S::W=(nln=1.2.、、、、N)
初期標幣パターン記憶部8には上記語梁の音声パターン
がM成分記憶されているものとし、これらの初期標準パ
ターン発声者に番号mを付ける。
初期標幣パターン記憶部8には上記語梁の音声パターン
がM成分記憶されているものとし、これらの初期標準パ
ターン発声者に番号mを付ける。
初期標準パターン発声者:m=1.2.・・・1Mまた
m番の人が発声したn番の単語に相当する初期標準パタ
ーン記憶部8内の音声パターンをS(n 、 m )と
表す。各音声パターンS(n、m)は音声分析部2で行
われる音声の特徴抽出の結果と同様に特徴ベクトルの時
系列として表現される。
m番の人が発声したn番の単語に相当する初期標準パタ
ーン記憶部8内の音声パターンをS(n 、 m )と
表す。各音声パターンS(n、m)は音声分析部2で行
われる音声の特徴抽出の結果と同様に特徴ベクトルの時
系列として表現される。
適応化標準パターン選択部9で選択するパターンの数は
、ここでは各単語あたりL+1個として説明する。この
各単語で選択するパターンの数は、本実施例のようにす
べての単語で同一の数である必要はなく単語ごとに設定
してもよい。
、ここでは各単語あたりL+1個として説明する。この
各単語で選択するパターンの数は、本実施例のようにす
べての単語で同一の数である必要はなく単語ごとに設定
してもよい。
本実施例の動作は適応化学習モードと認識モードに分か
れている。適応化学習モードでの動作は以下のjiりで
ある。
れている。適応化学習モードでの動作は以下のjiりで
ある。
まず学習内容発生部10によってN単語の認識対象搭集
の中から1個の単語n工が決定され、利用者には学習内
容表示部1mして単語n1の発声指示が行われる。これ
を受けて利用者が指示された単語n1を発声し、音声入
力部1へ入力すると、入力された音声は音声分析部24
二、よって特徴抽出され、特徴ベクトルの時系列である
音声パターンX ゛ Vnlに変換される。得られた゛音声パターン間距離は
学習音声蓄積部14に単語n1のパターンとして蓄積さ
れる。
の中から1個の単語n工が決定され、利用者には学習内
容表示部1mして単語n1の発声指示が行われる。これ
を受けて利用者が指示された単語n1を発声し、音声入
力部1へ入力すると、入力された音声は音声分析部24
二、よって特徴抽出され、特徴ベクトルの時系列である
音声パターンX ゛ Vnlに変換される。得られた゛音声パターン間距離は
学習音声蓄積部14に単語n1のパターンとして蓄積さ
れる。
一方、第2距離計算部11では入力された音声パター?
Vn1と初期標準パターン記憶部8内で口。
Vn1と初期標準パターン記憶部8内で口。
番の単語に属する全音声パターン5(nl、m)とのパ
ターン間距離D(’1−m)(但し、mは1からM)を
算出する。
ターン間距離D(’1−m)(但し、mは1からM)を
算出する。
この算出されたパターン間距離D(’t−m)は距離情
報蓄積部13に送られ、距離D(’s1m)が最小であ
るもの、すなわち入力された利用者の音声パターンV□
に最も近いものから順に数えた時、各初期標準パターン
発声者mが第何番目に位置するかを示す近接順位値U。
報蓄積部13に送られ、距離D(’s1m)が最小であ
るもの、すなわち入力された利用者の音声パターンV□
に最も近いものから順に数えた時、各初期標準パターン
発声者mが第何番目に位置するかを示す近接順位値U。
(ns−m)(但し、m=1.2.・・・、M)に変換
され蓄積される。
され蓄積される。
これ以降この実施例では、すでに学習音声の入力がj個
の単語(単語番号がn、からnj、但し、jは1からN
のいずれかである)について行われており、頃離情報蓄
積部13にはj個の単語分の近接順位値U。(’1−m
)(但し、n=x、z、−・・、j%” ” 1 *
2 e・・・、M)が蓄積されているとする。
の単語(単語番号がn、からnj、但し、jは1からN
のいずれかである)について行われており、頃離情報蓄
積部13にはj個の単語分の近接順位値U。(’1−m
)(但し、n=x、z、−・・、j%” ” 1 *
2 e・・・、M)が蓄積されているとする。
近接話者選択部12では、すでに学習音声の入力が行わ
れているj個の単語分の近接順位値U。
れているj個の単語分の近接順位値U。
(nl、m)において発声者mごとに各単語を通して総
和をとって各発声者mの総合近接順位値U(” )、”
i’に算出する。
和をとって各発声者mの総合近接順位値U(” )、”
i’に算出する。
但し、”” 1 * 2−・・・、M
(♀0)次にこの総合近接順位値U (m)が最小
であるもの、すなわち入力されたj個の単語を通して考
えた時に利用者の音声パターンに最も近いものから順に
数えた時、k番目C二位置する初期標準パターン発声者
番号を示す近接話者テーブルT (k) (但し、k=
1.2.・・・、M)を作成し、次に入力済みのj個の
単語(単語番号が01からnj)で発声者番号がT(i
)(但し、r ” 1 * 2 e・・・。
(♀0)次にこの総合近接順位値U (m)が最小
であるもの、すなわち入力されたj個の単語を通して考
えた時に利用者の音声パターンに最も近いものから順に
数えた時、k番目C二位置する初期標準パターン発声者
番号を示す近接話者テーブルT (k) (但し、k=
1.2.・・・、M)を作成し、次に入力済みのj個の
単語(単語番号が01からnj)で発声者番号がT(i
)(但し、r ” 1 * 2 e・・・。
L)である音声パターン、各単語につき合計り個を初期
標準パターン記憶部8から選択するように適応化標準パ
ターン記憶部7に指示する。
標準パターン記憶部8から選択するように適応化標準パ
ターン記憶部7に指示する。
適応化標準パターン記憶部7には、認識モード時に使用
する各単語nの音声パターンP(n、i)が記憶される
が、学習発声が一つも入力されていない場合、P(n、
i)は初期標準パターン記憶部8内の全音声パターンS
(n、i)と一致している。
する各単語nの音声パターンP(n、i)が記憶される
が、学習発声が一つも入力されていない場合、P(n、
i)は初期標準パターン記憶部8内の全音声パターンS
(n、i)と一致している。
P(n、1)=S(n、i)
但し、n=jle””*N i=1.2.””*M学
習が開始されて適応化標準パターン選択部9から上記の
ような指示が出されると、適応化標準パターン記憶部7
は入力されたj個の単語(単語番号n1からnj)それ
ぞれに属する音声パターンのうち指示された発声者番号
T(i)(但し、i=1゜2、・・・、L)を持つもの
だけを初期標準パターン記憶部8から抽出し、また学習
音声蓄積部14からは先に蓄積したj個の単語分の汗声
パターンvo1からV。jを抽出し、これらを合わせて
それまで適応化標準パターン記憶部7内でn、からnj
番の単語用として記憶していた音声パターンのセットと
置き換え記憶する。
習が開始されて適応化標準パターン選択部9から上記の
ような指示が出されると、適応化標準パターン記憶部7
は入力されたj個の単語(単語番号n1からnj)それ
ぞれに属する音声パターンのうち指示された発声者番号
T(i)(但し、i=1゜2、・・・、L)を持つもの
だけを初期標準パターン記憶部8から抽出し、また学習
音声蓄積部14からは先に蓄積したj個の単語分の汗声
パターンvo1からV。jを抽出し、これらを合わせて
それまで適応化標準パターン記憶部7内でn、からnj
番の単語用として記憶していた音声パターンのセットと
置き換え記憶する。
PCnk 、 i ) =S(nk 、T(i))但し
、k=1 、2 、・・・、j ’ =1 m 2 m・・・、 L
(22)P (nk、 L+ 1 )=Vnk 但し、k=1.2.・・・、 j
(23)p(nk、i):削除 但し、k=1.2.・・・、j i=L+2.L+3 、・・・、M (24)
以上の動作により、適応化標準パターン記憶部7内の音
声パターンセットは利用者の発声したj個の単語n1か
らnjに適応化されたことになり、j個の単語(二対す
る適応化学習処理が完了する。
、k=1 、2 、・・・、j ’ =1 m 2 m・・・、 L
(22)P (nk、 L+ 1 )=Vnk 但し、k=1.2.・・・、 j
(23)p(nk、i):削除 但し、k=1.2.・・・、j i=L+2.L+3 、・・・、M (24)
以上の動作により、適応化標準パターン記憶部7内の音
声パターンセットは利用者の発声したj個の単語n1か
らnjに適応化されたことになり、j個の単語(二対す
る適応化学習処理が完了する。
残りの単語(二対してもこの適応化学習処理を引続き行
い、全単語N個の適応化学習処理が完了した時点で適応
化学習モードが終了する。認識モードの動作は第3の実
施例と同様である。
い、全単語N個の適応化学習処理が完了した時点で適応
化学習モードが終了する。認識モードの動作は第3の実
施例と同様である。
以上の適応化学習モード及び認識モードの動作により、
第4の実施例では未知の利用者に対して少ない学習用デ
ータ数及び計算量で最゛適な標準パターンセットを構成
し、良好な認識性能を発揮することが可能な音声認識装
置における話者適応化を行うことができる。
第4の実施例では未知の利用者に対して少ない学習用デ
ータ数及び計算量で最゛適な標準パターンセットを構成
し、良好な認識性能を発揮することが可能な音声認識装
置における話者適応化を行うことができる。
本実施例では、適応化モードから認識モードへ移行する
際、学習が完了していない単語については初期標準パタ
ーン記憶部8内の音声パターンすべてを使用することと
なっているが、これを学習済みの単語で得られたものと
同一の話者:T(i)(但し、i=1.2.・・・、L
)が発声した音声パターンを学習が完了していない単語
からも選択することとし、認識モードに移行してもよい
。
際、学習が完了していない単語については初期標準パタ
ーン記憶部8内の音声パターンすべてを使用することと
なっているが、これを学習済みの単語で得られたものと
同一の話者:T(i)(但し、i=1.2.・・・、L
)が発声した音声パターンを学習が完了していない単語
からも選択することとし、認識モードに移行してもよい
。
「発明の効果」
この発明による音声認識装置C:おける話者適応化方法
では、パターン間距離を評価基準として、各単語で利用
者の発声した学習音声パターンに近接する音声パターン
だけを初期標準パターンセットの中から選択したもの、
あるいは上記のように選択されたものに利用者自身の音
声パターンを付加したもの、を適応化された標準パター
ンセットとすることによりて話者適応化を実現している
。
では、パターン間距離を評価基準として、各単語で利用
者の発声した学習音声パターンに近接する音声パターン
だけを初期標準パターンセットの中から選択したもの、
あるいは上記のように選択されたものに利用者自身の音
声パターンを付加したもの、を適応化された標準パター
ンセットとすることによりて話者適応化を実現している
。
この発明で使用している音声パターンの選択の評価基準
、すなわちパターン間の距離は、認識処理を行う場合に
使用するものと共迎化が可能であり、認識率を求める場
合よりも計算量が少ない。
、すなわちパターン間の距離は、認識処理を行う場合に
使用するものと共迎化が可能であり、認識率を求める場
合よりも計算量が少ない。
さらにこの発明では利用者の学習音声が一つあれば、そ
の単語カテゴリにおいては最適化が可能であることから
、必要とする学習量が少なく、利用者に対する学習時の
負担も少ない。
の単語カテゴリにおいては最適化が可能であることから
、必要とする学習量が少なく、利用者に対する学習時の
負担も少ない。
従ってこの発明(二よれば、認識率を最大化する話者を
選択する、あるいはいくつかの話者セットに対して最適
となるように予め用意された複数の標準パターンセット
のうちの一つを選択するなどの従来の方法に比べて、少
ない学習データ数及び計算量で、未知の利用者に対して
良好な認識性能を発揮する音声認識装置(=おける話者
適応化方法が実現できる。
選択する、あるいはいくつかの話者セットに対して最適
となるように予め用意された複数の標準パターンセット
のうちの一つを選択するなどの従来の方法に比べて、少
ない学習データ数及び計算量で、未知の利用者に対して
良好な認識性能を発揮する音声認識装置(=おける話者
適応化方法が実現できる。
第1図はこの発明の第1の実施例を示す装置のブロック
構成図、第2図はこの発明の第2の実施例を示す装置の
ブロック構成図、′!J13図はこの発明の′WI3の
実施例を示す装置のブロック構成図、第4図はこの発明
の第4の実施例を示す装置のブロック構成図である。 特許出願人 日本電信電話株式会社 代 理 人 草 野 卓オ 1 図 矛 2 図 > 3 図 オ 4 図
構成図、第2図はこの発明の第2の実施例を示す装置の
ブロック構成図、′!J13図はこの発明の′WI3の
実施例を示す装置のブロック構成図、第4図はこの発明
の第4の実施例を示す装置のブロック構成図である。 特許出願人 日本電信電話株式会社 代 理 人 草 野 卓オ 1 図 矛 2 図 > 3 図 オ 4 図
Claims (3)
- (1)全認識対象語彙に対する複数話者の発声で構成さ
れた初期標準パターンセット内の各音声パターンと利用
者の音声パターンとの距離情報により、各語彙毎に前記
初期標準パターンセット内から該利用者の音声パターン
に近接する1個または複数個の音声パターンを選択し、
これらを該利用者用の標準パターンセットとすることを
特徴とする音声認識装置における話者適応化方法。 - (2)全認識対象語彙に対する複数話者の発声で構成さ
れた初期標準パターンセット内の各音声パターンと利用
者の音声パターンとの距離情報により、各語彙毎に前記
初期標準パターンセット内から該利用者の音声パターン
に近接する1個または複数個の音声パターンを選択し、
これらの音声パターンと該利用者自身の音声パターンと
を該利用者用の標準パターンセットとすることを特徴と
する音声認識装置における話者適応化方法。 - (3)該利用者の音声パターンに近接する1個または複
数個の音声パターンとして、全認識対象語彙または一部
の認識対象語彙を総合して該利用者の音声パターンに近
接している1名または複数名の話者を選択し、その話者
の音声パターンを各語彙で用いることを特徴とする特許
請求の範囲第(1)項または(2)項記載の音声認識装
置における話者適応化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62320459A JPH01161399A (ja) | 1987-12-18 | 1987-12-18 | 音声認識装置における話者適応化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62320459A JPH01161399A (ja) | 1987-12-18 | 1987-12-18 | 音声認識装置における話者適応化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH01161399A true JPH01161399A (ja) | 1989-06-26 |
Family
ID=18121686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62320459A Pending JPH01161399A (ja) | 1987-12-18 | 1987-12-18 | 音声認識装置における話者適応化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH01161399A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010170075A (ja) * | 2008-12-26 | 2010-08-05 | Fujitsu Ltd | 情報処理装置、プログラム、および音響モデルを生成する方法 |
US9947324B2 (en) | 2015-04-22 | 2018-04-17 | Panasonic Corporation | Speaker identification method and speaker identification device |
-
1987
- 1987-12-18 JP JP62320459A patent/JPH01161399A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010170075A (ja) * | 2008-12-26 | 2010-08-05 | Fujitsu Ltd | 情報処理装置、プログラム、および音響モデルを生成する方法 |
US9947324B2 (en) | 2015-04-22 | 2018-04-17 | Panasonic Corporation | Speaker identification method and speaker identification device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794204A (en) | Interactive speech recognition combining speaker-independent and speaker-specific word recognition, and having a response-creation capability | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
EP0342630B1 (en) | Speech recognition with speaker adaptation by learning | |
CN109817197B (zh) | 歌声生成方法、装置、计算机设备和存储介质 | |
JP2815579B2 (ja) | 音声認識における単語候補削減装置 | |
JPH11242494A (ja) | 話者適応化装置と音声認識装置 | |
DE112021000959T5 (de) | Synthetische Sprachverarbeitung | |
Furui | A training procedure for isolated word recognition systems | |
Ahammad et al. | Connected bangla speech recognition using artificial neural network | |
Wu et al. | Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations | |
JPH0540497A (ja) | 話者適応音声認識装置 | |
Lee et al. | Cantonese syllable recognition using neural networks | |
Parikh et al. | Gujarati speech recognition–A review | |
JPH01161399A (ja) | 音声認識装置における話者適応化方法 | |
JPS597998A (ja) | 連続音声認識装置 | |
Liao et al. | Personalized Taiwanese speech synthesis using cascaded ASR and TTS framework | |
US4790017A (en) | Speech processing feature generation arrangement | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
JPH0823758B2 (ja) | 話者適応形音声認識装置 | |
JPS58223193A (ja) | 多数単語音声認識方式 | |
JPH09179578A (ja) | 単音節認識装置 | |
JPH04324499A (ja) | 音声認識装置 | |
Lee et al. | A neural network based speech recognition system for isolated Cantonese syllables | |
JPH0430598B2 (ja) | ||
JPH0566597B2 (ja) |