JPH03212696A - 音声認識装置のための標準パターン学習方式 - Google Patents
音声認識装置のための標準パターン学習方式Info
- Publication number
- JPH03212696A JPH03212696A JP908790A JP879090A JPH03212696A JP H03212696 A JPH03212696 A JP H03212696A JP 908790 A JP908790 A JP 908790A JP 879090 A JP879090 A JP 879090A JP H03212696 A JPH03212696 A JP H03212696A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- standard pattern
- memory
- variance
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 24
- 239000006185 dispersion Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、音声認識装置に用いる標準パターンの学習方
式の改良に関するものである。
式の改良に関するものである。
従来、音声を認識する方法として、例えば(社)電子情
報通信学会編、中層を一著「確率モデルによる音声認識
」(以下文献1と称す)の第29頁以下に述べられてい
るような「隠れマルコフモデル」(以下HMMと呼ぶ)
を標準パターンとして用いた方法があった。この方法で
は、まず、音声パターンの生成過程をマルコフ過程によ
り状態遷移モデルとしてモデル化する。この状態遷移モ
デルがHMMである。、認識対象のカテゴリ(たとえば
単語)毎にHMMを用意する。観測された音声パターン
Y= y t (t=1・・・T)が、HMMにより生
成される確率Pが最大となるカテゴリが認識結果となる
。
報通信学会編、中層を一著「確率モデルによる音声認識
」(以下文献1と称す)の第29頁以下に述べられてい
るような「隠れマルコフモデル」(以下HMMと呼ぶ)
を標準パターンとして用いた方法があった。この方法で
は、まず、音声パターンの生成過程をマルコフ過程によ
り状態遷移モデルとしてモデル化する。この状態遷移モ
デルがHMMである。、認識対象のカテゴリ(たとえば
単語)毎にHMMを用意する。観測された音声パターン
Y= y t (t=1・・・T)が、HMMにより生
成される確率Pが最大となるカテゴリが認識結果となる
。
第3図にHMMの例を示す。状態Siにおいて音声パタ
ーンytを出力する確率b i (yt)、状態Siか
らSjに遷移する確率なaijとする。音声パターンY
が圧力される確率Pは以下の前向き確率αに関する漸化
式を解くことにより求めることができる。
ーンytを出力する確率b i (yt)、状態Siか
らSjに遷移する確率なaijとする。音声パターンY
が圧力される確率Pは以下の前向き確率αに関する漸化
式を解くことにより求めることができる。
α(i、t)=Σα(j、t−1) ・a ji−b
i (yt) (1)P=Σα(i、T)
(2)ここで、音声パタ
ーンytを出力する確率bi(yt)を、文献lの第6
9頁に述べられているような、連続確率密度分布を用い
るとする。無相関正規分布を仮定すると確率bi(yt
)は、以下のように表せる。
i (yt) (1)P=Σα(i、T)
(2)ここで、音声パタ
ーンytを出力する確率bi(yt)を、文献lの第6
9頁に述べられているような、連続確率密度分布を用い
るとする。無相関正規分布を仮定すると確率bi(yt
)は、以下のように表せる。
b 1(yt)−([1/k(2yr σik”)”)
)・expΣ([(ytk−μ1k)2]/(:2πσ
i k 2)) (3)ここで、μmには平均特徴
ベクトル、σik2は分散を示す。また、添字にはベク
トルのに番目の要素(1≦に≦K)を表す。
)・expΣ([(ytk−μ1k)2]/(:2πσ
i k 2)) (3)ここで、μmには平均特徴
ベクトル、σik2は分散を示す。また、添字にはベク
トルのに番目の要素(1≦に≦K)を表す。
HMMのパラメータは、文献lの第55頁に述べられて
いるようなForward Backwardアルゴリ
ズム(以下FBアルゴリズムと呼ぶ)により学習するこ
とができる。この学習法は、学習データの音声パターン
を用いてパラメータを繰り返し更新することにより行う
。HMMのパラメータには、予め適当な初期値(初期モ
デル)が設定されている。以下にアルゴリズムを示す。
いるようなForward Backwardアルゴリ
ズム(以下FBアルゴリズムと呼ぶ)により学習するこ
とができる。この学習法は、学習データの音声パターン
を用いてパラメータを繰り返し更新することにより行う
。HMMのパラメータには、予め適当な初期値(初期モ
デル)が設定されている。以下にアルゴリズムを示す。
■ (1)式のように前向き確率αを求めると共に、後
向き確率βを以下のように求める。
向き確率βを以下のように求める。
初期値: β(i、T)=1
β(i、t)Σβ(j、t+1) ・a ji−b i
(yt+1) (4)■ パラメータを更新す
る。
(yt+1) (4)■ パラメータを更新す
る。
aij=〔Σα(i、t) ・a 1j−b i (y
t) ・β(j 、 t))/[J、α(i、t)・β
(i、t)) (5)アi=cΣα(i、t)・β(
i、t)・yD/〔Σα(i、t)・β(i、t)]
(6)σ1k2=〔Zα(i、t)・β(i、t)・
(ytk−μ1k)2)/〔Σα(i、t)・β(i、
t)] (7)■ 求められたパラメータを新しいパ
ラメータとして用いて、■以下をパラメータが収束する
まで繰り返す。
t) ・β(j 、 t))/[J、α(i、t)・β
(i、t)) (5)アi=cΣα(i、t)・β(
i、t)・yD/〔Σα(i、t)・β(i、t)]
(6)σ1k2=〔Zα(i、t)・β(i、t)・
(ytk−μ1k)2)/〔Σα(i、t)・β(i、
t)] (7)■ 求められたパラメータを新しいパ
ラメータとして用いて、■以下をパラメータが収束する
まで繰り返す。
以上のアルゴリズムにより、学習データにだいする出力
確率の極大値を与えるHMMのパラメータを求めること
ができる。求められる結果は最大値でなく、あくまで極
大値であり、得られた結果は初期モデルの値に依存する
。初期モデルのパラメータが適当でない場合、最大値か
らかけ離れた極大値が求められてしまうおそれがある。
確率の極大値を与えるHMMのパラメータを求めること
ができる。求められる結果は最大値でなく、あくまで極
大値であり、得られた結果は初期モデルの値に依存する
。初期モデルのパラメータが適当でない場合、最大値か
らかけ離れた極大値が求められてしまうおそれがある。
初期モデルの求めかたとして、文献1の第64頁に述べ
られているように、学習データをHMMの状態数で分割
し、各区間のデータからパラメータを求める方法がある
。また、このようにして求められたパラメータを初期モ
デルとして、ある学習データに対して学習した結果を、
あらたな学習データに対する初期モデルとする方法もあ
る。
られているように、学習データをHMMの状態数で分割
し、各区間のデータからパラメータを求める方法がある
。また、このようにして求められたパラメータを初期モ
デルとして、ある学習データに対して学習した結果を、
あらたな学習データに対する初期モデルとする方法もあ
る。
HMMは確率モデルであるので、精度よくパラメータを
推定するためには多重の学習データが必要である。また
、発声の変形を学習するためには、様々な変形が含まれ
ているような学習データが必要である。認識装置を使用
する特定話者毎に多量のデータを収集するのは、使用者
に対する負担が大きく好ましくないので、多数の話者に
より発声された音声を用いると良い。多数の話者により
発声された音声を用いてHMMを学習することにより、
音声の様々な変形を含んだHMMを求めることができる
。
推定するためには多重の学習データが必要である。また
、発声の変形を学習するためには、様々な変形が含まれ
ているような学習データが必要である。認識装置を使用
する特定話者毎に多量のデータを収集するのは、使用者
に対する負担が大きく好ましくないので、多数の話者に
より発声された音声を用いると良い。多数の話者により
発声された音声を用いてHMMを学習することにより、
音声の様々な変形を含んだHMMを求めることができる
。
しかし、音声パターンは話者による差が大きいので、特
定話者の音声を認識する場合は、多数話者により学習さ
れたHMMをそのまま用いたのでは高い認識性能を得る
のは困難である。そこで、特定話者のなるべく少ない学
習データを用いてHMMをその話者に適応化する必要が
ある。
定話者の音声を認識する場合は、多数話者により学習さ
れたHMMをそのまま用いたのでは高い認識性能を得る
のは困難である。そこで、特定話者のなるべく少ない学
習データを用いてHMMをその話者に適応化する必要が
ある。
多数話者の音声から求められたHMMを初期モデルとし
て、特定話者の学習データに対して前述のFBアルゴリ
ズムを用いてHMMの学習をおこなうと、HMMのパラ
メータは特定話者の学習データを反映するものとなり、
初期モデルの持つ情報は無くなってしまう。このため特
定話者の学習データ量が少ない時は、HMMのパラメー
タを精度良く推定するのが困難となり、かつ発声変形を
十分反映することもできなくなるという問題があった。
て、特定話者の学習データに対して前述のFBアルゴリ
ズムを用いてHMMの学習をおこなうと、HMMのパラ
メータは特定話者の学習データを反映するものとなり、
初期モデルの持つ情報は無くなってしまう。このため特
定話者の学習データ量が少ない時は、HMMのパラメー
タを精度良く推定するのが困難となり、かつ発声変形を
十分反映することもできなくなるという問題があった。
本発明は、標準パターンを、多数の話者による発声から
得られた発声変形の情報を持ち、特定話者に特有の情報
についてはその話者に適した情報を有するように学習す
るための方式の提供を目的とする。
得られた発声変形の情報を持ち、特定話者に特有の情報
についてはその話者に適した情報を有するように学習す
るための方式の提供を目的とする。
本願の第1の発明による音声認識装置のための標準パタ
ーン学習方式は、あらかじめ作成された標準パターンを
、学習データに対して適応化する際に、複数の話者間の
標準パターンのパラメータの分散を表す値が予め定めら
れた閾値より大きい場合、対応するパラメータを学習に
より更新することを特徴とする。
ーン学習方式は、あらかじめ作成された標準パターンを
、学習データに対して適応化する際に、複数の話者間の
標準パターンのパラメータの分散を表す値が予め定めら
れた閾値より大きい場合、対応するパラメータを学習に
より更新することを特徴とする。
本願の第2の発明による音声認識装置のための標準パタ
ーン学習方式は、前記本願の第1の発明に加え、少なく
とも複数の話者間の標準パターンのパラメータの分散を
表す値および一人の話者のm準パターンのパラメータの
分散を表す値とを含む値により更新するパラメータを決
定することを特徴とする。
ーン学習方式は、前記本願の第1の発明に加え、少なく
とも複数の話者間の標準パターンのパラメータの分散を
表す値および一人の話者のm準パターンのパラメータの
分散を表す値とを含む値により更新するパラメータを決
定することを特徴とする。
本願の第3の発明による音声認識装置のための標準パタ
ーン学習方式は、前記本願の第1および第2の発明に加
え、少なくともあらかじめ作成された標準パターンの持
つ値および学習データを前記分散を表す値とを含む値に
より重み付けして学習することを特徴とする。
ーン学習方式は、前記本願の第1および第2の発明に加
え、少なくともあらかじめ作成された標準パターンの持
つ値および学習データを前記分散を表す値とを含む値に
より重み付けして学習することを特徴とする。
本発明による音声認識装置のための標準パターン学習方
式について説明する。音声パターンには、母音のように
話者による違いが大きい部分と、破裂音などのように発
声変形は大きいが話者による違いはそれほど重要でない
部分がある。本発明は、あらかじめ多数の話者によって
発声された学習データをもとに作成された標準パターン
を特定話者の学習データに対して適応化する場合、パラ
メータの話者間の分散を表す値が大きい、すなわち話者
による違いが大きいパラメータのみを更新するものであ
る。これにより、話者による変動の大きいパラメータは
特定話者の特徴に適応化し、話者の違いによる変動が少
ないパラメータに対しては、多数話者が発声した多量デ
ータにより学習された標準パターンのパラメータを用い
ることにより精度良く、かつ話者の特徴を反映した学習
が行える。以下、文献1に述べられているよりなHMM
を用いた場合について説明する。
式について説明する。音声パターンには、母音のように
話者による違いが大きい部分と、破裂音などのように発
声変形は大きいが話者による違いはそれほど重要でない
部分がある。本発明は、あらかじめ多数の話者によって
発声された学習データをもとに作成された標準パターン
を特定話者の学習データに対して適応化する場合、パラ
メータの話者間の分散を表す値が大きい、すなわち話者
による違いが大きいパラメータのみを更新するものであ
る。これにより、話者による変動の大きいパラメータは
特定話者の特徴に適応化し、話者の違いによる変動が少
ないパラメータに対しては、多数話者が発声した多量デ
ータにより学習された標準パターンのパラメータを用い
ることにより精度良く、かつ話者の特徴を反映した学習
が行える。以下、文献1に述べられているよりなHMM
を用いた場合について説明する。
ます、標準パターンを、多数の話者により発声された学
習データを用いて作成する。作成方法は、前述のFBア
ルゴリズムを用いることができる。
習データを用いて作成する。作成方法は、前述のFBア
ルゴリズムを用いることができる。
作成された標準パターンのパラメータの分散を表す値と
して、(3)式の分散σik2を用いる。
して、(3)式の分散σik2を用いる。
続いて、特定話者の学習データを用いてFBアルゴリズ
ムによる学習を行う。この時、分散σik2がある定め
られた閾値Cよりも大きい。
ムによる学習を行う。この時、分散σik2がある定め
られた閾値Cよりも大きい。
σik2> c (8
)なる分散に対するパラメータμmにのみを学習により
更新する。
)なる分散に対するパラメータμmにのみを学習により
更新する。
学習により更新されるパラメータとしては、対応するk
の要素だけでなく、どれか一つの要素が閾値を上回った
場合や、分散を表すベクトルのノルムの値が閾値を上回
った場合などの様々な基準を用いることができる。また
、この場合、対応する遷移確率aIJの更新を行うか否
かの制御も可能である。
の要素だけでなく、どれか一つの要素が閾値を上回った
場合や、分散を表すベクトルのノルムの値が閾値を上回
った場合などの様々な基準を用いることができる。また
、この場合、対応する遷移確率aIJの更新を行うか否
かの制御も可能である。
また、学習による更新を行うか否かの判別に、多数の話
者間のパラメータの分散σextだけでなく、一人の話
者内のパラメータの分散σintを用いることにより、
きめ細かな判別ができるようになる。話者内の分散σi
ntは、一人の話者が多数回発声した学習データからも
とめられた話者内の分散を用いる。複数の話者の話者内
分数をもとに、それらを統合しても良い。このように、
話者内の分散が小さいパラメータは、少ない学習データ
により高精度に学習を行うことができるので特定話者に
対して学習することは好ましい。
者間のパラメータの分散σextだけでなく、一人の話
者内のパラメータの分散σintを用いることにより、
きめ細かな判別ができるようになる。話者内の分散σi
ntは、一人の話者が多数回発声した学習データからも
とめられた話者内の分散を用いる。複数の話者の話者内
分数をもとに、それらを統合しても良い。このように、
話者内の分散が小さいパラメータは、少ない学習データ
により高精度に学習を行うことができるので特定話者に
対して学習することは好ましい。
多数話者の学習データを用いて学習したHMMから求め
たパラメータの分散σextと、そのHMMの各状態に
対応する、一人の話者の複数の発声により求められたパ
ラメータの分散σintが予め定められた閾値c in
t、 c outとの比較により、σext >
c ext かつ (9)a int
< c int QO)なるパラメー
タに対応する標準パターンのパラメータを学習によって
更新する。この更新を行うか否かの判別法として(9)
式と00)式が同時に成立した場合、(9)式または0
0)式が成立した場合等を用いることができる。また分
散σextとσintとの比や、差を用いることもでき
る。
たパラメータの分散σextと、そのHMMの各状態に
対応する、一人の話者の複数の発声により求められたパ
ラメータの分散σintが予め定められた閾値c in
t、 c outとの比較により、σext >
c ext かつ (9)a int
< c int QO)なるパラメー
タに対応する標準パターンのパラメータを学習によって
更新する。この更新を行うか否かの判別法として(9)
式と00)式が同時に成立した場合、(9)式または0
0)式が成立した場合等を用いることができる。また分
散σextとσintとの比や、差を用いることもでき
る。
また、以上の述べた方式では、分散を表す値と閾値との
比較により更新を行うか否かを決定している。このよう
な判別による制御は、処理は簡単であるが閾値の付近で
更新を行うか否かの不連続が生じることや、特定話者の
学習データが少ない場合は、少ない学習データのみから
パラメータを推定することになるという問題がある。そ
こで、これらの分散を表す値を用いて、学習データの学
習の際に重み付けを行う。この方法として、たとえば、
(6)式において、学習データytの内、l≦t≧T
orgを初期モデルを作成した学習データ、T org
< t≦Tを特定話者の学習データとし、(6)式のか
わりに次に示す式を用いてFBアルゴリズムによる学習
を行う。
比較により更新を行うか否かを決定している。このよう
な判別による制御は、処理は簡単であるが閾値の付近で
更新を行うか否かの不連続が生じることや、特定話者の
学習データが少ない場合は、少ない学習データのみから
パラメータを推定することになるという問題がある。そ
こで、これらの分散を表す値を用いて、学習データの学
習の際に重み付けを行う。この方法として、たとえば、
(6)式において、学習データytの内、l≦t≧T
orgを初期モデルを作成した学習データ、T org
< t≦Tを特定話者の学習データとし、(6)式のか
わりに次に示す式を用いてFBアルゴリズムによる学習
を行う。
ここで、f(σref)は、重み関数であり、話者内お
よび/または話者間の分散を表す値σrefの値により
重みの値を決定するものである。この関数は任意の関数
であるが、たとえば話者間の分散σextに対する単調
増加関数を用いることができる。これにより、多数の話
者により学習された特徴と、特定の話者の特徴を兼ね備
えた標準パターンを作成することができる。
よび/または話者間の分散を表す値σrefの値により
重みの値を決定するものである。この関数は任意の関数
であるが、たとえば話者間の分散σextに対する単調
増加関数を用いることができる。これにより、多数の話
者により学習された特徴と、特定の話者の特徴を兼ね備
えた標準パターンを作成することができる。
本発明による標準パターン学習方式を用いた音声認識装
置の実施例について図面を参照して説明する。第1図は
本願の第1の発明による一実施例を示す構成図である。
置の実施例について図面を参照して説明する。第1図は
本願の第1の発明による一実施例を示す構成図である。
メモリ1の中に保持されている多数話者学習データを用
いて、学習部2において前述のFBアルゴリズムにより
多数話者の標準パターン(HMM)を作成しメモリ3中
に保持する。学習部4では、メモリ3中に保持されてい
る多数話者の標準パターンを初期モデルとして、メモリ
5中に保持されている特定話者の学習データを用いてF
Bアルゴリズムにより標準パターンの学習を行う。この
時、比較部6では、メモリ3から多数話者の標準パター
ンの分散σextを読みだし、それが予め定められた閾
値Cより大きい場合、学習部4に対し制御信号を出力す
る。学習部4では、この制御信号に対するパラメータの
み更新を行うようにする。学習部4により求められた標
準パターンはメモリ7に保持される。以上が学習部の動
作である。認識部8では、メモリ7中の標準パターンを
用いて、文献1に述べられているようなHMMを用いた
認識方式により、入力された音声を認識する。
いて、学習部2において前述のFBアルゴリズムにより
多数話者の標準パターン(HMM)を作成しメモリ3中
に保持する。学習部4では、メモリ3中に保持されてい
る多数話者の標準パターンを初期モデルとして、メモリ
5中に保持されている特定話者の学習データを用いてF
Bアルゴリズムにより標準パターンの学習を行う。この
時、比較部6では、メモリ3から多数話者の標準パター
ンの分散σextを読みだし、それが予め定められた閾
値Cより大きい場合、学習部4に対し制御信号を出力す
る。学習部4では、この制御信号に対するパラメータの
み更新を行うようにする。学習部4により求められた標
準パターンはメモリ7に保持される。以上が学習部の動
作である。認識部8では、メモリ7中の標準パターンを
用いて、文献1に述べられているようなHMMを用いた
認識方式により、入力された音声を認識する。
続いて、本願の第2の発明による一実施例における標準
パターン学習部について説明する。第2図は本願の第2
の発明による一実施例を示す構成図である。メモリ11
の中に保持されている多数話者の学習データを用いて、
学習部12において前述のFBアルゴリズムにより多数
話者の標準パターンを作成しメモリ13中に保持する。
パターン学習部について説明する。第2図は本願の第2
の発明による一実施例を示す構成図である。メモリ11
の中に保持されている多数話者の学習データを用いて、
学習部12において前述のFBアルゴリズムにより多数
話者の標準パターンを作成しメモリ13中に保持する。
同時に多数話者の標準パターンのパラメータに対応する
話者間の分散σextがメモリ21に、話者内の分散σ
intがメモリ22に保持される。学習部14では、メ
モリ13中に保持されている多数話者の標準パターンを
初期モデルとして、メモリ15中に保持されている特定
話者の学習データを用いてFBアルゴリズムにより標準
パターンの学習を行う。この時、比較部16では、メモ
リ21から標準パターンのパラメータに対応する話者間
の分散σexts メモリ22から標準パターンのパラ
メータに対応する話者内の分散σintを読みだし、予
め定められた閾値c ext、 c intを用いて、
式(9)0ωをみたす場合、学習部14に対し制御信号
を出力する。学習部14ては、この制御信号に対するパ
ラメータのみ更新を行うようにする。学習部14により
求められた標準パターンはメモリ17に保持される。
話者間の分散σextがメモリ21に、話者内の分散σ
intがメモリ22に保持される。学習部14では、メ
モリ13中に保持されている多数話者の標準パターンを
初期モデルとして、メモリ15中に保持されている特定
話者の学習データを用いてFBアルゴリズムにより標準
パターンの学習を行う。この時、比較部16では、メモ
リ21から標準パターンのパラメータに対応する話者間
の分散σexts メモリ22から標準パターンのパラ
メータに対応する話者内の分散σintを読みだし、予
め定められた閾値c ext、 c intを用いて、
式(9)0ωをみたす場合、学習部14に対し制御信号
を出力する。学習部14ては、この制御信号に対するパ
ラメータのみ更新を行うようにする。学習部14により
求められた標準パターンはメモリ17に保持される。
続いて、本願の第3の発明による一実施例における標準
パターン学習部について説明する。以下第1図を用いて
説明する。本願発明による第1の発明と同様、学習部4
では、メモリ3中に保持されている多数話者の標準パタ
ーンを初期モデルとして、メモリ5中に保持されている
特定話者の学習データを用いてFBアルゴリズムによす
標準パターンの学習を行う。この時、比較部6では、メ
モリ3から多数話者の標準パターンの分散σextを読
みたし、重み関数f(σext)を用いて重みWを求め
、学習部4に対し制御信号として出力する。学習部4で
は、この制御信号Wに対し、Ql)式を用いて更新を行
う。以下第1の発明と同様である。
パターン学習部について説明する。以下第1図を用いて
説明する。本願発明による第1の発明と同様、学習部4
では、メモリ3中に保持されている多数話者の標準パタ
ーンを初期モデルとして、メモリ5中に保持されている
特定話者の学習データを用いてFBアルゴリズムによす
標準パターンの学習を行う。この時、比較部6では、メ
モリ3から多数話者の標準パターンの分散σextを読
みたし、重み関数f(σext)を用いて重みWを求め
、学習部4に対し制御信号として出力する。学習部4で
は、この制御信号Wに対し、Ql)式を用いて更新を行
う。以下第1の発明と同様である。
第2の発明に適用する場合は、比較部16での処理が、
メモリ21から標準パターンのパラメータに対応する話
者間の分散σext、メモリ22から標準パターンのパ
ラメータに対応する話者内の分散σintを読みたし、
重み関数f(σext、σ1nt)を用いて重みWを求
め、学習部14に対して制御信号として出力するように
する。
メモリ21から標準パターンのパラメータに対応する話
者間の分散σext、メモリ22から標準パターンのパ
ラメータに対応する話者内の分散σintを読みたし、
重み関数f(σext、σ1nt)を用いて重みWを求
め、学習部14に対して制御信号として出力するように
する。
本発明によれば、少ない学習データで標準パターンを特
定話者に適応させることにより、高性能の音声認識装置
を実現することができる。
定話者に適応させることにより、高性能の音声認識装置
を実現することができる。
第1図は本願発明による第1の発明による一実施例を示
す構成図、第2図は本願発明による第2の発明による一
実施例を示す構成図、第3図は従来例を説明するだめの
図である。 1.3,5,7,11,13,15,17,21゜22
・・・・・・メモリ、2,4,12.14・・・・・・
学習部、6.16・・・・・比較部、訃・・・・・認識
部。
す構成図、第2図は本願発明による第2の発明による一
実施例を示す構成図、第3図は従来例を説明するだめの
図である。 1.3,5,7,11,13,15,17,21゜22
・・・・・・メモリ、2,4,12.14・・・・・・
学習部、6.16・・・・・比較部、訃・・・・・認識
部。
Claims (1)
- 【特許請求の範囲】 1、あらかじめ作成された標準パターンを、学習データ
に対して適応化する際に、複数の話者間の標準パターン
のパラメータの分散を表す値が予め定められた閾値より
大きい場合、対応するパラメータを学習により更新する
ことを特徴とする音声認識装置のための標準パターン学
習方式。 2、少なくとも複数の話者間の標準パターンのパラメー
タの分散を表す値および、一人の話者の標準パターンの
パラメータの分散を表す値とを含む値により更新するパ
ラメータを決定することを特徴とする請求項1記載の音
声認識装置のための標準パターン学習方式。 3、少なくともあらかじめ作成された標準パターンの持
つ値および学習データを前記分散を表す値とを含む値に
より重み付けして学習することを特徴とする請求項1ま
たは2記載の音声認識装置のための標準パターン学習方
式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008790A JP2701500B2 (ja) | 1990-01-17 | 1990-01-17 | 音声認識装置のための標準パターン学習方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008790A JP2701500B2 (ja) | 1990-01-17 | 1990-01-17 | 音声認識装置のための標準パターン学習方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03212696A true JPH03212696A (ja) | 1991-09-18 |
JP2701500B2 JP2701500B2 (ja) | 1998-01-21 |
Family
ID=11702661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008790A Expired - Lifetime JP2701500B2 (ja) | 1990-01-17 | 1990-01-17 | 音声認識装置のための標準パターン学習方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2701500B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8918318B2 (en) | 2007-01-16 | 2014-12-23 | Nec Corporation | Extended recognition dictionary learning device and speech recognition system |
-
1990
- 1990-01-17 JP JP2008790A patent/JP2701500B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2701500B2 (ja) | 1998-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4590692B2 (ja) | 音響モデル作成装置及びその方法 | |
JP5418223B2 (ja) | 音声分類装置、音声分類方法、および音声分類用プログラム | |
Woodland | Speaker adaptation for continuous density HMMs: A review | |
JP4109063B2 (ja) | 音声認識装置及び音声認識方法 | |
JPH10512686A (ja) | 個別話者に適応した音声認識のための方法及び装置 | |
US20050228666A1 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system | |
JP2002156993A (ja) | 複数の学習話者を表現する固有空間の特定方法 | |
KR100574769B1 (ko) | 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법 | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
JP2852298B2 (ja) | 標準パターン適応化方式 | |
JP3467556B2 (ja) | 音声認識装置 | |
Liu et al. | Temporally varying weight regression: A semi-parametric trajectory model for automatic speech recognition | |
JPH03212696A (ja) | 音声認識装置のための標準パターン学習方式 | |
JP2570448B2 (ja) | 標準パターン学習方法 | |
JP4510517B2 (ja) | 音響モデル雑音適応化方法およびこの方法を実施する装置 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP2705537B2 (ja) | 話者学習装置 | |
Kim et al. | Deleted strategy for MMI-based HMM training | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JP3251005B2 (ja) | 標準パターン作成方法 | |
JP3044741B2 (ja) | 標準パターン学習方法 | |
JPH0990981A (ja) | パターン認識のためのモデル学習方法 | |
JP2926784B2 (ja) | Hmm作成装置 | |
JPH06175678A (ja) | 音声認識装置 | |
JP2836968B2 (ja) | 信号解析装置 |