JPH1195786A - パターン認識方法および装置とパターン認識プログラムを格納した記録媒体 - Google Patents
パターン認識方法および装置とパターン認識プログラムを格納した記録媒体Info
- Publication number
- JPH1195786A JPH1195786A JP9251069A JP25106997A JPH1195786A JP H1195786 A JPH1195786 A JP H1195786A JP 9251069 A JP9251069 A JP 9251069A JP 25106997 A JP25106997 A JP 25106997A JP H1195786 A JPH1195786 A JP H1195786A
- Authority
- JP
- Japan
- Prior art keywords
- model
- noise
- condition
- recognition
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
(57)【要約】
【課題】 条件変動前の初期音響モデルを条件変動後で
ある認識時の環境条件に整合したモデルに近づけて、認
識性能を向上するパターン認識方法および装置とパター
ン認識プログラムを格納した記録媒体を提供する。 【解決手段】 初期雑音HMMと初期雑音重畳音声HM
Mからヤコビ行列およびヘッセ行列をそれぞれヤコビ行
列計算部7およびヘッセ行列計算部9で計算しておき、
認識時の雑音を抽出して適応対象雑音HMMとして求
め、適応対象雑音HMMとモデル学習時の雑音重畳音声
HMMとの差分を求め、この差分およびヤコビ行列とヘ
ッセ行列に基づくテイラー展開の2次項までの展開式に
よって雑音重畳音声HMMを更新して、適応処理した雑
音重畳音声HMMを求め、この適応処理した雑音重畳音
声HMMを用いて雑音重畳音声の認識を行う。
ある認識時の環境条件に整合したモデルに近づけて、認
識性能を向上するパターン認識方法および装置とパター
ン認識プログラムを格納した記録媒体を提供する。 【解決手段】 初期雑音HMMと初期雑音重畳音声HM
Mからヤコビ行列およびヘッセ行列をそれぞれヤコビ行
列計算部7およびヘッセ行列計算部9で計算しておき、
認識時の雑音を抽出して適応対象雑音HMMとして求
め、適応対象雑音HMMとモデル学習時の雑音重畳音声
HMMとの差分を求め、この差分およびヤコビ行列とヘ
ッセ行列に基づくテイラー展開の2次項までの展開式に
よって雑音重畳音声HMMを更新して、適応処理した雑
音重畳音声HMMを求め、この適応処理した雑音重畳音
声HMMを用いて雑音重畳音声の認識を行う。
Description
【0001】
【発明の属する技術分野】本発明は、例えば音声、文
字、図形などのような認識すべき対象を隠れマルコフモ
デルを用いて表現するパターン認識においてモデル作成
時の条件とモデル使用時である認識実行時の条件の違い
によるモデルの不整合を補正し、認識性能を向上するた
めのパターン認識方法および装置とパターン認識プログ
ラムを格納した記録媒体に関する。
字、図形などのような認識すべき対象を隠れマルコフモ
デルを用いて表現するパターン認識においてモデル作成
時の条件とモデル使用時である認識実行時の条件の違い
によるモデルの不整合を補正し、認識性能を向上するた
めのパターン認識方法および装置とパターン認識プログ
ラムを格納した記録媒体に関する。
【0002】
【従来の技術】本発明は、隠れマルコフモデル(Hidden
Markov Model,以下HMMと略称する)(例えば、中川
“確率モデルによる音声認識”、電子情報通信学会)を
用いた様々なパターン認識に適用可能であるが、以下で
は音声を例に説明する。
Markov Model,以下HMMと略称する)(例えば、中川
“確率モデルによる音声認識”、電子情報通信学会)を
用いた様々なパターン認識に適用可能であるが、以下で
は音声を例に説明する。
【0003】音声認識では、学習用音声データから求め
た音響モデル(音素モデル、音節モデル、単語モデルな
ど)と入力音声データを照合して尤度を求め、認識結果
を得る。モデルのパラメータは学習用音声データを収録
した条件(背景雑音、回線歪み、話者、声道長など)に
大きく依存する。従って、この音声収録条件と実際の認
識時の条件とが異なる場合、入力音声パターンとモデル
との不整合が生じ、結果として認識率が低下する。
た音響モデル(音素モデル、音節モデル、単語モデルな
ど)と入力音声データを照合して尤度を求め、認識結果
を得る。モデルのパラメータは学習用音声データを収録
した条件(背景雑音、回線歪み、話者、声道長など)に
大きく依存する。従って、この音声収録条件と実際の認
識時の条件とが異なる場合、入力音声パターンとモデル
との不整合が生じ、結果として認識率が低下する。
【0004】入力音声データと音響モデルとの不整合に
よる認識率の低下を防ぐには、認識を実行する際の条件
と同じ条件で収録した音声データを使って、モデルを作
成し直せばよい。しかし、HMMのような統計的手法に
基づくモデルは、膨大な量の学習音声データが必要で、
処理に時間がかかる(例えば100時間)。そこで、不
整合が生じているモデルを少量の学習データと少ない処
理時間で実際の認識時の条件に整合したモデルに近づけ
る適応技術が必要となる。
よる認識率の低下を防ぐには、認識を実行する際の条件
と同じ条件で収録した音声データを使って、モデルを作
成し直せばよい。しかし、HMMのような統計的手法に
基づくモデルは、膨大な量の学習音声データが必要で、
処理に時間がかかる(例えば100時間)。そこで、不
整合が生じているモデルを少量の学習データと少ない処
理時間で実際の認識時の条件に整合したモデルに近づけ
る適応技術が必要となる。
【0005】条件が変化する例として、発声時の背景雑
音の変化があげられる。モデル学習用音声データ収録時
の背景雑音と実際の認識時の条件の背景雑音が異なれ
ば、認識率の低下が生じる。モデルの背景雑音への適応
には、従来の技術としてPMC(例えば、M.J.F.Gales
他“An Improved Approach to the Hidden Markov Mode
l Decomposition of Speech And Noise,”Proc.of ICAS
SP92,pp.233-236,1992)やNOVO合成法(例えば、F.
Martin他、“Recognition of Noisy Speech by Using t
he Composition of Hidden Markov Models, ”日本音響
学会 平成4年度秋季研究発表会 講演論文集、pp.65-
66)などのHMM合成法がある。HMM合成法とは、防
音室などで収録した雑音が含まれていない音声で学習し
たHMM(以下、クリーン音声HMMと記す)と、認識
時の背景雑音のみで学習したHMM(以下、雑音HMM
と記す)を合成し、認識時の雑音が重畳し、入力音声で
整合したHMMを求める適応手法である。HMM合成法
を用いれば、雑音HMMの学習と、モデル合成の処理時
間のみで済むので、膨大な量の音声データを用いてモデ
ルを作成し直すよりも、少ない時間でモデルを適応する
ことができる。
音の変化があげられる。モデル学習用音声データ収録時
の背景雑音と実際の認識時の条件の背景雑音が異なれ
ば、認識率の低下が生じる。モデルの背景雑音への適応
には、従来の技術としてPMC(例えば、M.J.F.Gales
他“An Improved Approach to the Hidden Markov Mode
l Decomposition of Speech And Noise,”Proc.of ICAS
SP92,pp.233-236,1992)やNOVO合成法(例えば、F.
Martin他、“Recognition of Noisy Speech by Using t
he Composition of Hidden Markov Models, ”日本音響
学会 平成4年度秋季研究発表会 講演論文集、pp.65-
66)などのHMM合成法がある。HMM合成法とは、防
音室などで収録した雑音が含まれていない音声で学習し
たHMM(以下、クリーン音声HMMと記す)と、認識
時の背景雑音のみで学習したHMM(以下、雑音HMM
と記す)を合成し、認識時の雑音が重畳し、入力音声で
整合したHMMを求める適応手法である。HMM合成法
を用いれば、雑音HMMの学習と、モデル合成の処理時
間のみで済むので、膨大な量の音声データを用いてモデ
ルを作成し直すよりも、少ない時間でモデルを適応する
ことができる。
【0006】しかし、依然として、雑音HMMの学習デ
ータを得るための雑音収録時間が比較的長いこと(例え
ば15秒)、モデル合成の処理時間も10秒程度必要な
ことから、時々刻々と変化する条件に応じてモデルを実
時間で適応させることは難しい。
ータを得るための雑音収録時間が比較的長いこと(例え
ば15秒)、モデル合成の処理時間も10秒程度必要な
ことから、時々刻々と変化する条件に応じてモデルを実
時間で適応させることは難しい。
【0007】これらHMM合成法の問題点を解決するた
めの手法としてヤコビアン適応法(例えば、山口他、
“Taylor展開に基づく高速な音響モデル適応法、”日本
音響学会 平成8年度秋季研究発表会 講演論文集、p
p.151-152)がある。ヤコビアン適応法とは、条件変動
前の初期音響モデルを、条件変動後(認識時)の環境条
件に整合したモデルに近づけるために、初期モデルを基
にして、条件変動後に観測した少量の条件を表現するデ
ータを用いてモデルを高速に適応する方法である。
めの手法としてヤコビアン適応法(例えば、山口他、
“Taylor展開に基づく高速な音響モデル適応法、”日本
音響学会 平成8年度秋季研究発表会 講演論文集、p
p.151-152)がある。ヤコビアン適応法とは、条件変動
前の初期音響モデルを、条件変動後(認識時)の環境条
件に整合したモデルに近づけるために、初期モデルを基
にして、条件変動後に観測した少量の条件を表現するデ
ータを用いてモデルを高速に適応する方法である。
【0008】雑音ケプストラムベクトルCN (例えば、
古井“ディジタル音声処理”、東海大学出版会)が変動
したときの背景雑音が重畳した音声(以下、雑音重畳音
声と記す)のケプストラムベクトルCS+N の変動分はテ
イラー展開の1次項までを用いて以下のように求められ
る。
古井“ディジタル音声処理”、東海大学出版会)が変動
したときの背景雑音が重畳した音声(以下、雑音重畳音
声と記す)のケプストラムベクトルCS+N の変動分はテ
イラー展開の1次項までを用いて以下のように求められ
る。
【0009】
【数1】 Δは各パラメータの変動分を意味する。
【0010】上記式(1)中のJC はヤコビ行列であ
り、この行列のi行j列目の値は以下のようにして求め
られる。
り、この行列のi行j列目の値は以下のようにして求め
られる。
【0011】
【数2】 ここで、N,Sは雑音および音声のスペクトルベクト
ル、N(k),S(k)はその第k要素を意味する。F
はフーリエ変換行列、F*はその転置共役行列であり、
[A]ijは行列Aのi行j列目の要素を意味する。Pは
ケプストラムベクトルの次数である。ヤコビ行列JC は
雑音スペクトルN、雑音重畳音声スペクトラムS+N、
そして定数値である変換行列F,F*から計算可能であ
るので、背景雑音の変化を観測する前に、つまりモデル
学習時に背景雑音を収録した時点で予め計算し、記憶し
ておくことができる。従って、背景雑音の変化を観測し
た後は、式(1)のような少ない演算量によって雑音変
動後の雑音重畳音声ケプストラムを求めることができ
る。
ル、N(k),S(k)はその第k要素を意味する。F
はフーリエ変換行列、F*はその転置共役行列であり、
[A]ijは行列Aのi行j列目の要素を意味する。Pは
ケプストラムベクトルの次数である。ヤコビ行列JC は
雑音スペクトルN、雑音重畳音声スペクトラムS+N、
そして定数値である変換行列F,F*から計算可能であ
るので、背景雑音の変化を観測する前に、つまりモデル
学習時に背景雑音を収録した時点で予め計算し、記憶し
ておくことができる。従って、背景雑音の変化を観測し
た後は、式(1)のような少ない演算量によって雑音変
動後の雑音重畳音声ケプストラムを求めることができ
る。
【0012】式(1)を用いて音響モデルの適応を行う
には、式(1)中のCS+N を雑音重畳音声HMMの各状
態に存在する出力確率分布のケプストラム平均ベクト
ル、CN を雑音HMMの各状態に存在する出力確率分布
のケプストラム平均ベクトルとすると、条件変動後の環
境に雑音重畳音声HMMを適応することができる。
には、式(1)中のCS+N を雑音重畳音声HMMの各状
態に存在する出力確率分布のケプストラム平均ベクト
ル、CN を雑音HMMの各状態に存在する出力確率分布
のケプストラム平均ベクトルとすると、条件変動後の環
境に雑音重畳音声HMMを適応することができる。
【0013】上記のヤコビアン適応法は適応に要する計
算量が少ない(例えば150ミリ秒)点および適応に用
いるデータを得るための収録時間が短い(500ミリ
秒)点を特徴としている。これらの特徴から、ヤコビア
ン適応法を用いて時々刻々と変化する条件に応じてモデ
ルを実時間で適応させることが可能となった。
算量が少ない(例えば150ミリ秒)点および適応に用
いるデータを得るための収録時間が短い(500ミリ
秒)点を特徴としている。これらの特徴から、ヤコビア
ン適応法を用いて時々刻々と変化する条件に応じてモデ
ルを実時間で適応させることが可能となった。
【0014】
【発明が解決しようとする課題】上述したヤコビアン適
応法では、モデルパラメータの変動分を条件を表現する
パラメータの変動分から求めるためにテイラー展開の1
次項までを用いて近似計算を行っているため、認識精度
の向上を妨げているという問題がある。
応法では、モデルパラメータの変動分を条件を表現する
パラメータの変動分から求めるためにテイラー展開の1
次項までを用いて近似計算を行っているため、認識精度
の向上を妨げているという問題がある。
【0015】本発明は、上記に鑑みてなされたもので、
その目的とするところは、条件変動前の初期音響モデル
を条件変動後である認識時の環境条件に整合したモデル
に近づけるために初期モデルを基準モデルとして条件変
動後に観測した少量の条件を表現するデータを用いてモ
デルを適応するヤコビアン適応法の認識性能を向上する
パターン認識方法および装置とパターン認識プログラム
を格納した記録媒体を提供することにある。
その目的とするところは、条件変動前の初期音響モデル
を条件変動後である認識時の環境条件に整合したモデル
に近づけるために初期モデルを基準モデルとして条件変
動後に観測した少量の条件を表現するデータを用いてモ
デルを適応するヤコビアン適応法の認識性能を向上する
パターン認識方法および装置とパターン認識プログラム
を格納した記録媒体を提供することにある。
【0016】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、入力ベクトル時系列に対
し、各認識カテゴリの特徴を表現した確率モデルの尤度
を計算し、最も尤度の高いモデルが表現するカテゴリを
認識結果として出力するパターン認識において、前記確
率モデルのパラメータを求めるための学習データを収集
した時の条件と認識時の条件との間に不整合が生じた場
合、条件変動後のモデルパラメータを該モデルパラメー
タと条件を表現するパラメータに関するテイラー展開の
0次項、1次項、および2次項より求めることを要旨と
する。
め、請求項1記載の本発明は、入力ベクトル時系列に対
し、各認識カテゴリの特徴を表現した確率モデルの尤度
を計算し、最も尤度の高いモデルが表現するカテゴリを
認識結果として出力するパターン認識において、前記確
率モデルのパラメータを求めるための学習データを収集
した時の条件と認識時の条件との間に不整合が生じた場
合、条件変動後のモデルパラメータを該モデルパラメー
タと条件を表現するパラメータに関するテイラー展開の
0次項、1次項、および2次項より求めることを要旨と
する。
【0017】請求項1記載の本発明にあっては、条件変
動後のモデルパラメータを該モデルパラメータと条件を
表現するパラメータに関するテイラー展開の0次項、1
次項、および2次項より求めるため、認識性能を向上す
ることができる。
動後のモデルパラメータを該モデルパラメータと条件を
表現するパラメータに関するテイラー展開の0次項、1
次項、および2次項より求めるため、認識性能を向上す
ることができる。
【0018】また、請求項2記載の本発明は、請求項1
記載の発明において、認識時の条件が時々刻々変化する
場合、以前の条件で適応して得られたモデルを初期モデ
ルとし、現在の条件に適合するようにテイラー展開を用
いて適応することを繰り返し行うことを要旨とする。
記載の発明において、認識時の条件が時々刻々変化する
場合、以前の条件で適応して得られたモデルを初期モデ
ルとし、現在の条件に適合するようにテイラー展開を用
いて適応することを繰り返し行うことを要旨とする。
【0019】請求項2記載の本発明にあっては、以前の
条件で適応して得られたモデルを初期モデルとし、現在
の条件に適合するようにテイラー展開を用いて適応す
る。
条件で適応して得られたモデルを初期モデルとし、現在
の条件に適合するようにテイラー展開を用いて適応す
る。
【0020】更に、請求項3記載の本発明は、請求項1
または2記載の発明において、前記適応処理においてテ
イラー展開を用いてモデルパラメータの変動量を求める
際に、テイラー展開のヤコビ行列とヘッセ行列を条件変
動前に予め展開して記憶しておき、適応処理の時点でそ
の値を用いることを要旨とする。
または2記載の発明において、前記適応処理においてテ
イラー展開を用いてモデルパラメータの変動量を求める
際に、テイラー展開のヤコビ行列とヘッセ行列を条件変
動前に予め展開して記憶しておき、適応処理の時点でそ
の値を用いることを要旨とする。
【0021】請求項3記載の本発明にあっては、テイラ
ー展開のヤコビ行列とヘッセ行列を条件変動前に予め展
開して記憶しておき、適応処理の時点でその値を用い
る。
ー展開のヤコビ行列とヘッセ行列を条件変動前に予め展
開して記憶しておき、適応処理の時点でその値を用い
る。
【0022】請求項4記載の本発明は、請求項1または
2記載の発明において、前記適応処理においてテイラー
展開を用いてモデルパラメータの変動量を求める際に、
記憶させた複数の初期モデルのそれぞれに対するテイラ
ー展開のヤコビ行列とヘッセ行列を条件変動前に予め展
開して、そのすべてを記憶しておき、適応処理の時点で
現在の条件に最も類似したものとして選択された初期モ
デルに対応するヤコビ行列とヘッセ行列を用いることを
要旨とする。
2記載の発明において、前記適応処理においてテイラー
展開を用いてモデルパラメータの変動量を求める際に、
記憶させた複数の初期モデルのそれぞれに対するテイラ
ー展開のヤコビ行列とヘッセ行列を条件変動前に予め展
開して、そのすべてを記憶しておき、適応処理の時点で
現在の条件に最も類似したものとして選択された初期モ
デルに対応するヤコビ行列とヘッセ行列を用いることを
要旨とする。
【0023】請求項4記載の本発明にあっては、記憶さ
せた複数の初期モデルのそれぞれに対するテイラー展開
のヤコビ行列とヘッセ行列を条件変動前に予め展開し
て、そのすべてを記憶しておき、適応処理の時点で現在
の条件に最も類似したものとして選択された初期モデル
に対応するヤコビ行列とヘッセ行列を用いる。
せた複数の初期モデルのそれぞれに対するテイラー展開
のヤコビ行列とヘッセ行列を条件変動前に予め展開し
て、そのすべてを記憶しておき、適応処理の時点で現在
の条件に最も類似したものとして選択された初期モデル
に対応するヤコビ行列とヘッセ行列を用いる。
【0024】また、請求項5記載の本発明は、請求項1
乃至4のいずれかに記載の発明において、前記確率モデ
ルが隠れマルコフモデルであることを要旨とする。
乃至4のいずれかに記載の発明において、前記確率モデ
ルが隠れマルコフモデルであることを要旨とする。
【0025】請求項5記載の本発明にあっては、確率モ
デルが隠れマルコフモデルである。
デルが隠れマルコフモデルである。
【0026】更に、請求項6記載の本発明は、請求項1
乃至5のいずれかに記載の発明において、前記入力ベク
トルが音声の特徴量であり、前記条件が音声収録時の背
景雑音または音声を発した話者の声道長であることを要
旨とする。
乃至5のいずれかに記載の発明において、前記入力ベク
トルが音声の特徴量であり、前記条件が音声収録時の背
景雑音または音声を発した話者の声道長であることを要
旨とする。
【0027】請求項6記載の本発明にあっては、入力ベ
クトルは音声の特徴量であり、条件が音声収録時の背景
雑音または音声を発した話者の声道長である。
クトルは音声の特徴量であり、条件が音声収録時の背景
雑音または音声を発した話者の声道長である。
【0028】請求項7記載の本発明は、請求項6記載の
発明において、条件変動前のモデルパラメータが、雑音
の含まれていない音声から求められたモデルと条件変動
前の背景雑音から求められたモデルの合成により得られ
たモデルであることを要旨とする。
発明において、条件変動前のモデルパラメータが、雑音
の含まれていない音声から求められたモデルと条件変動
前の背景雑音から求められたモデルの合成により得られ
たモデルであることを要旨とする。
【0029】請求項7記載の本発明にあっては、条件変
動前のモデルパラメータは雑音の含まれていない音声か
ら求められたモデルと条件変動前の背景雑音から求めら
れたモデルの合成により得られたモデルである。
動前のモデルパラメータは雑音の含まれていない音声か
ら求められたモデルと条件変動前の背景雑音から求めら
れたモデルの合成により得られたモデルである。
【0030】また、請求項8記載の本発明は、入力ベク
トル時系列に対し、各認識カテゴリの特徴を表現した確
率モデルの尤度を計算し、最も尤度の高いモデルが表現
するカテゴリを認識結果として出力するパターン認識装
置であって、ベクトル値を入力するベクトル入力部と、
該ベクトル入力部で入力されたベクトルから条件を表現
するパラメータを抽出するパラメータ抽出部と、該パラ
メータ抽出部で抽出された条件を表現するパラメータか
ら初期条件確率モデルを生成して記憶する初期条件確率
モデル生成記憶部と、初期条件重畳確率モデルを生成す
るために必要な確率モデルを記憶する確率モデル記憶部
と、該確率モデル記憶部と前記初期条件確率モデル生成
記憶部に記憶されたモデルから初期条件重畳確率モデル
を生成して記憶する初期条件重畳確率モデル生成記憶部
と、前記初期条件確率モデル生成記憶部と前記初期条件
重畳確率モデル生成記憶部に記憶されたモデルからヤコ
ビ行列を計算して記憶するヤコビ行列計算記憶部と、前
記初期条件確率モデル生成記憶部と前記初期条件重畳確
率モデル生成記憶部に記憶されたモデルからヘッセ行列
を計算して記憶するヘッセ行列計算記憶部と、認識時の
条件を前記ベクトル入力部で測定し、前記パラメータ抽
出部で抽出された条件を表現するパラメータから求めた
適応対象条件確率モデルと前記初期条件確率モデルとの
差分を算出する差分算出部と、前記差分、前記初期条件
重畳確率モデル生成記憶部に記憶されたモデル、前記ヤ
コビ行列計算記憶部に記憶されたヤコビ行列、および前
記ヘッセ行列計算記憶部に記憶されたヘッセ行列から新
しい条件重畳確率モデルを計算して記憶する確率モデル
生成記憶部と、該確率モデル生成記憶部に記憶された確
率モデルを用いて、入力ベクトルの認識を行うパターン
認識部と、該パターン認識部の認識出力結果を出力する
認識結果出力部とを有することを要旨とする。
トル時系列に対し、各認識カテゴリの特徴を表現した確
率モデルの尤度を計算し、最も尤度の高いモデルが表現
するカテゴリを認識結果として出力するパターン認識装
置であって、ベクトル値を入力するベクトル入力部と、
該ベクトル入力部で入力されたベクトルから条件を表現
するパラメータを抽出するパラメータ抽出部と、該パラ
メータ抽出部で抽出された条件を表現するパラメータか
ら初期条件確率モデルを生成して記憶する初期条件確率
モデル生成記憶部と、初期条件重畳確率モデルを生成す
るために必要な確率モデルを記憶する確率モデル記憶部
と、該確率モデル記憶部と前記初期条件確率モデル生成
記憶部に記憶されたモデルから初期条件重畳確率モデル
を生成して記憶する初期条件重畳確率モデル生成記憶部
と、前記初期条件確率モデル生成記憶部と前記初期条件
重畳確率モデル生成記憶部に記憶されたモデルからヤコ
ビ行列を計算して記憶するヤコビ行列計算記憶部と、前
記初期条件確率モデル生成記憶部と前記初期条件重畳確
率モデル生成記憶部に記憶されたモデルからヘッセ行列
を計算して記憶するヘッセ行列計算記憶部と、認識時の
条件を前記ベクトル入力部で測定し、前記パラメータ抽
出部で抽出された条件を表現するパラメータから求めた
適応対象条件確率モデルと前記初期条件確率モデルとの
差分を算出する差分算出部と、前記差分、前記初期条件
重畳確率モデル生成記憶部に記憶されたモデル、前記ヤ
コビ行列計算記憶部に記憶されたヤコビ行列、および前
記ヘッセ行列計算記憶部に記憶されたヘッセ行列から新
しい条件重畳確率モデルを計算して記憶する確率モデル
生成記憶部と、該確率モデル生成記憶部に記憶された確
率モデルを用いて、入力ベクトルの認識を行うパターン
認識部と、該パターン認識部の認識出力結果を出力する
認識結果出力部とを有することを要旨とする。
【0031】請求項8記載の本発明にあっては、ベクト
ル入力部で入力されたベクトルからパラメータ抽出部に
よって抽出した条件を表現するパラメータから初期条件
確率モデルを生成し、初期条件重畳確率モデルを生成す
るために必要な確率モデルを確率モデル記憶部に記憶
し、該確率モデル記憶部に記憶された確率モデルと初期
条件確率モデルから初期条件重畳確率モデルを生成し、
初期条件確率モデルと初期条件重畳確率モデルからヤコ
ビ行列を計算し、初期条件確率モデルと初期条件重畳確
率モデルからヘッセ行列を計算し、認識時の条件をベク
トル入力部で測定し、パラメータ抽出部で抽出された条
件を表現するパラメータから求めた適応対象条件確率モ
デルと初期条件確率モデルとの差分を算出し、該差分、
初期条件重畳確率モデル、ヤコビ行列、およびヘッセ行
列から新しい条件重畳確率モデルを計算して確率モデル
生成記憶部に記憶し、該確率モデル生成記憶部に記憶さ
れた確率モデルを用いて、入力ベクトルのパターン認識
を行う。
ル入力部で入力されたベクトルからパラメータ抽出部に
よって抽出した条件を表現するパラメータから初期条件
確率モデルを生成し、初期条件重畳確率モデルを生成す
るために必要な確率モデルを確率モデル記憶部に記憶
し、該確率モデル記憶部に記憶された確率モデルと初期
条件確率モデルから初期条件重畳確率モデルを生成し、
初期条件確率モデルと初期条件重畳確率モデルからヤコ
ビ行列を計算し、初期条件確率モデルと初期条件重畳確
率モデルからヘッセ行列を計算し、認識時の条件をベク
トル入力部で測定し、パラメータ抽出部で抽出された条
件を表現するパラメータから求めた適応対象条件確率モ
デルと初期条件確率モデルとの差分を算出し、該差分、
初期条件重畳確率モデル、ヤコビ行列、およびヘッセ行
列から新しい条件重畳確率モデルを計算して確率モデル
生成記憶部に記憶し、該確率モデル生成記憶部に記憶さ
れた確率モデルを用いて、入力ベクトルのパターン認識
を行う。
【0032】更に、請求項9記載の本発明は、入力ベク
トル時系列に対し、各認識カテゴリの特徴を表現した確
率モデルの尤度を計算し、最も尤度の高いモデルが表現
するカテゴリを認識結果として出力するパターン認識に
おいて、前記確率モデルのパラメータを求めるための学
習データを収集した時の条件と認識時の条件との間に不
整合が生じた場合、条件変動後のモデルパラメータを該
モデルパラメータと条件を表現するパラメータに関する
テイラー展開の0次項、1次項、および2次項より求め
ることを要旨とする。
トル時系列に対し、各認識カテゴリの特徴を表現した確
率モデルの尤度を計算し、最も尤度の高いモデルが表現
するカテゴリを認識結果として出力するパターン認識に
おいて、前記確率モデルのパラメータを求めるための学
習データを収集した時の条件と認識時の条件との間に不
整合が生じた場合、条件変動後のモデルパラメータを該
モデルパラメータと条件を表現するパラメータに関する
テイラー展開の0次項、1次項、および2次項より求め
ることを要旨とする。
【0033】請求項9記載の本発明にあっては、条件変
動後のモデルパラメータを該モデルパラメータと条件を
表現するパラメータに関するテイラー展開の0次項、1
次項、および2次項より求めるパターン認識プログラム
を記録媒体として記録しているため、該記録媒体を用い
て、その流通性を高めることができる。
動後のモデルパラメータを該モデルパラメータと条件を
表現するパラメータに関するテイラー展開の0次項、1
次項、および2次項より求めるパターン認識プログラム
を記録媒体として記録しているため、該記録媒体を用い
て、その流通性を高めることができる。
【0034】請求項10記載の本発明は、請求項9記載
の発明において、認識時の条件が時々刻々変化する場
合、以前の条件で適応して得られたモデルを初期モデル
とし、現在の条件に適合するようにテイラー展開を用い
て適応することを繰り返し行うことを要旨とする。
の発明において、認識時の条件が時々刻々変化する場
合、以前の条件で適応して得られたモデルを初期モデル
とし、現在の条件に適合するようにテイラー展開を用い
て適応することを繰り返し行うことを要旨とする。
【0035】請求項10記載の本発明にあっては、以前
の条件で適応して得られたモデルを初期モデルとし、現
在の条件に適合するようにテイラー展開を用いて適応す
る。
の条件で適応して得られたモデルを初期モデルとし、現
在の条件に適合するようにテイラー展開を用いて適応す
る。
【0036】また、請求項11記載の本発明は、請求項
9または10記載の発明において、前記適応処理におい
てテイラー展開を用いてモデルパラメータの変動量を求
める際に、テイラー展開のヤコビ行列とヘッセ行列を条
件変動前に予め展開して記憶しておき、適応処理の時点
でその値を用いることを要旨とする。
9または10記載の発明において、前記適応処理におい
てテイラー展開を用いてモデルパラメータの変動量を求
める際に、テイラー展開のヤコビ行列とヘッセ行列を条
件変動前に予め展開して記憶しておき、適応処理の時点
でその値を用いることを要旨とする。
【0037】請求項11記載の本発明にあっては、テイ
ラー展開のヤコビ行列とヘッセ行列を条件変動前に予め
展開して記憶しておき、適応処理の時点でその値を用い
る。
ラー展開のヤコビ行列とヘッセ行列を条件変動前に予め
展開して記憶しておき、適応処理の時点でその値を用い
る。
【0038】
【発明の実施の形態】本発明のパターン認識方法は、上
述した問題を解決するために、条件変動後のモデルパラ
メータを該モデルパラメータと条件を表現するパラメー
タに関するテイラー展開の2次項までを考慮するもので
ある。
述した問題を解決するために、条件変動後のモデルパラ
メータを該モデルパラメータと条件を表現するパラメー
タに関するテイラー展開の2次項までを考慮するもので
ある。
【0039】まず、テイラー展開について説明する。ベ
クトルx,yを考える。
クトルx,yを考える。
【0040】 y=f(x) …(3) つまり、ベクトルyはベクトルxについての線形または
非線形の関数f(x)で表される。ここで、ベクトルx
が微小変動した場合のベクトルyの変動量を考える。
非線形の関数f(x)で表される。ここで、ベクトルx
が微小変動した場合のベクトルyの変動量を考える。
【0041】 y+Δy=f(x+Δx) …(4) 関数f(x)をxについてのテイラー展開を行うと以下
のようになる。
のようになる。
【0042】
【数3】 従って、ベクトルの微小変動分Δx,Δyには、上記の
テイラー展開式の2次項までを考慮すると以下の関係が
成り立つことがわかる。
テイラー展開式の2次項までを考慮すると以下の関係が
成り立つことがわかる。
【0043】
【数4】 上記式(7)に従えば、条件を表現するパラメータの変
動によってモデルパラメータが変動した場合でも、条件
を表現するパラメータの変動分Δxを観測すれば、ベク
トルxからベクトルyへの非線形な写像による複雑な計
算をせずに、モデルパラメータの変動分Δyを少ない演
算量で求めることができる。
動によってモデルパラメータが変動した場合でも、条件
を表現するパラメータの変動分Δxを観測すれば、ベク
トルxからベクトルyへの非線形な写像による複雑な計
算をせずに、モデルパラメータの変動分Δyを少ない演
算量で求めることができる。
【0044】更に、2次項までを考慮した近似計算を行
っているため、図1に示すように、従来の1次項までを
用いたヤコビアン適応法より、モデルパラメータの精密
な近似および更新が可能である。
っているため、図1に示すように、従来の1次項までを
用いたヤコビアン適応法より、モデルパラメータの精密
な近似および更新が可能である。
【0045】そこで、条件が変動する例として、音声認
識において、背景雑音が変動する場合を考える。初期モ
デル学習時の背景雑音と、認識時の背景雑音との間の変
化によって起きるモデルの不整合を補正する雑音適応の
例を説明する(図1)。
識において、背景雑音が変動する場合を考える。初期モ
デル学習時の背景雑音と、認識時の背景雑音との間の変
化によって起きるモデルの不整合を補正する雑音適応の
例を説明する(図1)。
【0046】雑音ケプストラムCN に関する雑音重畳音
声ケプストラムCS+N のテイラー展開の2次項までを次
式に示す。
声ケプストラムCS+N のテイラー展開の2次項までを次
式に示す。
【0047】
【数5】 式(8)の1次項はヤコビアン適応法にも共通に用いら
れている項であり、以下のように与えられる。
れている項であり、以下のように与えられる。
【0048】
【数6】 ここで、Tはベクトルの転置を表す。HC はヘッセ行列
であり、HC (p)は雑音重畳音声ケプストラムの第p
要素の計算に用いるヘッセ行列である。
であり、HC (p)は雑音重畳音声ケプストラムの第p
要素の計算に用いるヘッセ行列である。
【0049】このヘッセ行列は以下のように計算でき
る。
る。
【0050】
【数7】 つまり、ヘッセ行列HC の各要素は、ヤコビ行列JC と
同様に、雑音スペクトラムNと雑音重畳音声スペクトル
S+N、そして定数値である変換行列F,F*から求め
ることができる。雑音スペクトルNと雑音重畳音声スペ
クトルS+Nは、それぞれ雑音ケプストラムCN と雑音
重畳音声ケプストラムCS+N を線形スペクトラムに変換
することで求められる。従って、モデル学習時に背景雑
音を収録した時点で、ヤコビ行列およびヘッセ行列を計
算しておくことができる。
同様に、雑音スペクトラムNと雑音重畳音声スペクトル
S+N、そして定数値である変換行列F,F*から求め
ることができる。雑音スペクトルNと雑音重畳音声スペ
クトルS+Nは、それぞれ雑音ケプストラムCN と雑音
重畳音声ケプストラムCS+N を線形スペクトラムに変換
することで求められる。従って、モデル学習時に背景雑
音を収録した時点で、ヤコビ行列およびヘッセ行列を計
算しておくことができる。
【0051】次に、上記のテイラー展開の2次項までの
適応式を用いて、背景雑音変動前の初期雑音重畳音声H
MMを背景雑音変動後(認識時)の背景雑音に整合した
雑音重畳音声HMMに更新する方法について説明する。
ここでは、HMMの各状態に存在する出力確率分布のケ
プストラム平均値ベクトルを適応することを考える。上
記式(8)に従えば、適応雑音重畳音声HMMの平均値
ベクトルCS+N ′は以下のように計算できる。
適応式を用いて、背景雑音変動前の初期雑音重畳音声H
MMを背景雑音変動後(認識時)の背景雑音に整合した
雑音重畳音声HMMに更新する方法について説明する。
ここでは、HMMの各状態に存在する出力確率分布のケ
プストラム平均値ベクトルを適応することを考える。上
記式(8)に従えば、適応雑音重畳音声HMMの平均値
ベクトルCS+N ′は以下のように計算できる。
【0052】
【数8】 上記式において、CS+N は初期雑音重畳音声HMMの平
均値ベクトル、CN は雑音変動前の背景雑音データから
求めたHMM(以下、初期雑音HMMと称する)の出力
確率分布の平均値ベクトル、CN ′は、雑音変動後(認
識時)の背景雑音から求めたHMM(以下、適応対象雑
音HMMと称する)の出力確率分布の平均値ベクトルを
示す。
均値ベクトル、CN は雑音変動前の背景雑音データから
求めたHMM(以下、初期雑音HMMと称する)の出力
確率分布の平均値ベクトル、CN ′は、雑音変動後(認
識時)の背景雑音から求めたHMM(以下、適応対象雑
音HMMと称する)の出力確率分布の平均値ベクトルを
示す。
【0053】CS+N は、雑音変動前の背景雑音が重畳し
た音声データで学習した雑音重畳音声HMMの平均値ベ
クトルを用いる。また、初期雑音HMMと背景雑音のな
いクリーン音声HMMからHMM合成により求めた雑音
重畳音声HMMを用いることも可能である。
た音声データで学習した雑音重畳音声HMMの平均値ベ
クトルを用いる。また、初期雑音HMMと背景雑音のな
いクリーン音声HMMからHMM合成により求めた雑音
重畳音声HMMを用いることも可能である。
【0054】上記式(13)中のヤコビ行列JC 、および
ヘッセ行列HC を求めるには、上記ヤコビ行列の計算方
法およびヘッセ行列の計算方法で述べたように、CN と
CS+ N が必要である。これらは、背景雑音変動前のパラ
メータであり、雑音変動に備え、予め計算しておくこと
ができる。
ヘッセ行列HC を求めるには、上記ヤコビ行列の計算方
法およびヘッセ行列の計算方法で述べたように、CN と
CS+ N が必要である。これらは、背景雑音変動前のパラ
メータであり、雑音変動に備え、予め計算しておくこと
ができる。
【0055】上記式(13)に従えば、CN ,CS+N ,J
C ,HC ,CN ′が決定すると、認識時の条件に整合し
た雑音重畳音声ケプストラムCS+N ′を求めることがで
きる。
C ,HC ,CN ′が決定すると、認識時の条件に整合し
た雑音重畳音声ケプストラムCS+N ′を求めることがで
きる。
【0056】上記適応処理は、雑音変動前(認識時)ま
でに予め実行できる事前処理と、雑音変動後に背景雑音
を観測してから実行できる適応処理に分割することがで
きる。つまり、初期雑音HMM、初期重畳音声HMM、
ヤコビ行列、ヘッセ行列を求める処理は事前処理であ
る。従って、認識時には適応対象雑音HMMを求め、上
記式(13)の行列計算を実行するのみで、少量の演算量
で音響モデルの適応が完了する。
でに予め実行できる事前処理と、雑音変動後に背景雑音
を観測してから実行できる適応処理に分割することがで
きる。つまり、初期雑音HMM、初期重畳音声HMM、
ヤコビ行列、ヘッセ行列を求める処理は事前処理であ
る。従って、認識時には適応対象雑音HMMを求め、上
記式(13)の行列計算を実行するのみで、少量の演算量
で音響モデルの適応が完了する。
【0057】次に、図面を用いて本発明の実施の形態に
ついて説明する。
ついて説明する。
【0058】図2は、本発明の一実施形態に係るパター
ン認識装置の構成を示すブロック図である。同図に示す
パターン認識装置は、パターン認識の対象である音声を
入力される音声入力部1と、該音声入力部1から入力さ
れた音声から背景雑音を抽出する雑音抽出部2と、該雑
音抽出部2で抽出された背景雑音から初期条件HMMを
生成して記憶するモデル学習時の雑音(HMM)記憶部
3と、クリーン音声HMMを記憶するクリーン音声HM
M記憶部4と、該クリーン音声HMM記憶部4からのク
リーン雑音HMMと初期雑音HMMとをHMM合成法に
より合成するHMM合成部5と、該HMM合成部5から
の合成結果からモデル学習時の初期雑音重畳音声HMM
を生成して記憶するモデル学習時の雑音重畳音声HMM
記憶部6と、モデル学習時の雑音(HMM)記憶部3と
モデル学習時の雑音重畳HMM記憶部6に記憶されたモ
デルからヤコビ行列を計算するヤコビ行列計算部7と、
該ヤコビ行列計算部7で計算されたヤコビ行列を記憶す
るヤコビ行列記憶部8と、モデル学習時の雑音(HM
M)記憶部3とモデル学習時の雑音重畳音声HMM記憶
部6に記憶されたモデルからヘッセ行列を計算ヘッセ行
列記憶部9と、該ヘッセ行列記憶部9で計算されたヘッ
セ行列を記憶するヘッセ行列記憶部10と、認識時の条
件を音声入力部1で測定し、雑音抽出部2で抽出された
雑音から求めた適応対象雑音HMMとモデル学習時の雑
音HMMとの差分を算出する差分算出部11と、該差分
算出部11で算出した差分、モデル学習時の雑音重畳音
声HMM記憶部6に記憶されたモデル、ヤコビ行列記憶
部8に記憶されたヤコビ行列、およびヘッセ行列記憶部
10に記憶されたヘッセ行列からモデル学習時の初期雑
音重畳音声を更新して、適応処理した雑音重畳音声HM
Mを計算する雑音重畳音声HMM更新部12と、この適
応処理した雑音重畳音声HMMを記憶する雑音重畳音声
HMM記憶部13と、該雑音重畳音声HMM記憶部13
に記憶された適応処理雑音重畳音声HMMを用いて、音
声認識部14で雑音重畳音声の認識処理を行う音声認識
部14と、該音声認識部14の認識出力結果を出力する
認識結果出力部15とから構成されている。
ン認識装置の構成を示すブロック図である。同図に示す
パターン認識装置は、パターン認識の対象である音声を
入力される音声入力部1と、該音声入力部1から入力さ
れた音声から背景雑音を抽出する雑音抽出部2と、該雑
音抽出部2で抽出された背景雑音から初期条件HMMを
生成して記憶するモデル学習時の雑音(HMM)記憶部
3と、クリーン音声HMMを記憶するクリーン音声HM
M記憶部4と、該クリーン音声HMM記憶部4からのク
リーン雑音HMMと初期雑音HMMとをHMM合成法に
より合成するHMM合成部5と、該HMM合成部5から
の合成結果からモデル学習時の初期雑音重畳音声HMM
を生成して記憶するモデル学習時の雑音重畳音声HMM
記憶部6と、モデル学習時の雑音(HMM)記憶部3と
モデル学習時の雑音重畳HMM記憶部6に記憶されたモ
デルからヤコビ行列を計算するヤコビ行列計算部7と、
該ヤコビ行列計算部7で計算されたヤコビ行列を記憶す
るヤコビ行列記憶部8と、モデル学習時の雑音(HM
M)記憶部3とモデル学習時の雑音重畳音声HMM記憶
部6に記憶されたモデルからヘッセ行列を計算ヘッセ行
列記憶部9と、該ヘッセ行列記憶部9で計算されたヘッ
セ行列を記憶するヘッセ行列記憶部10と、認識時の条
件を音声入力部1で測定し、雑音抽出部2で抽出された
雑音から求めた適応対象雑音HMMとモデル学習時の雑
音HMMとの差分を算出する差分算出部11と、該差分
算出部11で算出した差分、モデル学習時の雑音重畳音
声HMM記憶部6に記憶されたモデル、ヤコビ行列記憶
部8に記憶されたヤコビ行列、およびヘッセ行列記憶部
10に記憶されたヘッセ行列からモデル学習時の初期雑
音重畳音声を更新して、適応処理した雑音重畳音声HM
Mを計算する雑音重畳音声HMM更新部12と、この適
応処理した雑音重畳音声HMMを記憶する雑音重畳音声
HMM記憶部13と、該雑音重畳音声HMM記憶部13
に記憶された適応処理雑音重畳音声HMMを用いて、音
声認識部14で雑音重畳音声の認識処理を行う音声認識
部14と、該音声認識部14の認識出力結果を出力する
認識結果出力部15とから構成されている。
【0059】次に、図3に示すフローチャートを参照し
て、図2に示すパターン認識装置の作用を説明する。
て、図2に示すパターン認識装置の作用を説明する。
【0060】まず、モデル学習時に音声入力部1におい
て入力され、雑音抽出部2において抽出された背景雑音
から初期雑音HMMが求められ(ステップS1)、モデ
ル学習時の雑音(HMM)記憶部3に記憶される。ま
た、クリーン音声HMM記憶部4からのクリーン音声H
MMと前記初期雑音HMMとをHMM合成部5において
HMM合成法により合成して、初期雑音重畳音声HMM
を計算し(ステップS2)、モデル学習時雑音重畳音声
HMM記憶部6に記憶する。それから、ヤコビ行列計算
部7で初期雑音HMMと初期雑音重畳音声HMMからヤ
コビ行列を計算し、ヤコビ行列記憶部8に記憶しておく
(ステップS3)。次に、ヘッセ行列計算部9で初期雑
音HMMと初期雑音重畳音声HMMからヘッセ行列を計
算し、ヘッセ行列記憶部10に記憶しておく(ステップ
S4)。
て入力され、雑音抽出部2において抽出された背景雑音
から初期雑音HMMが求められ(ステップS1)、モデ
ル学習時の雑音(HMM)記憶部3に記憶される。ま
た、クリーン音声HMM記憶部4からのクリーン音声H
MMと前記初期雑音HMMとをHMM合成部5において
HMM合成法により合成して、初期雑音重畳音声HMM
を計算し(ステップS2)、モデル学習時雑音重畳音声
HMM記憶部6に記憶する。それから、ヤコビ行列計算
部7で初期雑音HMMと初期雑音重畳音声HMMからヤ
コビ行列を計算し、ヤコビ行列記憶部8に記憶しておく
(ステップS3)。次に、ヘッセ行列計算部9で初期雑
音HMMと初期雑音重畳音声HMMからヘッセ行列を計
算し、ヘッセ行列記憶部10に記憶しておく(ステップ
S4)。
【0061】次に、認識を行う場合には、音声入力部1
で入力された音声から雑音抽出部2において雑音データ
を抽出し、適応対象雑音HMMとして求める(ステップ
S5)。入力された雑音重畳音声とモデル学習時の雑音
重畳音声HMMに不整合が生じている場合は、差分算出
部11にて適応対象雑音HMMとモデル学習時の雑音H
MMとの差分を求め(ステップS6)、雑音重畳音声H
MM更新部12にて該差分とヤコビ行列を使用したテイ
ラー展開により前記モデル学習時の初期雑音重畳音声H
MMの更新を処理を行い、適応処理した雑音重畳音声H
MMを求め(ステップS7)、適応処理した雑音重畳音
声HMM記憶部13に記憶する。次に、この適応処理し
た雑音重畳音声HMMを使用して音声認識部14で雑音
重畳音声の認識処理を行い(ステップS8)、認識結果
出力部15にて結果を出力する。
で入力された音声から雑音抽出部2において雑音データ
を抽出し、適応対象雑音HMMとして求める(ステップ
S5)。入力された雑音重畳音声とモデル学習時の雑音
重畳音声HMMに不整合が生じている場合は、差分算出
部11にて適応対象雑音HMMとモデル学習時の雑音H
MMとの差分を求め(ステップS6)、雑音重畳音声H
MM更新部12にて該差分とヤコビ行列を使用したテイ
ラー展開により前記モデル学習時の初期雑音重畳音声H
MMの更新を処理を行い、適応処理した雑音重畳音声H
MMを求め(ステップS7)、適応処理した雑音重畳音
声HMM記憶部13に記憶する。次に、この適応処理し
た雑音重畳音声HMMを使用して音声認識部14で雑音
重畳音声の認識処理を行い(ステップS8)、認識結果
出力部15にて結果を出力する。
【0062】なお、以上の処理のうちステップS1,S
2,S3,S4の処理、すなわち初期雑音HMM、初期
雑音重畳音声HMM、ヤコビ行列、ヘッセ行列のそれぞ
れの計算および記憶は、背景雑音が認識の度毎に逐次変
動する場合でも、最初にだけ行われ、それぞれの値をメ
モリに記憶しておく。そして、認識時にはこれらの記憶
した情報を利用して以降の処理、すなわちステップS
5,S6,S7,S8のみを繰り返し行えばよいもので
ある。
2,S3,S4の処理、すなわち初期雑音HMM、初期
雑音重畳音声HMM、ヤコビ行列、ヘッセ行列のそれぞ
れの計算および記憶は、背景雑音が認識の度毎に逐次変
動する場合でも、最初にだけ行われ、それぞれの値をメ
モリに記憶しておく。そして、認識時にはこれらの記憶
した情報を利用して以降の処理、すなわちステップS
5,S6,S7,S8のみを繰り返し行えばよいもので
ある。
【0063】また、1つ前の発声をもとに得られた適応
対象雑音HMM、適応雑音重畳音声HMMを新たな初期
モデルとしてステップS3から処理を行う逐次処理も可
能である。
対象雑音HMM、適応雑音重畳音声HMMを新たな初期
モデルとしてステップS3から処理を行う逐次処理も可
能である。
【0064】次に、本発明の効果を調べるために行っ
た、背景雑音の変動に対する音響モデルの適応実験につ
いて説明する。
た、背景雑音の変動に対する音響モデルの適応実験につ
いて説明する。
【0065】話者13名の発声による100都市名単語
に、適応対象雑音を計算機上で重畳させたものを評価デ
ータとした。評価データの直前の区間の適応対象雑音デ
ータを用いて適応対象雑音HMMを学習し、適応を行っ
た。S/N比は10dBである。認識語彙サイズは40
0単語である。
に、適応対象雑音を計算機上で重畳させたものを評価デ
ータとした。評価データの直前の区間の適応対象雑音デ
ータを用いて適応対象雑音HMMを学習し、適応を行っ
た。S/N比は10dBである。認識語彙サイズは40
0単語である。
【0066】ここでは、まず初期雑音を用いてNOVO
合成を行い、このモデルを適応対象雑音に適応させずに
認識した場合、このモデルをテイラー展開の1次項まで
を考慮して適応した、つまりヤコビアン適応法によって
適応したモデルで認識した場合、本発明であるテイラー
展開の2次項までを考慮して適応したモデルで認識した
場合について実験を行った。
合成を行い、このモデルを適応対象雑音に適応させずに
認識した場合、このモデルをテイラー展開の1次項まで
を考慮して適応した、つまりヤコビアン適応法によって
適応したモデルで認識した場合、本発明であるテイラー
展開の2次項までを考慮して適応したモデルで認識した
場合について実験を行った。
【0067】背景雑音が、初期状態では駅雑音または人
混み雑音であったのが、実際の認識時に展示会場(ブー
ス)雑音に変化した場合を仮定した場合の単語認識率を
表1に示す。
混み雑音であったのが、実際の認識時に展示会場(ブー
ス)雑音に変化した場合を仮定した場合の単語認識率を
表1に示す。
【0068】
【表1】 表1より駅雑音から展示会場(ブース)雑音に変化した
場合の適応、および人混み雑音展示会場(ブース)雑音
に変化した場合の適応の両場合で、初期モデルやヤコビ
アン適応法から本発明によって単語認識率が向上してい
ることがわかる。
場合の適応、および人混み雑音展示会場(ブース)雑音
に変化した場合の適応の両場合で、初期モデルやヤコビ
アン適応法から本発明によって単語認識率が向上してい
ることがわかる。
【0069】次に、適応処理に要する処理量をCPUタ
イムとして表2に示す。ここでは、ヤコビアン適応法と
本発明、そしてNOVO合成法との比較を行っている。
表2には、適応対象雑音を観測する以前に行える事前処
理と、観測以降に行う適応処理に区別して示している。
イムとして表2に示す。ここでは、ヤコビアン適応法と
本発明、そしてNOVO合成法との比較を行っている。
表2には、適応対象雑音を観測する以前に行える事前処
理と、観測以降に行う適応処理に区別して示している。
【0070】
【表2】 雑音適応では、適応対象雑音を観測してから音響モデル
を適応するのに必要な処理が重要である。そこで、適応
処理に要するCPUタイムを比較してみると、本発明は
ヤコビアン適応法の約11倍の時間がかかっているもの
の、依然としてNOVO合成法よりも高速であることが
わかる。
を適応するのに必要な処理が重要である。そこで、適応
処理に要するCPUタイムを比較してみると、本発明は
ヤコビアン適応法の約11倍の時間がかかっているもの
の、依然としてNOVO合成法よりも高速であることが
わかる。
【0071】従って、本発明によるパターン認識方法
は、テイラー展開の2次微分項までを考慮することで認
識率を向上し、なおかつHMM合成法よりも依然として
適応処理が高速であるという効果があることが確認でき
た。
は、テイラー展開の2次微分項までを考慮することで認
識率を向上し、なおかつHMM合成法よりも依然として
適応処理が高速であるという効果があることが確認でき
た。
【0072】本発明の他の実施形態について説明する。
ここでは、複数の初期雑音から求めたヤコビ行列とヘッ
セ行列を用いて雑音適応を行う実施形態を説明する。
ここでは、複数の初期雑音から求めたヤコビ行列とヘッ
セ行列を用いて雑音適応を行う実施形態を説明する。
【0073】本発明は、初期雑音によって適応対象雑音
へ適応したときの認識率が異なる。例えば、適応対象雑
音として空調機雑音に適応する場合を考える。この場
合、比較的定常な空調機雑音に対して、交差点での自動
車走行音や人の声等を含むようなやや非定常な雑音を初
期雑音とするよりも、計算機のファンの音がそのほとん
どを占める定常な雑音を初期雑音とした方が本発明によ
る適応の効果は高い。
へ適応したときの認識率が異なる。例えば、適応対象雑
音として空調機雑音に適応する場合を考える。この場
合、比較的定常な空調機雑音に対して、交差点での自動
車走行音や人の声等を含むようなやや非定常な雑音を初
期雑音とするよりも、計算機のファンの音がそのほとん
どを占める定常な雑音を初期雑音とした方が本発明によ
る適応の効果は高い。
【0074】しかし、必ずしも適応対象の雑音が既知で
はないため本発明の効果を最大限に発揮できる初期雑音
を予め用意することはできない。そこで、本実施形態で
は、種類の異なる初期雑音を複数用意して、これらの初
期雑音の中から本発明の最大限に発揮できる初期雑音を
選択し、雑音適応に用いることで適応対象雑音の種類に
よらず常に認識率の高い雑音適応が可能になる。
はないため本発明の効果を最大限に発揮できる初期雑音
を予め用意することはできない。そこで、本実施形態で
は、種類の異なる初期雑音を複数用意して、これらの初
期雑音の中から本発明の最大限に発揮できる初期雑音を
選択し、雑音適応に用いることで適応対象雑音の種類に
よらず常に認識率の高い雑音適応が可能になる。
【0075】まず、本実施形態では、種類の異なるる初
期雑音を複数用意して、初期雑音それぞれに対して初期
雑音HMMとヤコビ行列およびヘッセ行列を計算し、記
憶しておく。
期雑音を複数用意して、初期雑音それぞれに対して初期
雑音HMMとヤコビ行列およびヘッセ行列を計算し、記
憶しておく。
【0076】次に、認識時に観測した適応対象雑音と記
憶しておいた初期雑音それぞれとの類似度を計算する。
類似度の計算法の例として、初期雑音HMMの出力確率
分布の平均値ベクトルと適応対象雑音HMMの出力確率
分布の平均値ベクトルとのユークリッド距離による類似
度の計算法を説明する。第i番目の初期雑音HMMの出
力確率分布の平均値ベクトルCN i の第k番目の要素を
CNk i 、適応対象雑音HMMの出力確率分布の平均値ベ
クトルCN ′の第k番目の要素をCNk′とすると、初期
雑音HMMの出力確率分布の平均値ベクトルと適応対象
雑音HMMの出力確率分布の平均値ベクトルとのユーク
リッド距離D(i)は以下のようにして求められる。
憶しておいた初期雑音それぞれとの類似度を計算する。
類似度の計算法の例として、初期雑音HMMの出力確率
分布の平均値ベクトルと適応対象雑音HMMの出力確率
分布の平均値ベクトルとのユークリッド距離による類似
度の計算法を説明する。第i番目の初期雑音HMMの出
力確率分布の平均値ベクトルCN i の第k番目の要素を
CNk i 、適応対象雑音HMMの出力確率分布の平均値ベ
クトルCN ′の第k番目の要素をCNk′とすると、初期
雑音HMMの出力確率分布の平均値ベクトルと適応対象
雑音HMMの出力確率分布の平均値ベクトルとのユーク
リッド距離D(i)は以下のようにして求められる。
【0077】
【数9】 上式を用いてすべての初期雑音HMMに対して適応対象
雑音HMMとのユークリッド距離を計算し、最も距離の
小さい初期雑音HMMimin を選択する。
雑音HMMとのユークリッド距離を計算し、最も距離の
小さい初期雑音HMMimin を選択する。
【0078】
【数10】 このようにして選ばれた初期雑音HMMと、これに対応
するヤコビ行列とヘッセ行列を用いて本発明による雑音
重畳音声HMMのパラメータの更新を行い、認識を行
う。このように、複数の初期雑音HMMおよびヤコビ行
列とヘッセ行列を用意しておき、観測された適応対象雑
音HMMごとに最も類似した初期雑音HMMを選択して
本発明によるパラメータの更新を行うことで、常に認識
率の高い雑音適応が可能である。
するヤコビ行列とヘッセ行列を用いて本発明による雑音
重畳音声HMMのパラメータの更新を行い、認識を行
う。このように、複数の初期雑音HMMおよびヤコビ行
列とヘッセ行列を用意しておき、観測された適応対象雑
音HMMごとに最も類似した初期雑音HMMを選択して
本発明によるパラメータの更新を行うことで、常に認識
率の高い雑音適応が可能である。
【0079】なお、上記実施形態では、音声を入力とし
た場合について説明したが、本発明はこれに限定される
ものでなく、この他にも図形、文字などのパターン認識
にも広く適応し得るものである。
た場合について説明したが、本発明はこれに限定される
ものでなく、この他にも図形、文字などのパターン認識
にも広く適応し得るものである。
【0080】
【発明の効果】以上説明したように、本発明によれば、
初期条件確率モデルと初期条件重畳確率モデルからヤコ
ビ行列およびヘッセ行列を計算しておき、認識時の条件
を測定して適応対象条件確率モデルを求め、適応対象条
件確率モデルと初期条件確率モデルとの差分およびヤコ
ビ行列とヘッセ行列に基づくテイラー展開の2次項まで
の展開式によって初期条件重畳確率モデルを更新して適
応条件重畳確率モデルをより精密に近似計算するので、
認識性能を向上することができ、かつ比較的少量の演算
で適応処理を行うことができる。
初期条件確率モデルと初期条件重畳確率モデルからヤコ
ビ行列およびヘッセ行列を計算しておき、認識時の条件
を測定して適応対象条件確率モデルを求め、適応対象条
件確率モデルと初期条件確率モデルとの差分およびヤコ
ビ行列とヘッセ行列に基づくテイラー展開の2次項まで
の展開式によって初期条件重畳確率モデルを更新して適
応条件重畳確率モデルをより精密に近似計算するので、
認識性能を向上することができ、かつ比較的少量の演算
で適応処理を行うことができる。
【図面の簡単な説明】
【図1】本発明の原理であるテイラー展開の2次項まで
の考慮による近似精度の向上を説明するための図であ
る。
の考慮による近似精度の向上を説明するための図であ
る。
【図2】本発明の一実施形態に係るパターン認識装置の
構成を示すブロック図である。
構成を示すブロック図である。
【図3】図2に示すパターン認識装置の作用を示すフロ
ーチャートである。
ーチャートである。
1 音声入力部 2 雑音抽出部 3 モデル学習時の雑音(HMM)記憶部 4 クリーン音声HMM記憶部 5 HMM合成部 6 モデル学習時の雑音重畳音声HMM記憶部 7 ヤコビ行列計算部 8 ヤコビ行列記憶部 9 ヘッセ行列計算部 10 ヘッセ行列記憶部 11 差分計算部 12 雑音重畳音声HMM更新部 13 適応処理した雑音重畳音声HMM記憶部 14 音声認識部 15 認識結果出力部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 相川 清明 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内
Claims (11)
- 【請求項1】 入力ベクトル時系列に対し、各認識カテ
ゴリの特徴を表現した確率モデルの尤度を計算し、最も
尤度の高いモデルが表現するカテゴリを認識結果として
出力するパターン認識において、前記確率モデルのパラ
メータを求めるための学習データを収集した時の条件と
認識時の条件との間に不整合が生じた場合、条件変動後
のモデルパラメータを該モデルパラメータと条件を表現
するパラメータに関するテイラー展開の0次項、1次
項、および2次項より求めることを特徴とするパターン
認識方法。 - 【請求項2】 認識時の条件が時々刻々変化する場合、
以前の条件で適応して得られたモデルを初期モデルと
し、現在の条件に適合するようにテイラー展開を用いて
適応することを繰り返し行うことを特徴とする請求項1
記載のパターン認識方法。 - 【請求項3】 前記適応処理においてテイラー展開を用
いてモデルパラメータの変動量を求める際に、テイラー
展開のヤコビ行列とヘッセ行列を条件変動前に予め展開
して記憶しておき、適応処理の時点でその値を用いるこ
とを特徴とする請求項1または2記載のパターン認識方
法。 - 【請求項4】 前記適応処理においてテイラー展開を用
いてモデルパラメータの変動量を求める際に、記憶させ
た複数の初期モデルのそれぞれに対するテイラー展開の
ヤコビ行列とヘッセ行列を条件変動前に予め展開して、
そのすべてを記憶しておき、適応処理の時点で現在の条
件に最も類似したものとして選択された初期モデルに対
応するヤコビ行列とヘッセ行列を用いることを特徴とす
る請求項1または2記載のパターン認識方法。 - 【請求項5】 前記確率モデルが隠れマルコフモデルで
あることを特徴とする請求項1乃至4のいずれかに記載
のパターン認識方法。 - 【請求項6】 前記入力ベクトルは音声の特徴量であ
り、前記条件は音声収録時の背景雑音または音声を発し
た話者の声道長であることを特徴とする請求項1乃至5
のいずれかに記載のパターン認識方法。 - 【請求項7】 条件変動前のモデルパラメータは、雑音
の含まれていない音声から求められたモデルと条件変動
前の背景雑音から求められたモデルの合成により得られ
たモデルであることを特徴とする請求項6記載のパター
ン認識方法。 - 【請求項8】 入力ベクトル時系列に対し、各認識カテ
ゴリの特徴を表現した確率モデルの尤度を計算し、最も
尤度の高いモデルが表現するカテゴリを認識結果として
出力するパターン認識装置であって、 ベクトル値を入力するベクトル入力部と、 該ベクトル入力部で入力されたベクトルから条件を表現
するパラメータを抽出するパラメータ抽出部と、 該パラメータ抽出部で抽出された条件を表現するパラメ
ータから初期条件確率モデルを生成して記憶する初期条
件確率モデル生成記憶部と、 初期条件重畳確率モデルを生成するために必要な確率モ
デルを記憶する確率モデル記憶部と、 該確率モデル記憶部と前記初期条件確率モデル生成記憶
部に記憶されたモデルから初期条件重畳確率モデルを生
成して記憶する初期条件重畳確率モデル生成記憶部と、 前記初期条件確率モデル生成記憶部と前記初期条件重畳
確率モデル生成記憶部に記憶されたモデルからヤコビ行
列を計算して記憶するヤコビ行列計算記憶部と、 前記初期条件確率モデル生成記憶部と前記初期条件重畳
確率モデル生成記憶部に記憶されたモデルからヘッセ行
列を計算して記憶するヘッセ行列計算記憶部と、 認識時の条件を前記ベクトル入力部で測定し、前記パラ
メータ抽出部で抽出された条件を表現するパラメータか
ら求めた適応対象条件確率モデルと前記初期条件確率モ
デルとの差分を算出する差分算出部と、 前記差分、前記初期条件重畳確率モデル生成記憶部に記
憶されたモデル、前記ヤコビ行列計算記憶部に記憶され
たヤコビ行列、および前記ヘッセ行列計算記憶部に記憶
されたヘッセ行列から新しい条件重畳確率モデルを計算
して記憶する確率モデル生成記憶部と、 該確率モデル生成記憶部に記憶された確率モデルを用い
て、入力ベクトルの認識を行うパターン認識部と、 該パターン認識部の認識出力結果を出力する認識結果出
力部とを有することを特徴とするパターン認識装置。 - 【請求項9】 入力ベクトル時系列に対し、各認識カテ
ゴリの特徴を表現した確率モデルの尤度を計算し、最も
尤度の高いモデルが表現するカテゴリを認識結果として
出力するパターン認識において、前記確率モデルのパラ
メータを求めるための学習データを収集した時の条件と
認識時の条件との間に不整合が生じた場合、条件変動後
のモデルパラメータを該モデルパラメータと条件を表現
するパラメータに関するテイラー展開の0次項、1次
項、および2次項より求めることを特徴とするパターン
認識プログラムを格納した記録媒体。 - 【請求項10】 認識時の条件が時々刻々変化する場
合、以前の条件で適応して得られたモデルを初期モデル
とし、現在の条件に適合するようにテイラー展開を用い
て適応することを繰り返し行うことを特徴とする請求項
9記載のパターン認識プログラムを格納した記録媒体。 - 【請求項11】 前記適応処理においてテイラー展開を
用いてモデルパラメータの変動量を求める際に、テイラ
ー展開のヤコビ行列とヘッセ行列を条件変動前に予め展
開して記憶しておき、適応処理の時点でその値を用いる
ことを特徴とする請求項9または10記載のパターン認
識プログラムを格納した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9251069A JPH1195786A (ja) | 1997-09-16 | 1997-09-16 | パターン認識方法および装置とパターン認識プログラムを格納した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9251069A JPH1195786A (ja) | 1997-09-16 | 1997-09-16 | パターン認識方法および装置とパターン認識プログラムを格納した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1195786A true JPH1195786A (ja) | 1999-04-09 |
Family
ID=17217170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9251069A Pending JPH1195786A (ja) | 1997-09-16 | 1997-09-16 | パターン認識方法および装置とパターン認識プログラムを格納した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH1195786A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003524805A (ja) * | 2000-02-25 | 2003-08-19 | スピーチワークス インターナショナル,インク. | 音声認識システムの自動的再学習 |
JP2004096747A (ja) * | 2002-08-30 | 2004-03-25 | Lucent Technol Inc | 高次基数のlogmapプロセッサ |
WO2006030551A1 (ja) * | 2004-09-15 | 2006-03-23 | The University Of Tokyo | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
JP2009020353A (ja) * | 2007-07-12 | 2009-01-29 | Yamaha Corp | 音響モデル処理装置およびプログラム |
JP2012504250A (ja) * | 2008-09-29 | 2012-02-16 | 株式会社東芝 | 音声認識方法 |
WO2014188660A1 (en) * | 2013-05-20 | 2014-11-27 | Nec Corporation | Factorial hidden markov models estimation device, method, and program |
-
1997
- 1997-09-16 JP JP9251069A patent/JPH1195786A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003524805A (ja) * | 2000-02-25 | 2003-08-19 | スピーチワークス インターナショナル,インク. | 音声認識システムの自動的再学習 |
JP2004096747A (ja) * | 2002-08-30 | 2004-03-25 | Lucent Technol Inc | 高次基数のlogmapプロセッサ |
JP4520122B2 (ja) * | 2002-08-30 | 2010-08-04 | アルカテル−ルーセント ユーエスエー インコーポレーテッド | 高次基数のlogmapプロセッサ |
WO2006030551A1 (ja) * | 2004-09-15 | 2006-03-23 | The University Of Tokyo | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
JP2009020353A (ja) * | 2007-07-12 | 2009-01-29 | Yamaha Corp | 音響モデル処理装置およびプログラム |
JP2012504250A (ja) * | 2008-09-29 | 2012-02-16 | 株式会社東芝 | 音声認識方法 |
US8417522B2 (en) | 2008-09-29 | 2013-04-09 | Kabushiki Kaisha Toshiba | Speech recognition method |
WO2014188660A1 (en) * | 2013-05-20 | 2014-11-27 | Nec Corporation | Factorial hidden markov models estimation device, method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6026359A (en) | Scheme for model adaptation in pattern recognition based on Taylor expansion | |
JP2691109B2 (ja) | 非ユーザ基準データから生成される話者依存的プロトタイプを有する音声コード化装置 | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
JP5242782B2 (ja) | 音声認識方法 | |
JPH04313034A (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
JPH0636156B2 (ja) | 音声認識装置 | |
JPWO2007141923A1 (ja) | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム | |
CN101432799A (zh) | 基于高斯混合模型的变换中的软校准 | |
Ranjan et al. | Isolated word recognition using HMM for Maithili dialect | |
US5943647A (en) | Speech recognition based on HMMs | |
Kannadaguli et al. | A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker | |
JP3587966B2 (ja) | 音声認識方法、装置そよびその記憶媒体 | |
Nakamura et al. | A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech. | |
CN105474307A (zh) | 定量的f0轮廓生成装置及方法、以及用于生成f0轮廓的模型学习装置及方法 | |
JPH1195786A (ja) | パターン認識方法および装置とパターン認識プログラムを格納した記録媒体 | |
Toda et al. | Modeling of speech parameter sequence considering global variance for HMM-based speech synthesis | |
Kannadaguli et al. | Comparison of hidden markov model and artificial neural network based machine learning techniques using DDMFCC vectors for emotion recognition in Kannada | |
Shekofteh et al. | Using phase space based processing to extract proper features for ASR systems | |
Kannadaguli et al. | Comparison of artificial neural network and gaussian mixture model based machine learning techniques using ddmfcc vectors for emotion recognition in kannada | |
Huang et al. | An SNR-incremental stochastic matching algorithm for noisy speech recognition | |
Sathiarekha et al. | A survey on the evolution of various voice conversion techniques | |
Maier et al. | Environmental adaptation with a small data set of the target domain | |
Ra et al. | Visual-to-speech conversion based on maximum likelihood estimation | |
Ramya et al. | Analysis on MAP and MLLR based speaker adaptation techniques in speech recognition |