JPH10149191A - モデル適応方法、装置およびその記憶媒体 - Google Patents

モデル適応方法、装置およびその記憶媒体

Info

Publication number
JPH10149191A
JPH10149191A JP9251068A JP25106897A JPH10149191A JP H10149191 A JPH10149191 A JP H10149191A JP 9251068 A JP9251068 A JP 9251068A JP 25106897 A JP25106897 A JP 25106897A JP H10149191 A JPH10149191 A JP H10149191A
Authority
JP
Japan
Prior art keywords
model
condition
noise
probability
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9251068A
Other languages
English (en)
Other versions
JP3587966B2 (ja
Inventor
Yoshikazu Yamaguchi
義和 山口
Shigeki Sagayama
茂樹 嵯峨山
Junichi Takahashi
淳一 高橋
Satoshi Takahashi
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP25106897A priority Critical patent/JP3587966B2/ja
Publication of JPH10149191A publication Critical patent/JPH10149191A/ja
Application granted granted Critical
Publication of JP3587966B2 publication Critical patent/JP3587966B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 条件変動前の初期モデルを条件変動後の環境
条件に整合したモデルに近付けるために、初期モデルを
基準モデルとして、条件変動後に観測した条件を表現す
るデータを用いて実時間で高速にモデルを適応させ、認
識性能を向上し得るモデル適応方法、装置およびその記
憶媒体を提供すること。 【解決手段】 初期雑音重畳音声HMMと初期雑音HM
Mからヤコビ行列を計算記憶しておき、認識時に観測し
た雑音と初期雑音HMMに差分がある場合、該差分およ
びヤコビ行列に基づくテイラー展開によるモデルの更新
を行い、適応雑音重畳音声HMMを近似計算し、この適
応雑音重畳音声を用いて認識対象音声の認識処理を行
う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば音声、文
字、図形などのような認識すべき対象を隠れマルコフモ
デルを用いて表現するパターン認識においてモデル作成
時の条件とモデル使用時である認識実行時の条件の違い
によるモデルの不整合を補正し、認識性能を向上するた
めのモデル適応方法、装置およびその記憶媒体に関す
る。
【0002】
【従来の技術】本発明は、隠れマルコフモデル(Hidden
Markov Model ,以下HMMと略称する)を用いた様々
なパターン認識に適用可能であるが、以下では音声を例
に説明する。
【0003】音声認識では、学習用音声データから求め
た音響モデル(音素モデル、音節モデル、単語モデルな
ど)と入力音声データを照合して尤度を求め、認識結果
を得る。モデルのパラメータは学習用音声データを収録
した条件(背景雑音、回線歪み、話者、声道長など)に
大きく依存する。従って、この音声収録条件と実際の認
識時の条件とが異なる場合、入力音声パターンとモデル
との不整合が生じ、結果として認識率が低下する。
【0004】入力音声データと音響モデルとの不整合に
よる認識率の低下を防ぐには、認識を実行する際の条件
と同じ条件で収録した音声データを使って、モデルを作
成し直せばよい。しかし、HMMのような統計的手法に
基づくモデルは、膨大な量の学習音声データが必要で、
処理に時間がかかる(例えば、100時間)。そこで、
不整合が生じているモデルを少量の学習データと少ない
処理時間で、実際の認識時の条件に整合したモデルに近
付ける適応技術が必要となる。
【0005】条件が変化する例として、発声時の背景雑
音の変化があげられる。モデル学習用音声データ収録時
の背景雑音と実際の認識時の背景雑音が異なれば、認識
率の低下が生じる。モデルの背景雑音への適応には、従
来の技術としてPMC(例えば、M.J.F.Gales 他 "An I
mproved Approach to the Hidden Markov Model Decomp
osition of Speech And Noise," Proc.of ICASSP92,pp.
233-236,1992)やNOVO合成法(例えば、F.Martin
他、"Recognition of Noisy Speech by Using the Comp
osition of Hidden Markov Models," 日本音響学会平成
4年度秋季研究発表会講演論文集、pp.65-66)などのH
MM合成法がある。HMM合成法とは、防音室などで収
録した雑音が含まれていない音声で学習したHMM(以
下、クリーン音声HMMと記す)と、認識時の背景雑音
のみで学習したHMM(以下、雑音HMMと記す)を合
成し、認識時の雑音が重畳し、入力音声に整合したHM
Mを求める適応手法である。HMM合成法を用いれば、
雑音HMMの学習と、モデル合成の処理時間のみで済む
ので、膨大な量の音声データを用いてモデルを作成し直
すよりも、少ない時間でモデルを適応することができ
る。
【0006】
【発明が解決しようとする課題】上述した従来の音声認
識において、雑音HMMの学習データを得るための雑音
収録時間が比較的長いこと(例えば、15秒)、モデル
合成の処理時間も10秒程度必要なことから、時々刻々
と変化する条件に応じてモデルを実時間で適応させるこ
とは難しいという問題がある。
【0007】本発明は、上記に鑑みてなされたもので、
その目的とするところは、条件変動前の初期モデルを条
件変動後の環境条件に整合したモデルに近付けるために
初期モデルを基準モデルとして、条件変動後に観測した
条件を表現するデータを用いて実時間で高速にモデルを
適応させ、認識性能を向上し得るモデル適応方法、装置
およびその記憶媒体を提供することにある。
【0008】
【課題を解決するための手段】上記課題を解決するため
に、本発明は、入力ベクトルに対し、各認識カテゴリの
特徴を表現した確率モデルの尤度を計算し、所定の複数
の確率モデル中で最も尤度の高い確率モデルが表現する
認識カテゴリを認識結果として出力するパターン認識に
おけるモデル適応方法であって、パターン認識と確率モ
デル学習の条件を表現するパラメータの、各確率モデル
のモデルパラメータを求めるための学習データの収集時
の初期条件と実際の認識時の現条件との間での変化分を
決定するステップと、前記初期条件と前記現条件との間
に不整合が生じた場合に、前記決定するステップで決定
された変化分に基づいて条件変動前のモデルパラメータ
を更新して条件変動後のモデルパラメータを求めて前記
確率モデルを適応するステップと、を有することを特徴
とするモデル適応方法を提供する。
【0009】また、本発明では、前記適応するステップ
は、前記モデルパラメータの変化分を前記条件を表現す
るパラメータの変化分により表現するテイラー展開を用
いて前記条件変動後のモデルパラメータを求めることを
特徴とする。
【0010】また、本発明では、前記現条件が時々刻々
と変化する場合に、前記適応するステップは、直前の条
件に適応した確率モデルを順次初期確率モデルとしなが
ら前記テイラー展開を用いて確率モデルを繰返し現条件
に適応することを特徴とする。
【0011】また、本発明では、前記テイラー展開のヤ
コビ行列を予め計算して記憶しておくステップを更に有
し、前記適応するステップは、該予め計算され記憶され
たヤコビ行列を用いて前記条件変動後のモデルパラメー
タを求めることを特徴とする。
【0012】また、本発明では、様々なタイプの前記条
件に対応して複数組の確率モデルを記憶するステップを
更に有し、前記現条件が変化する場合に、前記適応する
ステップは、前記複数組の確率モデルから現条件に最も
類似した一組の確率モデルを選択し、該一組の確率モデ
ルを初期確率モデルとして前記テイラー展開を用いて確
率モデルを現条件に適応することを特徴とする。
【0013】また、本発明では、前記複数組の確率モデ
ルに対応して前記テイラー展開の複数組のヤコビ行列を
予め計算して記憶しておくステップを更に有し、前記適
応するステップは、前記一組の確率モデルに対応する該
予め計算され記憶されたヤコビ行列の一組を用いて前記
条件変動後のモデルパラメータを求めることを特徴とす
る。
【0014】また、本発明では、前記確率モデルは、隠
れマルコフモデルであることを特徴とする。
【0015】また、本発明では、前記入力ベクトルは入
力音声の音声特徴量であり、前記条件は該入力音声の収
録時の背景雑音または該入力音声を発した話者の声道長
であることを特徴とする。
【0016】また、本発明では、前記条件は背景雑音で
あり、雑音の含まれないクリーンな音声の確率モデルと
条件変動前の背景雑音から求められた確率モデルの合成
により条件変動後の確率モデルを求めるステップを更に
有することを特徴とする。
【0017】また、本発明では、前記条件は背景雑音で
あり、前記条件を表現するパラメータは平均雑音スペク
トラムを前記入力音声に対応する雑音スペクトラムから
差し引いて得られたスペクトラムのケプストラムパラメ
ータであり、前記入力ベクトルは該平均雑音スペクトラ
ムを該入力音声から差し引いて得られた音声信号のケプ
ストラムパラメータであることを特徴とする。
【0018】さらに、本発明は、入力ベクトルに対し、
各認識カテゴリの特徴を表現した確率モデルの尤度を計
算し、所定の複数の確率モデル中で最も尤度の高い確率
モデルが表現する認識カテゴリを認識結果として出力す
るパターン認識におけるモデル適応装置であって、パタ
ーン認識と確率モデル学習の条件を表現するパラメータ
の各確率モデルのモデルパラメータを求めるための学習
データの収集時の初期条件と実際の認識時の現条件との
間での変化分を決定する変化分決定手段と、前記初期条
件と前記現条件との間に不整合が生じた場合に、前記決
定するステップで決定された変化分に基づいて条件変動
前のモデルパラメータを更新して条件変動後のモデルパ
ラメータを求めて前記確率モデルを適応する適応手段
と、を有することを特徴とするモデル適応装置を提供す
る。
【0019】また、本発明では、前記適応手段は、前記
モデルパラメータの変化分を前記条件を表現するパラメ
ータの変化分により表現するテイラー展開を用いて前記
条件変動後のモデルパラメータを求めることを特徴とす
る。
【0020】また、本発明では、前記現条件が時々刻々
と変化する場合に、前記適応手段は、直前の条件に適応
した確率モデルを順次初期確率モデルとしながら前記テ
イラー展開を用いて確率モデルを繰返し現条件に適応す
ることを特徴とする。
【0021】また、本発明では、前記テイラー展開のヤ
コビ行列を予め計算して記憶しておくヤコビ行列計算記
憶手段を更に有し、前記適応手段は、該予め計算され記
憶されたヤコビ行列を用いて前記条件変動後のモデルパ
ラメータを求めることを特徴とする。
【0022】また、本発明では、様々なタイプの前記条
件に対応して複数組の確率モデルを記憶する確率モデル
記憶手段を更に有し、前記現条件が変化する場合に、前
記適応手段は、前記複数組の確率モデルから現条件に最
も類似した一組の確率モデルを選択し、該一組の確率モ
デルを初期確率モデルとして前記テイラー展開を用いて
確率モデルを現条件に適応することを特徴とする。
【0023】また、本発明では、前記複数組の確率モデ
ルに対応して前記テイラー展開の複数組のヤコビ行列を
予め計算して記憶しておくヤコビ行列計算記憶手段を更
に有し、前記適応手段は、前記一組の確率モデルに対応
する該予め計算され記憶されたヤコビ行列の一組を用い
て前記条件変動後のモデルパラメータを求めることを特
徴とする。
【0024】さらに、本発明は、入力ベクトルに対し、
各認識カテゴリの特徴を表現した確率モデルの尤度を計
算し、所定の複数の確率モデル中で最も尤度の高い確率
モデルが表現する認識カテゴリを認識結果として出力す
るパターン認識におけるモデル適応システムとしてコン
ピュータを機能させるプログラムを格納した記憶媒体で
あって、パターン認識と確率モデル学習の条件を表現す
るパラメータの、各確率モデルのモデルパラメータを求
めるための学習データの収集時の初期条件と実際の認識
時の現条件との間での変化分を決定する第1のプログラ
ムコードと、前記初期条件と前記現条件との間に不整合
が生じた場合に、前記第1のプログラムコードにより決
定された変化分に基づいて条件変動前のモデルパラメー
タを更新して条件変動後のモデルパラメータを求めて前
記確率モデルを適応する第2のプログラムコードと、を
有することを特徴とする記憶媒体を提供する。
【0025】また、本発明では、前記第2のプログラム
コードは、前記モデルパラメータの変化分を前記条件を
表現するパラメータの変化分により表現するテイラー展
開を用いて前記条件変動後のモデルパラメータを求める
ことを特徴とする。
【0026】また、本発明では、前現条件が時々刻々と
変化する場合に、前記第2のプログラムコードは、直前
の条件に適応した確率モデルを順次初期確率モデルとし
ながら前記テイラー展開を用いて確率モデルを繰返し現
条件に適応することを特徴とする。
【0027】また、本発明では、前記テイラー展開のヤ
コビ行列を予め計算して記憶させておく第3のプログラ
ムコードを更に有し、前記第2のプログラムコードは、
該予め計算され記憶されたヤコビ行列を用いて前記条件
変動後のモデルパラメータを求めることを特徴とする。
【0028】また、本発明では、様々なタイプの前記条
件に対応して複数組の確率モデルを記憶させる第4のプ
ログラムコードを更に有し、前記現条件が変化する場合
に、前記第2のプログラムコードは、前記複数組の確率
モデルから現条件に最も類似した一組の確率モデルを選
択し、該一組の確率モデルを初期確率モデルとして前記
テイラー展開を用いて確率モデルを現条件に適応するこ
とを特徴とする。
【0029】また、本発明では、前記複数組の確率モデ
ルに対応して前記テイラー展開の複数組のヤコビ行列を
予め計算して記憶させておく第5のプログラムコードを
更に有し、前記第2のプログラムコードは、前記一組の
確率モデルに対応する該予め計算され記憶されたヤコビ
行列の一組を用いて前記条件変動後のモデルパラメータ
を求めることを特徴とする。
【0030】さらに、本発明は、入力ベクトルを入力す
る入力手段と、各入力ベクトルから、パターン認識と確
率モデル学習の条件を表現するパラメータを抽出するパ
ラメータ抽出手段と、学習データを収集する時の初期条
件下で入力された入力ベクトルから抽出された前記条件
を表現するパラメータから初期条件確率モデルを生成し
て記憶する初期条件確率モデル生成記憶手段と、前記条
件を表現するパラメータの所定の値に対応する所定の参
照確率モデルを記憶する参照確率モデル記憶手段と、前
記初期条件確率モデルと前記参照確率モデルから、初期
条件重畳確率モデルを生成して記憶する初期条件重畳確
率モデル生成記憶手段と、前記初期条件確率モデルと前
記初期条件重畳確率モデルから、モデルパラメータの変
化分を前記条件を表現するパラメータの変化分により表
現するテイラー展開のヤコビ行列を計算して記憶するヤ
コビ行列計算記憶手段と、実際の認識時の現条件下で入
力された入力ベクトルから抽出された前記条件を表現す
るパラメータにより求められた適応対象条件確率モデル
と、前記初期条件確率モデルとの差分を算出する差分算
出手段と、前記差分と、前記初期条件重畳確率モデル
と、前記ヤコビ行列とから、適応条件重畳確率モデルを
計算して記憶する適応条件重畳確率モデル計算記憶手段
と、入力ベクトルに対し、各認識カテゴリの特徴を表現
した各適応条件重畳確率モデルの最も尤度を計算し、前
記適応条件重畳確率モデル中で最も尤度の高い適応条件
重畳確率モデルが表現する認識カテゴリを認識結果とし
て出力するパターン認識を行うパターン認識手段と、を
有することを特徴とするパターン認識装置を提供する。
【0031】さらに、本発明は、入力雑音重畳音声デー
タを入力する音声入力手段と、各入力雑音重畳音声デー
タから、雑音データを抽出する雑音抽出手段と、前記雑
音データの一部または全部の区間を用いて平均スペクト
ラムを計算し、該平均スペクトラムを前記雑音データの
全区間から差し引いて、消し残り雑音データを求める雑
音スペクトルサブトラクション手段と、学習データを収
集する時の初期条件下で入力された入力雑音重畳音声デ
ータにより求められた前記消し残り雑音データから初期
雑音モデルを生成して記憶する初期雑音モデル生成記憶
手段と、所定のクリーン音声モデルを記憶するクリーン
音声モデル記憶手段と、前記初期雑音モデルと前記クリ
ーン音声モデルから、初期雑音重畳音声モデルを生成し
て記憶する初期雑音重畳音声モデル生成記憶手段と、前
記初期雑音モデルと前記初期雑音重畳音声モデルから、
モデルパラメータの変化分を前記雑音データの変化分に
より表現するテイラー展開のヤコビ行列を計算して記憶
するヤコビ行列計算記憶手段と、実際の認識時の現条件
下で入力された入力雑音重畳音声データから求められた
前記消し残り雑音データにより求められた適応対象雑音
モデルと、前記初期雑音モデルとの差分を算出する差分
算出手段と、前記差分と、前記初期雑音重畳音声モデル
と、前記ヤコビ行列とから、適応雑音重畳音声モデルを
計算して記憶する適応雑音重畳音声モデル計算記憶手段
と、実際の認識時の現条件下で入力された入力雑音重畳
音声データから求められた前記雑音データの一部または
全部の区間を用いて平均スペクトラムを計算し、該平均
スペクトラムを実際の認識時の現条件下で入力された入
力雑音重畳音声データの全区間から差し引いて、雑音を
差し引いた音声データを求める雑音重畳音声スペクトル
サブトラクション手段と、前記雑音を差し引いた音声デ
ータに対し、各認識カテゴリの特徴を表現した各適応雑
音重畳音声モデルの尤度を計算し、前記適応雑音重畳音
声モデル中で最も尤度の高い適応雑音重畳音声モデルが
表現する認識カテゴリを認識結果として出力する音声認
識を行う音声認識手段と、を有することを特徴とする音
声認識装置を提供する。
【0032】さらに、本発明は、入力ベクトルを入力す
るステップと、各入力ベクトルから、パターン認識と確
率モデル学習の条件を表現するパラメータを抽出するス
テップと、学習データを収集する時の初期条件下で入力
された入力ベクトルから抽出された前記条件を表現する
パラメータから初期条件確率モデルを生成して記憶する
ステップと、前記条件を表現するパラメータの所定の値
に対応する所定の参照確率モデルを記憶するステップ
と、前記初期条件確率モデルと前記参照確率モデルか
ら、初期条件重畳確率モデルを生成して記憶するステッ
プと、前記初期条件確率モデルと前記初期条件重畳確率
モデルから、モデルパラメータの変化分を前記条件を表
現するパラメータの変化分により表現するテイラー展開
のヤコビ行列を計算して記憶するステップと、実際の認
識時の現条件下で入力された入力ベクトルから抽出され
た前記条件を表現するパラメータにより求められた適応
対象条件確率モデルと、前記初期条件確率モデルとの差
分を算出するステップと、前記差分と、前記初期条件重
畳確率モデルと、前記ヤコビ行列とから、適応条件重畳
確率モデルを計算して記憶するステップと、入力ベクト
ルに対し、各認識カテゴリの特徴を表現した各適応条件
重畳確率モデルの尤度を計算し、前記適応条件重畳確率
モデル中で最も尤度の高い適応条件重畳確率モデルが表
現する認識カテゴリを認識結果として出力するパターン
認識を行うステップと、を有することを特徴とするパタ
ーン認識方法を提供する。
【0033】さらに、本発明は、入力雑音重畳音声デー
タを入力するステップと、各入力雑音重畳音声データか
ら、雑音データを抽出するステップと、前記雑音データ
の一部または全部の区間を用いて平均スペクトラムを計
算し、該平均スペクトラムを前記雑音データの全区間か
ら差し引いて、消し残り雑音データを求めるステップ
と、学習データを収集する時の初期条件下で入力された
入力雑音重畳音声データにより求められた前記消し残り
雑音データから初期雑音モデルを生成して記憶するステ
ップと、所定のクリーン音声モデルを記憶するステップ
と、前記初期雑音モデルと前記クリーン音声モデルか
ら、初期雑音重畳音声モデルを生成して記憶するステッ
プと、前記初期雑音モデルと前記初期雑音重畳音声モデ
ルから、モデルパラメータの変化分を前記雑音データの
変化分により表現するテイラー展開のヤコビ行列を計算
して記憶するステップと、実際の認識時の現条件下で入
力された入力雑音重畳音声データから求められた前記消
し残り雑音データにより求められた適応対象雑音モデル
と、前記初期雑音モデルとの差分を算出するステップ
と、前記差分と、前記初期雑音重畳音声モデルと、前記
ヤコビ行列とから、適応雑音重畳音声モデルを計算して
記憶するステップと、実際の認識時の現条件下で入力さ
れた入力雑音重畳音声データから求められた前記雑音デ
ータの一部または全部の区間を用いて平均スペクトラム
を計算し、該平均スペクトラムを実際の認識時の現条件
下で入力された入力雑音重畳音声データの全区間から差
し引いて、雑音を差し引いた音声データを求めるステッ
プと、前記雑音を差し引いた音声データに対し、各認識
カテゴリの特徴を表現した各適応雑音重畳音声モデルの
尤度を計算し、前記適応雑音重畳音声モデル中で最も尤
度の高い適応雑音重畳音声モデルが表現する認識カテゴ
リを認識結果として出力する音声認識を行うステップ
と、を有することを特徴とする音声認識方法を提供す
る。
【0034】さらに、本発明は、入力ベクトルに対し、
各認識カテゴリの特徴を表現した確率モデルの尤度を計
算し、所定の複数の確率モデル中で最も尤度の高い確率
モデルが表現する認識カテゴリを認識結果として出力す
るパターン認識におけるモデル適応方法であって、
(a)モデル学習時に収録したパターン認識と確率モデ
ル学習の条件を表現するパラメータから初期条件確率モ
デルを学習するステップと、(b)前記条件を表現する
パラメータの所定の値に対応する所定の参照確率モデル
と前記初期条件確率モデルから確率モデル合成により初
期条件重畳確率モデルを求めるステップと、(c)モデ
ルパラメータの変化分を前記条件を表現するパラメータ
の変化分により表現するテイラー展開のヤコビ行列を前
記初期条件確率モデルと前記条件重畳確率モデルを用い
て計算して記憶するステップと、(d)実際の認識時に
観測した前記条件を表現するパラメータを用いて適応対
象条件確率モデルを学習するステップと、(e)前記初
期条件確率モデルと前記適応対象条件確率モデルとの間
に不整合がある場合に、前記ヤコビ行列を用いたテイラ
ー展開により前記初期条件重畳確率モデルを更新して適
応条件重畳確率モデルを求めるステップと、を有するこ
とを特徴とするモデル適応方法を提供する。
【0035】また、本発明では、前記ステップ(a),
(b),(c)による事前処理を、実際の認識時に行わ
れる前記ステップ(d),(e)による適応処理に先立
って、予め行っておくことを特徴とする。
【0036】さらに、本発明は、各認識カテゴリの特徴
を表現した確率モデルの尤度を計算し、所定の複数の確
率モデル中で最も尤度の高い確率モデルが表現する認識
カテゴリを認識結果として出力するパターン認識におけ
るモデル適応装置であって、(a)モデル学習時に収録
したパターン認識と確率モデル学習の条件を表現するパ
ラメータから初期条件確率モデルを学習する手段と、
(b)前記条件を表現するパラメータの所定の値に対応
する所定の参照確率モデルと前記初期条件確率モデルか
ら確率モデル合成により初期条件重畳確率モデルを求め
る手段と、(c)モデルパラメータの変化分を前記条件
を表現するパラメータの変化分により表現するテイラー
展開のヤコビ行列を前記初期条件確率モデルと前記初期
条件重畳確率モデルを用いて計算して記憶する手段と、
(d)実際の認識時に観測した前記条件を表現するパラ
メータを用いて適応対象条件確率モデルを学習する手段
と、(e)前記初期条件確率モデルと前記適応対象条件
確率モデルとの間に不整合がある場合に、前記ヤコビ行
列を用いたテイラー展開により前記初期条件重畳確率モ
デルを更新して適応条件重畳確率モデルを求める手段
と、を有することを特徴とするモデル適応装置を提供す
る。
【0037】また、本発明では、前記手段(a),
(b),(c)は、該手段(a),(b),(c)によ
る事前処理を、実際の認識時に行われる前記手段
(d),(e)による適応処理に先立って、予め行って
おくことを特徴とする。
【0038】さらに、本発明は、入力ベクトルに対し、
各認識カテゴリの特徴を表現した確率モデルの尤度を計
算し、所定の複数の確率モデル中で最も尤度の高い確率
モデルが表現する認識カテゴリを認識結果として出力す
るパターン認識におけるモデル適応システムとしてコン
ピュータを機能させるプログラムを格納した記憶媒体で
あって、(a)モデル学習時に収録したパターン認識と
確率モデル学習の条件を表現するパラメータから初期条
件確率モデルを学習するプログラムコードと、(b)前
記条件を表現するパラメータの所定の値に対応する所定
の参照確率モデルと前記初期条件確率モデルから確率モ
デル合成により初期条件重畳確率モデルを求めるプログ
ラムコードと、(c)モデルパラメータの変化分を前記
条件を表現するパラメータの変化分により表現するテイ
ラー展開のヤコビ行列を前記初期条件確率モデルと前記
初期条件重畳確率モデルを用いて計算して記憶させるプ
ログラムコードと、(d)実際の認識時に観測した前記
条件を表現するパラメータを用いて適応対象条件確率モ
デルを学習するプログラムコードと、(e)前記初期条
件確率モデルと前記適応対象条件確率モデルとの間に不
整合がある場合に、前記ヤコビ行列を用いたテイラー展
開により前記初期条件重畳確率モデルを更新して適応条
件重畳確率モデルを求めるプログラムコードと、を有す
ることを特徴とする記憶媒体を提供する。
【0039】また、本発明では、前記プログラムコード
(a),(b),(c)による事前処理は、実際の認識
時に行われる前記プログラムコード(d),(e)によ
る適応処理に先立って、予め行われるものであることを
特徴とする。
【0040】
【発明の実施の形態】本発明のモデル適応方法は、入力
ベクトル時系列に対し、各認識カテゴリの特徴を表現し
た確率モデルの尤度を計算し、最も尤度の高いモデルを
表現するカテゴリを認識結果として出力するパターン認
識処理に適用しうるものであるが、この場合に認識時の
例えば背景雑音等のような条件が初期の条件、すなわち
初期モデル学習時の条件と異なる場合における認識率の
低下を防止するために、両条件の差である変動分からモ
デルパラメータの変動分をテイラー展開によって近似計
算して基準モデルのパラメータを更新し、認識時の条件
に適応したモデルを作成し、このモデルを使用して認識
を行うものである。
【0041】まず、本発明の原理について説明する。
【0042】非線形の関係にある2領域に含まれるベク
トルx,yを考える。
【0043】 y=f(x) (1) つまり、yはxについての線形または非線形の関数f
(x)で表される。ここで、xが微小変動した場合のy
の変動量を考える。
【0044】 y+Δy=f(x+Δx) (2) 関数f(x)をxについてのテイラー展開を行うと以下
の関係が成り立つ。
【0045】
【数1】 従って、ベクトルの微小変動分Δx,Δyには、上記の
テイラー展開式の1次微分項までを考慮すると以下の関
係が成り立ち、これは図1に示すように表わされる。
【0046】
【数2】 上記式(4)の関係を用いれば、Δyは、xからyの変
換をせずに、Δxとヤコビ行列の乗算のみで近似的に求
めることができる。
【0047】認識対象を表現するモデルパラメータは、
条件の変化に応じて、そのパラメータを更新する必要が
ある。そこで、モデルパラメータの変動分を条件を表現
するパラメータの変動分から求めることを考える。Δy
をモデルパラメータの変動分、Δxを条件を表現するパ
ラメータの変動分として考える。条件を表現するパラメ
ータの変動がモデルパラメータの変動に対して線形のみ
ならず非線形の関係にある場合でも、上記式(4)に従
えば、条件を表現するパラメータの変動分Δxを観測さ
えすれば、xからyへの非線形な写像による複雑な計算
をせずに、モデルパラメータの変動分Δyを近似的に、
少ない演算量で高速に求めることができる。
【0048】ただし、ここではベクトルの変動が微小で
あることから上記のテイラー展開式(3)の1次微分項
を考慮するだけで十分と考えられるが、2次微分項以降
も利用可能である。
【0049】そこで、条件が変動する例として、音声認
識において、背景雑音が変動する場合を考える。初期モ
デル学習時の背景雑音と、認識時の背景雑音との間の変
化によって起きるモデルの不整合を補正する雑音適応に
ついて説明する。
【0050】はじめに、ヤコビ行列の求め方をケプスト
ラム(例えば、古井“ディジタル音声処理”、東海大学
出版会)をパラメータとした場合を例に説明する。音響
モデルは音声の特徴パラメータとして、ケプストラムを
用いる場合が多い。
【0051】背景雑音が重畳した音声(以下、雑音重畳
音声と記す)のパワースペクトルSR (ベクトルで表
す)は、クリーン音声のパワースペクトルSS と背景雑
音のパワースペクトルSN の和で表される。
【0052】 SR =SS +SN (5) 上記の関係をケプストラム領域に変換する。雑音重畳音
声ケプストラムCR と、クリーン音声ケプストラム
S 、雑音ケプストラムCN との関係は図2に示すよう
に以下のような関係になる。
【0053】
【数3】 CR =IDFT(log (exp(DFT(CS ))+ exp(DFT(CN )))) (6) ここで、DFT(・),IDFT(・), log(・),
exp(・)をそれぞれ離散フーリエ変換、逆離散フーリ
エ変換、対数変換、指数変換を表す。離散フーリエ変換
は線形変換であるが、対数変換と指数変換は非線形変換
であるため、雑音重畳音声ケプストラムCR と雑音ケプ
ストラムCN との間には非線形の関係が成り立つ。
【0054】初期モデル用学習音声データ収録時の背景
雑音と認識時の背景雑音とが異なる場合、上記関係式
(6)を用いて認識時に観測した背景雑音の雑音ケプス
トラムから雑音重畳音声ケプストラムを求めるには、2
回の離散フーリエ変換、対数変換、指数変換という複雑
で多量の計算を行わなければならない。
【0055】このときテイラー展開を用いれば、雑音重
畳音声ケプストラムの変動分をΔCR を式(7)のよう
に雑音ケプストラムの変動分ΔCN とヤコビ行列から求
めることができる。雑音ケプストラムの変動分ΔC
N は、上記式(6)による複雑な関係式を用いて変換す
る必要はない。
【0056】
【数4】 上記式に含まれる偏微分項を図2に示した各領域間の関
係式を用いて計算する。
【数5】 ここで、F,F-1は、コサイン変換行列、逆コサイン変
換行列、pはケプストラムの次数(パワー項を含む)で
ありかつスペクトラムの次数である。よって、
【数6】 ここで、[JN ij,Fij,Fij -1は、それぞれ行列J
N 、行列F、行列F-1のi行j列目の要素である。ま
た、SNk,SRkはそれぞれベクトルSN とベクトルSR
のk番目の要素である。
【0057】つまりヤコビ行列の各要素は、雑音スペク
トラムSN と雑音重畳音声スペクトラムSR 、そして定
数値である変換行列F,F-1から求めることができる。
NとSR は、それぞれ雑音ケプストラムCN と雑音重
畳音声ケプストラムCR を線形スペクトラムに変換する
ことで求められる。従って、モデル学習時に背景雑音を
収録した時点で、ヤコビ行列を計算しておくことができ
る。
【0058】次に、上記のテイラー展開を用いて、背景
雑音変動前の初期雑音重畳音声HMMを背景雑音変動後
(認識時)の背景雑音に整合した雑音重畳音声HMM
(以下、適応雑音重畳音声HMMと記す)に更新する方
法について説明する。ここでは、HMMの各状態に存在
する出力確率分布のケプストラム平均値ベクトルを適応
することを考える。上記式(7)にしたがえば、適応雑
音重畳音声HMMの平均値ベクトルCR ′は以下のよう
に計算できる。
【0059】 CR ′=CR +JN (CN ′−CN ) (10) 上記式において、CR は初期雑音重畳音声HMMの平均
値ベクトル、CN は雑音変動前の背景雑音データから求
めたHMM(以下、初期雑音HMM)の出力確率分布の
平均値ベクトル、CN ′は、雑音変動後(認識時)の背
景雑音から求めたHMM(以下、適応対象雑音HMM)
の出力確率分布の平均値ベクトルを示す。
【0060】CR は、雑音変動前の背景雑音が重畳した
音声データで学習した雑音重畳音声HMMの平均値ベク
トルを用いる。また、初期雑音HMMと背景雑音のない
クリーン音声HMMからHMM合成により求めた雑音重
畳音声HMMを用いることも可能である。
【0061】上記式(10)中のヤコビ行列JN を求め
るには、上記ヤコビ行列の計算方法で述べたように、C
N とCR が必要である。これらは、背景雑音変動前のパ
ラメータであり、雑音変動に備え、予め計算しておくこ
とができる。
【0062】上記式(10)に従えば、CN ,CR ,J
N ,CN ′が決定すると、認識時の条件に整合した雑音
重畳音声ケプストラムCR ′を即座に求めることができ
る。
【0063】上記の本発明の適応処理は、雑音変動前
(認識時)までに予め実行できる事前処理と、雑音変動
後に背景雑音を観測してから実行できる適応処理に分割
することができる。つまり、初期雑音HMM、初期雑音
重畳音声HMM、ヤコビ行列を求める処理は事前処理で
ある。従って、認識時には適応対象雑音HMMを求め、
上記式(10)の行列計算を実行するのみで、少量の演
算量で音響モデルの適応が完了する。
【0064】次に、具体的に図面を参照して説明する。
【0065】図3は、本発明の一実施形態に係るモデル
適応装置の構成を示す図であり、図4は、図3に示すモ
デル適応装置の作用を示すフローチャートである。
【0066】図3,4に示すように、本実施形態のモデ
ル適応装置では、まずモデル学習時に音声入力部1にお
いて入力され雑音抽出部2において抽出された背景雑音
から初期雑音HMMが求められ(ステップS1)、初期
雑音(HMM)記憶部3に記憶する。また、クリーン音
声HMM記憶部4に記憶されたクリーン音声HMMと前
記初期雑音HMMとをHMM合成部5においてHMM合
成法により合成して、初期雑音重畳音声HMMを計算し
(ステップS2)、初期雑音重畳音声HMM記憶部6に
記憶する。それから、ヤコビ行列計算部7で初期雑音H
MMと初期雑音重畳音声HMMからヤコビ行列を計算
し、ヤコビ行列記憶部8に記憶しておく(ステップS
3)。
【0067】次に、認識を行う場合には、図3に示すよ
うに、音声入力部で入力された音声から雑音抽出部2に
おいて雑音データを抽出し、適応対象雑音HMMとして
求める。入力された雑音重畳音声と初期雑音重畳音声H
MMに不整合が生じている場合は、差分算出部9にて適
応対象雑音HMMと初期雑音HMMとの差分を求め(ス
テップS4)、雑音重畳音声HMM更新部10にて該差
分とヤコビ行列を使用したテイラー展開により前記初期
雑音重畳音声HMMの更新処理を行って適応雑音重畳音
声HMMを近似計算し(ステップS5)、適応雑音重畳
音声HMM記憶部11に記憶する。次に、この適応雑音
重畳音声HMMを使用して音声認識部12で雑音重畳音
声の認識処理を行い(ステップS6)、認識結果出力部
13にて結果を出力する。
【0068】なお、以上の処理のうちステップS1,S
2,S3の処理、すなわち初期雑音HMM、初期雑音重
畳音声HMM、ヤコビ行列のそれぞれの計算および記憶
は、背景雑音が認識の度毎に逐次変動する場合でも、最
初にだけ行われ、それぞれの値をメモリに記憶してお
く。そして、認識時にはこれらの記憶した情報を利用し
て以降の処理、すなわちステップS4,S5,S6のみ
を繰り返し行う。
【0069】また、1つ前の発声をもとに得られた適応
対象雑音HMM、適応雑音重畳音声HMMを新たな初期
モデルとして前記ステップS3から処理を行う逐次処理
も可能である。
【0070】次に、図5,6を参照して、本発明の他の
実施形態について説明する。本実施形態では、スペクト
ル・サブトラクション(Spectral Subtraction,以下、
SS法と略称する)(例えば、S.F.Boll "Suppression
of Acoustic Noise in Speech Using Spectral Subtrac
tion," IEEE Trans.on ASSP,Vol.ASSP-27,No.2,pp.113-
120,1979)を組み合わせた雑音適応を説明する。SS法
とは、収録した背景雑音の一部または全区間を用いて平
均スペクトラムを計算し、これを入力データのスペクト
ラムから差し引いて入力データのS/N比を改善する雑
音除去法である。スペクトラムの平均計算とスペクトラ
ムの減算で済むため、演算量が低い雑音除去法である。
【0071】ここでは、上述した図4の事前処理過程の
ステップS1および適応処理過程のステップS4におい
て、図5,6に示すように,雑音SS部14にて収録し
た背景雑音(モデル学習時に収録した背景雑音および認
識時の背景雑音)の一部または全区間を用いて平均スペ
クトラムを計算し、この平均スペクトラムを収録した雑
音データの全区間のスペクトラムから差し引き、消し残
りの雑音データを求める(ステップS7,S8)。上記
操作で求めた消し残りの雑音データを学習データとして
初期雑音HMMおよび適応対象雑音HMMを作成する。
認識対象の雑音重畳音声にも雑音重畳音声SS部15に
てSS法を施し(ステップS9)、雑音を差し引いた音
声データを音声認識部13で認識する。他の操作は図4
のモデル適応の処理過程と同様である。
【0072】次に、本発明の他の実施形態について説明
する。ここでは、複数の初期雑音から求めたヤコビ行列
を用いて雑音適応を行う実施形態を説明する。
【0073】本発明は、初期雑音によって適応対象雑音
へ適応したときの認識率が異なる。例えば、適応対象雑
音として空調機雑音に適応する場合を考える。この場
合、比較的定常な空調機雑音に対して、交差点での自動
車走行音や人の声等を含むようなやや非定常な雑音を初
期雑音とするよりも、計算機のファンの音がそのほとん
どを占める定常な雑音を初期雑音とした方が本発明によ
る適応の効果は高い。
【0074】しかし、必ずしも適応対象の雑音が既知で
はないため本発明の効果を最大限に発揮できる初期雑音
を予め用意することはできない。そこで、本実施形態で
は、種類の異なる初期雑音を複数用意して、これらの初
期雑音の中から本発明の効果を最大限に発揮できる初期
雑音を選択し、雑音適応に用いることで適応対象雑音の
種類によらず常に認識率の高い雑音適応を可能とする。
【0075】本実施形態では、モデル適応装置の構成は
上述した図3に示すものと同様であるが、初期雑音(H
MM)記憶部3は複数の初期雑音を記憶し、初期雑音重
畳音声HMM記憶部6は複数の初期雑音に対応した複数
組の初期雑音重畳音声HMMを記憶し、ヤコビ行列記憶
部8は複数の初期雑音に対応した複数組のヤコビ行列を
記憶し、雑音重畳音声HMM更新部10は最適な初期雑
音を選択する機能を有する。
【0076】ここで、最適な初期雑音の選択は以下のよ
うに行われる。
【0077】まず、種類の異なる初期雑音を複数用意し
て、初期雑音それぞれに対して初期雑音HMMとヤコビ
行列を計算し、記憶しておく。
【0078】次に、認識時に観測した適応対象雑音と記
憶しておいた初期雑音それぞれとの類似度を計算する。
類似度の計算法の例として、初期雑音HMMの出力確率
分布の平均値ベクトルと適応対象雑音HMMの出力確率
分布の平均値ベクトルとのユークリッド距離による類似
度の計算法を説明する。第i番目の初期雑音HMMの出
力確率分布の平均値ベクトルCi N の第k番目の要素を
i Nk、適応対象雑音HMMの出力確率分布の平均値ベ
クトルC’N の第k番目の要素をC’Nkとすると、初期
雑音HMMの出力確率分布の平均値ベクトルと適応対象
雑音HMMの出力確率分布の平均値ベクトルとのユーク
リッド距離D(i)は以下のようにして求められる。
【0079】
【数7】 上記式(11)を用いて全ての初期雑音HMMに対して
適応対象雑音HMMとのユークリッド距離を計算し、最
も距離の小さい初期雑音HMMimin を選ぶ。
【数8】 このようにして選ばれた初期雑音HMMとこれに対応す
るヤコビ行列を用いて本発明による雑音重畳音声HMM
のパラメータの更新を行い、認識を行う。このように、
複数の初期雑音HMMおよびヤコビ行列を用意してお
き、観測された適応対象雑音HMMごとに最も類似した
初期雑音HMMを選択して本発明によるパラメータの更
新を行うことで、常に認識率の高い雑音適応が可能とな
る。
【0080】上記各実施形態では、本発明による背景雑
音の変動に対するモデル適応を述べた。この他、回線歪
みの変動に対するモデル適応の場合を考える。回線歪み
を表現するパラメータはモデルパラメータと同じケプス
トラムである。従って、上記作用で述べたテイラー展開
の式(7)の微分係数が1となり計算が可能である。
【0081】また、声道長の変動に対するモデル適応の
場合、本発明を用いて声道長パラメータの変動分からモ
デルパラメータを適応することが可能である。
【0082】次に、本発明の効果を調べるために行った
背景雑音の変動に対する音響モデルの適応実験について
説明する。ここでは背景雑音が、初期状態では交差点雑
音であったのが、実際の認識時に展示ホール雑音に変化
した場合を仮定し実験を行った。 本発明(結果の図お
よび表ではJacobian適応法と記す)の他に、従来の代表
的な雑音適応法として、NOVO合成法によるモデル適
応も比較のため実験した。NOVO合成法の処理の処理
過程を図7に示す。雑音変動前の初期状態である交差点
雑音に合わせてNOVO合成した初期雑音重畳音声モデ
ルをそのまま雑音変動後の音声の認識に用いた場合(適
応処理なし)も実験した。クリーン音声から求めたモデ
ルをそのまま認識に用いた場合についても実験を行っ
た。
【0083】話者13名の発声による100都市名単語
に、展示ホール雑音を計算機上で重畳させたものを評価
データとした。評価データの直前の区間の展示ホール雑
音データを用いて適応対象雑音HMMを学習し、適応を
行った。交差点雑音、展示ホール雑音ともに評価データ
に対するS/N比は10dBである。認識語彙は400
単語である。
【0084】適応に用いた展示ホール雑音データ長を変
化させたときの、本発明および上記手法を含めた4手法
の単語認識率の比較を図8に示す。また、適応処理に要
する処理量(CPU time )の本発明とNOVO合成法
との比較を表1に示す。ただし、適応処理のうち音響処
理と雑音学習については、その計算量が適応雑音データ
長に依存するため、本発明およびNOVO合成法ともに
表1中のCPU timeには含まれていない。
【0085】
【表1】 図8において、NOVO合成法は、適応データが長い場
合(図8では900m秒以上)では性能が高いが、適応
データが短い場合は性能が急激に低下した。一方、本発
明では、適応データが短い場合(図8では800m秒以
下)ではNOVO合成法よりもむしろ性能が高いことが
わかった。また表1に示すように、本発明はNOVO合
成法に比べて適応時に必要な処理がNOVO合成法の1
/34で済むことがわかった。
【0086】従って、本発明によるモデル適応手法は、
短い適応データによる適応が可能であり、更に適応処理
が高速であるという効果があることが確認できた。この
特徴は、変動する背景雑音に音響モデルを実時間適応す
るのに適している。
【0087】次に、本発明にSS法を導入した場合の音
声認識の結果について説明する。実験の条件は上記認識
実験と同様である。雑音の平均スペクトラムを計算する
ための雑音データ長は160msである。適応に用いた
展示ホール雑音データ長500msについて、本発明に
SSを導入した方法(表ではSS−Jacobian適応法と記
す)と、導入していない方法の単語認識率の比較を表2
に示す。
【0088】
【表2】 表2から、SSを本発明に導入することにより、単語認
識率が改善できることがわかった。従って、SS法とい
う演算量の少ない方法を本発明に導入することにより、
依然として適応処理が高速のまま、性能が向上できると
いう効果が確認できた。
【0089】なお、上記実施形態において、入力雑音重
畳音声と初期雑音重畳音声HMMに不整合が生じている
かどうかの判定には種々の方法を用いることが可能であ
る。例えば、差分算出部により求められた適応対象雑音
HMMと初期雑音HMMとの差分が有為であると雑音重
畳音声HMM更新部が判断した時に、入力雑音重畳音声
と初期雑音重畳音声HMMに不整合が生じていると判定
することが可能である。また、まず初期雑音重畳音声H
MMを用いて音声認識を行い、その結果得られた認識率
の低さから、音声認識部が入力雑音重畳音声と初期雑音
重畳音声HMMに不整合が生じているかどうかを判定す
ることも可能である。
【0090】また、上記実施形態では、音声を入力とし
た場合について説明したが、本発明はこれに限定される
ものでなく、この他にも図形、文字などのパターン認識
にも広く適用し得るものである。
【0091】また、本発明のモデル適応方法を、汎用の
コンピュータによって読取り可能な記憶媒体上にコンピ
ュータソフトウェアプログラムとして実装することによ
り、この記憶媒体が搭載されたコンピュータを本発明の
モデル適応装置として機能させることが可能となる。こ
こで、記憶媒体の具体的構成については、コンピュータ
プログラムを格納するのに適したいかなる構成を用いて
も良い。
【0092】特に、上記図4および図6における事前処
理と適応処理をまとめてソフトウェアプログラムとして
実装したモデル適応システム用の記憶媒体として提供し
たり、事前処理と適応処理と認識処理をまとめてソフト
ウェアプログラムとして実装したパターン認識システム
用の記憶媒体として提供することが考えられる。
【0093】
【発明の効果】以上説明したように、本発明によれば、
初期条件確率モデルと初期条件重畳確率モデルからヤコ
ビ行列を計算して記憶しておき、認識時の条件を測定し
て適応対象条件確率モデルを求め、適応対象条件確率モ
デルと初期条件確率モデルとの差分およびヤコビ行列に
基づくテイラー展開によって初期条件重畳確率モデルを
更新して適応条件重畳確率モデルを近似計算するので、
少ない演算量で適応処理を高速に行い、認識性能を向上
することができる。
【図面の簡単な説明】
【図1】非線形関係にある領域間でのテイラー展開によ
る微小変動の近似を説明するための図である。
【図2】雑音ケプストラムから雑音重畳音声ケプストラ
ムへの非線形な変換の過程を示す図である。
【図3】本発明の一実施形態に係るモデル適応装置の構
成を示す図である。
【図4】図3に示すモデル適応装置の作用を示すフロー
チャートである。
【図5】本発明の他の実施形態に係るSS法を組み込ん
だモデル適応装置の構成を示す図である。
【図6】図5に示すモデル適応装置の作用を示すフロー
チャートである。
【図7】従来のNOVO合成法の処理過程を示す図であ
る。
【図8】雑音観測時間に対する音声認識率について本発
明の方法と従来の方法の比較を示す図である。
【符号の説明】
1 音声入力部 2 雑音抽出部 3 初期雑音(HMM)記憶部 4 クリーン音声HMM記憶部 5 HMM合成部 6 初期雑音重畳音声HMM記憶部 7 ヤコビ行列計算部 8 ヤコビ行列記憶部 9 差分算出部 10 雑音重畳音声HMM更新部 11 適応雑音重畳音声HMM記憶部 12 音声認識部 13 認識結果出力部 14 雑音SS部 15 雑音重畳音声SS部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 高橋 敏 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 入力ベクトルに対し、各認識カテゴリの
    特徴を表現した確率モデルの尤度を計算し、所定の複数
    の確率モデル中で最も尤度の高い確率モデルが表現する
    認識カテゴリを認識結果として出力するパターン認識に
    おけるモデル適応方法であって、 パターン認識と確率モデル学習の条件を表現するパラメ
    ータの、各確率モデルのモデルパラメータを求めるため
    の学習データの収集時の初期条件と実際の認識時の現条
    件との間での変化分を決定するステップと、 前記初期条件と前記現条件との間に不整合が生じた場合
    に、前記決定するステップで決定された変化分に基づい
    て条件変動前のモデルパラメータを更新して条件変動後
    のモデルパラメータを求めて前記確率モデルを適応する
    ステップと、 を有することを特徴とするモデル適応方法。
  2. 【請求項2】 前記適応するステップは、前記モデルパ
    ラメータの変化分を前記条件を表現するパラメータの変
    化分により表現するテイラー展開を用いて前記条件変動
    後のモデルパラメータを求めることを特徴とする請求項
    1記載のモデル適応方法。
  3. 【請求項3】 前記現条件が時々刻々と変化する場合
    に、前記適応するステップは、直前の条件に適応した確
    率モデルを順次初期確率モデルとしながら前記テイラー
    展開を用いて確率モデルを繰返し現条件に適応すること
    を特徴とする請求項2記載のモデル適応方法。
  4. 【請求項4】 前記テイラー展開のヤコビ行列を予め計
    算して記憶しておくステップを更に有し、 前記適応するステップは、該予め計算され記憶されたヤ
    コビ行列を用いて前記条件変動後のモデルパラメータを
    求めることを特徴とする請求項2記載のモデル適応方
    法。
  5. 【請求項5】 様々なタイプの前記条件に対応して複数
    組の確率モデルを記憶するステップを更に有し、 前記現条件が変化する場合に、前記適応するステップ
    は、前記複数組の確率モデルから現条件に最も類似した
    一組の確率モデルを選択し、該一組の確率モデルを初期
    確率モデルとして前記テイラー展開を用いて確率モデル
    を現条件に適応することを特徴とする請求項2記載のモ
    デル適応方法。
  6. 【請求項6】 前記複数組の確率モデルに対応して前記
    テイラー展開の複数組のヤコビ行列を予め計算して記憶
    しておくステップを更に有し、 前記適応するステップは、前記一組の確率モデルに対応
    する該予め計算され記憶されたヤコビ行列の一組を用い
    て前記条件変動後のモデルパラメータを求めることを特
    徴とする請求項5記載のモデル適応方法。
  7. 【請求項7】 前記確率モデルは、隠れマルコフモデル
    であることを特徴とする請求項1記載のモデル適応方
    法。
  8. 【請求項8】 前記入力ベクトルは入力音声の音声特徴
    量であり、前記条件は該入力音声の収録時の背景雑音ま
    たは該入力音声を発した話者の声道長であることを特徴
    とする請求項1記載のモデル適応方法。
  9. 【請求項9】 前記条件は背景雑音であり、雑音の含ま
    れないクリーンな音声の確率モデルと条件変動前の背景
    雑音から求められた確率モデルの合成により条件変動後
    の確率モデルを求めるステップを更に有することを特徴
    とする請求項8記載のモデル適応方法。
  10. 【請求項10】 前記条件は背景雑音であり、前記条件
    を表現するパラメータは平均雑音スペクトラムを前記入
    力音声に対応する雑音スペクトラムから差し引いて得ら
    れたスペクトラムのケプストラムパラメータであり、前
    記入力ベクトルは該平均雑音スペクトラムを該入力音声
    から差し引いて得られた音声信号のケプストラムパラメ
    ータであることを特徴とする請求項8記載のモデル適応
    方法。
  11. 【請求項11】 入力ベクトルに対し、各認識カテゴリ
    の特徴を表現した確率モデルの尤度を計算し、所定の複
    数の確率モデル中で最も尤度の高い確率モデルが表現す
    る認識カテゴリを認識結果として出力するパターン認識
    におけるモデル適応装置であって、 パターン認識と確率モデル学習の条件を表現するパラメ
    ータの各確率モデルのモデルパラメータを求めるための
    学習データの収集時の初期条件と実際の認識時の現条件
    との間での変化分を決定する変化分決定手段と、 前記初期条件と前記現条件との間に不整合が生じた場合
    に、前記決定するステップで決定された変化分に基づい
    て条件変動前のモデルパラメータを更新して条件変動後
    のモデルパラメータを求めて前記確率モデルを適応する
    適応手段と、 を有することを特徴とするモデル適応装置。
  12. 【請求項12】 前記適応手段は、前記モデルパラメー
    タの変化分を前記条件を表現するパラメータの変化分に
    より表現するテイラー展開を用いて前記条件変動後のモ
    デルパラメータを求めることを特徴とする請求項11記
    載のモデル適応装置。
  13. 【請求項13】 前記現条件が時々刻々と変化する場合
    に、前記適応手段は、直前の条件に適応した確率モデル
    を順次初期確率モデルとしながら前記テイラー展開を用
    いて確率モデルを繰返し現条件に適応することを特徴と
    する請求項12記載のモデル適応装置。
  14. 【請求項14】 前記テイラー展開のヤコビ行列を予め
    計算して記憶しておくヤコビ行列計算記憶手段を更に有
    し、 前記適応手段は、該予め計算され記憶されたヤコビ行列
    を用いて前記条件変動後のモデルパラメータを求めるこ
    とを特徴とする請求項12記載のモデル適応装置。
  15. 【請求項15】 様々なタイプの前記条件に対応して複
    数組の確率モデルを記憶する確率モデル記憶手段を更に
    有し、 前記現条件が変化する場合に、前記適応手段は、前記複
    数組の確率モデルから現条件に最も類似した一組の確率
    モデルを選択し、該一組の確率モデルを初期確率モデル
    として前記テイラー展開を用いて確率モデルを現条件に
    適応することを特徴とする請求項12記載のモデル適応
    装置。
  16. 【請求項16】 前記複数組の確率モデルに対応して前
    記テイラー展開の複数組のヤコビ行列を予め計算して記
    憶しておくヤコビ行列計算記憶手段を更に有し、 前記適応手段は、前記一組の確率モデルに対応する該予
    め計算され記憶されたヤコビ行列の一組を用いて前記条
    件変動後のモデルパラメータを求めることを特徴とする
    請求項15記載のモデル適応装置。
  17. 【請求項17】 入力ベクトルに対し、各認識カテゴリ
    の特徴を表現した確率モデルの尤度を計算し、所定の複
    数の確率モデル中で最も尤度の高い確率モデルが表現す
    る認識カテゴリを認識結果として出力するパターン認識
    におけるモデル適応システムとしてコンピュータを機能
    させるプログラムを格納した記憶媒体であって、 パターン認識と確率モデル学習の条件を表現するパラメ
    ータの、各確率モデルのモデルパラメータを求めるため
    の学習データの収集時の初期条件と実際の認識時の現条
    件との間での変化分を決定する第1のプログラムコード
    と、 前記初期条件と前記現条件との間に不整合が生じた場合
    に、前記第1のプログラムコードにより決定された変化
    分に基づいて条件変動前のモデルパラメータを更新して
    条件変動後のモデルパラメータを求めて前記確率モデル
    を適応する第2のプログラムコードと、 を有することを特徴とする記憶媒体。
  18. 【請求項18】 前記第2のプログラムコードは、前記
    モデルパラメータの変化分を前記条件を表現するパラメ
    ータの変化分により表現するテイラー展開を用いて前記
    条件変動後のモデルパラメータを求めることを特徴とす
    る請求項17記載の記憶媒体。
  19. 【請求項19】 前記現条件が時々刻々と変化する場合
    に、前記第2のプログラムコードは、直前の条件に適応
    した確率モデルを順次初期確率モデルとしながら前記テ
    イラー展開を用いて確率モデルを繰返し現条件に適応す
    ることを特徴とする請求項18記載の記憶媒体。
  20. 【請求項20】 前記テイラー展開のヤコビ行列を予め
    計算して記憶させておく第3のプログラムコードを更に
    有し、 前記第2のプログラムコードは、該予め計算され記憶さ
    れたヤコビ行列を用いて前記条件変動後のモデルパラメ
    ータを求めることを特徴とする請求項18記載の記憶媒
    体。
  21. 【請求項21】 様々なタイプの前記条件に対応して複
    数組の確率モデルを記憶させる第4のプログラムコード
    を更に有し、 前記現条件が変化する場合に、前記第2のプログラムコ
    ードは、前記複数組の確率モデルから現条件に最も類似
    した一組の確率モデルを選択し、該一組の確率モデルを
    初期確率モデルとして前記テイラー展開を用いて確率モ
    デルを現条件に適応することを特徴とする請求項18記
    載の記憶媒体。
  22. 【請求項22】 前記複数組の確率モデルに対応して前
    記テイラー展開の複数組のヤコビ行列を予め計算して記
    憶させておく第5のプログラムコードを更に有し、 前記第2のプログラムコードは、前記一組の確率モデル
    に対応する該予め計算され記憶されたヤコビ行列の一組
    を用いて前記条件変動後のモデルパラメータを求めるこ
    とを特徴とする請求項21記載の記憶媒体。
  23. 【請求項23】 入力ベクトルを入力する入力手段と、 各入力ベクトルから、パターン認識と確率モデル学習の
    条件を表現するパラメータを抽出するパラメータ抽出手
    段と、 学習データを収集する時の初期条件下で入力された入力
    ベクトルから抽出された前記条件を表現するパラメータ
    から初期条件確率モデルを生成して記憶する初期条件確
    率モデル生成記憶手段と、 前記条件を表現するパラメータの所定の値に対応する所
    定の参照確率モデルを記憶する参照確率モデル記憶手段
    と、 前記初期条件確率モデルと前記参照確率モデルから、初
    期条件重畳確率モデルを生成して記憶する初期条件重畳
    確率モデル生成記憶手段と、 前記初期条件確率モデルと前記初期条件重畳確率モデル
    から、モデルパラメータの変化分を前記条件を表現する
    パラメータの変化分により表現するテイラー展開のヤコ
    ビ行列を計算して記憶するヤコビ行列計算記憶手段と、 実際の認識時の現条件下で入力された入力ベクトルから
    抽出された前記条件を表現するパラメータにより求めら
    れた適応対象条件確率モデルと、前記初期条件確率モデ
    ルとの差分を算出する差分算出手段と、 前記差分と、前記初期条件重畳確率モデルと、前記ヤコ
    ビ行列とから、適応条件重畳確率モデルを計算して記憶
    する適応条件重畳確率モデル計算記憶手段と、 入力ベクトルに対し、各認識カテゴリの特徴を表現した
    各適応条件重畳確率モデルの最も尤度を計算し、前記適
    応条件重畳確率モデル中で最も尤度の高い適応条件重畳
    確率モデルが表現する認識カテゴリを認識結果として出
    力するパターン認識を行うパターン認識手段と、 を有することを特徴とするパターン認識装置。
  24. 【請求項24】 入力雑音重畳音声データを入力する音
    声入力手段と、 各入力雑音重畳音声データから、雑音データを抽出する
    雑音抽出手段と、 前記雑音データの一部または全部の区間を用いて平均ス
    ペクトラムを計算し、該平均スペクトラムを前記雑音デ
    ータの全区間から差し引いて、消し残り雑音データを求
    める雑音スペクトルサブトラクション手段と、 学習データを収集する時の初期条件下で入力された入力
    雑音重畳音声データにより求められた前記消し残り雑音
    データから初期雑音モデルを生成して記憶する初期雑音
    モデル生成記憶手段と、 所定のクリーン音声モデルを記憶するクリーン音声モデ
    ル記憶手段と、 前記初期雑音モデルと前記クリーン音声モデルから、初
    期雑音重畳音声モデルを生成して記憶する初期雑音重畳
    音声モデル生成記憶手段と、 前記初期雑音モデルと前記初期雑音重畳音声モデルか
    ら、モデルパラメータの変化分を前記雑音データの変化
    分により表現するテイラー展開のヤコビ行列を計算して
    記憶するヤコビ行列計算記憶手段と、 実際の認識時の現条件下で入力された入力雑音重畳音声
    データから求められた前記消し残り雑音データにより求
    められた適応対象雑音モデルと、前記初期雑音モデルと
    の差分を算出する差分算出手段と、 前記差分と、前記初期雑音重畳音声モデルと、前記ヤコ
    ビ行列とから、適応雑音重畳音声モデルを計算して記憶
    する適応雑音重畳音声モデル計算記憶手段と、 実際の認識時の現条件下で入力された入力雑音重畳音声
    データから求められた前記雑音データの一部または全部
    の区間を用いて平均スペクトラムを計算し、該平均スペ
    クトラムを実際の認識時の現条件下で入力された入力雑
    音重畳音声データの全区間から差し引いて、雑音を差し
    引いた音声データを求める雑音重畳音声スペクトルサブ
    トラクション手段と、 前記雑音を差し引いた音声データに対し、各認識カテゴ
    リの特徴を表現した各適応雑音重畳音声モデルの尤度を
    計算し、前記適応雑音重畳音声モデル中で最も尤度の高
    い適応雑音重畳音声モデルが表現する認識カテゴリを認
    識結果として出力する音声認識を行う音声認識手段と、 を有することを特徴とする音声認識装置。
  25. 【請求項25】 入力ベクトルを入力するステップと、 各入力ベクトルから、パターン認識と確率モデル学習の
    条件を表現するパラメータを抽出するステップと、 学習データを収集する時の初期条件下で入力された入力
    ベクトルから抽出された前記条件を表現するパラメータ
    から初期条件確率モデルを生成して記憶するステップ
    と、 前記条件を表現するパラメータの所定の値に対応する所
    定の参照確率モデルを記憶するステップと、 前記初期条件確率モデルと前記参照確率モデルから、初
    期条件重畳確率モデルを生成して記憶するステップと、 前記初期条件確率モデルと前記初期条件重畳確率モデル
    から、モデルパラメータの変化分を前記条件を表現する
    パラメータの変化分により表現するテイラー展開のヤコ
    ビ行列を計算して記憶するステップと、 実際の認識時の現条件下で入力された入力ベクトルから
    抽出された前記条件を表現するパラメータにより求めら
    れた適応対象条件確率モデルと、前記初期条件確率モデ
    ルとの差分を算出するステップと、 前記差分と、前記初期条件重畳確率モデルと、前記ヤコ
    ビ行列とから、適応条件重畳確率モデルを計算して記憶
    するステップと、 入力ベクトルに対し、各認識カテゴリの特徴を表現した
    各適応条件重畳確率モデルの尤度を計算し、前記適応条
    件重畳確率モデル中で最も尤度の高い適応条件重畳確率
    モデルが表現する認識カテゴリを認識結果として出力す
    るパターン認識を行うステップと、 を有することを特徴とするパターン認識方法。
  26. 【請求項26】 入力雑音重畳音声データを入力するス
    テップと、 各入力雑音重畳音声データから、雑音データを抽出する
    ステップと、 前記雑音データの一部または全部の区間を用いて平均ス
    ペクトラムを計算し、該平均スペクトラムを前記雑音デ
    ータの全区間から差し引いて、消し残り雑音データを求
    めるステップと、 学習データを収集する時の初期条件下で入力された入力
    雑音重畳音声データにより求められた前記消し残り雑音
    データから初期雑音モデルを生成して記憶するステップ
    と、 所定のクリーン音声モデルを記憶するステップと、 前記初期雑音モデルと前記クリーン音声モデルから、初
    期雑音重畳音声モデルを生成して記憶するステップと、 前記初期雑音モデルと前記初期雑音重畳音声モデルか
    ら、モデルパラメータの変化分を前記雑音データの変化
    分により表現するテイラー展開のヤコビ行列を計算して
    記憶するステップと、 実際の認識時の現条件下で入力された入力雑音重畳音声
    データから求められた前記消し残り雑音データにより求
    められた適応対象雑音モデルと、前記初期雑音モデルと
    の差分を算出するステップと、 前記差分と、前記初期雑音重畳音声モデルと、前記ヤコ
    ビ行列とから、適応雑音重畳音声モデルを計算して記憶
    するステップと、 実際の認識時の現条件下で入力された入力雑音重畳音声
    データから求められた前記雑音データの一部または全部
    の区間を用いて平均スペクトラムを計算し、該平均スペ
    クトラムを実際の認識時の現条件下で入力された入力雑
    音重畳音声データの全区間から差し引いて、雑音を差し
    引いた音声データを求めるステップと、 前記雑音を差し引いた音声データに対し、各認識カテゴ
    リの特徴を表現した各適応雑音重畳音声モデルの尤度を
    計算し、前記適応雑音重畳音声モデル中で最も尤度の高
    い適応雑音重畳音声モデルが表現する認識カテゴリを認
    識結果として出力する音声認識を行うステップと、 を有することを特徴とする音声認識方法。
  27. 【請求項27】 入力ベクトルに対し、各認識カテゴリ
    の特徴を表現した確率モデルの尤度を計算し、所定の複
    数の確率モデル中で最も尤度の高い確率モデルが表現す
    る認識カテゴリを認識結果として出力するパターン認識
    におけるモデル適応方法であって、 (a)モデル学習時に収録したパターン認識と確率モデ
    ル学習の条件を表現するパラメータから初期条件確率モ
    デルを学習するステップと、 (b)前記条件を表現するパラメータの所定の値に対応
    する所定の参照確率モデルと前記初期条件確率モデルか
    ら確率モデル合成により初期条件重畳確率モデルを求め
    るステップと、 (c)モデルパラメータの変化分を前記条件を表現する
    パラメータの変化分により表現するテイラー展開のヤコ
    ビ行列を前記初期条件確率モデルと前記条件重畳確率モ
    デルを用いて計算して記憶するステップと、 (d)実際の認識時に観測した前記条件を表現するパラ
    メータを用いて適応対象条件確率モデルを学習するステ
    ップと、 (e)前記初期条件確率モデルと前記適応対象条件確率
    モデルとの間に不整合がある場合に、前記ヤコビ行列を
    用いたテイラー展開により前記初期条件重畳確率モデル
    を更新して適応条件重畳確率モデルを求めるステップ
    と、 を有することを特徴とするモデル適応方法。
  28. 【請求項28】 前記ステップ(a),(b),(c)
    による事前処理を、実際の認識時に行われる前記ステッ
    プ(d),(e)による適応処理に先立って、予め行っ
    ておくことを特徴とする請求項27記載のモデル適応方
    法。
  29. 【請求項29】 入力ベクトルに対し、各認識カテゴリ
    の特徴を表現した確率モデルの尤度を計算し、所定の複
    数の確率モデル中で最も尤度の高い確率モデルが表現す
    る認識カテゴリを認識結果として出力するパターン認識
    におけるモデル適応装置であって、 (a)モデル学習時に収録したパターン認識と確率モデ
    ル学習の条件を表現するパラメータから初期条件確率モ
    デルを学習する手段と、 (b)前記条件を表現するパラメータの所定の値に対応
    する所定の参照確率モデルと前記初期条件確率モデルか
    ら確率モデル合成により初期条件重畳確率モデルを求め
    る手段と、 (c)モデルパラメータの変化分を前記条件を表現する
    パラメータの変化分により表現するテイラー展開のヤコ
    ビ行列を前記初期条件確率モデルと前記初期条件重畳確
    率モデルを用いて計算して記憶する手段と、 (d)実際の認識時に観測した前記条件を表現するパラ
    メータを用いて適応対象条件確率モデルを学習する手段
    と、 (e)前記初期条件確率モデルと前記適応対象条件確率
    モデルとの間に不整合がある場合に、前記ヤコビ行列を
    用いたテイラー展開により前記初期条件重畳確率モデル
    を更新して適応条件重畳確率モデルを求める手段と、 を有することを特徴とするモデル適応装置。
  30. 【請求項30】 前記手段(a),(b),(c)は、
    該手段(a),(b),(c)による事前処理を、実際
    の認識時に行われる前記手段(d),(e)による適応
    処理に先立って、予め行っておくことを特徴とする請求
    項29記載のモデル適応装置。
  31. 【請求項31】 入力ベクトルに対し、各認識カテゴリ
    の特徴を表現した確率モデルの尤度を計算し、所定の複
    数の確率モデル中で最も尤度の高い確率モデルが表現す
    る認識カテゴリを認識結果として出力するパターン認識
    におけるモデル適応システムとしてコンピュータを機能
    させるプログラムを格納した記憶媒体であって、 (a)モデル学習時に収録したパターン認識と確率モデ
    ル学習の条件を表現するパラメータから初期条件確率モ
    デルを学習するプログラムコードと、 (b)前記条件を表現するパラメータの所定の値に対応
    する所定の参照確率モデルと前記初期条件確率モデルか
    ら確率モデル合成により初期条件重畳確率モデルを求め
    るプログラムコードと、 (c)モデルパラメータの変化分を前記条件を表現する
    パラメータの変化分により表現するテイラー展開のヤコ
    ビ行列を前記初期条件確率モデルと前記初期条件重畳確
    率モデルを用いて計算して記憶させるプログラムコード
    と、 (d)実際の認識時に観測した前記条件を表現するパラ
    メータを用いて適応対象条件確率モデルを学習するプロ
    グラムコードと、 (e)前記初期条件確率モデルと前記適応対象条件確率
    モデルとの間に不整合がある場合に、前記ヤコビ行列を
    用いたテイラー展開により前記初期条件重畳確率モデル
    を更新して適応条件重畳確率モデルを求めるプログラム
    コードと、 を有することを特徴とする記憶媒体。
  32. 【請求項32】 前記プログラムコード(a),
    (b),(c)による事前処理は、実際の認識時に行わ
    れる前記プログラムコード(d),(e)による適応処
    理に先立って、予め行われるものであることを特徴とす
    る請求項31記載の記憶媒体。
JP25106897A 1996-09-20 1997-09-16 音声認識方法、装置そよびその記憶媒体 Expired - Fee Related JP3587966B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25106897A JP3587966B2 (ja) 1996-09-20 1997-09-16 音声認識方法、装置そよびその記憶媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP8-250540 1996-09-20
JP25054096 1996-09-20
JP25106897A JP3587966B2 (ja) 1996-09-20 1997-09-16 音声認識方法、装置そよびその記憶媒体

Publications (2)

Publication Number Publication Date
JPH10149191A true JPH10149191A (ja) 1998-06-02
JP3587966B2 JP3587966B2 (ja) 2004-11-10

Family

ID=26539811

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25106897A Expired - Fee Related JP3587966B2 (ja) 1996-09-20 1997-09-16 音声認識方法、装置そよびその記憶媒体

Country Status (1)

Country Link
JP (1) JP3587966B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003504653A (ja) * 1999-07-01 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズのある音声モデルからのロバスト音声処理
JP2003524217A (ja) * 2000-02-25 2003-08-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 基準変換手段を伴なう音声認識装置
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
WO2005098820A1 (ja) * 2004-03-31 2005-10-20 Pioneer Corporation 音声認識装置及び音声認識方法
JP2005338358A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル雑音適応化方法およびこの方法を実施する装置
WO2006030551A1 (ja) * 2004-09-15 2006-03-23 The University Of Tokyo 多項式近似に基づく雑音下音声認識のためのモデル適応法
JP2011118124A (ja) * 2009-12-02 2011-06-16 Murata Machinery Ltd 音声認識システムと認識方法
JP2012504250A (ja) * 2008-09-29 2012-02-16 株式会社東芝 音声認識方法
JP2012042957A (ja) * 2010-08-16 2012-03-01 Toshiba Corp 音声処理システム及び方法
JP5709179B2 (ja) * 2010-07-14 2015-04-30 学校法人早稲田大学 隠れマルコフモデルの推定方法,推定装置および推定プログラム
US10217456B2 (en) 2013-05-09 2019-02-26 International Business Machines Corporation Method, apparatus, and program for generating training speech data for target domain

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003504653A (ja) * 1999-07-01 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズのある音声モデルからのロバスト音声処理
JP4818556B2 (ja) * 1999-07-01 2011-11-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 確率論的ロバスト音声処理
JP2003524217A (ja) * 2000-02-25 2003-08-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 基準変換手段を伴なう音声認識装置
JP2012234204A (ja) * 2000-02-25 2012-11-29 Nuance Communications Austria Gmbh 基準変換手段を伴なう音声認識装置及び方法
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
US7813921B2 (en) 2004-03-31 2010-10-12 Pioneer Corporation Speech recognition device and speech recognition method
WO2005098820A1 (ja) * 2004-03-31 2005-10-20 Pioneer Corporation 音声認識装置及び音声認識方法
JP2005338358A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル雑音適応化方法およびこの方法を実施する装置
JP4510517B2 (ja) * 2004-05-26 2010-07-28 日本電信電話株式会社 音響モデル雑音適応化方法およびこの方法を実施する装置
WO2006030551A1 (ja) * 2004-09-15 2006-03-23 The University Of Tokyo 多項式近似に基づく雑音下音声認識のためのモデル適応法
JP2012504250A (ja) * 2008-09-29 2012-02-16 株式会社東芝 音声認識方法
JP2011118124A (ja) * 2009-12-02 2011-06-16 Murata Machinery Ltd 音声認識システムと認識方法
JP5709179B2 (ja) * 2010-07-14 2015-04-30 学校法人早稲田大学 隠れマルコフモデルの推定方法,推定装置および推定プログラム
JP2012042957A (ja) * 2010-08-16 2012-03-01 Toshiba Corp 音声処理システム及び方法
US8620655B2 (en) 2010-08-16 2013-12-31 Kabushiki Kaisha Toshiba Speech processing system and method
US10217456B2 (en) 2013-05-09 2019-02-26 International Business Machines Corporation Method, apparatus, and program for generating training speech data for target domain

Also Published As

Publication number Publication date
JP3587966B2 (ja) 2004-11-10

Similar Documents

Publication Publication Date Title
US6026359A (en) Scheme for model adaptation in pattern recognition based on Taylor expansion
US8438026B2 (en) Method and system for generating training data for an automatic speech recognizer
JP3836815B2 (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
Wang et al. Speaker and noise factorization for robust speech recognition
JP5242782B2 (ja) 音声認識方法
JPH0636156B2 (ja) 音声認識装置
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
JP4061094B2 (ja) 音声認識装置、その音声認識方法及びプログラム
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP3587966B2 (ja) 音声認識方法、装置そよびその記憶媒体
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
JP3102195B2 (ja) 音声認識装置
JPH1195786A (ja) パターン認識方法および装置とパターン認識プログラムを格納した記録媒体
JP3250604B2 (ja) 音声認識方法および装置
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
US20040111260A1 (en) Methods and apparatus for signal source separation
JP2000075888A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
KR101047104B1 (ko) 최대 우도 선형 스펙트럴 변환을 이용한 음향 모델 적응 방법 및 그 장치, 잡음 음성 모델을 이용한 음성 인식 방법및 그 장치
Techini et al. Robust Front-End Based on MVA and HEQ Post-processing for Arabic Speech Recognition Using Hidden Markov Model Toolkit (HTK)
Hwang et al. A fast algorithm for parallel model combination for noisy speech recognition
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP2005084653A (ja) 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム
JP2004309959A (ja) 音声認識装置および音声認識方法
Scholar Development of a Robust Speech-to-Text Algorithm for Nigerian English Speakers 1Mohammed M. Sulaiman, 2Yahya S. Hadi, 1Mohammed Katun and 1Shehu Yakubu

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040720

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040811

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080820

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080820

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090820

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090820

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100820

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100820

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110820

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120820

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees