JPH10149191A

JPH10149191A - モデル適応方法、装置およびその記憶媒体

Info

Publication number: JPH10149191A
Application number: JP9251068A
Authority: JP
Inventors: Yoshikazu Yamaguchi; 義和山口; Shigeki Sagayama; 茂樹嵯峨山; Junichi Takahashi; 淳一高橋; Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-09-20
Filing date: 1997-09-16
Publication date: 1998-06-02
Anticipated expiration: 2017-09-16
Also published as: JP3587966B2

Abstract

(57)【要約】【課題】条件変動前の初期モデルを条件変動後の環境
条件に整合したモデルに近付けるために、初期モデルを
基準モデルとして、条件変動後に観測した条件を表現す
るデータを用いて実時間で高速にモデルを適応させ、認
識性能を向上し得るモデル適応方法、装置およびその記
憶媒体を提供すること。【解決手段】初期雑音重畳音声ＨＭＭと初期雑音ＨＭ
Ｍからヤコビ行列を計算記憶しておき、認識時に観測し
た雑音と初期雑音ＨＭＭに差分がある場合、該差分およ
びヤコビ行列に基づくテイラー展開によるモデルの更新
を行い、適応雑音重畳音声ＨＭＭを近似計算し、この適
応雑音重畳音声を用いて認識対象音声の認識処理を行
う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば音声、文
字、図形などのような認識すべき対象を隠れマルコフモ
デルを用いて表現するパターン認識においてモデル作成
時の条件とモデル使用時である認識実行時の条件の違い
によるモデルの不整合を補正し、認識性能を向上するた
めのモデル適応方法、装置およびその記憶媒体に関す
る。

【０００２】

【従来の技術】本発明は、隠れマルコフモデル（Hidden
Markov Model ，以下ＨＭＭと略称する）を用いた様々
なパターン認識に適用可能であるが、以下では音声を例
に説明する。

【０００３】音声認識では、学習用音声データから求め
た音響モデル（音素モデル、音節モデル、単語モデルな
ど）と入力音声データを照合して尤度を求め、認識結果
を得る。モデルのパラメータは学習用音声データを収録
した条件（背景雑音、回線歪み、話者、声道長など）に
大きく依存する。従って、この音声収録条件と実際の認
識時の条件とが異なる場合、入力音声パターンとモデル
との不整合が生じ、結果として認識率が低下する。

【０００４】入力音声データと音響モデルとの不整合に
よる認識率の低下を防ぐには、認識を実行する際の条件
と同じ条件で収録した音声データを使って、モデルを作
成し直せばよい。しかし、ＨＭＭのような統計的手法に
基づくモデルは、膨大な量の学習音声データが必要で、
処理に時間がかかる（例えば、１００時間）。そこで、
不整合が生じているモデルを少量の学習データと少ない
処理時間で、実際の認識時の条件に整合したモデルに近
付ける適応技術が必要となる。

【０００５】条件が変化する例として、発声時の背景雑
音の変化があげられる。モデル学習用音声データ収録時
の背景雑音と実際の認識時の背景雑音が異なれば、認識
率の低下が生じる。モデルの背景雑音への適応には、従
来の技術としてＰＭＣ（例えば、M.J.F.Gales 他 "An I
mproved Approach to the Hidden Markov Model Decomp
osition of Speech And Noise," Proc.of ICASSP92,pp.
233-236,1992）やＮＯＶＯ合成法（例えば、F.Martin
他、"Recognition of Noisy Speech by Using the Comp
osition of Hidden Markov Models," 日本音響学会平成
４年度秋季研究発表会講演論文集、pp.65-66）などのＨ
ＭＭ合成法がある。ＨＭＭ合成法とは、防音室などで収
録した雑音が含まれていない音声で学習したＨＭＭ（以
下、クリーン音声ＨＭＭと記す）と、認識時の背景雑音
のみで学習したＨＭＭ（以下、雑音ＨＭＭと記す）を合
成し、認識時の雑音が重畳し、入力音声に整合したＨＭ
Ｍを求める適応手法である。ＨＭＭ合成法を用いれば、
雑音ＨＭＭの学習と、モデル合成の処理時間のみで済む
ので、膨大な量の音声データを用いてモデルを作成し直
すよりも、少ない時間でモデルを適応することができ
る。

【０００６】

【発明が解決しようとする課題】上述した従来の音声認
識において、雑音ＨＭＭの学習データを得るための雑音
収録時間が比較的長いこと（例えば、１５秒）、モデル
合成の処理時間も１０秒程度必要なことから、時々刻々
と変化する条件に応じてモデルを実時間で適応させるこ
とは難しいという問題がある。

【０００７】本発明は、上記に鑑みてなされたもので、
その目的とするところは、条件変動前の初期モデルを条
件変動後の環境条件に整合したモデルに近付けるために
初期モデルを基準モデルとして、条件変動後に観測した
条件を表現するデータを用いて実時間で高速にモデルを
適応させ、認識性能を向上し得るモデル適応方法、装置
およびその記憶媒体を提供することにある。

【０００８】

【課題を解決するための手段】上記課題を解決するため
に、本発明は、入力ベクトルに対し、各認識カテゴリの
特徴を表現した確率モデルの尤度を計算し、所定の複数
の確率モデル中で最も尤度の高い確率モデルが表現する
認識カテゴリを認識結果として出力するパターン認識に
おけるモデル適応方法であって、パターン認識と確率モ
デル学習の条件を表現するパラメータの、各確率モデル
のモデルパラメータを求めるための学習データの収集時
の初期条件と実際の認識時の現条件との間での変化分を
決定するステップと、前記初期条件と前記現条件との間
に不整合が生じた場合に、前記決定するステップで決定
された変化分に基づいて条件変動前のモデルパラメータ
を更新して条件変動後のモデルパラメータを求めて前記
確率モデルを適応するステップと、を有することを特徴
とするモデル適応方法を提供する。

【０００９】また、本発明では、前記適応するステップ
は、前記モデルパラメータの変化分を前記条件を表現す
るパラメータの変化分により表現するテイラー展開を用
いて前記条件変動後のモデルパラメータを求めることを
特徴とする。

【００１０】また、本発明では、前記現条件が時々刻々
と変化する場合に、前記適応するステップは、直前の条
件に適応した確率モデルを順次初期確率モデルとしなが
ら前記テイラー展開を用いて確率モデルを繰返し現条件
に適応することを特徴とする。

【００１１】また、本発明では、前記テイラー展開のヤ
コビ行列を予め計算して記憶しておくステップを更に有
し、前記適応するステップは、該予め計算され記憶され
たヤコビ行列を用いて前記条件変動後のモデルパラメー
タを求めることを特徴とする。

【００１２】また、本発明では、様々なタイプの前記条
件に対応して複数組の確率モデルを記憶するステップを
更に有し、前記現条件が変化する場合に、前記適応する
ステップは、前記複数組の確率モデルから現条件に最も
類似した一組の確率モデルを選択し、該一組の確率モデ
ルを初期確率モデルとして前記テイラー展開を用いて確
率モデルを現条件に適応することを特徴とする。

【００１３】また、本発明では、前記複数組の確率モデ
ルに対応して前記テイラー展開の複数組のヤコビ行列を
予め計算して記憶しておくステップを更に有し、前記適
応するステップは、前記一組の確率モデルに対応する該
予め計算され記憶されたヤコビ行列の一組を用いて前記
条件変動後のモデルパラメータを求めることを特徴とす
る。

【００１４】また、本発明では、前記確率モデルは、隠
れマルコフモデルであることを特徴とする。

【００１５】また、本発明では、前記入力ベクトルは入
力音声の音声特徴量であり、前記条件は該入力音声の収
録時の背景雑音または該入力音声を発した話者の声道長
であることを特徴とする。

【００１６】また、本発明では、前記条件は背景雑音で
あり、雑音の含まれないクリーンな音声の確率モデルと
条件変動前の背景雑音から求められた確率モデルの合成
により条件変動後の確率モデルを求めるステップを更に
有することを特徴とする。

【００１７】また、本発明では、前記条件は背景雑音で
あり、前記条件を表現するパラメータは平均雑音スペク
トラムを前記入力音声に対応する雑音スペクトラムから
差し引いて得られたスペクトラムのケプストラムパラメ
ータであり、前記入力ベクトルは該平均雑音スペクトラ
ムを該入力音声から差し引いて得られた音声信号のケプ
ストラムパラメータであることを特徴とする。

【００１８】さらに、本発明は、入力ベクトルに対し、
各認識カテゴリの特徴を表現した確率モデルの尤度を計
算し、所定の複数の確率モデル中で最も尤度の高い確率
モデルが表現する認識カテゴリを認識結果として出力す
るパターン認識におけるモデル適応装置であって、パタ
ーン認識と確率モデル学習の条件を表現するパラメータ
の各確率モデルのモデルパラメータを求めるための学習
データの収集時の初期条件と実際の認識時の現条件との
間での変化分を決定する変化分決定手段と、前記初期条
件と前記現条件との間に不整合が生じた場合に、前記決
定するステップで決定された変化分に基づいて条件変動
前のモデルパラメータを更新して条件変動後のモデルパ
ラメータを求めて前記確率モデルを適応する適応手段
と、を有することを特徴とするモデル適応装置を提供す
る。

【００１９】また、本発明では、前記適応手段は、前記
モデルパラメータの変化分を前記条件を表現するパラメ
ータの変化分により表現するテイラー展開を用いて前記
条件変動後のモデルパラメータを求めることを特徴とす
る。

【００２０】また、本発明では、前記現条件が時々刻々
と変化する場合に、前記適応手段は、直前の条件に適応
した確率モデルを順次初期確率モデルとしながら前記テ
イラー展開を用いて確率モデルを繰返し現条件に適応す
ることを特徴とする。

【００２１】また、本発明では、前記テイラー展開のヤ
コビ行列を予め計算して記憶しておくヤコビ行列計算記
憶手段を更に有し、前記適応手段は、該予め計算され記
憶されたヤコビ行列を用いて前記条件変動後のモデルパ
ラメータを求めることを特徴とする。

【００２２】また、本発明では、様々なタイプの前記条
件に対応して複数組の確率モデルを記憶する確率モデル
記憶手段を更に有し、前記現条件が変化する場合に、前
記適応手段は、前記複数組の確率モデルから現条件に最
も類似した一組の確率モデルを選択し、該一組の確率モ
デルを初期確率モデルとして前記テイラー展開を用いて
確率モデルを現条件に適応することを特徴とする。

【００２３】また、本発明では、前記複数組の確率モデ
ルに対応して前記テイラー展開の複数組のヤコビ行列を
予め計算して記憶しておくヤコビ行列計算記憶手段を更
に有し、前記適応手段は、前記一組の確率モデルに対応
する該予め計算され記憶されたヤコビ行列の一組を用い
て前記条件変動後のモデルパラメータを求めることを特
徴とする。

【００２４】さらに、本発明は、入力ベクトルに対し、
各認識カテゴリの特徴を表現した確率モデルの尤度を計
算し、所定の複数の確率モデル中で最も尤度の高い確率
モデルが表現する認識カテゴリを認識結果として出力す
るパターン認識におけるモデル適応システムとしてコン
ピュータを機能させるプログラムを格納した記憶媒体で
あって、パターン認識と確率モデル学習の条件を表現す
るパラメータの、各確率モデルのモデルパラメータを求
めるための学習データの収集時の初期条件と実際の認識
時の現条件との間での変化分を決定する第１のプログラ
ムコードと、前記初期条件と前記現条件との間に不整合
が生じた場合に、前記第１のプログラムコードにより決
定された変化分に基づいて条件変動前のモデルパラメー
タを更新して条件変動後のモデルパラメータを求めて前
記確率モデルを適応する第２のプログラムコードと、を
有することを特徴とする記憶媒体を提供する。

【００２５】また、本発明では、前記第２のプログラム
コードは、前記モデルパラメータの変化分を前記条件を
表現するパラメータの変化分により表現するテイラー展
開を用いて前記条件変動後のモデルパラメータを求める
ことを特徴とする。

【００２６】また、本発明では、前現条件が時々刻々と
変化する場合に、前記第２のプログラムコードは、直前
の条件に適応した確率モデルを順次初期確率モデルとし
ながら前記テイラー展開を用いて確率モデルを繰返し現
条件に適応することを特徴とする。

【００２７】また、本発明では、前記テイラー展開のヤ
コビ行列を予め計算して記憶させておく第３のプログラ
ムコードを更に有し、前記第２のプログラムコードは、
該予め計算され記憶されたヤコビ行列を用いて前記条件
変動後のモデルパラメータを求めることを特徴とする。

【００２８】また、本発明では、様々なタイプの前記条
件に対応して複数組の確率モデルを記憶させる第４のプ
ログラムコードを更に有し、前記現条件が変化する場合
に、前記第２のプログラムコードは、前記複数組の確率
モデルから現条件に最も類似した一組の確率モデルを選
択し、該一組の確率モデルを初期確率モデルとして前記
テイラー展開を用いて確率モデルを現条件に適応するこ
とを特徴とする。

【００２９】また、本発明では、前記複数組の確率モデ
ルに対応して前記テイラー展開の複数組のヤコビ行列を
予め計算して記憶させておく第５のプログラムコードを
更に有し、前記第２のプログラムコードは、前記一組の
確率モデルに対応する該予め計算され記憶されたヤコビ
行列の一組を用いて前記条件変動後のモデルパラメータ
を求めることを特徴とする。

【００３０】さらに、本発明は、入力ベクトルを入力す
る入力手段と、各入力ベクトルから、パターン認識と確
率モデル学習の条件を表現するパラメータを抽出するパ
ラメータ抽出手段と、学習データを収集する時の初期条
件下で入力された入力ベクトルから抽出された前記条件
を表現するパラメータから初期条件確率モデルを生成し
て記憶する初期条件確率モデル生成記憶手段と、前記条
件を表現するパラメータの所定の値に対応する所定の参
照確率モデルを記憶する参照確率モデル記憶手段と、前
記初期条件確率モデルと前記参照確率モデルから、初期
条件重畳確率モデルを生成して記憶する初期条件重畳確
率モデル生成記憶手段と、前記初期条件確率モデルと前
記初期条件重畳確率モデルから、モデルパラメータの変
化分を前記条件を表現するパラメータの変化分により表
現するテイラー展開のヤコビ行列を計算して記憶するヤ
コビ行列計算記憶手段と、実際の認識時の現条件下で入
力された入力ベクトルから抽出された前記条件を表現す
るパラメータにより求められた適応対象条件確率モデル
と、前記初期条件確率モデルとの差分を算出する差分算
出手段と、前記差分と、前記初期条件重畳確率モデル
と、前記ヤコビ行列とから、適応条件重畳確率モデルを
計算して記憶する適応条件重畳確率モデル計算記憶手段
と、入力ベクトルに対し、各認識カテゴリの特徴を表現
した各適応条件重畳確率モデルの最も尤度を計算し、前
記適応条件重畳確率モデル中で最も尤度の高い適応条件
重畳確率モデルが表現する認識カテゴリを認識結果とし
て出力するパターン認識を行うパターン認識手段と、を
有することを特徴とするパターン認識装置を提供する。

【００３１】さらに、本発明は、入力雑音重畳音声デー
タを入力する音声入力手段と、各入力雑音重畳音声デー
タから、雑音データを抽出する雑音抽出手段と、前記雑
音データの一部または全部の区間を用いて平均スペクト
ラムを計算し、該平均スペクトラムを前記雑音データの
全区間から差し引いて、消し残り雑音データを求める雑
音スペクトルサブトラクション手段と、学習データを収
集する時の初期条件下で入力された入力雑音重畳音声デ
ータにより求められた前記消し残り雑音データから初期
雑音モデルを生成して記憶する初期雑音モデル生成記憶
手段と、所定のクリーン音声モデルを記憶するクリーン
音声モデル記憶手段と、前記初期雑音モデルと前記クリ
ーン音声モデルから、初期雑音重畳音声モデルを生成し
て記憶する初期雑音重畳音声モデル生成記憶手段と、前
記初期雑音モデルと前記初期雑音重畳音声モデルから、
モデルパラメータの変化分を前記雑音データの変化分に
より表現するテイラー展開のヤコビ行列を計算して記憶
するヤコビ行列計算記憶手段と、実際の認識時の現条件
下で入力された入力雑音重畳音声データから求められた
前記消し残り雑音データにより求められた適応対象雑音
モデルと、前記初期雑音モデルとの差分を算出する差分
算出手段と、前記差分と、前記初期雑音重畳音声モデル
と、前記ヤコビ行列とから、適応雑音重畳音声モデルを
計算して記憶する適応雑音重畳音声モデル計算記憶手段
と、実際の認識時の現条件下で入力された入力雑音重畳
音声データから求められた前記雑音データの一部または
全部の区間を用いて平均スペクトラムを計算し、該平均
スペクトラムを実際の認識時の現条件下で入力された入
力雑音重畳音声データの全区間から差し引いて、雑音を
差し引いた音声データを求める雑音重畳音声スペクトル
サブトラクション手段と、前記雑音を差し引いた音声デ
ータに対し、各認識カテゴリの特徴を表現した各適応雑
音重畳音声モデルの尤度を計算し、前記適応雑音重畳音
声モデル中で最も尤度の高い適応雑音重畳音声モデルが
表現する認識カテゴリを認識結果として出力する音声認
識を行う音声認識手段と、を有することを特徴とする音
声認識装置を提供する。

【００３２】さらに、本発明は、入力ベクトルを入力す
るステップと、各入力ベクトルから、パターン認識と確
率モデル学習の条件を表現するパラメータを抽出するス
テップと、学習データを収集する時の初期条件下で入力
された入力ベクトルから抽出された前記条件を表現する
パラメータから初期条件確率モデルを生成して記憶する
ステップと、前記条件を表現するパラメータの所定の値
に対応する所定の参照確率モデルを記憶するステップ
と、前記初期条件確率モデルと前記参照確率モデルか
ら、初期条件重畳確率モデルを生成して記憶するステッ
プと、前記初期条件確率モデルと前記初期条件重畳確率
モデルから、モデルパラメータの変化分を前記条件を表
現するパラメータの変化分により表現するテイラー展開
のヤコビ行列を計算して記憶するステップと、実際の認
識時の現条件下で入力された入力ベクトルから抽出され
た前記条件を表現するパラメータにより求められた適応
対象条件確率モデルと、前記初期条件確率モデルとの差
分を算出するステップと、前記差分と、前記初期条件重
畳確率モデルと、前記ヤコビ行列とから、適応条件重畳
確率モデルを計算して記憶するステップと、入力ベクト
ルに対し、各認識カテゴリの特徴を表現した各適応条件
重畳確率モデルの尤度を計算し、前記適応条件重畳確率
モデル中で最も尤度の高い適応条件重畳確率モデルが表
現する認識カテゴリを認識結果として出力するパターン
認識を行うステップと、を有することを特徴とするパタ
ーン認識方法を提供する。

【００３３】さらに、本発明は、入力雑音重畳音声デー
タを入力するステップと、各入力雑音重畳音声データか
ら、雑音データを抽出するステップと、前記雑音データ
の一部または全部の区間を用いて平均スペクトラムを計
算し、該平均スペクトラムを前記雑音データの全区間か
ら差し引いて、消し残り雑音データを求めるステップ
と、学習データを収集する時の初期条件下で入力された
入力雑音重畳音声データにより求められた前記消し残り
雑音データから初期雑音モデルを生成して記憶するステ
ップと、所定のクリーン音声モデルを記憶するステップ
と、前記初期雑音モデルと前記クリーン音声モデルか
ら、初期雑音重畳音声モデルを生成して記憶するステッ
プと、前記初期雑音モデルと前記初期雑音重畳音声モデ
ルから、モデルパラメータの変化分を前記雑音データの
変化分により表現するテイラー展開のヤコビ行列を計算
して記憶するステップと、実際の認識時の現条件下で入
力された入力雑音重畳音声データから求められた前記消
し残り雑音データにより求められた適応対象雑音モデル
と、前記初期雑音モデルとの差分を算出するステップ
と、前記差分と、前記初期雑音重畳音声モデルと、前記
ヤコビ行列とから、適応雑音重畳音声モデルを計算して
記憶するステップと、実際の認識時の現条件下で入力さ
れた入力雑音重畳音声データから求められた前記雑音デ
ータの一部または全部の区間を用いて平均スペクトラム
を計算し、該平均スペクトラムを実際の認識時の現条件
下で入力された入力雑音重畳音声データの全区間から差
し引いて、雑音を差し引いた音声データを求めるステッ
プと、前記雑音を差し引いた音声データに対し、各認識
カテゴリの特徴を表現した各適応雑音重畳音声モデルの
尤度を計算し、前記適応雑音重畳音声モデル中で最も尤
度の高い適応雑音重畳音声モデルが表現する認識カテゴ
リを認識結果として出力する音声認識を行うステップ
と、を有することを特徴とする音声認識方法を提供す
る。

【００３４】さらに、本発明は、入力ベクトルに対し、
各認識カテゴリの特徴を表現した確率モデルの尤度を計
算し、所定の複数の確率モデル中で最も尤度の高い確率
モデルが表現する認識カテゴリを認識結果として出力す
るパターン認識におけるモデル適応方法であって、
（ａ）モデル学習時に収録したパターン認識と確率モデ
ル学習の条件を表現するパラメータから初期条件確率モ
デルを学習するステップと、（ｂ）前記条件を表現する
パラメータの所定の値に対応する所定の参照確率モデル
と前記初期条件確率モデルから確率モデル合成により初
期条件重畳確率モデルを求めるステップと、（ｃ）モデ
ルパラメータの変化分を前記条件を表現するパラメータ
の変化分により表現するテイラー展開のヤコビ行列を前
記初期条件確率モデルと前記条件重畳確率モデルを用い
て計算して記憶するステップと、（ｄ）実際の認識時に
観測した前記条件を表現するパラメータを用いて適応対
象条件確率モデルを学習するステップと、（ｅ）前記初
期条件確率モデルと前記適応対象条件確率モデルとの間
に不整合がある場合に、前記ヤコビ行列を用いたテイラ
ー展開により前記初期条件重畳確率モデルを更新して適
応条件重畳確率モデルを求めるステップと、を有するこ
とを特徴とするモデル適応方法を提供する。

【００３５】また、本発明では、前記ステップ（ａ），
（ｂ），（ｃ）による事前処理を、実際の認識時に行わ
れる前記ステップ（ｄ），（ｅ）による適応処理に先立
って、予め行っておくことを特徴とする。

【００３６】さらに、本発明は、各認識カテゴリの特徴
を表現した確率モデルの尤度を計算し、所定の複数の確
率モデル中で最も尤度の高い確率モデルが表現する認識
カテゴリを認識結果として出力するパターン認識におけ
るモデル適応装置であって、（ａ）モデル学習時に収録
したパターン認識と確率モデル学習の条件を表現するパ
ラメータから初期条件確率モデルを学習する手段と、
（ｂ）前記条件を表現するパラメータの所定の値に対応
する所定の参照確率モデルと前記初期条件確率モデルか
ら確率モデル合成により初期条件重畳確率モデルを求め
る手段と、（ｃ）モデルパラメータの変化分を前記条件
を表現するパラメータの変化分により表現するテイラー
展開のヤコビ行列を前記初期条件確率モデルと前記初期
条件重畳確率モデルを用いて計算して記憶する手段と、
（ｄ）実際の認識時に観測した前記条件を表現するパラ
メータを用いて適応対象条件確率モデルを学習する手段
と、（ｅ）前記初期条件確率モデルと前記適応対象条件
確率モデルとの間に不整合がある場合に、前記ヤコビ行
列を用いたテイラー展開により前記初期条件重畳確率モ
デルを更新して適応条件重畳確率モデルを求める手段
と、を有することを特徴とするモデル適応装置を提供す
る。

【００３７】また、本発明では、前記手段（ａ），
（ｂ），（ｃ）は、該手段（ａ），（ｂ），（ｃ）によ
る事前処理を、実際の認識時に行われる前記手段
（ｄ），（ｅ）による適応処理に先立って、予め行って
おくことを特徴とする。

【００３８】さらに、本発明は、入力ベクトルに対し、
各認識カテゴリの特徴を表現した確率モデルの尤度を計
算し、所定の複数の確率モデル中で最も尤度の高い確率
モデルが表現する認識カテゴリを認識結果として出力す
るパターン認識におけるモデル適応システムとしてコン
ピュータを機能させるプログラムを格納した記憶媒体で
あって、（ａ）モデル学習時に収録したパターン認識と
確率モデル学習の条件を表現するパラメータから初期条
件確率モデルを学習するプログラムコードと、（ｂ）前
記条件を表現するパラメータの所定の値に対応する所定
の参照確率モデルと前記初期条件確率モデルから確率モ
デル合成により初期条件重畳確率モデルを求めるプログ
ラムコードと、（ｃ）モデルパラメータの変化分を前記
条件を表現するパラメータの変化分により表現するテイ
ラー展開のヤコビ行列を前記初期条件確率モデルと前記
初期条件重畳確率モデルを用いて計算して記憶させるプ
ログラムコードと、（ｄ）実際の認識時に観測した前記
条件を表現するパラメータを用いて適応対象条件確率モ
デルを学習するプログラムコードと、（ｅ）前記初期条
件確率モデルと前記適応対象条件確率モデルとの間に不
整合がある場合に、前記ヤコビ行列を用いたテイラー展
開により前記初期条件重畳確率モデルを更新して適応条
件重畳確率モデルを求めるプログラムコードと、を有す
ることを特徴とする記憶媒体を提供する。

【００３９】また、本発明では、前記プログラムコード
（ａ），（ｂ），（ｃ）による事前処理は、実際の認識
時に行われる前記プログラムコード（ｄ），（ｅ）によ
る適応処理に先立って、予め行われるものであることを
特徴とする。

【００４０】

【発明の実施の形態】本発明のモデル適応方法は、入力
ベクトル時系列に対し、各認識カテゴリの特徴を表現し
た確率モデルの尤度を計算し、最も尤度の高いモデルを
表現するカテゴリを認識結果として出力するパターン認
識処理に適用しうるものであるが、この場合に認識時の
例えば背景雑音等のような条件が初期の条件、すなわち
初期モデル学習時の条件と異なる場合における認識率の
低下を防止するために、両条件の差である変動分からモ
デルパラメータの変動分をテイラー展開によって近似計
算して基準モデルのパラメータを更新し、認識時の条件
に適応したモデルを作成し、このモデルを使用して認識
を行うものである。

【００４１】まず、本発明の原理について説明する。

【００４２】非線形の関係にある２領域に含まれるベク
トルｘ，ｙを考える。

【００４３】ｙ＝ｆ（ｘ）（１）つまり、ｙはｘについての線形または非線形の関数ｆ
（ｘ）で表される。ここで、ｘが微小変動した場合のｙ
の変動量を考える。

【００４４】ｙ＋Δｙ＝ｆ（ｘ＋Δｘ）（２）関数ｆ（ｘ）をｘについてのテイラー展開を行うと以下
の関係が成り立つ。

【００４５】

【数１】従って、ベクトルの微小変動分Δｘ，Δｙには、上記の
テイラー展開式の１次微分項までを考慮すると以下の関
係が成り立ち、これは図１に示すように表わされる。

【００４６】

【数２】上記式（４）の関係を用いれば、Δｙは、ｘからｙの変
換をせずに、Δｘとヤコビ行列の乗算のみで近似的に求
めることができる。

【００４７】認識対象を表現するモデルパラメータは、
条件の変化に応じて、そのパラメータを更新する必要が
ある。そこで、モデルパラメータの変動分を条件を表現
するパラメータの変動分から求めることを考える。Δｙ
をモデルパラメータの変動分、Δｘを条件を表現するパ
ラメータの変動分として考える。条件を表現するパラメ
ータの変動がモデルパラメータの変動に対して線形のみ
ならず非線形の関係にある場合でも、上記式（４）に従
えば、条件を表現するパラメータの変動分Δｘを観測さ
えすれば、ｘからｙへの非線形な写像による複雑な計算
をせずに、モデルパラメータの変動分Δｙを近似的に、
少ない演算量で高速に求めることができる。

【００４８】ただし、ここではベクトルの変動が微小で
あることから上記のテイラー展開式（３）の１次微分項
を考慮するだけで十分と考えられるが、２次微分項以降
も利用可能である。

【００４９】そこで、条件が変動する例として、音声認
識において、背景雑音が変動する場合を考える。初期モ
デル学習時の背景雑音と、認識時の背景雑音との間の変
化によって起きるモデルの不整合を補正する雑音適応に
ついて説明する。

【００５０】はじめに、ヤコビ行列の求め方をケプスト
ラム（例えば、古井“ディジタル音声処理”、東海大学
出版会）をパラメータとした場合を例に説明する。音響
モデルは音声の特徴パラメータとして、ケプストラムを
用いる場合が多い。

【００５１】背景雑音が重畳した音声（以下、雑音重畳
音声と記す）のパワースペクトルＳ_R（ベクトルで表
す）は、クリーン音声のパワースペクトルＳ_Sと背景雑
音のパワースペクトルＳ_Nの和で表される。

【００５２】Ｓ_R＝Ｓ_S＋Ｓ_N （５）上記の関係をケプストラム領域に変換する。雑音重畳音
声ケプストラムＣ_Rと、クリーン音声ケプストラム
Ｃ_S、雑音ケプストラムＣ_Nとの関係は図２に示すよう
に以下のような関係になる。

【００５３】

【数３】Ｃ_R＝ＩＤＦＴ（log (exp（ＤＦＴ（Ｃ_S))＋ exp（ＤＦＴ（Ｃ_N)))) （６）ここで、ＤＦＴ（・），ＩＤＦＴ（・）， log（・），
exp（・）をそれぞれ離散フーリエ変換、逆離散フーリ
エ変換、対数変換、指数変換を表す。離散フーリエ変換
は線形変換であるが、対数変換と指数変換は非線形変換
であるため、雑音重畳音声ケプストラムＣ_Rと雑音ケプ
ストラムＣ_Nとの間には非線形の関係が成り立つ。

【００５４】初期モデル用学習音声データ収録時の背景
雑音と認識時の背景雑音とが異なる場合、上記関係式
（６）を用いて認識時に観測した背景雑音の雑音ケプス
トラムから雑音重畳音声ケプストラムを求めるには、２
回の離散フーリエ変換、対数変換、指数変換という複雑
で多量の計算を行わなければならない。

【００５５】このときテイラー展開を用いれば、雑音重
畳音声ケプストラムの変動分をΔＣ_Rを式（７）のよう
に雑音ケプストラムの変動分ΔＣ_Nとヤコビ行列から求
めることができる。雑音ケプストラムの変動分ΔＣ
_Nは、上記式（６）による複雑な関係式を用いて変換す
る必要はない。

【００５６】

【数４】上記式に含まれる偏微分項を図２に示した各領域間の関
係式を用いて計算する。

【数５】ここで、Ｆ，Ｆ^-1は、コサイン変換行列、逆コサイン変
換行列、ｐはケプストラムの次数（パワー項を含む）で
ありかつスペクトラムの次数である。よって、

【数６】ここで、［Ｊ_N］_ij，Ｆ_ij，Ｆ_ij ^-1は、それぞれ行列Ｊ
_N、行列Ｆ、行列Ｆ^-1のｉ行ｊ列目の要素である。ま
た、Ｓ_Nk，Ｓ_RkはそれぞれベクトルＳ_NとベクトルＳ_R
のｋ番目の要素である。

【００５７】つまりヤコビ行列の各要素は、雑音スペク
トラムＳ_Nと雑音重畳音声スペクトラムＳ_R、そして定
数値である変換行列Ｆ，Ｆ^-1から求めることができる。
Ｓ_NとＳ_Rは、それぞれ雑音ケプストラムＣ_Nと雑音重
畳音声ケプストラムＣ_Rを線形スペクトラムに変換する
ことで求められる。従って、モデル学習時に背景雑音を
収録した時点で、ヤコビ行列を計算しておくことができ
る。

【００５８】次に、上記のテイラー展開を用いて、背景
雑音変動前の初期雑音重畳音声ＨＭＭを背景雑音変動後
（認識時）の背景雑音に整合した雑音重畳音声ＨＭＭ
（以下、適応雑音重畳音声ＨＭＭと記す）に更新する方
法について説明する。ここでは、ＨＭＭの各状態に存在
する出力確率分布のケプストラム平均値ベクトルを適応
することを考える。上記式（７）にしたがえば、適応雑
音重畳音声ＨＭＭの平均値ベクトルＣ_R′は以下のよう
に計算できる。

【００５９】Ｃ_R′＝Ｃ_R＋Ｊ_N（Ｃ_N′−Ｃ_N）（10）上記式において、Ｃ_Rは初期雑音重畳音声ＨＭＭの平均
値ベクトル、Ｃ_Nは雑音変動前の背景雑音データから求
めたＨＭＭ（以下、初期雑音ＨＭＭ）の出力確率分布の
平均値ベクトル、Ｃ_N′は、雑音変動後（認識時）の背
景雑音から求めたＨＭＭ（以下、適応対象雑音ＨＭＭ）
の出力確率分布の平均値ベクトルを示す。

【００６０】Ｃ_Rは、雑音変動前の背景雑音が重畳した
音声データで学習した雑音重畳音声ＨＭＭの平均値ベク
トルを用いる。また、初期雑音ＨＭＭと背景雑音のない
クリーン音声ＨＭＭからＨＭＭ合成により求めた雑音重
畳音声ＨＭＭを用いることも可能である。

【００６１】上記式（１０）中のヤコビ行列Ｊ_Nを求め
るには、上記ヤコビ行列の計算方法で述べたように、Ｃ
_NとＣ_Rが必要である。これらは、背景雑音変動前のパ
ラメータであり、雑音変動に備え、予め計算しておくこ
とができる。

【００６２】上記式（１０）に従えば、Ｃ_N，Ｃ_R，Ｊ
_N，Ｃ_N′が決定すると、認識時の条件に整合した雑音
重畳音声ケプストラムＣ_R′を即座に求めることができ
る。

【００６３】上記の本発明の適応処理は、雑音変動前
（認識時）までに予め実行できる事前処理と、雑音変動
後に背景雑音を観測してから実行できる適応処理に分割
することができる。つまり、初期雑音ＨＭＭ、初期雑音
重畳音声ＨＭＭ、ヤコビ行列を求める処理は事前処理で
ある。従って、認識時には適応対象雑音ＨＭＭを求め、
上記式（１０）の行列計算を実行するのみで、少量の演
算量で音響モデルの適応が完了する。

【００６４】次に、具体的に図面を参照して説明する。

【００６５】図３は、本発明の一実施形態に係るモデル
適応装置の構成を示す図であり、図４は、図３に示すモ
デル適応装置の作用を示すフローチャートである。

【００６６】図３，４に示すように、本実施形態のモデ
ル適応装置では、まずモデル学習時に音声入力部１にお
いて入力され雑音抽出部２において抽出された背景雑音
から初期雑音ＨＭＭが求められ（ステップＳ１）、初期
雑音（ＨＭＭ）記憶部３に記憶する。また、クリーン音
声ＨＭＭ記憶部４に記憶されたクリーン音声ＨＭＭと前
記初期雑音ＨＭＭとをＨＭＭ合成部５においてＨＭＭ合
成法により合成して、初期雑音重畳音声ＨＭＭを計算し
（ステップＳ２）、初期雑音重畳音声ＨＭＭ記憶部６に
記憶する。それから、ヤコビ行列計算部７で初期雑音Ｈ
ＭＭと初期雑音重畳音声ＨＭＭからヤコビ行列を計算
し、ヤコビ行列記憶部８に記憶しておく（ステップＳ
３）。

【００６７】次に、認識を行う場合には、図３に示すよ
うに、音声入力部で入力された音声から雑音抽出部２に
おいて雑音データを抽出し、適応対象雑音ＨＭＭとして
求める。入力された雑音重畳音声と初期雑音重畳音声Ｈ
ＭＭに不整合が生じている場合は、差分算出部９にて適
応対象雑音ＨＭＭと初期雑音ＨＭＭとの差分を求め（ス
テップＳ４）、雑音重畳音声ＨＭＭ更新部１０にて該差
分とヤコビ行列を使用したテイラー展開により前記初期
雑音重畳音声ＨＭＭの更新処理を行って適応雑音重畳音
声ＨＭＭを近似計算し（ステップＳ５）、適応雑音重畳
音声ＨＭＭ記憶部１１に記憶する。次に、この適応雑音
重畳音声ＨＭＭを使用して音声認識部１２で雑音重畳音
声の認識処理を行い（ステップＳ６）、認識結果出力部
１３にて結果を出力する。

【００６８】なお、以上の処理のうちステップＳ１，Ｓ
２，Ｓ３の処理、すなわち初期雑音ＨＭＭ、初期雑音重
畳音声ＨＭＭ、ヤコビ行列のそれぞれの計算および記憶
は、背景雑音が認識の度毎に逐次変動する場合でも、最
初にだけ行われ、それぞれの値をメモリに記憶してお
く。そして、認識時にはこれらの記憶した情報を利用し
て以降の処理、すなわちステップＳ４，Ｓ５，Ｓ６のみ
を繰り返し行う。

【００６９】また、１つ前の発声をもとに得られた適応
対象雑音ＨＭＭ、適応雑音重畳音声ＨＭＭを新たな初期
モデルとして前記ステップＳ３から処理を行う逐次処理
も可能である。

【００７０】次に、図５，６を参照して、本発明の他の
実施形態について説明する。本実施形態では、スペクト
ル・サブトラクション（Spectral Subtraction，以下、
ＳＳ法と略称する）（例えば、S.F.Boll "Suppression
of Acoustic Noise in Speech Using Spectral Subtrac
tion," IEEE Trans.on ASSP,Vol.ASSP-27,No.2,pp.113-
120,1979）を組み合わせた雑音適応を説明する。ＳＳ法
とは、収録した背景雑音の一部または全区間を用いて平
均スペクトラムを計算し、これを入力データのスペクト
ラムから差し引いて入力データのＳ／Ｎ比を改善する雑
音除去法である。スペクトラムの平均計算とスペクトラ
ムの減算で済むため、演算量が低い雑音除去法である。

【００７１】ここでは、上述した図４の事前処理過程の
ステップＳ１および適応処理過程のステップＳ４におい
て、図５，６に示すように，雑音ＳＳ部１４にて収録し
た背景雑音（モデル学習時に収録した背景雑音および認
識時の背景雑音）の一部または全区間を用いて平均スペ
クトラムを計算し、この平均スペクトラムを収録した雑
音データの全区間のスペクトラムから差し引き、消し残
りの雑音データを求める（ステップＳ７，Ｓ８）。上記
操作で求めた消し残りの雑音データを学習データとして
初期雑音ＨＭＭおよび適応対象雑音ＨＭＭを作成する。
認識対象の雑音重畳音声にも雑音重畳音声ＳＳ部１５に
てＳＳ法を施し（ステップＳ９）、雑音を差し引いた音
声データを音声認識部１３で認識する。他の操作は図４
のモデル適応の処理過程と同様である。

【００７２】次に、本発明の他の実施形態について説明
する。ここでは、複数の初期雑音から求めたヤコビ行列
を用いて雑音適応を行う実施形態を説明する。

【００７３】本発明は、初期雑音によって適応対象雑音
へ適応したときの認識率が異なる。例えば、適応対象雑
音として空調機雑音に適応する場合を考える。この場
合、比較的定常な空調機雑音に対して、交差点での自動
車走行音や人の声等を含むようなやや非定常な雑音を初
期雑音とするよりも、計算機のファンの音がそのほとん
どを占める定常な雑音を初期雑音とした方が本発明によ
る適応の効果は高い。

【００７４】しかし、必ずしも適応対象の雑音が既知で
はないため本発明の効果を最大限に発揮できる初期雑音
を予め用意することはできない。そこで、本実施形態で
は、種類の異なる初期雑音を複数用意して、これらの初
期雑音の中から本発明の効果を最大限に発揮できる初期
雑音を選択し、雑音適応に用いることで適応対象雑音の
種類によらず常に認識率の高い雑音適応を可能とする。

【００７５】本実施形態では、モデル適応装置の構成は
上述した図３に示すものと同様であるが、初期雑音（Ｈ
ＭＭ）記憶部３は複数の初期雑音を記憶し、初期雑音重
畳音声ＨＭＭ記憶部６は複数の初期雑音に対応した複数
組の初期雑音重畳音声ＨＭＭを記憶し、ヤコビ行列記憶
部８は複数の初期雑音に対応した複数組のヤコビ行列を
記憶し、雑音重畳音声ＨＭＭ更新部１０は最適な初期雑
音を選択する機能を有する。

【００７６】ここで、最適な初期雑音の選択は以下のよ
うに行われる。

【００７７】まず、種類の異なる初期雑音を複数用意し
て、初期雑音それぞれに対して初期雑音ＨＭＭとヤコビ
行列を計算し、記憶しておく。

【００７８】次に、認識時に観測した適応対象雑音と記
憶しておいた初期雑音それぞれとの類似度を計算する。
類似度の計算法の例として、初期雑音ＨＭＭの出力確率
分布の平均値ベクトルと適応対象雑音ＨＭＭの出力確率
分布の平均値ベクトルとのユークリッド距離による類似
度の計算法を説明する。第ｉ番目の初期雑音ＨＭＭの出
力確率分布の平均値ベクトルＣⁱ _Nの第ｋ番目の要素を
Ｃⁱ _Nk、適応対象雑音ＨＭＭの出力確率分布の平均値ベ
クトルＣ’_Nの第ｋ番目の要素をＣ’_Nkとすると、初期
雑音ＨＭＭの出力確率分布の平均値ベクトルと適応対象
雑音ＨＭＭの出力確率分布の平均値ベクトルとのユーク
リッド距離Ｄ（ｉ）は以下のようにして求められる。

【００７９】

【数７】上記式（１１）を用いて全ての初期雑音ＨＭＭに対して
適応対象雑音ＨＭＭとのユークリッド距離を計算し、最
も距離の小さい初期雑音ＨＭＭｉ_minを選ぶ。

【数８】このようにして選ばれた初期雑音ＨＭＭとこれに対応す
るヤコビ行列を用いて本発明による雑音重畳音声ＨＭＭ
のパラメータの更新を行い、認識を行う。このように、
複数の初期雑音ＨＭＭおよびヤコビ行列を用意してお
き、観測された適応対象雑音ＨＭＭごとに最も類似した
初期雑音ＨＭＭを選択して本発明によるパラメータの更
新を行うことで、常に認識率の高い雑音適応が可能とな
る。

【００８０】上記各実施形態では、本発明による背景雑
音の変動に対するモデル適応を述べた。この他、回線歪
みの変動に対するモデル適応の場合を考える。回線歪み
を表現するパラメータはモデルパラメータと同じケプス
トラムである。従って、上記作用で述べたテイラー展開
の式（７）の微分係数が１となり計算が可能である。

【００８１】また、声道長の変動に対するモデル適応の
場合、本発明を用いて声道長パラメータの変動分からモ
デルパラメータを適応することが可能である。

【００８２】次に、本発明の効果を調べるために行った
背景雑音の変動に対する音響モデルの適応実験について
説明する。ここでは背景雑音が、初期状態では交差点雑
音であったのが、実際の認識時に展示ホール雑音に変化
した場合を仮定し実験を行った。本発明（結果の図お
よび表ではJacobian適応法と記す）の他に、従来の代表
的な雑音適応法として、ＮＯＶＯ合成法によるモデル適
応も比較のため実験した。ＮＯＶＯ合成法の処理の処理
過程を図７に示す。雑音変動前の初期状態である交差点
雑音に合わせてＮＯＶＯ合成した初期雑音重畳音声モデ
ルをそのまま雑音変動後の音声の認識に用いた場合（適
応処理なし）も実験した。クリーン音声から求めたモデ
ルをそのまま認識に用いた場合についても実験を行っ
た。

【００８３】話者１３名の発声による１００都市名単語
に、展示ホール雑音を計算機上で重畳させたものを評価
データとした。評価データの直前の区間の展示ホール雑
音データを用いて適応対象雑音ＨＭＭを学習し、適応を
行った。交差点雑音、展示ホール雑音ともに評価データ
に対するＳ／Ｎ比は１０ｄＢである。認識語彙は４００
単語である。

【００８４】適応に用いた展示ホール雑音データ長を変
化させたときの、本発明および上記手法を含めた４手法
の単語認識率の比較を図８に示す。また、適応処理に要
する処理量（ＣＰＵ time ）の本発明とＮＯＶＯ合成法
との比較を表１に示す。ただし、適応処理のうち音響処
理と雑音学習については、その計算量が適応雑音データ
長に依存するため、本発明およびＮＯＶＯ合成法ともに
表１中のＣＰＵ timeには含まれていない。

【００８５】

【表１】図８において、ＮＯＶＯ合成法は、適応データが長い場
合（図８では９００ｍ秒以上）では性能が高いが、適応
データが短い場合は性能が急激に低下した。一方、本発
明では、適応データが短い場合（図８では８００ｍ秒以
下）ではＮＯＶＯ合成法よりもむしろ性能が高いことが
わかった。また表１に示すように、本発明はＮＯＶＯ合
成法に比べて適応時に必要な処理がＮＯＶＯ合成法の１
／３４で済むことがわかった。

【００８６】従って、本発明によるモデル適応手法は、
短い適応データによる適応が可能であり、更に適応処理
が高速であるという効果があることが確認できた。この
特徴は、変動する背景雑音に音響モデルを実時間適応す
るのに適している。

【００８７】次に、本発明にＳＳ法を導入した場合の音
声認識の結果について説明する。実験の条件は上記認識
実験と同様である。雑音の平均スペクトラムを計算する
ための雑音データ長は１６０ｍｓである。適応に用いた
展示ホール雑音データ長５００ｍｓについて、本発明に
ＳＳを導入した方法（表ではＳＳ−Jacobian適応法と記
す）と、導入していない方法の単語認識率の比較を表２
に示す。

【００８８】

【表２】表２から、ＳＳを本発明に導入することにより、単語認
識率が改善できることがわかった。従って、ＳＳ法とい
う演算量の少ない方法を本発明に導入することにより、
依然として適応処理が高速のまま、性能が向上できると
いう効果が確認できた。

【００８９】なお、上記実施形態において、入力雑音重
畳音声と初期雑音重畳音声ＨＭＭに不整合が生じている
かどうかの判定には種々の方法を用いることが可能であ
る。例えば、差分算出部により求められた適応対象雑音
ＨＭＭと初期雑音ＨＭＭとの差分が有為であると雑音重
畳音声ＨＭＭ更新部が判断した時に、入力雑音重畳音声
と初期雑音重畳音声ＨＭＭに不整合が生じていると判定
することが可能である。また、まず初期雑音重畳音声Ｈ
ＭＭを用いて音声認識を行い、その結果得られた認識率
の低さから、音声認識部が入力雑音重畳音声と初期雑音
重畳音声ＨＭＭに不整合が生じているかどうかを判定す
ることも可能である。

【００９０】また、上記実施形態では、音声を入力とし
た場合について説明したが、本発明はこれに限定される
ものでなく、この他にも図形、文字などのパターン認識
にも広く適用し得るものである。

【００９１】また、本発明のモデル適応方法を、汎用の
コンピュータによって読取り可能な記憶媒体上にコンピ
ュータソフトウェアプログラムとして実装することによ
り、この記憶媒体が搭載されたコンピュータを本発明の
モデル適応装置として機能させることが可能となる。こ
こで、記憶媒体の具体的構成については、コンピュータ
プログラムを格納するのに適したいかなる構成を用いて
も良い。

【００９２】特に、上記図４および図６における事前処
理と適応処理をまとめてソフトウェアプログラムとして
実装したモデル適応システム用の記憶媒体として提供し
たり、事前処理と適応処理と認識処理をまとめてソフト
ウェアプログラムとして実装したパターン認識システム
用の記憶媒体として提供することが考えられる。

【００９３】

【発明の効果】以上説明したように、本発明によれば、
初期条件確率モデルと初期条件重畳確率モデルからヤコ
ビ行列を計算して記憶しておき、認識時の条件を測定し
て適応対象条件確率モデルを求め、適応対象条件確率モ
デルと初期条件確率モデルとの差分およびヤコビ行列に
基づくテイラー展開によって初期条件重畳確率モデルを
更新して適応条件重畳確率モデルを近似計算するので、
少ない演算量で適応処理を高速に行い、認識性能を向上
することができる。

【図面の簡単な説明】

【図１】非線形関係にある領域間でのテイラー展開によ
る微小変動の近似を説明するための図である。

【図２】雑音ケプストラムから雑音重畳音声ケプストラ
ムへの非線形な変換の過程を示す図である。

【図３】本発明の一実施形態に係るモデル適応装置の構
成を示す図である。

【図４】図３に示すモデル適応装置の作用を示すフロー
チャートである。

【図５】本発明の他の実施形態に係るＳＳ法を組み込ん
だモデル適応装置の構成を示す図である。

【図６】図５に示すモデル適応装置の作用を示すフロー
チャートである。

【図７】従来のＮＯＶＯ合成法の処理過程を示す図であ
る。

【図８】雑音観測時間に対する音声認識率について本発
明の方法と従来の方法の比較を示す図である。

【符号の説明】

１音声入力部２雑音抽出部３初期雑音（ＨＭＭ）記憶部４クリーン音声ＨＭＭ記憶部５ＨＭＭ合成部６初期雑音重畳音声ＨＭＭ記憶部７ヤコビ行列計算部８ヤコビ行列記憶部９差分算出部１０雑音重畳音声ＨＭＭ更新部１１適応雑音重畳音声ＨＭＭ記憶部１２音声認識部１３認識結果出力部１４雑音ＳＳ部１５雑音重畳音声ＳＳ部

───────────────────────────────────────────────────── フロントページの続き (72)発明者高橋敏東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内

Claims

【特許請求の範囲】

【請求項１】入力ベクトルに対し、各認識カテゴリの
特徴を表現した確率モデルの尤度を計算し、所定の複数
の確率モデル中で最も尤度の高い確率モデルが表現する
認識カテゴリを認識結果として出力するパターン認識に
おけるモデル適応方法であって、パターン認識と確率モデル学習の条件を表現するパラメ
ータの、各確率モデルのモデルパラメータを求めるため
の学習データの収集時の初期条件と実際の認識時の現条
件との間での変化分を決定するステップと、前記初期条件と前記現条件との間に不整合が生じた場合
に、前記決定するステップで決定された変化分に基づい
て条件変動前のモデルパラメータを更新して条件変動後
のモデルパラメータを求めて前記確率モデルを適応する
ステップと、を有することを特徴とするモデル適応方法。
【請求項２】前記適応するステップは、前記モデルパ
ラメータの変化分を前記条件を表現するパラメータの変
化分により表現するテイラー展開を用いて前記条件変動
後のモデルパラメータを求めることを特徴とする請求項
１記載のモデル適応方法。
【請求項３】前記現条件が時々刻々と変化する場合
に、前記適応するステップは、直前の条件に適応した確
率モデルを順次初期確率モデルとしながら前記テイラー
展開を用いて確率モデルを繰返し現条件に適応すること
を特徴とする請求項２記載のモデル適応方法。
【請求項４】前記テイラー展開のヤコビ行列を予め計
算して記憶しておくステップを更に有し、前記適応するステップは、該予め計算され記憶されたヤ
コビ行列を用いて前記条件変動後のモデルパラメータを
求めることを特徴とする請求項２記載のモデル適応方
法。
【請求項５】様々なタイプの前記条件に対応して複数
組の確率モデルを記憶するステップを更に有し、前記現条件が変化する場合に、前記適応するステップ
は、前記複数組の確率モデルから現条件に最も類似した
一組の確率モデルを選択し、該一組の確率モデルを初期
確率モデルとして前記テイラー展開を用いて確率モデル
を現条件に適応することを特徴とする請求項２記載のモ
デル適応方法。
【請求項６】前記複数組の確率モデルに対応して前記
テイラー展開の複数組のヤコビ行列を予め計算して記憶
しておくステップを更に有し、前記適応するステップは、前記一組の確率モデルに対応
する該予め計算され記憶されたヤコビ行列の一組を用い
て前記条件変動後のモデルパラメータを求めることを特
徴とする請求項５記載のモデル適応方法。
【請求項７】前記確率モデルは、隠れマルコフモデル
であることを特徴とする請求項１記載のモデル適応方
法。
【請求項８】前記入力ベクトルは入力音声の音声特徴
量であり、前記条件は該入力音声の収録時の背景雑音ま
たは該入力音声を発した話者の声道長であることを特徴
とする請求項１記載のモデル適応方法。
【請求項９】前記条件は背景雑音であり、雑音の含ま
れないクリーンな音声の確率モデルと条件変動前の背景
雑音から求められた確率モデルの合成により条件変動後
の確率モデルを求めるステップを更に有することを特徴
とする請求項８記載のモデル適応方法。
【請求項１０】前記条件は背景雑音であり、前記条件
を表現するパラメータは平均雑音スペクトラムを前記入
力音声に対応する雑音スペクトラムから差し引いて得ら
れたスペクトラムのケプストラムパラメータであり、前
記入力ベクトルは該平均雑音スペクトラムを該入力音声
から差し引いて得られた音声信号のケプストラムパラメ
ータであることを特徴とする請求項８記載のモデル適応
方法。
【請求項１１】入力ベクトルに対し、各認識カテゴリ
の特徴を表現した確率モデルの尤度を計算し、所定の複
数の確率モデル中で最も尤度の高い確率モデルが表現す
る認識カテゴリを認識結果として出力するパターン認識
におけるモデル適応装置であって、パターン認識と確率モデル学習の条件を表現するパラメ
ータの各確率モデルのモデルパラメータを求めるための
学習データの収集時の初期条件と実際の認識時の現条件
との間での変化分を決定する変化分決定手段と、前記初期条件と前記現条件との間に不整合が生じた場合
に、前記決定するステップで決定された変化分に基づい
て条件変動前のモデルパラメータを更新して条件変動後
のモデルパラメータを求めて前記確率モデルを適応する
適応手段と、を有することを特徴とするモデル適応装置。
【請求項１２】前記適応手段は、前記モデルパラメー
タの変化分を前記条件を表現するパラメータの変化分に
より表現するテイラー展開を用いて前記条件変動後のモ
デルパラメータを求めることを特徴とする請求項１１記
載のモデル適応装置。
【請求項１３】前記現条件が時々刻々と変化する場合
に、前記適応手段は、直前の条件に適応した確率モデル
を順次初期確率モデルとしながら前記テイラー展開を用
いて確率モデルを繰返し現条件に適応することを特徴と
する請求項１２記載のモデル適応装置。
【請求項１４】前記テイラー展開のヤコビ行列を予め
計算して記憶しておくヤコビ行列計算記憶手段を更に有
し、前記適応手段は、該予め計算され記憶されたヤコビ行列
を用いて前記条件変動後のモデルパラメータを求めるこ
とを特徴とする請求項１２記載のモデル適応装置。
【請求項１５】様々なタイプの前記条件に対応して複
数組の確率モデルを記憶する確率モデル記憶手段を更に
有し、前記現条件が変化する場合に、前記適応手段は、前記複
数組の確率モデルから現条件に最も類似した一組の確率
モデルを選択し、該一組の確率モデルを初期確率モデル
として前記テイラー展開を用いて確率モデルを現条件に
適応することを特徴とする請求項１２記載のモデル適応
装置。
【請求項１６】前記複数組の確率モデルに対応して前
記テイラー展開の複数組のヤコビ行列を予め計算して記
憶しておくヤコビ行列計算記憶手段を更に有し、前記適応手段は、前記一組の確率モデルに対応する該予
め計算され記憶されたヤコビ行列の一組を用いて前記条
件変動後のモデルパラメータを求めることを特徴とする
請求項１５記載のモデル適応装置。
【請求項１７】入力ベクトルに対し、各認識カテゴリ
の特徴を表現した確率モデルの尤度を計算し、所定の複
数の確率モデル中で最も尤度の高い確率モデルが表現す
る認識カテゴリを認識結果として出力するパターン認識
におけるモデル適応システムとしてコンピュータを機能
させるプログラムを格納した記憶媒体であって、パターン認識と確率モデル学習の条件を表現するパラメ
ータの、各確率モデルのモデルパラメータを求めるため
の学習データの収集時の初期条件と実際の認識時の現条
件との間での変化分を決定する第１のプログラムコード
と、前記初期条件と前記現条件との間に不整合が生じた場合
に、前記第１のプログラムコードにより決定された変化
分に基づいて条件変動前のモデルパラメータを更新して
条件変動後のモデルパラメータを求めて前記確率モデル
を適応する第２のプログラムコードと、を有することを特徴とする記憶媒体。
【請求項１８】前記第２のプログラムコードは、前記
モデルパラメータの変化分を前記条件を表現するパラメ
ータの変化分により表現するテイラー展開を用いて前記
条件変動後のモデルパラメータを求めることを特徴とす
る請求項１７記載の記憶媒体。
【請求項１９】前記現条件が時々刻々と変化する場合
に、前記第２のプログラムコードは、直前の条件に適応
した確率モデルを順次初期確率モデルとしながら前記テ
イラー展開を用いて確率モデルを繰返し現条件に適応す
ることを特徴とする請求項１８記載の記憶媒体。
【請求項２０】前記テイラー展開のヤコビ行列を予め
計算して記憶させておく第３のプログラムコードを更に
有し、前記第２のプログラムコードは、該予め計算され記憶さ
れたヤコビ行列を用いて前記条件変動後のモデルパラメ
ータを求めることを特徴とする請求項１８記載の記憶媒
体。
【請求項２１】様々なタイプの前記条件に対応して複
数組の確率モデルを記憶させる第４のプログラムコード
を更に有し、前記現条件が変化する場合に、前記第２のプログラムコ
ードは、前記複数組の確率モデルから現条件に最も類似
した一組の確率モデルを選択し、該一組の確率モデルを
初期確率モデルとして前記テイラー展開を用いて確率モ
デルを現条件に適応することを特徴とする請求項１８記
載の記憶媒体。
【請求項２２】前記複数組の確率モデルに対応して前
記テイラー展開の複数組のヤコビ行列を予め計算して記
憶させておく第５のプログラムコードを更に有し、前記第２のプログラムコードは、前記一組の確率モデル
に対応する該予め計算され記憶されたヤコビ行列の一組
を用いて前記条件変動後のモデルパラメータを求めるこ
とを特徴とする請求項２１記載の記憶媒体。
【請求項２３】入力ベクトルを入力する入力手段と、各入力ベクトルから、パターン認識と確率モデル学習の
条件を表現するパラメータを抽出するパラメータ抽出手
段と、学習データを収集する時の初期条件下で入力された入力
ベクトルから抽出された前記条件を表現するパラメータ
から初期条件確率モデルを生成して記憶する初期条件確
率モデル生成記憶手段と、前記条件を表現するパラメータの所定の値に対応する所
定の参照確率モデルを記憶する参照確率モデル記憶手段
と、前記初期条件確率モデルと前記参照確率モデルから、初
期条件重畳確率モデルを生成して記憶する初期条件重畳
確率モデル生成記憶手段と、前記初期条件確率モデルと前記初期条件重畳確率モデル
から、モデルパラメータの変化分を前記条件を表現する
パラメータの変化分により表現するテイラー展開のヤコ
ビ行列を計算して記憶するヤコビ行列計算記憶手段と、実際の認識時の現条件下で入力された入力ベクトルから
抽出された前記条件を表現するパラメータにより求めら
れた適応対象条件確率モデルと、前記初期条件確率モデ
ルとの差分を算出する差分算出手段と、前記差分と、前記初期条件重畳確率モデルと、前記ヤコ
ビ行列とから、適応条件重畳確率モデルを計算して記憶
する適応条件重畳確率モデル計算記憶手段と、入力ベクトルに対し、各認識カテゴリの特徴を表現した
各適応条件重畳確率モデルの最も尤度を計算し、前記適
応条件重畳確率モデル中で最も尤度の高い適応条件重畳
確率モデルが表現する認識カテゴリを認識結果として出
力するパターン認識を行うパターン認識手段と、を有することを特徴とするパターン認識装置。
【請求項２４】入力雑音重畳音声データを入力する音
声入力手段と、各入力雑音重畳音声データから、雑音データを抽出する
雑音抽出手段と、前記雑音データの一部または全部の区間を用いて平均ス
ペクトラムを計算し、該平均スペクトラムを前記雑音デ
ータの全区間から差し引いて、消し残り雑音データを求
める雑音スペクトルサブトラクション手段と、学習データを収集する時の初期条件下で入力された入力
雑音重畳音声データにより求められた前記消し残り雑音
データから初期雑音モデルを生成して記憶する初期雑音
モデル生成記憶手段と、所定のクリーン音声モデルを記憶するクリーン音声モデ
ル記憶手段と、前記初期雑音モデルと前記クリーン音声モデルから、初
期雑音重畳音声モデルを生成して記憶する初期雑音重畳
音声モデル生成記憶手段と、前記初期雑音モデルと前記初期雑音重畳音声モデルか
ら、モデルパラメータの変化分を前記雑音データの変化
分により表現するテイラー展開のヤコビ行列を計算して
記憶するヤコビ行列計算記憶手段と、実際の認識時の現条件下で入力された入力雑音重畳音声
データから求められた前記消し残り雑音データにより求
められた適応対象雑音モデルと、前記初期雑音モデルと
の差分を算出する差分算出手段と、前記差分と、前記初期雑音重畳音声モデルと、前記ヤコ
ビ行列とから、適応雑音重畳音声モデルを計算して記憶
する適応雑音重畳音声モデル計算記憶手段と、実際の認識時の現条件下で入力された入力雑音重畳音声
データから求められた前記雑音データの一部または全部
の区間を用いて平均スペクトラムを計算し、該平均スペ
クトラムを実際の認識時の現条件下で入力された入力雑
音重畳音声データの全区間から差し引いて、雑音を差し
引いた音声データを求める雑音重畳音声スペクトルサブ
トラクション手段と、前記雑音を差し引いた音声データに対し、各認識カテゴ
リの特徴を表現した各適応雑音重畳音声モデルの尤度を
計算し、前記適応雑音重畳音声モデル中で最も尤度の高
い適応雑音重畳音声モデルが表現する認識カテゴリを認
識結果として出力する音声認識を行う音声認識手段と、を有することを特徴とする音声認識装置。
【請求項２５】入力ベクトルを入力するステップと、各入力ベクトルから、パターン認識と確率モデル学習の
条件を表現するパラメータを抽出するステップと、学習データを収集する時の初期条件下で入力された入力
ベクトルから抽出された前記条件を表現するパラメータ
から初期条件確率モデルを生成して記憶するステップ
と、前記条件を表現するパラメータの所定の値に対応する所
定の参照確率モデルを記憶するステップと、前記初期条件確率モデルと前記参照確率モデルから、初
期条件重畳確率モデルを生成して記憶するステップと、前記初期条件確率モデルと前記初期条件重畳確率モデル
から、モデルパラメータの変化分を前記条件を表現する
パラメータの変化分により表現するテイラー展開のヤコ
ビ行列を計算して記憶するステップと、実際の認識時の現条件下で入力された入力ベクトルから
抽出された前記条件を表現するパラメータにより求めら
れた適応対象条件確率モデルと、前記初期条件確率モデ
ルとの差分を算出するステップと、前記差分と、前記初期条件重畳確率モデルと、前記ヤコ
ビ行列とから、適応条件重畳確率モデルを計算して記憶
するステップと、入力ベクトルに対し、各認識カテゴリの特徴を表現した
各適応条件重畳確率モデルの尤度を計算し、前記適応条
件重畳確率モデル中で最も尤度の高い適応条件重畳確率
モデルが表現する認識カテゴリを認識結果として出力す
るパターン認識を行うステップと、を有することを特徴とするパターン認識方法。
【請求項２６】入力雑音重畳音声データを入力するス
テップと、各入力雑音重畳音声データから、雑音データを抽出する
ステップと、前記雑音データの一部または全部の区間を用いて平均ス
ペクトラムを計算し、該平均スペクトラムを前記雑音デ
ータの全区間から差し引いて、消し残り雑音データを求
めるステップと、学習データを収集する時の初期条件下で入力された入力
雑音重畳音声データにより求められた前記消し残り雑音
データから初期雑音モデルを生成して記憶するステップ
と、所定のクリーン音声モデルを記憶するステップと、前記初期雑音モデルと前記クリーン音声モデルから、初
期雑音重畳音声モデルを生成して記憶するステップと、前記初期雑音モデルと前記初期雑音重畳音声モデルか
ら、モデルパラメータの変化分を前記雑音データの変化
分により表現するテイラー展開のヤコビ行列を計算して
記憶するステップと、実際の認識時の現条件下で入力された入力雑音重畳音声
データから求められた前記消し残り雑音データにより求
められた適応対象雑音モデルと、前記初期雑音モデルと
の差分を算出するステップと、前記差分と、前記初期雑音重畳音声モデルと、前記ヤコ
ビ行列とから、適応雑音重畳音声モデルを計算して記憶
するステップと、実際の認識時の現条件下で入力された入力雑音重畳音声
データから求められた前記雑音データの一部または全部
の区間を用いて平均スペクトラムを計算し、該平均スペ
クトラムを実際の認識時の現条件下で入力された入力雑
音重畳音声データの全区間から差し引いて、雑音を差し
引いた音声データを求めるステップと、前記雑音を差し引いた音声データに対し、各認識カテゴ
リの特徴を表現した各適応雑音重畳音声モデルの尤度を
計算し、前記適応雑音重畳音声モデル中で最も尤度の高
い適応雑音重畳音声モデルが表現する認識カテゴリを認
識結果として出力する音声認識を行うステップと、を有することを特徴とする音声認識方法。
【請求項２７】入力ベクトルに対し、各認識カテゴリ
の特徴を表現した確率モデルの尤度を計算し、所定の複
数の確率モデル中で最も尤度の高い確率モデルが表現す
る認識カテゴリを認識結果として出力するパターン認識
におけるモデル適応方法であって、（ａ）モデル学習時に収録したパターン認識と確率モデ
ル学習の条件を表現するパラメータから初期条件確率モ
デルを学習するステップと、（ｂ）前記条件を表現するパラメータの所定の値に対応
する所定の参照確率モデルと前記初期条件確率モデルか
ら確率モデル合成により初期条件重畳確率モデルを求め
るステップと、（ｃ）モデルパラメータの変化分を前記条件を表現する
パラメータの変化分により表現するテイラー展開のヤコ
ビ行列を前記初期条件確率モデルと前記条件重畳確率モ
デルを用いて計算して記憶するステップと、（ｄ）実際の認識時に観測した前記条件を表現するパラ
メータを用いて適応対象条件確率モデルを学習するステ
ップと、（ｅ）前記初期条件確率モデルと前記適応対象条件確率
モデルとの間に不整合がある場合に、前記ヤコビ行列を
用いたテイラー展開により前記初期条件重畳確率モデル
を更新して適応条件重畳確率モデルを求めるステップ
と、を有することを特徴とするモデル適応方法。
【請求項２８】前記ステップ（ａ），（ｂ），（ｃ）
による事前処理を、実際の認識時に行われる前記ステッ
プ（ｄ），（ｅ）による適応処理に先立って、予め行っ
ておくことを特徴とする請求項２７記載のモデル適応方
法。
【請求項２９】入力ベクトルに対し、各認識カテゴリ
の特徴を表現した確率モデルの尤度を計算し、所定の複
数の確率モデル中で最も尤度の高い確率モデルが表現す
る認識カテゴリを認識結果として出力するパターン認識
におけるモデル適応装置であって、（ａ）モデル学習時に収録したパターン認識と確率モデ
ル学習の条件を表現するパラメータから初期条件確率モ
デルを学習する手段と、（ｂ）前記条件を表現するパラメータの所定の値に対応
する所定の参照確率モデルと前記初期条件確率モデルか
ら確率モデル合成により初期条件重畳確率モデルを求め
る手段と、（ｃ）モデルパラメータの変化分を前記条件を表現する
パラメータの変化分により表現するテイラー展開のヤコ
ビ行列を前記初期条件確率モデルと前記初期条件重畳確
率モデルを用いて計算して記憶する手段と、（ｄ）実際の認識時に観測した前記条件を表現するパラ
メータを用いて適応対象条件確率モデルを学習する手段
と、（ｅ）前記初期条件確率モデルと前記適応対象条件確率
モデルとの間に不整合がある場合に、前記ヤコビ行列を
用いたテイラー展開により前記初期条件重畳確率モデル
を更新して適応条件重畳確率モデルを求める手段と、を有することを特徴とするモデル適応装置。
【請求項３０】前記手段（ａ），（ｂ），（ｃ）は、
該手段（ａ），（ｂ），（ｃ）による事前処理を、実際
の認識時に行われる前記手段（ｄ），（ｅ）による適応
処理に先立って、予め行っておくことを特徴とする請求
項２９記載のモデル適応装置。
【請求項３１】入力ベクトルに対し、各認識カテゴリ
の特徴を表現した確率モデルの尤度を計算し、所定の複
数の確率モデル中で最も尤度の高い確率モデルが表現す
る認識カテゴリを認識結果として出力するパターン認識
におけるモデル適応システムとしてコンピュータを機能
させるプログラムを格納した記憶媒体であって、（ａ）モデル学習時に収録したパターン認識と確率モデ
ル学習の条件を表現するパラメータから初期条件確率モ
デルを学習するプログラムコードと、（ｂ）前記条件を表現するパラメータの所定の値に対応
する所定の参照確率モデルと前記初期条件確率モデルか
ら確率モデル合成により初期条件重畳確率モデルを求め
るプログラムコードと、（ｃ）モデルパラメータの変化分を前記条件を表現する
パラメータの変化分により表現するテイラー展開のヤコ
ビ行列を前記初期条件確率モデルと前記初期条件重畳確
率モデルを用いて計算して記憶させるプログラムコード
と、（ｄ）実際の認識時に観測した前記条件を表現するパラ
メータを用いて適応対象条件確率モデルを学習するプロ
グラムコードと、（ｅ）前記初期条件確率モデルと前記適応対象条件確率
モデルとの間に不整合がある場合に、前記ヤコビ行列を
用いたテイラー展開により前記初期条件重畳確率モデル
を更新して適応条件重畳確率モデルを求めるプログラム
コードと、を有することを特徴とする記憶媒体。
【請求項３２】前記プログラムコード（ａ），
（ｂ），（ｃ）による事前処理は、実際の認識時に行わ
れる前記プログラムコード（ｄ），（ｅ）による適応処
理に先立って、予め行われるものであることを特徴とす
る請求項３１記載の記憶媒体。