JP2002123285A - 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置 - Google Patents

話者適応装置および話者適応方法、記録媒体、並びに音声認識装置

Info

Publication number
JP2002123285A
JP2002123285A JP2000313240A JP2000313240A JP2002123285A JP 2002123285 A JP2002123285 A JP 2002123285A JP 2000313240 A JP2000313240 A JP 2000313240A JP 2000313240 A JP2000313240 A JP 2000313240A JP 2002123285 A JP2002123285 A JP 2002123285A
Authority
JP
Japan
Prior art keywords
speaker adaptation
distribution
speech
noise
adaptation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000313240A
Other languages
English (en)
Inventor
Naoto Iwahashi
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000313240A priority Critical patent/JP2002123285A/ja
Publication of JP2002123285A publication Critical patent/JP2002123285A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ノイズ環境下であっても、有効な話者適応を
行う。 【解決手段】 ノイズバッファ34には、話者適応に用
いる音声の音声区間の直前のノイズデータが記憶され
る。そして、ノイズ予測ベイズ学習器35は、話者適応
に用いる音声データにおける真の音声成分を、ノイズバ
ッファ34に記憶されたノイズデータに基づいて予測
し、その真の音声成分の分布を求める。さらに、ノイズ
予測ベイズ学習器35は、その真の音声成分の分布に基
づいて、音響モデルの話者適応を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者適応装置およ
び話者適応方法、記録媒体、並びに音声認識装置に関
し、特に、例えば、ノイズ環境下において、HMM(Hid
den Markov Model)等の音響モデルの話者適応を、有効
に行うことができるようにする話者適応装置および話者
適応方法、記録媒体、並びに音声認識装置に関する。
【0002】
【従来の技術】例えば、HMM法による音声認識装置に
おいては、装置に登録された各音響モデルから、入力さ
れた音声が観測される確率(観測確率)が計算され、そ
の確率を最も高くする音響モデルに対応する音韻が、音
声認識結果として出力される。
【0003】ところで、音声認識装置に登録される音響
モデルは、一般には、不特定多数の音声を用いて学習を
行うことにより求められる。このような音響モデルを用
いて、不特定の話者の音声を認識する場合には、ある特
定の話者の音声だけから得られた音響モデルを用いる場
合に比較して、不特定の話者全員について、ある程度の
認識性能を得ることができる。
【0004】しかしながら、不特定多数の話者の音声か
ら得られた音響モデルを用いて、ある特定の話者の音声
を認識する場合には、その特定の話者の音声だけから得
られた音響モデルを用いる場合に比較して、認識性能は
劣化する。
【0005】そこで、特定の話者の音声を認識する場合
には、一般に、音響モデルの話者適応が行われる。即
ち、特定の話者に発話を行ってもらい、その音声を用い
て、音響モデルが、特定の話者の認識性能を向上させる
ように更新(補正)される。
【0006】そして、このような話者適応の結果得られ
る音響モデルを用いて音声認識を行うことで、特定の話
者に対する認識性能を向上させることができる。
【0007】
【発明が解決しようとする課題】ところで、従来におい
ては、音響モデルの話者適応は、話者の音声以外の音が
ない環境、つまりは、ノイズのない環境下で行われるこ
とを前提としていた。
【0008】即ち、音声認識装置に、あらかじめ登録さ
れている音響モデルとしては、一般に、ノイズのない環
境下において採取された音声から得られたものが採用さ
れることから、話者適応も、やはり、ノイズのない環境
下で得られた音声を用いる必要がある。
【0009】しかしながら、ユーザに、防音室等のよう
な、ノイズのない環境下で発話を行ってもらうのは、現
実的には、不可能である。このため、話者適応は、実際
には、少なからずノイズが存在する環境下で発話された
ユーザの音声を用いて行われることになる。
【0010】この場合、ノイズが常に一定であれば、そ
のようなノイズ環境下における認識性能は向上させるこ
とができるが、音声認識装置は、同じ場所で使用される
とは限らず、また、同じ場所であっても、ノイズは、時
々刻々と変化する。
【0011】従って、ノイズ環境下において話者適応を
行った場合、一般には、認識する音声が発話されるとき
のノイズが、話者適応時のノイズとは異なるために、認
識性能を十分に向上させることが困難であった。
【0012】以上から、認識対象の音声に含まれるノイ
ズを、何らかの手法で除去し、ノイズのない(ノイズが
十分に低減された)音声を対象に、やはり、ノイズのな
い音声から得られた音響モデルを用いて、音声認識を行
うのが望ましく、そのためには、ノイズ環境下におい
て、音響モデルの話者適応を、有効に行うこと、即ち、
ノイズのない環境下で行うのと同様の話者適応を行うこ
とが必要となる。
【0013】本発明は、このような状況に鑑みてなされ
たものであり、ノイズ環境下において、ノイズのない環
境で行ったのと同様の話者適応結果を得ることができる
ようにし、これにより、特定の話者について、音声認識
装置の認識性能を向上させることができるようにするも
のである。
【0014】
【課題を解決するための手段】本発明の話者適応装置
は、ノイズデータに基づいて、音声データにおける真の
音声成分を予測し、その真の音声成分の分布を求める予
測手段と、真の音声成分の分布に基づいて、音響モデル
の話者適応を行う適応手段とを備えることを特徴とす
る。
【0015】本発明の話者適応方法は、ノイズデータに
基づいて、音声データにおける真の音声成分を予測し、
その真の音声成分の分布を求める予測ステップと、真の
音声成分の分布に基づいて、音響モデルの話者適応を行
う適応ステップとを備えることを特徴とする。
【0016】本発明の記録媒体は、ノイズデータに基づ
いて、音声データにおける真の音声成分を予測し、その
真の音声成分の分布を求める予測ステップと、真の音声
成分の分布に基づいて、音響モデルの話者適応を行う適
応ステップとを備えるプログラムが記録されていること
を特徴とする。
【0017】本発明の音声認識装置は、ノイズデータに
基づいて、音声データにおける真の音声成分を予測し、
その真の音声成分の分布を求める予測手段と、真の音声
成分の分布に基づいて、音響モデルの話者適応を行う適
応手段とを備えることを特徴とする。
【0018】本発明の話者適応装置および話者適応方
法、記録媒体、並びに音声認識装置においては、ノイズ
データに基づいて、音声データにおける真の音声成分が
予測され、その真の音声成分の分布が求められる。そし
て、真の音声成分の分布に基づいて、音響モデルの話者
適応が行われる。
【0019】
【発明の実施の形態】図1は、本発明を適用した音声認
識装置の一実施の形態の構成例を示している。
【0020】フレーム化部1には、認識対象のディジタ
ル音声データが入力される。フレーム化部1は、例え
ば、図2に示すように、そこに入力される音声データ
を、所定の時間間隔(例えば、10msなど)で取り出
し(フレーム化し)、その取り出した音声データを、1
フレームのデータとして出力する。フレーム化部1が出
力する1フレーム単位の音声データは、そのフレームを
構成する時系列の音声データそれぞれをコンポーネント
とする観測ベクトルaとして、スイッチ5を介して、特
徴抽出部2または話者適応部6に供給される。
【0021】ここで、以下、適宜、第tフレームの音声
データである観測ベクトルを、a(t)と表す。
【0022】特徴抽出部2は、フレーム化部1からの観
測ベクトルaとしての音声データを音響分析し、これに
より、その特徴量を抽出する。即ち、特徴抽出部2は、
例えば、観測ベクトルaとしての音声データをフーリエ
変換し、そのパワースペクトラムを求め、そのパワース
ペクトラムの各周波数成分をコンポーネントとする特徴
ベクトルyを算出する。なお、パワースペクトラムの算
出方法は、フーリエ変換によるものに限定されるもので
はない。即ち、パワースペクトラムは、その他、例え
ば、いわゆるフィルタバンク法などによって求めること
も可能である。
【0023】さらに、特徴抽出部2は、観測ベクトルa
としての音声データに含まれる真の音声を、その特徴量
の空間(特徴ベクトル空間)に写像したときに得られ
る、その特徴ベクトル空間上の分布を表すパラメータ
(以下、特徴分布パラメータという)Zを、算出した特
徴ベクトルyに基づいて算出し、識別部3に供給する。
【0024】即ち、特徴抽出部2では、図3に示すよう
に、観測ベクトル空間上の、ある点を表す観測ベクトル
aを、特徴ベクトル空間に、その特徴ベクトル空間にお
ける広がりを有する分布として写像したときの、この分
布を表すパラメータが、特徴分布パラメータとして算出
されて出力される。
【0025】なお、図3では、観測ベクトル空間および
特徴ベクトル空間のいずれも3次元としてあるが、観測
ベクトル空間および特徴ベクトル空間の次元数は、3次
元に限定されるものではなく、さらに、それらの次元数
は同一である必要もない。
【0026】識別部3は、特徴抽出部2からの特徴分布
パラメータ(系列)を、所定数のクラスのうちのいずれ
かに分類し、その分類結果を、入力された音声の認識結
果として出力する。即ち、識別部3は、例えば、所定数
Kの単語それぞれに対応するクラスかどうかを識別する
ための識別関数を、音響モデルとして記憶しており、各
クラスの識別関数の値を、特徴抽出部2からの特徴分布
パラメータを引数として計算する。そして、その関数値
の最も大きいクラス(ここでは、単語)が、観測ベクト
ルaとしての音声の認識結果として出力される。
【0027】モード設定部4は、例えば、ユーザの操作
に応じて、装置の動作モードを、音声認識を行う認識モ
ード、または話者適応を行う適応モードに設定し、その
動作モードにしたがって、スイッチ5を制御する。即
ち、モード設定部4は、動作モードが認識モードの場
合、スイッチ5に端子5aを選択させ、これにより、フ
レーム化部1が出力する観測ベクトルを、特徴抽出部2
に供給させる。また、モード設定部4は、動作モードが
適応モードの場合、スイッチ5に端子5bを選択させ、
これにより、フレーム化部1が出力する観測ベクトル
を、話者適応部6に供給させる。
【0028】スイッチ5は、モード設定部4の制御にし
たがって、端子5aまたは5bを選択する。
【0029】話者適応部6は、スイッチ5を介して供給
される観測ベクトルを用いて、識別部3が記憶している
音響モデル(識別関数)の話者適応を行う。
【0030】次に、その動作について説明する。
【0031】フレーム化部1には、認識対象のディジタ
ル音声データが入力され、そこでは、音声データがフレ
ーム化されて出力される。
【0032】そして、動作モードが適応モードの場合に
は、モード設定部4がスイッチ5に端子5bを選択さ
せ、これにより、フレーム化部1が出力する各フレーム
の音声データは、観測ベクトルaとして、話者適応部6
に順次供給される。話者適応部6は、スイッチ5を介し
て供給される観測ベクトルを用いて、識別部3が記憶し
ている音響モデル(識別関数)の話者適応を行い、これ
により、その音響モデルを規定するパラメータを更新す
る。
【0033】一方、動作モードが認識モードの場合に
は、モード設定部4がスイッチ5に端子5aを選択さ
せ、これにより、フレーム化部1が出力する各フレーム
の音声データは、観測ベクトルaとして、特徴抽出部2
に順次供給される。特徴抽出部2では、フレーム化部1
からの観測ベクトルaとしての音声データが音響分析さ
れ、その特徴ベクトルyが求められる。さらに、特徴抽
出部2では、求められた特徴ベクトルyに基づいて、特
徴ベクトル空間における分布を表す特徴分布パラメータ
Zが算出され、識別部3に供給される。識別部3では、
特徴抽出部2からの特徴分布パラメータを用いて、所定
数Kの単語それぞれに対応するクラスの識別関数の値が
演算され、その関数値の最も大きいクラスが、音声の認
識結果として出力される。
【0034】以上のように、認識モードにおいては、観
測ベクトルaとしての音声データが、その特徴量の空間
である特徴ベクトル空間における分布を表す特徴分布パ
ラメータZに変換されるので、その特徴分布パラメータ
は、音声データに含まれるノイズの分布特性を考慮した
ものとなっており、さらに、そのような特徴分布パラメ
ータに基づいて、音声が認識されるので、認識率を、大
きく向上させることが可能となる。
【0035】次に、図4は、図1の特徴抽出部2の構成
例を示している。
【0036】フレーム化部1(図1)からスイッチ5を
介して供給される観測ベクトルaは、パワースペクトラ
ム分析器12に供給される。パワースペクトラム分析器
12では、観測ベクトルaが、例えば、FFT(高速フ
ーリエ変換)アルゴリズムによってフーリエ変換され、
これにより、音声の特徴量であるパワースペクトラム
が、特徴ベクトルとして求められる(抽出される)。な
お、ここでは、1フレームの音声データとしての観測ベ
クトルaが、D個のコンポーネントからなる特徴ベクト
ル(D次元の特徴ベクトル)に変換されるものとする。
【0037】ここで、いま、第tフレームの観測ベクト
ルa(t)から得られる特徴ベクトルをy(t)を表
す。また、特徴ベクトルy(t)における真の音声のス
ペクトル成分をx(t)と、ノイズのスペクトル成分を
u(t)と表す。この場合、真の音声のスペクトル成分
x(t)は、次式で表される。
【0038】
【数1】 ・・・(1) 但し、ここでは、ノイズが不規則な特性を有し、また、
観測ベクトルa(t)としての音声データが、真の音声
成分に、ノイズを加算したものとなっているとしてい
る。
【0039】ノイズu(t)の特性は不規則であるか
ら、u(t)は確率変数であり、従って、式(1)で表
されるx(t)も確率変数となる。従って、ノイズのパ
ワースペクトラムの確率密度関数が、例えば、図5
(A)に示すように表されるとき、式(1)から、真の
音声のパワースペクトラムの確率密度関数は、同図
(B)に示すように表される。即ち、真の音声のパワー
スペクトラムが、ある値である確率は、その値を、入力
音声(入力信号)のパワースペクトラムから減算し、ノ
イズのパワースペクトラムが、その減算値となるときの
確率に、真の音声の確率分布の面積が1になるような正
規化係数(ファクタ)を乗じた値となる。なお、図5に
おいては、u(t),x(t),y(t)のコンポーネ
ント数が1(D=1)としてある。
【0040】図4に戻り、パワースペクトラム分析器1
2で得られた特徴ベクトルy(t)は、スイッチ13に
供給される。スイッチ13は、音声区間検出部11の制
御にしたがって、端子13aまたは13bのうちのいず
れか一方を選択する。
【0041】即ち、音声区間検出部11では、音声区間
(ユーザの発話がなされている期間)が検出される。こ
こで、音声区間の検出方法については、例えば、J.C.Ju
nqua, B.Mark, and B.Reaves, "A Robust Algorithm fo
r Word Boundary Detectionin the Presence of Nois
e", IEEE Transaction Speech and Audio Processing,V
ol.2, No.3, 1994などに、その詳細が開示されている。
【0042】なお、音声区間は、その他、例えば、音声
認識装置に、所定のボタンを設けておき、発話を行って
いる間は、ユーザに、そのボタンを操作してもらうよう
にすることで認識するようにすることも可能である。
【0043】音声区間検出部11は、音声区間において
は、スイッチ13が端子13bを選択するように制御を
行い、それ以外の区間(以下、適宜、非音声区間とい
う)においては、スイッチ13が端子13aを選択する
ように制御を行う。
【0044】従って、非音声区間においては、スイッチ
13は端子13bを選択し、これにより、パワースペク
トラム分析器12の出力は、スイッチ13を介して、ノ
イズ特性算出器14に供給される。ノイズ特性算出器1
4では、非音声区間における、パワースペクトラム分析
器12の出力から、音声区間におけるノイズの特性が求
められる。
【0045】即ち、ここでは、ある音声区間におけるノ
イズのパワースペクトラムu(t)の分布が、その音声
区間の直前の非音声区間におけるノイズと同一であると
し、さらに、その分布が正規分布であるとして、ノイズ
特性算出器14は、ノイズの平均値(平均ベクトル)と
分散(分散マトリクス)を求める。
【0046】具体的には、いま、音声区間の最初のフレ
ームを第1フレーム(t=1)とすると、その200フ
レーム前から101フレーム前までの100フレーム分
のパワースペクトラム分析器12の出力y(−200)
乃至y(−101)の平均ベクトルμ’と分散マトリク
ス(共分散行列)Σ’とが、音声区間におけるノイズの
特性として求められる。
【0047】ここで、平均ベクトルμ’と分散マトリク
スΣ’は、次式にしたがって求めることができる。
【0048】
【数2】 ・・・(2) 但し、μ’(i)は、平均ベクトルμ’のi番目のコン
ポーネントを表す(i=1,2,・・・,D)。また、
y(t)(i)は、第tフレームの特徴ベクトルのi番
目のコンポーネントを表す。さらに、Σ’(i,j)
は、分散マトリクスΣ’の、第i行、第j列のコンポー
ネントを表す(j=1,2,・・・,D)。
【0049】ここで、計算量の低減のために、ノイズに
ついては、特徴ベクトルyの各コンポーネントが、互い
に無相関であると仮定する。この場合、次式に示すよう
に、分散マトリクスΣ’は、対角成分以外が0となる対
角行列となる。
【0050】
【数3】 ・・・(3)
【0051】ノイズ特性算出器14では、以上のように
して、ノイズの特性としての平均ベクトルμ’および平
均値Σ’が求められ、特徴分布パラメータ算出器15に
供給される。
【0052】一方、音声区間においては、スイッチ13
は端子13aを選択し、これにより、パワースペクトラ
ム分析器12の出力、即ち、真の音声とノイズとを含む
音声データの特徴ベクトルyは、スイッチ13を介し
て、特徴分布パラメータ算出器15に供給される。特徴
分布パラメータ算出器15では、パワースペクトラム分
析器12からの特徴ベクトルy、およびノイズ特性算出
器14からのノイズの特性に基づいて、真の音声のパワ
ースペクトラムの分布(推定値の分布)を表す特徴分布
パラメータが算出される。
【0053】即ち、特徴分布パラメータ算出器15で
は、真の音声のパワースペクトラムの分布が、例えば正
規分布であるとして、その平均ベクトルξと分散マトリ
クスΨが、特徴分布パラメータとして、次式にしたがっ
て計算される。
【0054】
【数4】 ・・・(4)
【数5】 ・・・(5)
【数6】 ・・・(6)
【数7】 ・・・(7)
【0055】ここで、ξ(t)(i)は、第tフレーム
における平均ベクトルξ(t)のi番目のコンポーネン
トを表す。また、E[]は、[]内の平均値を意味す
る。x(t)(i)は、第tフレームにおける真の音声
のパワースペクトラムx(t)のi番目のコンポーネン
トを表す。さらに、u(t)(i)は、第tフレームに
おけるノイズのパワースペクトラムのi番目のコンポー
ネントを表し、P(u(t)(i))は、第tフレーム
におけるノイズのパワースペクトラムのi番目のコンポ
ーネントがu(t)(i)である確率を表す。ここで
は、ノイズの分布として正規分布を仮定しているので、
P(u(t)(i))は、式(7)に示したように表さ
れる。
【0056】また、Ψ(t)(i,j)は、第tフレー
ムにおける分散Ψ(t)の、第i行、第j列のコンポー
ネントを表す。さらに、V[]は、[]内の分散を表
す。
【0057】特徴分布パラメータ算出器15では、以上
のようにして、各フレームごとに、平均ベクトルξおよ
び分散マトリクスΨが、真の音声の特徴ベクトル空間上
での分布(ここでは、真の音声の特徴ベクトル空間上で
の分布が正規分布であると仮定した場合の、その分布)
を表す特徴分布パラメータとして求められる。
【0058】その後、音声区間が終了すると、スイッチ
13は端子13bを選択し、また、特徴分布パラメータ
算出器15は、音声区間の各フレームにおいて求めた特
徴分布パラメータを、識別部3に出力する。即ち、い
ま、音声区間がTフレームであったとし、そのTフレー
ムそれぞれにおいて求められた特徴分布パラメータを、
z(t)={ξ(t),Ψ(t)}と表すと(t=1,
2,・・・,T)、特徴分布パラメータ算出器15は、
特徴分布パラメータ(系列)Z={z(1),z
(2),・・・,z(T)}を、識別部3に供給する。
【0059】そして、特徴抽出部2では、以下、同様の
処理が繰り返される。
【0060】なお、上述の場合には、ノイズのパワース
ペクトラムのコンポーネントどうしが無相関であること
を仮定したが、そのような仮定をせずに、特徴分布パラ
メータを求めることも可能である。この場合、演算量は
増加することとなるが、より精度の高い特徴分布パラメ
ータを得ることができる。
【0061】次に、図6は、図1の識別部3の構成例を
示している。
【0062】特徴抽出部2(特徴分布パラメータ算出器
15)からの特徴分布パラメータZは、K個の識別関数
演算部211乃至21Kに供給される。識別関数演算部2
kは、K個のクラスのうちのk番目に対応する単語を
識別するための識別関数gk(Z)を、音響モデルとし
て記憶しており(k=1,2,・・・,K)、特徴抽出
部2からの特徴分布パラメータZを引数として、識別関
数gk(Z)を演算する。
【0063】ここで、識別部3では、例えば、HMM
(Hidden Markov Model)法を用いて、クラスとしての
単語の識別(認識)が行われる。
【0064】なお、ここでは、例えば、図7に示すよう
なHMMを用いる。即ち、ここでは、HMMは、H個の
状態q1乃至qHを有しており、状態の遷移は、自身への
遷移と、右隣の状態への遷移のみが許されている。ま
た、初期状態は、最も左の状態q1とされ、最終状態
は、最も右の状態qHとされており、最終状態qHからの
状態遷移は禁止されている。このように、自身よりも左
にある状態への遷移のないモデルは、left-to-rightモ
デルと呼ばれ、音声認識では、一般に、このようなleft
-to-rightモデルが用いられる。
【0065】いま、HMMのkクラスを識別するための
音響モデルを、kクラスモデルというとすると、kクラ
スモデルは、例えば、最初に状態qhにいる確率(初期
状態確率)πk(qh)、ある時刻(フレーム)tにおい
て、状態qiにいて、次の時刻t+1において、状態qj
に状態遷移する確率(遷移確率)ak(qi,qj)、お
よび状態qiから状態遷移が生じるときに、その状態qi
が、特徴ベクトルOを出力する確率(出力確率)b
k(qi)(O)によって規定される(h=1,2,・・
・,H)。
【0066】そして、ある特徴ベクトル系列O1,O2
・・・が与えられた場合に、例えば、そのような特徴ベ
クトル系列が観測される確率(観測確率)が最も高いモ
デルのクラスが、その特徴ベクトル系列の認識結果とさ
れる。
【0067】ここでは、この観測確率が、識別関数gk
(Z)によって求められる。即ち、識別関数gk(Z)
は、特徴分布パラメータ(系列)Z={z1,z2,・・
・,zT}に対する最適状態系列(最適な状態の遷移の
していき方)において、そのような特徴分布パラメータ
(系列)Z={z1,z2,・・・,zT}が観測される
確率を求めるものとして、次式で与えられる。
【0068】
【数8】 ・・・(8)
【0069】ここで、bk’(qi)(zj)は、出力が
jで表される分布であるときの出力確率を表す。状態
遷移時に各特徴ベクトルを出力する確率である出力確率
k(s)(Ot)には、ここでは、例えば、特徴ベクト
ル空間上のコンポーネントどうしの間に相関がないもの
として、正規分布関数が用いられている。この場合、入
力がztで表される分布であるとき、出力確率bk
(s)(zt)は、平均ベクトルμk(s)と分散マトリ
クスΣk(s)とによって規定される確率密度関数Pk m
(s)(x)、および第tフレームの特徴ベクトル(こ
こでは、パワースペクトラム)xの分布を表す確率密度
関数Pf(t)(x)を用いて、次式により求めること
ができる。
【0070】
【数9】 ・・・(9)但し、式(9)における積分の積分区間
は、D次元の特徴ベクトル空間(ここでは、パワースペ
クトラム空間)の全体である。
【0071】また、式(9)において、P(s)(i)
(ξ(t)(i),Ψ(t)(i,i))は、次式で表
される。
【0072】
【数10】 ・・・(10) 但し、μk(s)(i)は、平均ベクトルμk(s)のi
番目のコンポーネントを、Σk(s)(i,i)は、分
散マトリクスΣk(s)の、第i行第i列のコンポーネ
ントを、それぞれ表す。そして、kクラスモデルの出力
確率は、これらによって規定される。
【0073】なお、HMMは、上述したように、初期状
態確率πk(qh)、遷移確率ak(qi,qj)、および
出力確率bk(qi)(O)によって規定されるが、これ
らは、例えば、不特定多数の話者の音声データを、学習
用の音声データとして用いて、あらかじめ求めておくよ
うにする。HMMの学習方法としては、例えば、Baum-W
elchの再推定法などが知られている。
【0074】ここで、HMMとして、図7に示したもの
を用いる場合には、常に、最も左の状態q1から遷移が
始まるので、初期状態確率は、状態q1についてのもの
のみ1とされ、他の状態についてのものはすべて0とさ
れる。また、出力確率は、式(9)および(10)から
明らかなように、Ψ(t)(i,i)を0とすると、特
徴ベクトルの分散を考慮しない場合の連続HMM法にお
ける出力確率に一致する。
【0075】図6の識別関数演算部21kは、kクラス
モデルについて、あらかじめ学習により求められた初期
状態確率πk(qh)、遷移確率ak(qi,qj)、およ
び出力確率bk(qi)(O)によって規定される式
(8)の識別関数gk(Z)を、音響モデルとして記憶
しており、特徴抽出部2からの特徴分布パラメータZを
引数として、識別関数gk(Z)を演算し、その関数値
k(Z)を、特徴分布パラメータZが観測される観測
確率として、決定部22に出力する。
【0076】決定部22では、識別関数演算部211
至21Kそれぞれからの関数値gk(Z)に対して、例え
ば、次式に示す決定規則を用いて、特徴分布パラメータ
Z、即ち、入力された音声が属するクラスが識別(決
定)される(入力された音声がいずれかのクラスに分類
される)。
【0077】
【数11】 ・・・(11) 但し、C(Z)は、特徴分布パラメータZが属するクラ
スを識別する識別操作(処理)を行う関数を表す。ま
た、式(11)の第2式の右辺におけるmaxは、それ
に続く関数値gi(Z)(但し、ここでは、i=1,
2,・・・,K)の最大値を表す。
【0078】決定部22は、式(11)にしたがって、
クラスを決定すると、それを、入力された音声の認識結
果として出力する。
【0079】なお、上述の場合には、説明を簡単にする
ために、特徴ベクトルyとして、パワースペクトラムを
用いるようにしたが、特徴ベクトルyとしては、その
他、例えば、線形予測係数や、MFCC(Mel Frequency
Cepstrum Coefficients)等を用いることが可能であ
る。さらに、特徴ベクトルyとしては、MFCC等の
他、MFCCと、隣接フレーム間のMFCCの差分との
組合せ等を用いることも可能である。
【0080】次に、図8は、図1の話者適応部6の構成
例を示している。
【0081】フレーム化部1(図1)からスイッチ5を
介して供給される観測ベクトルaは、パワースペクトラ
ム分析器32に供給される。パワースペクトラム分析器
32では、観測ベクトルaから、図4のパワースペクト
ラム分析器12における場合と同様にして、パワースペ
クトラムが求められる。
【0082】パワースペクトラム分析器32で得られた
パワースペクトラムは、スイッチ33に供給される。ス
イッチ33は、音声区間検出部31の制御にしたがっ
て、端子33aまたは33bのうちのいずれか一方を選
択する。
【0083】即ち、音声区間検出部31では、図4の音
声区間検出部11における場合と同様にして、音声区間
が検出される。そして、音声区間検出部31は、音声区
間においては、スイッチ33が端子33bを選択するよ
うに制御を行い、それ以外の区間(非音声区間)におい
ては、スイッチ33が端子33aを選択するように制御
を行う。
【0084】従って、非音声区間においては、スイッチ
33は端子33bを選択し、これにより、パワースペク
トラム分析器32の出力は、スイッチ33を介して、ノ
イズバッファ34に供給される。ノイズバッファ34
は、非音声区間における、パワースペクトラム分析器3
2の出力(パワースペクトラム)を記憶する。
【0085】即ち、ノイズバッファ34は、所定のフレ
ーム数分のパワースペクトラムを記憶する記憶容量を有
し、パワースペクトラム分析器32からスイッチ33を
介して供給されるパワースペクトラムを順次記憶する。
そして、ノイズバッファ34は、その容量分のパワース
ペクトラムを記憶すると、その後に供給されるパワース
ペクトラムを、最も古いパワースペクトラムに上書きす
る形で順次記憶していく。従って、ノイズバッファ34
には、非音声区間における、最新の、所定フレーム数分
のパワースペクトラムが、常に記憶される。
【0086】ノイズバッファ34に記憶された所定のフ
レーム数のパワースペクトラムは、非音声区間から音声
区間となり、スイッチ33が端子33aから33bに切
り替えられると、ノイズ予測ベイズ学習器35に出力さ
れる。従って、ノイズバッファ34から、ノイズ予測ベ
イズ学習器35には、音声区間の直前の所定フレーム分
のパワースペクトラム、つまり、ユーザの発話が行われ
る直前のノイズのパワースペクトラムが供給される。
【0087】さらに、音声区間においては、スイッチ3
3が端子33bを選択することにより、パワースペクト
ラム分析器32が出力するパワースペクトラム、即ち、
ユーザの真の音声成分とノイズ成分とからなる音声デー
タのパワースペクトラムも、スイッチ33を介して、ノ
イズ予測ベイズ学習器35に供給される。
【0088】ノイズ予測ベイズ学習器35は、ノイズバ
ッファ34からのノイズのパワースペクトラムに基づい
て、パワースペクトラム分析器32から供給される、ノ
イズを含む音声のパワースペクトラムにおける真の音声
成分を予測することにより、その真の音声成分の分布を
求める。さらに、ノイズ予測ベイズ学習器35は、真の
音声成分の分布に基づいて、識別部3(図1)に記憶さ
れた音響モデル(識別関数gk())の話者適応を、M
AP(Maximum a Posteriori Probability Estimation)
法に基づいて行う。
【0089】即ち、いま、ノイズを含む音声の特徴ベク
トルの系列をYと表すとともに、そのノイズを含む音声
の真の音声成分の特徴ベクトルの系列をXと表すことと
すると、ノイズを含む音声の特徴ベクトル系列Yは観測
することができるが、そのノイズを含む音声における真
の音声成分の特徴ベクトル系列Xは観測することができ
ない。
【0090】しかしながら、図5で説明したように、ノ
イズの特性が不規則であることから、ノイズを含む音声
におけるノイズは確率変数であり、従って、その音声に
おける真の音声成分の特徴ベクトル系列Xも確率変数と
なる。
【0091】また、話者適応の対象となる音響モデルを
規定するパラメータ(ベクトル)をλと表すと、このパ
ラメータλは、事前確率分布をP(λ)とする確率変数
と考えることができ、音響モデルから観測される特徴ベ
クトル系列Xの確率分布P(X)は、パラメータλによ
って規定されるパラメトリックなものとなる(と仮定す
ることができる)。
【0092】以上の前提によれば、実際に観測すること
ができる特徴ベクトル系列Yが観測されたときにおける
パラメータλの事後確率分布P(λ|Y)は、式(1
2)のように表すことができる。
【0093】
【数12】 ・・・(12)
【0094】ノイズ予測ベイズ学習器35では、式(1
2)の事後確率分布P(λ|Y)を最大にするλである
λnewを求め、音響モデルを規定するパラメータλを、
λnewに更新する話者適応が行われる。
【0095】ここで、式(12)において、右辺の第1
行目のP(λ|X)は、特徴ベクトル系列Xが観測され
たときにおけるパラメータλの事後確率分布を表し、P
(X|Y)は、ノイズを含む音声の特徴ベクトル系列Y
が観測されたときの、その音声における真の音声成分の
特徴ベクトル系列Xの分布を表す。この特徴ベクトル系
列Xの分布P(X|Y)は、ノイズ予測ベイズ学習器3
5において、ノイズバッファ34からのノイズのパワー
スペクトラムと、パワースペクトラム分析器32からの
音声区間における音声のパワースペクトラムとに基づい
て、その音声に含まれる真の音声成分を予測することに
よって求められる。即ち、ノイズ予測ベイズ学習器35
は、話者適応に用いる音声に、その音声が入力される直
前のノイズと同様の特性を有するノイズが含まれている
ものとして、真の音声の特徴ベクトル系列Xの分布P
(X|Y)が求められる。
【0096】また、式(12)において、右辺の第2行
目は、右辺の第1行目におけるP(λ|X)を、ベイズ
の規則にしたがって展開したものである。式(12)に
おける右辺の第2行目は、第3行目に示すように整理す
ることができ、この第3行目のP(λ)とP(X|λ)
は、それぞれ、λの事前確率と、λによって規定される
音響モデルから特徴ベクトル系列Xが出力される出力確
率であるから、あらかじめ求めることができる。
【0097】式(12)によれば、ノイズのない音声を
用いて学習された音響モデルを規定するパラメータの事
後確率分布が、ノイズに基づいて予測される真の音声成
分の分布を用いて求められる。また、式(12)による
話者適応は、ベイズ(Bayes)の学習法を基本とするもの
である。そこで、ノイズ予測ベイズ学習器35が、式
(12)によって話者適応を行う手法を、以下、適宜、
ノイズ予測ベイズ学習法という。
【0098】ノイズ予測ベイズ学習法による話者適応
は、具体的には、例えば、次のように行われる。
【0099】即ち、例えば、音響モデルが、各状態の出
力確率分布が正規分布(ガウス分布)で表されるHMM
であるとし、その出力確率分布が、平均ベクトルがμ
で、分散マトリクスがΣの正規分布N(μ,Σ)で表さ
れるものとする。さらに、平均ベクトルμは、事前確率
P(μ)が、平均ベクトルμ0と分散マトリクスΣ0で規
定される正規分布N(μ0,Σ0)であるとする。そし
て、ここでは、説明を簡単にするために、HMMの状態
遷移確率、出力確率分布としての正規分布を規定する分
散マトリクスΣを、話者適応の対象外とし、出力確率分
布としての正規分布を規定する平均ベクトルμを、話者
適応によって更新することを考える。つまり、式(1
2)のパラメータλとして、出力確率分布の平均ベクト
ルμだけを考える。
【0100】この場合、特徴ベクトル系列Yが、Dy
元の特徴ベクトルyiのN個の系列{y1,y2,・・
・,yN}であり、特徴ベクトルXが、Dx次元の特徴ベ
クトルx iのN個の系列{x1,x2,・・・,xN}であ
るとすると、式(12)における第3行目のP(X|
Y)/(∫P(X|λ)P(λ)dX)のパラメータλ
を平均ベクトルμに置き換えたP(X|Y)/(∫P
(X|μ)P(μ)dX)は、式(13)に示すよう
に、正規分布で近似することができる。
【0101】
【数13】 ・・・(13)
【0102】ここで、式(13)において、yiは、音
声区間の先頭から第iフレームの音声の特徴ベクトルを
表し、xiは、その第1フレームの音声における真の音
声成分の特徴ベクトルを表す。また、miとViは、それ
ぞれ、真の音声成分の分布である正規分布を規定する平
均ベクトルと分散マトリクスを表す。また、α0は、所
定の定数である。
【0103】一方、式(12)において、事後確率分布
P(λ|Y)におけるパラメータλを、平均ベクトルμ
で置き換えた事後確率分布P(μ|Y)は、その第3行
目のP(λ)∫(P(X|λ)P(X|Y)/(∫P
(X|λ)P(λ)dλ))dXにおけるパラメータλ
を、平均ベクトルμに置き換えたP(μ)∫(P(X|
μ)P(X|Y)/(∫P(X|μ)P(μ)dμ))
dXで表すことができる。
【0104】そして、事前確率分布P(μ)と、出力確
率分布P(X|μ)は、ここでは、いずれも正規分布で
あり、さらに、P(X|Y)/(∫P(X|μ)P
(μ)dμ)も、式(13)に示したように正規分布で
あるから、これらによって規定される事後確率分布P
(μ|Y)も、次式に示すように正規分布で規定するこ
とができる。
【0105】
【数14】 ・・・(14)
【0106】但し、式(14)において、分散マトリク
スΣ’0と平均ベクトルμ’0は、式(15)に示すよう
に定義される。
【0107】
【数15】 ・・・(15)
【0108】式(14)の事後確率分布P(μ|Y)は
正規分布であるから、μが、事後確率分布P(μ|Y)
を表す正規分布の平均ベクトルに等しいときに、事後確
率分布P(μ|Y)が最大となる。従って、事後確率分
布P(μ|Y)を表す正規分布の平均ベクトルを、μ
newと表すこととすると、この平均ベクトルμnewと分散
マトリクスΣで表される正規分布を出力確率分布とする
HMMが、話者適応結果となる。
【0109】ノイズ予測ベイズ学習器35においては、
以上のようなノイズ予測ベイズ学習法によって、話者適
応が行われる。
【0110】なお、式(13)では、P(X|Y)/
(∫P(X|μ)P(μ)dX)の全体を、正規分布で
近似するようにしたが、そのうちの分母部分∫P(X|
μ)P(μ)dXを定数に近似するとともに、分子部分
だけを正規分布に近似することも可能である。この場
合、P(X|Y)/(∫P(X|μ)P(μ)dX)
は、式(16)に示すようになる。
【0111】
【数16】 ・・・(16)
【0112】但し、式(16)において、α1は所定の
定数である。
【0113】次に、図9のフローチャートを参照して、
図8の話者適応部6による話者適応処理について説明す
る。
【0114】モード設定部4において、動作モードが適
応モードとされると、話者適応処理が開始され、音声区
間検出部31は、スイッチ33に端子33aを選択させ
る。これにより、フレーム化部1が出力する観測ベクト
ルaが、スイッチ33を介して、パワースペクトラム分
析器32に供給される。パワースペクトラム分析器32
では、ステップS1において、そこに供給される観測ベ
クトルaのスペクトルが求められる。即ち、ステップS
1では、ユーザが話者適応のための発話を開始する前の
非音声区間のスペクトル、つまり、ノイズのスペクトル
Snが求められる。このノイズのスペクトルSnは、ス
テップS2において、スイッチ33を介して、ノイズバ
ッファ34に供給されて記憶される。
【0115】そして、ステップS3に進み、音声区間検
出部31は、音声区間かどうかを判定し、音声区間でな
いと判定した場合、即ち、非音声区間である場合、ステ
ップS1に戻る。従って、非音声区間の間は、ステップ
S1乃至S3の処理が繰り返され、これにより、ノイズ
バッファ34には、ノイズのスペクトルSnが時系列に
記憶されていく。
【0116】なお、ノイズバッファ34は、上述したよ
うに、その容量分のパワースペクトラムを記憶すると、
その後に供給されるパワースペクトラムを、最も古いパ
ワースペクトラムに上書きする形で順次記憶していくよ
うになっており、これにより、常に、最新の、Mフレー
ム数分のパワースペクトラムを記憶する。
【0117】その後、ステップS3において、音声区間
であると判定された場合、即ち、ユーザが発話を開始し
た場合、音声区間検出部31は、スイッチ33を、端子
33aから33bに切り替える。そして、ステップS4
に進み、パワースペクトラム分析器32は、ユーザの発
話に対応して供給される観測ベクトルaからスペクトル
を求め、即ち、ノイズを含むユーザの音声のスペクトル
Syを求め、スイッチ33を介して、ノイズ予測ベイズ
学習器35に供給する。
【0118】ノイズ予測ベイズ学習器35は、パワース
ペクトラム分析器32から、音声区間全体に亘るユーザ
の音声のスペクトルSyを受信すると、ステップS5に
おいて、ノイズバッファ34から、音声区間となる直前
のMフレームのノイズのスペクトルSnを読み出し、音
声のスペクトルSyから、ノイズのスペクトルSnを減
算することにより、真の音声成分を予測する。
【0119】即ち、いま、Mフレームのうちの第mフレ
ームのノイズのスペクトルをSn(m)と表すとととも
に、音声区間の第iフレームの音声のスペクトルをSy
(i)と表すと、ステップS5では、音声区間の第iフ
レームについて、Mセットのスペクトルの差分Sy
(i)−Sn(1),Sy(i)−Sn(2),・・
・,Sy(i)−Sn(M)が計算される。
【0120】さらに、いま、音声の特徴ベクトルとし
て、例えば、MFCCを採用することとすると、ステッ
プS5では、音声区間の第iフレームについて得られた
Mセットのスペクトル差分Sy(i)−Sn(1),S
y(i)−Sn(2),・・・,Sy(i)−Sn
(M)それぞれから、MセットのMFCCが求められ、
これにより、第iフレームの真の音声のMFCCの予測
値が、Mセットだけ求められる。
【0121】そして、ステップS6に進み、ノイズ予測
ベイズ学習器35は、音声区間の第iフレームについて
得られたMセットのMFCCが特徴空間(MFCCの空
間)上に形成する分布を表す正規分布、即ち、第iフレ
ームの真の音声の分布を表す正規分布の平均ベクトルm
iと分散マトリクスViを求める。
【0122】さらに、ノイズ予測ベイズ学習器35は、
ステップS6において、ステップS5で得られた平均ベ
クトルmiと分散マトリクスViから、式(14)の事後
確率分布P(μ|Y)を求め、その平均ベクトルμnew
によって、話者適応の対象となっているHMMを規定す
る出力確率分布の平均ベクトルμを更新して、話者適応
処理を終了する。
【0123】なお、図9におけるステップS5乃至S7
の処理は、音声区間のすべてのフレームについて行われ
る。この場合、音声区間の各フレームを、HMMを構成
する状態のうちのいずれの出力確率分布の平均ベクトル
μの更新に採用するかが問題となるが、この問題につい
ては、例えば、セグメンタルMAP(Segmental MAP)ア
ルゴリズムによって対処可能である。
【0124】即ち、話者適応の対象となっているHMM
から、音声区間の音声が観測される確率が最も高くなる
場合の状態遷移のパス、つまりビタビパス(Viterbi Pat
h)を求め、そのビタビパスに基づいて、音声区間の各フ
レームの音声が、HMMのどの状態に対応するかを決定
する。そして、HMMの各状態の出力確率分布の平均ベ
クトルの更新は、その状態に対応するフレームの音声を
用いて行うようにすれば良い。
【0125】なお、セグメンタリMAPアルゴリズムに
ついては、例えば、Lee, C.H., Lin, C.H. and Juang,
B.H., "A study of speaker adaptation of the parame
tersof continuous density hidden Markov Models", I
EEE Trans. signal processing, Vol.39, No.4, pp.806
-P14, 1991等に、その詳細が記載されている。
【0126】以上のような話者適応処理によって更新さ
れたHMMに基づき、上述した特徴分布パラメータを用
いて音声認識が行われる場合には、例えば、次式にした
がい、音声認識対象として観測される音声の特徴ベクト
ルy(に対応する特徴分布パラメータ)について、HM
Mの出力確率P(y)が計算される。
【0127】
【数17】 ・・・(17)
【0128】但し、式(17)において、mとVは、そ
れぞれ、音声認識対象として観測される音声における真
の音声成分の分布(正規分布)を表す特徴分布パラメー
タとしての平均ベクトルと分散マトリクスを表す。ま
た、μnewとΣは、それれぞれ、話者適応処理されたH
MMの出力確率分布としての正規分布の平均ベクトルと
分散マトリクスを表す。
【0129】なお、式(17)は、上述の式(10)と
同様の式である。
【0130】以上のようなノイズ予測ベイズ学習法によ
る話者適応によれば、ノイズのない環境の音声から得ら
れたHMMの話者適応を、ノイズ環境下で行っても、音
声認識装置の認識性能を向上させることができる。
【0131】即ち、図10は、本件発明者が行った音声
認識処理のシミュレーション結果を示している。
【0132】なお、シミュレーションでは、自動車によ
るノイズがある環境下で、数字の音響モデルについて、
話者適応を行った。また、シミュレーションでは、32
人ずつの男性と女性の合計64人に、ノイズのない環境
下において、連続した数字を発話をしてもらうことによ
り得られた音声を用いて学習を行うことによって、HM
Mを作成し、さらに、HMMとしては、出力確率分布
が、対角行列となる分散マトリクスで規定される正規分
布となるものを用いた。特徴ベクトルとしては、13次
のMFCC、13次のMFCCの隣接フレームどうしの
差分、およびその差分の隣接フレームどうしの差分から
なる39次元のベクトルを用い、認識対象の音声として
は、16人ずつの男性と女性の合計32人の発話を、ノ
イズのない環境下で採取したものを用いた。また、自動
車のノイズを採取し、このノイズと、認識対象の音声と
を重畳することで、自動車によるノイズがある環境下で
の音声を作成した。さらに、1フレームを10ms(ミ
リ秒)として、200フレーム(2000ms)のノイ
ズを、話者適応において、真の音声を予測するのに用い
た。また、音声認識は、ノイズのない音声の特徴分布パ
ラメータを用いることにより行った。
【0133】図10の右欄の下段は、各左欄に示したS
/N(Signal to Noise Ratio)の音声を用いて、ノイズ
予測ベイズ学習法による話者適応を行い、話者適応後の
HMMを用いて、ノイズのない音声を認識した場合の認
識率を示している。
【0134】一方、図10の右欄の上段は、各左欄に示
したS/N(Signal to Noise Ratio)の音声に対して、
例えば、Lockwood, P. and Boudy, J., "Experments wi
th anonlinear spectral subtractor(NSS), hidden mar
kov models and the projection, for robust speech r
ecognition in cars", Speech Communication, Vol.11,
pp.215-228, 1992等に記載されているスペクトルサブ
トラクションを施すことによりノイズを除去(低減)
し、さらに、その結果得られる音声を用いて、従来のM
APアルゴリズムにより話者適応を行って、ノイズのな
い音声を認識した場合の認識率を示している。
【0135】図10の右欄の上段と下段の認識率を比較
することにより、ノイズ予測ベイズ学習法の方が、従来
のMAPアルゴリズムに比較して、ノイズ環境下におけ
る話者適応が有効に行われていることが分かる。
【0136】なお、シミュレーションでは、話者適応を
行わない場合の認識率として、96.14%が得られて
おり、従来のMAPアルゴリズムでは、図10に示した
ように、S/Nが−3dBの音声を用いて話者適応を行
った時点で、認識率が、96.14%より低い96.0
8%となっている。従って、従来のMAPアルゴリズム
による話者適応は、S/Nが−3dB以下の環境下で
は、効果がないばかりか、むしろ認識率を低下させるこ
とになる。それに対して、ノイズ予測ベイズ学習法によ
る話者適応は、S/Nが−6dBの環境下で行っても、
認識率として、97.13%が得られており、話者適応
の効果が得られている。
【0137】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
【0138】そこで、図11は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。
【0139】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
【0140】あるいはまた、プログラムは、フロッピー
(登録商標)ディスク、CD-ROM(Compact Disc Read Onl
y Memory),MO(Magneto optical)ディスク,DVD(Digita
l Versatile Disc)、磁気ディスク、半導体メモリなど
のリムーバブル記録媒体111に、一時的あるいは永続
的に格納(記録)しておくことができる。このようなリ
ムーバブル記録媒体111は、いわゆるパッケージソフ
トウエアとして提供することができる。
【0141】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
【0142】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部107が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)103に格納されているプログラムを実行
する。あるいは、また、CPU102は、ハードディスク
105に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部108で受信されてハー
ドディスク105にインストールされたプログラム、ま
たはドライブ109に装着されたリムーバブル記録媒体
111から読み出されてハードディスク105にインス
トールされたプログラムを、RAM(Random Access Memor
y)104にロードして実行する。これにより、CPU10
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU102は、その処理結果を、必要に応
じて、例えば、入出力インタフェース110を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部106から出力、あるいは、通信部108から
送信、さらには、ハードディスク105に記録等させ
る。
【0143】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0144】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
【0145】なお、本実施の形態では、話者適応により
HMMの出力確率分布の平均ベクトルを更新するように
したが、HMMを規定するその他のパラメータを、話者
適応の対象とすることが可能である。
【0146】また、本実施の形態では、HMMを、話者
適応の対象としたが、その他の音響モデルを話者適応の
対象とすることが可能である。
【0147】さらに、本実施の形態では、特徴分布パラ
メータを用いて音声認識を行うようにしたが、本発明
は、特徴ベクトルを用いて音声認識を行う場合の話者適
応に利用することも可能である。
【0148】また、本明細書におけるノイズには、発話
を行う環境下における外部からのノイズの他、例えば、
電話回線その他の通信回線を介して送信されてくる音声
については、その通信回線の特性なども含まれる。
【0149】
【発明の効果】本発明の話者適応装置および話者適応方
法、記録媒体、並びに音声認識装置によれば、ノイズデ
ータに基づいて、音声データにおける真の音声成分が予
測され、その真の音声成分の分布が求められる。そし
て、真の音声成分の分布に基づいて、音響モデルの話者
適応が行われる。従って、ノイズ環境下であっても、有
効な話者適応を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識装置の一実施の形態
の構成例を示すブロック図である。
【図2】図1のフレーム化部1の処理を説明するための
図である。
【図3】図1の特徴抽出部2の処理を説明するための図
である。
【図4】図1の特徴抽出部2の構成例を示すブロック図
である。
【図5】ノイズおよび真の音声のパワーの確率密度関数
を示す図である。
【図6】図1の識別部3の構成例を示すブロック図であ
る。
【図7】HMMを示す図である。
【図8】図1の話者適応部6の構成例を示すブロック図
である。
【図9】図8の話者適応部6による話者適応処理を説明
するフローチャートである。
【図10】シミュレーション結果を示す図である。
【図11】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
【符号の説明】
1 フレーム化部, 2 特徴抽出部, 3 識別部,
4 モード設定部,5 スイッチ, 5a,5b 端
子, 6 話者適応部, 11 音声区間検出部, 1
2 パワースペクトラム分析器, 13 スイッチ,
13a,13b 端子, 14 ノイズ特性算出器,
15 特徴分布パラメータ算出器,211乃至21K
別関数演算部, 22 決定部, 31 音声区間検出
部,32 パワースペクトラム分析器, 33 スイッ
チ, 33a,33b 端子, 34 ノイズバッフ
ァ, 35 ノイズ予測ベイズ学習器, 101 バ
ス, 102 CPU, 103 ROM, 104 RAM,
105 ハードディスク, 106 出力部, 10
7 入力部, 108 通信部, 109 ドライブ,
110 入出力インタフェース, 111 リムーバ
ブル記録媒体

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 音声認識に用いる音響モデルの話者適応
    を行う話者適応装置であって、 話者適応に用いる音声データが入力される前のノイズデ
    ータを取得するノイズデータ取得手段と、 前記ノイズデータに基づいて、前記音声データにおける
    真の音声成分を予測し、その真の音声成分の分布を求め
    る予測手段と、 前記真の音声成分の分布に基づいて、前記音響モデルの
    話者適応を行う適応手段とを備えることを特徴とする話
    者適応装置。
  2. 【請求項2】 前記適応手段は、前記音声データが観測
    されるときの、音響モデルを規定するパラメータの事後
    確率分布を最大化するように、前記音響モデルの話者適
    応を行うことを特徴とする請求項1に記載の話者適応装
    置。
  3. 【請求項3】 前記適応手段は、前記事後確率分布を正
    規分布に近似して、前記音響モデルの話者適応を行うこ
    とを特徴とする請求項2に記載の話者適応装置。
  4. 【請求項4】 前記適応手段は、前記事後確率分布の構
    成要素の一部を定数に近似して、前記音響モデルの話者
    適応を行うことを特徴とする請求項2に記載の話者適応
    装置。
  5. 【請求項5】 前記適応手段は、ベイズ(Bayes)の学習
    法に基づいて、前記音響モデルの話者適応を行うことを
    特徴とする話者適応装置。
  6. 【請求項6】 前記音響モデルは、HMM(Hidden Mark
    ov Model)であることを特徴とする請求項1に記載の話
    者適応装置。
  7. 【請求項7】 前記適応手段は、前記HMMの状態が遷
    移したときに出力される値の平均ベクトルを更新するこ
    とを特徴とする請求項6に記載の話者適応装置。
  8. 【請求項8】 前記適応手段は、セグメンタルMAPア
    ルゴリズム(Segmental Maximum a Posteriori Probabil
    ity Estimation)を利用して、前記HMMの各状態が出
    力する値の平均ベクトルを更新することを特徴とする請
    求項7に記載の話者適応装置。
  9. 【請求項9】 音声認識に用いる音響モデルの話者適応
    を行う話者適応方法であって、 話者適応に用いる音声データが入力される前のノイズデ
    ータを取得するノイズデータ取得ステップと、 前記ノイズデータに基づいて、前記音声データにおける
    真の音声成分を予測し、その真の音声成分の分布を求め
    る予測ステップと、 前記真の音声成分の分布に基づいて、前記音響モデルの
    話者適応を行う適応ステップとを備えることを特徴とす
    る話者適応方法。
  10. 【請求項10】 音声認識に用いる音響モデルの話者適
    応を、コンピュータに行わせるプログラムが記録されて
    いる記録媒体であって、 話者適応に用いる音声データが入力される前のノイズデ
    ータを取得するノイズデータ取得ステップと、 前記ノイズデータに基づいて、前記音声データにおける
    真の音声成分を予測し、その真の音声成分の分布を求め
    る予測ステップと、 前記真の音声成分の分布に基づいて、前記音響モデルの
    話者適応を行う適応ステップとを備えるプログラムが記
    録されていることを特徴とする記録媒体。
  11. 【請求項11】 音響モデルを用いて、音声を認識する
    音声認識装置であって、 前記音声から、その特徴量を抽出する抽出手段と、 前記音声の特徴量と音響モデルとを用いて、前記音声を
    認識する認識手段と、 話者適応に用いる音声データが入力される前のノイズデ
    ータを取得するノイズデータ取得手段と、 前記ノイズデータに基づいて、前記音声データにおける
    真の音声成分を予測し、その真の音声成分の分布を求め
    る予測手段と、 前記真の音声成分の分布に基づいて、前記音響モデルの
    話者適応を行う適応手段とを備えることを特徴とする音
    声認識装置。
JP2000313240A 2000-10-13 2000-10-13 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置 Pending JP2002123285A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000313240A JP2002123285A (ja) 2000-10-13 2000-10-13 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000313240A JP2002123285A (ja) 2000-10-13 2000-10-13 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置

Publications (1)

Publication Number Publication Date
JP2002123285A true JP2002123285A (ja) 2002-04-26

Family

ID=18792687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000313240A Pending JP2002123285A (ja) 2000-10-13 2000-10-13 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置

Country Status (1)

Country Link
JP (1) JP2002123285A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226982A (ja) * 2003-01-21 2004-08-12 Microsoft Corp 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP2004302470A (ja) * 2003-03-31 2004-10-28 Microsoft Corp 漸進的ベイズ学習を使用する雑音推定の方法
JP2017138596A (ja) * 2016-02-02 2017-08-10 株式会社東芝 話者適応システムにおける雑音補償

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04267300A (ja) * 1991-02-22 1992-09-22 A T R Jido Honyaku Denwa Kenkyusho:Kk 雑音除去と話者適応の機能を有する音声認識装置
JPH09146585A (ja) * 1995-11-27 1997-06-06 Hitachi Ltd 音声認識翻訳システム
JPH09160584A (ja) * 1995-12-13 1997-06-20 Nec Corp 音声適応化装置および音声認識装置
JPH11133992A (ja) * 1997-10-31 1999-05-21 Sony Corp 特徴抽出装置および特徴抽出方法、並びにパターン認識装置およびパターン認識方法
JPH11231897A (ja) * 1998-02-12 1999-08-27 Hitachi Ltd 音声認識装置及び方法
JP2002108383A (ja) * 2000-09-29 2002-04-10 Pioneer Electronic Corp 音声認識システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04267300A (ja) * 1991-02-22 1992-09-22 A T R Jido Honyaku Denwa Kenkyusho:Kk 雑音除去と話者適応の機能を有する音声認識装置
JPH09146585A (ja) * 1995-11-27 1997-06-06 Hitachi Ltd 音声認識翻訳システム
JPH09160584A (ja) * 1995-12-13 1997-06-20 Nec Corp 音声適応化装置および音声認識装置
JPH11133992A (ja) * 1997-10-31 1999-05-21 Sony Corp 特徴抽出装置および特徴抽出方法、並びにパターン認識装置およびパターン認識方法
JPH11231897A (ja) * 1998-02-12 1999-08-27 Hitachi Ltd 音声認識装置及び方法
JP2002108383A (ja) * 2000-09-29 2002-04-10 Pioneer Electronic Corp 音声認識システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226982A (ja) * 2003-01-21 2004-08-12 Microsoft Corp 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP2004302470A (ja) * 2003-03-31 2004-10-28 Microsoft Corp 漸進的ベイズ学習を使用する雑音推定の方法
KR101004495B1 (ko) 2003-03-31 2010-12-31 마이크로소프트 코포레이션 증분 베이즈 학습을 사용하는 잡음 추정 방법
JP2017138596A (ja) * 2016-02-02 2017-08-10 株式会社東芝 話者適応システムにおける雑音補償

Similar Documents

Publication Publication Date Title
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
EP1515305B1 (en) Noise adaption for speech recognition
EP1113419B1 (en) Model adaptive apparatus and model adaptive method, recording medium, and pattern recognition apparatus
US7107214B2 (en) Model adaptation apparatus, model adaptation method, storage medium, and pattern recognition apparatus
EP2189976A1 (en) Method for adapting a codebook for speech recognition
JPH0850499A (ja) 信号識別方法
KR101892733B1 (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2010078650A (ja) 音声認識装置及びその方法
JP3907194B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
Herbig et al. Self-learning speaker identification for enhanced speech recognition
KR20120077527A (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
JP4577543B2 (ja) モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置
JP4847581B2 (ja) 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
Loh et al. Speech recognition interactive system for vehicle
JP2002123285A (ja) 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP2001249681A (ja) モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
Bhattacharjee Environment and Sensor Robustness in Automatic Speech Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100304

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101228