JPH05241593A - 時系列信号処理装置 - Google Patents
時系列信号処理装置Info
- Publication number
- JPH05241593A JPH05241593A JP34194492A JP34194492A JPH05241593A JP H05241593 A JPH05241593 A JP H05241593A JP 34194492 A JP34194492 A JP 34194492A JP 34194492 A JP34194492 A JP 34194492A JP H05241593 A JPH05241593 A JP H05241593A
- Authority
- JP
- Japan
- Prior art keywords
- degree
- series signal
- equation
- hidden markov
- markov model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 隠れマルコフモデルを用いた音声をはじめと
する時系列信号処理装置に関するもので、特に、話者特
性を考慮することにより不特定話者の音声認識精度を向
上させる装置を提供することを目的とする。 【構成】 1,…,Kに分類された話者クラスに対し、状
態毎に前記話者クラスに対応した確率分布をもつK個の
ランダムベクトル発生源を有する隠れマルコフモデル
と、観測時系列信号Y=(y(1),・・・,y(2))の前記隠
れマルコフモデルから発生する度合を計算する尤度算出
手段を備えたことを特徴とする。
する時系列信号処理装置に関するもので、特に、話者特
性を考慮することにより不特定話者の音声認識精度を向
上させる装置を提供することを目的とする。 【構成】 1,…,Kに分類された話者クラスに対し、状
態毎に前記話者クラスに対応した確率分布をもつK個の
ランダムベクトル発生源を有する隠れマルコフモデル
と、観測時系列信号Y=(y(1),・・・,y(2))の前記隠
れマルコフモデルから発生する度合を計算する尤度算出
手段を備えたことを特徴とする。
Description
【0001】
【産業上の利用分野】本発明は、音声認識装置、特に不
特定話者向きの音声認識装置等に用いられる時系列信号
処理装置に関するものである。
特定話者向きの音声認識装置等に用いられる時系列信号
処理装置に関するものである。
【0002】
【従来の技術】近年、隠れマルコフモデル(Hidden Mar
kov Model 以下HMMと略記)を用いた方式が音声認識
に盛んに用いられるようになってきた。HMMは時系列
の確率モデルであり、音声信号のように話者や前後の音
韻などの影響を受けて種々の変動を伴う時系列を確率的
に処理する強力な枠組みを与えると共に、連続音声認識
への拡張性にも優れていると言う特徴がある。
kov Model 以下HMMと略記)を用いた方式が音声認識
に盛んに用いられるようになってきた。HMMは時系列
の確率モデルであり、音声信号のように話者や前後の音
韻などの影響を受けて種々の変動を伴う時系列を確率的
に処理する強力な枠組みを与えると共に、連続音声認識
への拡張性にも優れていると言う特徴がある。
【0003】HMMによる認識は次のようにして行われ
る。以後、説明の便宜上、単語音声認識の場合について
説明する。即ち,未知入力に対して得られる特徴ベクト
ル系列をY=(y(1),y(2),…,y(T))とするとき,
単語wに対するモデルλwの尤度は事後確率P(λw|Y)
で定義される。ここに、y(t)は時点tにおいて観測さ
れる特徴ベクトルである。このとき、Yに対する認識結
果は、認識語彙をw=1,・・・,Wとするとき(数7)で
与えられる。ここで、(数8)が成立し、事前確率P
(λw)は一般には不明であるから全単語について等しい
とし、P(Y)は全てのw(=1,・・・,W)に関わらず共通
であるから省略すれば、(数7)を計算する代わりに
(数9)を計算すれば良いことになる。
る。以後、説明の便宜上、単語音声認識の場合について
説明する。即ち,未知入力に対して得られる特徴ベクト
ル系列をY=(y(1),y(2),…,y(T))とするとき,
単語wに対するモデルλwの尤度は事後確率P(λw|Y)
で定義される。ここに、y(t)は時点tにおいて観測さ
れる特徴ベクトルである。このとき、Yに対する認識結
果は、認識語彙をw=1,・・・,Wとするとき(数7)で
与えられる。ここで、(数8)が成立し、事前確率P
(λw)は一般には不明であるから全単語について等しい
とし、P(Y)は全てのw(=1,・・・,W)に関わらず共通
であるから省略すれば、(数7)を計算する代わりに
(数9)を計算すれば良いことになる。
【0004】
【数7】
【0005】
【数8】
【0006】
【数9】
【0007】図17は、以上の処理を行う単語音声認識
装置のブロック図である。101は単語音声信号入力端
子であって、認識すべき単語音声が入力される。102
は特徴抽出部であって、フレームと呼ばれる間隔で、例
えば10msec毎にフーリエ変換やLPC分析を行ない、
フレームt毎に、入力音声信号を特徴ベクトルと呼ばれ
るd個のパラメータの組y(t)=(y1(t),・・・,y
d(t))Tに変換する。以後、ベクトルは縦ベクトルと
し、Tは転置を表すものとする。103はモデル記憶部
であって、w=1,・・・,Wの認識単語に対応したモデル
λ1,・・・,λWが記憶されている。104は尤度算出部で
あって、特徴抽出部102の出力である特徴ベクトル系
列Y=(y(1),・・・,y(T))がモデルλwから発生する確
からしさL(Y|λw)をw=1,・・・,Wについて計算す
る。L(Y|λw)としては、Yのλwに対する条件付き確
率密度P(Y|λw)あるいはその対数等が用いられる。1
05は最大尤度判定部であって、L(Y|λw)が最大とな
るw=w^を見出し認識結果w^を出力する。
装置のブロック図である。101は単語音声信号入力端
子であって、認識すべき単語音声が入力される。102
は特徴抽出部であって、フレームと呼ばれる間隔で、例
えば10msec毎にフーリエ変換やLPC分析を行ない、
フレームt毎に、入力音声信号を特徴ベクトルと呼ばれ
るd個のパラメータの組y(t)=(y1(t),・・・,y
d(t))Tに変換する。以後、ベクトルは縦ベクトルと
し、Tは転置を表すものとする。103はモデル記憶部
であって、w=1,・・・,Wの認識単語に対応したモデル
λ1,・・・,λWが記憶されている。104は尤度算出部で
あって、特徴抽出部102の出力である特徴ベクトル系
列Y=(y(1),・・・,y(T))がモデルλwから発生する確
からしさL(Y|λw)をw=1,・・・,Wについて計算す
る。L(Y|λw)としては、Yのλwに対する条件付き確
率密度P(Y|λw)あるいはその対数等が用いられる。1
05は最大尤度判定部であって、L(Y|λw)が最大とな
るw=w^を見出し認識結果w^を出力する。
【0008】Yに対応するHMMの状態系列をX=(x
(1),・・・・・,x(T))とすれば、P(Y|λw)は(数10)
のように計算される。
(1),・・・・・,x(T))とすれば、P(Y|λw)は(数10)
のように計算される。
【0009】
【数10】
【0010】ここで、HMMλwは,left to right の
モデルであって,そこへの遷移のみ起こり、そこからの
遷移は生じず、かつ、特徴ベクトルを発生しない最終状
態を持つものとする。例えば、図18に示されるような
モデルが用いられる。aijは状態iから状態jへの遷移
確率である。bi(y(t))は状態iにおいてベクトルy
(t)の観測される確率密度である。本例では,各状態に
おいて特徴ベクトルが発生するとしているが、遷移にと
もなって発生するとする場合もある。即ち、状態iから
状態jへの遷移にともなってベクトルy(t)の発生する
確率密度をbij(y(t))とするものである。任意のjに
対してbij(y(t))は同じ値を取るとすれば、これは前
者のモデルと等価になる。これらの定義は本発明におい
ては本質的でないので以後前者のモデルで説明する。図
18においてループを持たない最終の状態が前記最終状
態である。図17のモデル記憶部103には各認識単語
毎にそれぞれに対応するこのようなモデルが記憶されて
いる。
モデルであって,そこへの遷移のみ起こり、そこからの
遷移は生じず、かつ、特徴ベクトルを発生しない最終状
態を持つものとする。例えば、図18に示されるような
モデルが用いられる。aijは状態iから状態jへの遷移
確率である。bi(y(t))は状態iにおいてベクトルy
(t)の観測される確率密度である。本例では,各状態に
おいて特徴ベクトルが発生するとしているが、遷移にと
もなって発生するとする場合もある。即ち、状態iから
状態jへの遷移にともなってベクトルy(t)の発生する
確率密度をbij(y(t))とするものである。任意のjに
対してbij(y(t))は同じ値を取るとすれば、これは前
者のモデルと等価になる。これらの定義は本発明におい
ては本質的でないので以後前者のモデルで説明する。図
18においてループを持たない最終の状態が前記最終状
態である。図17のモデル記憶部103には各認識単語
毎にそれぞれに対応するこのようなモデルが記憶されて
いる。
【0011】状態j(j=1〜J)毎に,特徴ベクトルy
の観測される確率密度bj(y)と状態iから状態jへの
遷移確率aijが与えられているとき,状態系列Xと特徴
ベクトル系列YのHMMλから発生する同時確率密度は
(数11)で表わされ、結局(数12)が成立する。た
だし,πiはフレームt=1で、状態がiにある確率
(初期確率),x(T+1)=J+1は前記最終状態で,
フレームTの観測後遷移して終了する状態であって,如
何なるベクトルも発生しない。このモデルにおいては、
観測系列y(1),・・・,y(T)に対して状態系列はx(1),
・・・,x(T+1)となる。
の観測される確率密度bj(y)と状態iから状態jへの
遷移確率aijが与えられているとき,状態系列Xと特徴
ベクトル系列YのHMMλから発生する同時確率密度は
(数11)で表わされ、結局(数12)が成立する。た
だし,πiはフレームt=1で、状態がiにある確率
(初期確率),x(T+1)=J+1は前記最終状態で,
フレームTの観測後遷移して終了する状態であって,如
何なるベクトルも発生しない。このモデルにおいては、
観測系列y(1),・・・,y(T)に対して状態系列はx(1),
・・・,x(T+1)となる。
【0012】
【数11】
【0013】
【数12】
【0014】時刻t,HMMの状態iにおける観測ベク
トルy(t)の確率密度を正規分布とすれば,その確率密
度は基本HMMにおいては(数13)のように表され
る。ここで,μi,ΣiはそれぞれHMMの状態iにおけ
るy(t)の平均ベクトル,および分散共分散行列であ
る。
トルy(t)の確率密度を正規分布とすれば,その確率密
度は基本HMMにおいては(数13)のように表され
る。ここで,μi,ΣiはそれぞれHMMの状態iにおけ
るy(t)の平均ベクトル,および分散共分散行列であ
る。
【0015】
【数13】
【0016】図19は基本HMMの概念を模式的に表す
図である。301は通常のマルコフ連鎖であって、qi
は第i番の状態を表している。状態iに対応して平均値
μi、分散共分散行列Σiのガウス情報源が存在してい
る。302は情報源切り替えスイッチであって、301
のマルコフ連鎖の状態が何れであるかによって、該状態
に対応する前記ガウス情報源からの出力ベクトルを選択
し、観測ベクトルとして出力するものである。
図である。301は通常のマルコフ連鎖であって、qi
は第i番の状態を表している。状態iに対応して平均値
μi、分散共分散行列Σiのガウス情報源が存在してい
る。302は情報源切り替えスイッチであって、301
のマルコフ連鎖の状態が何れであるかによって、該状態
に対応する前記ガウス情報源からの出力ベクトルを選択
し、観測ベクトルとして出力するものである。
【0017】
【発明が解決しようとする課題】ところで、基本HMM
においては、モデルのパラメータaij,μi,Σi等は、多
数話者の多数の訓練パターンから"平均的な値"として推
定される。従って、個人差に基づくばらつきにより、そ
れぞれの音韻に対するスペクトルの広がりが大きくな
り、互いに異なった音韻間にスペクトルの重なりが生
じ、カテゴリ間の分離が困難となる場合がある。即ち、
例えば「和歌山」と言う単語と「岡山」と言う単語に対
して、話者Aの発声した「和歌山」に対する単語音声パ
ターンは、同じ話者Aの発声した「岡山」に対する単語
音声パターンとは明確に分離できても、話者Bの発声し
た「岡山」に対する単語音声パターンとは、両者が非常
に似通っていて分離が困難であると言う場合がある。
においては、モデルのパラメータaij,μi,Σi等は、多
数話者の多数の訓練パターンから"平均的な値"として推
定される。従って、個人差に基づくばらつきにより、そ
れぞれの音韻に対するスペクトルの広がりが大きくな
り、互いに異なった音韻間にスペクトルの重なりが生
じ、カテゴリ間の分離が困難となる場合がある。即ち、
例えば「和歌山」と言う単語と「岡山」と言う単語に対
して、話者Aの発声した「和歌山」に対する単語音声パ
ターンは、同じ話者Aの発声した「岡山」に対する単語
音声パターンとは明確に分離できても、話者Bの発声し
た「岡山」に対する単語音声パターンとは、両者が非常
に似通っていて分離が困難であると言う場合がある。
【0018】本発明は、この様な従来の音声認識処理な
どにおける話者間のスペクトルの曖昧性を排除して、不
特定話者に対する音声の認識率向上が可能な時系列信号
処理装置を提供することを目的とするものである。
どにおける話者間のスペクトルの曖昧性を排除して、不
特定話者に対する音声の認識率向上が可能な時系列信号
処理装置を提供することを目的とするものである。
【0019】
【課題を解決するための手段】本発明は、時点tにおけ
る観測ベクトルをy(t)とするとき、観測時系列信号Y
={y(t)}がクラス分けされるべき集合群{Sk}
(k=1,・・・,K)に対し、複数個の状態を有する隠れ
マルコフモデルの、それぞれの状態の初期確率と、それ
ぞれの状態間の遷移確率と、前記集合Sk,状態jに対
する観測ベクトルy(t)の条件付確率密度bjk(y(t))
を定めるパラメータとを記憶している隠れマルコフモデ
ル記憶手段を備えた時系列信号処理装置である。
る観測ベクトルをy(t)とするとき、観測時系列信号Y
={y(t)}がクラス分けされるべき集合群{Sk}
(k=1,・・・,K)に対し、複数個の状態を有する隠れ
マルコフモデルの、それぞれの状態の初期確率と、それ
ぞれの状態間の遷移確率と、前記集合Sk,状態jに対
する観測ベクトルy(t)の条件付確率密度bjk(y(t))
を定めるパラメータとを記憶している隠れマルコフモデ
ル記憶手段を備えた時系列信号処理装置である。
【0020】また本発明は、更に、その観測時系列Yの
集合群{Sk}のそれぞれの集合に対する帰属度{ck}
を求める帰属度算出手段と、前記モデルの状態jにおけ
る前記観測ベクトルy(t)の発生度合bj(y(t))を前
記条件付確率密度bjk(y(t))と前記帰属度{ck}に
基づいて算出するベクトル発生度合算出手段と、前記隠
れマルコフモデル記憶手段に記憶されている各状態の初
期確率と、それぞれの状態間の遷移確率と、前記bj(y
(t))とに基づいて前記観測時系列信号Yの発生度合を
算出する時系列信号発生度合算出手段とを備えた時系列
信号処理装置である。
集合群{Sk}のそれぞれの集合に対する帰属度{ck}
を求める帰属度算出手段と、前記モデルの状態jにおけ
る前記観測ベクトルy(t)の発生度合bj(y(t))を前
記条件付確率密度bjk(y(t))と前記帰属度{ck}に
基づいて算出するベクトル発生度合算出手段と、前記隠
れマルコフモデル記憶手段に記憶されている各状態の初
期確率と、それぞれの状態間の遷移確率と、前記bj(y
(t))とに基づいて前記観測時系列信号Yの発生度合を
算出する時系列信号発生度合算出手段とを備えた時系列
信号処理装置である。
【0021】
【作用】本発明では、時点tにおける観測ベクトルをy
(t)とするとき、観測時系列Y={y(1)}がクラス分
けされるべき集合群Sk(k=1,・・・,K)に対し、隠
れマルコフモデル記憶手段は、複数個の状態を有し、そ
れぞれの状態間の遷移確率と、前記集合Sk、状態jに
対するy(t)の条件付確率密度bjk(y(t))を定めるパ
ラメータとによって定められる隠れマルコフモデルを記
憶し、帰属度算出手段は、前記観測時系列Yの前記集合
群{Sk}のそれぞれの集合に対する帰属度{ck}を求
め、ベクトル発生度合算出手段は、前記ベクトルy(t)
の状態jにおける発生度合bj(y(t))を前記条件付確
率密度bjk(y(t))と前記帰属度算出手段の出力である
帰属度に基づいて計算し、該ベクトル発生度合算出手段
の結果と、前記記憶されている隠れマルコフモデルの初
期確率、遷移確率を用いて、該モデルからの前記時系列
Yの発生度合を算出するものである。
(t)とするとき、観測時系列Y={y(1)}がクラス分
けされるべき集合群Sk(k=1,・・・,K)に対し、隠
れマルコフモデル記憶手段は、複数個の状態を有し、そ
れぞれの状態間の遷移確率と、前記集合Sk、状態jに
対するy(t)の条件付確率密度bjk(y(t))を定めるパ
ラメータとによって定められる隠れマルコフモデルを記
憶し、帰属度算出手段は、前記観測時系列Yの前記集合
群{Sk}のそれぞれの集合に対する帰属度{ck}を求
め、ベクトル発生度合算出手段は、前記ベクトルy(t)
の状態jにおける発生度合bj(y(t))を前記条件付確
率密度bjk(y(t))と前記帰属度算出手段の出力である
帰属度に基づいて計算し、該ベクトル発生度合算出手段
の結果と、前記記憶されている隠れマルコフモデルの初
期確率、遷移確率を用いて、該モデルからの前記時系列
Yの発生度合を算出するものである。
【0022】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。
て説明する。
【0023】先ず、本発明の原理を説明する。声質や喋
り方の似た話者同士を集めれば、その話者クラス内で
は、話者性のばらつきに基づく前記カテゴリ間の混同は
生じにくくなると考えられる。ここに、クラスとは集
合、又はカテゴリであって、共通の性質を持つ集まりで
ある。
り方の似た話者同士を集めれば、その話者クラス内で
は、話者性のばらつきに基づく前記カテゴリ間の混同は
生じにくくなると考えられる。ここに、クラスとは集
合、又はカテゴリであって、共通の性質を持つ集まりで
ある。
【0024】そこで、通常のHMMでは、単語wに対応
するモデルの状態iに特徴ベクトル発生源は1つ仮定さ
れるが、本発明においては、単語wに対応するHMMの
状態iに、話者クラスk(=1,・・・,K)に対応したK
個の特徴ベクトル発生源を有する次のモデルを考える。
時点tにおいて選択される特徴ベクトル発生源をs(t)
とすれば、観測系列Y=(y(1),・・・y(K))に対応する特
徴ベクトル発生源系列S=(s(1),・・・,s(t),・・・,s
(T))の集合Aの要素数はKT種類となる。ここで、Sk
=(s(1)=k,・・・,s(T)=k)とおけば、K要素から
なる集合{S1,…,SK}はAの部分集合である。この部分
集合をBとするとき、本発明は、S∈Bとするものであ
る。
するモデルの状態iに特徴ベクトル発生源は1つ仮定さ
れるが、本発明においては、単語wに対応するHMMの
状態iに、話者クラスk(=1,・・・,K)に対応したK
個の特徴ベクトル発生源を有する次のモデルを考える。
時点tにおいて選択される特徴ベクトル発生源をs(t)
とすれば、観測系列Y=(y(1),・・・y(K))に対応する特
徴ベクトル発生源系列S=(s(1),・・・,s(t),・・・,s
(T))の集合Aの要素数はKT種類となる。ここで、Sk
=(s(1)=k,・・・,s(T)=k)とおけば、K要素から
なる集合{S1,…,SK}はAの部分集合である。この部分
集合をBとするとき、本発明は、S∈Bとするものであ
る。
【0025】図1は以上の考え方によるHMMの模式図
である。401は図19の301と同様なマルコフ連鎖
である。402は該マルコフ連鎖が何れの状態にあるか
によって入力を選択するスイッチであって、図19の3
02と同様のものである。403〜405は信号源切り
替えスイッチであって、状態iで定義されているK個の
ガウス情報源を切り替えるスイッチである。即ち、状態
iでは、平均ベクトルμi,k、分散共分散行列Σi,k
(k=1,・・・,K)のガウス情報源が存在し、前記信号切
り替えスイッチ403〜405により、c1,・・・,cKの
値に応じてそれら情報源からのベクトルが選ばれる。こ
こに、ckは話者クラスkと関連した量として定義さ
れ、例えば情報源切り替えスイッチ403〜405によ
って第k番のガウス情報源が接続される確率あるいは、
話者クラスkへの帰属度とすることが出来る。
である。401は図19の301と同様なマルコフ連鎖
である。402は該マルコフ連鎖が何れの状態にあるか
によって入力を選択するスイッチであって、図19の3
02と同様のものである。403〜405は信号源切り
替えスイッチであって、状態iで定義されているK個の
ガウス情報源を切り替えるスイッチである。即ち、状態
iでは、平均ベクトルμi,k、分散共分散行列Σi,k
(k=1,・・・,K)のガウス情報源が存在し、前記信号切
り替えスイッチ403〜405により、c1,・・・,cKの
値に応じてそれら情報源からのベクトルが選ばれる。こ
こに、ckは話者クラスkと関連した量として定義さ
れ、例えば情報源切り替えスイッチ403〜405によ
って第k番のガウス情報源が接続される確率あるいは、
話者クラスkへの帰属度とすることが出来る。
【0026】このように構成されたモデルλwにおける
特徴ベクトル系列Yの確率密度P(Y|λw)は(数14)
で与えられる。ここで、SkはX,λwとは独立であると
すれば、(数15)が成り立つ。πw iは状態iの初期確
率、aw ijは状態iから状態jへの遷移確率、ckは状態
iにおいて話者クラスkに対応する特徴ベクトル発生源
gi,kが選ばれる確率(ckは各状態で共通で、c1+・・・
+cK=1)、bw i,k(y(t))は、特徴ベクトル発生源g
i,kにおけるy(t)の発生確率密度である。このとき、
Skの生起確率は、P(Sk)=ck Tとなるが、ckはX,
λwとは独立に何等かの方法で事前に分かっているもの
とする。bw i,k(y(t))として単一の正規分布を考える
ときは,bw i,k(y(t))は(数16)で与えられる。
特徴ベクトル系列Yの確率密度P(Y|λw)は(数14)
で与えられる。ここで、SkはX,λwとは独立であると
すれば、(数15)が成り立つ。πw iは状態iの初期確
率、aw ijは状態iから状態jへの遷移確率、ckは状態
iにおいて話者クラスkに対応する特徴ベクトル発生源
gi,kが選ばれる確率(ckは各状態で共通で、c1+・・・
+cK=1)、bw i,k(y(t))は、特徴ベクトル発生源g
i,kにおけるy(t)の発生確率密度である。このとき、
Skの生起確率は、P(Sk)=ck Tとなるが、ckはX,
λwとは独立に何等かの方法で事前に分かっているもの
とする。bw i,k(y(t))として単一の正規分布を考える
ときは,bw i,k(y(t))は(数16)で与えられる。
【0027】
【数14】
【0028】
【数15】
【0029】
【数16】
【0030】HMMにおける主たる問題は、(1)モデ
ルの作成法と、(2)モデルの入力特徴ベクトルに対す
る尤度の計算法である。この問題(1)は、具体的に
は、多数の訓練パターンから各単語音声に対応するモデ
ルのパラメータを推定することである。
ルの作成法と、(2)モデルの入力特徴ベクトルに対す
る尤度の計算法である。この問題(1)は、具体的に
は、多数の訓練パターンから各単語音声に対応するモデ
ルのパラメータを推定することである。
【0031】単語wに対するパラメータの推定は次のよ
うにして行われる。表記の簡単化のために、以下の説明
においては、λは単語wに対するモデルのパラメータの
集合であるとし、右肩のwは省略する。
うにして行われる。表記の簡単化のために、以下の説明
においては、λは単語wに対するモデルのパラメータの
集合であるとし、右肩のwは省略する。
【0032】上記問題(1)は、単語wの単語音声から
単語wに対応するモデルのパラメータを推定することで
あるが、これは、訓練パターンとして与えられたYから
P(Y|λ)を最大にするパラメータλを見いだすことで
ある。実際には、wに対する複数の音声から推定する
が、先ず、単一の音声から推定する場合を述べる。
単語wに対応するモデルのパラメータを推定することで
あるが、これは、訓練パターンとして与えられたYから
P(Y|λ)を最大にするパラメータλを見いだすことで
ある。実際には、wに対する複数の音声から推定する
が、先ず、単一の音声から推定する場合を述べる。
【0033】(数17)とおくとき、Q(λ,λ')≧Q
(λ,λ)であれば、P(Y|λ')≧P(Y|λ)になることが
示される。故に、Q(λ,λ')がλ'に関して上に凸なら
ば、その極大点λ^が存在し、Q(λ,λ^)≧Q(λ,λ)で
あるから、P(Y|λ^)≧P(Y|λ)となる。従って、λ^
→λなる書替えを行い、同様な操作を繰り返せば、λは
P(Y|λ)の極大点に収束する。この方法はBaum-Welch
の方法と呼ばれる。
(λ,λ)であれば、P(Y|λ')≧P(Y|λ)になることが
示される。故に、Q(λ,λ')がλ'に関して上に凸なら
ば、その極大点λ^が存在し、Q(λ,λ^)≧Q(λ,λ)で
あるから、P(Y|λ^)≧P(Y|λ)となる。従って、λ^
→λなる書替えを行い、同様な操作を繰り返せば、λは
P(Y|λ)の極大点に収束する。この方法はBaum-Welch
の方法と呼ばれる。
【0034】
【数17】
【0035】本発明において、モデルのパラメータの推
定にBaum-Welchの方法を適用するときは次のようにな
る。
定にBaum-Welchの方法を適用するときは次のようにな
る。
【0036】いま、(数15)から(数18)が成り立
つから(数19)が得られる。これを用いて、各パラメ
ータの再推定式は次のように導かれる。
つから(数19)が得られる。これを用いて、各パラメ
ータの再推定式は次のように導かれる。
【0037】
【数18】
【0038】
【数19】
【0039】(1)右辺第一項をQ(π)とおき、これを
πi'について最大化する。すなわち、右辺第一項は(数
20)と書け、Lagrangeの未定乗数をηとし、(数2
0)をπi'で微分すれば、(数21)が得られる。(数
21)の両辺にπi'を掛けてi=1,・・・,Jについて足
し合わせれば、(数22)となり、(数23)が得られ
る。
πi'について最大化する。すなわち、右辺第一項は(数
20)と書け、Lagrangeの未定乗数をηとし、(数2
0)をπi'で微分すれば、(数21)が得られる。(数
21)の両辺にπi'を掛けてi=1,・・・,Jについて足
し合わせれば、(数22)となり、(数23)が得られ
る。
【0040】
【数20】
【0041】
【数21】
【0042】
【数22】
【0043】
【数23】
【0044】(2)右辺第二項をQ(a)とおき、これを
aij'について最大化する。すなわち、右辺第二項は
(数24)と書け、Lagrangeの未定乗数をηとし、(数
24)をaij'で微分すれば、(数25)が得られる。
(数25)の両辺にaij'を掛けて、jについて足し合
わせれば、(数26)となり、(数27)が得られる。
aij'について最大化する。すなわち、右辺第二項は
(数24)と書け、Lagrangeの未定乗数をηとし、(数
24)をaij'で微分すれば、(数25)が得られる。
(数25)の両辺にaij'を掛けて、jについて足し合
わせれば、(数26)となり、(数27)が得られる。
【0045】
【数24】
【0046】
【数25】
【0047】
【数26】
【0048】
【数27】
【0049】(3)右辺第四項をQ(μΣ)とおき、これ
をμi,k',Σi,k'について最大化する。右辺第四項は
(数28)と書けるから(数29)となる。故に(数3
0)が得られる。同様に(数31)から(数32)が得
られる。
をμi,k',Σi,k'について最大化する。右辺第四項は
(数28)と書けるから(数29)となる。故に(数3
0)が得られる。同様に(数31)から(数32)が得
られる。
【0050】
【数28】
【0051】
【数29】
【0052】
【数30】
【0053】
【数31】
【0054】
【数32】
【0055】前掲の式に出て来る量γ,ξ,ζは次のよ
うにして求められる。
うにして求められる。
【0056】(数33)と定義すれば、(数34)なる
漸化式が成り立つ。従って、λの初期値を与え、(数3
4)の漸化式の初期値を(数35)として逐次計算すれ
ば、i,tの種々の組合せに対するαi(t)、βi(t)が
順次求められる。ξ,ζ,γは(数36)のように定義
され、前記求められたα,βを用いて計算することが出
来る。
漸化式が成り立つ。従って、λの初期値を与え、(数3
4)の漸化式の初期値を(数35)として逐次計算すれ
ば、i,tの種々の組合せに対するαi(t)、βi(t)が
順次求められる。ξ,ζ,γは(数36)のように定義
され、前記求められたα,βを用いて計算することが出
来る。
【0057】
【数33】
【0058】
【数34】
【0059】
【数35】
【0060】
【数36】
【0061】実際には、λを推定すべき訓練パターンは
複数ある。各々をr=1,・・・,Rとし、第rの訓練パタ
ーンに関する量は右肩に(r)を付して記すことにする。
即ち、(数37)を定義する。このとき、前記補助関数
Q(λ,λ')に相当する関数QR(λ,λ')は(数38)の
ようになる。従って、第rの訓練パターンY(r)に対す
る補助関数を(数39)とおけば、(数40)が導かれ
る。このとき、各々の再推定式は(数41)のようにな
る。但し、z(r)=1/P(Y(r)|λ)とおいている。P
(Y(r)|λ)は、必ず、本実施例のマルコフモデルが状態
1から始まり、状態J+1で終わるものとすれば、(数
42)により求められる。
複数ある。各々をr=1,・・・,Rとし、第rの訓練パタ
ーンに関する量は右肩に(r)を付して記すことにする。
即ち、(数37)を定義する。このとき、前記補助関数
Q(λ,λ')に相当する関数QR(λ,λ')は(数38)の
ようになる。従って、第rの訓練パターンY(r)に対す
る補助関数を(数39)とおけば、(数40)が導かれ
る。このとき、各々の再推定式は(数41)のようにな
る。但し、z(r)=1/P(Y(r)|λ)とおいている。P
(Y(r)|λ)は、必ず、本実施例のマルコフモデルが状態
1から始まり、状態J+1で終わるものとすれば、(数
42)により求められる。
【0062】
【数37】
【0063】
【数38】
【0064】
【数39】
【0065】
【数40】
【0066】
【数41】
【0067】
【数42】
【0068】Y(r)に対するc(r) kは例えば次のように
して求められる。
して求められる。
【0069】訓練パターン集合w=1,・・・,Wに含まれ
る話者をA1,・・・,ANとする。 1)話者Anの発声した全ての単語、全てのフレームの
平均スペクトル(ベクトル)vn(n=1,・・・,N)を求
める。 2)v1,・・・,vNをK個のグループにクラスタリング
し、クラスタk(=1,・・・,K)の平均ベクトルukを求
める。クラスタkを話者クラスkとする。 3)パターンY(r)=(y(r)(1),・・・,y(r)(T(r)))
に対して、平均ベクトルを求める(数43)。 4)k=1,・・・,Kについてc(r) kを求める(数4
4)。
る話者をA1,・・・,ANとする。 1)話者Anの発声した全ての単語、全てのフレームの
平均スペクトル(ベクトル)vn(n=1,・・・,N)を求
める。 2)v1,・・・,vNをK個のグループにクラスタリング
し、クラスタk(=1,・・・,K)の平均ベクトルukを求
める。クラスタkを話者クラスkとする。 3)パターンY(r)=(y(r)(1),・・・,y(r)(T(r)))
に対して、平均ベクトルを求める(数43)。 4)k=1,・・・,Kについてc(r) kを求める(数4
4)。
【0070】
【数43】
【0071】
【数44】
【0072】ステップ2)におけるクラスタリングは、
種々の方法が考えられる。例えば、L-B-G法として知
られるベクトル量子化の方法などが可能である。また、
ファジィクラスタリング等の方法によりクラスタリング
して、c(r) kをクラスkに対するメンバーシップ値とす
ること等も考えられる。(数44)は帰属度の算出法の
一例である。同式においてd(u,v)はベクトルuとベ
クトルvとの距離、F>1はファジネスと呼ばれる。F
→1のときは、k^=argmink d(y^(r),uk)とすると
き、c(r) k^→1、c(r) k→0(for k≠k^)であり、F
→∞のときは、c(r) k=1/K(for all k)となる。
言い換えれば、F→1のときは、y^(r)はそれに最も近
いクラスへの帰属度が1で最大で、他のクラスへの帰属
度は0となり、またファジネスは最小となり、他方F→
∞のときは、y^(r)は全てのクラスへの帰属度が等しく
1/Kとなり、ファジネスは最大となる。d(u,v)は
ユークリッド距離あるいは重み付ユークリッド距離等が
用いられ得る。クラスタリングの方法自体は本願発明の
目的ではないので詳細は省略する。
種々の方法が考えられる。例えば、L-B-G法として知
られるベクトル量子化の方法などが可能である。また、
ファジィクラスタリング等の方法によりクラスタリング
して、c(r) kをクラスkに対するメンバーシップ値とす
ること等も考えられる。(数44)は帰属度の算出法の
一例である。同式においてd(u,v)はベクトルuとベ
クトルvとの距離、F>1はファジネスと呼ばれる。F
→1のときは、k^=argmink d(y^(r),uk)とすると
き、c(r) k^→1、c(r) k→0(for k≠k^)であり、F
→∞のときは、c(r) k=1/K(for all k)となる。
言い換えれば、F→1のときは、y^(r)はそれに最も近
いクラスへの帰属度が1で最大で、他のクラスへの帰属
度は0となり、またファジネスは最小となり、他方F→
∞のときは、y^(r)は全てのクラスへの帰属度が等しく
1/Kとなり、ファジネスは最大となる。d(u,v)は
ユークリッド距離あるいは重み付ユークリッド距離等が
用いられ得る。クラスタリングの方法自体は本願発明の
目的ではないので詳細は省略する。
【0073】従って、パラメータの推定方法は次のステ
ップにより行われる。 1)λの初期値の設定 2)c(r) kをr=1,・・・,R、k=1,・・・,Kについて求
める。 3)α,β,ξ,ζ,γ,z等をr=1,・・・,R、i,j
=1,・・・,J+1、t=1,・・・,T(r)+1について求め
る。 4)λの推定 λ^={π^i,a^ij,μ^i,Σ^i} をi=1,・・・,J、j
=1,・・・,J+1について求める(数41)。 5)収束条件が満足されれば終了。そうでなければ、λ
^→λとして3)へ戻る。
ップにより行われる。 1)λの初期値の設定 2)c(r) kをr=1,・・・,R、k=1,・・・,Kについて求
める。 3)α,β,ξ,ζ,γ,z等をr=1,・・・,R、i,j
=1,・・・,J+1、t=1,・・・,T(r)+1について求め
る。 4)λの推定 λ^={π^i,a^ij,μ^i,Σ^i} をi=1,・・・,J、j
=1,・・・,J+1について求める(数41)。 5)収束条件が満足されれば終了。そうでなければ、λ
^→λとして3)へ戻る。
【0074】また、c(r) kはkに関して上位1≦n≦K
まで考慮し、他は0とすることもできる。この場合は、
上位nに入るkをdnで表せば、上記α,β,ξ,ζ,
γ,zの計算におけるkに関する総和は、d1,・・・,dn
について行うことになる。特に、n=1のときは、c
(r) kがk=k^のとき最大になるとするとき、(数4
5)と簡略化することもできる。このときは、(数3
7)におけるα,βを算出する漸化式において、Σkc
(r) kbi,k(y(t))は、(数46)となる。
まで考慮し、他は0とすることもできる。この場合は、
上位nに入るkをdnで表せば、上記α,β,ξ,ζ,
γ,zの計算におけるkに関する総和は、d1,・・・,dn
について行うことになる。特に、n=1のときは、c
(r) kがk=k^のとき最大になるとするとき、(数4
5)と簡略化することもできる。このときは、(数3
7)におけるα,βを算出する漸化式において、Σkc
(r) kbi,k(y(t))は、(数46)となる。
【0075】
【数45】
【0076】
【数46】
【0077】次に、上述した問題(2)に付いて説明す
る。すなわち、このモデルを用いた認識方法について説
明する。 (1)Forward-Backwardによる場合 これは、いわゆる厳密解であって、Yのλに対する尤度
をL(Y,λ)とおき、(数47)で定義する場合であ
る。
る。すなわち、このモデルを用いた認識方法について説
明する。 (1)Forward-Backwardによる場合 これは、いわゆる厳密解であって、Yのλに対する尤度
をL(Y,λ)とおき、(数47)で定義する場合であ
る。
【0078】1−1 1.k=1,・・・,KについてYからckを決める 2.w=1,・・・,Wについて、次のステップ3,4を実
行 3.t=1,・・・,T,j=1,・・・,J+1について漸化式
(数48)を計算する。
行 3.t=1,・・・,T,j=1,・・・,J+1について漸化式
(数48)を計算する。
【0079】4.Yのモデルλwに対する尤度を記憶す
る(数49)。
る(数49)。
【0080】5.認識結果は(数50)で与えられる。
【0081】
【数47】
【0082】
【数48】
【0083】
【数49】
【0084】
【数50】
【0085】1−2 1.k=1,・・・,KについてYから(数51)を求め
る。
る。
【0086】2.w=1,・・・,Wについてステップ3,
4を実行する。
4を実行する。
【0087】3.t=1,・・・,T,j=1,・・・,J+1に
ついてk=d1,・・・,dnとして漸化式(数48)を計算
する。
ついてk=d1,・・・,dnとして漸化式(数48)を計算
する。
【0088】4.Yのモデルλwに対する尤度を記憶す
る(数49)。
る(数49)。
【0089】5.認識結果は(数50)で与えられる。
【0090】
【数51】
【0091】ここで、特にn=1とすれば、次のように
なる。 1−3 1.k=1,・・・,KについてYからk^= argmax
k[ck]を求める。
なる。 1−3 1.k=1,・・・,KについてYからk^= argmax
k[ck]を求める。
【0092】2.w=1,・・・,Wについてステップ3,
4を実行する。
4を実行する。
【0093】3.t=1,・・・,T,j=1,・・・,J+1に
ついて(数52)の漸化式を計算する。
ついて(数52)の漸化式を計算する。
【0094】4.Yの、モデルλwに対する尤度を記憶
する(数53)。
する(数53)。
【0095】5.認識結果は(数54)で与えられる。
【0096】
【数52】
【0097】
【数53】
【0098】
【数54】
【0099】(2)Viterbiによる場合 この場合は、いわゆる近似解であって、Yのλに対する
尤度をL(Y,λ)とおき、(数55)で定義する場合で
ある。
尤度をL(Y,λ)とおき、(数55)で定義する場合で
ある。
【0100】
【数55】
【0101】2−1 1.k=1,・・・,KについてYからckを決める。
【0102】2.w=1,・・・,Wについてステップ3,
4を実行する。
4を実行する。
【0103】3.t=1,・・・,T,j=1,・・・,J+1に
ついて(数56)の漸化式を計算する。
ついて(数56)の漸化式を計算する。
【0104】4.Yのモデルλwに対する尤度を記憶す
る(数57)。
る(数57)。
【0105】5.認識結果は(数58)で与えられる。
【0106】
【数56】
【0107】
【数57】
【0108】
【数58】
【0109】2−2 1.k=1,・・・,KについてYから(数59)を求め
る。
る。
【0110】2.w=1,・・・,Wについてステップ3,
4を実行する。
4を実行する。
【0111】3.t=1,・・・,T,j=1,・・・,J+1に
ついてk=d1,・・・,dnとして漸化式(数56)を計算
する。
ついてk=d1,・・・,dnとして漸化式(数56)を計算
する。
【0112】4.Yのモデルλwに対する尤度を記憶す
る(数57)。
る(数57)。
【0113】5.認識結果は(数58)で与えられる。
【0114】
【数59】
【0115】ここで、特にn=1とすれば、次のように
なる。
なる。
【0116】2−3 1.k=1,・・・,KについてYからk^= argmax
k[ck]を求める。
k[ck]を求める。
【0117】2.w=1,・・・,Wについてステップ3,
4を実行する。
4を実行する。
【0118】3.t=1,・・・,T,j=1,・・・,J+1に
ついて(数60)の漸化式を計算する。
ついて(数60)の漸化式を計算する。
【0119】4.Yの、モデルλwに対する尤度を記憶
する(数61)。
する(数61)。
【0120】5.認識結果は(数62)で与えられる。
【0121】
【数60】
【0122】
【数61】
【0123】
【数62】
【0124】本発明によるHMMのパラメータの推定を
このViterbiアルゴリズムにより行うことももちろん可
能であって、その場合の推定式は次のようになる。
このViterbiアルゴリズムにより行うことももちろん可
能であって、その場合の推定式は次のようになる。
【0125】適当にλの初期値を定めて、Y(r)に対す
る最適の状態系列を求める。このとき、(数37)にお
ける前記ξ,ζ,γを(数63)のξ',ζ',γ'のように
書き換えることによって再推定式が得られる。
る最適の状態系列を求める。このとき、(数37)にお
ける前記ξ,ζ,γを(数63)のξ',ζ',γ'のように
書き換えることによって再推定式が得られる。
【0126】
【数63】
【0127】ここで,δ(m,n)はいわゆるクロネッカ
ーのデルタであって,m=nのときはδ(m,n)=1,
m≠nのときはδ(m,n)=0である。また、x^
(r)(1),・・・,x^(r)(T+1)はこのようにして得られた
最適状態系列である。(数37)のξ,ζ,γは状態系列
としてあらゆる可能性をその生起確率付きで考慮してい
るが,生起する状態系列をX^(r)1つに限り,X^(r)の
生起確率は1でその他の状態系列の生起確率は0である
とすれば,(数37)のξ,ζ,γは(数63)のξ',
ζ',γ'で表現される。このとき,各パラメータの再推
定式は(数64)のようになる。ただし,n(r) iは訓練
パターンrの最適状態系列X(r)における状態iの数で
あり,n(r) ijは訓練パターンrの最適状態系列X(r)に
おける状態iから状態jへの遷移の回数、m(r) iは状態
iに対応する観測特徴ベクトルy(r)(t)の総和、v(r)
i,kは状態i、話者クラスkに対応する{y(r)(t)−μ
i,k}{y(r)(t)−μi,k}Tの総和である。
ーのデルタであって,m=nのときはδ(m,n)=1,
m≠nのときはδ(m,n)=0である。また、x^
(r)(1),・・・,x^(r)(T+1)はこのようにして得られた
最適状態系列である。(数37)のξ,ζ,γは状態系列
としてあらゆる可能性をその生起確率付きで考慮してい
るが,生起する状態系列をX^(r)1つに限り,X^(r)の
生起確率は1でその他の状態系列の生起確率は0である
とすれば,(数37)のξ,ζ,γは(数63)のξ',
ζ',γ'で表現される。このとき,各パラメータの再推
定式は(数64)のようになる。ただし,n(r) iは訓練
パターンrの最適状態系列X(r)における状態iの数で
あり,n(r) ijは訓練パターンrの最適状態系列X(r)に
おける状態iから状態jへの遷移の回数、m(r) iは状態
iに対応する観測特徴ベクトルy(r)(t)の総和、v(r)
i,kは状態i、話者クラスkに対応する{y(r)(t)−μ
i,k}{y(r)(t)−μi,k}Tの総和である。
【0128】
【数64】
【0129】以上のことから,Viterbi法によるパラメ
ータの推定は,次のステップによって可能である。 1)λの初期値の設定 2)c(r) kをr=1,・・・,R、k=1,・・・,Kについて求
める。 3)r=1,・・・,R、i,j=1,・・・,J+1、t=1,・・
・,T(r)+1について漸化式(数56)を計算する。 4)r=1,・・・,R、i,j=1,・・・,J+1、t=1,・・
・,T(r)+1,k=1,・・・,Kについてm(r) i,
v(r) i,k,n(r) ij,n(r) iを求める。 5)λの推定 (数64)によってλ^={π^i,a^ij,μ^i,k,Σ^
i,k} をi=1,・・・,J、j=1,・・・,J+1,k=1,・・
・,Kについて求める。 6)収束条件が満足されれば終了。そうでなければ、λ^
→λとして3)へ戻る。
ータの推定は,次のステップによって可能である。 1)λの初期値の設定 2)c(r) kをr=1,・・・,R、k=1,・・・,Kについて求
める。 3)r=1,・・・,R、i,j=1,・・・,J+1、t=1,・・
・,T(r)+1について漸化式(数56)を計算する。 4)r=1,・・・,R、i,j=1,・・・,J+1、t=1,・・
・,T(r)+1,k=1,・・・,Kについてm(r) i,
v(r) i,k,n(r) ij,n(r) iを求める。 5)λの推定 (数64)によってλ^={π^i,a^ij,μ^i,k,Σ^
i,k} をi=1,・・・,J、j=1,・・・,J+1,k=1,・・
・,Kについて求める。 6)収束条件が満足されれば終了。そうでなければ、λ^
→λとして3)へ戻る。
【0130】また、c(r) kはk=k^のとき最大になる
とするとき、(数52)と簡略化することもできる。こ
のときは、漸化式(数56)において(数46)とな
る。
とするとき、(数52)と簡略化することもできる。こ
のときは、漸化式(数56)において(数46)とな
る。
【0131】ステップ4)は次のように計算できる。
【0132】ステップ3)において(数56)を計算す
るとき、新たなφ(r) j(t)を計算する毎に同時に(数6
5)の値G(r) j(t),B(r) j(t)を記憶する。ただし、
i^は前記漸化式を満足するiであって,j=1,・・・,
J,r=1,・・・,Rに対して,B(r) j(0)=0である。
るとき、新たなφ(r) j(t)を計算する毎に同時に(数6
5)の値G(r) j(t),B(r) j(t)を記憶する。ただし、
i^は前記漸化式を満足するiであって,j=1,・・・,
J,r=1,・・・,Rに対して,B(r) j(0)=0である。
【0133】
【数65】
【0134】この記憶された値G(r) j(t)、B(r) j(t)
から次のようにして、ステップ4)の諸量が計算でき
る。 4−1)t^=T(r),i^=J 4−2)t=t^、i=i^ 4−3)B(r) i(t)=0であれば終了。そうでなければ
以下を実行。 4−4)i^=G(r) i(t),t^=B(r) i(t) 4−5)r=1,・・・,Rについて(数66)を計算して
ステップ4−2)に戻る。
から次のようにして、ステップ4)の諸量が計算でき
る。 4−1)t^=T(r),i^=J 4−2)t=t^、i=i^ 4−3)B(r) i(t)=0であれば終了。そうでなければ
以下を実行。 4−4)i^=G(r) i(t),t^=B(r) i(t) 4−5)r=1,・・・,Rについて(数66)を計算して
ステップ4−2)に戻る。
【0135】
【数66】
【0136】Viterbi法によるパラメータの推定におい
ても、Forward-Backward法の場合と同様に、c(r) kをk
のすべてについて考慮する場合、上位nまでのkについ
て考慮する場合、最大値を与えるkについてのみ考慮す
る場合などは勿論可能である。即ち、前記ステップ3に
おける漸化式の計算において、kに関して総和をとる計
算がそれぞれに応じてk=1,・・・,Kについて行う、k
=d1,・・・,dnについて行う、k=k^=d1の何れかに
ついて行うことになる。
ても、Forward-Backward法の場合と同様に、c(r) kをk
のすべてについて考慮する場合、上位nまでのkについ
て考慮する場合、最大値を与えるkについてのみ考慮す
る場合などは勿論可能である。即ち、前記ステップ3に
おける漸化式の計算において、kに関して総和をとる計
算がそれぞれに応じてk=1,・・・,Kについて行う、k
=d1,・・・,dnについて行う、k=k^=d1の何れかに
ついて行うことになる。
【0137】以上の原理に基づく本発明の一実施例につ
いて説明する。
いて説明する。
【0138】図2(a)はパラメータ推定装置のブロッ
ク図、同図(b)はその要部のブロック図である。
ク図、同図(b)はその要部のブロック図である。
【0139】501は訓練パターン記憶部であって、単
語wに対応する特徴ベクトル系列で表されたR通りのパ
ターンY(1),・・・,Y(R)が記憶されている。502はパ
ラメータ記憶部であって、パラメータ推定の開始に当た
っては初期値が、推定の途中にあっては中間結果が、最
終的には推定値が記憶される。503は話者クラス帰属
度算出部であって、各Y(r)の各話者クラスへの帰属度
を算出する。504はパラメータ推定部であって、訓練
パターン記憶部501とパラメータ記憶部502の内容
を読み出し、各々のパラメータの再推定値を計算する。
計算された再推定値はパラメータ記憶部502に記憶さ
れる。505は尤度算出部であって、m回の反復計算の
結果得られるY(1)・・・Y(R)のモデルに対する尤度L
(m)を計算する。506は収束性判定部であって、L
(m−1)に対するL(m)の改善度等を尺度として収束し
たと見なすかどうかを決定する。例えば、適当に小さな
数εを予め定めておき、{L(m)−L(m−1)}/L(m)
<εとなった時点を以て収束したとすることが出来る。
収束していないと判定されたときは、パラメータ記憶部
502の更新されたパラメータを基に更に上記の再推定
計算が反復される。
語wに対応する特徴ベクトル系列で表されたR通りのパ
ターンY(1),・・・,Y(R)が記憶されている。502はパ
ラメータ記憶部であって、パラメータ推定の開始に当た
っては初期値が、推定の途中にあっては中間結果が、最
終的には推定値が記憶される。503は話者クラス帰属
度算出部であって、各Y(r)の各話者クラスへの帰属度
を算出する。504はパラメータ推定部であって、訓練
パターン記憶部501とパラメータ記憶部502の内容
を読み出し、各々のパラメータの再推定値を計算する。
計算された再推定値はパラメータ記憶部502に記憶さ
れる。505は尤度算出部であって、m回の反復計算の
結果得られるY(1)・・・Y(R)のモデルに対する尤度L
(m)を計算する。506は収束性判定部であって、L
(m−1)に対するL(m)の改善度等を尺度として収束し
たと見なすかどうかを決定する。例えば、適当に小さな
数εを予め定めておき、{L(m)−L(m−1)}/L(m)
<εとなった時点を以て収束したとすることが出来る。
収束していないと判定されたときは、パラメータ記憶部
502の更新されたパラメータを基に更に上記の再推定
計算が反復される。
【0140】図2(b)は図2(a)のパラメータ推定
部504の第一の実施例の詳細ブロック図である。c
(r) kはパターンY(r)が話者クラスkに属する帰属度で
ある。507は確率密度算出部であって、状態iにおけ
る特徴ベクトルy(r)(t)の確率密度bi(y(r)(t))を
前記c(r) 1,・・・,c(r) Kとパラメータ記憶部502から
のパラメータ値を用いて計算する。508は中間累積尤
度算出部であって、前記α,β,ξ,ζ,γ,zを前記
確率密度bi(y(r)(t)),パラメータ記憶部502から
のパラメータ値を用いて(数37)に従って計算する。
509はパラメータ再推定値算出部であって、前記α,
β,ξ,ζ,γ,zから(数41)に従ってパラメータ
λの再推定値λ^を計算する。
部504の第一の実施例の詳細ブロック図である。c
(r) kはパターンY(r)が話者クラスkに属する帰属度で
ある。507は確率密度算出部であって、状態iにおけ
る特徴ベクトルy(r)(t)の確率密度bi(y(r)(t))を
前記c(r) 1,・・・,c(r) Kとパラメータ記憶部502から
のパラメータ値を用いて計算する。508は中間累積尤
度算出部であって、前記α,β,ξ,ζ,γ,zを前記
確率密度bi(y(r)(t)),パラメータ記憶部502から
のパラメータ値を用いて(数37)に従って計算する。
509はパラメータ再推定値算出部であって、前記α,
β,ξ,ζ,γ,zから(数41)に従ってパラメータ
λの再推定値λ^を計算する。
【0141】図3は図2における話者クラス帰属度算出
部503の第一の実施例の詳細ブロック図である。
(a)は入力時系列Y(r)の話者クラスkへの帰属度c
(r) kをk=1,・・・,Kの全てについて求める場合であ
る。601は話者モデル記憶部であって、各話者クラス
に対応するモデルが記憶されている。(数43)、(数
44)によって帰属度を求める場合は、このモデルは各
話者クラスに含まれる訓練ベクトルの平均ベクトルとい
うことになる。602は帰属度算出部であって、k=
1,・・・,Kの全てにわたって、(数44)に従ってc(r)
kを求めるものである。
部503の第一の実施例の詳細ブロック図である。
(a)は入力時系列Y(r)の話者クラスkへの帰属度c
(r) kをk=1,・・・,Kの全てについて求める場合であ
る。601は話者モデル記憶部であって、各話者クラス
に対応するモデルが記憶されている。(数43)、(数
44)によって帰属度を求める場合は、このモデルは各
話者クラスに含まれる訓練ベクトルの平均ベクトルとい
うことになる。602は帰属度算出部であって、k=
1,・・・,Kの全てにわたって、(数44)に従ってc(r)
kを求めるものである。
【0142】図3(b)は他の実施例であって、入力時
系列Y(r)の話者クラスkへの帰属度c(r) kをk=1,・・
・,Kの中、上位nまでの話者クラスについてはc(r) kを
そのまま、もしくはその総和が1になるように正規化し
た値を採用し、他の話者クラスについては、c(r) kを0
とおくものである。同図において、d1,・・・,dnは帰属
度が上位nに入る話者クラスの番号である。601、6
02は同図(a)と同じものである。603はn近傍話
者クラス判定部であって、前記d1,・・・,dnを求めるも
のである。604はゲートであって、前記d1,・・・,dn
に対応するkについてはc(r) kをそのまま、もしくはそ
の総和が1になるように正規化したものを通過させ、そ
れ以外のkについては、帰属度0が出力されるようにな
すものである。n近傍話者クラス判定部603において
は、c(r) kの値を用いても勿論よいが、(数44)を用
いるときは、d(y^(r),uk)をk=1,・・・,Kについて
比較し、その小さい方からn選んでも同じことである。
従って、帰属度算出部602における計算も、この場合
はkの全てについて計算する必要はなく、d(y^(r),u
k)の小さい方から選んだ前記nについて(数44)を計
算し、他のkについては、c(r) k=0とおけばよい。図
3(b')はその場合である。601は前記と同じもの
である。605は距離算出部であって、y^(r)とu1,・・
・,uKとの距離d(y^(r),u1),・・・,d(y^(r),uK)を計
算するものである。606はn近傍話者クラス判定部で
あって、d(y^(r),u1),・・・,d(y^(r),uK)の小さい
ものから順にn個選出し、それらに対応する話者クラス
番号d1,・・・,dnを出力する。607は帰属度算出部で
あって、k=d1,・・・,dnについてc(r) kを計算し、他
のkについてはc(r) k=0を出力するものである。この
とき、(数44)においてk=d1,・・・,dn以外の話者
クラスについては、1/d(y^(r),uk)=0とおくこと
によって、c(r) kのkについての総和を1に正規化した
計算が出来る。このときは、k=d1,・・・,dnについて
のみ(数44)の計算をすればよいから、計算量の削減
も同時に可能である。
系列Y(r)の話者クラスkへの帰属度c(r) kをk=1,・・
・,Kの中、上位nまでの話者クラスについてはc(r) kを
そのまま、もしくはその総和が1になるように正規化し
た値を採用し、他の話者クラスについては、c(r) kを0
とおくものである。同図において、d1,・・・,dnは帰属
度が上位nに入る話者クラスの番号である。601、6
02は同図(a)と同じものである。603はn近傍話
者クラス判定部であって、前記d1,・・・,dnを求めるも
のである。604はゲートであって、前記d1,・・・,dn
に対応するkについてはc(r) kをそのまま、もしくはそ
の総和が1になるように正規化したものを通過させ、そ
れ以外のkについては、帰属度0が出力されるようにな
すものである。n近傍話者クラス判定部603において
は、c(r) kの値を用いても勿論よいが、(数44)を用
いるときは、d(y^(r),uk)をk=1,・・・,Kについて
比較し、その小さい方からn選んでも同じことである。
従って、帰属度算出部602における計算も、この場合
はkの全てについて計算する必要はなく、d(y^(r),u
k)の小さい方から選んだ前記nについて(数44)を計
算し、他のkについては、c(r) k=0とおけばよい。図
3(b')はその場合である。601は前記と同じもの
である。605は距離算出部であって、y^(r)とu1,・・
・,uKとの距離d(y^(r),u1),・・・,d(y^(r),uK)を計
算するものである。606はn近傍話者クラス判定部で
あって、d(y^(r),u1),・・・,d(y^(r),uK)の小さい
ものから順にn個選出し、それらに対応する話者クラス
番号d1,・・・,dnを出力する。607は帰属度算出部で
あって、k=d1,・・・,dnについてc(r) kを計算し、他
のkについてはc(r) k=0を出力するものである。この
とき、(数44)においてk=d1,・・・,dn以外の話者
クラスについては、1/d(y^(r),uk)=0とおくこと
によって、c(r) kのkについての総和を1に正規化した
計算が出来る。このときは、k=d1,・・・,dnについて
のみ(数44)の計算をすればよいから、計算量の削減
も同時に可能である。
【0143】図3(c)は更に他の実施例であって、入
力時系列Y(r)の話者クラスkへの帰属度c(r) kをk=
1,・・・,Kの中、帰属度最大の話者クラスについてはc
(r) k=1とし、他のクラスについては、c(r) kを0とお
くものである。同図において、k^は帰属度が最大にな
る話者クラスの番号である。601、602は同図
(a)と同じものである。608は最近隣話者クラス判
定部であって、前記k^を求めるものである。609は
ゲートであって、前記k^に対応するkについては1を
出力し、それ以外のkについては、帰属度0が出力され
るようになすものである。最近隣話者クラス判定部60
8においては、c(r) kの値を用いても勿論よいが、(数
44)を用いるときは、d(y^(r),uk)をk=1,・・・,
Kについて比較し、その最小のものを選んでも同じこと
である。従って、帰属度算出部611における計算も、
この場合はkの全てについて計算する必要はなく、d
(y^(r),uk)の最小値を与えるkをk^として求め、c
(r) k^=1、他のkについてはc(r) k=0とおけばよ
い。(c')はその場合である。601、605は前記
と同じものである。610は最近隣話者クラス判定部で
あって、d(y^(r),u1),・・・,d(y^(r),uK)の最小値
を見つけ、それに対応する話者クラス番号k^を出力す
る。611は帰属度算出部であって、c(r) k^=1、他
のkについてはc(r) k=0を出力するものである。
力時系列Y(r)の話者クラスkへの帰属度c(r) kをk=
1,・・・,Kの中、帰属度最大の話者クラスについてはc
(r) k=1とし、他のクラスについては、c(r) kを0とお
くものである。同図において、k^は帰属度が最大にな
る話者クラスの番号である。601、602は同図
(a)と同じものである。608は最近隣話者クラス判
定部であって、前記k^を求めるものである。609は
ゲートであって、前記k^に対応するkについては1を
出力し、それ以外のkについては、帰属度0が出力され
るようになすものである。最近隣話者クラス判定部60
8においては、c(r) kの値を用いても勿論よいが、(数
44)を用いるときは、d(y^(r),uk)をk=1,・・・,
Kについて比較し、その最小のものを選んでも同じこと
である。従って、帰属度算出部611における計算も、
この場合はkの全てについて計算する必要はなく、d
(y^(r),uk)の最小値を与えるkをk^として求め、c
(r) k^=1、他のkについてはc(r) k=0とおけばよ
い。(c')はその場合である。601、605は前記
と同じものである。610は最近隣話者クラス判定部で
あって、d(y^(r),u1),・・・,d(y^(r),uK)の最小値
を見つけ、それに対応する話者クラス番号k^を出力す
る。611は帰属度算出部であって、c(r) k^=1、他
のkについてはc(r) k=0を出力するものである。
【0144】図4は図2の確率密度算出部507の第一
の実施例の詳細を示すブロック図である。701〜70
3は各々の状態における各々のガウス情報源から特徴ベ
クトルy(r)(t)の出現する確率密度を計算するもので
ある。即ち、y(r)(t)の状態i、ガウス情報源kに対
する確率密度は、bi,k(y(r)(t))である。704〜7
12は乗算器であって、各ガウス情報源に対して計算さ
れた確率密度値に前記話者クラス帰属度c(r) 1,・・・,c
(r) Kを掛け算する。713〜715は加算器であって、
各状態毎に前記乗算器の出力の和をとる。例えば、状態
iの各加算器の出力には、bi,1(y(r)(t)),・・・,bi,K
(y(r)(t))の前記話者クラス帰属度c(r) 1,・・・,c(r) K
による荷重和bi(y(r)(t))=c(r) 1bi,1(y(r)(t))
+・・・+c(r) Kbi,K(y(r)(t))が得られる。
の実施例の詳細を示すブロック図である。701〜70
3は各々の状態における各々のガウス情報源から特徴ベ
クトルy(r)(t)の出現する確率密度を計算するもので
ある。即ち、y(r)(t)の状態i、ガウス情報源kに対
する確率密度は、bi,k(y(r)(t))である。704〜7
12は乗算器であって、各ガウス情報源に対して計算さ
れた確率密度値に前記話者クラス帰属度c(r) 1,・・・,c
(r) Kを掛け算する。713〜715は加算器であって、
各状態毎に前記乗算器の出力の和をとる。例えば、状態
iの各加算器の出力には、bi,1(y(r)(t)),・・・,bi,K
(y(r)(t))の前記話者クラス帰属度c(r) 1,・・・,c(r) K
による荷重和bi(y(r)(t))=c(r) 1bi,1(y(r)(t))
+・・・+c(r) Kbi,K(y(r)(t))が得られる。
【0145】図5は図2の確率密度算出部507の第二
の実施例の詳細を示すブロック図である。図5の801
〜806はそれぞれ図4で説明した701〜703,7
13〜715と同様の動作をする。ただし、801〜8
03はc(r) k=0以外のkに関してのみc(r) kbi,k(y
(r)(t))が計算され、他のbi,k(y(r)(t))は0とされ
るものである。特に、c(r) kが最大になるものを帰属度
1とし、他は帰属度0とする前記方式の場合は、bi(y
(r)(t))=bi,k^(y(r)(t))となる。このようにする
ことの利点は、状態iにおいて、bi,k(y(r)(t))の計
算をk=1,・・・,Kの全てについて行う必要はなく、b
i,k^(y(r)(t))についてのみ行えば良いということで
ある。
の実施例の詳細を示すブロック図である。図5の801
〜806はそれぞれ図4で説明した701〜703,7
13〜715と同様の動作をする。ただし、801〜8
03はc(r) k=0以外のkに関してのみc(r) kbi,k(y
(r)(t))が計算され、他のbi,k(y(r)(t))は0とされ
るものである。特に、c(r) kが最大になるものを帰属度
1とし、他は帰属度0とする前記方式の場合は、bi(y
(r)(t))=bi,k^(y(r)(t))となる。このようにする
ことの利点は、状態iにおいて、bi,k(y(r)(t))の計
算をk=1,・・・,Kの全てについて行う必要はなく、b
i,k^(y(r)(t))についてのみ行えば良いということで
ある。
【0146】図6は図2(a)のパラメータ推定部50
4の第二の実施例の詳細ブロック図である。901は確
率密度算出部であって、図2(b)の507と同様のも
のである。902は漸化式計算部であって、前記ξ',
ζ',γ',n,m,vを前記確率密度bi(y(r)(t)),
パラメータ記憶部からのパラメータ値λを用いて(数5
6)、(数63)、(数65)、(数66)等に従って
計算する。903はパラメータ再推定値算出部であっ
て、前記ξ',ζ',γ',n,m,vから(数64)に
従ってパラメータλの再推定値λ^を計算する。
4の第二の実施例の詳細ブロック図である。901は確
率密度算出部であって、図2(b)の507と同様のも
のである。902は漸化式計算部であって、前記ξ',
ζ',γ',n,m,vを前記確率密度bi(y(r)(t)),
パラメータ記憶部からのパラメータ値λを用いて(数5
6)、(数63)、(数65)、(数66)等に従って
計算する。903はパラメータ再推定値算出部であっ
て、前記ξ',ζ',γ',n,m,vから(数64)に
従ってパラメータλの再推定値λ^を計算する。
【0147】図7は図2(a)の尤度算出部505の一
実施例であって、同図(a)は(数67)あるいはその
対数値などを計算する場合である。1001は確率密度
算出部であって、図4あるいは図5に示されるものが用
いられ得る。1002は累積尤度算出部であって、前記
Lに相当する値を計算する。例えば、既に説明したよう
に、P(Y(r)|λ^)=α(r) J+1(T(r)+1)とすることが
出来る。図7(b)はLを(数68)として算出するも
のである。1003は確率密度算出部であって、前記1
001と全く同様のものである。1004は漸化式計算
部であって、図6の漸化式計算部902と同様な操作を
行い、例えば、L=φ(1) J+1(T(1)+1)+・・・+φ(R)
J+1(T(R)+1)を出力する。ここにφ(r) J+1(T(r)+
1)は(数69)に相当する。
実施例であって、同図(a)は(数67)あるいはその
対数値などを計算する場合である。1001は確率密度
算出部であって、図4あるいは図5に示されるものが用
いられ得る。1002は累積尤度算出部であって、前記
Lに相当する値を計算する。例えば、既に説明したよう
に、P(Y(r)|λ^)=α(r) J+1(T(r)+1)とすることが
出来る。図7(b)はLを(数68)として算出するも
のである。1003は確率密度算出部であって、前記1
001と全く同様のものである。1004は漸化式計算
部であって、図6の漸化式計算部902と同様な操作を
行い、例えば、L=φ(1) J+1(T(1)+1)+・・・+φ(R)
J+1(T(R)+1)を出力する。ここにφ(r) J+1(T(r)+
1)は(数69)に相当する。
【0148】
【数67】
【0149】
【数68】
【0150】
【数69】
【0151】図8は以上のようにして作成されたモデル
を用いて、未知入力音声信号の認識を行う音声認識装置
の一実施例である。1101は音声信号の入力端子、1
102は特徴抽出部、1103はモデル記憶部、110
4は尤度算出部、1105は最大尤度判定部、1106
は話者クラス帰属度算出部であって、1101〜110
5はそれぞれ図17の101〜105に準じた動作をす
る。1106は図2の503に準じた動作をする。モデ
ル記憶部1103の図17の103との相違は、パラメ
ータλwは話者クラス毎のものを持つことである。即
ち、λw={λw 1,・・・,λw K}。尤度算出部1104は図1
7で説明したものを用いることが出来るが、この場合は
未知入力Yについて、w=1,・・・,Wのλwとの間で計算
することになる。
を用いて、未知入力音声信号の認識を行う音声認識装置
の一実施例である。1101は音声信号の入力端子、1
102は特徴抽出部、1103はモデル記憶部、110
4は尤度算出部、1105は最大尤度判定部、1106
は話者クラス帰属度算出部であって、1101〜110
5はそれぞれ図17の101〜105に準じた動作をす
る。1106は図2の503に準じた動作をする。モデ
ル記憶部1103の図17の103との相違は、パラメ
ータλwは話者クラス毎のものを持つことである。即
ち、λw={λw 1,・・・,λw K}。尤度算出部1104は図1
7で説明したものを用いることが出来るが、この場合は
未知入力Yについて、w=1,・・・,Wのλwとの間で計算
することになる。
【0152】図9は上記尤度算出部1104の一実施例
である。確率密度算出部wは、カテゴリwに対するもの
であって、図4、図5で説明したものが用いられる。即
ち、本実施例では、図4あるいは図5で説明した確率密
度算出部がカテゴリw毎に設けられているものである。
累積尤度算出部1〜Wは、前記確率密度算出部1〜Wの
出力から各々の認識カテゴリのモデルの入力音声Yに対
する尤度を計算するものである。c1,・・・,cKはYの各
話者クラスに対する帰属度である。前記累積尤度算出部
1204〜1206における累積尤度は、前記Forward-
Backward法あるいはViterbi法によって計算することが
出来る。この場合も、c1,・・・,cKとしてk=1,・・・,K
のすべてについて計算する場合,帰属度の上位nまでに
ついてckを求め、他を0として計算する場合、ckが最
大となるkについてのみckを用い、他は0として計算
するなど前記方法の何れかが用いられ得る。
である。確率密度算出部wは、カテゴリwに対するもの
であって、図4、図5で説明したものが用いられる。即
ち、本実施例では、図4あるいは図5で説明した確率密
度算出部がカテゴリw毎に設けられているものである。
累積尤度算出部1〜Wは、前記確率密度算出部1〜Wの
出力から各々の認識カテゴリのモデルの入力音声Yに対
する尤度を計算するものである。c1,・・・,cKはYの各
話者クラスに対する帰属度である。前記累積尤度算出部
1204〜1206における累積尤度は、前記Forward-
Backward法あるいはViterbi法によって計算することが
出来る。この場合も、c1,・・・,cKとしてk=1,・・・,K
のすべてについて計算する場合,帰属度の上位nまでに
ついてckを求め、他を0として計算する場合、ckが最
大となるkについてのみckを用い、他は0として計算
するなど前記方法の何れかが用いられ得る。
【0153】その他近似的な方法として図10〜図15
等の方法も可能である。
等の方法も可能である。
【0154】図10は尤度算出部1104の他の実施例
であって、未知入力信号Yとモデルλwの照合を、話者
クラスk=1,・・・,K毎に行い、話者クラスkにおける
Yとλw kとの照合結果である話者別・認識カテゴリ別尤
度をLw kとするとき、Yの各話者クラスへの帰属度に関
する荷重和を掛算器1305〜1308、加算器130
9〜1310で行い、得られたものをYのλwに対する
尤度とするものである。ここで前記荷重としては、話者
クラス帰属度算出部1106で計算された帰属度そのも
の、あるいは、話者クラスkに対する荷重をそれに関連
した値として変換したものを用いることが出来る(重み
変換部1311)。例えば、Lw k=P(Y|k,λw k)、Y
のフレーム数をTとするとき、ek=ck Tを荷重とすれ
ば、確率密度関数bi,k(y(t))に重みckを掛けた図7
で説明した場合に準じたものとなる(この場合は照合す
る話者クラス毎に状態系列が異なり、全く同じものには
ならない)。
であって、未知入力信号Yとモデルλwの照合を、話者
クラスk=1,・・・,K毎に行い、話者クラスkにおける
Yとλw kとの照合結果である話者別・認識カテゴリ別尤
度をLw kとするとき、Yの各話者クラスへの帰属度に関
する荷重和を掛算器1305〜1308、加算器130
9〜1310で行い、得られたものをYのλwに対する
尤度とするものである。ここで前記荷重としては、話者
クラス帰属度算出部1106で計算された帰属度そのも
の、あるいは、話者クラスkに対する荷重をそれに関連
した値として変換したものを用いることが出来る(重み
変換部1311)。例えば、Lw k=P(Y|k,λw k)、Y
のフレーム数をTとするとき、ek=ck Tを荷重とすれ
ば、確率密度関数bi,k(y(t))に重みckを掛けた図7
で説明した場合に準じたものとなる(この場合は照合す
る話者クラス毎に状態系列が異なり、全く同じものには
ならない)。
【0155】図11は尤度算出部1104の他の実施例
であって、図10における加算器1309〜1310を
省き、最大尤度判定部1105で直接最大尤度を示す認
識カテゴリを見出すものである。話者別・認識カテゴリ
別尤度算出部1401〜1404、重み変換部1409
は図10の1301〜1304、1311と同様のもの
である。
であって、図10における加算器1309〜1310を
省き、最大尤度判定部1105で直接最大尤度を示す認
識カテゴリを見出すものである。話者別・認識カテゴリ
別尤度算出部1401〜1404、重み変換部1409
は図10の1301〜1304、1311と同様のもの
である。
【0156】図12は更に他の実施例であって、150
1〜1504は図10、図11における1301〜13
03、1401〜1403と同様な計算を行うものであ
るが、帰属度が最大から第n位になる話者クラスのみ計
算し、他は0を出力するものである。1505〜151
0、1511、1105は図10における1305〜1
310、1311、1105と同様のものである。この
場合はkの全ての値に対して話者別尤度を計算する必要
はなく、帰属度が最大から第n位になる話者クラスのみ
計算すれば良い。
1〜1504は図10、図11における1301〜13
03、1401〜1403と同様な計算を行うものであ
るが、帰属度が最大から第n位になる話者クラスのみ計
算し、他は0を出力するものである。1505〜151
0、1511、1105は図10における1305〜1
310、1311、1105と同様のものである。この
場合はkの全ての値に対して話者別尤度を計算する必要
はなく、帰属度が最大から第n位になる話者クラスのみ
計算すれば良い。
【0157】図13は更に他の実施例であって、図12
における加算器1509〜1510を省き、最大尤度判
定部1105を直接乗算器1505〜1508に接続し
たものである。図13における1601〜1608、1
609、1105は図12における1501〜150
8、1511、1105と同じものである。この場合も
kの全ての値に対して話者別尤度を計算する必要はな
く、帰属度が最大から第n位になる話者クラスのみ計算
すれば良い。
における加算器1509〜1510を省き、最大尤度判
定部1105を直接乗算器1505〜1508に接続し
たものである。図13における1601〜1608、1
609、1105は図12における1501〜150
8、1511、1105と同じものである。この場合も
kの全ての値に対して話者別尤度を計算する必要はな
く、帰属度が最大から第n位になる話者クラスのみ計算
すれば良い。
【0158】図14は更に他の実施例であって、図13
において乗算器1605〜1608を省略したものであ
って、重み付けられることなしに、帰属度が最大から第
n位になる話者クラスについてのみ話者別尤度が加算器
1509〜1510で加算されることになる。図14に
おける1701〜1704、1709、1710、11
05は図12における1501〜1504、1509、
1510、1105と同じものである。
において乗算器1605〜1608を省略したものであ
って、重み付けられることなしに、帰属度が最大から第
n位になる話者クラスについてのみ話者別尤度が加算器
1509〜1510で加算されることになる。図14に
おける1701〜1704、1709、1710、11
05は図12における1501〜1504、1509、
1510、1105と同じものである。
【0159】図15は更に他の実施例で、話者別・認識
カテゴリ別に求められた尤度の中で最大のものを検出
し、それを与える認識カテゴリを認識結果と判定するも
のである。図15における1801〜1804、110
5は図10の1301〜1304、1105と同じもの
である。
カテゴリ別に求められた尤度の中で最大のものを検出
し、それを与える認識カテゴリを認識結果と判定するも
のである。図15における1801〜1804、110
5は図10の1301〜1304、1105と同じもの
である。
【0160】図16は更に他の実施例であって、ぞれぞ
れの認識カテゴリに対して、尤度の上位第n位の和をY
のその認識カテゴリに対する尤度として、各認識カテゴ
リにおけるその和を比較し、その最大のものを検出し、
その最大値を与える認識カテゴリを認識結果と判定する
ものである。図16における1901〜1904、19
09、1910、1105は図10における1301〜
1304、1309、1310、1105と同じもので
ある。
れの認識カテゴリに対して、尤度の上位第n位の和をY
のその認識カテゴリに対する尤度として、各認識カテゴ
リにおけるその和を比較し、その最大のものを検出し、
その最大値を与える認識カテゴリを認識結果と判定する
ものである。図16における1901〜1904、19
09、1910、1105は図10における1301〜
1304、1309、1310、1105と同じもので
ある。
【0161】なお、本発明の各部、手段は、コンピュー
タを用いてソフトウェア的に実現し、あるいはそれら各
機能を有する専用のハード回路を用いて実現する事が出
来る。
タを用いてソフトウェア的に実現し、あるいはそれら各
機能を有する専用のハード回路を用いて実現する事が出
来る。
【0162】
【発明の効果】以上述べたところから明らかなように、
本発明は、1,…,Kに分類された話者クラスに対し、状
態毎に前記話者クラスに対応した確率分布をもつK個の
ランダムベクトル発生源を有する隠れマルコフモデルを
用い、未知入力音声に対し、話者性を考慮する構成とし
たので、話者間の混同を避けた音声認識が可能となる長
所を有する。
本発明は、1,…,Kに分類された話者クラスに対し、状
態毎に前記話者クラスに対応した確率分布をもつK個の
ランダムベクトル発生源を有する隠れマルコフモデルを
用い、未知入力音声に対し、話者性を考慮する構成とし
たので、話者間の混同を避けた音声認識が可能となる長
所を有する。
【図1】本発明による隠れマルコフモデルによる情報発
生モデルの一実施例を示す図である。
生モデルの一実施例を示す図である。
【図2】本発明による隠れマルコフモデルのパラメータ
推定装置の一実施例を示すブロック図である。
推定装置の一実施例を示すブロック図である。
【図3】図2の話者クラス帰属度算出部の一実施例の詳
細説明図である。
細説明図である。
【図4】図2の確率密度算出部の一実施例の詳細説明図
である。
である。
【図5】図2の確率密度算出部の他の実施例の詳細説明
図である。
図である。
【図6】図2のパラメータ推定部の一実施例の詳細説明
図である。
図である。
【図7】図2の尤度算出部の一実施例の詳細説明図であ
る。
る。
【図8】音声認識装置に本発明が適用された実施例を示
すブロック図である。
すブロック図である。
【図9】図8の尤度算出部の一実施例の詳細説明図であ
る。
る。
【図10】図8の尤度算出部の他の実施例の詳細説明図
である。
である。
【図11】図8の尤度算出部の他の実施例の詳細説明図
である。
である。
【図12】図8の尤度算出部の他の実施例の詳細説明図
である。
である。
【図13】図8の尤度算出部の他の実施例の詳細説明図
である。
である。
【図14】図8の尤度算出部の他の実施例の詳細説明図
である。
である。
【図15】図8の尤度算出部の他の実施例の詳細説明図
である。
である。
【図16】図8の尤度算出部の他の実施例の詳細説明図
である。
である。
【図17】隠れマルコフモデルを用いた音声認識装置の
従来例のブロック図である。
従来例のブロック図である。
【図18】隠れマルコフモデルの状態遷移図である。
【図19】従来の隠れマルコフモデルによる情報発生モ
デル図である。
デル図である。
502 パラメータ記憶部 503 話者クラス帰属度算出部 504 パラメータ推定部 1003 モデル記憶部 1004 尤度算出部 1006 話者クラス帰属度算出部 1103 モデル記憶部 1104 尤度算出部 1105 最大尤度判定部 1106 話者クラス帰属度算出部
Claims (10)
- 【請求項1】時点tにおける観測ベクトルをy(t)とす
るとき、観測時系列信号Y={y(t)}がクラス分けさ
れるべき集合群{Sk}(k=1,・・・,K)に対し、複
数個の状態を有する隠れマルコフモデルの、それぞれの
状態の初期確率と、それぞれの状態間の遷移確率と、前
記集合Sk,状態jに対する観測ベクトルy(t)の条件
付確率密度bjk(y(t))を定めるパラメータとを記憶し
ている隠れマルコフモデル記憶手段を備えたことを特徴
とする時系列信号処理装置。 - 【請求項2】請求項1記載の隠れマルコフモデル記憶手
段と、同項記載の観測時系列Yの集合群{Sk}のそれ
ぞれの集合に対する帰属度{ck}を求める帰属度算出
手段と、前記モデルの状態jにおける前記観測ベクトル
y(t)の発生度合bj(y(t))を請求項1記載の条件付
確率密度bjk(y(t))と前記帰属度{ck}に基づいて
算出するベクトル発生度合算出手段と、前記隠れマルコ
フモデル記憶手段に記憶されている各状態の初期確率
と、それぞれの状態間の遷移確率と、前記bj(y(t))
とに基づいて前記観測時系列信号Yの発生度合を算出す
る時系列信号発生度合算出手段とを備えたことを特徴と
する時系列信号処理装置。 - 【請求項3】時系列信号発生度合算出手段は、状態系列
をX={x(t)},状態iの初期確率をπi,状態iか
ら状態jへの遷移確率をaijとするとき、 【数1】 または 【数2】 または 【数3】 を算出することを特徴とする請求項2記載の時系列信号
処理装置。 - 【請求項4】請求項1記載の隠れマルコフモデル記憶手
段と、同項記載の観測時系列信号Yの集合群{Sk}の
それぞれの集合に対する帰属度{ck}を求める帰属度
算出手段と、同項記載の条件付確率密度bjk(y(t))を
算出するクラス別ベクトル発生度合算出手段と、前記隠
れマルコフモデル記憶手段に記憶されている各状態の初
期確率、それぞれの状態間の遷移確率及び、前記条件付
確率密度bjk(y(t))に基づいて前記集合{Sk}の条
件下で前記観測時系列信号Yの発生度合{Lk}を算出
するクラス別時系列信号発生度合算出手段と、前記帰属
度{ck}と前記発生度合{Lk}から、もしくは前記発
生度合{Lk}から、前記観測時系列信号Yの前記隠れ
マルコフモデルからの発生度合を算出する時系列信号発
生度合算出手段とを備えたことを特徴とする時系列信号
処理装置。 - 【請求項5】クラス別時系列信号発生度合算出手段は、
状態系列をX={x(1)},状態iの初期確率をπi,
状態iから状態jへの遷移確率をaijとするとき、 【数4】 または 【数5】 または 【数6】 を算出することを特徴とする請求項4記載の時系列信号
処理装置。 - 【請求項6】請求項1記載の隠れマルコフモデル記憶手
段と、請求項2記載の帰属度算出手段と、請求項2記載
のベクトル発生度合算出手段と、前記観測時系列信号Y
の前記隠れマルコフモデルからの発生度合を算出する時
系列信号発生度合算出手段と、前記隠れマルコフモデル
のパラメータを推定するパラメータ推定手段とを備え、
該パラメータ推定手段は、複数の訓練パターンY(1),・・
・,Y(R)に対し、それぞれのパターンに対する時系列信
号発生度合を(数1)あるいは(数2)で計算し、それ
らの積を最大化すべく前記隠れマルコフモデル記憶手段
に記憶されているパラメータの更新を所定の条件が満足
されるまで繰り返すことを特徴とする時系列信号処理装
置。 - 【請求項7】請求項1記載の隠れマルコフモデル記憶手
段と、請求項2記載の帰属度算出手段と、請求項2記載
のベクトル発生度合算出手段と、前記観測時系列信号Y
の前記隠れマルコフモデルからの発生度合を算出する時
系列信号発生度合算出手段と、前記隠れマルコフモデル
のパラメータを推定するパラメータ推定手段とを備え、
該パラメータ推定手段は、複数の訓練パターンY(1),・・
・,Y(R)に対し、それぞれのパターンに対する時系列信
号発生度合を(数3)で計算し、それらの和を最大化す
べく前記隠れマルコフモデル記憶手段に記憶されている
パラメータの更新を所定の条件が満足されるまで繰り返
すことを特徴とする時系列信号処理装置。 - 【請求項8】認識すべきカテゴリw=1,・・・,Wのそれ
ぞれに対応する請求項1記載の隠れマルコフモデル記憶
手段と、同項記載の前記観測時系列信号Yの集合群{S
k}のそれぞれの集合に対する帰属度{ck}を求める帰
属度算出手段と、前記カテゴリwに対応する隠れマルコ
フモデルに対する請求項1記載の条件付確率密度b
w jk(y(t))と前記帰属度から前記カテゴリwに対応す
る隠れマルコフモデルの状態jにおける前記ベクトルy
(t)の発生度合bw j(y(t))を算出するベクトル発生度
合算出手段と、前記隠れマルコフモデル記憶手段に記憶
されている各状態の初期確率と、それぞれの状態間の遷
移確率と、前記発生度合bw j(y(t))とから前記カテゴ
リw=1,・・・,Wの各々の隠れマルコフモデルから前記
観測時系列信号Yの発生する度合を算出する請求項2記
載の時系列信号発生度合算出手段と、該時系列信号発生
度合算出手段の前記カテゴリwに対応する出力の中でそ
の最大値を与える前記カテゴリwを見出す最大尤度判定
手段とを備え、該カテゴリwを認識結果とすることを特
徴とする時系列信号処理装置。 - 【請求項9】認識すべきカテゴリw=1,・・・,Wのそれ
ぞれに対応する請求項1記載の隠れマルコフモデル記憶
手段と、同項記載の前記観測時系列信号Yの集合群{S
k}のそれぞれの集合に対する帰属度{ck}を求める帰
属度算出手段と、前記カテゴリwに対応する隠れマルコ
フモデルに対する請求項1記載の条件付確率密度b
w jk(y(t))と、前記隠れマルコフモデル記憶手段に記
憶されている各状態の初期確率と、それぞれの状態間の
遷移確率と、前記発生度合bw j(y(t))とから前記カテ
ゴリw=1,・・・,Wの各々の隠れマルコフモデルからY
∈Skの条件下で前記観測時系列信号Yの発生するクラ
ス別時系列信号発生度合Lw kを算出する請求項4記載の
クラス別時系列信号発生度合算出手段と、該クラス別時
系列信号発生度合{Lw k}と前記帰属度{ck}とか
ら、もしくは前記クラス別時系列信号発生度合{Lw k}
から前記カテゴリw=1,・・・,Wの各々の隠れマルコフ
モデルから前記観測時系列信号Yの発生する度合を算出
する請求項4記載の時系列信号発生度合算出手段と、該
時系列信号発生度合算出手段の前記カテゴリwに対応す
る出力の中でその最大値を与える前記カテゴリwを見出
す最大尤度判定手段とを備え、該カテゴリwを認識結果
とすることを特徴とする時系列信号処理装置。 - 【請求項10】観測時系列信号Yがクラス分けされるべ
き集合群{Sk}は、それぞれ特徴の類似した話者集合
であることを特徴とする、請求項1〜9のいずれかの項
記載の時系列信号処理装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34352491 | 1991-12-25 | ||
JP3-343524 | 1991-12-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05241593A true JPH05241593A (ja) | 1993-09-21 |
Family
ID=18362187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34194492A Pending JPH05241593A (ja) | 1991-12-25 | 1992-12-22 | 時系列信号処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH05241593A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325598A (ja) * | 1994-05-31 | 1995-12-12 | Nec Corp | 音声認識装置 |
KR100434522B1 (ko) * | 1997-04-29 | 2004-07-16 | 삼성전자주식회사 | 시간축 상호관계를 이용한 음성인식 방법 |
JP2015519669A (ja) * | 2012-05-29 | 2015-07-09 | キャシー・ホールディングス・リミテッド・ライアビリティ・カンパニーCassy Holdings Llc | 確率的処理 |
-
1992
- 1992-12-22 JP JP34194492A patent/JPH05241593A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325598A (ja) * | 1994-05-31 | 1995-12-12 | Nec Corp | 音声認識装置 |
KR100434522B1 (ko) * | 1997-04-29 | 2004-07-16 | 삼성전자주식회사 | 시간축 상호관계를 이용한 음성인식 방법 |
JP2015519669A (ja) * | 2012-05-29 | 2015-07-09 | キャシー・ホールディングス・リミテッド・ライアビリティ・カンパニーCassy Holdings Llc | 確率的処理 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447490B (zh) | 基于记忆性瓶颈特征的声纹识别的方法及装置 | |
US6493667B1 (en) | Enhanced likelihood computation using regression in a speech recognition system | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
US5509103A (en) | Method of training neural networks used for speech recognition | |
EP0921519B1 (en) | Technique for adaptation of hidden Markov Models for speech recognition | |
JP2795058B2 (ja) | 時系列信号処理装置 | |
US6490555B1 (en) | Discriminatively trained mixture models in continuous speech recognition | |
JP4531166B2 (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
JP2002500779A (ja) | 識別訓練されたモデルを用いる音声認識システム | |
JPH064093A (ja) | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 | |
US5903863A (en) | Method of partitioning a sequence of data frames | |
WO1993013519A1 (en) | Composite expert | |
Agrawal et al. | Prosodic feature based text dependent speaker recognition using machine learning algorithms | |
JP2000172295A (ja) | 低複雑性スピ―チ認識器の区分ベ―スの類似性方法 | |
US10699224B2 (en) | Conversation member optimization apparatus, conversation member optimization method, and program | |
US5832181A (en) | Speech-recognition system utilizing neural networks and method of using same | |
Kumar et al. | Comparative analysis of different feature extraction and classifier techniques for speaker identification systems: A review | |
JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JPH064097A (ja) | 話者認識方法 | |
JPH05241593A (ja) | 時系列信号処理装置 | |
JP2996925B2 (ja) | 音素境界検出装置及び音声認識装置 | |
JPH08110792A (ja) | 話者適応化装置及び音声認識装置 | |
Hmich et al. | Automatic speaker identification by using the neural network | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
KR102720486B1 (ko) | 화자 모델을 업데이트하는 음성 인식 장치, 방법 및 컴퓨터 프로그램 |