JPH06167994A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH06167994A JPH06167994A JP4343327A JP34332792A JPH06167994A JP H06167994 A JPH06167994 A JP H06167994A JP 4343327 A JP4343327 A JP 4343327A JP 34332792 A JP34332792 A JP 34332792A JP H06167994 A JPH06167994 A JP H06167994A
- Authority
- JP
- Japan
- Prior art keywords
- model
- state
- voice
- probability
- symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 音声認識処理を高速に行う。
【構成】 マルコフモデル記憶部7に記憶されているマ
ルコフモデルの前後に、ワイルドカードモデルを接続
し、接続モデルを生成する。そして、この接続モデルか
ら、音響分析部4で音声から生成されたシンボルが生起
される確率を、例えばビタビ法にしたがって計算し、そ
の計算結果に基づいて、音声の音声区間をスポッティン
グする。
ルコフモデルの前後に、ワイルドカードモデルを接続
し、接続モデルを生成する。そして、この接続モデルか
ら、音響分析部4で音声から生成されたシンボルが生起
される確率を、例えばビタビ法にしたがって計算し、そ
の計算結果に基づいて、音声の音声区間をスポッティン
グする。
Description
【0001】
【産業上の利用分野】本発明は、HMM(Hidden Marko
v Models)法を用いて音声認識を行う場合に用いて好適
な音声認識装置に関する。
v Models)法を用いて音声認識を行う場合に用いて好適
な音声認識装置に関する。
【0002】
【従来の技術】近年、音声を認識するためのアルゴリズ
ムとして、例えば「確率モデルによる音声認識」(電子
情報通信学会)などに記載されているHMM(Hidden M
arkovModels)法が注目されている。
ムとして、例えば「確率モデルによる音声認識」(電子
情報通信学会)などに記載されているHMM(Hidden M
arkovModels)法が注目されている。
【0003】HMMは観測不可能な(Hidden)基礎統計
過程を有する2重統計過程であり、そのモデルは、図6
(a)に示すように、いくつかの状態S1,S2,・・
・,SNと、その状態間の遷移を表すパスから構成さ
れ、状態が遷移するときにシンボルを出力(生起)す
る。
過程を有する2重統計過程であり、そのモデルは、図6
(a)に示すように、いくつかの状態S1,S2,・・
・,SNと、その状態間の遷移を表すパスから構成さ
れ、状態が遷移するときにシンボルを出力(生起)す
る。
【0004】なお、音声認識では、図6(b)に示すよ
うな自分自身と、次の状態に遷移するパスのみを有する
モデルが一般的に使用される。
うな自分自身と、次の状態に遷移するパスのみを有する
モデルが一般的に使用される。
【0005】音声認識に通常適用される離散型HMMで
は、音声から生成されたコード列としてのシンボル系列
Y={y1,y2,・・・,yT }が、各モデルで生起さ
れる確率(事後確率)が計算され、その確率が最も大き
いモデルが認識結果とされる。
は、音声から生成されたコード列としてのシンボル系列
Y={y1,y2,・・・,yT }が、各モデルで生起さ
れる確率(事後確率)が計算され、その確率が最も大き
いモデルが認識結果とされる。
【0006】即ち、HMMでは、 N:モデルの有する状態数 Y(={y1,y2,・・・,yT}):シンボル系列 T:シンボル系列長 aij:状態iから状態jへ遷移する遷移確率 bij(k):状態iから状態jへ遷移するときにシンボ
ルkが生起される生起確率 シンボル数:K π(=π1,π2,・・・,πN):初期状態が状態iで
ある初期状態確率 のようにパラメータを表すとすると、モデルからシンボ
ル系列Yは、次のようにして生起される。
ルkが生起される生起確率 シンボル数:K π(=π1,π2,・・・,πN):初期状態が状態iで
ある初期状態確率 のようにパラメータを表すとすると、モデルからシンボ
ル系列Yは、次のようにして生起される。
【0007】(S1)初期状態確率πに基づいて初期状
態iS(INITIAL)を決定 (S2)遷移確率aijに基づいて状態のiからjへの遷
移を決定 (S3)生起確率bij(k)に基づいて、状態がiから
jに遷移するときに出力(生起)されるシンボルytを
決定 (S4)t<Tであれば、S2へ戻る
態iS(INITIAL)を決定 (S2)遷移確率aijに基づいて状態のiからjへの遷
移を決定 (S3)生起確率bij(k)に基づいて、状態がiから
jに遷移するときに出力(生起)されるシンボルytを
決定 (S4)t<Tであれば、S2へ戻る
【0008】従って、モデルは、 状態数N シンボル数K 遷移確率aij 生起確率bij(k) 初期状態確率πi により特徴づけられることになる。
【0009】なお、音声認識においては、初期状態また
は最終状態は、それぞれ1つであるとするのが一般的で
あり、以下、初期状態(時刻t=1における状態)を、
iS( INITIAL)だけに限定したモデルを考える。
は最終状態は、それぞれ1つであるとするのが一般的で
あり、以下、初期状態(時刻t=1における状態)を、
iS( INITIAL)だけに限定したモデルを考える。
【0010】従って、初期状態確率はπiS(INITIAL)の
み1となり、他はすべて0となる。
み1となり、他はすべて0となる。
【0011】さらに、最終状態(時刻t=Tにおける状
態)も、以下iS(FINAL)だけに限定したモデルを考え
る。
態)も、以下iS(FINAL)だけに限定したモデルを考え
る。
【0012】モデルλがシンボル系列y1,y2,・・
・,ytを出力して状態iにいる前方予測確率をα
i(t)とすると、上述したモデルのシンボルの出力の
定義((S1)乃至(S4))から、モデルλがシンボ
ル系列Y={y1,y2,・・・,yT}を出力する確率
P(Y|λ)は、次の漸化式によって計算することがで
きる。
・,ytを出力して状態iにいる前方予測確率をα
i(t)とすると、上述したモデルのシンボルの出力の
定義((S1)乃至(S4))から、モデルλがシンボ
ル系列Y={y1,y2,・・・,yT}を出力する確率
P(Y|λ)は、次の漸化式によって計算することがで
きる。
【0013】
【数1】 なお、上式のjに関するサメーションは、与えられたモ
デルにおいて、状態jから状態iへの遷移が許されてい
る場合にのみとられる。
デルにおいて、状態jから状態iへの遷移が許されてい
る場合にのみとられる。
【0014】そして、HMM法を用いた音声認識では、
音声から生成されたコード列としてのシンボル系列Y=
{y1,y2,・・・,yT}に対して、上式から計算さ
れる確率P(Y|λ)を最大にするモデルλが認識結果
とされることになる。
音声から生成されたコード列としてのシンボル系列Y=
{y1,y2,・・・,yT}に対して、上式から計算さ
れる確率P(Y|λ)を最大にするモデルλが認識結果
とされることになる。
【0015】次に、シンボル系列Y={y1,y2,・・
・,yT}に対して、確率P(Y|λ)を最大にするモ
デルのパラメータとしての遷移確率aij、生起確率bij
(k)は、以下のようにして求められる。
・,yT}に対して、確率P(Y|λ)を最大にするモ
デルのパラメータとしての遷移確率aij、生起確率bij
(k)は、以下のようにして求められる。
【0016】即ち、モデルの学習では、まず、上述した
αi(t)が求められるとともに、時刻tにおいて、状
態iにいて、以後、シンボル系列yt+1,yt+2,・・
・,yTを出力する後方予測確率βi(t)が次式により
求められる。
αi(t)が求められるとともに、時刻tにおいて、状
態iにいて、以後、シンボル系列yt+1,yt+2,・・
・,yTを出力する後方予測確率βi(t)が次式により
求められる。
【0017】
【数2】 なお、上式のjに関するサメーションは、与えられたモ
デルにおいて、状態iから状態jへの遷移が許されてい
る場合にのみとられる。
デルにおいて、状態iから状態jへの遷移が許されてい
る場合にのみとられる。
【0018】そして、次式にしたがってモデルのパラメ
ータとしての遷移確率aij、生起確率bij(k)が更新
(学習)される。
ータとしての遷移確率aij、生起確率bij(k)が更新
(学習)される。
【0019】
【数3】 なお、上式においてドット(・)を付したaij、または
bij(k)は、更新した遷移確率または生起確率をそれ
ぞれ意味する。また、上式のhに関するサメーション
は、状態iから状態hへの遷移が許されている場合にの
みとられる。さらに、t:yt=kに関するサメーショ
ンは、時刻tにおいて、kなるシンボルytが生起され
る場合についてのみとられる。
bij(k)は、更新した遷移確率または生起確率をそれ
ぞれ意味する。また、上式のhに関するサメーション
は、状態iから状態hへの遷移が許されている場合にの
みとられる。さらに、t:yt=kに関するサメーショ
ンは、時刻tにおいて、kなるシンボルytが生起され
る場合についてのみとられる。
【0020】上式にしたがって、遷移確率aij、生起確
率bij(k)が更新(再推定)されることにより、それ
ぞれ局所的に最適な値へ収束する。即ち、モデルの学習
が行われる。
率bij(k)が更新(再推定)されることにより、それ
ぞれ局所的に最適な値へ収束する。即ち、モデルの学習
が行われる。
【0021】なお、上述のようにして遷移確率aij、生
起確率bij(k)を更新(再推定)する方法は、Baum-W
elchの再推定法と呼ばれる。
起確率bij(k)を更新(再推定)する方法は、Baum-W
elchの再推定法と呼ばれる。
【0022】ここで、式(2)で計算される遷移確率a
ij、生起確率bij(k)は、ある学習用のシンボル系列
1つに対してだけであり、これにより学習が行われたモ
デルは、ある1つのシンボル系列を高い確率で出力する
ようになる。しかしながら、音声認識では、調音結合や
話者による音声(音声のシンボル系列)のばらつきがあ
り、単一のシンボル系列のみ高い確率で出力するモデル
では、このばらつきに対処することができない。
ij、生起確率bij(k)は、ある学習用のシンボル系列
1つに対してだけであり、これにより学習が行われたモ
デルは、ある1つのシンボル系列を高い確率で出力する
ようになる。しかしながら、音声認識では、調音結合や
話者による音声(音声のシンボル系列)のばらつきがあ
り、単一のシンボル系列のみ高い確率で出力するモデル
では、このばらつきに対処することができない。
【0023】そこで、いくつかのシンボル系列を高い確
率で出力するように、モデルの学習を行う必要がある。
これには、例えばQ種類のシンボル系列の、q番目のシ
ンボル系列をYq={y1 q,y2 q,・・・,yT q}とし
たとき、各シンボル系列Yq(q=1,2,・・・,
Q)が観測される確率P(Yq|λ)の積が最大になる
ように、モデルλの学習を行えばよい。
率で出力するように、モデルの学習を行う必要がある。
これには、例えばQ種類のシンボル系列の、q番目のシ
ンボル系列をYq={y1 q,y2 q,・・・,yT q}とし
たとき、各シンボル系列Yq(q=1,2,・・・,
Q)が観測される確率P(Yq|λ)の積が最大になる
ように、モデルλの学習を行えばよい。
【0024】これは、上述したBaum-Welchの再推定法を
多重系列に拡張することにより、次のように再帰的に求
めることができる。
多重系列に拡張することにより、次のように再帰的に求
めることができる。
【0025】
【数4】
【0026】次に、上式(3)により遷移確率aij、生
起確率bij(k)を更新(再推定)することは、モデル
の学習を個別に行っていることに他ならない。過去、H
MM法を用いて音声認識を行う場合においては、単語認
識に適用されるときが多く、単語に対応するモデルの学
習を、上述したように個別に行うだけで問題はなかっ
た。
起確率bij(k)を更新(再推定)することは、モデル
の学習を個別に行っていることに他ならない。過去、H
MM法を用いて音声認識を行う場合においては、単語認
識に適用されるときが多く、単語に対応するモデルの学
習を、上述したように個別に行うだけで問題はなかっ
た。
【0027】しかしながら、最近は、音韻や音素に対応
するモデルを連結して、意味のある音声(単語や文)を
認識するのが一般的になり、このため、モデルの連結学
習を行う必要が生じできた。
するモデルを連結して、意味のある音声(単語や文)を
認識するのが一般的になり、このため、モデルの連結学
習を行う必要が生じできた。
【0028】モデルの連結学習では、例えばあらかじめ
用意した単語辞書に登録されている単語に基づき、音韻
または音素モデルどうしを連結し、それを単語モデルと
みなして、単語のシンボル系列として用意されたシンボ
ル系列Yqに対する学習が行われる。
用意した単語辞書に登録されている単語に基づき、音韻
または音素モデルどうしを連結し、それを単語モデルと
みなして、単語のシンボル系列として用意されたシンボ
ル系列Yqに対する学習が行われる。
【0029】即ち、M個の音韻または音素モデルの学習
を個別に行った場合、そのうちのm番目のモデル(モデ
ルm)のパラメータ(遷移確率、生起確率それぞれ)を
aij m,bij m(k)と表し、そのモデルmに音韻または
音素モデルを連結したモデル(連結モデル)の状態をu
またはvと表すとともに、連結モデルの状態のuからv
への遷移において、状態uがモデルmに属する状態であ
るときを(u→v)∈mと表すと、式(3)を変形した
次式にしたがって、モデルmの遷移確率aij m、生起確
率bij m(k)が更新(再推定)される。
を個別に行った場合、そのうちのm番目のモデル(モデ
ルm)のパラメータ(遷移確率、生起確率それぞれ)を
aij m,bij m(k)と表し、そのモデルmに音韻または
音素モデルを連結したモデル(連結モデル)の状態をu
またはvと表すとともに、連結モデルの状態のuからv
への遷移において、状態uがモデルmに属する状態であ
るときを(u→v)∈mと表すと、式(3)を変形した
次式にしたがって、モデルmの遷移確率aij m、生起確
率bij m(k)が更新(再推定)される。
【0030】
【数5】
【0031】ここで、連結モデルがモデルmを複数使用
して構成されている場合、即ち連結モデルが、例えば3
状態S1,S2,S3からなるモデルmを2回使用して構
成されている場合、連結モデルは、S1,S2,S3,
S1,S2,S3の6状態を有することになる。従って、
この場合、モデルmの状態S1,S2,S3のうちの、例
えば先頭の状態S1は、連結モデルの状態S1,S2,
S3,S1,S2,S3の先頭の状態、および先頭から4番
目の状態と同一であり、このように連結モデルの複数の
状態u(v)が、モデルmの1つ状態i(j)と同一で
あるときがある。
して構成されている場合、即ち連結モデルが、例えば3
状態S1,S2,S3からなるモデルmを2回使用して構
成されている場合、連結モデルは、S1,S2,S3,
S1,S2,S3の6状態を有することになる。従って、
この場合、モデルmの状態S1,S2,S3のうちの、例
えば先頭の状態S1は、連結モデルの状態S1,S2,
S3,S1,S2,S3の先頭の状態、および先頭から4番
目の状態と同一であり、このように連結モデルの複数の
状態u(v)が、モデルmの1つ状態i(j)と同一で
あるときがある。
【0032】上式(4)において、u≡i,v≡jに関
するサメーション、およびu≡iに関するサメーション
は、上述したように連結モデルの状態u(v)が、モデ
ルmの状態i(j)と同一である場合についてとられる
ことを意味する。
するサメーション、およびu≡iに関するサメーション
は、上述したように連結モデルの状態u(v)が、モデ
ルmの状態i(j)と同一である場合についてとられる
ことを意味する。
【0033】また、h:(u→h)∈mに関するサメー
ションは、連結モデルの状態uから状態hへの遷移が許
されている場合に、連結モデルの状態uが、モデルmに
属するときのみとられる。
ションは、連結モデルの状態uから状態hへの遷移が許
されている場合に、連結モデルの状態uが、モデルmに
属するときのみとられる。
【0034】さらに、上式(4)において、モデルmの
後続にモデルが連結されており、連結モデルの状態u
が、モデルmの最終状態(u=iS(FINAL))となった場
合、状態uからの遷移先である状態vは、モデルmの直
後に連結したモデルの初期状態となるものとする。
後続にモデルが連結されており、連結モデルの状態u
が、モデルmの最終状態(u=iS(FINAL))となった場
合、状態uからの遷移先である状態vは、モデルmの直
後に連結したモデルの初期状態となるものとする。
【0035】次に、以上説明したHMM法を用いて、例
えば図7に示すようなS1,S2,S3の3状態からな
り、自分自身と、次の状態に遷移するパスのみを有する
とともに、初期状態または最終状態を、それぞれS1ま
たはS3とするモデルにより音声認識が行われる場合に
は、まず上述した式(3)または(4)(以下、式
(4)におけるaij m,bij m(k)は、式(3)におけ
る場合と同様にそれぞれaij,bij(k)と記載する)
にしたがってモデルの学習(連結学習)が行われ、モデ
ルの遷移確率aijおよび生起確率bij(k)が求められ
る。
えば図7に示すようなS1,S2,S3の3状態からな
り、自分自身と、次の状態に遷移するパスのみを有する
とともに、初期状態または最終状態を、それぞれS1ま
たはS3とするモデルにより音声認識が行われる場合に
は、まず上述した式(3)または(4)(以下、式
(4)におけるaij m,bij m(k)は、式(3)におけ
る場合と同様にそれぞれaij,bij(k)と記載する)
にしたがってモデルの学習(連結学習)が行われ、モデ
ルの遷移確率aijおよび生起確率bij(k)が求められ
る。
【0036】なお、モデルの学習において(音声認識を
行う場合においても同様であるが)、シンボル系列は、
音声から、所定のフレームごとに時系列に抽出した特徴
パラメータ(例えば、線形予測係数やLPCケプストラ
ム、周波数帯域ごとのエネルギなど)をベクトル量子化
したものが一般的に使用される。
行う場合においても同様であるが)、シンボル系列は、
音声から、所定のフレームごとに時系列に抽出した特徴
パラメータ(例えば、線形予測係数やLPCケプストラ
ム、周波数帯域ごとのエネルギなど)をベクトル量子化
したものが一般的に使用される。
【0037】ここで、シンボルがaとbの2つであり、
学習により、例えばモデルλの遷移確率aijおよび生起
確率bij(k)が、次のように算出されたとする。
学習により、例えばモデルλの遷移確率aijおよび生起
確率bij(k)が、次のように算出されたとする。
【0038】a11=0.2,b11(a)=0.6,b11
(b)=0.4,a12=0.8,b12(a)=0.5,
b12(b)=0.5,a22=0.4,b22(a)=0.
2,b22(b)=0.8,a23=0.6,b23(a)=
0.4,b23(b)=0.6
(b)=0.4,a12=0.8,b12(a)=0.5,
b12(b)=0.5,a22=0.4,b22(a)=0.
2,b22(b)=0.8,a23=0.6,b23(a)=
0.4,b23(b)=0.6
【0039】そして、音声から、例えばシンボル系列
a,b,aが観測された場合、このモデルλがそのシン
ボル系列を出力(生起)する確率P({a,b,a}|
λ)が、式(1)にしたがって計算される。
a,b,aが観測された場合、このモデルλがそのシン
ボル系列を出力(生起)する確率P({a,b,a}|
λ)が、式(1)にしたがって計算される。
【0040】以上の処理が、モデルλ以外のモデルにも
対して行われ、前述したように、確率Pが最も大きいモ
デルが認識結果とされることになる。
対して行われ、前述したように、確率Pが最も大きいモ
デルが認識結果とされることになる。
【0041】ところで、HMM法により音声認識を行う
場合において、モデルλからシンボル系列Yが出力され
る確率(尤度)を計算する方法としては、式(1)にし
たがって計算する方法の他、例えばビタビ(Viterbi)
法によって計算する方法が知られている。
場合において、モデルλからシンボル系列Yが出力され
る確率(尤度)を計算する方法としては、式(1)にし
たがって計算する方法の他、例えばビタビ(Viterbi)
法によって計算する方法が知られている。
【0042】即ち、ビタビ法においては、モデルλから
シンボル系列Yが出力される確率(尤度)が、次式にし
たがって計算される。
シンボル系列Yが出力される確率(尤度)が、次式にし
たがって計算される。
【0043】
【数6】
【0044】図8は、学習結果が上述のようになった図
7のモデルλがシンボル系列{a,b,a}を出力する
確率(尤度)を、ビタビ法によって計算する場合に描か
れるトレリスを示している。
7のモデルλがシンボル系列{a,b,a}を出力する
確率(尤度)を、ビタビ法によって計算する場合に描か
れるトレリスを示している。
【0045】図7のモデルλのトレリスを示す図8にお
いては、箱が各時刻における状態を示し、その中には、
各時刻においてその状態にいる確率が書き入れてある。
さらに、矢印は、状態の遷移を示しており、図7のモデ
ルλは、前述したように自分自身と、次の状態にしか状
態が遷移しないので、矢印は、自分自身への遷移を示す
水平方向の矢印と、次の状態への遷移を示す斜め上方向
の矢印のみとなっている。
いては、箱が各時刻における状態を示し、その中には、
各時刻においてその状態にいる確率が書き入れてある。
さらに、矢印は、状態の遷移を示しており、図7のモデ
ルλは、前述したように自分自身と、次の状態にしか状
態が遷移しないので、矢印は、自分自身への遷移を示す
水平方向の矢印と、次の状態への遷移を示す斜め上方向
の矢印のみとなっている。
【0046】また、図7のモデルは、最終状態が状態S
3であり、前述したように最終状態からの状態の遷移は
ないものとしたので、図8において、状態S3の箱から
状態の遷移を示す矢印は書き込まれていない。
3であり、前述したように最終状態からの状態の遷移は
ないものとしたので、図8において、状態S3の箱から
状態の遷移を示す矢印は書き込まれていない。
【0047】さらに、図8のトレリスにおいては、縦方
向はモデルの状態の並びになっており、横方向は時間の
進みを表している。
向はモデルの状態の並びになっており、横方向は時間の
進みを表している。
【0048】このようなトレリスにしたがって、図7の
モデルλがシンボル系列{a,b,a}を出力する確率
が計算される場合、まず、時刻t=1においては、前述
したように初期状態は、必ず状態iS(INITIAL)となるか
ら(使用するモデルを、初期状態が状態iS(INITIAL)と
なるモデルとしたから)、状態iS(INITIAL)としての状
態S1にいる確率ν1(1)が1で、他の状態S2,S3に
いる確率ν2(1),ν3(1)は0であり、従って状態
S1の箱のみ1が書き込まれ、他の状態S2,S3の箱に
は0が書き込まれる。
モデルλがシンボル系列{a,b,a}を出力する確率
が計算される場合、まず、時刻t=1においては、前述
したように初期状態は、必ず状態iS(INITIAL)となるか
ら(使用するモデルを、初期状態が状態iS(INITIAL)と
なるモデルとしたから)、状態iS(INITIAL)としての状
態S1にいる確率ν1(1)が1で、他の状態S2,S3に
いる確率ν2(1),ν3(1)は0であり、従って状態
S1の箱のみ1が書き込まれ、他の状態S2,S3の箱に
は0が書き込まれる。
【0049】そして、状態が遷移してシンボルaが出力
された場合に、状態S1にいる確率ν1(2)は、時刻t
=1に状態S1にいて、シンボルaを出力しながら状態
S1に遷移する確率であるから、 1.0×a11×b11(a)=1.0×0.2×0.6=
0.12 となり、時刻t=2における状態S1の箱には、0.1
2が書き込まれる。
された場合に、状態S1にいる確率ν1(2)は、時刻t
=1に状態S1にいて、シンボルaを出力しながら状態
S1に遷移する確率であるから、 1.0×a11×b11(a)=1.0×0.2×0.6=
0.12 となり、時刻t=2における状態S1の箱には、0.1
2が書き込まれる。
【0050】また、この場合に、状態S2にいる確率
は、時刻t=1に状態S1にいて、シンボルaを出力し
ながら状態S2に遷移する確率と、時刻t=1に状態S2
にいて、シンボルaを出力しながら状態S2に遷移する
確率との和であるが、ビタビ法においては、式(5)に
したがってそのうちの最大値が、時刻t=2に状態S2
にいる確率ν2(2)とされる。
は、時刻t=1に状態S1にいて、シンボルaを出力し
ながら状態S2に遷移する確率と、時刻t=1に状態S2
にいて、シンボルaを出力しながら状態S2に遷移する
確率との和であるが、ビタビ法においては、式(5)に
したがってそのうちの最大値が、時刻t=2に状態S2
にいる確率ν2(2)とされる。
【0051】即ち、時刻t=1に状態S1にいて、シン
ボルaを出力しながら状態S2に遷移する確率は、 ν1(1)×a12×b12(a)=1.0×0.8×0.
5=0.4 であり、時刻t=1に状態S2にいて、シンボルaを出
力しながら状態S2に遷移する確率は、 ν2(1)×a22×b22(a)=0.0×0.4×0.
2=0 であるから、ビタビ法においては、このうちの最大値、
つまり0.4が、時刻t=2に状態S2にいる確率ν
2(2)とされる。従って、時刻t=2における状態S2
の箱には、0.4が書き込まれる。
ボルaを出力しながら状態S2に遷移する確率は、 ν1(1)×a12×b12(a)=1.0×0.8×0.
5=0.4 であり、時刻t=1に状態S2にいて、シンボルaを出
力しながら状態S2に遷移する確率は、 ν2(1)×a22×b22(a)=0.0×0.4×0.
2=0 であるから、ビタビ法においては、このうちの最大値、
つまり0.4が、時刻t=2に状態S2にいる確率ν
2(2)とされる。従って、時刻t=2における状態S2
の箱には、0.4が書き込まれる。
【0052】さらに、この場合に、状態S3にいる確率
ν3(2)は、時刻t=1に状態S2にいて、シンボルa
を出力しながら状態S3に遷移する確率であるから、 ν2(1)×a23×b23(a)=0.0×0.6×0.
4=0 となり、時刻t=2における状態S3の箱には、0が書
き込まれる。
ν3(2)は、時刻t=1に状態S2にいて、シンボルa
を出力しながら状態S3に遷移する確率であるから、 ν2(1)×a23×b23(a)=0.0×0.6×0.
4=0 となり、時刻t=2における状態S3の箱には、0が書
き込まれる。
【0053】次に、シンボルaが出力された後に、さら
に状態が遷移してシンボルbが出力された場合に、状態
S1にいる確率ν1(3)は、時刻t=2に状態S1にい
て、シンボルbを出力しながら状態S1に遷移する確率
であるから、 ν1(2)×a11×b11(b)=0.12×0.2×
0.4=0.0096 となり、時刻t=3における状態S1の箱には、0.0
096が書き込まれる。
に状態が遷移してシンボルbが出力された場合に、状態
S1にいる確率ν1(3)は、時刻t=2に状態S1にい
て、シンボルbを出力しながら状態S1に遷移する確率
であるから、 ν1(2)×a11×b11(b)=0.12×0.2×
0.4=0.0096 となり、時刻t=3における状態S1の箱には、0.0
096が書き込まれる。
【0054】また、この場合に、状態S2にいる確率ν2
(3)は、時刻t=2に状態S1にいて、シンボルbを
出力しながら状態S2に遷移する確率と、時刻t=2に
状態S2にいて、シンボルbを出力しながら状態S2に遷
移する確率との和であるが、ビタビ法においては、上述
した場合と同様に、式(5)にしたがってそのうちの最
大値が、時刻t=3に状態S2にいる確率ν2(3)とさ
れる。
(3)は、時刻t=2に状態S1にいて、シンボルbを
出力しながら状態S2に遷移する確率と、時刻t=2に
状態S2にいて、シンボルbを出力しながら状態S2に遷
移する確率との和であるが、ビタビ法においては、上述
した場合と同様に、式(5)にしたがってそのうちの最
大値が、時刻t=3に状態S2にいる確率ν2(3)とさ
れる。
【0055】即ち、時刻t=2に状態S1にいて、シン
ボルbを出力しながら状態S2に遷移する確率は、 ν1(2)0.12×a12×b12(b)=0.12×
0.8×0.5=0.048 であり、時刻t=2に状態S2にいて、シンボルbを出
力しながら状態S2に遷移する確率は、 ν2(2)×a22×b22(a)=0.4×0.4×0.
8=0.128 であるから、ビタビ法においては、このうちの最大値、
つまり0.128が、時刻t=3に状態S2にいる確率
ν2(3)とされる。従って、時刻t=2における状態
S2の箱には、0.128が書き込まれる。
ボルbを出力しながら状態S2に遷移する確率は、 ν1(2)0.12×a12×b12(b)=0.12×
0.8×0.5=0.048 であり、時刻t=2に状態S2にいて、シンボルbを出
力しながら状態S2に遷移する確率は、 ν2(2)×a22×b22(a)=0.4×0.4×0.
8=0.128 であるから、ビタビ法においては、このうちの最大値、
つまり0.128が、時刻t=3に状態S2にいる確率
ν2(3)とされる。従って、時刻t=2における状態
S2の箱には、0.128が書き込まれる。
【0056】さらに、この場合に、状態S3にいる確率
ν3(3)は、時刻t=2に状態S2にいて、シンボルb
を出力しながら状態S3に遷移する確率であるから、 ν2(2)×a23×b23(b)=0.4×0.6×0.
6=0.144 となり、時刻t=3における状態S3の箱には、0.1
44が書き込まれる。
ν3(3)は、時刻t=2に状態S2にいて、シンボルb
を出力しながら状態S3に遷移する確率であるから、 ν2(2)×a23×b23(b)=0.4×0.6×0.
6=0.144 となり、時刻t=3における状態S3の箱には、0.1
44が書き込まれる。
【0057】そして、以上のようにシンボルa,bが出
力された後に、さらに状態が遷移してシンボルaが出力
された場合における、各状態S1,S2,S3にいる確率
が上述したときと同様にして計算され、図中最右端の各
状態S1,S2,S3の箱に書き込まれる。
力された後に、さらに状態が遷移してシンボルaが出力
された場合における、各状態S1,S2,S3にいる確率
が上述したときと同様にして計算され、図中最右端の各
状態S1,S2,S3の箱に書き込まれる。
【0058】トレリスにおいては、モデルがシンボル系
列を出力する確率(尤度)は、その最も左上にある箱に
書き込まれた確率になるので、図8のトレリスにおいて
は、モデルλがシンボル系列{a,b,a}を出力する
確率(尤度)P(λ|{a,b,a})は0.0307
になる。
列を出力する確率(尤度)は、その最も左上にある箱に
書き込まれた確率になるので、図8のトレリスにおいて
は、モデルλがシンボル系列{a,b,a}を出力する
確率(尤度)P(λ|{a,b,a})は0.0307
になる。
【0059】以上の処理が、モデルλ以外のモデルにも
対して行われ、確率(尤度)が最も大きいモデルが認識
結果とされることになる。
対して行われ、確率(尤度)が最も大きいモデルが認識
結果とされることになる。
【0060】なお、ビタビ法によって状態iにいる確率
を計算する場合、上述したように、状態jから状態iに
遷移することを示すパス(図8において、状態iに対応
する箱に入ってくる矢印)に沿って計算される確率のう
ちの最大値が選択されるが、このとき同時に、この選択
された確率を得ることができた前の状態j(図8におい
て、矢印の始点側の箱に対応する状態)を、バックポイ
ンタとして保存しておくようにすることができる。
を計算する場合、上述したように、状態jから状態iに
遷移することを示すパス(図8において、状態iに対応
する箱に入ってくる矢印)に沿って計算される確率のう
ちの最大値が選択されるが、このとき同時に、この選択
された確率を得ることができた前の状態j(図8におい
て、矢印の始点側の箱に対応する状態)を、バックポイ
ンタとして保存しておくようにすることができる。
【0061】これにより、図8において、最も左上にあ
る箱に書き込まれた確率を計算した後に、バックポイン
タをたどっていけば、そのとき遷移した状態系列(以
下、最適状態系列と記載する)を求めることができる。
る箱に書き込まれた確率を計算した後に、バックポイン
タをたどっていけば、そのとき遷移した状態系列(以
下、最適状態系列と記載する)を求めることができる。
【0062】図8には、モデルλがシンボル系列{a,
b,a}を出力する確率(尤度)が最も高いときの状態
系列、即ち最適状態系列を太線で示してある。
b,a}を出力する確率(尤度)が最も高いときの状態
系列、即ち最適状態系列を太線で示してある。
【0063】次に、図9は、以上説明したようにして所
定の音声(例えば、単語など)を認識してスポッティン
グする(音声区間を検出する)音声認識装置の一例の構
成を示すブロック図である。マイク1は、入力された音
声を電気信号としての音声信号に変換する。マイク1か
らの音声信号は、LPF(ローパスフィルタ)2に入力
され、そこでフィルタリングされて、音声信号の周波数
帯域成分のうち、次段に接続されているA/D変換器3
におけるサンプリングレートの1/2以上の周波数帯域
成分がカットされる。
定の音声(例えば、単語など)を認識してスポッティン
グする(音声区間を検出する)音声認識装置の一例の構
成を示すブロック図である。マイク1は、入力された音
声を電気信号としての音声信号に変換する。マイク1か
らの音声信号は、LPF(ローパスフィルタ)2に入力
され、そこでフィルタリングされて、音声信号の周波数
帯域成分のうち、次段に接続されているA/D変換器3
におけるサンプリングレートの1/2以上の周波数帯域
成分がカットされる。
【0064】A/D変換器3は、マイク1よりLPF2
を介して出力される音声信号を所定のサンプリングレー
トでA/D変換し、ディジタル信号としての音声信号を
出力する。A/D変換器3より出力された音声信号は、
音響分析部4に入力される。音響分析部4では、A/D
変換器3より出力された音声信号が、所定のフレーム周
期ごとに音響分析され、音声の特徴パラメータとして
の、例えば線形予測係数やLPCケプストラム、周波数
帯域ごとのエネルギなどが抽出される。そして、音響分
析部4は、音声信号から抽出した特徴パラメータを、例
えば256種類のシンボル(コード)にベクトル量子化
し、シンボル系列Y(={y1,y2,・・・,yT})
をトレリス計算回路6に出力する。
を介して出力される音声信号を所定のサンプリングレー
トでA/D変換し、ディジタル信号としての音声信号を
出力する。A/D変換器3より出力された音声信号は、
音響分析部4に入力される。音響分析部4では、A/D
変換器3より出力された音声信号が、所定のフレーム周
期ごとに音響分析され、音声の特徴パラメータとして
の、例えば線形予測係数やLPCケプストラム、周波数
帯域ごとのエネルギなどが抽出される。そして、音響分
析部4は、音声信号から抽出した特徴パラメータを、例
えば256種類のシンボル(コード)にベクトル量子化
し、シンボル系列Y(={y1,y2,・・・,yT})
をトレリス計算回路6に出力する。
【0065】同時に、A/D変換器3の出力信号は、音
声区間判定回路5にも入力される。音声区間判定回路5
では、A/D変換器3の出力信号の、例えばパワーなど
が計算され、そのパワーからマイク1から音声が入力さ
れているか否かが判定される。即ち、音声区間判定回路
5では、大まかな音声区間が判定される。そして、音声
区間判定回路5は、A/D変換回路3の出力信号から判
定した大まかな音声区間をトレリス計算回路6に出力す
る。
声区間判定回路5にも入力される。音声区間判定回路5
では、A/D変換器3の出力信号の、例えばパワーなど
が計算され、そのパワーからマイク1から音声が入力さ
れているか否かが判定される。即ち、音声区間判定回路
5では、大まかな音声区間が判定される。そして、音声
区間判定回路5は、A/D変換回路3の出力信号から判
定した大まかな音声区間をトレリス計算回路6に出力す
る。
【0066】ここで、マルコフモデル記憶部21には、
前述したようにして学習、および連結学習が行われた、
例えば音韻モデル(遷移確率aijおよび生起確率b
ij(k))、単語辞書、並びに例えば遷移確率aij(生
起確率bij(k))が、i,j(i,j,k)に関わら
ずほぼ等しいような、任意の音声モデルに成り得るワイ
ルドカードモデルが記憶されている。マルコフモデル記
憶部21においては、まず単語辞書に登録されている単
語が参照され、その単語を構成するように音韻モデルが
連結される。そして、その連結モデルとしてのマルコフ
モデルの先頭にのみワイルドカードモデルが接続され、
トレリス計算回路6に供給されるようになっている。
前述したようにして学習、および連結学習が行われた、
例えば音韻モデル(遷移確率aijおよび生起確率b
ij(k))、単語辞書、並びに例えば遷移確率aij(生
起確率bij(k))が、i,j(i,j,k)に関わら
ずほぼ等しいような、任意の音声モデルに成り得るワイ
ルドカードモデルが記憶されている。マルコフモデル記
憶部21においては、まず単語辞書に登録されている単
語が参照され、その単語を構成するように音韻モデルが
連結される。そして、その連結モデルとしてのマルコフ
モデルの先頭にのみワイルドカードモデルが接続され、
トレリス計算回路6に供給されるようになっている。
【0067】トレリス計算回路6は、マルコフモデル記
憶部21より供給された、先頭にワイルドカードモデル
が接続されたマルコフモデルλが、音声区間判定回路5
から出力された大まかな音声区間の間に、音響分析部4
より供給されたシンボル系列を出力する確率(尤度)の
計算、即ちトレリスの計算を、例えば上述したビタビ法
にしたがって行う。
憶部21より供給された、先頭にワイルドカードモデル
が接続されたマルコフモデルλが、音声区間判定回路5
から出力された大まかな音声区間の間に、音響分析部4
より供給されたシンボル系列を出力する確率(尤度)の
計算、即ちトレリスの計算を、例えば上述したビタビ法
にしたがって行う。
【0068】そして、トレリス計算回路6は、先頭にワ
イルドカードモデルが接続されたマルコフモデルλの最
終状態にいる確率(以下、最終確率と記載する)を計算
し終わるたびに、その最終確率が計算されたフレーム
を、マルコフモデルλに対応するスポッティング対象音
声の音声区間の終点であると仮定し、音声区間判定回路
5から出力された大まかな音声区間における、最終確率
を時系列に算出するとともに、その最終確率を得ること
ができた最適状態系列を算出する。
イルドカードモデルが接続されたマルコフモデルλの最
終状態にいる確率(以下、最終確率と記載する)を計算
し終わるたびに、その最終確率が計算されたフレーム
を、マルコフモデルλに対応するスポッティング対象音
声の音声区間の終点であると仮定し、音声区間判定回路
5から出力された大まかな音声区間における、最終確率
を時系列に算出するとともに、その最終確率を得ること
ができた最適状態系列を算出する。
【0069】トレリス計算回路6で算出された最終確率
は、時系列にスポッティング判定回路22に供給され
る。スポッティング判定回路22は、トレリス計算回路
6から出力された最終確率が所定の閾値より高いフレー
ム区間が存在するか否かを判定し、最終確率が所定の閾
値より高いフレーム区間が存在すると判定した場合、音
声区間判定回路5から出力された大まかな音声区間中
に、マルコフモデルλに対応するスポッティング対象の
音声が存在すると認識する。
は、時系列にスポッティング判定回路22に供給され
る。スポッティング判定回路22は、トレリス計算回路
6から出力された最終確率が所定の閾値より高いフレー
ム区間が存在するか否かを判定し、最終確率が所定の閾
値より高いフレーム区間が存在すると判定した場合、音
声区間判定回路5から出力された大まかな音声区間中
に、マルコフモデルλに対応するスポッティング対象の
音声が存在すると認識する。
【0070】そして、スポッティング判定回路22は、
最終確率が所定の閾値より高いフレーム区間のうち、最
終確率が最大となるフレームを検出し、そのフレームを
マルコフモデルλに対応するスポッティング対象音声の
音声区間の終点として決定する。さらに、スポッティン
グ判定回路22は、決定したスポッティング対象音声の
音声区間の終点(フレーム)において、最終状態にいる
最適状態系列を、トレリス計算回路6から得て、その最
適状態系列において、モデルλの先頭の状態に接続され
たワイルドカードモデルの状態から、音声に対応するモ
デルλの先頭の状態に遷移したときのフレームを、モデ
ルλに対応するスポッティング対象音声の音声区間の始
点として決定する。
最終確率が所定の閾値より高いフレーム区間のうち、最
終確率が最大となるフレームを検出し、そのフレームを
マルコフモデルλに対応するスポッティング対象音声の
音声区間の終点として決定する。さらに、スポッティン
グ判定回路22は、決定したスポッティング対象音声の
音声区間の終点(フレーム)において、最終状態にいる
最適状態系列を、トレリス計算回路6から得て、その最
適状態系列において、モデルλの先頭の状態に接続され
たワイルドカードモデルの状態から、音声に対応するモ
デルλの先頭の状態に遷移したときのフレームを、モデ
ルλに対応するスポッティング対象音声の音声区間の始
点として決定する。
【0071】スポッティング判定回路22は、以上のよ
うにしてモデルλに対応するスポッティング対象音声の
音声区間の始点および終点を決定すると、その始点およ
び終点並びにスポッティング対象音声としてのマルコフ
モデルλを認識結果として出力する。
うにしてモデルλに対応するスポッティング対象音声の
音声区間の始点および終点を決定すると、その始点およ
び終点並びにスポッティング対象音声としてのマルコフ
モデルλを認識結果として出力する。
【0072】なお、トレリス計算回路6およびスポッテ
ィング判定回路22における処理は、マルコフモデル記
憶部21の単語辞書に基づいて連結されるマルコフモデ
ルすべてに対して行われる。
ィング判定回路22における処理は、マルコフモデル記
憶部21の単語辞書に基づいて連結されるマルコフモデ
ルすべてに対して行われる。
【0073】
【発明が解決しようとする課題】以上のように、HMM
を用いた音声認識装置においては、スポッティング対象
音声の音声区間の始点は、その終点から容易に決定する
ことができるが、それに比較して、スポッティング対象
音声の音声区間の終点を決定するには、上述したように
時系列の最終確率が所定の閾値より高いフレーム区間を
検出し、さらにそのフレーム区間から、最終確率が最大
となるフレームを検出しなければならず、処理が繁雑に
なり、実時間処理が困難になる課題があった。
を用いた音声認識装置においては、スポッティング対象
音声の音声区間の始点は、その終点から容易に決定する
ことができるが、それに比較して、スポッティング対象
音声の音声区間の終点を決定するには、上述したように
時系列の最終確率が所定の閾値より高いフレーム区間を
検出し、さらにそのフレーム区間から、最終確率が最大
となるフレームを検出しなければならず、処理が繁雑に
なり、実時間処理が困難になる課題があった。
【0074】本発明は、このような状況に鑑みてなされ
たものであり、音声認識処理を高速に行うことができる
ようにするものである。
たものであり、音声認識処理を高速に行うことができる
ようにするものである。
【0075】
【課題を解決するための手段】請求項1に記載の音声認
識装置は、マルコフモデルを用いた音声認識装置におい
て、音声から生成されたマルコフモデルとともに、ワイ
ルドカードモデルを記憶している記憶手段としてのマル
コフモデル記憶部7と、音声からシンボルを生成するシ
ンボル生成手段としての音響分析部4と、マルコフモデ
ル記憶部7に記憶されているマルコフモデルの前後に、
ワイルドカードモデルを接続し、接続モデルを生成する
モデル生成手段としてのマルコフモデル接続回路8と、
マルコフモデル接続回路8により生成された接続モデル
から、音響分析部4から出力されたシンボルが生起され
る確率を計算する計算手段としてのトレリス計算回路6
とを備え、トレリス計算回路6の計算結果に基づいて、
音声を認識することを特徴とする。
識装置は、マルコフモデルを用いた音声認識装置におい
て、音声から生成されたマルコフモデルとともに、ワイ
ルドカードモデルを記憶している記憶手段としてのマル
コフモデル記憶部7と、音声からシンボルを生成するシ
ンボル生成手段としての音響分析部4と、マルコフモデ
ル記憶部7に記憶されているマルコフモデルの前後に、
ワイルドカードモデルを接続し、接続モデルを生成する
モデル生成手段としてのマルコフモデル接続回路8と、
マルコフモデル接続回路8により生成された接続モデル
から、音響分析部4から出力されたシンボルが生起され
る確率を計算する計算手段としてのトレリス計算回路6
とを備え、トレリス計算回路6の計算結果に基づいて、
音声を認識することを特徴とする。
【0076】請求項2に記載の音声認識装置は、マルコ
フモデルを用いた音声認識装置において、音声から生成
されたマルコフモデルとともに、ワイルドカードモデル
を記憶している記憶手段としてのマルコフモデル記憶部
7と、音声からシンボルを生成するシンボル生成手段と
しての音響分析部4と、マルコフモデル記憶部7に記憶
されているマルコフモデルの前後に、ワイルドカードモ
デルを接続し、接続モデルを生成するモデル生成手段と
してのマルコフモデル接続回路8と、マルコフモデル接
続回路8により生成された接続モデルから、音響分析部
4から出力されたシンボルが生起される確率を計算する
計算手段としてのトレリス計算回路6と、トレリス計算
回路6の計算結果に基づいて、音声の音声区間をスポッ
ティングするスポッティング手段としてのスポッティン
グ判定回路9とを備えることを特徴とする。
フモデルを用いた音声認識装置において、音声から生成
されたマルコフモデルとともに、ワイルドカードモデル
を記憶している記憶手段としてのマルコフモデル記憶部
7と、音声からシンボルを生成するシンボル生成手段と
しての音響分析部4と、マルコフモデル記憶部7に記憶
されているマルコフモデルの前後に、ワイルドカードモ
デルを接続し、接続モデルを生成するモデル生成手段と
してのマルコフモデル接続回路8と、マルコフモデル接
続回路8により生成された接続モデルから、音響分析部
4から出力されたシンボルが生起される確率を計算する
計算手段としてのトレリス計算回路6と、トレリス計算
回路6の計算結果に基づいて、音声の音声区間をスポッ
ティングするスポッティング手段としてのスポッティン
グ判定回路9とを備えることを特徴とする。
【0077】請求項3に記載の音声認識装置は、トレリ
ス計算回路6が、確率をビタビ法にしたがって計算する
ことを特徴とする。
ス計算回路6が、確率をビタビ法にしたがって計算する
ことを特徴とする。
【0078】請求項4に記載の音声認識装置は、マルコ
フモデル記憶部7が、音素、音韻、単語、文節、または
文に対応する音声から生成されたマルコフモデルを記憶
していることを特徴とする。
フモデル記憶部7が、音素、音韻、単語、文節、または
文に対応する音声から生成されたマルコフモデルを記憶
していることを特徴とする。
【0079】請求項5に記載の音声認識装置は、音響分
析部4が、音声の特徴量をベクトル化またはベクトル量
子化して、シンボルを生成することを特徴とする。
析部4が、音声の特徴量をベクトル化またはベクトル量
子化して、シンボルを生成することを特徴とする。
【0080】
【作用】上記構成の音声認識装置においては、マルコフ
モデル記憶部7に記憶されているマルコフモデルの前後
に、ワイルドカードモデルを接続し、接続モデルを生成
する。そして、この接続モデルから、音響分析部4で音
声から生成されたシンボルが生起される確率を、例えば
ビタビ法にしたがって計算し、その計算結果に基づい
て、音声を認識し、また音声の音声区間をスポッティン
グする。従って、音声認識処理を高速に行うことができ
る。
モデル記憶部7に記憶されているマルコフモデルの前後
に、ワイルドカードモデルを接続し、接続モデルを生成
する。そして、この接続モデルから、音響分析部4で音
声から生成されたシンボルが生起される確率を、例えば
ビタビ法にしたがって計算し、その計算結果に基づい
て、音声を認識し、また音声の音声区間をスポッティン
グする。従って、音声認識処理を高速に行うことができ
る。
【0081】
【実施例】図1は、本発明の音声認識装置の一実施例の
構成を示すブロック図である。図中、図9における場合
と対応する部分については、同一の符号を付してある。
マルコフモデル記憶部7には、前述したようにして学習
が行われた、例えば音韻モデル(遷移確率aijおよび生
起確率bij(k))、および例えば遷移確率aij(生起
確率bij(k))が、i,j(i,j,k)に関わらず
ほぼ等しいような、任意の音声モデルに成り得るワイル
ドカードモデルが記憶されている。
構成を示すブロック図である。図中、図9における場合
と対応する部分については、同一の符号を付してある。
マルコフモデル記憶部7には、前述したようにして学習
が行われた、例えば音韻モデル(遷移確率aijおよび生
起確率bij(k))、および例えば遷移確率aij(生起
確率bij(k))が、i,j(i,j,k)に関わらず
ほぼ等しいような、任意の音声モデルに成り得るワイル
ドカードモデルが記憶されている。
【0082】マルコフモデル接続回路8は、マルコフモ
デル記憶部7に記憶されている音韻モデルおよびワイル
ドカードモデルを読み出し、音韻モデルの前後にワイル
ドカードモデルを連結して連結モデルを生成する。
デル記憶部7に記憶されている音韻モデルおよびワイル
ドカードモデルを読み出し、音韻モデルの前後にワイル
ドカードモデルを連結して連結モデルを生成する。
【0083】即ち、マルコフモデル接続回路8は、例え
ば3つの状態S1,S2、およびS3からなる音韻モデル
λ、並びに例えば1つの状態SW1,SW2からそれぞれな
る2つのワイルドカードモデルλW1,λW2をマルコフモ
デル記憶部7から読み出した場合、状態S1の前に状態
SW1を接続するとともに、状態S3の後に状態SW2を接
続し、図2に示すような5つの状態SW1,S1,S2,S
3,SW2からなる接続モデルλSを生成する。マルコフモ
デル接続回路8で生成された接続モデルは、トレリス計
算回路6に供給されるようになされている。
ば3つの状態S1,S2、およびS3からなる音韻モデル
λ、並びに例えば1つの状態SW1,SW2からそれぞれな
る2つのワイルドカードモデルλW1,λW2をマルコフモ
デル記憶部7から読み出した場合、状態S1の前に状態
SW1を接続するとともに、状態S3の後に状態SW2を接
続し、図2に示すような5つの状態SW1,S1,S2,S
3,SW2からなる接続モデルλSを生成する。マルコフモ
デル接続回路8で生成された接続モデルは、トレリス計
算回路6に供給されるようになされている。
【0084】スポッティング判定回路9は、音声区間判
定回路5から出力された大まかな音声区間の終点に対応
する時刻T(フレーム)に、即ちマイク1への発声が終
了したときに、トレリス計算回路6から出力される、接
続モデルλSの最終確率の、例えば対数をとり、それ
に、音声区間判定回路5から出力された大まかな音声区
間に対応するフレーム数(以下、正規化フレーム数と記
載する)Fを乗算して正規化した正規化値を計算する。
定回路5から出力された大まかな音声区間の終点に対応
する時刻T(フレーム)に、即ちマイク1への発声が終
了したときに、トレリス計算回路6から出力される、接
続モデルλSの最終確率の、例えば対数をとり、それ
に、音声区間判定回路5から出力された大まかな音声区
間に対応するフレーム数(以下、正規化フレーム数と記
載する)Fを乗算して正規化した正規化値を計算する。
【0085】そして、その正規化値が、所定の閾値より
大きい場合、スポッティング判定回路9は、音声区間判
定回路5から出力された大まかな音声区間中に、接続モ
デルλS(音韻モデルλ)に対応するスポッティング対
象の音声が存在すると認識し、トレリス計算回路6で算
出された接続モデルλSの最適状態系列を参照して、そ
の最適状態系列において、音韻モデルλの最後の状態S
3から、そこに接続されたワイルドカードモデルλW2の
状態SW2に遷移したときの時刻t2(フレーム)を、音
韻モデルλに対応するスポッティング対象音声の音声区
間の終点として決定する。
大きい場合、スポッティング判定回路9は、音声区間判
定回路5から出力された大まかな音声区間中に、接続モ
デルλS(音韻モデルλ)に対応するスポッティング対
象の音声が存在すると認識し、トレリス計算回路6で算
出された接続モデルλSの最適状態系列を参照して、そ
の最適状態系列において、音韻モデルλの最後の状態S
3から、そこに接続されたワイルドカードモデルλW2の
状態SW2に遷移したときの時刻t2(フレーム)を、音
韻モデルλに対応するスポッティング対象音声の音声区
間の終点として決定する。
【0086】さらに、スポッティング判定回路9は、ト
レリス計算回路6で算出された接続モデルλSの最適状
態系列において、音韻モデルλの最初の状態S1に接続
されたワイルドカードモデルλW1の状態SW1から、音韻
モデルλの最初の状態S1に遷移したときの時刻t1(フ
レーム)を、音韻モデルλに対応するスポッティング対
象音声の音声区間の始点として決定する。
レリス計算回路6で算出された接続モデルλSの最適状
態系列において、音韻モデルλの最初の状態S1に接続
されたワイルドカードモデルλW1の状態SW1から、音韻
モデルλの最初の状態S1に遷移したときの時刻t1(フ
レーム)を、音韻モデルλに対応するスポッティング対
象音声の音声区間の始点として決定する。
【0087】スポッティング判定回路9は、以上のよう
にしてスポッティング対象音声の音声区間の始点t1お
よび終点t2を決定すると、その始点t1および終点t2
並びにスポッティング対象音声を認識結果として出力す
る。
にしてスポッティング対象音声の音声区間の始点t1お
よび終点t2を決定すると、その始点t1および終点t2
並びにスポッティング対象音声を認識結果として出力す
る。
【0088】以上のように構成される音声認識装置にお
いては、マイク1に入力された音声が、電気信号として
の音声信号に変換され、LPF2を介してA/D変換器
3に出力される。
いては、マイク1に入力された音声が、電気信号として
の音声信号に変換され、LPF2を介してA/D変換器
3に出力される。
【0089】A/D変換器3において、マイク1よりL
PF2を介して出力された音声信号が所定のサンプリン
グレートでA/D変換され、ディジタル信号としての音
声信号が音響分析部4および音声区間判定回路5に出力
される。音響分析部4では、A/D変換器3より出力さ
れた音声信号が、所定のフレーム周期ごとに音響分析さ
れ、音声の特徴パラメータとしての、例えば線形予測係
数やLPCケプストラム、周波数帯域ごとのエネルギな
どが抽出される。そして、音声信号から抽出した特徴パ
ラメータがベクトル量子化され、シンボル系列Y(=
{y1,y2,・・・,yT})がトレリス計算回路6に
出力される。
PF2を介して出力された音声信号が所定のサンプリン
グレートでA/D変換され、ディジタル信号としての音
声信号が音響分析部4および音声区間判定回路5に出力
される。音響分析部4では、A/D変換器3より出力さ
れた音声信号が、所定のフレーム周期ごとに音響分析さ
れ、音声の特徴パラメータとしての、例えば線形予測係
数やLPCケプストラム、周波数帯域ごとのエネルギな
どが抽出される。そして、音声信号から抽出した特徴パ
ラメータがベクトル量子化され、シンボル系列Y(=
{y1,y2,・・・,yT})がトレリス計算回路6に
出力される。
【0090】同時に、音声区間判定回路5では、A/D
変換器3の出力信号の、例えばパワーなどが計算され、
そのパワーからマイク1から音声が入力されているか否
かが判定され、これにより、大まかな音声区間が検出
(判定)される。そして、この大まかな音声区間はトレ
リス計算回路6に出力される。
変換器3の出力信号の、例えばパワーなどが計算され、
そのパワーからマイク1から音声が入力されているか否
かが判定され、これにより、大まかな音声区間が検出
(判定)される。そして、この大まかな音声区間はトレ
リス計算回路6に出力される。
【0091】音声区間判定回路5からトレリス計算回路
6に大まかな音声区間が出力されると、マルコフモデル
接続回路8において、マルコフモデル記憶部7に記憶さ
れている音韻モデルおよびワイルドカードモデルが読み
出され、音韻モデルの前後にワイルドカードモデルが連
結されて連結モデルが生成される。
6に大まかな音声区間が出力されると、マルコフモデル
接続回路8において、マルコフモデル記憶部7に記憶さ
れている音韻モデルおよびワイルドカードモデルが読み
出され、音韻モデルの前後にワイルドカードモデルが連
結されて連結モデルが生成される。
【0092】即ち、マルコフモデル接続回路8におい
て、例えば図2に示すような、状態S1,S2、およびS
3からなる音韻モデルλの前後に、状態SW1,SW2から
それぞれなる2つのワイルドカードモデルλW1,λW2が
接続され、状態SW1,S1,S2,S3,SW2からなる接
続モデルλSが生成される。
て、例えば図2に示すような、状態S1,S2、およびS
3からなる音韻モデルλの前後に、状態SW1,SW2から
それぞれなる2つのワイルドカードモデルλW1,λW2が
接続され、状態SW1,S1,S2,S3,SW2からなる接
続モデルλSが生成される。
【0093】マルコフモデル接続回路8で生成された接
続モデルλSは、トレリス計算回路6に供給され、そこ
で、その接続モデルλSが、音声区間判定回路5から出
力された大まかな音声区間の間に、音響分析部4より供
給されたシンボル系列を出力する確率(尤度)の計算、
即ちトレリスの計算が、例えば上述したビタビ法にした
がって行われる。
続モデルλSは、トレリス計算回路6に供給され、そこ
で、その接続モデルλSが、音声区間判定回路5から出
力された大まかな音声区間の間に、音響分析部4より供
給されたシンボル系列を出力する確率(尤度)の計算、
即ちトレリスの計算が、例えば上述したビタビ法にした
がって行われる。
【0094】ここで、図2に示す接続モデルλSから、
シンボル系列Yが出力(生起)される場合のトレリスを
図3に示す。
シンボル系列Yが出力(生起)される場合のトレリスを
図3に示す。
【0095】トレリス計算回路6においては、接続モデ
ルλSの最終状態にいる確率(最終確率)の計算が終了
するたびに、その最終確率が計算されたフレームが、マ
ルコフモデルλに対応するスポッティング対象音声の音
声区間の終点であると仮定され、音声区間判定回路5か
ら出力された大まかな音声区間における、最終確率が時
系列に算出されるとともに、その最終確率を得ることが
できた、例えば図4に示すような最適状態系列が算出さ
れる。
ルλSの最終状態にいる確率(最終確率)の計算が終了
するたびに、その最終確率が計算されたフレームが、マ
ルコフモデルλに対応するスポッティング対象音声の音
声区間の終点であると仮定され、音声区間判定回路5か
ら出力された大まかな音声区間における、最終確率が時
系列に算出されるとともに、その最終確率を得ることが
できた、例えば図4に示すような最適状態系列が算出さ
れる。
【0096】なお、図4は、音声区間判定回路5から出
力された大まかな音声区間の終点における最終確率を得
ることができた最適状態系列を示している。
力された大まかな音声区間の終点における最終確率を得
ることができた最適状態系列を示している。
【0097】トレリス計算回路6で算出された最終確率
は、時系列にスポッティング判定回路9に供給される。
は、時系列にスポッティング判定回路9に供給される。
【0098】スポッティング判定回路9では、音声区間
判定回路5から出力された大まかな音声区間の終点に対
応する時刻T(フレーム)に、トレリス計算回路6から
出力された、接続モデルλSの最終確率(図3におい
て、斜線を付してある状態にいる確率)の対数がとれら
れ、さらにそれに、音声区間判定回路5から出力された
大まかな音声区間に対応する正規化フレーム数Fが乗算
されて正規化される。
判定回路5から出力された大まかな音声区間の終点に対
応する時刻T(フレーム)に、トレリス計算回路6から
出力された、接続モデルλSの最終確率(図3におい
て、斜線を付してある状態にいる確率)の対数がとれら
れ、さらにそれに、音声区間判定回路5から出力された
大まかな音声区間に対応する正規化フレーム数Fが乗算
されて正規化される。
【0099】ここで、最終確率は、音声区間判定回路5
から出力された音声区間がより長いほど、1未満の正数
(遷移確率および生起確率)がより乗算されて計算され
るため、スポッティング判定回路9では、最終確率(本
実施例においては、最終確率の対数をとった値)に、音
声区間に対応する正規化フレーム数Fを乗算して正規化
するようになっている。
から出力された音声区間がより長いほど、1未満の正数
(遷移確率および生起確率)がより乗算されて計算され
るため、スポッティング判定回路9では、最終確率(本
実施例においては、最終確率の対数をとった値)に、音
声区間に対応する正規化フレーム数Fを乗算して正規化
するようになっている。
【0100】そして、スポッティング判定回路9におい
て、正規化値が所定の閾値と比較され、正規化値が所定
の閾値より大きいと判定された場合、音声区間判定回路
5から出力された大まかな音声区間中に、接続モデルλ
S(音韻モデルλ)に対応するスポッティング対象の音
声が存在すると認識される。さらに、この場合、スポッ
ティング判定回路9では、トレリス計算回路6で算出さ
れた接続モデルλSの最適状態系列(図4)が参照さ
れ、その最適状態系列において、音韻モデルλの最後の
状態S3から、そこに接続されたワイルドカードモデル
λW2の状態SW2に遷移したときの時刻t2(フレーム)
が、音韻モデルλに対応するスポッティング対象音声
(音韻)の音声区間の終点として決定される。
て、正規化値が所定の閾値と比較され、正規化値が所定
の閾値より大きいと判定された場合、音声区間判定回路
5から出力された大まかな音声区間中に、接続モデルλ
S(音韻モデルλ)に対応するスポッティング対象の音
声が存在すると認識される。さらに、この場合、スポッ
ティング判定回路9では、トレリス計算回路6で算出さ
れた接続モデルλSの最適状態系列(図4)が参照さ
れ、その最適状態系列において、音韻モデルλの最後の
状態S3から、そこに接続されたワイルドカードモデル
λW2の状態SW2に遷移したときの時刻t2(フレーム)
が、音韻モデルλに対応するスポッティング対象音声
(音韻)の音声区間の終点として決定される。
【0101】さらに、スポッティング判定回路9では、
トレリス計算回路6で算出された接続モデルλSの最適
状態系列において、音韻モデルλの最初の状態S1に接
続されたワイルドカードモデルλW1の状態SW1から、音
韻モデルλの最初の状態S1に遷移したときの時刻t
1(フレーム)が、音韻モデルλに対応するスポッティ
ング対象音声(音韻)の音声区間の始点として決定され
る。
トレリス計算回路6で算出された接続モデルλSの最適
状態系列において、音韻モデルλの最初の状態S1に接
続されたワイルドカードモデルλW1の状態SW1から、音
韻モデルλの最初の状態S1に遷移したときの時刻t
1(フレーム)が、音韻モデルλに対応するスポッティ
ング対象音声(音韻)の音声区間の始点として決定され
る。
【0102】スポッティング判定回路9においては、以
上のようにしてスポッティング対象音声の音声区間の始
点t1および終点t2が決定されると、その始点t1およ
び終点t2並びにスポッティング対象音声が認識結果と
して出力される。
上のようにしてスポッティング対象音声の音声区間の始
点t1および終点t2が決定されると、その始点t1およ
び終点t2並びにスポッティング対象音声が認識結果と
して出力される。
【0103】なお、上述のトレリス計算回路6およびス
ポッティング判定回路9における処理は、マルコフモデ
ル記憶部7からマルコフモデル接続部8を介してトレリ
ス計算回路6に供給されるマルコフモデルすべてに対し
て行われる。
ポッティング判定回路9における処理は、マルコフモデ
ル記憶部7からマルコフモデル接続部8を介してトレリ
ス計算回路6に供給されるマルコフモデルすべてに対し
て行われる。
【0104】以上のように、音声モデルとしてのマルコ
フモデルの前後に、ワイルドカードモデルを接続して生
成した接続モデルから、音響分析部4より出力されたシ
ンボル系列が生起される確率を計算するようにしたの
で、その確率を得ることができた最適状態系列から容易
に音声区間をスポッティングすることができる。
フモデルの前後に、ワイルドカードモデルを接続して生
成した接続モデルから、音響分析部4より出力されたシ
ンボル系列が生起される確率を計算するようにしたの
で、その確率を得ることができた最適状態系列から容易
に音声区間をスポッティングすることができる。
【0105】なお、本実施例においては、音響分析部4
より出力されたシンボル系列Yが、接続モデルλSから
生起される確率P(λ|Y)をビタビ法によって計算
し、最適状態系列を算出するようにしたが、確率P(λ
|Y)を他の方法によって計算するようにすることがで
きる。さらに、最適状態系列も、図4に示すように1つ
だけ求めるのではなく、複数求めるようにしても良い。
より出力されたシンボル系列Yが、接続モデルλSから
生起される確率P(λ|Y)をビタビ法によって計算
し、最適状態系列を算出するようにしたが、確率P(λ
|Y)を他の方法によって計算するようにすることがで
きる。さらに、最適状態系列も、図4に示すように1つ
だけ求めるのではなく、複数求めるようにしても良い。
【0106】また、スポッティング判定回路9におい
て、正規化値と比較される所定の閾値は、トレリス計算
回路6の出力値に対応して動的に変化させるようにする
ことができる。
て、正規化値と比較される所定の閾値は、トレリス計算
回路6の出力値に対応して動的に変化させるようにする
ことができる。
【0107】さらに、音声区間判定回路5は、トレリス
計算回路6と一体化して構成するようにすることができ
る。
計算回路6と一体化して構成するようにすることができ
る。
【0108】また、本実施例においては、スポッティン
グ対象音声を音韻として、音韻に対応するマルコフモデ
ルをマルコフモデル記憶部7に記憶させておくようにし
たが、音韻だけでなく、例えば音素や、単語、文節、文
などに対応するマルコフモデルをマルコフモデル記憶部
7に記憶させておくようにすることができる。例えば、
6つの状態S1乃至S6からなる単語マルコフモデルの前
後にワイルドカードモデルが接続された接続モデルを図
5に示す。
グ対象音声を音韻として、音韻に対応するマルコフモデ
ルをマルコフモデル記憶部7に記憶させておくようにし
たが、音韻だけでなく、例えば音素や、単語、文節、文
などに対応するマルコフモデルをマルコフモデル記憶部
7に記憶させておくようにすることができる。例えば、
6つの状態S1乃至S6からなる単語マルコフモデルの前
後にワイルドカードモデルが接続された接続モデルを図
5に示す。
【0109】さらに、マルコフモデル記憶部7に、学
習、および連結学習が行われた、例えば音韻モデルや音
素モデルとともに、単語辞書を記憶させておき、単語辞
書に登録されている単語を参照して、単語モデルを構成
するように音韻モデルや音素モデルを連結するようにす
ることができる。
習、および連結学習が行われた、例えば音韻モデルや音
素モデルとともに、単語辞書を記憶させておき、単語辞
書に登録されている単語を参照して、単語モデルを構成
するように音韻モデルや音素モデルを連結するようにす
ることができる。
【0110】また、枝分かれのあるようなマルコフモデ
ルをマルコフモデル記憶部7に記憶させておくようにす
ることもできる。
ルをマルコフモデル記憶部7に記憶させておくようにす
ることもできる。
【0111】さらに、本実施例では、音声に対応するマ
ルコフモデルの前後に1つの状態からなるワイルドカー
ドモデルを接続するようにしたが、複数の状態からなる
ワイルドカードモデルを接続するようにしても良い。
ルコフモデルの前後に1つの状態からなるワイルドカー
ドモデルを接続するようにしたが、複数の状態からなる
ワイルドカードモデルを接続するようにしても良い。
【0112】また、スポッティング判定回路9に、フレ
ームごとの正規化値を算出させ、この正規化値が、所定
のフレーム区間だけ連続して所定の閾値より大きい場合
に、モデルに対応するスポッティング対象音声が、音声
区間判定回路5より出力される大まかな音声区間中に存
在すると認識させるようにすることができる。
ームごとの正規化値を算出させ、この正規化値が、所定
のフレーム区間だけ連続して所定の閾値より大きい場合
に、モデルに対応するスポッティング対象音声が、音声
区間判定回路5より出力される大まかな音声区間中に存
在すると認識させるようにすることができる。
【0113】さらに、本実施例においては、離散型のH
MMについてのみ言及したが、連続型のHMMを用いる
ようにしても問題はない。
MMについてのみ言及したが、連続型のHMMを用いる
ようにしても問題はない。
【0114】
【発明の効果】以上の如く、本発明の音声認識装置によ
れば、記憶手段に記憶されているマルコフモデルの前後
に、ワイルドカードモデルを接続し、接続モデルを生成
する。そして、この接続モデルから、シンボル生成手段
により音声から生成されたシンボルが生起される確率を
計算し、その計算結果に基づいて、音声を認識し、また
音声の音声区間をスポッティングする。従って、音声認
識処理を高速に行うことができる。
れば、記憶手段に記憶されているマルコフモデルの前後
に、ワイルドカードモデルを接続し、接続モデルを生成
する。そして、この接続モデルから、シンボル生成手段
により音声から生成されたシンボルが生起される確率を
計算し、その計算結果に基づいて、音声を認識し、また
音声の音声区間をスポッティングする。従って、音声認
識処理を高速に行うことができる。
【図1】本発明の音声認識装置の一実施例の構成を示す
ブロック図である。
ブロック図である。
【図2】音韻に対応するマルコフモデルの前後にワイル
ドカードモデルを接続した接続モデルの一実施例の構成
を示す図である。
ドカードモデルを接続した接続モデルの一実施例の構成
を示す図である。
【図3】トレリスを示す図である。
【図4】最適状態系列を示す図である。
【図5】単語に対応するマルコフモデルの前後にワイル
ドカードモデルを接続した接続モデルの一実施例の構成
を示す図である。
ドカードモデルを接続した接続モデルの一実施例の構成
を示す図である。
【図6】マルコフモデルを示す図である。
【図7】マルコフモデルを示す図である。
【図8】トレリスの計算を説明する図である。
【図9】従来の音声認識装置の一例の構成を示す図であ
る。
る。
1 マイク 2 ローパスフィルタ(LPF) 3 A/D変換器 4 音響分析部 5 音声区間判定回路 6 トレリス計算回路 7 マルコフモデル記憶部 8 マルコフモデル接続回路 9 スポッティング判定回路 21 マルコフモデル記憶部 22 スポッティング判定回路
Claims (5)
- 【請求項1】 マルコフモデルを用いた音声認識装置に
おいて、 音声から生成された前記マルコフモデルとともに、ワイ
ルドカードモデルを記憶している記憶手段と、 前記音声からシンボルを生成するシンボル生成手段と、 前記記憶手段に記憶されている前記マルコフモデルの前
後に、前記ワイルドカードモデルを接続し、接続モデル
を生成するモデル生成手段と、 前記モデル生成手段により生成された前記接続モデルか
ら、前記シンボル生成手段から出力された前記シンボル
が生起される確率を計算する計算手段とを備え、 前記計算手段の計算結果に基づいて、前記音声を認識す
ることを特徴とする音声認識装置。 - 【請求項2】 マルコフモデルを用いた音声認識装置に
おいて、 音声から生成された前記マルコフモデルとともに、ワイ
ルドカードモデルを記憶している記憶手段と、 前記音声からシンボルを生成するシンボル生成手段と、 前記記憶手段に記憶されている前記マルコフモデルの前
後に、前記ワイルドカードモデルを連結し、接続モデル
を生成するモデル生成手段と、 前記モデル生成手段により生成された前記接続モデルか
ら、前記シンボル生成手段から出力された前記シンボル
が生起される確率を計算する計算手段と、 前記計算手段の計算結果に基づいて、前記音声の音声区
間をスポッティングするスポッティング手段とを備える
ことを特徴とする音声認識装置。 - 【請求項3】 前記計算手段は、前記確率をビタビ法に
したがって計算することを特徴とする請求項1または2
に記載の音声認識装置。 - 【請求項4】 前記記憶手段は、音素、音韻、単語、文
節、または文に対応する音声から生成されたマルコフモ
デルを記憶していることを特徴とする請求項1乃至3の
いずれかに記載の音声認識装置。 - 【請求項5】 前記シンボル生成手段は、前記音声の特
徴量をベクトル化またはベクトル量子化して、前記シン
ボルを生成することを特徴とする請求項1乃至4のいず
れかに記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4343327A JPH06167994A (ja) | 1992-11-30 | 1992-11-30 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4343327A JPH06167994A (ja) | 1992-11-30 | 1992-11-30 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06167994A true JPH06167994A (ja) | 1994-06-14 |
Family
ID=18360672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4343327A Pending JPH06167994A (ja) | 1992-11-30 | 1992-11-30 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06167994A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1378885A2 (en) * | 2002-07-03 | 2004-01-07 | Pioneer Corporation | Word-spotting apparatus, word-spotting method, and word-spotting program |
-
1992
- 1992-11-30 JP JP4343327A patent/JPH06167994A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1378885A2 (en) * | 2002-07-03 | 2004-01-07 | Pioneer Corporation | Word-spotting apparatus, word-spotting method, and word-spotting program |
EP1378885A3 (en) * | 2002-07-03 | 2004-05-26 | Pioneer Corporation | Word-spotting apparatus, word-spotting method, and word-spotting program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5515475A (en) | Speech recognition method using a two-pass search | |
US5050215A (en) | Speech recognition method | |
US5794197A (en) | Senone tree representation and evaluation | |
JP4531166B2 (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
WO2001022400A1 (en) | Iterative speech recognition from multiple feature vectors | |
JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
JPH0372998B2 (ja) | ||
JPS62231997A (ja) | 音声認識システム及びその方法 | |
JPH0934486A (ja) | 音声認識方法、情報形成方法、音声認識装置および記録媒体 | |
KR20010102549A (ko) | 화자 인식 방법 및 장치 | |
EP0453649A2 (en) | Method and apparatus for modeling words with composite Markov models | |
WO2002091355A1 (en) | High-order entropy error functions for neural classifiers | |
US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JPH064097A (ja) | 話者認識方法 | |
JP3589044B2 (ja) | 話者適応化装置 | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
JPH06167994A (ja) | 音声認識装置 | |
JP2005091504A (ja) | 音声認識装置 | |
JPH10254477A (ja) | 音素境界検出装置及び音声認識装置 | |
JPH05303391A (ja) | 音声認識装置 | |
KR100194581B1 (ko) | 부서자동 안내를 위한 음성 다이얼링 시스템 | |
JPH06167995A (ja) | 音声認識装置 | |
JPH0372996B2 (ja) | ||
JP2986703B2 (ja) | 音声認識装置 | |
JP3105708B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20030610 |