JP3251430B2 - 状態遷移モデル作成方法 - Google Patents
状態遷移モデル作成方法Info
- Publication number
- JP3251430B2 JP3251430B2 JP18162694A JP18162694A JP3251430B2 JP 3251430 B2 JP3251430 B2 JP 3251430B2 JP 18162694 A JP18162694 A JP 18162694A JP 18162694 A JP18162694 A JP 18162694A JP 3251430 B2 JP3251430 B2 JP 3251430B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- word
- states
- feature vector
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
法に関し、より詳細には、単語あるいは発声に応じて状
態数の異なる単語モデルを作成できるようにし、条件に
よらずに均質で良質なモデルを作成できるようにした音
声認識技術、特に単語音声認識技術に関する。
ルコフモデル(HMM:Hidden Markov Model)を用
いた認識方式がよく知られている。しかし、HMMには
必要な学習量が多いという性質がある。これに対して、
1回発声の学習用単語音声から状態遷移モデルを作成す
ることが可能な方式として、DSTモデル(Durationb
ased States Transition Model:継続時間制御型状
態遷移モデル)が提案されている(電子情報通信学会論
文誌D-II Vol.J72-D-II No.11 pp.1769-1777 1989年11
月)。
的な情報だけを抽出して標準パターン(単語モデル)を
作成し、時間伸縮の具合も類似性として照合結果に反映
できるようにしたもので、単語パターンを少数の状態の
時系列で表現するという点では、HMM等と似ている
が、提案されているDSTモデルは、訓練データが1個
でもモデルが作成できるという特長がある。また、マッ
チングの際に状態の継続時間の情報が直接利用でき、そ
のためマッチングパスの伸縮が単語モデルの伸縮と似て
いるほど高い類似度を与えることができるというもので
ある。
は、このDSTモデルの単語モデル作成方法が開示され
ている。すなわち、この公報のものは、入力した音声を
特徴ベクトルの時系列に変換する特徴系列変換手段を用
いる標準パターン登録方式において、音声パターンを一
定数の状態に分割し、各状態ごとに継続時間と該状態に
帰属するフレームの特徴ベクトルのセントロイドを登録
するものである。ここでは、各単語モデルの状態数は一
定数となっている。
報に記載されたDSTモデルは、各単語モデルの状態数
は一定数となっている。しかしながら、単語の長さや単
語内の特徴量変化は単語間で一定ではないので、一定状
態数では、単語によって1つの状態内の特徴量変化が異
なることになる(単純には、長い単語では1状態当たり
の累積距離が大きくなる)。また、単語の違いだけでな
くSNR(Signal-to-noise ratio:信号対雑音比)な
どの発声条件の違いによっても同様である。この問題
は、始終端をフリーにしたワードスポッティングでは、
特に問題となる。
たもので、単語単位の状態遷移モデルを作成する場合に
おいて、単語や発声条件によらずに各単語モデルの各状
態を最適で同質なものとするようにした状態遷移モデル
作成方法を提供することを目的としている。
決するために、(1)与えられた特徴ベクトル時系列か
ら指定された状態数の状態遷移モデルを作成する作成手
段と、モデルの精度を評価する評価手段と、該評価手段
により評価されたモデルの評価値から状態数を決定する
決定手段とを有し、与えられた特徴量時系列に対して、
可変状態数のモデルを作成すること、更には、(2)前
記与えられた特徴量時系列に対して、始めに予め定めら
れた数の状態数のモデルを作成し、該モデルの評価値が
予め定められた基準に達しない場合に、精度の最も悪い
状態を分割することにより、状態数を増やしてモデルを
作成し直すこと、更には、(3)前記モデルの評価値と
比較する基準は特徴ベクトル時系列の長さの関数である
こと、更には、(4)前記モデルの評価値と比較する基
準は特徴ベクトルの大きさの関数であること、更には、
(5)前記(4)において、前記特徴ベクトルの大きさ
は特徴ベクトルノルムを時間平均したものであること、
更には、(6)前記(4)において、前記特徴ベクトル
の大きさは特徴ベクトルノルムの2乗を時間平均したも
のであることを特徴としたものである。
た特徴ベクトル時系列から指定された状態数の状態遷移
モデルを作成する作成手段と、モデルの精度を評価する
評価手段と、該評価手段により評価されたモデルの評価
値から状態数を決定する決定手段とを有しており、
(1)与えられた特徴量時系列に対して、可変状態数の
モデルを作成し、単語あるいは発声に応じて状態数の異
なる単語モデルが作成できるので、条件によらず、均質
で良質なモデルが作成できる。(2)前記与えられた特
徴量時系列に対して、始めに予め定められた数の状態数
のモデルを作成し、該モデルの評価値が予め定められた
基準に達しない場合に、精度の最も悪い状態を分割する
ことにより、状態数を増やしてモデルを作成し直すの
で、質の悪い状態から状態分割していくことによって、
同じ状態数の中で最も良質なモデルを作成することがで
きる。(3)前記モデルの評価値と比較する基準は特徴
ベクトル時系列の長さの関数であるので、各状態の精度
が単語あるいは発声の長さによらないモデルを作成する
ことができる。(4)前記モデルの評価値と比較する基
準は特徴ベクトルの大きさの関数であり、また、前記特
徴ベクトルの大きさは特徴ベクトルノルムを時間平均し
たものであり、さらに、前記特徴ベクトルの大きさは特
徴ベクトルノルムの2乗を時間平均したものであるの
で、各状態の精度が音韻の違いなどに起因する特徴量の
大きさによらないモデルを作成することができる。
する。図1は、本発明による状態遷移モデル作成方法の
一実施例を説明するためのブロック図で、図中、1は音
響分析手段、2は音声区間検出手段、3は単語モデル作
成手段、4は単語モデル記憶手段である。音響分析手段
1は、入力された音声信号を分析する。音声区間検出手
段2は、学習用単語発声に対してその単語発声の区間が
決定される。単語モデル作成手段3は、その区間の単語
パターンの特徴ベクトルから状態数(可変)の単語モデ
ルが作成される。単語モデル記憶手段4は、決定された
状態数における単語モデルが認識のための単語モデルと
して記憶される。
1で分析される。単語音声を認識するための特徴ベクト
ルとしては、FFT(Fast Fourier Transform:高
速フーリエ変換)スペクトラムやLPC(Linear Pre
dictive Coding:線形予測分析)ケプストラムなど様
々なものがあるが、本実施例では、バンドパスフィルタ
(BPF)バンクによるスペクトルを用いることにす
る。他の特徴ベクトルを用いても、本発明を実施するこ
とができる。分析条件は、以下に示すとおりである。
対してその単語発声の区間が決定される。音声区間検出
法は公知の任意の方式で良い。また、単語モデル作成手
段3で、その区間(Iフレームとする)の単語パターン
の特徴ベクトルXi(1≦i≦I)から状態数J(可
変)の単語モデルYj(1≦j≦J)が作成される。
ートである。以下、各ステップ(S)に従って順に説明
する。step1からstep8までは与えられた単語パターン
に対して適切な状態数のモデルを作成するために、状態
数JをJmin(=4)から始めて1ずつ増やしていき、
Jmax(=16)を越えるか、モデルが後述する条件を
満たすかした場合に終了する。step1で(J=Jminの
場合)、各状態への割当ての初期値としては、単語パタ
ーンをJmin等分した割当てを用いる。step8でJを1
つ増やす際には、J個の状態の内で状態内の累積類似度
が最も大きい状態を等分に分割して、各状態への割当て
の初期値とする。
モデルを作成する処理であり、その後、マッチングを繰
り返して各状態への割当てを変えていく。この反復計算
は、既定反復回数nmax(=8)に達した時点、または
単語パターンと単語モデルの距離が減少しなくなった時
点で終了し、その場合の単語モデルが状態数Jの単語モ
デルとなる。
ベクトルを作成する。すなわち、単語パターンの各状態
に割り当てられた特徴ベクトルの平均値を求めて、その
状態の特徴ベクトル(セントロイド)とする。step4
は、単語モデルと単語パターンとでマッチングを行い、
その累積距離D(I,J)が最小になるように単語パタ
ーンの各フレームを単語モデルの各状態に割り当てる。
そのマッチングのアルゴリズムは、次の漸化式による。
=1) D(i,j)=d(i,j)+min{D(i−1,j−
1),D(i−1,j)}(for 2≦j≦J)
レームの特徴ベクトルと単語モデルのj状態の特徴ベク
トルとの局所拒離(ここでは、ユークリッド距離とす
る)、D(i,j)は格子点(i,j)へ到達する最適パ
スの累積距離である。ここで、D(I,J)は、単語モ
デルの質を表現していて、この値が小さいということ
は、良質のモデルであるということである。状態数Jを
増やせば、D(I,J)が小さくなるのは明らかである
(J=IならD(I,J)=0)。
は、Iフレームの単語パターンとJ状態の単語モデルを
マッチングして得られる距離D(I,J),単語パター
ンの特徴ベクトルの大きさM,しきい値(定数)Thrと
して、 D/I/M≦Thr である。しきい値Thrは、状態数Jが単語の音素数の程
度になるように実験的に設定すると良い。
は、フレーム長が長ければそれだけ累積距離が大きくな
るからである。また、特徴ベクトルの大きさMで正規化
する理由は、特徴ベクトルが大きければそれに連れて局
所距離が大きくなり、結果として累積距離が大きくなる
からである。
これに限らず、統計的な調査から適切なものを選べば良
い。例えば、特徴ベクトルと0ベクトルとのユークリッ
ド距離(ユークリッドノルムの2乗)のフレーム平均、
は、以上の処理によって決定された状態数Jにおける単
語モデルが認識のための単語モデルとして記憶される。
によると、以下のような効果がある。 (1)請求項1に対応する効果:本発明の状態遷移モデ
ル作成方法は、与えられた特徴ベクトル時系列から指定
された状態数の状態遷移モデルを作成する作成手段と、
モデルの精度を評価する評価手段と、該評価手段により
評価されたモデルの評価値から状態数を決定する決定手
段とを有しており、与えられた特徴量時系列に対して、
可変状態数のモデルを作成し、単語あるいは発声に応じ
て状態数の異なる単語モデルが作成できるので、条件に
よらず、均質で良質なモデルが作成できる。 (2)請求項2に対応する効果:前記与えられた特徴量
時系列に対して、始めに予め定められた数の状態数のモ
デルを作成し、該モデルの評価値が予め定められた基準
に達しない場合に、精度の最も悪い状態を分割すること
により、状態数を増やしてモデルを作成し直すので、質
の悪い状態から状態分割していくことによって、同じ状
態数の中で最も良質なモデルを作成することができる。 (3)請求項3に対応する効果:前記モデルの評価値と
比較する基準は特徴ベクトル時系列の長さの関数である
ので、単語あるいは発声の長さによらないモデルを作成
することができる。 (4)請求項4,5,6に対応する効果:前記モデルの評
価値と比較する基準は特徴ベクトルの大きさの関数であ
り、また、前記特徴ベクトルの大きさは特徴ベクトルノ
ルムを時間平均したものであり、あるいは、前記特徴ベ
クトルの大きさは特徴ベクトルノルムの2乗を時間平均
したものであるので、音韻の違いなどに起因する特徴量
の大きさによらないモデルを作成することができる。
施例を説明するためのブロック図である。
チャートである。
デル作成手段、4…単語モデル記憶手段。
Claims (6)
- 【請求項1】 与えられた特徴ベクトル時系列から指定
された状態数の状態遷移モデルを作成する作成手段と、
モデルの精度を評価する評価手段と、該評価手段により
評価されたモデルの評価値から状態数を決定する決定手
段とを有し、与えられた特徴量時系列に対して、可変状
態数のモデルを作成することを特徴とした状態遷移モデ
ル作成方法。 - 【請求項2】 前記与えられた特徴量時系列に対して、
始めに予め定められた数の状態数のモデルを作成し、該
モデルの評価値が予め定められた基準に達しない場合
に、精度の最も悪い状態を分割することにより、状態数
を増やしてモデルを作成し直すことを特徴とした請求項
1記載の状態遷移モデル作成方法。 - 【請求項3】 前記モデルの評価値と比較する基準は特
徴ベクトル時系列の長さの関数であることを特徴とした
請求項1記載の状態遷移モデル作成方法。 - 【請求項4】 前記モデルの評価値と比較する基準は特
徴ベクトルの大きさの関数であることを特徴とした請求
項1記載の状態遷移モデル作成方法。 - 【請求項5】 前記特徴ベクトルの大きさは特徴ベクト
ルノルムを時間平均したものであることを特徴とした請
求項4記載の状態遷移モデル作成方法。 - 【請求項6】 前記特徴ベクトルの大きさは特徴ベクト
ルノルムの2乗を時間平均したものであることを特徴と
した請求項4記載の状態遷移モデル作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18162694A JP3251430B2 (ja) | 1994-06-03 | 1994-08-02 | 状態遷移モデル作成方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12162494 | 1994-06-03 | ||
JP6-121624 | 1994-06-03 | ||
JP18162694A JP3251430B2 (ja) | 1994-06-03 | 1994-08-02 | 状態遷移モデル作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0850496A JPH0850496A (ja) | 1996-02-20 |
JP3251430B2 true JP3251430B2 (ja) | 2002-01-28 |
Family
ID=26458935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP18162694A Expired - Fee Related JP3251430B2 (ja) | 1994-06-03 | 1994-08-02 | 状態遷移モデル作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3251430B2 (ja) |
-
1994
- 1994-08-02 JP JP18162694A patent/JP3251430B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0850496A (ja) | 1996-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4783804A (en) | Hidden Markov model speech recognition arrangement | |
US7447634B2 (en) | Speech recognizing apparatus having optimal phoneme series comparing unit and speech recognizing method | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
US6260013B1 (en) | Speech recognition system employing discriminatively trained models | |
US6611801B2 (en) | Gain and noise matching for speech recognition | |
US5459815A (en) | Speech recognition method using time-frequency masking mechanism | |
EP2189976A1 (en) | Method for adapting a codebook for speech recognition | |
JP2768274B2 (ja) | 音声認識装置 | |
US5734793A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
WO1996013828A1 (en) | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs | |
KR20030014332A (ko) | 화자-독립형 보이스 인식 시스템용 보이스 템플릿을구성하는 방법 및 장치 | |
US5864809A (en) | Modification of sub-phoneme speech spectral models for lombard speech recognition | |
EP1023718B1 (en) | Pattern recognition using multiple reference models | |
US5943647A (en) | Speech recognition based on HMMs | |
JP3251430B2 (ja) | 状態遷移モデル作成方法 | |
KR100480506B1 (ko) | 음성 인식 방법 | |
US7912715B2 (en) | Determining distortion measures in a pattern recognition process | |
JP2001067094A (ja) | 音声認識装置及び方法 | |
Sun | Statistical modeling of co-articulation in continuous speech based on data driven interpolation | |
Sima et al. | Performance analysis on speech recognition using neural networks | |
JPH0772899A (ja) | 音声認識装置 | |
JP3900628B2 (ja) | 音声認識装置 | |
Ogawa et al. | Improved Example-Based Speech Enhancement by Using Deep Neural Network Acoustic Model for Noise Robust Example Search. | |
JPH0635495A (ja) | 音声認識装置 | |
JPH06301400A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071116 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081116 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081116 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091116 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |