JP3251430B2 - 状態遷移モデル作成方法 - Google Patents

状態遷移モデル作成方法

Info

Publication number
JP3251430B2
JP3251430B2 JP18162694A JP18162694A JP3251430B2 JP 3251430 B2 JP3251430 B2 JP 3251430B2 JP 18162694 A JP18162694 A JP 18162694A JP 18162694 A JP18162694 A JP 18162694A JP 3251430 B2 JP3251430 B2 JP 3251430B2
Authority
JP
Japan
Prior art keywords
model
word
states
feature vector
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18162694A
Other languages
English (en)
Other versions
JPH0850496A (ja
Inventor
敬 有吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP18162694A priority Critical patent/JP3251430B2/ja
Publication of JPH0850496A publication Critical patent/JPH0850496A/ja
Application granted granted Critical
Publication of JP3251430B2 publication Critical patent/JP3251430B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、状態遷移モデル作成方
法に関し、より詳細には、単語あるいは発声に応じて状
態数の異なる単語モデルを作成できるようにし、条件に
よらずに均質で良質なモデルを作成できるようにした音
声認識技術、特に単語音声認識技術に関する。
【0002】
【従来の技術】単語音声を認識する方式として、隠れマ
ルコフモデル(HMM:Hidden Markov Model)を用
いた認識方式がよく知られている。しかし、HMMには
必要な学習量が多いという性質がある。これに対して、
1回発声の学習用単語音声から状態遷移モデルを作成す
ることが可能な方式として、DSTモデル(Durationb
ased States Transition Model:継続時間制御型状
態遷移モデル)が提案されている(電子情報通信学会論
文誌D-II Vol.J72-D-II No.11 pp.1769-1777 1989年11
月)。
【0003】このDSTモデルは、単語パターンの大局
的な情報だけを抽出して標準パターン(単語モデル)を
作成し、時間伸縮の具合も類似性として照合結果に反映
できるようにしたもので、単語パターンを少数の状態の
時系列で表現するという点では、HMM等と似ている
が、提案されているDSTモデルは、訓練データが1個
でもモデルが作成できるという特長がある。また、マッ
チングの際に状態の継続時間の情報が直接利用でき、そ
のためマッチングパスの伸縮が単語モデルの伸縮と似て
いるほど高い類似度を与えることができるというもので
ある。
【0004】また、特開昭64−44997号公報に
は、このDSTモデルの単語モデル作成方法が開示され
ている。すなわち、この公報のものは、入力した音声を
特徴ベクトルの時系列に変換する特徴系列変換手段を用
いる標準パターン登録方式において、音声パターンを一
定数の状態に分割し、各状態ごとに継続時間と該状態に
帰属するフレームの特徴ベクトルのセントロイドを登録
するものである。ここでは、各単語モデルの状態数は一
定数となっている。
【0005】
【発明が解決しようとする課題】前述のように、前記公
報に記載されたDSTモデルは、各単語モデルの状態数
は一定数となっている。しかしながら、単語の長さや単
語内の特徴量変化は単語間で一定ではないので、一定状
態数では、単語によって1つの状態内の特徴量変化が異
なることになる(単純には、長い単語では1状態当たり
の累積距離が大きくなる)。また、単語の違いだけでな
くSNR(Signal-to-noise ratio:信号対雑音比)な
どの発声条件の違いによっても同様である。この問題
は、始終端をフリーにしたワードスポッティングでは、
特に問題となる。
【0006】本発明は、このように実情に鑑みてなされ
たもので、単語単位の状態遷移モデルを作成する場合に
おいて、単語や発声条件によらずに各単語モデルの各状
態を最適で同質なものとするようにした状態遷移モデル
作成方法を提供することを目的としている。
【0007】
【課題を解決するための手段】本発明は、上記課題を解
決するために、(1)与えられた特徴ベクトル時系列か
ら指定された状態数の状態遷移モデルを作成する作成手
段と、モデルの精度を評価する評価手段と、該評価手段
により評価されたモデルの評価値から状態数を決定する
決定手段とを有し、与えられた特徴量時系列に対して、
可変状態数のモデルを作成すること、更には、(2)前
記与えられた特徴量時系列に対して、始めに予め定めら
れた数の状態数のモデルを作成し、該モデルの評価値が
予め定められた基準に達しない場合に、精度の最も悪い
状態を分割することにより、状態数を増やしてモデルを
作成し直すこと、更には、(3)前記モデルの評価値と
比較する基準は特徴ベクトル時系列の長さの関数である
こと、更には、(4)前記モデルの評価値と比較する基
準は特徴ベクトルの大きさの関数であること、更には、
(5)前記(4)において、前記特徴ベクトルの大きさ
は特徴ベクトルノルムを時間平均したものであること、
更には、(6)前記(4)において、前記特徴ベクトル
の大きさは特徴ベクトルノルムの2乗を時間平均したも
のであることを特徴としたものである。
【0008】
【作用】本発明の状態遷移モデル作成方法は、与えられ
た特徴ベクトル時系列から指定された状態数の状態遷移
モデルを作成する作成手段と、モデルの精度を評価する
評価手段と、該評価手段により評価されたモデルの評価
値から状態数を決定する決定手段とを有しており、
(1)与えられた特徴量時系列に対して、可変状態数の
モデルを作成し、単語あるいは発声に応じて状態数の異
なる単語モデルが作成できるので、条件によらず、均質
で良質なモデルが作成できる。(2)前記与えられた特
徴量時系列に対して、始めに予め定められた数の状態数
のモデルを作成し、該モデルの評価値が予め定められた
基準に達しない場合に、精度の最も悪い状態を分割する
ことにより、状態数を増やしてモデルを作成し直すの
で、質の悪い状態から状態分割していくことによって、
同じ状態数の中で最も良質なモデルを作成することがで
きる。(3)前記モデルの評価値と比較する基準は特徴
ベクトル時系列の長さの関数であるので、各状態の精度
が単語あるいは発声の長さによらないモデルを作成する
ことができる。(4)前記モデルの評価値と比較する基
準は特徴ベクトルの大きさの関数であり、また、前記特
徴ベクトルの大きさは特徴ベクトルノルムを時間平均し
たものであり、さらに、前記特徴ベクトルの大きさは特
徴ベクトルノルムの2乗を時間平均したものであるの
で、各状態の精度が音韻の違いなどに起因する特徴量の
大きさによらないモデルを作成することができる。
【0009】
【実施例】実施例について、図面を参照して以下に説明
する。図1は、本発明による状態遷移モデル作成方法の
一実施例を説明するためのブロック図で、図中、1は音
響分析手段、2は音声区間検出手段、3は単語モデル作
成手段、4は単語モデル記憶手段である。音響分析手段
1は、入力された音声信号を分析する。音声区間検出手
段2は、学習用単語発声に対してその単語発声の区間が
決定される。単語モデル作成手段3は、その区間の単語
パターンの特徴ベクトルから状態数(可変)の単語モデ
ルが作成される。単語モデル記憶手段4は、決定された
状態数における単語モデルが認識のための単語モデルと
して記憶される。
【0010】まず、入力された音声信号は音響分析手段
1で分析される。単語音声を認識するための特徴ベクト
ルとしては、FFT(Fast Fourier Transform:高
速フーリエ変換)スペクトラムやLPC(Linear Pre
dictive Coding:線形予測分析)ケプストラムなど様
々なものがあるが、本実施例では、バンドパスフィルタ
(BPF)バンクによるスペクトルを用いることにす
る。他の特徴ベクトルを用いても、本発明を実施するこ
とができる。分析条件は、以下に示すとおりである。
【0011】 A/D変換 16kHz,16ビット 高域強調 1−z-1 フレーム周期 10ms BPF数 15帯域 BPF中心周波数 250Hzから6350Hzまで(1/3オクターブ)
【0012】音声区間検出手段2で、学習用単語発声に
対してその単語発声の区間が決定される。音声区間検出
法は公知の任意の方式で良い。また、単語モデル作成手
段3で、その区間(Iフレームとする)の単語パターン
の特徴ベクトルXi(1≦i≦I)から状態数J(可
変)の単語モデルYj(1≦j≦J)が作成される。
【0013】図2は、単語モデル作成処理のフローチャ
ートである。以下、各ステップ(S)に従って順に説明
する。step1からstep8までは与えられた単語パターン
に対して適切な状態数のモデルを作成するために、状態
数JをJmin(=4)から始めて1ずつ増やしていき、
Jmax(=16)を越えるか、モデルが後述する条件を
満たすかした場合に終了する。step1で(J=Jminの
場合)、各状態への割当ての初期値としては、単語パタ
ーンをJmin等分した割当てを用いる。step8でJを1
つ増やす際には、J個の状態の内で状態内の累積類似度
が最も大きい状態を等分に分割して、各状態への割当て
の初期値とする。
【0014】step2からstep6までは、状態数Jの単語
モデルを作成する処理であり、その後、マッチングを繰
り返して各状態への割当てを変えていく。この反復計算
は、既定反復回数nmax(=8)に達した時点、または
単語パターンと単語モデルの距離が減少しなくなった時
点で終了し、その場合の単語モデルが状態数Jの単語モ
デルとなる。
【0015】step3は、単語モデルの各状態の代表特徴
ベクトルを作成する。すなわち、単語パターンの各状態
に割り当てられた特徴ベクトルの平均値を求めて、その
状態の特徴ベクトル(セントロイド)とする。step4
は、単語モデルと単語パターンとでマッチングを行い、
その累積距離D(I,J)が最小になるように単語パタ
ーンの各フレームを単語モデルの各状態に割り当てる。
そのマッチングのアルゴリズムは、次の漸化式による。
【0016】step4-1:for i=1 D(1,1)=d(1,1) step4-2:for 2≦i≦I D(i,1)=d(i,1)+D(i−1,1)(for j
=1) D(i,j)=d(i,j)+min{D(i−1,j−
1),D(i−1,j)}(for 2≦j≦J)
【0017】但し、d(i,j)は単語パターンのiフ
レームの特徴ベクトルと単語モデルのj状態の特徴ベク
トルとの局所拒離(ここでは、ユークリッド距離とす
る)、D(i,j)は格子点(i,j)へ到達する最適パ
スの累積距離である。ここで、D(I,J)は、単語モ
デルの質を表現していて、この値が小さいということ
は、良質のモデルであるということである。状態数Jを
増やせば、D(I,J)が小さくなるのは明らかである
(J=IならD(I,J)=0)。
【0018】step7において、状態数Jを決定する条件
は、Iフレームの単語パターンとJ状態の単語モデルを
マッチングして得られる距離D(I,J),単語パター
ンの特徴ベクトルの大きさM,しきい値(定数)Thrと
して、 D/I/M≦Thr である。しきい値Thrは、状態数Jが単語の音素数の程
度になるように実験的に設定すると良い。
【0019】距離Dをフレーム長Iで正規化する理由
は、フレーム長が長ければそれだけ累積距離が大きくな
るからである。また、特徴ベクトルの大きさMで正規化
する理由は、特徴ベクトルが大きければそれに連れて局
所距離が大きくなり、結果として累積距離が大きくなる
からである。
【0020】
【表1】
【0021】
【数1】
【0022】
【表2】
【0023】特徴ベクトルが異なるなど他の場合には、
これに限らず、統計的な調査から適切なものを選べば良
い。例えば、特徴ベクトルと0ベクトルとのユークリッ
ド距離(ユークリッドノルムの2乗)のフレーム平均、
【0024】
【数2】
【0025】などでも良い。単語モデル記憶手段4に
は、以上の処理によって決定された状態数Jにおける単
語モデルが認識のための単語モデルとして記憶される。
【0026】
【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。 (1)請求項1に対応する効果:本発明の状態遷移モデ
ル作成方法は、与えられた特徴ベクトル時系列から指定
された状態数の状態遷移モデルを作成する作成手段と、
モデルの精度を評価する評価手段と、該評価手段により
評価されたモデルの評価値から状態数を決定する決定手
段とを有しており、与えられた特徴量時系列に対して、
可変状態数のモデルを作成し、単語あるいは発声に応じ
て状態数の異なる単語モデルが作成できるので、条件に
よらず、均質で良質なモデルが作成できる。 (2)請求項2に対応する効果:前記与えられた特徴量
時系列に対して、始めに予め定められた数の状態数のモ
デルを作成し、該モデルの評価値が予め定められた基準
に達しない場合に、精度の最も悪い状態を分割すること
により、状態数を増やしてモデルを作成し直すので、質
の悪い状態から状態分割していくことによって、同じ状
態数の中で最も良質なモデルを作成することができる。 (3)請求項3に対応する効果:前記モデルの評価値と
比較する基準は特徴ベクトル時系列の長さの関数である
ので、単語あるいは発声の長さによらないモデルを作成
することができる。 (4)請求項4,5,6に対応する効果:前記モデルの評
価値と比較する基準は特徴ベクトルの大きさの関数であ
り、また、前記特徴ベクトルの大きさは特徴ベクトルノ
ルムを時間平均したものであり、あるいは、前記特徴ベ
クトルの大きさは特徴ベクトルノルムの2乗を時間平均
したものであるので、音韻の違いなどに起因する特徴量
の大きさによらないモデルを作成することができる。
【図面の簡単な説明】
【図1】 本発明による状態遷移モデル作成方法の一実
施例を説明するためのブロック図である。
【図2】 本発明における単語モデル作成処理のフロー
チャートである。
【符号の説明】
1…音響分析手段、2…音声区間検出手段、3…単語モ
デル作成手段、4…単語モデル記憶手段。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 G10L 15/14

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 与えられた特徴ベクトル時系列から指定
    された状態数の状態遷移モデルを作成する作成手段と、
    モデルの精度を評価する評価手段と、該評価手段により
    評価されたモデルの評価値から状態数を決定する決定手
    段とを有し、与えられた特徴量時系列に対して、可変状
    態数のモデルを作成することを特徴とした状態遷移モデ
    ル作成方法。
  2. 【請求項2】 前記与えられた特徴量時系列に対して、
    始めに予め定められた数の状態数のモデルを作成し、該
    モデルの評価値が予め定められた基準に達しない場合
    に、精度の最も悪い状態を分割することにより、状態数
    を増やしてモデルを作成し直すことを特徴とした請求項
    1記載の状態遷移モデル作成方法。
  3. 【請求項3】 前記モデルの評価値と比較する基準は特
    徴ベクトル時系列の長さの関数であることを特徴とした
    請求項1記載の状態遷移モデル作成方法。
  4. 【請求項4】 前記モデルの評価値と比較する基準は特
    徴ベクトルの大きさの関数であることを特徴とした請求
    項1記載の状態遷移モデル作成方法。
  5. 【請求項5】 前記特徴ベクトルの大きさは特徴ベクト
    ルノルムを時間平均したものであることを特徴とした請
    求項4記載の状態遷移モデル作成方法。
  6. 【請求項6】 前記特徴ベクトルの大きさは特徴ベクト
    ルノルムの2乗を時間平均したものであることを特徴と
    した請求項4記載の状態遷移モデル作成方法。
JP18162694A 1994-06-03 1994-08-02 状態遷移モデル作成方法 Expired - Fee Related JP3251430B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18162694A JP3251430B2 (ja) 1994-06-03 1994-08-02 状態遷移モデル作成方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP12162494 1994-06-03
JP6-121624 1994-06-03
JP18162694A JP3251430B2 (ja) 1994-06-03 1994-08-02 状態遷移モデル作成方法

Publications (2)

Publication Number Publication Date
JPH0850496A JPH0850496A (ja) 1996-02-20
JP3251430B2 true JP3251430B2 (ja) 2002-01-28

Family

ID=26458935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18162694A Expired - Fee Related JP3251430B2 (ja) 1994-06-03 1994-08-02 状態遷移モデル作成方法

Country Status (1)

Country Link
JP (1) JP3251430B2 (ja)

Also Published As

Publication number Publication date
JPH0850496A (ja) 1996-02-20

Similar Documents

Publication Publication Date Title
US4783804A (en) Hidden Markov model speech recognition arrangement
US7447634B2 (en) Speech recognizing apparatus having optimal phoneme series comparing unit and speech recognizing method
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US6260013B1 (en) Speech recognition system employing discriminatively trained models
US6611801B2 (en) Gain and noise matching for speech recognition
US5459815A (en) Speech recognition method using time-frequency masking mechanism
EP2189976A1 (en) Method for adapting a codebook for speech recognition
JP2768274B2 (ja) 音声認識装置
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
WO1996013828A1 (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
KR20030014332A (ko) 화자-독립형 보이스 인식 시스템용 보이스 템플릿을구성하는 방법 및 장치
US5864809A (en) Modification of sub-phoneme speech spectral models for lombard speech recognition
EP1023718B1 (en) Pattern recognition using multiple reference models
US5943647A (en) Speech recognition based on HMMs
JP3251430B2 (ja) 状態遷移モデル作成方法
KR100480506B1 (ko) 음성 인식 방법
US7912715B2 (en) Determining distortion measures in a pattern recognition process
JP2001067094A (ja) 音声認識装置及び方法
Sun Statistical modeling of co-articulation in continuous speech based on data driven interpolation
Sima et al. Performance analysis on speech recognition using neural networks
JPH0772899A (ja) 音声認識装置
JP3900628B2 (ja) 音声認識装置
Ogawa et al. Improved Example-Based Speech Enhancement by Using Deep Neural Network Acoustic Model for Noise Robust Example Search.
JPH0635495A (ja) 音声認識装置
JPH06301400A (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071116

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091116

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees