JP3251430B2

JP3251430B2 - 状態遷移モデル作成方法

Info

Publication number: JP3251430B2
Application number: JP18162694A
Authority: JP
Inventors: 敬有吉
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1994-06-03
Filing date: 1994-08-02
Publication date: 2002-01-28
Anticipated expiration: 2017-01-28
Also published as: JPH0850496A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、状態遷移モデル作成方
法に関し、より詳細には、単語あるいは発声に応じて状
態数の異なる単語モデルを作成できるようにし、条件に
よらずに均質で良質なモデルを作成できるようにした音
声認識技術、特に単語音声認識技術に関する。

【０００２】

【従来の技術】単語音声を認識する方式として、隠れマ
ルコフモデル（ＨＭＭ：Ｈidden Ｍarkov Ｍodel）を用
いた認識方式がよく知られている。しかし、ＨＭＭには
必要な学習量が多いという性質がある。これに対して、
１回発声の学習用単語音声から状態遷移モデルを作成す
ることが可能な方式として、ＤＳＴモデル（Ｄurationb
ased Ｓtates Ｔransition Ｍodel：継続時間制御型状
態遷移モデル）が提案されている（電子情報通信学会論
文誌Ｄ-II Vol.J72-D-II No.11 pp.1769-1777 1989年11
月)。

【０００３】このＤＳＴモデルは、単語パターンの大局
的な情報だけを抽出して標準パターン（単語モデル）を
作成し、時間伸縮の具合も類似性として照合結果に反映
できるようにしたもので、単語パターンを少数の状態の
時系列で表現するという点では、ＨＭＭ等と似ている
が、提案されているＤＳＴモデルは、訓練データが１個
でもモデルが作成できるという特長がある。また、マッ
チングの際に状態の継続時間の情報が直接利用でき、そ
のためマッチングパスの伸縮が単語モデルの伸縮と似て
いるほど高い類似度を与えることができるというもので
ある。

【０００４】また、特開昭６４−４４９９７号公報に
は、このＤＳＴモデルの単語モデル作成方法が開示され
ている。すなわち、この公報のものは、入力した音声を
特徴ベクトルの時系列に変換する特徴系列変換手段を用
いる標準パターン登録方式において、音声パターンを一
定数の状態に分割し、各状態ごとに継続時間と該状態に
帰属するフレームの特徴ベクトルのセントロイドを登録
するものである。ここでは、各単語モデルの状態数は一
定数となっている。

【０００５】

【発明が解決しようとする課題】前述のように、前記公
報に記載されたＤＳＴモデルは、各単語モデルの状態数
は一定数となっている。しかしながら、単語の長さや単
語内の特徴量変化は単語間で一定ではないので、一定状
態数では、単語によって１つの状態内の特徴量変化が異
なることになる（単純には、長い単語では１状態当たり
の累積距離が大きくなる）。また、単語の違いだけでな
くＳＮＲ（Ｓignal-to-noise ratio：信号対雑音比）な
どの発声条件の違いによっても同様である。この問題
は、始終端をフリーにしたワードスポッティングでは、
特に問題となる。

【０００６】本発明は、このように実情に鑑みてなされ
たもので、単語単位の状態遷移モデルを作成する場合に
おいて、単語や発声条件によらずに各単語モデルの各状
態を最適で同質なものとするようにした状態遷移モデル
作成方法を提供することを目的としている。

【０００７】

【課題を解決するための手段】本発明は、上記課題を解
決するために、（１）与えられた特徴ベクトル時系列か
ら指定された状態数の状態遷移モデルを作成する作成手
段と、モデルの精度を評価する評価手段と、該評価手段
により評価されたモデルの評価値から状態数を決定する
決定手段とを有し、与えられた特徴量時系列に対して、
可変状態数のモデルを作成すること、更には、（２）前
記与えられた特徴量時系列に対して、始めに予め定めら
れた数の状態数のモデルを作成し、該モデルの評価値が
予め定められた基準に達しない場合に、精度の最も悪い
状態を分割することにより、状態数を増やしてモデルを
作成し直すこと、更には、（３）前記モデルの評価値と
比較する基準は特徴ベクトル時系列の長さの関数である
こと、更には、（４）前記モデルの評価値と比較する基
準は特徴ベクトルの大きさの関数であること、更には、
（５）前記（４）において、前記特徴ベクトルの大きさ
は特徴ベクトルノルムを時間平均したものであること、
更には、（６）前記（４）において、前記特徴ベクトル
の大きさは特徴ベクトルノルムの２乗を時間平均したも
のであることを特徴としたものである。

【０００８】

【作用】本発明の状態遷移モデル作成方法は、与えられ
た特徴ベクトル時系列から指定された状態数の状態遷移
モデルを作成する作成手段と、モデルの精度を評価する
評価手段と、該評価手段により評価されたモデルの評価
値から状態数を決定する決定手段とを有しており、
（１）与えられた特徴量時系列に対して、可変状態数の
モデルを作成し、単語あるいは発声に応じて状態数の異
なる単語モデルが作成できるので、条件によらず、均質
で良質なモデルが作成できる。（２）前記与えられた特
徴量時系列に対して、始めに予め定められた数の状態数
のモデルを作成し、該モデルの評価値が予め定められた
基準に達しない場合に、精度の最も悪い状態を分割する
ことにより、状態数を増やしてモデルを作成し直すの
で、質の悪い状態から状態分割していくことによって、
同じ状態数の中で最も良質なモデルを作成することがで
きる。（３）前記モデルの評価値と比較する基準は特徴
ベクトル時系列の長さの関数であるので、各状態の精度
が単語あるいは発声の長さによらないモデルを作成する
ことができる。（４）前記モデルの評価値と比較する基
準は特徴ベクトルの大きさの関数であり、また、前記特
徴ベクトルの大きさは特徴ベクトルノルムを時間平均し
たものであり、さらに、前記特徴ベクトルの大きさは特
徴ベクトルノルムの２乗を時間平均したものであるの
で、各状態の精度が音韻の違いなどに起因する特徴量の
大きさによらないモデルを作成することができる。

【０００９】

【実施例】実施例について、図面を参照して以下に説明
する。図１は、本発明による状態遷移モデル作成方法の
一実施例を説明するためのブロック図で、図中、１は音
響分析手段、２は音声区間検出手段、３は単語モデル作
成手段、４は単語モデル記憶手段である。音響分析手段
１は、入力された音声信号を分析する。音声区間検出手
段２は、学習用単語発声に対してその単語発声の区間が
決定される。単語モデル作成手段３は、その区間の単語
パターンの特徴ベクトルから状態数（可変）の単語モデ
ルが作成される。単語モデル記憶手段４は、決定された
状態数における単語モデルが認識のための単語モデルと
して記憶される。

【００１０】まず、入力された音声信号は音響分析手段
１で分析される。単語音声を認識するための特徴ベクト
ルとしては、ＦＦＴ（Ｆast Ｆourier Ｔransform：高
速フーリエ変換）スペクトラムやＬＰＣ（Ｌinear Ｐre
dictive Ｃoding：線形予測分析）ケプストラムなど様
々なものがあるが、本実施例では、バンドパスフィルタ
（ＢＰＦ）バンクによるスペクトルを用いることにす
る。他の特徴ベクトルを用いても、本発明を実施するこ
とができる。分析条件は、以下に示すとおりである。

【００１１】Ａ／Ｄ変換１６kHz，１６ビット高域強調１−ｚ^-1 フレーム周期１０ms ＢＰＦ数１５帯域ＢＰＦ中心周波数 250Hzから6350Hzまで（1／3オクターブ)

【００１２】音声区間検出手段２で、学習用単語発声に
対してその単語発声の区間が決定される。音声区間検出
法は公知の任意の方式で良い。また、単語モデル作成手
段３で、その区間（Ｉフレームとする）の単語パターン
の特徴ベクトルＸ_i（１≦ｉ≦Ｉ）から状態数Ｊ（可
変）の単語モデルＹ_j（１≦ｊ≦Ｊ）が作成される。

【００１３】図２は、単語モデル作成処理のフローチャ
ートである。以下、各ステップ（Ｓ）に従って順に説明
する。step１からstep８までは与えられた単語パターン
に対して適切な状態数のモデルを作成するために、状態
数ＪをＪmin（＝４）から始めて１ずつ増やしていき、
Ｊmax（＝１６）を越えるか、モデルが後述する条件を
満たすかした場合に終了する。step１で（Ｊ＝Ｊminの
場合）、各状態への割当ての初期値としては、単語パタ
ーンをＪmin等分した割当てを用いる。step８でＪを１
つ増やす際には、Ｊ個の状態の内で状態内の累積類似度
が最も大きい状態を等分に分割して、各状態への割当て
の初期値とする。

【００１４】step２からstep６までは、状態数Ｊの単語
モデルを作成する処理であり、その後、マッチングを繰
り返して各状態への割当てを変えていく。この反復計算
は、既定反復回数ｎmax（＝８）に達した時点、または
単語パターンと単語モデルの距離が減少しなくなった時
点で終了し、その場合の単語モデルが状態数Ｊの単語モ
デルとなる。

【００１５】step３は、単語モデルの各状態の代表特徴
ベクトルを作成する。すなわち、単語パターンの各状態
に割り当てられた特徴ベクトルの平均値を求めて、その
状態の特徴ベクトル（セントロイド）とする。step４
は、単語モデルと単語パターンとでマッチングを行い、
その累積距離Ｄ（Ｉ,Ｊ）が最小になるように単語パタ
ーンの各フレームを単語モデルの各状態に割り当てる。
そのマッチングのアルゴリズムは、次の漸化式による。

【００１６】step４-1：for ｉ＝１Ｄ（１,１）＝ｄ（１,１） step４-2：for ２≦ｉ≦ＩＤ（ｉ,１）＝ｄ（ｉ,１）＋Ｄ（ｉ−１,１）（for ｊ
＝１）Ｄ（ｉ,ｊ）＝ｄ（ｉ,ｊ）＋min｛Ｄ(ｉ−１，ｊ−
１)，Ｄ(ｉ−１，ｊ)｝（for ２≦ｊ≦Ｊ）

【００１７】但し、ｄ（ｉ,ｊ）は単語パターンのｉフ
レームの特徴ベクトルと単語モデルのｊ状態の特徴ベク
トルとの局所拒離（ここでは、ユークリッド距離とす
る）、Ｄ（ｉ,ｊ）は格子点（ｉ,ｊ）へ到達する最適パ
スの累積距離である。ここで、Ｄ（Ｉ,Ｊ）は、単語モ
デルの質を表現していて、この値が小さいということ
は、良質のモデルであるということである。状態数Ｊを
増やせば、Ｄ（Ｉ,Ｊ）が小さくなるのは明らかである
（Ｊ＝ＩならＤ（Ｉ,Ｊ）＝０）。

【００１８】step７において、状態数Ｊを決定する条件
は、Ｉフレームの単語パターンとＪ状態の単語モデルを
マッチングして得られる距離Ｄ（Ｉ,Ｊ），単語パター
ンの特徴ベクトルの大きさＭ，しきい値（定数）Ｔhrと
して、Ｄ／Ｉ／Ｍ≦Ｔhr である。しきい値Ｔhrは、状態数Ｊが単語の音素数の程
度になるように実験的に設定すると良い。

【００１９】距離Ｄをフレーム長Ｉで正規化する理由
は、フレーム長が長ければそれだけ累積距離が大きくな
るからである。また、特徴ベクトルの大きさＭで正規化
する理由は、特徴ベクトルが大きければそれに連れて局
所距離が大きくなり、結果として累積距離が大きくなる
からである。

【００２０】

【表１】

【００２１】

【数１】

【００２２】

【表２】

【００２３】特徴ベクトルが異なるなど他の場合には、
これに限らず、統計的な調査から適切なものを選べば良
い。例えば、特徴ベクトルと０ベクトルとのユークリッ
ド距離（ユークリッドノルムの２乗）のフレーム平均、

【００２４】

【数２】

【００２５】などでも良い。単語モデル記憶手段４に
は、以上の処理によって決定された状態数Ｊにおける単
語モデルが認識のための単語モデルとして記憶される。

【００２６】

【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。（１）請求項１に対応する効果：本発明の状態遷移モデ
ル作成方法は、与えられた特徴ベクトル時系列から指定
された状態数の状態遷移モデルを作成する作成手段と、
モデルの精度を評価する評価手段と、該評価手段により
評価されたモデルの評価値から状態数を決定する決定手
段とを有しており、与えられた特徴量時系列に対して、
可変状態数のモデルを作成し、単語あるいは発声に応じ
て状態数の異なる単語モデルが作成できるので、条件に
よらず、均質で良質なモデルが作成できる。（２）請求項２に対応する効果：前記与えられた特徴量
時系列に対して、始めに予め定められた数の状態数のモ
デルを作成し、該モデルの評価値が予め定められた基準
に達しない場合に、精度の最も悪い状態を分割すること
により、状態数を増やしてモデルを作成し直すので、質
の悪い状態から状態分割していくことによって、同じ状
態数の中で最も良質なモデルを作成することができる。（３）請求項３に対応する効果：前記モデルの評価値と
比較する基準は特徴ベクトル時系列の長さの関数である
ので、単語あるいは発声の長さによらないモデルを作成
することができる。（４）請求項４,５,６に対応する効果：前記モデルの評
価値と比較する基準は特徴ベクトルの大きさの関数であ
り、また、前記特徴ベクトルの大きさは特徴ベクトルノ
ルムを時間平均したものであり、あるいは、前記特徴ベ
クトルの大きさは特徴ベクトルノルムの２乗を時間平均
したものであるので、音韻の違いなどに起因する特徴量
の大きさによらないモデルを作成することができる。

【図面の簡単な説明】

【図１】本発明による状態遷移モデル作成方法の一実
施例を説明するためのブロック図である。

【図２】本発明における単語モデル作成処理のフロー
チャートである。

【符号の説明】

１…音響分析手段、２…音声区間検出手段、３…単語モ
デル作成手段、４…単語モデル記憶手段。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/06 G10L 15/14

Claims

(57)【特許請求の範囲】

【請求項１】与えられた特徴ベクトル時系列から指定
された状態数の状態遷移モデルを作成する作成手段と、
モデルの精度を評価する評価手段と、該評価手段により
評価されたモデルの評価値から状態数を決定する決定手
段とを有し、与えられた特徴量時系列に対して、可変状
態数のモデルを作成することを特徴とした状態遷移モデ
ル作成方法。
【請求項２】前記与えられた特徴量時系列に対して、
始めに予め定められた数の状態数のモデルを作成し、該
モデルの評価値が予め定められた基準に達しない場合
に、精度の最も悪い状態を分割することにより、状態数
を増やしてモデルを作成し直すことを特徴とした請求項
１記載の状態遷移モデル作成方法。
【請求項３】前記モデルの評価値と比較する基準は特
徴ベクトル時系列の長さの関数であることを特徴とした
請求項１記載の状態遷移モデル作成方法。
【請求項４】前記モデルの評価値と比較する基準は特
徴ベクトルの大きさの関数であることを特徴とした請求
項１記載の状態遷移モデル作成方法。
【請求項５】前記特徴ベクトルの大きさは特徴ベクト
ルノルムを時間平均したものであることを特徴とした請
求項４記載の状態遷移モデル作成方法。
【請求項６】前記特徴ベクトルの大きさは特徴ベクト
ルノルムの２乗を時間平均したものであることを特徴と
した請求項４記載の状態遷移モデル作成方法。