JPH0293597A

JPH0293597A - 音声認識装置

Info

Publication number: JPH0293597A
Application number: JP63244502A
Authority: JP
Inventors: Masafumi Nishimura; 雅史西村
Original assignee: NIPPON I B M KK; IBM Japan Ltd
Current assignee: NIPPON I B M KK; IBM Japan Ltd
Priority date: 1988-09-30
Filing date: 1988-09-30
Publication date: 1990-04-04
Also published as: CA1336458C; JPH0581917B2; EP0361788A3; EP0361788A2; US5031217A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野この発明はマルコフ・モデルを利用した音声認識装置に
関し、特に計算量や記憶量をさほど増やすことなく高精
度な認識を行なえるようにしたものである。

Ｂ、従来の技術マルコフ・モデルを利用した音声認識は確率的な観点か
ら音声の認識を行なおうするものである。

たとえばそのうちの１つの手法では単語ごとにマルコフ
・モデルが設定される。通常このマルコフ・モデルには
複数の状態と、これら状態間の遷移とが規定され、これ
ら遷移にはその遷移の生起確率が割当てられ、また、状
態またはその遷移には、その状態または遷移においてラ
ベル（シンボル）を出力する確率が割当てられる。未知
入力音声は、一定周期（フレームと呼ぶ）ごとに周波数
分析されたのちにベクトル量子化によってラベルの系列
に変換され、こののち単語マルコフ・モデルの各々がこ
のラベル系列を生成する確率を、上述の遷移生起確率及
びラベル出力確率（以下これらをパラメータと呼ぶ）に
基づいて決定し、ラベル生成確率が最大となる単語マル
コフ・モデルを求める。

そしてこの結果に基づいて認識を行なう。このマルコフ
・モデルを利用した音声認識では、パラメータを統計的
に推定することが出来、このため認識精度を向上させる
ことが出来る。なお、この認識手法については以下の論
文に詳細が記載されている。

（１）　”Ａ　Ｍａｘｉｍｕｍ　Ｌｉｋｅｌｉｈｏｏｄ
　Ａｐｐｒｏａｃｈ　ｔ。

Ｃｏｎｔｉｎｕｏｕｓ　５ｐｅｅｃｈ　Ｒｅｃｏｇｎｉ
ｔｉｏｎ”（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ　ｏｎ
　Ｐａｔｔｅｒｎ　Ａｎａｌｙｓｉｓ　ａｎｄ　Ｍａｃ
ｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、ＰＡＭＩ−５巻、
２号、ｐｐ、　１７９−　ｌ　９０．１９８３、Ｌａ１
ｉｔ　ＲＢａｈｌ、Ｆｒｅｄｅｌｉｃｋ　Ｊｅｌｉｎｅ
ｋ及びＲｏｂｅｒｔ　ＬｏＭｅｒｃｅｒ）（２）“Ｃｏｎｔｉｎｕｏｕｓ　５ｐｅｅｃｈ　Ｒｅｃ
ｏｇｎｉｔｉｏｎ　ｂｙＳｔａｔｉｓｔｉｃａｌ　Ｍｅ
ｔｈｏｄｓ”（Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ
　ＩＥＥＥ６４巻、１９７６、ｐｐ、５３２−５５６、
Ｆｒｅｄｅｌｉｃｋ　Ｊｅｌｉｎｅｋ）（３）“Ａｎ　
Ｉｎｔｒｏｄｕｃｔｉｏｎ　ｔｏ　ｔｈｅ　Ａｐｐｌｉ
ｃａｔｉｏｎ　ｏｆｔｈｅ　ＴｈＣｏｒｙ　ｏｆ　Ｐｒ
ｏｂａｂｉｌｉｓｔｉｃ　Ｆｕｎｃｔｉｏｎｓ　ｏｆ　
ａＭａｒｋｏｖ　　Ｐｒｏｃｅｓｓ　　ｔｏ　　Ａｕｔ
ｏｍａｔｉｃ　　ＳｐｅｅｃｈＲＣｃｏｇｎｉｔｉｏｎ
” （丁ｈｅ　Ｂｅ１ｌ　５ｙｓｔｅａ＋　Ｔｅｃｈｎｉｃ
ａｌ　Ｊｏｕｒｎａｌ　６４巻、４号、ｐｐ１０３５−
１０７４．１９８３．４月、Ｓ、Ｅ、Ｌｅｖｊｎｓｏｎ
、Ｌ、Ｒ，Ｒａｂｉｎｅｒおよび阿、Ｍ、５ｏｎｄｈｉ
）ところで音声知覚の側面から、音声の過渡的なスペク
トル・パターンが音声の識別、特に子音の識別のために
重要な特徴であることが指摘されており、さらに雑音の
影響をうけにくい特徴であることも知られているが、一
般的なマルコフ・モデルはこのような過渡的な特徴の記
述能力に欠ける。

近年このような音声の過渡的特徴を表現するマルコフ・
モデルがいくつか提案されているが、これらのモデルは
大量のパラメータで構成され、記憶量の問題のみならず
パラメータ推定のための訓練用音声データを大量に必要
とするという欠点を持つ。例えば、隣接するｍフレーム
にわたるスペクトル・パターンをそのまま特徴量として
モデルを推定しようとすると、フレーム毎のパターン数
（ベクトル量子化のラベル・プロトタイプ数）をＮとし
た場合、モデルの各状態にラベル出力確率が割当られて
いる場合でも、各状態でＮｍ個程度のパラメータを推定
することになる。これは膨大な記憶量を必要とすること
と、モデルのパラメータを推定するために膨大な量の学
習用音声を必要とするため、ｍが大きい時の実現は不可
能である。

また、ｍフレームにわたるパターンをマトリクス量子化
すればある程度パラメータ数を削減できるが、量子化誤
差を考慮するとそれほど小さくは出来ず、量子化のため
の計算・記憶量が膨大になるという欠点も持つ、また、
過渡的なパターンを直接マルコフ・モデルの定式化に盛
りこむ方法も提案されている。これは時刻ｔにおけるラ
ベルをＬ（ｍ）、状態をＳと表せば、マルコフ・モデル
のラベル出力確率としてＰ　（Ｌ　（ｔ）　Ｉ　Ｌ　（
ｔ−１）、　Ｌ　（ｔ−２）　、　、　。

Ｌ　（ｔ−ｍ）、　Ｓ　）を使うもので、この場合も各
状態でＮ　個のパラメータを推定することに変りはない
。

これについては（４）”確率モデルによる音声認識″（電子情報通信学
会間１９８８、第３章、３．３．５節、ｐｐ７９−８０
、中角を−）に関連する記載がある。

一方、フレーム毎の静的なスペクトルと、そのスペクト
ルの時間軸上の変化量に分けて２種類のベクトル量子化
を行ない、その結果得られるラベルの対で音声の過渡的
な変動パターンを表現し、マルコフ・モデルに基づく音
声認識に直接適用する方法がある。これについては（５）　”ＨＭＭ　Ｂａ５ｅｄ　５ｐｅｅｃｈ　Ｒｅｃ
ｏｇｎｉｔｉｏｎ　Ｕｓｉｎｇ　Ｍｕｌｔｉ−Ｄｉｍｅ
ｎｓｉｏｎａｌ　Ｍｕｌｔｉ−Ｌａｂｅｌｉｎｇ”（Ｐ
ｒｏｃｅｅｄｉｎｇｓｏｆ　ＩＣＡＳＳＰ’８７．１９
８７．４月、３７−１０、西村雅史１年岡晃に記載があ
る。この方法はベクトル量子化のための計算・記憶量を
あまり増やすことなく音声の過渡的な変動パターンを表
現できるが、この場合も各特徴量のパターン数をＮとす
れば、マルコフ・モデルの各状態あたりＮ２個程度のパ
ラメータを推定することになり、やはり少量の音声デー
タで全パラメータを正確に推定するのは難しく、記憶量
も多い。

Ｃ０発明が解決しようとする問題点この発明は以上の事情を考慮してなされたものであり、
計算量や記憶量をさほど増やすことなく、音声の過渡的
な特徴を加味して高精度な認識を行なえるマルコフ・モ
デルの音声認識装置を提供することを目的としている。

Ｄ０問題点を解決するための手段本発明は、静的なスペクトルと数フレーム分のスペクト
ル変化量との間の相関が非常に小さいという知見に基づ
くもので、スペクトルとスペクトル変化量とのそれぞれ
に対して、独立したラベル出力確率を持つラベル単位の
マルコフ・モデルを用意することでパラメータ数を大幅
に減らすものである。なお、第９図にスペクトル間（Ａ
−Ａ）、スペクトル変化量間（Ｃ−Ｃ）、スペクトルと
スペクトル変化量間（Ａ−Ｃ）それぞれの相関値の例を
絶対値として示す。なお図でサフィックスは次元を表す
。この図から、スペクトルの各次元間や、スペクトル変
化量の各次元間の相関に比べ、スペクトルとスペクトル
変化量間の相関がはるかに小さいことが読み取れる。

本発明では、まず、時刻ｔにおいて音声の周波数軸上の
静的特徴を表すスペクトルＡ　（ｔ）と、そのスペクト
ル間時間軸上の変化量パターンＣ（し）（例えば、スペ
クトル変化の線形回帰係数）とを、それぞれ独立にベク
トル量子化する。この結果として得られる２本のラベル
系列Ｌａ（ｔ）、Ｌｃ（１）を両者の相関が小さいとい
う知見に基づき。

（式１）で評価する。ただしＷは単語を表現するマルコ
フ・モデル１．Ｉ＝ｉ１．Ｉ２、工３１．．．．ｉＴは
状態系列、Ｍａ、Ｍｃはそれぞれスペクトとスペクトル
変化に対応するラベル単位のマルコフ・モデルである。

また、Ｂ６．は状態ｉからｊへの遷移を表す。

ＪＰ　（Ｌａ、　Ｌｃ　ｌ　Ｗ）は単語を表現するマルコ
フ・モデルＷ毎に計算され、この値が最大値を与えるＷ
が認識結果として得られる。

Ｐ　（Ｌａ、　Ｌｃ　Ｉ　Ｗ）＝ΣＰ（Ｌａ、　Ｌｃ　ｌ　Ｉ、　Ｗ）Ｐ（Ｉ　Ｉ　Ｗ
）■ ＝ΣＰ　（Ｌａ（１）　ｌ　Ｍａ（ｉｆ））Ｐ　（Ｌｃ
（１）　ｌ　Ｍｅ（ｉｌ））■ Ｐ（Ｂ　　　　　Ｉ　Ｍａ（ｉｌ）、　Ｍｅ（ｉｌ））
ｉｆ、　　ｉ２・Ｐ　（Ｌａ（２）　ｌ　Ｍａ（ｉ２））　Ｐ　（Ｌｃ
（２）　ｌ　Ｍｅ（ｉ２））Ｐ　（Ｂ　　　　　Ｉ　Ｍ
ａ（ｉ２）、　Ｍｅ（ｉ２）−Ｌａ（Ｔ）　ｌ　Ｍａ（
ｉＴ））Ｐ　（Ｌｃ（Ｔ）　ｌ　Ｍｃ（ｉＴ））Ｐ　（
Ｂ　　　　　　Ｉ　Ｍａ（ｉｔ）、　Ｍｅ（ｉＴ））ｉ
Ｔ、　　ｉＴ＋１一一−（式１）このモデルは、スペクトル・パターンとスペクトル変化
量パターンのそれぞれに対して独立にラベル出力確率テ
ーブルＰ（Ｌａ（ｔ　ｌ　Ｍａ（ｉＴ））、　Ｐ（Ｌｃ
（ｔ）　ｌ　Ｍｅ（ｉｔ））を持つ。一方、遷移生起確
率については両特徴に依存する形式で表現しているが、
これは遷移生起確率テーブルのサイズがそもそも小さい
こと、両特徴が完全には独立とは言えないこと、計算量
が増えること、掛算回数が増えるために尤度計算時の精
度に影響が出ることなどの理由から、この部分で独立性
を仮定して記憶量を節約しても、トータルな効率の上か
らは望ましくないと考えたためである。

なお、ここでＭａ、Ｍｃはそれぞれスペクトルとスペク
トル変化に対応するラベル単位のマルコフ・モデルであ
り、このようなラベル単位のマルコフ・モデルはフェソ
ニック・マルコフ・モデルと呼ばれている。このモデル
は登録用音声のラベル系列に基づいて作成され、同じラ
ベル名で対応づけられたモデルは、モデルの訓練および
認識時に共通のモデルとして扱われ蚤。また、単語を表
現するフェノニック・マルコフ・モデルは単語ペースフ
オームと呼ばれている。フェノニック・マルコフ・モデ
ルについては以下の論文に詳細が記載されている。

（６）　　”Ａｃｏｕｓｔｉｃ　　Ｍａｒｋｏｖ　　Ｍ
ｏｄｅｌｓ　　Ｕｓｅｄ　　ｉｎ　　Ｔｈｅ　　丁ａｎ
ｇｏｒａ　５ｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　５
ｙｓｔｅ＋１”（ＰｒｏｃｅｅｄｉｎｇＳｏｆ　ＩＣＡ
ＳＳＰ’８８．１９８８．４月、５１１−３、！、、Ｒ
，Ｂａｈ１．　Ｐ、Ｆ、Ｂｒｏｗｎ、　Ｐ、Ｖ、ｄｅ　
５ｏｕｚａ。

Ｒ，Ｌ、Ｍｅｒｃｅｒ　ａｎｄ　Ｍ、Ａ、Ｐｉｃｈｅｎ
ｙ）なお本発明は音素を認識対象ユニットとする等種々
変更できる。

また以上の説明ではスペクトルとスペクトル変化量とに
着目したけれど、相互に相関の少ない他の一対の特徴量
を採用するようにしてもよい。たとえばスペクトルと韻
律データ（ピッチパターン）とを用いることができる。

Ｅ、実施例以下、この発明をフェノニック・マルコフ・モデルに基
づく単語音声認識に適用した一実施例について図面を参
照しながら説明しよう。第１図はこの実施例を全体とし
て示すものであり、この第１図において、入力音声デー
タはマイクロホン１及び増幅器２を介してアナログ・デ
ジタル（Ａ／Ｄ）変換器３に供給され、ここでデジタル
・データとされる。デジタル化された音声データはスペ
クトル抽出装置４に供給される。このスペクトル抽出装
置においては、まず音声データが雛散フーリエ変換さ九
た後、聴覚の特性を反映した２０チャンネル分の臨界帯
域フィルタの出力としてスペクトルＡ　（ｔ）が抽出さ
れる。この出力は８ｍ秒毎に次段の切り換え装置５に送
られ、ラベル・プロトタイプ作成装置６あるいはラベル
付は装置７のいずれかに送られる。ラベル・プロトタイ
プ作成時には切り換え装置５がラベル・プロトタイプ作
成装置６個に切り替わり、スペクトル抽出装置４からス
ペクトルが供給される。ラベル・プロトタイプ作成装Ｎ
６はクラスタリングによって１２８個のスペクトル用の
ラベル・プロ１−タイプ辞書８を作成する。一方、スペ
クトル抽出装置４の出力はスペクトル変化量生成装置９
にも送られる。スペクトル変化量生成装置９では最新の
９フレ一ム分のスペクトル・データを保持できるリング
・バッファを持っており、スペクトル・データは８ｍ秒
毎にこのバッファに記録される。最も新しいデータをＡ
（ｔ）とすると、Ａ　（ｔ）からＡ　（ｔ−８）の９フ
レ一ム分のデータを使い、　（式２）に従ってＡ　（ｔ
−４）のフレームを中心としたスペクトル変化ｆｔｃ（
ｔ）が求められる。

ただし、ｉは各特徴量ベクトル次元を示す。なお、ＣＩ
。

００６．２０このスペクトル変化量も８ｍ秒毎に次段の切り換え装置
１０に送られ、ラベル・プロトタイプ作成装置１１ある
いはラベル付は装置１２のいずれかに送られる。ラベル
・プロトタイプ作成時には切り換え装置１０がラベル・
プロトタイプ作成装置１１に切り替わり、スペクトルと
の場合と同様にクラスタリングによって１２８個のスペ
クトル変化量用のラベル・プロトタイプ辞書１３を作成
する。認識を行なう場合、単語ペースフオームを登録す
るｌおよびマルコフ・モデルのパラメータを推定する場
合には切り換え装置５及び切り換え装置１０はそれぞれ
ラベル付は装置７．１２に切り替゛わる。ラベル付は装
置７．１２はそれぞれラベル・プロトタイプ辞書８．１
３を参照して順次ラベル付けを行なってゆく。なお、ラ
ベル付は装置７には４フレ一ム分の出力ラベルの遅延回
路が含まれており、スペクトルに対するラベルと、その
フレームを中心としたスペクトル変化量に対するラベル
が同期して８ｍ秒毎に得られようになっている。

なお、ラベル付けはたとえば第２図に示すように行なわ
れる。第２図においてＸは入力の特徴量、Ｙｊは第ｊ番
目のプロトタイプの特徴量、Ｎはプロトタイプの個数（
”　ｌ　２８）　、ｄｉｓｔ（Ｘ、　Ｙ）はＸとＹｊト
（７）−Ｌ−’）　’Ｊ　ラド距離、ｍは各時点までの
ｄｉｓｔ（Ｘ、　Ｙ）の最小値である。

なおｍは非常に大きな値Ｖに最初設定される。図から明
らかなように入力の特徴量Ｘはプロトタイプの特徴量の
各々と順次比較されていき、最も似ている、すなわち距
ｍの最も小さいものが観測されたラベル（ラベル番号）
Ｌとして出力されてゆく、なお、ラベル付は装に７およ
び１２のいずれに対してもこの手順はまったく同じであ
る。

第１図に戻る。ラベル付は装置７および１２から出力さ
れるラベルは対になって切り換え装置１４を介して単語
ベースフオーム登録装置１５、モデル・パラメータ推定
装置１６、認識装置１７のいずれかに１つに供給される
。単語べ一人フオーム登録装置１５、モデルパラメータ
推定装置１６．認識装置１７の動作の詳細についてはの
ちに第３図以降の図を参照して説明する。単語ベースフ
オーム時には、切り換え装置１４が単語ベースフオーム
登録装置１５側に切り替わって、ラベル対を単語ベース
フオーム登録装置１５に供給する。単語ベースフオーム
登録装置１５はラベル対の系列を利用して、単語ペース
フオーム・テーブル１８を作成する。マルコフ・モデル
のパラメータ推定時には、切り換え装置１４がモデルの
パラメータ推定装置１６側に切り替わり、モデル・パラ
メータ推定装置１６がラベル対の系列とベースフオーム
・テーブル１８を利用してモデルの訓練を行ない、パラ
メータ・テーブル２０のパラメータ値を決定する。認識
を行なう際には切り換え装置１４が認識装置１７側に切
り替わり、認識装置１７はラベル対の系列とベースフオ
ーム・テーブル１８およびパラメータ・テーブル１９と
に基づいて入力音声のＶ＆識を行なう。

認識装置１７の出力はワークステーション２０に供給さ
れ、たとえばその表示装置に表示される。

なお第１図においてマイクロホン１、増幅器２、Ａ／Ｄ
変換器３および表示装置２０を除く全ての装置はワーク
ステーション上にソフトウェアとして実現されている。

なおワークステーションとしはてＩＢＭ社の５５７０処
理装置、オペレーション・システムとしては日本語ＤＯ
８、言語としてはＣ言語およびマクロ・アセンブラを用
いた。もちろん、ハードウェアとして実現しても良い。

次に単語ベースフオーム登録装置１５、モデル・パラメ
ータ推定装置１６、認識装置１７のそれぞれの詳細につ
いて説明する。

第３図はこの実施例で用いられているフェノニック・マ
ルコフ・モデルの構造を示している。この図で、Ｍａは
スペクトルのラベルに対応するフェノニック・マルコフ
・モデル、Ｍｅはスペクトル変化量のラベルに対応する
フェノニック・マルコフ・モデルである。第４図に示さ
れるようにラベル出力確率についてはＭａ、Ｍｃそれぞ
れのモデルに対してパラメータ・テーブルが用意され、
遷移生起確率についてはＭａとＭｅの対に対してパラメ
ータ・テーブルが用意される。なお遷移の種類としては
自己への遷移（Ｂ□）、次の状態への遷移（Ｂ２）なら
びにラベルを出力することなく次の状態に遷移するナル
遷移（Ｂ、）の三つからなっている。

まず単語ベースフオーム登録装置１５の動作について第
３図および題５図を参照しながら説明しよう。第５図は
ベースフオームの形状の例と、その作成の様子を口約に
示すものである。この図において、まず入力音声スペク
トルとスペクトル変化量がラベル付けされ、２本のラベ
ル系列Ｌａ、Ｌｃが得られている。このラベル番号に一
対一対応するように第３図にしめされるフェノニック・
マルコフ・モデルが順次連結される。このフェノニック
・マルコフ・モデルが連結された形状のものをベースフ
オームと呼んでいる。このようにして、認識対象単語毎
に実際の発生から単語ベースフオームが作成され、ベー
スフオーム・テーブルに登録される。なお、この実施例
ではスペクトルとスペクトル変化のそれぞれのラベルＬ
ａ、ＬｃにそれぞれのＭａ、Ｍｃを一対一対応させたの
で、Ｍａ、ＭＣはラベルの種類と同じくそれぞれ１２８
ｇＩ類用意している。ただしこの対応は必ずしも一対一
である必要はない。

次にマルコフ・モデルのモデル・パラメータ推定装置１
６の動作について第３図ないし第６図を参照しながら説
明する。第６図はモデルのパラメータ推定の手順を示す
もので、この図においてまず、パラメータ推定を行なう
全ての単語ペースフオームが読みこまれる（ステップ２
１）。次に図４に示されたフェノニック・マルコフ・モ
デルのパラメータ、つまり、ラベル出力確率Ｐ（Ｌａｌ
Ｍａ）、Ｐ　（Ｌｃ　Ｉ　Ｍｅ）および遷移生起確率Ｐ
（ＢｉｌＭａ、Ｍｃ）の初期設定を行なう（ステップ２
２）。

この例では遷移生起確率はＢ□、Ｂ２、Ｂ、がそれぞれ
Ｏ，ｌ：ｏ、８：０．１で起こり、ラベル出力確率はモ
デルとラベルの番号が同じ時に０．６、そのほか番号で
は０．４／１２７の確率で均等に出力されるものとして
各パラメータ値を初期設定している。なお第４図には推
定が終了したパラメータの値の例を示しである。

このようにマルコフ・モデルを初期設定した後、パラメ
ータ推定用の音声データを入力する（ステップ２３）。

このパラメータ推定用の音声データは、認識対象語常を
それぞれ１０回ずつ発生して得たラベル対の系列である
。音声データの入力が終わると各音声データそれに対応
する各単語ペースフオームとの組合せに対し、フォワー
ド・バックワード計算を行なう（ステップ２４）。この
計算を全てのパラメータ推定用音声データに対して行な
ったのち、全フ二ノニソク・マルコフ・モデルのパラメ
ータ推定を行なう（ステップ２５）。

なお、フェノニック・マルコフ・モデルの特徴として、
パラメータ推定用の語常と認識対象諸費は必ずしも一致
している必要はなく、まったく異なる語常に対してパラ
メータ推定を行なってもよい。

新たに推定されたパラメータを用いて以上のプロセスす
なわちステップ２３〜２５を予定回数たとえば５回繰り
返してフェノニック・マルコフ・モデルのパラメータ推
定を終了する。

次に認識装置１７の動作について第７図を用いて説明す
る。第７図においてＷは単語ペースフオーム＋　Ｌａ、
Ｌｃは入力音声のラベル系列、Ｐ　（Ｌａ、ＬｃｌＷ）
は単語Ｗに対する入力音声の尤度を表す０ｍは各時点ま
でのＰ　（Ｌａ、　Ｌｃ　ｌ　Ｗ）の最大値であり、最
初Ｏに初期値設定される。この図においてまず、フェノ
ニック・マルコフ・モデルのパラメータが読みこまれる
（ステップ２７）。入力音声データのラベル系列Ｌａ、
Ｌｃが入力される（ステップ２８）と、単語Ｗに対する
ペースフオームが順次読みこまれ（ステップ２９）、（
式１）に従って尤度Ｐ　（Ｌａ、Ｌｃ　Ｉ　Ｗ）が計算
される（ステップ３０）。なお、この部分はビタービの
アルゴリズムで行なうことも出来る。また図では（式１
）を整理して示しであるが、これは先に示したものと同
一である。このようにして各単語ペースフオームに対し
てＰ　（Ｌａ、　Ｌｃ　Ｉ　Ｗ）が順次求められ、認識
対象語素中で最も大きな尤度を与えた認識結果（単語番
号）Ｒとして出力文れる（ステップ３４）。

最後に「警報、平行、直線、直前」など類似性の高い１
５０単語を認識対象語鴬として男性話者２名の１３回の
発声（訓練用１０回、認識用３回の組合せ）に対して評
価実験を行なった。第８図に実験結果を示す。ここで横
軸は認識方法を示し、縦軸は平均誤認識率である。方法
１）はスペクトルのみを評価するフェノニック・マルコ
フ・モデルによる音声認識手法、方法２）はスペクトル
変化量のみを評価するフェノニック・マルコフ・モデル
による音声認識手法、方法３）は本実施例である。この
結果から、本発明を適用することにより従来用いられて
いた方法よりも遥かに高精度の認識が実現できることが
分る。また、そのための計算量や記憶量はスペクトルだ
けを評価する従来のフェノニック・マルコフ・モデルと
比べてさほど増加しない。

Ｆ１発明の詳細な説明したように、この発明によれば計算量や記憶量を
さほど増やすことなく、音声の過渡的な特徴を正確に捉
えた高精度の認識を実現できる。

【図面の簡単な説明】

第１図はこの発明の一実施例を示すブロック図、第２図
は第１図例のラベル付は装置７、および１２を説明する
フローチャート、第３図および第４図は単語ペースフオ
ーム登録装置１１１５、モデルのパラメータ推定装置１
６、認識装置１７の動作を説明するための図、第５図は
単語ペースフオーム登録装置１５の動作の流れを説明す
るための図、第６図はモデルのパラメータ推定装＠１６
の動作を説明するフローチャート、第７図は認識装置１
７の動作を説明するフローチャート、Ｉ８［［本発明の
適用結果の実験データを示す図、第９図は特徴量間の相
関の大きさを示す図である。４・・・スペクトル抽出装置、７・・・スペクトルのラ
ベル付装置、９・・・スペクトル変化量生成装置、１２
・・スペクトル変化量のラベル付装置、１５・・・単語
ベースフオーム登録装置、１６・・・モデル・パラメー
タ推定装置、１７・・・認識装置、１８・・ペースフオ
ーム・テーブル、１９・・・パラメータ・テーブル。複代理人

Claims

【特許請求の範囲】

（１）入力音声から所定時間間隔ごとにスペクトル・デ
ータを生成する手段と、所定の認識用のスペクトル・プロトタイプ・セットを用
いて上記スペクトル・データを量子化し、上記スペクト
ル・データごとに、対応する認識用スペクトル・プロト
タイプの識別子を生成する手段と、上記入力音声から上記時間間隔ごとにスペクトル変化量
データを生成する手段と、所定の認識用のスペクトル変化量プロトタイプ・セット
を用いて上記スペクトル変化量データを量子化し、上記
スペクトル変化量データごとに、対応する認識用スペク
トル変化量プロトタイプの識別子を生成する手段と、上記時間間隔の単位の音声に対応し、スペクトル・デー
タに関連するモデル識別子およびスペクトル変化量デー
タに関連するモデル識別子により特定される複数の確立
モデルであって、それぞれ１または複数の状態、上記状
態からの遷移、上記遷移確率、上記状態または上記遷移
において上記認識用スペクトル・プロトタイプの識別子
の各々を出力する出力確率および上記認識用スペクトル
変化量プロトタイプの識別子の各々を出力する出力確率
を有するものをストアする手段と、認識対象ユニットを複数の上記確率モデルからなる連鎖
に関係付ける手段と、未知入力音声に基づいて生成した上記認識用スペクトル
・プロトタイプの識別子の系列および上記認識用スペク
トル変化量プロトタイプの識別子の系列を所定の認識対
象ユニットが出力する尤度を、当該認識対象ユニットに
関連付けられた確率モデルの上記生起確率および出力に
基づいて生成する手段と、上記尤度に基づいて上記未知入力音声の認識結果を出力
する手段とを有し、上記確率モデルの認識用スペクトル・プロトタイプの識
別子の出力確率を、上記スペクトル・データに関連する
モデル識別子が同一の確率モデルで共通とし、さらに上
記確率モデルの認識用スペクトル変化量プロトタイプの
識別子の出力確率を、上記スペクトル変化量に関連する
モデル識別子が同一の確率モデルで共通としたことをす
ることを特徴とする音声認識装置。
（２）上記スペクトル・データに関連するモデル識別子
は上記認識用スペクトル・プロトタイプの識別子とし、
上記スペクトル変化量データに関連するモデル識別子は
上記認識用スペクトル変化量プロトタイプの識別子とし
た特許請求の範囲第１項記載の音声認識装置。
（３）上記スペクトル・データに関連するモデル識別子
は上記認識用スペクトル・プロトタイプとは別のスペク
トル・プロトタイプの識別子とし、上記スペクトル変化
量データに関連するモデル識別子は上記認識用スペクト
ル変化量プロトタイプとは別のスペクトル変化量プロト
タイプの識別子とした特許請求の範囲第１項記載の音声
認識装置。
（４）上記確率モデルは１つの状態を有し、さらに上記
状態からその状態へと上記認識用スペクトル・プロトタ
イプの識別子および上記認識用スペクトル変化量プロト
タイプの識別子を出力して推移する遷移、上記状態から
後続する確率モデルの状態へと上記認識用スペクトル・
プロタイプの識別子および上記認識用スペクトル変化量
プロトタイプの識別子を出力して推移する遷移および上
記状態から上記後続の確率モデルの状態へとそれら識別
子を出力することなく推移する遷移を有する特許請求の
範囲第１項、第２項または第３項記載の音声認識装置。
（５）上記認識対象ユニットを単語とした特許請求の範
囲第１項、第２項、第３項または第４項記載の音声認識
装置。
（６）入力音声から所定時間間隔ごとに第１の特徴デー
タを生成する手段と、所定の認識用の第１の特徴のプロトタイプ・セットを用
いて上記第１の特徴データを量子化し、上記第１の特徴
データごとに、対応する認識用の第１の特徴のプロトタ
イプの識別子を生成する手段と、上記入力音声から上記時間間隔ごとに上記第１の特徴と
相関の少ない第２の特徴データを生成する手段と、所定の認識用の第２の特徴のプロトタイプ・セットを用
いて上記第２の特徴データを量子化し、上記第２の特徴
データごとに、対応する認識用の第２の特徴プロトタイ
プの識別子を生成する手段と、上記時間間隔の単位の音声に対応し、上記第１の特徴に
関連するモデル識別子および上記第２の特徴に関連する
モデル識別子により特定される複数の確率モデルであっ
て、それぞれ１または複数の状態、上記状態からの遷移
、上記遷移確率、上記状態または上記遷移において上記
認識用の第１の特徴のプロトタイプの識別子の各々を出
力する出力確率および上記認識用の第２の特徴のプロト
タイプの識別子の各々を出力する出力確率を有するもの
をストアする手段と、認識対象ユニットを複数の上記確立モデルからなる連鎖
に関係付ける手段と、未知入力音声に基づけいて生成した上記認識用の第１の
特徴のプロトタイプの識別子の系列および上記認識用の
第２の特徴のプロトタイプの識別子の系列を所定の認識
対象ユニットが出力する尤度を、当該認識対象ユニット
に関連付けられた確率モデルの上記生起確率および出力
確率に基づいて生成する手段と、上記尤度に基づいて上記未知入力音声の認識結果を出力
する手段とを有し、上記確率モデルの認識用の第１の特徴のプロトタイプの
識別子の出力確率を、上記第１の特徴に関連するモデル
識別子が同一の確率モデルで共通とし、さらに上記確率
モデルの認識用の第２の特徴のプロトタイプの識別子の
出力確率を、上記スペクトル変化量に関連するモデル識
別子が同一の確率モデルで共通としたことをすることを
特徴とする音声認識装置。