JP2003036092A

JP2003036092A - Ｈｍｍの出力確率演算方法および音声認識装置

Info

Publication number: JP2003036092A
Application number: JP2001223610A
Authority: JP
Inventors: Yasunaga Miyazawa; 康永宮澤; Hiroshi Hasegawa; 浩長谷川
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2001-07-24
Filing date: 2001-07-24
Publication date: 2003-02-07
Anticipated expiration: 2021-07-24
Also published as: JP4048741B2; US7058576B2; US20030061044A1

Abstract

(57)【要約】【課題】ベクトル量子化を行ってテーブル参照で出力確
率を得て、音声認識を行うＨＭＭによる音声認識におい
て、計算量や使用するメモリ領域を極力少なくして、か
つ、高い認識性能を得る。【解決手段】ベクトル量子化を行う際に用いるコードブ
ックは、たとえば、サブワードを音素とした場合、コー
ドブックＣＢ１は音素/ａ/のコードブック、コードブッ
クＣＢ２は音素/ｉ/のコードブックというように、音素
ごとのコードブックとし、これらは、それぞれの音素Ｈ
ＭＭ１１，１２に対応している。そして、音声分析され
た特徴ベクトルが、たとえば、コードブックＣＢ１を用
いてベクトル量子化され、あるコード（ラベル）が出力
されたとすると、当該コードブックＣＢ１に対応した音
素ＨＭＭ１１の状態ごとのテーブルＴ１，Ｔ２，Ｔ３を
それぞれ参照し、そのラベルに対する状態出力確率を得
て、その状態出力確率をパラメータの１つとして用いて
音声認識処理を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は離散型ＨＭＭ（Hidd
en Markov Model）における出力確率を求めるＨＭＭの
出力確率演算方法およびそのＨＭＭの出力確率演算方法
を用いた音声認識装置に関する。

【０００２】

【従来の技術】音声認識を行うための音素モデルとして
ＨＭＭが広く使われている。このＨＭＭを用いた音声認
識手法は高い認識率を得ることができる反面、計算量が
多いのが難点である。特にＨＭＭの出力確率を求めるに
は多くの演算量を必要とし、それに伴って、演算を行う
ために多くのメモリ領域を必要とするなどの問題があ
る。

【０００３】これらの問題を解決する手法として、たと
えば、日本音響学会誌４２巻１２号（１９８６）「 Hid
den Markov Modelに基づいた音声認識」に記述されてい
るように、入力音声を音声分析して得られた特徴ベクト
ル系列を、予め作成された１つのコードブックを用いて
ベクトル量子化し、得られたコード（ラベル）を各単語
を構成するＨＭＭ（たとえば音素のＨＭＭ）に入力して
状態出力確率をテーブル参照で得て、それぞれのＨＭＭ
により得られる尤度を比較して音声認識を行う方法が知
られている。

【０００４】このベクトル量子化を用いる音声認識方法
において、それぞれの状態ごとの出力確率をテーブル参
照で得る処理は次のようにして行われる。

【０００５】入力音声を音声分析部で所定時間ごとに音
声分析し、たとえば１０数次元のＬＰＣケプストラム係
数などでなる特徴ベクトル列Ｖｔ（ｔは入力音声を所
定時間ごとに区切ったときのそれぞれのフレーム番号で
あり、フレーム数をＴで表せば、ｔ＝１，２，・・・，
Ｔ）を得て、その特徴ベクトル列Ｖｔに対し、コードブ
ックを用いてベクトル量子化部で量子化し、それぞれの
フレーム番号（ｔ＝１，２，・・・）ごとのコード列Ｃ
ｔを出力する。

【０００６】ここで用いられるコードブックは、あらゆ
る音素の入っている音声データから作成されたコードブ
ックであり、ここでは、そのコードブックサイズをＫで
表せば、あるフレーム番号に対するコードＣｔの値は、
コードブックのラベル番号ｋ（ｋ＝１，２，・・・，
Ｋ）で表すことができる。

【０００７】ここで、ある音素におけるＨＭＭにおい
て、今、ある状態ｉからある状態ｊに遷移する際に、コ
ードＣｔが入力されてきたときにそのコードＣｔを出力
する確率をｂij(Ct）で表せば、この場合、コードブッ
クサイズがＫで、あるフレーム番号に対するコードＣｔ
の値は、コードブックのラベル番号ｋ（ｋ＝１，２，・
・・，Ｋ）で表すことができるので、１〜Ｋのラベル番
号を出力する出力確率ｂij(ｋ）を求めればよいことに
なる。

【０００８】したがって、各音素ＨＭＭのそれぞれの状
態遷移において、ラベル番号１を出力する確率、ラベル
番号２を出力する確率、・・・、ラベル番号Ｋを出力す
る確率をテーブルとして持たせておけば、そのラベル番
号を基にテーブル参照するだけで、それぞれの状態遷移
ごとの出力確率を得ることができる。

【０００９】

【発明が解決しようとする課題】このように、ベクトル
量子化を用いる音声認識方法は、連続分布型ＨＭＭのよ
うなベクトル量子化を用いない方法と比較すると、演算
量を大幅に少なくすることができ、演算時間の短縮や演
算時に必要とするメモリ領域を大幅に少なくできるなど
の利点があるが、その一方で、ベクトル量子化誤差のた
めに認識性能に劣るという問題がある。特に、不特定話
者の音声認識を行う場合の認識性能に問題がある。

【００１０】このベクトル量子化誤差を少なくするに
は、コードブックサイズをきわめて大きなサイズとすれ
ばよいが、コードブックサイズをあまり大きくすると、
量子化を行う際の演算量が増大するとともに、多くのメ
モリ領域も必要となるなど、ベクトル量子化する利点が
失われることになる。

【００１１】また、従来のコードブックは、全ての音素
が含まれるような学習用の音声データから作成されたも
のであるので、幅広い音声に対応できる平均化されたコ
ードブックとなる。このため、認識性能を高めるにはコ
ードブックサイズは必然的に大きくならざるを得ない。

【００１２】また、認識性能に大きな影響を与えない音
声データに対してもコードデータとして持つことになる
ので、不必要にコードブックサイズが大きくなるのが現
状である。

【００１３】そこで本発明は、ＨＭＭの出力確率を少な
い演算量で高速に求めることを可能とするＨＭＭの出力
確率演算方法を提供するとともに、そのＨＭＭの出力確
率演算方法を用いることで、ハードウエア能力に制約の
あるシステムであっても高い認識性能を得ることができ
る音声認識装置を提供することを目的とする。

【００１４】

【課題を解決するための手段】上述した目的を達成する
ために、本発明におけるＨＭＭの出力確率演算方法は、
入力音声を音声分析して得られる特徴ベクトルをベクト
ル量子化手段を用いてベクトル量子化し、その量子化結
果に対応した状態出力確率をテーブル参照で得るＨＭＭ
の出力確率算出方法であって、前記ベクトル量子化を行
う際に用いるベクトル量子化手段は、それぞれのサブワ
ード対応のベクトル量子化手段とし、前記テーブルはこ
れらサブワード対応のベクトル量子化手段に対応して設
けられ、前記入力音声を音声分析して得られる特徴ベク
トルを、前記サブワード対応のベクトル量子化手段のう
ちのあるベクトル量子化手段を用いてベクトル量子化
し、その量子化結果を出力し、当該量子化結果を出力し
たベクトル量子化手段に対応するテーブルを参照してそ
の量子化結果に対する状態出力確率を得るようにしてい
る。

【００１５】このＨＭＭの出力確率演算方法において、
前記サブワードは音素であって、音素対応のベクトル量
子化手段を作成し、この作成された音素対応のベクトル
量子化手段はそれぞれの音素ＨＭＭに対応させるように
する。

【００１６】また、このＨＭＭの出力確率演算方法にお
いて、前記サブワードは音節であって、音節対応のベク
トル量子化手段を作成し、この作成された音節対応のベ
クトル量子化手段はそれぞれの音節ＨＭＭに対応させる
ようにする。

【００１７】また、このＨＭＭの出力確率演算方法にお
いて、前記サブワードは母音と子音であって、前記サブ
ワード対応のベクトル量子化手段は母音によって作成さ
れたベクトル量子化手段と子音によって作成されたベク
トル量子化手段であってもよい。

【００１８】また、このＨＭＭの出力確率演算方法にお
いて、前記それぞれのサブワードＨＭＭの幾つかのサブ
ワードＨＭＭごとに、前記サブワード対応のベクトル量
子化手段のうち共有できるベクトル量子化手段があれば
そのベクトル量子化手段を共有することもできる。

【００１９】また、このＨＭＭの出力確率演算方法にお
いて、前記それぞれのサブワードＨＭＭのある状態ごと
に、前記サブワード対応のベクトル量子化手段のうち共
有できるベクトル量子化手段があればそのベクトル量子
化手段を共有することもできる。

【００２０】また、このＨＭＭの出力確率演算方法にお
いて、前記サブワード対応のベクトル量子化手段は、そ
れぞれのベクトル量子化手段ごとにコードサイズをその
サブワードに応じた最適なコードサイズとすることもで
きる。

【００２１】また、このＨＭＭの出力確率演算方法にお
いて、前記ベクトル量子化を行う際、入力されたサブワ
ードがベクトル量子化すべきサブワードであるか否かを
調べ、ベクトル量子化すべきサブワードでない場合には
ベクトル量子化を行わないようにすることもできる。

【００２２】また、このＨＭＭの出力確率演算方法にお
いて用いるベクトル量子化手段はコードブックを用いる
ことができる。

【００２３】また、本発明の音声認識装置は、入力音声
を音声分析して得られる特徴ベクトルをベクトル量子化
手段を用いてベクトル量子化し、その量子化結果に対応
した状態出力確率をテーブル参照で得て、その状態出力
確率をパラメータの１つとして用いて音声認識を行うＨ
ＭＭを用いた音声認識装置であって、入力音声に対し音
声の特徴分析を行って特徴ベクトル列を出力する音声分
析部と、それぞれのサブワード対応のベクトル量子化手
段が記憶されたベクトル量子化手段記憶部と、前記音声
分析部から出力される特徴ベクトル列に対し、前記ベク
トル量子化手段記憶部に記憶されたサブワード対応のベ
クトル量子化手段を用いてベクトル量子化を行い、その
量子化結果を出力するベクトル量子化処理部と、サブワ
ードＨＭＭ演算に必要な様々なパラメータや前記サブワ
ード対応のベクトル量子化手段に対応して設けられた状
態出力確率参照用のテーブルを有するサブワードＨＭＭ
記憶部と、前記ベクトル量子化処理部からの量子化結果
を受けると、そのベクトル量子化に用いたベクトル量子
化手段に対応した前記テーブルを参照し、その量子化結
果に対する状態出力確率を取得し、その状態出力確率を
パラメータの１つとして用いて音声認識処理を行い認識
結果を出力する音声認識処理部とを有した構成となって
いる。

【００２４】この音声認識装置において、前記サブワー
ドは音素であって、音素対応のベクトル量子化手段を作
成し、この作成された音素対応のベクトル量子化手段は
それぞれの音素ＨＭＭに対応するようにしている。

【００２５】また、この音声認識装置において、前記サ
ブワードは音節であって、音節対応のベクトル量子化手
段を作成し、この作成された音節対応のベクトル量子化
手段はそれぞれの音節ＨＭＭに対応するようにしてい
る。

【００２６】また、この音声認識装置において、前記サ
ブワードは母音と子音であって、前記サブワード対応の
ベクトル量子化手段は母音によって作成されたベクトル
量子化手段と子音によって作成されたベクトル量子化手
段であってもよい。

【００２７】また、この音声認識装置において、前記そ
れぞれのサブワードＨＭＭの幾つかのサブワードＨＭＭ
ごとに、前記サブワード対応のベクトル量子化手段のう
ち共有できるベクトル量子化手段があればそのベクトル
量子化手段を共有することもできる。

【００２８】また、この音声認識装置において、前記そ
れぞれのサブワードＨＭＭのある状態ごとに、前記サブ
ワード対応のベクトル量子化手段のうち共有できるベク
トル量子化手段があればそのベクトル量子化手段を共有
することもできる。

【００２９】また、この音声認識装置において、前記サ
ブワード対応のベクトル量子化手段は、それぞれのベク
トル量子化手段ごとにコードサイズをそのサブワードに
応じた最適なコードサイズとすることもできる。

【００３０】また、この音声認識装置において、単語・
言語テーブルを有し、前記ベクトル量子化部がベクトル
量子化を行う際、入力されたサブワードがベクトル量子
化すべきサブワードであるか否かをこの単語・言語テー
ブルを参照して調べ、ベクトル量子化すべきサブワード
でない場合にはベクトル量子化を行わないようにするこ
ともできる。

【００３１】また、この音声認識装置において用いるベ
クトル量子化手段はコードブックを用いることができ
る。

【００３２】このように本発明は、ベクトル量子化を行
う際に用いるベクトル量子化手段は、それぞれのサブワ
ード（単語や言語を構成する音素や音節をここではサブ
ワードいう）対応のベクトル量子化手段としている。

【００３３】このサブワード対応のベクトル量子化手段
は、それぞれのサブワードに対応する音声データを主と
して作成されたものであるため、入力音声の特徴ベクト
ルの分布を適切に表現したベクトル量子化手段とするこ
とができ、このようなサブワード対応のベクトル量子化
手段を用いてベクトル量子化を行うことによって、ベク
トル量子化誤差を最小限に抑えることができる。

【００３４】また、このようなサブワード対応のベクト
ル量子化手段は、上述したように、入力音声の特徴ベク
トルの分布を適切に表現したベクトル量子化手段となっ
ているため、少ないコードサイズで高い認識性能を得る
ことができ、コードサイズを少なくできることからベク
トル量子化の演算量を少なくすることができ、出力確率
を記憶するためのテーブルサイズも小さくできるので使
用するメモリ領域も小さくて済む。

【００３５】また、サブワードを音素とした場合には、
音素対応にベクトル量子化手段を作成することによっ
て、それぞれの音素の特徴ベクトルの分布に適合したベ
クトル量子化手段とすることができ、それを用いてベク
トル量子化を行えば、ベクトル量子化誤差は極力小さく
抑えられたものとなる。

【００３６】また、サブワードを音節とした場合には、
音節対応にベクトル量子化手段を作成することによっ
て、それぞれの音節の特徴ベクトルの分布に適合しベク
トル量子化手段とすることができ、それを用いてベクト
ル量子化を行えば、ベクトル量子化誤差は極力小さく抑
えられたものとなる。

【００３７】また、サブワード対応のベクトル量子化手
段は、母音によって作成されたベクトル量子化手段と子
音によって作成されたベクトル量子化手段としてもよ
く、これによっても、従来のようにあらゆる音素が含ま
れる音声データから作成されたベクトル量子化手段に比
べれば、ベクトル量子化誤差を小さくすることができ
る。

【００３８】また、前記それぞれのサブワードＨＭＭの
幾つかのサブワードＨＭＭで、前記サブワード対応のベ
クトル量子化手段のうち共有できるベクトル量子化手段
があれば、それを共有することも可能であり、これによ
れば、ベクトル量子化手段の数を減らすことができ、ベ
クトル量子化手段全体のデータサイズを小さくすること
ができるので、演算量の削減や使用するメモリ領域を少
なくすることができる。

【００３９】また、それぞれのサブワードＨＭＭのある
状態ごとに、前記サブワード対応のベクトル量子化手段
のうち共有できるベクトル量子化手段があれば、それを
共有することも可能であり、これによれば、たとえば、
音節ごとにベクトル量子化手段を作成するような場合、
それぞれの音節ＨＭＭの状態ごとに、ベクトル量子化手
段を共有することができるので、ベクトル量子化手段全
体のデータサイズを大幅に小さくすることができる、そ
れによって、演算量の削減や使用するメモリ領域を少な
くすることができる。

【００４０】また、サブワード対応のベクトル量子化手
段は、それぞれのベクトル量子化手段ごとにコードサイ
ズをそのサブワードに応じた最適なコードサイズとする
ことも可能であり、これによれば、それぞれのサブワー
ドに応じた最適なベクトル量子化手段とすることがで
き、それぞれのサブワードに適したベクトル量子化が行
え、より一層、高い認識性能が得られるとともに、認識
性能に大きく影響を与えないようなサブワードに対して
はコードサイズを極力小さくするということもできるの
で、ベクトル量子化手段のサイズの無駄を省くこともで
きる。

【００４１】また、ベクトル量子化部がベクトル量子化
を行う際、入力されたサブワードがベクトル量子化すべ
きサブワードであるか否かをこの単語・言語テーブルを
参照して調べ、ベクトル量子化すべきサブワードでない
場合にはベクトル量子化を行わないようにすることもで
きるので、無駄な処理を省くことができ処理の高速化を
図ることができる。

【００４２】また、ベクトル量子化手段としてコードブ
ックを用いるようにすれば、ベクトル量子化を行うため
の演算量を少なくすることができ。

【００４３】本発明のＨＭＭの出力確率演算方法によれ
ば、ベクトル量子化誤差の少ない出力確率を少ない演算
量で得ることができ、このＨＭＭの出力確率演算方法を
音声認識装置に適用することで、ハードウエア能力に制
約のあるシステムであっても高い認識性能を持った音声
認識装置とすることができる。

【００４４】

【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。なお、この実施の形態で説明する内容は、
本発明のＨＭＭの出力確率演算方法およびそのＨＭＭの
出力確率演算方法を用いた音声認識装置についての説明
である。

【００４５】図１および図２はサブワード対応のベクト
ル量子化手段（この実施の形態ではベクトル量子化手段
としてコードブックを用いることにする）を作成し、そ
のサブワード対応のコードブックを用いてベクトル量子
化を行って、音声認識に必要なパラメータの１つである
出力確率をテーブル参照によって得る処理を説明する図
であり、図１はサブワードを音素とし、それぞれの音素
対応のコードブックによってベクトル量子化し、その量
子化結果として得られるコードを用いたテーブル参照を
行って出力確率を得る処理を説明するものである。

【００４６】ここでは音素として母音や子音など２６音
素を用い、これらの音素対応にコードブックを作成し、
ここでは、それぞれのコードブックのサイズ（コード数
Ｋ）はＫ＝６４とする。

【００４７】そして、それぞれの音素対応のコードブッ
クは、図１において、たとえば、コードブックＣＢ１
は、/ａ/の音素ＨＭＭ１１対応し、コードブックＣＢ２
は、/ｉ/の音素ＨＭＭ１２に対応するというように、そ
れぞれの音素ＨＭＭに対応している。この図１では、説
明を簡単にするために/ａ/と/ｉ/の音素のみが図示され
ている。

【００４８】そして、/ａ/の音素ＨＭＭ１１は、その音
素ＨＭＭが４状態３ループで表されるとすれば、それぞ
れの状態遷移ごとにそれぞれ状態出力確率テーブル（以
下、単にテーブルという）Ｔ１，Ｔ２，Ｔ３を持ってい
る。

【００４９】すなわち、テーブルＴ１は状態Ｓ１から状
態Ｓ２の状態遷移に対応したテーブルであり、テーブル
Ｔ２は状態Ｓ２から状態Ｓ３の状態遷移に対応したテー
ブルであり、テーブルＴ３は状態Ｓ３から状態Ｓ４の状
態遷移に対応したテーブルである。

【００５０】なお、状態Ｓ１，Ｓ２，Ｓ３，Ｓ４のう
ち、状態Ｓ１，Ｓ２，Ｓ３はそれぞれその状態を自己ル
ープする遷移（状態Ｓ１から状態Ｓ１、状態Ｓ２から状
態Ｓ２、状態Ｓ３から状態Ｓ３）を有するが、状態Ｓ１
から状態Ｓ１への状態遷移については上述のテーブルＴ
１を用い、状態Ｓ２から状態Ｓ２への状態遷移について
も上述のテーブルＴ２、状態Ｓ３から状態Ｓ３への状態
遷移についても上述のテーブルＴ３を用いる。

【００５１】なお、この場合、コードブックサイズをＫ
＝６４としているから、コードブックＣＢ１から出力さ
れるコードＣｔを表すラベルｋ（ｋはラベル番号）は、
ｋ＝１，２，・・・，６４のいずれかをとり、それぞれ
のテーブルＴ１，Ｔ２，Ｔ３には、ラベルｋ＝１，２，
・・・，６４に対応した出力確率値が格納されている。

【００５２】/ｉ/の音素ＨＭＭ１２も /ａ/の音素と同
様に、それぞれの状態遷移ごとにそれぞれテーブルＴ１
１，Ｔ１２，Ｔ１３を持ち、テーブルＴ１１は状態Ｓ１
１から状態Ｓ１２の状態遷移に対応したテーブル、テー
ブルＴ１２は状態Ｓ１２から状態Ｓ１３の状態遷移に対
応したテーブル、テーブルＴ１３は状態Ｓ１３から状態
Ｓ１４の状態遷移に対応したテーブルである。この場合
も、それぞれの状態Ｓ１１，Ｓ１２，Ｓ１３をそれぞれ
自己ループする遷移についても、上述のテーブルＴ１
１，Ｔ１２，Ｔ１３を用いる。

【００５３】そして、この場合も、コードブックサイズ
をＫ＝６４としているから、コードブックＣＢ２から出
力されるコードＣｔを表すラベルｋ（ｋはラベル番号）
は、ｋ＝１，２，・・・，６４のいずれかをとり、それ
ぞれのテーブルＴ１１，Ｔ１２，Ｔ１３には、ラベルｋ
＝１，２，・・・，６４に対応した出力確率値が格納さ
れている。

【００５４】そして、入力音声を所定時間ごとに音声分
析し、たとえば１０数次元のＬＰＣケプストラム係数で
なる特徴ベクトル列Ｖｔ（ｔは入力音声を所定時間ご
とに区切ったときのそれぞれのフレーム番号であり、入
力音声のフレーム数をＴで表せば、ｔ＝１，２，・・
・，Ｔ）を得て、その特徴ベクトル列Ｖｔをそれぞれの
音素ごとに作成されたコードブックＣＢ１，ＣＢ２，・
・・によりベクトル量子化を行ったところ、音素/ａ/に
対応するコードブックＣＢ１からコードＣｔを表すラベ
ルｋとしてｋ＝２４が出力されたとする。

【００５５】このラベルｋ＝２４が /ａ/の音素ＨＭＭ
１１に入力されると、たとえば、状態Ｓ１から状態Ｓ２
への状態遷移の際のコードＣｔを出力する確率（出力確
率は）は、テーブルＴ１を参照することで得ることがで
きる。

【００５６】このようにして、あるフレームの特徴ベク
トルＶｔ（ｔ＝１，２，・・・）が音素/ａ/のコードブ
ックＣＢ１によってベクトル量子化されて得られたコー
ドＣｔを出力する出力確率は、音素/ａ/の音素ＨＭＭ１
１のそれぞれの状態に対応したテーブルＴ１，Ｔ２，Ｔ
３を参照することで得ることができる。

【００５７】同様に、ある入力音声を特徴分析して得ら
れたあるフレームの特徴ベクトルＶｔをそれぞれの音素
ごとに作成されたコードブックＣＢ１，ＣＢ２，・・・
により、ベクトル量子化を行ったところ、音素/ｉ/のコ
ードブックＣＢ２からコードＣｔを表すラベルｋとして
ｋ＝１３が出力されたとする。

【００５８】このラベルｋ＝１３が /ｉ/の音素ＨＭＭ
１２に入力されると、たとえば、状態Ｓ１１から状態Ｓ
１２への状態遷移の際のコードＣｔを出力する確率（出
力確率は）は、テーブルＴ１１を参照することで得るこ
とができる。

【００５９】このようにして、あるフレームの特徴ベク
トルＶｔ（ｔ＝１，２，・・・）が音素/ｉ/のコードブ
ックＣＢ２によってベクトル量子化されて得られたコー
ドＣｔを出力する出力確率は、音素/ｉ/の音素ＨＭＭ１
２のそれぞれの状態に対応したテーブルＴ１１，Ｔ１
２，Ｔ１３を参照することで得ることができる。

【００６０】このように、この図１の例では、それぞれ
の音素ごとの音素ＨＭＭに対応したそれぞれの音素対応
のコードブックＣＢ１，ＣＢ２，・・・を持ち、入力音
声を特徴分析して得られたあるフレームの特徴ベクトル
Ｖｔを、対応するコードブックでコード化してラベルと
して出力し、そのラベルを当該コードブックに対応した
音素ＨＭＭに与えることで、それぞれの状態対応に設け
られたテーブル参照を行うことによって、その音素ＨＭ
Ｍのそれぞれの状態における出力確率を得ることができ
る。

【００６１】このそれぞれの音素対応のコードブックＣ
Ｂ１，ＣＢ２，・・・は、音素ごとの特徴ベクトルの分
布に適応したコードブックとなっているので、その音素
を表現するにふさわしい内容となっている。したがっ
て、そのコードブックのコードサイズＫはＫ＝６４程度
でも、実用的には十分な性能を得ることができる。した
がって、ここでの説明のように、音素を２６音素とした
場合、２６個のコードブックを必要とするが、この２６
個のコードブック全体のコードブックサイズは、２６×
６４＝１６６４のコード数で済む。

【００６２】このように、１つの音素に対するコードブ
ックのコードサイズＫを６４とし、それをそれぞれの音
素対応に作成したものと、従来の全ての音素の含まれる
音声データから作成された１つのコードブックを用いる
場合と比較すると、本発明による個々の音素対応のコー
ドブックを用いた場合は、従来のコードブックサイズを
２０４８としたものよりも高い認識性能が得られ、従来
のコードブックサイズを４０９６としたもの同等の認識
性能が得られることがわかった。

【００６３】また、コードブックＣＢ１，ＣＢ２，・・
・のコードサイズを上述したコードサイズ６４の半分と
した３２でも、従来のコードブックサイズを１０２４と
したものよりも高い認識性能が得られ、従来のコードブ
ックサイズを２０４８としたもの同等の認識性能が得ら
れることがわかった。このように、コードブックＣＢ
１，ＣＢ２，・・・のコードサイズを３２とすれば、全
体のコードブックサイズはさらに小さくて済み、この場
合、２６×３２＝８３２のコード数で済む。

【００６４】また、それぞれの音素対応のコードブック
のコードサイズは、全ての音素において同じとしてもよ
いが、音素ごとにコードブックサイズを任意に設定する
ことも可能であり、これによって、音素ごとに最適化が
図れる。

【００６５】以上のように音素対応のコードブックとす
ることによって、少ないコードサイズで高い認識性能を
得ることができ、コードサイズを少なくできることから
ベクトル量子化の演算量を少なくすることができ、ま
た、出力確率を記憶するためのテーブルサイズも小さく
できるので使用するメモリ領域も小さくて済む。

【００６６】以上はサブワードを音素とした場合につい
て説明したが、音節の場合も同様に考えることができ
る。サブワードを音節とした場合について図２を参照し
ながら説明する。

【００６７】図２はサブワードを音節とし、それぞれの
音節対応のコードブックによってベクトル量子化し、そ
の量子化結果として得られるコードを用いたテーブル参
照を行って出力確率を得る処理を説明するものである。

【００６８】この音節対応のコードブックは、説明の都
合上、この場合も図１と同様、それぞれのコードブック
サイズ（コード数Ｋ）はＫ＝６４としている。

【００６９】そして、それぞれの音節対応のコードブッ
クは、図２において、たとえば、コードブックＣＢ１１
は、/ｋａ/の音節ＨＭＭ２１に対応し、コードブックＣ
Ｂ１２は/ｓａ/の音節ＨＭＭ２２に対応するというよう
に、それぞれの音節ＨＭＭに対応している。この図２で
は、説明を簡単にするために/ｋａ/と/ｓａ/の音節のみ
が図示されている。

【００７０】そして、/ｋａ/の音節ＨＭＭ２１は、その
音節ＨＭＭ２１が６状態５ループで表されるとすれば、
図１の場合と同様に、それぞれの状態遷移ごとにそれぞ
れテーブル（この場合、Ｔ２１〜Ｔ２５）を持ってい
る。

【００７１】なお、この場合も図１と同様、コードブッ
クサイズ（コード数Ｋ）をＫ＝６４としているから、コ
ードブック１１から出力されるコードＣｔを表すラベル
ｋ（ｋはラベル番号）は、ｋ＝１，２，・・・，６４の
いずれかをとり、それぞれのテーブルＴ２１〜Ｔ２５に
は、ラベルｋ＝１，２，・・・，６４に対応した出力確
率値が格納されている。

【００７２】/ｓａ/の音節ＨＭＭ２２もその音節ＨＭＭ
２２が６状態５ループで表されるとすれば、 /ｋａ/の
音節と同様に、それぞれの状態遷移ごとにそれぞれテー
ブルＴ３１〜Ｔ３５を持っている。そして、この場合
も、コードブックサイズを６４としているから、コード
ブックＣＢ１２から出力されるコードＣｔを表すラベル
ｋ（ｋはラベル番号）は、ｋ＝１，２，・・・，６４の
いずれかをとり、それぞれのテーブルＴ３１〜Ｔ３５に
は、ラベルｋ＝１，２，・・・，６４に対応した出力確
率値が格納されている。

【００７３】そして、入力音声を所定時間ごとに音声分
析し、たとえば１０数次元のＬＰＣケプストラム係数で
なる特徴ベクトル列Ｖｔ（ｔは入力音声を所定時間ご
とに区切ったときのそれぞれのフレーム番号であり、入
力音声のフレーム数をＴで表せば、ｔ＝１，２，・・
・，Ｔ）を得て、その特徴ベクトル列Ｖｔをそれぞれの
音節ごとに作成されたコードブックＣＢ１１，ＣＢ１
２，・・・によりベクトル量子化を行ったところ、音節
/ｋａ/に対応するコードブックＣＢ１１からコードＣｔ
を表すラベルｋとしてｋ＝４２が出力されたとする。

【００７４】このラベルｋ＝４２が /ｋａ/の音節ＨＭ
Ｍ２１に入力されると、たとえば、状態Ｓ２１から状態
Ｓ２２の状態遷移の際のコードＣｔを出力する確率（出
力確率は）は、テーブルＴ２１を参照することで得るこ
とができる。

【００７５】このようにして、あるフレームの特徴ベク
トルＶｔ（ｔ＝１，２，・・・）が音節/ｋａ/のコード
ブックＣＢ１１によってベクトル量子化されることによ
って得られたコードＣｔを出力する出力確率は、音節/
ｋａ/の音節ＨＭＭ２１のそれぞれの状態に対応したテ
ーブルＴ２１，Ｔ２２，Ｔ２３，Ｔ２４，Ｔ２５を参照
することで得ることができる。

【００７６】同様に、ある入力音声を特徴分析して得ら
れたあるフレームの特徴ベクトルＶｔをそれぞれの音節
対応に作成されたコードブックＣＢ１１，ＣＢ１２，・
・・により、ベクトル量子化を行ったところ、音節/ｓ
ａ/のコードブック１２からコードＣｔを表すラベルｋ
としてｋ＝３１が出力されたとする。

【００７７】このラベルｋ＝３１が /ｓａ/の音節ＨＭ
Ｍ２２に入力されると、たとえば、状態Ｓ３１から状態
Ｓ３２への状態遷移の際のコードＣｔを出力する確率
（出力確率は）は、テーブルＴ３１を参照することで得
ることができる。

【００７８】このようにして、あるフレームの特徴ベク
トルＶｔ（ｔ＝１，２，・・・）が音節/ｓａ/のコード
ブックＣＢ１２によってベクトル量子化されることによ
って得られたコードＣｔを出力する出力確率は、音節/
ｓａ/の音節ＨＭＭ２２のそれぞれの状態に対応したテ
ーブルＴ３１，Ｔ３２，Ｔ３３、Ｔ３４，Ｔ３５を参照
することで得ることができる。

【００７９】このように、図２の例では、それぞれの音
節ごとの音節ＨＭＭに対応したそれぞれの音節ごとのコ
ードブックＣＢ１１，ＣＢ１２，・・・を持ち、入力音
声を特徴分析して得られたあるフレームの特徴ベクトル
Ｖｔを、対応するコードブックでコード化してラベルと
して出力し、そのラベルを当該コードブックに対応した
音節ＨＭＭに与えることで、それぞれの状態対応に設け
られたテーブル参照を行うことによって、その音節ＨＭ
Ｍのそれぞれの状態における出力確率を得ることができ
る。

【００８０】なお、この場合もそれぞれの音節ごとのコ
ードブックのコードサイズは、全ての音節において同じ
としてもよいが、音節ごとにコードブックサイズを任意
に設定することも可能であり、これによって、それぞれ
の音節ごとに最適化が図れる。

【００８１】以上、サブワードを音素あるいは音節とし
た場合の、音素ごとのコードブック、音節ごとのコード
ブックを作成し、それによって、特徴ベクトルをベクト
ル量子化し、テーブル参照によって出力確率を求める処
理について説明したが、本発明は、それぞれのサブワー
ドＨＭＭのある状態ごとに、それぞれのサブワード対応
のコードブックのうちのあるコードブックを共有するこ
とを可能としている。これについて幾つかの音節ＨＭＭ
のある状態ごとにコードブックを共有する場合を例にと
って説明する。

【００８２】図３は多数の音節のうち、たとえば、/ｋ
ａ/、/ｓａ/、/ｋｉ/、/ｋｕ/の音節ＨＭＭモデルをそ
れぞれ示すもので、図３（ａ）は/ｋａ/の音節ＨＭＭモ
デル、図３（ｂ）は/ｓａ/の音節ＨＭＭモデル、図３
（ｃ）は/ｋｉ/の音節ＨＭＭモデル、図３（ｄ）は/ｋ
ｕ/の音節ＨＭＭモデルを示している。

【００８３】これらの各音節ＨＭＭにおいて、たとえ
ば、/ｋａ/の音節ＨＭＭは、この図３（ａ）で示すよ
うに、仮に、状態Ｓ２１，Ｓ２２が/ｋ/を表現する部
分、状態Ｓ２３〜Ｓ２６が/ａ/を表現する部分というよ
うに区分され、また、/ｓａ/の音節ＨＭＭは、この図
３（ｂ）で示すように、仮に、状態Ｓ３１，Ｓ３２が/
ｓ/を表現する部分、状態Ｓ３３〜Ｓ３６が/ａ/を表現
する部分であるというように区分されたとする。

【００８４】また、/ｋｉ/の音節ＨＭＭは、この図３
（ｃ）に示すようように、仮に、状態Ｓ４１，Ｓ４２が
/ｋ/を表現する部分、状態Ｓ４３〜Ｓ４６が/ｉ/を表現
する部分であるというように区分され、/ｋｕ/の音節Ｈ
ＭＭは、この図３（ｄ）に示すように、仮に、状態Ｓ５
１，Ｓ５２が/ｋ/を表現する部分、状態Ｓ５３〜Ｓ５６
が/ｕ/を表現する部分であるというように区分されたと
する。

【００８５】このように、それぞれの音節ＨＭＭにおい
て、それぞれの状態をそれぞれの音素対応にわけること
ができるので、それぞれの音節ＨＭＭの状態ごとに、そ
の状態に対応する音素のコードブックを共有することが
できる。

【００８６】たとえば、これらの各音節ＨＭＭにおい
て、図３（ａ）の/ｋａ/の音節ＨＭＭにおける /ａ/を
表現する部分の状態Ｓ２３〜Ｓ２６と、図３（ｂ）の/
ｓａ/の音節ＨＭＭにおける/ａ/を表現する部分の状態
Ｓ３３〜Ｓ３６に対しては、/ａ/のコードブックを共有
する。

【００８７】また、これらの各音節ＨＭＭにおいて、図
３（ａ）の/ｋａ/の音節ＨＭＭにおける /ｋ/を表現す
る部分の状態Ｓ２１，Ｓ２２と、図３（ｃ）の/ｋｉ/の
音節ＨＭＭにおける/ｋ/を表現する部分の状態Ｓ４１，
Ｓ４２と、図３（ｄ）の/ｋｕ/の音節ＨＭＭにおける/
ｋ/を表現する部分の状態Ｓ５１，Ｓ５２に対しては、
それぞれ/ｋ/のコードブックを共有する。

【００８８】したがって、たとえば、/ｋａ/の音節ＨＭ
Ｍにおける出力確率を求める際には、最初の状態Ｓ２
１，Ｓ２２においては、共有する/ｋ/のコードブックを
用い、その/ｋ/のコードブックによりベクトル量子化さ
れて得られたコード（ラベル）によってテーブル参照を
行い、あとの方の状態Ｓ２３〜Ｓ２６においては、共有
する/ａ/のコードブックを用い、その/ａ/のコードブッ
クによりベクトル量子化されて得られたコード（ラベ
ル）によってテーブル参照を行うことにより出力確率を
得る。

【００８９】このように、それぞれの音節において、そ
れぞれの音節ＨＭＭの状態ごとに、コードブックを共有
することができ、それによって、たとえば、１１０程度
の音節に対し音素と同等の２０数個のコードブックで対
応することができる。

【００９０】なお、それぞれの音節ＨＭＭの状態ごとに
コードブックを共有する際、たとえば、/ｋａ/の音節Ｈ
ＭＭと/ｓａ/の音節ＨＭＭにおいては、それぞれ/ａ/を
表現する状態が存在するが、同じ/ａ/であっても、この
場合、/ｋａ/の音節ＨＭＭにおいては、/ａ/の直前には
/ｋ/が存在し、/ｓａ/の音節ＨＭＭにおいては、/ａ/
の直前には/ｓ/が存在するので、本来は、前後の関係を
考慮した/ａ/のコードブックを用いるのが理想である
が、それを考慮しないで作成された/ａ/のコードブック
であっても十分な結果を得ることができる。

【００９１】また、それぞれの音節ＨＭＭにおいて、ど
の状態がどのような音素を表現するかを判断して、どこ
で区切るかの区切りを設定したり、それによってどのコ
ードブックを共有させるかを決める処理は、人間の経験
的な知識によって行うこともできるが、コンピュータな
どによって計算を行い、ある音節ＨＭＭにおいて、どの
状態がどのような音素を表現するかを自動的に判断する
ことで、どの音節ＨＭＭのどの状態部分とどの音節のど
の状態部分に対してはどのようなコードブックを共有さ
せるかを決めることもできる。

【００９２】なお、図３に示す例は、説明の都合上、単
純に最初の２つの状態とあとの４つの状態で区切った例
であるが、たとえば、/ｋａ/の音節ＨＭＭにおいては、
状態Ｓ２１，Ｓ２２，Ｓ２３が/ｋ/を表現し、状態Ｓ２
４以降が/ａ/を表現し、また、/ｓａ/の音節ＨＭＭにお
いては、上述したように、状態Ｓ３１，Ｓ３２が/ｓ/を
表現し、状態Ｓ３４以降が/ａ/を表現するというよう
に、それぞれの音節ＨＭＭによって区切られる場所は異
なる場合も多い。

【００９３】このように、それぞれのサブワードＨＭＭ
（上述の例は音節ＨＭＭ）のある状態ごとに、サブワー
ドごとのコードブックのうち共有可能なコードブックが
あればそれを共有することによって、全体のコードブッ
クサイズを大幅に少なくすることができる。これによっ
て、演算量の削減が図れ、しかも、高い認識性能を維持
することができる。

【００９４】図４は本発明の音声認識装置の概略的な構
成図を示すもので、音声を入力する音声入力手段として
のマイクロホン１、入力された音声信号を増幅したりＡ
／Ｄ変換する音声信号処理部２、この音声信号入力処理
部２で処理された音声信号を所定時間ごとに音声分析
し、たとえば１０数次元のＬＰＣケプストラム係数など
でなる特徴ベクトル列Ｖｔ（ｔは入力音声を所定時間
ごとに区切ったときのそれぞれのフレーム番号であり、
フレーム数をＴで表せば、ｔ＝１，２，・・・，Ｔ）を
出力する音声分析部３、この音声分析部３で分析された
それぞれのフレームごとの特徴ベクトルＶｔをベクトル
量子化処理するベクトル量子化処理部４、このベクトル
量子化処理部４がベクトル量子化処理を行う際に用いる
サブワード対応のベクトル量子化手段（この実施の形態
ではコードブック）を記憶したコードブック記憶部５、
サブワードＨＭＭ演算に必要な様々なパラメータや前述
した状態出力確率テーブルを記憶しているサブワードＨ
ＭＭ記憶部６、このサブワードＨＭＭ記憶部６に記憶さ
れているデータと上述のベクトル量子化部４から出力さ
れたコード（ラベル）を用いて音声認識処理を行い認識
結果を出力する音声認識処理部７、この音声認識処理部
７や上述のベクトル量子化処理部４がそれぞれの処理を
行う際に参照する単語・言語テーブル８を有した構成と
なっている。

【００９５】なお、単語・言語テーブル８は音声認識部
７が音声認識処理を行う過程で、認識結果に不自然さが
あるか否かを判断したり、ベクトル量子化処理部４がベ
クトル量子化処理を行う過程で、不必要なサブワードに
対してはベクトル量子化処理しないようにしたりするた
めに用いられる。

【００９６】たとえば、音声認識装置が、認識すべき単
語や言語数がごく限られた単語のみの認識を行えばよい
ような場合、その認識すべき単語や言語を単語・言語テ
ーブル８として持っておくことで、音声認識している過
程で、この単語・言語テーブル８を参照し、音声認識を
行う必要のないサブワードであれば、そのサブワードに
対してはベクトル量子化しないようにするということが
できる。

【００９７】また、逆に数多くの単語や言語さらには連
続音声の認識を行う必要のある場合、入力音声を逐次的
に処理することが行われるが、そのような場合、今現在
の処理段階において認識すべき単語はどれかを単語・言
語テーブル８を参照することで知ることができ、音声認
識している過程で、その時点で不必要なサブワードであ
ると判断されれば、そのサブワードに対してはベクトル
量子化しないようにするということもできる。

【００９８】なお、コードブック記憶部５に記憶される
サブワード対応のコードブックは、たとえば、前述した
ように、サブワードが音素であれば、それぞれの音素ご
とに作成されたコードブックであり、これらのコードブ
ックはサブワードＨＭＭ記憶部６に記憶されているそれ
ぞれのサブワード音素ＨＭＭに対応している（図１参
照）。

【００９９】また、サブワードが音節であれば、コード
ブック記憶部５に記憶されるコードブックは、それぞれ
の音節ごとに作成されたコードブックであり、これらの
コードブックはそれぞれの音節ＨＭＭに対応している
（図２参照）。

【０１００】なお、このとき、前述したように、サブワ
ードＨＭＭのある状態ごとに、前記サブワード対応のコ
ードブックのうちの共有可能なコードブックを共有する
こともできる。

【０１０１】このような構成において、音声信号処理部
２で増幅やＡ／Ｄ変換された入力音声信号を音声分析部
３で分析し、それによって得られたある時刻に対応する
フレームの特徴ベクトルＶｔを、それぞれのサブワード
ごとに作成されたコードブックによりベクトル量子化を
行い、あるサブワードに対応するコードブックからコー
ドＣｔを表すラベル値ｋが出力されたとする。

【０１０２】このラベル値ｋが、対応するサブワードＨ
ＭＭに入力されることで、ある状態ｉからある状態ｊへ
の状態遷移の際のコードＣｔを出力する確率（出力確率
は）を、その状態遷移ijに対応するテーブルを参照する
ことで得ることができる。

【０１０３】このようにして、それぞれのそれぞれの状
態におけるコードＣｔを出力する出力確率をそれぞれの
状態に対応したテーブルを参照することで得ることがで
き、それを入力音声の各時刻対応のフレームごとの特徴
ベクトルについて行うことで、最終的な出力確率を得
て、それに基づいて音声認識処理部７が音声認識を行
う。

【０１０４】なお、前述したように、ベクトル量子化処
理部４がベクトル量子化処理を行う過程で、単語・言語
テーブル８を参照することで、不必要なサブワードに対
してはベクトル量子化しないようにしたり、音声認識処
理部７が音声認識処理を行う過程で、認識結果に不自然
さがあるか否かを判断したりすることも行う。

【０１０５】以上説明したようにこの実施の形態では、
サブワードとしての音素や音節ごとにコードブックを有
しているので、それぞれのコードブックは、音素あるい
は音節の特徴ベクトルの分布に適合したコードブックと
することができる。それによって、それぞれのコードブ
ックサイズは小さくても、ベクトル量子化を行う際の量
子化誤差を極力低くすることができる。また、そのベク
トル量子化によって得られたコードを出力する確率（出
力確率）はテーブル参照で得るが、そのテーブルのサイ
ズもコードブックサイズに伴って小さくすることができ
る。

【０１０６】このように、コードブックサイズやテーブ
ルサイズを小さくできることから、演算量を大幅に少な
くできるとともに、使用するメモリ領域も小さくするこ
とができる。しかも、コードブックサイズやテーブルサ
イズを小さくしながら、高い音声認識性を得ることがで
きる。

【０１０７】さらに、それぞれのサブワードに対応する
サブワードＨＭＭのある状態ごとにコードブックを共有
することもできる。特に、サブワードとして音節を用い
た場合には、それぞれの音節ＨＭＭの状態ごとに共有で
きるコードブックがあれば、それを共有するといったこ
とも可能であり、それによって、全ての音節に対し音素
と同等の２０数個のコードブックで対応することができ
る。

【０１０８】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、前
述の実施の形態では、サブワードごとのコードブックと
して、音素ごとのコードブックあるいは音節ごとのコー
ドブックを持つようにしたが、これに限られることな
く、たとえば、母音で１つのコードブックを作成し、子
音で１つのコードブックを作成するようにしてもよい。
これは、音素ごとのコードブックあるいは音節ごとのコ
ードブックを持つ場合に比べ、多少大雑把なコードブッ
クとなるが、従来の全ての音声から作成されたコードブ
ックに比べれば、コードブックサイズをそれ程大きくす
ることなく高い認識性能を得ることができる。

【０１０９】また、前述の実施の形態では、コードブッ
クを共有する場合、サブワードＨＭＭ（たとえば、音節
ＨＭＭ）の状態ごとに、あるコードブックを共有する例
について説明したが、サブワードＨＭＭの状態ごとだけ
でなく、たとえば、/ａ/の音素ＨＭＭと/ｉ/の音素ＨＭ
Ｍというように、幾つかのサブワードＨＭＭでコードブ
ックを共有することも可能である。

【０１１０】また、前述の実施の形態では、ベクトル量
子化手段としてコードブックを用いた例について説明し
たが、他のベクトル量子化手段を用いることもできる。

【０１１１】また、本発明は、以上説明した本発明を実
現するための処理手順が記述された処理プログラムを作
成し、その処理プログラムをフロッピィディスク、光デ
ィスク、ハードディスクなどの記録媒体に記録させてお
くことができ、本発明はその処理プログラムが記録され
た記録媒体をも含むものである。また、ネットワークか
ら当該処理プログラムを得るようにしてもよい。

【０１１２】

【発明の効果】以上説明したように本発明によれば、ベ
クトル量子化を行う際に用いるベクトル量子化手段は、
それぞれのサブワード対応のベクトル量子化手段として
いる。このサブワード対応のベクトル量子化手段は、そ
れぞれのサブワードに対する音声データから作成された
ものであるため、入力音声の特徴ベクトルの分布を適切
に表現したベクトル量子化手段とすることができ、この
ようなサブワード対応のベクトル量子化手段を用いてベ
クトル量子化を行うことによって、ベクトル量子化誤差
を最小限に抑えることができる。これによって、この出
力確率演算方法を音声認識装置に組み込むことによって
高い認識性能を得ることができ、また、個々のベクトル
量子化手段のコードサイズを少なくできることからベク
トル量子化の演算量を少なくすることができ、出力確率
を記憶するためのテーブルサイズも小さくできるので使
用するメモリ領域も小さくて済む。

【０１１３】また、前記それぞれのサブワードＨＭＭの
幾つかのサブワードＨＭＭで、前記サブワード対応のベ
クトル量子化手段のうち共有できるベクトル量子化手段
があれば、それを共有することも可能であり、これによ
れば、ベクトル量子化手段の数を減らすことができ、全
体のベクトル量子化手段のデータサイズを小さくするこ
とができるので、演算量の削減や使用するメモリ領域を
少なくすることができる。

【０１１４】また、それぞれのサブワードＨＭＭのある
状態ごとに、前記サブワード対応のベクトル量子化手段
のうち共有できるベクトル量子化手段があれば、それを
共有することも可能であり、これによれば、たとえば、
音節ごとにベクトル量子化手段を作成するような場合、
それぞれの音節ＨＭＭの状態ごとに、ベクトル量子化手
段を共有することができるので、全体のベクトル量子化
手段のデータサイズを大幅に小さくすることができる、
それによって、演算量の削減や使用するメモリ領域を少
なくすることができる。

【０１１５】このように、本発明のＨＭＭの出力確率演
算方法によれば、ベクトル量子化誤差の少ない出力確率
を少ない演算量で得ることができ、このＨＭＭの出力確
率演算方法を音声認識装置に適用することで、ハードウ
エア能力に制約のあるシステムであっても高い認識性能
を持った音声認識装置とすることができる。

【図面の簡単な説明】

【図１】サブワード対応のコードブックを用いてベクト
ル量子化を行って音声認識に必要なパラメータの１つで
ある出力確率をテーブル参照によって得る本発明の基本
的な処理を説明する図であり、サブワードを音素とした
場合について説明する図である。

【図２】図１においてサブワードを音節とした場合につ
いて説明する図である。

【図３】サブワードを音節とした場合の幾つかの音節Ｈ
ＭＭの状態ごとにコードブックを共有する例について説
明する図である。

【図４】本発明の音声認識装置の概略的な構成図であ
る。

【符号の説明】

１マイクロホン２音声信号処理部３音声分析部４ベクトル量子化処理部５コードブック記憶部６サブワードＨＭＭ記憶部７音声認識処理部８単語・言語テーブル１１ /ａ/の音素ＨＭＭ１２ /ｉ/の音素ＨＭＭ２１ /ｋａ/の音節ＨＭＭ２２ /ｓａ/の音節ＨＭＭＣＢ１音素/ａ/のコードブックＣＢ２音素/ｉ/のコードブックＣＢ１１音節/ｋａ/のコードブックＣＢ１２音節/ｓａ/のコードブックＴ１，Ｔ２，Ｔ３ /ａ/の音素ＨＭＭの状態出力確率テ
ーブルＴ１１，Ｔ１２，Ｔ１３ /ｉ/の音素ＨＭＭの状態出力
確率テーブルＴ２１〜Ｔ２５ /ｋａ/の音節ＨＭＭの状態確率テーブ
ルＴ３１〜Ｔ３５ /ｓａ/の音節ＨＭＭの状態確率テーブ
ル

Claims

【特許請求の範囲】

【請求項１】入力音声を音声分析して得られる特徴ベ
クトルをベクトル量子化手段を用いてベクトル量子化
し、その量子化結果に対応した状態出力確率をテーブル
参照で得るＨＭＭの出力確率演算方法であって、前記ベクトル量子化を行う際に用いるベクトル量子化手
段は、それぞれのサブワード対応のベクトル量子化手段
とし、前記テーブルはこれらサブワード対応のベクトル
量子化手段に対応して設けられ、前記入力音声を音声分析して得られる特徴ベクトルを、
前記サブワード対応のベクトル量子化手段のうちのある
ベクトル量子化手段を用いてベクトル量子化し、その量
子化結果を出力し、当該量子化結果を出力したベクトル
量子化手段に対応するテーブルを参照してその量子化結
果に対する状態出力確率を得ることを特徴とするＨＭＭ
の出力確率演算方法。
【請求項２】前記サブワードは音素であって、音素対
応のベクトル量子化手段を作成し、この作成された音素
対応のベクトル量子化手段はそれぞれの音素ＨＭＭに対
応することを特徴とする請求項１記載のＨＭＭの出力確
率演算方法。
【請求項３】前記サブワードは音節であって、音節対
応のベクトル量子化手段を作成し、この作成された音節
対応のベクトル量子化手段はそれぞれの音節ＨＭＭに対
応することを特徴とする請求項１記載のＨＭＭの出力確
率演算方法。
【請求項４】前記サブワードは母音と子音であって、
前記サブワード対応のベクトル量子化手段は母音によっ
て作成されたベクトル量子化手段と子音によって作成さ
れたベクトル量子化手段であることを特徴とする請求項
１記載のＨＭＭの出力確率演算方法。
【請求項５】前記それぞれのサブワードＨＭＭの幾つ
かのサブワードＨＭＭごとに、前記サブワード対応のベ
クトル量子化手段のうち共有できるベクトル量子化手段
があればそのベクトル量子化手段を共有することを特徴
とする請求項１から３のいずれかに記載のＨＭＭの出力
確率演算方法。
【請求項６】前記それぞれのサブワードＨＭＭのある
状態ごとに、前記サブワード対応のベクトル量子化手段
のうち共有できるベクトル量子化手段があればそのベク
トル量子化手段を共有することを特徴とする請求項１か
ら３のいずれかに記載のＨＭＭの出力確率演算方法。
【請求項７】前記サブワード対応のベクトル量子化手
段は、それぞれのベクトル量子化手段ごとにコードサイ
ズをそのサブワードに応じた最適なコードサイズとする
ことを特徴とする請求項１から６のいずれかに記載のＨ
ＭＭの出力確率演算方法。
【請求項８】前記ベクトル量子化を行う際、入力され
たサブワードがベクトル量子化すべきサブワードである
か否かを調べ、ベクトル量子化すべきサブワードでない
場合にはベクトル量子化を行わないようにすることを特
徴とする請求項１から７のいずれかに記載のＨＭＭの出
力確率演算方法。
【請求項９】前記ベクトル量子化手段はコードブック
であることを特徴とする請求項１から８のいずれかに記
載のＨＭＭの出力確率演算方法。
【請求項１０】入力音声を音声分析して得られる特徴
ベクトルをベクトル量子化手段を用いてベクトル量子化
し、その量子化結果に対応した状態出力確率をテーブル
参照で得て、その状態出力確率をパラメータの１つとし
て用いて音声認識を行う音声認識装置であって、入力音声に対し音声の特徴分析を行って特徴ベクトル列
を出力する音声分析部と、それぞれのサブワード対応のベクトル量子化手段が記憶
されたベクトル量子化手段記憶部と、前記音声分析部から出力される特徴ベクトル列に対し、
前記ベクトル量子化手段記憶部に記憶されたサブワード
対応のベクトル量子化手段を用いてベクトル量子化を行
い、その量子化結果を出力するベクトル量子化処理部
と、サブワードＨＭＭ演算に必要な様々なパラメータや前記
サブワード対応のベクトル量子化手段に対応して設けら
れた状態出力確率参照用のテーブルを有するサブワード
ＨＭＭ記憶部と、前記ベクトル量子化処理部からの量子化結果を受ける
と、そのベクトル量子化に用いたベクトル量子化手段に
対応した前記テーブルを参照し、その量子化結果に対す
る状態出力確率を取得し、その状態出力確率をパラメー
タの１つとして用いて音声認識処理を行い認識結果を出
力する音声認識処理部と、を有したことを特徴とする音声認識装置。
【請求項１１】前記サブワードは音素であって、音素
対応のベクトル量子化手段を作成し、この作成された音
素対応のベクトル量子化手段はそれぞれの音素ＨＭＭに
対応することを特徴とする請求項１０記載の音声認識装
置。
【請求項１２】前記サブワードは音節であって、音節
対応のベクトル量子化手段を作成し、この作成された音
節対応のベクトル量子化手段はそれぞれの音節ＨＭＭに
対応することを特徴とする請求項１０記載の音声認識装
置。
【請求項１３】前記サブワードは母音と子音であっ
て、前記サブワード対応のベクトル量子化手段は母音に
よって作成されたベクトル量子化手段と子音によって作
成されたベクトル量子化手段であることを特徴とする請
求項１０記載の音声認識装置。
【請求項１４】前記それぞれのサブワードＨＭＭの幾
つかのサブワードＨＭＭごとに、前記サブワード対応の
ベクトル量子化手段のうち共有できるベクトル量子化手
段があればそのベクトル量子化手段を共有することを特
徴とする請求項１０から１２のいずれかに記載の音声認
識装置。
【請求項１５】前記それぞれのサブワードＨＭＭのあ
る状態ごとに、前記サブワード対応のベクトル量子化手
段のうち共有できるベクトル量子化手段があればそのベ
クトル量子化手段を共有することを特徴とする請求項１
０から１２のいずれかに記載の音声認識装置。
【請求項１６】前記サブワード対応のベクトル量子化
手段は、それぞれのベクトル量子化手段ごとにコードサ
イズをそのサブワードに応じた最適なコードサイズとす
ることを特徴とする請求項１０から１５のいずれかに記
載の音声認識装置。
【請求項１７】単語・言語テーブルを有し、前記ベク
トル量子化部がベクトル量子化を行う際、入力されたサ
ブワードがベクトル量子化すべきサブワードであるか否
かをこの単語・言語テーブルを参照して調べ、ベクトル
量子化すべきサブワードでない場合にはベクトル量子化
を行わないようにすることを特徴とする請求項１０から
１６のいずれかに記載の音声認識装置。
【請求項１８】前記ベクトル量子化手段はコードブッ
クであることを特徴とする請求項１０から１７のいずれ
かに記載の音声認識装置。