JPH067345B2

JPH067345B2 - ベクトル量子化を用いた音声認識方式

Info

Publication number: JPH067345B2
Application number: JP62156960A
Authority: JP
Inventors: 哲中村; 清宏鹿野
Original assignee: ATR JIDO HONYAKU DENWA
Current assignee: ATR JIDO HONYAKU DENWA
Priority date: 1987-06-24
Filing date: 1987-06-24
Publication date: 1994-01-26
Anticipated expiration: 2009-01-26
Also published as: JPS64997A

Description

【発明の詳細な説明】［産業上の利用分野］この発明はベクトル量子化を用いた音声認識方式に関
し、特に、ベクトル量子化を用いたテンプレートマッチ
ングによる音声認識方式に関する。

［従来の技術および発明が解決しようとする問題点］音声認識として、従来よりベクトル量子化を用いる手法
が考えられている。従来のベクトル量子化を用いた音声
認識では、計算量およびメモリの増加を抑えて認識性能
を向上させるべく、ベクトル量子化に用いるスペクトル
歪み尺度の改良が行なわれ、種々の特徴の組合わせの複
合スペクトル歪尺度が提案されている。この方法では、
スペクトル歪み尺度に多種の特徴量を混在させ、それら
の間の依存関係を拘束条件として用い、より認識性能の
良い空間へ特徴を写像するところに意味があった。しか
し、この方法では、次に述べるような大きな２つの問題
点があった。

各特徴量間の依存関係がベクトル量子化のコードブッ
ク内で統計的に妥当性を持つためには、非常に多くのラ
ーニングサンプルとこのための膨大な計算時間が必要で
ある。

コードブックサイズで見た場合、各特徴に必要なコー
ドブックサイズは特徴間の依存関係を拘束条件にするこ
とで減少する。しかし、それでも全体のコードブックサ
イズは各特徴に必要なコードブックサイズの積になっ
て、非常に大きくなってしまい、膨大なメモリが必要で
あった。

それゆえに、この発明の主たる目的は、ベクトル量子化
として各特徴ごとに別々にコードブックを生成し、別々
のベクトル量子化を行なうセパレートベクトル量子化を
用いることにより、従来の問題点を解消し得るベクトル
量子化を用いた音声認識方式を提供することである。

［問題点を解決するための手段］この発明は、入力音声を、ベクトル量子化による符号列
として格納されている標準パターンと照合することによ
り認識を行なう音声認識方式において、入力音声の特徴
の種類を判別するステップと、入力音声の特徴がパワー
であることが判別されたことに応じてパワーのコードブ
ックを生成して記憶するステップと、入力音声の特徴が
スペクトルであることが判別されたことに応じてスペク
トルのコードブックを生成して記憶するステップと、各
コードブックについてベクトル量子化を行ない、パワー
とスペクトルとのコード列を生成するステップと、コー
ド化されたパワーおよびスペクトルの標準パターンを予
め生成した記憶するステップと、生成されたパワーとス
ペクトルのコード列と標準パターンおよび複合距離尺度
とに基づいて動的計画法により認識を行なうステップと
を含む。

［作用］この発明に係るベクトル量子化を用いた音声認識方式
は、入力音声の特徴がパワーであればそのパワーのコー
ドブックを生成して記憶し、特徴がスペクトルであれば
そのスペクトルのコードブックを生成して記憶し、各コ
ードブックについてベクトル量子化を行なってコード列
を生成し、生成されたパワーとスペクトルのコード列と
予め生成されている標準パターンおよび複合距離尺度と
に基づいて動的計画法により認識を行なうことにより、
コードブックサイズは各特徴に必要なコードブックサイ
ズの和となり、全体のコードブックサイズを軽減でき
る。

［発明の実施例］以下に、図面を参照して、この発明の実施例についてよ
り具体的に説明する。

第１図はこの発明の音声認識装置の概略ブロック図であ
る。

第１図において、音声認識装置は、アンプ１とローパス
フィルタ２とＡ／Ｄ変換器３と処理装置４とから構成さ
れる。アンプ１は入力された音声信号を増幅するもので
あり、ローパスフィルタ２は増幅された音声信号から折
返し雑音を除去するものである。Ａ／Ｄ変換器３は音声
信号を１２ｋHzのサンプリング信号により１６ビットの
ディジタル信号に変換するものである。処理装置４はコ
ンピュータ５と磁気ディスク６と端末類７とプリンタ８
とを含む。コンピュータ５はＡ／Ｄ変換器３から入力さ
れた音声のディジタル信号に基づいて音声認識を行なう
ものである。

第２図はこの発明の一実施例の音声信号の入力から認識
結果を出力するまでの全体の流れを示すフロー図であ
り、第３図はセパレートベクトル量子化の動作を説明す
るためのフロー図であり、第４図はマッチング動作を説
明するためのフロー図である。

次に、第１図ないし第４図を参照して、この発明の一実
施例の動作について説明する。入力された音声信号はア
ンプ１によって増幅され、ローパスフィルタ２によって
折返し雑音が除去された後、第２図に示すステップ（図
示ではＳＰと略称する）ＳＰ１において、Ａ／Ｄ変換器
３が入力された音声信号を１６ビットのディジタル信号
に変換する。処理装置４のコンピュータ５はステップＳ
Ｐ２において、ディジタル信号に変換された音声の特徴
抽出を行なう。この特徴抽出では、たとえば線形予測分
析（ＬＰＣ分析）などの手法を用いて行なわれる。

ステップＳＰ３において音声認識が行なわれる。すなわ
ち、ステップＳＰ２において生成された特徴ごとの特徴
列はＳｐｌｉｔ法によるマッチング部で既に格納されて
いる標準パターンと照合され、マッチング距離がステッ
プＳＰ５における結果判定部５に送られる。なお、ステ
ップＳＰ４における標準パターンは、特定話者認識の場
合は、予め使用者が認識単語を発声することにより作成
し、不特定話者の場合は多数の話者が発声した音声デー
タベースを分析して代表パターンをマルチテンプレート
として作成し、磁気ディスク６に格納されている。ステ
ップＳＰ５における結果判定部では、認識候補に対して
結果が適切かどうかの判断を行ない、認識結果を出力す
る。

次に、第３図を参照して、前述の第２図に示した特徴抽
出およびセパレートベクトル量子化の動作についてより
詳細に説明する。特徴抽出では、ステップＳＰ１１にお
いて、１６ビットのディジタル信号に変換された音声信
号に対して、１４次の自己相関分析によるＬＰＣ分析を
行ない、入力音声の特徴であるパワーと自己相関係数，
ＬＰＣケプストラム係数を抽出する。ステップＳＰ１２
において、パワーのコードブック生成であるか否かを判
別し、パワーのコードブック生成であれば、ステップＳ
Ｐ１３において、入力音声のパワーをスカラー量子化す
る。スカラー量子化では、不均一量子化の手法を用い
て、ステップＳＰ１３においてパワーコードブックを生
成し、ステップＳＰ１４において生成したパワーコード
ブックを磁気ディスク６に格納する。

パワーコードブックの生成でないとき、すなわち量子化
時には、ステップＳＰ１４におけるパワーコードブック
を用いて、ステップＳＰ１５において量子化を行ない、
パワーに関するコード列を出力する。

一方、ステップＳＰ１６において、ＬＰＣ相関係数およ
びＬＰＣケプストラム係数のコードブック生成であるこ
とが判別されると、ステップＳＰ１７において、ＬＢＧ
アルゴリズムにより、ＷＬＲ尺度に基づいてコードブッ
クが生成され、ステップＳＰ１８において生成されたコ
ードブックが磁気ディスク６に格納される。

ここで、ＬＢＧアルゴリズムについては、Ｌｉｎｄｅ，
Ｂｕｚｏ，Ｇｒａｙ；“Ａｎａｌｇｏｒｉｔｈｍｆ
ｏｒＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎＤｅ
ｓｉｇｎ”ＩＥＥＥＣＯＭ−２８（１９８０−０１）
に記載されている。また、ＷＬＲ尺度は、音声の特徴を
強調する尺度であり、単語音声の認識において高い性能
を示すものであり、杉山，鹿野による“ピークに重みを
おいたＬＰＣスペクトルマッチング尺度”電子通信学会
論文（Ａ）Ｊ６４−Ａ５（１９８１−０５）に記載され
ている。

なお、ＬＰＣ相関係数およびＬＰＣケプストラム係数の
コードブック生成でないとき、すなわち、量子化時に
は、入力音声の自己相関係数とＬＰＣケプストラム係数
に用いて、ステップＳＰ１８におけるスペクトルコード
ブックを用いて、ステップＳＰ１９においてベクトル量
子化を行ない、スペクトル情報に関するコード列を出力
する。

ここで、コードブック生成，量子化に用いたスペクトル
歪み尺度は次のものである。

d_power＝P/P′＋P′/P-2 …(1) d_spectrum＝Σ（C(n)-C′(n)）（R(n)-R′(n)） …(2) d_power ：パワー項の歪み尺度 d_spectrum：スペクトル歪み尺度 R(n) ：コードブックのｎ次の自己相関係数 R′(n) ：入力のｎ次の自己相関係数 C(n) ：コードブックのｎ次のＬＰＣケプストラム係数 C′(n) ：入力のｎ次のＬＰＣケプストラム係数Ｐ：コードブックのパワーＰ′：入力のパワー前述したように、標準パターン作成時には、このコード
列を標準パターンとして格納し、認識時には標準パター
ンのコード列とのマッチングを行なう。

次に、第４図を参照して、マッチング方法について説明
する。セパレートベクトル量子化により、パワーとスペ
クトルとを別々にベクトル量子化して生成されたコード
列と、コード列として格納されている標準パターンとに
基づいて、ステップＳＰ２１において、Ｓｐｒｉｔ法に
よりマッチングが行なわれる。ステップＳＰ２２におけ
る標準パターンには、セパレートベクトル量子化により
コード化されたパワーおよびスペクトルの標準パターン
が格納されている。そして、ステップＳＰ２１における
マッチングにおいては、ＤＰ（ｄｙｎａｍｉｃｐｒｏ
ｇｒａｍｍｉｎｇ：動的計画法）マッチングにおける局
部距離は、ステップＳＰ２４において予め特徴ベクトル
系列とコードブックのベクトルの時間−距離マトリクス
を作成しておき、この表びきを行なうことによってマッ
チングを行なう。このようにして、順番に標準パターン
とマッチングして求めた入力音声と標準パターンの距離
をステップＳＰ２５における結果判定部に出力する。

ここで、マッチング法についてより具体的に説明する。
従来のマッチングでは、入力も標準パターンも１つの特
徴列あるいはコード列であったが、セパレートベクトル
量子化においては、一般に複数のコード列により構成さ
れる。この実施例においても、前述の実施例と同様にし
て、パワーコード列とスペクトルコード列の２系列のマ
ッチング手法を用いており、以下にその例について説明
する。

パワーとスペクトルの両方の情報を考えた場合の距離尺
度として、ＰＷＬＲ尺度があるが、これは次の第（３）
式で示される。

d_PWLR＝Σ（C(n)-C′(n)）（R(n)-R′(n)）＋ａ・（P/P′＋Ｐ′／P-2） …(3) 従来のＳｐｌｉｔ法によるコード列のマッチングでは、
標準パターン側のみがベクトル量子化により有限の点で
表わされる。入力音声の特徴ベクトル系列に対して、予
めすべてのコードブックとの距離を求めて時間−距離マ
トリックスに格納しておく。したがって、 d_PWLR(i,j) ＝Σ（C_i(n)−C_K(j)(n)）（R_i(n)-R_K(j)(n)）＋ａ・（P_i/P_K(j)＋P_K(j)/P_i-2） Ri(n)，Ci(n)，Pi：入力音声のｉフレームのｎ次の自己
相関係数、ＬＰＣケプストラム係数、パワーであり、 R_K(j)(n)，Ｃ_K(j)(n)P_K(j)：標準パターンコード列Ｋの
ｊ番目のコードのｎ次の自己相関係数、ＬＰＣケプスト
ラム係数、パワーである。

しかし、セパレートベクトル量子化では、２つの系列を
有するので次のようにして距離を求める。

d_[p][WLR](i,j) ＝Σ(C_i(n)−C_K(j)(n)）R_i(n)−R_K(j)(n) ＋ａ・（P_i/P_L(j)＋P_L(j)/P_i-2）Ｐ_L(j)：標準パターンコード列Ｌのｊ番目のコードのパ
ワーである。

これは、ＰＷＬＲ尺度の第１項と第２項を別々にコード
化して距離を計算し、和を求めたたものである。この局
部距離の尺度を用いて、ＤＰマッチングにより距離を求
める。

［発明の効果］以上のように、この発明によれば入力音声の特徴である
パワーおよびスペクトルについてそれぞれコードブック
を生成して量子化を行ない、求められたパワーとスペク
トルのコード列と標準パターンおよび複合距離尺度とに
基づいて動的計画法により認識を行なうようにしたの
で、各特徴の依存項を無視でき、ラーニングサンプルを
少なくてすみ、計算量を減少できる。ただし、セパレー
トすることにより、別のベクトル量子化系を構成するの
で、この分だけ計算量は多少増加するが、ラーニングサ
ンプルが少ないので、十分計算量を減少できる。また、
コードブックサイズはセパレートベクトル量子化では、
各特徴に必要なコードブックサイズの和になるので、全
体のコードブックサイズを激減することができる。

【図面の簡単な説明】

第１図はこの発明の音声認識装置の概略ブロック図であ
る。第２図はＳｐｌｉｔ法による音声認識の全体の流れ
を示すフロー図である。第３図はセパレートベクトル量
子化の動作を説明するためのフロー図である。第４図は
マッチング動作を説明するためのフロー図である。図において、１はアンプ、２はローパスフィルタ、３は
Ａ／Ｄ変換器、４は処理装置、５はコンピュータ、６は
磁気ディスク、７は端末類、８はプリンタを示す。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭59−99500（ＪＰ，Ａ) 特開昭64−996（ＪＰ，Ａ) 特公平３−23920（ＪＰ，Ｂ２) 日本音響学会講演論文集昭和55年10月１−１−21 Ｐ399−400 日本音響学会論文集昭和56年５月３ −１−17 Ｐ553−554 日本音響学会講演論文集昭和57年10月２−７−12 Ｐ113−114 電子通信学会音声研究会資料Ｓ80−61 Ｐ480−486（1980／12／15) 電子通信学会論文誌Ｖｏｌ．Ｊ64−ＡＮｏ．５（1981／５）Ｐ409−415

Claims

【特許請求の範囲】

【請求項１】入力音声を、ベクトル量子化による符合列
として格納されている標準パターンと照合することによ
り認識を行なう音声認識方式において、前記入力音声の特徴の種類を判別するステップ、前記入力音声の特徴がパワーであることが判別されたこ
とに応じて、パワーのコードブックを生成して記憶する
ステップ、前記入力音声の特徴がスペクトルであることが判別され
たことに応じて、スペクトルのコードブックを生成して
記憶するステップ、前記各コードブックについてベクトル量子化を行ない、
パワーとスペクトルのコード列を生成するステップ、コード化されたパワーおよびスペクトルの標準パターン
を予め生成して記憶するステップ、および前記生成されたパワーとスペクトルのコード列と前記標
準パターンおよび複合距離尺度とに基づいて、動的計画
法により認識を行なうステップを含む、ベクトル量子化
を用いた音声認識方式。