JPH067344B2

JPH067344B2 - ベクトル量子化を用いた音声認識方式

Info

Publication number: JPH067344B2
Application number: JP62156959A
Authority: JP
Inventors: 哲中村; 清宏鹿野
Original assignee: ATR JIDO HONYAKU DENWA
Current assignee: ATR JIDO HONYAKU DENWA
Priority date: 1987-06-24
Filing date: 1987-06-24
Publication date: 1994-01-26
Anticipated expiration: 2009-01-26
Also published as: JPS64996A

Description

【発明の詳細な説明】［産業上の利用分野屋］この発明はベクトル量子化を用いた音声認識方式に関
し、特に、ベクトル量子化を用いたテンプレートマッチ
ングによる音声認識方式に関する。

［従来の技術および発明が解決しようとする問題点］音声認識として、従来よりベクトル量子化を用いる手法
が考えられている。従来のベクトル量子化を用いた音声
認識では、計算量およびメモリの増加を抑えて認識性能
を向上させるべく、ベクトル量子化に用いるスペクトル
歪み尺度の改良が行なわれ、種々の特徴の組合わせの複
合スペクトル歪み尺度が提案されている。この方法で
は、スペクトル歪み尺度に多種の特徴量を混在させ、そ
れらの間の依存関係を拘束条件として用い、より認識性
能の良い空間へ特徴を写像するところに意味があった。
しかし、この方法では、次に述べるような大な２つの問
題点があった。

各特徴量間の依存関係がベクトル量子化のコードブッ
ク内で統計的に妥当性を持つためには、非常に多くのラ
ーニングサンプルとこのための膨大な計算時間が必要で
ある。

コードブックサイズで見た場合、各特徴に必要なコー
ドブックサイズは特徴間の依存関係を拘束条件にするこ
とで減少する。しかし、それでも全体のコードブックサ
イズは各特徴に必要なコードブックサイズの積になっ
て、非常に大きくなってしまい、膨大なメモリが必要で
あった。

それゆえに、この発明の主たる目的は、ベクトル量子化
として各特徴ごとに別々にコードブックを生成し、別々
のベクトル量子化を行なうセパレートベクトル量子化を
用いることにより、従来の問題点を解消し得るベクトル
量子化を用いた音声認識方式を提供することである。

［問題点を解決するための手段］この発明は、入力音声をベクトル量子化し、ベクトル量
子化による符号列として格納されている標準パターンと
照合することにより認識を行なう音声認識方式におい
て、入力音声の特徴の種類を判別するステップと、入力
音声の特徴がパワーであることが判別されたことに応じ
てパワーのコードブックを生成して記憶するステップ
と、入力音声の特徴がスペクトルであることが判別され
たことに応じてスペクトルのコードブックを生成して記
憶するステップと、各コードブックについてベクトル量
子化を行ない、パワーとスペクトルとのコード列を生成
するステップと、生成されたパワーとスペクトルのコー
ド列と予め生成されている標準パターンおよび複合距離
尺度とに基づいて認識を行なうステップを含む。

［作用］この発明に係るベクトル量子化を用いた音声認識方式で
は、入力音声の特徴の種類を判別し、その特徴がパワー
であればパワーのコードブックを生成して記憶し、特徴
がスペクトルであればスペクトルのコードブックを生成
して記憶し、各コードブックについてベクトル量子化を
行なってパワーとスペクトルのコード列を生成し、生成
されたパワーとスペクトルのコード列と予め生成されて
いる標準パターンおよび複合距離尺度とに基づいて認識
を行なうことにより、コードブックサイズは各特徴に必
要なコードブックサイズの和となり、全体のコードブッ
クサイズを軽減できる。

［発明の実施例］次に、図面を参照して、この発明の実施例についてより
具体的に説明する。

第１図はこの発明の音声認識装置の概略ブロック図であ
る。

第１図において、音声認識装置はアンプ１とローパスフ
ィルタ２とＡ／Ｄ変換器３と処理装置４とから構成され
る。アンプ１は入力された音声信号を増幅するものであ
り、ローパスフィルタ２は増幅された音声信号から折返
し雑音を除去するものである。Ａ／Ｄ変換器３は音声信
号を１２ｋHzのサンプリング信号により、１６ビットの
ディジタル信号に変換するものである。処理装置４はコ
ンピュータ５と磁気ディスク６と端末類７とプリンタ８
とを含む。コンピュータ５はＡ／Ｄ変換器３から入力さ
れた音声のディジタル信号に基づいて音声認識を行なう
ものである。

第２図はこの発明の一実施例の音声信号の入力から認識
結果を出力するまでの全体の流れを示すフロー図であ
り、第３図はセパレートベクトル量子化の動作を説明す
るためのフロー図であり、第４図はマッチング動作を説
明するためのフロー図である。

次に、第１図ないし第４図を参照して、この発明の一実
施例の動作について説明する。入力された音声信号はア
ンプ１で増幅され、ローパスフィルタ２によって折返し
雑音が除去された後、第２図に示すステップ（図示では
ＳＰと略称する）ＳＰ１において、Ａ／Ｄ変換器３が入
力された音声信号を１６ビットのディジタル信号に変換
する。処理装置４のコンピュータ５はステップＳＰ２に
おいて、ディジタル信号に変換された音声の特徴抽出を
行なう。この特徴抽出では、たとえば線形予測分析（Ｌ
ＰＣ分析）などの手法を用いて行なわれる。

ステップＳＰ３において、抽出された音声の特徴がセパ
レートコードブックを参照して、セパレートベクトル量
子化される。セパレートコードブックはステップＳＰ４
において、特定話者認識の場合は個人用として、不特定
話者の場合は全話者共通のコードブックとして予め準備
されている。セパレートベクトル量子化により生成され
た特徴ごとのコード列はステップＳＰ５において、既に
ステップＳＰ６でコード列として磁気ディスク６に格納
されている標準パターンと照合され、ＤｏｕｂｌｅＳ
ｐｌｉｔ法によるマッチングが行なわれ、そのマッチン
グ距離がステップＳＰ７における結果判定部７に送られ
る。なお、ステップＳＰ６における標準パターンは、不
特定話者認識の場合は予め使用者が認識単語を発声する
ことにより作成し、不特定話者認識の場合は、多数の話
者が発声した音声データベースを分析して、代表パター
ンをマルチテンプレートとして作成され、磁気ディスク
６に格納されている。ステップＳＰ７における結果判定
部では、認識候補に対して、結果が適切かどうかの判断
を行ない、認識結果を出力する。

次に、第３図を参照して、前述の第２図に示した特徴抽
出およびセパレートベクトル量子化の動作についてより
詳細に説明する。特徴抽出では、ステップＳＰ１１にお
いて、１６ビットのディジタル信号に変換された音声信
号に対して、１４次の自己相関分析によるＬＰＣ分析を
行ない、入力音声の特徴であるパワーと自己相関係数，
ＬＰＣケプストラム係数を抽出する。ステップＳＰ１２
において、パワーのコードブック生成であるか否かを判
別し、パワーのコードブック生成であれば、ステップＳ
Ｐ１３において、入力音声のパワーをスカラー量子化す
る。スカラー量子化では、不均一量子化の手法を用い
て、パワーコードを生成し、ステップＳＰ１４におい
て、生成したパワーコードブックを磁気ディスク６に格
納する。

パワーコードブックの生成でないとき、すなわち、量子
化時には、ステップＳＰ１４におけるパワーコードブッ
クを用いて、ＳＰ１５において量子化を行ない、パワー
に関するコード列を出力する。

一方、ステップＳＰ１６において、ＬＰＣ相関係数およ
びＬＰＣケプストラム係数のコードブック生成であるこ
とが判別されると、ステップＳＰ１７において、ＬＢＧ
アルゴリズムにより、ＷＬＲ尺度に基づいてコードブッ
クが生成され、ステップＳＰ１８において生成されたコ
ードブックが磁気ディスク６に格納される。ここで、Ｌ
ＢＧアルゴリズムについては、Ｌｉｎｄｅ，Ｂｕｚｏ，
Ｇｒａｙ：“ＡｎａｌｇｏｒｉｔｈｍｆｏｒＶｅ
ｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎＤｅｓｉｇｎ”
ＩＥＥＥＣＯＭ−２８（１９８０−０１）に記載され
ている。また、ＷＬＲ尺度は、音声の特徴を強調する尺
度であり、単語音声の認識において高い性能を示すもの
であり、杉山，鹿野による“ピークに重みをおいたＬＰ
Ｃスペクトルマッチング尺度”電子通信学会論文（Ａ）
Ｊ６４−Ａ５（１９８１−０５）に記載されている。

なお、ＬＰＣ相関係数およびＬＰＣケプストラム係数の
コードブック生成でないとき、すなわち、量子化時には
入力音声の自己相関係数とＬＰＣケプストラム係数に対
し、ステップＳＰ１８におけるスペクトルコードブック
を用いて、ステップＳＰ１９においてベクトル量子化を
行ない、スペクトル情報に関するコード列を出力する。

ここで、コードブック生成，量子化に用いたスペクトル
歪み尺度は次のものである。

d_power＝P/P′＋Ｐ′／Ｐ−２ …(1) d_spectrum＝Σ（C(n)-C′(n)）（R(n)-R′(n)） …(2) d_power ：パワー項の歪み尺度 d_spectrum：スペクトル歪み尺度 R(n) ：コードブックのｎ次の自己相関係数 R′(n) ：入力のｎ次の自己相関係数 C(n) ：コードブックのｎ次のＬＰＣケプストラム係数 C′(n) ：入力のｎ次のＬＰＣケプストラム係数Ｐ：コードブックのパワーＰ′：入力のパワー前述したように、標準パターン作成時には、このコード
列を標準パターンとして格納し、認識時には標準パター
ンのコード列とのマッチングを行なう。

次に、第４図を参照して、マッチング方法について説明
する。セパレートベクトル量子化により、パワーとスペ
クトルとを別々にベクトル量子化して生成されたコード
列と、コード列として格納されている標準パターンとに
基づいて、ステップＳＰ２１において、Ｄｏｕｂｌｅ
Ｓｐｌｉｔ法によるマッチングが行なわれる。ステップ
ＳＰ２２における標準パターンには、セパレートベクト
ル量子化によりコード化されたパワーおよびスペクトル
の標準パターンが格納されている。そして、ステップＳ
Ｐ２１におけるマッチングにおいては、コード間の距離
はステップＳＰ２３において予め距離マトリクスを作成
しておき、この表びきを行なうことで行なわれる。この
ようにして、順番に標準パターンとマッチングして求め
た入力音声と標準パターンとの距離がステップＳＰ２４
において出力される。

ここで、上述のマッチング方法について説明する。従来
のマッチングでは、入力の標準パターンの１つの特徴列
あるいはコード列であったが、セパレートベクトル量子
化では、一般に複数のコード列により構成される。この
実施例では、パワーコード列とスペクトルコード列の２
系列のマッチング手法を用いている。パワーとスペクト
ルの両方の情報を考えた場合の距離尺度として、ＰＷＬ
Ｒ尺度がある。これは次の第（３）式で示されるもので
ある。

d_PWLR＝Σ（C(n)-C′₁(n)）（R(n)-R′(n)）＋ａ・（P/P′＋Ｐ′／Ｐ−２） …(3) ａ＝０．０１従来のＤｏｕｂｌｅＳｐｌｉｔ法によるコード列のマ
ッチングでは、前述のようにすべての空間がベクトル量
子化され、有限個の点で代表されていることを利用し
て、予めすべての代表点間の距離を求めて距離マトリク
スに格納しておく。したがって、 d_PWLR(i,j)＝DL(A(i),B(j)) DL(A(i),B(j)) ＝Σ（C_K(n)-C_L(n)）（R_K(n)-R_L(n)）＋ａ・（P_K/P_L＋P_L/P_K-2）Ａ（ｊ）は、入力音声のｉフレーム目のコード番号Ｂ（ｊ）は、標準パターンのｊフレーム目のコード番号ＤＬ（Ｋ，Ｌ）は、コードK,L間の距離を距離マトリク
スから表びきで求めたものＫ，Ｌは、Ａ（ｊ），Ｂ（ｊ）のコード番号しかし、セパレートベクトル量子化では、２つの系列を
有するので次のような距離を求める。

d_[p][WLR](i,j) ＝DL_spect（A_spect(i)，B_spect(j)）＋ａ・DL_power（A_power(i)，B_power(j)）ここで、 DL_spect （A_spect(i)，B_spect(j)）＝Σ（C_K(n)−C_L(n)）（R_K(n)−R_L(n)） DL_power（A_power(i)，B_power(j)）＝P_K′/P_L′＋P_L′/P_K′-2 Ｋ，Ｌは、Ａ_spect(i)，Ｂ_spect(j)のコード番号Ｋ′，ｌ′は、Ａ_power(i)，Ｂ_power(j)のコード番号である。これは、ＰＷＬＲ尺度の第１項と第２項とを別
にコード化して距離を計算し、和を求めたものである。
この局部距離の尺度を用いてＤＰ（ｄｙｎａｍｉｃｐ
ｒｏｇｒａｍｍｉｎｇ：動的計画法）マッチングにより
距離を求める。これによって、非常に高性能なベクトル
量子化を用いた音声認識を実現することができる。

［発明の効果］以上のように、この発明によれば入力音声の特徴である
パワーとスペクトルの各コードブックを生成し、各コー
ドブックについてベクトル量子化を行ない、求められた
各コード列と予め定められている標準パターンおよび複
合距離尺度とに基づいて認識を行なうようにしたので、
各特徴の依存項を無視でき、ラーニングサンプルも少な
くてすみ、計算量を減少できる。ただし、セパレートす
ることにより、別のベクトル量子化系を構成するので、
この分だけ計算量が多少増加するが、ラーニングサンプ
ルが少ないので、十分計算量を減少できる。また、コー
ドブックサイズはセパートベクトル量子化では、各特徴
に必要なコードブックサイズの和になるので、全体のコ
ードブックサイズを激減することができる。

【図面の簡単な説明】

第１図はこの発明の音声認識装置の概略ブロック図であ
る。第２図はＤｏｕｂｌｅＳｐｌｉｔ法による音声認
識の全体の流れを示すフロー図である。第３図はセパレ
ートベクトル量子化の動作を説明するためのフロー図で
ある。第４図はマッチング動作を説明するためのフロー
図である。図において、１はアンプ、２はローパスフィルタ、３は
Ａ／Ｄ変換機、４は処理装置、５はコンピュータ、６は
磁気ディスク、７は端末類、８はプリンタを示す。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭59−99500（ＪＰ，Ａ) 特開昭64−997（ＪＰ，Ａ) 特公平３−23920（ＪＰ，Ｂ２) 日本音響学会講演論文集昭和55年10月１−１−21 Ｐ399−400 日本音響学会講演論文集昭和56年５月３−１−17 Ｐ553−554 日本音響学会講演論文集昭和57年10月２−７−12 Ｐ113−114 電子通信学会音声研究会資料Ｓ80−61 Ｐ480−486（1980／12／15) 電子通信学会論文誌Ｖｏｌ．Ｊ64−ＡＮｏ．５（1981／５）Ｐ409−415

Claims

【特許請求の範囲】

【請求項１】入力音声をベクトル量子化し、ベクトル量
子化による符号列として格納されている標準パターンと
照合することにより認識を行なう音声認識方式におい
て、前記入力音声の特徴の種類を判別するステップ、前記入力音声の特徴がパワーであることが判別されたこ
とに応じて、パワーのコードブックを生成して記憶する
ステップ、前記入力音声の特徴がスペクトルであることが判別され
たことに応じて、スペクトルのコードブックを生成して
記憶するステップ、前記各コードブックについてベクトル量子化を行ない、
パワーとスペクトルのコード列を生成するステップ、お
よび前記生成されたパワーとスペクトルのコード列とを予め
生成されている標準パターンおよび複合距離尺度とに基
づいて認識を行なうステップを含む、ベクトル量子化を
用いた音声認識方式。