JPH07160287A

JPH07160287A - 標準パターン作成装置

Info

Publication number: JPH07160287A
Application number: JP5310518A
Authority: JP
Inventors: Eiko Yamada; 栄子山田; Hiroaki Hattori; 浩明服部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1993-12-10
Filing date: 1993-12-10
Publication date: 1995-06-23
Anticipated expiration: 2014-11-08
Also published as: JP2973805B2

Abstract

(57)【要約】【目的】本発明は、特徴ベクトルを分割する際に、パ
ラメーター間の相関を考慮して分割することによって、
標準パターン量を効率良く削減する標準パターン作成装
置を実現するものである。【構成】学習パターン記憶部４０に蓄えられた特徴ベ
クトルは、相関度計算部５０に送られ、各パラメーター
間の相関度が計算される。計算された相関度は、相関度
記憶部６０に保持される。特徴ベクトル分割部７０は、
この相関度をもとに、相関の強いパラメーターをまとめ
ていく。クラスタリング部８０では、特徴ベクトル分割
部７０で分割された部分ベクトルごとにクラスタリング
を行なう。部分ベクトルは、相関の高いパラメーターで
構成されているため、クラスタリングする際に、より量
子化歪みの少ないクラスタリングを行なうことができ
る。これによって、より少ないクラスタ数で多くのパタ
ーンを表すことが可能となるため、メモリー量の削減さ
れた標準パターンを作成できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置内で用い
られる標準パターンを作成するための、標準パターン作
成装置に関するものである。

【０００２】

【従来の技術】音声認識においては、予め認識対象とな
る音素、単語等の標準パターンを用意しておき入力音声
と標準パターンの比較を行ない、最も類似している標準
パターンの属するカテゴリの音素、あるいは単語が発声
されたものと判定を行なうことが多い。このような方式
においては、一般に、標準パターン数が多いほど音声の
種々の変動を表現できるため、良い認識率が得られる。
しかし、その反面、多くのメモリー量と計算量とを必要
とする。

【０００３】クラスタリング（Ａ．Ｇｅｒｓｈｏａｎ
ｄＶ．Ｃｕｐｅｒｍａｎ，ＩＥＥＥＣｏｍｍｕｎ，
Ｍｅｇ．２１，９，ｐｐ．１５−２１，１９８３、以下
これを文献１とする）の手法は、認識性能を保ちつつ計
算時間、メモリー量を削減するために、標準パターンを
削減する方法として知られている。その中でも効率良く
標準パターンを削減できる方法として、学習パターンの
特徴ベクトルを分割し、分割された特徴ベクトルごとに
クラスタリングを行なうセパレートクラスタリング（日
本音響学会誌４４巻８号、１９８８、ｐ５９５〜６０２
「セパレートベクトル量子化を用いたスペクトログラム
の正規化」、以下これを文献２とする）が挙げられる。
文献２では、特徴ベクトルは、パワー及びＬＰＣパラメ
ーターによって構成されている。以下、文献２を例にと
って従来の標準パターン作成装置を説明する。

【０００４】図２は従来の標準パターン作成装置の１例
を示す構成図である。音声入力部２００に音声が入力さ
れ、分析部２１０に送られる。送られた音声波形は、分
析部２１０において分析され、パワーとＬＰＣパラメー
ターの特徴ベクトルが抽出される。抽出された特徴ベク
トルを用い学習された第１の標準パターンは、学習パタ
ーン記憶部２２０に保持される。パワーは、学習パター
ン記憶部２２０からパワークラスタリング部２３０に送
られクラスタリングされる。また、ＬＰＣパラメーター
は、学習パターン記憶部２２０からＬＰＣパラメーター
クラスタリング部２４０に送られクラスタリングされ
る。パワークラスタリング部２３０とＬＰＣパラメータ
ークラスタリング部２４０とでクラスタリングされた情
報を用い、学習パターン記憶部２２０より送られた学習
パターンからパターン作成部２５０において標準パター
ンが作成される。パターン作成部２５０で作成された標
準パターンは、標準パターン出力部２６０に送られ出力
される。

【０００５】以上のように、パワーとＬＰＣパラメータ
ーのクラスタリングを行なうことによって、特徴ベクト
ルを一括してクラスタリングを行なうより、よりメモリ
ー量が少なく、かつ、量子化歪みの少ない標準パターン
が得られたと述べられている。

【０００６】

【発明が解決しようとする課題】文献２では、パワーと
ＬＰＣパラメータの各特徴量ごとに別々にクラスタリン
グを行なっている。この方法では、相関の低いパラメー
ター同士がまとめられる場合があり、その結果、量子化
歪みが増しクラスタリングの効率が低下するために多く
のクラスタを必要とする。本発明の目的はこの問題点を
解決した標準パターン作成装置を提供することにある。

【０００７】

【課題を解決するための手段】本発明による標準パター
ン作成装置は、音声を入力する音声入力部と、入力され
た音声データを分析し特徴ベクトルを抽出する分析部
と、抽出された第１の特徴ベクトルから標準パターンを
学習する学習部と、学習された第１の標準パターンを記
憶する学習パターン記憶部と、前記特徴ベクトル要素間
の相関ど度合いを計算する相関度計算部と、前記相関度
から特徴ベクトル要素間の相関の強さを計算し、特徴ベ
クトルの分割を行なう特徴ベクトル分割部と、前記特徴
ベクトルからパターン間距離を計算する距離計算部と、
前記ベクトル分割情報、パターン間距離をもとに分割特
徴ベクトルごとに学習パターンをクラスタリングするク
ラスタリング部と、前記クラスタリングの結果得られる
クラスタ中心を記憶するクラスタ中心記憶部と、各クラ
スタを構成するパターンを記憶するクラスタメンバ記憶
部と、前記クラスタリングの結果をもとに標準パターン
を作成する標準パターン作成部とを有して構成される。

【０００８】

【作用】本発明の標準パターン作成装置は、特徴ベクト
ル要素間の相関の強さを計算し、特徴ベクトルを分割
し、分割した分割特徴ベクトルごとにクラスタリングを
行なうことにより、クラスタ数を削減した標準パターン
を作成する。

【０００９】図３、図４において、概念を簡単に説明す
る。図中のＸ１，Ｘ２，Ｙ１，Ｙ２は、特徴量軸、軸上
の分布は各軸を基準とした分布、Ｒ１〜Ｒ５は、クラス
タ中心番号、点線で囲まれた部分は各クラスタ中心によ
って被覆される特徴空間、実線で囲まれた部分は被覆さ
れるべき特徴空間である。

【００１０】図３、図４を見ると、各軸上での分布は等
しいものとなっている。しかし、図３の場合、特徴空間
はパラメーター間の相関が低いため、空間全体を覆うに
は多くの標準パターンを必要とする。それに対し、図４
に示すようにパラメーター間の相関が高い場合には、空
間全体を少ない標準パターンで被覆することができる。
このように、パラメーター間の相関が高いと、より少な
いパラメーターで空間全体を表現することができるた
め、効率よくパターン数を削減した標準パターンを得ら
れるのである。

【００１１】簡単な例において説明する。

【００１２】

【数１】

【００１３】の３つの要素を持つパラメーター、ｘ，
ｙ，ｚを仮定する。また、この３つのパラメーターの中
で、ｘとｙの２つのパラメーターは強い相関を持ち相関
関数が１であるが、ｘとｙ、ｙとｚは無相関であり相関
関数が０であるものとする。この条件において、ｘ，
ｙ，ｚの３パラメーターを２つの組みに分割する場合を
考える。

【００１４】最初にｘとｙをまとめたものと、ｚとの２
組に分割した場合を考える。ｘ，ｙは常に等しい値をと
るため、取り得る値は、［−１，−１］、［０，０］、
［１，１］の３通りである。ｚについても取り得る値
は、−１，０，１の３通りである。よって、ｘ，ｙとｚ
に分割した場合、記憶すべきパラメーター数は２×３＋
３＝９である。次に、ｘと、ｙ，ｚをまとめたものとの
２組に分割した場合を考える。ｘの取り得る値は、−
１，０，１の３通りである。ｙ，ｚをまとめた方は、
［−１，−１］、［−１，０］、［−１，１］、［０，
−１］、［０，０］、［０，１］、［１，−１］、
［１，０］、［１，１］の９通りの値を取る。よって、
ｘとｙ，ｚに分割した場合、記憶すべきパラメーター数
は３＋２×９＝２１である。この場合、相関の高いパラ
メーターをまとめることによって、９／２１のパラメー
ター数で空間全体を被覆できる。

【００１５】ここでは簡単な例について説明したが、パ
ラメーター数などが増加した場合も同様である。

【００１６】以上のように、パラメーター間の相関の強
さを考慮することによって、少ないパターン数でよりよ
い認識性能が得られる標準パターンを提供できる。

【００１７】

【実施例】次に本発明による標準パターン作成装置につ
いて図面を用いて説明する。

【００１８】図１は本発明の一実施例を示す構成図であ
る。音声入力部１０に音声が入力され、分析部２０に送
られる。送られた音声波形は、分析部２０において分析
され特徴ベクトルが抽出される。分析後の特徴ベクトル
の例としては、ＬＰＣメルケプストラム、Δメルケプス
トラム（”Ｓｐｅａｋｅｒ−ｉｎｄｅｐｅｎｄｅｎｔｉ
ｓｏｌａｔｅｄｗｏｒｄｒｅｃｏｇｎｉｔｉｏｎ
ｕｓｉｎｇｄｙｎａｍｉｃｆｅａｔｕｒｅｓｏｆ
ｓｐｅｅｃｈｓｐｅｃｔｒｕｍ，”ＩＥＥＥＴｒ
ａｎｓ．Ａｃｏｕｓｔ．，ＳｐｅｅｃｈＳｉｇｎａｌ
Ｐｒｏｃｅｓｓｉｎｇ，ｖｏｌ．ＡＳＳＰ−３４，ｐ
ｐ．５２−５９，１９８６．以下これを文献３とす
る）、Δ²メルケプストラム（”ＩｍｐｒｏｖｅｄＡ
ｃｏｕｓｔｉｃＭｏｄｅｌｉｎｇｗｉｔｈｔｈｅ
ＳＰＨＩＮＸＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏ
ｎＳｙｓｔｅｍ，Ｘ．Ｄ．Ｈｕａｎｇ，Ｋ．Ｆ．Ｌｅ
ｅ，Ｈ．Ｗ．Ｈｏｎ，ａｎｄＭ．Ｙ．Ｈｗａｎｇ，Ｉ
ＣＡＳＳＰ９１，ｐｐ．３４５−３４８，１９９１、
以下これを文献４とする）などが挙げられる。

【００１９】抽出された特徴ベクトル列は、学習部３０
において標準パターンの学習に用いられる。学習方法は
認識手法に依存するが、例えば、パスコストＤＰ（渡
辺、木村、音響学会講演論文集、２−５−９、昭６２−
１０、以下これを文献５とする）ならば、文献５に述べ
られているように、標準パターンの各フレームでの平均
ベクトル及び統計的パスコストが計算される。

【００２０】以下、パスコストＤＰを例として説明す
る。

【００２１】学習されたパターンは、学習パターン記憶
部４０に入力される。次に、平均ベクトル

【００２２】

【数２】

【００２３】（ｊ＝１〜Ｊ：カテゴリー番号、ｎ＝１〜
Ｎ_j：カテゴリーｊの特徴ベクトル数、ｐ＝１〜Ｐ：特
徴ベクトルの次元数）が、相関度計算部５０に送られ
る。ここで、平均ベクトルの要素を

【００２４】

【数３】

【００２５】（カテゴリーｊのｎ番目の特徴ベクトルの
ｐ次元目の要素）とする。

【００２６】この相関度計算部５０について一実施例を
説明する。

【００２７】最初に全学習パターン

【００２８】

【数４】

【００２９】にわたる特徴ベクトルの各パラメーターご
との平均値μ（ｐ）を求める。平均μ（ｐ）は、

【００３０】

【数５】

【００３１】で表される。

【００３２】次に、計算されたパラメーター平均値を用
い、各パラメーターごとの共分散行列σ（ｐ１，ｐ
２）、１＜ｐ１，ｐ２＜Ｐ（ｐ１，ｐ２は特徴ベクトル
のパラメーター番号）が計算される。

【００３３】

【数６】

【００３４】次に、計算された共分散行列σ（ｐ１，ｐ
２）を用い、各パラメーター間の相関係数ρ（ｐ１，ｐ
２）が計算される。

【００３５】

【数７】

【００３６】相関度計算部５０で計算された相関係数
は、相関度記憶部６０に保持される。次に、特徴ベクト
ル分割部７０において、５０で計算された相関係数をも
とに、各相関係数間の行列式を計算し、パラメーターを
まとめていく。

【００３７】以下、特徴ベクトル分割部７０について説
明する。（１）最初に、各パラメーターが独立であるものと
し、各パラメーターが部分ベクトルであるようＰ個に分
割する。

【００３８】ｒ＝ＰＴ（ｋ），（１≦ｋ≦Ｐ）（Ｔ（ｋ）はｋ番目の部分ベクトルの次元数）（ｋは、部分ベクトル番号）（２）次に、１≦ｋ，ｌ≦ｒ、ｋ≠ｌである部分ベク
トルｋ，ｌに属するパラメーターｐ１，ｐ２、（１≦ｐ
１，ｐ２≦（Ｔ（ｋ）＋Ｔ（ｌ）））の相関関数ρ（ｐ
１，ｐ２）を相関度記憶部６０から読みだし、（Ｔ
（ｋ）＋Ｔ（ｌ））×（Ｔ（ｋ）＋Ｔ（ｌ））の相関行
列Ｃを作成し行列式Ｄ（ｋ，ｌ）を求める。

【００３９】Ｄ（ｋ，ｌ）＝ｄｅｔ｜Ｃ｜（３）次に、最小のＤ（ｋ，ｌ）を与える部分ベクト
ルｋ，ｌを１つの部分ベクトルにまとめる。

【００４０】Ｔ（ｋ）＝Ｔ（Ｋ）＋Ｔ（ｌ）（ｋ＜ｌ）この時、新たな部分ベクトルの番号は、まとめられた２
つのうちの小さい方の番号とする。

【００４１】次に、前記分割情報をもとに部分ベクトル
番号の付け直しが行なわれる。この段階で分割数は１減
少することになる。（４）次に、ｒ＝ｒ−１とし、ｒが予め定められるい
き値Ｋよりも大きければ（２）へ戻る。ｒ＝Ｋとなるま
でこの計算を行なう。

【００４２】最終的には、ｐ次元目の要素が属する部分
ベクトル番号ｐｖ（ｐ）とｋ番目の部分ベクトルの次元
数Ｔ（ｋ）が求められる。

【００４３】以上の手続きは、相関の度合いとして特徴
ベクトルの共分散行列から計算された相関系列を例とし
たが、その他の計算方法も可能である。

【００４４】次に、各部分ベクトルごとに特徴ベクトル
のクラスタリングをクラスタリング部８０で行なう。

【００４５】クラスタリングについては、ＬＢＧアルゴ
リズムを用いた方法（ＩＥＥＥＴｒａｎｓ．Ｃｏｍｍ
ｕｎ．，ＣＯＭ−２８，１ＰＰ．８４−９５，Ｊａｎ．
１９８０、以下これを文献６とする）などが知られてい
る。

【００４６】以下、クラスタリング部の一実施例を述べ
る。

【００４７】制御部１２０より部分ベクトル番号ｋ（ｋ
＝１〜Ｋ）と、部分ベクトル番号ｋのクラスタ中心数Ｍ
_kが、クラスタリング部８０に順次送られる。クラスタ
リング部８０は、学習記憶部４０に蓄えられた平均ベク
トル

【００４８】

【数８】

【００４９】の中からｐｖ（ｐ）＝ｋである要素ｐを抽
出し、Ｔ（ｋ）次元のベクトルとする。抽出されたＴ
（ｋ）次元のベクトル

【００５０】

【数９】

【００５１】とする。次に、

【００５２】

【数１０】

【００５３】からＭ_k個のベクトルをクラスタ中心とし
て選択する。この選択方法としては、番号順にＭ_k個と
ってもよいし、ランダムに選んでもよい。選択されたＭ
_k個のクラスタ中心の値

【００５４】

【数１１】

【００５５】は距離計算分１１０に送られる。

【００５６】距離計算部１１０は、学習パターン記憶部
４０に蓄えられた各平均ベクトル

【００５７】

【数１２】

【００５８】とクラスタリング部８０から送られたＭ_k
個の各クラスタ中心との距離

【００５９】

【数１３】

【００６０】を計算しクラスタリング部８０に送る。

【００６１】距離については、パスコストＤＰではユー
クリッド距離が利用可能である。

【００６２】クラスタリング部８０は、クラスタ中心の
値

【００６３】

【数１４】

【００６４】をクラスタ中心記憶部１００に送り、クラ
スタ中心記憶部１００はこれを保持する。また、クラス
タリング部８０は、距離計算部１１０で計算されたＤｃ
ｌ（ｊ，ｎ，ｋ，ｈ）の中で最小値をとるクラスタ番号
ｈをｍｅｍｂｅｒ（ｊ，ｎ，ｋ）＝ｈ（１≦ｍｅｍｂｅ
ｒ（ｊ，ｎ，ｋ）≦Ｍ_k）とし、クラスタメンバ記憶部
９０に送る。ｍｅｍｂｅｒ（ｊ，ｎ，ｋ）は

【００６５】

【数１５】

【００６６】の各ベクトルが属するクラスタの番号を示
す。クラスタメンバ記憶部９０はこれを保持する。

【００６７】次に、クラスタリング部８０は、ｍｅｍｂ
ｅｒ（ｊ，ｎ，ｋ）をクラスタメンバ記憶部９０から読
みだし、クラスタ中心

【００６８】

【数１６】

【００６９】を番号ｈのクラスタに属する

【００７０】

【数１７】

【００７１】の平均値を用いて更新する。以下、距離計
算部１１０で計算されるＤｃｌ（ｊ，ｎ，ｋ，ｈ）が収
束するまで上記手順を繰り返し、最終的なクラスタ中心
値

【００７２】

【数１８】

【００７３】をクラスタ中心記憶部１００に保持し、最
終的な各平均ベクトルの属するクラスタ番号ｍｅｍｂｅ
ｒ（ｊ，ｎ，ｋ）をクラスタメンバ記憶部９０に保持す
る。

【００７４】以上、部分ベクトル番号ｋにおけるクラス
タリングについて説明したが、この作業をｋ＝１〜Ｋに
ついて行なう。

【００７５】次に、クラスタメンバ記憶部９０に保持さ
れた各パターンの属するクラスタ番号ｍｅｍｂｅｒ
（ｊ，ｎ，ｋ）とクラスタ中心記憶部１００に保持され
たクラスタ中心値

【００７６】

【数１９】

【００７７】の情報をもとに、学習パターン記憶部４０
に保持されている学習パターンを用い、パターン作成部
１３０において標準パターンを作成する。

【００７８】まず、クラスタ中心記憶部１００に蓄えら
れているクラスタ中心値

【００７９】

【数２０】

【００８０】を読みだし、これを保持する。次に、クラ
スタメンバ記憶部９０からｍｅｍｂｅｒ（ｊ，ｎ，ｋ）
の値を読みだし、これを保持する。平均ベクトル作成の
ために記憶すべきものは、

【００８１】

【数２１】

【００８２】個のクラスタ中心の値とＮ×Ｋ個のｍｅｍ
ｂｅｒ（ｊ，ｎ，ｋ）の値となり、よりメモリー量の少
ない標準パターンを作成することができる。パスコスト

【００８３】

【数２２】

【００８４】については、学習パターン記憶部４０に蓄
えられた値をそのまま使用し、上記で計算された平均ベ
クトルトと併せて１つのパターンとする。上記の例で
は、平均ベクトルのみをクラスタリングの対象とした
が、パスコストについてもクラスタリングの対象とする
こともできる。

【００８５】ここで作成された標準パターンは、標準パ
ターン出力部１４０に送られ出力される。本手法の適用
はパスコストＤＰに限らない。例えば、連続ＨＭＭ（Ｂ
−Ｈ．Ｊｕａｎｇ，ＩＥＥＥＴｒａｎｓ．Ａｃｏｕｓ
ｔ．，Ｓｐｅｅｃｈ＆ＳｉｇｎａｌＰｒｏｃｅｓ
ｓ．，ＡＳＳＰ−３３，６，ｐｐ．１４０４−１４１
３，１９８５、以下これを文献４とする）の場合に、そ
の分布の平均ベクトル等をここで述べる方法によってク
ラスタリングすることが可能である。

【００８６】作成された標準パターンを音声認識に用い
るには、例えば、ＳＰＬＩＴ法（菅村、古井、”擬音韻
標準パターンによる大語彙単語音声認識”、信学論、Ｊ
６５−Ｄ、８、ｐｐ１０１４−１０４８、昭５７、以下
これを文献７とする）が利用できる。上記で作成された
標準パターンを音声認識に用いた場合、メモリー量及び
計算量が少ない認識装置が実現できる。

【００８７】

【発明の効果】本発明によれば、従来の標準パターン作
成装置よりもより少ないパターンで、より認識率の高い
標準パターンを作成可能な標準パターン作成装置が得ら
れる。

【図面の簡単な説明】

【図１】本発明による標準パターン作成装置の一実施例
を示すブロック図である。

【図２】従来の標準パターン作成装置の一実施例を示す
ブロック図である。

【図３】特徴量間の相関の高低による被覆空間の相違を
示す図である。

【図４】特徴量間の相関の高低による被覆空間の相違を
示す図である。

【符号の説明】

１０音声入力部２０分析部３０学習部４０学習パターン記憶部５０相関度計算部６０相関度記憶部７０特徴ベクトル分割部８０クラスタリング部９０クラスタメンバ記憶部１００クラスタ中心記憶部１１０距離計算部１２０制御部１３０パターン作成部１４０標準パターン出力部２００音声入力部２１０分析部２２０学習パターン記憶部２３０パワークラスタリング部２４０ＬＰＣパラメータークラスタリング部２５０パターン作成部２６０標準パターン出力部

Claims

【特許請求の範囲】

【請求項１】音声を入力する音声入力部と、入力され
た音声データを分析し特徴ベクトルを抽出する分析部
と、抽出された特徴ベクトルから第１の標準パターンを
学習する学習部と、学習された第１の標準パターンを記
憶する学習パターン記憶部と、前記特徴ベクトル要素間
の相関の度合いを計算する相関度計算部と、前記相関度
から特徴ベクトル要素間の相関の強さを計算し、特徴ベ
クトルの分割を行なう特徴ベクトル分割部と、前記特徴
ベクトルからパターン間距離を計算する距離計算部と、
前記ベクトル分割情報、パターン間距離をもとに学習パ
ターンを分割特徴ベクトルごとにクラスタリングするク
ラスタリング部と、前記クラスタリングの結果得られる
クラスタ中心を記憶するクラスタ中心記憶部と、各クラ
スタを構成するパターンを記憶するクラスタメンバ記憶
部と、前記クラスタリングの結果をもとに標準パターン
を作成する標準パターン作成部とを有することを特徴と
する標準パターン作成装置。