JPH06276102A - ベクトル量子化方法及びベクトル量子化装置 - Google Patents
ベクトル量子化方法及びベクトル量子化装置Info
- Publication number
- JPH06276102A JPH06276102A JP5083812A JP8381293A JPH06276102A JP H06276102 A JPH06276102 A JP H06276102A JP 5083812 A JP5083812 A JP 5083812A JP 8381293 A JP8381293 A JP 8381293A JP H06276102 A JPH06276102 A JP H06276102A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- centroid
- vector
- feature vector
- null
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims description 38
- 238000013139 quantization Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 abstract description 5
- 239000000284 extract Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Landscapes
- Image Processing (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
る際に、ヌルクラスタの発生を抑え、効率的な処理を可
能とするベクトル量子化装置を提供する。 【構成】 ベクトル量子化におけるヌルクラスタの発生
時に、配属されたベクトル数が最も多い最大クラスタか
ら、そのセントロイドからの距離が最も遠いベクトルを
一意に抽出してこれを当該クラスタのセントロイドに設
定するベクトル処理部144を設け、それまでの膨大な
計算を無駄にすることなく、且つ、次のクラスタリング
における平均歪み距離を極小になるようにした。
Description
り、特に、画像信号あるいは音声信号の特徴をベクトル
化して定義する方法及びこの方法を使用する装置に関す
る。
あるいは音声認識等、種々の分野で必要とされており、
特に、音声認識システムにおいては、単語の音素標準パ
タンを定義する単語辞書や、音声の特徴パタンを定義す
るコードブックの生成等に広く用いられている。
izer Design"(IEEE Trans.Commun,Vol.com-28,p
p.84-95,Jan.1980)においては、ベクトル量子化の
LBG(Linde,Buzo,Gray)方法が示されている。
示す手順図であり、Sはステップを表している。図4を
参照すると、この方法では、まず、入力音声信号の全特
徴ベクトルを有するクラスタを求め、その中心となるセ
ントロイドを算出してこれを初期セントロイドとする
(S41)。そしてこの初期セントロイドを適宜分裂さ
せ(S42)、各セントロイドに適宜特徴ベクトルを配
属してクラスタを生成する(クラスタリング:S4
3)。その後、上記クラスタリングで得られるクラスタ
のセントロイドを算出するとともに(S44)、各クラ
スタに属する特徴ベクトルとセントロイドとの平均歪み
距離を求める(S45)。具体的には、S44で算出さ
れたセントロイド歪み距離と予め設定された歪み距離の
しきい値とを比較し、しきい値を超える場合には、再度
クラスタリング(S43)に回帰する。
クラスタの有無(S46)、及び、セントロイド数(S
47)を調べる。特徴ベクトルの存在しないヌルクラス
タが発生したときは、その時点までのクラスタリング結
果を全部破棄してセントロイドの分裂方法を改め(S4
8)、ベクトル量子化を初期セントロイド計算(S4
1)から再度行う。そして、最終的にヌルクラスタが無
く、且つ、セントロイド数がコードブックサイズNに等
しくなった時点でベクトル量子化を終える。
の方法は、基本的には図4に示した方法と同一である
が、ヌルクラスタの発生時に入力音声信号の特徴ベクト
ルの任意の一つを選択し(S58)、ヌルクラスタの発
生によって排除されたセントロイドの代わりとなるセン
トロイドを定義する(S59)点が異なる。この定義の
後、再度セントロイドの分裂及びクラスタリングを行
い、図4による方法と同様に最終的にヌルクラスタが無
く、且つ、セントロイド数がコードブックサイズNに等
しくなった時点でベクトル量子化を終える。
示される従来の方法では、ヌルクラスタが発生すると、
その時点までのクラスタリング計算が全部破棄され、セ
ントロイドの分裂方法を改めてベクトル量子化を初期セ
ントロイドの生成から再度行うので、ヌルクラスタ発生
時点までの膨大な計算が無駄になる問題があった。ま
た、ヌルクラスタの再発生を有効に防止することができ
ない問題もあった。
は、任意に選択した特徴ベクトルをヌルクラスタの新た
なセントロイドにているので、選択した特徴ベクトルに
よっては、ヌルクラスタの再発生を効果的に抑えること
ができず、コードブックを効率的に生成できない場合が
ある等の問題があった。
で、その目的は、ヌルクラスタの再発生を抑制し、更に
ヌルクラスタ発生の時点までの膨大な計算を無駄にする
ことなく効率的にベクトルの量子化を行うベクトル量子
化方法を提供することにある。
方法を使用して効率的にベクトル量子化を行うベクトル
量子化装置を提供することにある。
方法は、入力信号の特徴を表す特徴ベクトルを、夫々最
短距離のセントロイドのクラスタに配属するステップを
有するベクトル量子化方法において、前記特徴ベクトル
が存在しないヌルクラスタが発生したときに、前記特徴
ベクトルが最も多く配属された最大クラスタを探索し、
該最大クラスタから平均歪み距離の減少が最大となる特
徴ベクトルを抽出して、これを前記ヌルクラスタのセン
トロイドとして設定(定義)する。
力信号の特徴を表す特徴ベクトルを夫々最短距離のセン
トロイドに配属して複数のクラスタを形成するクラスタ
リング手段と、前記クラスタに配属された特徴ベクトル
数を検出するベクトル数検出手段と、前記特徴ベクトル
が配属されないヌルクラスタが存在するときに、前記特
徴ベクトルが最も多く配属された最大クラスタから、そ
の平均歪み距離の減少が最大となる特定の特徴ベクトル
を抽出すると共に、抽出された特徴ベクトルを前記ヌル
クラスタのセントロイドとして設定するヌルクラスタ処
理手段と、を有し、ヌルクラスタを解消し得る構成とし
た。
ベクトルは、例えば、前記最大クラスタのセントロイド
から最も離れた距離に存する特徴ベクトルであるものと
する。
ル量子化装置の各部作用により実現される。まず、クラ
スタリング手段により形成された複数のクラスタについ
て、ベクトル数検出手段でヌルクラスタの有無、及び最
大クラスタを調べる。そして、ヌルクラスタが存在する
ときは、最大クラスタから特定の特徴ベクトルを抽出
し、これを前記ヌルクラスタのセントロイドに設定(定
義)する。これによりヌルクラスタが解消される。他
方、最大クラスタについてみれば、セントロイドから最
も離れた距離に存する特徴ベクトルが抽出されるので、
他のどの特徴ベクトルを抽出する場合に比べても、クラ
スタリング回数が少なくなる。また、ヌルクラスタが発
生したときのセントロイドが一義的に定まるので、ヌル
クラスタの再発生が抑制され、ベクトル量子化の効率が
高まる。
に説明する。
コードブックをベクトル量子化によって生成した。図1
はこの実施例に係る音声認識システムのコードブック生
成部の基本構成を示すブロック図であり、11は入力端
子、12は前処理部、13は特徴ベクトル抽出部、14
はベクトル量子化部(ベクトル量子化装置)、15はコ
ードブックを表している。
た音声信号に対してA/D変換を行った後、音声分析区
間を設定し、この分析区間内の音声波形を一定の時間長
及び一定のピッチ周期で切り出すことにより音声フレー
ムを形成して記憶しする。尚、音声フレームの形成方法
はこの方法に限定されるものではなく、他の任意の方法
にて形成することができる。
より得られる各フレームの音声データに基づいて入力音
声信号の特徴ベクトルを抽出し、これらを記憶装置に格
納するとともに、ここまでに計算された特徴ベクトルを
ベクトル量子化部14へ出力する。本実施例において
は、各フレームの音声データに対して線形予測分析、ケ
プストラム分析などを施し、ケプストラム係数やピッチ
など入力音声信号の特徴ベクトルを抽出して記憶装置に
格納した。尚、この特徴ベクトルの形成は、他の任意の
方法を用いても行うことができる。
ベクトルに対してベクトル量子化を行い、コードブック
15を生成する。図中、Nはコードブックサイズ、Mは
コードブック数を表す。また、16,17は、このコー
ドブックを構成する要素であり、夫々、入力音声の特徴
ベクトル群を代表するセントロイドCij、各セントロイ
ドCijに対応する符号Sij(但し、i=1,2,・・・
M;j=1,2,・・・N)を表す。
うに、セントロイド生成部141、クラスタリング部
(クラスタリング手段)142、特徴ベクトル数検出部
(ベクトル数検出手段)143、ヌルベクトル処理部
(ヌルベクトル抽出手段)144、歪み判定部145、
セントロイド数判別部146、及びコードブック出力部
147を有している。
子化部14の処理手順図を示したものであり、Sは処理
ステップを表す。以下、これらの図を参照してベクトル
量子化部14の動作を詳細に説明する。
特徴を表す特徴ベクトルに基づいてセントロイドとなる
ベクトルを生成する。具体的には、入力される音声の特
徴ベクトルの全ての特徴ベクトルを含むクラスタの中心
となるセントロイドを計算し、このセントロイドをコー
ドブック15の初期セントロイドに定義する。その後、
このセントロイドを任意の方法で二つに分裂させる(S
22)。
徴ベクトルと上述のセントロイドとの距離を夫々比較
し、各特徴ベクトルを夫々その距離が最も近いセントロ
イドに配属することによって各セントロイドに対応する
クラスタを生成する。具体的には、S22で得られる各
セントロイドと、次々に入力される音声の特徴ベクトル
との距離を予め定められた距離尺度を用いて計算すると
共に、入力音声の特徴ベクトルを上記距離が最も短いセ
ントロイドのクラスタに配属する(S23)。その後、
各クラスタに属する特徴ベクトルとそのクラスタのセン
トロイドとの距離の平均値を求めてこれを歪み距離と
し、更に各クラスタの歪み距離の平均値を求めてこれを
平均歪み距離とする。また、S23から得られる各クラ
スタに属する特徴ベクトルの中心となるセントロイドを
求め、それらを夫々現クラスタリング時点での特徴パタ
ンとして記憶しておく(S24)。
リング部142で配属された特徴ベクトル数をクラスタ
毎に検出する。これにより、特徴ベクトルが配属されな
いヌルクラスタの有無、及び特徴ベクトルが最も多く配
属された最大クラスタが判別される。
ラスタが存在するときに、その解消を行う処理を実行す
る。この処理の詳細を図3を参照して説明すると、ま
ず、クラスタリング部142においてヌルクラスタが発
生したか否かを調べる(S31)。そして、ヌルクラス
タが発生しなかった場合には、クラスタリング部142
で得られた平均歪み距離の値をそのまま歪み判定部14
5に出力し、他方、ヌルクラスタが発生した場合には、
特徴ベクトルが最も多く配属された最大クラスタを探索
する(S32)。次いで、最大クラスタから、そのセン
トロイドと最も離れた距離に存する特定の特徴ベクトル
を検索し、これを抽出する(S33)。そして、抽出さ
れた特徴ベクトルをヌルクラスタの新たなセントロイド
に定義する(S34)。これによりヌルクラスタが解消
される。なお、このとき、抽出された特徴ベクトルと等
しい成分を有するベクトルを新たに計算してこれを前記
セントロイドとすることもできる。ヌルクラスタ解消後
は、平均歪み距離の減少度合計算し(S35)、その結
果を歪み判定部145に送る。
部144から送られた平均歪み距離が、予め定められた
評価基準値よりも大きいか否かの判定を行う(S2
6)。
い場合は、新たなセントロイドを定義してクラスタを再
編成する。このとき、定義されるセントロイドは、S2
4又は25で求められたセントロイドであり、再編成前
のものよりは確実に歪み距離が小さいものになってい
る。そこで、S23〜26の処理を繰り返すことで、前
回の極小値と今回の極小値との差を限りなく小さくする
ことができる。上記操作を平均歪み距離が評価基準値を
満たすまで行う。
み距離が評価基準値を満たした場合に、セントロイドの
数が予め定められたコードブックサイズNと等しいかを
判断する(S27)。このセントロイド数が上記コード
ブックサイズNより小さいときは、更にセントロイドを
分裂し(S22)、セントロイド数を2倍にして再度ベ
クトル量子化を行う。この操作をセントロイド数がコー
ドブックサイズNと一致するまで行う。
信号の特徴ベクトルを代表できる種々の特徴パタンCi
j、及び入力音声の特徴ベクトルと特徴パタンとを対応
させる符号Sijを要素とするコードブック15を出力す
る。
と等しくなり、しかも平均歪み距離が上記評価基準値を
満たした時点でコードブックが完成し、ベクトル量子化
処理が終了する。
が発生したときに、最大クラスタのセントロイドから最
も離れている特徴ベクトルを一意にヌルクラスタのセン
トロイドとして定義し、この定義されたセントロイドに
基づいてクラスタリングとセントロイドの更新とを継続
するようにしたので、ヌルクラスタが直ちに解消され、
それまでの膨大な計算結果を無駄にすることが無くな
る。
の特徴ベクトル成分が抽出されるので歪み距離は小さく
なり、他方、この特徴ベクトルをセントロイドとして定
義されたクラスタについてみれば、歪み距離はゼロとな
る。従って全体的な平均歪み距離も小さくなる。これに
より、ヌルクラスタの発生を最大限に抑制し得ると共
に、少ないクラスタリング回数で平均歪み距離を極小に
することができ、コードブック15を効率的に生成する
ことができる。
声認識システムのコードブック生成に適用した場合につ
いて説明したが、クラスタリング処理を伴う他の分野に
も適用が可能である。
クトル量子化方法では、クラスタリングの際にヌルクラ
スタが発生したときに、最大クラスタから平均歪み距離
の減少が最大となる特徴ベクトルを抽出して、これを前
記ヌルクラスタのセントロイドとして設定するようにし
たので、ベクトル量子化時のヌルクラスタ現象が解消さ
れると共に、その発生が抑制される効果がある。
記方法を使用する装置構成なので、ヌルクラスタ処理後
の平均歪み距離を極小とすることができ、更に、ヌルク
ラスタ発生による計算の無駄とクラスタリングの効率の
低下を回避することができる。これにより、ベクトル量
子化効率が向上する効果がある。
部構成を示すブロック図である。
示す説明図である。
示す説明図である。
である。
明図である。
Claims (3)
- 【請求項1】 入力信号の特徴を表す特徴ベクトルを、
夫々最短距離のセントロイドのクラスタに配属するステ
ップを有するベクトル量子化方法において、前記特徴ベ
クトルが存在しないヌルクラスタが発生したときに、前
記特徴ベクトルが最も多く配属された最大クラスタを探
索し、該最大クラスタから平均歪み距離の減少が最大と
なる特徴ベクトルを抽出して、これを前記ヌルクラスタ
のセントロイドとして設定することを特徴とするベクト
ル量子化方法。 - 【請求項2】 入力信号の特徴を表す特徴ベクトルを夫
々最短距離のセントロイドに配属して複数のクラスタを
形成するクラスタリング手段と、 前記クラスタに配属された特徴ベクトル数を検出するベ
クトル数検出手段と、 前記特徴ベクトルが配属されないヌルクラスタが存在す
るときに、前記特徴ベクトルが最も多く配属された最大
クラスタから、その平均歪み距離の減少が最大となる特
定の特徴ベクトルを抽出すると共に、抽出された特徴ベ
クトルを前記ヌルクラスタのセントロイドとして設定す
るヌルクラスタ処理手段と、 を有することを特徴とするベクトル量子化装置。 - 【請求項3】 前記特定の特徴ベクトルは、前記最大ク
ラスタのセントロイドから最も離れた距離に存する特徴
ベクトルであることを特徴とする請求項2記載のベクト
ル量子化装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05083812A JP3126081B2 (ja) | 1993-03-19 | 1993-03-19 | ベクトル量子化方法及びベクトル量子化装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05083812A JP3126081B2 (ja) | 1993-03-19 | 1993-03-19 | ベクトル量子化方法及びベクトル量子化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06276102A true JPH06276102A (ja) | 1994-09-30 |
JP3126081B2 JP3126081B2 (ja) | 2001-01-22 |
Family
ID=13813094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05083812A Expired - Fee Related JP3126081B2 (ja) | 1993-03-19 | 1993-03-19 | ベクトル量子化方法及びベクトル量子化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3126081B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115001811A (zh) * | 2022-05-31 | 2022-09-02 | 中国电信股份有限公司 | 一种网址检测方法和装置 |
-
1993
- 1993-03-19 JP JP05083812A patent/JP3126081B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115001811A (zh) * | 2022-05-31 | 2022-09-02 | 中国电信股份有限公司 | 一种网址检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3126081B2 (ja) | 2001-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2795058B2 (ja) | 時系列信号処理装置 | |
US5182773A (en) | Speaker-independent label coding apparatus | |
US5734791A (en) | Rapid tree-based method for vector quantization | |
US4908865A (en) | Speaker independent speech recognition method and system | |
EP0301199B1 (en) | Normalization of speech by adaptive labelling | |
US5255342A (en) | Pattern recognition system and method using neural network | |
EP1758097B1 (en) | Compression of gaussian models | |
WO2003081574A1 (en) | Pattern recognition | |
JPH064093A (ja) | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 | |
US5794190A (en) | Speech pattern recognition using pattern recognizers and classifiers | |
JPH07261784A (ja) | パターン認識方法、音声認識方法および音声認識装置 | |
Chen et al. | Fast search algorithm for VQ-based recognition of isolated words | |
US7454341B1 (en) | Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (LVCSR) system | |
Xie et al. | Fast DNN Acoustic Model Speaker Adaptation by Learning Hidden Unit Contribution Features. | |
EP0374604B1 (en) | Pattern recognition system and method | |
US4918731A (en) | Speech recognition method and apparatus | |
Wang et al. | Self-supervised learning for speech recognition with intermediate layer supervision | |
Jourlin | Word-dependent acoustic-labial weights in HMM-based speech recognition. | |
JPH06276102A (ja) | ベクトル量子化方法及びベクトル量子化装置 | |
JPH01204099A (ja) | 音声認識装置 | |
Fontaine et al. | Influence of vector quantization on isolated word recognition | |
JP2602271B2 (ja) | 連続音声中の子音識別方式 | |
CN118645092A (zh) | 一种非自回归语音识别方法 | |
Zhou et al. | Multisegment multiple VQ codebooks-based speaker independent isolated-word recognition using unbiased mel cepstrum | |
JPH05241593A (ja) | 時系列信号処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071102 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081102 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091102 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091102 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |