JP4121808B2

JP4121808B2 - 辞書圧縮装置

Info

Publication number: JP4121808B2
Application number: JP2002251529A
Authority: JP
Inventors: 武典川又
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-08-29
Filing date: 2002-08-29
Publication date: 2008-07-23
Anticipated expiration: 2022-08-29
Also published as: JP2004093671A

Description

【０００１】
【発明の属する技術分野】
この発明は、情報量の劣化がないデータ圧縮方式による辞書圧縮装置に関するものである。
【０００２】
【従来の技術】
文字認識等のパターン認識において使用される認識辞書には、標準パターンを表す特徴ベクトルが保持されている。このような認識辞書に対する従来の辞書圧縮装置には、情報量の劣化を伴う方式と情報量の劣化を伴わない方式がある。例えば特開平０８−４４８６９号公報には両方式が開示されている。情報量の劣化を伴う辞書圧縮装置は、認識辞書内の特徴ベクトルにおける要素毎に最大値、最小値を求め、その値の範囲が一定の閾値以下の場合には圧縮可能と判断し、１つの代表値に置き換えて圧縮するというものである。
【０００３】
また、情報量の劣化を伴わない辞書圧縮装置は、全認識対象文字の特徴ベクトルについて次元毎に最小値を調べ、それらの最小値を要素として構成される最小値ベクトルと特徴ベクトルとの差分値を要素とする差分ベクトルを登録することにより認識辞書を圧縮するというものである。
【０００４】
図１８は、従来の、差分ベクトルを登録する方式による辞書圧縮装置の構成を示すブロック図である。図において、１０１は認識辞書記憶部、１０２は差分ベクトル抽出部、１０３は圧縮部、１０４は圧縮辞書記憶部、１０５は制御部である。認識辞書記憶部１０１には、文字の標準パターンを特徴付ける特徴ベクトルによって構成される認識辞書が格納されている。
【０００５】
次に、動作について説明する。
図１９は、制御部１０５の処理のフローチャートである。まず、制御部１０５は差分ベクトル抽出部１０２に指示し、認識辞書記憶部１０１から最小値ベクトルを抽出させる（ステップＳＴ１９０１）。差分ベクトル抽出部１０２は、認識辞書に含まれる特徴ベクトルの各要素の最小値を求め、それらの最小値を要素に持つベクトルを最小値ベクトルとして算出する。式１は、最小値ベクトルＦｍｉｎを求める式である。
【数１】

式中、ｍはベクトルの要素数であり、ベクトルの次元と一致する。ｎは認識辞書に含まれる差分ベクトルの個数を示している。Ｆｉ，１はｉ番目の特徴ベクトルにおける１次元目の要素を表している。また、図２０は、最小値ベクトルの算出方法を説明する図である。ここでは２次元ベクトルの場合を示している。図において、「○」は特徴軸Ｆ１，Ｆ２における特徴ベクトルの分布を示している。最小値ベクトルＦｍｉｎは（Ｆｍｉｎ１，Ｆｍｉｎ２）となる。同様に最大値ベクトルＦｍａｘは（Ｆｍａｘ１，Ｆｍａｘ２）である。
【０００６】
次に、制御部１０５は差分ベクトル抽出部１０２に指示し、差分ベクトルを抽出させる（ステップＳＴ１９０２）。式２は、特徴ベクトルｉの差分ベクトルＦｄｉｆｉを求める式である。
【数２】

式中、Ｆｄｉｆｉはｉ番目の特徴ベクトルにおける最小値ベクトルである。差分ベクトルＦｄｉｆｉの各要素は、特徴ベクトルからステップＳＴ１９０１で求めた最小値ベクトルを減算することにより算出される。図２０の例の場合には、ｎ個の特徴ベクトルからｎ個の差分ベクトルが抽出される。図２１は、差分ベクトルの算出方法を説明する図である。特徴ベクトルの分布は図２０と等しい。図に示すように、Ｆｄｉｆ１は（０〜（Ｆｍａｘ１―Ｆｍｉｎ１））の値域、Ｆｄｉｆ２は（０〜（Ｆｍａｘ２―Ｆｍｉｎ２））の値域に収まることが分かる。
【０００７】
次に、制御部１０５は圧縮部１０３に指示し、圧縮辞書を作成する（ステップＳＴ１９０３）。まずステップＳＴ１９０１で得られた最小値ベクトルを圧縮辞書記憶部１０４に格納する。次に、ステップＳＴ１９０２で得られたｎ個の差分ベクトルについて、要素毎に値域を調べ、図２２に示した量子化テーブル１１０を用いて次元毎の量子化ビット数を決定し、量子化ビット数ベクトルとして格納する。次に、得られた量子化ビット数で差分ベクトルの各要素を圧縮し格納する。図２３は、このようにして得られた圧縮辞書の構成を示す図である。
【０００８】
図２１の特徴ベクトルの分布を例に取り、圧縮辞書のサイズについて説明する。Ｆｄｉｆ１，Ｆｄｉｆ２の値域、Ｆｍａｘ１−Ｆｍｉｎ１，Ｆｍａｘ２−Ｆｍｉｎ２がともに６４〜１２７の間に収まるすると、量子化ビット数ベクトルは図２４に示すように次元１，２共に７ビットになる。この時、元の認識辞書における特徴ベクトルの各要素が１バイトで表現出来るとすると、圧縮辞書のサイズＳｉｚｅｃは、式３のようになる。
【数３】

式中、Ｑｊは要素ｊの量子化ビット数である。例えば、n＝４０００、ｍ＝６４でＱｊ＝７とすると、圧縮後の辞書サイズは（２×６４）＋（４０００×７×６４）／８＝２２４１２８（バイト）となる。元の認識辞書における特徴ベクトルの各要素が１バイトで表現出来ることから、圧縮前の認識辞書のサイズは４０００×６４＝２５６０００（バイト）であり、圧縮前の認識辞書に比べて１２．５％の削減効果がある。
【０００９】
また、認識処理時には、入力特徴ベクトルの要素ごとに入力特徴ベクトルと減算を行い、ｎ個の差分ベクトルの対応要素とは加算のみで距離が求まるため、低速なＣＰＵでも実時間で認識可能という特徴がある。
【００１０】
【発明が解決しようとする課題】
従来の辞書圧縮装置は以上のように構成されているので、すべての特徴ベクトルに対して共通の最小値ベクトルを用いて差分ベクトルを抽出するため、特徴ベクトルのばらつきが大きい場合には量子化ビット数が大きくなり、圧縮効率が低下するという問題があった。
【００１１】
この発明は上記のような課題を解決するためになされたもので、圧縮効率が高く、かつ認識時の解凍処理の負荷を低減可能な辞書圧縮装置の実現を目的とする。
【００１２】
【課題を解決するための手段】
この発明に係る辞書圧縮装置は、認識辞書に含まれる複数の認識対象をそれぞれ表す複数の特徴ベクトルを、分布の局所性に従って複数のクラスタに分類するクラスタリング部と、クラスタ毎に、含まれる特徴ベクトルの各要素の最小値から構成される最小値ベクトルを算出し、各特徴ベクトルと最小値ベクトルとの差分ベクトルを抽出する差分ベクトル抽出部と、クラスタ毎に、含まれる差分ベクトルを圧縮し、圧縮辞書に登録する圧縮部とを備えたものである。
【００１３】
この発明に係る辞書圧縮装置は、認識辞書に含まれる複数の認識対象をそれぞれ表す複数の特徴ベクトルを、クラスタの中心と特徴ベクトルの距離を量子化された数値に変換し、量子化された数値に基づいてクラスタの中心との距離が最も近いクラスタに分類するクラスタリング部と、クラスタ毎に、含まれる特徴ベクトルの各要素の最小値から構成される最小値ベクトルを算出し、各特徴ベクトルと最小値ベクトルとの差分ベクトルを抽出する差分ベクトル抽出部と、クラスタ毎に、含まれる差分ベクトルを圧縮し、圧縮辞書に登録する圧縮部とを備えたものである。
【００１５】
この発明に係る辞書圧縮装置は、圧縮部が、クラスタ毎に、含まれる差分ベクトルの値域に基づいて量子化ビット数ベクトルを算出し、量子化ビット数ベクトルで差分ベクトルの各要素を圧縮し、圧縮された要素間の区切りと認識処理時のデータ読込みの区切りとが一致する箇所が最も多くなるように、要素の順序を入れ替え、圧縮辞書に登録するものである。
【００１７】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１は、この発明の実施の形態１による辞書圧縮装置の構成を示すブロック図である。図において、１は認識辞書記憶部、２はクラスタリング部、３は差分ベクトル抽出部、４は圧縮部、５は圧縮辞書記憶部、６は制御部である。認識辞書記憶部１には、文字の標準パターンを特徴付ける特徴ベクトルによって構成される認識辞書が格納されている。クラスタリング部２は、認識辞書中の特徴ベクトルを分類し、クラスタを出力する。差分ベクトル抽出部３は、クラスタ毎に最小値ベクトルと差分ベクトルを抽出する。抽出方法は従来例と同様である。圧縮部４は、差分ベクトル抽出部２で抽出されたクラスタ毎の最小値ベクトル、差分ベクトルを基に認識辞書を圧縮して圧縮辞書を生成する。圧縮辞書記憶部５は、圧縮部４が生成した圧縮辞書を格納する。制御部６は、符号１〜５の各部を制御する。認識辞書記憶部１と圧縮辞書記憶部５は、同一の記憶装置で構成されていてもよい。
【００１８】
次に動作について説明する。
図２は、実施の形態１による制御部６の処理のフローチャートである。図２に沿って処理の流れを説明する。制御部６は、クラスタリング部２に指示し、認識辞書を構成する全ての特徴ベクトルをｋ個にクラスタリングさせる。クラスタの個数ｋは予め決められている。
【００１９】
図３のフローチャートは、クラスタリング部２の処理のフローチャートである。なお、実施の形態１では、非階層的なクラスタリング手法であるｋ−平均法を適用する。まず、クラスタリング部２は、ｋ個のクラスタ中心を決定する（ステップＳＴ３０１）。
【００２０】
次に、クラスタリング部２は、認識辞書中の全ての特徴ベクトルをｋ個のクラスタに分類する（ステップＳＴ３０２）。ここでの分類方法は、ステップＳＴ３０１で決めたｋ個のクラスタ中心と各特徴ベクトルとの距離を計算し、各特徴ベクトルを中心との距離が最も近いクラスタに配分することにより行う。
【００２１】
次に、ステップＳＴ３０２で分類した各クラスタに属する特徴ベクトルの重心を求め、新たなクラスタ中心とする（ステップＳＴ３０３）。
【００２２】
次に、ｋ個のクラスタについて、ステップＳＴ３０１で決定した旧クラスタ中心と、ステップＳＴ３０３で求めた新クラスタ中心との距離の総和を求める（ステップＳＴ３０４）。
【００２３】
次に、ステップＳＴ３０４で求めた距離の総和が一定の閾値以下であるかどうかを判定する（ステップＳＴ３０５）。閾値以下ならクラスタリング部２は処理を終了する。距離の総和が閾値よりも大きい場合には、ステップＳＴ３０２に戻り、再度特徴ベクトルのクラスタへの分類を行う。以上の処理を距離の総和が一定の閾値以下になるまで繰り返して行う。
【００２４】
図４は、クラスタリング部２により分類した特徴ベクトルの分布の様子を示した図である。図において、「○」は特徴軸Ｆ１，Ｆ２におけるクラスタ１の特徴ベクトルの分布、「●」は特徴軸Ｆ１，Ｆ２におけるクラスタ２の特徴ベクトルの分布を示している。特徴ベクトル全体の分布は従来例の図２０で示したものと同様である。実施の形態１では、全ての特徴ベクトルがクラスタ１とクラスタ２の２つのクラスタに分類されている。
【００２５】
クラスタリング部の処理が終了すると、制御部６は差分ベクトル抽出部３に指示し、クラスタ毎に最小値ベクトルを抽出させる（ステップＳＴ２０２）。最小値ベクトルの求め方は従来例と同様である。
【００２６】
次に、制御部６は差分ベクトル抽出部３に指示し、クラスタ毎に差分ベクトルを抽出させる（ステップＳＴ２０３）。差分ベクトルの求め方は従来例と同様である。実施の形態１では、図５に示したようにクラスタ毎に差分ベクトルの分布の値域が異なる。
【００２７】
次に、制御部６は圧縮部４に指示し、圧縮辞書を作成させる（ステップＳＴ２０４）。まずステップＳＴ２０１で分類したクラスタの総数を圧縮辞書記憶部５に格納する。次に、各クラスタ毎に、クラスタの差分ベクトル数、クラスタの最小値ベクトルを格納する。次に、各クラスタについて、含まれる差分ベクトルの各要素の値域を調べ、図２２に示した量子化テーブル１１０を用いて次元毎の量子化ビット数を決定し、量子化ビット数ベクトルとして格納する。次に、得られた量子化ビット数で差分ベクトルの各要素を圧縮し格納する。図６は、得られた圧縮辞書を示す図である。
【００２８】
図５に示す特徴ベクトルの分布を例に取り、圧縮辞書のサイズについて説明する。ここではクラスタ単位で差分ベクトルを抽出しているので、図５に示されるクラスタ１，２の値域は、従来例の図２１の値域よりも小さくなる。よって、量子化ビット数ベクトルは図７に示すようになる。図において、７１，７２は、それぞれクラスタ１，２の各要素の量子化ビット数を表している。クラスタ数およびクラスタ毎の特徴ベクトル数を２バイトで表現出来る場合、圧縮辞書のサイズＳｉｚｅｃは式４のようになる。
【数４】

式中ｋはクラスタ数、ｍは特徴ベクトルの要素数、ｎｉはｉ番目のクラスタに含まれる差分ベクトルの個数、Ｑｉｊはｉ番目のクラスタにおける量子化ビット数ベクトルの要素ｊの量子化ビット数である。例えば、ｋ＝１００、クラスタ内の差分ベクトル数をすべて４０（nｉ＝４０）、ｍ＝６４でＱｉｊ＝６とすると、圧縮後の辞書サイズは〔２＋｛１００×（２×６４）＋１００×（４０×（６×６４）／８）}〕＝２０４８０２（バイト）となる。圧縮前の認識辞書のサイズは４０００×６４＝２５６０００（バイト）であり、元の認識辞書に比べて２０％の削減効果がある。また従来例と比較すると、７．５％削減効果が高い。
【００２９】
図８は、特徴ベクトル数４７１７個の日本語の文字認識辞書について、実際にクラスタ数を変化させて認識辞書のサイズをシミュレーションした結果を示す図である。図８に示すように、クラスタ数が１の場合に比べて、クラスタ数を増加させることにより認識辞書サイズは小さくなり、クラスタリングが認識辞書サイズの削減に効果的であることが分かる。
【００３０】
実施の形態１では、クラスタリング手法としてｋ−平均法を用いたが、他に階層的なクラスタリングなどの手法を用いてもよく、距離の近いもの同士をクラスタリング出来るのであれば用いる手法は限定されない。
【００３１】
以上のように、この実施の形態１によれば、クラスタリング部２により、距離の近い特徴ベクトル同士を同じクラスタに分類し、クラスタごとに差分ベクトルを抽出するようにしたので、差分ベクトルの値域を小さくでき、認識辞書の圧縮効率を向上出来るという効果が得られる。
【００３２】
また、この実施の形態１によれば、差分ベクトルを登録することにより認識辞書の圧縮を行っているので、解凍処理の負荷を低減でき、低速なＣＰＵでも実時間で認識が可能な圧縮辞書を作成出来るという効果が得られる。
【００３３】
実施の形態２．
図９は、この発明の実施の形態２による辞書圧縮装置の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図において２２はクラスタリング部である。クラスタリングの手法としては、実施の形態１と同様にｋ−平均法を用いるが、特徴ベクトルのクラスタへの分類方法が実施の形態１のクラスタリング部２とは異なる。他の処理については実施の形態１と同様に行う。
【００３４】
次に、動作について説明する。図１０は、実施の形態２によるクラスタリング部２２の処理のフローチャートである。制御部６からの指示を受けると、クラスタリング部２２は、実施の形態１と同様にｋ個のクラスタ中心を決める（ステップＳＴ３０１）。
【００３５】
次に、クラスタリング部２２は、認識辞書内の全ての特徴ベクトルを、ステップＳＴ３０１で決めたクラスタ中心との距離が最も近いクラスタに分類する（ステップＳＴ１００２）。ここでは、特徴ベクトルとクラスタ中心間の距離をそのまま使用せずに、量子化ビット数に基づく距離に変換して利用する。すなわち、特徴ベクトルとクラスタ中心間の距離を図１１の表に示したように量子化ビット距離に置き換える。この量子化ビット距離によって、特徴ベクトルをクラスタに分類する。
【００３６】
以降の処理は、実施の形態１と同様に行い、クラスタリングを終了する（ステップＳＴ３０３〜ステップＳＴ３０５）。
【００３７】
実施の形態２では、クラスタリング手法としてｋ−平均法を用いたが、実施の形態１と同様に、距離の近いもの同士をクラスタリング出来る他のクラスタリング手法を用いてもよい。
【００３８】
以上のように、この実施の形態２によれば、クラスタリング部２２は、量子化ビット数を考慮した量子化ビット距離を用いて特徴ベクトルの分類を行うようにしたので、全ての差分ベクトルを最適な量子化ビット数で圧縮することができ、実施の形態１よりもさらに圧縮効率が向上するという効果が得られる。
【００３９】
実施の形態３．
図１２は、この発明の実施の形態３による辞書圧縮装置の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図において３２はクラスタリング部であり、クラスタリングの手法としては、実施の形態１と同様にｋ−平均法を用いるが、特徴ベクトルのクラスタへの分類方法が実施の形態１および２とは異なる。他の処理については実施の形態１と同様に行う。
【００４０】
次に、動作について説明する。図１３は、実施の形態３によるクラスタリング部３２の処理のフローチャートである。制御部６からの指示を受けると、クラスタリング部３２は、実施の形態１と同様にｋ個のクラスタ中心を決める（ステップＳＴ３０１）。
【００４１】
次に、クラスタリング部３２は、認識辞書内の全ての特徴ベクトルを、中心との距離が最も近いクラスタに分類する（ステップＳＴ１３０２）。ここでは、特徴ベクトルとクラスタ中心間の距離を算出する際、特徴ベクトルの各要素のうち、要素の値のばらつきが一定値以下の要素のみを用いて距離を算出する。このようにして距離を算出する理由について説明する。値のばらつきの小さい要素のみを用いて算出した距離によって分類すると、それらの要素の次元についてはクラスタ内の差分ベクトルの値域を小さくすることが出来る。この時、値のばらつきの大きい要素の次元については差分ベクトルの値域は大きくなるが、図２２の量子化テーブル１１０に示されるように、ベクトル間の距離が大きな範囲では量子化ビット数の差異は出にくい。よって、上記の方法により、全体として量子化ビット数を下げることが出来る。
【００４２】
以降の処理は、実施の形態１と同様に行い、クラスタリングを終了する（ステップＳＴ３０３〜ステップＳＴ３０５）。
【００４３】
実施の形態３では、クラスタリング手法としてｋ−平均法を用いたが、実施の形態１と同様に、距離の近いもの同士をクラスタリング出来る他のクラスタリング手法を用いてもよい。
【００４４】
以上のように、この実施の形態３によれば、クラスタリング部３２は、特徴ベクトルの各要素のうち、値のばらつきの小さい要素のみを用いて距離を算出し、その距離によって特徴ベクトルの分類を行うようにしたので、結果的に量子化ビット数を下げることになり、実施の形態１よりもさらに圧縮効率が向上するという効果が得られる。
【００４５】
実施の形態４．
図１４は、この発明の実施の形態４による辞書圧縮装置の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図において４４は圧縮部、４５は圧縮辞書記憶部である。実施の形態４では、圧縮部４４による圧縮辞書記憶部４５への圧縮辞書の格納方法が実施の形態１とは異なる。また、他の処理については実施の形態１と同様に行う。
【００４６】
次に、動作について説明する。圧縮部４４は、実施の形態１と同様に、圧縮辞書記憶部４５にクラスタ毎に差分ベクトルを格納する。ここで、量子化ビット数ベクトルが図１５の９５に示すものであったとする。認識処理時に、圧縮辞書中の差分ベクトルのデータを１バイト区切りで読込む際、差分ベクトルの各要素の切れ目がちょうど１バイトの区切りと一致しないと、要素を取り出す際にビット演算を行う必要が生じる。差分ベクトルの各要素が元の順序のままで格納されているとすると、図１５の９５に示すように、次元７までのデータを読込んだところでちょうど４０ビット、すなわち５バイトとなり、要素の切れ目がちょうどバイトの境界と一致する。しかし、その他の次元については、各要素のデータの区切りはバイト境界と一致していない。
【００４７】
そこで、実施の形態４では、次元の切れ目がバイト境界と一致する箇所が出来るだけ多くなるように、差分ベクトルの要素を並べ替えて圧縮辞書記憶部４５に格納する。図１５の例では、９６に示す順序で並べかえることにより、９８，９９，１００の３箇所で次元の切れ目がバイト境界と一致し、その分、ビット演算量を削減することが出来る。これにより、認識処理時に圧縮辞書から差分ベクトルを抽出する際の演算量を減らすことが可能になる。
【００４８】
以上のように、この実施の形態４によれば、圧縮部４４は、差分ベクトルを圧縮辞書記憶部４５へ格納する際、差分ベクトルの要素を量子化ビット数に応じて並べ替え、次元の切れ目とバイト境界が一致するようにしたので、実施の形態１と同様に圧縮率向上の効果が得られると共に、認識処理時の演算量を削減し、圧縮辞書から差分ベクトルの要素を取り出す処理を高速化するという効果が得られる。
【００４９】
実施の形態５．
図１６は、この発明の実施の形態５による辞書圧縮装置の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図において５４は圧縮部、５５は圧縮辞書記憶部である。実施の形態５では、圧縮部５４による圧縮辞書記憶部５５への圧縮辞書の格納方法が実施の形態１および実施の形態４とは異なる。また、他の処理については実施の形態１と同様に行う。
【００５０】
次に、動作について説明する。圧縮部５４は、実施の形態１と同様に、圧縮辞書記憶部５５にクラスタ毎に差分ベクトルを格納する。この時、差分ベクトル数が一定の閾値以下のクラスタについては、差分ベクトルの代わりに、元の特徴ベクトルを格納する。図１７は実施の形態５による圧縮辞書の構成例を示す図である。図の例では、クラスタｋの差分ベクトル数ｎｋが閾値以下であったため、クラスタｋについては、最小値ベクトル、量子化ビット数ベクトル、差分ベクトルの代わりに、特徴ベクトルがそのまま格納されている。
【００５１】
以上のように、この実施の形態５によれば、圧縮部５４は、差分ベクトルを圧縮辞書記憶部５５へ格納する際、クラスタ内の差分ベクトル数が一定の閾値以下の場合には、特徴ベクトルをそのまま格納するようにしたので、差分ベクトル数が少ないクラスタにおける最小値ベクトル、量子化ビット数ベクトルの分の容量を削減することが出来る。よって、含まれる差分ベクトル数の少ないクラスタが多い場合には、実施の形態１よりもさらに圧縮が効率化されるという効果が得られる。
【００５２】
【発明の効果】
以上のように、この発明によれば、クラスタリングにより、認識辞書中の特徴ベクトルを分布の局所性に従って複数のクラスタに分類し、クラスタ毎に差分ベクトルを抽出し、圧縮するようにした。これにより、特徴ベクトルが表す認識対象の局所性や、類似した認識対象群での局所性に起因する、特徴ベクトルの分布の局所性が利用でき、圧縮効率が高く、かつ認識時の解凍処理の負荷を低減可能な辞書圧縮装置を得られるという効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１による、辞書圧縮装置の構成を示すブロック図である。
【図２】この発明の実施の形態１による、制御部の処理のフローチャートである。
【図３】この発明の実施の形態１による、クラスタリング部の処理のフローチャートである。
【図４】この発明の実施の形態１による、クラスタリングされた特徴ベクトルの分布の様子を示した図である。
【図５】この発明の実施の形態１による、クラスタ毎の差分ベクトル抽出方法を説明する図である。
【図６】この発明の実施の形態１による、圧縮辞書の構成を示す図である。
【図７】クラスタ毎の量子化ビット数ベクトルを示す図である。
【図８】クラスタ数を変化させた時の認識辞書のサイズをシミュレーションした結果を示す図である。
【図９】この発明の実施の形態２による、辞書圧縮装置の構成を示すブロック図である。
【図１０】この発明の実施の形態２による、クラスタリング部の処理のフローチャートである。
【図１１】量子化ビット距離を示す図である。
【図１２】この発明の実施の形態３による、辞書圧縮装置の構成を示すブロック図である。
【図１３】この発明の実施の形態３による、クラスタリング部の処理のフローチャートである。
【図１４】この発明の実施の形態４による、辞書圧縮装置の構成を示すブロック図である。
【図１５】この発明の実施の形態４による、並べ替え前の量子化ビット数ベクトルと並べ替え後の量子化ビット数ベクトルを示す図である。
【図１６】この発明の実施の形態５による、辞書圧縮装置の構成を示すブロック図である。
【図１７】この発明の実施の形態５による、圧縮辞書の構成例を示す図である。
【図１８】従来の、差分ベクトルを登録する方式による辞書圧縮装置の構成を示すブロック図である。
【図１９】従来の辞書圧縮装置の、制御部の処理のフローチャートである。
【図２０】最小値ベクトルの算出方法を説明する図である。
【図２１】差分ベクトル抽出方法を説明する図である。
【図２２】差分ベクトルの要素毎の値域から量子化ビット数を求める、量子化テーブルを示す図である。
【図２３】従来の圧縮辞書の構成を示す図である。
【図２４】量子化ビット数ベクトルを示す図である。
【符号の説明】
１認識辞書記憶部、２，２２，３２クラスタリング部、３差分ベクトル抽出部、４，４４，５４圧縮部、５，４５，５５圧縮辞書記憶部、６制御部、７１，７２，９５，９６量子化ビット数ベクトル、１１０量子化テーブル。

Claims

認識辞書に含まれる複数の認識対象をそれぞれ表す複数の特徴ベクトルを、分布の局所性に従って複数のクラスタに分類するクラスタリング部と、
上記クラスタ毎に、含まれる特徴ベクトルの各要素の最小値から構成される最小値ベクトルを算出し、各特徴ベクトルと上記最小値ベクトルとの差分ベクトルを抽出する差分ベクトル抽出部と、
上記クラスタ毎に、含まれる差分ベクトルを圧縮し、圧縮辞書に登録する圧縮部とを備えた辞書圧縮装置。
認識辞書に含まれる複数の認識対象をそれぞれ表す複数の特徴ベクトルを、クラスタの中心と特徴ベクトルの距離を量子化された数値に変換し、上記量子化された数値に基づいて上記クラスタの中心との距離が最も近いクラスタに分類するクラスタリング部と、
上記クラスタ毎に、含まれる特徴ベクトルの各要素の最小値から構成される最小値ベクトルを算出し、各特徴ベクトルと上記最小値ベクトルとの差分ベクトルを抽出する差分ベクトル抽出部と、
上記クラスタ毎に、含まれる差分ベクトルを圧縮し、圧縮辞書に登録する圧縮部とを備えた辞書圧縮装置。
圧縮部は、クラスタ毎に、含まれる差分ベクトルの値域に基づいて量子化ビット数ベクトルを算出し、上記量子化ビット数ベクトルで差分ベクトルの各要素を圧縮し、上記圧縮された要素間の区切りと認識処理時のデータ読込みの区切りとが一致する箇所が最も多くなるように、上記要素の順序を入れ替え、圧縮辞書に登録することを特徴とする請求項１または請求項２記載の辞書圧縮装置。