JP4121808B2 - 辞書圧縮装置 - Google Patents

辞書圧縮装置 Download PDF

Info

Publication number
JP4121808B2
JP4121808B2 JP2002251529A JP2002251529A JP4121808B2 JP 4121808 B2 JP4121808 B2 JP 4121808B2 JP 2002251529 A JP2002251529 A JP 2002251529A JP 2002251529 A JP2002251529 A JP 2002251529A JP 4121808 B2 JP4121808 B2 JP 4121808B2
Authority
JP
Japan
Prior art keywords
vector
dictionary
compression
cluster
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002251529A
Other languages
English (en)
Other versions
JP2004093671A (ja
Inventor
武典 川又
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2002251529A priority Critical patent/JP4121808B2/ja
Publication of JP2004093671A publication Critical patent/JP2004093671A/ja
Application granted granted Critical
Publication of JP4121808B2 publication Critical patent/JP4121808B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、情報量の劣化がないデータ圧縮方式による辞書圧縮装置に関するものである。
【0002】
【従来の技術】
文字認識等のパターン認識において使用される認識辞書には、標準パターンを表す特徴ベクトルが保持されている。このような認識辞書に対する従来の辞書圧縮装置には、情報量の劣化を伴う方式と情報量の劣化を伴わない方式がある。例えば特開平08−44869号公報には両方式が開示されている。情報量の劣化を伴う辞書圧縮装置は、認識辞書内の特徴ベクトルにおける要素毎に最大値、最小値を求め、その値の範囲が一定の閾値以下の場合には圧縮可能と判断し、1つの代表値に置き換えて圧縮するというものである。
【0003】
また、情報量の劣化を伴わない辞書圧縮装置は、全認識対象文字の特徴ベクトルについて次元毎に最小値を調べ、それらの最小値を要素として構成される最小値ベクトルと特徴ベクトルとの差分値を要素とする差分ベクトルを登録することにより認識辞書を圧縮するというものである。
【0004】
図18は、従来の、差分ベクトルを登録する方式による辞書圧縮装置の構成を示すブロック図である。図において、101は認識辞書記憶部、102は差分ベクトル抽出部、103は圧縮部、104は圧縮辞書記憶部、105は制御部である。認識辞書記憶部101には、文字の標準パターンを特徴付ける特徴ベクトルによって構成される認識辞書が格納されている。
【0005】
次に、動作について説明する。
図19は、制御部105の処理のフローチャートである。まず、制御部105は差分ベクトル抽出部102に指示し、認識辞書記憶部101から最小値ベクトルを抽出させる(ステップST1901)。差分ベクトル抽出部102は、認識辞書に含まれる特徴ベクトルの各要素の最小値を求め、それらの最小値を要素に持つベクトルを最小値ベクトルとして算出する。式1は、最小値ベクトルFminを求める式である。
【数1】
Figure 0004121808
式中、mはベクトルの要素数であり、ベクトルの次元と一致する。nは認識辞書に含まれる差分ベクトルの個数を示している。Fi,1はi番目の特徴ベクトルにおける1次元目の要素を表している。また、図20は、最小値ベクトルの算出方法を説明する図である。ここでは2次元ベクトルの場合を示している。図において、「○」は特徴軸F1,F2における特徴ベクトルの分布を示している。最小値ベクトルFminは(Fmin1,Fmin2)となる。同様に最大値ベクトルFmaxは(Fmax1,Fmax2)である。
【0006】
次に、制御部105は差分ベクトル抽出部102に指示し、差分ベクトルを抽出させる(ステップST1902)。式2は、特徴ベクトルiの差分ベクトルFdifiを求める式である。
【数2】
Figure 0004121808
式中、Fdifiはi番目の特徴ベクトルにおける最小値ベクトルである。差分ベクトルFdifiの各要素は、特徴ベクトルからステップST1901で求めた最小値ベクトルを減算することにより算出される。図20の例の場合には、n個の特徴ベクトルからn個の差分ベクトルが抽出される。図21は、差分ベクトルの算出方法を説明する図である。特徴ベクトルの分布は図20と等しい。図に示すように、Fdif1は(0〜(Fmax1―Fmin1))の値域、Fdif2は(0〜(Fmax2―Fmin2))の値域に収まることが分かる。
【0007】
次に、制御部105は圧縮部103に指示し、圧縮辞書を作成する(ステップST1903)。まずステップST1901で得られた最小値ベクトルを圧縮辞書記憶部104に格納する。次に、ステップST1902で得られたn個の差分ベクトルについて、要素毎に値域を調べ、図22に示した量子化テーブル110を用いて次元毎の量子化ビット数を決定し、量子化ビット数ベクトルとして格納する。次に、得られた量子化ビット数で差分ベクトルの各要素を圧縮し格納する。図23は、このようにして得られた圧縮辞書の構成を示す図である。
【0008】
図21の特徴ベクトルの分布を例に取り、圧縮辞書のサイズについて説明する。Fdif1,Fdif2の値域、Fmax1−Fmin1,Fmax2−Fmin2がともに64〜127の間に収まるすると、量子化ビット数ベクトルは図24に示すように次元1,2共に7ビットになる。この時、元の認識辞書における特徴ベクトルの各要素が1バイトで表現出来るとすると、圧縮辞書のサイズSizecは、式3のようになる。
【数3】
Figure 0004121808
式中、Qjは要素jの量子化ビット数である。例えば、n=4000、m=64でQj=7とすると、圧縮後の辞書サイズは(2×64)+(4000×7×64)/8=224128(バイト)となる。元の認識辞書における特徴ベクトルの各要素が1バイトで表現出来ることから、圧縮前の認識辞書のサイズは4000×64=256000(バイト)であり、圧縮前の認識辞書に比べて12.5%の削減効果がある。
【0009】
また、認識処理時には、入力特徴ベクトルの要素ごとに入力特徴ベクトルと減算を行い、n個の差分ベクトルの対応要素とは加算のみで距離が求まるため、低速なCPUでも実時間で認識可能という特徴がある。
【0010】
【発明が解決しようとする課題】
従来の辞書圧縮装置は以上のように構成されているので、すべての特徴ベクトルに対して共通の最小値ベクトルを用いて差分ベクトルを抽出するため、特徴ベクトルのばらつきが大きい場合には量子化ビット数が大きくなり、圧縮効率が低下するという問題があった。
【0011】
この発明は上記のような課題を解決するためになされたもので、圧縮効率が高く、かつ認識時の解凍処理の負荷を低減可能な辞書圧縮装置の実現を目的とする。
【0012】
【課題を解決するための手段】
この発明に係る辞書圧縮装置は、認識辞書に含まれる複数の認識対象をそれぞれ表す複数の特徴ベクトルを、分布の局所性に従って複数のクラスタに分類するクラスタリング部と、クラスタ毎に、含まれる特徴ベクトルの各要素の最小値から構成される最小値ベクトルを算出し、各特徴ベクトルと最小値ベクトルとの差分ベクトルを抽出する差分ベクトル抽出部と、クラスタ毎に、含まれる差分ベクトルを圧縮し、圧縮辞書に登録する圧縮部とを備えたものである。
【0013】
この発明に係る辞書圧縮装置は、認識辞書に含まれる複数の認識対象をそれぞれ表す複数の特徴ベクトルを、クラスタの中心と特徴ベクトルの距離を量子化された数値に変換し、量子化された数値に基づいてクラスタの中心との距離が最も近いクラスタに分類するクラスタリング部と、クラスタ毎に、含まれる特徴ベクトルの各要素の最小値から構成される最小値ベクトルを算出し、各特徴ベクトルと最小値ベクトルとの差分ベクトルを抽出する差分ベクトル抽出部と、クラスタ毎に、含まれる差分ベクトルを圧縮し、圧縮辞書に登録する圧縮部とを備えたものである。
【0015】
この発明に係る辞書圧縮装置は、圧縮部が、クラスタ毎に、含まれる差分ベクトルの値域に基づいて量子化ビット数ベクトルを算出し、量子化ビット数ベクトルで差分ベクトルの各要素を圧縮し、圧縮された要素間の区切りと認識処理時のデータ読込みの区切りとが一致する箇所が最も多くなるように、要素の順序を入れ替え、圧縮辞書に登録するものである。
【0017】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1は、この発明の実施の形態1による辞書圧縮装置の構成を示すブロック図である。図において、1は認識辞書記憶部、2はクラスタリング部、3は差分ベクトル抽出部、4は圧縮部、5は圧縮辞書記憶部、6は制御部である。認識辞書記憶部1には、文字の標準パターンを特徴付ける特徴ベクトルによって構成される認識辞書が格納されている。クラスタリング部2は、認識辞書中の特徴ベクトルを分類し、クラスタを出力する。差分ベクトル抽出部3は、クラスタ毎に最小値ベクトルと差分ベクトルを抽出する。抽出方法は従来例と同様である。圧縮部4は、差分ベクトル抽出部2で抽出されたクラスタ毎の最小値ベクトル、差分ベクトルを基に認識辞書を圧縮して圧縮辞書を生成する。圧縮辞書記憶部5は、圧縮部4が生成した圧縮辞書を格納する。制御部6は、符号1〜5の各部を制御する。認識辞書記憶部1と圧縮辞書記憶部5は、同一の記憶装置で構成されていてもよい。
【0018】
次に動作について説明する。
図2は、実施の形態1による制御部6の処理のフローチャートである。図2に沿って処理の流れを説明する。制御部6は、クラスタリング部2に指示し、認識辞書を構成する全ての特徴ベクトルをk個にクラスタリングさせる。クラスタの個数kは予め決められている。
【0019】
図3のフローチャートは、クラスタリング部2の処理のフローチャートである。なお、実施の形態1では、非階層的なクラスタリング手法であるk−平均法を適用する。まず、クラスタリング部2は、k個のクラスタ中心を決定する(ステップST301)。
【0020】
次に、クラスタリング部2は、認識辞書中の全ての特徴ベクトルをk個のクラスタに分類する(ステップST302)。ここでの分類方法は、ステップST301で決めたk個のクラスタ中心と各特徴ベクトルとの距離を計算し、各特徴ベクトルを中心との距離が最も近いクラスタに配分することにより行う。
【0021】
次に、ステップST302で分類した各クラスタに属する特徴ベクトルの重心を求め、新たなクラスタ中心とする(ステップST303)。
【0022】
次に、k個のクラスタについて、ステップST301で決定した旧クラスタ中心と、ステップST303で求めた新クラスタ中心との距離の総和を求める(ステップST304)。
【0023】
次に、ステップST304で求めた距離の総和が一定の閾値以下であるかどうかを判定する(ステップST305)。閾値以下ならクラスタリング部2は処理を終了する。距離の総和が閾値よりも大きい場合には、ステップST302に戻り、再度特徴ベクトルのクラスタへの分類を行う。以上の処理を距離の総和が一定の閾値以下になるまで繰り返して行う。
【0024】
図4は、クラスタリング部2により分類した特徴ベクトルの分布の様子を示した図である。図において、「○」は特徴軸F1,F2におけるクラスタ1の特徴ベクトルの分布、「●」は特徴軸F1,F2におけるクラスタ2の特徴ベクトルの分布を示している。特徴ベクトル全体の分布は従来例の図20で示したものと同様である。実施の形態1では、全ての特徴ベクトルがクラスタ1とクラスタ2の2つのクラスタに分類されている。
【0025】
クラスタリング部の処理が終了すると、制御部6は差分ベクトル抽出部3に指示し、クラスタ毎に最小値ベクトルを抽出させる(ステップST202)。最小値ベクトルの求め方は従来例と同様である。
【0026】
次に、制御部6は差分ベクトル抽出部3に指示し、クラスタ毎に差分ベクトルを抽出させる(ステップST203)。差分ベクトルの求め方は従来例と同様である。実施の形態1では、図5に示したようにクラスタ毎に差分ベクトルの分布の値域が異なる。
【0027】
次に、制御部6は圧縮部4に指示し、圧縮辞書を作成させる(ステップST204)。まずステップST201で分類したクラスタの総数を圧縮辞書記憶部5に格納する。次に、各クラスタ毎に、クラスタの差分ベクトル数、クラスタの最小値ベクトルを格納する。次に、各クラスタについて、含まれる差分ベクトルの各要素の値域を調べ、図22に示した量子化テーブル110を用いて次元毎の量子化ビット数を決定し、量子化ビット数ベクトルとして格納する。次に、得られた量子化ビット数で差分ベクトルの各要素を圧縮し格納する。図6は、得られた圧縮辞書を示す図である。
【0028】
図5に示す特徴ベクトルの分布を例に取り、圧縮辞書のサイズについて説明する。ここではクラスタ単位で差分ベクトルを抽出しているので、図5に示されるクラスタ1,2の値域は、従来例の図21の値域よりも小さくなる。よって、量子化ビット数ベクトルは図7に示すようになる。図において、71,72は、それぞれクラスタ1,2の各要素の量子化ビット数を表している。クラスタ数およびクラスタ毎の特徴ベクトル数を2バイトで表現出来る場合、圧縮辞書のサイズSizecは式4のようになる。
【数4】
Figure 0004121808
式中kはクラスタ数、mは特徴ベクトルの要素数、niはi番目のクラスタに含まれる差分ベクトルの個数、Qijはi番目のクラスタにおける量子化ビット数ベクトルの要素jの量子化ビット数である。例えば、k=100、クラスタ内の差分ベクトル数をすべて40(ni=40)、m=64でQij=6とすると、圧縮後の辞書サイズは〔2+{100×(2×64)+100×(40×(6×64)/8)}〕=204802(バイト)となる。圧縮前の認識辞書のサイズは4000×64=256000(バイト)であり、元の認識辞書に比べて20%の削減効果がある。また従来例と比較すると、7.5%削減効果が高い。
【0029】
図8は、特徴ベクトル数4717個の日本語の文字認識辞書について、実際にクラスタ数を変化させて認識辞書のサイズをシミュレーションした結果を示す図である。図8に示すように、クラスタ数が1の場合に比べて、クラスタ数を増加させることにより認識辞書サイズは小さくなり、クラスタリングが認識辞書サイズの削減に効果的であることが分かる。
【0030】
実施の形態1では、クラスタリング手法としてk−平均法を用いたが、他に階層的なクラスタリングなどの手法を用いてもよく、距離の近いもの同士をクラスタリング出来るのであれば用いる手法は限定されない。
【0031】
以上のように、この実施の形態1によれば、クラスタリング部2により、距離の近い特徴ベクトル同士を同じクラスタに分類し、クラスタごとに差分ベクトルを抽出するようにしたので、差分ベクトルの値域を小さくでき、認識辞書の圧縮効率を向上出来るという効果が得られる。
【0032】
また、この実施の形態1によれば、差分ベクトルを登録することにより認識辞書の圧縮を行っているので、解凍処理の負荷を低減でき、低速なCPUでも実時間で認識が可能な圧縮辞書を作成出来るという効果が得られる。
【0033】
実施の形態2.
図9は、この発明の実施の形態2による辞書圧縮装置の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図において22はクラスタリング部である。クラスタリングの手法としては、実施の形態1と同様にk−平均法を用いるが、特徴ベクトルのクラスタへの分類方法が実施の形態1のクラスタリング部2とは異なる。他の処理については実施の形態1と同様に行う。
【0034】
次に、動作について説明する。図10は、実施の形態2によるクラスタリング部22の処理のフローチャートである。制御部6からの指示を受けると、クラスタリング部22は、実施の形態1と同様にk個のクラスタ中心を決める(ステップST301)。
【0035】
次に、クラスタリング部22は、認識辞書内の全ての特徴ベクトルを、ステップST301で決めたクラスタ中心との距離が最も近いクラスタに分類する(ステップST1002)。ここでは、特徴ベクトルとクラスタ中心間の距離をそのまま使用せずに、量子化ビット数に基づく距離に変換して利用する。すなわち、特徴ベクトルとクラスタ中心間の距離を図11の表に示したように量子化ビット距離に置き換える。この量子化ビット距離によって、特徴ベクトルをクラスタに分類する。
【0036】
以降の処理は、実施の形態1と同様に行い、クラスタリングを終了する(ステップST303〜ステップST305)。
【0037】
実施の形態2では、クラスタリング手法としてk−平均法を用いたが、実施の形態1と同様に、距離の近いもの同士をクラスタリング出来る他のクラスタリング手法を用いてもよい。
【0038】
以上のように、この実施の形態2によれば、クラスタリング部22は、量子化ビット数を考慮した量子化ビット距離を用いて特徴ベクトルの分類を行うようにしたので、全ての差分ベクトルを最適な量子化ビット数で圧縮することができ、実施の形態1よりもさらに圧縮効率が向上するという効果が得られる。
【0039】
実施の形態3.
図12は、この発明の実施の形態3による辞書圧縮装置の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図において32はクラスタリング部であり、クラスタリングの手法としては、実施の形態1と同様にk−平均法を用いるが、特徴ベクトルのクラスタへの分類方法が実施の形態1および2とは異なる。他の処理については実施の形態1と同様に行う。
【0040】
次に、動作について説明する。図13は、実施の形態3によるクラスタリング部32の処理のフローチャートである。制御部6からの指示を受けると、クラスタリング部32は、実施の形態1と同様にk個のクラスタ中心を決める(ステップST301)。
【0041】
次に、クラスタリング部32は、認識辞書内の全ての特徴ベクトルを、中心との距離が最も近いクラスタに分類する(ステップST1302)。ここでは、特徴ベクトルとクラスタ中心間の距離を算出する際、特徴ベクトルの各要素のうち、要素の値のばらつきが一定値以下の要素のみを用いて距離を算出する。このようにして距離を算出する理由について説明する。値のばらつきの小さい要素のみを用いて算出した距離によって分類すると、それらの要素の次元についてはクラスタ内の差分ベクトルの値域を小さくすることが出来る。この時、値のばらつきの大きい要素の次元については差分ベクトルの値域は大きくなるが、図22の量子化テーブル110に示されるように、ベクトル間の距離が大きな範囲では量子化ビット数の差異は出にくい。よって、上記の方法により、全体として量子化ビット数を下げることが出来る。
【0042】
以降の処理は、実施の形態1と同様に行い、クラスタリングを終了する(ステップST303〜ステップST305)。
【0043】
実施の形態3では、クラスタリング手法としてk−平均法を用いたが、実施の形態1と同様に、距離の近いもの同士をクラスタリング出来る他のクラスタリング手法を用いてもよい。
【0044】
以上のように、この実施の形態3によれば、クラスタリング部32は、特徴ベクトルの各要素のうち、値のばらつきの小さい要素のみを用いて距離を算出し、その距離によって特徴ベクトルの分類を行うようにしたので、結果的に量子化ビット数を下げることになり、実施の形態1よりもさらに圧縮効率が向上するという効果が得られる。
【0045】
実施の形態4.
図14は、この発明の実施の形態4による辞書圧縮装置の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図において44は圧縮部、45は圧縮辞書記憶部である。実施の形態4では、圧縮部44による圧縮辞書記憶部45への圧縮辞書の格納方法が実施の形態1とは異なる。また、他の処理については実施の形態1と同様に行う。
【0046】
次に、動作について説明する。圧縮部44は、実施の形態1と同様に、圧縮辞書記憶部45にクラスタ毎に差分ベクトルを格納する。ここで、量子化ビット数ベクトルが図15の95に示すものであったとする。認識処理時に、圧縮辞書中の差分ベクトルのデータを1バイト区切りで読込む際、差分ベクトルの各要素の切れ目がちょうど1バイトの区切りと一致しないと、要素を取り出す際にビット演算を行う必要が生じる。差分ベクトルの各要素が元の順序のままで格納されているとすると、図15の95に示すように、次元7までのデータを読込んだところでちょうど40ビット、すなわち5バイトとなり、要素の切れ目がちょうどバイトの境界と一致する。しかし、その他の次元については、各要素のデータの区切りはバイト境界と一致していない。
【0047】
そこで、実施の形態4では、次元の切れ目がバイト境界と一致する箇所が出来るだけ多くなるように、差分ベクトルの要素を並べ替えて圧縮辞書記憶部45に格納する。図15の例では、96に示す順序で並べかえることにより、98,99,100の3箇所で次元の切れ目がバイト境界と一致し、その分、ビット演算量を削減することが出来る。これにより、認識処理時に圧縮辞書から差分ベクトルを抽出する際の演算量を減らすことが可能になる。
【0048】
以上のように、この実施の形態4によれば、圧縮部44は、差分ベクトルを圧縮辞書記憶部45へ格納する際、差分ベクトルの要素を量子化ビット数に応じて並べ替え、次元の切れ目とバイト境界が一致するようにしたので、実施の形態1と同様に圧縮率向上の効果が得られると共に、認識処理時の演算量を削減し、圧縮辞書から差分ベクトルの要素を取り出す処理を高速化するという効果が得られる。
【0049】
実施の形態5.
図16は、この発明の実施の形態5による辞書圧縮装置の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図において54は圧縮部、55は圧縮辞書記憶部である。実施の形態5では、圧縮部54による圧縮辞書記憶部55への圧縮辞書の格納方法が実施の形態1および実施の形態4とは異なる。また、他の処理については実施の形態1と同様に行う。
【0050】
次に、動作について説明する。圧縮部54は、実施の形態1と同様に、圧縮辞書記憶部55にクラスタ毎に差分ベクトルを格納する。この時、差分ベクトル数が一定の閾値以下のクラスタについては、差分ベクトルの代わりに、元の特徴ベクトルを格納する。図17は実施の形態5による圧縮辞書の構成例を示す図である。図の例では、クラスタkの差分ベクトル数nkが閾値以下であったため、クラスタkについては、最小値ベクトル、量子化ビット数ベクトル、差分ベクトルの代わりに、特徴ベクトルがそのまま格納されている。
【0051】
以上のように、この実施の形態5によれば、圧縮部54は、差分ベクトルを圧縮辞書記憶部55へ格納する際、クラスタ内の差分ベクトル数が一定の閾値以下の場合には、特徴ベクトルをそのまま格納するようにしたので、差分ベクトル数が少ないクラスタにおける最小値ベクトル、量子化ビット数ベクトルの分の容量を削減することが出来る。よって、含まれる差分ベクトル数の少ないクラスタが多い場合には、実施の形態1よりもさらに圧縮が効率化されるという効果が得られる。
【0052】
【発明の効果】
以上のように、この発明によれば、クラスタリングにより、認識辞書中の特徴ベクトルを分布の局所性に従って複数のクラスタに分類し、クラスタ毎に差分ベクトルを抽出し、圧縮するようにした。これにより、特徴ベクトルが表す認識対象の局所性や、類似した認識対象群での局所性に起因する、特徴ベクトルの分布の局所性が利用でき、圧縮効率が高く、かつ認識時の解凍処理の負荷を低減可能な辞書圧縮装置を得られるという効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による、辞書圧縮装置の構成を示すブロック図である。
【図2】 この発明の実施の形態1による、制御部の処理のフローチャートである。
【図3】 この発明の実施の形態1による、クラスタリング部の処理のフローチャートである。
【図4】 この発明の実施の形態1による、クラスタリングされた特徴ベクトルの分布の様子を示した図である。
【図5】 この発明の実施の形態1による、クラスタ毎の差分ベクトル抽出方法を説明する図である。
【図6】 この発明の実施の形態1による、圧縮辞書の構成を示す図である。
【図7】 クラスタ毎の量子化ビット数ベクトルを示す図である。
【図8】 クラスタ数を変化させた時の認識辞書のサイズをシミュレーションした結果を示す図である。
【図9】 この発明の実施の形態2による、辞書圧縮装置の構成を示すブロック図である。
【図10】 この発明の実施の形態2による、クラスタリング部の処理のフローチャートである。
【図11】 量子化ビット距離を示す図である。
【図12】 この発明の実施の形態3による、辞書圧縮装置の構成を示すブロック図である。
【図13】 この発明の実施の形態3による、クラスタリング部の処理のフローチャートである。
【図14】 この発明の実施の形態4による、辞書圧縮装置の構成を示すブロック図である。
【図15】 この発明の実施の形態4による、並べ替え前の量子化ビット数ベクトルと並べ替え後の量子化ビット数ベクトルを示す図である。
【図16】 この発明の実施の形態5による、辞書圧縮装置の構成を示すブロック図である。
【図17】 この発明の実施の形態5による、圧縮辞書の構成例を示す図である。
【図18】 従来の、差分ベクトルを登録する方式による辞書圧縮装置の構成を示すブロック図である。
【図19】 従来の辞書圧縮装置の、制御部の処理のフローチャートである。
【図20】 最小値ベクトルの算出方法を説明する図である。
【図21】 差分ベクトル抽出方法を説明する図である。
【図22】 差分ベクトルの要素毎の値域から量子化ビット数を求める、量子化テーブルを示す図である。
【図23】 従来の圧縮辞書の構成を示す図である。
【図24】 量子化ビット数ベクトルを示す図である。
【符号の説明】
1 認識辞書記憶部、2,22,32 クラスタリング部、3 差分ベクトル抽出部、4,44,54 圧縮部、5,45,55 圧縮辞書記憶部、6 制御部、71,72,95,96 量子化ビット数ベクトル、110 量子化テーブル。

Claims (3)

  1. 認識辞書に含まれる複数の認識対象をそれぞれ表す複数の特徴ベクトルを、分布の局所性に従って複数のクラスタに分類するクラスタリング部と、
    上記クラスタ毎に、含まれる特徴ベクトルの各要素の最小値から構成される最小値ベクトルを算出し、各特徴ベクトルと上記最小値ベクトルとの差分ベクトルを抽出する差分ベクトル抽出部と、
    上記クラスタ毎に、含まれる差分ベクトルを圧縮し、圧縮辞書に登録する圧縮部とを備えた辞書圧縮装置。
  2. 認識辞書に含まれる複数の認識対象をそれぞれ表す複数の特徴ベクトルを、クラスタの中心と特徴ベクトルの距離を量子化された数値に変換し、上記量子化された数値に基づいて上記クラスタの中心との距離が最も近いクラスタに分類するクラスタリング部と、
    上記クラスタ毎に、含まれる特徴ベクトルの各要素の最小値から構成される最小値ベクトルを算出し、各特徴ベクトルと上記最小値ベクトルとの差分ベクトルを抽出する差分ベクトル抽出部と、
    上記クラスタ毎に、含まれる差分ベクトルを圧縮し、圧縮辞書に登録する圧縮部とを備えた辞書圧縮装置。
  3. 圧縮部は、クラスタ毎に、含まれる差分ベクトルの値域に基づいて量子化ビット数ベクトルを算出し、上記量子化ビット数ベクトルで差分ベクトルの各要素を圧縮し、上記圧縮された要素間の区切りと認識処理時のデータ読込みの区切りとが一致する箇所が最も多くなるように、上記要素の順序を入れ替え、圧縮辞書に登録することを特徴とする請求項1または請求項2記載の辞書圧縮装置。
JP2002251529A 2002-08-29 2002-08-29 辞書圧縮装置 Expired - Lifetime JP4121808B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002251529A JP4121808B2 (ja) 2002-08-29 2002-08-29 辞書圧縮装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002251529A JP4121808B2 (ja) 2002-08-29 2002-08-29 辞書圧縮装置

Publications (2)

Publication Number Publication Date
JP2004093671A JP2004093671A (ja) 2004-03-25
JP4121808B2 true JP4121808B2 (ja) 2008-07-23

Family

ID=32058092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002251529A Expired - Lifetime JP4121808B2 (ja) 2002-08-29 2002-08-29 辞書圧縮装置

Country Status (1)

Country Link
JP (1) JP4121808B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100598134B1 (ko) 2005-03-24 2006-07-10 인하대학교 산학협력단 케이평균 군집화를 이용한 벡터 데이터 압축 방법 및시스템
KR100870724B1 (ko) 2007-05-25 2008-11-27 인하대학교 산학협력단 t―test를 이용한 영상 인식시스템 및 그 방법
KR100923151B1 (ko) 2008-01-11 2009-10-23 인하대학교 산학협력단 Dna 컴퓨팅 기술에 기초한 패턴 인식 장치
JP6644192B1 (ja) * 2018-06-21 2020-02-12 三菱電機株式会社 学習装置、学習方法及びプログラム
CN114339251B (zh) * 2021-12-29 2024-01-30 四创科技有限公司 一种矢量数据压缩传输的方法与终端

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01151372A (ja) * 1987-12-08 1989-06-14 Canon Inc 画像データの符号化方法及びその装置
JP3237178B2 (ja) * 1992-03-18 2001-12-10 ソニー株式会社 符号化方法及び復号化方法
JP4093738B2 (ja) * 2000-10-04 2008-06-04 富士通株式会社 単語認識装置

Also Published As

Publication number Publication date
JP2004093671A (ja) 2004-03-25

Similar Documents

Publication Publication Date Title
Tolias et al. To aggregate or not to aggregate: Selective match kernels for image search
CN111368133B (zh) 一种视频库的索引表建立方法、装置、服务器及存储介质
Zhang et al. Compact representation for image classification: To choose or to compress?
CN111177438B (zh) 图像特征值的搜索方法、装置、电子设备及存储介质
US20170026665A1 (en) Method and device for compressing local feature descriptor, and storage medium
CN110008192A (zh) 一种数据文件压缩方法、装置、设备及可读存储介质
EP3822795B1 (en) Data storage and acquisition method and device
CN110825894A (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
CN111260220B (zh) 群控设备识别方法、装置、电子设备和存储介质
US20220139085A1 (en) Method and apparatus for video frame processing
CN112733545A (zh) 文本分块方法、装置、计算机设备和存储介质
JP2018045302A (ja) 情報処理装置、情報処理方法及びプログラム
CN114764557A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN108027816B (zh) 数据管理系统、数据管理方法及记录介质
JP4121808B2 (ja) 辞書圧縮装置
CN114529741A (zh) 一种图片去重方法、装置及电子设备
CN115878824B (zh) 图像检索系统、方法和装置
EP3852015A1 (en) Operational accelerator and compression method
CN104133883B (zh) 电话号码归属地数据压缩方法
Takahashi et al. Mixture of subspaces image representation and compact coding for large-scale image retrieval
CN110401451B (zh) 基于字符集变换的自动机空间压缩方法及系统
US10268912B2 (en) Offline, hybrid and hybrid with offline image recognition
CN110163369B (zh) 图像识别与神经网络模型的训练方法、装置和系统
EP2801952B1 (en) Method and device for compression of vertex data in three-dimensional image data
Weng et al. Random VLAD based deep hashing for efficient image retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071030

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071030

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071030

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080430

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110509

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4121808

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110509

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120509

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120509

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130509

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140509

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term