JPH0546675A

JPH0546675A - 情報圧縮・検索方式

Info

Publication number: JPH0546675A
Application number: JP3226536A
Authority: JP
Inventors: Yuichi Ishizuka; 裕一石塚
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1991-08-12
Filing date: 1991-08-12
Publication date: 1993-02-26

Abstract

(57)【要約】【目的】複雑な情報の大幅な圧縮ができるとともに、
検索時間の短縮も行なえるようにする。【構成】文字列のような複雑な情報１が入力インタフ
ェース２を経由してニューラルネットワーク３へ入力さ
れる。ニューラルネットワーク３では予め学習プロセス
７によりネットワークの重みが決定されており、しかも
それは動的に変更が可能である。ニューラルネットワー
ク３を通った情報は、より情報量の少ないパターンに置
き換えられ、それが出力インタフェース４を経由して、
記号列５に変換される。これをデータベース６に蓄える
ことにより、データベース６をコンパクトにできる。ま
た、そのように圧縮された情報の検索は当然圧縮前のも
のに比べれば、高速化が期待できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は情報圧縮・検索方式に
係わり、特に文字列等の複雑な情報の圧縮と検索に関す
るものである。

【０００２】

【従来の技術】情報圧縮に関する従来の技術は、アナロ
グ情報をデジタルフィルタ等を使って一括変換するもの
が大部分であり、文字列等の複雑な情報に関して汎用的
な情報圧縮手法は確立されていなかった。文字列等の複
雑な情報は一般に、ＡＩ技術を使った手法があるが、そ
の方法は変換テーブルを引いて、適宜情報圧縮するもの
である。しかし、この方法は変換テーブルが大きくなる
と処理速度が落ち、小規模なものにしか適用できなかっ
た。また、情報の統計的な出現頻度を情報圧縮に反映す
るにも、従来技術は融通性に乏しかった。

【０００３】

【発明が解決しようとする課題】従来の技術は以上のよ
うなものであるので、複雑な情報はその圧縮方法自体も
一意には決められず、従ってほとんどの場合、複雑な情
報に関しては情報圧縮しないままの状態で記憶されてい
た。つまり、データベースの容量の削減や、検索方式の
改良による高速化以外の、検索自体の高速化に関しては
ほとんど顧みられていなかった。

【０００４】この発明は上記のような問題点を解消する
ためになされたもので、複雑な情報の大幅な圧縮ができ
るとともに、検索時間の短縮も行なえるようにすること
を目的とする。

【０００５】

【課題を解決するための手段】この発明に係る情報圧縮
・検索方式は、入力情報をニューラルネットワークを用
いて情報圧縮し、圧縮後の情報に対して情報検索を行な
うようにしたものである。すなわち、ニューラルネット
ワークの情報処理機構、特に学習とパターンマッチング
機構を利用し、情報の圧縮を行なうとともに、データベ
ースの検索時間を短縮するものである。

【０００６】

【作用】この発明は、複雑な情報の圧縮を、ニューラル
ネットワークを利用し、圧縮効率を動的に改良しつつ、
行なうものであり、これによって情報データベースをコ
ンパクトにし、また検索時間を短縮することができる。
すなわち、ニューラルネットワークに複雑な情報を入力
すると、予め記憶させた重要頻度情報とのパターンマッ
チングを行ない、それをより情報量の少ない記号列に置
き換える。マッチングしなかった場合は、その情報をそ
のまま記号列と見なす。これによりデータベースのコン
パクト化が行なえる。また、検索は置換された記号列に
対して行なわれ、従来技術で検索に要した時間を大幅に
短縮することができる。

【０００７】

【実施例】以下、この発明の一実施例を図を用いて説明
する。但し、ここでは情報圧縮を文字列の圧縮を例に説
明する。図１は本方式を適用した情報圧縮・検索装置の
システム構成図であり、図において、１は入力文字列、
２は該文字列１をニューラルネットワークに入力するた
めのコード変換インタフェース、３は周知のニューラル
ネットワーク、４はニューラルネットワーク３の出力を
圧縮記号列に変換するためのインタフェース、５は圧縮
記号列、６はデータベース、７はニューラルネットワー
ク３の接続の重みを動的に変える学習プロセスである。

【０００８】次に、本システムの動作を説明する。本シ
ステムは次の３つのプロセスに分解される。１番目は学
習プロセス、２番目は文字列圧縮置換プロセス、そして
３番目は検索プロセスである。まずは１番目の学習プロ
セスについて説明する。図２に示すように、学習プロセ
ス７は、情報の統計的出現頻度を管理しているテーブル
８（統計情報管理テーブルと呼ぶ）とニューラルネット
ワーク９によって構成される。統計情報管理テーブル８
は、圧縮できなかった文字の統計を管理し、あるタイミ
ングでニューラルネットワーク９へ重要頻度語の上位の
ものを圧縮変換するように学習する。つまり、重要頻度
語をニューラルネットワーク９に入力し、それをより情
報量の小さなものに置き換える学習をさせる。例えば、
文中に『情報』という単語が頻繁に登場するなら、それ
を例えば『＃１』といったより情報量の小さなものに置
き換える。このような対応付けを学習し、ネットワーク
中に重要頻度語の変換テーブルを構築する。これを経路
１０を介してニューラルネットワーク３の古いバージョ
ンのものと入れ換える。以上が学習プロセスの動作であ
る。

【０００９】次に、文字列圧縮置換プロセスについて同
じく図２を用いて説明する。ニューラルネットワーク３
に文字列１が［｛単語ａ１，・・・｝、｛単語ｂ１，・
・・｝、｛単語ｃ１，・・・｝、・・・］というように
与えられると、そのそれぞれがニューラルネットワーク
（１），（２），（３），・・・に入力される。つまり
並列に文字列圧縮変換を行なう。ニューラルネットワー
ク３では予め学習プロセス７によりネットワークの重み
が決定されており、しかもそれは動的に変更が可能であ
る。ニューラルネットワーク３を通った情報は、より情
報量の少ないパターンに置き換えられ、それが出力イン
タフェースを経由して、記号列５に変換される。中には
単語ｂ１のように圧縮されないものもあるが、その場合
はそれをそのまま出力と見なす。圧縮変換されなかった
ものは学習プロセス７に通知され、統計情報管理テーブ
ル８を書き換える。この時点で得られる最終的な記号列
５は、［｛記号ａ１，・・・｝、｛単語ｂ１，・・
・｝、｛記号ｃ１，・・・｝、・・・］であり、データ
ベース６に蓄えられる。これにより、データベース６の
容量を大幅に削減することができる。ここで注意しなけ
ればならないのは、変換後のデータにはその時のニュー
ラルネットワークの識別子を付加しておくことである。
これは学習によって動的にニューラルネットワークのバ
ージョンが代わることに対処するものである。

【００１０】最後の検索プロセスについて図３を用いて
説明する。１１は検索対象文字列、１２はニューラルネ
ットワークである。検索したい単語が情報圧縮されてい
るか否かをニューラルネットワーク１２で判別し（１
３）、圧縮されていれば、データベース中のニューラル
ネットワークのバージョンチェックを行ない（１４）、
正しければ、その圧縮された記号で検索し（１５）、そ
うでなければ検索したい単語自身で検索する（１６）。
これにより、検索時間をかなり短縮することができる。

【００１１】

【発明の効果】以上のように、この発明によれば、一元
的ではない複雑な情報もニューラルネットワークを用い
て情報圧縮され、記憶容量の節減により装置自体もコン
パクトになり、かつ高速な検索が行なえる効果がある。

【図面の簡単な説明】

【図１】この発明の一実施例を示すシステム構成図であ
る。

【図２】実施例の学習および圧縮変換動作説明図であ
る。

【図３】実施例の検索動作説明図である。

【符号の説明】

１入力情報（文字列）２，４インタフェース３，９ニューラルネットワーク５圧縮情報（記号列）６データベース７学習プロセス８統計情報管理テーブル

Claims

【特許請求の範囲】

【請求項１】入力情報をニューラルネットワークを用
いて情報圧縮し、圧縮後の情報に対して情報検索を行な
うことを特徴とする情報圧縮・検索方式。