JPH0546675A - 情報圧縮・検索方式 - Google Patents

情報圧縮・検索方式

Info

Publication number
JPH0546675A
JPH0546675A JP3226536A JP22653691A JPH0546675A JP H0546675 A JPH0546675 A JP H0546675A JP 3226536 A JP3226536 A JP 3226536A JP 22653691 A JP22653691 A JP 22653691A JP H0546675 A JPH0546675 A JP H0546675A
Authority
JP
Japan
Prior art keywords
information
neural network
compression
compressed
complicated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3226536A
Other languages
English (en)
Inventor
Yuichi Ishizuka
裕一 石塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP3226536A priority Critical patent/JPH0546675A/ja
Publication of JPH0546675A publication Critical patent/JPH0546675A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 複雑な情報の大幅な圧縮ができるとともに、
検索時間の短縮も行なえるようにする。 【構成】 文字列のような複雑な情報1が入力インタフ
ェース2を経由してニューラルネットワーク3へ入力さ
れる。ニューラルネットワーク3では予め学習プロセス
7によりネットワークの重みが決定されており、しかも
それは動的に変更が可能である。ニューラルネットワー
ク3を通った情報は、より情報量の少ないパターンに置
き換えられ、それが出力インタフェース4を経由して、
記号列5に変換される。これをデータベース6に蓄える
ことにより、データベース6をコンパクトにできる。ま
た、そのように圧縮された情報の検索は当然圧縮前のも
のに比べれば、高速化が期待できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は情報圧縮・検索方式に
係わり、特に文字列等の複雑な情報の圧縮と検索に関す
るものである。
【0002】
【従来の技術】情報圧縮に関する従来の技術は、アナロ
グ情報をデジタルフィルタ等を使って一括変換するもの
が大部分であり、文字列等の複雑な情報に関して汎用的
な情報圧縮手法は確立されていなかった。文字列等の複
雑な情報は一般に、AI技術を使った手法があるが、そ
の方法は変換テーブルを引いて、適宜情報圧縮するもの
である。しかし、この方法は変換テーブルが大きくなる
と処理速度が落ち、小規模なものにしか適用できなかっ
た。また、情報の統計的な出現頻度を情報圧縮に反映す
るにも、従来技術は融通性に乏しかった。
【0003】
【発明が解決しようとする課題】従来の技術は以上のよ
うなものであるので、複雑な情報はその圧縮方法自体も
一意には決められず、従ってほとんどの場合、複雑な情
報に関しては情報圧縮しないままの状態で記憶されてい
た。つまり、データベースの容量の削減や、検索方式の
改良による高速化以外の、検索自体の高速化に関しては
ほとんど顧みられていなかった。
【0004】この発明は上記のような問題点を解消する
ためになされたもので、複雑な情報の大幅な圧縮ができ
るとともに、検索時間の短縮も行なえるようにすること
を目的とする。
【0005】
【課題を解決するための手段】この発明に係る情報圧縮
・検索方式は、入力情報をニューラルネットワークを用
いて情報圧縮し、圧縮後の情報に対して情報検索を行な
うようにしたものである。すなわち、ニューラルネット
ワークの情報処理機構、特に学習とパターンマッチング
機構を利用し、情報の圧縮を行なうとともに、データベ
ースの検索時間を短縮するものである。
【0006】
【作用】この発明は、複雑な情報の圧縮を、ニューラル
ネットワークを利用し、圧縮効率を動的に改良しつつ、
行なうものであり、これによって情報データベースをコ
ンパクトにし、また検索時間を短縮することができる。
すなわち、ニューラルネットワークに複雑な情報を入力
すると、予め記憶させた重要頻度情報とのパターンマッ
チングを行ない、それをより情報量の少ない記号列に置
き換える。マッチングしなかった場合は、その情報をそ
のまま記号列と見なす。これによりデータベースのコン
パクト化が行なえる。また、検索は置換された記号列に
対して行なわれ、従来技術で検索に要した時間を大幅に
短縮することができる。
【0007】
【実施例】以下、この発明の一実施例を図を用いて説明
する。但し、ここでは情報圧縮を文字列の圧縮を例に説
明する。図1は本方式を適用した情報圧縮・検索装置の
システム構成図であり、図において、1は入力文字列、
2は該文字列1をニューラルネットワークに入力するた
めのコード変換インタフェース、3は周知のニューラル
ネットワーク、4はニューラルネットワーク3の出力を
圧縮記号列に変換するためのインタフェース、5は圧縮
記号列、6はデータベース、7はニューラルネットワー
ク3の接続の重みを動的に変える学習プロセスである。
【0008】次に、本システムの動作を説明する。本シ
ステムは次の3つのプロセスに分解される。1番目は学
習プロセス、2番目は文字列圧縮置換プロセス、そして
3番目は検索プロセスである。まずは1番目の学習プロ
セスについて説明する。図2に示すように、学習プロセ
ス7は、情報の統計的出現頻度を管理しているテーブル
8(統計情報管理テーブルと呼ぶ)とニューラルネット
ワーク9によって構成される。統計情報管理テーブル8
は、圧縮できなかった文字の統計を管理し、あるタイミ
ングでニューラルネットワーク9へ重要頻度語の上位の
ものを圧縮変換するように学習する。つまり、重要頻度
語をニューラルネットワーク9に入力し、それをより情
報量の小さなものに置き換える学習をさせる。例えば、
文中に『情報』という単語が頻繁に登場するなら、それ
を例えば『#1』といったより情報量の小さなものに置
き換える。このような対応付けを学習し、ネットワーク
中に重要頻度語の変換テーブルを構築する。これを経路
10を介してニューラルネットワーク3の古いバージョ
ンのものと入れ換える。以上が学習プロセスの動作であ
る。
【0009】次に、文字列圧縮置換プロセスについて同
じく図2を用いて説明する。ニューラルネットワーク3
に文字列1が[{単語a1,・・・}、{単語b1,・
・・}、{単語c1,・・・}、・・・]というように
与えられると、そのそれぞれがニューラルネットワーク
(1),(2),(3),・・・に入力される。つまり
並列に文字列圧縮変換を行なう。ニューラルネットワー
ク3では予め学習プロセス7によりネットワークの重み
が決定されており、しかもそれは動的に変更が可能であ
る。ニューラルネットワーク3を通った情報は、より情
報量の少ないパターンに置き換えられ、それが出力イン
タフェースを経由して、記号列5に変換される。中には
単語b1のように圧縮されないものもあるが、その場合
はそれをそのまま出力と見なす。圧縮変換されなかった
ものは学習プロセス7に通知され、統計情報管理テーブ
ル8を書き換える。この時点で得られる最終的な記号列
5は、[{記号a1,・・・}、{単語b1,・・
・}、{記号c1,・・・}、・・・]であり、データ
ベース6に蓄えられる。これにより、データベース6の
容量を大幅に削減することができる。ここで注意しなけ
ればならないのは、変換後のデータにはその時のニュー
ラルネットワークの識別子を付加しておくことである。
これは学習によって動的にニューラルネットワークのバ
ージョンが代わることに対処するものである。
【0010】最後の検索プロセスについて図3を用いて
説明する。11は検索対象文字列、12はニューラルネ
ットワークである。検索したい単語が情報圧縮されてい
るか否かをニューラルネットワーク12で判別し(1
3)、圧縮されていれば、データベース中のニューラル
ネットワークのバージョンチェックを行ない(14)、
正しければ、その圧縮された記号で検索し(15)、そ
うでなければ検索したい単語自身で検索する(16)。
これにより、検索時間をかなり短縮することができる。
【0011】
【発明の効果】以上のように、この発明によれば、一元
的ではない複雑な情報もニューラルネットワークを用い
て情報圧縮され、記憶容量の節減により装置自体もコン
パクトになり、かつ高速な検索が行なえる効果がある。
【図面の簡単な説明】
【図1】この発明の一実施例を示すシステム構成図であ
る。
【図2】実施例の学習および圧縮変換動作説明図であ
る。
【図3】実施例の検索動作説明図である。
【符号の説明】
1 入力情報(文字列) 2,4インタフェース 3,9 ニューラルネットワーク 5 圧縮情報(記号列) 6 データベース 7 学習プロセス 8 統計情報管理テーブル

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力情報をニューラルネットワークを用
    いて情報圧縮し、圧縮後の情報に対して情報検索を行な
    うことを特徴とする情報圧縮・検索方式。
JP3226536A 1991-08-12 1991-08-12 情報圧縮・検索方式 Pending JPH0546675A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3226536A JPH0546675A (ja) 1991-08-12 1991-08-12 情報圧縮・検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3226536A JPH0546675A (ja) 1991-08-12 1991-08-12 情報圧縮・検索方式

Publications (1)

Publication Number Publication Date
JPH0546675A true JPH0546675A (ja) 1993-02-26

Family

ID=16846683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3226536A Pending JPH0546675A (ja) 1991-08-12 1991-08-12 情報圧縮・検索方式

Country Status (1)

Country Link
JP (1) JPH0546675A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756955A (ja) * 1993-06-30 1995-03-03 Microsoft Corp 圧縮データをサーチする方法及びシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756955A (ja) * 1993-06-30 1995-03-03 Microsoft Corp 圧縮データをサーチする方法及びシステム

Similar Documents

Publication Publication Date Title
US4959785A (en) Character processing system with spelling check function that utilizes condensed word storage and indexed retrieval
US6496830B1 (en) Implementing descending indexes with a descend function
US7281001B2 (en) Data quality system
US7724158B2 (en) Object representing and processing method and apparatus
JPH0855008A (ja) システム生成辞書を用いたデータ圧縮のための方法及びシステム
JPH08194719A (ja) 検索装置および辞書/テキスト検索方法
US8316041B1 (en) Generation and processing of numerical identifiers
CN116701431A (zh) 一种基于大语言模型的数据检索方法及系统
EP1836612B1 (en) Method and system for formatting and indexing data
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN114510928B (zh) 一种基于统一结构生成的通用信息抽取方法及系统
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN109815475B (zh) 文本匹配方法、装置、计算设备及系统
JPH0546675A (ja) 情報圧縮・検索方式
US20230005474A1 (en) Method and device for compressing finite-state transducers data
CN115048488A (zh) 专利摘要自动生成方法及存储介质
CN114528944A (zh) 一种医疗文本编码方法、装置、设备及可读存储介质
JPH056398A (ja) 文書登録装置及び文書検索装置
JPH0554077A (ja) 単語辞書検索装置
CN115080603B (zh) 一种数据库查询语言转换方法、装置、设备及存储介质
JPH0619756A (ja) Ediフォーマット変換方法
JPH10177582A (ja) 最長一致検索方法及び装置
Bell Data compression
JPH1115845A (ja) 情報検索方法および装置と情報検索プログラムを格納した記録媒体
CN118093597A (zh) 一种表格数据重构方法及装置、问答方法