JPH0434645A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH0434645A
JPH0434645A JP2140917A JP14091790A JPH0434645A JP H0434645 A JPH0434645 A JP H0434645A JP 2140917 A JP2140917 A JP 2140917A JP 14091790 A JP14091790 A JP 14091790A JP H0434645 A JPH0434645 A JP H0434645A
Authority
JP
Japan
Prior art keywords
address
character code
character
comparison
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2140917A
Other languages
English (en)
Other versions
JP2563645B2 (ja
Inventor
Masao Ito
正雄 伊藤
Yoshihiro Hayakawa
早川 佳宏
Atsushi Ando
安藤 敦史
Noboru Tamura
登 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2140917A priority Critical patent/JP2563645B2/ja
Publication of JPH0434645A publication Critical patent/JPH0434645A/ja
Application granted granted Critical
Publication of JP2563645B2 publication Critical patent/JP2563645B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明はコンピュータを利用した文書検索装置に関する
ものである。
従来の技術 近年、ワードプロセッサやパーソナルコンピュータの普
及やコンピュータによる文字認識の実用化に伴い、これ
らによって作成される電子化文書が多くなってきた。こ
のため、大量の文書情報を蓄積し、必要に応して文書情
報を検索するための文書データヘースに対する関心が高
まってきている。
従来の文書データベースでは、文書を検索する際、文書
毎に付されたキーワードを利用するキーワード検索が一
般的であるが、キーワードを付ける作業が蓄積文書の増
加に間に合わないこと、時間が経過するとキーワードが
陳腐化すること、キ−ワード付けを行った者と検索する
者とのキーワードの相違により検索漏れが生じること等
の問題点が指摘されている。
このような背景から最近は、「全文データベース」と呼
ばれる文書データベースが注目されている。つまり、こ
の「全文データベース」では、利用者から与えられた検
索条件と蓄積されている文書の全ての情報との間で照合
を行うで、検索条件を満たす文書を出力する。このとき
、検索条件とシテは、従来のキーワードのような単語以
外に文などの文字列を用いることができる。
しかしながら、前述した「全文データベース」では、利
用者から与えられた検索条件と蓄積されている文書の全
ての情報との間で照合を行うため、検索時間がかかると
いう欠点がある。特に、検索条件が複数文字列のオア検
索の場合、大きく分類すると2つの方法があり、異なる
先頭の文字に対してリンクを張って、データベースの1
文字に対して、複数回比較するか、または、連想配列を
用いてデータベースの文字によって状態を変化させる有
限状態オートマトン法を用いている。
発明が解決しようとする課題 しかしながら、先頭の文字にリンクを張って、複数回比
較する前者の方法では、使用するメモリを少なくするこ
とができるが、検索文字列の個数に比例して検索時間が
大きくなり、また、連想配列を用いる後者の方法では、
検索文字列の個数には関係なく検索時間は一定であるが
、文字種と文字数の積のメモリ領域が必要である。特に
、日本語コードの場合は、日本語の文字種(約9000
文字)と文字数の積のメモリ領域を必要とするので、メ
モリ容量が増大している今日にあっても、メモリ容量の
削減といった課題がある。
本発明の目的は、以上のような従来の課題を解決するた
め、検索速度の向上と使用メモリの縮小を図った文書検
索装置を得るにある。
課題を解決するための手段 この目的を達成するため、本発明は、検索条件が複数文
字列の場合、先頭の文字にリンクを張って複数回比較す
る方法では、検索時間の殆どが各文字列の最初の1文字
目の比較であることに着目して、最初の1文字目に対し
ては、文字コードから直接アドレスを引くことが可能な
記憶装置を用い、複数の検索文字列があった場合でも、
1度に所望のアドレスを求めることができ、2文字目以
降については、リンクを張って比較文字を決定すること
により、検索時間の縮小とメモリ使用量の縮小を図るこ
とができる。また、文字コードからアドレス変換を用い
るのは、最初の1文字目と限らず、検索文字列を前処理
する段階で、比較負荷の大きいところに用いれば、検索
時間の縮小を図ることもできる。
作用 前述した本発明の構成により、比較負荷の大きいところ
に対しては、文字コードからアドレス変換する記憶装置
を用いて比較負荷を軽減でき、比較負荷の小さいところ
では、単なる文字コード比較をすることにより、検索時
間の縮小とメモリ使用の縮小を図ることができる。
実施例 以下、図面を用いて本発明の実施例の詳細を説明する。
第1図は本発明の文書検索装置の概念を示し、図中、符
号1は文字コードからアドレスに変換rる文字コード・
アドレス変換記憶部、2は全体の制御を行う制御情報記
憶部、3は比較文字コードを記憶する比較文字記憶部、
4は前記文字コード・アドレス変換記憶部1から出力さ
れるアドレスと前記制御情報記憶部2から出力される2
つのアドレスを選択するアドレス選択部をそれぞれ示し
ている。また、5は文書データを記憶する文書データ記
憶部、6は前記文書データ記憶部5のアドレス増加を制
御する文書データアドレスカウンタ、7は前記文書デー
タ記憶部から出力されるデータから文字単位に抽出する
文字コード抽出部である。
そして、符号8は前記比較文字記憶部3から出力された
文字コードと前記文字コード抽出部7から出力された文
字コードを比較する比較器、9は前記文字コード・アド
レス変換記憶部lから前記アドレス選択部4に出力する
文字コードアドレス変換信号、lOは前記制御情報記憶
部2から出力され、前記文字コード・アドレス変換記憶
部から出力されるアドレスを選択するか否かを決めるア
ドレス選択フラグ、11は前記アドレス選択部4から前
記制御情報記憶部2と前記比較文字記憶部3とに出力す
るアドレス信号、12は前記文書データアドレスカウン
タ6から前記文書データ記憶部5に出力する文書データ
アドレス信号、13は前記文書データ記憶部5から前記
文字コード抽出部7に文書データを出力する文書データ
信号である。
さらに、14は文字コードを抽出する場合に文字コード
の種類を指定する文字コード選択信号、15は前記文字
コード抽出部7から抽出した文字コードを示す文字コー
ド信号A、16は前記比較文字記憶部3から出力した文
字コードを示す文字コード信号B、17は前記制御情報
記憶部2から前記比較器8に出力する比較の種類を示す
比較命令信号、I8は前記比較器8で比較結果を示す比
較結果フラグ、19は前記比較結果フラグ18により前
記文書データアドレスカウンタ6をインクリメントする
かどうかを指定するインクリメント許可信号である。
そして、符号20は、前記制御情報記憶部2から出力さ
れかつ前記比較結果フラグ18が有効な場合に前記アド
レス選択部4で選択される比較一致アドレス信号であり
、符号21は、前記制御情報記憶部2から出力されかつ
前記比較結果フラグ18が無効な場合に前記アドレス選
択部4で選択される比較不一致アドレス線を、符号22
は検索の成功を示す検索成功フラグをそれぞれ示してい
る。
次に、第1図に示した本発明の文書検索装置の動作を第
2図及び第3図のフローチャートを用いて説明する。
まず、ステップ100においては、前記アドレス選択部
4のアドレスが初期状態にセットされる。
次に、ステップ101に移り、前記制御情報記憶部2か
ら制御情報が読み出されるが、ステップ102では、前
記文書データアドレスカウンタ6が初期状態にセットさ
れる。
次いで、ステップ104に移り、前記文書データ記憶部
5かダ文書データが読み出され、ステップ105で前記
文字コード抽出部7により文字コードが抽出される。こ
の後、ステップ106では、抽出した文字コードから文
字コード・アドレス変換を行うか否かが前記アドレス選
択フラグ10で決定される。即ち、文字コードから変換
したアドレスを用いる場合は、ステップ10日に移り、
前記文字コード・アドレス変換記憶部lからコード・ア
ドレスが読み出され、この読み出したアドレスがステッ
プ109で選択され、ステップ110において、前記文
書データカウンタ6がインクリメントされる。
また、文字コードから変換したアドレスを用いない場合
は、ステップ112に移って、前記比較命令信号17で
指定した比較の種類により、前舵比較文字記憶部3から
読み出した文字コードと抽出した文字コードとが前記比
較器8で比較され、ステップ113で、両者が一致した
か否か判定される。
この場合、両者が一致すると、ステップ114で、前記
制御情報記憶部2か3の前記比較一致アドレス信号20
のアドレスが選択され、また、両者が不一致の場合は、
ステップ115では、前記制御情報記憶部2からの前記
比較不一致アドレス信号21のアドレスが選択されるこ
とになる。
さらに、文字コード比較が行われた場合は、ステップ1
14.115からステップ116.117にそれぞれ移
る。即ち、前記インクリメント許可信号19により文書
データアドレスカウンタ6のインクリメントが許可され
ている場合は、それぞれステップ118.119に移り
、文書データアドレスカウンタ6がインクリメントされ
、インクリメントの許可がない場合は、そのままの状態
が維持される。
以上が第2図に示された動作であるが、第2図のA部分
が第3図のA部分に続いて、検索終了のチエツクが行な
われる。
まず、ステップ121では、文書データの終わりまで検
索処理が終了したか否がが判定され、終わりまで処理し
ていれば、処理が終了される。
処理が完了していない場合にあっては、ステップ122
に移り、前記比較文字記憶部3がら比較文字が読み出さ
れ、前記制御情報記憶部2がら制御情報が読み出される
。次いで、ステップ123に移る出、制御情報の前記検
索成功フラグ22が有効であれば、検索は成功で終了さ
れるけれども、検索成功フラグ22が無効であれば、第
2図の文書データ記憶部5から文書データが読み出され
るステップ104のところから、以上の動作が繰り返え
されることになる。
第4図及び第5図は具体例を用いた場合の第1図の文書
検索装置の動作説明図であり、第4図には検索条件を前
処理して、その結果を図式化しである。即ち、第4図は
「パイナツプル、または、パイン、または、パパイヤ、
または、マンゴ−または、マスクメロン、または、マス
カット、または、レモン、または、レーズン、または、
桃」の文字列が含む文書を検索する例である。Oの中の
数字がアドレス番号を示し、同図中、「実線」が文字コ
ード・アドレス変換したときの遷移と比較が成功した場
合の遷移とを表す。また、「点線」は比較が失敗した場
合の遷移を示すけれども、この比較不一致の場合は、前
記文書データアドレスカウンタ6のインクリメントが許
可されない。アドレス0は、文字コードからアドレスに
変換する記憶部であ4が、ASCIIコードと漢字コー
ド分の領域をもっている。例えば、漢字コード「バ」は
アドレス1に遷移することを示し、アドレス0以外は、
0の右上に付いている文字と比較して一致したら、実線
を進み、不一致なら点線を進む。
具体的にいうと、例えばアドレス1で「イ」に−致した
ら、実線に進み、不一致ならば、点線に進むけれども、
◎は検索が成功したことを示している。なお、アドレス
Oに進む点線は省略しである。
アドレス9からアドレス2への点線は、「パパイヤ」の
「ババイ」まで一致しているなら、「パイJは一致して
いるけれども、「パイナツプル」や「パイン」の「パイ
」の可能性があるためである。アドレスOの文字コード
からアドレス変換する部分が前記文字コード・アドレス
変換記憶部1に格納され、実線・点線・0・◎の制御情
報が前記制御情報記憶部2に格納され、実線の右上に付
いている文字が前記比較記憶部3に格納されることにな
る。
また、検索過程の例で第3図の前処理した結果をもとに
「パフェにパインが」という文書の一部から検索する例
が第4図に示されており、最初は前記文書データ記憶部
5から文字が出力され、前記文字コード抽出部7で「バ
」が切り出されて、前記文字コード・アドレス変換記憶
部1に入力され、アドレス1が得られる。そのアドレス
は前記アドレス選択部4で選択され、アドレス1の制御
情報記憶部2と比較文字記憶部3データとが読み出され
る。次に、アドレス1の比較文字「イボと次の前記文書
データ記憶部5のデータ「フ」とが比較されるが、不一
致であるので、前記制御情報記憶部2から出力されるア
ドレス7が選択されるわけである。
さらに、アドレス7では、比較文字「パ」と比較を行な
うけれども、不一致であるので、アドレス0に進む。ア
ドレス0においては、「フ」からはアドレス0が出力さ
れて前記文書データアドレスカウンタ6のアドレスがイ
ンクリメントされる。
また、同アドレス0においては、「工」からはアドレス
Oが出力され、前記文書データアドレスカウンタ6のア
ドレスがインクリメントされる。これと同時に、アドレ
スOでは、「に」からはアドレスOが出力され、前記文
書データアドレスカウンタ6のアドレスが増加される。
そしてまた、同アドレス0では、「バ」からはアドレス
1が出力され、前記文書データアドレスカウンタ6のア
ドレスが増加される。
この後、アドレス1で前記比較文字記憶部3の「イJと
「イJが比較一致すると、アドレス2に遷移するが、ア
ドレス2での前記比較文字記憶部3の「す」と「ン」が
比較不一致により、アドレス6に遷移される。したがっ
て、アドレス6では、前記比較文字記憶部3の「ン」と
「ン」の比較−致により、アドレス18に遷移して検索
が成功する。
発明の効果 以上に説明したように、本発明によれば、比較負荷の大
きいところに対しては、文字コードからアドレス変換す
る記憶装置を用いて比較負荷を軽減し、比較負荷の小さ
いところには、単なる文字コード比較を行うので、検索
時間の縮小とメモリ使用量の縮小に優れた効果が得られ
る。
【図面の簡単な説明】
第1図は本発明の文書検索装置の概念図、第2図及び第
3図は同文書検索装置のフローチャート、第4図は検索
条件を前処理した文字列の図式化図、第5図は同文書検
索装置の検索過程図である。 1・・・・・・文字コード・アドレス変換記憶部、2・
・・・−・制御情報記憶部、3・・・・・−比較文字記
憶部、4・・・・・・アドレス選択部、5・・・・・・
文書データ記憶部、6・・・・・・文書データアドレス
カウンタ、7・・・−・・文字コード抽出部、8・・・
・・・比較器、9・・・・・・文字コードアドレス変換
信号、lO・・・・・・アドレス選択フラグ、11・・
・・・・アドレス信号、12・・・・・・文書データア
ドレス信号、13・・・・・・文書データ信号、14・
・・・・・文字コード選択信号、15・・・・・・文字
コード信号A、16・・・・・・文字コード信号B、1
7・・・・・・比較命令信号、18・・・・・・比較結
果フラグ、19・・・・・・インクリメント許可信号、
20・・・・・・比較一致アドレス信号、21・・・・
・・比較不一致アドレス信号、22・・・・・・検索成
功フラグ。 第2図

Claims (1)

    【特許請求の範囲】
  1. 文字コードからアドレスに変換する文字コード・アドレ
    ス変換記憶部と、制御情報を記憶する制御情報記憶部と
    、比較文字を記憶する比較文字記憶部と、前記制御情報
    記憶部から出力される2つのアドレスと前記文字コード
    ・アドレス変換記憶部から出力されるアドレスを選択す
    るアドレス選択部と、文書データを記憶する文書データ
    記憶部と、前記文書データ記憶部のアドレスの増加を制
    御する文書データアドレスカウンタと、前記比較文字記
    憶部と前記文書データ記憶部から出力される文字コード
    を比較する比較器とで構成され、複数回比較の必要な部
    分については前記文字コード・アドレス変換記憶部で文
    字コードから直接アドレスを求め、それ以外に対しては
    比較器によって比較して、その比較結果により前記アド
    レス選択部でアドレスを選択して前記制御情報記憶部と
    前記比較文字記憶部とを読み出し、文書データアドレス
    カウンタをインクリメントして検索を行うことを特徴と
    する文書検索装置。
JP2140917A 1990-05-30 1990-05-30 文書検索装置 Expired - Lifetime JP2563645B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2140917A JP2563645B2 (ja) 1990-05-30 1990-05-30 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2140917A JP2563645B2 (ja) 1990-05-30 1990-05-30 文書検索装置

Publications (2)

Publication Number Publication Date
JPH0434645A true JPH0434645A (ja) 1992-02-05
JP2563645B2 JP2563645B2 (ja) 1996-12-11

Family

ID=15279824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2140917A Expired - Lifetime JP2563645B2 (ja) 1990-05-30 1990-05-30 文書検索装置

Country Status (1)

Country Link
JP (1) JP2563645B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4804454B2 (ja) * 2005-03-04 2011-11-02 パナソニック株式会社 鍵配信制御装置、無線基地局装置および通信システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4804454B2 (ja) * 2005-03-04 2011-11-02 パナソニック株式会社 鍵配信制御装置、無線基地局装置および通信システム

Also Published As

Publication number Publication date
JP2563645B2 (ja) 1996-12-11

Similar Documents

Publication Publication Date Title
JP3152868B2 (ja) 検索装置および辞書/テキスト検索方法
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
US5297027A (en) Method of and apparatus for promoting the understanding of a text by using an abstract of that text
JP3195752B2 (ja) 検索装置
JP2742115B2 (ja) 類似文書検索装置
US20020165707A1 (en) Methods and apparatus for storing and processing natural language text data as a sequence of fixed length integers
JPH02271468A (ja) データ処理方法
JPH064584A (ja) 文章検索装置
JP2002342361A (ja) 情報検索装置
JPH0434645A (ja) 文書検索装置
JP3222193B2 (ja) 情報検索装置
JPS617936A (ja) 情報検索方式
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JPH06274546A (ja) 情報量一致度計算方式
JP2967275B2 (ja) 仮名漢字変換装置
JP3498635B2 (ja) 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JPH03268064A (ja) データ検索装置及びデータ検索方法
JP2975529B2 (ja) 電子化辞書検索装置
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
JPH09245047A (ja) 語句の符号化方法及び装置
JPH0954781A (ja) 文書検索システム
Zhou et al. A character-net based Chinese text segmentation method
JP3720060B2 (ja) 関連ワードを得る方法及びシステム
JPH06309360A (ja) 否定論理条件の処理に適したフルテキストサーチ方法