JP2563645B2 - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JP2563645B2
JP2563645B2 JP2140917A JP14091790A JP2563645B2 JP 2563645 B2 JP2563645 B2 JP 2563645B2 JP 2140917 A JP2140917 A JP 2140917A JP 14091790 A JP14091790 A JP 14091790A JP 2563645 B2 JP2563645 B2 JP 2563645B2
Authority
JP
Japan
Prior art keywords
address
storage unit
comparison
character
control information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2140917A
Other languages
English (en)
Other versions
JPH0434645A (ja
Inventor
正雄 伊藤
佳宏 早川
敦史 安藤
登 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2140917A priority Critical patent/JP2563645B2/ja
Publication of JPH0434645A publication Critical patent/JPH0434645A/ja
Application granted granted Critical
Publication of JP2563645B2 publication Critical patent/JP2563645B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明はコンピュータを利用した文書検索装置に関す
るものである。
従来の技術 近年、ワードプロセッサやパーソナルコンピュータの
普及やコンピュータによる文字認識の実用化に伴い、こ
れらによって作成される電子化文書が多くなってきた。
このため、大量の文書情報を蓄積し、必要に応じて文書
情報を検索するための文書データベースに対する関心が
高まってきている。
従来の文書データベースでは、文書を検索する際、文
書毎に付されたキーワードを利用するキーワード検索が
一般的であるが、キーワードを付ける作業が蓄積文書の
増加に間に合わないこと、時間が経過するとキーワード
が陳腐化すること、キーワード付けを行った者と検索す
る者とのキーワードの相違により検索漏れが生じること
等の問題点が指摘されている。
このような背景から最近は、「全文データベース」と
呼ばれる文書データベースが注目されている。つまり、
この「全文データベース」では、利用者から与えられた
検索条件と蓄積されている文書の全ての情報との間で照
合を行って、検索条件を満たす文書を出力する。このと
き、検索条件としては、従来のキーワードのような単語
以外に文などの文字列を用いることができる。
しかしながら、前述した「全文データベース」では、
利用者から与えられた検索条件と蓄積されている文書の
全ての情報との間で照合を行うため、検索時間がかかる
という欠点がある。特に、検索条件が複数文字列のオア
検索の場合、大きく分類すると2つの方法があり、異な
る先頭の文字に対してリンクを張って、データベースの
1文字に対して、複数回比較するか、または、連想配列
を用いてデータベースの文字によって状態を変化させる
有限状態オートマトン法を用いている。
発明が解決しようとする課題 しかしながら、先頭の文字にリンクを張って、複数回
比較する前者の方法では、使用するメモリを少なくする
ことができるが、検索文字列の個数に比例して検索時間
が大きくなり、また、連想配列を用いる後者の方法で
は、検索文字列の個数には関係なく検索時間は一定であ
るが、文字種と文字数の積のメモリ領域が必要である。
特に、日本語コードの場合は、日本語の文字種(約9000
文字)と文字数の積のメモリ領域を必要とするので、メ
モリ容量が増大している今日にあっても、メモリ容量の
削減といった課題がある。
本発明の目的は、以上のような従来の課題を解決する
ため、検索速度の向上と使用メモリの縮小を図った文書
検索装置を得るにある。
課題を解決するための手段 この目的を達成するため、本発明は、文字コードを遷
移先アドレスに変換する文字コード・アドレス変換記憶
部と、 検索の対象である文書データを記憶する文書データ記
憶部と、 前記文書データ記憶部のアドレスをカウントする文書
データアドレスカウンタと、 制御情報を記憶する制御
情報記憶部と、 前記制御情報に格納されたアドレスに対応して比較文
字を格納する比較文字記憶部と、 前記制御情報記憶部から指定されたアドレスに対応し
て前記比較文字記憶部から出力された比較文字と前記文
書データアドレスカウンタにより特定される文書データ
記憶部に記憶された文書データの文字との比較を行う比
較器と、 前記比較器の比較結果及び前記制御情報記憶部に記憶
された制御情報に基づき前記制御情報記憶部から出力さ
れる比較が成功した場合の遷移先アドレスと比較が失敗
した場合の遷移先アドレス、及び、前記文字コード・ア
ドレス変換記憶部から出力される遷移先アドレスから1
つのアドレスを遷移先アドレスとして選択するアドレス
選択部から構成され、 前記文書データアドレスカウンタが遷移先アドレスと
して文字コード・アドレス変換記憶部から出力される遷
移先アドレス、または、比較が成功した場合の遷移先ア
ドレスが選択された場合にインクリメントされ、 検索に際し、検索文字列を、状態をアドレスで示し、
各状態を比較文字と、当該比較文字と与えられた文字が
一致した場合の遷移先アドレス、当該比較文字と与えら
れた文字が異なる場合の遷移先アドレスとする有限状態
オートマトンに展開し、 一つの状態に対し比較文字が一定数以上対応する場
合、当該状態を文字コード・アドレス変換記憶部に設定
し、他の状態の比較文字と遷移先アドレスをそれぞれ前
記比較文字記憶部と前記制御情報憶部とに対応して格納
することにより、比較文字の多い状態に対しては、文字
コードから直接遷移先アドレスを求め、それ以外の状態
では比較器によって遷移先アドレスを求めながら検索を
行う構成となっている。
作用 前述した本発明の構成により、比較負荷の大きいとこ
ろに対しては、文字コードからアドレス変換する記憶装
置を用いて比較負荷を軽減でき、比較負荷の小さいとこ
ろでは、単なる文字コード比較をすることにより、検索
文字列に応じて、検索時間の縮小とメモリ使用の縮小を
図ることができる。
実施例 以下、図面を用いて本発明の実施例の詳細を説明す
る。
第1図は本発明の文書検索装置の概念を示し、図中、
符号1は文字コードからアドレスに変換する文字コード
・アドレス変換記憶部、2は全体の制御を行う制御情報
記憶部、3は比較文字コードを記憶する比較文字記憶
部、4は前記文字コード・アドレス変換記憶部1から出
力されるアドレスと前記制御情報記憶部2から出力され
る2つのアドレスを選択するアドレス選択部をそれぞれ
示している。また、5は文書データを記憶する文書デー
タ記憶部、6は前記文書データ記憶部5のアドレス増加
を制御する文書データアドレスカウンタ、7は前記文書
データ記憶部から出力されるデータから文字単位に抽出
する文字コード抽出部である。そして、符号8は前記比
較文字記憶部3から出力された文字コードと前記文字コ
ード抽出部7から出力された文字コードを比較する比較
器、9は前記文字コード・アドレス変換記憶部1から前
記アドレス選択部4に出力する文字コードアドレス変換
信号、10は前記制御情報記憶部2から出力され、前記文
字コード・アドレス変換記憶部から出力されるアドレス
を選択するか否かを決めるアドレス選択フラグ、11は前
記アドレス選択部4から前記制御情報記憶部2と前記比
較文字記憶部3とに出力するアドレス信号、12は前記文
書データアドレスカウンタ6から前記文書データ記憶部
5に出力する文書データアドレス信号、13は前記文書デ
ータ記憶部5から前記文字コード抽出部7に文書データ
を出力する文書データ信号である。
さらに、14は文字コードを抽出する場合に文字コード
の種類を指定する文字コード選択信号、15は前記文字コ
ード抽出部7から抽出した文字コードを示す文字コード
信号A、16は前記比較文字記憶部3から出力した文字コ
ードを示す文字コード信号B、17は前記制御情報記憶部
2から前記比較器8に出力する比較の種類を示す比較命
令信号、18は前記比較器8で比較結果を示す比較結果フ
ラグ、19は前記比較結果フラグ18により前記文書データ
アドレスカウンタ6をインクリメントするかどうかを指
定するインクリメント許可信号である。そして、符号20
は、前記制御情報記憶部2から出力されかつ前記比較結
果フラグ18が有効な場合に前記アドレス選択部4で選択
される比較一致アドレス信号であり、符号21は、前記制
御情報記憶部2から出力されかつ前記比較結果フラグ18
が無効な場合に前記アドレス選択部4で選択される比較
不一致アドレス線を、符号22は検索の成功を示す検索成
功フラグをそれぞれ示している。
次に、第1図に示した本発明の文書検索装置の動作を
第2図及び第3図のフローチャートを用いて説明する。
まず、ステップ100においては、前記アドレス選択部
4のアドレスが初期状態にセットされる。次に、ステッ
プ101に移り、前記制御情報記憶部2から制御情報が読
み出されるが、ステップ102では、前記文書データアド
レスカウンタ6が初期状態にセットされる。
次いで、ステップ104に移り、前記文書データ記憶部
5から文書データが読み出され、ステップ105で前記文
字コード抽出部7により文字コードが抽出される。この
後、ステップ106では、抽出した文字コードから文字コ
ード・アドレス変換を行うか否かが前記アドレス選択フ
ラグ10で決定される。即ち、文字コードから変換したア
ドレスを用いる場合は、ステップ108に移り、前記文字
コード・アドレス変換記憶部1からコード・アドレスが
読み出され、この読み出したアドレスがステップ109で
選択され、ステップ110において、前記文書データカウ
ンタ6がインクリメントされる。
また、文字コードから変換したアドレスを用いない場
合は、ステップ112に移って、前記比較命令信号17で指
定した比較の種類により、前記比較文字記憶部3から読
み出した文字コードと抽出した文字コードとが前記比較
器8で比較され、ステップ113で、両者が一致したか否
か判定される。この場合、両者が一致すると、ステップ
114で、前記制御情報記憶部2か3の前記比較一致アド
レス信号20のアドレスが選択され、また、両者が不一致
の場合は、ステップ115では、前記制御情報記憶部2か
らの前記比較不一致アドレス信号21のアドレスが選択さ
れることになる。
さらに、文字コード比較が行われた場合は、ステップ
114、115からステップ116、117にそれぞれ移る。即ち、
前記インクリメント許可信号19により文書データアドレ
スカウンタ6のインクリメントが許可されている場合
は、それぞれステップ118、119に移り、文書データアド
レスカウンタ6がインクリメントされ、インクリメント
の許可がない場合は、そのままの状態が維持される。
以上が第2図に示された動作であるが、第2図のA部
分が第3図のA部分に続いて、検索終了のチェックが行
なわれる。
まず、ステップ121では、文書データの終わりまで検
索処理が終了したか否かが判定され、終わりまで処理し
ていれば、処理が終了される。
処理が完了していない場合にあっては、ステップ122
に移り、前記比較文字記憶部3から比較文字が読み出さ
れ、前記制御情報記憶部2から制御情報が読み出され
る。次いで、ステップ123に移ると、制御情報の前記検
索成功フラグ22が有効であれば、検索は成功で終了され
るけれども、検索成功フラグ22が無効であれば、第2図
の文書データ記憶部5から文書データが読み出されるス
テップ104のところから、以上の動作が繰り返えされる
ことになる。
第4図及び第5図は具体例を用いた場合の第1図の文
書検索装置の動作説明図であり、第4図には検索条件を
前処理して、その結果を図式化してある。即ち、第4図
は「パイナップル、または、パイン、または、パパイ
ヤ、または、マンゴー、または、マスクメロン、また
は、マスカット、または、レモン、または、レーズン、
または、桃」の文字列が含む文書を検索する例である。
○の中の数字がアドレス番号を示し、同図中、「実線」
が文字コード・アドレス変換したときの遷移と比較が成
功した場合の遷移とを表す。また、「点線」は比較が失
敗した場合の遷移を示すけれども、この比較不一致の場
合は、前記文書データアドレスカウンタ6のインクリメ
ントが許可されない。アドレス0は、文字コードからア
ドレスに変換する記憶部であるが、ASCIIコードと漢字
コード分の領域をもっている。例えば、漢字コード
「パ」はアドレス1に遷移することを示し、アドレス0
以外は、○の右上に付いている文字と比較して一致した
ら、実線を進み、不一致なら点線を進む。具体的にいう
と、例えばアドレス1で「イ」に一致したら、実線に進
み、不一致ならば、点線に進むけれども、◎は検索が成
功したことを示している。なお、アドレス0に進む点線
は省略してある。
アドレス9からアドレス2への点線は、「パパイヤ」
の「パパイ」まで一致しているなら、「パイ」は一致し
ているけれども、「パイナップル」や「パイン」の「パ
イ」の可能性があるためである。アドレス0の文字コー
ドからアドレス変換する部分が前記文字コード・アドレ
ス変換記憶部1に格納され、実線・点線・○・◎の制御
情報が前記制御情報記憶部2に格納され、実線の右上に
付いている文字が前記比較記憶部3に格納されることに
なる。
また、検索過程の例で第3図の前処理した結果をもと
に「パフェにパインが」という文書の一部から検索する
例が第4図に示されており、最初は前記文書データ記憶
部5から文字が出力され、前記文字コード抽出部7で
「パ」が切り出されて、前記文字コード・アドレス変換
記憶部1に入力され、アドレス1が得られる。そのアド
レスは前記アドレス選択部4で選択され、アドレス1の
制御情報記憶部2と比較文字記憶部3データとが読み出
される。次に、アドレス1の比較文字「イ」と次の前記
文書データ記憶部5のデータ「フ」とが比較されるが、
不一致であるので、前記制御情報記憶部2から出力され
るアドレス7が選択されるわけである。
さらに、アドレス7では、比較文字「パ」と比較を行
なうけれども、不一致であるので、アドレス0に進む。
アドレス0においては、「フ」からはアドレス0が出力
されて前記文書データアドレスカウンタ6のアドレスが
インクリメントされる。また、同アドレス0において
は、「エ」からはアドレス0が出力され、前記文書デー
タアドレスカウンタ6のアドレスがインクリメントされ
る。これと同時に、アドレス0では、「に」からはアド
レス0が出力され、前記文書データアドレスカウンタ6
のアドレスが増加される。そしてまた、同アドレス0で
は、「パ」からはアドレス1が出力され、前記文書デー
タアドレスカウンタ6のアドレスが増加される。
この後、アドレス1で前記比較文字記憶部3の「イ」
と「イ」が比較一致すると、アドレス2に遷移するが、
アドレス2での前記比較文字記憶部3の「ナ」と「ン」
が比較不一致により、アドレス6に遷移される。したが
って、アドレス6では、前記比較文字記憶部3の「ン」
と「ン」の比較一致により、アドレス18に遷移して検索
が成功する。
発明の効果 以上に説明したように、本発明によれば、比較負荷の
大きいところに対しては、文字コードからアドレス変換
する記憶装置を用いて比較負荷を軽減し、比較負荷の小
さいところには、単なる文字コード比較を行うので、検
索時間の縮小とメモリ使用量の縮小に優れた効果が得ら
れる。
【図面の簡単な説明】
第1図は本発明の文書検索装置の概念図、第2図及び第
3図は同文書検索装置のフローチャート、第4図は検索
条件を前処理した文字列の図式化図、第5図は同文書検
索装置の検索過程図である。 1……文字コード・アドレス変換記憶部、2……制御情
報記憶部、3……比較文字記憶部、4……アドレス選択
部、5……文書データ記憶部、6……文書データアドレ
スカウンタ、7……文字コード抽出部、8……比較器、
9……文字コードアドレス変換信号、10……アドレス選
択フラグ、11……アドレス信号、12……文書データアド
レス信号、13……文書データ信号、14……文字コード選
択信号、15……文字コード信号A、16……文字コード信
号B、17……比較命令信号、18……比較結果フラグ、19
……インクリメント許可信号、20……比較一致アドレス
信号、21……比較不一致アドレス信号、22……検索成功
フラグ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 田村 登 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (56)参考文献 特開 平2−66671(JP,A) 特開 平2−68663(JP,A) 秋沢他“高速先頭照合方式によるスト リングサーチ高速化の検討”情報処理学 会第40回全国大会講演論文集Vol. 2,No.7H−6(1990−3−14〜 16)PP.881−882 高橋他“ストリング・マッチング・ハ ードウェアのアーキテクチャ”電子通信 学会技術研究報告Vol.86,No. 325(CPSY86−57)(1987−1−27) PP.57−68

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文字コードを遷移先アドレスに変換する文
    字コード・アドレス変換記憶部と、検索の対象である文
    書データを記憶する文書データ記憶部と、 前記文書データ記憶部のアドレスをカウントする文書デ
    ータアドレスカウンタと、 制御情報を記憶する制御情報記憶部と、 前記制御情報に格納されたアドレスに対応して比較文字
    を格納する比較文字記憶部と、 前記制御情報記憶部から指定されたアドレスに対応して
    前記比較文字記憶部から出力された比較文字と前記文書
    データアドレスカウンタにより特定される文書データ記
    憶部に記憶された文書データの文字との比較を行う比較
    器と、 前記比較器の比較結果及び前記制御情報記憶部に記憶さ
    れた制御情報に基づき前記制御情報記憶部から出力され
    る比較が成功した場合の遷移先アドレスと比較が失敗し
    た場合の遷移先アドレス、及び、前記文字コード・アド
    レス変換記憶部から出力される遷移先アドレスから1つ
    のアドレスを遷移先アドレスとして選択するアドレス選
    択部から構成され、 前記文書データアドレスカウンタが遷移先アドレスとし
    て文字コード・アドレス変換記憶部から出力される遷移
    先アドレス、または、比較が成功した場合の遷移先アド
    レスが選択された場合にインクリメントされ、 検索に際し、検索文字列を、状態をアドレスで示し、各
    状態を比較文字と、当該比較文字と与えられた文字が一
    致した場合の遷移先アドレス、当該比較文字と与えられ
    た文字が異なる場合の遷移先アドレスとする有限状態オ
    ートマトンに展開し、 一つの状態に対し比較文字が一定数以上対応する場合、
    当該状態を文字コード・アドレス変換記憶部に設定し、
    他の状態の比較文字と遷移先アドレスをそれぞれ前記比
    較文字記憶部と前記制御情報憶部とに対応して格納する
    ことにより、比較文字の多い状態に対しては、文字コー
    ドから直接遷移先アドレスを求め、それ以外の状態では
    比較器によって遷移先アドレスを求めながら検索を行う
    ことを特徴とするする文書検索装置。
JP2140917A 1990-05-30 1990-05-30 文書検索装置 Expired - Lifetime JP2563645B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2140917A JP2563645B2 (ja) 1990-05-30 1990-05-30 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2140917A JP2563645B2 (ja) 1990-05-30 1990-05-30 文書検索装置

Publications (2)

Publication Number Publication Date
JPH0434645A JPH0434645A (ja) 1992-02-05
JP2563645B2 true JP2563645B2 (ja) 1996-12-11

Family

ID=15279824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2140917A Expired - Lifetime JP2563645B2 (ja) 1990-05-30 1990-05-30 文書検索装置

Country Status (1)

Country Link
JP (1) JP2563645B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4804454B2 (ja) * 2005-03-04 2011-11-02 パナソニック株式会社 鍵配信制御装置、無線基地局装置および通信システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
秋沢他"高速先頭照合方式によるストリングサーチ高速化の検討"情報処理学会第40回全国大会講演論文集Vol.2,No.7H−6(1990−3−14〜16)PP.881−882
高橋他"ストリング・マッチング・ハードウェアのアーキテクチャ"電子通信学会技術研究報告Vol.86,No.325(CPSY86−57)(1987−1−27)PP.57−68

Also Published As

Publication number Publication date
JPH0434645A (ja) 1992-02-05

Similar Documents

Publication Publication Date Title
CA2204447C (en) Document display system and electronic dictionary
JP3195752B2 (ja) 検索装置
JP2669601B2 (ja) 情報検索方法及びシステム
JP2563645B2 (ja) 文書検索装置
JP2000331012A (ja) 電子化文書検索方法
JP4404323B2 (ja) シソーラスブラウジングシステムと方法
JPH064584A (ja) 文章検索装置
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
Phan et al. Automated data extraction from the web with conditional models
JPH09319767A (ja) 類義語辞書登録方法
JP3222193B2 (ja) 情報検索装置
JPH11231998A (ja) ヘルプ表示装置及びヘルプ表示プログラムを記録した媒体
JP3477822B2 (ja) 文書登録検索システム
JP2732661B2 (ja) テキスト型データベース装置
JPH08212230A (ja) 文書検索方法及び文書検索装置
JP3056810B2 (ja) 文書検索方法および装置
JPH08249346A (ja) 文書検索装置及び文書生成方法
JPH08137892A (ja) 文書検索方法及び文書検索装置
JP3498635B2 (ja) 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
JP3279002B2 (ja) 情報管理装置
JPH03268064A (ja) データ検索装置及びデータ検索方法
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPH0934897A (ja) 図書管理システム
JPH09245047A (ja) 語句の符号化方法及び装置