JPH03268064A - データ検索装置及びデータ検索方法 - Google Patents

データ検索装置及びデータ検索方法

Info

Publication number
JPH03268064A
JPH03268064A JP2066840A JP6684090A JPH03268064A JP H03268064 A JPH03268064 A JP H03268064A JP 2066840 A JP2066840 A JP 2066840A JP 6684090 A JP6684090 A JP 6684090A JP H03268064 A JPH03268064 A JP H03268064A
Authority
JP
Japan
Prior art keywords
character
search
data
address
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2066840A
Other languages
English (en)
Other versions
JP2835335B2 (ja
Inventor
Yoshifusa Togawa
好房 外川
Takashi Tsubokura
孝 坪倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2066840A priority Critical patent/JP2835335B2/ja
Publication of JPH03268064A publication Critical patent/JPH03268064A/ja
Application granted granted Critical
Publication of JP2835335B2 publication Critical patent/JP2835335B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概   要〕 ユーザが入力した文字列によりデータの検索を行うデー
タベース検索方式に関し、 ユーザが自由に単語等を入力して検索を行え、かつより
高速な検索を行えることを目的とし、検索対象データ内
における文字の発生頻度と該文字の先頭出現場所アドレ
スとを対応させて記憶1したコードソート部と、検索対
象データの各文字と該文字の次出現場所アドレスとを対
応さ・lて記憶した本文データ部と、検索すべき文字列
が入力されたとき、前記コードソート部を参照して入力
された文字列の中で最も発生頻度の少ない文字を抽出す
る文字抽出部と、該文字抽出部により抽出された文字の
出現場所アドレスを、前記コードソート部または本文デ
ータ部から順次求め、該アドレスで指定される本文デー
タ部の文字とその前後の文字を前記文字列と比較し、該
文字列を含むデータを検索する検索処理部とを備えるよ
うに構成する。
〔産業上の利用分野] 本発明は、ユーザが入力した文字列によりデータの検索
を行うデータベース検索方式に関する。
〔従来の技術〕
CD−ROM、光ディスクなどの大きな記憶容量を持つ
記憶媒体が実用化され、これらの記憶媒体を利用して辞
書、現代用語などの大きなデータ量を持つデータベース
を容易に構成できるようになってきた。
データベースの検索方法としては、ユーザが入力した単
語と一致する単語を、データベースに記憶されているデ
ータ(以下、これを本文データと呼ぶ)から直接検索し
て、一致した単語を含む本文データを検索する方法があ
る。
また、本文データ中の単語をキーワードとして抽出した
インデックスを設け、ユーザが入力した単語と一致する
キーワードをインデックスから検索して、そのキーワー
ドがら本文データを検索する方法がある。このキーワー
ドによる検索方法としては、ユーザから入力された単語
を先頭に持つキーワードを検索する前方−数構索、人力
された単語を末尾に持つキーワードを検索する後方−数
構索、及び入力された単語と完全に一致するキーワード
を検索する完全−数構索などがある。
第10図は、キーワードにより検索を行う従来のデータ
ベース検索方式のフローチャートである。
先ずユーザから入力された検索単語を読み取る(第10
図、Sl)。次に、読み取った検索単語の長さを求める
(S2)。
そして、先ず前方−数構索かどうかを判断する(S3)
。前方−数構索であったときには、入力された検索単語
の長さを基に、本文データ上の語句の格納アドレスを記
憶している前方一致インデックスの最初のインデックス
と、入力された検索単語の先頭の単語とを比較する(S
4)。そして、それらの単語が一致しているか否を判別
する(S5)。
一致した場合には、該当するインデックスの示す本文デ
ータをCD−ROMから読み出して表示する(S6)。
このときインデックスが一致しなければ、次のインデッ
クスを読み込み(S7)、そのインデックスにアドレス
データが書き込まれているか否かにより、検索インデッ
クスが残っているかどうかを判断する(S8)。インデ
ックスが残っているときには、ステップS4に戻り次の
インデックスについて同様な処理を繰り返す。
一方、ステップS3の判別で前方−数構索でなかったと
きには、ステップS9に進み後方−数構索かどうかを判
別する。
後方−数構索であったときには、入力された検索単語の
末尾の単語と、本文データ上での語句の格納アドレスを
記憶している後方一致インデックスの最初のインデック
スに対し同様な比較を行う(310)、そして、それら
の単語が一致しているか否かを判別する(311)。
一致した場合には、検索したインテ・ンクスの示す本文
データをCD−ROMから読み出して表示する(S12
)。このときインデックスが一致しなければ、次のイン
デックスを読み込み(Sl3)、読み込んだデータがア
ドレスデータか否かにより、検索インデックスが残って
いるかどうかを判断する(314)。検索インデックス
が残っているときには、ステップ310に戻り次のイン
デックスについて同様な処理を行う。
他方、ステップS9の判別で後方−数構索でなかったと
きには、ステップS15に進み検索単語の全体と、本文
データ上の語句の格納アドレスを記憶している完全一致
インデックスに対し同様な比較を行う。そして、それら
の語句が一致しているか否を判別する(S16)。
一致した場合には、検索したインデックスの示す本文デ
ータをCD−ROMから読み出し表示する(S17)。
このときインデックスが一致しなければ、次のインデッ
クスを読み込み(31B)、読み込んだデータがアドレ
スデータか否かにより、検索インデックスが残っている
かどうかを判断する(S19)。検索インデックスが残
っているときには、ステップS15に戻り次のインデッ
クスについて同様な処理を行う。
このように、予め本文中の単語(語句)をキーワードイ
ンデックスに登録しておき、そのキーワードをユーザが
入力することにより、一致するキーワードを持つデータ
を検索することができる。
〔発明が解決しようとする課題〕
入力された検索単語で本文データを直接検索する前者の
方法は、ユーザが自由に検索単語を選べること、予めキ
ーワードを抽出する必要がないことなどの利点がある。
しかしながら、検索の際に検索単語と本文データ内の単
語を、例えば1文字車位で逐次比較して一致する単語を
検索するので、検索に時間がかかるという問題点があっ
た。
一方、予めキーワードを抽出しておいてそのキーワード
により検索を行う後者の方法は、前者の方法に比べて検
索速度は早くなるが、検索する単語が限定されユーザが
自由に単語を入力して検索することができないという問
題点があった。
また、キーワードで検索する方法では、抽出したキーワ
ードが適切でないと、必要な情報がなかなか得られず使
いにくいものとなるので、キーワーFの抽出に工夫がい
る。さらに、CD−ROMなどでは一旦書き込んだデー
タを書き替えることができないので、キーワードの抽出
に際して検証用のシュミレーションソフトを作り、抽出
したキーワードで正しく本文データが検索できるかどう
かを確認する必要がある。この検証が不充分であると、
作成したCD−ROMが使えないものとなってしまうな
どの種々の問題点があった。
本発明は、ユーザが自由に単語等を入力して検索を行え
、かつより高速な検索を行えることを目的とする。
〔課題を解決するための手段] 第1図は、本発明の原理説明図である。
同図において、コードソート部1は、検索対象データ内
の文字の発生頻度と文字の先頭出現場所アドレスとを対
応させて記憶している。
本文データ部2は、検索対象データの各文字とそれらの
文字の次出現場所アドレスとを対応させて記憶している
。例えば、この本文データ部2には、検索対象データの
文字データが出現順に記憶されており、それらの文字デ
ータに対応させて同一文字の次の出現場所アドレスが記
憶されている。
文字抽出部3は、コードソート部1を参照して入力され
た文字列の中で最も発生頻度の少ない文字を抽出する。
検索処理部4は、文字抽出部3により抽出された文字の
出現場所アドレスを、コードソート部1または本文デー
タ部2から順次求め、そのアドレスで指定される本文デ
ータ部2の文字とその前後の文字を入力された文字列と
比較して、その文字列を含むデータを検索する。
C作  用〕 ユーザから検索すべき文字列が入力されると、先ず文字
抽出部3によりその文字列の中で最も発生頻度の少ない
文字が抽出される。そして、検索処理部4により、その
文字の出現場所ア[ルスがコードソート部1または本文
データ部2から順次求められ、そのアドレスと前後のア
ドレスの文字が読み出される。そして、それらの文字と
入力された文字列との比較が行われ、−T&する文字列
を含むデータが検索される。
このように、検索すべき文字列の中で最も発生頻度の少
ない文字について検索を行うようにしたので、検索対象
データを逐次検索してい〈従来の検索方式に比べて検索
速度を向上させることができる。さらに、検索対象デー
タの各文字に対応させてそれらの文字の次出現場所アド
レスを記憶したので、検索の為のデータ量をあまり増や
さずに該当する文字を高速で検索することができる。
また、キーワードによる検索ではないので、ユーザが自
由に検索単語を選ぶことができる。さらに、検索対象デ
ータの内容を充分に理解した上でないと行えないキーワ
ードの抽出作業が不要となり、当然のことながらキーワ
ードの検証も不要となる。
〔実  施  例] 以下、本発明の実施例を図面を参照しながら説明する。
第2図は、本発明のデータベース検索方式に従うデータ
ペース検索装置の構成図である。
同図において、入力部11はキーボードなどからなり、
この入力部11からユーザにより入力された検索単語は
、CRTデイスプレィなどからなる表示部12に表示さ
れる。
処理部13は、後述するCD−ROM16をアクセスし
てデータの検索を行うCPU14と、そのCPU14に
より読み出されるデータを一時記憶するメモリ15とで
構成されている。
CD−ROM16は、検索対象データ内における文字の
発生頻度と、その文字の先頭出現場所アドレスとを対応
させて記憶したコードソート部17と、本文データと本
文データの各文字の次出現場所アドレスとを対応させて
記憶した本文データ部18とで構成されている。
第3図及び第4図は、それぞれ上記コードソート部17
及び本文データ部18の構成図である。
コードソート部17には、例えば50音順に文字が記憶
されおり、それぞれの文字の先頭出現場所アドレスと、
それぞれの文字の発生頻度とが50音の文字に対応づけ
て記憶されている。
本文データ部18は、本文データの各文字が出現順に記
憶されている文字データ記憶部18aと、同一文字の次
の出現場所アドレスが記憶されている次出現場所記憶部
18bとが設けられている。
次に以上のような構成の実施例の動作を、第5図のフロ
ーチャートを参照して説明する。
先ず、CD−ROMI 6からコードソート部17を読
み出しメモリに格納する(第5図、521)次に、ユー
ザから入力される検索単語を読み取る(322)。そし
て、コードソート部17を参照して入力された検索単語
の中で発生頻度の最も少ない文字を探し、その頻度を発
生頻度カウンタ(図示せず)にセットすると共に、その
文字の先頭出現場所アドレスを求める(S23)。さら
に、発生頻度カウンタが「0」かどうかを判別する(S
24)。
発生頻度カウンタの値が「0」でなければ、コードソー
ト部17の先頭出現場所アドレスにより指示される本文
データの文字とそのアドレスの前後の文字を読み出し検
索単語と比較する(S25)。
そして、読み出したデータと検索単語とが一致するか否
かを判別する(S26)。
第6図は、コードソート部17から文字の発生頻度を求
める動作、及びその文字の先頭出現場所アドレスから該
当する本文データの文字の前後のデータを読み出す動作
の説明図である。
例えば、検索単語として「あいうえお」が入力されたと
すると、コードソート部17の対応する各文字の発生頻
度が調べられて、入力された文字列の中で本文データに
おける発生頻度が最も少ない文字が抽出される。
この場合、文字「うJの発生頻度が最も少ないので、そ
の発生頻度「2」が発生頻度カウンタにセットされる。
さらに、文字「う」に対応して記憶されている先頭出現
場所アドレス、すなわち本文データ部18における文字
「う」の先頭格納アドレスが求められて、その前後のア
ドレスの文字が同時に読み出される。
例えば、本文データ部18の文字データ記憶部18aの
文字「う」の最初の出現場所アドレス■には、本文デー
タの文字「う」と、その文字の次の出現場所アドレス■
が記憶されている。
この場合、文字「うJの前後の文字は、検索単語と一致
しないので、次の処理で次出現場所アドレスの読み込み
が行われる。
第5図に戻り、本文データ部18から読み出したデータ
が検索単語と一致しないときには、発生頻度の最も少な
い文字の次の格納アドレス(次出現場所アドレス)を求
める(S27)。
さらに、ここまでの処理で1回の検索動作が終了したの
で、発生頻度カウンタの値をデクリメントして(S28
)、ステップS24に戻る。
以下、発生頻度カウンタの値がr□、となるまで上述し
たステップ324〜328の処理を繰り返し、検索単語
に−・故するデータを探す。
検索単語と一致するデータが存在したなら、そのとき指
示されるアドレス以降の本文データを読み出し表示部に
表示する(S29)。
第6図及び第7図に示すように、文字「う」の次出現場
所アドレス■の前後のデータは、「あいうえお」であり
1、ユーザから入力された検索単語と一致する。この結
果、第8図に示すように、その文字列以降の本文データ
が、本文データ部18の文字データ記憶部18aから順
に読み出されて表示部12に表示される。
また、第9図に示すように、このとき2番目に出現する
文字「う、の次出現場所記憶部18bには、rnull
、1が記憶されておりそれ以後の本文データには文字「
う」が出現しないことを示している。
以上のようにト記実施例は、入力された検索単語の中で
最も発生頻度の少ない文字で、検索対象データを検索す
るようにしたので、検索対象データを逐次検索する従来
の検索方式に比べて検索速度を向上させることができる
また、キーワーFによる検索ではないので、ユーザが自
由に検索単語を選ぶことができる。し2かも、検索対象
データの文字データに対応さ−Uて同一文字の次の出現
場所アドレスを記憶するようにしたので、検索の為のデ
ータ量をあまり増やさずに、自由な単語による検索と検
索速度の高速化の両方を実現することができる。
また、CD−ROMなどを制作する場合でも、キーワー
ドを抽出する必要がないので、キーワードの検証等が不
要となり制作作業が容易になる。
当然のことながら、キーワードの検証が不完全な為にC
D−ROMを廃棄することもなくなる。
尚、検索対象データは、4文字だけに限らず絵、音など
のデータと組み合わせてもよく、例えば音声の記憶され
ているメモリのポインタを文字データの間に組み込んで
!2ム」ば、文字と柊に音声を検索することができる。
また、本発明は、実施例に述べたC D −ROMに限
らず光ディスクなどの他の記録媒体を使用した装置にも
適用でき、ワードプロセフ”J、パーソナルコンピュー
タ及びハイパ・−tキストなどのマルチメディアに利用
Cきる9 (発明の効果〕 本発明によれば、検索すべき文字列の中で最も発生頻度
の少ない文字により対象となるデータを検索するように
したので 検索を高速化する−とができる。さらに、検
索する単語を:1−−ザが自由ムこ選択することができ
るのでより使い易い検索方式を実現できる。
【図面の簡単な説明】
第1図は、本発明の原理説明図、 第2図は、本発明の実施例の構成図、 第3図は、第2図の二z−ド゛ハート部の構成図、第4
図は、第2図の本文データ部の構成図、第5図は、実施
例の動作を説明するフローナヤ−1−1 第6図〜第9図は、実施例の検索動作の説明図、第10
図は、従来の検索方式を説明するフロチャートである。 ■、17・・・二l−ドソート部、 2.18・・・本文データ部、 3・・・文字抽出部、 4・・・検索処理部。

Claims (1)

  1. 【特許請求の範囲】 検索対象データ内における文字の発生頻度と該文字の先
    頭出現場所アドレスとを対応させて記憶したコードソー
    ト部(1)と、 検索対象データの各文字と該文字の次出現場所アドレス
    とを対応させて記憶した本文データ部(2)と、 検索すべき文字列が入力されたとき、前記コードソート
    部(1)を参照して入力された文字列の中で最も発生頻
    度の少ない文字を抽出する文字抽出部(3)と、 該文字抽出部(3)により抽出された文字の出現場所ア
    ドレスを、前記コードソート部(1)または本文データ
    部(2)から順次求め、該アドレスで指定される本文デ
    ータ部(2)の文字とその前後の文字を前記文字列と比
    較し、該文字列を含むデータを検索する検索処理部(4
    )とを備えることを特徴とするデータベース検索方式。
JP2066840A 1990-03-19 1990-03-19 データ検索装置及びデータ検索方法 Expired - Fee Related JP2835335B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2066840A JP2835335B2 (ja) 1990-03-19 1990-03-19 データ検索装置及びデータ検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2066840A JP2835335B2 (ja) 1990-03-19 1990-03-19 データ検索装置及びデータ検索方法

Publications (2)

Publication Number Publication Date
JPH03268064A true JPH03268064A (ja) 1991-11-28
JP2835335B2 JP2835335B2 (ja) 1998-12-14

Family

ID=13327451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2066840A Expired - Fee Related JP2835335B2 (ja) 1990-03-19 1990-03-19 データ検索装置及びデータ検索方法

Country Status (1)

Country Link
JP (1) JP2835335B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635768A (ja) * 1992-07-21 1994-02-10 Fujitsu Ltd データベース作成検索装置
US5357431A (en) * 1992-01-27 1994-10-18 Fujitsu Limited Character string retrieval system using index and unit for making the index
JPH08227426A (ja) * 1995-02-21 1996-09-03 Fujitsu Ltd データ検索装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006123429A1 (ja) 2005-05-20 2006-11-23 Fujitsu Limited 情報検索方法、装置、プログラム、該プログラムを記録した記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5357431A (en) * 1992-01-27 1994-10-18 Fujitsu Limited Character string retrieval system using index and unit for making the index
JPH0635768A (ja) * 1992-07-21 1994-02-10 Fujitsu Ltd データベース作成検索装置
JPH08227426A (ja) * 1995-02-21 1996-09-03 Fujitsu Ltd データ検索装置

Also Published As

Publication number Publication date
JP2835335B2 (ja) 1998-12-14

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
US6131082A (en) Machine assisted translation tools utilizing an inverted index and list of letter n-grams
US6751606B1 (en) System for enhancing a query interface
JP2742115B2 (ja) 類似文書検索装置
US8438024B2 (en) Indexing method for quick search of voice recognition results
JPH0418673A (ja) テキスト情報抽出方法および装置
JPH10240759A (ja) 検索装置
US20050065920A1 (en) System and method for similarity searching based on synonym groups
US20050065947A1 (en) Thesaurus maintaining system and method
JP2817103B2 (ja) データ検索装置及びデータ検索方法
JPH03268064A (ja) データ検索装置及びデータ検索方法
JPH064584A (ja) 文章検索装置
JPH09101969A (ja) 適合フィードバックを用いた全文検索方法および装置
JP3436109B2 (ja) 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH06325091A (ja) 類似度評価型データベース検索装置
JP3275704B2 (ja) 入力文字列推測認識装置
JPH08339376A (ja) 外国語検索装置及び情報検索システム
KR20000036487A (ko) 정보검색기술을 이용한 한영번역 데이터베이스 시스템
JP3072955B2 (ja) 重複話題語を考慮した話題構造認識方法と装置
JP3505610B2 (ja) 文書検索システム
JPH05189485A (ja) キーワード検索方式
JPH09101951A (ja) 文書検索装置
JPH06161995A (ja) 氏名データ整形方法および装置
WO2009002141A1 (en) A system amd method of language translation

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees