JP4298138B2 - 情報検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体 - Google Patents

情報検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP4298138B2
JP4298138B2 JP2000185693A JP2000185693A JP4298138B2 JP 4298138 B2 JP4298138 B2 JP 4298138B2 JP 2000185693 A JP2000185693 A JP 2000185693A JP 2000185693 A JP2000185693 A JP 2000185693A JP 4298138 B2 JP4298138 B2 JP 4298138B2
Authority
JP
Japan
Prior art keywords
character string
data
length
index
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000185693A
Other languages
English (en)
Other versions
JP2002007411A (ja
Inventor
政和 妹尾
星野  隆一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Hitachi Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd, Hitachi Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2000185693A priority Critical patent/JP4298138B2/ja
Publication of JP2002007411A publication Critical patent/JP2002007411A/ja
Application granted granted Critical
Publication of JP4298138B2 publication Critical patent/JP4298138B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は可変長文字列の情報検索を行う情報検索システムに関し、特に可変長文字列に対する完全一致検索方法・前方一致検索方法・後方一致検索を行う情報検索システムに適用して有効な技術に関するものである。
【0002】
【従来の技術】
従来、インデクス容量を削減し、かつ、文字列データを高速に検索する技術として、例えば、特開平4−209069号公報及び特開平6−162092号公報に記載のものが知られている。
【0003】
特開平4−209069号公報に記載のものは、例えば英単語の様な文字列データに対する前方一致検索に関するものである。これは、文字列データの前方文字列からインデクスを作成するインデクス作成手段と、検索条件に指定された文字列からインデクスデータを作成し、インデクス表を走査して前方一致する文字列を抽出するデータ検索手段から構成されている。データ検索手段において、検索条件に指定された文字列がインデクスデータの文字列データ長よりも長い場合、抽出した文字列データと更に各文字を比較して条件に一致する文字列の検索を行う。
【0004】
また、特開平6−162092号公報に記載のものは、例えば文書データの様な文字列データに対して、指定した単語を含む文書を抽出する手段に関するものである。これは、文書データ中に含まれる単語毎にインデクスとして作成し、更に単語毎のインデクスの各単語の固定長の前方文字列を別途インデクスとして作成するインデクス作成手段と、検索条件に指定された文字列から前方文字列と一致する単語毎のインデクスのデータを抽出し、単語毎のインデクスのデータから文書データを抽出するデータ検索手段から構成されている。
【0005】
【発明が解決しようとする課題】
しかしながら、特開平4−209069号公報に記載の技術は、文字列データの前方文字列のみからインデクスデータを作成しているので、インデクス容量を削減でき、また前方一致検索を高速に行なうことができるものの、後方一致検索については記載されていない。更に、この技術を完全一致検索に適応した場合、例えば住所等の様な文字列データでは、前方文字列に県名や市名等の重複が多く、前方文字列のインデクスでは十分にデータを絞り込むことができないという問題がある。
【0006】
また、特開平6−162092号公報に記載の技術は、文字列の全てのデータから構成されるインデクスに対して別の文字列の先頭のみから構成されるインデクスを作成するので、前方一致検索は高速にできるものの、文字列データ長が長くなるとインデクスの容量が膨大になるという問題がある。
【0007】
本発明の目的は上記問題を解決し、可変長文字列の文字列データ長が長大になってもインデクス容量を一定に保った情報検索処理を行うことが可能な技術を提供することにある。
【0008】
【課題を解決するための手段】
本発明は、可変長文字列データの情報検索を行う情報検索システムにおいて、可変長文字列データの前方文字列及び後方文字列または可変長文字列データ全体を示すインデクスデータを用いてインデクス検索を行うものである。
【0009】
本発明の情報検索システムでは、まず情報検索の対象となる可変長文字列データの所定の長さの前方文字列及び後方文字列または可変長文字列データ全体を示すインデクスデータを用いてインデクスを作成しておく。
【0010】
次に検索文字列データとインデクスデータとを検索条件に従って比較し、前記作成したインデクスの中から検索条件に対応するインデクスデータを抽出する。そして、そのインデクスデータに対応する可変長文字列データの格納位置を示すデータ格納位置を取得する。
【0011】
次に、前記取得したデータ格納位置で示される可変長文字列データを抽出し、前記抽出した可変長文字列データと検索文字列データとを比較して検索条件を満たす可変長文字列データを出力する。
【0012】
前記の様に本発明では、可変長文字列データの前方文字列及び後方文字列を示すインデクスデータを作成することによってインデクス容量を削減し、このインデクスを用いてデータを絞り込むことにより、高速に検索を行うことが可能である。
【0013】
以上の様に本発明の情報検索システムによれば、可変長文字列データの前方文字列及び後方文字列または可変長文字列データ全体を示すインデクスデータを用いてインデクス検索を行うので、可変長文字列の文字列データ長が長大になってもインデクス容量を一定に保った情報検索処理を行うことが可能である。
【0014】
【発明の実施の形態】
以下に可変長文字列データの情報検索を行う一実施形態の情報検索システムについて説明する。
【0015】
図1は本実施形態の情報検索システムの構成を示す図である。図1に示す様に本実施形態の情報検索システムは、データ格納処理装置101と、データ検索処理装置102と、インデクス表ファイル103と、データ表ファイル104とを有している。
【0016】
データ格納処理装置101は、可変長文字列データのデータ入力111を受けてデータ格納処理を行う装置である。データ検索処理装置102は、検索文字列入力105を受けてインデクス表ファイル103及びデータ表ファイル104から検索文字列に一致するデータを抽出する装置である。
【0017】
インデクス表ファイル103は、可変長文字列データの前方文字列及び後方文字列または可変長文字列データ全体を示すインデクスデータと対応する可変長文字列データの格納位置を格納するファイルである。データ表ファイル104は、検索対象の可変長文字列データを格納するファイルである。
【0018】
データ格納処理装置101は、インデクスデータ作成処理部112と、インデクス表作成処理部113と、データ表作成処理部114とを有している。
【0019】
インデクスデータ作成処理部112は、可変長文字列データ長がインデクス文字列データ長よりも長い場合に可変長文字列データの前方文字列及び後方文字列を示すインデクスデータを設定し、可変長文字列データ長がインデクス文字列データ長以下である場合に可変長文字列データ全体を示すインデクスデータを設定する処理部である。
【0020】
インデクス表作成処理部113は、インデクスデータ作成処理部112から出力されるインデクスデータを受けて、インデクス表ファイル103にインデクスデータを格納する処理部である。データ表作成処理部114は、可変長文字列データのデータ入力111を受けてデータ表ファイル104に入力データを格納する処理部である。
【0021】
データ格納処理装置101をインデクスデータ作成処理部112、インデクス表作成処理部113及びデータ表作成処理部114として機能させる為のプログラムは、CD−ROM等の記録媒体に記録され磁気ディスク等に格納された後、メモリにロードされて実行されるものとする。なお前記プログラムを記録する記録媒体はCD−ROM以外の他の記録媒体でも良い。
【0022】
データ検索処理装置102は、インデクスデータ作成処理部106と、インデクス走査処理部107と、データ抽出処理部108と、文字列比較処理部109とを有している。
【0023】
インデクスデータ作成処理部106は、インデクスデータ作成処理部112と同様にして検索文字列データのインデクスデータを作成する処理部である。インデクス走査処理部107は、可変長文字列データの前方文字列及び後方文字列または可変長文字列データ全体を示すインデクスデータを格納したインデクス表ファイル103から検索条件に対応するインデクスデータを抽出し、そのインデクスデータに対応する可変長文字列データのデータ格納位置を取得する処理部である。
【0024】
データ抽出処理部108は、インデクス走査処理部107で取得したデータ格納位置で示される可変長文字列データをデータ表ファイル104から抽出する処理部である。文字列比較処理部109は、データ抽出処理部108で抽出した可変長文字列データと検索文字列入力105で指定された検索文字列データとを比較して検索条件を満たす可変長文字列データをデータ出力110に出力する処理部である。
【0025】
データ検索処理装置102をインデクスデータ作成処理部106、インデクス走査処理部107、データ抽出処理部108及び文字列比較処理部109として機能させる為のプログラムは、CD−ROM等の記録媒体に記録され磁気ディスク等に格納された後、メモリにロードされて実行されるものとする。なお前記プログラムを記録する記録媒体はCD−ROM以外の他の記録媒体でも良い。
【0026】
次に、各インデクスデータの構成について説明する。インデクスデータは図2のインデクスデータ形式または図3のインデクスデータ形式で作成される。
【0027】
図2は本実施形態のインデクスデータ形式の第1の例を示す図である。図2では、可変長文字列データ201から作成されるインデクスデータ202を表している。可変長文字列データ201の文字列データ長nバイトの内、文字列データ長・前方mバイトの文字列データ・後方mバイトの文字列データにより、インデクスデータ202を作成する。
【0028】
図3は本実施形態のインデクスデータ形式の第2の例を示す図である。図3では、可変長文字列データ301から作成されるインデクスデータ302を表している。文字列データ長及び可変長文字列データ301の全ての文字列データにより、インデクスデータ302を作成する。
【0029】
インデクス文字列データ長203の2mは、インデクスに格納する文字列の長さをバイト単位で表したパラメータであり、その内mバイトが元の可変長文字列の前方文字列、残りのmバイトが元の可変長文字列の後方文字列にそれぞれ対応する。2mは2以上かつ可変長文字列の最大長以下の値である。図2の文字列データ長と2mを比較して、文字列データ長の方が2mよりも大きい場合は、インデクスデータ202の形式でインデクスデータを作成する。逆に、文字列データ長が2m以下の場合は、インデクスデータ302の形式でインデクスデータを作成する。
【0030】
文字列データ長が2m以下の場合にインデクスデータ202の形式でインデクスデータを作成すると、インデクスデータ202中に無駄な領域が生じてしまうことが考えられるが、前記の様に本実施形態では文字列データ長が2m以下の場合にインデクスデータ302の形式でインデクスデータを作成しているので、無駄な領域の発生を防止することができる。また、インデクスデータ毎にmの値を格納する領域を設け、可変長文字列データの性質や長さに合わせて前記のmの値をインデクスデータ毎に変化させても良い。
【0031】
次に、図1のインデクスデータ作成処理部106及びインデクスデータ作成処理部112について説明する。図4は本実施形態のインデクスデータ作成処理部106及びインデクスデータ作成処理部112の処理手順を示すフローチャートである。図4において、まず、文字列データの読込みを行い(ステップ401)、インデクスデータ202の先頭の文字列データ長として、この文字列データの長さを設定する(ステップ402)。
【0032】
次に、文字列データ長と2mの大小の判別を行い(ステップ403)、文字列データ長の方が大きければ、インデクスデータ202の前方文字列データとして、文字列データの前方mバイトを設定し(ステップ405)、インデクスデータ202の後方文字列データとして、文字列データの後方mバイトを設定する(ステップ406)。文字列データ長が2m以下ならば、インデクスデータ302の形式で作成する(ステップ404)。ステップ407では、インデクスデータの出力を行って処理を終了する。
【0033】
図5は本実施形態のインデクス走査処理部107の処理手順を示すフローチャートである。図5において、まず、1回目の処理か2回目以降の処理かの判別を行い(ステップ501)、1回目の処理であれば、インデクス表から1件目のインデクスデータを読み込む(ステップ502)。ステップ501で2回目以降の処理であれば、インデクス表から前回のインデクスデータの直後のインデクスデータを読み込む(ステップ503)。
【0034】
次に、インデクスデータを読み込んだ結果、インデクスデータが存在したかどうかの判別を行い(ステップ504)、存在しない場合は処理を終了する。インデクスデータが存在する場合は、検索条件が完全一致条件かそれ以外の条件か判別する(ステップ505)。検索条件が完全一致条件であれば、完全一致比較処理を実行し(ステップ506)、比較結果が一致か不一致かを判別する(ステップ510)。
【0035】
ステップ505で検索条件が完全一致条件以外であれば、次に検索条件が前方一致条件かそれ以外の条件か判別する(ステップ507)。検索条件が前方一致条件であれば、前方一致比較処理を実行し(ステップ508)、比較結果が一致か不一致かを判別する(ステップ510)。ステップ507で検索条件が前方一致条件でなければ、後方一致比較処理を実行し(ステップ509)、比較結果が一致か不一致かを判別する(ステップ510)。
【0036】
ステップ510で比較結果が一致すれば、インデクスデータに対応するデータの格納位置を取得し(ステップ511)、データのデータ表中の格納位置を出力して(ステップ512)、ステップ501へ戻る。
【0037】
ステップ510で比較結果が不一致であれば、1回目の処理か2回目以降の処理かの判別を行い(ステップ513)、1回目の処理であれば、再度ステップ501に戻り、処理を続行する。ステップ513で2回目以降であれば、前回の処理でインデクスデータと検索文字列は一致と判別されたか判別を行い(ステップ514)、不一致であれば再度ステップ501に戻って処理を続行し、一致であれば処理を終了する。
【0038】
次に、サブルーチンである完全一致比較処理(図5のステップ506)について、図6を用いて説明する。
【0039】
図6は本実施形態の完全一致比較処理の処理手順を示すフローチャートである。図6において、まず、検索文字列データの文字列データ長とインデクスデータの文字列データ長が一致するか判別する(ステップ601)。不一致であれば、戻値に不一致を設定して(ステップ605)、処理を終了する。
【0040】
ステップ601で一致であれば、検索文字列データの文字列データ長とインデクス文字列データ長608の2mの大小を比較する(ステップ602)。検索文字列データの文字列データ長の方が大きければ、検索文字列データの前方mバイトの文字列とインデクスデータの前方文字列が一致するか判別する(ステップ603)。不一致であれば、戻値に不一致を設定して(ステップ605)、処理を終了する。
【0041】
ステップ603で一致であれば、検索文字列データの後方mバイトの文字列とインデクスデータの後方文字列が一致するか判別する(ステップ604)。不一致であれば、戻値に不一致を設定して(ステップ605)、処理を終了する。一致であれば、戻値に一致を設定して(ステップ607)、処理を終了する。
【0042】
ステップ602で、検索文字列データの文字列データ長が2m以下の場合は、検索文字列とインデクスデータの文字列が完全一致するか判別して(ステップ606)、不一致であれば、戻値に不一致を設定して(ステップ605)、処理を終了する。一致であれば、戻値に一致を設定して(ステップ607)、処理を終了する。
【0043】
次に、サブルーチンである前方一致比較処理(図5のステップ508)について、図7を用いて説明する。
【0044】
図7は本実施形態の前方一致比較処理の処理手順を示すフローチャートである。図7において、まず、検索文字列データの文字列データ長とインデクスデータに対応する文字列データのデータ長の大小を判別する(ステップ701)。検索文字列データの文字列データ長の方が大きければ、戻値に不一致を設定して(ステップ705)、処理を終了する。
【0045】
検索文字列データの文字列データ長がインデクスデータに対応する文字列データのデータ長以下であれば、インデクスデータに対応する文字列データのデータ長とインデクス文字列データ長709の2mの大小を判別する(ステップ702)。
【0046】
インデクスデータに対応する文字列データのデータ長の方が大きければ、検索文字列データの文字列データ長とmの大小を判別する(ステップ703)。検索文字列データの文字列データ長がm以下であれば、検索文字列データとインデクスデータの文字列について、検索文字列データ長分前方一致するか判別する(ステップ704)。不一致であれば、戻値に不一致を設定して(ステップ705)、処理を終了する。一致であれば、戻値に一致を設定して(ステップ707)、処理を終了する。
【0047】
ステップ703で、検索文字列データの文字列データ長がmより大きければ、検索文字列データの前方mバイト分の文字列とインデクスデータの前方文字列が一致するか判別する(ステップ706)。不一致であれば、戻値に不一致を設定して(ステップ705)、処理を終了する。一致であれば、更に検索文字列データの長さがインデクスデータに対応する文字列の内、後方文字列を除いた部分の長さより長いかを判別する(ステップ710)。ステップ710が偽であれば、戻値に一致を設定して(ステップ707)、処理を終了する。
【0048】
ステップ710が真であれば、更に検索文字列データの後方ns−nx+mバイトとインデクスデータの後方文字列の前方ns−nx+mバイトが一致するか判別する(ステップ711)。一致であれば、戻値に一致を設定して(ステップ707)、処理を終了する。ステップ711で不一致であれば、戻値に不一致を設定して(ステップ705)、処理を終了する。この様に本実施形態では、前方一致検索であっても必要に応じてインデクスデータの後方文字列を使用することにより、更にデータを絞り込んでいる。
【0049】
ステップ702で、インデクスデータに対応する文字列データのデータ長が2m以下であれば、検索文字列データとインデクスデータの文字列について、検索文字列データ長分前方一致するか判別する(ステップ708)。不一致であれば、戻値に不一致を設定して(ステップ705)、処理を終了する。一致であれば、戻値に一致を設定して(ステップ707)、処理を終了する。
【0050】
次に、サブルーチンである後方一致比較処理(図5のステップ509)について、図8を用いて説明する。
【0051】
図8は本実施形態の後方一致比較処理の処理手順を示すフローチャートである。図8において、まず、検索文字列データの文字列データ長とインデクスデータに対応する文字列データのデータ長の大小を判別する(ステップ801)。検索文字列データの文字列データ長の方が大きければ、戻値に不一致を設定して(ステップ805)、処理を終了する。
【0052】
検索文字列データの文字列データ長がインデクスデータに対応する文字列データのデータ長以下であれば、インデクスデータに対応する文字列データのデータ長とインデクス文字列データ長809の2mの大小を判別する(ステップ802)。
【0053】
インデクスデータに対応する文字列データのデータ長の方が大きければ、検索文字列データの文字列データ長とmの大小を判別する(ステップ803)。検索文字列データの文字列データ長がm以下であれば、検索文字列データとインデクスデータの文字列について、検索文字列データ長分後方一致するか判別する(ステップ804)。不一致であれば、戻値に不一致を設定して(ステップ805)、処理を終了する。一致であれば、戻値に一致を設定して(ステップ807)、処理を終了する。
【0054】
ステップ803で、検索文字列データの文字列データ長がmより大きければ、検索文字列データの後方mバイト分の文字列とインデクスデータの後方文字列が一致するか判別する(ステップ806)。不一致であれば、戻値に不一致を設定して(ステップ805)、処理を終了する。一致であれば、更に検索文字列データの長さがインデクスデータに対応する文字列の内、前方文字列を除いた部分の長さより長いか判別する(ステップ810)。ステップ810が偽であれば、戻値に一致を設定して(ステップ807)、処理を終了する。
【0055】
ステップ810が真であれば、更に検索文字列データの前方ns−nx+mバイトとインデクスデータの前方文字列の後方ns−nx+mバイトが一致するか判別する(ステップ811)。一致であれば、戻値に一致を設定して(ステップ807)、処理を終了する。ステップ811で不一致であれば、戻値に不一致を設定して(ステップ805)、処理を終了する。この様に本実施形態では、後方一致検索であっても必要に応じてインデクスデータの前方文字列を使用することにより、更にデータを絞り込んでいる。
【0056】
ステップ802で、インデクスデータに対応する文字列データのデータ長が2m以下であれば、検索文字列データとインデクスデータの文字列について、検索文字列データ長分後方一致するか判別する(ステップ808)。不一致であれば、戻値に不一致を設定して(ステップ805)、処理を終了する。一致であれば、戻値に一致を設定して(ステップ807)、処理を終了する。
【0057】
前記の様に本実施形態のインデクス走査処理部107では、検索文字列データとインデクス表ファイル103のインデクスデータとを比較して対応する可変長文字列データのデータ格納位置を取得しているが、図1に示す様にインデクスデータ作成処理部106により検索文字列データのインデクスデータを作成し、その検索文字列データのインデクスデータとインデクス表ファイル103のインデクスデータとを比較して対応する可変長文字列データのデータ格納位置を取得しても良い。
【0058】
図9は本実施形態の文字列比較処理部109の処理手順を示すフローチャートである。図9において、まず、データ抽出処理部108から出力された抽出済みデ―タを受け取る(ステップ901)。
【0059】
次に、検索条件が完全一致条件かそれ以外の条件かを判別し(ステップ902)、完全一致条件の場合は、検索文字列データの文字列長と2mの大小を比較する(ステップ910)。検索文字列データの文字列長が2m以下であれば、抽出済みデータをそのまま出力して(ステップ909)、処理を終了する。ステップ910で、検索文字列データの文字列長が2mより大きければ、検索文字列データと抽出済みデータの可変長文字列が完全一致するか判別する(ステップ911)。一致していれば、抽出済みデータをそのまま出力し(ステップ909)、不一致であれば、出力なしで(ステップ908)処理を終了する。
【0060】
ステップ902で、検索条件が完全一致条件以外であれば、検索文字列データの文字列長とmの大小を判別する(ステップ903)。検索文字列データの文字列長がm以下であれば、抽出済みデータをそのまま出力して(ステップ909)、処理を終了する。ステップ903で検索文字列データの文字列長がmより大きければ、抽出済みデータ中の可変長文字列のデータ長と2mの大小を判別する(ステップ904)。抽出済みデータ中の可変長文字列のデータ長が2m以下であれば、抽出済みデータをそのまま出力し(ステップ909)、処理を終了する。
【0061】
抽出済みデータ中の可変長文字列のデータ長が2mより大きければ、検索条件が前方一致条件かそれ以外の条件かを判別する(ステップ905)。前方一致条件であれば、抽出済みデータ中の可変長文字列と検索文字列データについて、検索文字列データ長分前方一致するか判別し(ステップ907)、一致していれば、抽出済みデータをそのまま出力し(ステップ909)、不一致であれば、出力なしで(ステップ908)処理を終了する。
【0062】
ステップ905で前方一致条件でなければ、検索条件は後方一致条件なので、抽出済みデータ中の可変長文字列と検索文字列データについて、検索文字列データ長分後方一致するか判別し(ステップ906)、一致していれば、抽出済みデータをそのまま出力し(ステップ909)、不一致であれば、出力なしで(ステップ908)処理を終了する。
【0063】
前記の様に本実施形態では、可変長文字列データの前方文字列及び後方文字列を示すインデクスデータを作成することによってインデクス容量を削減し、このインデクスを用いてデータを絞り込むことにより、高速に検索を行うことが可能である。
【0064】
特に完全一致検索では、住所等に代表される前方文字列の重複の多い文字列に対しても、番地部分の様に変化の多い後方文字列部分もインデクスに取り込むことにより、十分にデータを絞り込むことができる。また前方一致検索でも、条件に指定された文字列の長さによっては前方文字列と合わせて後方文字列も用いることにより、やはり十分にデータを絞り込むことが可能である。
【0065】
以上説明した様に本実施形態の情報検索システムによれば、可変長文字列データの前方文字列及び後方文字列または可変長文字列データ全体を示すインデクスデータを用いてインデクス検索を行うので、可変長文字列の文字列データ長が長大になってもインデクス容量を一定に保った情報検索処理を行うことが可能である。
【0066】
【発明の効果】
本発明によれば可変長文字列データの前方文字列及び後方文字列または可変長文字列データ全体を示すインデクスデータを用いてインデクス検索を行うので、可変長文字列の文字列データ長が長大になってもインデクス容量を一定に保った情報検索処理を行うことが可能である。
【図面の簡単な説明】
【図1】本実施形態の情報検索システムの構成を示す図である。
【図2】本実施形態のインデクスデータ形式の第1の例を示す図である。
【図3】本実施形態のインデクスデータ形式の第2の例を示す図である。
【図4】本実施形態のインデクスデータ作成処理部106及びインデクスデータ作成処理部112の処理手順を示すフローチャートである。
【図5】本実施形態のインデクス走査処理部107の処理手順を示すフローチャートである。
【図6】本実施形態の完全一致比較処理の処理手順を示すフローチャートである。
【図7】本実施形態の前方一致比較処理の処理手順を示すフローチャートである。
【図8】本実施形態の後方一致比較処理の処理手順を示すフローチャートである。
【図9】本実施形態の文字列比較処理部109の処理手順を示すフローチャートである。
【符号の説明】
105…検索文字列入力、110…データ出力、111…データ入力、101…データ格納処理装置、102…データ検索処理装置、103…インデクス表ファイル、104…データ表ファイル、112…インデクスデータ作成処理部、113…インデクス表作成処理部、114…データ表作成処理部、106…インデクスデータ作成処理部、107…インデクス走査処理部、108…データ抽出処理部、109…文字列比較処理部、201…可変長文字列データ、202…インデクスデータ、203…インデクス文字列データ長、301…可変長文字列データ、302…インデクスデータ、303…インデクス文字列データ長、608…インデクス文字列データ長、709…インデクス文字列データ長、809…インデクス文字列データ長。

Claims (6)

  1. 記憶手段に格納したインデクスデータを参照して可変長文字列データの情報検索を行う情報検索装置における情報検索方法において、
    可変長文字列データ長が所定の長さよりも長い場合に可変長文字列データの前方文字列及び後方文字列を示すインデクスデータを生成して前記記憶手段に格納し、可変長文字列データ長が所定の長さ以下である場合に可変長文字列データ全体を示すインデクスデータを生成して前記記憶手段に格納し、前記記憶手段に格納されたインデクスデータから入力した検索条件に対応する前記記憶手段に格納されたインデクスデータを前記記憶手段より参照して抽出し、そのインデクスデータに対応する可変長文字列データのデータ格納位置を情報検索装置により取得するステップと、
    前記取得したデータ格納位置で示される可変長文字列データを記憶手段から読み出して抽出するステップと、前記抽出した可変長文字列データと検索文字列データとを比較して検索条件を満たす可変長文字列データを前記検索条件の結果として出力するステップとを有することを特徴とする情報検索方法。
  2. 字列長に応じて前記前方文字列及び後方文字列を示すインデクスデータまたは可変長文字列データ全体を示すインデクスデータを前記記憶手段から読み出して検索文字列データと比較するステップを有することを特徴とする請求項1に記載された情報検索方法。
  3. 可変長文字列データの情報検索を行う情報検索装置において、
    可変長文字列データ長が所定の長さよりも長い場合に可変長文字列データの前方文字列及び後方文字列を示すインデクスデータを設定し、可変長文字列データ長が所定の長さ以下である場合に可変長文字列データ全体を示すインデクスデータを設定するインデクスデータ作成処理部と、
    前記設定したインデクスデータから検索条件に対応するインデクスデータを抽出し、そのインデクスデータに対応する可変長文字列データのデータ格納位置を取得するインデクス走査処理部と、
    前記取得したデータ格納位置で示される可変長文字列データを抽出するデータ抽出処理部と、前記抽出した可変長文字列データと検索文字列データとを比較して検索条件を満たす可変長文字列データを出力する文字列比較処理部とを備えることを特徴とする情報検索装置。
  4. 字列長に応じて前記前方文字列及び後方文字列を示すインデクスデータまたは可変長文字列データ全体を示すインデクスデータと検索文字列データとを比較することを特徴とする請求項3に記載された情報検索装置。
  5. 可変長文字列データの情報検索を行う情報検索装置としてコンピュータを機能させる為のプログラムを記録したコンピュータ読み取り可能な記録媒体において、
    可変長文字列データ長が所定の長さよりも長い場合に可変長文字列データの前方文字列及び後方文字列を示すインデクスデータを設定し、可変長文字列データ長が所定の長さ以下である場合に可変長文字列データ全体を示すインデクスデータを設定するインデクスデータ作成処理部と、
    前記設定したインデクスデータから検索条件に対応するインデクスデータを抽出し、そのインデクスデータに対応する可変長文字列データのデータ格納位置を取得するインデクス走査処理部と、
    前記取得したデータ格納位置で示される可変長文字列データを抽出するデータ抽出処理部と、前記抽出した可変長文字列データと検索文字列データとを比較して検索条件を満たす可変長文字列データを出力する文字列比較処理部としてコンピュータを機能させる為のプログラムを記録したことを特徴とする記録媒体。
  6. 字列長に応じて前記前方文字列及び後方文字列を示すインデクスデータまたは可変長文字列データ全体を示すインデクスデータと検索文字列データとを比較する処理部としてコンピュータを機能させる為のプログラムを記録したことを特徴とする請求項5に記載された記録媒体。
JP2000185693A 2000-06-21 2000-06-21 情報検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体 Expired - Fee Related JP4298138B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000185693A JP4298138B2 (ja) 2000-06-21 2000-06-21 情報検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000185693A JP4298138B2 (ja) 2000-06-21 2000-06-21 情報検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2002007411A JP2002007411A (ja) 2002-01-11
JP4298138B2 true JP4298138B2 (ja) 2009-07-15

Family

ID=18685973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000185693A Expired - Fee Related JP4298138B2 (ja) 2000-06-21 2000-06-21 情報検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4298138B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645374A (zh) * 2005-01-17 2005-07-27 徐文新 位标记字符串检索技术
JP5614338B2 (ja) * 2011-03-14 2014-10-29 富士通株式会社 検索装置、プログラム及び方法

Also Published As

Publication number Publication date
JP2002007411A (ja) 2002-01-11

Similar Documents

Publication Publication Date Title
JP2758826B2 (ja) 文書検索装置
JP3289968B2 (ja) 電子的文書処理のための装置および方法
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
US20080133565A1 (en) Device and method for constructing inverted indexes
JPH08255155A (ja) 全文登録語検索装置および方法
JP3022539B1 (ja) 文書検索装置
JP4298138B2 (ja) 情報検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
JP2003186889A (ja) 文書に注釈付けし、文書イメージから要約を生成する方法及び装置
JPH067385B2 (ja) キ−ワ−ド自動抽出方式
JPH05257774A (ja) インデックス・レコード番号を圧縮・格納した情報検索装置
JPH0785080A (ja) 全文書検索システム
JP4682627B2 (ja) 文書検索装置および方法
JP2005190141A (ja) 情報区分装置、情報区分方法及び情報区分プログラム
JPH06309365A (ja) 文書処理装置
JP3825829B2 (ja) 登録情報検索装置及びその方法
JP2002092017A (ja) 概念辞書拡張方法、装置、および概念辞書拡張プログラムを記録した記録媒体
JP3486168B2 (ja) 検索システム、ファイリングシステム、記録媒体
JPH0991305A (ja) 情報処理方法及び装置
JP3099683B2 (ja) 情報検索装置
JPH09212523A (ja) 全文検索方法
JP3121401B2 (ja) 認識辞書及び文字認識装置
JP2004005103A (ja) 類似文書検索装置および類似文書検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
KR100544375B1 (ko) 문서파일로부터 명함정보를 추출하기 위한 장치와 방법,및 상기 방법을 기록한 기록매체
JP3928677B2 (ja) 情報検索方法および情報検索装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060530

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060728

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060829

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061030

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070105

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070223

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090312

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090415

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140424

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees