JP2000067070A - 情報検索方法、検索ファイル作成方法及び情報検索装置 - Google Patents

情報検索方法、検索ファイル作成方法及び情報検索装置

Info

Publication number
JP2000067070A
JP2000067070A JP10236817A JP23681798A JP2000067070A JP 2000067070 A JP2000067070 A JP 2000067070A JP 10236817 A JP10236817 A JP 10236817A JP 23681798 A JP23681798 A JP 23681798A JP 2000067070 A JP2000067070 A JP 2000067070A
Authority
JP
Japan
Prior art keywords
search
character
character string
delimiter
index file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10236817A
Other languages
English (en)
Inventor
Tetsuya Kinoshita
哲也 木下
Masao Ito
正雄 伊藤
Tomoko Fujita
智子 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP10236817A priority Critical patent/JP2000067070A/ja
Publication of JP2000067070A publication Critical patent/JP2000067070A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 全文検索を用いた情報検索装置において、単
語の途中の文字列でヒットしてしまうという問題を解決
し、検索精度の高い情報検索装置を実現することを目的
とする。 【解決手段】 データ登録の際に登録データ作成手段1
03が区切り文字挿入手段102を利用して区切り文字
が挿入された登録データを作成し、インデックスファイ
ル作成手段104がインデックスファイルを作成する。
検索の際には、登録データと同様に検索文字列作成手段
106が区切り文字挿入手段を利用して検索文字列に区
切り文字を挿入し、インデックスファイル検索手段10
7がインデックスファイルを検索することにより、単語
の途中の文字列でヒットすることがなくなり、精度の高
い検索を行なうことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は電子計算機を利用し
て、データベースに登録されたデータの中から、指定さ
れた文字列で検索する場合、特に登録されたデータから
精度の高い検索を行なえるようにした情報検索方法、検
索ファイル作成方法及び情報検索装置に関するものであ
る。
【0002】
【従来の技術】近年、さまざまな文書が電子化されてき
ているのにともない、利用者が思いついた言葉を検索文
字列として入力すると、データベースに登録されたデー
タを全文検索し、大量なデータから目的のデータを抽出
する検索ソフトウエアの需要が高まっている。
【0003】この種の要求に対して、従来の情報検索装
置は、文字連鎖情報を持つインデックスファイルを使用
した全文検索を行なっている。以下、従来の情報検索装
置について説明する。
【0004】図19は従来の情報検索装置の構成図であ
る。図19において1901はユーザの要求を受け付け
る要求受付手段、1902は文字連鎖情報を生成しイン
デックスファイルを作成するインデックスファイル作成
手段、1903は作成されたインデックスファイルを格
納するインデックスファイル記憶部、1904はインデ
ックスファイルを検索するインデックスファイル検索手
段、1905は検索結果を出力する検索結果出力手段で
ある。
【0005】以上のように構成された情報検索装置にお
いて、その動作を図20を用いて説明する。まず、ユー
ザがデータの登録要求を行なうと、要求受付手段190
1が要求を受け付け、登録データをインデックスファイ
ル作成手段1902に渡す。インデックスファイル作成
手段1902は隣合う2文字連鎖パターンを生成し、各
文字の出現度数とレコード番号を文字連鎖情報としてイ
ンデックスファイルを作成し、インデックスファイル記
憶部1903に格納する。
【0006】次に検索処理について説明する。ユーザが
検索要求を行なうと、要求受付手段1901が要求を受
け付け、インデックスファイル検索手段に1904に検
索を指示する。インデクスファイル検索手段1904は
検索文字列をインデックスファイル作成手段1902と
同様に隣合う2文字連鎖パターンを生成し、各文字連鎖
パターンに該当する文字連鎖情報をインデックスファイ
ル記憶部1903から抽出する。次に1番目の文字連鎖
の2文字目の出現度数と2番目の文字連鎖の1文字目の
出現度数を照合し、出現度数が同じでかつレコード番号
が同じものを抽出する。同様に次々とすべての文字連鎖
を照合し、抽出されたレコード番号を検索結果とし検索
結果出力手段1905に出力する。
【0007】
【発明が解決しようとする課題】しかしながら上記従来
の構成では、単語や特殊文字を意識せず、単なる文字の
羅列を調べる全文検索を行なうので、単語の途中に現れ
る文字列でもヒットしてしまい、利用者の目的のデータ
以外のデータが検索結果になり、検索の精度が低くなっ
てしまうという課題を有していた。
【0008】本発明は、上記の従来の技術の課題を解決
するもので、全文検索でありながら単語や特殊文字を意
識し、検索精度の高い情報検索装置を提供することを目
的とする。
【0009】
【課題を解決するための手段】この目的を達成するため
に、本発明は第1に、各種処理の要求を受け付ける要求
受付手段と、文字列を区切り単位で区切り、区切り文字
を挿入する区切り文字挿入手段と、区切り文字挿入手段
を利用して登録データを作成する登録データ作成手段
と、インデックスファイルを作成するインデックスファ
イル作成手段と、インデックスファイルを格納するイン
デックスファイル記憶部と、前記区切り文字挿入手段を
利用して検索文字列を作成する検索文字列作成手段と、
インデックスファイルを検索するインデックスファイル
検索手段と、検索結果を出力する検索結果出力手段を備
えたものである。
【0010】これにより、登録データに区切り文字を挿
入し、この区切り文字を挿入した登録データからインデ
ックスファイルを作成し、検索の際にも区切り文字を挿
入した検索文字列を作成しインデックスファイルを検索
することによって、単語の途中の意味のない文字列で検
索がヒットすることがなくなり、検索ゴミが減少すると
いう効果が得られる。
【0011】また、第2に前記第1の構成において、前
記インデックスファイル作成手段が登録データ中の特殊
文字に対しては、特殊文字の前後の文字連鎖情報をもつ
インデックスファイルを作成する特徴を備えたものであ
る。
【0012】これにより、登録データに特殊文字が含ま
れていた場合は、特殊文字の前後の文字連鎖情報も作成
されるため、特殊文字を含んだ文字連鎖情報だけでな
く、特殊文字を除いた場合と同じ文字連鎖情報も持った
インデックスファイルが作成される。そのため、検索の
際に特殊文字が省略された検索文字列で検索しても特殊
文字を含んでいた登録データも検索することができ、検
索精度が向上するという効果が得られる。
【0013】また、第3に前記第2の構成において、前
記検索文字列作成手段が検索文字列中の特殊文字を取り
除くという特徴を備えたものである。
【0014】これにより、特殊文字を含んだ検索文字列
で検索した場合、前記インデックスファイルの情報か
ら、特殊文字を含んだデータのみしかヒットしないが、
検索文字列作成手段により、特殊文字を除いた検索文字
列が作成されることにより、前記インデックスファイル
の情報から特殊文字を含まないデータも含んでいたデー
タも検索することができることになり、検索文字列、ま
たは登録データの特殊文字の有無に関わらず検索するこ
とができ、検索精度が向上するという効果が得られる。
【0015】また、第4に前記第1または第2または第
3の構成において、検索結果を判定する検索結果判定手
段と、検索結果判定手段の判定から、前記検索文字列作
成手段が、前記区切り文字挿入手段を使用しないで再度
検索文字列を作成し検索するという特徴を備えたもので
ある。
【0016】これにより、区切り文字を挿入した検索結
果が0件の場合は、区切り文字を挿入しない検索文字列
で再度検索を行ない、登録データの区切り単位の途中の
文字列でもヒットするようになり、ヒットするデータが
存在しないという結果をできるだけ回避することができ
るという効果が得られる。
【0017】また、第5に前記第1または第2または第
3の構成において、検索文字列作成手段が区切り文字を
挿入した検索文字列と、区切り文字を挿入しない検索文
字列を作成し、両方で検索し、検索結果出力手段が両方
の検索結果に重み付を行ない表示するという特徴を備え
たものである。
【0018】これにより、区切り文字を挿入した検索文
字列での精度の高い検索結果を上位に表示し、区切り文
字を挿入しない検索文字列での検索結果を下位に表示す
ることにより、検索の精度によって重み付けをした検索
結果表示ができるという効果が得られる。
【0019】
【発明の実施の形態】本発明の実施の形態について図を
用いて説明する。
【0020】(実施の形態1)図1は本発明の一実施例
における情報検索装置の構成図である。図1において、
101はユーザからの各種処理の要求を受け付ける要求
受付手段、102は文字列を区切り単位で区切って区切
り文字を挿入する区切り文字挿入手段、103は区切り
文字挿入手段102を利用して登録データを作成する登
録データ作成手段、104は登録データ作成手段103
が作成した登録データからインデックスファイルを作成
するインデックスファイル作成手段、105はインデッ
クスファイル作成手段104が作成するインデックスフ
ァイルを格納するインデックスファイル記憶部、106
は区切り文字挿入手段102を利用して、検索文字列を
作成する検索文字列作成手段、107は検索文字列作成
手段106が作成した検索文字列でインデックスファイ
ルを検索するインデックスファイル検索手段、108は
インデックスファイル検索手段107の検索結果を出力
する検索結果出力手段である。
【0021】以上のように構成された情報検索装置につ
いて、区切り文字を挿入した登録データを作成し、その
区切り文字を用いた検索の処理動作を説明する。
【0022】まず、データの登録処理の動作を説明す
る。データの登録は図2の処理フローによって実行され
る。
【0023】ユーザがデータ登録を要求すると、要求受
付手段101が登録要求を受け付ける。(ステップ1)
登録データ作成手段103はユーザからの登録データか
ら登録する文字列を読みとり、(ステップ2)登録する
文字列を区切り文字挿入手段102に渡す。区切り文字
挿入手段102は登録する文字列を単語に区切り、区切
り文字を挿入する。(ステップ3)登録データ作成手段
103は区切り文字が挿入された文字列から登録データ
を作成する。(ステップ4) いま、ユーザが図3(A)のようなレコード番号1の”
ホームランで逆転し快勝した”という内容のデータを登
録したとする。登録する文字列を区切る方法は、本実施
形態では図3(B)のように文字種の異なるところで区
切る方法とした。この場合では、”ホームラン”と”
で”ではカタカナから平仮名に文字種がかわるため
に、”ホームラン”と”で”は文字列が区切られる。こ
の区切られた文字列の先頭に区切り文字として”▲”を
入れ、登録データが作成される。
【0024】この登録データを使ってインデックスファ
イル作成手段104がインデックスファイルを作成す
る。 (ステップ5)インデックスファイルは2文字の
文字連鎖のそれぞれの文字の出現度数とレコード番号を
保持する。
【0025】上記の区切り文字を挿入した登録データの
内容の文字の出現度数は図4(A)のようになる。この
データを先頭から2文字連鎖で分割すると、最初の文字
連鎖は(▲、ホ)となり、その文字連鎖の出現度数が
(1、1)でレコード番号が1なので、(1、1、1)
という文字連鎖情報が作成される。次の文字連鎖は
(ホ、ー)となり、この文字連鎖の文字連鎖情報は
(1、1、1)となる。同様にすべての文字連鎖に対す
る文字連鎖情報が作成される。
【0026】次にデータの検索処理の動作を説明する。
データの検索は図5の処理フローによって実行される。
【0027】ユーザが検索を要求すると、要求受付手段
101が検索要求を受け付け、検索文字列を検索文字列
作成手段106に渡す。(ステップ1)検索文字列作成
手段106は検索文字列を区切り文字挿入手段102に
渡し、区切り文字挿入手段102は検索文字列を区切り
単位で区切り、区切り文字を挿入する。(ステップ2)
検索文字列作成手段106は区切り文字が挿入された検
索文字列を作成し、(ステップ3)インデックスファイ
ル検索手段107に検索文字列を渡す。インデックスフ
ァイル検索手段107は上記区切り文字が挿入された検
索文字列でインデックスファイル記憶部105のデータ
を検索し(ステップ4)、検索結果出力手段108に検
索結果を出力する。(ステップ5) いま、ユーザが”ホームラン”という文字列で検索をし
たとする。登録の際と同様に文字種で区切り、区切り文
字を挿入する。この場合はカタカナだけなので、”▲ホ
ームラン”という検索文字列が作成される。インデック
スファイルの検索はこの区切り文字を挿入された検索文
字列で行なわれる。
【0028】インデックスファイルの検索は図6の処理
フローによって実行される。まず、検索文字列から2文
字の文字連鎖を作成する。(ステップ1)検索文字列”
▲ホームラン”から文字連鎖(▲、ホ)、(ホ、ー)、
(ー、ム)、(ム、ラ)、(ラ、ン)が作成される。
(図7(A))作成された文字連鎖の情報をインデック
スファイル記憶部105から取得し、(ステップ2)連
続した2組の文字連鎖情報において、1組目の文字連鎖
情報の2番目の文字の出現度数と2組目の文字連鎖情報
の1番目の出現度数が一致し、かつレコード番号が一致
するものがあるかどうか照合し、(ステップ3)該当レ
コード番号を出力する。(ステップ4)最初の文字連鎖
(▲、ホ)の2番目の文字”ホ”の出現度数と次の文字
連鎖(ホ、ー)の先頭文字”ホ”の出現度数を比較し、
出現度数とレコード番号が一致するものを抽出する。こ
の場合、それぞれの出現度数情報は(1、1、1)と
(1、1、1)なので、(▲、ホ)の”ホ”の出現度数
1と(ホ、ー)の”ホ”の出現度数1が一致し、レコー
ド番号1も一致する。出現度数とレコード番号が一致す
るということは、文字連鎖(▲、ホ)の”ホ”と、文字
連鎖(ホ、ー)の”ホ”は同一文字ということになり、
この二つの文字連鎖は連続した文字列であることにな
る。この照合を検索文字列のすべての文字連鎖について
繰り返すと、”▲ホームラン”という連続した文字列が
レコード番号1に含まれることになる。
【0029】以上のように、本実施の形態の情報検索装
置では、登録データに区切り文字を挿入し、この区切り
文字を挿入した登録データからインデックスファイルを
作成し、検索の際にも区切り文字を挿入した検索文字列
を作成しインデックスファイルを検索することによっ
て、単語の途中の意味のない文字列で検索がヒットする
ことがなくなり、検索ゴミが減少する。例えば、図3
(A)のように、”ホームラン”という文字列があった
場合、”ホームラン”の前に区切り文字が挿入されて”
▲ホームラン”となっており、検索文字列にも同様な区
切り文字を挿入して検索するために、”ラン”という検
索文字列では”▲ラン”という文字列で検索することに
なり、”ホームラン”の”ラン”ではヒットしなくな
る。
【0030】なお、文字列の区切りは、本実施形態では
文字種異のなるところとしたが、カタカナ、英数字等の
ある特定の文字種や、記号としたり、形態素解析を行な
うなどがあり、自由に設定できるものとする。
【0031】また、挿入する区切り文字は本実施形態で
は一つの区切り文字としたが、区切られた文字列の先頭
の文字種や文字により、異なる区切り文字を挿入し、区
切り文字の文字連鎖の出現度数を平均化することによっ
て、検索の際の照合を高速化することができる。
【0032】また、インデックスファイルは本実施形態
では2文字の文字連鎖の出現情報を管理するものとした
が、3文字など複数文字の文字連鎖の出現情報を管理す
るものであれば適用できる。
【0033】また、区切り文字は区切り単位の先頭に入
れたが、区切り単位の末尾に別の区切り文字、例えば”
△”を挿入し、この末尾の区切り文字”△”を検索文字
列の区切り単位の末尾に挿入することによって、”▲ホ
ーム”のような前方一致検索だけでなく、”ラン△”の
ような後方一致検索も可能となり、また両者を組み合わ
せた検索も実現できる。
【0034】(実施の形態2)第2の実施の形態とし
て、登録データに特殊文字が存在する場合には、特殊文
字の前後の文字連鎖情報をもつインデックスファイルを
作成する場合の動作を説明する。
【0035】図8は本発明の第2の実施形態における情
報検索装置の構成図である。図8において、図1と同一
番号を付したものは同一構成要素を示し、図1の構成と
異なるのは、登録データに特殊文字が存在した場合に、
特殊文字の前後の文字連鎖情報を持つインデックスファ
イルを作成するインデックスファイル作成手段801で
ある。
【0036】まず、データの登録処理は、第1の実施形
態の処理フローである図2と同様の処理が行なわれる。
ここで、ステップ5のインデックスファイルの作成処理
は図9の処理フローによって実行される。
【0037】インデックスファイル作成手段801は2
文字の文字連鎖を作成する。(ステップ1)この時に、
文字列と文字列を繋ぐ意味を持つ特殊文字”・”が存在
した場合は、(ステップ2)この”・”の前後の文字連
鎖を作成する。(ステップ3)最後にこれらの文字連鎖
情報を作成し、インデックスファイル記憶部105に格
納する。(ステップ4) ユーザが”ホーム・ページ”というデータを登録したと
すると、第1の実施形態と同様な処理で区切り文字が挿
入された”▲ホーム・▲ページ”という登録データが作
成される。この文字列の2文字連鎖を作成する。(図1
0(A))ここで、この文字列には特殊文字”・”が存
在するので、区切り文字を除いたその前後の文字連鎖
(ム、ぺ)も作成する。(図10(B))そして、これ
らの文字連鎖の文字連鎖情報を第1の実施例と同様に作
成する。(図10(C)) 次にデータの検索処理は、第1の実施の形態の処理フロ
ーである図5、図6と同様の処理が行なわれる。
【0038】ユーザが”ホームページ”という文字列で
検索したとすると、第1の実施の形態と同様に区切り文
字が挿入された検索文字列”▲ホームページ”が作成さ
れる。この検索文字列から2文字連鎖が作成され、(図
11(A))これらの2文字連鎖の出現度数情報を図1
0(B)から取得し照合することにより(図11
(B))、”ホーム・ページ”という内容で登録された
データが、”ホームページ”という検索文字列でも検索
することができる。
【0039】また、同様に”ホーム・ページ”という内
容で登録されたデータが”ホーム”または”ページ”と
いう検索文字列でも検索することができる。(図11
(A)(B)) 以上のように、本実施の形態の情報検索装置では、イン
デックスファイル作成の際に、となり合う2文字連鎖の
文字連鎖情報だけでなく、特殊文字の前後の文字連鎖情
報を作成することにより、文字の区切りを意味する”
・”などが含まれる登録データに対しても、”・”を含
まない検索文字列でも検索することができ、検索精度の
向上をはかることができる。
【0040】なお、特殊文字としては本実施形態では”
・”としたが、、”-”や_”など、文字列を区切って
いるが、連続した単語としても扱いたいものを採用する
こともできる。
【0041】(実施の形態3)第3の実施の形態とし
て、検索文字列に特殊文字が存在する場合には、特殊文
字を削除した検索文字列を作成し検索する場合の動作を
説明する。
【0042】図12は本発明の第3の実施形態における
情報検索装置の構成図である。図12において、図8と
同一番号を付したものは同一構成要素を示し、図8の構
成と異なるのは、検索文字列に特殊文字が存在した場合
に、特殊文字と取り除いた検索文字列を作成する検索文
字列作成手段1201である。
【0043】まず、データの登録処理は第2の実施の形
態と同様に、図2、図9の処理フローによって行なわれ
る。
【0044】次にデータの検索処理の動作を説明する。
データの検索は図13の処理フローによって実行され
る。
【0045】ユーザが検索を要求すると、要求受付手段
101が検索要求を受け付け、検索文字列を検索文字列
作成手段106に渡す。(ステップ1)検索文字列作成
手段106は検索文字列に登録時に設定した特殊文字”
・”が存在するかどうか調べ、(ステップ2)存在すれ
ば検索文字列から特殊文字”・”を取り除く。(ステッ
プ3)その後は、第1の実施の形態の図5の処理フロー
のステップ2からステップ5および図6と同様の処理で
検索が行なわれる。
【0046】これにより、ユーザが”ホーム・ページ”
という文字列で検索したとすと、検索文字列に特殊文
字”・”が存在するので、特殊文字が取り除かれ、”ホ
ームページ”という検索文字列で検索されるため、”ホ
ームページ”という内容のデータはもちろん、第2の実
施形態と同様に(図11(A)(B))、”ホーム・ペ
ージ”という内容で登録されたデータも検索することが
できる。
【0047】以上のように、本実施の形態の情報検索装
置では、上記第2の実施形態の構成のインデックスファ
イルの検索において、検索文字列に特殊文字が存在する
場合には特殊文字を取り除いた検索文字列で検索するこ
とにより、検索文字列や登録データ中の文字の区切りを
意味する”・”の有無に関わらない検索が可能となり、
検索精度の向上をはかることができる。
【0048】なお、登録時の特殊文字としては本実施形
態では第2の実施形態と同様に”・”としたが、、”
-”や_”など、文字列を区切っているが、連続した単
語としても扱いたいものを採用することもできる。
【0049】また、本実施形態では検索文字列中の削除
する特殊文字を”・”としたが、インデックスファイル
作成において特殊文字として採用したものであれば適用
することができる。
【0050】(実施の形態4)第4の実施の形態とし
て、区切り文字を入れた検索文字列で検索した結果、ヒ
ットするデータが0件の場合に、区切り文字を入れない
文字列で再度検索する場合の動作を説明する。
【0051】図14は本発明の第4の実施形態における
情報検索装置の構成図である。図14において、図1と
同一番号を付したものは同一構成要素を示し、図1の構
成と異なるのは、検索結果を判定する検索結果判定手段
1401と検索結果判定手段1401の判定から、区切
り文字挿入手段102を使用しないで再度検索文字列を
作成する検索文字列作成手段1402である。
【0052】まず、データの登録処理は第1の実施形態
と同様に、図2の処理フローによって行なわれる。
【0053】次にデータの検索処理の動作を説明する。
まず、第1の実施形態の処理フローである図5のステッ
プ1からステップ4まで同様の処理を行ない、検索を行
なう。その後の処理は図15の処理フローによって行な
われる。
【0054】検索結果判定手段1401は検索件数が0
件かどうか調べる。(ステップ1)検索件数が0件の場
合は、検索文字列作成手段1402が区切り文字挿入手
段102を使用しないで、区切り文字を挿入しない検索
文字列を作成する。(ステップ2)そしてこの検索文字
列で再度インデックスファイルの検索を行ない、(ステ
ップ3)検索結果を出力する。(ステップ4)インデッ
クスファイルの検索は第1の実施形態の処理フローであ
る図6と同様の処理を行なう。
【0055】例えば、”ホームページ”という内容のデ
ータが登録されていた場合に、ユーザが検索文字列”ペ
ージ”で検索すると、区切り文字が挿入された検索文字
列”▲ページ”で検索されるため、”ホームページ”と
いうデータはヒットしない。そこで、再度区切り文字を
取り除いた検索文字列”ページ”で検索することによ
り、”ホームページ”というデータが検索される。
【0056】以上のように、本実施の形態の情報検索装
置では、区切り文字を挿入した検索文字列での検索件数
が0件の場合に、区切り文字を挿入しない検索文字列で
再検索を行なうことにより、単語の途中でヒットしない
ような高精度の検索の結果、ヒットするデータが存在し
なくなってしまった場合、単語の途中の文字列でも検索
をヒットさせ、ヒットするデータが存在しないという状
態をできるだけ回避することができる。
【0057】なお、本実施形態では登録時や検索文字列
作成時に特殊文字に対する処理を行っていないが、前記
第2または第3の実施例と同様な特殊文字に対する処理
を行なった形態でも実現できる。
【0058】なお、本実施形態では、検索結果が0件の
場合に再度区切り文字を取り除いた検索文字列で検索を
行なったが、検索結果の件数はあらかじめ指定した件数
(N件)としても実現できる。
【0059】(実施の形態5)第5の実施の形態とし
て、区切り文字を入れた検索文字列と、区切り文字を入
れない検索文字列の両方で検索し、それぞれの検索結果
に重み付をして表示する場合の動作を説明する。
【0060】図16は本発明の第5の実施形態における
情報検索装置の構成図である。図16において、図1と
同一番号を付したものは同一構成要素を示し、図1の構
成と異なるのは、区切り文字挿入手段102を使用して
検索文字列と、区切り文字挿入手段102を使用しない
検索文字列を作成する検索文字列作成手段1601と、
それぞれの検索結果に対して重み付をおこない検索結果
を出力する検索結果出力手段1602である。
【0061】まず、データ登録処理は第1の実施の形態
と同様に、図2の処理フローによって行なわれる。
【0062】次にデータの検索処理の動作を説明する。
データの検索は図17の処理フローによって実行され
る。
【0063】ユーザが検索を要求すると、第1の実施の
形態と同様に、要求受付手段101が検索要求を受け付
け、検索文字列を検索文字列作成手段1601に渡す。
(ステップ1)検索文字列作成手段1601は検索文字
列を区切り文字挿入手段102に渡し、区切り文字挿入
手段102は検索文字列を区切り単位で区切り、区切り
文字を挿入する。(ステップ2)検索文字列作成手段1
601は区切り文字が挿入された検索文字列を作成す
る。(ステップ3)さらに、検索文字列作成手段160
1は区切り文字が挿入されていない検索文字列を作成す
る。(ステップ4)次に、区切り文字を挿入した検索文
字列と、区切り文字を挿入していない検索文字列の両方
をインデックスファイル検索手段107に渡しインデッ
クスファイル記憶部105のデータを検索する。(ステ
ップ5)検索結果出力手段1602は区切り文字を挿入
した検索文字列に対する検索結果に上位の重みをつけ、
区切り文字を挿入していない検索文字列に対する検索結
果に下位の重みをつけて表示する。(ステップ6) 例えば、”ページ”という条件で検索要求があると、第
1の実施の形態と同様に”▲ページ”という区切り文字
を挿入した検索文字列が作成される。また、区切り文字
を挿入していない”ページ”という検索文字列も作成さ
れる。次に”▲ページ”と”ページ”のそれぞれの検索
文字列でインデックスファイルの検索が行なわれる。イ
ンデックスファイルの検索は第1の実施形態の図6の処
理フローと同様に行なわれる。インデックスファイルの
検索の結果、”▲ページ”という検索文字列での検索
で”ページ””ページデザイン”というデータを含むレ
コードが検索されたとする。また”ページ”という検索
文字列での検索で”ホームページ””タウンページ”と
いうデータを含むレコードが検索されたとする。この検
索結果を表示する際に、”▲ページ”という文字列で検
索されたレコード”ページ””ページ数”を上位に表示
し、”ページ”という文字列で検索された”ホームペー
ジ””タウンページ”を下位に表示する。(図18) 以上のように、本実施の形態の情報検索装置では、区切
り文字を挿入した検索文字列と区切り文字を挿入しない
検索文字列の両方で検索を行ない、区切り文字を挿入し
た検索文字列での精度の高い検索結果を上位に表示し、
区切り文字を挿入しない検索文字列の結果を下位に表示
することにより、検索の精度によって重み付けをした検
索結果表示ができる。
【0064】なお、本実施形態では登録時や検索文字列
作成時に特殊文字に対する処理を行っていないが、前記
第2または第3の実施例と同様な特殊文字に対する処理
を行なった形態でも実現できる。
【0065】
【発明の効果】以上のように本発明によれば、第1に各
種処理の要求を受け付ける要求受付手段と、文字列を区
切り単位で区切り、区切り文字を挿入する区切り文字挿
入手段と、区切り文字挿入手段を利用して登録データを
作成する登録データ作成手段と、前記登録データ作成手
段が作成した登録データからインデックスファイルを作
成するインデックスファイル作成手段と、前記インデッ
クスファイル作成手段が作成するインデックスファイル
を格納するインデックスファイル記憶部と、前記区切り
文字挿入手段を利用して検索文字列を作成する検索文字
列作成手段と前記検索文字列作成手段が作成した検索文
字列でインデックスファイルを検索するインデックスフ
ァイル検索手段と、前記インデックスファイル検索手段
の検索結果を出力する検索結果出力手段を備えたことに
より、登録データに区切り文字を挿入し、この区切り文
字を挿入した登録データからインデックスファイルを作
成し、検索の際にも区切り文字を挿入した検索文字列を
作成しインデックスファイルを検索することによって、
単語の途中の意味のない文字列で検索がヒットすること
がなくなり、検索ゴミが減少するという効果が得られ
る。
【0066】第2に前記第1の構成において、前記イン
デックスファイル作成手段が登録データ中の特殊文字に
対しては、特殊文字の前後の文字連鎖情報をもつインデ
ックスファイルを作成する特徴を備えたことにより、登
録データに特殊文字が含まれていた場合は、特殊文字の
前後の文字連鎖情報も作成されるため、特殊文字を含ん
だ文字連鎖情報だけでなく、特殊文字を除いた場合と同
じ文字連鎖情報も持ったインデックスファイルが作成さ
れる。そのため、検索の際に特殊文字が省略された検索
文字列で検索しても特殊文字を含んでいた登録データも
検索することができ、検索精度が向上するという効果が
得られる。
【0067】第3に前記第2の構成において、前記検索
文字列作成手段が、検索文字列中の特殊文字を取り除く
という特徴を備えたことにより、特殊文字を含んだ検索
文字列で検索した場合、前記インデックスファイルの情
報から、特殊文字を含んだデータのみしかヒットしない
が、検索文字列作成手段により、特殊文字を除いた検索
文字列が作成されることにより、前記インデックスファ
イルの情報から特殊文字を含まないデータも含んでいた
データも検索することができることになり、検索文字
列、または登録データの特殊文字の有無に関わらず検索
することができ、検索精度が向上するいう効果が得られ
る。
【0068】第4に前記第1または第2または第3の構
成において、検索結果を判定する検索結果判定手段と、
前記検索結果判定手段の判定から、前記検索文字列作成
手段が、前記区切り文字挿入手段を使用しないで再度検
索文字列を作成するという特徴を備えたことにより、区
切り文字を挿入した検索結果が0件の場合は、区切り文
字を挿入しない検索文字列で再度検索を行ない、登録デ
ータの区切り単位の途中の文字列でもヒットするように
なり、ヒットするデータが存在しないという結果をでき
るだけ回避することができるという効果が得られる。
【0069】第5に前記第1または第2または第3の構
成において、検索文字列作成手段が区切り文字を挿入し
た検索文字列と、区切り文字を挿入しない検索文字列を
作成し、両方で検索し、検索結果出力手段が両方の検索
結果に重み付を行ない表示するという特徴を備えたこと
により、区切り文字を挿入した検索文字列での精度の高
い検索結果を上位に表示し、区切り文字を挿入しない検
索文字列での検索結果を下位に表示することにより、検
索の精度によって重み付けをした検索結果表示ができる
という効果が得られる。
【図面の簡単な説明】
【図1】第1の実施の形態における情報検索装置の構成
を示すブロック図
【図2】第1の実施の形態におけるデータの登録処理の
フロー図
【図3】(A)第1の実施の形態における登録データの
説明図 (B)第1の実施の形態における区切り文字挿入の説明
【図4】(A)第1の実施の形態における登録データの
出現度数の説明図 (B)第1の実施の形態におけるインデックスファイル
の説明図
【図5】第1の実施の形態における検索処理のフロー図
【図6】第1の実施の形態におけるインデックスファイ
ル検索処理のフロー図
【図7】(A)第1の実施の形態における検索文字列に
おける文字連鎖パターン作成の説明図 (B)第1の実施の形態における文字連鎖情報照合の説
明図
【図8】第2の実施の形態における情報検索装置の構成
を示すブロック図
【図9】第2の実施の形態におけるデータ登録処理のフ
ロー図
【図10】(A)第2の実施の形態における登録データ
における文字連鎖パターン作成の説明図 (B)第2の実施の形態における登録データにおける特
殊文字の前後の文字連鎖パターン作成の説明図 (C)第2の実施の形態におけるインデックスファイル
の説明図
【図11】(A)第2の実施の形態における検索文字列
の文字連鎖パターン作成の説明図 (B)第2の実施の形態における文字連鎖情報照合の説
明図
【図12】第3の実施の形態における情報検索装置の構
成を示すブロック図
【図13】第2の実施の形態における検索処理のフロー
【図14】第4の実施の形態における情報検索装置の構
成を示すブロック図
【図15】第4の実施の形態における検索処理のフロー
【図16】第5の実施の形態における情報検索装置の構
成を示すブロック図
【図17】第5の実施の形態における検索処理のフロー
【図18】第5の実施の形態における検索および結果表
示処理の説明図
【図19】従来の情報検索装置の構成図
【図20】従来の情報検索装置の処理図
【符号の説明】
101 要求受付手段 102 区切り文字挿入与手段 103 登録データ作成手段 104 インデックスファイル作成手段 105 インデックスファイル記憶部 106 検索文字列作成手段 107 インデックスファイル検索手段 108 検索結果出力手段 801 インデックスファイル作成手段 1201 インデックスファイル検索手段 1401 検索結果判定手段 1402 検索文字列作成手段 1601 検索文字列作成手段 1602 検索結果出力手段 1901 要求受付手段 1902 インデックスファイル作成手段 1903 インデックスファイル記憶部 1904 インデックスファイル検索手段 1905 検索結果出力手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤田 智子 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5B075 ND03 ND40 NK49 PQ02 PQ36 PQ74 PR06 QM01 QM02 QS01

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 登録データを文字列で区切り、区切り文
    字を挿入し、区切り文字を利用した検索を可能にした情
    報検索方法。
  2. 【請求項2】 特殊文字に対し、特殊文字の前後の文字
    連鎖情報を検索ファイルとして作成する検索ファイル作
    成方法。
  3. 【請求項3】 各種処理の要求を受け付ける要求受付手
    段と、文字列を区切り単位で区切り、区切り文字を挿入
    する区切り文字挿入手段と、区切り文字挿入手段を利用
    して登録データを作成する登録データ作成手段と、前記
    登録データ作成手段が作成した登録データからインデッ
    クスファイルを作成するインデックスファイル作成手段
    と、前記インデックスファイル作成手段が作成するイン
    デックスファイルを格納するインデックスファイル記憶
    部と、前記区切り文字挿入手段を利用して検索文字列を
    作成する検索文字列作成手段と、前記検索文字列作成手
    段が作成した検索文字列でインデックスファイルを検索
    するインデックスファイル検索手段と、前記インデック
    スファイル検索手段の検索結果を出力する検索結果出力
    手段を設けたことを特徴とする情報検索装置。
  4. 【請求項4】 前記インデックスファイル生成手段が、
    特殊文字に対して特殊文字の前後の文字連鎖情報をイン
    デックスファイルとして作成することを特徴とする請求
    項3記載の情報検索装置。
  5. 【請求項5】 前記検索文字列作成手段が、検索文字列
    中の特殊文字を取り除くことを特徴とする請求項4記載
    の情報検索装置。
  6. 【請求項6】 検索行なった結果を判定する検索結果判
    定手段と、前記検索結果判定手段の判定によって前記検
    索文字列作成手段が、前記区切り文字挿入手段を使用し
    ないで再度検索文字列を作成し検索することを特徴とす
    る請求項3または請求項4または請求項5記載の情報検
    索装置。
  7. 【請求項7】 前記検索文字列作成手段が、前記区切り
    文字挿入手段を使用して作成した検索文字列と、前記区
    切り文字挿入手段を使用しないで作成した検索文字列の
    両方で検索を行ない、前記検索結果出力手段が区切り文
    字を挿入した検索文字列での検索結果と、区切り文字を
    挿入しない検索文字列での検索結果に重み付けを行ない
    表示することを特徴とする請求項3または請求項4また
    は請求項5の記載の情報検索装置。
JP10236817A 1998-08-24 1998-08-24 情報検索方法、検索ファイル作成方法及び情報検索装置 Pending JP2000067070A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10236817A JP2000067070A (ja) 1998-08-24 1998-08-24 情報検索方法、検索ファイル作成方法及び情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10236817A JP2000067070A (ja) 1998-08-24 1998-08-24 情報検索方法、検索ファイル作成方法及び情報検索装置

Publications (1)

Publication Number Publication Date
JP2000067070A true JP2000067070A (ja) 2000-03-03

Family

ID=17006230

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10236817A Pending JP2000067070A (ja) 1998-08-24 1998-08-24 情報検索方法、検索ファイル作成方法及び情報検索装置

Country Status (1)

Country Link
JP (1) JP2000067070A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172372A (ja) * 2004-12-20 2006-06-29 Dainippon Printing Co Ltd 検索装置および方法
US7072889B2 (en) 2001-08-10 2006-07-04 Ricoh Company, Ltd. Document retrieval using index of reduced size
JP2014146301A (ja) * 2013-01-30 2014-08-14 Casio Comput Co Ltd 検索装置、検索方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072889B2 (en) 2001-08-10 2006-07-04 Ricoh Company, Ltd. Document retrieval using index of reduced size
JP2006172372A (ja) * 2004-12-20 2006-06-29 Dainippon Printing Co Ltd 検索装置および方法
JP4549839B2 (ja) * 2004-12-20 2010-09-22 大日本印刷株式会社 検索装置および方法
JP2014146301A (ja) * 2013-01-30 2014-08-14 Casio Comput Co Ltd 検索装置、検索方法及びプログラム
US9292508B2 (en) 2013-01-30 2016-03-22 Casio Computer Co., Ltd. Search device, search method and recording medium

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US6466901B1 (en) Multi-language document search and retrieval system
US5745745A (en) Text search method and apparatus for structured documents
JP2783558B2 (ja) 要約生成方法および要約生成装置
JP2742115B2 (ja) 類似文書検索装置
EP0645720A2 (en) Dictionary creation supporting system
JPH0628403A (ja) 文書検索装置
JPH0484271A (ja) 文書内情報検索装置
JP2005038395A (ja) データベース検索装置
JP3230606B2 (ja) 固有名詞特定方法
JPH06162092A (ja) 情報検索装置
JPH08147311A (ja) 構造化文書検索方法及び装置
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2000067070A (ja) 情報検索方法、検索ファイル作成方法及び情報検索装置
JP2007279964A (ja) 情報検索装置
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
JP2007026116A (ja) 概念検索システム及び概念検索方法
EP1072986A2 (en) System and method for extracting data from semi-structured text
JPH10340271A (ja) 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体
JP2000339342A (ja) 文書検索方法および文書検索装置
JPH08115330A (ja) 類似文書検索方法および装置
JPH04340164A (ja) マルチキーワード情報検索処理方式および検索ファイル作成装置
JP3187671B2 (ja) 電子辞書表示装置
JPH10105562A (ja) 検索システム
JP2001265762A (ja) 文書構造抽出装置及び文書構造情報抽出方法