JPH10307834A - 情報処理装置及び方法 - Google Patents

情報処理装置及び方法

Info

Publication number
JPH10307834A
JPH10307834A JP9117987A JP11798797A JPH10307834A JP H10307834 A JPH10307834 A JP H10307834A JP 9117987 A JP9117987 A JP 9117987A JP 11798797 A JP11798797 A JP 11798797A JP H10307834 A JPH10307834 A JP H10307834A
Authority
JP
Japan
Prior art keywords
character
search
searched
position data
switching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9117987A
Other languages
English (en)
Inventor
Noriko Machida
紀子 町田
Shiro Ito
史朗 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP9117987A priority Critical patent/JPH10307834A/ja
Publication of JPH10307834A publication Critical patent/JPH10307834A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】複数文書に対して文字列検索を行なう場合に、
検索時における文書番号等の比較処理を不要とし、検索
効率を向上させる。 【解決手段】被検索テキスト保持部101は検索の対象
となる複数の被検索文書を保持する。インデックス作成
部102は、複数の被検索文書に含まれる各文字につい
て、該複数の被検索文書の全体を通しての文字位置を登
録して文字位置データを生成し、インデックス保持部1
03に保持する。文書番号テーブル作成部104は、複
数の被検索文書の各文書が切り替わる位置を示す文書番
号テーブルを生成して、文書番号テーブル保持部105
に保持する。検索部107は、インデックス保持部10
3のインデックスを参照して検索文字列保持部106に
保持された検索文字列の存在位置を獲得する。文書番号
獲得部108は、検索文字列の存在位置と文書番号テー
ブルから、当該位置を含む被検索文書を特定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、指定された検索語
を含むテキストを検索する情報処理装置及び方法に関
し、特に複数文書を対象とする全文検索の高速化を図る
文字位置インデックス方式を用いた情報処理装置及び方
法に関するものである。
【0002】
【従来の技術】文書中の全てのテキストを対象として与
えられた検索キーを含む文書を検索する全文検索装置な
どのテキスト検索装置では、大量のテキストを高速に検
索するために、検索対象文書のインデックスを予め作成
して、インデックスを用いて検索を行なうインデックス
技術が利用されている。このようなインデックス技術の
一例として、特開平4−205560号公報には、文字
位置インデックス技術が開示されている。
【0003】文字位置インデックス技術の基本的な考え
方は、被検索テキスト中に出現する文字および文字列の
位置を文字ごとに1ずつ増加する整数で表わすことにあ
る。よって、この検索手法においては、各文字および文
字列ごとに、当該文字および文字列をキーとして、当該
文字および文字列が現れる全ての位置を列挙する文字位
置インデックスを用いて検索を行なう。
【0004】この文字位置インデックスにおいて、ある
検索文字列を被検索テキストから検索する場合には、当
該検索文字列をインデックスのキーとなっている文字お
よび文字列に分解し、分解した文字および文字列の位置
関係が、当該検索文字列における位置関係に一致する組
合せを探すことで検索を行なう。
【0005】図5は、この従来例のテキスト検索装置の
基本構成を示すブロック図である。同図において、50
1は、被検索テキストを保持する被検索テキスト保持部
である。502は、被検索テキスト保持部501に保持
されている被検索テキストに対して、被検索テキスト中
の文字ごとに、被検索テキストの文書番号と被検索テキ
スト中での当該文字の位置とを対にして列挙したインデ
ックスを作成するインデックス作成部である。503
は、インデックス作成部502で作成したインデックス
を保持するインデックス保持部である。504は、検索
を行なう文字列を保持する検索文字列保持部である。5
05は、インデックス保持部503に保持されているイ
ンデックスを用いて、検索文字列保持部504に保持さ
れている検索文字列に一致する被検索テキスト中の文字
列を検索する検索部である。506は、検索部による検
索結果を保持する検索結果保持部である。
【0006】次に、図6を参照して上記テキスト検索装
置におけるインデックス作成処理を説明する。ステップ
S601では、カウンタdの初期化を行なう。カウンタ
dは、処理の対象となっている被検索テキストの文書番
号を示すもので、これを0に初期化する。そしてステッ
プS602に移る。ステップS602では、カウンタd
が被検索テキストの文書数に達したか否かを判定する。
この判定の結果、達した場合は当該インデックス作成処
理を終了し、達していない場合は、ステップS603に
移る。
【0007】ステップS603では、カウンタcの初期
化を行なう。カウンタcは、処理の対象となっている文
字の位置を示すもので、これを0に初期化する。そして
ステップS604に移る。ステップS604では、ポイ
ンタpの初期化を行なう。ポインタpは、処理の対象と
なっている文字を指し示すもので、これを文書番号dの
被検索テキストの先頭文字に初期化する。そしてステッ
プS605に移る。
【0008】ステップS605では、ポインタpが被検
索テキストの最後に達したか否かを判定する。判定の結
果、達している場合はステップS609に移り、達して
いない場合はステップS606に移る。
【0009】ステップS606では、ポインタpが示す
位置にある文字について、インデックスの当該文字の位
置リストにカウンタdとカウンタcの値を追加する。そ
してステップS607においてカウンタcの値を1増や
す。続くステップS608では、ポインタpが次の文字
を指すようにし、ステップS605に戻る。以上のステ
ップS605〜S608の処理を、当該文書の最後まで
行なうと、処理はステップS605からステップS60
9に進む。
【0010】ステップS609では、カウンタdの値を
1増やして、次の文書に検索処理を進める。そしてステ
ップS602に戻る。
【0011】以上説明した処理により、例えば、図8に
示す3つの文書に対して、図9に示すインデックスが作
成される。なお、図8および9では、いくつかの文字以
外については表示を省略している。図9の各行が、各文
字が現れる文書番号と文字位置を対にして登録するリス
トとなっている。例えば、文字「高」は、文書2の位置
0、文書3の83、89…に出現している。
【0012】次に、図7のフローチャートを参照して、
従来例における検索処理の概要を説明する。まず、ステ
ップS701では、検索文字列保持部504に保持され
ている検索文字列の長さをLに代入する。また、検索対
象文字列の各文字の位置を示すカウンタnに1を代入す
る。例えば、検索文字列が「高速検索」である場合は、
L=4,n=1となる。ここで、n=1は、「高」を示
す。
【0013】次に、ステップS702では、検索文字列
保持部504に保持されている検索文字列の1番目の文
字(n=1、すなわち「高」)について、インデックス
の読み込みを行なう。当該文字の文書番号と文字位置の
組を全て配列1に読み込む。図12は、図9に示したイ
ンデックスを用いて検索文字列「高速検索」を検索して
いるときの配列1の状態を示している。
【0014】ステップS703では、変数Lとnを比較
し、n<Lである場合はステップS704に、n≧Lで
ある場合は、ステップS707にそれぞれ進む。
【0015】ステップS704では、nの値を1増や
す。続くステップS705では、検索文字列保持部50
4に保持されている検索文字列のn番目の文字につい
て、インデックスの読み込みを行ない、得られた文書番
号と文字位置の組を配列2に書き込む。このとき、得ら
れた当該文字の全ての文字位置については、(n−1)
を減じた値を配列2に書き込む。ステップS706で
は、配列1と配列2で文書番号と文字位置が等しい値の
組を全て取り出し、これらの値の組だけで新たに配列1
を構成する。そしてステップS703に戻る。図13
は、先に示した検索例におけるn=2のときの配列1の
状態を示している。
【0016】ステップS707では、配列1が空でなけ
れば、検索文字列を含む文書番号として配列1に格納さ
れた各文書番号を検索結果保持部506に保持する。配
列1が空の場合は、検索文字列が検索されなかったこと
を示す値として−1を検索結果保持部506に保持す
る。そして全ての処理を終了する。
【0017】以上の検索処理の結果、先の例で検索文字
列「高速検索」を検索すると、文書番号3の位置89に
当該文字列があるので、文書番号3が検索結果として返
される。
【0018】
【発明が解決しようとする課題】しかしながら、上記従
来の装置では、複数の被検索テキスト(文書)を区別す
るために、インデックスを文書番号と文書内文字位置の
組で構成している。このため、検索時に文字の連続性を
判定するたびに文書番号の比較演算を行なわなければな
らず、検索効率が低下するという欠点があった。
【0019】本発明は、上記の問題に鑑みてなされたも
のであり、複数文書に対して文字列検索を行なった場合
に、検索時における文書番号等の比較処理を不要とし、
検索効率を向上する情報処理装置及び方法を提供するこ
とを目的とする。
【0020】
【課題を解決するための手段】上記の目的を達成するた
めの本発明の情報処理装置は以下の構成を備える。すな
わち、検索の対象となる複数の被検索文書を保持する保
持手段と、前記複数の被検索文書に含まれる各文字につ
いて、該複数の被検索文書の全体を通しての文字位置を
登録して文字位置データを生成する第1生成手段と、前
記複数の被検索文書の各文書が切り替わる位置を示す切
替位置データを生成する第2生成手段と、前記第1及び
第2生成手段で生成された文字位置データと切替位置デ
ータを格納する格納手段とを備える。
【0021】また、好ましくは、上記の構成において、
与えられた検索文字列によって前記文字位置データを検
索し、該検索文字列と同じ文字列が存在する文字位置を
獲得する獲得手段と、前記獲得手段で獲得した文字位置
と前記切替位置データとに基づいて、当該文字位置を含
む被検索文書を特定する特定手段とを更に備える。
【0022】また、上記目的を達成する本発明の他の構
成の情報処理装置は、検索の対象となる複数の被検索文
書に含まれる各文字について、該複数の被検索文書の全
体を通しての文字位置が登録された文字位置データを保
持する第1保持手段と、前記複数の被検索文書の各文書
が切り替わる位置を示す切替位置データを保持する第2
保持手段と、与えられた検索文字列によって前記文字位
置データを検索し、該検索文字列と同じ文字列が存在す
る文字位置を獲得する獲得手段と、前記獲得手段で獲得
した文字位置と前記切替位置データとに基づいて、当該
文字位置を含む被検索文書を特定する特定手段とを備え
る。
【0023】また、上記の目的を達成する本発明の情報
処理方法は以下の工程を備える。すなわち、検索の対象
となる複数の被検索文書に含まれる各文字について、該
複数の被検索文書の全体を通しての文字位置を登録して
文字位置データを生成する第1生成工程と、前記複数の
被検索文書の各文書が切り替わる位置を示す切替位置デ
ータを生成する第2生成工程と、前記第1及び第2生成
工程で生成された文字位置データと切替位置データを格
納する格納工程とを備える。
【0024】また、好ましくは、与えられた検索文字列
によって前記文字位置データを検索し、該検索文字列と
同じ文字列が存在する文字位置を獲得する獲得工程と、
前記獲得工程で獲得した文字位置と前記切替位置データ
とに基づいて、当該文字位置を含む被検索文書を特定す
る特定工程とを更に備える。
【0025】また、上記目的を達成する本発明の他の構
成の情報処理方法は、検索の対象となる複数の被検索文
書に含まれる各文字について、該複数の被検索文書の全
体を通しての文字位置が登録された文字位置データを、
与えられた検索文字列によって検索し、該検索文字列と
同じ文字列が存在する文字位置を獲得する獲得工程と、
前記獲得工程で獲得した文字位置と、前記複数の被検索
文書の各文書が切り替わる位置を示す切替位置データと
に基づいて、当該文字位置を含む被検索文書を特定する
特定工程とを備える。
【0026】
【発明の実施の形態】以下、添付の図面を参照して本発
明の好適な一実施形態を詳細に説明する。
【0027】図1は、本実施形態のテキスト検索装置の
機能構成を示すブロック図である。同図において、10
1は、1つ以上の検索対象文書(以下、被検索テキス
ト)を保持する被検索テキスト保持部である。本例では
複数の被検索テキストが検索対象となっているものとす
る。102は、被検索テキスト保持部101に保持され
ている被検索テキストに対して、被検索テキスト中の文
字ごとに文字位置を列挙したインデックスを作成すると
ともに、各被検索テキストの最後尾の文字位置と文書番
号を獲得するインデックス作成部である。ここで、文字
位置は、検索対象となっている全ての被検索テキストの
文字位置の通し番号である。
【0028】103は、インデックス作成部102で作
成したインデックスを保持するインデックス保持部であ
る。104は、インデックス作成部102により獲得さ
れた文書の最後尾文字位置と文書番号から文書番号テー
ブルを作成する文書番号テーブル作成部である。105
は、文書番号テーブル作成部104で作成した文書番号
テーブルを保持する文書番号テーブル保持部である。1
06は、検索を行なう文字列を保持する検索文字列保持
部である。
【0029】107は、インデックス保持部103に保
持されているインデックスを用いて検索文字列保持部1
06に保持されている検索文字列に一致する文字列を検
索する検索部である。108は、文書番号テーブル保持
部105に保持されている文書番号テーブルを参照し
て、検索部107により検索された文字位置から文書番
号を求める文書番号獲得部である。109は、文書番号
獲得部108により得られた検索結果を保持する検索結
果保持部である。
【0030】図2は、本実施形態に係るテキスト検索装
置のハードウェア構成を示すブロック図である。同図に
おいて、201は後述する制御手順を実現するプログラ
ムを保持するROMである。202はRAMで、被検索
テキスト保持部101、検索文字列保持部106、検索
結果保持部109と上記プログラムの動作に必要な記憶
領域とを提供する。203はROM201に保持されて
いるプログラムに従って処理を行なう中央処理装置であ
る。204はディスク装置であり、インデックス保持部
103、文書番号テーブル保持部105を実現する。2
05はバスであり、上記の各構成を接続し、各構成間に
おけるデータの授受を可能とする。206はキーボード
であり、中央処理装置203に対して検索文字列等を含
む各種指示入力を行なう。また、207はディスプレイ
であり、検索結果の表示等、中央処理装置203の制御
により各種表示を行なう。
【0031】なお、上記構成において制御プログラムが
ROM201に格納されるものとしたが、ディスク20
4等の外部記憶装置に制御プログラムを格納し、これを
RAM202にロードして中央処理装置203によって
実行するように構成しても良いことはいうまでもない。
また、図2に示した構成の他に、プリンタやネットワー
クインターフェース等を接続可能に構成しうることは当
業者には明らかである。
【0032】次に、以上説明した構成を有する本実施形
態のテキスト検索装置の動作を説明する。なお、本テキ
スト検索装置の処理は、インデックスの作成処理と検索
処理とに大きく分かれる。
【0033】まず、本実施形態のテキスト検索装置にお
けるインデックス作成処理(インデックス作成部102
の処理)を説明する。図3は、本実施形態のテキスト検
索装置におけるインデックス作成処理の手順を示すフロ
ーチャートである。
【0034】ステップS301では、カウンタdとカウ
ンタcの初期化を行なう。ここで、カウンタdは、処理
の対象となっている被検索テキストの文書番号を示すも
ので、これを0に初期化する。また、カウンタcは、処
理の対象となっている文字の位置を示すもので、これも
0に初期化する。そしてステップS302に移る。
【0035】ステップS302では、カウンタdが被検
索テキスト保持部101に保持された被検索テキストの
文書数に達したか否かを判定する。判定の結果、達した
場合は当該インデックス作成処理を終了する。また、達
していない場合は、ステップS303に移る。ステップ
S303では、ポインタpの初期化を行なう。ポインタ
pは、処理の対象となっている文字を指し示すもので、
これを文書番号dの被検索テキストの先頭文字を指し示
すように初期化する。そしてステップS304に移る。
【0036】ステップS304では、ポインタpが被検
索テキストの最後に達したか否かを判定する。判定の結
果、達した場合はステップS308に移り、達していな
い場合はステップS305に移る。ステップS305で
は、ポインタpが示す位置にある文字について、インデ
ックス保持部103に保持されているインデックスの当
該文字の位置リストにカウンタcの値を追加する。そし
て、ステップS306においてカウンタcの値を1増や
し、ステップS307においてポインタpが次の文字を
指すようにする。そしてステップS304に戻る。
【0037】以上のステップS304〜S307の処理
を、当該文書(カウンタdで示される被検索テキスト)
の全体について行なうと、処理はステップS304から
ステップS308へ進み、文書番号テーブル作成部10
4による処理を開始することになる。ステップS308
では、文書番号テーブル保持部105に保持された文書
番号テーブルのd番目の要素としてカウンタcの値を追
加する。そしてステップS309において、カウンタd
とカウンタcの値をそれぞれ1増やす。ここでカウンタ
cの値を1増やすことにより、文書の切れ目を越えた文
字列のミスマッチを防ぐことができる(詳細は後述す
る)。そしてステップS302に戻る。
【0038】以上の処理により、例えば、図8に示され
る3つの文書に対して、図10に示すようなインデック
スが作成され、インデックス保持部103に保持され
る。図10の各行が、各文字が現れる位置のリストとな
っている。各文字位置は全文書での通し文字位置となっ
ている。また、図10のインデックスには文書を特定す
る情報(文書番号)は登録されていないことがわかる。
【0039】さらに文書番号テーブル作成部104によ
って、図11に示す文書番号テーブルが作成され、文書
番号テーブル保持部105に保持される。ここで、上述
のステップS309においてカウンタcを1つ増加させ
ることで、図11に記された最後尾文字位置はインデッ
クス保持部103に保持されるインデックスに含まれる
ことはない。このため、文書の切れ目を越えた文字列が
マッチすることがなくなる。
【0040】例えば、検索文字列「売上高」を検索する
と、文書2と文書3にまたがる「売上高」の文字位置
は、「売」が585、「上」が586、「高」が588
となり、連続していることにはならないので検索されな
い。
【0041】次に、本実施形態における検索部107に
おける検索処理の概要を説明する。図4は本実施形態の
テキスト検索装置による検索処理の手順を説明するフロ
ーチャートである。
【0042】ステップS401では、検索文字列保持部
106に保持されている検索文字列の長さをLに代入す
る。また、カウンタnに1を代入する。カウンタnは、
検索文字列の文字位置を表すものとなる。例えば、検索
文字列が「高速検索」である場合は、L=4,n=1と
なる。この時点で、カウンタnによって示される文字は
「高」である。次に、ステップS402に移る。ステッ
プS402では、検索文字列保持部106に保持されて
いる検索文字列の1番目の文字(ここでは「高」)につ
いて、インデックス保持部103に保持されたインデッ
クスの読み込みを行なう。そして、当該文字の文字位置
を全て配列1に書き込む。
【0043】図14は、図10に示したインデックスを
用いて検索文字列「高速検索」を検索しているときの配
列1の状態を示している。ここでは、ステップS402
による処理を行なった時点の配列1の状態が示されてお
り、「高」という文字の文字位置が格納されている。
【0044】次に、ステップS403では、変数Lとn
を比較する。比較の結果、n<Lである場合は、ステッ
プS404に進み、n≧Lである場合は、ステップS4
07に進む。
【0045】ステップS404では、カウンタnの値を
1増やす。そして、ステップS405において、検索文
字列保持部106に保持されている検索文字列のn番目
の文字について、インデックスの読み込みを行ない、得
られた文字位置を配列2に書き込む。この際、得られた
全ての文字位置から(n−1)を減じた値を配列2に書
き込む。そしてステップS406では、配列1と配列2
から、配列1と配列2の両方に存在している値を全て取
り出し、これらの値だけを新たに配列1の値とする。そ
してステップS403に戻る。図15は、先に示した検
索例におけるn=2のときの配列1の状態を示してい
る。
【0046】以上の処理を検索文字列保持部106に保
持されている検索文字列の全ての文字について行なう
と、処理はステップS403からステップS407に進
むことになる。ステップS407では、配列1が空か否
かを判定し、空である場合はステップS414に移る。
また、空でない場合は、ステップS408に移る。
【0047】ステップS408では、カウンタdとカウ
ンタcの初期化を行なう。ここでカウンタdは、現在処
理中の被検索テキストの文書番号テーブルにおける文書
番号を示すもので、これを0に初期化する。カウンタc
は、検索された文字位置(配列1に格納された文字位
置)のうち、現在処理中の文字位置の通し番号を示すも
ので、これを0に初期化する。
【0048】次に、ステップS409では、文書番号テ
ーブルのd番目の値とc番目の文字位置を比較し、c番
目の文字位置の方が大きくない場合には、ステップS4
10に移る。c番目の文字位置の方が大きい場合には、
ステップS413に移る。
【0049】ステップS409において、配列1のc番
目の文字位置が文書番号テーブルのd番目の値よりも大
きくないということは、当該文字位置が文書番号dの被
検索テキストに属することを意味する。従って、ステッ
プS410では、c番目の文字位置に対応する文書番号
をdとする。そしてステップS411において、cの値
を1増やす。次に、ステップS412では、cと検索さ
れた文字位置の数(配列1に格納されている文字位置の
数)を比較し、cの方が小さい場合には、ステップS4
09に戻る。一方、cが検索された文字位置の数以上と
なった場合には、ステップS414に移る。
【0050】以上のようにして、配列1に格納された文
字位置が属する文書番号を決定していく。そして、c番
目の文字位置が文書番号テーブルのd番目の値より大き
くなった場合、c番目の文字位置が文書番号dの被検索
テキストの範囲を越えたことを意味する。よって、ステ
ップS409からステップS413へ進み、次の被検索
テキストを対象とするべくカウンタdの値を1増やす。
そしてステップS409に戻る。
【0051】また、配列1に保持されている文字位置の
全てについて文書番号が決定されると、処理はステップ
S412からステップS414へ進む。ステップS41
4では配列1が空でなければ、獲得した文書番号を検索
結果保持部110に保持する。配列1が空の場合は、検
索文字列が検索されなかったことを示す値として−1を
検索結果保持部110に保持する。そして全ての処理を
終了する。
【0052】以上に述べたように、上記実施形態によれ
ば、インデックス作成時に文書番号テーブルを作成し、
検索時に文書番号テーブルを参照して検索された文字位
置から文書番号を得るように構成したので、検索時に文
書番号の比較演算が不要な検索効率のよいテキスト検索
装置を実現することができる。
【0053】<他の実施形態> (1)上記実施形態においては、インデックスの作成と
検索を同一装置で行なう場合について説明したが、これ
に限定されるものではない。例えば、インデックスの作
成だけを行なう装置であってもよい。図16はこの場合
の基本的な機能構成を示すブロック図である。図16に
おいて、1601は、被検索テキストを保持する被検索
テキスト保持部である。1602は、被検索テキスト保
持部1601に保持されている被検索テキストに対し
て、変換テキスト中の文字ごとに、変換テキスト中での
当該文字の位置を列挙したインデックスを作成し、各文
書の最後尾文字位置と文書番号を獲得するインデックス
作成部である。1603は、インデックス作成部160
2で作成したインデックスを保持するインデックス保持
部である。1604は、インデックス作成部1602に
より獲得された文書の最後尾文字位置と文書番号から文
書番号テーブルを作成する文書番号テーブル作成部であ
る。1605は、文書番号テーブル作成部1604で作
成した文書番号テーブルを保持する文書番号テーブル保
持部である。
【0054】なお、上記構成において、上述の図3のフ
ローチャートで説明した手順に従ってインデックス及び
文書番号テーブルが作成される。また、インデックス保
持部1603に保持されたインデックスと文書番号テー
ブル保持部1605に保持された文書番号テーブルは、
通信回線を通したり、可搬記録媒体によって他の装置に
移されて検索が行なわれる。
【0055】(2)また、上述のようにして提供された
インデックスと文書番号テーブルを用いて検索を専門に
行なう装置であってもよい。図17はこの場合の基本的
な機能構成を示すブロック図である。
【0056】図17において、1701は、図16に示
す装置で作成されたインデックスを保持するインデック
ス保持部である。1702は検索を行なう文字列を保持
する検索文字列保持部である。1703は、インデック
ス保持部1701に保持されているインデックスを用い
て、検索文字列保持部1702に保持されている検索文
字列に一致する文字列を検索する検索部である。170
4は、図16に示す装置で作成された文書番号テーブル
を保持する文書番号テーブル保持部である。1705
は、文書番号テーブル保持部1704に保持されている
文書番号テーブルを参照して、検索部1703により検
索された文字位置から文書番号を求める文書番号獲得部
である。1706は、文書番号獲得部1705により得
られた検索結果を保持する検索結果保持部である。イン
デックス保持部1701と文書番号テーブル保持部17
04には、上記実施形態の手順(図3)で作成されたイ
ンデックスと文書番号テーブルが通信回線或いは可搬記
録媒体等を介して提供され、保持される。
【0057】以上の構成において、上述の図4で説明し
た手順を実行し、検索処理が実現される。
【0058】(3)また、上記実施形態では、インデッ
クスのキーとして文字を用いる場合について説明した
が、これに限定されるものではなく、任意の長さの文字
列を用いてもよい。
【0059】(4)また、上記実施形態では、検索文字
列の先頭文字から順次処理を行なう場合について説明し
たが、これに限定されるものではなく、検索語の任意の
文字から検索を行なってもよい。
【0060】(5)また、上記実施形態では、検索時に
1つのインデックスを使用するよう説明しているが、別
々に作成された複数のインデックスを同時に検索できる
ようにし、複数のインデックスで同じ語を検索したい場
合にも、1つずつインデックスを検索対象に設定し、い
ちいち検索条件を指定しなくてもよいようにすることも
できる。すなわち、複数の文書群で作られたインデック
スを用いる事で検索効率を向上できる。例えば、毎日の
新聞を1記事1文書として日毎にインデックスを作成し
ている場合において、1ヶ月分の記事から「高速検索」
という文字列を含む記事を探すには、1日分のインデッ
クスを1つ1つ検索するのでは効率が悪い。そこで、複
数文書の(例えば1ヶ月分の)インデックスを同時に検
索できた方が効率的である。
【0061】(6)また、上記実施形態においては、被
検索テキスト保持部101、検索文字列保持部106、
検索結果保持部109をRAMで、インデックス保持部
103、文書番号テーブル保持部105をディスク装置
で実現するように説明したが、これに限定されるもので
はなく、任意の記憶媒体を用いて実現してよい。
【0062】(7)また、上記実施形態においては、各
部を同一の計算機上で構成する場合について説明した
が、これに限定されるものではなく、ネットワーク上に
分散した計算機や処理装置などに分かれて各部を構成し
てもよい。すなわち、インデックス作成部や検索部等、
図1に示されている各部をネットワーク上の情報処理機
器に分散させても良い。
【0063】(8)また、上記実施形態においては、プ
ログラムをROMに保持する場合について説明したが、
これに限定されるものではなく、任意の記憶媒体を用い
て実現してもよい。また、同様の動作をする回路で実現
してもよい。すなわち,図3,図4で示される制御を実
現する構成をハードウエア回路で構成しても良い。
【0064】なお、本発明は、複数の機器(例えばホス
トコンピュータ,インタフェイス機器,リーダ,プリン
タなど)から構成されるシステムに適用しても、一つの
機器からなる装置(例えば、複写機,ファクシミリ装置
など)に適用してもよい。
【0065】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
【0066】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
【0067】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク,ハードディス
ク,光ディスク,光磁気ディスク,CD−ROM,CD
−R,磁気テープ,不揮発性のメモリカード,ROMな
どを用いることができる。
【0068】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
【0069】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0070】
【発明の効果】以上説明したように本発明によれば、複
数文書に対して文字列検索を行なった場合に、検索時に
おける文書番号等の比較処理が不要となり、検索効率が
向上するという効果が得られる。
【0071】
【図面の簡単な説明】
【図1】本実施形態のテキスト検索装置の機能構成を示
すブロック図である。
【図2】本実施形態に係るテキスト検索装置のハードウ
ェア構成を示すブロック図である。
【図3】本実施形態のテキスト検索装置におけるインデ
ックス作成処理の手順を示すフローチャートである。
【図4】本実施形態のテキスト検索装置による検索処理
の手順を説明するフローチャートである。
【図5】この従来例のテキスト検索装置の基本構成を示
すブロック図である。
【図6】従来の装置例におけるインデックス作成処理の
概要を示すフローチャートである。
【図7】従来の装置例における検索処理の概要を示すフ
ローチャートである。
【図8】被検索テキストの例を示す図である。
【図9】従来の装置例におけるインデックスの例を示す
図である。
【図10】実施形態におけるインデックスの例を示す図
である。
【図11】本発明の実施形態における文書番号テーブル
の例を示す図である。
【図12】従来の装置例における検索処理の途中の状態
を示す図である。
【図13】従来の装置例における検索処理の途中の状態
を示す図である。
【図14】本発明の実施形態における検索処理の途中の
状態を示す図である。
【図15】本発明の実施形態における検索処理の途中の
状態を示す図である。
【図16】本発明の他の実施形態の基本構成を示すブロ
ック図である。
【図17】本発明の他の実施形態の基本構成を示すブロ
ック図である。
【符号の説明】
101 被検索テキスト保持部 102 インデックス作成部 103 インデックス保持部 104 文書番号テーブル作成部 105 文書番号テーブル保持部 106 検索文字列保持部 107 検索部 108 文書番号獲得部 109 検索結果保持部

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 検索の対象となる複数の被検索文書を保
    持する保持手段と、 前記複数の被検索文書に含まれる各文字について、該複
    数の被検索文書の全体を通しての文字位置を登録して文
    字位置データを生成する第1生成手段と、 前記複数の被検索文書の各文書が切り替わる位置を示す
    切替位置データを生成する第2生成手段と、 前記第1及び第2生成手段で生成された文字位置データ
    と切替位置データを格納する格納手段とを備えることを
    特徴とする情報処理装置。
  2. 【請求項2】 与えられた検索文字列によって前記文字
    位置データを検索し、該検索文字列と同じ文字列が存在
    する文字位置を獲得する獲得手段と、 前記獲得手段で獲得した文字位置と前記切替位置データ
    とに基づいて、当該文字位置を含む被検索文書を特定す
    る特定手段とを更に備えることを特徴とする請求項1に
    記載の情報処理装置。
  3. 【請求項3】 検索の対象となる複数の被検索文書に含
    まれる各文字について、該複数の被検索文書の全体を通
    しての文字位置が登録された文字位置データを保持する
    第1保持手段と、 前記複数の被検索文書の各文書が切り替わる位置を示す
    切替位置データを保持する第2保持手段と、 与えられた検索文字列によって前記文字位置データを検
    索し、該検索文字列と同じ文字列が存在する文字位置を
    獲得する獲得手段と、 前記獲得手段で獲得した文字位置と前記切替位置データ
    とに基づいて、当該文字位置を含む被検索文書を特定す
    る特定手段とを備えることを特徴とする情報処理装置。
  4. 【請求項4】 前記切替位置データは、切り替わる前の
    被検索文書の最後尾の文字位置の次の位置であって、か
    つ、当該切り替わりの後の被検索文書の先頭の文字位置
    の手前であることを特徴とする請求項1乃至3のいずれ
    かに記載の情報処理装置。
  5. 【請求項5】 前記第2生成手段は、前記第1生成手段
    によって1つの被検索文書の文字位置データの登録を終
    える毎に、該被検索文書の最後の文字の文字位置の次の
    位置を前記切替位置データとして生成し、該切替り位置
    の次の位置を、次の被検索文書の先頭の文字の文字位置
    に設定することを特徴とする請求項1に記載の情報処理
    装置。
  6. 【請求項6】 前記切替位置データは、切り替わる前の
    被検索文書の最後尾の文字位置の次の位置であって、か
    つ、当該切り替わりの後の被検索文書の先頭の文字位置
    の手前であり、 前記特定手段は、 前記獲得手段で獲得された文字位置と前記切換え位置デ
    ータを小さい順に読み出して大小比較を行なう比較手段
    と、 文字位置の方が小さければ当該切替位置の手前の被検索
    文書に当該文字位置が存在すると決定する決定手段と、 前記文字位置の方が大きければ当該切替位置データの次
    に大きい切替位置データを獲得して前記比較手段を実行
    する実行手段とを備えることを特徴とする請求項2また
    は3に記載の情報処理装置。
  7. 【請求項7】 検索の対象となる複数の被検索文書に含
    まれる各文字について、該複数の被検索文書の全体を通
    しての文字位置を登録して文字位置データを生成する第
    1生成工程と、 前記複数の被検索文書の各文書が切り替わる位置を示す
    切替位置データを生成する第2生成工程と、 前記第1及び第2生成工程で生成された文字位置データ
    と切替位置データを格納する格納工程とを備えることを
    特徴とする情報処理方法。
  8. 【請求項8】 与えられた検索文字列によって前記文字
    位置データを検索し、該検索文字列と同じ文字列が存在
    する文字位置を獲得する獲得工程と、 前記獲得工程で獲得した文字位置と前記切替位置データ
    とに基づいて、当該文字位置を含む被検索文書を特定す
    る特定工程とを更に備えることを特徴とする請求項7に
    記載の情報処理方法。
  9. 【請求項9】 検索の対象となる複数の被検索文書に含
    まれる各文字について、該複数の被検索文書の全体を通
    しての文字位置が登録された文字位置データを、与えら
    れた検索文字列によって検索し、該検索文字列と同じ文
    字列が存在する文字位置を獲得する獲得工程と、 前記獲得工程で獲得した文字位置と、前記複数の被検索
    文書の各文書が切り替わる位置を示す切替位置データと
    に基づいて、当該文字位置を含む被検索文書を特定する
    特定工程とを備えることを特徴とする情報処理方法。
  10. 【請求項10】 前記切替位置データは、切り替わる前
    の被検索文書の最後尾の文字位置の次の位置であって、
    かつ、当該切り替わりの後の被検索文書の先頭の文字位
    置の手前であることを特徴とする請求項7乃至9のいず
    れかに記載の情報処理方法。
  11. 【請求項11】 前記第2生成工程は、前記第1生成工
    程によって1つの被検索文書の文字位置データの登録を
    終える毎に、該被検索文書の最後の文字の文字位置の次
    の位置を前記切替位置データとして生成し、該切替り位
    置の次の位置を、次の被検索文書の先頭の文字の文字位
    置に設定することを特徴とする請求項7に記載の情報処
    理方法。
  12. 【請求項12】 前記切替位置データは、切り替わる前
    の被検索文書の最後尾の文字位置の次の位置であって、
    かつ、当該切り替わりの後の被検索文書の先頭の文字位
    置の手前であり、 前記特定工程は、 前記獲得工程で獲得された文字位置と前記切換え位置デ
    ータを小さい順に読み出して大小比較を行なう比較工程
    と、 文字位置の方が小さければ当該切替位置の手前の被検索
    文書に当該文字位置が存在すると決定する決定工程と、 前記文字位置の方が大きければ当該切替位置データの次
    に大きい切替位置データを獲得して前記比較工程を実行
    する実行工程とを備えることを特徴とする請求項8また
    は9に記載の情報処理方法。
  13. 【請求項13】 テキスト検索のための制御プログラム
    を格納するコンピュータ可読メモリであって、該制御プ
    ログラムが、 検索の対象となる複数の被検索文書に含まれる各文字に
    ついて、該複数の被検索文書の全体を通しての文字位置
    を登録して文字位置データを生成する第1生成工程のコ
    ードと、 前記複数の被検索文書の各文書が切り替わる位置を示す
    切替位置データを生成する第2生成工程のコードと、 前記第1及び第2生成工程で生成された文字位置データ
    と切替位置データを格納する格納工程のコードとを備え
    ることを特徴とするコンピュータ可読メモリ。
  14. 【請求項14】 前記制御プログラムが、 与えられた検索文字列によって前記文字位置データを検
    索し、該検索文字列と同じ文字列が存在する文字位置を
    獲得する獲得工程のコードと、 前記獲得工程で獲得した文字位置と前記切替位置データ
    とに基づいて、当該文字位置を含む被検索文書を特定す
    る特定工程のコードとを更に備えることを特徴とする請
    求項13に記載のコンピュータ可読メモリ。
  15. 【請求項15】 テキスト検索のための制御プログラム
    を格納するコンピュータ可読メモリであって、該制御プ
    ログラムが、 検索の対象となる複数の被検索文書に含まれる各文字に
    ついて、該複数の被検索文書の全体を通しての文字位置
    が登録された文字位置データを、与えられた検索文字列
    によって検索し、該検索文字列と同じ文字列が存在する
    文字位置を獲得する獲得工程のコードと、 前記獲得工程で獲得した文字位置と、前記複数の被検索
    文書の各文書が切り替わる位置を示す切替位置データと
    に基づいて、当該文字位置を含む被検索文書を特定する
    特定工程のコードとを備えることを特徴とするコンピュ
    ータ可読メモリ。
JP9117987A 1997-05-08 1997-05-08 情報処理装置及び方法 Withdrawn JPH10307834A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9117987A JPH10307834A (ja) 1997-05-08 1997-05-08 情報処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9117987A JPH10307834A (ja) 1997-05-08 1997-05-08 情報処理装置及び方法

Publications (1)

Publication Number Publication Date
JPH10307834A true JPH10307834A (ja) 1998-11-17

Family

ID=14725226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9117987A Withdrawn JPH10307834A (ja) 1997-05-08 1997-05-08 情報処理装置及び方法

Country Status (1)

Country Link
JP (1) JPH10307834A (ja)

Similar Documents

Publication Publication Date Title
US7680852B2 (en) Search processing method and search system
ES2214535T3 (es) Procedimiento y sistema portatil de indexacion de documentos utilizando la descomposicion de palabras en n-grams.
US20240070177A1 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
US5995962A (en) Sort system for merging database entries
JPH11224258A (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JPH10307834A (ja) 情報処理装置及び方法
JPH10307835A (ja) 情報処理装置及びその方法
JPH09198404A (ja) 文書処理方法及び装置
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JP3825873B2 (ja) 情報処理装置及び方法
JPH11213008A (ja) テキスト検索装置、urlグルーピング装置、テキスト検索方法、及びurlグルーピング方法
JP2000029901A (ja) 画像検索装置及び方法
JPH10307840A (ja) 情報処理装置及びその方法
JP2000322416A (ja) 文書検索装置
JP2000112990A (ja) テキスト検索装置、有効語頻度作成装置、テキスト検索方法、及び有効語頻度作成方法並びに記録媒体
JP3854684B2 (ja) 情報処理装置及びその方法
US7840583B2 (en) Search device and recording medium
US20230376688A1 (en) Data generation system, data generation method, and recording medium
JP6970867B1 (ja) 検索装置、検索方法、およびプログラム
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPH10301940A (ja) 情報処理装置及びその方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPH10312394A (ja) 情報処理装置及びその方法
JPH06309368A (ja) 文書検索装置
JPH10307842A (ja) 情報処理装置及びその方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040803