JPH10307842A - 情報処理装置及びその方法 - Google Patents

情報処理装置及びその方法

Info

Publication number
JPH10307842A
JPH10307842A JP9119871A JP11987197A JPH10307842A JP H10307842 A JPH10307842 A JP H10307842A JP 9119871 A JP9119871 A JP 9119871A JP 11987197 A JP11987197 A JP 11987197A JP H10307842 A JPH10307842 A JP H10307842A
Authority
JP
Japan
Prior art keywords
character string
text data
position information
holding
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9119871A
Other languages
English (en)
Inventor
Shiro Ito
史朗 伊藤
Yuji Ikeda
裕治 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP9119871A priority Critical patent/JPH10307842A/ja
Publication of JPH10307842A publication Critical patent/JPH10307842A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索速度の低下を招くことなく、テキストデ
ータの検索に用いるインデックスのキーを削減すること
ができる情報処理装置及びその方法を提供することを目
的とする。 【解決手段】 テキストデータを被検索テキスト保持部
101で保持し、テキストデータ中の文字列の位置に関
するインデックスをインデックス作成部102で作成す
る。作成されたインデックスをインデックス保持部10
3で保持し、テキストデータ中の所定の文字列の出現す
る出現回数に基づいて、インデックス保持部103に保
持されている該所定の文字列を包含する文字列の位置情
報をインデックス削減部104で削除する。そして、入
力された検索条件に該当するテキストデータを、インデ
ックス保持部103にに保持されているインデックスを
用いて検索部106で検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストデータを
検索する情報処理装置及びその方法に関するものであ
る。
【0002】
【従来の技術】文書中の全てのテキストデータを対象と
して与えられた検索パターンを含むテキストデータを検
索する全文検索装置などの情報処理装置では、大量のテ
キストデータを高速に検索するために、被検索テキスト
データのインデックスを予め作成し、作成したインデッ
クスを用いて検索を行なうことが多い。こうしたインデ
ックス方式の一つに、nーgramインデックス方式と
呼ばれる検索方式がある。nーgramインデックス方
式とは、テキストデータ中の連接するn文字をキーとし
て、キーとなる文字列の被検索テキストデータ中での存
在位置を列挙した位置リストを保持するインデックスで
ある。
【0003】例えば、nを2に固定すると、文字セット
Cに対して、文字列集合S={c|c∈C}∪{c1c2
|c1,c2∈C}を定義する。文字セットCから構成さ
れる検索対象文書Tにおいて、Tにおける文字列s∈S
の出現回数をnsとし、Tにおいてsがx回目に出現す
るときのsを構成する先頭文字の位置をpos(s,
x)で表すとする。例えば、2ーgramインデックス
のキーkは、ns≧1であるsになる。そして、kに対
する位置リストLkは、 Lk=(pos(k,1),pos(k,2),…,p
os(k,nk)) となる。2ーgramインデックスは、(k,Lk)を
全てのkについて集めたものである。例えば、「日本対
スイスの日本側当日券は本日売り切れ」のテキストデー
タに対する2ーgramインデックスは図8のようにな
る。
【0004】次に、Nーgramインデックスを用いた
検索処理について説明する。ここでも、nを2に固定し
た場合で説明するが、nの値が変わっても基本は同じで
ある。被検索テキストデータTから文字長lの検索パタ
ーンqを検索する処理は、以下のようになる。ここで、
siは、検索パターンのi番目から始まる2文字の部分
文字列を示す。但し、slの長さだけは1とする。
【0005】1.インデックスIにおいて、検索パター
ンq中の部分文字列si(i=2j+1,lが奇数のと
き0≦j≦(l−1)/2,lが偶数のとき0≦j≦l
/2−1)に関して、nsiの小さい順に応じてiを並べ
た数列(t(0),t(1),…,t(m))を作成する。ここ
で、m=(l−1)/2(lが奇数の場合)、m=l/
2−1(lが偶数の場合)になる。
【0006】2.nst(0)=0ならば検索処理は終了す
る。検索パターンは存在しない。 3.kj=st(j)(0≦j≦m)とする。 4.R(0)={(p−t(0)+1)|p∈Lk0}とする。 5.j=1,2,…,mまで、次の処理を繰り返す。途
中でR(j)が空になったら検索処理は終了する。検索パ
ターンは存在しない。
【0007】R(j)={(p−t(j)+1)|p∈Lkj,
∃r∈R(j-1),r=p−t(j)+1} 6.検索処理は終了する。R(m)が検索パターンの存在
する位置である。例えば「当日券」の検索処理は以下の
ようになる。 1.s1=当日、s3=券であるから、ns1=1、ns3=1
であり、t(0)=1、t(1)=3となる。
【0008】2.ns1=1で、0ではないので処理を続
ける。 3.k0=当日、k1=券とする。 4.Lk0=(11)であるから、R(0)=(11)となる。 5.Lk1=(13)であるから、11=(13−3+1)を
満足し、R(1)=(11)とする。
【0009】6.これにより、(11)が検索結果となる。 N−gramインデックスのnの値を大きくすると、上
記検索処理手順の第5ステップでの比較演算回数が減少
するので、検索にかかる時間が短縮される。一方、nを
大きくすると、インデックスサイズが増大したり、イン
デックスの作成時間が増大するという問題点がある。そ
こで、nより小さいキー長であるキーについては、イン
デックスを作成しないという方法がある。例えば、先に
説明したnを2に固定する例では、文字列集合Sを、S
={c1c2|c1,c2∈C}としてしまうのである。但
し、テキストデータの最後の文字に対するインデックス
を作れるように、文字セットCにはテキストデータの終
わりを示す文字を追加する。
【0010】
【発明が解決しようとする課題】しかしながら、上記従
来の情報処理装置では、定めたnより小さい長さの検索
パターンを検索する場合に検索速度が低下するという問
題があった。この問題は、次の例をみるとわかりやす
い。今、キー長nが2のキーだけ保持し、キー長が1の
キーは含まないインデックスを作成したとする。このイ
ンデックスを用いて、検索パターン「綿」を検索すると
する。「綿」というキーは存在しないので、「綿」を含
む2文字のキー「綿花」、「綿毛」、「綿密」、「綿
棒」、「綿の」、「綿か」などに対する出現位置を全て
足し合わせることで検索処理を行なわなければならなく
なる。このような2文字のキーが多数存在することで、
テキストデータの検索に用いるインデックスのキーの数
が増大し、検索速度が低下することになる。
【0011】本発明は上記の問題点に鑑みてなされたも
のであり、検索速度の低下を招くことなく、テキストデ
ータの検索に用いるインデックスのキーを削減すること
ができる情報処理装置及びその方法を提供することを目
的とする。
【0012】
【課題を解決するための手段】上記の目的を達成するた
めに本発明による情報処理装置は以下のような構成を備
える。即ち、テキストデータを検索する情報処理装置で
あって、テキストデータを保持する保持手段と、前記テ
キストデータ中の文字列の位置に関する位置情報を作成
する作成手段と、前記作成手段で作成された位置情報を
保持する位置情報保持手段と、前記テキストデータ中の
所定の文字列の出現する出現回数に基づいて、前記位置
情報保持手段に保持されている該所定の文字列を包含す
る文字列の位置情報を削除する削除手段と、入力された
検索条件に該当するテキストデータを、前記位置情報保
持手段に保持されている位置情報を用いて検索する検索
手段とを備える。
【0013】また、好ましくは、前記削除手段は、前記
テキストデータ中の所定の文字列を包含する文字列の出
現する出現回数が所定回数以上である場合、該所定の文
字列の位置情報を削除する。また、好ましくは、前記検
索手段による検索結果を保持する保持手段を更に備え
る。
【0014】また、好ましくは、前記作成手段は、前記
テキストデータ中の少なくとも1文字、2文字の文字列
を含む文字列の位置に関する位置情報を作成する。ま
た、好ましくは、前記所定の文字列を包含する文字列
は、該所定の文字列に少なくとも前接、あるいは後接す
る文字列である。上記の目的を達成するための本発明に
よる情報処理装置は以下の構成を備える。即ち、テキス
トデータを検索する情報処理装置であって、テキストデ
ータを保持する保持手段と、前記テキストデータ中の所
定の文字列を包含する文字列が出現する出現回数に基づ
いて、該テキストデータ中の文字列の位置に関する位置
情報を作成する作成手段と、前記作成手段で作成された
位置情報に基づいて、入力された検索条件に該当するテ
キストデータを検索する検索手段とを備える。
【0015】また、好ましくは、前記テキストデータ中
の所定の文字列を包含する文字列が出現する出現回数が
0あるいは所定回数以上である場合、前記作成手段は、
該所定の文字列を包含する文字列の位置に関する位置情
報を作成する。また、好ましくは、前記検索手段による
検索結果を保持する保持手段を更に備える。
【0016】また、好ましくは、前記所定の文字列を包
含する文字列は、該所定の文字列に少なくとも前接、あ
るいは後接する文字列である。上記の目的を達成するた
めの本発明による情報処理装置は以下の構成を備える。
即ち、テキストデータを管理する情報処理装置であっ
て、入力されたテキストデータ中の文字列の位置に関す
る位置情報を作成する作成手段と、前記作成手段で作成
された位置情報を保持する位置情報保持手段と、前記テ
キストデータ中の所定の文字列の出現する出現回数に基
づいて、前記位置情報保持手段に保持されている該所定
の文字列を包含する文字列の位置情報を削除する削除手
段と、前記位置情報保持手段に保持されている位置情報
と前記テキストデータを対応づけて管理する管理手段と
を備える。
【0017】上記の目的を達成するための本発明による
情報処理装置は以下の構成を備える。即ち、テキストデ
ータを管理する情報処理装置であって、入力されたテキ
ストデータ中の所定の文字列を包含する文字列が出現す
る出現回数に基づいて、該テキストデータ中の文字列の
位置に関する位置情報を作成する作成手段と、前記作成
手段で作成された位置情報と前記テキストデータを対応
づけて管理する管理手段とを備えるこ。
【0018】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、テキストデ
ータを検索する情報処理方法であって、テキストデータ
を第1記憶媒体に保持する保持工程と、前記テキストデ
ータ中の文字列の位置に関する位置情報を作成する作成
工程と、前記作成工程で作成された位置情報を保持する
第2記憶媒体に位置情報保持工程と、前記テキストデー
タ中の所定の文字列の出現する出現回数に基づいて、前
記位置情報保持工程で前記第2記憶媒体に保持されてい
る該所定の文字列を包含する文字列の位置情報を削除す
る削除工程と、入力された検索条件に該当するテキスト
データを、前記位置情報保持工程で前記第2記憶媒体に
保持されている位置情報を用いて検索する検索工程とを
備える。
【0019】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、テキストデ
ータを検索する情報処理方法であって、テキストデータ
を記憶媒体に保持する保持工程と、前記テキストデータ
中の所定の文字列を包含する文字列が出現する出現回数
に基づいて、該テキストデータ中の文字列の位置に関す
る位置情報を作成する作成工程と、前記作成工程で作成
された位置情報に基づいて、入力された検索条件に該当
するテキストデータを検索する検索工程とを備える。
【0020】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、テキストデ
ータを管理する情報処理方法であって、入力されたテキ
ストデータ中の文字列の位置に関する位置情報を作成す
る作成工程と、前記作成工程で作成された位置情報を第
1記憶媒体に保持する位置情報保持工程と、前記テキス
トデータ中の所定の文字列の出現する出現回数に基づい
て、前記位置情報保持工程で前記第1記憶媒体に保持さ
れている該所定の文字列を包含する文字列の位置情報を
削除する削除工程と、前記位置情報保持工程で前記第1
記憶媒体に保持されている位置情報と前記テキストデー
タを対応づけて第2記憶媒体に管理する管理工程とを備
える。
【0021】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、テキストデ
ータを管理する情報処理方法であって、入力されたテキ
ストデータ中の所定の文字列を包含する文字列が出現す
る出現回数に基づいて、該テキストデータ中の文字列の
位置に関する位置情報を作成する作成工程と、前記作成
工程で作成された位置情報と前記テキストデータを対応
づけて記憶媒体に管理する管理工程とを備えることを特
徴とする情報処理方法。
【0022】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
テキストデータを検索する情報処理のプログラムコード
が格納されたコンピュータ可読メモリであって、テキス
トデータを第1記憶媒体に保持する保持工程のプログラ
ムコードと、前記テキストデータ中の文字列の位置に関
する位置情報を作成する作成工程のプログラムコード
と、前記作成工程で作成された位置情報を第2記憶媒体
に保持する位置情報保持工程のプログラムコードと、前
記テキストデータ中の所定の文字列の出現する出現回数
に基づいて、前記位置情報保持工程で前記第2記憶媒体
に保持されている該所定の文字列を包含する文字列の位
置情報を削除する削除工程のプログラムコードと、入力
された検索条件に該当するテキストデータを、前記位置
情報保持工程で前記第2記憶媒体に保持されている位置
情報を用いて検索する検索工程のプログラムコードとを
備える。
【0023】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
テキストデータを検索する情報処理のプログラムコード
が格納されたコンピュータ可読メモリであって、テキス
トデータを記憶媒体に保持する保持工程のプログラムコ
ードと、前記テキストデータ中の所定の文字列を包含す
る文字列が出現する出現回数に基づいて、該テキストデ
ータ中の文字列の位置に関する位置情報を作成する作成
工程のプログラムコードと、前記作成工程で作成された
位置情報に基づいて、入力された検索条件に該当するテ
キストデータを検索する検索工程のプログラムコードと
を備える。
【0024】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
テキストデータを管理する情報処理のプログラムコード
が格納されたコンピュータ可読メモリであって、入力さ
れたテキストデータ中の文字列の位置に関する位置情報
を作成する作成工程のプログラムコードと、前記作成工
程で作成された位置情報を第1記憶媒体に保持する位置
情報保持工程のプログラムコードと、前記テキストデー
タ中の所定の文字列の出現する出現回数に基づいて、前
記位置情報保持工程で前記第1記憶媒体に保持されてい
る該所定の文字列を包含する文字列の位置情報を削除す
る削除工程のプログラムコードと、前記位置情報保持工
程で前記第1記憶媒体に保持されている位置情報と前記
テキストデータを対応づけて第2記憶媒体に管理する管
理工程のプログラムコードとを備える。
【0025】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
テキストデータを管理する情報処理のプログラムコード
が格納されたコンピュータ可読メモリであって、入力さ
れたテキストデータ中の所定の文字列を包含する文字列
が出現する出現回数に基づいて、該テキストデータ中の
文字列の位置に関する位置情報を作成する作成工程のプ
ログラムコードと、前記作成工程で作成された位置情報
と前記テキストデータを対応づけて記憶媒体に管理する
管理工程のプログラムコードとを備える。
【0026】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。図1は本発明の実施形
態に係る情報処理装置の機能構成を示すブロック図であ
る。図1において、101は被検索テキスト保持部であ
り、被検索テキストデータを保持する。102はインデ
ックス作成部であり、被検索テキスト保持部101に保
持されている被検索テキストデータ中でのキー(テキス
トデータを構成する文字あるいは文字列)の出現位置を
列挙したインデックスを作成する。103はインデック
ス保持部であり、インデックス作成部102で作成した
インデックスを保持する。
【0027】104はインデックス削減部であり、イン
デックス保持部103に保持されているインデックスか
ら、特定のキーを包含する文字列であるの数が基準以下
である場合に当該キーとその位置リストをインデックス
から削除する。105は検索パターン保持部であり、被
検索テキストデータから検索するパターンを保持する。
106は検索部であり、インデックス保持部103に保
持されているインデックスを用いて、検索パターン保持
部105に保持されている検索パターンを被検索テキス
トデータ中から検索する。106は検索結果保持部であ
り、検索部106による検索結果を保持する。
【0028】次に本発明の実施形態の情報処理装置の構
成について、図2を用いて説明する。図2は本発明の実
施形態の情報処理装置の構成を示すブロック図である。
図2において、201はCPUであり、後述する手順を
実現するプログラムに従って動作する。202はRAM
であり、被検索テキスト保持部101、検索パターン保
持部105、検索結果保持部107と上記プログラムの
動作に必要な記憶領域とを提供する。203はROMで
あり、後述する手順を実現するプログラムを保持する。
204はディスク装置であり、インデックス保持部10
3を実現する。205は情報処理装置の各種構成要素を
相互に接続するバスである。206はキーボード及びマ
ウスからなる入力装置であり、検索キーを入力する。2
07は例えば、CRT、LCD等の出力装置であり、検
索結果を表示する。
【0029】以下、説明していく本発明の実施形態で実
行される処理は、インデックスを作成するインデックス
作成処理、インデックスを削減するインデックス削減処
理と文字列を検索する検索処理の3つに大きく分かれ
る。まず、インデックス作成処理によって作成されるイ
ンデックスを保持するインデックス保持部103の詳細
な構成について、図8を用いて説明する。
【0030】図8は本発明の実施形態のインデックス保
持部の詳細な構成を示す図である。図8において、80
1は、長さ1と2の文字列が被検索テキストデータ中に
出現する回数を保持する出現回数領域である。行が文字
列の1文字目の文字に対応し、列が文字列の1文字目の
文字に対応する2次元の出現回数テーブルを保持する。
但し、0列目については、各行の文字だけで構成される
長さ1の文字列の出現回数を示す。
【0031】802は、長さ1と2の文字列をキーとす
る場合のキーコードを保持するキーコード領域である。
行が文字列の1文字目の文字に対応し、列が文字列の1
文字目の文字に対応する2次元のキーコードテーブルを
保持する。但し、0列目については、各行の文字だけで
構成される長さ1の文字列のキーコードを示す。また、
値が0の場合は、該当する文字列がキーになっていない
ことを示す。
【0032】803は、キーコードが示すキーが被検索
テキストデータ中に存在する位置を列挙した位置リスト
を保持する位置リスト領域である。以下の説明では、出
現回数テーブルにおいて長さ2の文字列c1c2に対応
する値をC(c1,c2)で表し、出現回数テーブルに
おいて長さ1の文字列cに対応する値をC0(c)で表
し、キーコードテーブルにおいて長さ2の文字列c1c2
に対応する値をK(c1,c2)で表し、キーコードテ
ーブルにおいて長さ1の文字列cに対応する値をK0
(c)で表し、キーコードkに対する位置リストをL
(k)で表す場合もある。
【0033】次に、インデックス作成部102で実行さ
れるインデックス作成処理について、図3を用いて説明
する。図3は本発明の実施形態で実行されるインデック
ス作成処理を示すフローチャートである。尚、被検索テ
キストデータの最後にはテキストデータの終わりを示す
文字があると仮定する。
【0034】まず、ステップS301では、出現回数テ
ーブル、キーコードテーブルの全要素を全て0に初期化
する。また、処理の対象となっている文字の位置を示す
カウンタCを1に初期化する。次に、ステップS302
では、ポインタpの初期化を行なう。ポインタpは、処
理の対象となっている文字を指し示すもので、これを被
検索テキストデータの先頭文字を指すように初期化す
る。ステップS303では、ポインタpの指す文字が被
検索テキストデータの終わりを示す文字であるか否かを
判定する。被検索テキストデータの終わりを示す文字で
ある場合(ステップS303でYES)、インデックス
作成処理を終了する。一方、被検索テキストデータの終
わりを示す文字でない場合(ステップS303でN
O)、ステップS304に進む。
【0035】ステップS304では、出現回数テーブル
において、ポインタpの指す文字に対する値を1増や
す。また、ポインタpの指す文字c1と次の文字c2か
ら構成される2文字の文字列に対する値を1増やす。ス
テップS305では、キーコードテーブルにおいて、文
字c1に対するキーコードのリストにcの値を追加す
る。また、c1とc2から構成される2文字の文字列に
対するキーコードのリストにcの値を追加する。尚、キ
ーコードテーブルで該当する値が0の場合は、新たにキ
ーコードを割り当ててから追加を行なう。
【0036】ステップS306では、カウンタcの値を
1増やす。ステップS307では、ポインタpが次の文
字を指し示すようポインタpを進め、ステップS303
に戻る。次に、インデックス削減部104で実行される
インデックス削減処理について、図4を用いて説明す
る。
【0037】図4は本発明の実施形態で実行されるイン
デックス削減処理を示すフローチャートである。まず、
ステップS401では、計算用領域aにテーブルの先頭
行の文字を代入する。ステップS402では、計算用領
域bにテーブルの2列目の文字を代入する。また、計算
用領域sと計算用領域tの値を0に初期化する。ステッ
プS403では、キーコードテーブルで文字aと文字b
の2文字からなる文字列に対応するキーコードK(a,
b)を調べ、キーコードK(a,b)が0であるか否か
を判定する。キーコードK(a,b)が0である場合
(ステップS403でYES)、ステップS405に進
む。一方、キーコードK(a,b)が0でない場合(ス
テップS403でYES)、ステップS404に進む。
【0038】ステップS404では、出現回数テーブル
で文字aと文字bの2文字からなる文字列に対応する値
を計算用領域sに加算する。また、計算用領域tの値を
1増やす。ステップS405では、文字bに対応する列
の次の列が存在するか否かを調べる。次の列が存在する
場合(ステップS405でYES)、文字bを次の列の
文字にして、ステップS403に戻る。一方、次の列が
存在しない場合(ステップS405でNO)、ステップ
S406に進む。
【0039】ステップS406では、出現回数テーブル
で文字aに対応する行の0列目の値と計算用領域sの値
とを比較し、両者が一致しかつ計算用領域tの値<10
であるという条件を満たすか否かを判定する。条件を満
たす場合(ステップS406でYES)、ステップS4
07に進み、キーコードテーブルで文字aに対応する行
の0列目の値であるキーコードに対するインデックスリ
ストを削除し、キーコードテーブルで文字aに対応する
行の0列目の値を0にする。そして、ステップS408
に進む。一方、条件を満たさない場合(ステップS40
6でNO)、ステップS408に進む。
【0040】ステップS408では、文字aに対応する
行の次の行が存在するか否かを調べる。次の行が存在す
る場合(ステップS408でYES)、文字aを次の行
の文字にして、ステップS402に戻る。一方、次の行
が存在しない場合(ステップS408でNO)、インデ
ックス削除処理を終了する。例えば、本実施形態のイン
デックス作成処理によって、図9に示すインデックスが
作成されたとする。この例では、文字「綿」と「詐」で
始まる以外のデータは省略して示している。このインデ
ックスに対し、本実施形態のインデックス削除処理を行
なうと、図8に示すインデックスが得られる。ここで
は、キー「詐」に対応するインデックスが削除されて、
インデックスサイズが小さくなることが分かる。
【0041】次に検索部105で実行される検索処理に
ついて、図6を用いて説明する。図6は本発明の実施形
態で実行される検索処理を示すフローチャートである。
まず、ステップS501では、検索パターン保持部10
5に保持されている検索パターンの長さを演算用領域l
に代入する。また、演算用領域nに1を代入する。ステ
ップS502では、演算用領域nに対する位置リスト獲
得処理を行ない、獲得した位置リストを演算用配列A1
に格納する。尚、この位置リスト獲得処理の詳細につい
ては、図6を用いて説明する。
【0042】ステップS503では、演算用領域nの示
す値が演算用領域lの示す値より大きいか否かを判定す
る。演算用領域nの示す値が演算用領域lの示す値より
大きい場合(ステップS503でYES)、ステップS
506に進む。一方、演算用領域nの示す値が演算用領
域lの示す値未満である場合(ステップS503でN
O)、ステップS504に進む。
【0043】ステップS504では、演算用領域nに対
する位置リスト獲得処理を行ない、獲得した位置リスト
を演算用配列A2に格納する。ステップS505では、
演算用配列A1と演算用配列2の両方に存在している値
を全て取り出し、これらの値だけからなる位置リストを
新たに演算用配列A1に格納する。そして、ステップS
503に戻る。
【0044】ステップS506では、演算用配列A1が
空であるか否かを調べる。空でない場合(ステップS5
06でNO)、ステップS507に進み、被検索テキス
トデータから検索パターンが検索されたことを示す値と
して1を検索結果保持部107に保持する。そして検索
処理を終了する。一方、空である場合(ステップS50
6でYES)、ステップS508に進み、被検索テキス
トデータから検索パターンが検索されなかったことを示
す値として0を検索結果保持部107に保持する。そし
て、検索処理を終了する。
【0045】次に、上述した図5のステップS502に
おける位置リスト獲得処理の詳細について、図6を用い
て説明する。図6は本発明の実施形態で実行される位置
リスト獲得処理の詳細を示すフローチャートである。ま
ず、ステップS601では、演算用領域lの値が演算用
領域nの値より大きいか否かを判定する。演算用領域l
の値が演算用領域nの値より大きい場合(ステップS6
01でYES)、ステップS602に進む。一方、演算
用領域lの値が演算用領域nの値未満である場合(ステ
ップS601でNO)、ステップS606に進む。
【0046】ステップS602では、キーコードテーブ
ルで、検索パターンのn番目の文字c1に対応する行の
最初の列K0(c1)の値が0であるか否かを判定す
る。列K0(c1)の値が0である場合(ステップS6
02でYES)、ステップS603に進み、検索パター
ンのn番目の文字に対する位置リスト合成処理を行な
い、合成された位置リストを獲得リストにする。そし
て、ステップS605に進む。尚、この位置リスト合成
処理の詳細については、図7を用いて後述する。一方、
列K0(c1)の値が0でない場合(ステップS602
でNO)、ステップS604に進み、キーコードテーブ
ルで、検索パターンのn番目の文字に対応する行の最初
の列のキーコードに対する位置リストを取り出し、これ
を獲得リストにする。そして、ステップS605に進
む。
【0047】ステップS605では、検索処理全般で使
用する演算用領域nにn+1を代入する。そして、ステ
ップS610に進む。一方、ステップS606では、出
現回数テーブルにおいて、検索パターンのn番目の文字
に対応する行で、検索パターンのn+1番目の文字c2
に対応する列C(c1,c2)の値が0であるか否かを
判定する。列C(c1,c2)の値が0である場合(ス
テップS606でYES)、ステップS607に進み、
空のリストを獲得リストとする。そして、ステップS6
09に進む。一方、列C(c1,c2)の値が0でない
場合(ステップS606でNO)、ステップS608に
進み、キーコードテーブルにおいて、検索パターンのn
番目の文字に対応する行で、検索パターンのn+1番目
の文字に対応する列の値をキーとする位置リストを取り
出し、これを獲得リストにする。そして、ステップS6
09に進む。
【0048】ステップS609では、検索処理全般で使
用する演算用領域nにn+2を代入する。そして、ステ
ップS610に進む。ステップS610では、獲得リス
トの全ての要素からnー1を引く。そして、位置リスト
獲得処理を終了する。次に、上述した図6のステップS
603における位置リスト合成処理の詳細について、図
7を用いて説明する。
【0049】図7は本発明の実施形態で実行される位置
リスト合成処理の詳細を示すフローチャートである。ま
ず、ステップS701では、計算用領域aに検索パター
ンのn文字目を代入する。また、リストsを空に初期化
する。ステップS702では、計算用領域bにテーブル
の2列目の文字を代入する。ステップS703では、キ
ーコードテーブルで文字aと文字bの2文字からなる文
字列に対応するキーコードK(a,b)が0であるか否
かを判定する。キーコードK(a,b)が0である場合
(ステップS703でYES)、ステップS705に進
む。一方、キーコードK(a,b)が0でない場合(ス
テップS703でNO)、ステップS704に進む。
【0050】ステップS704では、キーコードテーブ
ルで文字aと文字bの2文字からなる文字列に対応する
キーの位置リストをリストsに付け加える。ステップS
705では、文字bに対応する列の次の列が存在するか
否かを調べる。次の列が存在する場合(ステップS70
5でYES)、文字bを次の列の文字にして、ステップ
S703に戻る。一方、次の列が存在しない場合(ステ
ップS705でNO)、位置リスト合成処理を終了す
る。
【0051】以上の処理により、リストsが合成された
リストとして生成される。ここで、図8に示したインデ
ックスと同じ被検索テキストデータに対し、従来の情報
処理装置でインデックスを作成した例を図10に示す。
このインデックスに対しても、本実施形態と同じ検索処
理が適用可能である。図10のインデックスを用いて、
「綿」と「詐」について検索を行なうと、いずれの場合
も位置リスト合成処理が必要になる。特に、「綿」に対
する位置リスト合成処理には時間がかかる。
【0052】一方、本実施形態で作成した図8に示すイ
ンデックスを利用した場合、「綿」を検索する場合には
位置リスト合成処理は必要ない。「詐」を検索する場合
には位置リスト合成処理が必要になる。しかし、位置リ
スト合成処理でのリスト加算の回数は10回に満たない
ので、従来に比べてそれほど時間はかからない。以上説
明したように、本実施形態によれば、位置リスト合成処
理でのリスト加算の回数を抑えられるので、検索処理時
間の増大を防ぐことができる。また、位置リスト合成処
理が必要になる検索パターンは、「詐」のように後接す
る文字が限られているものであり、これは単語の一部で
あることが多い。従って、そのような検索パターンが要
求されることは実際には稀であり、この点からも、検索
時間を増大させることが少なくなる。
【0053】また、削除されたキーを使用して検索を行
なう場合でも、位置リスト合成処理に要する時間が大き
くならないように抑え、しかも検索パターンとして要求
されやすいキーに対しては、位置リスト合成処理を行な
わずに済むようにした上で、削除可能なキー削除するこ
とができる。従って、検索時間を増加させることなくイ
ンデックスサイズを小さくすることができる。
【0054】尚、上記実施形態においては、一旦全ての
キーを含むインデックスを作成してから、他に包含され
るキーの一部を削除する場合について説明したが、これ
に限定されるものではない。インデックス作成処理にお
いて、他に包含されるキーに対する位置リストの作成を
調整してもよい。この場合の情報処理装置の機能構成に
ついて、図11を用いて説明する。
【0055】図11は本発明の他の実施形態の情報処理
装置の機能構成を示すブロック図である。図11におい
て、1101は被検索テキスト保持部であり、被検索テ
キストデータを保持する。1102はインデックス作成
部であり、被検索テキスト保持部1101に保持されて
いる被検索テキストデータ中で、所定の文字列を包含す
る文字列であるキーの数が基準を越えるかあるいは存在
しない場合に、当該文字列をキーとして、そのキーの出
現位置を列挙したインデックスを作成する。1103は
インデックス保持部であり、インデックス作成部110
2で作成したインデックスを保持する。
【0056】1104は検索パターン保持部であり、被
検索テキストデータから検索するパターンを保持する。
1105は検索部であり、インデックス保持部1103
に保持されているインデックスを用いて、検索パターン
保持部1105に保持されている検索パターンを被検索
テキストデータ中から検索する。1106は検索結果保
持部であり、検索部1105による検索結果を保持す
る。
【0057】また、上記実施形態においては、キー長を
1と2に固定したインデックスを作成する場合について
説明したが、これに限定されるものではない。出現する
文字列の回数に応じて任意のキー長を変えたりしてもよ
い。この場合でも、あるキーについてそれを包含するキ
ーが存在する場合は、キーの削除を行なうことができ
る。
【0058】また、上記実施形態においては、削減され
るキーのキー長が1の場合について説明したが、これに
限定されるものではない。削減されるキーのキー長が2
以上である場合は、当該キーの各部分文字列をキーとし
て位置リストを取り出せる場合があるので、位置リスト
合成処理を行なわずにすむケースも生じる。また、上記
実施形態においては、全ての文字について一括のインデ
ックスを作成する場合について説明したが、これに限定
されるものではない。ひらがな、カタカナ、漢字などの
字種ごとにインデックスを分けてもよい。この場合、拡
張する場合には同一字種の文字でのみ拡張してもよい
し、他の字種の文字も含めて拡張してもよい。
【0059】また、上記実施形態においては、削除候補
のキーを包含するキーとして、先頭文字が一致するもの
を対象とする場合について説明したが、これに限定され
るものではない。末尾の文字が一致する場合や、中間が
一致する場合など任意の包含関係でよい。また、上記実
施形態においては、2次元のテーブルを利用してインデ
ックスを管理する場合について説明したが、これに限定
されるものではない。例えば、図14に示すようなトラ
イを用いても実現できる。
【0060】図14は本発明の他の実施形態のインデッ
クスのデータ構造と作成例を示す図である。図14にお
いて、1401はルートノードである。ルートノード1
401は2つのデータをノード1402、ノード140
3にそれぞれ保持する。ノード1402は、そのノード
1402をキーとした場合のキーの出現回数を示すデー
タである。ノード1403は、そのノード1403をキ
ーとした場合のキーコードを示すデータである。トライ
では、上位のノードから自ノードまで辿る間の文字を付
加したものが自ノードのキーとなる。従って、例えば、
ノード1404は、キー「詐称」を表す。尚、位置リス
トは、図8の位置リスト領域804と同じになる。
【0061】また、上記実施形態においては、図11に
示す各領域を予め十分な大きさで確保しておく場合につ
いて説明したが、これに限定されるものではない。必要
に応じて領域を増大させてもよい。また、上記実施形態
においては、位置リスト削減処理において、計算用領域
tの値が閾値10を下回る場合を、位置リストの削減の
基準として説明したが、これに限定されるものではな
い。閾値の値を変えてもよいし、字種などにより異なる
閾値を用いてもよい。また、被検索テキストデータの大
きさなどに応じて閾値を変化させてもよい。
【0062】また、上記実施形態においては、出現回数
テーブル、キーコードテーブルの各テーブルの列を求め
る際に文字コードを使用する場合について説明したが、
これに限定されるものではない。文字に対して内部的な
コードを割り当て、そのコードで列を参照してもよい。
また、上記実施形態においては、出現回数テーブル、キ
ーコードテーブルの各テーブルや位置リストを参照する
際にコードを使用する場合について説明したが、これに
限定されるものではない。テーブルのアドレスを指し示
すポインタなどを使用してもよい。
【0063】また、上記実施形態においては、被検索テ
キストデータ中に検索パターンが存在するか否かを検索
結果として保持する場合について説明したが、これに限
定されるものではない。被検索テキストデータ中の検索
パターンの存在位置を検索結果として保持してもよい。
この場合、図5で説明した検索処理のステップS506
の配列A1の値が検索パターンの存在位置を示すので、
これを用いれば、検索パターンの存在位置を検索結果と
して保持することができる。
【0064】また、上記実施形態においては、単一の被
検索テキストデータに対して検索を行なう場合について
説明したが、これに限定されるものではない。複数のテ
キストデータに対し、検索パターンが含まれるテキスト
データを検索するために用いてもよいことは言うまでも
ない。また、上記実施形態においては、インデックス作
成処理と検索処理を同一の情報処理装置で行なう場合に
ついて説明したが、これに限定されるものではない。イ
ンデックス作成処理と検索処理を異なる情報処理装置で
行ってもよい。この場合の各情報処理装置の機能構成に
ついて、図12と図13を用いて説明する。尚、図12
に示す情報処理装置と、図13に示す情報処理装置は、
例えば、ネットワーク回線で接続され互いにデータの授
受を可能とする構成になっている。
【0065】図12は本発明の他の実施形態に係る情報
処理装置の機能構成を示すブロック図である。図12に
おいて、1201は被検索テキスト保持部であり、被検
索テキストデータを保持する。1202はインデックス
作成部であり、被検索テキスト保持部1201に保持さ
れている被検索テキストデータ中でのキー(テキストデ
ータを構成する文字あるいは文字列)の出現位置を列挙
したインデックスを作成する。1203はインデックス
保持部であり、インデックス作成部1202で作成した
インデックスを保持する。1204はインデックス削減
部であり、インデックス保持部1203に保持されてい
るインデックスから、特定のキーを包含する文字列であ
るの数が基準以下である場合に当該キーとその位置リス
トをインデックスから削除する。
【0066】図13は本発明の他の実施形態に係る情報
処理装置の機能構成を示すブロック図である。図13に
おいて、1301はインデックス保持部であり、図12
に示す情報処理装置で作成されたインデックスを保持す
る。1302は被検索テキストから検索するパターンを
保持する検索パターン保持部である。1303は検索部
であり、インデックス保持部1301に保持されている
インデックスを用いて、検索パターン保持部1302に
保持されている検索パターンを被検索テキストデータ中
から検索する。1304は検索結果保持部であり、検索
部1303による検索結果を保持する。
【0067】また、上記実施形態においては、被検索テ
キスト保持部101、検索パターン保持部105、検索
結果保持部107をRAM202で、インデックス保持
部103をディスク装置203で実現する場合について
説明したが、これに限定されるものではなく、任意の記
憶媒体を用いて実現してもよい。また、上記実施形態に
おいては、各構成要素を同一の情報処理装置上で構成す
る場合について説明したが、これに限定されるものでは
なく、ネットワーク上に分散した情報処理装置に分かれ
て各構成要素を構成してもよい。
【0068】また、上記実施形態においては、プログラ
ムをROM203に保持する場合について説明したが、
これに限定されるものではなく、任意の記憶媒体を用い
て実現してもよい。また、同様の動作をする回路で実現
してもよい。尚、本発明は、複数の機器(例えば、ホス
トコンピュータ、インタフェース機器、リーダ、プリン
タ等)から構成されるシステムに適用しても、一つの機
器からなる装置(例えば、複写機、ファクシミリ装置
等)に適用してもよい。
【0069】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
【0070】この場合、記憶媒体から読出されたプログ
ラムコード自体が上述した実施の形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。プログラムコードを供
給するための記憶媒体としては、例えば、フロッピディ
スク、ハードディスク、光ディスク、光磁気ディスク、
CD−ROM、CD−R、磁気テープ、不揮発性のメモ
リカード、ROMなどを用いることができる。
【0071】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施の形態の機能
が実現される場合も含まれることは言うまでもない。
【0072】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書き込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0073】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードを格納することになるが、簡単に説
明すると、図15〜図18のメモリマップ例に示す各モ
ジュールを記憶媒体に格納することになる。すなわち、
図15に示すように、少なくとも「保持モジュール」、
「作成モジュール」、「位置情報保持モジュール」、
「削除モジュール」および「検索モジュール」の各モジ
ュールのプログラムコードを記憶媒体に格納すればよ
い。
【0074】尚、「保持モジュール」は、テキストデー
タを第1記憶媒体に保持する。「作成モジュール」は、
テキストデータ中の文字列の位置に関する位置情報を作
成する。「位置情報保持モジュール」は、作成された位
置情報を第2記憶媒体に保持する。「検索モジュール」
は、テキストデータ中の所定の文字列の出現する出現回
数に基づいて、第2記憶媒体に保持されている該所定の
文字列を包含する文字列の位置情報を削除する。「検索
モジュール」は、入力された検索条件に該当するテキス
トデータを、第2記憶媒体に保持されている位置情報を
用いて検索する。
【0075】また、図16に示すように、少なくとも
「保持モジュール」、「作成モジュール」および「検索
モジュール」の各モジュールのプログラムコードを記憶
媒体に格納すればよい。尚、「保持モジュール」は、テ
キストデータを記憶媒体に保持する。「作成モジュー
ル」は、テキストデータ中の所定の文字列を包含する文
字列が出現する出現回数に基づいて、該テキストデータ
中の文字列の位置に関する位置情報を作成する。「検索
モジュール」は、作成された位置情報に基づいて、入力
された検索条件に該当するテキストデータを検索する。
【0076】また、図17に示すように、少なくとも
「作成モジュール」、「位置情報保持モジュール」、
「削除モジュール」および「管理モジュール」の各モジ
ュールのプログラムコードを記憶媒体に格納すればよ
い。尚、「作成モジュール」は、入力されたテキストデ
ータ中の文字列の位置に関する位置情報を作成する。
「位置情報保持モジュール」は、作成された位置情報を
第1記憶媒体に保持する。「削除モジュール」は、テキ
ストデータ中の所定の文字列の出現する出現回数に基づ
いて、第1記憶媒体に保持されている該所定の文字列を
包含する文字列の位置情報を削除する。「管理モジュー
ル」は、第1記憶媒体に保持されている位置情報とテキ
ストデータを対応づけて第2記憶媒体に管理する。
【0077】また、図18に示すように、少なくとも
「作成モジュール」および「管理モジュール」の各モジ
ュールのプログラムコードを記憶媒体に格納すればよ
い。尚、「作成モジュール」は、入力されたテキストデ
ータ中の所定の文字列を包含する文字列が出現する出現
回数に基づいて、該テキストデータ中の文字列の位置に
関する位置情報を作成する。「管理モジュール」は、作
成された位置情報とテキストデータを対応づけて記憶媒
体に管理する。
【0078】
【発明の効果】以上説明したように、本発明によれば、
検索速度の低下を招くことなく、テキストデータの検索
に用いるインデックスのキーを削減することができる情
報処理装置及びその方法を提供できる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る情報処理装置の機能構
成を示すブロック図である。
【図2】本発明の実施形態の情報処理装置の構成を示す
ブロック図である。
【図3】本発明の実施形態で実行されるインデックス作
成処理を示すフローチャートである。
【図4】本発明の実施形態で実行されるインデックス削
減処理を示すフローチャートである。
【図5】本発明の実施形態で実行される検索処理を示す
フローチャートである。
【図6】本発明の実施形態で実行される位置リスト獲得
処理の詳細を示すフローチャートである。
【図7】本発明の実施形態で実行される位置リスト合成
処理の詳細を示すフローチャートである。
【図8】本発明の実施形態のインデックス保持部の詳細
な構成を示す図である。
【図9】本発明の実施形態のインデックスのデータ構造
と作成例を示す図である。
【図10】従来のインデックスのデータ構造と作成例を
示す図である。
【図11】本発明の他の実施形態の情報処理装置の機能
構成を示すブロック図である。
【図12】本発明の他の実施形態の情報処理装置の機能
構成を示すブロック図である。
【図13】本発明の他の実施形態の情報処理装置の機能
構成を示すブロック図である。
【図14】本発明の他の実施形態のインデックスのデー
タ構造と作成例を示す図である。
【図15】本発明の実施形態を実現するプログラムコー
ドを格納した記憶媒体のメモリマップの構造を示す図で
ある。
【図16】本発明の実施形態を実現するプログラムコー
ドを格納した記憶媒体のメモリマップの構造を示す図で
ある。
【図17】本発明の実施形態を実現するプログラムコー
ドを格納した記憶媒体のメモリマップの構造を示す図で
ある。
【図18】本発明の実施形態を実現するプログラムコー
ドを格納した記憶媒体のメモリマップの構造を示す図で
ある。
【符号の説明】
101 被検索テキスト保持部 102 インデックス作成部 103 インデックス保持部 104 インデックス削減部 105 検索パターン保持部 106 検索部 107 検索結果保持部

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】 テキストデータを検索する情報処理装置
    であって、 テキストデータを保持する保持手段と、 前記テキストデータ中の文字列の位置に関する位置情報
    を作成する作成手段と、 前記作成手段で作成された位置情報を保持する位置情報
    保持手段と、 前記テキストデータ中の所定の文字列の出現する出現回
    数に基づいて、前記位置情報保持手段に保持されている
    該所定の文字列を包含する文字列の位置情報を削除する
    削除手段と、 入力された検索条件に該当するテキストデータを、前記
    位置情報保持手段に保持されている位置情報を用いて検
    索する検索手段とを備えることを特徴とする情報処理装
    置。
  2. 【請求項2】 前記削除手段は、前記テキストデータ中
    の所定の文字列を包含する文字列の出現する出現回数が
    所定回数以上である場合、該所定の文字列の位置情報を
    削除することを特徴とする請求項1に記載の情報処理装
    置。
  3. 【請求項3】 前記検索手段による検索結果を保持する
    保持手段を更に備えることを特徴とする請求項1に記載
    の情報処理装置。
  4. 【請求項4】 前記作成手段は、前記テキストデータ中
    の少なくとも1文字、2文字の文字列を含む文字列の位
    置に関する位置情報を作成することを特徴とする請求項
    1に記載の情報処理装置。
  5. 【請求項5】 前記所定の文字列を包含する文字列は、
    該所定の文字列に少なくとも前接、あるいは後接する文
    字列であることを特徴とする請求項1に記載の情報処理
    装置。
  6. 【請求項6】 テキストデータを検索する情報処理装置
    であって、 テキストデータを保持する保持手段と、 前記テキストデータ中の所定の文字列を包含する文字列
    が出現する出現回数に基づいて、該テキストデータ中の
    文字列の位置に関する位置情報を作成する作成手段と、
    前記作成手段で作成された位置情報に基づいて、入力さ
    れた検索条件に該当するテキストデータを検索する検索
    手段とを備えることを特徴とする情報処理装置。
  7. 【請求項7】 前記テキストデータ中の所定の文字列を
    包含する文字列が出現する出現回数が0あるいは所定回
    数以上である場合、前記作成手段は、該所定の文字列を
    包含する文字列の位置に関する位置情報を作成すること
    を特徴とする請求項6に記載の情報処理装置。
  8. 【請求項8】 前記検索手段による検索結果を保持する
    保持手段を更に備えることを特徴とする請求項6に記載
    の情報処理装置。
  9. 【請求項9】 前記所定の文字列を包含する文字列は、
    該所定の文字列に少なくとも前接、あるいは後接する文
    字列であることを特徴とする請求項6に記載の情報処理
    装置。
  10. 【請求項10】 テキストデータを管理する情報処理装
    置であって、 入力されたテキストデータ中の文字列の位置に関する位
    置情報を作成する作成手段と、 前記作成手段で作成された位置情報を保持する位置情報
    保持手段と、 前記テキストデータ中の所定の文字列の出現する出現回
    数に基づいて、前記位置情報保持手段に保持されている
    該所定の文字列を包含する文字列の位置情報を削除する
    削除手段と、 前記位置情報保持手段に保持されている位置情報と前記
    テキストデータを対応づけて管理する管理手段とを備え
    ることを特徴とする情報処理装置。
  11. 【請求項11】 テキストデータを管理する情報処理装
    置であって、 入力されたテキストデータ中の所定の文字列を包含する
    文字列が出現する出現回数に基づいて、該テキストデー
    タ中の文字列の位置に関する位置情報を作成する作成手
    段と、前記作成手段で作成された位置情報と前記テキス
    トデータを対応づけて管理する管理手段とを備えること
    を特徴とする情報処理装置。
  12. 【請求項12】 テキストデータを検索する情報処理方
    法であって、 テキストデータを第1記憶媒体に保持する保持工程と、 前記テキストデータ中の文字列の位置に関する位置情報
    を作成する作成工程と、 前記作成工程で作成された位置情報を保持する第2記憶
    媒体に位置情報保持工程と、 前記テキストデータ中の所定の文字列の出現する出現回
    数に基づいて、前記位置情報保持工程で前記第2記憶媒
    体に保持されている該所定の文字列を包含する文字列の
    位置情報を削除する削除工程と、 入力された検索条件に該当するテキストデータを、前記
    位置情報保持工程で前記第2記憶媒体に保持されている
    位置情報を用いて検索する検索工程とを備えることを特
    徴とする情報処理方法。
  13. 【請求項13】 前記削除工程は、前記テキストデータ
    中の所定の文字列を包含する文字列の出現する出現回数
    が所定回数以上である場合、該所定の文字列の位置情報
    を削除することを特徴とする請求項12に記載の情報処
    理方法。
  14. 【請求項14】 前記検索工程による検索結果を記憶媒
    体に保持する保持工程を更に備えることを特徴とする請
    求項15に記載の情報処理方法。
  15. 【請求項15】 前記作成工程は、前記テキストデータ
    中の少なくとも1文字、2文字の文字列を含む文字列の
    位置に関する位置情報を作成することを特徴とする請求
    項12に記載の情報処理方法。
  16. 【請求項16】 前記所定の文字列を包含する文字列
    は、該所定の文字列に少なくとも前接、あるいは後接す
    る文字列であることを特徴とする請求項12に記載の情
    報処理方法。
  17. 【請求項17】 テキストデータを検索する情報処理方
    法であって、 テキストデータを記憶媒体に保持する保持工程と、 前記テキストデータ中の所定の文字列を包含する文字列
    が出現する出現回数に基づいて、該テキストデータ中の
    文字列の位置に関する位置情報を作成する作成工程と、
    前記作成工程で作成された位置情報に基づいて、入力さ
    れた検索条件に該当するテキストデータを検索する検索
    工程とを備えることを特徴とする情報処理方法。
  18. 【請求項18】 前記テキストデータ中の所定の文字列
    を包含する文字列が出現する出現回数が0あるいは所定
    回数以上である場合、前記作成工程は、該所定の文字列
    を包含する文字列の位置に関する位置情報を作成するこ
    とを特徴とする請求項17に記載の情報処理方法。
  19. 【請求項19】 前記検索工程による検索結果を記憶媒
    体に保持する保持工程を更に備えることを特徴とする請
    求項17に記載の情報処理方法。
  20. 【請求項20】 前記所定の文字列を包含する文字列
    は、該所定の文字列に少なくとも前接、あるいは後接す
    る文字列であることを特徴とする請求項17に記載の情
    報処理方法。
  21. 【請求項21】 テキストデータを管理する情報処理方
    法であって、 入力されたテキストデータ中の文字列の位置に関する位
    置情報を作成する作成工程と、 前記作成工程で作成された位置情報を第1記憶媒体に保
    持する位置情報保持工程と、 前記テキストデータ中の所定の文字列の出現する出現回
    数に基づいて、前記位置情報保持工程で前記第1記憶媒
    体に保持されている該所定の文字列を包含する文字列の
    位置情報を削除する削除工程と、 前記位置情報保持工程で前記第1記憶媒体に保持されて
    いる位置情報と前記テキストデータを対応づけて第2記
    憶媒体に管理する管理工程とを備えることを特徴とする
    情報処理方法。
  22. 【請求項22】 テキストデータを管理する情報処理方
    法であって、 入力されたテキストデータ中の所定の文字列を包含する
    文字列が出現する出現回数に基づいて、該テキストデー
    タ中の文字列の位置に関する位置情報を作成する作成工
    程と、前記作成工程で作成された位置情報と前記テキス
    トデータを対応づけて記憶媒体に管理する管理工程とを
    備えることを特徴とする情報処理方法。
  23. 【請求項23】 テキストデータを検索する情報処理の
    プログラムコードが格納されたコンピュータ可読メモリ
    であって、 テキストデータを第1記憶媒体に保持する保持工程のプ
    ログラムコードと、 前記テキストデータ中の文字列の位置に関する位置情報
    を作成する作成工程のプログラムコードと、 前記作成工程で作成された位置情報を第2記憶媒体に保
    持する位置情報保持工程のプログラムコードと、 前記テキストデータ中の所定の文字列の出現する出現回
    数に基づいて、前記位置情報保持工程で前記第2記憶媒
    体に保持されている該所定の文字列を包含する文字列の
    位置情報を削除する削除工程のプログラムコードと、 入力された検索条件に該当するテキストデータを、前記
    位置情報保持工程で前記第2記憶媒体に保持されている
    位置情報を用いて検索する検索工程のプログラムコード
    とを備えることを特徴とするコンピュータ可読メモリ。
  24. 【請求項24】 テキストデータを検索する情報処理の
    プログラムコードが格納されたコンピュータ可読メモリ
    であって、 テキストデータを記憶媒体に保持する保持工程のプログ
    ラムコードと、 前記テキストデータ中の所定の文字列を包含する文字列
    が出現する出現回数に基づいて、該テキストデータ中の
    文字列の位置に関する位置情報を作成する作成工程のプ
    ログラムコードと、前記作成工程で作成された位置情報
    に基づいて、入力された検索条件に該当するテキストデ
    ータを検索する検索工程のプログラムコードとを備える
    ことを特徴とするコンピュータ可読メモリ。
  25. 【請求項25】 テキストデータを管理する情報処理の
    プログラムコードが格納されたコンピュータ可読メモリ
    であって、 入力されたテキストデータ中の文字列の位置に関する位
    置情報を作成する作成工程のプログラムコードと、 前記作成工程で作成された位置情報を第1記憶媒体に保
    持する位置情報保持工程のプログラムコードと、 前記テキストデータ中の所定の文字列の出現する出現回
    数に基づいて、前記位置情報保持工程で前記第1記憶媒
    体に保持されている該所定の文字列を包含する文字列の
    位置情報を削除する削除工程のプログラムコードと、 前記位置情報保持工程で前記第1記憶媒体に保持されて
    いる位置情報と前記テキストデータを対応づけて第2記
    憶媒体に管理する管理工程のプログラムコードとを備え
    ることを特徴とするコンピュータ可読メモリ。
  26. 【請求項26】 テキストデータを管理する情報処理の
    プログラムコードが格納されたコンピュータ可読メモリ
    であって、 入力されたテキストデータ中の所定の文字列を包含する
    文字列が出現する出現回数に基づいて、該テキストデー
    タ中の文字列の位置に関する位置情報を作成する作成工
    程のプログラムコードと、前記作成工程で作成された位
    置情報と前記テキストデータを対応づけて記憶媒体に管
    理する管理工程のプログラムコードとを備えることを特
    徴とするコンピュータ可読メモリ。
JP9119871A 1997-05-09 1997-05-09 情報処理装置及びその方法 Withdrawn JPH10307842A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9119871A JPH10307842A (ja) 1997-05-09 1997-05-09 情報処理装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9119871A JPH10307842A (ja) 1997-05-09 1997-05-09 情報処理装置及びその方法

Publications (1)

Publication Number Publication Date
JPH10307842A true JPH10307842A (ja) 1998-11-17

Family

ID=14772332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9119871A Withdrawn JPH10307842A (ja) 1997-05-09 1997-05-09 情報処理装置及びその方法

Country Status (1)

Country Link
JP (1) JPH10307842A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012198815A (ja) * 2011-03-22 2012-10-18 Onkyo Corp リスト生成装置およびそのプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012198815A (ja) * 2011-03-22 2012-10-18 Onkyo Corp リスト生成装置およびそのプログラム

Similar Documents

Publication Publication Date Title
ES2214535T3 (es) Procedimiento y sistema portatil de indexacion de documentos utilizando la descomposicion de palabras en n-grams.
EP0107435B1 (en) System for changing common card mode data in a card image data processing system
JPH11224258A (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JPH10307840A (ja) 情報処理装置及びその方法
JPH10307842A (ja) 情報処理装置及びその方法
JPH10307835A (ja) 情報処理装置及びその方法
JPS60176169A (ja) 文章処理装置
JP3022079B2 (ja) 全文データベースシステム
JP3288063B2 (ja) 可変長データの格納および参照システム
JP3896683B2 (ja) 使用者定義文字管理装置および記憶媒体
JPH10283368A (ja) 情報処理装置及びその方法
JP2831837B2 (ja) 文書検索装置
JPH1173392A (ja) ユーザid決定方法及び方式
JP3847836B2 (ja) 文字列検索方法とその装置
JP3825873B2 (ja) 情報処理装置及び方法
JPH073664B2 (ja) セルデータ演算方法
JP2001067375A (ja) 名称検索装置、キーボード及び名称検索プログラムを記録した記録媒体
JPH08235191A (ja) 文書検索方法及び文書検索装置
JP3022080B2 (ja) 全文データベースシステム
JPH10301940A (ja) 情報処理装置及びその方法
JPH10307834A (ja) 情報処理装置及び方法
JP3809238B2 (ja) 文書処理方法及びその装置
JP3854684B2 (ja) 情報処理装置及びその方法
JPH10312394A (ja) 情報処理装置及びその方法
JPH08101848A (ja) 文書処理装置及び検索方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040803