JPH10307840A

JPH10307840A - 情報処理装置及びその方法

Info

Publication number: JPH10307840A
Application number: JP9119869A
Authority: JP
Inventors: Shiro Ito; 史朗伊藤; Yuji Ikeda; 裕治池田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1997-05-09
Filing date: 1997-05-09
Publication date: 1998-11-17

Abstract

(57)【要約】【課題】テキストデータの検索に用いるインデックス
のキーの増大を抑えるとともに、検索速度を向上するこ
とができる情報処理装置及びその方法を提供する。【解決手段】テキストデータを被検索テキスト保持部
１０１に保持し、保持されているテキストデータを構成
する文字列の内、所定回数以上出現する文字列に基づい
て、該テキストデータを構成する文字列の位置に関する
インデックスをインデックス作成部１０２で作成する。
作成されたインデックスを用いて、入力された検索パタ
ーンを有するテキストデータを検索部１０５で検索す
る。そして、検索結果を検索結果保持部１０６に出力す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキストデータを
検索する情報処理装置及びその方法に関するものであ
る。

【０００２】

【従来の技術】文書中の全てのテキストデータを対象と
して与えられた検索パターンを含むテキストデータを検
索する全文検索装置などの情報処理装置では、大量のテ
キストデータを高速に検索するために、被検索テキスト
データのインデックスを予め作成し、作成したインデッ
クスを用いて検索を行なうことが多い。こうしたインデ
ックス方式の一つに、ｎーｇｒａｍインデックス方式と
呼ばれる検索方式がある。ｎーｇｒａｍインデックス方
式とは、テキストデータ中の連接するｎ文字をキーとし
て、キーとなる文字列の被検索テキストデータ中での存
在位置を列挙した位置リストを保持するインデックスで
ある。

【０００３】例えば、ｎを２に固定すると、文字セット
Ｃに対して、文字列集合Ｓ＝｛ｃ｜ｃ∈Ｃ｝∪｛ｃ1ｃ2
｜ｃ1，ｃ2∈Ｃ｝を定義する。文字セットＣから構成さ
れる検索対象文書Ｔにおいて、Ｔにおける文字列ｓ∈Ｓ
の出現回数をｎsとし、Ｔにおいてｓがｘ回目に出現す
るときのｓを構成する先頭文字の位置をｐｏｓ（ｓ，
ｘ）で表すとする。例えば、２ーｇｒａｍインデックス
のキーｋは、ｎs≧１であるｓになる。そして、ｋに対
する位置リストＬkは、Ｌk＝（ｐｏｓ（ｋ，１），ｐｏｓ（ｋ，２），…，ｐ
ｏｓ（ｋ，ｎk））となる。２ーｇｒａｍインデックスは、（ｋ，Ｌk）を
全てのｋについて集めたものである。例えば、「日本対
スイスの日本側当日券は本日売り切れ」のテキストデー
タに対する２ーｇｒａｍインデックスは図８のようにな
る。

【０００４】次に、Ｎーｇｒａｍインデックスを用いた
検索処理について説明する。ここでも、ｎを２に固定し
た場合で説明するが、ｎの値が変わっても基本は同じで
ある。被検索テキストデータＴから文字長ｌの検索パタ
ーンｑを検索する処理は、以下のようになる。ここで、
ｓiは、検索パターンのｉ番目から始まる２文字の部分
文字列を示す。但し、ｓlの長さだけは１とする。

【０００５】１．インデックスＩにおいて、検索パター
ンｑ中の部分文字列ｓi（ｉ＝２ｊ＋１，ｌが奇数のと
き０≦ｊ≦（ｌ−１）／２，ｌが偶数のとき０≦ｊ≦ｌ
／２−１）に関して、ｎsiの小さい順に応じてｉを並べ
た数列（ｔ(0)，ｔ(1)，…，ｔ(m)）を作成する。ここ
で、ｍ＝（ｌ−１）／２（ｌが奇数の場合）、ｍ＝ｌ／
２−１（ｌが偶数の場合)になる。

【０００６】２．ｎst(0)＝０ならば検索処理は終了す
る。検索パターンは存在しない。３．ｋj＝ｓt(j)（０≦ｊ≦ｍ）とする。４．Ｒ(0)＝｛（ｐ−ｔ(0)＋１）｜ｐ∈Ｌk0｝とする。５．ｊ＝１，２，…，ｍまで、次の処理を繰り返す。途
中でＲ(j)が空になったら検索処理は終了する。検索パ
ターンは存在しない。

【０００７】Ｒ(j)＝｛（ｐ−ｔ(j)＋１）｜ｐ∈Ｌkj，
∃ｒ∈Ｒ(j-1)，ｒ＝ｐ−ｔ(j)＋１｝６．検索処理は終了する。Ｒ(m)が検索パターンの存在
する位置である。例えば「当日券」の検索処理は以下の
ようになる。１．ｓ1=当日、ｓ3=券であるから、ｎs1＝１、ｎs3＝１
であり、t(0)＝１、t(1)＝３となる。

【０００８】２．ｎs1＝１で、０ではないので処理を続
ける。３．ｋ0＝当日、ｋ1＝券とする。４．Ｌk0＝(11)であるから、Ｒ(0)＝(11)となる。５．Ｌk1＝(13)であるから、１１＝（１３−３＋１）を
満足し、Ｒ(1)＝(11)とする。

【０００９】６．これにより、(11)が検索結果となる。Ｎ−ｇｒａｍインデックスのｎの値を大きくすると、上
記検索処理手順の第５ステップでの比較演算回数が減少
するので、検索にかかる時間が短縮される。一方、ｎを
大きくすると、インデックスサイズが増大したり、イン
デックスの作成時間が増大するという問題点がある。比
較演算回数が増える要因の一つに、検索に使用するキー
の出現回数（そのキーの位置リストの要素数）が大きい
ことがある。そこで、インデックスサイズの増大を抑え
ながら、検索処理時間の短縮を図るために、キーの出現
回数が大きくなるようなキーについてのみｎの値を大き
くするという方法がある。

【００１０】こうした方法の一つとして、菅谷他：「ｎ
−ｇｒａｍ型大規模全文検索方式の開発ーインクリメン
タル型ｎ−ｇｒａｍインデクス方式ー」（第５３回情報
処理学会全国大会論文集，３，ｐｐ．２３５−２３６）
で説明されているインクリメンタル法がある。このイン
クリメンタル法では、ｎ−ｇｒａｍのキーの出現回数が
閾値を越えたら、そのキーの最後に１文字追加した（ｎ
＋１）−ｇｒａｍを作成して、それらをキーに追加す
る。例えば、キーの集合をＫ、閾値をｔaとしたとき、
キーｋ∈Ｋ（出現回数をｎkとする）に対してｎk＞ｔa
となったら、Ｋ’＝Ｋ∪｛ｓ｜ｓ＝ｃａｔ（ｋ，ｃ），
ｃ∈Ｋ｝を新しいキー候補集合とする。ここで、ｃａｔ
（ｓ，ｃ）は、文字列ｓの後ろに文字ｃを加えた文字列
を示す。このインクリメンタル法を用いて、「日本対ス
イスの日本側当日券は本日売り切れ」のテキストデータ
に対して閾値を１としてインデックスを作成すると図９
のようになる。

【００１１】別の方法として、福島他「高速全文検索の
ためのフレキシブル文字列インバージョン法（１）方式
概要」（第５３回情報処理学会全国大会論文集，３，ｐ
ｐ．２３９−２４０）で説明されているフレキシブル文
字列インバージョン法がある。このフレキシブル文字列
インバージョン法では、ｎーｇｒａｍのキーの出現回数
が閾値を越えた場合に、（ｎ＋１）ーｇｒａｍを作成す
る代わりに、キーの後（前）に連接する文字にハッシン
グを施し、得られたハッシュ値と元のキーを組み合わせ
たものを新たなキーとする。例えば、キーの集合をＫ、
閾値をｔbとしたとき、キーｋ∈Ｋに対してｎk＞ｔbと
なったら、Ｋ’＝Ｋ∪｛ｈ｜ｈ＝ｋｅｙ（ｋ，ｈａｓｈ
(c)），ｃ∈Ｋ｝を新しいキー候補集合とする。ここ
で、ｈａｓｈ(c)は、文字ｃにハッシュを施したハッシ
ュ値を示す。また、ｋｅｙ（ｓ，ｉ）は、文字列ｓと整
数値ｉとで構成されるキーを示す。このフレキシブル文
字列インバージョン法を用いて、「日本対スイスの日本
側当日券は本日売り切れ」のテキストデータに対して閾
値を１としてインデックスを作成すると図１０のように
なる。尚、図中＃で示している数値がハッシュ値であ
る。

【００１２】

【発明が解決しようとする課題】しかしながら、上記従
来のインクリメンタル法を用いた情報処理装置では、閾
値を越えたキーに対して任意の文字を付け加えて新しい
キーを作成するためキーの数が増えすぎ、ひいてはイン
デックスサイズを増大させるという問題があった。

【００１３】また、上記従来のフレキシブル文字列イン
バージョン法を用いた情報処理装置では、ハッシュ値と
組み合わせたキーを用いることで検索に使用するキーの
位置リスト要素数は削減されるものの、組み合わせ演算
の回数を削減できず、ひいては検索時間が十分に短縮さ
れないという問題があった。この問題は、次の例をみる
とわかりやすい。

【００１４】今、アルファベットだけを対象とした場合
に、キー「あ」の出現回数が閾値を越えたとする。この
場合、インクリメンタル法では、新たにキー「ああ」、
「あい」、「あう」、…、「あん」が作成される。この
ように、インクリメンタル法では、新しく作成されるキ
ーの数が大きくなる。一方、フレキシブル文字列インバ
ージョン法では、ハッシュ値が０と１になるようにハッ
シングを施したとすると、キー「あ＃０」、「あ＃１」
が新しく作成されるだけで増大するキーの数を小さく抑
えられる。次に、「あいう」という検索パターンで検索
することを考える。インクリメンタル法では、検索に使
用するキーが「あい」と「う」となり、この二つの組み
合わせ演算だけで検索が可能である。一方、フレキシブ
ル文字列インバージョン法では、「あ＃０」、「い」、
「う」の三つの組み合わせ演算が必要になる（ここで
は、「い」のハッシュ値が０になると仮定している）。
なぜなら、キー「あ＃０」だけでは、「あ」の次の文字
が「い」である保障はないからである。

【００１５】本発明は上記の問題に鑑みてなされたもの
であり、テキストデータの検索に用いるインデックスの
キーの増大を抑えるとともに、検索速度を向上すること
ができる情報処理装置及びその方法を提供することを目
的とする。

【００１６】

【課題を解決するための手段】上記の目的を達成するた
めの本発明による情報処理装置は以下の構成を備える。
即ち、テキストデータを検索する情報処理装置であっ
て、テキストデータを保持する保持手段と、前記保持手
段で保持されているテキストデータを構成する文字列の
内、所定回数以上出現する文字列に基づいて、該テキス
トデータを構成する文字列の位置に関する位置情報を作
成する作成手段と、前記作成手段で作成された位置情報
を用いて、入力された検索パターンを有するテキストデ
ータを検索する検索手段と、前記検索手段による検索結
果を出力する出力手段とを備える。

【００１７】また、好ましくは、前記作成手段は、前記
所定回数以上出現する文字列と所定の位置関係を有する
文字列の位置に関する位置情報を作成する。また、好ま
しくは、前記作成手段は、前記所定回数以上出現する文
字列に前接する文字列の位置に関する位置情報を作成す
る。また、好ましくは、前記作成手段は、前記所定回数
以上出現する文字列に後接する文字列の位置に関する位
置情報を作成する。

【００１８】また、好ましくは、前記テキストデータを
構成する文字列は、１文字を含む。また、好ましくは、
前記作成手段は、前記テキストデータ中で、前記所定回
数以上出現する文字列以外の文字列の位置に関する位置
情報を作成し、該位置情報を一括して管理する。上記の
目的を達成するための本発明による情報処理装置は以下
の構成を備える。即ち、テキストデータを管理する情報
処理装置であって、入力されたテキストデータを構成す
る文字列の内、所定回数以上出現する文字列に基づい
て、該テキストデータを構成する文字列の位置に関する
位置情報を作成する作成手段と、前記作成手段で作成さ
れた位置情報と前記テキストデータを対応づけて管理す
る管理手段とを備える。

【００１９】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、テキストデ
ータを検索する情報処理方法であって、テキストデータ
を記憶媒体に保持する保持工程と、前記保持工程で前記
記憶媒体に保持されているテキストデータを構成する文
字列の内、所定回数以上出現する文字列に基づいて、該
テキストデータを構成する文字列の位置に関する位置情
報を作成する作成工程と、前記作成工程で作成された位
置情報を用いて、入力された検索パターンを有するテキ
ストデータを検索する検索工程と、前記検索工程による
検索結果を出力する出力工程とを備える。

【００２０】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、テキストデ
ータを管理する情報処理方法であって、入力されたテキ
ストデータを構成する文字列の内、所定回数以上出現す
る文字列に基づいて、該テキストデータを構成する文字
列の位置に関する位置情報を作成する作成工程と、前記
作成工程で作成された位置情報と前記テキストデータを
対応づけて記憶媒体に管理する管理工程とを備える。

【００２１】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
テキストデータを検索する情報処理のプログラムコード
が格納されたコンピュータ可読メモリであって、テキス
トデータを記憶媒体に保持する保持工程のプログラムコ
ードと、前記保持工程で前記記憶媒体に保持されている
テキストデータを構成する文字列の内、所定回数以上出
現する文字列に基づいて、該テキストデータを構成する
文字列の位置に関する位置情報を作成する作成工程のプ
ログラムコードと、前記作成工程で作成された位置情報
を用いて、入力された検索パターンを有するテキストデ
ータを検索する検索工程のプログラムコードと、前記検
索工程による検索結果を出力する出力工程のプログラム
コードとを備える。

【００２２】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
テキストデータを管理する情報処理のプログラムコード
が格納されたコンピュータ可読メモリであって、入力さ
れたテキストデータを構成する文字列の内、所定回数以
上出現する文字列に基づいて、該テキストデータを構成
する文字列の位置に関する位置情報を作成する作成工程
のプログラムコードと、前記作成工程で作成された位置
情報と前記テキストデータを対応づけて記憶媒体に管理
する管理工程のプログラムコードとを備える。

【００２３】

【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。図１は本発明の実施形
態に係る情報処理装置の機能構成を示すブロック図であ
る。図１において、１０１は被検索テキスト保持部であ
り、被検索テキストデータを保持する。１０２はインデ
ックス作成部であり、被検索テキスト保持部１０１に保
持されている被検索テキストデータに対して、キー（テ
キストデータを構成する文字あるいは文字列）集合に属
するキーに対して被検索テキストデータ中での当該キー
の出現位置を列挙したインデックスを作成する。また、
出現回数が基準以上のキーに１文字を付与したキー候補
の中、被検索テキストデータ中での出現回数が別の基準
以上のキー候補をキー集合に加えて、同様に被検索テキ
ストデータ中での当該キーの出現位置を列挙したインデ
ックスを作成する。１０３はインデックス保持部であ
り、インデックス作成部１０２で作成したインデックス
を保持する。

【００２４】１０４は検索パターン保持部であり、被検
索テキストデータから検索するパターンを保持する。１
０５は検索部であり、インデックス保持部１０３に保持
されているインデックスを用いて、検索パターン保持部
１０４に保持されている検索パターンを被検索テキスト
データ中から検索する。１０６は検索結果保持部であ
り、検索部１０５による検索結果を保持する。

【００２５】次に本発明の実施形態の情報処理装置の構
成について、図２を用いて説明する。図２は本発明の実
施形態の情報処理装置の構成を示すブロック図である。
図２において、２０１はＣＰＵであり、後述する手順を
実現するプログラムに従って動作する。２０２はＲＡＭ
であり、被検索テキスト保持部１０１、検索パターン保
持部１０４、検索結果保持部１０６と上記プログラムの
動作に必要な記憶領域とを提供する。２０３はＲＯＭで
あり、後述する手順を実現するプログラムを保持する。
２０４はディスク装置であり、インデックス保持部１０
３を実現する。２０５は情報処理装置の各種構成要素を
相互に接続するバスである。２０６はキーボード及びマ
ウスからなる入力装置であり、検索キーを入力する。２
０７は例えば、ＣＲＴ、ＬＣＤ等の出力装置であり、検
索結果を表示する。

【００２６】以下、説明していく本発明の実施形態で実
行される処理は、インデックスを作成するインデックス
作成処理と文字列を検索する検索処理の２つに大きく分
かれる。まず、インデックス作成処理によって作成され
るインデックスを保持するインデックス保持部１０３の
詳細な構成について、図１１を用いて説明する。

【００２７】図１１は本発明の実施形態のインデックス
保持部の詳細な構成を示す図である。図１１において、
１１０１は拡張コード領域１１０３に示される拡張コー
ドに１文字を後接したキーが被検索テキストデータ中に
出現する回数を保持する出現回数領域である。この出現
回数領域では、行が拡張コードに対応し、列が後接する
文字に対応する２次元の出現回数テーブルを保持する。
但し、０行目については元になるキーがなく、各列が示
す文字だけのキーの出現回数を示す。

【００２８】１１０２は、拡張コードに１文字を後接し
たキーに対し、位置リストを保持する際のキーコードを
保持するキーコード領域である。このキーコード領域で
は、行が拡張コードに対応し、列が後接する文字に対応
する２次元のキーコードテーブルを保持する。但し、０
行目については元になるキーがなく、各列が示す文字だ
けのキーのキーコードを示す。また、０列目については
元になるキーの位置リストから、文字を後接して作成し
た位置リストに含まれる要素を除いて作成する位置リス
トに対するキーコードを保持する。

【００２９】１１０３は、拡張コードに１文字を後接し
たキーをさらに1文字拡張する場合の管理を行なう拡張
コードを保持する拡張コード領域である。この拡張コー
ド領域では、行が拡張コードに対応し、列が後接する文
字に対応する２次元の拡張コードテーブルを保持する。
但し、０行目については元になるキーがなく、各列が示
す文字だけのキーの拡張コードを示す。

【００３０】１１０４は、キーコードが示すキーに対す
る位置リストを保持する位置リスト領域である。キーコ
ード値の昇順に並んでいるので、キーコード値から容易
に位置リストへアクセスできる。以下の説明では、出現
回数テーブルにおけるｎ行の文字ｃに対応する列の値を
Ｃ（ｎ，ｃ）で表し、キーコードテーブルにおけるｎ行
の文字ｃに対応する列の値をＫ（ｎ，ｃ）で表し、キー
コードテーブルにおけるｎ行の０列目の値をＫ０（ｎ）
で表し、拡張コードテーブルにおけるｎ行の文字ｃに対
応する列の値をＥ（ｎ，ｃ）で表し、キーコードＫに対
する位置リストをＬ（ｋ）で表す場合もある。

【００３１】次に、インデックス作成部１０２で実行さ
れるインデックス作成処理について、図３を用いて説明
する。図３は本発明の実施形態で実行されるインデック
ス作成処理を示すフローチャートである。まず、ステッ
プＳ３０１では、出現回数テーブル、キーコードテーブ
ル、拡張コードテーブルの全要素を全て０に初期化す
る。また、処理の対象となっている文字の位置を示すカ
ウンタＣを１に初期化する。次に、ステップＳ３０２で
は、ポインタＰの初期化を行なう。ポインタＰは、処理
の対象となっている文字を指し示すもので、これを被検
索テキストデータの先頭文字を指すように初期化する。
ステップＳ３０３では、ポインタｐが被検索テキストデ
ータの最後に達したか否かを判定する。最後に達してい
る場合（ステップＳ３０３でＹＥＳ）、インデックス作
成処理を終了する。一方、最後に達していない場合（ス
テップＳ３０３でＮＯ）、ステップＳ３０４に進む。

【００３２】ステップＳ３０４では、引数（０，ｐ，
１）による登録処理を行なう。尚、この登録処理の詳細
については、図４を用いて後述する。また、（０，ｐ，
１）は図４のフローチャートを呼び出すための引数であ
る。ステップＳ３０５では、カウンタｃの値を１増や
す。ステップＳ３０６では、ポインタｐが次の文字を指
し示すようポインタｐを進め、ステップＳ３０３に戻
る。

【００３３】次に、上述した図３のステップＳ３０４に
おける引数（ｎ，ｐ，ｓ）への登録処理の詳細につい
て、図４を用いて説明する。図４は本発明の実施形態で
実行される登録処理の詳細を示すフローチャートであ
る。まず、ステップＳ４０１では、ポインタｐが指し示
す文字をｃとする。ステップＳ４０２では、出現回数テ
ーブルにおいて、ｎ行の文字ｃに対応する列Ｃ（ｎ，
ｃ）の値を１増やす。ステップＳ４０３では、引数
（ｎ，ｃ，ｓ）に対する新キー作成処理を行なう。尚、
この新キー作成処理の詳細については、図５を用いて後
述する。ステップＳ４０４では、キーコードテーブルに
おいて、ｎ行の文字ｃに対応する列Ｋ（ｎ，ｃ）の値を
参照する。列Ｋ（ｎ，ｃ）の値が０である場合は、ステ
ップＳ４０５に進み、キーコードテーブルにおけるｎ行
の０列目の値をキーコードとして、当該キーコードに対
する位置リストＬ（Ｋ０（ｎ））にカウンタＣの値を追
加する。そして、ステップＳ４０７に進む。一方、列Ｋ
（ｎ，ｃ）の値が正の値である場合は、ステップＳ４０
６に進み、キーコードテーブルにおいて、ｎ行の文字ｃ
に対応する列の値をキーコードとして、当該キーコード
に対する位置リストＬ（Ｋ０（ｎ），ｃ）にカウンタＣ
の値を追加する。そして、ステップＳ４０７に進む。

【００３４】ステップＳ４０７では、拡張コードテーブ
ルにおいて、ｎ行の文字ｃに対応する列Ｅ（ｎ，ｃ）の
値を参照する。列Ｅ（ｎ，ｃ）の値が０である場合は、
（ｎ，ｐ，ｓ）への登録処理を終了する。一方、列Ｅ
（ｎ，ｃ）の値が正の値である場合は、ステップＳ４０
８に進む。ステップＳ４０８では、ポインタｐが次の文
字を指し示すようポインタｐを進める。ステップＳ４０
９では、ポインタｐが検索テキストデータの最後に達し
たか否かを判定する。最後に達した場合（ステップＳ４
０９でＹＥＳ）、（ｎ，ｐ，ｓ）への登録処理を終了す
る。一方、最後に達していない場合（ステップＳ４０９
でＮＯ）、ステップＳ４１０に進む。

【００３５】ステップＳ４１０では、拡張コードテーブ
ルにおいて、ｎ行の文字ｃに対応する列Ｅ（ｎ，ｃ）の
値をｍとして、引数（ｍ，ｐ，（ｓ＋１））への登録処
理を再帰し、引数（ｍ，ｐ，（ｓ＋１））への登録処理
を終了する。次に、上述した図４のステップＳ４０３に
おける引数（ｎ，ｃ，ｓ）に対する新キー作成処理の詳
細について、図５を用いて説明する。

【００３６】図５は本発明の実施形態で実行される新キ
ー作成処理の詳細を示すフローチャートである。まず、
ステップＳ５０１では、出現回数テーブルにおいて、ｎ
行の文字ｃに対応する列Ｃ（ｎ，ｃ）の値を参照し、Ｃ
（ｎ，ｃ）の値が閾値Ａを越えており、かつ拡張コード
テーブルにおいて、ｎ行の文字ｃに対応する列Ｅ（ｎ，
ｃ）の値を参照し、列Ｅ（ｎ，ｃ）の値が０あるという
条件を満たすか否かを判定する。条件を満たす場合（ス
テップＳ５０１でＹＥＳ）、ステップＳ５０８に進む。
一方、条件を満たさない場合（ステップＳ５０１でＮ
Ｏ）、ステップＳ５０２に進む。

【００３７】ステップＳ５０２では、ｎの値を参照し、
値が０であるか否かを判定する。値が０である場合（ス
テップＳ５０２でＹＥＳ）、ステップＳ５０３に進む。
一方、値が０でない場合（ステップＳ５０２でＮＯ）、
ステップＳ５０５に進む。ステップＳ５０３では、キー
コードテーブルにおいて、ｎ行の文字ｃに対応する列Ｋ
（ｎ，ｃ）の値が０であるか否かを判定する。列Ｋ
（ｎ，ｃ）の値が０である場合（ステップＳ５０３でＹ
ＥＳ）、ステップＳ５０４に進み、新しいキーコードを
割り当て、割り当てた値をキーコードテーブルにおける
ｎ行の文字ｃに対応する列Ｋ（ｎ，ｃ）に代入する。そ
して、引数（ｎ，ｃ，ｓ）に対する新キー作成処理を終
了する。一方、列Ｋ（ｎ，ｃ）の値が０でない場合（ス
テップＳ５０３でＮＯ）、（ｎ，ｃ，ｓ）に対する新キ
ー作成処理を終了する。

【００３８】ステップＳ５０５では、出現回数テーブル
において、ｎ行の文字ｃに対応する列Ｃ（ｎ，ｃ）の値
を参照し、列Ｃ（ｎ，ｃ）値が閾値Ｂを越えており、か
つキーコードテーブルにおいて、ｎ行の文字ｃに対応す
る列Ｋ（ｎ，ｃ）の値を参照し、列Ｋ（ｎ，ｃ）値が０
であるという条件を満たすか否かを判定する。条件を満
たす場合（ステップＳ５０５でＹＥＳ）、ステップＳ５
０６に進む。一方、条件を満たさない場合（ステップＳ
５０５でＮＯ）、引数（ｎ，ｃ，ｓ）に対する新キー作
成処理を終了する。

【００３９】ステップＳ５０６では、新しいキーコード
を割り当て、割り当てた値をキーコードテーブルにおけ
るｎ行の文字ｃに対応する列Ｋ（ｎ，ｃ）に代入する。
ステップＳ５０７では、キーコードテーブルにおけるｎ
行の０列の値をキーとする位置リスト中の各値につい
て、その値にｓを足した値の中から、キーコードテーブ
ルにおけるｎ行の文字ｃに対応する列の値をキーとする
位置リスト中の値のいずれかに一致する値を全て削除す
る。次に、削除した値をステップＳ５０６で新たに割り
当てたキーコードに対する位置リストに加える。そし
て、引数（ｎ，ｃ，ｓ）に対する新キー作成処理を終了
する。

【００４０】ステップＳ５０８では、新しい拡張コード
を割り当て、割り当てた値ｍを拡張コードテーブルにお
けるｎ行の文字ｃに対応する列Ｅ（ｎ，ｃ）に代入す
る。ステップＳ５０９では、新しいキーコードを割り当
て、割り当てた値をキーコードテーブルにおけるｍ行の
０列に代入する。そして、キーコードテーブルにおける
ｎ行の文字ｃに対応する列の値をキーとする位置リスト
の内容を、全て割り当てたキーコードの位置リストにコ
ピーする。

【００４１】ステップＳ５１０では、キーコードテーブ
ルの全ての列において、以下の処理を行なう。ｍ行の０
列の値をキーとする位置リスト中の各値について、その
値にｓを足した値の中からキーコードテーブルにおける
ｎ行の当該列の値をキーとする位置リスト中の値のいず
れかに一致する値の数を調べ、それが閾値Ｂを越えてい
れば一致した値を全て削除する。次に、新しいキーコー
ドを割り当て、削除した値を割り当てたキーコードの位
置リストに全て加え、キーコードテーブルにおけるｍ行
の当該列の値に割り当てたキーコードを代入する。そし
て、引数（ｎ，ｃ，ｓ）に対する新キー作成処理を終了
する。

【００４２】以上のインデックス作成処理を、例えば、
「日本対スイスの日本側当日券は本日売り切れ」に対し
て施すと、図１１に示すようなインデックスが作成され
る。また、図１２は、「当日券」の「日」までのインデ
ックス作成処理が完了した時点でのインデックスを示し
ている。次に検索部１０５で実行される検索処理につい
て、図６を用いて説明する。

【００４３】図６は本発明の実施形態で実行される検索
処理を示すフローチャートである。まず、ステップＳ６
０１では、検索パターン保持部１０４に保持されている
検索パターンの長さを演算用領域ｌに代入する。また、
演算用領域ｎに１を代入する。ステップＳ６０２では、
演算用領域ｎに対する位置リスト獲得処理を行ない、獲
得した位置リストを演算用配列Ａ１に格納する。尚、こ
の位置リスト獲得処理の詳細については、図７を用いて
説明する。

【００４４】ステップＳ６０３では、演算用領域ｎの示
す値が演算用領域ｌの示す値より大きいか否かを判定す
る。演算用領域ｎの示す値が演算用領域ｌの示す値より
大きい場合（ステップＳ６０３でＹＥＳ）、ステップＳ
６０６に進む。一方、演算用領域ｎの示す値が演算用領
域ｌの示す値未満である場合（ステップＳ６０３でＮ
Ｏ）、ステップＳ６０４に進む。

【００４５】ステップＳ６０４では、演算用領域ｎに対
する位置リスト獲得処理を行ない、獲得した位置リスト
を演算用配列Ａ２に格納する。ステップＳ６０５では、
演算用配列Ａ１と演算用配列２の両方に存在している値
を全て取り出し、これらの値だけからなる位置リストを
新たに演算用配列Ａ１に格納する。そして、ステップＳ
６０３に戻る。

【００４６】ステップＳ６０６では、演算用配列Ａ１が
空であるか否かを調べる。空でない場合（ステップＳ６
０６でＮＯ）、ステップＳ６０７に進み、被検索テキス
トデータから検索パターンが検索されたことを示す値と
して１を検索結果保持部１０６に保持する。そして検索
処理を終了する。一方、空である場合（ステップＳ６０
６でＹＥＳ）、ステップＳ６０８に進み、被検索テキス
トデータから検索パターンが検索されなかったことを示
す値として０を検索結果保持部１０６に保持する。そし
て、検索処理を終了する。

【００４７】次に、上述した図６のステップＳ６０２に
おける位置リスト獲得処理の詳細について、図７を用い
て説明する。図７は本発明の実施形態で実行される位置
リスト獲得処理の詳細を示すフローチャートである。ま
ず、ステップＳ７０１では、演算用領域ｍの値を演算用
領域ｎの値に初期化する。また、演算用領域ｋの値を０
に初期化する。ステップＳ７０２では、演算用領域ｍの
値が演算用領域ｋの値以下であるか否かを判定する。演
算用領域ｍの値が演算用領域ｋの値未満である場合（ス
テップＳ７０２でＹＥＳ）、ステップ７０３に進む。一
方、演算用領域ｍの値が演算用領域ｋの値より大きい場
合（ステップＳ７０２でＮＯ）、ステップＳ７０６に進
む。

【００４８】ステップＳ７０３では、拡張コードテーブ
ルのｋ行で、検索パターンのｍ番目の文字に対応する列
の値をｋ’に代入する。ステップＳ７０４では、ｋ’の
値が０であるか否かを判定する。ｋ’の値が０である場
合（ステップＳ７０４でＹＥＳ）、ステップＳ７０６に
進む。一方、ｋ’の値が正の値である場合（ステップＳ
７０４でＮＯ）、ステップＳ７０５に進む。ステップＳ
７０５では、演算用領域ｋにｋ’の値を代入し、演算用
領域ｍの値を１増やす。そして、ステップＳ７０２に戻
る。

【００４９】ステップＳ７０６では、出現回数テーブル
のｋ行で、検索パターンのｍ番目の文字に対応する列Ｃ
（ｋ，ｃ）の値が０であるか否かを判定する。列Ｃ
（ｋ，ｃ）の値が０である場合（ステップＳ７０６でＹ
ＥＳ）、ステップＳ７０７に進み、空の位置リストを獲
得した位置リストとする。そして、ステップＳ７１１に
進む。一方、列Ｃ（ｋ，ｃ）の値が０でない場合（ステ
ップＳ７０６でＹＥＳ）、ステップＳ７０８に進む。

【００５０】ステップＳ７０８では、キーコードテーブ
ルのｋ行で、検索パターンのｍ番目の文字に対応する列
Ｋ（ｋ，ｃ）の値が０であるか否かを判定する。列Ｋ
（ｋ，ｃ）の値が０である場合（ステップＳ７０８でＹ
ＥＳ）、ステップＳ７０９に進み、キーコードテーブル
のｋ行で０列の値をキーとして、そのキーコードに対応
する位置リストを取り出す。そして、その全ての要素か
ら（ｎー１）を引いた位置リストを獲得した位置リスト
とする。続いて、ステップＳ７１２では、検索処理全般
で使用する演算用領域ｎにｍを代入する。そして、位置
リスト獲得処理を終了する。

【００５１】一方、列Ｋ（ｋ，ｃ）の値が０でない場合
（ステップＳ７０８でＮＯ）、ステップＳ７１０に進
み、キーコードテーブルのｋ行で、検索パターンのｍ番
目の文字に対応する列の値をキーとして、そのキーコー
ドに対応する位置リストを取り出す。そして、その全て
の要素から（ｎー１）を引いた位置リストを獲得した位
置リストとする。続いて、ステップＳ７１１では、検索
処理全般で使用する演算用領域ｎに（ｍ＋１）を代入す
る。そして、位置リスト獲得処理を終了する。

【００５２】次に、検索パターン「当日券」で検索する
場合の検索処理の具体例について説明していく。１．ｌ＝３、ｎ＝１を代入する。（ステップＳ６０１）２．ｎ＝１で位置リスト獲得処理を行なう。（ステップ
Ｓ６０２）（ａ）ｍ＝ｎ＝１、ｋ＝０を代入する。（ステップＳ７
０１）（ｂ）ｍ＜ｌなので（ステップＳ７０２でＹＥＳ）、
ｋ’＝Ｅ（０，当）＝０とする。（ステップＳ７０３）（ｃ）ｋ’＝０（ステップＳ７０４でＹＥＳ）、Ｃ
（０，当）＝１（ステップＳ７０６でＮＯ)、Ｋ（０，
当）＝８（ステップＳ７０８でＮＯ）なので、Ｌ(8)＝(11)から０を引いた(11)を獲得する位
置リストとする。（ステップＳ７１０）（ｄ）ｎ＝ｍ＋１＝２とする。（ステップＳ７１１）３．Ａ1＝(11)とする。（ステップＳ６０２）４．ｎ≦ｌなので（ステップＳ６０３でＮＯ）、位置リ
スト獲得処理を行なう。（ステップＳ６０４）（ａ）ｍ＝ｎ＝２、ｋ＝０。（ステップＳ７０１）（ｂ）ｍ＜ｌなので（ステップＳ７０２でＹＥＳ）、
ｋ’＝Ｅ（０，日）＝１とする。（ステップＳ７０３）（ｃ）ｋ’＞０（ステップＳ７０４でＮＯ）なので、ｋ
＝１、ｍ＝ｍ＋１＝３とする。（ステップＳ７０５）（ｄ）ｍ＝ｌ（ステップＳ７０２でＮＯ）、Ｃ（１，
券）＝１（ステップＳ７０６でＮＯ）、Ｋ（１，券）＝
０（ステップＳ７０８でＹＥＳ）なので、Ｌ（Ｋ0(1)）
＝Ｌ(9)＝(12,16)から１を引いた(11,15)を獲得する位
置リストとする。（ステップＳ７０９）（ｅ）ｎ＝ｍ＝３とする。（ステップＳ７１２）５．Ａ2＝(11,15)とする。（ステップＳ６０４）６．Ａ1とＡ2の両方に存在する要素をとり、Ａ1＝(11)
とする。（ステップＳ６０５）７．ｎ≦ｌなので（ステップＳ６０３でＮＯ）、位置リ
スト獲得処理を行なう。（ステップＳ６０４）（ａ）ｍ＝ｎ＝３、ｋ＝０。（ステップＳ７０１）（ｂ）ｍ≧ｌなので（ステップＳ７０２でＮＯ）、Ｃ
（０，券）＝１（ステップＳ７０６でＮＯ）、Ｋ（０，
券）＝１１（ステップＳ７０８でＮＯ）なので、Ｌ(11)
＝(13)から２を引いた(11)を獲得する位置リストとす
る。（ステップＳ７１０）（ｃ）ｎ＝ｍ＋１＝４とする。（ステップＳ７１１）８．Ａ2＝(11)とする。（ステップＳ６０４）９．Ａ1とＡ2の両方に存在する要素をとり、Ａ1＝(11)
とする。（ステップＳ６０５）１０．ｎ＞ｌなので（ステップＳ６０３でＹＥＳ）、Ａ
1は空でないので（ステップＳ６０６でＮＯ）、検索パ
ターンが検索される。（ステップＳ６０７）次に別の検索パターン「日本人」で検索する場合の検索
処理の具体例について説明していく。

【００５３】１．ｌ＝３、ｎ＝１を代入する。（ステップＳ６０１）２．ｎ＝１で位置リスト獲得処理を行なう。（ステップ
Ｓ６０２）（ａ）ｍ＝ｎ＝１、ｋ＝０を代入する。（ステップＳ７
０１）（ｂ）ｍ＜ｌなので（ステップＳ７０２でＹＥＳ）、
ｋ’＝Ｅ（０，日）＝１とする。（ステップＳ７０３）（ｃ）ｋ’＞０（ステップＳ７０４でＮＯ）、ｋ＝１、
ｍ＝ｍ＋１とする。

【００５４】（ステップＳ７０５）（ｄ）ｍ＜ｌなので（ステップＳ７０２でＹＥＳ）、
ｋ’＝Ｅ（１，本）＝０とする。（ステップＳ７０３）（ｅ）ｋ’＝０（ステップＳ７０４でＹＥＳ）、Ｃ
（１，本）＝２（ステップＳ７０６でＮＯ)、Ｋ（１，
本）＝１０（ステップＳ７０８でＮＯ）なので、Ｌ(10)
＝(1,8)から０を引いた(1,8)を獲得する位置リストとす
る。（ステップＳ７１０）（ｆ）ｎ＝ｍ＋１＝３とする。（ステップＳ７１１）３．Ａ1＝(1,8)とする。（ステップＳ６０２）４．ｎ≦ｌなので（ステップＳ６０３でＮＯ）、位置リ
スト獲得処理を行なう。（ステップＳ６０４）（ａ）ｍ＝ｎ＝３、ｋ＝０。（ステップＳ７０１）（ｂ）ｍ≧ｌなので（ステップＳ７０２でＮＯ）、Ｃ
（０，人）＝０（ステップＳ７０６でＹＥＳ）、空リス
ト()を獲得する位置リストとする。（ステップＳ７０
７）（ｃ）ｎ＝ｍ＋１＝４とする。（ステップＳ７１１）５．Ａ2＝()とする。（ステップＳ６０４）６．Ａ1とＡ2の両方に存在する要素をとり、Ａ1＝()と
する。（ステップＳ６０５）７．ｎ＞ｌなので（ステップＳ６０３でＹＥＳ）、Ａ1
は空であるので（ステップＳ６０６でＹＥＳ）、検索パ
ターンは検索されない。（ステップＳ６０８）以上のように、本実施形態の情報処理装置の検索によれ
ば、インクリメンタル法などを利用した従来の情報処理
装置の検索に比べてキーの数を削減することができる。
上述の具体例において、従来のインクリメンタル法では
「日本」、「日券」、「日売」の３つのキーが作成され
るのに対し、本実施形態では「日本」、「日(o)」の２
つとなり、キーの数が削減される。

【００５５】また、本実施形態では、作成するキーの数
が削減されても、検索処理における組み合わせ演算数が
大きく増えるわけではない。例えば、上述の「日本人」
の検索例では、１つの閾値を用いた１回の組み合わせ演
算で検索が完了している。これに対し、同様の閾値を使
って、従来のフレキシブル文字列インバージョン法で
は、組み合わせ演算が２回必要になる。つまり、本実施
形態では、従来に比べて、より高速に検索処理を実行す
ることができる。

【００５６】以上説明したように、本実施形態によれ
ば、文字列としての一致だけではなく、インデックスの
キー数の増大を抑えるとともに組み合わせ演算数も削減
することで、インデックスサイズを抑えながら、検索時
間の短縮が可能になるという効果が得られる。尚、上記
実施形態においては、キーを拡張する際に全ての文字を
後接した文字列で候補を作成する場合について説明した
が、これに限定されるものではない。例えば、文字単独
での出現回数が閾値Ｃを越える文字だけを後接する候補
としてもよい。これにより、インデックス作成処理の計
算量が削減される。つまり、上述した実施形態の新キー
作成処理において、出現回数テーブルの０行目の値が閾
値Ｃ以下の列については、各ステップでの処理を行なわ
なければよい。あるいは、各テーブルの列には、出現回
数が閾値Ｃを越えた文字しか入れない方法でもよい。こ
の場合、各テーブルの０行目は分離したデータ構造とす
る。尚、どちらの方法にしても、本実施形態では、文字
の出現回数が閾値Ｃを越えた時点で、拡張するキーの再
計算処理を更に加える必要がある。

【００５７】また、上記実施形態においては、キーを拡
張するにあたり新しいキーの出現回数が閾値Ａを越えな
い場合は、残りをまとめたキーに一括して保持する場合
について説明したが、これに限定されるものではない。
新しいキーの出現回数が閾値Ａを越えない場合は、保持
しなくてもよい。すなわち、キーコードテーブルの０列
目を作成しないことになる。また、拡張する前のキーを
使用すれば検索は可能である。但し、組み合わせ演算を
行なう際のリストの要素数が増えるので、検索時間が増
大する。また、新キー作成処理では、ステップＳ５０７
とステップＳ５１０で、新しく位置リストを作成する場
合には、拡張する前の元のキーの位置リストから求めれ
ばよい。

【００５８】また、上記実施形態においては、全ての文
字について一括のインデックスを作成する場合について
説明したが、これに限定されるものではない。ひらが
な、カタカナ、漢字などの字種ごとにインデックスを分
けてもよい。この場合、拡張する場合には同一字種の文
字でのみ拡張してもよいし、他の字種の文字も含めて拡
張してもよい。

【００５９】また、上記実施形態においては、インデッ
クスを作成しながらキーの拡張を行なう場合について説
明したが、これに限定されるものではない。一度被検索
テキストデータ中でのキーの出現回数を調べて、出現回
数テーブルを作成する。そして、その作成された出現回
数テーブルに基づいて、キーコードテーブル、拡張コー
ドテーブルを作成してから、位置リストの作成を進めて
もよい。

【００６０】また、上記実施形態においては、拡張する
前のキーのキー長を１とする場合について説明したが、
これに限定されるものではない。全て２以上の一定値で
あってもよいし、キーの字種などによりキー長を変えて
もよい。また、上記実施形態においては、拡張するキー
のキー長の上限がない場合について説明したが、これに
限定されるものではない。拡張するキーのキー長に上限
を設けてもよい。

【００６１】また、上記実施形態においては、キーを拡
張する際に、文字を後接する場合について説明したが、
これに限定されるものではない。前接したり間隔をあけ
た位置の文字を定めるなど任意に拡張してよい。また、
上記実施形態においては、２次元のテーブルを利用して
インデックスを管理する場合について説明したが、これ
に限定されるものではない。例えば、図１５に示すよう
なトライを用いても実現できる。

【００６２】図１５は本発明の他の実施形態のインデッ
クスのデータ構造と作成例を示す図である。図１５にお
いて、１５０１はルートノードである。ルートノード１
５０１は２つのデータをノード１５０２、ノード１５０
３にそれぞれ保持する。ノード１５０２は、そのノード
１５０２をキーとした場合のキーの出現回数を示すデー
タである。ノード１５０３は、そのノード１５０３をキ
ーとした場合のキーコードを示すデータである。トライ
では、上位のノードから自ノードまで辿る間の文字を付
加したものが自ノードのキーとなる。従って、例えば、
ノード１５０４は、キー「日本」を表す。また、ノード
１５０５は、「日」を拡張したキーで、実際に作成され
たキーに含まれない位置リストを保持するキーを示す。
尚、位置リストは、図１１の位置リスト領域１１０４と
同じになる。

【００６３】また、上記実施形態においては、図１１に
示す各領域を予め十分な大きさで確保しておく場合につ
いて説明したが、これに限定されるものではない。必要
に応じて領域を増大させてもよい。また、上記実施形態
においては、閾値を固定した場合について説明したが、
これに限定されるものではない。字種などにより異なる
閾値を用いてもよい。また、被検索テキストデータの大
きさなどに応じて閾値を変化させてもよい。

【００６４】また、上記実施形態においては、出現回数
テーブル、キーコードテーブル、拡張コードテーブルの
各テーブルの列を求める際に文字コードを使用する場合
について説明したが、これに限定されるものではない。
文字に対して内部的なコードを割り当て、そのコードで
列を参照してもよい。また、上記実施形態においては、
出現回数テーブル、キーコードテーブル、拡張コードテ
ーブルの各テーブルや位置リストを参照する際にコード
を使用する場合について説明したが、これに限定される
ものではない。各テーブルのアドレスを指し示すポイン
タなどを使用してもよい。

【００６５】また、上記実施形態においては、被検索テ
キストデータ中に検索パターンが存在するか否かを検索
結果として保持する場合について説明したが、これに限
定されるものではない。被検索テキスト中の検索パター
ンの存在位置を検索結果として保持してもよい。この場
合、図６で説明した検索処理のステップＳ６０６の配列
Ａ1の値が検索パターンの存在位置を示すので、これを
用いれば、検索パターンの存在位置を検索結果として保
持することができる。

【００６６】また、上記実施形態においては、単一の被
検索テキストデータに対して検索を行なう場合について
説明したが、これに限定されるものではない。複数のテ
キストデータに対し、検索パターンが含まれるテキスト
データを検索するために用いてもよいことは言うまでも
ない。また、上記実施形態においては、インデックス作
成処理と検索処理を同一の情報処理装置で行なう場合に
ついて説明したが、これに限定されるものではない。イ
ンデックス作成処理と検索処理を異なる情報処理装置で
行ってもよい。この場合の各情報処理装置の機能構成に
ついて、図１３と図１４を用いて説明する。尚、図１３
に示す情報処理装置と、図１４に示す情報処理装置は、
例えば、ネットワーク回線で接続され互いにデータの授
受を可能とする構成になっている。また、あるいはイン
デックス作成処理をＣＤ−ＲＯＭ等の記憶媒体に記憶し
ておき、その記憶媒体を図１４に示す情報処理装置に搭
載して互いにデータの授受を可能とする構成になってい
る。また、あるいは、検索処理をＣＤ−ＲＯＭ等の記憶
媒体に記憶しておき、その記憶媒体を図１３に示す情報
処理装置に搭載して互いにデータの授受を可能とする構
成になっている

【００６７】図１３は本発明の他の実施形態に係る情報
処理装置の機能構成を示すブロック図である。図１３に
おいて、１３０１は被検索テキスト保持部であり、被検
索テキストデータを保持する。１３０２はインデックス
保持部であり、被検索テキスト保持部１３０１に保持さ
れている被検索テキストデータに対して、キー集合に属
するキーに対して被検索テキストデータ中での当該キー
の出現位置を列挙すると共に、キーの出現回数が基準以
上の場合に、当該キーに１文字を付与したキー候補の中
から、被検索テキストデータ中での出現回数が別の基準
以上の場合に、当該キーをキー集合に加えて、同様に被
検索テキストデータ中での当該キーの出現位置を列挙し
たインデックスを作成する。１３０３はインデックス保
持部であり、インデックス作成部１３０２で作成したイ
ンデックスを保持する。

【００６８】図１４は本発明の他の実施形態に係る情報
処理装置の機能構成を示すブロック図である。図１４に
おいて、１４０１はインデックス保持部であり、図１３
に示す情報処理装置で作成されたインデックスを保持す
る。１４０２は検索パターン保持部であり、被検索テキ
ストデータから検索するパターンを保持する。１４０３
は検索部であり、インデックス保持部１４０１に保持さ
れているインデックスを用いて、検索パターン保持部１
４０２に保持されている検索パターンを被検索テキスト
データ中から検索する。１４０４は検索結果保持部であ
り、検索部１４０３による検索結果を保持する。

【００６９】また、上記実施形態においては、被検索テ
キスト保持部１０１、検索パターン保持部１０４、検索
結果保持部１０６をＲＡＭ２０２で、インデックス保持
部１０２をディスク装置２０４で実現する場合について
説明したが、これに限定されるものではなく、任意の記
憶媒体を用いて実現してもよい。また、上記実施形態に
おいては、各構成要素を同一の情報処理装置上で構成す
る場合について説明したが、これに限定されるものでは
なく、ネットワーク上に分散した情報処理装置などに分
かれて各構成要素を構成してもよい。

【００７０】また、上記実施形態においては、プログラ
ムをＲＯＭ２０３に保持する場合について説明したが、
これに限定されるものではなく、任意の記憶媒体を用い
て実現してもよい。また、同様の動作をする回路で実現
してもよい。尚、本発明は、複数の機器（例えば、ホス
トコンピュータ、インタフェース機器、リーダ、プリン
タ等）から構成されるシステムに適用しても、一つの機
器からなる装置（例えば、複写機、ファクシミリ装置
等）に適用してもよい。

【００７１】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ（またはＣＰＵ
やＭＰＵ）が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。

【００７２】この場合、記憶媒体から読出されたプログ
ラムコード自体が上述した実施の形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。プログラムコードを供
給するための記憶媒体としては、例えば、フロッピディ
スク、ハードディスク、光ディスク、光磁気ディスク、
ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモ
リカード、ＲＯＭなどを用いることができる。

【００７３】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているＯＳ（オペレ
ーティングシステム）などが実際の処理の一部または全
部を行い、その処理によって前述した実施の形態の機能
が実現される場合も含まれることは言うまでもない。

【００７４】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書き込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るＣＰＵなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。

【００７５】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードを格納することになるが、簡単に説
明すると、図１６、図１７のメモリマップ例に示す各モ
ジュールを記憶媒体に格納することになる。すなわち、
図１６に示す、少なくとも「保持モジュール」、「作成
モジュール」、「検索モジュール」および「出力モジュ
ール」の各モジュールのプログラムコードを記憶媒体に
格納すればよい。

【００７６】尚、「保持モジュール」は、テキストデー
タを記憶媒体に保持する。「作成モジュール」は、記憶
媒体に保持されているテキストデータを構成する文字列
の内、所定回数以上出現する文字列に基づいて、該テキ
ストデータを構成する文字列の位置に関する位置情報を
作成する。「検索モジュール」は、作成された位置情報
を用いて、入力された検索パターンを有するテキストデ
ータを検索する。「出力モジュール」は、検索結果を出
力する。

【００７７】また、図１７に示す、少なくとも「作成モ
ジュール」および「管理モジュール」の各モジュールの
プログラムコードを記憶媒体に格納すればよい。尚、
「作成モジュール」は、入力されたテキストデータを構
成する文字列の各文字の内、所定回数以上出現する文字
列に基づいて、該テキストデータを構成する文字列の位
置に関する位置情報を作成する。「管理モジュール」
は、作成された位置情報とテキストデータを対応づけて
記憶媒体に管理する。

【００７８】

【発明の効果】以上説明したように、本発明によれば、
テキストデータの検索に用いるインデックスのキーの増
大を抑えるとともに、検索速度を向上することができる
情報処理装置及びその方法を提供できる。

【図面の簡単な説明】

【図１】本発明の実施形態に係る情報処理装置の機能構
成を示すブロック図である。

【図２】本発明の実施形態の情報処理装置の構成を示す
ブロック図である。

【図３】本発明の実施形態で実行されるインデックス作
成処理を示すフローチャートである。

【図４】本発明の実施形態で実行される登録処理の詳細
を示すフローチャートである。

【図５】本発明の実施形態で実行される新キー作成処理
の詳細を示すフローチャートである。

【図６】本発明の実施形態で実行される検索処理を示す
フローチャートである。

【図７】本発明の実施形態で実行される位置リスト獲得
処理の詳細を示すフローチャートである。

【図８】従来の情報処理装置におけるインデックスの概
念を示す図である。

【図９】従来の情報処理装置におけるインデックスの概
念を示す図である。

【図１０】従来の情報処理装置におけるインデックスの
概念を示す図である。

【図１１】本発明の実施形態のインデックス保持部の詳
細な構成を示す図である。

【図１２】本発明の実施形態のインデックス保持部の詳
細な構成を示す図である。

【図１３】本発明の他の実施形態に係る情報処理装置の
機能構成を示すブロック図である。

【図１４】本発明の他の実施形態に係る情報処理装置の
機能構成を示すブロック図である。

【図１５】本発明の他の実施形態のインデックスのデー
タ構造と作成例を示す図である。

【図１６】本発明の実施形態を実現するプログラムコー
ドを格納した記憶媒体のメモリマップの構造を示す図で
ある。

【図１７】本発明の実施形態を実現するプログラムコー
ドを格納した記憶媒体のメモリマップの構造を示す図で
ある。

【符号の説明】

１０１被検索テキスト保持部１０２インデックス作成部１０３インデックス保持部１０４検索パターン保持部１０５検索部１０６検索結果保持部

Claims

【特許請求の範囲】

【請求項１】テキストデータを検索する情報処理装置
であって、テキストデータを保持する保持手段と、前記保持手段で保持されているテキストデータを構成す
る文字列の内、所定回数以上出現する文字列に基づい
て、該テキストデータを構成する文字列の位置に関する
位置情報を作成する作成手段と、前記作成手段で作成された位置情報を用いて、入力され
た検索パターンを有するテキストデータを検索する検索
手段と、前記検索手段による検索結果を出力する出力手段とを備
えることを特徴とする情報処理装置。
【請求項２】前記作成手段は、前記所定回数以上出現
する文字列と所定の位置関係を有する文字列の位置に関
する位置情報を作成することを特徴とする請求項１に記
載の情報処理装置。
【請求項３】前記作成手段は、前記所定回数以上出現
する文字列に前接する文字列の位置に関する位置情報を
作成することを特徴とする請求項１に記載の情報処理装
置。
【請求項４】前記作成手段は、前記所定回数以上出現
する文字列に後接する文字列の位置に関する位置情報を
作成することを特徴とする請求項１に記載の情報処理装
置。
【請求項５】前記テキストデータを構成する文字列
は、１文字を含むことを特徴とする請求項１に記載の情
報処理装置。
【請求項６】前記作成手段は、前記テキストデータ中
で、前記所定回数以上出現する文字列以外の文字列の位
置に関する位置情報を作成し、該位置情報を一括して管
理することを特徴とする請求項１に記載の情報処理装
置。
【請求項７】テキストデータを管理する情報処理装置
であって、入力されたテキストデータを構成する文字列の内、所定
回数以上出現する文字に基づいて、該テキストデータを
構成する文字列の位置に関する位置情報を作成する作成
手段と、前記作成手段で作成された位置情報と前記テキストデー
タを対応づけて管理する管理手段とを備えることを特徴
とする情報処理装置。
【請求項８】テキストデータを検索する情報処理方法
であって、テキストデータを記憶媒体に保持する保持工程と、前記保持工程で前記記憶媒体に保持されているテキスト
データを構成する文字列の内、所定回数以上出現する文
字列に基づいて、該テキストデータを構成する文字列の
位置に関する位置情報を作成する作成工程と、前記作成工程で作成された位置情報を用いて、入力され
た検索パターンを有するテキストデータを検索する検索
工程と、前記検索工程による検索結果を出力する出力工程とを備
えることを特徴とする情報処理方法。
【請求項９】前記作成工程は、前記所定回数以上出現
する文字列と所定の位置関係を有する文字列の位置に関
する位置情報を作成することを特徴とする請求項８に記
載の情報処理方法。
【請求項１０】前記作成工程は、前記所定回数以上出
現する文字列に前接する文字列の位置に関する位置情報
を作成することを特徴とする請求項８に記載の情報処理
方法。
【請求項１１】前記作成工程は、前記所定回数以上出
現する文字列に後接する文字列の位置に関する位置情報
を作成することを特徴とする請求項８に記載の情報処理
方法。
【請求項１２】前記テキストデータを構成する文字列
は、１文字を含むことを特徴とする請求項８に記載の情
報処理方法。
【請求項１３】前記作成工程は、前記テキストデータ
中で、前記所定回数以上出現する文字列以外の文字列の
位置に関する位置情報を作成し、該位置情報を一括して
管理することを特徴とする請求項８に記載の情報処理方
法。
【請求項１４】テキストデータを管理する情報処理方
法であって、入力されたテキストデータを構成する文字列の内、所定
回数以上出現する文字列に基づいて、該テキストデータ
を構成する文字列の位置に関する位置情報を作成する作
成工程と、前記作成工程で作成された位置情報と前記テキストデー
タを対応づけて記憶媒体に管理する管理工程とを備える
ことを特徴とする情報処理方法。
【請求項１５】テキストデータを検索する情報処理の
プログラムコードが格納されたコンピュータ可読メモリ
であって、テキストデータを記憶媒体に保持する保持工程のプログ
ラムコードと、前記保持工程で前記記憶媒体に保持されているテキスト
データを構成する文字列の内、所定回数以上出現する文
字列に基づいて、該テキストデータを構成する文字列の
位置に関する位置情報を作成する作成工程のプログラム
コードと、前記作成工程で作成された位置情報を用いて、入力され
た検索パターンを有するテキストデータを検索する検索
工程のプログラムコードと、前記検索工程による検索結果を出力する出力工程のプロ
グラムコードとを備えることを特徴とするコンピュータ
可読メモリ。
【請求項１６】テキストデータを管理する情報処理の
プログラムコードが格納されたコンピュータ可読メモリ
であって、入力されたテキストデータを構成する文字列の内、所定
回数以上出現する文字列に基づいて、該テキストデータ
を構成する文字列の位置に関する位置情報を作成する作
成工程のプログラムコードと、前記作成工程で作成された位置情報と前記テキストデー
タを対応づけて記憶媒体に管理する管理工程のプログラ
ムコードとを備えることを特徴とするコンピュータ可読
メモリ。