JP2002229987A

JP2002229987A - パターン検索方法、パターン検索装置、コンピュータプログラム及び記憶媒体

Info

Publication number: JP2002229987A
Application number: JP2001004189A
Authority: JP
Inventors: Tetsuro Shibuya; 哲朗渋谷
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-01-11
Filing date: 2001-01-11
Publication date: 2002-08-16
Anticipated expiration: 2021-01-11
Also published as: US20020123995A1; JP3672242B2; US7016896B2

Abstract

(57)【要約】【課題】大規模テキストデータベースの検索におい
て、処理を行うためのデータ構造におけるデータサイズ
の増大を抑えながら、高速な検索を実現する。【解決手段】検索対象である文字列中から所望のパタ
ーンを検索するパターン検索方法において、次の範囲検
索ステップと、文字列抽出ステップとを含む。すなわ
ち、範囲検索ステップにおいて、このパターンの最後の
文字から前方へ１文字ずつ順に加えて得られる各中間パ
ターンに関して、この中間パターンの先頭の文字が検索
対象の文字列に対する接尾辞配列のどの範囲に存在する
かを順次検索する。次に、文字列抽出ステップにおい
て、当該接尾辞配列の範囲に含まれる各要素に対応する
文字列の要素を特定し、この文字列の各要素を先頭とし
てこのパターンの要素数と同じ数の要素からなる部分文
字列を抽出する文字列抽出ステップとを含むことを特徴
とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列などの配列
中に存在する頻出部分配列や、二つ以上の配列に共通な
部分配列を検索するためのデータ構造及びこのデータ構
造を用いたパターン検索方法に関する。

【０００２】

【従来の技術】文字列中に存在する頻出部分文字列や、
二つ以上の文字列に共通な部分文字列などを高速で検索
するのに有効なデータ構造として、接尾辞木（Suffix t
ree）が知られている。接尾辞木は、処理対象の文字列
中に存在しない文字＄を処理対象の文字列の最後に加え
た文字列における全ての接尾辞を表す木である。接尾辞
木の葉ノード（各枝において他の枝が接続されていない
先端のノード）は、それぞれの接尾辞に対応する。ここ
で、接尾辞とは、所定の文字列において、所定の文字を
特定した場合の当該文字以降の文字列である。図６は、
接尾辞木の例を示す図である。図６には、処理対象の文
字列として「ｍｉｓｓｉｓｓｉｐｐｉ」の最後に文字＄
を加えた文字列「ｍｉｓｓｉｓｓｉｐｐｉ＄」の接尾辞
木を示す。

【０００３】接尾辞木において、各枝は、部分文字列に
相当するラベルを持つ。そして、ルートノードから葉ノ
ードまでの各枝が持つラベルを並べたものが、当該葉ノ
ードに対応する接尾辞となる。図６に示す例では、例え
ば、ルートノードから「ｉ」「ｓｓｉ」「ｐｐｉ」のラ
ベルを持つ各枝を経て到達する葉ノードに対応する接尾
辞は「ｉｓｓｉｐｐｉ」であり、同様に「ｓ」「ｓｉ」
「ｓｓｉｐｐｉ」のラベルを持つ各枝を経て到達する葉
ノードに対応する接尾辞は「ｓｓｉｓｓｉｐｐｉ」であ
る。

【０００４】また、接尾辞木における単一のノード（ル
ートノードを含む）から出てゆく各枝に付されているラ
ベルの最初の文字は全て異なり、これらはラベルの最初
の文字でソートされている。図６に示す例では、図の左
側から右側へ向けて英語のアルファベット順（ｉ、ｍ、
ｐ、ｓの順）に枝が並んでいる。

【０００５】接尾辞木を生成するアルゴリズムとして
は、処理対象である文字列の長さをｎ、文字列を構成す
るアルファベットのサイズ（文字の種類の数）をｓとし
た場合、Ｏ（ｎ log ｓ）のアルゴリズムが知られてい
る。特にアルファベットが整数アルファベット（１から
ｎまでの数字）である場合は、Ｏ（ｎ）のアルゴリズム
が知られている。ここで、Ｏ（func(n)）は、実際の計
算時間がｔである場合に、ｎ≧ｋであるようなｎに対し
て、０≦ｔ≦ｃ×func(n) が成り立つような何らかの定数ｃとｋの組が必ず存在す
ることを意味する。したがって、Ｏ（ｎ log ｓ）はｎ
log ｓの定数倍以内の時間で計算が可能であることを意
味し、Ｏ（ｎ）はｎの定数倍以内の時間（この場合、ｎ
も定数なので、定数時間内）で計算できることを意味す
る。

【０００６】これを用いれば、長さｍの部分文字列の検
索は、Ｏ（ｍ log ｓ）に相当する時間で行うことがで
きる。通常、アルファベットのサイズは定数サイズなの
で、この時間は線形時間といって良い。英文字テキスト
（ｎ文字）に対するこの接尾辞木を扱うために必要とす
る記憶装置の記憶容量は、２０ｎバイト〜４０ｎバイト
である。

【０００７】この接尾辞木のデータサイズは大きいた
め、このデータサイズを抑制する類似のパターン検索用
のデータ構造として、接尾辞配列（suffix array）が知
られている。上述したように、接尾辞木の葉ノードは、
それぞれが文字列の接尾辞に対応している。この接尾辞
を、接尾辞木の一端側（図６の例では左端側）の葉ノー
ドに対応する接尾辞から順に並べると、処理対象の文字
列における全ての接尾辞を辞書的順序で並べた配列が得
られる。ただし、各接尾辞は、最後に終了判定文字＄を
付加されているものとする。

【０００８】この配列の構成要素である各接尾辞を、処
理対象の文字列における当該接尾辞の最初の文字の位置
を表す情報で置き換える（例えば、「ｉｐｐｉ＄」を
「８」に、「ｉｓｓｉｐｐｉ＄」を「５」にというよう
に置き換える）。これにより、処理対象の文字列と同じ
長さの配列（接尾辞配列）が得られる。例えば、図６に
おける「ｍｉｓｓｉｓｓｉｐｐｉ＄」の接尾辞配列は、
「８５２１１１１０９７４６３１
２」となる。なお、文字＄は他の全ての文字よりも辞書
的順序が後であるとしている。

【０００９】この接尾辞配列を用いると、接尾辞木を用
いる場合と比較して、文字列検索を行うために必要なメ
モリ容量を削減することができる。また、文字列の検索
に要する時間は、２分探索を行うことから、Ｏ（ｐ log
ｑ）となる。ただし、ｑはデータベースの大きさ、ｐ
は検索しようとする文字列の長さである。通常、必要な
記憶容量は一つの文字に対し４バイトであるから、テキ
ストが英文字（１バイト）の場合、ｎ文字のテキストに
対するこのデータベースのデータサイズは５ｎバイトで
ある。

【００１０】また、データベースに、さらに隣接する接
尾辞の共通接頭辞長のテーブルを持たせることもでき
る。このテーブルを用いると、接尾辞木配列のみを用い
る場合に対して、検索時間をＯ（ｐ＋log ｑ）と短縮す
ることができる。なお、この場合におけるデータベース
のデータサイズは９ｎバイトとなる。

【００１１】

【発明が解決しようとする課題】大規模なテキストデー
タベースを検索するために、上述した接尾辞木や接尾辞
配列をデータ構造として用いる場合、次のような問題が
ある。まず、接尾辞木をデータ構造として用いる場合、
必要とされるデータベースの大きさが大きいという問題
がある。上述したように、処理対象である文字列の長さ
がｎである場合、このテキストに対する接尾辞木を扱う
ために必要な記憶装置の記憶容量、すなわちデータベー
スのデータサイズは、２０ｎバイト〜４０ｎバイトであ
る。一般に、データ構造として接尾辞木を用いる場合、
記憶装置に対して、接尾辞配列を用いる場合の４〜６倍
の記憶領域（接尾辞配列では、１バイト文字で文字数ｎ
のテキストの場合、５ｎバイト）を要する。このため、
大規模なテキストデータベースに対して接尾辞木を使用
することは困難である。

【００１２】一方、接尾辞配列をデータ構造として用い
る場合、検索に長時間を要するという問題がある。接尾
辞配列に対して検索を行う場合、２分探索を行うため、
データベースの大きさをｑ、検索しようとする文字列の
長さをｐとして、Ｏ（ｐ log ｑ）だけの時間を要す
る。したがって、アルファベットのサイズが定数サイズ
である場合にほぼ線形時間で探索を行うことができる接
尾辞木に比べて、多大な計算時間を要する。また上述し
たように、データサイズが多少大きくなることを許し、
データベースに、接尾辞配列中で隣接する接尾辞の共通
接頭辞長のテーブルを持たせることによって、計算時間
をＯ（ｐ＋log ｑ）に短縮することができる。しかしこ
の場合であっても、依然としてlog ｑの項が残っている
ため、接尾辞木の場合と比べると、多大な計算時間を要
する。

【００１３】そこで本発明は、大規模テキストデータベ
ースの検索において、処理を行うためのデータ構造にお
けるデータサイズの増大を抑えながら、高速な検索を実
現することを目的とする。

【００１４】

【課題を解決するための手段】かかる目的のもと、本発
明は、検索対象である文字列中から所望のパターンを検
索するパターン検索方法において、次の範囲検索ステッ
プと、文字列抽出ステップとを含むことを特徴とする。
すなわち、範囲検索ステップにおいて、このパターンの
最後の文字から前方へ１文字ずつ順に加えて得られる各
中間パターンに関して、この中間パターンの先頭の文字
が検索対象の文字列に対する接尾辞配列のどの範囲に存
在するかを順次検索する。この検索をパターンの最後の
文字から順に実行することによって、最終的に、このパ
ターン自体を含む接尾辞配列の範囲が求められる。次
に、文字列抽出ステップにおいて、当該接尾辞配列の範
囲に含まれる各要素に対応する文字列の要素を特定し、
この文字列の各要素を先頭としてこのパターンの要素数
と同じ数の要素からなる部分文字列を抽出する文字列抽
出ステップとを含むことを特徴とする。上記のように構
成されたパターン検索は、アルファベットや日本語のテ
キストなど種々の文字による文字列における検索に用い
ることができるが、バイナリデータや遺伝子配列のよう
な使用される文字の種類が少ない文字列から所望のパタ
ーンを検索する場合には、検索に用いるデータ構造のデ
ータサイズを特に小さくすることができる。

【００１５】ここで、この範囲検索ステップは、検索対
象の文字列に対する接尾辞配列の各要素に関して、この
各要素に対応する文字列中の各文字の一つ前に位置する
前置文字を特定するステップと、接尾辞配列中の所定の
要素以前の各要素における前置文字の中に含まれる、こ
のパターン中の所望の文字の個数を求めるステップと、
求められた文字の個数に基づいて、この文字が接尾辞配
列のどの位置に存在するかを検出するステップとを含む
ことを特徴とする。

【００１６】また、本発明は、検索対象である配列中か
ら所望のパターンを検索するパターン検索方法におい
て、このパターンの最後の要素が前記配列中のどこに位
置するかを検索するステップと、このパターンが複数の
要素により構成されている場合に、このパターン中の最
後の要素に、この最後の要素の前に位置する要素を後ろ
から順に一つずつ加えて各中間パターンを得、この中間
パターンが配列中のどこに位置するかを順次検索するス
テップとを含むことを特徴とする。

【００１７】また、本発明は、上記のように接尾辞配列
を用いるパターン検索だけではなく、接頭辞配列を用い
るパターン検索にも適用することができる。すなわち、
上述した範囲検索ステップにおいて、このパターンの最
初の文字から後方へ１文字ずつ順に加えて得られる各中
間パターンに関して、この中間パターンの最後の文字が
検索対象の文字列に対する接頭辞配列のどの範囲に存在
するかを順次検索する。この検索をパターンの最初の文
字から順に実行することによって、最終的に、このパタ
ーン自体を含む接頭辞配列の範囲が求められる。次に、
文字列抽出ステップにおいて、当該接頭辞配列の範囲に
含まれる各要素に対応する文字列の要素を特定し、この
文字列の各要素を最後尾としてこのパターンの要素数と
同じ数の要素からなる部分文字列を抽出する文字列抽出
ステップとを含む構成とすることができる。

【００１８】また、本発明は、検索対象である文字列中
から所望のパターンを検索するパターン検索装置におい
て、この文字列の接尾辞配列に基づいてパターンを検索
するためのデータ構造を構築する前処理部と、この前処
理部により構築されたデータ構造を用いて所望のパター
ンを検索する検索部とを備え、この前処理部は、接尾辞
配列の各要素に関して、この各要素に対応する文字列中
の各文字の一つ前に位置する前置文字を特定し、接尾辞
配列中の所定の要素以前の各要素における前置文字の、
検索対象の文字列を構成する文字の種類ごとの個数を求
めることによりデータ構造を構築することを特徴とす
る。

【００１９】ここで、前処理部は、前置文字の個数を、
接尾辞配列における要素の位置と、検索対象の文字列を
構成する文字の種類とに対応付けて格納したテーブルを
持つことができる。ここでさらに、このテーブルを、接
尾辞配列の所定数個おきの要素の位置に関するテーブル
とすることができる。すなわち、テーブルに格納するデ
ータを間引くことにより、当該データ構造のデータサイ
ズを縮小することができる。さらにこの場合、前処理部
は、間引いた範囲の前置文字の個数を算出する際に使用
するため、このテーブルにおいて情報が管理される接尾
辞配列の所定の位置に基づいて、この位置の間における
接尾辞配列の要素に対する前置文字に関する情報を格納
した他のテーブルをさらに持つことができる。

【００２０】また、このパターン検索装置において、検
索部は、この接尾辞配列中の所定の要素以前の各要素に
おける前置文字の個数に基づいて、パターンの最後の文
字から前方へ１文字ずつ順に加えて得られる各中間パタ
ーンに関して、この中間パターンの先頭の文字が文字列
に対する接尾辞配列のどの範囲に存在するかを順次検索
する。この検索により、このパターン自体を含む接尾辞
配列の範囲が得られる。そして、この範囲に含まれる各
要素に対応する文字列の要素を特定し、この文字列の各
要素を先頭としてパターンの要素数と同じ数の要素から
なる部分文字列を抽出する。

【００２１】また、本発明は、コンピュータに、検索対
象である配列中から所望のパターンを検索する処理を実
行させるコンピュータプログラムにおいて、このパター
ンの最後の要素から前方へ一つずつ順に加えて得られる
各中間パターンに関して、この中間パターンの先頭の要
素が検索対象である配列に対する接尾辞配列のどの範囲
に存在するかを順次検索する処理と、この検索によりこ
のパターン自体に関して得られた接尾辞配列の範囲に含
まれる各要素に対応する配列の要素を特定し、この配列
の各要素を先頭としてこのパターンの要素数と同じ数の
要素からなる部分配列を抽出する処理とをコンピュータ
に実行させることを特徴とする。

【００２２】さらにまた、本発明は、コンピュータに、
検索対象である配列中から所望のパターンを検索する処
理を実行させるコンピュータプログラムにおいて、検索
対象である配列に対する接尾辞配列の各要素に関して、
この各要素に対応する配列中の各文字の一つ前に位置す
る要素を特定する処理と、この接尾辞配列中の所定の要
素以前の各要素における前置要素の、配列を構成する要
素の種類ごとの個数を求める処理と、この接尾辞配列中
の所定の要素以前の各要素における前置要素の個数に基
づいて、このパターンの最後の要素から前方へ１文字ず
つ順に加えて得られる各中間パターンに関して、この中
間パターンの先頭の要素がこの配列に対する接尾辞配列
のどの範囲に存在するかを順次検索する処理と、この検
索によりこのパターン自体に関して得られた接尾辞配列
の範囲に含まれる各要素に対応する配列の要素を特定
し、この配列の各要素を先頭としてこのパターンの要素
数と同じ数の要素からなる部分配列を抽出する処理とを
コンピュータに実行させることを特徴とする。これらの
コンピュータプログラムは、例えば磁気ディスクその他
の記憶媒体に格納して提供することができる。また、イ
ンターネットなどのネットワークを介して伝送させるこ
とにより提供することもできる。

【００２３】

【発明の実施の形態】以下、添付図面に示す実施の形態
に基づいてこの発明を詳細に説明する。図１は、本実施
の形態を実現するのに好適なコンピュータ装置のハード
ウェア構成の例を模式的に示した図である。図１に示す
コンピュータ装置は、ＣＰＵ（中央処理装置）１０１
と、システムバスを介してＣＰＵ１０１に接続されたＭ
／Ｂ（マザーボード）チップセット１０２及びメインメ
モリ１０３と、ＰＣＩバスなどの高速なバスを介してＭ
／Ｂチップセット１０２に接続されたビデオカード１０
４、ハードディスク１０５及びネットワークインタフェ
ース１０６と、さらにブリッジ回路１１０及びＩＳＡバ
スなどの低速なバスを介してＭ／Ｂチップセット１０２
に接続されたフロッピー（登録商標）ディスクドライブ
１０７、キーボード１０８及びシリアルＩ／Ｏポート１
０９とを備える。なお、図１は本実施の形態による検索
方法を実現するコンピュータ装置の構成を例示するに過
ぎず、本実施の形態を適用可能であれば、他の種々のシ
ステム構成を取ることが可能である。

【００２４】本実施の形態は、図１に示したメインメモ
リ１０３に展開されたプログラムにてＣＰＵ１０１を制
御することにより、所定の文字列（文字を要素とする配
列）中から所望の部分文字列を検索する（以下、検索対
象の文字列をテキスト、検索する部分文字列をパターン
と称す）。図２は、プログラム制御されたＣＰＵ１０１
において、本実施の形態におけるデータ構造の構築及び
検索を行うための機能ブロックを示す図である。図２を
参照すると、本実施の形態は、テキストの接尾辞配列を
生成する接尾辞配列生成部１０と、接尾辞配列生成部１
０にて生成された接尾辞配列を変換して所望のデータ構
造を構築する前処理部２０と、前処理部２０にて構築さ
れたデータ構造を用いてパターンの検索を行う検索部３
０とを備える。

【００２５】上述したように、これらの構成要素は、プ
ログラム制御されたＣＰＵ１０１により実現される仮想
的なソフトウェアブロックである。当該プログラムは、
磁気ディスクや光ディスク、半導体メモリ、その他の記
憶媒体に格納して提供したり、ネットワークを介して伝
送したりすることができる。本実施の形態は、図１に示
したネットワークインタフェース１０６やフロッピーデ
ィスクドライブ１０７、図示しないＣＤ−ＲＯＭドライ
ブなどを介して当該プログラムを入力し、ハードディス
ク１０５に格納する。そして、ハードディスク１０５に
格納されたプログラムをメインメモリ１０３に読み込ん
で展開し、ＣＰＵ１０１にて実行する。

【００２６】図２において、接尾辞配列生成部１０は、
図示しないデータベースから検索対象であるテキストを
取得し、接尾辞配列を生成する。接尾辞配列の生成方法
としては、公知の任意のアルゴリズムを用いることがで
きる。検索対象であるテキストや生成された接尾辞配列
は、メインメモリ１０３に格納される。なお、接尾辞配
列は、公知の種々の方法により生成することが可能であ
り、外部装置において生成された接尾辞配列を本実施の
形態において使用することもできる。したがって、接尾
辞配列生成部１０は必須の構成要素ではない。接尾辞配
列生成部１０を構成要素として設けない場合は、検索対
象となるテキストと当該テキストの接尾辞配列とがメイ
ンメモリ１０３に直接格納されることとなる。

【００２７】以下の説明において、検索対象となるテキ
ストをＴ［１・・・ｎ］、検索するパターンをＰ［１・
・・ｍ］とする。また、テキストＴに対する接尾辞配列
をＳＡ［１・・・ｎ］とする。なお、以下の説明では、
テキストＴやパターンＰの文字列はダブルクオーテーシ
ョンマーク（“ ”）で囲み、その中の文字はクオーテ
ーションマーク（‘ ’）で囲んで示すこととする。例
えば、「ｍｉｓｓｉｓｓｉｐｐｉ」の最後に文字＄を加
えたテキストＴは、Ｔ［１・・・１２］＝“ｍｉｓｓｉｓｓｉｐｐｉ＄” となる。ここで、‘＄’は、終了判定文字であり、辞書
的順序が他の全ての文字よりも大きい（すなわち後に位
置する）ものとする。また、テキストＴ［１・・・１
２］から３文字のパターン「ｓｓｉ」を検索する場合、
検索パターンＰは、Ｐ［１・・・３］＝“ｓｓｉ” となる。さらにここで、テキストＴに対し、Ｔ［５］＝
‘ｉ’（５番目の文字）のように表すと、テキストＴに
対する接尾辞配列ＳＡは、ＳＡ［１・・・１２］＝｛８５２１１１１０
９７４６３１２｝となる。なお、終了判定文字‘＄’は、概念上のものと
して扱い、実際の処理においてはメインメモリ１０３に
格納しなくても良い。この場合、Ｔ［ｉ］にアクセスす
る際、ｉ＝１２ならば‘＄’である、という分岐条件を
入れることとなる。例えば、テキストＴの文字数が２５
６個あり、‘＄’も１文字として扱うと１バイトに収ま
らなくなってしまうような場合は、メインメモリ１０３
に格納しない方が望ましい。

【００２８】前処理部２０は、接尾辞配列生成部１０に
より生成された接尾辞配列ＳＡを読込み、これに基づい
て、検索対象である文字列からｆ（ｉ，ｃ）（ｉはｎ以
下の正の整数、ｃは文字）で定義されるデータを検出す
るためのデータ構造を構築する。ここで、ｆ（ｉ，ｃ）
は、Ｔ［ＳＡ［ｊ］−１］＝ｃ（ｊ≦ｉ）であるような
ｊの数である。配列Ｂを考え、Ｂ［ｉ］＝Ｔ［ＳＡ
［ｉ］−１］とする。すなわち、配列Ｂは、接尾辞配列
ＳＡの各要素に対応するテキストＴの各文字の一つ前に
位置する文字（前置文字）の配列である。例えば、Ｂ
［４］＝Ｔ［ＳＡ［４］−１］＝Ｔ［１０］＝‘ｉ’と
なる。同様にして配列Ｂの全ての文字を書き出すと次の
ようになる。Ｂ［１・・・１２］＝“ｓｓｍｐ＄ｐｉｓｓｉｉｉ” したがって、上記のｆ（ｉ，ｃ）の値は、配列Ｂにおい
て、インデックスがｉ以下での文字ｃの個数で表現する
ことができる。例えば、ｆ（６，‘ｓ’）＝２であり、
ｆ（６，‘ｐ’）＝２であり、ｆ（６，‘ｍ’）＝１で
ある。なお、ｉ＞ｎであるようなｉに対しては、ｆ
（ｉ，ｃ）＝ｆ（ｎ，ｃ）と定義する。また、ｉ≦０で
あるようなｉに対しては、ｆ（ｉ，ｃ）＝０と定義す
る。

【００２９】ｆ（ｉ，ｃ）のデータ全体をテーブルとし
て保持すれば、パラメータであるｉ、ｃを与えれば直ち
に対応するｆ（ｉ，ｃ）を求めることができる。しか
し、テキストＴを構成する文字の種類（ｓ）が極めて少
ない場合、例えばバイナリデータの文字列（２種類：
０、１）やＤＮＡ配列（４種類：アデニン（Ａ）、チミ
ン（Ｔ）、グアニン（Ｇ）、シトシン（Ｃ））では可能
であるが、文字の種類（ｓ）が多い場合は、当該テーブ
ルは極めて大きな配列となるため、現実的ではない。そ
こで、前処理部２０は、以下のようにしてｆ（ｉ，ｃ）
を算出するためのデータ構造を構築する。

【００３０】（１）テーブルＦの作成ｋを適当な大きさのｎ以下の正の整数であるとする。ま
ず、すべての正の整数ｉ（ｋ＊ｉ＜ｎ＋ｋ）に対して、
ｆ（ｋ＊ｉ，ｃ）のテーブルを作成する。これは、テキ
ストＴをｋ個の文字ごとに区切り、ｋ番目の文字ごとに
ｆ（ｉ，ｃ）を求めてテーブルを作成することに相当す
る。ｆ（）の大きさはｎ以下であるから、このサイズは
（ｎ＊s log n）／ｋビットである。これは、ｎが１ワ
ードに入る通常のケースではＯ（ｎ＊ｓ／ｋ）ワード
（すなわち、ｎ＊ｓ／ｋの定数倍以内）のことである。
このテーブルをＦとし、Ｆ［ｉ］［ｃ］＝ｆ（ｋ＊ｉ，ｃ）とする。なお、このテーブルＦは、テーブルの大きさと
テキストの大きさのうち大きい方に比例した時間で構築
することができる。

【００３１】このテーブルＦを持つことにより、ｋの倍
数のインデックスに関しては、ｆをＯ（１）の時間で求
めることができる。そこで次に、ｋの倍数以外のインデ
ックスに関してｆの値を求めるためのデータ構造を考え
る。そのため、ｇ（ｉ，ｃ，ｊ）を、Ｔ［ＳＡ［ｐ］−
１］＝ｃを満たすｐ（ただし、ｋ＊（ｉ−１）＜ｐ≦ｋ
＊ｉ）のうち、ｊ番目のものとし、まず、このｇ（ｉ，
ｃ，ｊ）を求めるためのデータ構造について述べる。

【００３２】（２）テーブルＬの作成ｈ（ｉ，ｃ）を、ｆ（ｋ＊ｉ，ｃ）−ｆ（ｋ＊（ｉ−
１），ｃ）とする。これはテーブルＦから直ちに計算可
能である。ｌ（ｉ，ｃ）を、ｈ（ｉ，ｄ）（ｄ＜ｃ，辞
書順）の総和として、これをテーブルとして持つ。この
テーブルをＬとし、Ｌ［ｉ］［ｃ］＝ｌ（ｉ，ｃ）とする。このテーブルＬのサイズは（ｎ＊s log k）)／
ｋビットである。

【００３３】（３）テーブルＧの作成次に、全てのｒ（０＜ｋ＊ｒ＜ｎ＋ｋ）に対して、０＜
ｑ≦ｋを満たす整数ｑを、Ｔ［ＳＡ［ｑ＋ｋ＊（ｒ−
１）］−１］の値が同じ物ごとに辞書的順序にしたがっ
て並べ替えたものをテーブルＧ［ｒ］［１・・・ｋ］と
する。このとき、Ｔ［ＳＡ［ｑ＋ｋ＊（ｒ−１）］−
１］の値における辞書的順序が同じものに関してはｑの
値が小さいものが先になるように並べる。ただし、

【数１】の場合、０＜ｑ≦ｎ−（ｒ−１）ｋのようなｑだけを並
べる。これは、数１を満足するｒの範囲に含まれる文字
の数がｋ個に満たない場合があるためである。すなわ
ち、上述したようにテーブルＦの作成において、テキス
トＴをｋ個の文字ごとに区切ったが、テキストＴの文字
数ｎがｋで割り切れない場合は、最後尾の区分における
文字数はｋ個に満たない。したがって、０＜ｑ≦ｎ−
（ｒ−１）ｋのようなｑを並べることとする。テーブル
Ｇの配列のサイズは全体でｎであり、ビットで表すとｎ
log ｋビットということになる。これは、例えば次の
ようにして求めることができる。ただし、ｒの値が上記数１を満足する場合、forループ
は（ｑ＝１；ｑ≦ｎ−（ｒ−ｌ）ｋ；ｑ＋＋）となる。

【００３４】（４）ｆ（ｉ，ｃ）の計算上記のようにして作成されたテーブルＧ及びテーブルＬ
を用いて、ｇ（ｉ，ｃ，ｊ）を示すと、ｇ（ｉ，ｃ，ｊ）＝Ｇ［ｉ］［Ｌ［ｉ］［ｃ］＋ｊ］＋
ｋ＊（ｉ−１）である。したがって、ｇ（ｉ，ｃ，ｊ）はＧ、Ｌの二つ
テーブルからＯ（１）時間で得ることができる。次に、
ｋ＊（ｊ−１）＜ｊ≦ｋ＊ｉであるようなｊに対し、Ｔ
［ＳＡ［ｐ］−１］＝ｃ（ただしｋ＊（ｉ−１）＜ｐ≦
ｊ）となるようなｐの数をｆ’（ｊ，ｃ）とする。そし
て、ｘ（０＜ｘ≦ｈ（ｉ，ｃ））の区間で、ｇ（ｉ，
ｃ，ｘ）の値がｊ以下となるような最大のｘを見つけ出
すと、ｆ’（ｊ，ｃ）＝ｘとなる。このｘの値は、ｇ（ｉ，ｃ，ｘ）の値が昇順に
なっているため、２分探索によりＯ（ log ｈ（ｉ，
ｃ））で計算可能である。ｈ（ｉ，ｃ）＜ｋであるか
ら、これは、Ｏ（ log ｋ）ということである（ｈ
（ｉ，ｃ）の平均値はｋ／ｓであるため、実際にはより
短い時間で計算できる）。ただし、このようなｘが存在
しない場合は、ｆ’（ｊ，ｃ）＝０とする。以上の前提
で、ｆ（ｊ，ｃ）は、ｆ（ｊ，ｃ）＝Ｆ［ｉ−１］［ｃ］＋ｆ’（ｊ，ｃ）と計算できる。したがって、ｆ（ｊ，ｃ）は、以上のデ
ータ構造を用いることにより、Ｏ（ log ｋ）で計算す
ることができる。

【００３５】上述したテーブルＦ、Ｌ、Ｇを表すのに必
要なビット数は、テーブルＦが（ｎ＊s log n）／ｋビ
ット、テーブルＬが（ｎ＊s log k）)／ｋビット、テー
ブルＧがｎ log ｋビットであるから、全体で（ｎ＊ｓ／ｋ）＊（log ｎ＋log ｋ）＋ｎ log ｋビッ
トである。これらのテーブルＦ、Ｌ、Ｇは、メインメモリ
１０３に格納される。実際の運用においては、メインメ
モリ１０３の記憶容量として、これに加えて接尾辞配列
ＳＡのためのｎ log ｎビット及びテキストＴ自身のた
めのｎ log ｓビットが必要になる。

【００３６】また、前処理部２０は、テキストＴに関し
て、これらのデータ構造に加えて次に示すテーブルＣも
持つこととする。このテーブルの要素Ｃ［ｃ］は、テキ
ストＴに含まれるｃ以下の文字の総数を表す。ただし、
ｃ以下の文字とは、ｃあるいはｃより辞書的順序で早い
文字を意味する。テーブルＣも他のデータ構造と同様
に、メインメモリ１０３に格納される。このテーブルＣ
のサイズはｓ log ｎビットである。また、テーブルＣ
はテキストＴに対し、線形時間で計算可能である。な
お、ｋの値を小さく設定した場合には、ｊ＝ｉ＊ｋ＋ｄ
（ｄ＜ｋ）に対して、ｆ（ｉ＊ｋ，ｃ）を求める際、テ
ーブルＬ、Ｇは持たずに、テーブルＦから求められるｆ
（ｉ＊ｋ，ｃ）の値と、ｉ＊ｋ＋ｌとに基づいて、Ｔ
［ＳＡ［ｊ］−１］の値がｃであるものの個数を数える
という方法も考えられる。この場合の計算時間はＯ
（ｋ）であるので、ｋとlog ｋの値が近いような小さな
ｋに対しては有効である。この方法を用いる場合は、テ
ーブルＬ、Ｇを持たない分、必要なメモリの記憶容量は
減少する。

【００３７】検索部３０は、前処理部２０にて作成され
た上記のデータ構造を用いて、テキストＴから所望のパ
ターンＰを検索する。検索は、ｆ（ｉ，ｃ）を用い、次
のように行う。ただし、文字ｃに対し、ｃ＋１とは、辞書的順序で文字
ｃの次に来る文字を表し、ｃ−１は辞書的順序で文字ｃ
の前に来る文字を表すものとする。ただし、辞書的順序
で最小のアルファベットａに対しては、ｃ［ａ−１］は
０を表すものとする。

【００３８】図３は、上記の検索アルゴリズムに対応す
るフローチャートである。同図を参照して、本実施の形
態によるパターンの検索手順を説明する。この検索方法
は、パターンを当該パターンの構成文字列の後ろから検
索することが特徴である。図３に示す検索アルゴリズム
により、求めるパターンは、テキストＴの接尾辞配列Ｓ
Ａにおいて、ＳＡ［ｊ］（ｓｔａｒｔ≦ｊ≦ｅｎｄ）の
位置から始まる場所に存在するので、それを列挙すれば
よい。

【００３９】図３を参照すると、検索部３０は、まず、
ｓｔａｒｔにＣ［Ｐ［ｍ］−１］＋１を代入し、ｅｎｄ
にＣ［Ｐ［ｍ］］を代入し、ｓｔａｒｔとｅｎｄの値を
求める。また、ｉ＝ｍ−１とする（ステップ３０１）。
次に、ｉの値が正（ｉ＞０）かどうかを調べ、正であれ
ば、次に、ｃ＝Ｐ［ｉ］として、ｓｔａｒｔにＣ［ｃ−
１］＋ｆ（ｓｔａｒｔ，ｃ）を代入し、ｅｎｄにＣ［ｃ
−１］＋ｆ（ｅｎｄ，ｃ）を代入し、ｓｔａｒｔとｅｎ
ｄの値を求める。また、ｉ＝ｉ−１とする（ステップ３
０２、３０３）。次に、ｅｎｄの値がｓｔａｒｔの値を
下回ったかどうかを調べ、下回ったならば、検索パター
ンＰにマッチする文字列はテキストＴには存在しないこ
とがわかるので、処理を終了する（ステップ３０４、３
０５）。一方、ｅｎｄの値がｓｔａｒｔの値を下回って
いなければ、ステップ３０２に戻って、新たなｉに関し
てｓｔａｒｔ及びｅｎｄの値を求める（ステップ３０
４）。ステップ３０２において、ｉの値が０以下になっ
たならば、ｓｔａｒｔ及びｅｎｄの値を用い、ｓｔａｒ
ｔ≦ｊ≦ｅｎｄであるような全てのｊに対して、ＳＡ
［ｊ］の位置から始まるテキストＴの接尾辞を出力して
処理を終了する（ステップ３０６）。このとき、当該接
尾辞と検索パターンＰとがマッチする。

【００４０】次に、Ｔ［１・・・１２］＝“ｍｉｓｓｉｓｓｉｐｐｉ＄” Ｐ［１・・・３］＝“ｓｓｉ” ＳＡ［１・・・１２］＝｛８５２１１１１０９７４６３
１２｝の場合について、前処理部２０によるデータ構造の構築
及び検索部３０によるパターンＰの検索の動作例を説明
する。本動作例では、テキストＴを区切る基準としてｋ
＝４とする。

【００４１】まず、ｋ＝４の場合のテーブルＦを作成す
る。上述したように、Ｆ［ｉ］［ｃ］にはｆ（ｋ＊ｉ，
ｃ）が入る。そして、ｋ＊ｉ＜ｎ＋ｋであり、ｎ＝１２
であるから、ｋ＝４の場合、ｉの値は１、２、３であ
る。したがって、テーブルＦには、ｉ＝１、２、３及び
ｃ＝‘ｉ’、‘ｍ’、‘ｐ’、‘ｓ’、‘＄’の各々に
ついて、ｆ（４＊ｉ，ｃ）の値が入り、図４に示すよう
になる。例えば、Ｆ［２］［‘ｐ’］の場合、ｆ（４＊
２，‘ｐ’）であるから、配列Ｂ［１・・・１２］＝
“ｓｓｍｐ＄ｐｉｓｓｉｉｉ”において８（＝４＊２）
番目の文字である‘ｓ’以前に‘ｐ’は２個存在する。
したがって、テーブルＦのＦ［２］［‘ｐ’］には２が
入る。なお、図４のテーブルＦでは、‘＄’に対するエ
ントリーも入れているが、実際には、検索パターンの中
に‘＄’が入ることは考えなくて良いので、‘＄’に対
する列は省略することができる。

【００４２】次に、テーブルＬを作成する。上述したよ
うに、ｈ（ｉ，ｃ）をｆ（４＊ｉ，ｃ）−ｆ（４＊（ｉ
−１），ｃ）とし、ｌ（ｉ，ｃ）を、ｈ（ｉ，ｄ）（ｄ
＜ｃ，辞書順）の総和とすると、文字ｃの順序は‘ｉ’
＜‘ｍ’＜‘ｐ’＜‘ｓ’＜‘＄’であるから、テーブ
ルＬは、図５に示すようになる。例えば、Ｌ［２］
［‘ｓ’］は、ｈ（２，‘ｉ’）とｈ（２，‘ｍ’）と
ｈ（２，‘ｐ’）との総和であり、図４のテーブルＦを
参照すれば、ｈ（２，‘ｉ’）＝ｆ（４＊２，‘ｉ’）−ｆ（４＊（２−１），‘ｉ’）＝ｆ（８，‘ｉ’）−ｆ（４，‘ｉ’）＝１−０＝１すなわち、配列Ｂ［５・・・８］において、‘ｉ’が一
つ存在することがわかる。同様に、ｈ（２，‘ｍ’）＝ｆ（８，‘ｍ’）−ｆ（４，
‘ｍ’）＝１−１＝０ｈ（２，‘ｐ’）＝ｆ（８，‘ｐ’）−ｆ（４，
‘ｐ’）＝２−１＝１したがって、テーブルＬのＬ［２］［‘ｓ’］には２
（＝１＋０＋１）が入る。

【００４３】ところで、図４及び図５を参照すると、テ
ーブルＬにおいて、Ｌ［ｉ］［ｃ＋１］＝Ｌ［ｉ］［ｃ］＋Ｆ［ｉ］［ｃ］
−Ｆ［ｉ−１］［ｃ］という関係がある。ただし、ｃ＋１は辞書的順序で文字
ｃの次にくる文字である。また、Ｆ［０］［ｃ］＝０と
している。例えば、上述したＬ［２］［‘ｓ’］の場
合、Ｌ［２］［‘ｓ’］＝Ｌ［２］［‘ｐ’］＋Ｆ［２］［‘ｐ’］−Ｆ［１］［‘ｐ’］＝１＋２−１＝２となる。このことから、ｘ個おきの文字に対してのみテ
ーブルＬを作成し、間の文字に対する値はテーブルＬ及
びテーブルＦから算出することにより、メモリを節約す
ることができる。ただし、この場合、この部分の計算時
間はｘ倍となる。なお、図４の場合と同様に、テーブル
Ｌにおいても‘＄’の列は省略することができる。

【００４４】次に、テーブルＧを作成する。上述したよ
うに、全てのｒ（０＜４＊ｒ＜ｎ＋４）に対して、Ｔ
［ＳＡ［ｑ＋４＊（ｒ−１）］−１］（ただし、０＜ｑ
≦４）の値が同じ物ごとに辞書的順序にしたがって並べ
替えたものがテーブルＧ［ｒ］［１・・・４］である
（ただし、ｒの値が上述した数１を満足する値である場
合は０＜ｑ≦ｎ−（ｒ−１）＊４）。ここで、［ＳＡ
［ｑ＋４＊（ｒ−１）］−１］は、配列Ｂにおいて、Ｂ
［１・・・４］、Ｂ［５・・・８］、Ｂ［９・・・１
２］に対応する。したがって、例えばＧ［１］［１・・
・４］は、Ｂ［１・・・４］＝“ｓｓｍｐ”であるから
対応するｑ＝１、２、３、４を‘ｓ’‘ｓ’‘ｍ’
‘ｐ’の辞書的順序で並べ替えれば、Ｇ［１］［１・・・４］＝｛３，４，１，２｝となる（ｑ＝１の‘ｓ’とｑ＝２の‘ｓ’については、
ｑの小さい方を先にしている）。同様に、ｒ＝２、３に
ついても考え、結果として、Ｇ［１・・・３］［１・・・４］＝｛３，４，１，
２｝、｛３，２，４，１｝、｛２，３，４，１｝を得る。

【００４５】次に、以上のテーブルＦ、Ｌ、Ｇを用いて
計算されるｇ（ｉ，ｃ，ｊ）、ｆ’（ｊ，ｃ）及びｆ
（ｊ，ｃ）について、具体的な算出例を挙げる。まず、
ｇ（３，‘ｒ’，２）について、ｇ（３，‘ｒ’，２）＝Ｇ［３］［Ｌ［３］［‘ｉ’］＋２］＋４＊（３−１）＝Ｇ［３］［０＋２］＋８＝１１となる。また、ｆ’（１０，‘ｉ’）を求めるには、ｇ
（３，‘ｉ’，ｘ）（０＜ｘ≦３）の中から１０以下の
値を取る最大のｘを求めれば良い。上記と同様にｇ
（３，‘ｒ’，１）、ｇ（３，‘ｒ’，３）を求める
と、ｇ（３，‘ｒ’，１）＝１０ｇ（３，‘ｒ’，３）＝１２であるから、ｆ’（１０，‘ｉ’）＝ｘ＝１が得られ
る。さらに、ｆ（１０，‘ｉ’）の値は、ｆ（１０，‘ｉ’）＝Ｆ［２］［‘ｉ’］＋ｆ’（１
０，‘ｉ’）＝１＋１＝０と求まる。

【００４６】次に、上記のデータ構造を用いて、Ｐ［１・・・３］＝“ｓｓｉ” の検索を行う。図３のフローチャートに示したアルゴリ
ズムにおいて、まず、ｓｔａｒｔにＣ［Ｐ［３］−１］＋１＝Ｃ［ｉ−１］＋１＝０＋１＝
１が代入され、ｅｎｄにＣ［Ｐ［３］］＝Ｃ［ｉ］＝４が代入される（ステップ３０１参照）。これは、検索の
ための中間パターンであるＰ［３］＝“ｉ”が、テキス
トＴに対する接尾辞配列ＳＡのどの範囲に位置している
かを示す。すなわち、ＳＡ［１・・・４］＝｛８５
２１１｝に対応するテキストＴの要素（テキストＴの
８番目と５番目と２番目と１１番目の要素）が中間パタ
ーン“ｉ”と一致する。

【００４７】次に、ｉ＝２（＝３−１）＞０であるので
（ステップ３０１参照）、ｃにＰ［ｉ］が代入される
（ステップ３０２、３０３参照）。そして、ｓｔａｒｔ
及びｅｎｄに代入される値を計算する。すなわち、ｓｔａｒｔ＝Ｃ［Ｐ［２］−１］＋ｆ（ｓｔａｒｔ，Ｐ［２］）＝Ｃ［‘ｓ’−１］＋ｆ（１，‘ｓ’）＝Ｃ［‘ｐ’］
＋ｆ（１，‘ｓ’）ここで、ｆ（１，‘ｓ’）は、ｋ＊ｉ＝１なのでテーブ
ルＦから直接は求められず、Ｃ［‘ｐ’］＋ｆ（１，‘ｓ’）＝７＋Ｆ［１−１］［‘ｓ’］＋ｆ’（１，‘ｓ’）ここで、Ｆ［０］［ｃ］＝０であり、ｆ’（１，
‘ｓ’）は、ｇ（１，‘ｓ’，ｘ）でｘ＝１の時にｇ（１，‘ｓ’，１）＝Ｇ［１］［Ｌ［１］［‘ｓ’］＋１］＋４＊（１−１）＝Ｇ［１］［２＋１］＝１となるので、ｆ’（１，‘ｓ’）＝１である。したがっ
て、Ｃ［‘ｐ’］＋ｆ（１，‘ｓ’）＝７＋０＋１＝８となり、ｓｔａｒｔには８が代入される。また、ｅｎｄ＝Ｃ［Ｐ［２］−１］＋ｆ（ｅｎｄ，Ｐ［２］）＝Ｃ［‘ｐ’］＋ｆ（４，‘ｓ’）ここで、ｆ（４，‘ｓ’）は、ｋ＊ｉ＝４＊１なので、
テーブルＦから直接求められ、Ｆ［１］［‘ｓ’］＝２
であるから、Ｃ［‘ｐ’］＋ｆ（４，‘ｓ’）＝７＋２＝９となり、ｅｎｄには９が代入される。これは、検索のた
めの中間パターンであるＰ［２３］＝“ｓｉ”が、テ
キストＴに対する接尾辞配列ＳＡのどの範囲に位置して
いるかを示す。すなわち、ＳＡ［８］＝｛７｝とＳＡ
［９］＝｛４｝とに対応するテキストＴの要素（テキス
トＴの７番目と４番目の要素）から始まる要素数２のパ
ターンが中間パターン“ｓｉ”と一致する。

【００４８】次に、ｅｎｄ（＝９）＞ｓｔａｒｔ（＝
８）であるからステップ３０２に戻り（ステップ３０４
参照）、ｉ＝１（＝２−１）＞０であるので再度ステッ
プ３０３に進み、ｃにＰ［ｉ］が代入される（ステップ
３０２参照）。そして、ｓｔａｒｔ及びｅｎｄに代入さ
れる値を計算する。すなわち、ｓｔａｒｔ＝Ｃ［Ｐ［１］−１］＋ｆ（ｓｔａｒｔ，Ｐ［１］）＝Ｃ［‘ｓ’−１］＋ｆ（８，‘ｓ’）＝Ｃ［‘ｐ’］
＋ｆ（８，‘ｓ’）ここで、ｆ（８，‘ｓ’）は、ｋ＊ｉ＝４＊２なので、
テーブルＦから直接求められ、Ｆ［２］［‘ｓ’］＝３
であるから、Ｃ［‘ｐ’］＋ｆ（８，‘ｓ’）＝７＋３＝１０となり、ｓｔａｒｔには１０が代入される。また、ｅｎｄ＝Ｃ［Ｐ［１］−１］＋ｆ（ｅｎｄ，Ｐ［１］）＝Ｃ［‘ｐ’］＋ｆ（９，‘ｓ’）ここで、ｆ（９，‘ｓ’）は、ｋ＊ｉ＝１１なのでテー
ブルＦから直接は求められず、４＊（ｉ−１）＜９＜＝
４＊ｉからｉ＝３であるから、Ｃ［‘ｐ’］＋ｆ（９，‘ｓ’）＝７＋Ｆ［３−１］［‘ｓ’］＋ｆ’（９，‘ｓ’）ここで、Ｆ［２］［‘ｓ’］はテーブルＦから３、ｆ’
（９，‘ｓ’）は、ｇ（３，‘ｓ’，ｘ）でｘ＝１の時
にｇ（３，‘ｓ’，１）＝Ｇ［３］［Ｌ［３］［‘ｓ’］＋１］＋４＊（３−１）＝Ｇ［３］［３＋１］＋８＝９で、解はこれだけなので、ｆ’（９，‘ｓ’）＝ｘ＝１
である。したがって、Ｃ［‘ｐ’］＋ｆ（９，‘ｓ’）＝７＋３＋１＝１１となり、ｅｎｄには１１が代入される。

【００４９】次に、ｅｎｄ（＝１１）＞ｓｔａｒｔ（＝
１０）であるからステップ３０２に戻り（ステップ３０
４参照）、ｉ＝０（＝１−１）となったので（ステップ
３０２参照）、ｓｔａｒｔ≦ｊ≦ｅｎｄであるような全
てのｊに対して、ＳＡ［ｊ］の位置から始まるテキスト
Ｔの接尾辞を求める（ステップ３０６参照）。ここで
は、ｓｔａｒｔ＝１０、ｅｎｄ＝１１であるから、ＳＡ
［１０］＝６、ＳＡ［１１］＝３であり、Ｔ［３・・・
５］＝Ｔ［６・・・８］＝“ｓｓｉ”となっており、パ
ターンＰと一致している。

【００５０】上記の動作例では、ｋ＝４である場合につ
いて説明したが、ｋの値は、検索対象であるテキストＴ
の文字数（ｎ）、検索パターンＰの文字数（ｍ）、テキ
ストＴを構成するアルファベットにおける文字の種類の
数（ｓ）などに応じて適宜に設定することができる。こ
の場合、ｋの値に応じて、上述した前処理及び検索処理
に必要なメインメモリ１０３の記憶容量とこれらの処理
に要する時間とが変化する。大まかにはｋ＝Ｏ（ｓ）、
すなわちｓの定数倍とすると、メインメモリ１０３に必
要な記憶容量はＯ（ｎ log n）ビット、検索時間はＯ
（ｍ log ｓ）となり、従来の接尾辞木を用いる検索方
法における理論値と同じである。例えばｋ＝ｓのとき、
３ｎ log ｓ＋２ｎ log ｎビットが必要となる。ただ
し、この場合が最小であるわけではない。実際には、メ
インメモリ１０３の記憶容量は、８ビット、１６ビッ
ト、３２ビットの倍数（場合によっては約数）であるこ
とがほとんどなので、このことを考慮してｋを設定する
ことが好ましい。

【００５１】次に、具体的なテキストＴに対して本実施
の形態を適用した場合におけるメインメモリ１０３に必
要な記憶容量（データサイズ）と検索時間とを例示す
る。〔適用例１〕文字が１バイトで表され、２５６種類であ
る場合（終了判定文字＄も同時に表したい場合は２５５
種類）。通常の英文テキストなどがこれに該当する。こ
の場合、テキストＴの文字数をｎとすれば、テキストＴ
のサイズはｎバイト、接尾辞配列ＳＡのサイズは４ｎバ
イトである。例えば、ｋ＝６５５３６（＝２¹⁶）とする
と、ｋ以下の数字は２バイトで表すことができる。これ
により、上述したテーブルＦ、Ｌ、Ｇ、Ｃの合計サイズ
は、２ｎバイト強となる。したがって、テキストＴ及び
接尾辞配列ＳＡ、テキストＴを含んだデータサイズでも
７ｎバイト強である。これは当該テキストＴに対する接
尾辞木のサイズ（２０ｎ〜４０ｎバイト程度）の３分の
１程度である。一方、検索速度は、log ｋに比例するの
で、ｋを小さくすると速度を上げることが可能である。
例えば、ｋ＝２５６（＝２⁸）とすると、ｋ＝６５５３
６の場合に対して２倍の検索速度を見込める。この場
合、テーブルＦ、Ｌ、Ｇ、Ｃを持つために必要なメイン
メモリ１０３の記憶容量は６ｎバイトである。すなわ
ち、テキストＴ及び接尾辞配列ＳＡを加えた総量でも１
１ｎバイトのデータサイズとなり、やはり接尾辞木より
も小さい。

【００５２】〔適用例２〕文字が２バイトで表され、６
５５３６（＝２¹⁶）種類ある場合。日本語のテキストな
どがこれに該当する。この場合、ｋ＝６５５３６とする
と、テーブルＦ、Ｌ、Ｇ、Ｃの合計サイズは、８ｎバイ
トであり、テキストＴ及び接尾辞配列ＳＡを加えた総量
でも１４ｎバイトである。なお、この例の場合、ｋ＝２
５６などの小さい値とするのは、データサイズが大きく
なってしまうので現実的ではない。

【００５３】〔適用例３〕ＤＮＡの配列（文字の種類数
は４）の場合。２ｂｉｔの文字、４ｂｉｔの文字を扱う
ことを許すならば、ｋ＝４の場合、テーブルＦ、Ｌ、
Ｇ、ＣとテキストＴ及び接尾辞配列ＳＡとを加えた総デ
ータサイズは８．７５ｎバイト程度となる。また、ｋ＝
１６の場合、総データサイズは５．３７５ｎバイト程度
となる。特に後者の場合、接尾辞配列ＳＡそのものとほ
とんど変わらないデータサイズとなっている。

【００５４】次に、実際のＤＮＡ配列に対する検索速度
の測定例を示す。この測定例では、本実施の形態による
検索方法と、接尾辞配列ＳＡを２分探索する従来の検索
方法とを用いて、大腸菌の全配列に対し、同じクエリー
を１０００００００回繰り返した場合の計算時間を比較
している。なお、計算機は、ＣＰＵが３３３ＭＨｚＰｏ
ｗｅｒＰＣのＲＳ６０００（米国ＩＢＭ社のワークス
テーション）である。検索パターンＰ＝“ＣＡＣＡＴＡＡ” 本実施の形態による検索時間：０．３８秒従来の２分探索による検索時間：４．３０秒検索パターンＰ＝“ＡＧＡＧＣＧＧＣ” 本実施の形態による検索時間：０．４７秒従来の２分探索による検索時間：４．０２秒検索パターンＰ＝“ＣＣＣＧＣＴＴＣＧＧＣ” 本実施の形態による検索時間：０．７６秒従来の２分探索による検索時間：３．３５秒検索パターンＰ＝“ＡＣＣＧＣＧＡＡＡＴＡＣＣＧＧＣ
ＧＣＧＧＡＡＡＴＣＡＴＣＧＡＣＴＴＡＣＧＣＡＴＡＧＧＣＧＣ” 本実施の形態による検索時間：３．１３秒従来の２分探索による検索時間：３．８８秒検索パターンＰ＝“ＣＧＧＣＧＴＣＡＧＧＴＡＣＴＧＡ
ＣＣＧＣＧＡＣＣＡＡＴＧＣＧＡ” 本実施の形態による検索時間：０．８４秒従来の２分探索による検索時間：３．４１秒以上のように、全ての例において、本実施の形態の方が
２分探索よりも計算時間が短縮（高速化）されている。
最も高速化されている例（検索パターンＰ＝“ＡＧＡＧ
ＣＧＧＣ”）では１０倍以上高速になっている。また、
短い配列のクエリーほど高速化の効果があることがわか
る。

【００５５】なお、本実施の形態では、テキストＴの接
尾辞配列ＳＡを探索して所望のパターンＰを検索する場
合について説明したが、テキストＴの接頭辞配列を探索
してパターンＰを検索することも可能である。ここで、
接頭辞とは、所定の文字列において、所定の文字を特定
した場合の当該文字以前の文字列である。この接頭辞に
対して、接尾辞に対する接尾辞木と同様の接頭辞木を生
成することができる。また、接頭辞配列とは、テキスト
Ｔにおける全ての接頭辞を後から順に並べた文字列を、
辞書的順序で並べ替えた場合のインデックスの配列であ
る。すなわち、文字列の先頭方向と末尾方向（左右）を
逆にしたテキストＴに対する接尾辞配列と本質的に同じ
である。したがって、方向を考慮することにより、上述
した手法をそのまま接頭辞配列に対しても用いることが
できる。

【００５６】

【発明の効果】以上説明したように、本発明によれば、
大規模テキストデータベースの検索において、処理を行
うためのデータ構造におけるデータサイズの増大を抑え
ながら、高速な検索を実現することができる。

【図面の簡単な説明】

【図１】本実施の形態を実現するのに好適なコンピュ
ータ装置のハードウェア構成の例を模式的に示した図で
ある。

【図２】本実施の形態におけるデータ構造の構築及び
検索を行うための機能ブロックを示す図である。

【図３】本実施の形態におけるパターンの検索アルゴ
リズムを説明するフローチャートである。

【図４】本実施の形態において用いられるテーブルＦ
の構成例を示す図である。

【図５】本実施の形態において用いられるテーブルＬ
の構成例を示す図である。

【図６】接尾辞木の例を示す図である。

【符号の説明】

１０…接尾辞配列生成部、２０…前処理部、３０…検索
部、１０１…ＣＰＵ（中央処理装置）、１０２…Ｍ／Ｂ
（マザーボード）チップセット、１０３…メインメモ
リ、１０４…ビデオカード、１０５…ハードディスク、
１０６…ネットワークインタフェース、１０７…フロッ
ピーディスクドライブ、１０８…キーボード、１０９…
シリアルＩ／Ｏポート、１１０…ブリッジ回路

───────────────────────────────────────────────────── フロントページの続き (72)発明者渋谷哲朗神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内Ｆターム(参考） 5B075 ND03 QM06 QS01

Claims

【特許請求の範囲】

【請求項１】検索対象である文字列中から所望のパタ
ーンを検索するパターン検索方法において、前記パターンの最後の文字から前方へ１文字ずつ順に加
えて得られる各中間パターンに関して、当該中間パター
ンの先頭の文字が前記文字列に対する接尾辞配列のどの
範囲に存在するかを順次検索する範囲検索ステップと、前記検索により前記パターン自体に関して得られた前記
接尾辞配列の前記範囲に含まれる各要素に対応する前記
文字列の要素を特定し、当該文字列の各要素を先頭とし
て前記パターンの要素数と同じ数の要素からなる部分文
字列を抽出する文字列抽出ステップとを含むことを特徴
とするパターン検索方法。
【請求項２】前記範囲検索ステップは、前記文字列に対する接尾辞配列の各要素に関して、当該
各要素に対応する前記文字列中の各文字の一つ前に位置
する前置文字を特定するステップと、前記接尾辞配列中の所定の要素以前の各要素における前
記前置文字の中に含まれる、前記パターン中の所望の文
字の個数を求めるステップと、求められた前記文字の個数に基づいて、当該文字が前記
接尾辞配列のどの位置に存在するかを検出するステップ
とを含むことを特徴とする請求項１に記載のパターン検
索方法。
【請求項３】検索対象である配列中から所望のパター
ンを検索するパターン検索方法において、前記パターンの最後の要素が前記配列中のどこに位置す
るかを検索するステップと、前記パターンが複数の要素により構成されている場合
に、当該パターン中の前記最後の要素に当該最後の要素
の前に位置する要素を後ろから順に一つずつ加えて得ら
れる各中間パターンに関して、当該中間パターンが前記
配列中のどこに位置するかを順次検索するステップとを
含むことを特徴とするパターン検索方法。
【請求項４】検索対象である文字列中から所望のパタ
ーンを検索するパターン検索方法において、前記パターンの最初の文字から後方へ１文字ずつ順に加
えて得られる各中間パターンに関して、当該中間パター
ンの最後の文字が前記文字列に対する接頭辞配列のどの
範囲に存在するかを順次検索する範囲検索ステップと、前記検索により前記パターン自体に関して得られた前記
接頭辞配列の前記範囲に含まれる各要素に対応する前記
文字列の要素を特定し、当該文字列の各要素を最後尾と
して前記パターンの要素数と同じ数の要素からなる部分
文字列を抽出する文字列抽出ステップとを含むことを特
徴とするパターン検索方法。
【請求項５】検索対象である遺伝子配列中から所望の
パターンを検索するパターン検索方法において、前記パターンの最後の要素から前方へ一つずつ順に加え
て得られる各中間パターンに関して、当該中間パターン
の先頭の要素が前記遺伝子配列に対する接尾辞配列のど
の範囲に存在するかを順次検索する範囲検索ステップ
と、前記検索により前記パターン自体に関して得られた前記
接尾辞配列の前記範囲に含まれる各要素に対応する前記
遺伝子配列の要素を特定し、当該遺伝子配列の各要素を
先頭として前記パターンの要素数と同じ数の要素からな
る部分配列を抽出する配列抽出ステップとを含むことを
特徴とするパターン検索方法。
【請求項６】検索対象である文字列中から所望のパタ
ーンを検索するパターン検索装置において、前記文字列の接尾辞配列に基づいて前記パターンを検索
するためのデータ構造を構築する前処理部と、前記前処理部により構築されたデータ構造を用いて所望
の前記パターンを検索する検索部とを備え、前記前処理部は、前記接尾辞配列の各要素に関して、当該各要素に対応す
る前記文字列中の各文字の一つ前に位置する前置文字を
特定し、前記接尾辞配列中の所定の要素以前の各要素における前
記前置文字の、前記文字列を構成する文字の種類ごとの
個数を求めることにより前記データ構造を構築すること
を特徴とするパターン検索装置。
【請求項７】前記前処理部は、前記前置文字の個数
を、前記接尾辞配列における要素の位置と、前記文字列
を構成する文字の種類とに対応付けて格納したテーブル
を持つことを特徴とする請求項６に記載のパターン検索
装置。
【請求項８】前記前処理部は、前記接尾辞配列の所定
数個おきの要素の位置に関して生成された前記テーブル
を持つことを特徴とする請求項７に記載のパターン検索
装置。
【請求項９】前記前処理部は、前記テーブルにおいて
情報が管理される前記接尾辞配列の所定の位置に基づい
て、当該位置の間における前記接尾辞配列の要素に対す
る前記前置文字に関する情報を格納した他のテーブルを
さらに持つことを特徴とする請求項８に記載のパターン
検索装置。
【請求項１０】前記検索部は、前記接尾辞配列中の所定の要素以前の各要素における前
記前置文字の個数に基づいて、前記パターンの最後の文
字から前方へ１文字ずつ順に加えて得られる各中間パタ
ーンに関して、当該中間パターンの先頭の文字が前記文
字列に対する接尾辞配列のどの範囲に存在するかを順次
検索し、前記検索により前記パターン自体に関して得られた前記
接尾辞配列の前記範囲に含まれる各要素に対応する前記
文字列の要素を特定し、当該文字列の各要素を先頭とし
て前記パターンの要素数と同じ数の要素からなる部分文
字列を抽出することを特徴とする請求項６に記載のパタ
ーン検索装置。
【請求項１１】コンピュータに、検索対象である配列
中から所望のパターンを検索する処理を実行させるコン
ピュータプログラムにおいて、前記パターンの最後の要素から前方へ一つずつ順に加え
て得られる各中間パターンに関して、当該中間パターン
の先頭の要素が前記配列に対する接尾辞配列のどの範囲
に存在するかを順次検索する処理と、前記検索により前記パターン自体に関して得られた前記
接尾辞配列の前記範囲に含まれる各要素に対応する前記
配列の要素を特定し、当該配列の各要素を先頭として前
記パターンの要素数と同じ数の要素からなる部分配列を
抽出する処理とを前記コンピュータに実行させることを
特徴とするコンピュータプログラム。
【請求項１２】コンピュータに、検索対象である配列
中から所望のパターンを検索する処理を実行させるコン
ピュータプログラムにおいて、前記検索対象である配列に対する接尾辞配列の各要素に
関して、当該各要素に対応する前記配列中の各要素の一
つ前に位置する前置要素を特定する処理と、前記接尾辞配列中の所定の要素以前の各要素における前
記前置要素の、前記配列を構成する要素の種類ごとの個
数を求める処理と、前記接尾辞配列中の所定の要素以前の各要素における前
記前置要素の個数に基づいて、前記パターンの最後の要
素から前方へ一つずつ順に加えて得られる各中間パター
ンに関して、当該中間パターンの先頭の要素が前記配列
に対する接尾辞配列のどの範囲に存在するかを順次検索
する処理と、前記検索により前記パターン自体に関して得られた前記
接尾辞配列の前記範囲に含まれる各要素に対応する前記
配列の要素を特定し、当該配列の各要素を先頭として前
記パターンの要素数と同じ数の要素からなる部分配列を
抽出する処理とを前記コンピュータに実行させることを
特徴とするコンピュータプログラム。
【請求項１３】前記前置要素の個数を、前記接尾辞配
列における要素の位置と、前記配列を構成する要素の種
類とに対応付けて格納したテーブルを生成し、記憶装置
に保持する処理を前記コンピュータにさらに実行させる
ことを特徴とする請求項１２に記載のコンピュータプロ
グラム。
【請求項１４】コンピュータに検索対象である配列中
から所望のパターンを検索する処理を実行させるプログ
ラムを当該コンピュータの入力手段が読取可能に記憶し
た記憶媒体において、前記プログラムは、前記パターンを検索する処理とし
て、前記パターンの最後の要素から前方へ一つずつ順に加え
て得られる各中間パターンに関して、当該中間パターン
の先頭の要素が前記配列に対する接尾辞配列のどの範囲
に存在するかを順次検索する処理と前記検索により前記
パターン自体に関して得られた前記接尾辞配列の前記範
囲に含まれる各要素に対応する前記配列の要素を特定
し、当該配列の各要素を先頭として前記パターンの要素
数と同じ数の要素からなる部分配列を抽出する処理とを
前記コンピュータに実行させることを特徴とする記憶媒
体。
【請求項１５】コンピュータに検索対象である配列中
から所望のパターンを検索する実行させるプログラムを
当該コンピュータの入力手段が読取可能に記憶した記憶
媒体において、前記プログラムは、前記パターンを検索する処理とし
て、前記接尾辞配列の各要素に関して、当該各要素に対応す
る前記配列中の各要素の一つ前に位置する前置要素を特
定する処理と、前記接尾辞配列中の所定の要素以前の各要素における前
記前置要素の、前記配列を構成する要素の種類ごとの個
数を求める処理と、前記接尾辞配列中の所定の要素以前の各要素における前
記前置要素の個数に基づいて、前記パターンの最後の要
素から前方へ一つずつ順に加えて得られる各中間パター
ンに関して、当該中間パターンの先頭の要素が前記配列
に対する接尾辞配列のどの範囲に存在するかを順次検索
する処理と、前記検索により前記パターン自体に関して得られた前記
接尾辞配列の前記範囲に含まれる各要素に対応する前記
配列の要素を特定し、当該配列の各要素を先頭として前
記パターンの要素数と同じ数の要素からなる部分配列を
抽出する処理とを前記コンピュータに実行させることを
特徴とする記憶媒体。