JP2829259B2

JP2829259B2 - データ処理装置、データ検索装置、データ処理方法及びデータ検索方法

Info

Publication number: JP2829259B2
Application number: JP7233085A
Authority: JP
Inventors: 睦藤原
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1994-09-14
Filing date: 1995-09-11
Publication date: 1998-11-25
Anticipated expiration: 2015-09-11
Also published as: JPH08272827A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列などのコー
ド列を検索するデータ検索装置、及び前記検索を含む種
々の処理を行うデータ処理装置の改良に関するものであ
る。

【０００２】

【従来の技術】従来から、文字列などのコード列から、
所定のキー列（パターン）の出現位置をすべて発見する
データ処理装置が知られている。図４７は、文字列ｓ中
に存在するパターンｐの例を示したものである。この様
なコード列の検索は、辞書・索引の応用分野であり、具
体的な適用分野としては、テキストエディタ、テキスト
データベース、音声認識等のパターンマッチング、ＤＮ
Ａ解析等のパターン分析、データ圧縮(substitutional
coding) などが挙げられる。

【０００３】上記コード列を検索する最も単純な手法と
しては、コード列のすべての部分をキー列と順次照合す
る手法が挙げられるが、この手法は、検索に要する時間
が文字列ｓの長さに比例して増大するという問題点を有
していた。

【０００４】この検索所要時間を、文字列ｓの長さによ
らず、パターンｐの出現回数に比例する程度に抑えるた
めに、従来から、一次元の文字列ｓとは別に、検索用デ
ータを用意しておく手法が用いられている。この様な検
索用データの構造としては、position tree (Majster,
M. et. al. 1980), suffix tree (McCreght, E. 1976),
directed acyclic word graph (Blumer, A. et al. 19
85) が知られている。

【０００５】また、これらのデータ構造は、（１）使用
記憶領域が文字列（コード列ｓ）の長さに比例する程度
で、過度に増大しない、（２）検索所要時間もパターン
ｐの長さと出現位置の数に比例する程度で、過度に増大
しない、という優れた特長を有している。

【０００６】さらに、これらのデータ構造は、Trie(dig
ital search tree) を基本構造とするものである。この
Trieは、複数のノードを、ルートから末端まで樹状に接
続したデータ構造で、ルート（根）から末端ノード
（葉）に至るパスの各辺につけられたラベルが、文字列
ｗi を綴り出す木構造である。また、これらのデータ構
造では、末端ノード（葉）はある文字列ｗi の終端に対
応する。また、根からある節ｘを経て葉に至るパスは、
根から節ｘまでのパスが綴り出す文字列をprefix（先頭
側の部分文字列、以下、前方列と記す）とする文字列ｗ
i に対応する。なお、図４８は、Trieの例を示したもの
である。

【０００７】従来のデータ構造である上記position tre
e, suffix tree, directed acyclicword graph は、上
記のTrieを応用したものである。

【０００８】このうち、position tree は、コード列ｓ
中の各位置から始まる同定部分列を文字列としたTrieで
ある。ここで、同定部分列とは、その位置から始まるそ
の位置固有の最も短い文字列である。図４９は、コード
列“ａｂｂａｂｂ＄”に対する、位置と同定部分列の対
照表（辞書）の例である。この図において、記号“＄”
は、位置を特定するためにコード列の終端に付加された
ダミーコードである。また、図５０は、コード列“ａｂ
ｂａｂｂ＄”の辞書を表すposition tree の例を示した
ものである。

【０００９】次に、suffix tree は、コード列ｓの各su
ffix（後方側の部分文字列、以下、後方列と記す）を文
字列ｗi としたTrieであり、図５１はsuffix tree の例
を示したものである。このsuffix tree は、上記Trieの
うち最も単純なものであり、根（ルート）から葉（末端
ノード）に至るパスの各辺につけられたラベルが、コー
ド列ｓの後方列を綴り出す木構造となっている。また、
このsuffix tree では、葉はある後方列の終端（＝コー
ド列ｓの終端）に対応している。さらに、この木構造
は、根から葉に至るパスによって綴り出すことにより、
コード列ｓのすべての後方列をもれなく含むことができ
る。また、根からある節ｘを経て葉に至るパスは、根か
らその節ｘまでのパスが綴り出す文字列を前方列とする
コード列ｓの後方列に対応する。

【００１０】また、directed acyclic word graph は、
上記suffix tree の特定のパスをマージ（共用）したも
ので、図５２はdirected acyclic word graph の例を示
したものである。

【００１１】

【発明が解決しようとする課題】しかしながら、上述し
た様な従来のデータ構造では、コード列ｓを更新したと
き、対応する検索用データの更新所要時間が、コード列
ｓの長さに比例して増大していた。その理由は、例え
ば、suffix tree においては、Trieはコード列ｓのすべ
ての後方列を反映しており、コード列ｓが一部でも変更
されると、変更箇所以前から開始するすべての後方列が
影響を受け、変更がTrie全体に及ぶからである。この傾
向は、変更箇所がコード列ｓの終端に近いほど大きい。

【００１２】例えば、図５１において、コード列ｓの末
尾の“ｃ”を削除した場合、３つの辺の（ｃ）が消去さ
れ、２つの辺のラベル（ａｂｃ）が（ａｂ）に変更され
る。この様に、従来のデータ処理装置はデータの更新所
要時間が長く、更新が頻繁な用途においては実用性が低
いという問題点があった。

【００１３】また、従来のデータ処理装置には、可変長
である各部分列に対し、編集や検索などのデータ処理が
効率的に行えないという問題点もあった。すなわち、部
分列は、コード列の編集などによって変化し、その長さ
が変化するものであるから、部分列に対する処理のため
には、常に、各部分列とコード列中の位置を対照する必
要がある。

【００１４】この様な部分列に対するデータ処理の困難
さは、データ検索に限らず、データ圧縮や文字列編集な
ど、多くの情報処理分野に普遍的に存在する。ここで、
部分列に対する効率的なデータ処理の困難さを、単純な
例によって説明する。この例は、０，１又はＮのいずれ
かのコード値を取るコードの列であり、同一コード値は
多くの場合、複数連続するものとする。このような例
は、少なくとも、ビットマップによるグラフィックス表
示において存在し得る。このようなコードの列の具体例
を次に示す。

【００１５】

【表１】この例では、区間（位置）［１．．３］に０、区間
［４．．５］にＮ、区間［６．．９］に０、区間［１
０．．１５］に１、区間［１６．．１６］に０が格納さ
れている。この例は、コード列が、連続している同一コ
ード値の列すなわち「区間」に区分されている状態と考
えることもできる。

【００１６】この様なデータをコンピュータで保持し、
処理する手法としては、まず、連続する番地のメモリに
コード値を順番通りに格納することが考えられる（第１
の手法）。この第１の手法によって表１のコード列を表
したものを図５３に示す。また、この第１の手法では、
各コード値の位置が、当該コード値を格納する記憶領域
の番地と、コード列の記憶領域の先頭番地との差に比例
する。このため、特定位置のコード値のアドレスを、機
械的な加減乗除を用いて容易に算出することができる。
すなわち、Ａをコード列の記憶領域の先頭番地とした場
合、コード値のアドレスは、（アドレス＝位置＋Ａ−
１）となる。

【００１７】しかし、この手法には次の問題点が存在す
る。（１）データがコード数分のメモリを占有するので、メ
モリ効率が悪い。特に、同一コード値が多数連続する場
合、メモリは無駄に浪費されることとなる。（２）データがコードごとに別個に格納されているの
で、同一コード値の連続範囲の特定に長時間を要する。
すなわち、連続範囲を特定するためには、前後のコード
値を読み出しながら連続範囲をカウントする必要があ
る。（３）部分列の長さ変更を伴う編集の際には、変更対象
位置以降又は以前のすべてのデータを、記憶領域上で前
方又は後方へ移動させるため、処理に長時間を要する。
例えば、図５４は、時点５（番地はＡ＋４）のコード値
Ｎの直後に、コード値１の区間［６．．８］を挿入する
場合を示す。この場合、この図に示す様に、番地Ａ＋５
からＡ＋１５までのデータを、番地Ａ＋８からＡ＋１８
の領域に転送するという繁雑な処理を要する。（４）コードの単位に対応する記憶領域が、コードの数
（すなわち、位置の数）だけ必要なため、記憶領域を制
限すれば、コードの単位ごとの情報量が制限され、位置
の精度も下がる。一方、コードの単位ごとの情報量を増
やせば（つまり、位置の刻みを細かくすれば）、膨大な
記憶領域を消費することになる。このため、実際的には
整数のような離散的な量しか扱えない。

【００１８】次に、他の手法として、コード値と、当該
コード値が連続して存在する部分列の範囲とのペアを、
連続する記憶領域に部分列の並び順に格納することも考
えられる（第２の手法）。図５５は、表１のコード列
を、第２の手法によって格納したデータを示したもので
ある。

【００１９】この第２の手法によれば、コード値が連続
する区間を単位としてメモリを利用できるので、所要メ
モリ量は位置の数ではなく区間の数に比例し、メモリ効
率は向上する。また、同一コード値の連続範囲は、デー
タから端的に得られる。さらに、区間による長さの精度
（長さの種類＝離散的か連続的か）の相違が許容される
ので、例えば、浮動小数点の処理が容易になる。

【００２０】しかし、この場合も、部分列（区間）の長
さや部分列の個数を変更するには、変更箇所以降のすべ
ての部分列の範囲のデータを書き変えるという繁雑な処
理を要する。さらに、この手法では、特定位置のコード
値を得るには、二分法などを用いてその位置を範囲のデ
ータから探索しなければならない。

【００２１】上記二分法を用いる場合、二分探索木を用
いれば処理が効率化できる。すなわち、コード列の中ほ
どの部分列をルートノードとし、また、部分列の範囲の
データと、当該部分列のコード値を各ノードに持たせ
る。部分列の範囲のデータは、範囲の始点と終点によっ
て表してもよいし、また、範囲の始点のみとして、終点
は次の部分列のノードが持つ始点に基づいて得てもよ
い。図５６は、このような従来の手法において、表１に
対応する二分探索木を表した例である。この図では、各
ノードは対応する部分列の始点位置と（円内）、当該部
分列のコード値（各円の下方）を持つ。

【００２２】そして、あるノードの末端側に位置する部
分木は、図において、そのノードの左側に位置する場合
は、そのノードよりも前の部分列であることを意味し、
そのノードの右側に位置する場合は、そのノードよりも
後の部分列であることを意味している。しかし、この場
合も、部分列の位置の変更の際は、変更箇所以降の範囲
のデータをすべて変更するという煩雑な処理を要する。

【００２３】また、コード値と、当該コード値が連続し
て存在する部分列の長さとのペアを、連続する記憶領域
に部分列の並び順に格納することも考えられる（第３の
手法）。図５７は、この第３の手法におけるデータの例
である。この場合、部分列の伸縮の際には、当該区間の
長さの変更のみで足りるという利点はあるが、特定位置
のコードを得るためには、先頭又は末尾から区間の長さ
の加算を続けるという煩雑な処理を要する。また、特定
の区間に関する情報のみからは、当該区間の区間長しか
知ることができないので、この場合二分法を用いて、検
索の効率化を図ることもできない。

【００２４】また、各区間のデータとして、連続領域で
はなくリスト構造(linear list) を用いれば、不連続な
領域をポインタで接続することによってデータを表すこ
とができる（第４の手法）。図５８は、この第４の手法
におけるデータ構造を示したものである。この第４の手
法によれば、任意の区間の追加・削除・分割・併合の際
に、メモリ上でデータを転送する必要がなくなるので、
データ処理が効率化される。しかし、この場合、任意の
位置の検索について区間長の積算をしなければならない
という問題は解決しない。

【００２５】本発明は、上記の様な従来技術の問題点を
解決するために提案されたもので、その目的は、効率の
良いデータ処理装置、データ検索装置、データ処理方法
及びデータ検索方法を提供することにある。例えば、検
索用データの更新所要時間が短いデータ処理装置を提供
すること、効率的にデータを処理するデータ処理装置を
提供すること、検索を高速に行うデータ処理装置を提供
すること、メモリを効率的に利用することができるデー
タ処理装置を提供すること、一定の長さ以下あるいは長
さを制限しないキー列の全体又は一部を含む部分をもれ
なく、また重複なく検索するデータ検索装置を提供する
ことである。

【００２６】

【課題を解決するための手段】上記の目的を達成するた
め、請求項１に記載のデータ処理装置は、キー列による
検索対象となるコード列について、その後方の部分であ
る後方列の検索に用いることができる前方列をアルファ
ベット順に並べ、また、前記前方列とその前方列の前記
コード列中における位置とを対として表す辞書データを
生成する辞書データ生成手段と、前記辞書データに基づ
いて、二分木である辞書ｔｒｅｅを生成する辞書ｔｒｅ
ｅ生成手段と、前記コード列に基づいて、テキストデー
タを生成するテキストデータ生成手段と、前記テキスト
データに基づいて、二分木であるテキストｔｒｅｅを生
成するテキストｔｒｅｅ生成手段と、前記辞書ｔｒｅｅ
及びテキストｔｒｅｅに基づいて、キー列の全部又は一
部を前方列とする後方列を検索する検索手段と、前記コ
ード列を変更する変更手段と、前記変更の内容に基づい
て、変更に係る前記コード列の辞書データ、辞書ｔｒｅ
ｅ、テキストデータ及びテキストｔｒｅｅを更新する更
新手段とを有することを特徴とするものである。

【００２７】また、請求項５２に記載のデータ処理方法
は、上記請求項１に記載の発明を方法の観点から捉えた
ものであって、キー列による検索対象となるコード列に
ついて、その後方の部分である後方列の検索に用いるこ
とができる前方列をアルファベット順に並べ、また、前
記前方列とその前方列の前記コード列中における位置と
を対として表す辞書データを生成する辞書データ生成処
理と、前記辞書データに基づいて、二分木である辞書ｔ
ｒｅｅを生成する辞書ｔｒｅｅ生成処理と、前記コード
列に基づいて、テキストデータを生成するテキストデー
タ生成処理と、前記テキストデータに基づいて、二分木
であるテキストｔｒｅｅを生成するテキストｔｒｅｅ生
成処理と、前記辞書ｔｒｅｅ及びテキストｔｒｅｅに基
づいて、キー列の全部又は一部を前方列とする後方列を
検索する検索処理と、前記コード列を変更する変更処理
と、前記変更の内容に基づいて、変更に係る前記コード
列の辞書データ、辞書ｔｒｅｅ、テキストデータ及びテ
キストｔｒｅｅを更新する更新処理とを含むことを特徴
とするものである。

【００２８】上記のような構成を有する請求項１に記載
のデータ処理装置及び請求項５２に記載のデータ処理方
法によれば、辞書ｔｒｅｅとテキストｔｒｅｅとを対を
なすように構成することにより、検索対象となるパター
ンのテキスト上での出現位置をもれなく、また、重複な
く簡単に求めることができる。

【００２９】請求項２に記載のデータ処理装置は、キー
列による検索対象となるコード列について、その後方の
部分である後方列の検索に用いることができる前方列を
アルファベット順に並べ、また、前記前方列とその前方
列の前記コード列中における位置とを対として表す辞書
データを生成する辞書データ生成手段と、前記コード列
に基づいて、テキストデータを生成するテキストデータ
生成手段と、前記辞書データ及びテキストデータに基づ
いて、キー列の全部又は一部を前方列とする後方列を検
索する検索手段と、前記コード列を変更する変更手段
と、前記変更の内容に基づいて、変更に係る前記コード
列の辞書データ及びテキストデータを更新する更新手段
とを有することを特徴とするものである。

【００３０】また、請求項５３に記載のデータ処理方法
は、上記請求項２に記載の発明を方法の観点から捉えた
ものであって、キー列による検索対象となるコード列に
ついて、その後方の部分である後方列の検索に用いるこ
とができる前方列をアルファベット順に並べ、また、前
記前方列とその前方列の前記コード列中における位置と
を対として表す辞書データを生成する辞書データ生成処
理と、前記コード列に基づいて、テキストデータを生成
するテキストデータ生成処理と、前記辞書データ及びテ
キストデータに基づいて、キー列の全部又は一部を前方
列とする後方列を検索する検索処理と、前記コード列を
変更する変更処理と、前記変更の内容に基づいて、変更
に係る前記コード列の辞書データ及びテキストデータを
更新する更新処理とを含むことを特徴とするものであ
る。

【００３１】上記のような構成を有する請求項２記載の
データ処理装置及び請求項５３に記載のデータ処理方法
によれば、辞書データとテキストデータとを対をなすよ
うに構成することにより、検索対象となるパターンのテ
キスト上での出現位置をもれなく、また、重複なく簡単
に求めることができる。

【００３２】請求項３に記載の発明は、請求項１又は請
求項２記載のデータ処理装置において、前記辞書データ
を構成するキーとなる部分列の長さが限定されることを
特徴とするものである。

【００３３】上記のような構成を有する請求項３に記載
の発明によれば、キーとなる部分列の長さを制限するこ
とにより、キーとなる部分列を格納する領域を節約する
ことができる。また、キーとなる部分列の長さを制限す
ることにより、不要な比較を避けることができる。

【００３４】請求項４に記載の発明は、請求項１又は請
求項２記載のデータ処理装置において、前記辞書データ
を構成するキーとなる部分列の長さが限定されないこと
を特徴とするものである。

【００３５】上記のような構成を有する請求項４に記載
の発明によれば、キーとなる部分列の長さを制限しない
ことにより、後続部分列をテキスト上でチェックすると
いった後処理を要せずに、直接インデクスを検索するだ
けで、任意の長さの部分列を検索することができる。

【００３６】請求項５に記載の発明は、請求項１又は請
求項３又は請求項４記載のデータ処理装置において、前
記辞書ｔｒｅｅ生成手段あるいはテキストｔｒｅｅ生成
手段の少なくともいずれか一方が、前記辞書ｔｒｅｅと
テキストｔｒｅｅの対応するｎｏｄｅ間に、ポインタを
設定することを特徴とするものである。

【００３７】上記のような構成を有する請求項５に記載
の発明によれば、辞書ｔｒｅｅとテキストｔｒｅｅの対
応するｎｏｄｅ間にポインタが設定されるので、両者間
のデータの参照が容易となる。また、辞書ｔｒｅｅとテ
キストｔｒｅｅの少なくともいずれか一方に、文字列を
格納すれば良くなるので、記憶領域を大幅に縮小するこ
とができる。

【００３８】また、請求項５記載のデータ処理装置によ
れば、テキスト上の文字が変更された場合に、テキスト
ｔｒｅｅの該当文字を変更するだけで、辞書ｔｒｅｅの
表わすキーとなる部分列が自動的に変更されるので、テ
キスト上の文字の変更に伴う辞書の更新に要する時間を
大幅に短縮できる。

【００３９】さらに、請求項５に記載のデータ処理装置
によれば、テキスト上の文字が追加された場合に、テキ
ストｔｒｅｅに文字を追加し、この文字列の追加によっ
て辞書の表において追加された新たなキーとなる部分列
に対応するｎｏｄｅを辞書ｔｒｅｅに設け、この辞書ｔ
ｒｅｅのｎｏｄｅとテキストｔｒｅｅに追加された文字
のｎｏｄｅとの間にポインタを設定することにより、辞
書ｔｒｅｅの表わすキーとなる部分列が自動的に変更さ
れるので、テキスト上の文字の追加に伴う辞書の更新に
要する時間を大幅に短縮できる。

【００４０】また、請求項５に記載のデータ処理装置に
よれば、テキスト上の文字が削除された場合に、テキス
トｔｒｅｅから文字を削除し、この文字列の削除によっ
て辞書の表において削除されたキーとなる部分列に対応
するｎｏｄｅを辞書ｔｒｅｅから削除し、この削除され
た辞書ｔｒｅｅのｎｏｄｅとテキストｔｒｅｅから削除
された文字のｎｏｄｅとの間に設定されていたポインタ
を削除することにより、辞書ｔｒｅｅの残りのノードが
表すキーとなる部分列が自動的に変更されるので、テキ
スト上の文字の削除に伴う辞書の更新に要する時間を大
幅に短縮できる。

【００４１】請求項６に記載の発明は、請求項２又は請
求項３又は請求項４記載のデータ処理装置において、前
記辞書データ生成手段あるいはテキストデータ生成手段
の少なくともいずれか一方が、前記辞書データとテキス
トデータの間にポインタを設定することを特徴とするも
のである。

【００４２】上記のような構成を有する請求項６に記載
の発明によれば、辞書データとテキストデータの対応す
るｎｏｄｅ間にポインタが設定されるので、両者間のデ
ータの参照が容易となる。また、辞書データとテキスト
データの少なくともいずれか一方に、文字列を格納すれ
ば良くなるので、記憶領域を大幅に縮小することができ
る。

【００４３】また、請求項６記載のデータ処理装置によ
れば、テキスト上の文字が変更された場合に、テキスト
データの該当文字を変更するだけで、辞書データの表わ
すキーとなる部分列が自動的に変更されるので、テキス
ト上の文字の変更に伴う辞書の更新に要する時間を大幅
に短縮できる。

【００４４】さらに、請求項６に記載のデータ処理装置
によれば、テキスト上の文字が追加された場合に、テキ
ストデータに文字を追加し、この文字列の追加によって
辞書の表において追加された新たなキーとなる部分列に
対応するｎｏｄｅを辞書データに設け、この辞書データ
のｎｏｄｅとテキストデータに追加された文字のｎｏｄ
ｅとの間にポインタを設定することにより、辞書データ
の表わすキーとなる部分列が自動的に変更されるので、
テキスト上の文字の追加に伴う辞書の更新に要する時間
を大幅に短縮できる。

【００４５】また、請求項６に記載のデータ処理装置に
よれば、テキスト上の文字が削除された場合に、テキス
トデータから文字を削除し、この文字列の削除によって
辞書の表において削除されたキーとなる部分列に対応す
るｎｏｄｅを辞書データから削除し、この削除された辞
書データのｎｏｄｅとテキストデータから削除された文
字のｎｏｄｅとの間に設定されていたポインタを削除す
ることにより、辞書データの残りのノードが表すキーと
なる部分列が自動的に変更されるので、テキスト上の文
字の削除に伴う辞書の更新に要する時間を大幅に短縮で
きる。

【００４６】請求項７に記載の発明は、請求項１又は請
求項３又は請求項４記載のデータ処理装置において、前
記検索手段が、前記辞書ｔｒｅｅとテキストｔｒｅｅを
対照することにより、データ検索を行うように構成され
たことを特徴とするものである。

【００４７】上記のような構成を有する請求項７に記載
の発明によれば、検索手段が、前記ポインタを介して、
辞書ｔｒｅｅとテキストｔｒｅｅを対照することにより
データ検索を行うので、文字列を効率良く格納すること
ができる。

【００４８】請求項８に記載の発明は、請求項２又は請
求項３又は請求項４記載のデータ処理装置において、前
記検索手段が、前記辞書データとテキストデータを対照
することにより、データ検索を行うように構成されたこ
とを特徴とするものである。

【００４９】上記のような構成を有する請求項８に記載
の発明によれば、検索手段が、前記ポインタを介して、
辞書データとテキストデータを対照することによりデー
タ検索を行うので、文字列を効率良く格納することがで
きる。

【００５０】請求項９に記載の発明は、請求項１又は請
求項３又は請求項４記載のデータ処理装置において、前
記検索手段が、前記辞書ｔｒｅｅ及びテキストｔｒｅｅ
の少なくともいずれか一方に基づいて、部分列を復元す
る機能を有することを特徴とするものである。

【００５１】上記のような構成を有する請求項９に記載
の発明によれば、前記検索手段が、前記辞書ｔｒｅｅ及
びテキストｔｒｅｅの少なくともいずれか一方に基づい
て、部分列を復元する機能を有しているため、別個に部
分列復元手段を設ける必要がない。

【００５２】請求項１０に記載の発明は、請求項２又は
請求項３又は請求項４記載のデータ処理装置において、
前記検索手段が、前記辞書データ及びテキストデータの
少なくともいずれか一方に基づいて、部分列を復元する
機能を有することを特徴とするものである。

【００５３】上記のような構成を有する請求項１０に記
載の発明によれば、前記検索手段が、前記辞書データ及
びテキストデータの少なくともいずれか一方に基づい
て、部分列を復元する機能を有しているため、別個に部
分列復元手段を設ける必要がない。

【００５４】請求項１１に記載の発明は、請求項１又は
請求項３又は請求項４記載のデータ処理装置において、
前記辞書ｔｒｅｅ生成手段及びテキストｔｒｅｅ生成手
段によって、前記辞書ｔｒｅｅ及びテキストｔｒｅｅの
ｎｏｄｅを一体化して構成したことを特徴とするもので
ある。

【００５５】上記のような構成を有する請求項１１に記
載の発明によれば、前記辞書ｔｒｅｅ生成手段及びテキ
ストｔｒｅｅ生成手段によって、前記辞書ｔｒｅｅ及び
テキストｔｒｅｅのｎｏｄｅを一体化することができる
ので、両者間に設定されていたポインタを省略すること
ができ、また、記憶領域を縮小することができる。

【００５６】請求項１２に記載の発明は、請求項１又は
請求項３又は請求項４記載のデータ処理装置において、
前記辞書ｔｒｅｅに文字列を格納したことを特徴とする
ものである。

【００５７】上記のような構成を有する請求項１２に記
載の発明によれば、前記辞書ｔｒｅｅに文字列を格納
し、辞書ｔｒｅｅとテキストｔｒｅｅの間に設定された
ポインタによって、前記文字列を復元できるので、テキ
ストｔｒｅｅに文字列を格納する必要がなくなり、記憶
領域を縮小することができる。

【００５８】請求項１３に記載の発明は、請求項１２記
載のデータ処理装置において、前記辞書ｔｒｅｅに格納
される文字列の長さが、対応するテキストｔｒｅｅのｎ
ｏｄｅが表わす区間の長さと等しいことを特徴とするも
のである。

【００５９】上記のような構成を有する請求項１３に記
載の発明によれば、テキストの復元に必要な最低限の文
字列のみを辞書ｔｒｅｅに格納しているため、辞書ｔｒ
ｅｅの各ｎｏｄｅにおいて、文字列を格納するスペース
を大幅に節約することができる。

【００６０】請求項１４に記載の発明は、請求項１又は
請求項３又は請求項４記載のデータ処理装置において、
前記テキストｔｒｅｅのｎｏｄｅにおいて、辞書ｔｒｅ
ｅへのポインタとして、文字列とｎｏｄｅのアドレスを
使用することを特徴とするものである。

【００６１】上記のような構成を有する請求項１４に記
載の発明によれば、テキストの変更の際に必要となる辞
書ｔｒｅｅのｎｏｄｅへのポインタを格納しないで済
み、同一文字列を一つの辞書ｎｏｄｅのみに格納して、
他を省略することによって記憶領域を大幅に節約するこ
とができる。

【００６２】請求項１５に記載のデータ処理装置は、キ
ー列による検索対象となるコード列について、その後方
の部分である後方列の検索に用いることができる前方列
をアルファベット順に並べ、また、前記前方列とその前
方列の前記コード列中における位置とを対として表す辞
書データを生成する辞書データ生成手段と、前記コード
列に基づいて、テキストデータを生成するテキストデー
タ生成手段と、前記辞書データ及びテキストデータに基
づいて、キー列の全部又は一部を前方列とする後方列を
検索する検索手段と、前記コード列を変更する変更手段
と、前記変更の内容に基づいて、変更に係る前記コード
列の辞書データ及びテキストデータを更新する更新手段
と、前記変更箇所をとりまとめて処理するための調整範
囲設定手段を有することを特徴とするものである。

【００６３】また、請求項５４に記載のデータ処理方法
は、上記請求項１５に記載の発明を方法の観点から捉え
たものであって、キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
処理と、前記コード列に基づいて、テキストデータを生
成するテキストデータ生成処理と、前記辞書データ及び
テキストデータに基づいて、キー列の全部又は一部を前
方列とする後方列を検索する検索処理と、前記コード列
を変更する変更処理と、前記変更の内容に基づいて、変
更に係る前記コード列の辞書データ及びテキストデータ
を更新する更新処理と、前記変更箇所をとりまとめて処
理するための調整範囲設定処理を含むことを特徴とする
ものである。

【００６４】上記のような構成を有する請求項１５に記
載のデータ処理装置及び請求項５４に記載のデータ処理
方法によれば、所定の範囲の調整作業をまとめて行うこ
とにより、辞書データへの後方列の再登録の回数を減ら
すことができる。

【００６５】請求項１６に記載のデータ処理装置は、キ
ー列による検索対象となるコード列について、その後方
の部分である後方列の検索に用いることができる前方列
をアルファベット順に並べ、また、前記前方列とその前
方列の前記コード列中における位置とを対として表す辞
書データを生成する辞書データ生成手段と、前記コード
列に基づいて、テキストデータを生成するテキストデー
タ生成手段と、前記辞書データ及びテキストデータに基
づいて、キー列の全部又は一部を前方列とする後方列を
検索する検索手段と、前記コード列を変更する変更手段
と、アルファベット順に登録された各辞書データに順位
を付与する順位付加手段と、前記変更の内容に基づい
て、変更に係る前記コード列の辞書データ、テキストデ
ータ及びアルファベット順位を更新する更新手段とを有
することを特徴とするものである。

【００６６】また、請求項５５に記載のデータ処理方法
は、上記請求項１６に記載の発明を方法の観点から捉え
たものであって、キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
処理と、前記コード列に基づいて、テキストデータを生
成するテキストデータ生成処理と、前記辞書データ及び
テキストデータに基づいて、キー列の全部又は一部を前
方列とする後方列を検索する検索処理と、前記コード列
を変更する変更処理と、アルファベット順に登録された
各辞書データに順位を付与する順位付加処理と、前記変
更の内容に基づいて、変更に係る前記コード列の辞書デ
ータ、テキストデータ及びアルファベット順位を更新す
る更新処理とを含むことを特徴とするものである。

【００６７】上記のような構成を有する請求項１６に記
載のデータ処理装置及び請求項５５に記載のデータ処理
方法によれば、１つのパターンの出現回数を得るために
は、辞書データ中の２つの項目の順位を調べるだけで良
く、効率の良い検索を行うことができる。

【００６８】請求項１７に記載の発明は、請求項１６に
記載のデータ処理装置において、前記検索手段が、前方
列が一致する辞書データの先頭のものと末尾のものの順
位から、前方列が一致するキーとなる部分列の数を計数
する計数手段を有することを特徴とするものである。

【００６９】上記のような構成を有する請求項１７に記
載の発明によれば、所定のパターンの出現回数は、辞書
データ中の２つの項目の順位に基づいて、計数手段によ
って簡単に求めることができる。

【００７０】請求項１８に記載のデータ検索装置は、キ
ー列による検索対象となるコード列について、その後方
の部分である後方列の検索に用いることができる前方列
をアルファベット順に並べ、また、前記前方列とその前
方列の前記コード列中における位置とを対として表す辞
書データを生成する辞書データ生成手段と、前記辞書デ
ータに基づいて、二分木である辞書ｔｒｅｅを生成する
辞書ｔｒｅｅ生成手段と、前記コード列に基づいて、テ
キストデータを生成するテキストデータ生成手段と、前
記辞書ｔｒｅｅ及びテキストデータに基づいて、キー列
の全部又は一部を前方列とする後方列を検索する検索手
段とを有することを特徴とするものである。

【００７１】また、請求項５６に記載のデータ検索方法
は、上記請求項１８に記載の発明を方法の観点から捉え
たものであって、キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
処理と、前記辞書データに基づいて、二分木である辞書
ｔｒｅｅを生成する辞書ｔｒｅｅ生成処理と、前記コー
ド列に基づいて、テキストデータを生成するテキストデ
ータ生成処理と、前記辞書ｔｒｅｅ及びテキストデータ
に基づいて、キー列の全部又は一部を前方列とする後方
列を検索する検索処理とを含むことを特徴とするもので
ある。

【００７２】上記のような構成を有する請求項１８に記
載のデータ検索装置及び請求項５６に記載のデータ検索
方法によれば、コード列の変更を伴わない場合に、辞書
データ生成手段、辞書ｔｒｅｅ生成手段、テキストデー
タ生成手段及び検索手段によってデータ検索装置を構成
することにより、簡易な構成によって、検索対象となる
パターンのテキスト上での出現位置をもれなく、また、
重複なく求めることができる。

【００７３】請求項１９に記載のデータ検索装置は、キ
ー列による検索対象となるコード列について、その後方
の部分である後方列の検索に用いることができる前方列
をアルファベット順に並べ、また、前記前方列とその前
方列の前記コード列中における位置とを対として表す辞
書データを生成する辞書データ生成手段と、前記コード
列に基づいて、テキストデータを生成するテキストデー
タ生成手段と、前記辞書データ及びテキストデータに基
づいて、キー列の全部又は一部を前方列とする後方列を
検索する検索手段とを有することを特徴とするものであ
る。

【００７４】また、請求項５７に記載のデータ検索方法
は、上記請求項１９に記載の発明を方法の観点から捉え
たものであって、キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
処理と、前記コード列に基づいて、テキストデータを生
成するテキストデータ生成処理と、前記辞書データ及び
テキストデータに基づいて、キー列の全部又は一部を前
方列とする後方列を検索する検索処理とを含むことを特
徴とするものである。

【００７５】上記のような構成を有する請求項１９に記
載のデータ検索装置及び請求項５７に記載のデータ検索
方法によれば、コード列の変更を伴わない場合に、辞書
データ生成手段、テキストデータ生成手段及び検索手段
によってデータ検索装置を構成することにより、簡易な
構成によって、検索対象となるパターンのテキスト上で
の出現位置をもれなく、また、重複なく求めることがで
きる。

【００７６】請求項２０に記載の発明は、請求項１８又
は請求項１９記載のデータ検索装置において、前記辞書
データを構成するキーとなる部分列の長さが限定される
ことを特徴とするものである。

【００７７】上記のような構成を有する請求項２０に記
載の発明によれば、キーとなる部分列の長さを制限する
ことにより、キーとなる部分列を格納する領域を節約す
ることができる。また、キーとなる部分列の長さを制限
することにより、不要な比較を避けることができる。

【００７８】請求項２１に記載の発明は、請求項１８又
は請求項１９記載のデータ検索装置において、前記辞書
データを構成するキーとなる部分列の長さが限定されな
いことを特徴とするものである。

【００７９】上記のような構成を有する請求項２１に記
載の発明によれば、キーとなる部分列の長さを制限しな
いことにより、後続部分列をテキスト上でチェックする
といった後処理を要せずに、直接インデクスを検索する
だけで、任意の長さの部分列を検索することができる。

【００８０】請求項２２に記載の発明は、請求項１８又
は請求項２０又は請求項２１記載のデータ検索装置にお
いて、前記テキストデータに基づいて、二分木であるテ
キストｔｒｅｅを生成するテキストｔｒｅｅ生成手段を
有し、前記辞書ｔｒｅｅ及びテキストｔｒｅｅに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
することを特徴とするものである。

【００８１】上記のような構成を有する請求項２２に記
載の発明によれば、検索対象となるパターンのテキスト
上での出現位置をもれなく、また、重複なく求めること
ができる。

【００８２】請求項２３に記載のデータ処理装置は、キ
ー列による検索対象となるコード列について、その後方
の部分である後方列の検索に用いることができる前方列
をアルファベット順に並べ、また、その前方列とその前
方列の前記コード列中における位置とを対として表す辞
書データを生成する辞書データ生成手段と、前記辞書デ
ータに基づいて、キー列の全部又は一部を前方列とする
後方列を検索する検索手段と、２つのコード列の比較を
行なう比較手段と、１文字違いの２つの後方列のうち、
一方がすでにインデクスに登録されている場合に、他方
の後方列の登録位置を、１文字の比較に基づいて決定し
て登録する登録手段と、前記コード列を変更する変更手
段と、前記コード列の一部が変更された場合に、変更後
のコード列を再登録する必要があるか否かを判定する再
登録判定手段と、前記比較手段及び再登録判定手段の判
断結果に基づいて、変更に係る前記コード列の辞書デー
タを更新する更新手段とを有することを特徴とするもの
である。

【００８３】また、請求項５８に記載のデータ処理方法
は、上記請求項２３に記載の発明を方法の観点から捉え
たものであって、キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
その前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
処理と、前記辞書データに基づいて、キー列の全部又は
一部を前方列とする後方列を検索する検索処理と、２つ
のコード列の比較を行なう比較処理と、１文字違いの２
つの後方列のうち、一方がすでにインデクスに登録され
ている場合に、他方の後方列の登録位置を、１文字の比
較に基づいて決定して登録する登録処理と、前記コード
列を変更する変更処理と、前記コード列の一部が変更さ
れた場合に、変更後のコード列を再登録する必要がある
か否かを判定する再登録判定処理と、前記比較手段及び
再登録判定手段の判断結果に基づいて、変更に係る前記
コード列の辞書データを更新する更新処理とを含むこと
を特徴とするものである。

【００８４】上記のような構成を有する請求項２３に記
載のデータ処理装置及び請求項５８に記載のデータ処理
方法によれば、比較手段、再登録判定手段を設けること
により、コード列を与えてインデクスを検索する場合、
または、インデクスに後方列を登録する場合に必要とな
るコード列の比較の効率化を図ることができる。

【００８５】請求項２４に記載の発明は、請求項２３に
記載のデータ処理装置において、前記検索手段が、コー
ド列をキーとしてアルファベット順に並べた表におい
て、コード列をキーとして二分探索を行なう際に、既に
行なった比較が何文字目まで一致したかに基づいて、次
の比較を何文字目から行なうかを決定するように構成さ
れたことを特徴とするものである。

【００８６】上記のような構成を有する請求項２４に記
載の発明によれば、共通の前方列の比較を省略して、そ
の直後のコードから比較を行なうことができるので、コ
ード列の比較の効率化を図ることができる。

【００８７】請求項２５に記載の発明は、請求項２３に
記載のデータ処理装置において、前記比較手段が、コー
ド列をキーとしてアルファベット順に並べた表におい
て、２つのコード列の比較を行なう際に、両方のコード
列から一致する前方列を除いた後方列がともに前記表中
に存在する場合、それらの後方列の表中での位置の比較
結果を、前記２つのコード列の比較結果とするように構
成されたことを特徴とするものである。

【００８８】上記のような構成を有する請求項２５に記
載の発明によれば、２つのコード列の比較を行なう際
に、両方のコード列から一致する前方列を除いた後方列
が、ともに辞書データ中に存在する場合、それらの後方
列の辞書データ中での位置の比較結果を、前記２つのコ
ード列の比較結果とすることができるので、コード列の
比較の効率化を図ることができる。

【００８９】請求項２６に記載の発明は、請求項２３に
記載のデータ処理装置において、前記登録手段が、後方
列の前方列をキーとしてアルファベット順に並べた表に
おいて、後方列αｗの前方列を登録する際に、前方列が
前記表中で前記後方列αｗより短い最長の後方列ｗの直
前である後方列ｘより長い最短の後方列βｘと前記直前
である後方列ｘとの差βが、前記後方列αｗとそれより
短い最長の後方列ｗとの差αと一致する場合には、βｘ
の前方列の直後にαｗの前方列を登録し、また、前方列
が前記表中で前記後方列αｗより短い最長の後方列ｗの
直後である後方列ｙより長い最短の後方列γｙと前記直
後である後方列ｙとの差γが、前記後方列αｗとそれよ
り短い最長の後方列ｗとの差αと一致する場合には、γ
ｙの前方列の直前にαｗの前方列を登録するように構成
されたことを特徴とするものである。

【００９０】また、請求項２７に記載の発明は、請求項
２３に記載のデータ処理装置において、前記登録手段
が、後方列の前方列をキーとしてアルファベット順に並
べた表において、後方列ｗの前方列を登録する際に、前
方列が前記表中で前記後方列ｗより長い最短の後方列α
ｗの直前及び直後である後方列βｘ及びγｙについて、
βｘより短い最長の後方列ｘの前方列とγｙより短い最
長の後方列ｙの前方列とが、前記表中でｘの前方列を先
にして隣接しており、かつ、α＝βまたはα＝γである
場合には、ｘの前方列とｙの前方列の間にｗの前方列を
登録するように構成されたことを特徴とするものであ
る。

【００９１】上記のような構成を有する請求項２６及び
請求項２７に記載の発明によれば、例えば１文字違いの
２つの後方列のうち、一方がすでにインデクスに登録さ
れている場合に、他方の後方列の登録位置を、その１文
字の比較に基づいて決定して登録することができる。

【００９２】請求項２８に記載の発明は、請求項２３に
記載のデータ処理装置において、前記再登録判定手段
が、後方列の前方列をキーとしてアルファベット順に並
べた表において、コード列の一部を変更した場合に、変
更部分を含む後方列の前方列について、前記表中で前記
前方列の直前および直後の前方列と前記前方列とを変更
後の内容において比較し、前記前方列が前記直前の前方
列以上でかつ前記直後の前方列以下である場合には、少
なくとも前記後方列及びそれより長い後方列について
は、それらの前方列の再登録の必要がないと判定し、そ
うでない場合には、少なくとも前記後方列及び変更部分
を含むそれより短い後方列については、それらの前方列
の再登録が必要であると判定するように構成されたこと
を特徴とするものである。

【００９３】請求項２９に記載の発明は、請求項２３に
記載のデータ処理装置において、前記再登録判定手段
が、後方列の前方列をキーとしてアルファベット順に並
べた表において、コード列の一部を変更した場合に、変
更部分を含む後方列の前方列について、前記表中で前記
前方列の直前または直後の前方列と前記前方列とを比較
し、両者の前方列が、いずれかの変更された部分の直前
まで一致する場合には、少なくとも前記後方列及び変更
部分を含むそれより短い後方列については、それらの前
方列の再登録が必要であると判定し、一致しない場合に
は、少なくとも前記後方列及びそれより長い後方列につ
いては、それらの前方列の再登録の必要がないと判定す
るように構成されたことを特徴とするものである。

【００９４】請求項３０に記載の発明は、請求項２３に
記載のデータ処理装置において、前記再登録判定手段
が、後方列の前方列をキーとしてアルファベット順に並
べた表において、コード列の一部を変更した場合に、後
方列の前方列が再登録が必要か否かを、変更部分を含む
後方列の前方列について、短い後方列の前方列から順に
判定するように構成されたことを特徴とするものであ
る。

【００９５】請求項３１に記載の発明は、請求項２３に
記載のデータ処理装置において、前記再登録判定手段
が、後方列の前方列をキーとしてアルファベット順に並
べた表において、コード列の一部を変更した場合に、後
方列の前方列が再登録が必要か否かを、変更部分を含む
後方列の前方列について、開始位置の順に並べて二分法
で選択しつつ判定するように構成されたことを特徴とす
るものである。

【００９６】上記のような構成を有する請求項２８乃至
請求項３１に記載の発明によれば、コード列の一部を変
更した場合に、変更部分を含む後方列の前方列につい
て、再登録が必要か否かの判断が容易になされる。

【００９７】請求項３２に記載のデータ検索装置は、キ
ー列による検索対象となるコード列について、その後方
列の検索に用いることができる前方列とその前方列のコ
ード列中における位置との対を前記前方列のアルファベ
ット順に並べたインデクスに基づいて、キー列の全部又
は一部を前方列とする後方列を検索する検索手段と、前
記インデクスを生成するインデクス生成手段とを有し、
前記インデクスには順位が付与されており、前記検索手
段は、その順位に基づいてキー列の全部又は一部を前方
列とする後方列の数を出力する機能を備え、また、前記
インデクス生成手段は、順位を付与したインデクスを生
成するように構成されたことを特徴とするものである。

【００９８】また、請求項５９に記載のデータ検索方法
は、上記請求項３２に記載の発明を方法の観点から捉え
たものであって、キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する検索処理と、前記インデクスを生成するインデクス
生成処理とを含み、前記インデクスには順位が付与され
ており、前記検索処理において、その順位に基づいてキ
ー列の全部又は一部を前方列とする後方列の数を出力
し、また、前記インデクス生成処理は、順位を付与した
インデクスを生成することを特徴とするものである。

【００９９】上記のような構成を有する請求項３２に記
載のデータ検索装置及び請求項５９に記載のデータ検索
方法によれば、テキストを生成しない簡易な構成のデー
タ検索装置及びデータ検索方法を得ることができる。ま
た、請求項３２に記載のデータ検索装置によれば、イン
デクスに順位を付与し、また、検索手段には、その順位
に基づいてキー列の全部又は一部を前方列とする後方列
の数を出力する機能を設け、インデクス生成手段は、順
位を付与したインデクスを生成するように構成すること
により、検索の条件に合致する部分列の数を容易に求め
ることができるデータ検索装置を得ることができる。さ
らに、請求項５９に記載のデータ検索方法によれば、検
索の条件に合致する部分列の数を容易に求めることがで
きるデータ検索方法を得ることができる。

【０１００】請求項３３に記載のデータ処理装置は、キ
ー列による検索対象となるコード列について、その後方
列の検索に用いることができる前方列とその前方列のコ
ード列中における位置との対を前記前方列のアルファベ
ット順に並べたインデクスに基づいて、キー列の全部又
は一部を前方列とする後方列を検索する検索手段と、前
記コード列の変更の内容に基づいて、変更に係る前記コ
ード列についてのインデクスを更新する更新手段とを有
し、前記インデクスには順位が付与されており、前記検
索手段は、その順位に基づいてキー列の全部又は一部を
前方列とする後方列の数を出力する機能を備え、また、
前記更新手段は、前記順位の更新も合わせて行なうよう
に構成されたことを特徴とするものである。

【０１０１】また、請求項６０に記載のデータ処理方法
は、上記請求項３３に記載の発明を方法の観点から捉え
たものであって、キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する検索処理と、前記コード列の変更の内容に基づい
て、変更に係る前記コード列についてのインデクスを更
新する更新処理とを含み、前記インデクスには順位が付
与されており、前記検索処理において、その順位に基づ
いてキー列の全部又は一部を前方列とする後方列の数を
出力し、また、前記更新処理は、前記順位の更新も合わ
せて行なうことを特徴とするものである。

【０１０２】上記のような構成を有する請求項３３に記
載のデータ処理装置及び請求項６０に記載のデータ処理
方法によれば、テキストを生成しない簡易な構成のデー
タ処理装置及びデータ処理方法を得ることができる。ま
た、請求項３３に記載のデータ処理装置によれば、イン
デクスに順位を付与し、また、検索手段には、その順位
に基づいてキー列の全部又は一部を前方列とする後方列
の数を出力する機能を設け、さらに、更新手段が順位の
更新も合わせて行なうように構成したことにより、コー
ド列が変更された場合であっても、検索の条件に合致す
る部分列の数を容易に求めることができるデータ処理装
置を得ることができる。さらに、請求項６０に記載のデ
ータ処理方法によれば、コード列が変更された場合であ
っても、検索の条件に合致する部分列の数を容易に求め
ることができるデータ処理方法を得ることができる。

【０１０３】請求項３４に記載のデータ処理装置は、キ
ー列による検索対象となるコード列について、その後方
列の検索に用いることができる前方列とその前方列のコ
ード列中における位置との対を前記前方列のアルファベ
ット順に並べたインデクスに基づいて、キー列の全部又
は一部を前方列とする後方列を検索する検索手段と、前
記インデクスを生成するインデクス生成手段と、前記コ
ード列を変更する変更手段と、前記コード列の変更の内
容に基づいて、変更に係る前記コード列についてのイン
デクスを更新する更新手段とを有し、前記インデクスに
は順位が付与されており、前記検索手段は、その順位に
基づいてキー列の全部又は一部を前方列とする後方列の
数を出力する機能を備え、また、前記インデクス生成手
段は、順位を付与したインデクスを生成する機能を備
え、前記更新手段は、前記順位の更新も合わせて行なう
ように構成されたことを特徴とするものである。

【０１０４】また、請求項６１に記載のデータ処理方法
は、上記請求項３４に記載の発明を方法の観点から捉え
たものであって、キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する検索処理と、前記インデクスを生成するインデクス
生成処理と、前記コード列を変更する変更処理と、前記
コード列の変更の内容に基づいて、変更に係る前記コー
ド列についてのインデクスを更新する更新処理とを含
み、前記インデクスには順位が付与されており、前記検
索処理において、その順位に基づいてキー列の全部又は
一部を前方列とする後方列の数を出力し、また、前記イ
ンデクス生成処理は、順位を付与したインデクスを生成
し、前記更新処理は、前記順位の更新も合わせて行なう
ことを特徴とするものである。

【０１０５】上記のような構成を有する請求項３４に記
載のデータ処理装置及び請求項６１に記載のデータ処理
方法によれば、テキストを生成しない簡易な構成のデー
タ処理装置及びデータ処理方法を得ることができる。ま
た、請求項３４に記載のデータ処理装置によれば、イン
デクスに順位を付与し、また、検索手段には、その順位
に基づいてキー列の全部又は一部を前方列とする後方列
の数を出力する機能を設け、インデクス生成手段は、順
位を付与したインデクスを生成するように構成し、さら
に、更新手段が順位の更新も合わせて行なうように構成
したことにより、コード列が変更された場合であって
も、検索の条件に合致する部分列の数を容易に求めるこ
とができるデータ処理装置を得ることができる。さら
に、請求項６１に記載のデータ処理方法によれば、コー
ド列が変更された場合であっても、検索の条件に合致す
る部分列の数を容易に求めることができるデータ処理方
法を得ることができる。

【０１０６】請求項３５に記載のデータ検索装置は、キ
ー列による検索対象となるコード列について、その後方
の部分である後方列の検索に用いることができる前方列
とその前方列のコード列中における位置との対を前記前
方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する機能と、前記コード列の後方の部分である後方列の
前方列とその前方列のコード列中における位置との対
を、前記コード列中における位置の順に並べたテキスト
に基づいて、指定された位置から始まるコード列の一部
又は全部を復元する機能とを備えた検索手段と、前記イ
ンデクスを生成するインデクス生成手段と、前記テキス
トを生成するテキスト生成手段とを有することを特徴と
するものである。

【０１０７】また、請求項６２に記載のデータ検索方法
は、上記請求項３５に記載の発明を方法の観点から捉え
たものであって、キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列とその前方列のコード列中における
位置との対を前記前方列のアルファベット順に並べたイ
ンデクスに基づいて、キー列の全部又は一部を前方列と
する後方列を検索する工程と、前記コード列の後方の部
分である後方列の前方列とその前方列のコード列中にお
ける位置との対を、前記コード列中における位置の順に
並べたテキストに基づいて、指定された位置から始まる
コード列の一部又は全部を復元する工程とを有する検索
処理と、前記インデクスを生成するインデクス生成処理
と、前記テキストを生成するテキスト生成処理とを含む
ことを特徴とするものである。

【０１０８】上記のような構成を有する請求項３５に記
載のデータ検索装置及び請求項６２に記載のデータ検索
方法によれば、２つの部分列の比較が容易で、また、コ
ード列の一部又は全部を復元することができる、効率的
なデータ検索装置及びデータ検索方法を得ることができ
る。

【０１０９】請求項３６に記載のデータ処理装置は、キ
ー列による検索対象となるコード列について、その後方
列の検索に用いることができる前方列とその前方列のコ
ード列中における位置との対を前記前方列のアルファベ
ット順に並べたインデクスに基づいて、キー列の全部又
は一部を前方列とする後方列を検索する機能と、前記コ
ード列の後方の部分である後方列の前方列を検索する機
能と、前記コード列中における位置の順に並べたテキス
トに基づいて、指定された位置から始まるコード列の一
部又は全部を復元する機能とを備えた検索手段と、前記
コード列の変更の内容に基づいて、変更に係る前記コー
ド列についてのインデクス及びテキストを更新する更新
手段とを有することを特徴とするものである。

【０１１０】また、請求項６３に記載のデータ処理方法
は、上記請求項３６に記載の発明を方法の観点から捉え
たものであって、キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する工程と、前記コード列の後方の部分である後方列の
前方列を検索する工程と、前記コード列中における位置
の順に並べたテキストに基づいて、指定された位置から
始まるコード列の一部又は全部を復元する工程とを有す
る検索処理と、前記コード列の変更の内容に基づいて、
変更に係る前記コード列についてのインデクス及びテキ
ストを更新する更新処理とを含むことを特徴とするもの
である。

【０１１１】上記のような構成を有する請求項３６に記
載のデータ処理装置及び請求項６３に記載のデータ処理
方法によれば、２つの部分列の比較が容易で、また、コ
ード列の一部又は全部を復元することができる、効率的
なデータ処理装置及びデータ処理方法を得ることができ
る。

【０１１２】請求項３７に記載のデータ処理装置は、キ
ー列による検索対象となるコード列について、その後方
列の検索に用いることができる前方列とその前方列のコ
ード列中における位置との対を前記前方列のアルファベ
ット順に並べたインデクスに基づいて、キー列の全部又
は一部を前方列とする後方列を検索する機能と、前記コ
ード列の後方の部分である後方列の前方列を検索する機
能と、前記コード列中における位置の順に並べたテキス
トに基づいて、指定された位置から始まるコード列の一
部又は全部を復元する機能とを備えた検索手段と、前記
インデクスを生成するインデクス生成手段と、前記テキ
ストを生成するテキスト生成手段と、前記コード列を変
更する変更手段と、前記コード列の変更の内容に基づい
て、変更に係る前記コード列についてのインデクス及び
テキストを更新する更新手段とを有することを特徴とす
るものである。

【０１１３】また、請求項６４に記載のデータ処理方法
は、上記請求項３７に記載の発明を方法の観点から捉え
たものであって、キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する工程と、前記コード列の後方の部分である後方列の
前方列を検索する工程と、前記コード列中における位置
の順に並べたテキストに基づいて、指定された位置から
始まるコード列の一部又は全部を復元する工程とを有す
る検索処理と、前記インデクスを生成するインデクス生
成処理と、前記テキストを生成するテキスト生成処理
と、前記コード列を変更する変更処理と、前記コード列
の変更の内容に基づいて、変更に係る前記コード列につ
いてのインデクス及びテキストを更新する更新処理とを
含むことを特徴とするものである。

【０１１４】上記のような構成を有する請求項３７に記
載のデータ処理装置及び請求項６４に記載のデータ処理
方法によれば、２つの部分列の比較が容易で、また、コ
ード列の一部又は全部を復元することができ、さらに、
コード列の変更に対応してインデクス及びテキストの更
新が可能なデータ処理装置及びデータ処理方法を得るこ
とができる。

【０１１５】請求項３８に記載の発明は、請求項３５に
記載のデータ検索装置において、前記インデクスには順
位が付与されており、前記検索手段は、その順位に基づ
いてキー列の全部又は一部を前方列とする後方列の数を
出力する機能を備え、また、前記インデクス生成手段
は、順位を付与したインデクスを生成するように構成さ
れたことを特徴とするものである。

【０１１６】上記のような構成を有する請求項３８に記
載の発明によれば、インデクスに順位を付与し、また、
検索手段には、その順位に基づいてキー列の全部又は一
部を前方列とする後方列の数を出力する機能を設け、イ
ンデクス生成手段は、順位を付与したインデクスを生成
するように構成することにより、検索の条件に合致する
部分列の数を容易に求めることができるデータ検索装置
を得ることができる。

【０１１７】請求項３９に記載の発明は、請求項３６に
記載のデータ処理装置において、前記インデクスには順
位が付与されており、前記検索手段は、その順位に基づ
いてキー列の全部又は一部を前方列とする後方列の数を
出力する機能を備え、また、前記更新手段は、前記順位
の更新も合わせて行なうように構成されたことを特徴と
するものである。

【０１１８】上記のような構成を有する請求項３９に記
載の発明によれば、インデクスに順位を付与し、また、
検索手段には、その順位に基づいてキー列の全部又は一
部を前方列とする後方列の数を出力する機能を設け、さ
らに、更新手段が順位の更新も合わせて行なうように構
成したことにより、コード列が変更された場合であって
も、検索の条件に合致する部分列の数を容易に求めるこ
とができるデータ処理装置を得ることができる。

【０１１９】請求項４０に記載の発明は、請求項３７記
載のデータ処理装置において、前記インデクスには順位
が付与されており、前記検索手段は、その順位に基づい
てキー列の全部又は一部を前方列とする後方列の数を出
力する機能を備え、また、前記インデクス生成手段は、
順位を付与したインデクスを生成する機能を備え、前記
更新手段は、前記順位の更新も合わせて行なうように構
成されたことを特徴とするものである。

【０１２０】上記のような構成を有する請求項４０に記
載の発明によれば、インデクスに順位を付与し、また、
検索手段には、その順位に基づいてキー列の全部又は一
部を前方列とする後方列の数を出力する機能を設け、イ
ンデクス生成手段は、順位を付与したインデクスを生成
するように構成し、さらに、更新手段が順位の更新も合
わせて行なうように構成したことにより、コード列が変
更された場合であっても、検索の条件に合致する部分列
の数を容易に求めることができるデータ処理装置を得る
ことができる。

【０１２１】請求項４１に記載の発明は、請求項３２又
は請求項３５又は請求項３８に記載のデータ検索装置に
おいて、前記インデクスを構成するキーとなる部分列の
長さが限定されることを特徴とするものである。

【０１２２】また、請求項４２に記載の発明は、請求項
３３，請求項３４，請求項３６，請求項３７，請求項３
９又は請求項４０のいずれか一に記載のデータ処理装置
において、前記インデクスを構成するキーとなる部分列
の長さが限定されることを特徴とするものである。

【０１２３】上記のような構成を有する請求項４１及び
請求項４２に記載の発明によれば、キーとなる部分列の
長さを制限することにより、キーとなる部分列を格納す
る領域を節約することができる。また、キーとなる部分
列の長さを制限することにより、不要な比較を避けるこ
とができる。

【０１２４】請求項４３に記載の発明は、請求項３２又
は請求項３５又は請求項３８に記載のデータ検索装置に
おいて、前記インデクスを構成するキーとなる部分列の
長さが限定されないことを特徴とするものである。

【０１２５】また、請求項４４に記載の発明は、請求項
３３，請求項３４，請求項３６，請求項３７，請求項３
９又は請求項４０のいずれか一に記載のデータ処理装置
において、前記インデクスを構成するキーとなる部分列
の長さが限定されないことを特徴とするものである。

【０１２６】上記のような構成を有する請求項４３及び
請求項４４に記載の発明によれば、キーとなる部分列の
長さを制限しないことにより、後続部分列をテキスト上
でチェックするといった後処理を要せずに、直接インデ
クスを検索するだけで、任意の長さの部分列を検索する
ことができる。

【０１２７】請求項４５に記載の発明は、請求項３７に
記載のデータ処理装置において、前記インデクスの対と
前記テキストの対とを一体化して構成したことを特徴と
するものである。

【０１２８】また、請求項４６に記載の発明は、請求項
３５に記載のデータ検索装置において、前記インデクス
の対と前記テキストの対とを一体化して構成したことを
特徴とするものである。

【０１２９】上記のような構成を有する請求項４５及び
請求項４６に記載の発明によれば、インデクスとテキス
トの対を一体化して構成したことにより、記憶領域を大
幅に削減することができる。

【０１３０】請求項４７に記載の発明は、請求項４２又
は請求項４４に記載のデータ処理装置において、前記イ
ンデクスを二分木で表現したことを特徴とするものであ
る。

【０１３１】また、請求項４８に記載の発明は、請求項
４１又は請求項４３に記載のデータ検索装置において、
前記インデクスを二分木で表現したことを特徴とするも
のである。

【０１３２】上記のような構成を有する請求項４７及び
請求項４８に記載の発明によれば、インデクスを二分木
で表現することにより、検索効率を大幅に向上させるこ
とができる。

【０１３３】請求項４９に記載の発明は、請求項４２又
は請求項４４に記載のデータ処理装置において、前記テ
キストが、前記コード列を記憶領の連続した番地に格納
し、番地によって位置を表現したものであることを特徴
とするものである。

【０１３４】また、請求項５０に記載の発明は、請求項
４１又は請求項４３に記載のデータ検索装置において、
前記テキストが、前記コード列を記憶領の連続した番地
に格納し、番地によって位置を表現したものであること
を特徴とするものである。

【０１３５】上記のような構成を有する請求項４９及び
請求項５０に記載の発明によれば、テキストにおいて、
コード列を記憶領の連続した番地に格納し、番地によっ
て位置を表現したことにより、記憶領域を削減すること
ができ、また、テキストの検索効率の向上も可能とな
る。

【０１３６】請求項５１に記載の発明は、請求項３３，
請求項３４，請求項３６，請求項３７，請求項３９又は
請求項４０のいずれか一に記載のデータ処理装置におい
て、前記更新手段が、前記コード列に対する複数の変更
に対応する更新をとりまとめて処理することを特徴とす
るものである。

【０１３７】上記のような構成を有する請求項５１に記
載の発明によれば、更新手段が、コード列に対する複数
の変更に対応する更新をとりまとめて処理することがで
きるので、更新の効率が大幅に向上する。

【０１３８】請求項６５に記載の発明は、請求項５５に
記載のデータ処理方法において、前記検索処理が、前方
列が一致する辞書データの先頭のものと末尾のものの順
位から、前方列が一致するキーとなる部分列の数を計数
する計数処理を含むことを特徴とするものである。

【０１３９】上記のような構成を有する請求項６５に記
載の発明によれば、所定のパターンの出現回数は、辞書
データ中の２つの項目の順位に基づいて、計数処理によ
って簡単に求めることができる。

【０１４０】請求項６６に記載の発明は、請求項５８に
記載のデータ処理方法において、前記検索処理が、コー
ド列をキーとしてアルファベット順に並べた表におい
て、コード列をキーとして二分探索を行なう際に、既に
行なった比較が何文字目まで一致したかに基づいて、次
の比較を何文字目から行なうかを決定することを特徴と
するものである。

【０１４１】上記のような構成を有する請求項６６に記
載の発明によれば、共通の前方列の比較を省略して、そ
の直後のコードから比較を行なうことができるので、コ
ード列の比較の効率化を図ることができる。

【０１４２】請求項６７に記載の発明は、請求項５８に
記載のデータ処理方法において、前記比較処理が、コー
ド列をキーとしてアルファベット順に並べた表におい
て、２つのコード列の比較を行なう際に、両方のコード
列から一致する前方列を除いた後方列がともに前記表中
に存在する場合、それらの後方列の表中での位置の比較
結果を、前記２つのコード列の比較結果とすることを特
徴とするものである。

【０１４３】上記のような構成を有する請求項６７に記
載の発明によれば、２つのコード列の比較を行なう際
に、両方のコード列から一致する前方列を除いた後方列
が、ともに辞書データ中に存在する場合、それらの後方
列の辞書データ中での位置の比較結果を、前記２つのコ
ード列の比較結果とすることができるので、コード列の
比較の効率化を図ることができる。

【０１４４】請求項６８に記載の発明は、請求項５８に
記載のデータ処理方法において、前記登録処理が、後方
列の前方列をキーとしてアルファベット順に並べた表に
おいて、後方列αｗの前方列を登録する際に、前方列が
前記表中で前記後方列αｗより短い最長の後方列ｗの直
前である後方列ｘより長い最短の後方列βｘと前記直前
である後方列ｘとの差βが、前記後方列αｗとそれより
短い最長の後方列ｗとの差αと一致する場合には、βｘ
の前方列の直後にαｗの前方列を登録し、また、前方列
が前記表中で前記後方列αｗより短い最長の後方列ｗの
直後である後方列ｙより長い最短の後方列γｙと前記直
後である後方列ｙとの差γが、前記後方列αｗとそれよ
り短い最長の後方列ｗとの差αと一致する場合には、γ
ｙの前方列の直前にαｗの前方列を登録することを特徴
とするものである。

【０１４５】また、請求項６９に記載の発明は、請求項
５８に記載のデータ処理方法において、前記登録処理
が、後方列の前方列をキーとしてアルファベット順に並
べた表において、後方列ｗの前方列を登録する際に、前
方列が前記表中で前記後方列ｗより長い最短の後方列α
ｗの直前及び直後である後方列βｘ及びγｙについて、
βｘより短い最長の後方列ｘの前方列とγｙより短い最
長の後方列ｙの前方列とが、前記表中でｘの前方列を先
にして隣接しており、かつ、α＝βまたはα＝γである
場合には、ｘの前方列とｙの前方列の間にｗの前方列を
登録することを特徴とするものである。

【０１４６】上記のような構成を有する請求項６８及び
請求項６９に記載の発明によれば、例えば１文字違いの
２つの後方列のうち、一方がすでにインデクスに登録さ
れている場合に、他方の後方列の登録位置を、その１文
字の比較に基づいて決定して登録することができる。

【０１４７】請求項７０に記載の発明は、請求項５８に
記載のデータ処理方法において、前記再登録判定処理
が、後方列の前方列をキーとしてアルファベット順に並
べた表において、コード列の一部を変更した場合に、変
更部分を含む後方列の前方列について、前記表中で前記
前方列の直前および直後の前方列と前記前方列とを変更
後の内容において比較し、前記前方列が前記直前の前方
列以上でかつ前記直後の前方列以下である場合には、少
なくとも前記後方列及びそれより長い後方列について
は、それらの前方列の再登録の必要がないと判定し、そ
うでない場合には、少なくとも前記後方列及び変更部分
を含むそれより短い後方列については、それらの前方列
の再登録が必要であると判定することを特徴とするもの
である。

【０１４８】請求項７１に記載の発明は、請求項５８に
記載のデータ処理方法において、前記再登録判定処理
が、後方列の前方列をキーとしてアルファベット順に並
べた表において、コード列の一部を変更した場合に、変
更部分を含む後方列の前方列について、前記表中で前記
前方列の直前または直後の前方列と前記前方列とを比較
し、両者の前方列が、いずれかの変更された部分の直前
まで一致する場合には、少なくとも前記後方列及び変更
部分を含むそれより短い後方列については、それらの前
方列の再登録が必要であると判定し、一致しない場合に
は、少なくとも前記後方列及びそれより長い後方列につ
いては、それらの前方列の再登録の必要がないと判定す
ることを特徴とするものである。

【０１４９】請求項７２に記載の発明は、請求項５８に
記載のデータ処理方法において、前記再登録判定処理
が、後方列の前方列をキーとしてアルファベット順に並
べた表において、コード列の一部を変更した場合に、後
方列の前方列が再登録が必要か否かを、変更部分を含む
後方列の前方列について、短い後方列の前方列から順に
判定することを特徴とするものである。

【０１５０】請求項７３に記載の発明は、請求項５８に
記載のデータ処理方法において、前記再登録判定処理
が、後方列の前方列をキーとしてアルファベット順に並
べた表において、コード列の一部を変更した場合に、後
方列の前方列が再登録が必要か否かを、変更部分を含む
後方列の前方列について、開始位置の順に並べて二分法
で選択しつつ判定することを特徴とするものである。

【０１５１】上記のような構成を有する請求項７０乃至
請求項７３に記載の発明によれば、コード列の一部を変
更した場合に、変更部分を含む後方列の前方列につい
て、再登録が必要か否かの判断が容易になされる。

【０１５２】請求項７４に記載の発明は、請求項６２に
記載のデータ検索方法において、前記インデクスには順
位が付与され、前記検索処理において、その順位に基づ
いてキー列の全部又は一部を前方列とする後方列の数を
出力し、また、前記インデクス生成処理は、順位を付与
したインデクスを生成することを特徴とするものであ
る。

【０１５３】上記のような構成を有する請求項７４に記
載の発明によれば、検索の条件に合致する部分列の数を
容易に求めることができるデータ検索方法を得ることが
できる。

【０１５４】請求項７５に記載の発明は、請求項６３に
記載のデータ処理方法において、前記インデクスには順
位が付与されており、前記検索処理において、その順位
に基づいてキー列の全部又は一部を前方列とする後方列
の数を出力し、また、前記更新処理は、前記順位の更新
も合わせて行なうことを特徴とするものである。

【０１５５】上記のような構成を有する請求項７５に記
載の発明によれば、コード列が変更された場合であって
も、検索の条件に合致する部分列の数を容易に求めるこ
とができるデータ処理方法を得ることができる。

【０１５６】請求項７６に記載の発明は、請求項６４記
載のデータ処理方法において、前記インデクスには順位
が付与されており、前記検索処理において、その順位に
基づいてキー列の全部又は一部を前方列とする後方列の
数を出力し、また、前記インデクス生成処理は、順位を
付与したインデクスを生成し、前記更新処理は、前記順
位の更新も合わせて行なうことを特徴とするものであ
る。

【０１５７】上記のような構成を有する請求項７６に記
載の発明によれば、コード列が変更された場合であって
も、検索の条件に合致する部分列の数を容易に求めるこ
とができるデータ処理方法を得ることができる。

【０１５８】

【発明の実施の形態】次に、本発明の実施形態につい
て、図面に従って具体的に説明する。なお、後述する実
施形態はコンピュータ上に実現され、実施形態の各機能
は、所定の手順（プログラム）がこのコンピュータを制
御することで実現される。

【０１５９】本明細書における各「手段」は、実施形態
の各機能に対応する概念的なもので、必ずしも特定のハ
ードウェアやソフトウェア・ルーチンに１対１には対応
しない。同一のハードウェア要素が、場合によって異な
った手段を構成する。例えば、コンピュータは、ある命
令を実行するときにある手段となり、別の命令を実行す
るときは別の手段となりうる。また、一つの手段が、わ
ずか１命令によって実現される場合もあれば、多数の命
令によって実現される場合もある。

【０１６０】したがって、本明細書では、以下、実施形
態の各機能を有する仮想的回路ブロック（手段）を想定
して実施形態を説明する。但し、コンピュータの使用は
一例であり、本発明の機能の全部又は一部は、可能なら
ば、カスタムチップ（専用の集積回路）のような電子回
路上に実現してもよい。

【０１６１】実施形態に用いられるコンピュータは、一
般には、ＣＰＵ（中央演算処理装置）と、ＲＡＭ（随時
書込読出型記憶素子）からなる主記憶装置とを有する。
また、前記コンピュータの規模は自由であり、マイクロ
コンピュータ・パーソナルコンピュータ・スモールコン
ピュータ・ワークステーション・メインフレームなど、
いかなる規模のものを用いてもよい。

【０１６２】また、前記コンピュータのハードウェア
は、典型的には、キーボードやマウスなどの入力装置
と、ハードディスク装置などの外部記憶装置と、ＣＲＴ
表示装置やプリンタ印字装置などの出力装置と、必要な
入出力制御回路を含む。

【０１６３】但し、前記コンピュータのハードウェア構
成は自由であり、本発明が実施できる限り、上記の構成
要素の一部を追加・変更・除外してもよい。例えば、実
施形態は、複数のコンピュータを接続したコンピュータ
ネットワーク上に実現してもよい。また、ＣＰＵの種類
は自由であり、ＣＰＵを複数同時に用いたり、単一のＣ
ＰＵをタイムシェアリング（時分割）で使用し、複数の
処理を同時平行的に行ってもよい。また、他の入力装置
（例えば、タッチパネル・ライトペン・トラックボール
などのポインティングデバイスや、デジタイザ・イメー
ジ読取装置やビデオカメラなどの画像入力装置・音声識
別装置・各種センサなど）を用いてもよい。また、他の
外部記憶装置（例えば、フロッピーディスク装置・ＲＡ
Ｍカード装置・磁気テープ装置・光学ディスク装置・光
磁気ディスク装置・バブルメモリ装置・フラッシュメモ
リなど）を用いてもよい。また、他の出力装置（例え
ば、液晶表示装置・プラズマディスプレイ装置・ビデオ
プロジェクター・ＬＥＤ表示装置・音響発生回路・音声
合成回路など）を用いてもよい。

【０１６４】また、前記コンピュータにおいて実施形態
を実現するためのソフトウェアの構成としては、典型的
には、実施形態の各機能を実現するためのアプリケーシ
ョンプログラムが、ＯＳ（オペレーティングシステム）
上で実行される態様が考えられる。また、実施形態を実
現するためのプログラムの態様としては、典型的には、
高級言語やアセンブラからコンパイル（翻訳）された機
械語が考えられる。但し、前記コンピュータのソフトウ
ェア構成も自由であり、本発明が実施できる限り、ソフ
トウェア構成を変更してもよい。例えば、必ずしもＯＳ
を用いる必要はなく、また、プログラムの表現形式も自
由であり、ＢＡＳＩＣのようなインタプリタ（逐次解釈
実行型）言語を用いてもよい。

【０１６５】また、プログラムの格納態様も自由であ
り、ＲＯＭ（読出し専用メモリ）に格納しておいてもよ
く、また、ハードディスク装置のような外部記憶装置に
格納しておき、コンピュータの起動時や処理の開始時に
主メモリ上にロード（読み込み）してもよい。また、プ
ログラムを複数の部分に分割して外部記憶装置に格納し
ておき、処理内容に応じて必要なモジュールのみを随時
主メモリ上にロード（読み込み）してもよい。さらに、
プログラムの部分ごとに異なった態様で格納してもよ
い。

【０１６６】また、本実施形態における各手順の各ステ
ップは、その性質に反しない限り、実行順序を変更し、
複数同時に実行し、また、実行ごとに異なった順序で実
行してもよい。このような順序の変更は、例えば、ユー
ザが実行可能な処理を選択するなどメニュー形式のイン
ターフェース手法によって実現することができる。

【０１６７】また、本明細書における「入力」は、本来
の情報の入力のみならず、情報の入力と密接に関連する
他の処理を含む。このような処理は、例えば、入力内容
のエコーバックや修正・編集である。また、本明細書に
おける「出力」は、本来の情報の出力のみならず、情報
の出力と密接に関連する他の処理を含む。このような処
理は、例えば、出力すべき範囲の入力や、画面スクロー
ルの指示である。なお、対話的入出力手順によって入力
と出力を一体的操作によって実現してもよく、このよう
な一体的操作によって、選択・指定・特定などの処理を
行ってもよい。

【０１６８】また、本明細書におけるデータ（情報）や
データの格納手段は前記コンピュータ上においていかな
る態様で存在してもよい。例えば、データのハードウェ
ア上の所在部分は、主記憶装置・外部記憶装置・ＣＰＵ
のレジスタやキャッシュメモリなどいかなる部分でもよ
い。また、データの保持態様も自由である。例えば、デ
ータは、ファイル形式で保持されるのみならず、メモリ
やディスクなどの記憶装置を物理的アドレスで直接アク
セスすることによって実現してもよい。また、データの
表現形式も自由で、例えば、文字列を表すコードの単位
は、文字単位でも単語単位でもよい。また、データは必
要とされる一定時間だけ保持されれば十分で、その後消
滅してもよく、保持時間の長短は自由である。また、辞
書データのように当面変更されない情報は、ＲＯＭに格
納してもよい。

【０１６９】また、本明細書において、特定の情報への
言及は確認的で、言及されない情報の存在を否定するも
のではない。すなわち、本発明の動作では、動作に必要
な一般的な情報、例えば、各種ポインタ、カウンタ、フ
ラグ、パラメータ、バッファなどが適宜用いられる。

【０１７０】実施形態の各部分が処理に要する情報は、
特に記載がない場合、当該情報を保持している他の部分
から獲得される。このような情報の獲得は、例えば、当
該情報を格納している変数やメモリをアクセスすること
によって実現することができる。なお、情報の消去・抹
消は、当該情報の内容自体を必ずしも記憶領域から現実
に削除せず、消去を表すフラグを設定するなど、情報の
意味付けの変更によって行うことができる。

【０１７１】［１．第１実施形態］第１実施形態の目的
は、検索用データの更新所要時間が短いデータ処理装置
を提供することである。また、第１実施形態の他の目的
は、処理が高速なデータ処理装置を提供することであ
る。また、第１実施形態のさらに他の目的は、処理手順
が単純なデータ処理装置を提供することである。さら
に、第１実施形態の他の目的は、一定の長さ以下のキー
列の全体又は一部を含む部分を、もれなく、また、重複
なく検索するデータ検索装置を提供することにある。

【０１７２】なお、本実施形態は、請求項１，請求項
３，請求項５及び請求項７に記載のデータ処理装置、及
び請求項５２に記載のデータ処理方法に対応するもので
ある。

【０１７３】［１−１．第１実施形態の構成］図１は、
第１実施形態の構成を示す機能ブロック図である。

【０１７４】すなわち、本実施形態のデータ処理装置
は、キー列による検索対象となるコード列１について、
その後方の部分である後方列の検索に用いることができ
る前方列をアルファベット順に並べ、また、その前方列
の前記コード列中における位置（すなわち、前方列の開
始位置）とを対として表す辞書データ２を生成する辞書
データ生成手段３を有する。また、前記辞書データ２に
基づいて、辞書ｔｒｅｅ４を生成する辞書ｔｒｅｅ生成
手段５を有する。

【０１７５】さらに、本実施形態のデータ処理装置は、
キー列による検索対象となるコード列１に基づいて、テ
キストデータ６を生成するテキストデータ生成手段７を
有する。また、前記テキストデータ６に基づいて、テキ
ストｔｒｅｅ８を生成するテキストｔｒｅｅ生成手段９
を有する。なお、前記辞書ｔｒｅｅ生成手段５及びテキ
ストｔｒｅｅ生成手段９は、前記辞書ｔｒｅｅ４とテキ
ストｔｒｅｅ８において、対応するｎｏｄｅ間にポイン
タを設定する機能をも有する。

【０１７６】また、本実施形態のデータ処理装置は、前
記辞書ｔｒｅｅ４及びテキストｔｒｅｅ８に基づいて、
キー列の全部又は一部を前方列とする後方列を検索する
検索手段１０を有する。さらに、本実施形態は、前記コ
ード列１を変更する変更手段１１と、前記変更の内容に
基づいて、変更に係る前記コード列の辞書データ２、辞
書ｔｒｅｅ４、テキストデータ６及びテキストｔｒｅｅ
８を更新する更新手段１２とを有する。

【０１７７】［１−２．第１実施形態の作用及び効果］
上記の様な構成を有する第１実施形態は、次のような作
用を有する。

【０１７８】［１−２−１．辞書データ及びテキストデ
ータの生成］まず、本実施形態におけるデータ構造につ
いて説明する。例えば、「ａｂａｂｃａｂ」というコー
ド列１について、長さ３以下の任意の部分列の検索に用
いることができるデータ構造は、図２に示した様になっ
ている。なお、図において、上部は辞書における表現
（辞書ｔｒｅｅ４）、下部はテキストにおける表現（テ
キストｔｒｅｅ８）を示している。また、図中、両方向
矢印は、辞書ｔｒｅｅ４とテキストｔｒｅｅ８の対応す
るｎｏｄｅ間に設定されたポインタの位置を示したもの
である。

【０１７９】図２に示したデータ構造を説明する前に、
長さ３以下の任意の部分列の検索に用いることができる
キーとなる部分列の辞書データ２としては、以下に示す
部分列が挙げられる。なお、前記「キーとなる部分列」
とは、「ａｂａｂｃａｂ」というコード列の７つの後方
列（ａｂａｂｃａｂ，ｂａｂｃａｂ，ａｂｃａｂ，ｂｃ
ａｂ，ｃａｂ，ａｂ，ｂ）を検索するために用いられる
前方列（ａｂ，ａｂａ，ａｂｃ，ｂ，ｂａｂ，ｂｃａ，
ｃａｂ）をいい、この前方列を、アルファベット順に並
べると、以下の様になる。また、テキストも、前記後方
列の開始位置を表わす整数（１〜７）と、その位置にあ
る文字（正確には文字を保持する記憶要素）との対応を
示している。

【０１８０】

【表２】なお、各キーとなる部分列の左側に示した数値は、各部
分列のアルファベットの順位を示し、また、右側に示し
た数値は、各部分列の開始位置へのポインタを示してい
る。すなわち、コード列「ａｂａｂｃａｂ」の各文字に
左側から番号を付け、各部分列の開始位置を示したもの
である。

【０１８１】ここで、図２について詳しく説明する。ま
ず、上部は辞書における表現（辞書ｔｒｅｅ）を示した
ものであるが、これは、上記アルファベット順に並べた
キーとなる部分列を、ｔｒｅｅ状に示したものであり、
キーとなる部分列（およびその部分列の開始位置へのポ
インタ）を、アルファベットの順位にもとづく辞書順
（ｌｅｘｉｃｏｇｒａｐｈｉｃｏｒｄｅｒ）に並べた
表２と同等の機能を果たしている。

【０１８２】すなわち、アルファベット順に並べた場合
に中央に位置する「ｂ」をルートとし、表２において
「ｂ」より前に位置する３つの部分列（ａｂ，ａｂａ，
ａｂｃ）を「ｂ」の左側に、また、「ｂ」より後に位置
する３つの部分列（ｂａｂ，ｂｃａ，ｃａｂ）を「ｂ」
の右側におく。この場合、どの部分列をとっても、その
部分列の順位がそれより左側に位置する部分列の順位よ
りも大きく、また、右側に位置する部分列の順位よりも
小さくなるように配置されている。

【０１８３】一方、下部はテキストにおける表現（テキ
ストｔｒｅｅ）を示したものであるが、これも辞書にお
ける表現と同様にｔｒｅｅ状に表されている。すなわ
ち、コード列「ａｂａｂｃａｂ」の中央に位置する
「ｂ」をルートとし、各文字の区間長を１として示した
ものである。そして、この辞書ｔｒｅｅとテキストｔｒ
ｅｅの間が、前記ポインタにより対応づけられている。

【０１８４】なお、テキストｔｒｅｅを走査することに
より、任意の開始位置からテキストを復元することがで
きるので、辞書ｔｒｅｅのｎｏｄｅには開始位置に対応
するテキストｔｒｅｅのｎｏｄｅへのポインタのみを含
めれば、キーとなる部分列を格納する必要はない。ま
た、図２において（ａｂｃ）などで示したキーとなる部
分列は、参考までに示したもので、ｎｏｄｅに格納され
るものではない。

【０１８５】［１−２−１−１．所定のパターンの出現
位置の検索］以下、本実施形態において、辞書データ２
を示すｔｒｅｅ（以下、辞書ｔｒｅｅという）上で、あ
るパターン、例えば“ａｂ”を検索する場合について説
明する。すなわち、辞書データ２を構成するアルファベ
ットが“ａ、ｂ、ｃ”のみであるとすれば、キーとなる
部分列をアルファベット順に配列してある結果、パター
ン“ａｂ”を含む部分列は“ａｂ”〜“ａｃ”の間に位
置していることになる。

【０１８６】これを上記の表２により検索すると、キー
“ａｂ”以上で最小のキーを持つ項目（すなわち、“ａ
ｂ”）と、キー“ａｃ”（本実施形態では存在しない）
未満で最大のキーを持つ項目（すなわち、本実施形態で
は“ａｂｃ”）が決定される。この際、ともに該当する
項目があり、かつ表中で前者（最小のキーを持つ項目）
が後者（最大のキーを持つ項目）より以前にあれば、前
者および後者、さらにその間に存在する項目はすべてキ
ーの前方列が“ａｂ”であり、かつまたこれら以外にキ
ーの前方列が“ａｂ”であるような項目は表中に存在し
ない。

【０１８７】一方、これを図２に示した辞書ｔｒｅｅに
より検索すると、キー“ａｂ”以上で最小のキーを持つ
項目（すなわち、ｎｏｄｅ“ａｂ”）と、キー“ａｃ”
未満で最大のキーを持つ項目（すなわち、ｎｏｄｅ“ａ
ｂｃ”）が決定される。この際、ともに該当する項目が
あり、かつ図中で、前者が後者と同一かより左側にあれ
ば、前者および後者、さらにその間に存在する項目はす
べてキーの前方列が“ａｂ”であり、かつまたこれら以
外にキーの前方列が“ａｂ”であるような項目は図中に
存在しない。

【０１８８】従って、これらの項目（ａｂ、ａｂａ、ａ
ｂｃ）に付与されたテキスト位置へのポインタから、テ
キストを表現するｔｒｅｅを経由して、それらのテキス
ト上での開始位置（６、１、３）を得ることができる。
すなわち、図２において、辞書データ（ａｂ）のポイン
タを辿ると、テキストの位置“６”が得られ、また、辞
書データ（ａｂａ）のポインタを辿ると、テキストの位
置“１”が得られる。

【０１８９】この様に、本実施形態によれば、パターン
“ａｂ”のテキスト上での出現位置を、もれなく、また
重複なく簡単に求めることができる。

【０１９０】［１−２−１−２．テキスト上の文字の変
更に伴う辞書の更新］テキスト上の文字の変更に伴う辞
書の更新は、次のように行うことができる。例として、
テキスト「ａｂａｂｃａｂ」の位置４にある文字“ｂ”
を、文字“ｃ”に変更する場合について説明する（な
お、この文字の変更は、図１に示した変更手段１１によ
って行われる）。

【０１９１】

【表３】すなわち、辞書中の項目で、位置４の“ｂ”をキーに含
んでいる項目（ｂｃａ、ａｂｃ、ｂａｂ）の、位置４の
“ｂ”に対応する“ｂ”を“ｃ”で置き換えたもの（ｃ
ｃａ、ａｃｃ、ｂａｃ）を、表中で正しい順序に登録し
なおす。上記表２と表３とを比較すれば明らかな様に、
本実施形態においては“ｃａｂ”と変更後の“ｃｃａ”
の位置が変更される（上記表２においては、“ｃａｂ”
の順位は７であり、“ｂｃａ”の順位は６であった）。
なお、この様な辞書データ２の変更は、図１に示した更
新手段１２によって行われる。

【０１９２】なお、変更すべき位置の文字（本実施形態
では、位置４の“ｂ”）をキーに含んでいる項目、およ
びキー中のどの文字が変更されるかは、変更すべき文字
のテキスト（表現）上の位置“４”と、表に登録される
部分列の（最大の）長さ“３”から判定できる。すなわ
ち、位置４の文字を含む長さ３の部分列の開始位置は、
テキストの各文字に付けた番号の４、３、２となる。し
たがって、図３に示した様に、テキスト表現の４、３、
２に付与された辞書項目（ｎｏｄｅ）へのポインタを逆
にたどることによって、変更すべき項目がわかる（図３
の辞書ｔｒｅｅにおいて、＊を付したｎｏｄｅ）。

【０１９３】また、変更すべき文字の位置“４”と、変
更すべき部分列の開始位置（４、３、２）との差に１を
加えた値から、変更を要する各部分列における変更すべ
き文字の位置が容易に得られる。例えば、“ａｂｃ”の
開始位置は“３”であったが、この場合、４−３＋１＝
２より、２番目の文字である“ｂ”を“ｃ”に変更すれ
ば良いことになる。

【０１９４】特に、図３に示した様なｔｒｅｅ表現にお
いては、辞書ｔｒｅｅ側のｎｏｄｅにはキーは直接付与
されておらず、テキストｔｒｅｅのｎｏｄｅへのポイン
タが付与されているだけなので、テキストｔｒｅｅ側の
ｎｏｄｅの文字を変更するだけで（本実施形態において
は、ルートに位置する“ｂ”を“ｃ”に変更する…図３
のテキストｔｒｅｅにおいて、＊を付したｎｏｄｅ）、
ただちに辞書ｔｒｅｅ側のｎｏｄｅの再登録を行えばよ
いことになる。

【０１９５】ここで、変更後の辞書ｔｒｅｅおよびテキ
ストｔｒｅｅの関係を示した図３について説明する。す
なわち、テキストｔｒｅｅの位置“４”（本実施形態で
は、ルートに該当する）の文字を“ｃ”に変更する。一
方、辞書とテキストとのポインタは変更されないので、
この部分についてはなんらの変更も要しない。なお、辞
書ｔｒｅｅの＊を付したｎｏｄｅは再登録されたもので
あるが、図３においては、たまたま元と同じ位置に登録
されている。一般には、キーとなる部分列が異なるの
で、再登録された後の位置は異なってくる。

【０１９６】この様に、本実施形態によれば、テキスト
ｔｒｅｅの文字を変更するだけで、辞書ｔｒｅｅの表す
キーとなる部分列が自動的に変更されるので、テキスト
上の文字の変更に伴う辞書の更新に要する時間は、従来
に比べて大幅に短縮される。

【０１９７】［１−２−１−３．テキストに新たに文字
列を挿入する場合］テキストに新たに文字列を挿入する
場合は、文字の変更の場合と同様に、更新手段１２によ
って、影響を受ける辞書項目の再登録を行うとともに、
新たな項目を追加する。また、テキストを表現するｔｒ
ｅｅにおいては、各部分列の開始位置（各文字の位置）
を、文字列の挿入に伴って調整する。

【０１９８】以下、テキスト「ａｂａｂｃａｂ」の位置
４（“ｂ”）の後ろに、文字列“ｂａ”を挿入する場合
について説明する。まず、文字列“ｂａ”を挿入する前
に、挿入箇所の両側の位置４、５の文字（“ｂ”
“ｃ”）の両方を含んでいる部分列（ｂｃａ−４５６、
ａｂｃ−３４５）をキーとする項目を、挿入後の部分列
（ｂｂａ−４５６、ａｂｂ−３４５）に変更して再登録
する（表４において、＃を付した項目）。なお、上記
「ｂｃａ−４５６」などの表示は、理解を容易にするた
めに、部分列ｂｃａのテキスト上での位置を示したもの
である。また、下線部は、文字列“ｂａ”を挿入するこ
とによって変更された部分を示している。

【０１９９】続いて、文字列“ｂａ”を挿入することに
よって新たに生じる部分列（ｂａｃ−５６７、ａｃａ−
６７８）をキーとし、その開始位置へのポインタを付与
した項目を、辞書データ２に追加する（表４において、
＊を付した項目）。その結果、テキストデータ６及び辞
書データ２は以下の様に変更される。

【０２００】

【表４】次に、辞書及びテキストのｔｒｅｅ表現について説明す
る。すなわち、辞書ｔｒｅｅ側のｎｏｄｅには、キーは
直接付与されておらず、テキストｔｒｅｅのｎｏｄｅへ
のポインタが付与されているだけであり、上記の様に、
文字列“ｂａ”を挿入する前の部分列（ｂｃａ−４５
６、ａｂｃ−３４５）と、挿入後の部分列（ｂｂａ−４
５６、ａｂｂ−３４５）とを比較すると、両者ともテキ
ストｔｒｅｅのｎｏｄｅへのポインタは同一である。つ
まり、辞書ｔｒｅｅのｎｏｄｅからテキスト位置（ｎｏ
ｄｅ）へのポインタおよびその逆ポインタについては、
変更しなくてよいことになる。

【０２０１】一方、テキストｔｒｅｅ表現においては、
本出願人が別途特許出願をした「区間管理方法」に従っ
て、図４に示した様に、挿入すべき２文字“ｂ”および
“ａ”を付した２つの新たなｎｏｄｅをテキストｔｒｅ
ｅに追加して、各文字の位置を表すｎｏｄｅの部分区間
長の調整を行う。また、辞書ｔｒｅｅに追加された新た
なｎｏｄｅから、テキストｔｒｅｅに追加されたｎｏｄ
ｅへのポインタを追加する。なお、上記「区間管理方
法」については後述する。

【０２０２】ここで、文字列“ｂａ”を挿入した後の辞
書ｔｒｅｅおよびテキストｔｒｅｅを示した図４につい
て説明する。すなわち、テキストｔｒｅｅの位置“５”
（変更後において、ルートとなる）に“ｂ”を、また、
位置“６”に“ａ”を追加する。一方、辞書ｔｒｅｅに
おいて、図２の“ａｂｃ”が“ａｂｂ”に変更されてい
るが（ただし、辞書ｔｒｅｅには、キーは直接表示され
ていない）、上述した様に、テキストｔｒｅｅへのポイ
ンタは変更されていないため、ポインタの変更は不要で
ある。同様に、図２の“ｂｃａ”が“ｂｂａ”に変更さ
れているが、テキストｔｒｅｅへのポインタは変更され
ていないため、ポインタの変更は不要である。また、辞
書ｔｒｅｅには、辞書の表において追加された“ｂａ
ｃ”“ａｃａ”を表すｎｏｄｅが追加され、それぞれテ
キストｔｒｅｅの位置“５”“６”へポインタが設定さ
れている。なお、図４においては、理解を容易にするた
めに、本項に関係するポインタのみを記載してある。

【０２０３】この様に、本実施形態によれば、テキスト
ｔｒｅｅに文字を追加し、この文字列の追加によって辞
書の表において追加された新たなキーとなる部分列に対
応するｎｏｄｅを辞書ｔｒｅｅに設け、この辞書ｔｒｅ
ｅのｎｏｄｅとテキストｔｒｅｅに追加された文字のｎ
ｏｄｅとの間にポインタを設定することにより、辞書ｔ
ｒｅｅの表すキーとなる部分列が自動的に変更されるの
で、テキスト上の文字の追加に伴う辞書の更新に要する
時間は、従来に比べて大幅に短縮される。

【０２０４】＊区間管理方法について＊上述した様に、
本出願人が別途出願した「区間管理方法」とは、次の様
な作用によって、複数の区間を含むコード列を格納し、
コード列から所望の位置のコード値を取り出したり、そ
のコード列に対して所望の編集を行うことができるよう
にする方法である。

【０２０５】［Ａ．構成］「区間管理方法」を用いたデ
ータ処理装置は、図５に示した様に、コード列の各区間
に基づいて各区間の範囲を表す二分木３１を生成する二
分木生成手段３２と、指定位置に対応する区間を二分木
３１に基づいて検索する区間検索手段３３と、区間が変
更された場合に変更の内容に応じて二分木３１を更新す
る二分木更新手段３４と、二分木ノードから（位置及
び）区間を特定する区間特定手段３５とを有する。

【０２０６】このうち、前記二分木更新手段３４は、区
間長を変更する区間長変更手段４１と、区間が追加され
た場合に追加された区間に対応するノードを追加する追
加手段４２と、区間が削除された場合に削除された区間
に対応するノードを削除する削除手段４３とを有する。
また、各ノード間の結合順序を変更することによって、
二分木の構造を調整する構造調整手段４５を有する。

【０２０７】［Ｂ．作用及び効果］上記のような構成を
有する「区間管理方法」を用いたデータ処理装置では、
次のような作用によって、複数の区間を含むコード列を
格納し、コード列から所望の位置のコード値を取り出し
たり、コード列に対して所望の編集を行うことができ
る。

【０２０８】［Ｂ−１．二分木の生成］まず、二分木生
成手段３２が、コード列の各区間に基づいて各区間の範
囲を表す二分木３１を生成する。コード列と区間はキー
ボード入力など所望の方法で与えればよい。この二分木
３１は、各区間に対応するノードをルートから末端側に
向けてｔｒｅｅ状に接続したものである。また、各ノー
ドの末端側には当該ノード以前の区間に対応するノード
である前方ノード及び当該ノード以降の区間に対応する
ノードである後方ノードのうち該当するものが接続され
る。さらに、各ノードには、当該ノードの区間長と、当
該ノードより末端側に存在する各ノードに対応する区間
長の合計である部分区間長が設定される。

【０２０９】例えば、図６は二分木の例であり、また、
図７は、図６の二分木を説明する図である。なお、これ
らの図は、図８の区間の長さ及びコード値を二分木に表
したものである。すなわち、各区間［１．．３］，
［４．．５］，［６．．９］，［１０．．１５］，［１
６．．１６］に対応するノードＡ，Ｂ，Ｃ，Ｄ，Ｅを、
ルートであるノードＢから末端側に向けてｔｒｅｅ状に
接続したものである。

【０２１０】また、各ノードＡ，Ｂ，Ｃ，Ｄ，Ｅには、
当該ノードの区間長と、当該ノードより末端側の各ノー
ドに対応する区間長の合計である部分区間長が設定され
ている。例えば、図７に示した様に、ノードＤには、ノ
ードＤに対応する区間［１０．．１５］の区間長である
６に、ノードＣに対応する区間［６．．９］の区間長４
と、ノードＥに対応する区間［１６．．１６］の区間長
である１を加えた１１が設定されている（６＋４＋１＝
１１）。

【０２１１】このように、「区間管理方法」を用いたデ
ータ処理装置では、区間ごとにノードが設定されるの
で、ノードを格納するためのデータブロックは区間と同
数あれば足り、データがコード数分のメモリを占有する
ことがない。このため、メモリ効率が向上する。特に、
二分木は、各ノードのためのデータ格納領域をポインタ
で接続することによって構成することができるので、膨
大な連続領域を確保する必要がなくなり、メモリを効率
よく利用できる。また、区間ごとに長さの精度が異なる
データを扱うこともできるので、浮動小数点など自由な
種類のデータを効率よく処理できる。

【０２１２】また、このデータ処理装置では、検索など
の処理において、各ノードの位置は当該ノードの前方ノ
ードの区間長に基づいて算出でき、また、ノードの区間
長から前方ノードと後方ノードの区間長を減ずることに
よって、当該ノード自体の区間長を算出することができ
る。このため、コード列の任意の位置（指定位置）のコ
ードは、指定位置と各ノードの位置・区間長を比較する
ことによって容易に特定することができる。

【０２１３】さらに、各ノードの位置関係はノード間の
相互関係で表され、各ノードの位置は他のノードの部分
区間長に基づいて算出される。このため、区間の一部の
変更に際しても、その変更の影響が波及する範囲は、変
更されたノードやそのノードからルートまでのパス上の
ノードに局限されるので、変更の手続が簡潔で済むとい
う利点を有する。

【０２１４】［Ｂ−２．検索］「区間管理方法」を用い
たデータ処理装置では、以下に述べる様にして、検索な
どの処理を行うことができる。すなわち、図９に示した
ように、区間検索手段３３が、コード列中の任意の位置
である指定位置が属する区間を特定する場合に、ポイン
タの指すノードであるカレントノードをルートから（ス
テップ９１）順次下位ノードに移動させながら、次の手
順を繰り返す。

【０２１５】まず、カレントノード及びカレントノード
の下位ノードの区間長に基づいてカレントノードの範囲
を算出し（ステップ９２）、算出した範囲と指定位置を
比較し、算出した範囲よりも指定位置が前方の場合は
（ステップ９３）、前方ノードにカレントノードを進め
（ステップ９４）、算出した範囲よりも指定位置が後方
の場合は（ステップ９５）、後方ノードにカレントノー
ドを進める（ステップ９６）。また、算出した範囲に指
定位置が含まれる場合は（ステップ９７）、指定位置が
カレントノードに含まれると特定する（ステップ９
８）。

【０２１６】例えば、指定位置（Ｐ＝８）を含む区間に
対応するノードは、次の様にして特定される。すなわ
ち、図１０において、ノードＢをカレントノードとする
と、ノードＡ及びノードＢに含まれる区間長は（１６−
１１＝５）となり、指定位置（Ｐ＝８）より小さい。し
たがって、指定位置８はノードＢよりも右側にあること
が分かる。次に、図１１に示した様に、カレントノード
をノードＤに進める。この場合、指定位置を表す変数Ｐ
は、（Ｐ＝８−５＝３）となり、ノードＤの前方ノード
であるノードＣの区間長４より小さい。したがって、指
定位置（Ｐ＝８）を含む区間に対応するノードは、図１
２に示した様に、ノードＣに含まれることが分かる。

【０２１７】この様に「区間管理方法」を用いたデータ
処理装置では、区間検索手段３３が、カレントノードを
ルートから順次下位側に移動させながら、カレントノー
ドの範囲と指定位置を比較するという簡潔な手順によっ
て、指定位置が属する区間を特定することができるの
で、容易に検索などの処理を行うことができる。

【０２１８】［Ｂ−３．区間の特定］「区間管理方法」
を用いたデータ処理装置では、以下に述べる様にして、
任意のノードを指定し、この指定ノードに対応する区間
を特定することもできる。なお、右区間又は左区間（総
区間）というときは、ルートの区間よりも指定ノードの
区間側の区間を意味する。

【０２１９】すなわち、カレントノードを、与えられた
指定ノードから順次親ノードの方向へルートまで移動さ
せる。この移動の際に、移動前の子ノードの親ノードに
対する左右の別に応じてノードの区間長を順次加算する
ことによって、指定ノード以前の総区間長である左区間
長又は指定ノード以降の総区間長である右区間長のうち
少なくとも一方を特定する。図１３は、指定ノードに対
応する区間を特定する手順の一例を示すフローチャート
である。

【０２２０】この手順では、まず指定ノードをカレント
（ノード）とし、カレントの左の子の部分区間長を左区
間長とする（ステップ１３１）。ここで、左区間（長）
は指定ノードに対応する以前の総区間（長）である。

【０２２１】そして、カレントがルートとなるまで（ス
テップ１３２）、次の手順を繰り返す。すなわち、元の
カレントを子ノードとしてカレントを親に進め（ステッ
プ１３３）、このとき元のカレントである子ノードがカ
レントの右の子であったときは（ステップ１３４）、カ
レントの正味区間長とカレントの左の子の部分区間長と
の和を算出し（ステップ１３５）、左区間長にその和を
加算する（ステップ１３６）。なお、ノードの部分区間
長とは、そのノードをルートとする部分木に含まれるノ
ードの正味区間長の合計をいう。カレントの正味区間長
とカレントの左の子の部分区間長の和は、カレントの部
分区間長から右の子（元のカレント）の部分区間長を減
じることによって算出できる。

【０２２２】カレントがルートとなったとき（ステップ
１３２）、指定ノードの左端は、左区間長の値の次、す
なわち１加算した値として得られる（ステップ１３
７）。このとき、区間が浮動小数点で表されるときは左
区間長の値がそのまま区間の左端となる。また、指定ノ
ードの右端は、左区間長に指定ノードの正味区間長を加
算した値として得られる（ステップ１３８）。

【０２２３】なお、指定ノードの右区間（指定ノードに
対応する区間以降の総区間）は、ルートであるカレント
ノードの部分区間長から指定ノードの右端の値を減じた
値の次（１加算）から始まり、二分木の表す区間全体の
終端まで続く。この終端は、ルートの部分区間長の値と
同じ値で示される。

【０２２４】図１４は、指定ノードに対応する区間を特
定する手順の他の一例を示すフローチャートである。図
１３の手順では、指定ノードの区間の左側に存在する左
区間を求め、指定ノードの区間の右側は、左区間長に基
づいて算出した。図１４の手順は、右区間と左区間の双
方の長さを求め、指定ノードの区間をこの両区間にはさ
まれた区間として特定するものである。

【０２２５】この手順では、まず指定ノードをカレント
とし、カレントの左の子の部分区間長を左区間長とし、
カレントの右の子の部分区間長を右区間長とする（ステ
ップ１４１）。そして、カレントがルートとなるまで
（ステップ１４２）、次の手順を繰り返す。

【０２２６】すなわち、元のカレントを子ノードとして
カレントを親に進め（ステップ１４３）、元の子ノード
がカレントの右の子であったときは（ステップ１４
５）、左区間長に新たなカレントの正味区間長とカレン
トの左の子の部分区間長との和を加算し（ステップ１４
６）、元の子ノードがカレントの左の子であったときは
（ステップ１４５）、右区間長に新たなカレントの正味
区間長とカレントの右の子の部分区間長との和を加算す
る（ステップ１４７）。カレントの正味区間長とカレン
トの左（右）の子の部分区間長との和は、カレントの部
分区間長から右（左）の子の部分区間長を減じることに
よって算出できる。

【０２２７】カレントがルートとなったとき（ステップ
１４２）、指定ノードの区間は左区間と右区間にはさま
れた区間として特定される（ステップ１４８）。指定ノ
ードの右端は、ルートの部分区間長から右区間長を減ず
ることによって算出される。

【０２２８】［Ｂ−４．二分木の更新］区間が変更され
た場合は、二分木更新手段３４が、変更の内容に応じて
二分木３１を更新する。すなわち、コード列の区間長が
変更された場合は、区間長変更手段４１が二分木３１に
おける区間長を変更する。また、コード列の区間が削除
された場合は、削除手段４３が削除された区間に対応す
るノードを二分木３１において削除する。また、コード
列の区間が追加された場合は、追加手段４２が追加され
た区間に対応するノードを二分木３１において追加す
る。

【０２２９】この様に「区間管理方法」を用いたデータ
処理装置では、区間の長さの変更・削除・追加という区
間の変更の内容に応じて、それぞれ区間長変更手段・削
除手段・追加手段が二分木３１を更新するため、二分木
３１の生成をやり直す必要がない。

【０２３０】［Ｂ−４−１．区間長の変更］このうち、
区間長の変更では、長さを変更する区間のノードからル
ートへ至る各ノードの部分区間長が、変更分だけ順次変
更される。例えば、図７の例において、長さ４の区間
［６．．９］を２短縮して長さ２の区間［６．．７］に
変更した場合、これに対応して、ノードＢ，Ｃ，Ｄの部
分区間長は、それぞれ２減じられて図１５の状態とな
る。

【０２３１】この様に、「区間管理方法」を用いたデー
タ処理装置では、区間の長さが変更された場合でも、変
更された区間のノードからルートまでのノードを変更す
れば足りるため、従来の様に、変更された区間以降の全
ノードを記憶領域上で移動させる必要がないので、デー
タ処理が効率化される。

【０２３２】［Ｂ−４−２．区間の追加］区間の追加の
際には、追加手段４２が、二分木３１について、追加に
係る区間に対応するノードを二分木３１に追加し、ノー
ドの結合順序を調整し、各ノードの区間長を調整する。
なお、ノードの追加の手法は従来から複数のものが公知
であり、そのいずれを用いてもよい。例えば、図７にお
いて、区間［１０．．１５］の前に長さ３の区間［１
０．．１２］を追加し、それまでの区間［１０．．１
５］及び区間［１６．．１６］を、それぞれ、区間［１
３．．１８］及び区間［１９．．１９］に移動する場
合、新たなノードの追加の態様は、図１６，図１７及び
図１８の３つの態様が考えられる。

【０２３３】なお、前記追加手段４２は、前記区間長の
調整において、付加したノードの部分区間長を、その子
のノードの部分区間長（子がない場合は０）の和と、追
加する区間の長さの和とし、付加したノードの親を経由
してルートに至るパス上の各ノードについて、その部分
区間長を、追加する区間の長さだけ加算する。

【０２３４】この様に、「区間管理方法」を用いたデー
タ処理装置では、区間の追加の場合も、追加されたノー
ドの親ノードからルートまでのノードに区間長を加算す
るという単純な処理で区間長を調整することができる。
なお、図１７のように、βの位置にノードを付加した二
分木３１を図１９に示す。

【０２３５】［Ｂ−４−３．区間の削除］前記削除手段
４３は、区間の削除の際には、削除する区間に対応する
ノードを二分木３１から削除し、ノード間の結合関係を
調整し、部分区間長を調整する。この様な削除と調整の
手法は、従来から複数の手法が知られており、いずれの
手法を用いてもよい。例えば、図１９の二分木３１にお
いて、ノードＤを削除する場合、削除後の構造は図２０
又は図２１のいずれでもよい。

【０２３６】［Ｂ−４−４．構造調整］区間の追加・削
除あるいは参照（検索）の際には、構造調整手段４５
が、各ノード間の結合順序を変更することによって、二
分木３１の構造を調整する。

【０２３７】この構造調整には、データ処理で参照され
るルートから各ノードに至るパスの長さを平均化するも
のと、複数の操作（追加・削除・検索等からなる）で参
照される各ノードからルートまでのパスの長さの総計を
平均化する、すなわち、一操作当たりのパスの長さを一
定値以下に近づけるものとがある。このため、データ処
理で対象とするノードまでのパスの長さが、一操作当た
りでは一定値以下になり、検索や変更などのデータ処理
が効率化される。

【０２３８】なお、この構造調整はノードの削除や追加
あるいは参照（検索）に際して行えばよい。構造調整の
手法は従来から複数存在し、これら従来の手法を含むい
かなる手法を用いてもよいが、用いる構造調整の手法に
対応した手法によって部分区間長の調整を行うべきであ
る。なお、構造調整によって、ルートから各ノードに至
るパスの長さの平均値は、通常、ノードの総数の対数に
比例する。これによって、検索・区間長調整・構造調整
など、各種処理の所要時間が区間の総数の対数にほぼ比
例して平均化される。

【０２３９】以下、再び、本実施形態について説明す
る。

【０２４０】［１−２−１−４．テキストから一部の文
字列を削除する場合］テキストから一部の文字列を削除
する場合は、前記の挿入の場合と逆の手続きを行えばよ
い。

【０２４１】以下、テキスト「ａｂａｂｂａｃａｂ」か
ら、文字列“ｂａ”を削除する場合について説明する。
すなわち、まず、削除する文字列“ｂａ”にその開始位
置が含まれている部分列をキーとする項目（ｂａｃ−５
６７、ａｃａ−６７８）を辞書から削除する。続いて、
削除する文字列“ｂａ”の先頭の文字（位置５の
“ｂ”）を含んでいる部分列（ａｂｂ−３４５、ｂｂａ
−４５６）をキーとする項目を、削除後の部分列（ａｂ
ｃ−３４５、ｂｃａ−４５６）に変更して、辞書に再登
録する。なお、先に辞書から削除した部分列は、この変
更の対象とならないことはいうまでもない。また、テキ
ストデータについては、テキスト「ａｂａｂｂａｃａ
ｂ」から“ｂａ”を削除して、それ以降の部分列（ｃａ
ｂ−７８９）の位置を、ｃａｂ−５６７に調整すればよ
い。この位置調整は、前記区間管理方法により、効率良
く行うことができる。なお、これらの処理は、図１に示
した更新手段１２によって行われる。その結果、テキス
トデータ６及び辞書データ２は以下の様に変更される。

【０２４２】

【表５】次に、図４を参照して、辞書及びテキストのｔｒｅｅ表
現について説明する。すなわち、辞書ｔｒｅｅ側のｎｏ
ｄｅには、キーは直接付与されておらず、テキストｔｒ
ｅｅのｎｏｄｅへのポインタが付与されているだけであ
り、上記の様に、文字列“ｂａ”を削除する前の部分列
（ｂｂａ−４５６、ａｂｂ−３４５）と、削除後の部分
列（ｂｃａ−４５６、ａｂｃ−３４５）とを比較する
と、両者ともテキストｔｒｅｅのｎｏｄｅへのポインタ
は同一である。つまり、辞書ｔｒｅｅのｎｏｄｅからテ
キスト位置（ｎｏｄｅ）へのポインタおよびその逆ポイ
ンタについては、変更しなくてよいことになる。

【０２４３】一方、テキストｔｒｅｅ表現においては、
上記「区間管理方法」に従って、削除すべき２文字
“ｂ”および“ａ”を付した２つのｎｏｄｅをテキスト
ｔｒｅｅから削除して、各文字の位置を表すｎｏｄｅの
部分区間長の調整を行う。

【０２４４】この様に、本実施形態によれば、テキスト
ｔｒｅｅから文字を削除し、この文字列の削除によって
辞書の表において削除されたキーとなる部分列に対応す
るｎｏｄｅを辞書ｔｒｅｅから削除し、この削除された
辞書ｔｒｅｅのｎｏｄｅとテキストｔｒｅｅから削除さ
れた文字のｎｏｄｅとの間に設定されていたポインタを
削除することにより、辞書ｔｒｅｅの表すキーとなる部
分列が自動的に変更されるので、テキスト上の文字の削
除に伴う辞書の更新に要する時間は、従来に比べて大幅
に短縮される。

【０２４５】［１−３．第１実施形態の効果］以上述べ
た様に、第１実施形態によれば、辞書中の項目の検索、
辞書への１つの項目の追加、削除は、それぞれ辞書中の
総項目数の対数に比例する時間で実行することができ
る。また、テキストを表わすｔｒｅｅへの１文字の追
加、削除も同様に、テキストの総文字数（あるいは表現
するｔｒｅｅのｎｏｄｅ数）の対数に比例する時間で実
行することができる。

【０２４６】従って、テキストへの文字列の挿入、削除
に伴って、検索用のデータ構造を調整するのに要する時
間は、◎ （変更する文字列の長さ◎＋キー登録される部分列の長
さ）◎×ｌｏｇ｛総文字数（ｔｒｅｅのｎｏｄｅ数）｝に比例する時間に抑えることができる。

【０２４７】なお、この場合、上式の（変更する文字列
の長さ＋キー登録される部分列の長さ）がそれほど長く
ない一定値で、テキスト全体の長さに依存しないとみな
せるならば、このデータ構造に対する更新操作は、テキ
ストの長さの対数に比例する時間で実行することができ
る。また、上述した様に、検索用データの更新所要時間
を大幅に短縮できる結果、データ処理を高速で行うこと
が可能となり、処理手順も単純化されるという効果が得
られる。

【０２４８】［１−４．第１実施形態の変形例］なお、
本実施形態のデータ処理装置の構成要件の一部により、
以下のデータ検索装置を構成することができる。この変
形例は、請求項１８，請求項２０及び請求項２２に記載
されたデータ検索装置、及び請求項５６に記載されたデ
ータ検索方法に対応するものである。すなわち、キー列
による検索対象となるコード列について、その後方の部
分である後方列の検索に用いることができる前方列をア
ルファベット順に並べ、また、前記前方列とその前方列
の前記コード列中における位置とを対として表す辞書デ
ータを生成する辞書データ生成手段と、前記辞書データ
に基づいて、二分木である辞書ｔｒｅｅを生成する辞書
ｔｒｅｅ生成手段と、前記コード列に基づいてテキスト
データを生成するテキストデータ生成手段と、前記辞書
ｔｒｅｅに基づいて、キー列の全部又は一部を前方列と
する後方列を検索する検索手段とから、データ検索装置
を構成することができる。

【０２４９】この様な構成を有するデータ検索装置によ
れば、簡易な構成によって、検索対象となるパターンの
テキスト上での出現位置をもれなく、また、重複なく求
めることができる。

【０２５０】また、上記データ検索装置の変形例とし
て、上記構成要件に加えて、前記テキストデータに基づ
いて、二分木であるテキストｔｒｅｅを生成するテキス
トｔｒｅｅ生成手段を備え、前記辞書ｔｒｅｅ及びテキ
ストｔｒｅｅに基づいて、キー列の全部又は一部を前方
列とする後方列を検索するように構成することもでき
る。

【０２５１】この様な構成を有するデータ検索装置によ
れば、テキストの変更を伴う場合でも、検索対象となる
パターンのテキスト上での出現位置をもれなく、また、
重複なく求めることができる。

【０２５２】［２．第２実施形態］第２実施形態の目的
は、辞書及びテキストに格納される文字列を削減するこ
とにより、記憶領域を縮小したデータ処理装置を提供す
ることにある。なお、本実施形態は、請求項９，請求項
１１乃至請求項１４に記載の発明に対応するものであ
る。

【０２５３】［２−１．第２実施形態の構成］本実施形
態においては、図１に示した辞書ｔｒｅｅ生成手段５及
びテキストｔｒｅｅ生成手段９によって、辞書ｔｒｅｅ
４及びテキストｔｒｅｅ８の構成を簡略化して、記憶領
域の縮小化を図っている。

【０２５４】すなわち、本実施形態においては、検索す
る可能性のある前方列である部分列のみを辞書に登録
し、検索する可能性のない部分列を辞書から省いてい
る。この様に構成することにより、辞書を小さくするこ
とができる。例えば、テキスト「ａｂａｂｃａｂ」にお
いて、ｂで始まる文字列を検索する必要がないことが分
かっていれば、表２に示した辞書データの内、“ｂ”で
始まる３つの部分列“ｂ”“ｂａｂ”“ｂｃａ”を辞書
に登録せず、“ａ”と“ｃ”で始まる４つの項目“ａ
ｂ”“ａｂａ”“ａｂｃ”“ｃａｂ”だけを辞書に登録
すれば十分である。すなわち、辞書及びテキストは以下
のようになる。

【０２５５】

【表６】［２−２．第２実施形態の作用及び効果］上記の様な構
成を有する第２実施形態は、次の様な作用を有する。

【０２５６】［２−２−１．テキスト内容の辞書上での
保持］本実施形態においては、テキストの各文字を保持
するテキスト上の位置要素と辞書項目の間には、相互に
参照できるようにポインタが張られているから、文字を
テキストｔｒｅｅ（のｎｏｄｅ）上で保持するか、辞書
ｔｒｅｅ（のｎｏｄｅ）上で保持するかは、実施の際に
選択できる。例えば、第１実施形態で示した図２の例で
は、文字はテキストｔｒｅｅ上に保持されている。

【０２５７】また、図２２に示した様に、文字（列）を
辞書項目に対応するｎｏｄｅに保持するようにしてもよ
い。なお、図２２は、上述した様に“ｂ”で始まる部分
列の辞書への登録を省略した場合を示している。また、
ここでは、テキストｔｒｅｅにおいても、辞書に登録さ
れていない部分列の開始位置に対応するｎｏｄｅは省略
し、直前の開始位置に併合して長さを２以上の区間とし
てある。

【０２５８】［２−２−２．テキストの復元］本実施形
態のデータ処理装置において、ある位置から始まるテキ
ストを復元する場合には、テキストｔｒｅｅと辞書ｔｒ
ｅｅを交互に使用する。なお、このテキストの復元は、
図１に示した検索手段１０によって行われる。例えば、
図２２において、位置４以降のテキストを復元するに
は、上記「区間管理方法」に示した方法で、位置４に対
応するテキストｔｒｅｅのｎｏｄｅを検索し、Ｘのｎｏ
ｄｅを得る。この場合、位置４は、ｎｏｄｅＸが表わす
区間［３、４］の２つ目の位置である。一方、ｎｏｄｅ
Ｘのポインタを辞書ｔｒｅｅへ辿ると、“ａｂｃ”を保
持したｎｏｄｅへ達する。その結果、位置３を開始位置
とする文字列“ａｂｃ”（この文字列は、辞書に登録さ
れている）の２文字目“ｂ”が、位置４にある文字であ
ることが分かる。

【０２５９】次に、位置５にある文字を得る方法につい
て説明する。この方法としては、次に挙げる２つの方法
がある。すなわち、◎ （１）位置４の文字“ｂ”は、辞書項目“ａｂｃ”の２
文字目の“ｂ”であったから、それに続く文字“ｃ”が
位置５の文字である。（２）上述した様に、位置４はｎｏｄｅＸが表わす区間
［３、４］の右端（後端）であるから、それに続く区間
（［５、５］）に対応するｎｏｄｅＹから始まる部分列
の先頭の文字が位置５の文字である。この場合も、上述
した様に、ｎｏｄｅＹのポインタを辞書ｔｒｅｅへ辿る
と、“ｃａｂ”を保持したｎｏｄｅへ達する。その結
果、辞書項目“ｃａｂ”の先頭の文字である“ｃ”が位
置５の文字であることが分かる。

【０２６０】さらに、位置６の文字を得る方法について
説明する。まず、上記（１）の方法では、位置５が既に
辞書項目の終端に対応しているので、再び、上記「区間
管理方法」に示した方法で、位置６に対応するテキスト
位置を表現するｔｒｅｅのｎｏｄｅを検索してｎｏｄｅ
Ｚを得る。そして、それが表わす区間［６、７］にある
文字列の先頭の文字が位置６の文字である。この場合
も、上述した様に、ｎｏｄｅＺのポインタを辞書を表わ
すｔｒｅｅへ辿ると、“ａｂ”を保持したｎｏｄｅへ達
する。その結果、辞書項目“ａｂ”の先頭の文字である
“ａ”が位置６の文字であることが分かる。一方、上記
（２）の方法では、ｎｏｄｅＹは位置５のみからなる区
間に対応しているので、次の区間に対応するｎｏｄｅＺ
を同様に検索する。なお、上記（１）（２）の方法を適
宜混合して使用することもできる。

【０２６１】ところで、（２）の方法をとるとすれば、
「テキストの復元」という機能に関しては、辞書ｔｒｅ
ｅの各ｎｏｄｅに格納される文字列は、図２３に示した
様に、対応するテキスト位置のｎｏｄｅが表わす区間の
長さだけあればよい。なぜなら、辞書項目（キー）とし
て登録される部分列は、もともとテキストの一部である
から、テキストの復元ができればキーの復元も同様にで
きるので、辞書ｔｒｅｅの各ｎｏｄｅにキーを全部格納
する必要はなく、前記テキストの復元に必要な長さだけ
格納すればよいからである。その結果、辞書ｔｒｅｅの
各ｎｏｄｅにおいて、文字列を格納するスペースを大幅
に節約することができる。

【０２６２】また、図２３において、辞書ｔｒｅｅの各
ｎｏｄｅに格納をされている文字列のうち“ａｂ”は共
通している。そこで、共通する文字列については、図２
４に示した様に、１カ所（あるいは、より少数のｎｏｄ
ｅ）にのみ格納し、他のｎｏｄｅからは、テキストｔｒ
ｅｅのｎｏｄｅを経由して、その文字列を得るようにす
ることにより、さらにスペースを節約することもでき
る。

【０２６３】なお、この場合、問題となるのは、テキス
トの復元はできるものの、テキスト位置を表わすｎｏｄ
ｅから、その位置（区間）の文字列を前方列とする辞書
項目の部分列（キー）を表わす辞書のｎｏｄｅへのポイ
ンタ（図２４中、点線で示す）が失われるし、また、そ
れを保持するために余分な領域が必要になることであ
る。

【０２６４】しかし、この問題は、辞書が部分列のアル
ファベット順にソートされていること、およびテキスト
位置を与えれば、その位置から始まるキーとなる部分列
は（長さが得られるものとして）復元することができる
ことを利用すれば、辞書のキーを少し拡張することで、
上記ポインタと同じ機能を果たすことができる。

【０２６５】なお、上記キーを拡張する方法は、これま
での説明で辞書の各ｎｏｄｅに付与してきたキーとなる
部分列の末尾に、そのｎｏｄｅが対応するテキストｔｒ
ｅｅ中のｎｏｄｅへのポインタ値を追加し、これをキー
とするものである。すなわち、辞書を部分列のアルファ
ベット順にソーティングしておくことにより、テキスト
位置を表わすｎｏｄｅを与えれば、そこから始まるキー
となる部分列を復元し、末尾にそのｎｏｄｅのアドレス
（そのｎｏｄｅへのポインタ値）を追加したものをキー
として辞書を検索することにより、図２４中、点線で示
されるｎｏｄｅを確定することができる。なお、この拡
張は、辞書ｔｒｅｅへの検索・追加に使用するキーの一
対比較を行う手続きのみの変更で実現でき、ｎｏｄｅの
構成等の変更は必要としない。

【０２６６】この様な辞書の部分をわかりやすく図示す
ると図２５のようになる。すなわち、検索の対象である
部分列“ａｂｃ”に、その先頭の位置要素のアドレス
（ポインタ値）を追加したもの（つまり、“ａｂｃ
３”）で辞書を検索すれば、図中“＊ａｂｃ”の項目を
見出すことができる。

【０２６７】しかしながら、上述の方法にも、まだ改善
の余地がある。すなわち、この方法では、図２４に示し
た様に、辞書ｔｒｅｅが文字列を格納しているｎｏｄｅ
と、文字列を含まないｎｏｄｅの２種類から成ってい
る。そこで、図２６に示した様に、これらを一種類のｎ
ｏｄｅとし、かつ文字列を“陽”に含まない形にする
（つまり、文字列を格納するスペースをすべて取り去
る）ことができる。換言すれば、図２６において、辞書
ｔｒｅｅのｎｏｄｅはすべて３つのスペースで構成さ
れ、文字列“ａｂ”“ｃ”はそのｎｏｄｅ上には格納さ
れていない。

【０２６８】なお、この場合、辞書を構成するｎｏｄｅ
のアドレスは任意に選ぶことができ、一方、格納される
文字列はそれぞれユニーク（唯一）な（もしくは、同一
のものがあっても、適当にまとめたために少数となって
いる）はずだから、文字列を格納すべきｎｏｄｅのアド
レスを、その格納すべき文字列を表わす（あるいは、な
んらかの形でアドレスに含む）ように選ぶことができ
る。

【０２６９】その結果、図２６に示した様に、辞書ｔｒ
ｅｅの（一部の）ｎｏｄｅでは、アドレスの一部として
“暗”に文字列（“ａｂ”“ｃ”）を格納することがで
きるばかりでなく、テキストｔｒｅｅのｎｏｄｅにおい
ては、辞書ｔｒｅｅのｎｏｄｅへのポインタ（の一部）
として、“陽”に文字列（“ａｂ”“ａｂ”“ｃ”“ａ
ｂ”）を格納することができるという効果も得られる。
従って、テキストの復元において、上述した様に、いち
いち辞書ｔｒｅｅのｎｏｄｅの内容を参照することな
く、テキストｔｒｅｅのｎｏｄｅへのポインタ値のみか
ら文字列を得ることができるという、きわめて効率的な
処理が可能になる。

【０２７０】なお、図２６において、（ａｂ）（ｃ）
は、それぞれ“ａｂ”及び“ｃ”をコードとする（ある
いは、コードとして含む）アドレスまたはポインタであ
る。また、アドレスは、そのｎｏｄｅが実際置かれた主
記憶上の番地でも良いし、ｎｏｄｅを配列で表現した場
合のインデックスの値でもよい。

【０２７１】［２−２−３．辞書とテキストの一体化］
ところで、辞書ｔｒｅｅのｎｏｄｅとテキストｔｒｅｅ
のｎｏｄｅは、図２３において両方向の矢印で示される
ように、１対１に対応づけられている。但し、テキスト
位置のｔｒｅｅ中に、検索する必要がない部分、例え
ば、空白の続く部分等、辞書に登録されない部分列を表
わすｎｏｄｅが含まれることもあり、この場合は、１対
１の対応関係は成り立たない。しかし、少なくとも辞書
に登録された部分列については、テキスト位置との対応
は１対１となっている。

【０２７２】この点に着目すれば、図２７に示した様
に、辞書とテキストを一体に構成することが考えられ
る。すなわち、上述した様に、わざわざポインタによっ
て両者を参照せずに、はじめからこれら２種類のｎｏｄ
ｅを一体のものとして扱うことによってポインタを省略
することにより、記憶領域を節約することができる。

【０２７３】すなわち、図２７において、上段は辞書を
示し、下段はテキストを示している。また、図２７は、
図２３に示した辞書ｔｒｅｅのｎｏｄｅとテキストｔｒ
ｅｅのｎｏｄｅを一体に構成したものである。例えば、
図２３において、辞書ｔｒｅｅのルートである“ａｂ”
を格納したｎｏｄｅは、ポインタによって、テキストｔ
ｒｅｅの最も左側のｎｏｄｅと対応関係が付けられてい
るが、図２７においては、上下に一体に構成されてい
る。

【０２７４】なお、この形式においても、図２６に示し
た様に、文字列の格納をアドレスで代替することは可能
であり、その場合の構成は図２８のようになる。すなわ
ち、図２６において、辞書ｔｒｅｅのルートである“ａ
ｂ”を“暗”に格納したｎｏｄｅは、ポインタによっ
て、テキストｔｒｅｅの最も左側のｎｏｄｅと対応関係
が付けられているが、図２８においては、両者は上下に
一体に構成されている。

【０２７５】この様に構成することにより、わざわざポ
インタによって両者を参照する必要がなくなり、すべて
のポインタを省略することができるので、記憶領域を大
幅に削減することができる。

【０２７６】なお、上記の例は、文字列をコード化した
アドレスを持つｎｏｄｅがユニーク（唯一）である例だ
が、同一の文字列をコード化したアドレスを複数のｎｏ
ｄｅに持たせることができれば、各ｎｏｄｅが格納すべ
き文字列をそれぞれアドレスに含ませることができる。
すなわち、図２９に示した様に、格納すべき文字列を含
むアドレスを持ったｎｏｄｅを選んで使用することがで
きるので、さらにコンパクトな構成が可能となり、記憶
領域を大幅に削減することができる。

【０２７７】ここで、同一の文字列をアドレスに含むｎ
ｏｄｅを多数用意する方法としては、アドレスの下位ビ
ットを文字列を表わすものとし、下位ビットが同一で、
上位ビットが異なるアドレスのｎｏｄｅは、すべて同一
の文字列をアドレスとして含むものとして扱うという方
法が可能である。あるいは、ハッシング等の手法によっ
て、文字列をアドレスの上位ビットに変換し、上位ビッ
トがそれに一致するアドレスのｎｏｄｅは、当該文字列
をアドレスに含むものとして扱うという方法もある。

【０２７８】［３．第３実施形態］本実施形態は、上記
実施形態と異なり、キーとなる部分列の長さを制限しな
いデータ処理装置またはデータ検索装置に関するもので
ある。なお、本実施形態は、請求項２，請求項４，請求
項６，請求項８及び請求項１０に記載のデータ処理装
置、及び請求項５３に記載のデータ処理方法に対応する
ものである。

【０２７９】ここで、キーとなる部分列の長さを制限し
ないこととした理由について、以下に説明する。すなわ
ち、上記実施形態で説明した様に、テキスト「ａｂａｂ
ｃａｂ」に関して、長さ３以下の任意の部分列を検索す
るための辞書データは表７に示すようなものであった。
なお、辞書（インデクス）とは、キーとなる部分列をア
ルファベット順に並べたものをいい、各キーとなる部分
列にはその開始位置が付与されている。

【０２８０】

【表７】この様にキーとなる部分列の長さを制限する理由は、ま
ず、第１にキーとなる部分列を格納する領域を節約する
ためであり、第２に検索すべき適切な長さにキーとなる
部分列を制限して不要な比較を避けるためである。例え
ば、データ検索に当たって、“ａｂ”２文字の位置（３
カ所）を知れば十分で、“ａｂａ”か“ａｂｃ”の違い
には興味がない場合、キー長を“２”に制限しておけ
ば、インデクス構成時には“ａｂａ”の３文字目の
“ａ”と“ａｂｃ”の３文字目の“ｃ”の比較操作を省
くことができる。

【０２８１】しかし、通常は、一定の決まった長さのパ
ターンしか検索しないということはまずないので、イン
デクスを二分探索するだけですべての検索の要求に応え
ようとすれば、最も長いパターンの長さにキー長を設定
せざるを得ない。その場合、どうしても不要な比較が発
生する。

【０２８２】逆に、最低これだけの長さのパターンは必
ず検索するという長さにキーを制限すると、それより長
いパターンの検索には、インデクスで二分探索を行った
だけでは前方列が一致するテキスト位置が多数得られ、
それらについて後続のテキストがパターンと一致するか
否かをいちいち（あるいは別の手段で）判別しなければ
ならないことになる。例えば、上記の例においてキー長
を“２”に制限すると、前方列であるパターン“ａｂ”
を有するテキスト位置が、（ａｂ，６）（ａｂａ，１）
（ａｂｃ，３）と多数得られてしまうことになり、それ
より長いパターン“ａｂｃ”を検索しようとすると、そ
れらについて後続のテキストがパターンと一致するか否
かを別途判別しなければならない。

【０２８３】この様に、キーとなる部分列の長さを制限
するデータ構造においては、検索すべき最長のパターン
の長さが不明な場合は、どうしてもキー長を越えた場合
の判別の手段を備えねばならず、手続きが複雑になると
いう問題があった。

【０２８４】そこで、本実施形態の目的は、キーとなる
部分列の長さを制限しない場合において、検索用データ
の更新所要時間が短いデータ処理装置を提供することに
ある。また、本実施形態の他の目的は、処理が高速なデ
ータ処理装置を提供することである。また、本実施形態
のさらに他の目的は、処理手順が単純なデータ処理装置
を提供することである。さらに、本実施形態の他の目的
は、任意の長さのキー列を、もれなく、また、重複なく
検索するデータ検索装置を提供することにある。

【０２８５】［３−１．第３実施形態の構成］図３０
は、第３実施形態の構成を示す機能ブロック図である。
すなわち、本実施形態のデータ処理装置は、キー列によ
る検索対象となるコード列１について、その後方の部分
である後方列の検索に用いることができる前方列をアル
ファベット順に並べ、また、その前方列の前記コード列
中における位置（すなわち、前方列の開始位置）とを対
として表す辞書データ２を生成する辞書データ生成手段
３を有する。なお、本実施形態においては、辞書データ
２を構成するキーとなる部分列の長さは限定されない。

【０２８６】さらに、本実施形態のデータ処理装置は、
キー列による検索対象となるコード列１に基づいて、テ
キストデータ６を生成するテキストデータ生成手段７を
有する。なお、本実施形態においては、上記テキストデ
ータ６は、コード列１の各文字に左側から番号を付すこ
とにより構成されている。そして、前記辞書データ生成
手段３によって、辞書データ２に示された前方列の開始
位置とテキストデータ６との間にポインタが設定される
ように構成されている。

【０２８７】また、本実施形態のデータ処理装置は、前
記辞書データ２及びテキストデータ６に基づいて、キー
列の全部又は一部を前方列とする後方列を検索する検索
手段１０を有する。さらに、本実施形態のデータ処理装
置は、前記コード列１を変更する変更手段１１と、前記
変更の内容に基づいて、変更に係る前記コード列の辞書
データ２及びテキストデータ６を更新する更新手段１２
とを有する。

【０２８８】［３−２．第３実施形態の作用及び効果］
上記の様な構成を有する第３実施形態は、次のような作
用を有する。

【０２８９】［３−２−１．辞書データの生成］まず、
本実施形態におけるデータ構造について説明する。本実
施形態においては、辞書データとして、キーとなる部分
列を個別に格納するのではなく、コード列中における各
部分列の開始位置に対応するテキストデータの一部分へ
のポインタを格納しておき、キーとなる部分列はテキス
トの一部を復元することによって得るように構成されて
いる。

【０２９０】また、本実施形態の辞書データにおいて
は、インデクス（辞書）に登録するキーとなる部分列の
長さは特に限定されない。従って、キーとなる部分列の
長さを制限するデータ構造のように、アルファベット順
に配列された前方列を検索し、さらに後続部分列をテキ
スト上でチェックするといった後処理を要せずに、直接
インデクスを検索するだけで、任意の長さの部分列を検
索することができる。

【０２９１】例えば、「ａｂａｂｃａｂ」というコード
列１についての辞書データ２としては、（ａｂａｂｃａ
ｂ，ｂａｂｃａｂ，ａｂｃａｂ，ｂｃａｂ，ｃａｂ，ａ
ｂ，ｂ）の７つの後方列が挙げられ、これらの部分列を
アルファベット順に並べると、以下の様になる。

【０２９２】

【表８】なお、各キーとなる部分列の左側に示した数値は、各部
分列のアルファベット順の順位を示し、また、右側に示
した数値は、各部分列の開始位置へのポインタを示して
いる。すなわち、コード列「ａｂａｂｃａｂ」の各文字
に左側から番号を付け、各部分列の開始位置を示したも
のである。

【０２９３】上述した様にキーとなる部分列の長さを制
限せずに辞書データを構成しても、表７に示した様なキ
ーの長さを“３以下”に制限した辞書データと比較し
て、その使用メモリ量はなんら増加しない。問題となる
のは、最初にテキストからインデクスを構成するとき及
びテキストの部分的変更に伴ってインデクスを更新する
ときの手間（演算時間）に関するものである。すなわ
ち、表面的には、インデクスは、図３１に示した様なキ
ーとなる部分列の大小比較にもとづく二分探索木で構成
されるから、キーが長くなればそれだけ比較に時間がか
かるはずである。

【０２９４】特に、本実施形態においては、キーとなる
部分列として、テキストのすべての後方列（ａｂａｂｃ
ａｂ，ｂａｂｃａｂ，ａｂｃａｂ，ｂｃａｂ，ｃａｂ，
ａｂ，ｂ）が用いられるため、キーの平均長はテキスト
全長の１／２で、テキストの全長に比例して長くなる。
したがって、キーの長さに比例してキーの比較時間が増
加するとすれば、テキストの後方列を全て二分探索木に
登録してインデクスを構成するのに、テキストの長さ
（後方列の数）の少なくとも２乗に比例する時間がかか
ることになってしまう。

【０２９５】しかし、通常、キーの比較は、先頭（左
端）の文字から順に行い、不一致が生じた文字（位置）
で打切るという方法をとる。多くの後方列の相当長い前
方列が一致するようなテキスト、正確に言うと、テキス
トの長さに比例する数の後方列が、テキストの長さに比
例するような長い一致した（共通の）前方列を持つよう
な特殊な冗長なテキストを除けば、キーの比較に使用さ
れる文字の数は、テキストの長さに比例して増加するも
のではない。例えば、表８に示した例においても、イン
デクスを構成する際に比較に供される文字は、各キーに
ついて表９の四角で囲んだ部分に限られる。

【０２９６】

【表９】表９から明らかな様に、四角で囲んだ部分は、従来、キ
ーの長さを“３”に制限した場合のキーとなる部分列に
含まれており（表７参照）、アルファベット順に並べる
という意味において、インデクスの構成に要する時間に
関して両者に差はないといえる。

【０２９７】なお、上記「特殊な冗長なテキスト」と
は、例えば「ａｂａｂａｂ」の様に、ある後方列（ａｂ
ａｂａｂ）の前方列（ａｂａｂ）が、そのまま別の後方
列（ａｂａｂ）となるようなテキストである。この場合
には、キーとなる部分列の大部分の文字が比較に用いら
れることになる。

【０２９８】この様に、キーとなる部分列の長さを制限
しないことにより、後続部分列をテキスト上でチェック
するといった後処理を要せずに、直接インデクスを検索
するだけで、任意の長さの部分列を検索することができ
る。

【０２９９】［３−２−２．インデクスの構成手順］イ
ンデクスに登録する部分列の長さを制限しない、つま
り、前方列を検索する可能性のある後方列をすべて登録
する場合、短い後方列から順に登録していく、つまり、
テキストを一旦全部読み込んでから、各後方列を順次登
録することによってインデクスを構成していくのは自明
なやり方といえる。なぜなら、キーとなる後方列はすべ
て、テキストの終端が読み込まれなければ確定せず、確
定しないうちに登録すれば、後で再登録が生じて効率が
悪くなるおそれがあるからである。

【０３００】［３−２−３．テキストの変更に伴う調整
手順］本実施形態のデータ構造においては、インデクス
上のキーとなる部分列は、テキストの一部を参照して構
成されるので、テキストの末尾に１文字追加すれば、そ
れはそのまま各キーの末尾へのその文字の追加として反
映される。問題は、キーの延長によってインデクス中の
順序が変化するものを再登録する必要が生じることであ
る。

【０３０１】すなわち、テキストの末尾に文字を追加す
るのであるから、すべての後方列が延長される（変化す
る）ことになり、原理的には、すべての後方列を登録し
直さなければならなくなるおそれがある。しかし、通
常、各後方列のうち、比較に供される前方列の部分は、
後方列の末尾には達していない。

【０３０２】例えば、コード列「ａｂａｂｃａｂ」の場
合、後方列全体を比較することによってそのインデクス
上での位置（順位）が定まっているのは、“ｂ”及び
“ａｂ”の２つの後方列にすぎない。すなわち、表１０
に示した様に、テキストの末尾に１文字（※）追加した
場合、その文字のいかんによってインデクス上での位置
（順位）が変わるのは、“ｂ”及び“ａｂ”の２つの後
方列のみである。例えば、追加された文字（※）が
“ｂ”とすると、“ａｂ”は“ａｂｂ”となり、インデ
クスにおける位置は“ａｂａｂｃａｂｂ”の次に移動し
なければならない。また、“ｂ”は“ｂｂ”となり、イ
ンデクスにおける位置は“ｂａｂｃａｂｂ”の次に移動
しなければならない。

【０３０３】

【表１０】一方、後方列の末尾まで比較することを要しないでその
順位が定まっているもの、例えば“ａｂｃａｂ”に関し
ては、その末尾にどういう文字が追加されても、前後の
キーとの大小関係が変わるわけではない。従って、これ
らのキーとなる部分列については、新たに位置（順位）
を決めるために再登録する必要はない。このような後方
列のうち最短のもの、上記の例でいうと“ｃａｂ”より
も長い後方列はすべて、末尾までの比較を要せず、再登
録の必要がない。

【０３０４】その理由を以下に説明する。すなわち、再
登録を要しない後方列のうち最短のもの、例えば、上記
の例でいうと“ｃａｂ”よりも長い後方列“Ｘｃａｂ”
において、末尾までの比較が必要であると仮定すると、
“Ｘｃａｂ”を前方列とするより長い後方列“Ｘｃａｂ
Ｙ”が存在することになる。ここで、“Ｘｃａｂ”も
“ＸｃａｂＹ”も共に後方列であるから、両方から先頭
の部分列“Ｘ”を除いた“ｃａｂ”も“ｃａｂＹ”も共
に後方列である。しかし、“ｃａｂ”についてみると、
“ｃａｂ”全体を前方列とする別の後方列“ｃａｂＹ”
が存在するのだから、末尾までの比較が必要ということ
になり、前記「“ｃａｂ”は末尾までの比較を要しな
い」という前提に反することになる。この様な矛盾が生
じたのは、“ｃａｂ”より長い後方列“Ｘｃａｂ”にお
いて、末尾までの比較が必要であると仮定したことが原
因なので、その様な“Ｘｃａｂ”の存在は論理的に否定
される。

【０３０５】従って、テキストの末尾に１文字追加した
場合のインデクスへのキーとなる部分列の登録または再
登録は、追加した文字１文字から成る後方列を新たに登
録した後、短い後方列から順に、末尾に当該文字を追加
したことにより、インデクス中において前後のキーの大
小関係が追加前と変化するか否かをチェックし、変化す
る場合には再登録を実行する。また、同様に各後方列に
ついてチェックし、インデクス中における前後のキーの
大小関係が追加前と変化する限り再登録を実行する。そ
して、変化しない場合が出てきたら、そこで再登録をや
め、それ以上長い後方列についてはチェックしなくてよ
い。上述した様に、この様な後方列については、順位が
変化しないことが保証されているからである。

【０３０６】なお、インデクス中における前後のキーの
大小関係（順位）が追加前と変化するか否かのチェック
には、延長した後方列がインデクス上で従来直前に位置
したキーより大きく、かつ直後に位置したキーより小さ
い（これが成立すれば変化しない）かどうかを確認する
方法や、延長した後方列をインデクスに追加しようとし
たとき、延長前の後方列の直後にくる（このときは変化
しない）かどうかをみる方法がある。

【０３０７】例えば、表１１に示した様に、テキスト
「ａｂａｂｃａｂ」の末尾に“ｄ”を追加した場合、表
１０においてアルファベット順位が“１”であった“ａ
ｂ”は“ａｂｄ”となり、そのアルファベット順位は
“３”となる。また、アルファベット順位が“４”であ
った“ｂ”は“ｂｄ”となり、そのアルファベット順位
は“６”となる。さらに、新たに追加されたテキストの
末尾の文字である“ｄ”は、当然登録する必要がある。
一方、それら以外のキーとなる部分列については再登録
は不要であり、そのインデクス上における相対的な位置
関係は、表１０と変化していない。すなわち、表１１に
おいて、「開始位置」の欄に“＊”を付した部分列につ
いては、それらの間の相対的な順位は表１０の順位と比
較して変化していない。

【０３０８】

【表１１】次に、テキストの途中を変更した場合について説明す
る。この場合のインデクスの処理も上記と同様に考える
ことができる。すなわち、テキストの途中の位置に変更
（例えば、文字変更・挿入・削除）を加えた場合、その
位置より後から始まる後方列（変更位置を含まない後方
列）をキーとする辞書データは変化しないので、再登録
の必要はない。したがって、変更位置を含む後方列のう
ち、（上述の末尾に追加した場合と同様に）短いものか
ら順に、キーの比較が変更位置を含んで行なわれるか否
かをチェックし、含んでいる場合には再登録を行う。そ
して、一旦含まれない後方列に達したら、そこで（それ
については再登録をしないで）再登録を打ち切る。

【０３０９】なお、この操作は、テキストの末尾への文
字の追加の場合も含めて、文字変更・挿入・削除の際に
共通の手続きとして実行することができる。また、それ
ぞれの場合に、上述の「変更位置」に該当するのは図３
２の各位置である。さらに、テキストの末尾に所定の文
字を追加する場合は、末尾には常に空文字（ｎｕｌｌ）
があって、その空文字と末尾の文字の間に該所定の文字
を挿入するとして、挿入の１つの場合として扱うことが
できる。

【０３１０】［３−３．テキストの併用］本実施形態に
おいても、上記第２実施形態と同様に、テキストを併用
することによって記憶領域を節約することができる。ま
た、テキストはコード列を重複なく記憶する（コード列
と同じコード数を記憶する）ように実現することができ
るので、インデクスを生成（更新）する時にも、部分列
を登録（記憶）する手間が少なくて済むという利点があ
る。さらに、テキストを併用することで、開始位置を与
えてコード列を復元する機能が効率的に実現される上
に、コード列の変更に対応するインデクスの更新が効率
化されるという効果がある。

【０３１１】すなわち、テキストを併用した場合、コー
ド列と同数のコードを記憶する次の様な構成が可能であ
る。

【０３１２】

【表１２】ここで、辞書の部分列の四角で囲んだ部分（先頭文字以
外）は、テキスト上で復元できるので、実際に（個別
に）保持する必要はない。また、上述した様にインデク
スとテキストはコードと位置の対の集まりとしては同じ
もので、単に並べ方を変えただけなので、実現に当たっ
ては、コードは１通り保持するだけで済ますことができ
る。

【０３１３】［３−４．第３実施形態の変形例］なお、
本実施形態は、図３０に示したブロック図に限られず、
図１に示した様なｔｒｅｅ構造を有する辞書ｔｒｅｅ及
びテキストｔｒｅｅにも適用できることはいうまでもな
い。

【０３１４】また、本実施形態のデータ処理装置の構成
要件の一部により、以下のデータ検索装置を構成するこ
とができる。なお、本変形例は、請求項１９及び請求項
２１に記載のデータ検索装置、及び請求項５７に記載の
データ検索方法に対応するものである。すなわち、キー
列による検索対象となるコード列について、その後方の
部分である後方列の検索に用いることができる前方列を
アルファベット順に並べ、また、前記前方列とその前方
列の前記コード列中における位置とを対として表す辞書
データを生成する辞書データ生成手段と、前記コード列
に基づいてテキストデータを生成するテキストデータ生
成手段と、前記辞書データに基づいて、キー列の全部又
は一部を前方列とする後方列を検索する検索手段とか
ら、データ検索装置を構成することができる。

【０３１５】この様な構成を有するデータ検索装置によ
れば、簡易な構成によって、検索対象となるパターンの
テキスト上での出現位置をもれなく、また、重複なく求
めることができる。

【０３１６】［４．第４実施形態］第４実施形態の目的
は、変更箇所をとりまとめることにより、調整作業の効
率化を図ったデータ処理装置を提供することにある。な
お、本実施形態は、請求項１５及び請求項５１に記載の
データ処理装置、及び請求項５４に記載のデータ処理方
法に対応するものである。

【０３１７】［４−１．第４実施形態の構成］本実施形
態においては、図３３に示した様に、辞書データ２の更
新手段１２の前段に、変更箇所をとりまとめる調整範囲
設定手段２０が設けられている。その他の構成は第３実
施形態と同様である。

【０３１８】［４−２．第４実施形態の作用及び効果］
上記の様な構成を有する第４実施形態は、次の様な作用
を有する。すなわち、上述した様なテキストの変更操作
が近接した位置に複数加えられる場合、同一の位置要素
から始まる後方列が、変更の都度再登録されるという事
態が生じる。例えば、最も典型的には末尾に１文字では
なくて複数文字を追加するとか、ある範囲で１文字おき
に削除するとかといった場合が考えられる。また、削除
した位置の近くに続けて挿入を行う等、異種の操作が混
合することも生じる。

【０３１９】この様な場合、本実施形態においては、図
３４に示した様に、調整範囲設定手段２０により、複数
の変更操作が加えられた範囲を調整範囲とし、この範囲
を含む後方列について、短いものから順に再登録すべき
か否かをチェックしていく。再登録する必要のない後方
列がでてきたら、その先頭位置がまだ調整範囲の中にあ
れば、その（先頭位置の）直前の変更位置の右端（末
尾）から始まる後方列からチェックを再開する。なお、
再登録の方法は、上記第３実施形態に示した方法と同様
である。

【０３２０】この様に本実施形態によれば、所定の範囲
の調整作業をまとめて行うことにより、インデクスへの
後方列の再登録の回数を減らすことができる。

【０３２１】［５．第５実施形態］第５実施形態の目的
は、テキスト中における所定のパターンの出現回数の計
数の効率化を図ったデータ処理装置を提供することにあ
る。なお、本実施形態は、請求項１６，請求項１７，請
求項３８，請求項３９及び請求項４０に記載のデータ処
理装置、また、請求項５５，請求項６５，請求項７４，
請求項７５及び請求項７６に記載のデータ処理方法に対
応するものである。

【０３２２】［５−１．第５実施形態の構成］本実施形
態においては、図３５に示した様に、辞書データ生成手
段３の後段に、インデクスにアルファベット順に登録さ
れた各辞書データに先頭から１、２、３、…の順位を付
与する順位付加手段３０が設けられている。また、検索
手段１０には、前方列が一致する辞書データの先頭のも
のと末尾のものの順位から、前方列が一致するキーとな
る部分列の数を計数する計数手段が設けられている。な
お、テキストが変更された結果、辞書データが変更さ
れ、そのアルファベット順位が変わる場合は、更新手段
１２が順位付加手段３０を介して、辞書データのアルフ
ァベット順位を更新する。その他の構成は第３実施形態
と同様である。

【０３２３】［５−２．第５実施形態の作用及び効果］
上記の様な構成を有する第５実施形態は、次の様な作用
を有する。テキスト「ａｂａｂｃａｂ」において、パタ
ーン“ａｂ”の出現位置をすべて求めるには、インデク
スにおいてキーとなる部分列の前方列が“ａｂ”である
ような項目を検索し、その部分列のテキスト上での開始
位置へのポインタをたどり、それがテキストの先頭から
何文字目であるかを調べればよい。

【０３２４】ところで、テキスト上での出現位置までは
必要ないが、テキスト中のパターンの出現回数が知りた
いという場合、従来のインデクスの構成では、該パター
ンを前方列とするような項目を、インデクスの先頭から
順次検索し、その出現回数をいちいち数えあげていかな
ければならなかった。従って、その検索時間は該パター
ンの出現回数に依存していた。

【０３２５】しかしながら、本実施形態のデータ処理装
置においては、表１３に示した様に、インデクスに登録
される各辞書データをアルファベット順に配列し、順位
付加手段３０を介して、その各項目に先頭から１、２、
３、…の順位を付与している。

【０３２６】

【表１３】これにより、所定のパターンの出現回数は、そのパター
ンを前方列とする項目であって、最もキーの順位が大き
い項目の順位から、最もキーの順位が小さい項目の順位
を減じたものに１を加えることによって求められる。す
なわち、表１３の例においては、パターン“ａｂ”の出
現回数は、（３−１＋１＝３回）と求められる。なお、
この計数操作は、検索手段１０に設けられた計数手段に
よって行われる。

【０３２７】この様に、本実施形態のデータ処理装置に
よれば、１つのパターンの出現回数を得るためには、イ
ンデクス中の２つの項目の順位を調べるだけで済み、そ
の検索時間は出現回数に依存しないようにすることがで
きる。

【０３２８】［５−３．第５実施形態の変形例］前記順
位付加手段３０よって、アルファベット順位が付与され
た辞書データとテキストデータとは１対１に対応してい
るので、ポインタを省略して次の様に表すことができ
る。なぜなら、ポインタは１対１対応を実現する１つの
形態（手段）に過ぎないからである。

【０３２９】

【表１４】つまり、キーとなる部分列と開始位置の対からなる１種
類の情報を、キーとなる部分列のアルファベット順に並
べ、部分列（パターン）で検索する、あるいはアルファ
ベット順に列挙（アクセス）していくという使い方がイ
ンデクスで、開始位置の順に並べ、その位置で検索（ア
クセス）するという使い方がテキストであるといえる。

【０３３０】［６．第６実施形態］本実施形態は、コー
ド列を与えてインデクスを検索する場合、または、イン
デクスに後方列を登録する場合に必要となるコード列の
比較の効率化を図ったデータ処理装置に関するものであ
る。なお、本実施形態は、請求項２３乃至請求項３１に
記載のデータ処理装置、及び請求項５８及び請求項６６
乃至請求項７３に記載のデータ処理方法に対応するもの
である。

【０３３１】［６−１．第６実施形態の構成］図３６
は、第６実施形態の構成を示す機能ブロック図である。
すなわち、本実施形態のデータ処理装置は、キー列によ
る検索対象となるコード列１について、その後方の部分
である後方列の検索に用いることができる前方列をアル
ファベット順に並べ、また、その前方列の前記コード列
中における位置（すなわち、前方列の開始位置）とを対
として表す辞書データ２を生成する辞書データ生成手段
３を有する。

【０３３２】また、本実施形態のデータ処理装置は、前
記辞書データ２に基づいて、コード列をキーとして二分
探索を行なう際に、既に行なった比較が何文字目まで一
致したかに基づいて、次の比較を何文字目から行なうか
を決定する検索手段１０を有する。さらに、本実施形態
のデータ処理装置は、２つのコード列の比較を行なう際
に、両方のコード列から一致する前方列を除いた後方列
がともに前記辞書データ２中に存在する場合、それらの
後方列の位置の比較結果を、前記２つのコード列の比較
結果とする比較手段１３を有する。また、本実施形態の
データ処理装置は、コード列の一部を変更した場合に、
変更後のコード列を再登録する必要があるか否かを判定
する再登録判定手段１４を有する。さらに、本実施形態
のデータ処理装置は、１文字違いの２つの後方列のう
ち、一方がすでにインデクスに登録されている場合に、
他方の後方列の登録位置を、１文字の比較に基づいて決
定して登録する登録手段１５を有する。また、本実施形
態は、前記コード列１を変更する変更手段１１と、前記
変更の内容に基づいて、変更に係る前記コード列の辞書
データ２を更新する更新手段１２とを有する。

【０３３３】［６−２．第６実施形態の作用及び効果］
上記の様な構成を有する第６実施形態は、次の様な作用
を有する。［６−２−１．インデクス検索時のキー（コード列）比
較の効率化］ここでは、一般にコード列を与えてインデ
クスを検索する場合に、その比較の効率化を図る方法に
ついて説明する。なお、後方列をキーとしてインデクス
上の後方列を検索する場合の効率化については、次項
［６−２−２．後方列の比較の効率化］で説明する。

【０３３４】従来、インデクス項目（またはテキスト項
目）中のキーとなる部分列（後方列の前方列）同士の比
較、あるいは、キーとなる部分列（後方列の前方列）と
（パターンとして与えた）単なるコード列との比較は、
次の方法で行なわれている。

【０３３５】すなわち、第１のコード列（後方列の前方
列）と第２のコード列（後方列の前方列、または単なる
コード列）とを、先頭のコードから順次比較し、最初に
一致しなくなったコードの比較結果をコード列の比較結
果とする（第１のコード列＞第２のコード列、または、
第１のコード列＜第２のコード列）。

【０３３６】また、第２のコード列も後方列の前方列で
あった場合、一方が他方の前方列に一致したら、短い方
が（前方列になった方が）長い方より小さいものとす
る。さらに、第２のコード列が単なるコード列の場合に
は、第１のコード列が第２のコード列の真の前方列に一
致した場合は、第１のコード列＜第２のコード列とし、
第２のコード列が第１のコード列の前方列に一致した場
合は、第１のコード列＝第２のコード列とする。

【０３３７】なお、第２のコード列が後方列の前方列で
あるか、単なるコード列であるかの別による上記の扱い
の違いは、元の（インデクス及びテキストに変換され
た）コード列の末尾に、どのコードよりも小さいコード
（アルファベット）を付加した後に、後方列の前方列
（インデクス項目、テキスト項目に含まれる）を生成す
ることによって、第２のコード列が単なるコード列の場
合と同一の手続きで扱うことができる。

【０３３８】この様に、コード列を与えてインデクスを
検索する場合に問題となるのは、インデクス上には、前
方列が一致する（すなわち、共通の前方列を有する）後
方列が多数存在するため、二分探索でコード列と後方列
を次々に比較していく際に、毎回先頭の文字から逐次比
較を行なう方法では、既に一致することが明らかな共通
の前方列の部分についても比較を繰り返すことになると
いう点である。

【０３３９】一般に、アルファベット順にソートされた
後方列を二分探索で検索する際には、まず、いずれか１
つの後方列（通常は、中央に位置する後方列）との比較
を行なった結果、キーであるコード列の存在すべき位置
が、その後方列よりも前か後かが決定される。なお、一
致した場合はその後方列の位置が検索の結果となる。

【０３４０】この様に、二分探索は、コード列が存在す
べき位置を含む範囲内にある１つの後方列とそのコード
列を比較することにより、そのコード列が存在すべき位
置を含む範囲を次々に狭めていく。なお、この範囲の上
限と下限（両方共、該範囲には含まれない）は、インデ
クスの始め（先頭の後方列の前）と終り（末尾の後方列
の後）か、あるいは上述の様に比較を実行した後方列で
ある。

【０３４１】ここで、すでにインデクスに登録されてい
る後方列はアルファベット順にソートされているので、
上記範囲の上限と下限が長さｋの共通の前方列を持つと
すれば、その間に存在するすべての後方列は、同じ長さ
ｋの前方列を有している。この共通の前方列の最長のも
のは、検索対象であるコード列と上限および下限の後方
列との比較を行なった際に一致した前方列のうちの短い
方として得ることができる。二分探索を続けて行なうた
めに、この範囲内の後方列と検索対象であるコード列と
を比較する時、この共通の前方列の比較を省略して、そ
の直後のコードから比較を行なっても、先頭から比較し
た場合と同じ結果が得られる。

【０３４２】＊具体的な検索手順＊本実施形態に用いら
れる検索手段において、検索対象であるコード列を与え
てインデクスを検索する具体的な検索手順は次のように
なる。（１）上限←インデクスの始め、◎ 下限←インデクスの終り、◎ 上限一致前方列長←０、◎ 下限一致前方列長←０とする。（２）上限より下で、下限より上にある後方列を１つ選
び“ｓ”とする。また、上限一致前方列長と下限一致前
方列長のうち短い方を“ｋ”とする。さらに、“ｓ”の
ｋ＋１文字以降とコード列のｋ＋１文字以降を比較する
と同時に、それらが比較開始位置から何文字一致したか
を調べて、それを“ｊ”とする。比較の結果、◎
（“ｓ”のｋ＋１文字以降）◎＜（コード列のｋ＋１文
字以降）ならば、◎上限←ｓ、上限一致前方列長←ｋ＋
ｊとする。（“ｓ”のｋ＋１文字以降）◎＞（コード列
のｋ＋１文字以降）ならば、◎下限←ｓ、下限一致前方
列長←ｋ＋ｊとする。（３）比較の結果が一致する（コード列全体が後方列の
前方列になっている場合も含む）か、範囲が後方列を含
まなくなる（すなわち、上限と下限が接する）まで上記
（２）を繰り返す。そして、一致した場合は、ｋ＋ｊが
コード列の全長を表わし、一致しなかった場合、すなわ
ち範囲が空になって検索が終了した場合は、上限の後方
列と下限の後方列の間が、そのコード列の占めるべき位
置である。また、上限、下限のうち一致前方列長が長い
方が、インデクス中でコード列と最も長く前方列が一致
する後方列となる。当然、その一致前方列長が両者の前
方列が一致する長さを表わしている。

【０３４３】＊具体例＊以下、さらに具体例を用いて、
上記検索がどのように実行されるかについて説明する。
なお、以下の具体例においては、コード列“ｂａｃ”の
検索を行うものとする。

【０３４４】

【表１５】すなわち、表１５において、上記「具体的な検索手順」
の（１）に示した様に、インデクスの始めを上限、イン
デクスの終りを下限とし、上限一致前方列長を０、下限
一致前方列長を０とする。次に、「具体的な検索手順」
の（２）に示した様に、上限より下で、下限より上にあ
る後方列（ここでは、中央の“ｂ”）を１つ選び“ｓ”
とする。そして、上限一致前方列長と下限一致前方列長
のうち短い方を“ｋ”とする（ここでは、両方とも
“０”）。続いて、“ｓ”のｋ＋１文字以降（すなわ
ち、１文字以降）とコード列のｋ＋１文字以降（すなわ
ち、１文字以降）を比較し、それらが先頭から何文字一
致したかを調べて、それを“ｊ”とする（ここでは、一
致したのは“ｂ”だけなので、ｊ＝１となる）。その結
果、（“ｂ”の１文字以降）＜（コード列の１文字以
降）なので、上限を“ｂ”、上限一致前方列長を（０＋
１＝１）とする。

【０３４５】

【表１６】続いて、表１６において、上限を“ｂ”に移し、上限一
致前方列長を１にする。なお、下限はインデクスの終り
に位置したままであり、下限一致前方列長は０のままで
ある。次に、上限より下で、下限より上にある後方列
（ここでは、中央の“ｂｃａｂ”）を１つ選び“ｓ”と
する。そして、上限一致前方列長と下限一致前方列長の
うち短い方を“ｋ”とする（ここでは、ｋ＝０）。次
に、“ｓ”のｋ＋１文字以降（すなわち、１文字以降）
とコード列のｋ＋１文字以降（すなわち、１文字以降）
を比較し、それらが先頭から何文字一致したかを調べ
て、それを“ｊ”とする（ここでは、一致したのは
“ｂ”だけなので、ｊ＝１となる）。その結果、（“ｂ
ｃａｂ”の１文字以降）＞（コード列の１文字以降）な
ので、下限を“ｂｃａｂ”、下限一致前方列長を（０＋
１＝１）とする。

【０３４６】

【表１７】続いて、表１７において、下限を“ｂｃａｂ”に移し、
下限一致前方列長を１にする。次に、上限より下で、下
限より上にある後方列（ここでは、中央の“ｂａｂｃａ
ｂ”）を１つ選び“ｓ”とする。そして、上限一致前方
列長と下限一致前方列長のうち短い方を“ｋ”とする
（ここでは、両方とも“１”）。次に、“ｓ”のｋ＋１
文字以降（すなわち、２文字以降）とコード列のｋ＋１
文字以降（すなわち、２文字以降）を比較し、それらが
比較開始位置から何文字一致したかを調べて、それを
“ｊ”とする（ここでは、一致したのは“ａ”だけなの
で、ｊ＝１となる）。その結果、（“ｂａｂｃａｂ”の
２文字以降）＜（コード列の２文字以降）なので、上限
を“ｂａｂｃａｂ”、上限一致前方列長を（１＋１＝
２）とする。

【０３４７】

【表１８】続いて、表１８において、上限を“ｂａｂｃａｂ”に移
し、上限一致前方列長を２にする。すると、範囲は空に
なるので検索は終了し、検索対象たる“ｂａｃ”は、上
限“ｂａｂｃａｂ”と２文字目まで一致し、その直後に
位置すべきことが分かる。

【０３４８】この様に、アルファベット順にソートされ
た後方列について、検索対象たるコード列をキーとして
二分探索する場合、上述した様に、先に比較した後方列
（上限または下限）において一致した前方列について、
その短い方の比較を省略することで、後方列とコード列
との比較を効率化できる。

【０３４９】なお、この方法は、コード列として後方列
を（キーとして）用いる場合にももちろん使用でき、し
かも、その際、後述する［６−２−２．後方列の比較の
効率化］で述べる手順を使用できる。すなわち、２つの
後方列（の前方列）を直接比較する部分にこの方法を組
み入れることで、後方列同士の比較をさらに効率化する
ことができる。また、この方法によれば、検索が終了し
た時、コード列とインデクス中の後方列とが最長何文字
まで前方一致したのかという長さと、最も長く前方一致
した後方列（の１つ）とを、検索結果として同時に得る
ことができる。

【０３５０】［６−２−２．後方列の比較の効率化］イ
ンデクスに後方列を登録しようとする場合等には、イン
デクス上に既に登録されている後方列と当該後方列との
比較が必要になる。この場合、後方列同士を直接比較す
る方法では、両者の前方列が長く一致している場合に
は、比較に時間がかかる。そこで、以下に、その比較の
効率化を図る方法について説明する。

【０３５１】すなわち、本実施形態の比較手段を用い
て、２つの後方列の比較を次の手順で行なえば、前方列
が長く一致するものの間でも、後方列の比較を効率良く
実施することができる。なお、この比較手段には、イン
デクスに登録された２つの後方列の間で、どちらが先
（上）に現われるかを判定する手段が与えられているも
のとする。

【０３５２】＊具体的な比較手順＊インデクス上に既に
登録されている後方列と、比較対象たる後方列との具体
的な比較手順は次のようになる。なお、比較すべき後方
列をｕ，ｖとする。（１）ｘ←ｕ，ｙ←ｖとする。（２）ｘの先頭文字とｙの先頭文字を比較する。もし、
両先頭文字が一致していなければ、それらの比較結果を
ｕとｖの比較結果とする。（３）一方、両先頭文字が一致し、ｘとｙがともにイン
デクスに登録されていた場合には、ｘとｙのインデクス
上の前後関係をｕとｖの比較結果とする。（４）また、両先頭文字は一致するが、ｘとｙのいずれ
か一方でもインデクスに登録されていなければ、ｘ←現
ｘより１文字短い後方列、ｙ←現ｙより１文字短い後方
列として、上記（２）以下の操作を繰り返す。

【０３５３】この方法では、比較すべき後方列ｕ，ｖか
ら、互いに一致する前方列を除いた後方列の対のうち、
両方がインデクスに登録されている最長のもののインデ
クス上の位置を、上記（３）で比較する。しかし、イン
デクス上の位置の比較を、両方がインデクスに登録され
ている対のうちで最長のものに限る必要はない。すなわ
ち、前方列の直接比較と、互いに一致する前方列を除い
た後方列のインデクス上の位置の比較は任意に併用する
ことができる。また、文字の直接比較とインデクス上の
位置の比較のどちらを先に行なうかも任意で、上記の
（２）と（３）の順序を入れ替えてもよい。

【０３５４】［６−２−３．テキストの一部分の変更に
伴うインデクスの更新における後方列の再登録］テキス
トの一部分の変更に伴うインデクスの更新における後方
列の再登録においては、変更部分（変更位置）及び調整
範囲を除く大部分の後方列は、すでにインデクスに登録
されているので、上記（２）によって前方列の一致をそ
れほど長くチェックしなくても、（３）によるインデク
ス上の前後関係によって後方列の大小（比較）を決定で
きる。

【０３５５】＊具体例＊以下、さらに具体例を用いて、
上記比較がどのように進むかについて説明する。ここ
で、コード列“ａｂａｂｃａｂ”について、すでにイン
デクスに各後方列がアルファベット順に登録されている
とする。この場合に、コード列“ａｂａｂｃａｂ”の前
に“ｂ”が追加され、新たに“ｂａｂａｂｃａｂ”の後
方列を登録する必要が生じたと仮定する。

【０３５６】ここで、新たに登録すべき“ｂａｂａｂｃ
ａｂ”と、従来のインデクスにすでに登録されている
“ｂａｂｃａｂ”の前後関係を比較する場合、従来のイ
ンデクスにすでに登録されている“ａｂａｂｃａｂ”と
“ａｂｃａｂ”との前後関係がそのまま適用できる。つ
まり、表１９に示した様に、新たに登録すべき“ｂａｂ
ａｂｃａｂ”と、従来のインデクスにすでに登録されて
いる“ｂａｂｃａｂ”の最左側の“ｂ”を除くと、従来
のインデクスにすでに登録されている“２，ａｂａｂｃ
ａｂ”と“３，ａｂｃａｂ”になるため、新たに登録す
べき“ｂａｂａｂｃａｂ”は、従来のインデクスにすで
に登録されている“５，ｂａｂｃａｂ”の上に位置する
と判断される。

【０３５７】

【表１９】次に、テキストの途中が変更された場合について説明す
る。すなわち、図３７に示した様に、テキスト上に変更
位置と調整区間があり、その中で始まる後方列はインデ
クスには登録されていないとすると、新たな部分列“α
ｗ”を登録しようとしてインデクスを検索した時、
“ｗ”以降について直接の比較を要する後方列は“βｘ
ｙαｗ”のみであり、それもα＝βの場合に限られる。
つまり、α＝βであると、“βｘｙαｗ”は“αｘｙα
ｗ”となり、“αｗ”と比較して、最左側の“α”が一
致するから、“ｗ”以降についても比較が必要となる。

【０３５８】しかし、インデクスを二分探索する場合、
“αｗ”と比較される後方列は、インデクス中の後方列
の数をＮとして平均ｌｏｇＮ個であることが知られてい
るから、“αｗ”と“αｘｙαｗ”が直接比較される確
率（おそれ）は極めて小さい。たとえ“αｗ”と“αｘ
ｙαｗ”を比較する場合であっても、直接の比較は高々
“ｘｙα”の未登録区間について行なうだけで済み、一
致する前方列すべてにわたって比較を行なうことは避け
られる。

【０３５９】この点をさらに改善するために、次のよう
な手順で登録を行なってもよい。すなわち、インデクス
上に登録されている“βｘｙαｗ”と比較する際に“ｘ
ｙαｗ”の部分との比較が必要になるのは、“β”で始
まる後方列である。したがって、図３７に示した未登録
区間内で始まる後方列のうち、“β”以外で始まるもの
を先に登録する。

【０３６０】次に、“β”で始まる後方列の登録を行な
うが、“β”で始まる後方列と“βｘｙαｗ”との前方
列の比較は、両者から一致する部分を除いた後方列がと
もにインデクスに登録されている位置まで行なえばよ
い。すなわち、これらの後方列は、すでにインデクスに
登録されているため、その前後関係は明らかだからであ
る。また、図３７に示した未登録部分でも、“β”以外
で始まる後方列は既に登録されているから、“β”で始
まる後方列と“βｘｙαｗ”が比較される場合が生じて
も、直接、比較を行なう長さは“ｘｙα”の長さより短
縮されることが期待できる。

【０３６１】なお、これらの後方列の登録は、右（後）
のものから順に左（前）のものへと行なうのが効率がよ
い。なぜなら、既に登録した後方列のインデクス上の位
置を利用するチャンスが増すからである。もちろん、左
から行なっても、またどのような順序で行なってもよい
ことはいうまでもない。

【０３６２】さらに、これらのインデクスの登録に際し
ては、後述する［６−２−４．インデクス更新の効率化
（Ａ）（Ｂ）］に述べる手続を併用することができる。
従って、上記の手順に従って“β”以外で始まる後方列
を登録している途上であっても、（Ａ）または（Ｂ）に
よって比較（検索）を要しないで登録できる後方列は、
“β”で始まるものであっても登録して支障ない。

【０３６３】［６−２−４．インデクス更新（追加）の
効率化］インデクスに後方列を追加（登録）する場合、
通常は、登録しようとする後方列をキーとしてインデク
スを検索し、その後方列を挿入すべき位置を決定する。
しかし、既に、インデクス中に、登録したい後方列とそ
の前方列が長く一致する後方列が存在する場合には、そ
れらの後方列と登録したい後方列との比較に多くの時間
がかかる。このような状況は、例えば、テキストの一部
分をコピーして他の位置に追加し、追加した部分（変更
位置）やその左側から始まる後方列をインデクスに登録
（再登録）する場合に発生する。

【０３６４】ここで、１文字違いの２つの後方列のう
ち、一方が既にインデクスに登録されている場合、他方
の登録に際して、長いキーの比較を行なわずに挿入位置
を決定しうる条件を検出する手続について説明する。な
お、この条件が成立する場合は、同時に挿入位置が決定
される。

【０３６５】（Ａ）後方列“ｗ”がインデクスに登録済
のとき、“αｗ”を登録する場合表２０に示した様に、後方列“ｗ”はインデクス中でｘ
とｙの間（ｘ＜ｙ）に登録されているとする。また、
ｘ，ｙそれぞれの１文字長い後方列を“βｘ”“γｙ”
とする。

【０３６６】

【表２０】この様な前提のもとで、次の場合には“αｗ”の登録位
置を１文字の比較に基づいて決定することができる。（１）α＝βのとき◎ αｗはβｘの直後に登録◎ （２）α＝γのとき◎ αｗはγｙの直前に登録◎ （３）βｘの直後がδｓで、β＜α＜δのとき◎ αｗはβｘの直後に登録◎ （４）βｘの直前がεｔで、ε＜α＜βのとき◎ αｗはβｘの直前に登録◎ （５）γｙの直前がξｐで、ξ＜α＜γのとき◎ αｗはγｙの直前に登録◎ （６）γｙの直後がφｑで、γ＜α＜φのとき◎ αｗはγｙの直後に登録◎ 一方、これらの条件に合致しない場合は、“αｗ”をキ
ーとしてインデクスを検索し、挿入位置を決定する。

【０３６７】なお、必ずしも、これらの条件のすべてを
チェックする必要はない。例えば、上記（１）と（２）
のみチェックして、それらの条件に合致しない場合は
“αｗ”をキーとしてインデクスを検索する手続を行な
うようにしても良く、これにより（１）あるいは（２）
に該当する場合については、キーの比較（インデクスの
検索）が省略できるという効果がある。

【０３６８】（Ｂ）後方列“αｗ”がインデクスに登録
済のとき、“ｗ”を登録する場合表２１に示した様に、後方列“αｗ”はインデクス中で
βｘとγｙの間（βｘ＜γｙ）に登録されているとす
る。

【０３６９】

【表２１】この様な前提のもとで、次の場合には“ｗ”の登録位置
を１文字の比較に基づいて決定することができる。（１）ｘ＜ｙでかつｘとｙが隣接して登録されていると
いう条件で、α＝βまたはα＝γならば、ｗはｘとｙの
間に登録◎ 一方、この条件に合致しない場合は、“ｗ”をキーとし
てインデクスを検索し、挿入位置を決定する。

【０３７０】［６−２−５．変更位置の左側でインデク
スの再登録が必要な位置が続く範囲を決定する手続の効
率化］上述した［６−２−４．インデクス更新（追加）
の効率化］と同様の手続で、テキストの変更に伴って、
もとのテキスト上で、インデクスの再登録が必要な位置
（後方列の開始位置）を検出する手続を効率化すること
ができる。なお、この機能は、図３６に示した再登録判
定手段１４によって実現される。また、本項は、請求項
２８及び請求項２９に記載の発明に対応するものであ
る。

【０３７１】すなわち、ある位置から始まる後方列（テ
キスト変更位置を含む）が再登録を要する（おそれがあ
る）か否かは、インデクス上でその後方列の直前および
直後に現れる後方列とその後方列とが、変更位置の直前
まで前方列が一致するか否かで判断できる。しかし、こ
れには、その後方列とインデクス上で直前または直後の
後方列との比較を行なう必要がある。

【０３７２】例えば、図３８に示した様に、長いテキス
トをコピーして、さらにその右端に近い部分を変更する
ような場合、コピーしたものの大部分（変更位置の左側
全部）について、インデクスに再登録する必要が生じ
る。しかし、これをすべて検出するためには、平均して
ほぼ（コピーした部分の長さ）×（コピーした部分の長
さ÷２）文字の比較が必要になってしまう。すなわち、
比較を要する文字数は、コピーした部分（一致する部
分）の長さの２乗に比例するので、一致部分が長くなる
と比較に長時間を要するようになる。

【０３７３】これに対して、次の手順にしたがって、１
文字だけの比較で再登録の必要性を判定する方法を導入
することによって、長く一致する部分の比較を省くこと
が可能となる。すなわち、図３８に示した様に、長いテ
キストをコピーした結果、ｕ＝ｖで“ｖｙ”がインデク
ス上で“ｕｘ”の直前または直後に現れているとき、変
更位置が“ｘ”の位置であるとすると、“ｕ”の範囲内
で始まる後方列はすべて「インデクス再登録が必要にな
るおそれがある」。なぜなら、“ｕ”の範囲内で始まる
後方列はすでにインデクスに登録されているが、“ｘ”
の位置が変更された結果、インデクス中における位置が
変更される場合があるからである。このことが既にわか
っているものとして、その直前の文字“α”“β”を比
較し、α＝βであれば後方列“αｕｘ…”についても
「インデクス再登録が必要になるおそれがある」と判定
できる。なぜなら、この場合、αｕ＝βｖとなるため、
変更位置“ｘ”の文字によって、インデクス中における
位置が変更される場合があるからである。

【０３７４】一方、α≠βの場合は、インデクス上で
“αｕｘ…”の直前および直後の後方列と“αｕｘ…”
を比較して、“ｘ”にまで比較が及ぶ（すなわち、いず
れかの前方列が“αｕ”）か否かをチェックする。そし
て、“ｘ”にまで比較が及べば、“αｕｘ…”について
「インデクス再登録が必要になるおそれがある」と判定
する。また、比較が“ｘ”にまで及ばなければ、“αｕ
ｘ…”については「インデクス再登録が必要になるおそ
れはない」と判定する。これは同時に“αｕｘ…”より
長い（左側から始まる）後方列については、「インデク
ス再登録は必要ない」ことを確定することになる。

【０３７５】なお、前記再登録判定手段は、後方列の前
方列をキーとしてアルファベット順に並べた表におい
て、コード列の一部を変更した場合に、後方列の前方列
が再登録が必要か否かを、変更部分を含む後方列の前方
列について、短い後方列の前方列から順に判定するよう
に構成しても良い。また、前記再登録判定手段は、後方
列の前方列をキーとしてアルファベット順に並べた表に
おいて、コード列の一部を変更した場合に、後方列の前
方列が再登録が必要か否かを、変更部分を含む後方列の
前方列について、開始位置の順に並べて二分法で選択し
つつ判定するように構成しても良い。なお、これらの変
形例は、請求項３０及び請求項３１に記載のデータ処理
装置、及び請求項７２及び請求項７３に記載のデータ処
理方法に対応するものである。

【０３７６】［７．第７実施形態］本実施形態は、上記
各実施形態において「辞書データ」及び「辞書ｔｒｅ
ｅ」を「インデクス」、「テキストデータ」及び「テキ
ストｔｒｅｅ」を「テキスト」として、上位概念で捉え
たものである。すなわち、「辞書データ」及び「辞書ｔ
ｒｅｅ」は「インデクス」のより具体的な実現形態とみ
なし、また、「テキストデータ」及び「テキストｔｒｅ
ｅ」は「テキスト」のより具体的な実現形態とみなすも
のである。なお、本実施形態は、請求項３２乃至請求項
４４、請求項４９乃至請求項５１に記載の発明、また、
請求項５９乃至請求項６４に記載の発明及び請求項７４
乃至請求項７６に記載の発明に対応するものである。

【０３７７】［７−１．第７実施形態の構成］図３９
は、第７実施形態の構成を示す機能ブロック図である。
すなわち、本実施形態のデータ処理装置は、キー列によ
る検索対象となるコード列１について、その後方の部分
である後方列の検索に用いることができる前方列をアル
ファベット順に並べ、また、その前方列の前記コード列
中における位置（すなわち、前方列の開始位置）とを対
として表すインデクス２１を生成するインデクス生成手
段２２を有する。また、前記コード列１に基づいて、テ
キスト２３を生成するテキスト生成手段２４を有する。

【０３７８】さらに、本実施形態のデータ処理装置は、
前記インデクス２１及びテキスト２３に基づいて、キー
列の全部又は一部を前方列とする後方列を検索する検索
手段１０を有する。さらに、本実施形態は、前記コード
列１を変更する変更手段１１と、前記変更の内容に基づ
いて、変更に係る前記コード列のインデクス２１、テキ
スト２３を更新する更新手段１２とを有する。

【０３７９】なお、図３９において、変更手段１１と更
新手段１２の間を結ぶ点線は、変更手段１１がコード列
１に加える変更の内容を更新手段１２に通知して、イン
デクス２１及びテキスト２３の更新を行なわせることを
意味する。また、上記第１乃至第６実施形態において
は、テキストからコード列の復元が可能なので、一旦テ
キストとインデクスが生成されれば、もはやコード列を
保持する必要はなく、変更手段１１は単に更新手段１２
に変更内容を通知するだけの機能でもよい。その際、コ
ード列の部分または全体の復元が必要なら、テキストを
アクセスするコード列復元手段（図示せず）を付加すれ
ばよい。

【０３８０】［７−２．「インデクス」及び「テキス
ト」の機能］ここで、上位概念で捉えた「インデクス」
及び「テキスト」の最も一般的な機能について説明す
る。＊インデクスの構成及び機能＊（１）インデクスの検索に関する機能インデクスの検索に関する機能は次のようにまとめられ
る。（ｘ１）インデクス項目とは、キーとなる部分列（後方
列の前方列）とその開始位置との対である。（ｘ２）インデクスは、上記インデクス項目を、キーと
なる部分列（後方列の前方列）のアルファベット順に並
べたものである。（ｘ３）（ｘ２）の構成から、パターンを与えて、後方
列の前方列が一致する、あるいはパターンの前方列と最
も長く一致するインデクス項目を決定する機能を有す
る。（ｘ４）（ｘ１）の構成から、インデクス項目を与え
て、その後方列の前方列の開始位置を得る機能を有す
る。

【０３８１】以上が「インデクス」の基本機能で、検索
手段は（ｘ３）と（ｘ４）を組み合わせることによっ
て、パターンを与えて、そのパターンと一致する、ある
いはパターンの前方列と最も長く一致するキーとなる部
分列（後方列の前方列）の開始位置を少なくとも１つ得
ることができる。

【０３８２】以下は、そのようなキーとなる部分列（後
方列の前方列）またはその開始位置を列挙するための機
能である。（ｘ５）（ｘ３）に該当するインデクス項目が１つ以上
存在する場合に、その先頭または末尾の項目を決定する
機能を有する。（ｘ６）あるインデクス項目の直後又は直前の項目を決
定する機能を有する。すなわち、（ｘ５）で決定した先
頭から末尾の項目までについて、（ｘ６）によって、あ
るインデクス項目の直後または直前の項目を決定するこ
とによって、それらのインデクス項目をすべて列挙す
る。そして、それらのインデクス項目について、（ｘ
４）により、パターンと一致するか、あるいはパターン
の前方列と最も長く一致する部分列のコード列中におけ
る開始位置を、もれなく且つ重複なく列挙することがで
きる。

【０３８３】さらに、一致部分列の数を効率良く知るた
めに、アルファベット順位を付与する次の構成及び機能
を追加することができる。（ｘ７）インデクス項目には、（ｘ２）の順にもとづ
く、先頭または末尾からの順位（アルファベット順位）
が付与されている。（ｘ８）インデクス項目を与えて、そのアルファベット
順位を得る機能を有する。すなわち、（ｘ５）と（ｘ
８）の機能により、上記第５実施形態に述べた様に、一
致部分列の数を効率良く計算できる。

【０３８４】また、実施形態によっては次の機能まで備
えたものが考えられるが、これは（ｘ６）の機能を含む
ものである。（ｘ９）アルファベット順位を与えて、その順位を付与
されたインデクス項目を決定する機能を有する。すなわ
ち、（ｘ８）と（ｘ９）の機能を組み合わせれば、（ｘ
６）の機能は容易に実現できる。

【０３８５】また、次の機能が必要になる場合もある。（ｘ１０）２つのインデクス項目を与えて、そのうちの
いずれがインデクス上で前／後に現れるかを決定する機
能を有する。これは（ｘ８）によって簡単に実現できる
が、実現方法は必ずしもそれに限られるものではない。

【０３８６】ここで、上記各単位機能のうち、（ｘ３）
と（ｘ５）の実現方法について、さらに詳しく説明す
る。

【０３８７】（１−１）単位機能（ｘ３）の実現方法パターンの前方列ともっとも長く前方列が一致するイン
デクス項目（後方列）の決定方法は、請求項２４に記載
した方法のほかに、次に述べるような方法も考えられ
る。（ａ）まず、パターンの最初（先頭）の１文字でインデ
クスを二分探索し、インデクス項目の先頭の１文字が一
致するものを探す。（ｂ）先頭の１文字が一致するものが見つかったら、２
文字目を追加して二分探索を続ける。この際、上記
（ａ）の終了時の探索範囲の上限、下限をそのまま引き
継いで行う。なお、最初に（ａ）で見つかった先頭の１
文字が一致するインデクス項目についても、２文字目の
比較を行う。

【０３８８】この様にして、パターンと先頭のｎ文字が
一致するインデクス項目を見いだしたら、それを最長一
致前方列を含むインデクス項目の候補として記憶し、検
索キーを先頭からｎ＋１文字に延ばして、二分探索を継
続する。パターンと先頭のｎ＋１文字が一致するインデ
クス項目がなければ、そこで探索は終了し、先に見いだ
されたｎ文字が一致するインデクス項目が最長一致前方
列を含む項目となる。一方、パターンと先頭のｎ＋１文
字が一致するインデクス項目があれば、それを最長一致
前方列を含むインデクス項目の新たな候補とし、検索キ
ーをさらにｎ＋２文字に延ばす。この方法の利点は、検
索の手続を複雑にすることなく、効率的に検索できる点
にある。

【０３８９】以下、図４０を参照して上記単位機能（ｘ
３）の実現方法について説明する。

【０３９０】すなわち、図４０においてパターン「ｂａ
ｃ」を検索する場合、パターンの最初（先頭）の１文字
（すなわち、“ｂ”）でインデクスを二分探索し、イン
デクス項目の先頭の１文字が一致するものを探すと、ル
ート「ｂ」が該当することが分かる。次に、パターン
「ｂａｃ」はルート「ｂ」より大きいので、右へのパス
をたどり、２文字目を追加して（すなわち、「ｂ
ａ」）、二分探索を続ける。

【０３９１】そして、次のノード「ｂｃａｂ」と「ｂ
ａ」とを比較すると、「ｂａ」のほうが小さいので、左
へのパスをたどると、ノード「ｂａｂｃａｂ」に達す
る。すなわち、パターン「ｂａｃ」と先頭の２文字が一
致するインデクス項目が見いだされたことになり、それ
を最長一致前方列を含むインデクス項目の候補として記
憶し、検索キーを先頭から３文字（すなわち、「ｂａ
ｃ」）に延ばして、二分探索を継続する。次に、パター
ン「ｂａｃ」とノード「ｂａｂｃａｂ」とを比較する
と、「ｂａｃ」のほうが大きいので、右へのパスをたど
ると「ｂａｃ」に達する。

【０３９２】この様に、あるパターンを検索する場合
に、検索キーを１文字ずつ増やしていっても、ルートに
戻る必要はなく、二分探索木を順次、下方向へたどれば
良いので、効率的に検索することができる。

【０３９３】（１−２）単位機能（ｘ５）の実現方法上記（ｘ３）でパターンの前方列ともっとも長く一致す
るインデクス項目を１つ決定した後、その一致部分と同
一の前方列を持つインデクス項目の先頭または末尾の項
目は、（ｘ６）を使用して逐次探索する他に、二分探索
を行っても良い。

【０３９４】以下、二分探索により、末尾のインデクス
項目を決定するために、単位機能（ｘ５）を実現する方
法について説明する。すなわち、図４１（Ａ）に示した
ように、（ｘ３）でパターンの前方列ともっとも長く一
致するインデクス項目を１つ決定した後、その項目と下
限との間で二分探索を行う。そして、その中央の項目が
パターンの前方列と一致している場合には、図４１
（Ｂ）に示したように、一致項目の末尾となるべきマー
クをそこに設定する。一方、一致しなかった場合には、
図４１（Ｃ）に示したように、下限を示すマークをそこ
に移動する。

【０３９５】この様にして、一致項目の末尾となるべき
マークと、下限を示すマークが隣接するまで二分割を繰
り返せば、効率よく末尾のインデクス項目を決定するこ
とができる。なお、先頭となるインデクス項目を決定す
る場合にも、上記と同様に実現することができる。ま
た、インデクスが二分探索木で構成されている場合に
は、これらの手続は、その二分木の構造を利用して容易
に実現することができる。

【０３９６】（２）インデクスの更新に関する機能インデクスの更新に関する機能は次のようにまとめられ
る。（ｘ１１）未登録の後方列の前方列を与えて、その後方
列の前方列を含むインデクス項目が、直前または直後に
挿入されるべきインデクス項目（及び、挿入されるべき
位置がその直前なのか直後なのか）を決定する機能を有
する。（ｘ１２）あるインデクス項目の直前または直後（の指
定した側）に、新たなインデクス項目を挿入する機能を
有する。（ｘ１３）あるインデクス項目をインデクスから削除す
る機能を有する。すなわち、（ｘ１１）及び（ｘ１２）
の機能によって、上記インデクス生成手段２２及び更新
手段１２は、新たなインデクス項目をインデクスの正し
い位置に追加することができる。また、（ｘ１３）の機
能によって、更新手段１２は、変更のために不要になっ
たインデクス項目及び再登録が必要なインデクス項目
を、インデクスから（一旦）削除することができる。な
お、（ｘ１１）において、後方列の前方列は単なるコー
ド列として与えられてもよいし、より効率的には、その
後方列の前方列を含むテキスト項目として与えてもよ
い。この点については後述する。

【０３９７】＊テキストの構成及び機能＊（１）テキストの検索に関する機能テキストの検索及びコード列の復元に関する機能は次の
ようにまとめられる。

【０３９８】（ｔ１）テキスト項目とは、キーとなる部
分列（後方列の前方列）とその開始位置との対である。（ｔ２）テキストは、テキスト項目を開始位置の順に並
べたものである。（ｔ３）（ｔ２）の構成から、コード列上の位置を与え
て、開始位置がそれと一致するテキスト項目を決定する
機能を有する。（ｔ４）（ｔ１）の構成から、テキスト項目を与えて、
その開始位置のキーとなる部分列（後方列の前方列）を
得る機能を有する。

【０３９９】以上が「テキスト」の基本機能で、コード
列の復元は（ｔ３）と（ｔ４）の機能を組み合わせるこ
とによって実現できる。すなわち、まず、復元すべきコ
ード列の開始位置を指定して、（ｔ３）によってテキス
ト項目を決定し、（ｔ４）によってそこから始まる後方
列の前方列を得る。ここで、復元すべきコード列の長さ
がその後方列の前方列の長さ以下であれば、その後方列
の前方列の内、コード列の長さに等しい前方列を採れば
よい。一方、復元すべきコード列の長さが後方列の前方
列の長さより長い場合は、それをコード列の一部分とし
て復元し、次に、開始位置を後方列の前方列の長さだけ
右（後）に移動させて、再び（ｔ３）と（ｔ４）によっ
て後続部分の復元を行なう。この操作を、復元部分の長
さが指定した長さに達するまで繰り返せばよい。

【０４００】また、すべての後方列についてテキスト項
目を生成しない場合は、上記（ｔ３）の代わりに、それ
を含む（拡張された）次の機能（ｔ５）を使用する。（ｔ５）コード列上の位置を与えて、それと一致するか
あるいはその左（前）で最も右（後）の開始位置を含む
（あるいは、その右（後）で最も左（前）の開始位置を
含む）テキスト項目を決定する機能を有する。

【０４０１】また、インデクス項目とテキスト項目は内
容的には同じものであるから、（ｔ１）の構成から（ｘ
４）と同じ次の機能を含めることも容易である。（ｔ７）テキスト項目を与えて、その後方列の前方列の
開始位置を得る機能を有する。

【０４０２】さらに、上記（ｔ３）または（ｔ５）及び
（ｔ７）によって簡単に実現できるが、より単純な機能
として次のものがあると、更新等の際に便利である。（ｔ６）あるテキスト項目の直後または直前の項目を決
定する機能を有する。もちろん、これも実現方法は（ｔ
３）または（ｔ５）、および（ｔ７）によるものに限ら
れるものではない。

【０４０３】（２）テキストの更新に関する機能テキストの更新に関する機能は次のようにまとめられ
る。（ｔ１２）あるテキスト項目の直前または直後（の指定
した側）に、新たなテキスト項目を挿入する機能を有す
る。（ｔ１３）あるテキスト項目をテキストから削除する機
能を有する。すなわち、（ｔ１２）の機能によって、テ
キスト生成手段２４は、入力したコード列から生成した
テキスト項目を、逐次テキスト２３に追加することでテ
キスト２３を生成できる。また、更新手段１２は、コー
ド列１の変更に対応して不要になったテキスト項目を、
（ｔ１３）によってテキスト２３から削除することがで
きる。さらに、更新手段１２は、コード列１への挿入・
追加に対応して、新たなテキスト項目を（ｔ１２）によ
ってテキスト２３に追加することができる。

【０４０４】＊インデクス生成手段、テキスト生成手
段、変更手段の相対性＊◎ここで、インデクス生成手
段、テキスト生成手段、変更手段の相対性について説明
する。すなわち、本実施形態において、インデクス生成
手段２２は、更新手段１２のインデクスに関する機能を
逐次適用することで実現できる。その端的な例は、空な
コード列に対応するインデクス（及びテキスト）がある
とき、その先頭にコード列全体を挿入するという変更に
対応して、更新手段１２がインデクスを更新することに
よって、インデクス生成と同様の効果が実現される。テ
キスト生成手段に関しても同様である。

【０４０５】この場合、変更手段１１は、コード列１が
テキスト（及びインデクス）とは別に保持されている場
合にのみ実質的な意義を持つ。上述した様に、テキスト
のコード列復元機能を用いることによりコード列の保持
を代替できる場合には、コード列を省略することができ
るので、変更手段１１は単に更新手段１２に変更内容を
指示するだけで良く、更新手段１２に含めてしまうとい
う構成も可能である。

【０４０６】一方、独立のインデクス生成手段及びテキ
スト生成手段を備える効果がある場合は、次の様な特殊
な場合に限られる。すなわち、更新手段１２にパラメタ
としてコード列を一括して渡すことが困難であるか、あ
るいは著しく効率が悪い場合、一旦テキスト項目（及び
テキスト）とインデクス項目の生成を行なったうえで、
後方列（の前方列）が短いインデクス項目から順次イン
デクスに追加してインデクスを生成するという方法をと
る。

【０４０７】これは、コード列の末尾（先頭以外）に別
のコード列を追加するような変更に対しては、原則とし
て、すべての後方列が影響を受けるため、更新手段１２
によって、既存のインデクス中のインデクス項目の再登
録（登録のやり直し）が発生して、効率が低下すること
を避けるためである。これに対し、コード列の先頭に別
のコード列を追加する場合には、新たなインデクス項目
の追加だけで既存のインデクス項目の再登録は発生しな
いから、コード列が末尾から順に入力されるのであれ
ば、更新手段を逐次使用してインデクスを生成しても何
ら効率は低下しない。

【０４０８】従って、本発明の実質的な内容は、インデ
クス及びテキストの構成及び機能と、それを用いて実現
される更新手段及び検索手段（及びコード列復元手段）
の手続にあって、インデクス生成手段及びテキスト生成
手段は独立の構成要素として必須ではなく、変更手段も
コード列の別途保持が必要な場合以外は、本発明に含ま
れなくてもよい。

【０４０９】＊検索手段の具体的手順＊◎上記インデク
スの構成及び機能から、それを使用する検索手段の具体
的手順はほぼ自明である。但し、検索すべきパターンの
長さは、インデクス項目に含まれるキーとなる部分列
（後方列の前方列）の長さに制限がある場合は、その長
さ以下であるとする。（ｋ１）パターンを与えて、それと一致する、あるいは
その前方列と最も長く一致する部分列の１つの開始位置
を得る検索手段。（これは同時に、そのような部分列の
有無を判定する手段でもある。）◎ この検索手段は、上記インデクスの機能の（ｘ３）及び
（ｘ４）を組み合わせることによって実現できる。（ｋ２）パターンを与えて、それと一致する、あるいは
その前方列と最も長く一致する部分列の開始位置をすべ
て列挙する検索手段。この検索手段は、上記インデクス
の機能の（ｘ４），（ｘ５）及び（ｘ６）を組み合わせ
ることによって実現できる。（ｋ３）パターンを与えて、それと一致する、あるいは
その前方列と最も長く一致する部分列の（開始位置）の
数を得る検索手段。この検索手段は、上記インデクスの
機能の（ｘ５）及び（ｘ８）を組み合わせて、アルファ
ベット順位の差に１を加えれば効率良く計算できる。あ
るいは、上記インデクスの機能の（ｘ５）及び（ｘ６）
によって、該当するインデクス項目を順次数え上げるこ
とによっても実現できる。

【０４１０】すなわち、これらを整理すると、上記イン
デクスの機能の（ｘ４），（ｘ５）及び（ｘ６）を組み
合わせれば、上記（ｋ１），（ｋ２），（ｋ３）の機能
を一応すべて実現することができる検索手段を構成する
ことができる。なお、特に（ｋ１）の機能を効率化した
い場合には、上記インデクスの機能の（ｘ３）を、ま
た、特に（ｋ３）を効率化したい場合には、上記インデ
クスの機能の（ｘ８）を使用した手順を採用すればよ
い。その理由は、（ｘ５）よりも（ｘ３）のほうが効率
的であり、（ｘ６）による数えあげより（ｘ８）による
アルファベット順位の取得のほうが効率的であるからで
ある。

【０４１１】また、上記（ｋ１），（ｋ２），（ｋ３）
の機能のうちの１つまたは２つの機能しか要求されない
場合は、使用するインデクスの機能及びそれらの使用手
順を上述の範囲に限定して検索手段を構成すればよい。
なお、（ｘ３）及び（ｘ５）で検索を行う際に、インデ
クス項目のキーとなる部分列（後方列の前方列）とパタ
ーンとの比較に、上記［６−２−１．インデクス検索時
のキー比較の効率化］の手法を使うことにより、比較を
効率化することができる。

【０４１２】＊更新手段の具体的手順＊更新手段の構成
と手順は、上記検索手段ほど単純ではない。また、更新
手段は、インデクスとテキストの両方に対して操作を行
うので、インデクス項目とテキスト項目の間の関連につ
いて次のような限定を必要とする。これに対して、上記
検索手段がテキストにアクセスする必要があるか否か
は、実施形態に依存する。（ｐ１）インデクス項目を与えて、それと同じ開始位置
のテキスト項目を得る機能◎ （ｐ２）テキスト項目を与えて、それと同じ開始位置の
インデクス項目を得る機能◎ これら２つの機能は、上記実施形態にみられるように、
インデクス項目とテキスト項目を一体化したり、相互に
ポインタを設定する等、種々の方法で実現できる。ま
た、これらの機能を導入することで、２つの項目に共通
する後方列（の前方列）を構成するコード及び開始位置
を一通りだけ保持すれば済むようにできる。なお、この
点については後述する。

【０４１３】ここで、コード列の変更には種々あるが、
◎ （ｕ）位置Ｐ以降のｎ文字を、文字列ｓ（ｓ₀，ｓ₁，
…ｓ_k-1、長さｋ）で置き換える機能◎ を組み合わせることにより実現できる。したがって、上
記（ｕ）に対応する更新手段が構成できれば、任意のコ
ード列の変更に対応して、それを逐次実行すればよい。
また、第４実施形態に示した様に、それらの実行をまと
めて行うことによって、効率化を図ることもできる。

【０４１４】更新手段は次の３つの手続から構成され
る。（１）再登録インデクス項目の決定インデクス項目のうち、コード列の変更に伴って、その
キーとなる部分列（後方列の前方列）が変化し、その結
果、変更（更新）前に存在したインデクス項目であっ
て、変更（更新）後もインデクス中に存在するものとの
順序が変わるおそれがあるものを決定する。このとき、
それと同時に、該当するインデクス項目を一旦インデク
スから削除しておくかどうかは実施形態に依存する。

【０４１５】この手続は、例えば、テキストの機能の
（ｔ４）及び（ｔ６）によって、位置Ｐより前の位置か
ら始まるキーとなる部分列（後方列の前方列）を含むテ
キスト項目を列挙しながら、（ｐ２）によって得られる
インデクス項目が、インデクスの機能（ｘ６）によって
得られるその前後のインデクス項目と、キーとなる部分
列（後方列の前方列）が、位置Ｐまで一致するか否かを
チェックすることによって実現できる。なお、前記［６
−２−５．再登録が必要な位置が続く範囲を決定する手
続の効率化］で述べた手順を使用してもよい。

【０４１６】（２）テキストの更新更新手段は、コード列の変更に伴うテキスト項目及びテ
キストの更新を行う。すなわち、上記（ｕ）に対応する
ように、テキスト中のテキスト項目のキーとなる部分列
（後方列の前方列）及び開始位置を更新するとともに、
不要になったテキスト項目を削除し、新たに必要なテキ
スト項目を追加する。

【０４１７】具体的には種々の手順が考えられるが、例
えば、次の様に行えばよい。（イ）キーとなる部分列（後方列の前方列）が、位置Ｐ
からＰ＋ｎー１までの文字（位置）をその前方列として
ではなく含んでいるテキスト項目（すなわち、開始位置
がＰー１以前）について、キーとなる部分列（後方列の
前方列）の変更前の位置Ｐから始まる後方列を、位置Ｐ
＋ｎから始まる後方列の前に文字列“ｓ”を連接したコ
ード列の前方列で置き換える。これは、上記（１）と同
様に、テキストの機能の（ｔ４）及び（ｔ６）によっ
て、該当するテキスト項目を列挙しながら行うことがで
きる。なお、テキスト項目が１文字の前方列しか含まな
い場合は、この手順は省略できる。

【０４１８】（ロ）（イ）と同様に、開始位置がＰー１
以前のインデクス項目についても、そのキーとなる部分
列（後方列の前方列）を更新する。これは（イ）を行な
うのに並行して、上記（ｐ２）の機能によって、該当す
るインデクス項目を得て行うことができる。但し、この
処理のみで十分なのは、インデクス項目に含まれるキー
となる部分列（後方列の前方列）と、対応する（すなわ
ち、開始位置が同じ）テキスト項目に含まれる後方列の
前方列とが、同じ長さかあるいは後者の方が長い場合で
ある。

【０４１９】また、実施形態によっては、インデクスを
順序づけるキーとなる部分列（後方列の前方列）の比較
に、テキストを使用したコード列復元手段を用いる場合
がある。この場合には、キーとなる部分列（後方列の前
方列）はインデクス項目には実際には保持されず、（ｐ
１）の機能によって得られる対応するテキスト項目か
ら、テキストを用いてコード列が復元される。したがっ
て、上記（イ）によるテキスト項目（テキスト）の更新
を行えば、自動的に（ロ）を行ったと同じ効果が得られ
る。

【０４２０】（ハ）キーとなる部分列（後方列の前方
列）がＰ以降Ｐ＋ｎー１以前の位置から始まるテキスト
項目について、開始位置がＰ＋ｉの場合、そのキーとな
る部分列（後方列の前方列）を、ｓの後方列ｓ_i，ｓ
_i+1，…ｓ_k-1を位置Ｐ＋ｎから始まる後方列の前に連
接した変更後の後方列の前方列に置き換える。これも、
テキストの機能の（ｔ４）及び（ｔ６）によって、該当
するテキスト項目を列挙しながら行うことができる。な
お、ｎ≠ｋの場合には、以下に説明する（ホ）または
（ヘ）の処理が必要である。

【０４２１】（ニ）（ハ）と同様に、開始位置がＰ以降
Ｐ＋ｎー１以前のインデクス項目について、キーとなる
部分列（後方列の前方列）を変更する。これも、（ハ）
と並行して、上記（ｐ２）の機能によって、該当するイ
ンデクス項目を得て行うことができる。なお、ｎ≠ｋの
場合には、以下に説明する（ト）または（チ）の処理が
必要である。

【０４２２】（ホ）ｎ＞ｋの場合開始位置がＰ＋ｋ以降Ｐ＋ｎー１以前のテキスト項目を
テキストから削除し、開始位置がＰ＋ｎ以降のすべての
テキスト項目の開始位置をｎーｋだけ減じる。なお、削
除すべきテキスト項目は、上記テキストの機能の（ｔ
３）及び（ｔ６）によって得られる。また、テキスト項
目の削除は、上記テキストの機能の（ｔ１３）によっ
て、効率的に行うことができる。さらに、開始位置の更
新は、テキスト項目の開始位置による順序を、前記区間
管理方法を使って更新することによって効率的に行うこ
とができる。

【０４２３】（ヘ）ｎ＜ｋの場合０≦ｉ＜ｋーｎの各ｉについて、ｓ_n+i，ｓ_n+i+1，…
ｓ_k-1を位置Ｐ＋ｎから始まる後方列の前に連接した変
更後の後方列の前方列と、その開始位置Ｐ＋ｎ＋ｉを対
にして、新たなテキスト項目を作成する。そして、テキ
スト中の開始位置がＰ＋ｎ以降のテキスト項目の開始位
置をｋーｎ増すとともに、上記の新たなテキスト項目を
テキストに追加する。このテキスト項目の追加は、上記
テキストの機能の（ｔ１２）によって順次行うことがで
き、開始位置の更新は、上記（ホ）と同様に、区間管理
方法を使って効率良く行うことができる。

【０４２４】（ト）ｎ＞ｋの場合開始位置がＰ＋ｋ以降Ｐ＋ｎー１以前のインデクス項目
をインデクスから削除し、開始位置がＰ＋ｎ以降のすべ
てのインデクス項目の開始位置をｎーｋだけ減じる。な
お、削除すべきインデクス項目は、上記（ホ）と同様
に、テキストの機能の（ｔ３）及び（ｔ６）で決定した
テキスト項目から（ｐ２）によって得ることができる。

【０４２５】また、開始位置の更新は、開始位置がテキ
スト項目の側で保持されていて、インデクス項目からは
（ｐ１）によってそれを参照している場合には、上記
（ホ）によって既に実現されている。一方、開始位置が
別々に保持されている場合でも、区間管理方法を使用し
て、開始位置の更新を効率的に実現できる。但し、この
場合、テキストと同等の機能をインデクス項目の間でも
持つことになるため、冗長になる。

【０４２６】（チ）ｎ＜ｋの場合０≦ｉ＜ｋーｎの各ｉについて、ｓ_n+i，ｓ_n+i+1，…
ｓ_k-1を位置Ｐ＋ｎから始まる後方列の前に連接した変
更後の後方列の前方列と、その開始位置Ｐ＋ｎ＋ｉを対
にして、新たなインデクス項目を作成する。そして、イ
ンデクス中の開始位置がＰ＋ｎ以降のインデクス項目の
開始位置をｋーｎ増す。開始位置の更新は、上記（ト）
と同様にして行うことができる。

【０４２７】（３）インデクス項目の再登録上記（１）で再登録すべきと決定したインデクス項目及
び上記（２）の（ニ）でキーとなる部分列（後方列の前
方列）を更新したインデクス項目、及び（２）の（チ）
で新たに作成したインデクス項目をインデクスに（再）
登録する。

【０４２８】なお、（２）の（ロ）でキーとなる部分列
（後方列の前方列）を更新したインデクス項目のうち、
再登録が必要なものは（１）で既に決定されている。ま
た、再登録に先立つインデクス項目の削除は、上記イン
デクスの機能の（ｘ１３）によって行なわれ、インデク
ス項目の登録は、上記インデクスの機能の（ｘ１１）及
び（ｘ１２）によって行なうことができる。

【０４２９】さらに、この登録を効率的に行うために、
開始位置が後ろのインデクス項目から順次登録し、その
際に上記［６−２−４．インデクス更新の効率化
（Ａ）］の方法を併用することができる。あるいは、開
始位置が前のインデクス項目から順次登録し、その際に
上記［６−２−４．インデクス更新の効率化（Ｂ）］の
方法を併用することができる。

【０４３０】また、上記インデクスの機能の（ｘ１１）
を使って、登録すべき位置を決定するためにインデクス
上を検索する際に、インデクス項目のキーとなる部分列
（後方列の前方列）間の比較に、上記［６−２−２．後
方列の比較の効率化］又は［６−２−１．インデクス検
索時のキー比較の効率化］を使って（もちろん、両方を
同時に併用してもよい）、比較の効率を上げることがで
きる。但し、この場合、上記［６−２−２．後方列の比
較の効率化］には次の機能が必要である。（ｘ１４）インデクス項目を与えて、それがインデクス
に登録されているか否かを判定する機能以上の３つの手続きの分類、順序は、上記の一通りに限
られるものではない。例えば、テキストに関する上記
（２）の（イ）（ハ）（ホ）（ヘ）を１つにまとめ、イ
ンデクスに関する上記（１），（２）の（ロ）（ニ）
（ト）（チ）及び（３）を１つにまとめて実行してもよ
い。また、上記（１）は（２）の（ロ）と同時に行って
もよい。

【０４３１】なお、インデクス項目にアルファベット順
位が付与されている場合、すなわちインデクスの機能の
（ｘ７），（ｘ８），（ｘ９）の構成と機能を備えた場
合も、インデクスの更新機能（ｘ１２），（ｘ１３）が
それらの構成、機能を維持、保全するように更新を行な
う限り、上述の更新手段の手順には何ら影響しない。

【０４３２】ここで、上記（２）に関して補足すると、
（ハ）及び（ニ）で、既存のテキスト（インデクス）項
目の更新を行なうのに、「開始位置がＰ＋ｎーｉの場合
（ｉ≧１）、ｓの後方列ｓ_k-i…ｓ_k-1を、位置Ｐ＋ｎ
から始まる後方列の前に連接した変更後の後方列の前方
列に置き換える」としてもよい。要するに、既存のｎ個
のテキスト（インデクス）項目のうち、ｋ個（ｋ＞ｎの
ときはｎ個）を選んで更新後も再利用すればよく、テキ
ストの更新の手間を考慮すれば、それらのテキスト上で
の順序が更新前後で変わらないほうがよいというにすぎ
ない。これに関しては、一旦ｎ個のテキスト（インデク
ス）項目をすべて削除してから、新たにｋ個の項目を作
成して登録するという手順も可能で、それらの間には種
々の変形例が考えられる。

【０４３３】この様に、本実施形態のデータ処理装置に
よれば、インデクスの機能の（ｘ１）〜（ｘ１４）、テ
キストの機能の（ｔ１）〜（ｔ１３）及び（ｐ１），
（ｐ２）の単位機能を前提にした検索手段、更新手段
を、上記の様に構成することができる。

【０４３４】［７−３．第７実施形態の変形例］なお、
本実施形態は上述したものに限られず、検索手段にも機
能が３通り（さらにはその組み合わせ）考えられたよう
に、（ａ）単位機能の選択とその組み合わせ使用の方
法、（ｂ）上記種々の「効率化」手法を併用するか否
か、（ｃ）インデクスとテキストの具体的構成に依存す
る単位機能の実現方法の違いによって、無数の実現形態
が可能である。

【０４３５】また、インデクス生成手段とインデクス及
び検索手段のみで実施する（テキストを生成せず、更新
手段も用いない）ことも可能であるし、インデクス生成
手段、テキスト生成手段によってインデクスとテキスト
の両方を生成し使用するが、検索手段のみを備えて、更
新には応じない形態でも実施できる。

【０４３６】すなわち、検索手段とインデクス生成手段
とを備えたデータ検索装置、また、検索手段と更新手段
とを備えたデータ処理装置、さらに、検索手段，インデ
クス生成手段，変更手段及び更新手段とを備えたデータ
処理装置が考えられる。また、検索機能のみならず、コ
ード列の復元機能を備えた検索手段，インデクス生成手
段及びテキスト生成手段とを備えたデータ検索装置、検
索機能のみならず、コード列の復元機能を備えた検索手
段と更新手段とを備えたデータ処理装置、検索機能のみ
ならず、コード列の復元機能を備えた検索手段，インデ
クス生成手段，テキスト生成手段，変更手段及び更新手
段とを備えたデータ処理装置などが考えられる。

【０４３７】さらに、インデクスに順位を付与し、検索
手段にはその順位に基づいてキー列の全部又は一部を前
方列とする後方列の数を出力する機能を設け、また、イ
ンデクス生成手段が、順位を付与したインデクスを生成
するように構成したデータ検索装置が考えられる。

【０４３８】また、インデクスに順位を付与し、検索手
段にはその順位に基づいてキー列の全部又は一部を前方
列とする後方列の数を出力する機能を設け、また、更新
手段が前記順位の更新も合わせて行なうように構成した
データ処理装置が考えられる。さらに、インデクスに順
位を付与し、検索手段にはその順位に基づいてキー列の
全部又は一部を前方列とする後方列の数を出力する機能
を設け、また、インデクス生成手段には、順位を付与し
たインデクスを生成する機能を設け、さらに、更新手段
が前記順位の更新も合わせて行なうように構成したデー
タ処理装置が考えられる。

【０４３９】また、上記データ検索装置あるいはデータ
処理装置においては、インデクスを構成するキーとなる
部分列の長さが限定されるものであっても、限定されな
いものであっても良い。さらに、上記データ検索装置あ
るいはデータ処理装置を構成するテキストが、コード列
を記憶領域の連続した番地に格納し、番地によって位置
を表現したものであっても良い。また、上記データ検索
装置あるいはデータ処理装置を構成する更新手段は、コ
ード列に対する複数の変更に対応する更新をとりまとめ
て処理するものであっても良い。

【０４４０】［８．第８実施形態］本実施形態は、図２
に示した辞書データとテキストデータを、さらにノード
を一体化し、アルファベット順位を部分区間長で表現し
たものである。なお、本実施形態は、データ処理装置あ
るいはデータ検索装置の双方に適用することができる。
なお、本実施形態は、請求項４５乃至請求項４８に記載
の発明に対応するものである。

【０４４１】すなわち、図４２に示した様に、図の左半
分の部分によってテキストを表現する二分木が構成され
ている。また、各ノードには、コード列中の各位置の１
文字が格納されている。これは、その位置から始まる後
方列の先頭の１文字でもある。

【０４４２】上述した様に、区間管理方法によれば、位
置を指定してその位置に対応するノードを決定でき、ま
た、任意のノードからそのノードの位置の直前および直
後のノードは決定できるので、位置を指定して、その位
置から始まる後方列の前方列を上記テキストを実現する
二分木を用いて効率的に復元できる。また、区間管理方
法によって、任意のノードからそのノードが表す区間、
すなわち、そのノードに対応する後方列の前方列の開始
位置を得ることもできる。

【０４４３】したがって、図４２の左半分の部分によっ
て表現されるテキスト二分木は、表２２に示した様な、
キーとなる部分列（後方列の前方列）と開始位置の対を
開始位置の順に並べた表と同じ機能を有し、位置を与え
て、その位置とキーとなる部分列（後方列の前方列）の
対を検索する機能を果たし得る。

【０４４４】

【表２２】一方、図４２の右半分の部分によってインデクスを表現
する二分木が構成されている。そして、図４２の右半分
の部分と、上述のコード列の復元機能を用いることによ
って、表２３に示した様な、キーとなる部分列（後方列
の前方列）をアルファベット順に並べて、アルファベッ
ト順位を付与した表と同じ機能を有し、コード列を与え
て、そのコード列と前方列が最も長く一致する後方列を
検索する機能、及び、検索した後方列が表中で何番目に
位置するかを決定する機能を果たし得る。さらに、区間
管理方法を用いれば、アルファベット順位を与えて、表
中でその順位にある後方列を決定するという機能も果た
すことができる。

【０４４５】

【表２３】各後方列の開始位置は、上述した様に左半分の二分木の
部分区間長から決定できるので、図４２の構造は全体と
して、キーとなる部分列及びそのアルファベット順位と
その開始位置から成るレコードを、２つの異なるキー、
すなわち、１つは開始位置の順、もう１つは後方列のア
ルファベット順（及び、アルファベット順位の順）にし
たがって並べた２つの表として機能し、表２４に示した
様に、同一のレコードに２つの異なる方法でアクセスす
ることができる。

【０４４６】

【表２４】この様に、本実施形態では、インデクスを実現する二分
木のノードとテキストを実現する二分木のノードを一体
化しているので、１つのノードがインデクス項目及びテ
キスト項目の両方の役割を果たす。すなわち、表２４に
おいて、同一内容のレコード（行）には１つのノードが
対応している。

【０４４７】また、本実施形態のデータ構造によれば、
従来技術である二分（探索）木に関する操作、及び区間
管理方法を適用することによって、上記インデクスの機
能の（ｘ１）〜（ｘ１３）、テキストの機能の（ｔ１）
〜（ｔ７），（ｔ１２），（ｔ１３），及び（ｐ１），
（ｐ２）の単位機能は容易に実現できる。したがって、
それらを前提にした検索手段、更新手段は、すべてこの
データ構造を使用して実現することができる。

【０４４８】［９．第９実施形態］本実施形態は、上記
インデクス及びテキストの諸機能（ｘ１）〜（ｘ１
４）、（ｔ１）〜（ｔ７）、（ｔ１２）、（ｔ１３）、
（ｐ１）、（ｐ２）を同時に提供しうる、インデクス及
びテキストの具体的構成を示したものである。

【０４４９】すなわち、本実施形態においては、［第８
実施形態］において示した図４２の構成において、［第
７実施形態］において示したインデクス及びテキストの
機能群が実現可能であることを具体的に説明する。

【０４５０】［９−１．テキストの検索に関する機能］
図４２に示したデータ構造において、各ノードのコード
及びそれより左のフィールドがテキストの機能を実現す
るのに使用される。すなわち、これらのポインタ、部分
区間長及びコードから成る構造は、（ａ）二分探索木を
成し、（ｂ）ノードの順（ＬＣＲ＝Left-Center-Right
順）は、コードのテキスト中における位置の順で、
（ｃ）各ノード（コード）には、そのコードの位置に対
応する長さ１の区間が、部分区間長と区間管理方法を用
いて付与されている。言い換えれば、第３実施形態［３
−３、テキストの併用］において示した表１２を、二分
探索木と区間管理方法によってさらに具体化したもので
ある。

【０４５１】以下、順次、上記各機能について説明す
る。まず、（ｔ１）に示した「テキスト項目」は１つの
ノードとして実現されており、キーとなる部分列は直接
的にはノードに格納されたコードのみから成る１文字の
部分列であるが、前記第７実施形態の「＊テキストの構
成及び機能＊（１）テキストの検索に関する機能」の項
で説明したように、任意の長さに拡張することができ
る。また、開始位置については、区間管理方法によっ
て、そのノードが表す固有の区間の左端が、コード列の
先端から何文字目であるかに対応づけられている。従っ
て、この構成は、テキスト項目たるノードを、その開始
位置のＬＣＲ順として並べたものであり、（ｔ２）を実
現している。

【０４５２】また、（ｔ３）については、区間管理方法
の検索機能を使って、コード列上の位置、すなわち先頭
からの文字数を与えて、その位置を含む区間を表わすノ
ードを決定すれば、そのノードが、指定した位置から始
まる後方列の前方列を含むテキスト項目に対応する。

【０４５３】さらに、各ノードにはそのノードが表わす
長さ１の固有の区間に位置する１文字のコードが格納さ
れているから、開始位置を初めとしてその後続の位置を
順次与えて（ｔ３）によって検索し、得られたノードに
格納されたコードを連接することによって、任意の後方
列の任意の長さの前方列（すなわち、テキストの任意の
位置から始まる任意の長さの部分列）を復元することが
できる。これにより、（ｔ４）の機能及び（ｔ１）の構
成を実現することができる。逆に、区間管理方法を用い
て、各ノードからそれが表わす区間、すなわち、そのノ
ードに対応するテキスト項目の開始位置を得ることがで
きるので、（ｔ７）も実現される。また、二分探索木に
おいては、（ｔ６）は、ＬＣＲ順序で隣になるノードを
決定する機能で実現することができる。

【０４５４】以下、最も単純な手続の例として、指定ノ
ードの直前のノード（＝左隣のノード）を決定する手順
について、図４３を参照して説明する。すなわち、図４
３に示したフローチャートにおいて、指定ノードをカレ
ントノードとし（ステップ４３１）、そのカレントノー
ドに左の子がある場合は（ステップ４３２）、左の子を
隣ノードとする（ステップ４３３）。そして、この隣ノ
ードに右の子があるか否かを検索し（ステップ４３
４）、この隣ノードに右の子がある場合には、右の子を
隣ノードとし（ステップ４３５）、さらに、その隣ノー
ドに右の子があるか否かを検索する（ステップ４３
４）。そして、隣ノードに右の子がある限りはステップ
４３４とステップ４３５を繰り返し、隣ノードに右の子
がないときは、その隣ノードが指定ノードの直前のノー
ド（すなわち、指定ノードの左隣のノード）となる。

【０４５５】一方、ステップ４３２において、カレント
ノードに左の子がない場合には、カレントノードが右の
子か否かを検索し（ステップ４３６）、カレントノード
が右の子である場合は、カレントノードの親ノードを隣
ノードとする（ステップ４３７）。すなわち、カレント
ノードの親ノードが、指定ノードの直前のノード（すな
わち、指定ノードの左隣のノード）となる。また、ステ
ップ４３６において、カレントノードが右の子でない場
合は、カレントノードがルートか否かを検索し（ステッ
プ４３８）、カレントノードがルートの場合は、指定ノ
ードの左隣のノードは存在しないと決定される。一方、
カレントノードがルートでない場合は、カレントノード
の親ノードをカレントノードとし（ステップ４３９）、
再びステップ４３６に戻る。

【０４５６】また、ｓｐｌａｙｉｎｇを使用した次の
ような方法もある。なお、ｓｐｌａｙｉｎｇとは、任
意の特定のノード（対象ノード）がルートとなるように
二分木を変更することである（参考文献：Data Structu
res and Network Algorithms, Robert Endre Tarjan
著、"4.3 Self-Adjusting binary trees" (pp53-56)
）。

【０４５７】すなわち、図４４に示したフローチャート
において、指定ノードにｓｐｌａｙｉｎｇを適用するこ
とによって、指定ノードをルートの位置に移動する（ス
テップ４４１）。指定ノードをカレントノードとし（ス
テップ４４２）、そのカレントノードに左の子がある場
合は（ステップ４４３）、左の子を隣ノードとする（ス
テップ４４４）。そして、この隣ノードに右の子がある
か否かを検索し（ステップ４４５）、この隣ノードに右
の子がある場合には、右の子を隣ノードとし（ステップ
４４６）、さらに、その隣ノードに右の子があるか否か
を検索する（ステップ４４５）。そして、隣ノードに右
の子がある限りはステップ４４５とステップ４４６を繰
り返し、隣ノードに右の子がないときは、その隣ノード
が指定ノードの直前のノード（すなわち、指定ノードの
左隣のノード）となる。

【０４５８】一方、ステップ４４３において、カレント
ノードに左の子がない場合には、指定ノードの左隣のノ
ードは存在しないと決定される。

【０４５９】あるいは、後述する（ｘ４）の機能によっ
て、指定ノードが表わす後方列の開始位置、すなわち指
定ノードが表す固有の区間の左端（右端）の位置を得
て、それを１減じた（増した）位置に対応するノードを
（ｔ３）によって検索することにより、左隣（右隣）の
ノードを決定することができる。

【０４６０】また、（ｔ５）は、上記第８実施形態にお
いてはその特別な場合（ｔ３）に一致しているが、区間
管理方法の検索機能は長さ１以外の区間が含まれる場合
も何ら変更なく機能するから、第８実施形態と類似の構
成で各ノードが表す区間の長さが１以外のものが含まれ
る場合に、上記（ｔ３）の実現方法を用いて（ｔ５）を
実現することができる。

【０４６１】［９−２．テキストの更新に関する機能］
（ｔ１２）は、挿入すべき新たなノードに、新たなテキ
スト項目の後方列（の前方列）の先頭の１文字を格納
し、新たなノードが表す区間の長さを１として、区間管
理方法のノード（区間）追加手続を使って、指定ノード
の直前または直後に新たなノードを追加することによっ
て実現することができる。この場合、テキスト項目の後
方列（の前方列）はテキストの一部分であるから、図４
２の構成において、ノードとして挿入する必要があるの
はその先端の１文字だけで、２文字目以降は既存のテキ
ストから復元することができる（もちろん、この復元機
能はノード挿入後も変わらない）。なお、この１文字分
のノードの挿入は、元のコード列に対する１文字の挿入
に対応している。

【０４６２】また、（ｔ１３）は、区間管理方法のノー
ド（区間）削除手続を使って実現することができる。す
なわち、テキスト項目（ノード）の削除は、その後方列
（の前方列）の先頭の１文字（ノードに格納された１文
字）を、元のコード列から削除することに対応してい
る。

【０４６３】また、（ｐ１）、（ｐ２）については、図
４２に示したデータ構造においては、同一開始位置の後
方列を含むインデクス項目とテキスト項目とを、１つの
ノードに一体化することによって実現されている。

【０４６４】［９−３．インデクスの検索に関する機
能］インデクスは、図４２のデータ構造全体によって実
現されており、（ｘ１）の「インデクス項目」には１つ
のノードが対応している。また、（ｘ２）の「インデク
ス」は、各ノードの右側のポインタを使用して構成され
る二分探索木によって実現されており、この二分探索木
のノードのＬＣＲ順が、各ノード（インデクス項目）の
後方列（の前方列）の辞書順に一致している。

【０４６５】また、（ｘ３）は以下のようにして実現さ
れる。すなわち、まず、この二分探索木上で、指定パタ
ーンをキーとして、先頭から順に各ノードの後方列（の
前方列）と辞書順の比較を行なう。その際、パターン全
体が前方列になっている後方列がみつかれば、そのイン
デクス項目が求めるインデクス項目の１つである。一
方、パターン全体が前方列になっている後方列がない場
合は、最後に訪れたノードａの後方列Ｓａが、辞書順で
比較した場合にパターンより小さい場合はノードａの直
前の、また、大きい場合はノードａの直後のノードｂが
存在する場合にその後方列Ｓｂと比較する。そして、最
後に訪れたノードａの後方列Ｓａと、ノードａの直前あ
るいは直後の後方列Ｓｂのうち、パターンとより長く一
致する方の後方列を含むインデクス項目（ノード）が求
めるインデクス項目である。一方、ノードｂがなけれ
ば、ノードａのインデクス項目が求めるインデクス項目
である。なお、ノードｂは存在すれば、ノードａを訪れ
るまでの二分探索の過程で必ず訪問されている。

【０４６６】また、（ｘ３）を実現する二分探索の方法
はこれに限らず、第７実施形態に示した「（１−１）単
位機能（ｘ３）の実現方法」、あるいは、第６実施形態
［６−２−１．インデクス検索時のキー（コード列）比
較の効率化］に示した方法等、種々考えられる。

【０４６７】（ｘ４）については、図４２の構造が、前
述のように区間管理方法にもとづいてテキストを表現す
る二分探索木をその左側に含んでいるので、インデクス
項目と一体化したテキスト項目（ノード）を与えて、テ
キストを表現する二分探索木上で、区間管理方法に含ま
れるノードからそのノードが表す区間の位置を算出する
機能によって、そのノードに対応する後方列（の前方
列）の開始位置を得ることができる。これは、すなわ
ち、上述の（ｔ７）の機能の実現に等しい。

【０４６８】また、インデクスの二分探索木とテキスト
の二分探索木は全く同じ方法（構造）で実現されている
ので、（ｘ６）は上述の（ｔ６）と全く同じ方法（手
続）で実現することができる。

【０４６９】さらに、（ｘ５）を効果的に実現する方法
としては、第７実施形態に示した「（１−２）単位機能
（ｘ５）の実現方法」があるが、図４２に示した構成で
は、インデクスは二分探索木で実現されているから、パ
ターンと最も長く一致する前方列をもつ後方列を含む
（インデクス項目を表わす）ノードのうち、最も根に近
いノードを根とする部分木に対してこの方法を適用すれ
ばよい。その際、上限または下限には初期値を与える必
要はなく、不一致のノードがあった場合に設定すればよ
い。

【０４７０】以下、パターンと最も長く一致する前方列
をもつ後方列を含む（インデクス項目を表わす）ノード
のうち、先頭のノード（上限）を求める場合の具体的な
手順について、図４５を参照して説明する。すなわち、
図４５に示したフローチャートにおいて、該当ノードの
うち、最も根に近いノードをいったん先頭ノードとし
（ステップ４５１）、この先頭ノードをカレントノード
とする（ステップ４５２）。そして、カレントノードに
左の子があるか否かを検索し（ステップ４５３）、カレ
ントノードに左の子がない場合には、カレントノードが
先頭ノードと決定される。一方、ステップ４５３におい
て、カレントノードに左の子がある場合には、その左の
子をカレントノードとする（ステップ４５４）。そし
て、カレントノードの後方列の前方列と最長一致パター
ンが一致するか否かを検索し（ステップ４５５）、一致
する場合には、カレントノードを先頭ノードとし（ステ
ップ４５６）、ステップ４５３に戻る。

【０４７１】また、ステップ４５５において、カレント
ノードの後方列の前方列と最長一致パターンが一致しな
い場合には、カレントノードに右の子があるか否かを検
索し（ステップ４５７）、右の子がない場合には、先頭
ノードが上限と決定される。一方、カレントノードに右
の子がある場合には、右の子をカレントノードとし（ス
テップ４５８）、カレントノードの後方列の前方列と最
長一致パターンが一致するか否かを検索し（ステップ４
５９）、一致する場合には、カレントノードを先頭ノー
ドとし（ステップ４６０）、ステップ４５３に戻り、カ
レントノードにさらに左の子があるか否かを検索する。
また、一致しない場合にはステップ４５７に戻り、カレ
ントノードにさらに右の子があるか否かを検索する。

【０４７２】上記（１）において、該当ノードのうち最
も根に近いノードを与えるには、検索機能（ｘ３）を、
第７実施形態に示した「（１−１）単位機能（ｘ３）の
実現方法」に示したように、最も根に近いノードを決定
するように実現すればよい。あるいは、（ｘ３）によっ
て決定されたノード（パターンの前方列と最も長く一致
するインデクス項目を含むノード）から根へのパスを遡
りながら、与えられたパターンの前方列と後方列の前方
列が一致するか否かをチェックし、一致するノードのう
ち最も根に近いノードを求めてもよい。その際、最初に
一致しないノードが出てきたら、そのノードから根まで
のパス上のノードはいずれも一致しないことが保証され
るから、そこで遡行を打切ってよい。さらには、（ｘ
３）によって決定されたノードに対してｓｐｌａｙｉｎ
ｇ操作を適用してそのノードを根に移動してから、それ
を先頭ノードの初期値としてもよい。

【０４７３】また、（ｘ７）、（ｘ８）、（ｘ９）は、
インデクスを実現する二分探索木（図４２の右側の構
造）において、各ノードに辞書順位に対応する長さ１の
区間を対応させた部分区間長フィールドを持たせ、区間
管理方法によってこれらを管理することで実現される。
また、（ｘ８）は（ｘ４）と同様に、インデクス項目を
表わす区間の位置を、区間管理方法によって算出する手
続で実現される。さらに、（ｘ９）については、（ｔ
３）と全く同様の手続で、インデクスを実現する二分探
索木を検索すればよい。

【０４７４】また、（ｘ１０）は、第７実施形態の「＊
インデクスの構成及び機能＊（１）インデクスの検索に
関する機能」の項でも述べたように、２つのノードのそ
れぞれのインデクス項目について、インデクス中での位
置（先頭からの項目数）を（ｘ８）を使って求め、その
大小を比較して判定すればよい。あるいは、根からそれ
ぞれのノードへ至るパスを調べて、最初に異なるポイン
タが現われたとき（分岐したとき）、どちらのパスが左
の子あるいは右の子へのポインタをたどるかで判定して
もよい。

【０４７５】［９−４．インデクスの更新に関する機
能］（ｘ１１）は、（ｘ３）と同様にして、未登録の後
方列の前方列をパターンとしてインデクスの二分探索木
を検索することによって決定することができる。後方列
の前方列の長さに制限がない場合、すなわち、各インデ
クス項目に後方列が含まれている場合、同一の後方列を
重複して登録することはありえないから、二分探索木上
の二分探索は、必ずあるノードからさらに左の子または
右の子に移って探索を継続する。しかし、該当するノー
ドが存在しない場合には、探索を打切ることで終了す
る。このとき、最後に訪れたノードが表わすインデクス
項目と、どちらの子に移ろうとしたか（左の子なら直
前、右の子なら直後）が（ｘ１１）が決定すべき事柄に
なる。

【０４７６】この場合において、インデクス項目の後方
列の前方列の長さが限られている場合には、同一のもの
が見いだされ得るが、その場合には直前、直後のどちら
に追加しても支障は生じない。もちろん、同一のものが
ない場合は、上述した長さに制限がない場合と同じ手続
に従う。

【０４７７】また、（ｘ１２）に関しては、インデクス
項目はテキスト項目と一体化されているので、インデク
ス項目としてインデクスの二分探索木にノードを登録
（追加）する際には、テキスト項目としてテキストの二
分探索木には既に登録されている。したがって、あるイ
ンデクス項目の直前または直後に、新たなインデクス項
目を挿入するには、インデクスの二分木に、区間管理方
法のノード（区間）の追加手続を使って、長さ１の区間
を表わすノードとして追加するだけでよい。

【０４７８】さらに、（ｘ１３）に関しても、区間管理
方法のノード（区間）の削除手続によって、インデクス
の二分探索木からインデクス項目を表わすノードを削除
すればよい。その際、テキスト項目には影響を及ぼす必
要はないので、図４２の左側の構造（コード含む）は変
えなくてよい。

【０４７９】（ｘ１４）に関しては、インデクスの二分
探索木に登録されていないノードのポインタフィールド
（図４２のノードの右側のポインタ）には、ポインタと
区別できる特別な値を設定して区別すればよい。あるい
は、ノードをインデクスとは別の二分木に一旦登録し
て、各ノードが属している二分木（これは、根ノードの
親へのポインタの部分に特別なポインタまたは値を設定
することによって識別できる）を求めて判別することも
可能である。

【０４８０】以上述べたように、図４２に示したデータ
構造を使用して、本発明を構成するインデクス及びテキ
ストの機能（ｘ１）〜（ｘ１４）、（ｔ１）〜（ｔ
６）、（ｔ１２）、（ｔ１３）、（ｐ１）、（ｐ２）を
すべて具体的に実現することができる。なお、実現の方
法については上に述べたものに限られるものではない。
また、前記第７実施形態はこれらの上位概念の機能に基
づいて構成されており、図４２に示したデータ構造を使
用して具体的に実現可能である。

【０４８１】［１０．第１０実施形態］本実施形態は、
上記表２４に示した様なインデクスとテキストを用い
て、上記［６−２−５．変更位置の左側でインデクスの
再登録が必要な位置が続く範囲を決定する手続の効率
化］を実現したものである。

【０４８２】すなわち、図４６に示した様に、テキスト
“ａｂａｂｃａｂ”のうち、“ｃ”が変更されたと仮定
する。この場合、開始位置の順に並べられたテキストの
キーとなる部分列のうち、変更に係る“ｃ”を含むもの
を検索する。図において、“２，ａｂａｂｃａｂ，１”
から“７，ｃａｂ，５”が該当する。次に、これらのキ
ーとなる部分列の中央に位置する部分列を選ぶ（すなわ
ち、“ａｂｃａｂ”）。そして、これに対応するキーと
なる部分列をインデクス中で検索すると、“３，ａｂｃ
ａｂ，３”が見出される。この“ａｂｃａｂ”は、イン
デクス中で、その上に位置する“ａｂ，ａｂａｂｃａ
ｂ”と前方列“ａｂ”が一致するため、“ｃ”の変更に
より、登録された位置が変更される可能性があり、判定
手段により「再登録が必要である」と判断される。その
結果、テキスト中において、“ａｂｃａｂ”より短い
“ｂｃａｂ”“ｃａｂ”も「再登録が必要である」と判
断される。

【０４８３】一方、“ａｂｃａｂ”より長い部分列、す
なわち“ｂａｂｃａｂ”をインデクスに戻って見ると、
“５，ｂａｂｃａｂ，２”が対応するが、この場合、
“ｃ”はインデクスのアルファベット順位の決定に影響
しない。したがって、“ｂａｂｃａｂ”及び“ａｂａｂ
ｃａｂ”は「再登録は不要である」と判断される。

【０４８４】［１１．他の実施形態］なお、本発明は上
記各実施形態に限定されるものではなく、適宜実施態様
を変更して実施できるものであるから、次のような他の
実施形態を包含するものである。

【０４８５】上記実施例においては、キーとなる部分列
をアルファベットの順位に基づく辞書順に並べたデータ
について説明したが、コード間に特定の順序を定めたコ
ード系に基づく辞書順に並べたデータについても、同様
に適用することができる。

【０４８６】また、本発明におけるコード列は文字列に
は限定されず、音声パターンを表すコード、ＤＮＡの塩
基配列を表すコードなど、いかなる種類のコードでもよ
い。また、コード列における部分列の決定は、実際にコ
ード列のデータの一部を他の記憶領域に転送したりして
加工する必要はなく、所定のポインタで境界をマーキン
グするなど、間接的な処理で足りる。

【０４８７】さらに、上記実施形態における検索は、コ
ード列の各後方列に基づいて前方一致で行ったが、本発
明における検索は、コード列の各前方列に基づいて後方
一致で行ってもよい。この場合、本明細書の「後方列」
と「前方列」は相互に読み替えるものとする。また、処
理の際に、キー列から文字を取り出す順序は後方からと
なる。

【０４８８】また、インデクスの各項目に順位を付与す
る方法、およびインデクスの更新時にそれを管理する方
法は、インデクスの各項目に長さ１の区間がそれぞれ先
頭から順に割り当てられているものとして、本出願人が
別途特許出願した「区間管理方法」を適用することによ
り効率的に実現することができる。

【０４８９】

【発明の効果】以上述べた様に、本発明によれば、効率
の良いデータ処理装置、データ検索装置、データ処理方
法及びデータ検索方法が得られる。例えば、検索用デー
タの更新所要時間が短いデータ処理装置を提供するこ
と、効率的にデータを処理するデータ処理装置を提供す
ること、検索を高速に行うデータ処理装置を提供するこ
と、メモリを効率的に利用することができるデータ処理
装置を提供すること、一定の長さ以下あるいは長さを制
限しないキー列の全体又は一部を含む部分をもれなく、
また重複なく検索するデータ検索装置を提供することが
できる。

【図面の簡単な説明】

【図１】本発明の第１実施形態の構成を表す機能ブロッ
ク図

【図２】本発明の第１実施形態におけるデータ構造を示
す図

【図３】本発明の第１実施形態において、テキスト上の
文字が変更された場合のデータ構造を示す図

【図４】本発明の第１実施形態において、テキスト上の
文字が挿入・削除された場合のデータ構造を示す図

【図５】「区間管理方法」を用いたデータ処理装置の構
成を示す機能ブロック図

【図６】「区間管理方法」を用いたデータ処理装置にお
ける二分木の例

【図７】「区間管理方法」を用いたデータ処理装置にお
ける二分木の説明図

【図８】「区間管理方法」を用いたデータ処理装置にお
けるデータの例

【図９】「区間管理方法」を用いたデータ処理装置にお
ける検索の手順を示すフローチャート

【図１０】「区間管理方法」を用いたデータ処理装置に
おける二分木の例（検索時）

【図１１】「区間管理方法」を用いたデータ処理装置に
おける二分木の例（検索時）

【図１２】「区間管理方法」を用いたデータ処理装置に
おける二分木の例（検索時）

【図１３】「区間管理方法」を用いたデータ処理装置に
おける区間の特定の手順を示すフローチャート

【図１４】「区間管理方法」を用いたデータ処理装置に
おける区間の特定の手順を示すフローチャート

【図１５】「区間管理方法」を用いたデータ処理装置に
おける二分木の例（区間長変更時）

【図１６】「区間管理方法」を用いたデータ処理装置に
おける二分木の例（区間追加時）

【図１７】「区間管理方法」を用いたデータ処理装置に
おける二分木の例（区間追加時）

【図１８】「区間管理方法」を用いたデータ処理装置に
おける二分木の例（区間追加時）

【図１９】「区間管理方法」を用いたデータ処理装置に
おける二分木の例（区間追加時）

【図２０】「区間管理方法」を用いたデータ処理装置に
おける二分木の例（区間削除時）

【図２１】「区間管理方法」を用いたデータ処理装置に
おける二分木の例（区間削除時）

【図２２】本発明の第２実施形態におけるデータ構造を
示す図

【図２３】本発明の第２実施形態におけるデータ構造を
示す図

【図２４】本発明の第２実施形態におけるデータ構造を
示す図

【図２５】本発明の第２実施形態におけるデータ構造を
示す図

【図２６】本発明の第２実施形態におけるデータ構造を
示す図

【図２７】本発明の第２実施形態におけるデータ構造を
示す図

【図２８】本発明の第２実施形態におけるデータ構造を
示す図

【図２９】本発明の第２実施形態におけるデータ構造を
示す図

【図３０】本発明の第３実施形態の構成を表す機能ブロ
ック図

【図３１】本発明の第３実施形態におけるインデクスの
構成を示す図

【図３２】（Ａ）は、本発明の第３実施形態において、
テキストの文字を変更した場合の「変更位置」を示す
図、（Ｂ）は文字を挿入した場合の「変更位置」を示す
図、（Ｃ）は文字を削除した場合の「変更位置」を示す
図、（Ｄ）は末尾に文字を挿入した場合の「変更位置」
を示す図

【図３３】本発明の第４実施形態の構成を表す機能ブロ
ック図

【図３４】本発明の第４実施形態の作用を示す図

【図３５】本発明の第５実施形態の構成を表す機能ブロ
ック図

【図３６】本発明の第６実施形態の構成を表す機能ブロ
ック図

【図３７】本発明の第６実施形態の作用を説明するため
の図

【図３８】本発明の第６実施形態の作用を説明するため
の図

【図３９】本発明の第７実施形態の構成を表す機能ブロ
ック図

【図４０】単位機能（ｘ３）の実現方法を説明する図

【図４１】（Ａ），（Ｂ），（Ｃ）は、単位機能（ｘ
５）の実現方法を説明する図

【図４２】本発明の第８実施形態の構成を表す図

【図４３】指定ノードの直前のノードを決定する手順を
示すフローチャート

【図４４】Ｓｐｌａｙｉｎｇを用いて、指定ノードの直
前のノードを決定する手順を示すフローチャート

【図４５】先頭のノードを求める手順を示すフローチャ
ート

【図４６】本発明の第１０実施形態の作用を説明するた
めの図

【図４７】従来のコード列の検索において、文字列中に
存在するパターンの例

【図４８】従来のTrieの例

【図４９】従来のコード列の検索におけるコード列につ
いて、位置と同定部分列との対照表の例

【図５０】従来のposition tree の例

【図５１】従来のsuffix tree の例

【図５２】従来のdirected acyclic word graph の例

【図５３】従来の第１の手法におけるデータの例

【図５４】従来の第１の手法におけるデータの例（挿入
時）

【図５５】従来の第２の手法におけるデータの例

【図５６】従来の二分木の例

【図５７】従来の第３の手法におけるデータの例

【図５８】従来の第４の手法におけるデータの例

【符号の説明】

１…コード列２…辞書データ３…辞書データ生成手段４…辞書ｔｒｅｅ５…辞書ｔｒｅｅ生成手段６…テキストデータ７…テキストデータ生成手段８…テキストｔｒｅｅ９…テキストｔｒｅｅ生成手段１０…検索手段１１…変更手段１２…更新手段１３…比較手段１４…再登録判定手段１５…登録手段２０…調整範囲設定手段２１…インデクス２２…インデクス生成手段２３…テキスト２４…テキスト生成手段３０…順位付加手段３１…二分木３２…二分木生成手段３３…区間検索手段３４…二分木更新手段３５…区間特定手段４１…区間長変更手段４２…追加手段４３…削除手段４５…構造調整手段

フロントページの続き (56)参考文献特開平２−186476（ＪＰ，Ａ) 特開平３−75869（ＪＰ，Ａ) 特開昭61−141036（ＪＰ，Ａ) 特開昭58−3033（ＪＰ，Ａ) 特開平２−43677（ＪＰ，Ａ) 特開平６−168270（ＪＰ，Ａ) 特開平４−111064（ＪＰ，Ａ) 特開平６−110927（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 17/30

Claims

(57)【特許請求の範囲】

【請求項１】キー列による検索対象となるコード列に
ついて、その後方の部分である後方列の検索に用いるこ
とができる前方列をアルファベット順に並べ、また、前
記前方列とその前方列の前記コード列中における位置と
を対として表す辞書データを生成する辞書データ生成手
段と、前記辞書データに基づいて、二分木である辞書ｔｒｅｅ
を生成する辞書ｔｒｅｅ生成手段と、前記コード列に基づいて、テキストデータを生成するテ
キストデータ生成手段と、前記テキストデータに基づいて、二分木であるテキスト
ｔｒｅｅを生成するテキストｔｒｅｅ生成手段と、前記辞書ｔｒｅｅ及びテキストｔｒｅｅに基づいて、キ
ー列の全部又は一部を前方列とする後方列を検索する検
索手段と、前記コード列を変更する変更手段と、前記変更の内容に基づいて、変更に係る前記コード列の
辞書データ、辞書ｔｒｅｅ、テキストデータ及びテキス
トｔｒｅｅを更新する更新手段とを有することを特徴と
するデータ処理装置。
【請求項２】キー列による検索対象となるコード列に
ついて、その後方の部分である後方列の検索に用いるこ
とができる前方列をアルファベット順に並べ、また、前
記前方列とその前方列の前記コード列中における位置と
を対として表す辞書データを生成する辞書データ生成手
段と、前記コード列に基づいて、テキストデータを生成するテ
キストデータ生成手段と、前記辞書データ及びテキストデータに基づいて、キー列
の全部又は一部を前方列とする後方列を検索する検索手
段と、前記コード列を変更する変更手段と、前記変更の内容に基づいて、変更に係る前記コード列の
辞書データ及びテキストデータを更新する更新手段とを
有することを特徴とするデータ処理装置。
【請求項３】前記辞書データを構成するキーとなる部
分列の長さが限定されることを特徴とする請求項１又は
請求項２記載のデータ処理装置。
【請求項４】前記辞書データを構成するキーとなる部
分列の長さが限定されないことを特徴とする請求項１又
は請求項２記載のデータ処理装置。
【請求項５】前記辞書ｔｒｅｅ生成手段あるいはテキ
ストｔｒｅｅ生成手段の少なくともいずれか一方が、前
記辞書ｔｒｅｅとテキストｔｒｅｅの対応するｎｏｄｅ
間に、ポインタを設定することを特徴とする請求項１又
は請求項３又は請求項４記載のデータ処理装置。
【請求項６】前記辞書データ生成手段あるいはテキス
トデータ生成手段の少なくともいずれか一方が、前記辞
書データとテキストデータの間にポインタを設定するこ
とを特徴とする請求項２又は請求項３又は請求項４記載
のデータ処理装置。
【請求項７】前記検索手段が、前記辞書ｔｒｅｅとテ
キストｔｒｅｅを対照することにより、データ検索を行
うように構成されたことを特徴とする請求項１又は請求
項３又は請求項４記載のデータ処理装置。
【請求項８】前記検索手段が、前記辞書データとテキ
ストデータを対照することにより、データ検索を行うよ
うに構成されたことを特徴とする請求項２又は請求項３
又は請求項４記載のデータ処理装置。
【請求項９】前記検索手段が、前記辞書ｔｒｅｅ及び
テキストｔｒｅｅの少なくともいずれか一方に基づい
て、部分列を復元する機能を有することを特徴とする請
求項１又は請求項３又は請求項４記載のデータ処理装
置。
【請求項１０】前記検索手段が、前記辞書データ及び
テキストデータの少なくともいずれか一方に基づいて、
部分列を復元する機能を有することを特徴とする請求項
２又は請求項３又は請求項４記載のデータ処理装置。
【請求項１１】前記辞書ｔｒｅｅ生成手段及びテキス
トｔｒｅｅ生成手段によって、前記辞書ｔｒｅｅ及びテ
キストｔｒｅｅのｎｏｄｅを一体化して構成したことを
特徴とする請求項１又は請求項３又は請求項４記載のデ
ータ処理装置。
【請求項１２】前記辞書ｔｒｅｅに文字列を格納した
ことを特徴とする請求項１又は請求項３又は請求項４記
載のデータ処理装置。
【請求項１３】前記辞書ｔｒｅｅに格納される文字列
の長さが、対応するテキストｔｒｅｅのｎｏｄｅが表わ
す区間の長さと等しいことを特徴とする請求項１２記載
のデータ処理装置。
【請求項１４】前記テキストｔｒｅｅのｎｏｄｅにお
いて、辞書ｔｒｅｅへのポインタとして、文字列とｎｏ
ｄｅのアドレスを使用することを特徴とする請求項１又
は請求項３又は請求項４記載のデータ処理装置。
【請求項１５】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
手段と、前記コード列に基づいて、テキストデータを生成するテ
キストデータ生成手段と、前記辞書データ及びテキストデータに基づいて、キー列
の全部又は一部を前方列とする後方列を検索する検索手
段と、前記コード列を変更する変更手段と、前記変更の内容に基づいて、変更に係る前記コード列の
辞書データ及びテキストデータを更新する更新手段と、前記変更箇所をとりまとめて処理するための調整範囲設
定手段を有することを特徴とするデータ処理装置。
【請求項１６】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
手段と、前記コード列に基づいて、テキストデータを生成するテ
キストデータ生成手段と、前記辞書データ及びテキストデータに基づいて、キー列
の全部又は一部を前方列とする後方列を検索する検索手
段と、前記コード列を変更する変更手段と、アルファベット順に登録された各辞書データに順位を付
与する順位付加手段と、前記変更の内容に基づいて、変更に係る前記コード列の
辞書データ、テキストデータ及びアルファベット順位を
更新する更新手段とを有することを特徴とするデータ処
理装置。
【請求項１７】前記検索手段が、前方列が一致する辞
書データの先頭のものと末尾のものの順位から、前方列
が一致するキーとなる部分列の数を計数する計数手段を
有することを特徴とする請求項１６記載のデータ処理装
置。
【請求項１８】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
手段と、前記辞書データに基づいて、二分木である辞書ｔｒｅｅ
を生成する辞書ｔｒｅｅ生成手段と、前記コード列に基づいて、テキストデータを生成するテ
キストデータ生成手段と、前記辞書ｔｒｅｅ及びテキストデータに基づいて、キー
列の全部又は一部を前方列とする後方列を検索する検索
手段とを有することを特徴とするデータ検索装置。
【請求項１９】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
手段と、前記コード列に基づいて、テキストデータを生成するテ
キストデータ生成手段と、前記辞書データ及びテキストデータに基づいて、キー列
の全部又は一部を前方列とする後方列を検索する検索手
段とを有することを特徴とするデータ検索装置。
【請求項２０】前記辞書データを構成するキーとなる
部分列の長さが限定されることを特徴とする請求項１８
又は請求項１９記載のデータ検索装置。
【請求項２１】前記辞書データを構成するキーとなる
部分列の長さが限定されないことを特徴とする請求項１
８又は請求項１９記載のデータ検索装置。
【請求項２２】前記テキストデータに基づいて、二分
木であるテキストｔｒｅｅを生成するテキストｔｒｅｅ
生成手段を有し、前記辞書ｔｒｅｅ及びテキストｔｒｅ
ｅに基づいて、キー列の全部又は一部を前方列とする後
方列を検索することを特徴とする請求項１８又は請求項
２０又は請求項２１記載のデータ検索装置。
【請求項２３】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
その前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
手段と、前記辞書データに基づいて、キー列の全部又は一部を前
方列とする後方列を検索する検索手段と、２つのコード列の比較を行なう比較手段と、１文字違いの２つの後方列のうち、一方がすでにインデ
クスに登録されている場合に、他方の後方列の登録位置
を、１文字の比較に基づいて決定して登録する登録手段
と、前記コード列を変更する変更手段と、前記コード列の一部が変更された場合に、変更後のコー
ド列を再登録する必要があるか否かを判定する再登録判
定手段と、前記比較手段及び再登録判定手段の判断結果に基づい
て、変更に係る前記コード列の辞書データを更新する更
新手段とを有することを特徴とするデータ処理装置。
【請求項２４】前記検索手段が、コード列をキーとし
てアルファベット順に並べた表において、コード列をキ
ーとして二分探索を行なう際に、既に行なった比較が何
文字目まで一致したかに基づいて、次の比較を何文字目
から行なうかを決定するように構成されたことを特徴と
する請求項２３に記載のデータ処理装置。
【請求項２５】前記比較手段が、コード列をキーとし
てアルファベット順に並べた表において、２つのコード
列の比較を行なう際に、両方のコード列から一致する前
方列を除いた後方列がともに前記表中に存在する場合、
それらの後方列の表中での位置の比較結果を、前記２つ
のコード列の比較結果とするように構成されたことを特
徴とする請求項２３に記載のデータ処理装置。
【請求項２６】前記登録手段が、後方列の前方列をキ
ーとしてアルファベット順に並べた表において、後方列
αｗの前方列を登録する際に、前方列が前記表中で前記
後方列αｗより短い最長の後方列ｗの直前である後方列
ｘより５長い最短の後方列βｘと前記直前である後方列
ｘとの差βが、前記後方列αｗとそれより短い最長の後
方列ｗとの差αと一致する場合、βｘの前方列の直後に
αｗの前方列を登録し、また、前方列が前記表中で前記後方列αｗより短い最長
の後方列ｗの直後である後方列ｙより長い最短の後方列
γｙと前記直後である後方列ｙとの差γが、前記後方列
αｗとそれより短い最長の後方列ｗとの差αと一致する
場合、γｙの前方列の直前にαｗの前方列を登録するよ
うに構成されたことを特徴とする請求項２３に記載のデ
ータ処理装置。
【請求項２７】前記登録手段が、後方列の前方列をキ
ーとしてアルファベット順に並べた表において、後方列
ｗの前方列を登録する際に、前方列が前記表中で前記後
方列ｗより長い最短の後方列αｗの直前及び直後である
後方列βｘ及びγｙについて、βｘより短い最長の後方
列ｘの前方列とγｙより短い最長の後方列ｙの前方列と
が、前記表中でｘの前方列を先にして隣接しており、か
つ、α＝βまたはα＝γである場合、ｘの前方列とｙの
前方列の間にｗの前方列を登録するように構成されたこ
とを特徴とする請求項２３に記載のデータ処理装置。
【請求項２８】前記再登録判定手段が、後方列の前方
列をキーとしてアルファベット順に並べた表において、
コード列の一部を変更した場合に、変更部分を含む後方
列の前方列について、前記表中で前記前方列の直前およ
び直後の前方列と前記前方列とを変更後の内容において
比較し、前記前方列が前記直前の前方列以上でかつ前記
直後の前方列以下である場合には、少なくとも前記後方
列及びそれより長い後方列については、それらの前方列
の再登録の必要がないと判定し、そうでない場合には、
少なくとも前記後方列及び変更部分を含むそれより短い
後方列については、それらの前方列の再登録が必要であ
ると判定するように構成されたことを特徴とする請求項
２３に記載のデータ処理装置。
【請求項２９】前記再登録判定手段が、後方列の前方
列をキーとしてアルファベット順に並べた表において、
コード列の一部を変更した場合に、変更部分を含む後方
列の前方列について、前記表中で前記前方列の直前また
は直後の前方列と前記前方列とを比較し、両者の前方列
が、いずれかの変更された部分の直前まで一致する場合
には、少なくとも前記後方列及びそれより短い後方列に
ついては、それらの前方列の再登録が必要であると判定
し、一致しない場合には、少なくとも前記後方列及び変
更部分を含むそれより長い後方列については、それらの
前方列の再登録の必要がないと判定するように構成され
たことを特徴とする請求項２３に記載のデータ処理装
置。
【請求項３０】前記再登録判定手段が、後方列の前方
列をキーとしてアルファベット順に並べた表において、
コード列の一部を変更した場合に、後方列の前方列が再
登録が必要か否かを、変更部分を含む後方列の前方列に
ついて、短い後方列の前方列から順に判定するように構
成されたことを特徴とする請求項２３に記載のデータ処
理装置。
【請求項３１】前記再登録判定手段が、後方列の前方
列をキーとしてアルファベット順に並べた表において、
コード列の一部を変更した場合に、後方列の前方列が再
登録が必要か否かを、変更部分を含む後方列の前方列に
ついて、開始位置の順に並べて二分法で選択しつつ判定
するように構成されたことを特徴とする請求項２３に記
載のデータ処理装置。
【請求項３２】キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する検索手段と、前記インデクスを生成するインデクス生成手段とを有
し、前記インデクスには順位が付与されており、前記検索手段は、その順位に基づいてキー列の全部又は
一部を前方列とする後方列の数を出力する機能を備え、また、前記インデクス生成手段は、順位を付与したイン
デクスを生成するように構成されたことを特徴とするデ
ータ検索装置。
【請求項３３】キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する検索手段と、前記コード列の変更の内容に基づいて、変更に係る前記
コード列についてのインデクスを更新する更新手段とを
有し、前記インデクスには順位が付与されており、前記検索手段は、その順位に基づいてキー列の全部又は
一部を前方列とする後方列の数を出力する機能を備え、また、前記更新手段は、前記順位の更新も合わせて行な
うように構成されたことを特徴とするデータ処理装置。
【請求項３４】キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する検索手段と、前記インデクスを生成するインデクス生成手段と、前記コード列を変更する変更手段と、前記コード列の変更の内容に基づいて、変更に係る前記
コード列についてのインデクスを更新する更新手段とを
有し、前記インデクスには順位が付与されており、前記検索手段は、その順位に基づいてキー列の全部又は
一部を前方列とする後方列の数を出力する機能を備え、また、前記インデクス生成手段は、順位を付与したイン
デクスを生成する機能を備え、前記更新手段は、前記順位の更新も合わせて行なうよう
に構成されたことを特徴とするデータ処理装置。
【請求項３５】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列とその前方列のコード列中における
位置との対を前記前方列のアルファベット順に並べたイ
ンデクスに基づいて、キー列の全部又は一部を前方列と
する後方列を検索する機能と、前記コード列の後方の部
分である後方列の前方列とその前方列のコード列中にお
ける位置との対を、前記コード列中における位置の順に
並べたテキストに基づいて、指定された位置から始まる
コード列の一部又は全部を復元する機能とを備えた検索
手段と、前記インデクスを生成するインデクス生成手段と、前記テキストを生成するテキスト生成手段とを有するこ
とを特徴とするデータ検索装置。
【請求項３６】キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する機能と、前記コード列の後方の部分である後方列の
前方列を検索する機能と、前記コード列中における位置
の順に並べたテキストに基づいて、指定された位置から
始まるコード列の一部又は全部を復元する機能とを備え
た検索手段と、前記コード列の変更の内容に基づいて、変更に係る前記
コード列についてのインデクス及びテキストを更新する
更新手段とを有することを特徴とするデータ処理装置。
【請求項３７】キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する機能と、前記コード列の後方の部分である後方列の
前方列を検索する機能と、前記コード列中における位置
の順に並べたテキストに基づいて、指定された位置から
始まるコード列の一部又は全部を復元する機能とを備え
た検索手段と、前記インデクスを生成するインデクス生成手段と、前記テキストを生成するテキスト生成手段と、前記コード列を変更する変更手段と、前記コード列の変更の内容に基づいて、変更に係る前記
コード列についてのインデクス及びテキストを更新する
更新手段とを有することを特徴とするデータ処理装置。
【請求項３８】前記インデクスには順位が付与されて
おり、前記検索手段は、その順位に基づいてキー列の全部又は
一部を前方列とする後方列の数を出力する機能を備え、また、前記インデクス生成手段は、順位を付与したイン
デクスを生成するように構成されたことを特徴とする請
求項３５に記載のデータ検索装置。
【請求項３９】前記インデクスには順位が付与されて
おり、前記検索手段は、その順位に基づいてキー列の全部又は
一部を前方列とする後方列の数を出力する機能を備え、また、前記更新手段は、前記順位の更新も合わせて行な
うように構成されたことを特徴とする請求項３６に記載
のデータ処理装置。
【請求項４０】前記インデクスには順位が付与されて
おり、前記検索手段は、その順位に基づいてキー列の全部又は
一部を前方列とする後方列の数を出力する機能を備え、また、前記インデクス生成手段は、順位を付与したイン
デクスを生成する機能を備え、前記更新手段は、前記順位の更新も合わせて行なうよう
に構成されたことを特徴とする請求項３７記載のデータ
処理装置。
【請求項４１】前記インデクスを構成するキーとなる
部分列の長さが限定されることを特徴とする請求項３２
又は請求項３５又は請求項３８に記載のデータ検索装
置。
【請求項４２】前記インデクスを構成するキーとなる
部分列の長さが限定されることを特徴とする請求項３
３，請求項３４，請求項３６，請求項３７，請求項３９
又は請求項４０のいずれか一に記載のデータ処理装置。
【請求項４３】前記インデクスを構成するキーとなる
部分列の長さが限定されないことを特徴とする請求項３
２又は請求項３５又は請求項３８に記載のデータ検索装
置。
【請求項４４】前記インデクスを構成するキーとなる
部分列の長さが限定されないことを特徴とする請求項３
３，請求項３４，請求項３６，請求項３７，請求項３９
又は請求項４０のいずれか一に記載のデータ処理装置。
【請求項４５】前記インデクスの対と前記テキストの
対とを一体化して構成したことを特徴とする請求項３７
に記載のデータ処理装置。
【請求項４６】前記インデクスの対と前記テキストの
対とを一体化して構成したことを特徴とする請求項３５
に記載のデータ検索装置。
【請求項４７】前記インデクスを二分木で表現したこ
とを特徴とする請求項４２又は請求項４４に記載のデー
タ処理装置。
【請求項４８】前記インデクスを二分木で表現したこ
とを特徴とする請求項４１又は請求項４３に記載のデー
タ検索装置。
【請求項４９】前記テキストが、前記コード列を記憶
領の連続した番地に格納し、番地によって位置を表現し
たものであることを特徴とする請求項４２又は請求項４
４に記載のデータ処理装置。
【請求項５０】前記テキストが、前記コード列を記憶
領の連続した番地に格納し、番地によって位置を表現し
たものであることを特徴とする請求項４１又は請求項４
３に記載のデータ検索装置。
【請求項５１】前記更新手段が、前記コード列に対する
複数の変更に対応する更新をとりまとめて処理すること
を特徴とする請求項３３，請求項３４，請求項３６，請
求項３７，請求項３９又は請求項４０のいずれか一に記
載のデータ処理装置。
【請求項５２】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
処理と、前記辞書データに基づいて、二分木である辞書ｔｒｅｅ
を生成する辞書ｔｒｅｅ生成処理と、前記コード列に基づいて、テキストデータを生成するテ
キストデータ生成処理と、前記テキストデータに基づいて、二分木であるテキスト
ｔｒｅｅを生成するテキストｔｒｅｅ生成処理と、前記辞書ｔｒｅｅ及びテキストｔｒｅｅに基づいて、キ
ー列の全部又は一部を前方列とする後方列を検索する検
索処理と、前記コード列を変更する変更処理と、前記変更の内容に基づいて、変更に係る前記コード列の
辞書データ、辞書ｔｒｅｅ、テキストデータ及びテキス
トｔｒｅｅを更新する更新処理とを含むことを特徴とす
るデータ処理方法。
【請求項５３】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
処理と、前記コード列に基づいて、テキストデータを生成するテ
キストデータ生成処理と、前記辞書データ及びテキストデータに基づいて、キー列
の全部又は一部を前方列とする後方列を検索する検索処
理と、前記コード列を変更する変更処理と、前記変更の内容に基づいて、変更に係る前記コード列の
辞書データ及びテキストデータを更新する更新処理とを
含むことを特徴とするデータ処理方法。
【請求項５４】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
処理と、前記コード列に基づいて、テキストデータを生成するテ
キストデータ生成処理と、前記辞書データ及びテキストデータに基づいて、キー列
の全部又は一部を前方列とする後方列を検索する検索処
理と、前記コード列を変更する変更処理と、前記変更の内容に基づいて、変更に係る前記コード列の
辞書データ及びテキストデータを更新する更新処理と、前記変更箇所をとりまとめて処理するための調整範囲設
定処理を含むことを特徴とするデータ処理方法。
【請求項５５】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
処理と、前記コード列に基づいて、テキストデータを生成するテ
キストデータ生成処理と、前記辞書データ及びテキストデータに基づいて、キー列
の全部又は一部を前方列とする後方列を検索する検索処
理と、前記コード列を変更する変更処理と、アルファベット順に登録された各辞書データに順位を付
与する順位付加処理と、前記変更の内容に基づいて、変更に係る前記コード列の
辞書データ、テキストデータ及びアルファベット順位を
更新する更新処理とを含むことを特徴とするデータ処理
方法。
【請求項５６】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
処理と、前記辞書データに基づいて、二分木である辞書ｔｒｅｅ
を生成する辞書ｔｒｅｅ生成処理と、前記コード列に基づいて、テキストデータを生成するテ
キストデータ生成処理と、前記辞書ｔｒｅｅ及びテキストデータに基づいて、キー
列の全部又は一部を前方列とする後方列を検索する検索
処理とを含むことを特徴とするデータ検索方法。
【請求項５７】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
前記前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
処理と、前記コード列に基づいて、テキストデータを生成するテ
キストデータ生成処理と、前記辞書データ及びテキストデータに基づいて、キー列
の全部又は一部を前方列とする後方列を検索する検索処
理とを含むことを特徴とするデータ検索方法。
【請求項５８】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列をアルファベット順に並べ、また、
その前方列とその前方列の前記コード列中における位置
とを対として表す辞書データを生成する辞書データ生成
処理と、前記辞書データに基づいて、キー列の全部又は一部を前
方列とする後方列を検索する検索処理と、２つのコード列の比較を行なう比較処理と、１文字違いの２つの後方列のうち、一方がすでにインデ
クスに登録されている場合に、他方の後方列の登録位置
を、１文字の比較に基づいて決定して登録する登録処理
と、前記コード列を変更する変更処理と、前記コード列の一部が変更された場合に、変更後のコー
ド列を再登録する必要があるか否かを判定する再登録判
定処理と、前記比較手段及び再登録判定手段の判断結果に基づい
て、変更に係る前記コード列の辞書データを更新する更
新処理とを含むことを特徴とするデータ処理方法。
【請求項５９】キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する検索処理と、前記インデクスを生成するインデクス生成処理とを含
み、前記インデクスには順位が付与されており、前記検索処理において、その順位に基づいてキー列の全
部又は一部を前方列とする後方列の数を出力し、また、前記インデクス生成処理は、順位を付与したイン
デクスを生成することを特徴とするデータ検索方法。
【請求項６０】キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する検索処理と、前記コード列の変更の内容に基づいて、変更に係る前記
コード列についてのインデクスを更新する更新処理とを
含み、前記インデクスには順位が付与されており、前記検索処理において、その順位に基づいてキー列の全
部又は一部を前方列とする後方列の数を出力し、また、前記更新処理は、前記順位の更新も合わせて行な
うことを特徴とするデータ処理方法。
【請求項６１】キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する検索処理と、前記インデクスを生成するインデクス生成処理と、前記コード列を変更する変更処理と、前記コード列の変更の内容に基づいて、変更に係る前記
コード列についてのインデクスを更新する更新処理とを
含み、前記インデクスには順位が付与されており、前記検索処理において、その順位に基づいてキー列の全
部又は一部を前方列とする後方列の数を出力し、また、前記インデクス生成処理は、順位を付与したイン
デクスを生成し、前記更新処理は、前記順位の更新も合わせて行なうこと
を特徴とするデータ処理方法。
【請求項６２】キー列による検索対象となるコード列
について、その後方の部分である後方列の検索に用いる
ことができる前方列とその前方列のコード列中における
位置との対を前記前方列のアルファベット順に並べたイ
ンデクスに基づいて、キー列の全部又は一部を前方列と
する後方列を検索する工程と、前記コード列の後方の部
分である後方列の前方列とその前方列のコード列中にお
ける位置との対を、前記コード列中における位置の順に
並べたテキストに基づいて、指定された位置から始まる
コード列の一部又は全部を復元する工程とを有する検索
処理と、前記インデクスを生成するインデクス生成処理と、前記テキストを生成するテキスト生成処理とを含むこと
を特徴とするデータ検索方法。
【請求項６３】キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する工程と、前記コード列の後方の部分である後方列の
前方列を検索する工程と、前記コード列中における位置
の順に並べたテキストに基づいて、指定された位置から
始まるコード列の一部又は全部を復元する工程とを有す
る検索処理と、前記コード列の変更の内容に基づいて、変更に係る前記
コード列についてのインデクス及びテキストを更新する
更新処理とを含むことを特徴とするデータ処理方法。
【請求項６４】キー列による検索対象となるコード列
について、その後方列の検索に用いることができる前方
列とその前方列のコード列中における位置との対を前記
前方列のアルファベット順に並べたインデクスに基づい
て、キー列の全部又は一部を前方列とする後方列を検索
する工程と、前記コード列の後方の部分である後方列の
前方列を検索する工程と、前記コード列中における位置
の順に並べたテキストに基づいて、指定された位置から
始まるコード列の一部又は全部を復元する工程とを有す
る検索処理と、前記インデクスを生成するインデクス生成処理と、前記テキストを生成するテキスト生成処理と、前記コード列を変更する変更処理と、前記コード列の変更の内容に基づいて、変更に係る前記
コード列についてのインデクス及びテキストを更新する
更新処理とを含むことを特徴とするデータ処理方法。
【請求項６５】前記検索処理が、前方列が一致する辞
書データの先頭のものと末尾のものの順位から、前方列
が一致するキーとなる部分列の数を計数する計数処理を
含むことを特徴とする請求項５５記載のデータ処理方
法。
【請求項６６】前記検索処理が、コード列をキーとし
てアルファベット順に並べた表において、コード列をキ
ーとして二分探索を行なう際に、既に行なった比較が何
文字目まで一致したかに基づいて、次の比較を何文字目
から行なうかを決定することを特徴とする請求項５８に
記載のデータ処理方法。
【請求項６７】前記比較処理が、コード列をキーとし
てアルファベット順に並べた表において、２つのコード
列の比較を行なう際に、両方のコード列から一致する前
方列を除いた後方列がともに前記表中に存在する場合、
それらの後方列の表中での位置の比較結果を、前記２つ
のコード列の比較結果とすることを特徴とする請求項５
８に記載のデータ処理方法。
【請求項６８】前記登録処理が、後方列の前方列をキ
ーとしてアルファベット順に並べた表において、後方列
αｗの前方列を登録する際に、前方列が前記表中で前記
後方列αｗより短い最長の後方列ｗの直前である後方列
ｘより長い最短の後方列βｘと前記直前である後方列ｘ
との差βが、前記後方列αｗとそれより短い最長の後方
列ｗとの差αと一致する場合、βｘの前方列の直後にα
ｗの前方列を登録し、また、前方列が前記表中で前記後方列αｗより短い最長
の後方列ｗの直後である後方列ｙより長い最短の後方列
γｙと前記直後である後方列ｙとの差γが、前記後方列
αｗとそれより短い最長の後方列ｗとの差αと一致する
場合、γｙの前方列の直前にαｗの前方列を登録するこ
とを特徴とする請求項５８に記載のデータ処理方法。
【請求項６９】前記登録処理が、後方列の前方列をキ
ーとしてアルファベット順に並べた表において、後方列
ｗの前方列を登録する際に、前方列が前記表中で前記後
方列ｗより長い最短の後方列αｗの直前及び直後である
後方列βｘ及びγｙについて、βｘより短い最長の後方
列ｘの前方列とγｙより短い最長の後方列ｙの前方列と
が、前記表中でｘの前方列を先にして隣接しており、か
つ、α＝βまたはα＝γである場合、ｘの前方列とｙの
前方列の間にｗの前方列を登録することを特徴とする請
求項５８に記載のデータ処理方法。
【請求項７０】前記再登録判定処理が、後方列の前方
列をキーとしてアルファベット順に並べた表において、
コード列の一部を変更した場合に、変更部分を含む後方
列の前方列について、前記表中で前記前方列の直前およ
び直後の前方列と前記前方列とを変更後の内容において
比較し、前記前方列が前記直前の前方列以上でかつ前記
直後の前方列以下である場合には、少なくとも前記後方
列及びそれより長い後方列については、それらの前方列
の再登録の必要がないと判定し、そうでない場合には、
少なくとも前記後方列及び変更部分を含むそれより短い
後方列については、それらの前方列の再登録が必要であ
ると判定することを特徴とする請求項５８に記載のデー
タ処理方法。
【請求項７１】前記再登録判定処理が、後方列の前方
列をキーとしてアルファベット順に並べた表において、
コード列の一部を変更した場合に、変更部分を含む後方
列の前方列について、前記表中で前記前方列の直前また
は直後の前方列と前記前方列とを比較し、両者の前方列
が、いずれかの変更された部分の直前まで一致する場合
には、少なくとも前記後方列及びそれより短い後方列に
ついては、それらの前方列の再登録が必要であると判定
し、一致しない場合には、少なくとも前記後方列及び変
更部分を含むそれより長い後方列については、それらの
前方列の再登録の必要がないと判定することを特徴とす
る請求項５８に記載のデータ処理方法。
【請求項７２】前記再登録判定処理が、後方列の前方
列をキーとしてアルファベット順に並べた表において、
コード列の一部を変更した場合に、後方列の前方列が再
登録が必要か否かを、変更部分を含む後方列の前方列に
ついて、短い後方列の前方列から順に判定することを特
徴とする請求項５８に記載のデータ処理方法。
【請求項７３】前記再登録判定処理が、後方列の前方
列をキーとしてアルファベット順に並べた表において、
コード列の一部を変更した場合に、後方列の前方列が再
登録が必要か否かを、変更部分を含む後方列の前方列に
ついて、開始位置の順に並べて二分法で選択しつつ判定
することを特徴とする請求項５８に記載のデータ処理方
法。
【請求項７４】前記インデクスには順位が付与されて
おり、前記検索処理において、その順位に基づいてキー列の全
部又は一部を前方列とする後方列の数を出力し、また、前記インデクス生成処理は、順位を付与したイン
デクスを生成することを特徴とする請求項６２に記載の
データ検索方法。
【請求項７５】前記インデクスには順位が付与されて
おり、前記検索処理において、その順位に基づいてキー列の全
部又は一部を前方列とする後方列の数を出力し、また、前記更新処理は、前記順位の更新も合わせて行な
うことを特徴とする請求項６３に記載のデータ処理方
法。
【請求項７６】前記インデクスには順位が付与されて
おり、前記検索処理において、その順位に基づいてキー列の全
部又は一部を前方列とする後方列の数を出力し、また、前記インデクス生成処理は、順位を付与したイン
デクスを生成し、前記更新処理は、前記順位の更新も合わせて行なうこと
を特徴とする請求項６４記載のデータ処理方法。