JPH08137914A

JPH08137914A - データ検索装置、データ処理装置、データ検索方法及びデータ処理方法

Info

Publication number: JPH08137914A
Application number: JP7233927A
Authority: JP
Inventors: Mutsumi Fujiwara; 睦藤原
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1994-09-13
Filing date: 1995-09-12
Publication date: 1996-05-31
Anticipated expiration: 2015-09-12
Also published as: JP2768921B2

Abstract

(57)【要約】【課題】検索用データの更新所要時間が短いデータ検
索装置を提供する【解決手段】区分手段４が、キー列による検索対象と
なるコード列１から、第１の部分列２と第２の部分列３
とを決定する。生成手段７が、前記各部分列について、
当該部分列の後方の部分である後方列と、その後方列の
先頭の前記コード列中における位置とを対照する辞書デ
ータ５，６を生成する。検索手段８が、前記辞書データ
に基づいて、キー列の全部又は一部を前方列とする後方
列を検索する。除去手段９が、前記後方列の重複検出を
除去する。変更手段１０によって前記コード列を変更す
ると、更新手段１１が、前記変更の内容に基づいて、変
更に係る前記部分列の辞書データを更新する。第１の維
持手段１２が、前記各境界の間隔を前記キー最大長以上
に維持し、第２の維持手段１３が、前記各境界の間隔を
所定の長さ以下に維持する。

Description

【発明の詳細な説明】

【０００１】

【発明が属する技術分野】本発明は、文字列などのコー
ド列のうち、キー列の全体又は一部を含む部分を検索す
る、データ検索装置及びデータ検索方法の改良に関す
る。また、本発明は、データを処理するデータ処理装置
及びデータ検索方法の改良に関する。

【０００２】

【従来の技術】従来から、文字列などのコード列から、
所定のキー列（パターン）の出現位置を全て発見する、
データ検索装置及びデータ検索方法が知られている。図
７５は、文字列ｓ中に存在するパターンｐの例を示す。
コード列の検索は、辞書・索引の応用分野であり、具体
的適用分野としてはテキストエディタ、テキストデータ
ベース、音声認識等のパターンマッチング、ＤＮＡ解析
等のパターン分析、データ圧縮(substitutional codin
g) などが挙げられる。

【０００３】コード列の検索の最も単純な手法は、コー
ド列の全ての部分を、キー列と順次照合することである
が、この手法は、検索所要時間が文字列ｓの長さに比例
して増大するという問題点を有していた。

【０００４】検索所要時間を文字列ｓの長さによらず、
パターンｐの出現回数に比例する程度に抑えるために
は、一次元の文字列ｓとは別に、検索用データを用意し
ておく手法が用いられる。検索用データの構造として
は、position tree (Majster, M.et. al. 1980), suffi
x tree (McCreght, E. 1976), directed acyclic word
graph (Blumer, A. et al. 1985) が知られる。

【０００５】これらのデータ構造は、（１）使用記憶領
域がコード列ｓの長さに比例する程度で、過度に増大し
ない、（２）検索所要時間もキー列ｐ（パターンＰ）の
長さと出現位置の数に比例する程度で、過度に増大しな
い、という優れた特長を有する。

【０００６】これらのデータ構造は、Trie(digital sea
rch tree) を基本構造とする。図７６に例示する様に、
Trieは、複数のノードをルートから末端まで樹状に接続
したデータ構造で、ルート（根）から末端ノード（葉）
に至るパスの各エッジにつけられたラベルが文字列ｗi
を綴り出す木構造である。これらのデータ構造では、葉
はある文字列ｗi （の終端）に対応する。また、根から
ある節ｘを経て葉に至るパスは、根から節ｘまでのパス
が綴り出す文字列をprefix（先頭側の部分文字列）とす
る文字列ｗi に対応する。

【０００７】従来のデータ構造であるposition tree, s
uffix tree, directed acyclic word graph は、上記の
Trieの応用である。

【０００８】このうち、position tree は、コード列ｓ
中の各位置から始まる同定部分列を文字列としたTrieで
ある。ここで、同定部分列とは、その位置固有の最も短
い文字列である。図７７は、コード列“ａｂｂａｂｂ
＄”に対する、位置と同定部分列の対照表（辞書）の例
である。この図において、記号“＄”は、位置を特定す
るためにコード列の終端に付加されたダミーコードであ
る。また、図７８は、コード列“ａｂｂａｂｂ＄”の辞
書を表すposition tree の例を示す。

【０００９】次に、suffix tree は、コード列ｓの各su
ffix（後方部分列）を文字列ｗi としたTrieであり、図
７９はsuffix tree の例を示す。suffix tree は、Trie
のうち最も単純なもので、このsuffix tree では、根
（ルート）から葉（末端ノード）に至るパスの各エッジ
につけられたラベルが、コード列ｓのsuffixを綴り出す
木構造Ｔである。suffix tree では、葉はあるsuffixの
終端（＝ｓの終端）に対応する。また、ｓの任意のsuff
ixに対して、Ｔは、根から葉に至るパスであってそれを
綴り出すものをもれなく含む。また、根からある節ｘを
経て葉に至るパスは、根から節ｘまでのパスが綴り出す
文字列をprefixとするコード列ｓのsuffixに対応する。

【００１０】directed acyclic word graph は、suffix
tree の特定のパスをマージ（共用）したもので、図８
０はdirected acyclic word graph の例を示す。

【００１１】

【発明が解決しようとする課題】しかしながら、従来の
データ構造では、コード列ｓを更新したとき、対応する
検索用データの更新所要時間が、コード列ｓの長さに比
例して増大していた。その理由は、例えばsuffix tree
においてはTrieはコード列ｓの全てのsuffixを反映して
おり、コード列ｓが一部でも変更されると、変更箇所以
前から開始する全てのsuffixが影響を受け、変更がTrie
全体に及ぶからである。この傾向は、変更箇所がコード
列ｓの終端に近いほど大きい。

【００１２】例えば、図７９において、コード列ｓの末
尾の“ｃ”を削除した場合、３つの辺（ｃ）が消去さ
れ、２つの辺のラベル（ａｂｃ）が変更される。この結
果、従来のデータ検索装置及びデータ検索方法では、デ
ータの更新所要時間が長く、更新が頻繁な用途において
は実用性が低いという問題点が存在していた。

【００１３】これに対して、コード列を複数の部分列に
区分し、各部分列に対して個別にTrieを作成しておくこ
とも考えられる。しかし、この場合も２つの問題点が存
在する。１つの問題点は、キー列に対応するコード列中
の部分が途中で前後に分断され、前部と後部がそれぞれ
別個のTrieに含まれた場合、当該部分をキー列で検索す
ることができないことである。

【００１４】もう１つの問題点は、可変長である各部分
列に対し、編集や検索などのデータ処理が効率的に行え
ないことである。例えば、部分列は、コード列の編集に
よって変化し可変長であるから、部分列に対する処理の
ためには、常に、各部分列とコード列中の位置を対照す
る必要がある。

【００１５】部分列に対する効率的なデータ処理の困難
さは、データ検索に限らず、データ圧縮や文字列編集な
ど、多くの情報処理分野に普遍的に存在する。部分列を
用いる情報処理の一例は、文字列（文章）の編集であ
る。

【００１６】データ列を計算機上で処理する際は、デー
タ列中の各データ値とそのデータ列中での位置を対照す
る必要が生じる。例えば、文字列の編集においては、文
字コード列のうち所定の順番（位置）のコードを得る必
要がしばしば生じる。例えば、文字列の１００文字目を
取り出すなどである。一方、編集操作によってコード列
中の特定のコードの位置は変化しうる。例えば、文字列
の先頭に１０文字の追加を行えば、それまでの文字列中
の文字コードの先頭からの位置はすべて１０（文字）増
加する。

【００１７】データ列中のデータの位置は、上記文字列
の場合の「何文字目」というような離散的な値に限られ
るものではなく、浮動小数点で表わされる実数の区間を
もって１つのデータ値が連続する範囲とする必要がある
場合も多い。例えばデジタル回路の信号値はＬ（ロ
ー）、Ｈ（ハイ）、F （フローティング、未定義）で表
わされるが、シミュレーション等でこれらの値の時系列
を扱う際には信号値の継続時間は実数値とし、計算機上
ではそれらを浮動小数点として扱うのが簡便である。こ
のような応用においては、文字列の場合と同様の編集が
行われるのはもちろん、任意の時点のデータ値だけでな
く、ある時点の値がどこまで継続するのか、またどこか
ら始まっているのか、２つの時点の間にデータ値の変化
が（何回）あるのか等の問い合わせにも迅速に答える必
要がある。

【００１８】ここで、部分列に対する効率的なデータ処
理の困難さを、単純な例によって説明する。この例は、
０，１又はＮのいずれかのコード値を取るコードの列で
あり、同一コード値は多くの場合、複数連続するものと
する。このような例は、少なくとも、ビットマップによ
るグラフィックス表示において存在し得る。このような
コードの列の具体例を次に示す。

【００１９】

【表１】位置データ −−−− −−−−− １０２０３０４Ｎ５Ｎ６０７０８０９０１０１１１１１２１１３１１４１１５１１６０

【００２０】この例では、区間［１．．３］に０、区間
［４．．５］にＮ、区間［６．．９］に０、区間［１
０．．１５］に１、区間［１６．．１６］に０が格納さ
れている。この例は、コード列が、連続している同一コ
ード値の列すなわち区間に区分されている状態と考える
こともできる。

【００２１】このようなデータをコンピュータで保持し
処理する手法として、まず、連続する番地のメモリにコ
ード値を順番通りに格納することが考えられる（第１の
手法）。第１の手法によって表１のコード列を表したも
のを図８１に示す。第１の手法では、各コード値の位置
が、当該コード値を格納する記憶領域の番地と、コード
列の記憶領域の先頭番地との、差に比例する。このた
め、特定位置のコード値のアドレスを、機械的な加減乗
除を用いて容易に算出することができる。

【００２２】すなわち、Ａをコード列の記憶領域の先頭
番地とした場合、コード値のアドレスは、

【数１】アドレス＝位置＋Ａ−１となる。

【００２３】しかし、この手法には次の問題点が存在す
る。（１）データがコード数分のメモリを占有するので、メ
モリ効率が悪い。特に、同一コード値が多数連続する場
合、メモリは無駄に浪費されることとなる。（２）データが複数のコードごとに別個に格納されてい
るので、同一コード値の連続範囲の特定に長時間を要す
る。すなわち、連続範囲を特定するためには、前後のコ
ード値を読み出しながら連続範囲をカウントする必要が
ある。（３）部分列の長さ変更を伴う編集の際には、変更対象
位置以降の全てのデータを記憶領域上で前方又は後方へ
移動させるため、処理に長時間を要する。例えば、図８
２は、時点５（番地はＡ＋４）のコード値Ｎの直後にコ
ード値１の区間［６．．８］を挿入する場合を示す。こ
の場合、この図に示すように、番地Ａ＋５からＡ＋１５
までのデータを番地Ａ＋８からＡ＋１８の領域に転送す
るという繁雑な処理を要する。

【００２４】（４）コードの単位に対応する記憶領域が
コード数分すなわち位置の数だけ必要なため、記憶領域
を制限すればコードの単位ごとの情報量が制限される。
一方、コードの単位ごとの最大の情報量を増やせば、膨
大な記憶領域を消費する。すなわち位置の数が少なくな
って精度＝位置の刻みが大まかになる。逆に位置の精度
を上げる、つまり位置の刻みを細かくすれば位置の数が
増えて膨大な記憶領域を要する。このため、実際的には
整数のような離散的な長さ（位置）しか扱えない。次
に、他の手法として、コード値と、当該コード値が連続
して存在する部分列の範囲とのペアを、連続する記憶領
域に部分列の並び順に格納することも考えられる（第２
の手法）。図８３は、表１のコード列を、第２の手法に
よって格納したデータを示す。

【００２５】第２の手法によれば、コード値が連続する
区間を単位としてメモリが利用されるので、所要メモリ
量が位置の数ではなく区間の数に比例し、メモリ効率は
向上する。また、同一コード値の連続範囲は、データか
ら端的に得られる。さらに、区間による長さの精度（長
さの種類＝離散的か連続的か）の相違が一層許容され、
例えば、浮動小数点の処理が容易になる。

【００２６】しかし、この場合も、部分列（区間）の長
さや部分列の個数を変更するには、変更箇所以降の全て
の部分列の範囲のデータを書き替えるという繁雑な処理
を要する。さらに、この手法では、特定位置のコード値
を得るには、二分法などを用いてその位置を範囲のデー
タから探索しなければならない。

【００２７】二分法を用いる場合、二分探索木を用いれ
ば処理が効率化できる。すなわち、コード列の中ほどの
部分列をルートノードとする。また、部分列の範囲のデ
ータと、当該部分列のコード値を各ノードに持たせる。
部分列の範囲のデータは、範囲の始点と終点によって表
してもよいし、また、範囲の始点のみとして、終点は次
の部分列のノードが持つ始点に基づいて得てもよい。図
８４は、このような従来の手法において、表１に対応す
る部分木の例である。この図では、各ノードに、対応す
る部分列の始点位置と（円内）、当該部分列のコード値
（各円の下方）が割り当てられる。

【００２８】そして、一のノードの末端側に位置する各
ノードからなる部分木は、一方（例えば図において左）
の部分木が前記一のノードよりも前の部分列、右の部分
木は前記一のノードよりも後の部分列に対応する。しか
し、この場合も、部分列の位置の変更の際は、変更箇所
以降の範囲のデータを全て変更するという煩雑な処理を
要する。

【００２９】また、コード値と、当該コード値が連続し
て存在する部分列の長さとのペアを、連続する記憶領域
に部分列の並び順に格納することも考えられる（第３の
手法）。図８５は、従来の第３の手法におけるデータの
例である。この場合、部分列の伸縮の際に当該区間の長
さの変更のみで足りるという利点はあるが、特定位置の
コードを得るためには、先頭又は末尾から区間の長さの
加算を続けるという煩雑な処理を要する。また、特定の
区間に関する情報のみからは、当該区間の区間長しか知
ることができないので、この場合二分法を使うこともで
きない。

【００３０】また、各区間のデータとして、連続領域で
はなくリスト構造(linear list) を用いれば、不連続な
領域をポインタで接続することによってデータを表すこ
とができる（第４の手法）。図８６は、従来の第４の手
法におけるデータ構造を示す。

【００３１】第４の手法によれば、任意の区間の追加・
削除・分割・併合の際にメモリ上でデータを転送する必
要がなくなるので、データ処理が効率化される。しか
し、この場合、任意の位置の検索について区間長の積算
をしなければならない点は解決しない。

【００３２】本発明は、上記のような従来技術の問題点
を解決するために提案されたもので、その目的は、検索
用データの更新所要時間が短いデータ検索装置及びデー
タ検索方法を提供することである。また、本発明の他の
目的は、単純な構成又は処理手順のデータ検索装置及び
データ検索方法を提供することである。また、本発明の
他の目的は、検索を高速に行うデータ検索装置及びデー
タ検索方法を提供することである。また、本発明の他の
目的は、効率的にデータを処理するデータ処理装置及び
データ処理方法を提供することである。このデータ処理
装置及びデータ処理方法は、前記データ検索装置及びデ
ータ検索方法の実施に特に適したものである。さらに具
体的には、本発明の他の目的は、データ変更の手続が簡
潔なデータ処理装置及びデータ処理方法を提供すること
である。また、本発明の他の目的は、メモリを効率的に
利用するデータ処理装置及びデータ処理方法を提供する
ことである。

【００３３】

【課題を解決するための手段】上記の目的を達成するた
め、請求項１のデータ検索装置は、キー列による検索対
象となるコード列から、第１の境界によって区分されキ
ー列の最大長であるキー最大長より長い又は等しい複数
の第１の部分列と、第２の境界によって区分され前記第
１の境界の前後少なくともキー最大長又はその直前ずつ
にわたる第２の部分列と、を決定する区分手段と、前記
各部分列について、当該部分列の後方の部分である後方
列と、その後方列の先頭の前記コード列中における位置
とを対照する辞書データを生成する生成手段と、前記辞
書データに基づいて、キー列の全体又は一部を前方列と
する後方列を検索する検索手段と、前記コード列を変更
する変更手段と、前記変更の内容に基づいて、変更に係
る前記部分列の辞書データを更新する更新手段と、前記
各境界の間隔を前記キー最大長又はその直前以上維持す
る第１の維持手段と、を有することを特徴とする。

【００３４】また、請求項３７のデータ検索方法は、請
求項１の発明を方法の観点から把握したものであって、
キー列による検索対象となるコード列から、第１の境界
によって区分されキー列の最大長であるキー最大長より
長い又は等しい複数の第１の部分列と、第２の境界によ
って区分され前記第１の境界の前後少なくともキー最大
長又はその直前ずつにわたる第２の部分列と、を決定す
る区分処理と、前記各部分列について、当該部分列の後
方の部分である後方列と、その後方列の先頭の前記コー
ド列中における位置とを対照する辞書データを生成する
生成処理と、前記辞書データに基づいて、キー列の全体
又は一部を前方列とする後方列を検索する検索処理と、
前記コード列を変更する変更処理と、前記変更の内容に
基づいて、変更に係る前記部分列の辞書データを更新す
る更新処理と、前記各境界の間隔を前記キー最大長又は
その直前以上維持する第１の維持処理と、を含むことを
特徴とする。

【００３５】請求項１、３７の発明によれば、第１と第
２の境界がキー最大長以上ずれているので、コード列の
うちキー最大長以下のいかなる部分も、第１の境界と第
２の境界の双方によって同時に分断されることがない。
このため、コード列のうち、キー列の全体又は一部と同
一の部分は、少なくともいずれか一つの辞書データには
完全な形で含まれ、各辞書データに基づく検索によって
発見することができる。

【００３６】また、請求項１、３７の発明では、検索用
データが、辞書データとして、部分列ごとに細分化され
ている。このため、コード列の変更があっても、検索用
データ全体の更新は不要で、変更に影響される部分列の
辞書データのみ更新すれば足りる。したがって、従来よ
りも更新所要時間が短縮できる。この更新所要時間は、
変更に影響される部分列の長さに比例し、コード列全体
の長さには比例しない。このため、請求項１、３７の発
明は、更新が頻繁に行われる用途においても実用に耐え
る。

【００３７】また、請求項２記載の発明は、請求項１記
載のデータ検索装置において、前記区分手段は、前記コ
ード列について、前記第１の境界と前記第２の境界を交
互に、かつ、境界間のコード数がキー最大長又はその直
前以上になるように設定することによって、前記決定を
行うように構成されたことを特徴とする。

【００３８】また、請求項３８の発明は、請求項２の発
明を方法の観点から把握したものであって、請求項３７
記載のデータ検索方法において、前記区分処理は、前記
コード列について、前記第１の境界と前記第２の境界を
交互に、かつ、境界間のコード数がキー最大長又はその
直前以上になるように設定することによって、前記決定
を行うことを特徴とする。

【００３９】請求項２、３８の発明では、第１及び第２
の部分列の決定を、第１及び第２の境界を交互に設定す
るという単純な規則的処理で決定することができる。

【００４０】また、請求項３記載の発明は、請求項１記
載のデータ検索装置において、前記辞書データはサフィ
ックス・ツリーであり、このツリーは、ルートから末端
ノードに至る複数のノードを有するデータ構造で、末端
ノード以外の各ノードは、経路を表すエッジで１又は２
以上の末端側のノードに接続され、各エッジにはラベル
が設定され、部分列の各後方列にはそれぞれ終端ノード
が対応し、ルートから前記各終端ノードに至るパスのラ
ベルを順次接続すると部分列の各後方列となることを特
徴とする。

【００４１】また、請求項３９の発明は、請求項３の発
明を方法の観点から把握したものであって、請求項３７
記載のデータ検索方法において、前記辞書データはサフ
ィックス・ツリーであり、このツリーは、ルートから末
端ノードに至る複数のノードを含むデータ構造で、末端
ノード以外の各ノードは、経路を表すエッジで１又は２
以上の末端側のノードに接続され、各エッジにはラベル
が設定され、部分列の各後方列にそれぞれ特定の終端ノ
ードが対応し、ルートからそれら終端ノードに至るパス
のラベルを順次接続すると部分列の各後方列となること
を特徴とする。

【００４２】請求項３、３９の発明では、辞書データ
が、サフィックス・ツリーというツリー構造データの形
式で構成される。このため、ツリーをキー列のコードに
基づいて辿ることによって、キー列の全体又は一部を前
方列とする後方列を高速に検索でき、また、テーブル形
式よりも、小さなデータサイズで辞書データが実現でき
る。

【００４３】また、請求項４記載の発明は、請求項３記
載のデータ検索装置において、前記各ラベルは、前記コ
ード列の１単位ずつであることを特徴とする。

【００４４】請求項４の発明では、各ラベルは、コード
列の１単位ずつであるため、ラベルのコード数が不統一
である場合と比べて、処理手順が単純化される。

【００４５】また、請求項５記載の発明は、請求項３記
載のデータ検索装置において、前記検索手段は、前記キ
ー列の各コードに基づいて前記ツリーのパスを辿ること
によって、キー列に最も長くパスが一致するノードを検
出し、このノードの末端側に位置する各終端ノードに対
応する後方列について、位置を特定することによって検
索を行うように構成されたことを特徴とする。

【００４６】また、請求項４０の発明は、請求項５の発
明を方法の観点から把握したものであって、請求項３９
記載のデータ検索方法において、前記検索処理は、前記
キー列の各コードに基づいて前記ツリーのパスを辿るこ
とによって、キー列に最も長くパスが一致するノードを
検出し、このノードの末端側に位置する各終端ノードに
対応する後方列について、位置を特定することによって
検索を行うことを特徴とする。

【００４７】請求項５、４０の発明では、検索手段が、
ツリーのうち、キー列に一致するパスが一致する最後の
ノードである最終一致ノードまではパスを辿る。このた
め、キー列の全体を含む後方列の位置のみならず、キー
列の一部を含む後方列も検索される。しかも、キー列の
一部を含む後方列のうち一致コード数が最大のものを特
定するので、キー列の全体を発見できない場合でも、キ
ー列と最も関連性の高い後方列が得られる。

【００４８】また、請求項６記載の発明は、請求項３記
載のデータ検索装置において、前記ツリーは、部分列の
終端を指すポインタを、部分列である後方列に対応する
終端ノードにのみ設定し、部分列である後方列及び他の
各後方列については、１コード短い後方列の終端ノード
への第２のエッジを設定したことを特徴とする。

【００４９】また、請求項４１の発明は、請求項６の発
明を方法の観点から把握したものであって、請求項３９
記載のデータ検索方法において、前記ツリーは、部分列
の終端を指すポインタを、部分列である後方列の終端ノ
ードにのみ設定し、部分列である後方列及び他の各後方
列については、当該後方列よりも１コード短い後方列の
終端ノードへの第２のエッジを設定したことを特徴とす
る。

【００５０】請求項６、４１の発明では、ポインタのな
い任意の終端ノードから、ポインタのある末端ノードま
での第２のエッジの数は、両ノードに対応する２つの後
方列の位置の差と同じである。このため、検索時には、
この差に基づいて部分列中での後方列の開始位置が特定
でき、位置を特定するために後方列ごとにツリーを遡る
煩雑な処理が不要となる。

【００５１】また、コード列の変動によって部分列の位
置が変動した場合も、唯１つのポインタを変更すれば足
り、終端ノードと同数のポインタを変更するよりも、処
理が高速化される。この利点は、複数の辞書データを一
体のツリーによって実現し、ツリー内のデータ構造が複
雑化した時に、特に実益がある。

【００５２】また、請求項７記載の発明は、請求項６記
載のデータ検索装置において、前記第２のエッジには、
当該エッジが結ぶ両終端ノードの両後方列の相違となる
コードをラベルとして設定したことを特徴とする。

【００５３】請求項７の発明では、第２のエッジに、後
方列間において有無が異なるコードをラベルとして設定
するので、ポインタのある終端ノード側から第２のエッ
ジをルート側に遡りながらラベルを接続することによっ
てコード列を復元することができる。

【００５４】また、請求項８記載の発明は、請求項１又
は３記載のデータ検索装置において、前記検索手段は、
検索結果である後方列について、キー列と一致したコー
ド数を出力するように構成されたことを特徴とする。

【００５５】請求項８の発明では、前記検索手段は、検
索結果である後方列とキー列との一致コード数を出力す
るので、一致の程度の判断が容易になる。

【００５６】また、請求項９記載の発明は、請求項１又
は３記載のデータ検索装置において、前記検索手段は、
検索結果である後方列がキー列の全体を含むときは、そ
の旨を出力するように構成されたことを特徴とする。

【００５７】請求項９の発明では、前記検索手段は、後
方列はキー列の全体を含むときは、その旨を出力するの
で、検索結果の利用が容易になる。

【００５８】また、請求項１０記載の発明は、請求項１
又は３記載のデータ検索装置において、前記後方列の重
複検出を除去する除去手段を有することを特徴とする。

【００５９】また、請求項４２の発明は、請求項１０の
発明を方法の観点から把握したものであって、請求項３
７又は３９記載のデータ検索方法において、前記後方列
の重複検出を除去する除去処理を含むことを特徴とす
る。

【００６０】請求項１０、４２の発明では、後方列の重
複検出が除去されるので、位置の重複によって検索結果
が混乱することはない。

【００６１】また、請求項１１記載の発明は、請求項１
又は３記載のデータ検索装置において、前記更新手段
は、変更の結果追加すべき後方列を前記辞書データに追
加登録した後、変更の結果削除すべき後方列を前記辞書
データから削除するように構成されたことを特徴とす
る。

【００６２】請求項１１の発明では、更新の際、データ
の追加を削除よりも先に行うので、削除後に追加する場
合と比べ、利用可能なデータの部分は更新後もそのまま
利用でき、変更の所要時間が短縮される。

【００６３】また、請求項１２記載の発明は、請求項１
又は３記載のデータ検索装置において、前記更新手段
は、更新の際、登録しようとする後方列が辞書データに
登録済か否かを検出し、未登録の後方列のみを登録する
ように構成されたことを特徴とする。

【００６４】請求項１２の発明では、前記更新手段は、
更新の際、登録しようとする後方列が辞書データに登録
済か否かを検出し、未登録の後方列のみを登録するの
で、辞書データ全体を再度生成する場合と比べて、更新
所要時間が短縮される。なお、この場合請求項７の発明
を使用すると効率的である。

【００６５】また、請求項１３記載の発明は、請求項１
又は３記載のデータ検索装置において、前記第１の維持
手段は、前記境界の間隔がキー最大長未満になった場
合、当該間隔に係るいずれかの境界のうち、消去の結果
一体化する部分列が短い方の境界を消去するように構成
されたことを特徴とする。

【００６６】また、請求項４３の発明は、請求項１３の
発明を方法の観点から把握したものであって、請求項３
７又は３９記載のデータ検索方法において、前記第１の
維持処理は、前記境界の間隔がキー最大長未満になった
場合、当該間隔に係るいずれかの境界のうち、消去の結
果一体化する部分列が短い方の境界を消去することを特
徴とする。

【００６７】請求項１３、４３の発明では、第１の維持
手段は、境界間隔がキー最大長未満になった場合、当該
間隔に係るいずれかの境界のうち、消去の結果一体化す
る部分列が短い方の境界を消去する。このため、一体化
した部分列のサイズが増大して更新所要時間が増大する
こともない。

【００６８】また、請求項１４記載の発明は、請求項１
又は３記載のデータ検索装置において、前記各部分列の
長さを所定の長さ以下に維持する第２の維持手段を有す
ることを特徴とする。

【００６９】請求項１４の発明では、第２の維持手段
が、境界間隔を所定の長さ以下に維持するので、コード
列の変更によって辞書データのサイズが増大し、更新所
要時間が増大することがない。

【００７０】また、請求項１５記載の発明は、請求項１
又は３記載のデータ検索装置において、前記辞書データ
に基づいて部分列を復元する復元手段を有することを特
徴とする。

【００７１】請求項１５の発明では、復元手段が、辞書
データに基づいて部分列を復元するので、ツリーの元と
なった部分列自体の保存が不要となり、記憶領域が節約
できる。この復元は、元のコード列の長さに比例しない
時間で行うことができるので、処理を効率化する。な
お、この場合請求項７の発明を使用すると効率的であ
る。

【００７２】また、請求項１６記載の発明は、請求項１
又は３記載のデータ検索装置において、複数の部分列の
各辞書データを、単一のツリーとして生成することを特
徴とする。

【００７３】また、請求項４４の発明は、請求項１６の
発明を方法の観点から把握したものであって、請求項３
７又は３９記載のデータ検索方法において、複数の部分
列の各辞書データを、単一のツリーとして生成すること
を特徴とする。

【００７４】請求項１６、４４の発明では、複数の部分
列の各辞書データを、単一のツリーとして生成する。こ
のため、辞書データごとに独立したツリーを生成した場
合と比べ、必要なツリーの数が減少し、メモリが節約さ
れる。特に、同一又は類似の部分を複数含むコード列に
効果的である。

【００７５】また、請求項１７記載の発明は、請求項１
又は３記載のデータ検索装置において、前記キー列を複
数の部分キー列に区分するキー区分手段を有し、前記検
索手段は、前記部分キー列の全体又は一部を前方列とす
る後方列を検索するように構成されたことを特徴とす
る。

【００７６】請求項１７の発明では、キー区分手段が、
キー列を複数の部分キー列に区分し、検索手段は、前記
部分キー列の全体又は一部を前方列として含む後方列を
検索する。この場合、各部分キー列は、境界によって分
断されなければ検出できるので、キー最大長は部分キー
列の最大長となる。このため、キー最大長が短縮され、
辞書データがコンパクト化される。逆に、一定のキー最
大長が設定されている場合でも、各部分キー列をキー最
大長以下にすれば、キー最大長より長いキー列に基づい
た検索が可能である。

【００７７】また、請求項１８のデータ処理装置は、１
又は２以上の区間を含むコード列の各区間に基づいて各
区間の範囲を表す二分木を生成する二分木生成手段を有
し、前記二分木は各区間に対応するノードを有し、各ノ
ードはルートから末端側に向けて樹状に接続され、各ノ
ードの末端側には、当該ノードに対応する区間以前の区
間に対応するノードである前方ノード及び当該ノードに
対応する区間以降の区間に対応するノードである後方ノ
ードのうち該当するものが接続され、各ノードには、当
該ノード及び当該ノードより末端側に存在する各ノード
に対応する区間の区間長の合計である部分区間長が設定
されたことを特徴とする。

【００７８】また、請求項４５のデータ処理方法は、請
求項１８の発明を方法の観点から把握したものであっ
て、１又は２以上の区間を含むコード列の各区間に基づ
いて各区間の範囲を表す二分木を生成する二分木生成処
理を含み、前記二分木は各区間に対応するノードを有
し、各ノードはルートから末端側に向けて樹状に接続さ
れ、各ノードの末端側には、当該ノードに対応する区間
以前の区間に対応するノードである前方ノード及び当該
ノードに対応する区間以降の区間に対応するノードであ
る後方ノードのうち該当するものが接続され、各ノード
には、当該ノード及び当該ノードより末端側に存在する
各ノードに対応する区間の区間長の合計である部分区間
長が設定されたことを特徴とする。

【００７９】請求項１８、４５の発明では、検索などの
処理においては、各ノードのコード列中の位置は当該ノ
ードの前方（後方）ノードの区間長に基づいて算出で
き、また、ノードの区間長から前方ノードと後方ノード
の区間長を減ずることによって当該ノードの正味の区間
長を算出できる。このため、コード列の任意の位置（指
定位置）のコードは、指定位置と各ノードの位置・区間
長を比較することによって容易に特定することができ
る。

【００８０】そして、各ノードの位置関係はノード間の
相互関係で表され、各ノードの位置は他のノードに関す
る部分区間長に基づいて算出される。このため、区間の
一部の変更に際しても、変更の影響の波及範囲は変更さ
れたノードやそのノードからルート側の部分に局限され
るので、変更の手続が簡潔で済む。

【００８１】また、請求項１８、４５の発明では、区間
ごとにノードが設定されるので、ノードを格納するため
のデータブロックは区間と同数あれば足り、データがコ
ード数分のメモリを占有することがない。このため、メ
モリ効率が向上する。特に、二分木は、各ノードのため
のデータ格納領域をポインタで接続することによって構
成することができるので、コード列が長大な場合でも膨
大な連続領域を確保する必要がなくなり、メモリを効率
よく利用できる。また、区間ごとに長さの精度が異なる
データを扱うこともできるので、浮動小数点など自由な
種類のデータを効率よく処理できる。

【００８２】また、請求項１９の発明は、請求項１８記
載のデータ処理装置において、前記コード列中の任意の
位置である指定位置が属する区間を特定するための区間
検索手段を有し、この区間検索手段は、所定のポインタ
が指すノードであるカレントノードを前記ルートから前
記末端側へ順次移動し、各カレントノードにおいて、カ
レントノード及び、カレントノードの末端側に直接接続
されている前記前方ノード乃至前記後方ノードのうち少
なくとも一方、の区間長に基づいてカレントノードの範
囲を算出し、算出した範囲と前記指定位置を比較し、算
出した範囲よりも指定位置が前方の場合は、カレントノ
ードの前方ノードにカレントノードを進め、算出した範
囲よりも指定位置が後方の場合は、カレントノードの後
方ノードにカレントノードを進め、算出した範囲に指定
位置が含まれる場合は、指定位置がカレントノードに含
まれると特定するように構成されたことを特徴とする。

【００８３】また、請求項４６の発明は、請求項１９の
発明を方法の観点から把握したものであって、請求項４
５記載のデータ処理方法において、前記コード列中の任
意の位置である指定位置が属する区間を特定するための
区間検索処理を含み、この区間検索処理は、所定のポイ
ンタが指すノードであるカレントノードを前記ルートか
ら前記末端側へ順次移動し、各カレントノードにおい
て、カレントノード及び、カレントノードの末端側に直
接接続されている前記前方ノード乃至前記後方ノードの
うち少なくとも一方、の区間長に基づいてカレントノー
ドの範囲を算出し、算出した範囲と前記指定位置を比較
し、算出した範囲よりも指定位置が前方の場合は、カレ
ントノードの前方ノードにカレントノードを進め、算出
した範囲よりも指定位置が後方の場合は、カレントノー
ドの後方ノードにカレントノードを進め、算出した範囲
に指定位置が含まれる場合は、指定位置がカレントノー
ドに含まれる、と特定することを特徴とする。

【００８４】請求項１９、４６の発明では、区間検索手
段が、カレントノードをルートから順次下位側に移動さ
せながらカレントノードの範囲と指定位置を比較すると
いう簡潔な手順によって、指定位置が属する区間を特定
するので、容易に検索などの処理を行うことができる。

【００８５】請求項１９、４６の発明は、カレントノー
ドの範囲の算出に、後方ノードの区間長を用いること
で、左右対象に適用することができる。

【００８６】また、請求項２０の発明は、請求項１８記
載のデータ処理装置において、前記二分木中の任意のノ
ードである指定ノードに対応する区間を特定するための
特定手段を有し、この特定手段は、所定のポインタが指
すノードであるカレントノードを、前記指定ノードから
前記カレントノードの上位ノードである親ノードの方向
へ前記ルートまで順次移動し、前記各移動について、当
該移動前の前記カレントノードである子ノードが、当該
移動後の前記親ノードに対して前記前方ノードであるか
前記後方ノードであるかに応じて、ノードの区間長及び
前記前方ノード又は前記後方ノードの部分区間長を順次
加算し、Ｌ−Ｃ−Ｒ順において前記指定ノード以前の総
区間長である左区間長又はＬ−Ｃ−Ｒ順において前記指
定ノード以降の総区間長である右区間長のうち少なくと
も一方を算出することによって前記指定ノードに対応す
る区間を特定するように構成されたことを特徴とする。

【００８７】また、請求項４７の発明は、請求項２０の
発明を方法の観点から把握したものであって、請求項４
５記載のデータ処理方法において、前記二分木中の任意
のノードである指定ノードに対応する区間を特定するた
めの特定処理を含み、この特定処理は、所定のポインタ
が指すノードであるカレントノードを、前記指定ノード
から前記カレントノードの上位ノードである親ノードの
方向へ前記ルートまで順次移動し、前記各移動につい
て、当該移動前の前記カレントノードである子ノード
が、当該移動後の前記親ノードに対して前記前方ノード
であるか前記後方ノードであるかに応じて、ノードの区
間長及び前記前方ノード又は前記後方ノードの部分区間
長を順次加算し、Ｌ−Ｃ−Ｒ順において前記指定ノード
以前の総区間長である左区間長又はＬ−Ｃ−Ｒ順におい
て前記指定ノード以降の総区間長である右区間長のうち
少なくとも一方を算出することによって前記指定ノード
に対応する区間を特定することを特徴とする。

【００８８】請求項２０、４７の発明では、カレントノ
ードを指定ノードからルートまで移動させながら、移動
方向に応じてノードの（正味）区間長及び前記前方ノー
ド又は前記後方ノードの部分区間長を順次加算する。こ
れによって、指定ノードの区間の位置を、Ｌ−Ｃ−Ｒ順
における区間の左又は右の区間長を通じて特定する。請
求項２０、４７の発明では、このような簡潔な手順によ
って、指定ノードの区間の位置が特定されるので、容易
に各種処理を行うことができる。

【００８９】また、請求項２１の発明は、請求項１８記
載のデータ処理装置において、前記二分木中の任意のノ
ードである指定ノードに対応する区間を特定するための
特定手段を有し、この特定手段は、前記指定ノードをsp
layingによって前記ルートへ移動するように構成された
ことを特徴とする。

【００９０】請求項２１の発明では、指定ノードがルー
トへ移動する結果、ルートとなった指定ノードが表す区
間は、二分木全体に係る区間の左端を０とした場合、始
端が指定ノードの左の子の部分区間長の次（＋１）であ
り、終端が、指定ノードの部分区間長から指定ノードの
右の子の部分区間長を減じた値の位置となり、容易に特
定される。

【００９１】また、請求項２２の発明は、請求項１８記
載のデータ処理装置において、前記区間が変更された場
合に変更の内容に応じて前記二分木を更新する二分木更
新手段を有することを特徴とする。また、請求項４８の
発明は、請求項２２の発明を方法の観点から把握したも
のであって、請求項４５、４６又は４７記載のデータ処
理方法において、前記区間が変更された場合に変更の内
容に応じて前記二分木を更新する二分木更新処理を含む
ことを特徴とする。

【００９２】請求項２２、４８の発明では、区間の変更
の場合に、二分木更新手段が二分木を更新するので、二
分木の生成をやり直す必要がない。

【００９３】また、請求項２３の発明は、請求項２２記
載のデータ処理装置において、前記二分木更新手段は、
前記区間長を変更する区間長変更手段と、前記区間が削
除された場合に削除された区間に対応する前記ノードを
前記二分木から削除する削除手段と、区間が追加された
場合に追加された区間に対応するノードを前記二分木に
追加する追加手段と、を有することを特徴とする。ま
た、請求項４９の発明は、請求項２３の発明を方法の観
点から把握したものであって、請求項４８記載のデータ
処理方法において、前記二分木更新処理は、前記区間長
を変更する区間長変更処理と、前記区間が削除された場
合に削除された区間に対応する前記ノードを前記二分木
から削除する削除処理と、区間が追加された場合に追加
された区間に対応するノードを前記二分木に追加する追
加処理と、を含むことを特徴とする。

【００９４】請求項２３、４９の発明では、区間の長さ
変更・削除・追加という区間の変更の内容に応じて、そ
れぞれ区間長変更手段・削除手段・追加手段が二分木を
更新する。このため、これらの手段を組み合わせること
によってコード列の一部の置き換えなど複雑な処理を行
うことができる。

【００９５】また、請求項２４の発明は、請求項２３記
載のデータ処理装置において、前記区間長変更手段は、
長さを変更する前記区間の前記ノードから前記ルートへ
至る各ノードの前記部分区間長を、変更分だけ順次変更
するように構成されたことを特徴とする。請求項２４の
発明では、区間の長さが変更された場合でも、変更され
た区間のノードからルートまでのノードを変更すれば足
りる。このため、従来のように、変更された区間以降の
区間に対応する全ノードを記憶領域上で移動させる必要
がないので、データ処理が効率化される。

【００９６】また、請求項２５の発明は、請求項２３記
載のデータ処理装置において、前記区間長変更手段は、
長さを変更しようとする前記区間の前記ノードをsplayi
ngによって前記ルートへ移動し、前記ルートとなった当
該ノードの前記部分区間長を変更分だけ増減するように
構成されたことを特徴とする。

【００９７】請求項２５の発明によれば、ルート以外の
部分区間長を変更する必要がないので、処理が間略化さ
れる。

【００９８】また、請求項２６の発明は、請求項２３記
載のデータ処理装置において、前記追加手段は、追加さ
れる前記区間に対応する前記ノードを前記二分木に追加
し、各ノードの結合順序を調整し、各ノードについて前
記区間長の調整を行うように構成されたことを特徴とす
る。請求項２６の発明では、追加手段がノードの結合順
序や区間長を調整するので、二分木の整合性が維持され
る。

【００９９】また、請求項２７の発明は、請求項２６記
載のデータ処理装置において、前記追加手段は、前記区
間長の調整において、追加した前記ノードの前記部分区
間長を、当該ノードの部分区間長及び当該ノードの前記
下位ノードの部分区間長の和とし、追加したノードが下
位ノードとして直接接続されているノードである親ノー
ドから前記ルートに至る経路上の各ノードについて、追
加したノードの区間長だけ部分区間長を加算するように
構成されたことを特徴とする。請求項２７の発明では、
区間の追加の場合も、追加されたノードの親ノードから
ルートまでの区間長を加算するという単純な処理で区間
長を調整することができる。

【０１００】また、請求項２８の発明は、請求項２３記
載のデータ処理装置において、前記追加手段は、追加し
ようとするノードの直前及び直後のノードをsplayingに
よって前記ルートに順次移動し、前記直前のノードの直
後に相当する位置又は前記直後のノードの直前に相当す
る位置に、前記追加される区間に対応する前記ノードを
追加し、前記直前若しくは直後のノード又は前記追加し
たノードのうち必要なノードについて、追加したノード
の区間長だけ部分区間長を加算するように構成されたこ
とを特徴とする。

【０１０１】請求項２８の発明では、部分区間長の変更
（増加）はルートを中心とした少数のノードについて行
なえばよく、手順が間略化される。

【０１０２】また、請求項２９の発明は、請求項２３記
載のデータ処理装置において、前記追加手段は、追加さ
れる前記区間に対応する前記ノードを、当該ノードの区
間長を０として前記二分木に追加し、追加した当該ノー
ドをsplayingによって前記二分木のルートに移動し、ル
ートに移動した当該ノードの部分区間長を、追加した区
間の区間長だけ増加させるように構成されたことを特徴
とする。

【０１０３】請求項２９の発明では、所望の追加アルゴ
リズムを用いながら、ノードの部分区間長の増加を１度
だけ行なえばよいので、処理が迅速化される。

【０１０４】また、請求項３０の発明は、請求項２３記
載のデータ処理装置において、前記削除手段は、削除す
る前記区間に対応する前記ノードを前記二分木から削除
し、各ノード間の結合関係を調整し、各ノードについて
前記区間長の調整を行うように構成されたことを特徴と
する。請求項３０の発明では、削除手段がノードの結合
順序や区間長を調整するので、残りの区間の順序など二
分木の整合性が維持される。

【０１０５】また、請求項３１の発明は、請求項２３記
載のデータ処理装置において、前記削除手段は、削除す
る前記区間に対応する前記ノードをsplayingによってル
ートに移動し、削除すべきノードの直前又は直後のノー
ドをsplayingによってルートに移動し、ルートとなった
前記直前又は直後のノードの部分区間長を、前記削除す
べきノードの区間長だけ減じ、前記削除すべきノードを
削除するように構成されたことを特徴とする。

【０１０６】請求項３１の発明では、削除の際の部分区
間長の調整の対象がルートのノードに限定されるので、
処理が迅速化される。

【０１０７】また、請求項３２の発明は、請求項２２記
載のデータ処理装置において、前記各ノード間の結合順
序を変更することによって、前記二分木の構造を調整す
る構造調整手段を有することを特徴とする。また、請求
項５０の発明は、請求項３２の発明を方法の観点から把
握したものであって、請求項４８記載のデータ処理方法
において、前記各ノード間の結合順序を変更することに
よって、前記二分木の構造を調整する構造調整処理を含
むことを特徴とする。

【０１０８】請求項３２、５０の発明によれば、構造調
整によって、二分木の一部のみが突出することがなくな
り、データ処理で参照されるルートから各ノードに至る
パスの長さが平均化される。このため、データ処理で対
象とするノードまでのパスが偶然に長いためにデータ処
理に長時間を要する事態が防止され、検索や変更などの
データ処理が効率化される。

【０１０９】また、請求項３３の発明は、請求項３２記
載のデータ処理装置において、前記構造調整手段は、構
造調整の手順の単位として、前記二分木の前記ノードの
順序を維持して構造を変化させる処理であるrotation、
double rotation (zig-zig)及びdouble rotation (zig-
zag) を用いることを特徴とする。請求項３３の発明で
は、二分木の所定の範囲について構造を変化させる異な
った複数の処理を組み合わせて構造調整が行われるの
で、二分木の状態に応じた内容の構造調整を行うことが
できる。

【０１１０】また、請求項３４の発明は、請求項３２記
載のデータ処理装置において、前記構造調整手段は、任
意の前記ノードである対象ノードを前記ルートへ移動す
るsplayingを用いて前記二分木の構造を調整するように
構成されたことを特徴とする。

【０１１１】請求項３４の発明では、splayingによって
対象ノードがルートに移動するとともに、対象ノードか
らもとのルートに至るパス上に位置していた各ノードか
らルートに至るパスの長さが大部分短縮される。このた
め、二分木に対する各種処理が迅速化される。

【０１１２】また、請求項３５の発明は、請求項１９記
載のデータ処理装置において、前記コード列として複数
行を含むテキストを用い、前記区間としてテキストに含
まれる各行を用い、前記二分木生成手段は、テキストの
１又は２以上の行に対応する各ノードによって各行の順
序を表す第１の二分木と、各行ごとの１又は２以上の文
字に対応する各ノードによって各行のコード順を表す第
２の二分木と、を生成するように構成されたことを特徴
とする。

【０１１３】請求項３５の発明では、各行の順序を表す
二分木と各行ごとの内容を表す二分木が別個独立に形成
される。このため、各行の順序又は行の内容の一方を変
更する場合に他方の内容を変更する必要がなく、テキス
トの処理を効率的に行うことができる。

【０１１４】また、請求項３６のデータ処理装置は、請
求項１９記載のデータ処理装置において、前記コード列
として、長さが一定の行を複数含むテキストを用い、前
記二分木生成手段は、前記行のうち文字の存在しない部
分には所定の空白文字を配置し、連続する同じ文字又は
空白文字を、当該文字をラベルとし連続の個数を区間長
とする単一の前記ノードで、テキストの各部分列を表す
ことによって、テキストを表す前記二分木を生成するよ
うに構成されたことを特徴とする。

【０１１５】請求項３６の発明では、データを単純な構
成の単一の二分木で表すことができる。また、請求項３
６の発明では、連続する文字又は空白を単一のノードで
表せるので処理効率とメモリ効率が向上する。

【０１１６】

【発明の実施の形態】次に、本発明の実施の形態（以下
「実施形態」という）について、図面に従って具体的に
説明する。なお、後述する実施形態はコンピュータ上に
実現され、実施形態の各機能は、所定の手順（プログラ
ム）がこのコンピュータを制御することで実現される。

【０１１７】本明細書における各「手段」は、実施形態
の各機能に対応する概念的なもので、必ずしも特定のハ
ードウェアやソフトウェア・ルーチンに１対１には対応
しない。同一のハードウェア要素が、場合によって異な
った手段を構成する。例えば、コンピュータは、ある命
令を実行するときにある手段となり、別の命令を実行す
るときは別の手段となりうる。また、一つの手段が、わ
ずか１命令によって実現される場合もあれば、多数の命
令によって実現される場合もある。

【０１１８】したがって、本明細書では、以下、実施形
態の各機能を有する仮想的回路ブロック（手段）を想定
して実施形態を説明する。但し、コンピュータの使用は
一例であり、本発明の機能の全部又は一部は、可能なら
ば、カスタムチップ（専用の集積回路）のような電子回
路上に実現してもよい。

【０１１９】実施形態に用いられるコンピュータは、一
般には、ＣＰＵ（中央演算処理装置）と、ＲＡＭ（随時
書込読出型記憶素子）からなる主記憶装置とを有する。
また、前記コンピュータの規模は自由であり、マイクロ
コンピュータ・パーソナルコンピュータ・スモールコン
ピュータ・ワークステーション・メインフレームなど、
いかなる規模のものを用いてもよい。

【０１２０】また、前記コンピュータのハードウェア
は、典型的には、キーボードやマウスなどの入力装置
と、ハードディスク装置などの外部記憶装置と、ＣＲＴ
表示装置やプリンタ印字装置などの出力装置と、必要な
入出力制御回路を含む。

【０１２１】但し、前記コンピュータのハードウェア構
成は自由であり、本発明が実施できる限り、上記の構成
要素の一部を追加・変更・除外してもよい。例えば、実
施形態は、複数のコンピュータを接続したコンピュータ
ネットワーク上に実現してもよい。また、ＣＰＵの種類
は自由であり、ＣＰＵを複数同時に用いたり、単一のＣ
ＰＵをタイムシェアリング（時分割）で使用し、複数の
処理を同時平行的に行ってもよい。また、他の入力装置
（例えば、タッチパネル・ライトペン・トラックボール
などのポインティングデバイスや、デジタイザ・イメー
ジ読取装置やビデオカメラなどの画像入力装置・音声識
別装置・各種センサなど）を用いてもよい。また、他の
外部記憶装置（例えば、フロッピーディスク装置・ＲＡ
Ｍカード装置・磁気テープ装置・光学ディスク装置・光
磁気ディスク装置・バブルメモリ装置・フラッシュメモ
リなど）を用いてもよい。また、他の出力装置（例え
ば、液晶表示装置・プラズマディスプレイ装置・ビデオ
プロジェクター・ＬＥＤ表示装置・音響発生回路・音声
合成回路など）を用いてもよい。

【０１２２】また、前記コンピュータにおいて実施形態
を実現するためのソフトウェアの構成としては、典型的
には、実施形態の各機能を実現するためのアプリケーシ
ョンプログラムが、ＯＳ（オペレーティングシステム）
上で実行される態様が考えられる。また、実施形態を実
現するためのプログラムの態様としては、典型的には、
高級言語やアセンブラからコンパイル（翻訳）された機
械語が考えられる。但し、前記コンピュータのソフトウ
ェア構成も自由であり、本発明が実施できる限り、ソフ
トウェア構成を変更してもよい。例えば、必ずしもＯＳ
を用いる必要はなく、また、プログラムの表現形式も自
由であり、ＢＡＳＩＣのようなインタプリタ（逐次解釈
実行型）言語を用いてもよい。

【０１２３】また、プログラムの格納態様も自由であ
り、ＲＯＭ（読出し専用メモリ）に格納しておいてもよ
く、また、ハードディスク装置のような外部記憶装置に
格納しておき、コンピュータの起動時や処理の開始時に
主メモリ上にロード（読み込み）してもよい。また、プ
ログラムを複数の部分に分割して外部記憶装置に格納し
ておき、処理内容に応じて必要なモジュールのみを随時
主メモリ上にロード（読み込み）してもよい。さらに、
プログラムの部分ごとに異なった態様で格納してもよ
い。

【０１２４】また、本実施形態における各手順の各ステ
ップは、その性質に反しない限り、実行順序を変更し、
複数同時に実行し、また、実行ごとに異なった順序で実
行してもよい。このような順序の変更は、例えば、ユー
ザが実行可能な処理を選択するなどメニュー形式のイン
ターフェース手法によって実現することができる。

【０１２５】また、本明細書における「入力」は、本来
の情報の入力のみならず、情報の入力と密接に関連する
他の処理を含む。このような処理は、例えば、入力内容
のエコーバックや修正・編集である。また、本明細書に
おける「出力」は、本来の情報の出力のみならず、情報
の出力と密接に関連する他の処理を含む。このような処
理は、例えば、出力すべき範囲の入力や、画面スクロー
ルの指示である。なお、対話的入出力手順によって入力
と出力を一体的操作によって実現してもよく、このよう
な一体的操作によって、選択・指定・特定などの処理を
行ってもよい。

【０１２６】また、本明細書におけるデータ（情報）や
データの格納手段は前記コンピュータ上においていかな
る態様で存在してもよい。例えば、データのハードウェ
ア上の所在部分は、主記憶装置・外部記憶装置・ＣＰＵ
のレジスタやキャッシュメモリなどいかなる部分でもよ
い。また、データの保持態様も自由である。例えば、デ
ータは、ファイル形式で保持されるのみならず、メモリ
やディスクなどの記憶装置を物理的アドレスで直接アク
セスすることによって実現してもよい。また、データの
表現形式も自由で、例えば、文字列を表すコードの単位
は、文字単位でも単語単位でもよい。また、データは必
要とされる一定時間だけ保持されれば十分で、その後消
滅してもよく、保持時間の長短は自由である。また、辞
書データのように当面変更されない情報は、ＲＯＭに格
納してもよい。

【０１２７】また、本明細書において、特定の情報への
言及は確認的で、言及されない情報の存在を否定するも
のではない。すなわち、本発明の動作では、動作に必要
な一般的な情報、例えば、各種ポインタ、カウンタ、フ
ラグ、パラメータ、バッファなどが適宜用いられる。

【０１２８】実施形態の各部分が処理に要する情報は、
特に記載がない場合、当該情報を保持している他の部分
から獲得される。このような情報の獲得は、例えば、当
該情報を格納している変数やメモリをアクセスすること
によって実現することができる。なお、情報の消去・抹
消は、当該情報の内容自体を必ずしも記憶領域から現実
に削除せず、消去を表すフラグを設定するなど、情報の
意味付けの変更によって行うことができる。

【０１２９】［１．第１実施形態］第１実施形態は、デ
ータ検索装置（請求項１−５、８−１４に対応するも
の）及びこのデータ検索装置上で実行されるデータ検索
方法（請求項３７−４０、４２、４３に対応するもの）
に関するものである。

【０１３０】第１実施形態の目的は、検索用データの更
新所要時間が短いデータ検索装置及びデータ検索方法を
提供することである。また、第１実施形態の他の目的
は、処理が高速なデータ検索装置及びデータ検索方法を
提供することである。また、第１実施形態のさらに他の
目的は、処理手順が単純なデータ検索装置及びデータ検
索方法を提供することである。

【０１３１】［１−１．第１実施形態の構成］図１は、
第１実施形態の構成を示す機能ブロック図である。

【０１３２】第１実施形態のデータ検索装置は、キー列
による検索対象となるコード列１から、第１の境界によ
って区分されキー列の最大長であるキー最大長より長い
複数の第１の部分列２と、第２の境界によって区分され
それぞれ前記第１の境界の前後少なくともキー最大長ず
つにわたるすべての部分列を含む第２の部分列３と、を
決定する区分手段４を有する。

【０１３３】また、第１実施形態は、前記各部分列につ
いて、当該部分列の後方の部分である後方列と、その後
方列の先頭の前記コード列中における位置とを対照する
辞書データ５，６を生成する生成手段７を有する。ま
た、第１実施形態は、前記辞書データに基づいて、キー
列の全部又は一部を前方列とする後方列及びその開始位
置を検索する検索手段８と、前記後方列及びその開始位
置の重複検出を除去する除去手段９とを有する。

【０１３４】また、第１実施形態は、前記コード列を変
更する変更手段１０と、前記変更の内容に基づいて、変
更に係る前記部分列の辞書データを更新する更新手段１
１とを有する。また、第１実施形態は、前記各境界の間
隔を前記キー最大長以上に維持する第１の維持手段１２
と、前記各境界の間隔を所定の長さ以下に維持する第２
の維持手段１３とを有する。

【０１３５】［１−２．第１実施形態の作用及び効果］
上記のような構成を有する第１実施形態は、次のような
作用を有する。

【０１３６】［１−２−１．コード列の区分処理］第１
実施形態におけるコード列は文字列であり、１文字が１
つのコードで表される。まず、区分手段４が、検索対象
となるコード列１から、第１の境界によって区分され、
キー列の最大長であるキー最大長（以下「ｋ」と表す）
より長い複数の第１の部分列２を決定する。また、区分
手段４は、コード列１から、第２の境界によって区分さ
れ、第１の境界の前後少なくともｋずつにわたる第２の
部分列３を決定する。

【０１３７】この決定は、例えば、コード列１について
第１の境界と第２の境界を交互に設定し、各第１の境界
と第２の境界の間隔（文字数）をｋ以上に設定すること
によって行うことができる。図２は、第１の部分列ｓ1i
（ｓ11〜ｓ14）と第２の部分列ｓ2i（ｓ21〜ｓ24）に区
分されたコード列の例を示す。

【０１３８】［１−２−２．辞書データの生成処理］次
に、生成手段７が、各部分列２，３について、当該部分
列の後方の部分である後方列と、各後方列の開始位置と
を対照する辞書データ５，６を生成する。なお、本実施
形態では後方列には部分列自体を含むものとする。

【０１３９】第１実施形態における各辞書データ５，６
はサフィックス・ツリー（suffix tree ／以下「ツリ
ー」という）である。ツリーは、ルートから末端ノード
に至る複数のノードを有するデータ構造で、末端ノード
以外の各ノードは、経路を表すエッジで１又は２以上の
末端側のノードに接続されている。各エッジにはラベル
が設定され、各末端ノードが部分列の各後方列に対応
し、ルートから各末端ノードに至るパスのラベルを順次
接続すると後方列となる。

【０１４０】図３は、部分列“ａｂａｂｃ”の辞書デー
タを表すツリーの例であり、このツリーは、次のような
後方列と位置とを対照する辞書データとしての役割を有
する。

【０１４１】ａｂａｂｃ：０ａｂｃ：２ｂａｂｃ：１ｂｃ：３ｃ：４

【０１４２】このツリーでは、０から４までの位置は潜
在的に表されている。すなわち、全ての各末端ノードに
は、その末端ノードに対応する後方列の終端位置が部分
列の終端であることを示す終端ポインタが設定されてお
り、部分列の長さから各後方列の文字数を減じれば位置
を求めることができる。すなわち、後方列は終端の文字
までなので、開始位置が定まれば当該開始位置に対応す
る後方列は一意に定まる。例えば、後方列“ａｂｃ”の
文字数は３文字で、かつ、５文字である部分列“ａｂａ
ｂｃ”の終端で終了するので、開始位置は２となる。

【０１４３】上記は、各位置から開始する後方列のみで
ある。しかし、第１実施形態では、キー列の全体又は一
部を前方列（前方の部分）として含む後方列を検索する
ので、このツリーは、次のような部分列と位置とを対照
する辞書データとしての役割を果たす。

【０１４４】ａ：０ａ：２ａ：５ａｂ：０ａｂ：２ａｂ：５ａｂａ：０ａｂａｂ：０ａｂａｂｃ：０ａｂｃ：２ａｂｃａ：２ａｂｃａｂ：２ｂ：１ｂ：３ｂ：６ｂａ：１ｂａｂ：１ｂａｂｃ：１ｂｃ：３ｂｃａ：３ｂｃａｂ：３ｃ：４ｃａ：４ｃａｂ：４

【０１４５】なお、第１実施形態では、各ラベルは、コ
ード列の単位である１文字ずつであるから、処理手順が
単純化される。

【０１４６】次に、図４のフローチャートに、部分列か
らこのようなツリーを生成する手順を示す。すなわち、
この手順では、部分列から登録すべき後方列を１つずつ
取り出し（ステップ４１）、全ての後方列について（ス
テップ４２）、次の処理を繰り返す。

【０１４７】まず、登録する後方列をキー列として、登
録する後方列の最長一致ノードを検出する（ステップ４
３）。最長一致ノードとは、ルートから続くラベルの列
がキー列のコードの列に一致する最後のノードであり、
検出の具体的な手順は後述する。最長一致ノードが検出
された時点でキー列が終了していなければ（ステップ４
４）、登録する後方列は既登録の後方列に含まれない。

【０１４８】そこで、登録する後方列のうちラベルと一
致しなかった最初の文字以降、１文字ずつを取り出し
（ステップ４５）、その時点において処理の対象として
いるノード（以下「カレントノード」という）からの新
たなエッジを生成し、このエッジの先に新たなノードを
設定し、このエッジには、取り出した１文字を設定する
（ステップ４６）。なお、最長一致ノード検出時のカレ
ントノードは最長一致ノードである。

【０１４９】この作業が後方列の最後の文字まで繰り返
されると（ステップ４７）、後方列の各文字をラベルと
する連続したパスが成立する。そこで、この時点におけ
るカレントノードに、部分列の終端を指す終端ポインタ
を設定する（ステップ４８）。

【０１５０】ステップ４４において、最長一致ノードま
でにキー列が終了したときは、キー列である登録する後
方列へのパスは成立しているので、最長一致ノードを終
端ノードと見做してこのノードに終端ポインタが設定さ
れる。なお、各終端ノードには、各部分列の開始位置を
設定してもよい。

【０１５１】次に、図５は、ステップ４３の最長一致ノ
ードの検出の手順を示す。この手順では、カレントノー
ドをルートに設定するとともにカウンタをリセットする
（ステップ５１）。そして、キー列が終了するまで（ス
テップ５３）、キー列の先頭から１文字ずつを取り出し
（ステップ５２）、取り出した文字に対応するエッジが
ある限り（ステップ５４）、当該エッジの先のノードに
カレントノードを進め（ステップ５５）、カウンタをイ
ンクリメント（ステップ５６）する動作を繰り返す。こ
のように文字に対応するラベルのエッジを辿る動作を繰
り返し、ステップ５３又は５４において手順が終了した
ときのカレントノードが最長一致ノードである。また、
このときのカウンタの数値としてキー列と一致したコー
ド数が得られる。

【０１５２】［１−２−３．データの検索処理及び除去
処理］次に、データの検索の手順を図６に示す。すなわ
ち、まず、ｋ以下のキー列が特定される（ステップ６
１）。このとき、キー列の長さはｋ以下に制限される
が、多くの場合は、キー列はコード列よりも格段に短い
ので、この制限による不利益はほとんど存在しない。

【０１５３】次に、検索手段８が、図５に示すような手
順で、各辞書データ５，６から、キー列の最長一致ノー
ドを検出する（ステップ６２）。検索結果となる後方列
（以下「結果列」という）の数は、検出された最長一致
ノードの末端側（部分木）に位置する各終端ノードに設
定されたポインタの数と等しい。

【０１５４】次に、各結果列の位置が特定される（ステ
ップ６３）。各結果列の位置は、部分列の長さと各結果
列の文字数から算出できる。また、各結果列の文字数
は、ルートから、結果列の各終端ノードまでのエッジ数
と等しいので、各終端ノードからルート又は最長一致ノ
ードまでを遡り、エッジ数を数えれば算出可能である。

【０１５５】なお、続いて、除去手段９が位置の重複を
除去したうえ（ステップ６４）、位置が出力される（ス
テップ６５）。すなわち、検索は、第１と第２の辞書デ
ータ５，６双方について重複して行われるので、第１及
び第２の境界のいずれにも分断されない列は、第１及び
第２の辞書データ５，６から重複して検出される。しか
し、前記のように重複が除去されるので、位置の重複に
よって結果が混乱することはない。

【０１５６】第１実施形態では、検索所要時間は出現位
置の数にほぼ比例するに止まり、コード列の長さには比
例しないので、長大なコード列からキー列を検索する場
合でも、検索時間が短くて済む。

【０１５７】また、第１実施形態では、検索手段８が、
キー列の全体を含む後方列の位置のみならず、キー列の
一部を含む後方列をも検索するので、キー列の全体を発
見できない場合でも、キー列に関連深い結果列を得られ
る。特に、第１実施形態では、検索手段８が、キー列の
各コードに基づいてツリーのパスを辿ることによって、
キー列の一部を含む後方列のうち一致コード数が最大の
ものを特定するので、キー列と最も関連性の高い結果列
が得られる。また、結果列とキー列との一致コード数を
出力するので、一致の程度の判断が容易になる。

【０１５８】また、検出終了時にキー列が終了している
ときは（ステップ６６）、後方列はキー列の全体を含む
ので、一致コード数と共に、または、一致コード数の代
わりに、全体一致である旨が出力される（ステップ６
７）。

【０１５９】［１−２−４．コード列の変更処理及び辞
書データの更新処理］図７のフローチャートは、コード
列の変更の手順を示す。すなわち、図１の変更手段１０
からコード列、具体的には変更対象の部分列が変更され
る（ステップ７１）。続いて、変更された部分列の長さ
が変化したか否かが判断され（ステップ７２）、変化し
ていない場合は、更新手段１１が、変更の内容に基づい
て、変更された部分列の辞書データ５，６を更新する。

【０１６０】更新の際には、変更によって追加すべき後
方列をツリーに追加し、その後、変更対象部分列に一部
又は全部が含まれる後方列をツリーから削除する。この
順序で処理することにより、ツリーの構造のうち変更に
よって影響を受けない部分をそのまま利用できるので、
変更の所要時間が短縮される。

【０１６１】なお、ツリーのうち、変更の影響を受ける
部分列に関する部分を削除するには、削除する後方列の
終端ノードからルート側に向かって遡りながらノードと
エッジを削除していく。この削除は、削除されるノード
又はポインタに接続されているものを除き、後方列への
パス又はポインタを伴うノードに遭遇したときに、終了
すればよい。

【０１６２】また、新たな内容のツリーへの登録は、図
４の手順で行うことができる。なお、図４の手順では、
変更時にも、登録しようとする後方列が辞書データ５，
６（ツリー）に登録済か否かが検出され、未登録の後方
列のみを登録するので、辞書データ５，６全体を再度生
成する場合と比べて、更新所要時間が短縮される。

【０１６３】［１−２−５．境界間隔および部分列の長
さの維持］なお、部分列の長さが変化したときは（ステ
ップ７２）、辞書データの更新（ステップ７３）の前
に、部分列の長さ調整が行われる（ステップ７４）。こ
の調整では、まず、第１の維持手段１２が、境界間隔を
ｋ以上に維持するので、コード列のうちｋ以下のいかな
る部分も第１の境界と第２の境界の双方によって同時に
分断されることがない。

【０１６４】次に、第１の維持手段１２が、前記境界間
隔をｋ以上に維持する具体的な手法を次に示す。まず、
第１の維持手段１２は、境界間隔がｋ未満になった場合
（図８）、当該間隔に係るいずれかの境界を消去する
（図９，図１０）。この場合、第１の維持手段１２は、
消去の結果一体化する部分列が短い方の境界を消去する
ので、一体化した部分列のサイズが増大して更新所要時
間が増大することもない。

【０１６５】また、第２の維持手段１３が、部分列（区
間）を所定の長さ以下に維持する。このため、コード列
の変更によって辞書データ５，６のサイズが増大し、更
新所要時間が長くなることがない。次に、維持の手法の
具体例を示す。これらの具体例によれば、部分列の長さ
がｋの６倍未満に維持される。

【０１６６】まず、第２の維持手段１３は、第１と第２
の境界間隔が２ｋ以上になった場合に（図１１）、当該
間隔に係る両境界からｋ以上離れた位置で当該部分の第
１の部分列又は第２の部分列を区分する（図１２，図１
３）。

【０１６７】また、第２の維持手段１３は、隣接する第
１の境界同士がｋの２倍以上で、その間に第２の境界が
存在しない場合に（図１４）、前記隣接する両第１の境
界からｋ以上離れた（中間）位置に、第２の境界を設定
する（図１５）。この処理は、第１の境界と第２の境界
の関係が逆であっても適用できる。

【０１６８】また、部分列の長さが変化した場合、これ
によって位置が変化した部分列の辞書データ５，６（ツ
リー）について、ポインタが指すコード列中の位置が変
更される（ステップ７５）。

【０１６９】以上のように、コード列を変更する際に
は、変更の影響を受ける部分列のみについて、辞書デー
タ５，６を更新すれば足りるので、従来よりも更新所要
時間が短縮できる。この更新所要時間は、影響を受ける
各部分列の長さに比例し、元のコード列の長さには比例
しない。このため、更新が頻繁に行われる状況でも、実
用に耐えるデータ検索装置を提供することができる。な
お、検索所要時間は具体的な実施態様に応じて異なる。

【０１７０】［２．第２実施形態］第１実施形態では、
全ての末端ノードにポインタを設定したが、部分列終端
を指すポインタは部分列である後方列の終端ノードにの
み設定し、部分列である後方列及び他の各後方列につい
ては、当該後方列よりも１コード短い後方列の終端ノー
ドから他の後方列への第２のエッジを設定してもよい
（第２実施形態）。

【０１７１】第２実施形態は、請求項６、７、１５、４
１に対応する。また、図１６は、第２実施形態における
ツリーの例を示し、破線は第２のエッジを示す。

【０１７２】このとき、ポインタのない任意の終端ノー
ドから、ポインタのある終端ノードまでの第２のエッジ
の数は、両ノードに対応する２つの後方列の位置の差と
同じである。このため、検索時には、この差に基づいて
後方列の部分列の先頭からの位置が特定でき、後方列ご
とにツリーを遡る煩雑な処理が不要となる。

【０１７３】また、部分列の位置が変動した場合も、唯
１つのポインタを変更すれば足り、終端ノードと同数の
ポインタの変更を要する第１実施形態よりも、処理が高
速化される。この利点は、複数の辞書データを一体のツ
リーによって実現し、ツリー内のデータ構造が複雑化し
た時に、特に実益がある。

【０１７４】このように、第２実施形態によれば、コー
ド列に関する情報のうち、文字の順序に関する情報はツ
リー自体の構造で表し、文字の位置に関する情報をポイ
ンタで表し、ポインタを１つに集約したことで、文字の
順序の情報と位置の情報を相互に独立させた。このた
め、それぞれをより効果的なアルゴリズムで処理するこ
とが可能になる。また、複数の部分列でツリーを共有し
て処理を効率化でき、さらに、部分列のコード列中にお
ける位置を移動することにより、編集など様々な機能の
高度化を図ることができる。

【０１７５】また、第２のエッジは１コードの有無が異
なる２つの後方列のノードを結ぶが、第２のエッジに
は、有無が異なるこのコードをラベルとして設定しても
よい（図１６）。この場合、ポインタのある終端ノード
側から第２のエッジをルート側に遡りながらラベルを接
続していくと、部分列の内容を復元することができる。
このため、ツリーの元となった部分列自体の保存が不要
となり、記憶領域が節約できる。この復元は、元のコー
ド列の長さに比例しない時間で行うことができる。

【０１７６】なお、部分列の復元は、部分列である後方
列の終端ノードに至るパスをルートまで遡って収集ラベ
ル順を逆転させることによっても行うことができる。

【０１７７】［３．第３実施形態］複数の部分列の各辞
書データは、単一のツリーとして生成してもよい（第３
実施形態）。第３実施形態は、請求項１６、４４に対応
するもので、図１７は、このような単一のツリーの例を
示す。このツリーは、コード列“ａｂａｂｃａｂ”の前
方列“ａｂａｂｃ”と後方列“ａｂｃａｂ”の辞書デー
タの役割を併有している。各ポインタは各部分列の終端
を指す。

【０１７８】第３実施形態によれば、辞書データごとに
独立したツリーを生成した場合と比べ、必要なツリーの
数が減少し、メモリが節約される。第３実施形態は、特
に、同一又は類似の部分を複数含むコード列に効果的で
ある。なお、第３実施形態において、ツリーのサイズは
部分列の最大長と部分列数に比例し、検索所要時間は部
分列の最大長と出現位置の積に比例し、また、更新所要
時間は、部分列の最大長と変更部分列数の積に比例す
る。

【０１７９】また、コード列が長くなり、及び／又は、
部分列が多くなり単一のツリーが多くの後方列を含め
ば、部分列の変更に伴うツリーの更新に要する処理の内
容や増加率は小さくなることが期待される。

【０１８０】［４．第４実施形態］第２の部分列は連続
する必要はなく、コード列のうち各第１の境界の前後少
なくともｋにわたって一体に存在していればよい（第４
実施形態）。第４実施形態は請求項１、３７に対応す
る。図１８は、第４実施形態における部分列の一例を示
す。このような第４実施形態では、第１と第２の境界の
間隔がｋ以上であるから、長さのｋ以内の任意の部分
は、第１と第２の境界双方によって同時に分断されるこ
とがない。このため、キー列が当該部分に対応する場合
は、当該部分は第１又は第２の部分列のいずれかにおい
ては必ず検出される。

【０１８１】また、第２の部分列は相互に重複してもよ
い（図１９）。このため、重複の検出と排除を省略する
ことで、処理の高速化を図ることができる。この場合、
検索結果の重複が増えることがあり得るが、３つの重複
を排除することは、２つの重複の排除と同様の手順で行
うことができる。

【０１８２】［５．第５実施形態］本発明では、キー列
を複数の部分キー列に区分し、検索手段８は、各部分キ
ー列ｐの全部又は一部を含む後方列を検索することによ
って行ってもよい（図２０）。第５実施形態は、請求項
１７に対応するものである。この場合、各部分キー列
は、境界によって分断されなければ検出できるので、ｋ
は部分キー列の最大長となる。このため、ｋが短縮さ
れ、辞書データがコンパクト化される。逆に、一定のｋ
が設定されている場合でも、各部分キー列をｋ以下にす
れば、ｋより長いキー列に基づいた検索が可能である。

【０１８３】第５実施形態では各部分キー列の検索によ
って得られたコード列中の位置に、キー列全体が相連な
って現われるか否かを確認し、確認された位置のみを出
力する。この確認は、例えば最も検索結果の件数の少な
い部分キー列の前後に、他の部分キー列が連なって現わ
れるかを判定するというようにして効率的に行うことが
できる。

【０１８４】［６．第６実施形態］［６−１．第６実施形態の構成］第６実施形態は、デー
タ処理装置（請求項１８−３４に対応するもの）及びこ
のデータ処理装置上で実行されるデータ処理方法（請求
項４５−５０に対応するもの）であり、図２１は、第６
実施形態の構成を示す機能ブロック図である。

【０１８５】第６実施形態の目的は、効率的にデータを
処理するデータ処理装置及びデータ処理方法を提供する
ことである。このデータ処理装置及びデータ処理方法
は、前記データ検索装置及びデータ検索方法の実施に特
に適したものである。すなわち、第１実施形態から第５
実施形態に係るデータ検索装置及びデータ検索方法にお
ける部分列を区間とみなし、第６実施形態のデータ処理
装置及びデータ処理方法で扱えば、データの検索を含む
各種の処理を一層効率的に実行することができる。

【０１８６】部分列の具体的内容はデータ検索装置及び
データ検索方法の辞書ツリー上で復元できる（特に請求
項７の発明）から、コード列１を除いて、第１、第２の
部分列２，３を本実施形態のデータ処理装置及びデータ
処理方法で扱えばよい。

【０１８７】さらに具体的には、第６実施形態の目的
は、データ変更の手続が簡潔なデータ処理装置及びデー
タ処理方法を提供することである。第６実施形態の他の
目的はメモリを効率的に利用するデータ処理装置及びデ
ータ処理方法を提供することである。

【０１８８】第６実施形態のデータ処理装置は、図２１
に示すように、コード列の各区間に基づいて各区間の範
囲を表す二分木３１を生成する二分木生成手段３２と、
指定位置に対応する区間を二分木３１に基づいて検索す
る区間検索手段３３と、区間が変更された場合に変更の
内容に応じて二分木３１を更新する二分木更新手段３４
と、を有する。

【０１８９】このうち、前記二分木更新手段３４は、区
間長を変更する区間長変更手段４１と、区間が削除され
た場合に削除された区間に対応するノードを削除する削
除手段４２と、区間が追加された場合に追加された区間
に対応するノードを追加する追加手段４３と、を有す
る。また、第６実施形態のデータ処理装置は、各ノード
間の結合順序を変更することによって、二分木の構造を
調整する構造調整手段４５を有する。

【０１９０】［６−２．第６実施形態の作用及び効果］
上記のような構成を有する第６実施形態では、次のよう
な作用によって、複数の区間を含むコード列を格納し、
コード列から所望の位置のコード値を取り出し、及び、
コード列に対して所望の編集を行うことができる。

【０１９１】［６−２−１．二分木生成処理］まず、二
分木生成手段３２が、コード列の各区間に基づいて各区
間の範囲を表す二分木３１を生成する。二分木の生成
は、各区間を入力する度にノードを追加する追加手段４
３を適用することによっても実現することができる。コ
ード列と区間はキーボード入力など所望の方法で与えれ
ばよい。二分木３１は、各区間に対応するノードをルー
トから末端側に向けて樹状に接続したものである。各ノ
ードの末端側には当該ノード以前の区間に対応するノー
ドである前方ノード及び当該ノード以降の区間に対応す
るノードである後方ノードのうち該当するものが接続さ
れる。また、各ノードには、当該ノード及び当該ノード
より末端側に存在する各ノード（部分木）に対応する区
間長の合計である部分区間長が設定される。

【０１９２】図２２は、第６実施形態における二分木３
１の例であり、図２３は、図２２の二分木３１を説明す
る図である。これらの図に示すように、第６実施形態に
おける二分木３１は、各区間［１．．３］，［４．．
５］，［６．．９］，［１０．．１５］，［１６．．１
６］に対応するノードＡ，Ｂ，Ｃ，Ｄ，Ｅをルートであ
るノードＢから末端側に向けて樹状に接続したものであ
る。ノードＢの末端側にはノードＢ以前の区間［１．．
３］のノードＡ、及び、ノードＢ以降の区間のノード
Ｄ，Ｃ，Ｅが接続されている。さらに、ノードＤの末端
側にはノードＤ以前の区間のノードＣ及びノードＤ以降
の区間のノードＥが接続されている。

【０１９３】また、各ノードＡ，Ｂ，Ｃ，Ｄ，Ｅには、
当該ノード及び当該ノードより末端側の各ノード（部分
木）に対応する区間長の合計である部分区間長３，１
６，４，１１，１が設定されている。例えば、ノードＤ
には、ノードＤに対応する区間［１０．．１５］の区間
長である６に加え、ノードＣ，Ｅに対応する区間
［６．．９］，［１６．．１６］の長さである４，１を
加えた１１が設定されている。

【０１９４】このように、第６実施形態のデータ処理装
置では、区間ごとにノードが設定されるので、ノードを
格納するためのデータブロックは区間と同数あれば足
り、データがコード（位置）数分のメモリを占有するこ
とがない。このため、メモリ効率が向上する。特に、二
分木は、各ノードのためのデータ格納領域をポインタで
接続することによって構成することができるので、膨大
な連続領域を確保する必要がなくなり、メモリを効率よ
く利用できる。また、区間ごとに長さの精度が異なるデ
ータを扱うこともできるので、浮動小数点など自由な種
類の長さの区間を効率よく処理できる。

【０１９５】このデータ処理装置では、検索などの処理
においては、各ノードの区間の位置は当該ノードの前方
（後方）ノードの区間長に基づいて算出でき、また、ノ
ードの部分区間長からそのノードを根とする部分木に含
まれる前方ノードと後方ノードの区間長を減ずることに
よって当該ノードの正味区間長を算出できる。前方（後
方）ノードの区間長の合計は左（右）の子の部分区間長
から得られる。このため、コード列の任意の位置（指定
位置）のコードは、指定位置と各ノードの位置・区間長
を比較することによって容易に特定することができる。

【０１９６】ここで、あるノードの区間の位置は当該ノ
ードの前方（後方）ノードの区間長の合計から算出でき
る。そして、各ノードの位置関係はノード間の相互関係
で表され、各ノードの位置は、他のノードに関する部分
区間長に基づいて算出される。このため、区間の一部の
変更に際しても、変更の影響の波及範囲は変更されたノ
ードや当該ノードからルートに至るパス上のノードに局
限されるので、変更の手続が簡潔で済む。具体的には、
区間の長さ変更を伴う編集の際にも、データ処理の所要
時間は、区間の数の対数に比例する程度となる。

【０１９７】［６−２−２．区間検索処理］図２４は、
第６実施形態のデータ処理装置における検索の手順を示
すフローチャートである。すなわち、検索などの処理で
は、区間検索手段３３が、コード列中の任意の位置であ
る指定位置が属する区間を特定する場合に、ポインタの
指すノードであるカレントノードをルートから（ステッ
プ２４１）順次下位ノードに移動させながら、次の手順
を繰り返す。

【０１９８】すなわち、カレントノード及びカレントノ
ードの下位ノードの区間長に基づいてカレントノードの
範囲を算出し（ステップ２４２）、算出した範囲と指定
位置を比較し、算出した範囲よりも指定位置が前方の場
合は（ステップ２４３）、前方ノードにカレントノード
を進め（ステップ２４４）、算出した範囲よりも指定位
置が後方の場合は（ステップ２４５）後方ノードにカレ
ントノードを進め（ステップ２４６）、算出した範囲に
指定位置が含まれる場合は（ステップ２４７）、指定位
置がカレントノードに含まれると特定する（ステップ２
４８）。

【０１９９】この手順の実行の具体例を示す。すなわ
ち、与えられた指定位置を変数Ｐに格納し、カレントノ
ードを指すポインタを変数ｎに格納する（以下、カレン
トノードをｎで表す）。

【０２００】なお、この手順において、ツリー全体中に
おける実質的な指定位置は変化しないが、カレントノー
ドが下方に移動するときは、指定位置の表現形式は、カ
レントノードの相対的位置に基づいて更新される。

【０２０１】そして、ｎに前方ノード（以下「左の子」
という）があり、かつ、

【数２】Ｐ≦ｎの左の子の部分区間長（但し、区間が浮動小数点で表わされ、各区間が左の端
点を含み右の端点を含まない場合つまり［ａ，ｂ），
［ｂ，ｃ），・・・（ａ，ｂ，ｃは実数）という形式の
区間の列を扱う場合（以下「浮動小数点の場合」とい
う）は、

【数３】Ｐ＜ｎの左の子の部分区間長）ならば、ｎをｎの左の子に変更する。

【０２０２】また、ｎに後方ノード（以下「右の子」と
いう）があり、かつ、

【数４】Ｐ＞（ｎの部分区間長−ｎの右の子の部分区間長）（浮動小数点の場合は

【数５】Ｐ≧（ｎの部分区間長−ｎの右の子の部分区間長））ならばＰを

【数６】Ｐ−（ｎの部分区間長−ｎの右の子の部分区間長）に変更し、ｎをｎの右の子に変更する。

【０２０３】この繰り返しが終了したとき、

【数７】（ｎの左の子の部分区間長）＜Ｐ（浮動小数点の場合は

【数８】（ｎの左の子の部分区間長）≦Ｐ）かつ

【数９】Ｐ≦（ｎの部分区間長−ｎの右の子の部分区間長）（浮動小数点の場合は

【数１０】Ｐ＜（ｎの部分区間長−ｎの右の子の部分区間長））であれば、ｎが与えられた位置を含む区間に対応するノ
ードである。これは、指定位置がカレントノードの前の
区間より後で、かつ、指定位置がカレントノードの正味
の区間長に収まっていれば、カレントノードの区間が指
定位置を含むことを意味する。

【０２０４】なお、ｎに左の子がなくかつ

【数１１】Ｐ≦０（浮動小数点の場合は

【数１２】Ｐ＜０）あるいは、ｎに右の子がなくかつ

【数１３】Ｐ＞ｎ（浮動小数点の場合は

【数１４】Ｐ≧ｎ）の部分区間長、であれば、与えられた位置を含む区間は
登録されていない。これは、最前のノードより指定位置
が前か、又は、指定位置が最後のノードより後の場合
は、指定位置はどの区間にも含まれないことによる。こ
れは、ｎがルートのときに、左右の子の有無にかかわら
ず判定してよい。

【０２０５】ところで、発見されたノードｎが表す区間
は［指定位置−（Ｐ−ｎの左の子の部分区間長）＋Δ
（位置の最小単位）．．指定位置＋（ｎの部分区間長−
ｎの右の子の部分区間長−Ｐ）］である（但し、浮動小
数点の場合は、ノードｎが表す区間は［指定位置−（Ｐ
−ｎの左の子の部分区間長），指定位置＋（ｎの部分区
間長−ｎの右の子の部分区間長−Ｐ）］）。

【０２０６】例えば、図２２の二分木において、指定位
置８を含む区間に対応するノードは、図２５、図２６、
図２７のようにノードを辿って特定される。特定された
ノードでは、ｎは［８−（３−０）＋１．．８＋（４−
０−３）］＝［６．．９］を表している（図２７）。

【０２０７】このように、第６実施形態のデータ処理装
置では、区間検索手段３３が、カレントノードをルート
から順次下位側に移動させながらカレントノードの範囲
と指定位置を比較するという簡潔な手順によって、指定
位置が属する区間を特定するので、容易に検索などの処
理を行うことができる。

【０２０８】［６−２−３．特定処理］本実施形態で
は、上記とは逆に、任意のノードを指定し、指定された
ノードである指定ノードに対応する区間を特定すること
もできる。この処理では、次のような手順によって、区
間の位置を特定することができる。したがって、右区間
又は左区間（総区間）というときは、ルートの区間より
も指定ノードの区間側の区間を意味する。

【０２０９】すなわち、カレントノードを、与えられた
指定ノードから順次親ノードの方向へルートまで移動さ
せる。この移動の際に、移動前の子ノードの親ノードに
対する左右の別に応じてノードの区間長を順次加算する
ことによって、指定ノード以前の総区間長である左区間
長又は指定ノード以降の総区間長である右区間長のうち
少なくとも一方を特定する（請求項２０、４７）。図２
８は、指定ノードに対応する区間を特定する手順の一例
を示すフローチャートである。

【０２１０】この手順では、まず指定ノードをカレント
（ノード）とし、カレントの左の子の部分区間長を左区
間長とする（ステップ２８１）。ここで、左区間（長）
は指定ノードに対応する以前の総区間（長）である。

【０２１１】そして、カレントがルートとなるまで（ス
テップ２８２）、次の手順を繰り返す。すなわち、元の
カレントを子ノードとしてカレントを親に進め（ステッ
プ２８３）、このとき元の子ノードがカレントの右の子
であったときは（ステップ２８４）、カレントの正味区
間長とカレントの左の子の部分区間長との和を算出し
（ステップ２８５）、左区間長にこの和を加算する（ス
テップ２８６）。

【０２１２】ここで、ノードの部分区間長は、当該ノー
ドをルートとする部分木に含まれる各ノードの正味区間
長の合計（区間長）を意味することに留意されたい。

【０２１３】カレントの正味区間長とカレントの左の子
の部分区間長との和は、カレントの部分区間長から元の
カレントである右の子の部分区間長の合計を減じること
によって算出できる。

【０２１４】カレントがルートとなったとき（ステップ
２８２）、指定ノードの左端は、左区間長の値の次、す
なわち１加算した値として得られる（ステップ２８
７）。このとき、区間が不動小数点で表されるときは左
区間長の値がそのまま区間の左端となる。また、指定ノ
ードの右端は、左区間長に指定ノードの正味区間長を加
算した値として得られる（ステップ２８８）。

【０２１５】なお、指定ノードの右区間（指定ノードに
対応する区間以降の総区間）は、指定ノードの右端の値
の次（１加算）から始まり、二分木の表す区間全体の終
端まで続く。この終端は、ルートの部分区間長の値と同
じ値で示される。

【０２１６】図２９は、指定ノードに対応する区間を特
定する手順の他の一例を示すフローチャートである。図
２８の手順では、指定ノードの区間の左側に存在する左
区間を求め、指定ノードの区間の右側は、左区間長に基
づいて算出した。図２９の手順は、右区間と左区間の双
方の長さを求め、指定ノードの区間をこの両区間にはさ
まれた区間として特定するものである。

【０２１７】この手順では、まず指定ノードをカレント
とし、カレントの左の子の部分区間長を左区間長とし、
カレントの右の子の部分区間長を右区間長とする（ステ
ップ２９１）。そして、カレントがルートとなるまで
（ステップ２９２）、次の手順を繰り返す。

【０２１８】すなわち、元のカレントを子ノードとして
カレントを親に進める（ステップ２９３）。そして、元
の子ノードがカレントの右の子であったときは（ステッ
プ２９５）、左区間長に、新たなカレントの正味区間長
とカレントの左の子の部分区間長との和を加算し（ステ
ップ２９６）、元の子ノードがカレントの左の子であっ
たときは（ステップ２９５）、右区間長に、新たなカレ
ントの正味区間長とカレントの右の子の部分区間長との
和を加算する（ステップ２９７）。

【０２１９】カレントの正味区間長とカレントの左
（右）の子の部分区間長の和は、カレントの部分区間長
から右（左）の子の部分区間長を減じることによって算
出できる。

【０２２０】カレントがルートとなったとき（ステップ
２９２）、指定ノードの区間は左区間と右区間にはさま
れた区間として特定される（ステップ２９８）。

【０２２１】このように、第６実施形態では、カレント
ノードを指定ノードからルートまで移動させながら、移
動方向に応じて前方（後方）ノードの合計区間長を順次
加算する。これによって、指定ノードの区間の位置を、
区間の左又は右のノードの区間長を通じて特定する。第
６実施例では、このような簡潔な手順によって、指定ノ
ードの区間の位置が特定されるので、容易に各種処理を
行うことができる（請求項２０、４７）。

【０２２２】なお、図３０は、上記のような検索に適し
たハードウェアの構成の一例を示す機能ブロック図であ
る。すなわち、ポインタの格納領域Ｐと部分区間長の格
納領域Ｌを単位領域とし、各ノードごとの情報を各単位
領域に格納する。単位領域は固定長として配列で確保す
る。ノード間のリンクは、ポインタの格納領域に双方向
に辿れるポインタを格納することによって実現する。

【０２２３】検索では、主に制御部Ｃがポインタにアク
セスすることによって各ノードを辿り、主に演算部Ａが
部分区間長にアクセスすることによって区間長の演算を
行なう。この際、カレントノードのポインタ又は格納ア
ドレスはカレントレジスタＣＲに格納される。ノードに
関する他の情報、例えばカレントノードを移動したとき
の元のノードなどは補助レジスタＳＲに格納される。部
分区間長の計算の際には、必要に応じて区間長レジスタ
ＬＲが用いられる。

【０２２４】このようなハードウェアは、以下の他の処
理においても用いることができる。

【０２２５】［６−２−４．二分木更新処理］区間が変
更された場合は、二分木更新手段３４が、変更の内容に
応じて二分木３１を更新する。このように、第６実施形
態では、区間の変更の場合に二分木３１も変更されるの
で、二分木３１の生成をやり直す必要がない。

【０２２６】すなわち、第６実施形態では、コード列の
区間長が変更された場合は区間長変更手段４１が二分木
３１における区間長を変更する。また、コード列の区間
が削除された場合は削除手段４２が削除された区間に対
応するノードを二分木３１において削除する。また、コ
ード列の区間が追加された場合は追加手段４３が追加さ
れた区間に対応するノードを二分木３１において追加す
る。

【０２２７】このように、第６実施形態では、区間の長
さ変更・削除・追加という区間の変更の内容に応じて、
それぞれ区間長変更手段・削除手段・追加手段が二分木
３１を更新する。このため、これらの手段を組み合わせ
ることによってコード列の置き換えなど複雑な処理を行
うことができる。

【０２２８】［６−２−４−１．区間長変更処理］この
うち、区間長の変更では、長さを変更する区間のノード
からルートへ至る各ノードの部分区間長が、変更分だけ
順次変更される。

【０２２９】図３１は、区間長の変更の手順を示すフロ
ーチャートである。区間長の変更では、この図に示すよ
うに、まず対象ノードをカレントノードとする（ステッ
プ３１１）。そして、カレントがルートとなるまで（ス
テップ３１４）、カレントを順次ルート側に進め（ステ
ップ３１２）、各カレントノードの部分区間長を変更分
だけ増減する（ステップ３１３）手順を繰り返す。

【０２３０】このように、第６実施形態では、区間の長
さが変更された場合でも、変更された区間のノードから
ルートまでのノードを変更すれば足りる。このため、第
６実施形態では、従来のように、変更された区間以降の
区間に対応する全ノードを記憶領域上で移動させる必要
がないので、データ処理が効率化される。

【０２３１】例えば、図２２の例において、長さ４の区
間［６．．９］を２短縮して長さ２の区間［６．．７］
に変更した場合、これに対応して、ノードＢ，Ｃ，Ｄの
部分区間長がそれぞれ２減じられて図３２の状態とな
る。この後、位置８を含む区間に対応する節を検索する
と（図３３，図３４）、ノードＣではなくノードＤが該
当し、このノードＤの表す区間は［８−（３−２）＋
１．．８＋（９−１−３）］＝［８．．１３］である。

【０２３２】次に、区間の追加及び削除の手順を説明す
る。図３５は、第６実施形態における区間の追加及び削
除の手順を示すフローチャートである。

【０２３３】［６−２−４−２．区間の追加処理］区間
の追加の際には、追加手段４３が、二分木３１につい
て、追加に係る区間に対応するノードを二分木３１に追
加し（ステップ３５１）、ノードの結合順序を調整し
（ステップ３５２）、各ノードの区間長を調整する（ス
テップ３５３）。このように、第６実施形態では、追加
手段４３が区間長を調整するので、二分木３１の整合性
が維持される。

【０２３４】なお、ノードの追加の手法は従来から複数
のものが公知であり、そのいずれを用いてもよい。例え
ば、図２２において、区間［１０．．１５］の前に長さ
３の区間［１０．．１２］を追加し、それまでの区間
［１０．．１５］及び区間［１６．．１６］を、それぞ
れ、区間［１３．．１８］及び区間［１９．．１９］に
移動する場合、新たなノードの追加の態様は、図３６，
図３７及び図３８の３つの態様が考えられる。

【０２３５】また、前記追加手段４３は、前記区間長の
調整において、付加したノードの部分区間長を、その子
のノードの部分区間長（子がない場合は０）の和と、追
加する区間の長さの和とし、付加したノードの親を経由
してルートに至るパス上の各ノードについて、部分区間
長を追加する区間の長さだけ加算する。

【０２３６】このように、第６実施形態では、区間の追
加の場合も、追加されたノードの親ノードからルートま
での各ノードに区間長を加算するという単純な処理で区
間長を調整することができる。なお、図３７のように、
βの位置にノードを付加した二分木３１を図３９に示
す。

【０２３７】［６−２−４−３．区間の削除処理］前記
削除手段４２は、区間の削除の際には、削除する区間に
対応するノードを二分木３１から削除し、ノード間の結
合関係を調整し、必要に応じて（ステップ３５４）、部
分区間長を調整する（図３５／ステップ３５３）。この
ように、第６実施形態では、削除手段４２がノードの結
合順序や区間長を調整するので、残りの区間の順序など
二分木３１の整合性が維持される。

【０２３８】このような削除と調整の手法は、従来から
複数の手法が知られており、いずれの手法を用いてもよ
い。例えば、図３９の二分木３１において、ノードＤを
削除する場合、削除後の構造は図４０又は図４１のいず
れでもよい。以下の説明は、削除後に親ノードが変更さ
れるノードは、削除されたノードの子のみである場合に
関する。これ以外の場合は、後述の構造調整によってノ
ードの削除の前又は後に二分木３１の構造を適切に変形
すれば足りるからである。

【０２３９】まず、削除されたノードの親であったノー
ドからルートに至るパス上の各ノード（図４０ではＢの
み）について、部分区間長を、（削除されたノードの部
分区間長）−（削除されたノードの前方ノード（左の
子）の部分区間長）−（削除されたノードの後方ノード
（右の子）の部分区間長）、すなわち削除されたノード
の正味区間長だけ減じる。

【０２４０】次に、削除されたノードの元の子の親ノー
ドでかつ削除されたノードの親でなかったノード（例え
ばＸ）から、（親が、削除されたノードの元の親であ
る）もう一方の子（例えばＣ）に至るパス上の各ノード
（例えばＸ，Ｃ）について、部分区間長を前者の子（例
えばＥ）の部分区間長だけ加算する。

【０２４１】図４２は、削除後の二分木３１を示す。

【０２４２】［６−２−４−４．構造調整処理］区間の
追加・削除の際には、構造調整手段４５が、各ノード間
の結合順序を変更することによって、二分木３１の各部
においてノード数の所定のバランスが維持されるように
二分木３１の構造を調整する（ステップ３５５）。

【０２４３】この構造調整によって、二分木３１の一部
が突出することがなくなり、データ処理で参照されるル
ートから各ノードに至るパスの長さが平均化される。こ
のため、データ処理で対象とするノードまでのパスが偶
然に長いためにデータ処理に長時間を要する事態が防止
され、検索や変更などのデータ処理が効率化される。あ
るいは別の構造調整の方法によれば、二分木に対する検
索・追加・削除の操作系列全体の処理時間が平均化され
る。

【０２４４】構造調整はノードの削除や追加及び参照に
際して行えばよい。構造調整の手法は従来から複数存在
し、これら従来の手法を含むいかなる手法を用いてもよ
いが、ツリーの構造が変更されたときは、用いる構造調
整の手法に対応した手法によって部分区間長の調整を行
なうべきである。なお、構造調整によって、ルートから
各ノードに至るパスの長さは、通常、ノードの総数の対
数に比例する。これによって、検索・区間長調整・構造
調整など、各種処理の所要時間が区間の総数の対数にほ
ぼ比例して平均化される。

【０２４５】ここで、構造調整の手順の単位としては、
所定の範囲について、二分木３１のノードの順序を維持
して構造を変化させる処理であるrotation，double rot
ation (zig-zig),double rotation (zig-zag) などが考
えられる。構造調整の具体的な手順は、これらの単位と
なる手順を組み合わせて構成する。

【０２４６】例えば、従来の構造調整の手順の単位を、
ルートから任意のノードに至るパスの全部又は一部につ
いて、適用した例を示す。すなわち、図４３の二分木３
１にrotationを適用すると図４４のように調整される。
また、図４５の二分木３１にdouble rotation (zig-zi
g) を適用すると図４６のように調整される。図４７の
二分木３１にdouble rotation (zig-zag) を適用すると
図４８のように調整される。

【０２４７】また、各ノードｎについて、変化前の部分
区間長をＳ（ｎ），変化後の部分区間長をＳＳ（ｎ）と
した場合、各単位となる操作の後で各ノードに設定すべ
きＳＳ（ｎ）は、操作前の部分区間長Ｓ（ｎ）に基づい
て次のように計算する。但し、Ｘ，Ｙ及びＺ以外のノー
ドは変更しなくてよい。

【０２４８】rotationの場合は、

【数１５】ＳＳ（Ｘ）＝Ｓ（Ｘ）−Ｓ（Ｙ）＋Ｓ（Ｂ）ＳＳ（Ｙ）＝Ｓ（Ｘ）のように計算される。

【０２４９】double rotation (zig-zig) の場合は、

【数１６】ＳＳ（Ｘ）＝Ｓ（Ｘ）−Ｓ（Ｙ）＋Ｓ（Ｂ）ＳＳ（Ｙ）＝Ｓ（Ｘ）−Ｓ（Ｚ）＋Ｓ（Ｃ）ＳＳ（Ｚ）＝Ｓ（Ｘ）のように計算される。

【０２５０】double rotation (zig-zag) の場合は、

【数１７】ＳＳ（Ｘ）＝Ｓ（Ｘ）−Ｓ（Ｙ）＋Ｓ（Ｂ）ＳＳ（Ｙ）＝Ｓ（Ｙ）−Ｓ（Ｚ）＋Ｓ（Ｃ）ＳＳ（Ｚ）＝Ｓ（Ｘ）のように計算される。

【０２５１】他に、Ｘ，Ｙ，Ｚの正味の区間長を計算し
てから、変更後の部分区間長を計算してもよい。ノード
ｎの正味の区間長をＴ（ｎ）として、rotationの場合

【数１８】Ｔ（Ｘ）＝Ｓ（Ｘ）−Ｓ（Ｙ）−Ｓ（Ａ）Ｔ（Ｙ）＝Ｓ（Ｙ）−Ｓ（Ｂ）−Ｓ（Ｃ）ＳＳ（Ｘ）＝Ｔ（Ｘ）＋Ｓ（Ａ）＋Ｓ（Ｂ）ＳＳ（Ｙ）＝Ｔ（Ｙ）＋ＳＳ（Ｘ）＋Ｓ（Ｃ） zig-zig の場合

【数１９】Ｔ（Ｘ）＝Ｓ（Ｘ）−Ｓ（Ｙ）−Ｓ（Ａ）Ｔ（Ｙ）＝Ｓ（Ｙ）−Ｓ（Ｚ）−Ｓ（Ｂ）Ｔ（Ｚ）＝Ｓ（Ｚ）−Ｓ（Ｄ）−Ｓ（Ｃ）ＳＳ（Ｘ）＝Ｔ（Ｘ）＋Ｓ（Ａ）＋Ｓ（Ｂ）ＳＳ（Ｙ）＝Ｔ（Ｙ）＋ＳＳ（Ｘ）＋Ｓ（Ｃ）ＳＳ（Ｚ）＝Ｔ（Ｚ）＋ＳＳ（Ｙ）＋Ｓ（Ｄ） zig-zag の場合

【数２０】Ｔ（Ｘ）＝Ｓ（Ｘ）−Ｓ（Ｙ）−Ｓ（Ａ）Ｔ（Ｙ）＝Ｓ（Ｙ）−Ｓ（Ｚ）−Ｓ（Ｄ）Ｔ（Ｚ）＝Ｓ（Ｚ）−Ｓ（Ｃ）−Ｓ（Ｂ）ＳＳ（Ｘ）＝Ｔ（Ｘ）＋Ｓ（Ａ）＋Ｓ（Ｂ）ＳＳ（Ｙ）＝Ｔ（Ｙ）＋Ｓ（Ｃ）＋Ｓ（Ｄ）ＳＳ（Ｚ）＝Ｔ（Ｚ）＋ＳＳ（Ｘ）＋ＳＳ（Ｙ）のように計算される。

【０２５２】このように、第６実施形態では、二分木３
１の所定の範囲について構造を変化させる異なった複数
の種類の処理を組み合わせて構造調整が行われるので、
二分木３１の状態に応じた内容の構造調整を行うことが
できる。

【０２５３】構造調整の具体的な方法としては、二分木
の高さを常にある程度以下に保って単一操作の所要時間
を一定以下に抑えるもの（例えばred-black tree）と、
自己調整二分木（splay tree）のように単一操作の最悪
時間は保証しないが、操作系列全体の所要時間（単一操
作の平均所要時間）を短縮するものがあるが、いずれも
構造の変化は上記の処理（操作単位）の組み合わせで事
足りる。

【０２５４】［６−２−４−５．構造調整の例］ここ
で、構造調整の具体的な方法の一例として、splay tree
(splaying)を挙げ（請求項３４）、splayingが二分木の
構造を変更する手順と、この変更において各ノードの部
分区間長がどのように変更されるかを例を挙げて説明す
る。

【０２５５】splayingは、任意の特定のノード（対象ノ
ード）がルートとなるように二分木を変更することであ
る（参考文献：Data Structures and Network Algorith
ms,Robert Endre Tarjan 著、"4.3 Self-Adjusting bin
ary trees" (pp53-56) ）。splaying操作が適用される
対象は、一般に、検索、追加又は削除の各操作の対称と
なったノードであり、具体的には、検索においてキーが
一致し検索結果と決定されたノード（キーが一致するノ
ードが存在しなかった場合は最後に訪れたノード）、ノ
ードの追加においては追加されたノード、ノードの削除
においては削除されたノードの親ノードである。

【０２５６】splaying操作では、対象ノードを最も根か
ら遠いノードとして、前記のrotation,double rotation
(zig-zig),double rotation(zig-zag)のうちいずれか条
件に合うものを繰り返し適用することによって、最終的
に対象ノードがルートとなる。

【０２５７】例えば、図４９は二分木の一例を示す図で
ある。この図では、円はノードを示し、三角形は円で表
されているノードを根（ルート）とする部分木を示す。
このような二分木を表すデータは、各ノードごとのデー
タをポインタで接続することによってリスト形式で構成
することができる。図５０は、各ノードごとのデータの
形式を示す概念図である。この図に示すように、各ノー
ドごとのデータは、右の子へのポインタ、左の子へのポ
インタ、上位ノード（親）へのポインタ及び当該ノード
の部分区間長を含む。

【０２５８】また、図５１は、図４９の二分木の一部分
について、各ノードごとのデータがポインタで接続され
ている状態を示す概念図である。

【０２５９】この図に示すように、以下の説明では、
ａ、ｂ、ｃ、Ａ、Ｂ、Ｃなどの記号で表される各ノード
の部分区間長をａ１、ｂ１、ｃ１、Ａ１、Ｂ１、Ｃ１の
ように同じ記号に数字の添字を付けて表す。また、例え
ば部分区間長ａ１が更新されたときはａ２やａ３のよう
に新たな添字で表す。

【０２６０】以下、図４９におけるノードａに対するsp
layingの実行の例を以下に示す。なお、splayingを実行
する前におけるノードａの正味区間長は、ノードａの部
分区間長ａ１から、ノードａの右の子であるノードＦの
部分区間長Ｆ１と、ノードａの左の子であるノードＥの
部分区間長Ｅ１を減じたものであり、

【数２１】ａ１−Ｆ１−Ｅ１である。

【０２６１】splayingでは、まず、ノードａ、ｂ、ｃ及
びＥ、Ｄを対象にdouble rotation(zig-zig) を適用
し、ノードａをノードｃに代えてノードｄの右の子の位
置に移動させる。図５２は、図４９の状態の二分木に対
してdouble rotation (zig-zig) を適用した後の二分木
の状態を示す図である。

【０２６２】この操作に伴って、太い円で示すノード
ｃ、ｂ、ａの部分区間長が

【数２２】ｃ２＝ｃ１−ｂ１＋Ｄ１ｂ２＝ｃ１−ａ１＋Ｅ１ａ２＝ｃ１のように変更される。

【０２６３】splayingによる二分木の変形は、ノードの
データ間を接続するポインタをつなぎ替えることによっ
て行なわれる。図５３は、図５１のノードｄ以下のデー
タとポインタについて、図５２の状態を示す図である。
この図では、ノードｄの左の子であるノードＢについて
は変更されていないが、ノードｄの右の子であるノード
ａ以下の各ノードが変更されている。

【０２６４】次に、ノードａ、ｄ、ｅ及びＦ、ｂを対象
にdouble rotation (zig-zag) を適用し、ノードａをノ
ードｅに代えてノードｆの右の子の位置に移動させる。
図５４は、図５２の状態の二分木に対してdouble rotat
ion (zig-zag) を適用した後の二分木の状態を示す図で
ある。

【０２６５】この操作に伴って、太い円で示すノード
ｅ、ｄ、ａの部分区間長が

【数２３】ｅ３＝ｅ１−ｄ１＋Ｆ１ｄ３＝ｄ１−ａ２＋ｂ２ａ３＝ｅ１のように変更される。

【０２６６】さらに、ノードａ、ｆ、ｇ及びｄ、ｅを対
象にdouble rotation (zig-zag) を適用し、ノードａを
ノードｇに代えてノードｈの左の子の位置に移動させ
る。図５５は、図５４の状態の二分木に対してdouble r
otation (zig-zag) を適用した後の二分木の状態を示す
図である。

【０２６７】この操作に伴って、太い円で示すノード
ｇ、ｆ、ａの部分区間長が

【数２４】ｇ４＝ｇ１−ｆ１＋ｅ３ｆ４＝ｆ１−ａ３＋ｄ３ａ４＝ｇ１のように変更される。

【０２６８】最後に、ノードａ、ｈ及びｇを対象にrota
tionを適用し、ノードａをノードｈに代えてルートの位
置に移動させる。図５６は、図５５の状態の二分木に対
してrotationを適用した後の二分木の状態を示す図であ
る。

【０２６９】この操作に伴って、太い円で示すノード
ｈ、ａの部分区間長が

【数２５】ｈ５＝ｈ１−ａ４＋ｇ４ａ５＝ｈ１のように変更される。

【０２７０】この例では、splayingによって、対象ノー
ドａがルートに移動したとともに、対象ノードａからも
とのルートノードｈに至るパス上に位置していた各ノー
ドｂ、ｃ、ｄ、ｅ、ｆ、ｇからルートに至るパスの長さ
が大部分短縮されたので、この二分木に対する各種処理
が迅速化される（請求項３４）。すなわち、splaying前
（図４９）とsplaying後（図５６）を比較すれば、上記
各ノードからルートに至る各パスの長さが次のように変
化したことを確認することができる。

【０２７１】

【表２】ノード splaying前 splaying後ｂ６３ｃ５４ｄ４２ｅ３３ｆ２１ｇ１２

【０２７２】このsplayingにおいて、各ノードの部分区
間長は、splaying前の図４９の状態における各ノードの
部分区間長に基づいて、次のように計算されたことにな
る。まず、ノードｂについては、

【数２６】ｂ２＝ｃ１−ａ１＋Ｅ１であり、ノードｃについては、

【数２７】ｃ２＝ｃ１−ｂ１＋Ｄ１である。

【０２７３】また、ノードｄについては、

【数２８】ｄ３＝ｄ１−ａ２＋ｂ２であるが、この式は、

【数２９】ｄ１−（ｃ１）＋（ｃ１−ａ１＋Ｅ１）と展開できるので、項を消去して、

【数３０】ｄ１−ａ１＋Ｅ１となる。

【０２７４】また、ノードｅについては、

【数３１】ｅ３＝ｅ１−ｄ１＋Ｆ１である。

【０２７５】また、ノードｆについては、

【数３２】ｆ４＝ｆ１−ａ３＋ｄ３であるが、この式は、

【数３３】ｆ４＝ｆ１−（ｅ１）＋（ｄ１−ａ１＋Ｅ１）と展開できるので、変形し、

【数３４】ｆ４＝ｆ１−ｅ１＋ｄ１−ａ１＋Ｅ１となる。

【０２７６】同様に、ノードｇについては、

【数３５】ｇ４＝ｇ１−ｆ１＋ｅ３から

【数３６】ｇ４＝ｇ１−ｆ１＋ｅ１−ｄ１＋Ｆ１となる。

【０２７７】以上よりノードｈについては、

【数３７】ｈ５＝ｈ１−ａ４＋ｇ４であるが、この式は、

【数３８】ｈ５＝ｈ１−（ｇ１）＋（ｇ１−ｆ１＋ｅ１
−ｄ１＋Ｆ１）と展開できるので、項を消去し、

【数３９】ｈ５＝ｈ１−ｆ１＋ｅ１−ｄ１＋Ｆ１となる。

【０２７８】このようなsplaying後のノードａが表す区
間の正味区間長は、ノードａの部分区間長ａ５から、ノ
ードａの右の子であるノードｈの部分区間長ｈ５と、ノ
ードａの左の子であるノードｆの部分区間長ｆ４を減じ
たものすなわち、

【数４０】ａ５−ｈ５−ｆ４となるが、この式を展開し、

【数４１】ｈ１−（ｈ１−ｆ１＋ｅ１−ｄ１＋Ｆ１） −（ｆ１−ｅ１＋ｄ１−ａ１＋Ｅ１）とし、項を消去すれば、

【数４２】ａ１−Ｆ１−Ｅ１となり、splaying前の前記数式２１と比べて等しく維持
されている。

【０２７９】逆に、splaying前の図４９において、ノー
ドａの区間の左にある区間の長さを合計すると、

【数４３】Ｅ１＋（ｂ１−ａ１）＋（ｃ１−ｂ１）＋（ｄ１−ｃ１）＋（ｆ１−ｅ１）となり、項を消去すれば、

【数４４】Ｅ１−ａ１＋ｄ１−ｅ１＋ｆ１となり、これはすなわちsplaying後のノードｆの部分区
間長ｆ４と等しいので、splayingによってノードａの区
間の相対的位置も影響を受けていないことが確認でき
た。

【０２８０】［６−２−４−６．splayingの応用］ま
た、上記のようなsplayingを用いれば、すでに述べた各
処理について、次のような手順による実現が可能とな
る。まず、ノードを指定して、そのノードに対応する区
間を特定する場合、二分木に対してsplayingを行なうこ
とによって、与えられたノードをルートに移動する（請
求項２１）。

【０２８１】このようにすれば、ルートとなった指定ノ
ードが表す区間は、二分木全体に係る区間の左端を０と
した場合、始端が指定ノードの左の子の部分区間長の次
（＋１）であり、終端が、指定ノードの部分区間長から
指定ノードの右の子の部分区間長を減じた値の位置とな
り、容易に特定される。

【０２８２】また、区間長を変更する場合、区間長を変
更しようとするノードをsplayingによってルートとし、
ルートとなったノードの部分区間長を必要なだけ増減す
ればよい（請求項２５）。この手順によれば、ルート以
外の部分区間長を変更する必要がないので、処理が間略
化される。

【０２８３】また、ノードの追加とこれに伴う部分区間
長の調整を行なう場合、追加しようとするノードの直前
及び直後のノードに対してsplayingを行なって順次ルー
トとし、追加しようとするノード直前のノードを左の
子、直後のノードを右の子とし、追加するノードの部分
区間長は左右の子の部分区間長に新たな区間の長さを加
えたものとすればよい（請求項２８）。

【０２８４】例えば、図５７は、splayingによる区間の
追加前の二分木の一部の状態を示す図である。この図に
示す部分は、より大きな二分木のルートでない任意の場
所に位置しているものとする。この図に示すように、ノ
ードＬの対応する区間の直後にノードＸの指す区間を挿
入しようとするとき、ノードＸは、ノードＬの右の子を
ルートとする部分木の最も左寄りの位置に、Ｒで示され
る部分木の最も左寄りのノードの左の子として、追加さ
れるべきである。これは、概念的には、ノードＬとノー
ドＲの間にノードＸを追加することと同義である。

【０２８５】この場合、最初のsplayingの実行によっ
て、ノードＲをルートとするが、このノードＲはノード
Ｘの直後にくるべきノードである。そして、ノードＸの
直前となるべきノードＬを根とするようにsplayingを実
行する。図５８は、図５７の状態に対して二度のsplayi
ngを実行した後の二分木の状態を示す図である。そし
て、ノードＬを左の子、直後のノードＲを右の子として
ノードＸを追加すればよい。図５９は、このようにspla
yingによって区間を追加した後の二分木の状態を示す図
である。

【０２８６】図５９におけるノードＸの部分区間長は、
splaying後の図５８におけるノードＬ（ルート）の部分
区間長に新たな区間の長さを加えたものである。また、
図５９におけるノードＬの部分区間長は、図５８におけ
るノードＬの部分区間長からノードＲの部分区間長を減
じたものである。

【０２８７】また、図５７において、最初に、ノードＬ
でsplayingし、次にノードＲについてsplayingを行なう
ことによって、図６０の状態とし、ノードＸをノードＬ
の右の子として追加してもよい。図６１は、ノードＸを
ノードＬの右の子として追加した後の二分木の状態を示
す図である。この状態では、ノードＸの親からルートに
至るパス上のノードはノードＬ及びノードＲに限定され
るので、部分区間長の変更（増加）はこれら２つのノー
ドについて行なえばよく、手順が間略化される（請求項
２８）。

【０２８８】この処理は、図６０の状態において左右対
象に適用することも可能で、この場合は、ノードＸはノ
ードＬの右の子として追加してもよい。

【０２８９】さらに、図６０の状態において、仮にノー
ドＬに右の子がないとき（すなわちノードＲをルートと
する右側の部分木が全く存在しない場合）は、直ちにノ
ードＬをノードＸの左の子として図６２の状態としても
よいし、あるいはノードＸをノードＬの右の子として図
６３の状態としてもよい。

【０２９０】また、ノードの追加とこれに伴う部分区間
長の調整を行なう場合、次のようにしてもよい。すなわ
ち、まず、任意の手法を用いて新たな区間に対応するノ
ードを、当該ノードの正味区間長を０として追加する。
すなわち、追加したノードの部分区間長はその左右の子
の部分区間長の和としておく。次に、追加したノードを
splayingによって二分木のルートに移動し、ルートに移
動したノードの部分区間長を、追加した区間の正味区間
長だけ増加させる（請求項２９）。このようにすれば、
所望の追加アルゴリズムを用いながら、ノードの部分区
間長の増加を１度だけ行なえばよいので、処理が迅速化
される。

【０２９１】また、ノード（区間）の削除についても、
splayingを用いて次のように行なうことができる。すな
わち、まず、削除すべきノードをsplayingによってルー
トに移動する。図６４は、削除すべきノードＸをsplayi
ngによってルートに移動した後の二分木の状態を示す図
である。この図において、削除すべきノードＸは、ノー
ドＲの前の区間に対応している。

【０２９２】次に、削除すべきノードＸの直後のノード
Ｒをsplayingによってルートに移動する。図６５は、削
除すべきノードＸの直後のノードＲをsplayingによって
ルートに移動した後の状態を示す図である。そして、ル
ートとなったノードＲの部分区間長を、ノードＸの正味
区間長だけ減じ、最後にノードＸを削除する（請求項３
１）。図６６は、ノードＸを削除した後の二分木の状態
を示す図である。このようにすれば、削除の際の部分区
間長の調整の対象がルートのノードに限定されるので、
処理が迅速化される。

【０２９３】［６−２−４−７．平衡二分木］次に、区
間を表す二分木として、平衡探索木(balanced search t
rees) の一種である平衡二分木（balanced binary tree
s 、参考文献：Data Structures andNetwork Algorithm
s, Robert Endre Tarjan 著、"4.2 Balanced binary tr
ees"(pp48-53) ）を用いた場合について、二分木の構造
調整＝再平衡化(rebalancing) に関する各ノードの部分
区間長の変更について、具体的に説明する。

【０２９４】ノードの挿入や削除の後の再平衡化の際に
用いられる単位操作は、（ａ）格上げ(promote) 、格下げ(demote) （ｂ）単回転(single rotation) （ｃ）単回転２回を含む双回転(double rotation) で、再平衡化は、これらの操作を組み合わせて順次適用
することによって行なわれる。

【０２９５】これら各単位操作のうち、（ａ）格上げ(p
romote) 、格下げ(demote)は二分木の構造を変えないの
で、部分区間長の変更は生じない。（ｂ）単回転(singl
e rotation) は、本発明ではrotationと同じ操作を意味
するので、部分区間長の変更は前記数式１５を用いて行
なえばよい。（ｃ）双回転(double rotation) は、本発
明ではdouble rotation (zig-zag) と同じ操作を意味す
るので、部分区間長の変更は前記数式１７を用いて行な
えばよい。

【０２９６】なお、１つの挿入の後の平衡化は最大２回
の単回転が最後にくる一連の格上げを必要とし（前記参
考文献、pp50）、１つの削除の後の平衡化は最大３回の
単回転が最後にくる一連の格下げを必要とする（前記参
考文献、pp51）。

【０２９７】ここでは、挿入後の再平衡化について具体
例を用いて説明する。平衡二分木の例として図６７のツ
リーを用いる。このツリーでは、各ノードが１、２など
図６７の各ノードに付記するような整数値のランクを有
し、あるノードｘのランクをｒａｎｋ（ｘ）で表し、ノ
ードｘの親をｐ（ｘ）、ノードｘの祖父母をｐ２（ｘ）
で表す場合、（１）ノードｘが親を持つとき、

【数４５】条件１：ｒａｎｋ（ｘ）≦ｒａｎｋ（ｐ（ｘ））≦ｒａｎｋ
（ｘ）＋１（２）ノードｘが祖父母を持つとき、

【数４６】条件２：ｒａｎｋ（ｘ）＜ｒａｎｋ（ｐ２（ｘ））（３）ノードｘが外部ノードであるとき、

【数４７】条件３：ｒａｎｋ（ｘ）＝０かつノードｘに親があるときｒａｎｋ（ｐ２（ｘ））＝１が成立していなければならない。

【０２９８】また、各ノードについて、親のランクが１
大きいか又は親のランクが未定義のノードを黒、親のラ
ンクが当該ノードと同じノードを赤と呼ぶ。図６７で
は、黒のノードを実線、赤のノードを破線で示す。

【０２９９】このツリーのノードごとの情報は、ノード
ごとの色を表す１ビットのフィールドを含むものとす
る。図６８は、平衡二分木の例におけるノードごとの情
報の形式を示す図である。なお、このツリーにおけるノ
ード間のポインタによる結合は、図５３と同様に行なわ
れる。なお、以下の説明では、ａ、ｂ、ｃなどの記号で
表される各ノードの部分区間長をａ１、ｂ１、ｃ１のよ
うに同じ記号に数字の添字を付けて表す。また、例えば
部分区間長ａ１が更新されたときはａ２やａ３のように
新たな添字で表す。

【０３００】図６７のツリーにおいて、例えば、ノード
ｆが表す区間の左に新たな区間（を表すノード）ｘを挿
入した場合、まずツリーは図６９の状態となる。

【０３０１】この場合、部分区間長の変更は、６−２−
４−２．区間の追加処理で説明したように、各ノードの
部分区間長は、

【数４８】ｆ２＝ｆ１＋ｘ１ｇ２＝ｇ１＋ｘ１ｅ２＝ｅ１＋ｘ１ｂ２＝ｂ１＋ｘ１となる。

【０３０２】このとき、追加したノードｘとその親ｆは
共に赤ノードなので、

【数４９】ｒａｎｋ（ｘ）＝ｒａｎｋ（ｆ）＝ｒａｎｋ（ｇ）を意味し、前記条件２（前記数式４６）に反するので構
造調整が必要である。

【０３０３】ここで、図７０は、条件２に反する場合の
再平衡化の態様を示す図である。すなわち、図６９の状
態は、ノードｘ、ｆ、ｇ、ｈについてみると、図７０の
（ａ）の場合に該当するので、ｒａｎｋ（ｇ）を１増大
させた状態に相当するように、ノードｇの色を赤に、そ
の赤色の子ノードｆ、ｈの色を黒に変更する。図７１
は、ノードの色を変更した後の二分木の状態を示す図で
ある。

【０３０４】この状態では、ノードｇとその親ノードｅ
が共に赤ノードとなり、さらに調整が必要である。すな
わち、ノードａが黒ノードであるから、ノードｇ、ｅ、
ｂ、ａは、図７０の（ｂ）（の左右対称の場合）に該当
する。したがって、単回転を１回行ない、ノードｂの色
を赤に、ノードｅの色を黒に変える。図７２は、単回転
及びノードの色の変更後の二分木の状態を示す図であ
る。

【０３０５】この処理は、ノードｅ、ｂに関するrotati
onであり、部分区間長は、

【数５０】ｂ３＝ｂ２−ｅ２＋ｃ１ｅ３＝ｂ２と変更される。図７２において前記条件１、２、３に対
する違反は解消し、構造調整（再平衡化）は完了する。

【０３０６】以上の構造調整において、ノードｅ、ｂの
正味区間長は、ノード挿入前の図６７においては、

【数５１】ｅ：ｅ１−ｃ１−ｇ１ｂ：ｂ１−ａ１−ｅ１であり、ノード挿入及び構造調整後の図７２において
も、

【数５２】ｅ：ｅ３−ｂ３−ｇ２＝ｂ２−（ｂ２−ｅ２＋ｃ１）−（ｇ１＋ｘ１）＝ｅ２−ｃ１−ｇ１−ｘ１＝（ｅ１＋ｘ１）−ｃ１−ｇ１−ｘ１＝ｅ１−ｃ１−ｇ１ｂ：ｂ３−ａ１−ｃ１＝（ｂ２−ｅ２＋ｃ１）−ａ１−ｃ１＝（ｂ１＋ｘ１）−（ｅ１＋ｘ１）−ａ１＝ｂ１−ａ１−ｅ１と、不変に保たれる。

【０３０７】［６−２−４−８．従来技術との比較］な
お、従来技術として、二分木のノードから当該ノードの
順位を獲得する方法が知られている（合衆国特許５３８
４５６８）。この従来技術（以下「従来例」という）
は、順位付けられたノードを処理する点では本発明と共
通する。しかし、従来例は区間ではなくノードの順位の
みを扱うもので、各ノードに付与されているのはそのノ
ードを根とする部分木に含まれるノードの数である。本
発明は区間を処理できる点で、この従来例よりも優れて
いる。

【０３０８】また、従来例では、ノードからルートの方
向へパスを辿ることによって、指定されたノードのアド
レスからノードの順位を計算する方法は示されている
が、区間内の任意の値を与えてノードを検索する方法は
示されていない。本発明は、区間内の任意の値を与えて
ノードを検索できる点で、この従来例よりも優れてい
る。本発明は、この検索を実現するために、ルートから
該当するノードの方向へパスを辿るという、従来例とは
逆の全く異なる手法を用いている。

【０３０９】また、従来例では、二分木の更新操作が、
先頭（左端）へのノードの追加、末尾（右端）のノード
の削除、任意のノードの先頭（左端）への移動、に限定
されており、任意のノード（区間）の追加及び削除につ
いては示されていない。本実施形態は、任意のノード
（区間）を追加及び削除できる点でこの従来例よりも優
れている。

【０３１０】［７．第７実施形態］複数行からなるテキ
ストを保持するデータ処理装置において、テキストを表
す二分木は、次のように構成してもよい。第７実施形態
は請求項３５に対応する。すなわち、第１の二分木によ
って各行の順序を表す。この二分木は各行に対応するノ
ードを複数含み、各ノードの区間長は１とする。また、
第２の二分木によって各行ごとのコード列を表す。そし
て、各第２の二分木は、ポインタによって第１の二分木
の各ノードと対応付ける。

【０３１１】例えばｘｙｚｓｔ（空行）（空行）ａｂｃｄｅｆを表す二分木を図７３に示す。

【０３１２】第７実施形態では、各行の順序を表す第１
の二分木と各行ごとの内容を表す第２の二分木が別個独
立に形成されている。このため、各行の順序又は行の内
容の一方を変更する場合に他方の内容を変更する必要が
なく、コード列の処理を効率的に行うことができる。

【０３１３】特に、テキストエディタのようにコード列
の編集を行う場合は、少なくとも、コード列の一端（先
頭又は末尾）から数えた行（区間）の番号と、行の一端
から数えたコード数を指定し、これによって決定される
特定のコードにアクセスする必要がある。また、同様
に、特定のコードを変更し、当該文字の前又は後につい
て、１文字又は複数文字の文字列を挿入又は削除する必
要がある。また、行単位でも追加や削除が必要である。
第７実施形態はこのような処理に特に適する。

【０３１４】なお、同一のコードの連続部分を区間長２
以上の単一のノードで表せばメモリ効率や処理効率がさ
らに向上する。

【０３１５】［８．第８実施形態］複数行からなるテキ
ストのようなコード列を単一の二分木によって表すこと
も可能である。第８実施形態は請求項３６に対応する。
すなわち、１行の最大文字数を十分大きい固定長ｎと
し、文字のない部分には所定の空白文字が入っているも
のとする。そして、テキスト全体を先頭（末尾）からの
連続したコード列として二分木を形成する。この場合、
例えば、先頭からｉ行目で行頭からｊ文字目のコード
は、全体の先頭から

【数５３】（ｉ−１）×ｎ＋ｊと表すことができる。

【０３１６】図７４は、ｎ＝１０として上記のテキスト
を表した二分木の例である。このようにすれば、データ
を単純な構成の単一の二分木で表すことができる。ま
た、連続する複数の同じ文字又は空白は、当該文字をラ
ベルとし連続の個数を区間長とする単一のノードで表せ
るので、処理効率とメモリ効率が向上する。例えば、図
７４では、連続する８個の空白と２つの空行は２８個の
空白として単一のノードで表すことができる。第８実施
形態は、同一コードの連続が多いデータにおいて特に実
益がある。

【０３１７】さらに、ファクシミリ画像などのビット列
データを、第８実施形態の二分木で表現することによっ
て圧縮すれば、従来技術と異なり、先頭から任意ビット
数目が１か０かを容易に知ることができる。

【０３１８】すなわち、ビット列は０と１が交互に複数
個ずつ連続したものである。従来は、０と１の連続個数
を連ねることによってデータを圧縮していた（ｒｕｎ−
ｌｅｎｇｔｈ−ｅｎｏｄｉｎｇ）。しかし、ｒｕｎ−ｌ
ｅｎｇｔｈ−ｅｎｃｏｄｉｎｇでは、データの途中の所
定のビットが０か１かを判別したり、データの途中の一
部分を復元するには、それ以前のデータを全て復元し、
又は、各区間の長さを積算する必要があった。これに対
して、第８実施形態の二分木を用いれば、区間と同数の
ノードしか用いず、かつ、データの途中の任意のビット
を復元及び判別し得る。

【０３１９】［９．他の実施形態］なお、本発明は上記
各実施形態に限定されるものではなく、適宜実施態様を
変更して実施できるものであるから、次のような他の実
施形態を包含するものである。

【０３２０】例えば、上記実施形態では、コード列の例
としてアルファベット文字を用いて、アルファベット順
に基づいた辞書データやツリーを示したが、コード列と
しては日本語文字やハングル文字などいかなる種類の文
字を用いてもよい。また、本発明におけるコード列は文
字列には限定されず、音声パターンを表すコード、ＤＮ
Ａの塩基配列を表すコードなど、いかなる種類のコード
でもよい。また、コード列における部分列の決定は、実
際にコード列のデータの一部を他の記憶領域に転送した
りして加工する必要はなく、所定のポインタで境界をマ
ーキングするなど、間接的な処理で足りる。

【０３２１】また、ツリーや二分木におけるエッジやノ
ードのラベルは１コードずつには限定されない。また、
データ検索装置における辞書データの形式はツリーには
限定されず、後方列と位置の対の対照テーブルを用いて
もよい。すなわち、そのような対照テーブルのデータ
を、後方列の文字コードの辞書順や、位置の数字の昇順
でソートしておき、２分探索などの手法でキー列を探索
してもよい。

【０３２２】また、第１−第５実施形態における検索
は、部分列の各後方列に基づいて前方一致で行ったが、
本発明における検索は、部分列の各前方列に基づいて後
方一致で行ってもよい。この場合、本明細書の「後方
列」と「前方列」は相互に読み替えるものとする。ま
た、処理の際に、キー列から文字を取り出す順序は後方
からとなる。第６実施形態における前方ノード、後方ノ
ードも同様に相互に読み替えられる。

【０３２３】

【発明の効果】以上のように、本発明によれば、検索用
データの更新所要時間が短いデータ検索装置を提供する
ことができる。また、本発明によれば、データを効率的
に処理するデータ処理装置を提供することができる。

【図面の簡単な説明】

【図１】本発明の第１実施形態の構成を表す機能ブロッ
ク図

【図２】本発明の第１実施形態における部分列の例

【図３】本発明の第１実施形態におけるサフィックス・
ツリーの例

【図４】本発明の第１実施形態におけるサフィックス・
ツリーの生成の手順を示すフローチャート

【図５】本発明の第１実施形態における最長一致ノード
検出の手順示すフローチャート

【図６】本発明の第１実施形態における検索の手順を示
すフローチャート

【図７】本発明の第１実施形態におけるコード列の変更
の手順を示すフローチャート

【図８】本発明の第１実施形態における部分列の例

【図９】本発明の第１実施形態における部分列の例

【図１０】本発明の第１実施形態における部分列の例

【図１１】本発明の第１実施形態における部分列の例

【図１２】本発明の第１実施形態における部分列の例

【図１３】本発明の第１実施形態における部分列の例

【図１４】本発明の第１実施形態における部分列の例

【図１５】本発明の第１実施形態における部分列の例

【図１６】本発明の第２実施形態におけるサフィックス
・ツリーの例

【図１７】本発明の第３実施形態におけるサフィックス
・ツリーの例

【図１８】本発明の第４実施形態における部分列の例

【図１９】本発明の第４実施形態における部分列の例

【図２０】本発明の第５実施形態における部分列の例

【図２１】本発明の第６実施形態のデータ処理装置の構
成を示す機能ブロック図

【図２２】本発明の第６実施形態における二分木の例

【図２３】本発明の第６実施形態における二分木の説明
図

【図２４】本発明の第６実施形態における検索の手順を
示すフローチャート

【図２５】本発明の第６実施形態における二分木の例
（検索時）

【図２６】本発明の第６実施形態における二分木の例
（検索時）

【図２７】本発明の第６実施形態における二分木の例
（検索時）

【図２８】本発明の第６実施形態において、指定ノード
に対応する区間を特定する手順の一例を示すフローチャ
ート

【図２９】本発明の第６実施形態において、指定ノード
に対応する区間を特定する手順の他の一例を示すフロー
チャート

【図３０】本発明の第６実施形態において、検索に適し
たハードウェアの構成の一例を示す機能ブロック図

【図３１】本発明の第６実施形態において、区間長の変
更の手順を示すフローチャート

【図３２】本発明の第６実施形態における二分木の例
（区間長変更時）

【図３３】本発明の第６実施形態における二分木の例
（区間長変更時）

【図３４】本発明の第６実施形態における二分木の例
（区間長変更時）

【図３５】本発明の第６実施形態におけるノードの追加
および削除の手順を示すフローチャート

【図３６】本発明の第６実施形態における二分木の例
（区間追加時）

【図３７】本発明の第６実施形態における二分木の例
（区間追加時）

【図３８】本発明の第６実施形態における二分木の例
（区間追加時）

【図３９】本発明の第６実施形態における二分木の例
（区間追加時）

【図４０】本発明の第６実施形態における二分木の例
（区間削除時）

【図４１】本発明の第６実施形態における二分木の例
（区間削除時）

【図４２】本発明の第６実施形態における二分木の例
（区間削除時）

【図４３】本発明の第６実施形態における二分木の例
（構造調整時）

【図４４】本発明の第６実施形態における二分木の例
（構造調整時）

【図４５】本発明の第６実施形態における二分木の例
（構造調整時）

【図４６】本発明の第６実施形態における二分木の例
（構造調整時）

【図４７】本発明の第６実施形態における二分木の例
（構造調整時）

【図４８】本発明の第６実施形態における二分木の例
（構造調整時）

【図４９】本発明の第６実施形態において、二分木の一
例を示す図

【図５０】本発明の第６実施形態において、各ノードご
とのデータの形式を示す概念図

【図５１】本発明の第６実施形態において、図４９の二
分木の一部分について、各ノードごとのデータがポイン
タで接続されている状態を示す概念図

【図５２】本発明の第６実施形態において、図４９の状
態の二分木に対してdouble rotation (zig-zig) を適用
した後の二分木の状態を示す図

【図５３】本発明の第６実施形態において、図５１のノ
ードｄ以下のデータとポインタについて、図５２の状態
を示す図

【図５４】本発明の第６実施形態において、図５２の状
態の二分木に対してdouble rotation (zig-zag) を適用
した後の二分木の状態を示す図

【図５５】本発明の第６実施形態において、図５４の状
態の二分木に対してdouble rotation (zig-zag) を適用
した後の二分木の状態を示す図

【図５６】本発明の第６実施形態において、図５５の状
態の二分木に対してrotationを適用した後の二分木の状
態を示す図

【図５７】本発明の第６実施形態において、splayingに
よる区間の追加前の二分木の一部の状態を示す図

【図５８】本発明の第６実施形態において、図５７の状
態に対してsplayingを実行した後の二分木の状態を示す
図

【図５９】本発明の第６実施形態において、splayingに
よって区間を追加した後の二分木の状態を示す図

【図６０】本発明の第６実施形態において、図５８の状
態において、さらに追加位置の直後に相当するノードＲ
でsplayingした後の二分木の状態を示す図

【図６１】本発明の第６実施形態において、ノードＸを
ノードＬの右の子として追加した後の二分木の状態を示
す図

【図６２】本発明の第６実施形態において、図６０の状
態において、ノードＬに右の子がなく、ノードＬをノー
ドＸの左の子とした後の二分木の状態を示す図

【図６３】本発明の第６実施形態において、図６０の状
態において、ノードＬに右の子がなく、ノードＸをノー
ドＬの右の子として後の二分木の状態を示す図

【図６４】本発明の第６実施形態において、削除すべき
ノードＸをsplayingによってルートに移動した後の二分
木の状態を示す図

【図６５】本発明の第６実施形態において、削除すべき
ノードＸの直後のノードＲをsplayingによってルートに
移動した後の状態を示す図

【図６６】本発明の第６実施形態において、ノードＸを
削除した後の二分木の状態を示す図

【図６７】本発明の第６実施形態において、平衡二分木
の例としてのツリーを示す図

【図６８】本発明の第６実施形態において、平衡二分木
の例におけるノードごとの情報の形式を示す図

【図６９】本発明の第６実施形態において、図６７のツ
リーにおいて、ノードｆが表す区間の左に新たな区間
（を表すノード）ｘを挿入した場合におけるツリーの状
態を示す図

【図７０】本発明の第６実施形態において、条件２に反
する場合の再平衡化の態様を示す図

【図７１】本発明の第６実施形態において、ノードの色
を変更した後の二分木の状態を示す図

【図７２】本発明の第６実施形態において、単回転及び
ノードの色の変更後の二分木の状態を示す図

【図７３】本発明の第７実施形態における二分木

【図７４】本発明の第８実施形態における二分木

【図７５】従来のコード列の検索において、文字列中に
存在するパターンの例

【図７６】従来のTrieの例

【図７７】従来のコード列の検索におけるコード列につ
いて、位置と同定部分列との対照表の例

【図７８】従来のposition tree の例

【図７９】従来のsuffix tree の例

【図８０】従来のdirected acyclic word graph の例

【図８１】従来の第１の手法におけるデータの例

【図８２】従来の第１の手法におけるデータの例（挿入
時）

【図８３】従来の第２の手法におけるデータの例

【図８４】従来の二分木の例

【図８５】従来の第３の手法におけるデータの例

【図８６】従来の第４の手法におけるデータの例

【符号の説明】

１：コード列２：第１の部分列３：第２の部分列４：区分手段５：第１の辞書データ６：第２の辞書データ７：生成手段８：検索手段９：除去手段１０：変更手段１１：更新手段１２：第１の調整手段１３：第２の調整手段３１：二分木３２：二分木生成手段３３：区間検索手段３４：二分木更新手段４１：区間長変更手段４２：追加手段４３：削除手段４５：構造調整手段

Claims

【特許請求の範囲】

【請求項１】キー列による検索対象となるコード列か
ら、第１の境界によって区分されキー列の最大長である
キー最大長より長い又は等しい複数の第１の部分列と、
第２の境界によって区分され前記第１の境界の前後少な
くともキー最大長又はその直前ずつにわたる第２の部分
列と、を決定する区分手段と、前記各部分列について、当該部分列の後方の部分である
後方列と、その後方列の先頭の前記コード列中における
位置とを対照する辞書データを生成する生成手段と、前記辞書データに基づいて、キー列の全体又は一部を前
方列とする後方列を検索する検索手段と、前記コード列を変更する変更手段と、前記変更の内容に基づいて、変更に係る前記部分列の辞
書データを更新する更新手段と、前記各境界の間隔を前記キー最大長又はその直前以上維
持する第１の維持手段と、を有することを特徴とするデータ検索装置。
【請求項２】前記区分手段は、前記コード列につい
て、前記第１の境界と前記第２の境界を交互に、かつ、
境界間のコード数がキー最大長又はその直前以上になる
ように設定することによって、前記決定を行うように構
成されたことを特徴とする請求項１記載のデータ検索装
置。
【請求項３】前記辞書データはサフィックス・ツリー
であり、このツリーは、ルートから末端ノードに至る複数のノー
ドを有するデータ構造で、末端ノード以外の各ノードは、経路を表すエッジで１又
は２以上の末端側のノードに接続され、各エッジにはラベルが設定され、部分列の各後方列にそれぞれ特定の終端ノードが対応
し、ルートからそれら終端ノードに至るパスのラベルを順次
接続すると部分列の各後方列となることを特徴とする請
求項１記載のデータ検索装置。
【請求項４】前記各ラベルは、前記コード列の１単位
ずつであることを特徴とする請求項３記載のデータ検索
装置。
【請求項５】前記検索手段は、前記キー列の各コード
に基づいて前記ツリーのパスを辿ることによって、キー
列に最も長くパスが一致するノードを検出し、このノー
ドの末端側に位置する各終端ノードに対応する後方列に
ついて、位置を特定することによって検索を行うように
構成されたことを特徴とする請求項３記載のデータ検索
装置。
【請求項６】前記ツリーは、部分列の終端を指すポイ
ンタを、部分列である後方列の終端ノードにのみ設定
し、部分列である後方列及び他の各後方列については、
当該後方列よりも１コード短い後方列の終端ノードへの
第２のエッジを設定したことを特徴とする請求項３記載
のデータ検索装置。
【請求項７】前記第２のエッジには、当該エッジが結
ぶ両終端ノードの両後方列の相違となるコードをラベル
として設定したことを特徴とする請求項６記載のデータ
検索装置。
【請求項８】前記検索手段は、検索結果である後方列
について、キー列と一致したコード数を出力するように
構成されたことを特徴とする請求項１又は３記載のデー
タ検索装置。
【請求項９】前記検索手段は、検索結果である後方列
がキー列の全体を含むときは、その旨を出力するように
構成されたことを特徴とする請求項１又は３記載のデー
タ検索装置。
【請求項１０】前記後方列の重複検出を除去する除去
手段を有することを特徴とする請求項１又は３記載のデ
ータ検索装置。
【請求項１１】前記更新手段は、変更の結果追加すべ
き後方列を前記辞書データに追加登録した後、変更の結
果削除すべき後方列を前記辞書データから削除するよう
に構成されたことを特徴とする請求項１又は３記載のデ
ータ検索装置。
【請求項１２】前記更新手段は、更新の際、登録しよ
うとする後方列が辞書データに登録済か否かを検出し、
未登録の後方列のみを登録するように構成されたことを
特徴とする請求項１又は３記載のデータ検索装置。
【請求項１３】前記第１の維持手段は、前記境界の間
隔がキー最大長未満になった場合、当該間隔に係るいず
れかの境界のうち、消去の結果一体化する部分列が短い
方の境界を消去するように構成されたことを特徴とする
請求項１又は３記載のデータ検索装置。
【請求項１４】前記各部分列の長さを所定の長さ以下
に維持する第２の維持手段を有することを特徴とする請
求項１又は３記載のデータ検索装置。
【請求項１５】前記辞書データに基づいて部分列を復
元する復元手段を有することを特徴とする請求項１又は
３記載のデータ検索装置。
【請求項１６】複数の部分列の各辞書データを、単一
のツリーとして生成することを特徴とする請求項１又は
３記載のデータ検索装置。
【請求項１７】前記キー列を複数の部分キー列に区分
するキー区分手段を有し、前記検索手段は、前記部分キー列の全体又は一部を前方
列とする後方列を検索するように構成されたことを特徴
とする請求項１又は３記載のデータ検索装置。
【請求項１８】１又は２以上の区間を含むコード列の
各区間に基づいて各区間の範囲を表す二分木を生成する
二分木生成手段を有し、前記二分木は各区間に対応するノードを有し、各ノードはルートから末端側に向けて樹状に接続され、各ノードの末端側には、当該ノードに対応する区間以前
の区間に対応するノードである前方ノード及び当該ノー
ドに対応する区間以降の区間に対応するノードである後
方ノードのうち該当するものが接続され、各ノードには、当該ノード及び当該ノードより末端側に
存在する各ノードに対応する区間の区間長の合計である
部分区間長が設定されたことを特徴とするデータ処理装
置。
【請求項１９】前記コード列中の任意の位置である指
定位置が属する区間を特定するための区間検索手段を有
し、この区間検索手段は、所定のポインタが指すノードであるカレントノードを前
記ルートから前記末端側へ順次移動し、各カレントノードにおいて、カレントノード及び、カレ
ントノードの末端側に直接接続されている前記前方ノー
ド乃至前記後方ノードのうち少なくとも一方、の区間長
に基づいてカレントノードの範囲を算出し、算出した範囲と前記指定位置を比較し、算出した範囲よりも指定位置が前方の場合は、カレント
ノードの前方ノードにカレントノードを進め、算出した範囲よりも指定位置が後方の場合は、カレント
ノードの後方ノードにカレントノードを進め、算出した範囲に指定位置が含まれる場合は、指定位置が
カレントノードに含まれる、と特定するように構成され
たことを特徴とする請求項１８記載のデータ処理装置。
【請求項２０】前記二分木中の任意のノードである指
定ノードに対応する区間を特定するための特定手段を有
し、この特定手段は、所定のポインタが指すノードであるカレントノードを、
前記指定ノードから前記カレントノードの上位ノードで
ある親ノードの方向へ前記ルートまで順次移動し、前記各移動について、当該移動前の前記カレントノード
である子ノードが、当該移動後の前記親ノードに対して
前記前方ノードであるか前記後方ノードであるかに応じ
て、ノードの区間長及び前記前方ノード又は前記後方ノ
ードの部分区間長を順次加算し、Ｌ−Ｃ−Ｒ順において前記指定ノード以前の総区間長で
ある左区間長又はＬ−Ｃ−Ｒ順において前記指定ノード
以降の総区間長である右区間長のうち少なくとも一方を
算出することによって前記指定ノードに対応する区間を
特定するように構成されたことを特徴とする請求項１８
記載のデータ処理装置。
【請求項２１】前記二分木中の任意のノードである指
定ノードに対応する区間を特定するための特定手段を有
し、この特定手段は、前記指定ノードをsplayingによって前
記ルートへ移動するように構成されたことを特徴とする
請求項１８記載のデータ処理装置。
【請求項２２】前記区間が変更された場合に変更の内
容に応じて前記二分木を更新する二分木更新手段を有す
ることを特徴とする請求項１８、１９又は２０記載のデ
ータ処理装置。
【請求項２３】前記二分木更新手段は、前記区間長を変更する区間長変更手段と、前記区間が削除された場合に削除された区間に対応する
前記ノードを前記二分木から削除する削除手段と、区間が追加された場合に追加された区間に対応するノー
ドを前記二分木に追加する追加手段と、を有することを特徴とする請求項２２記載のデータ処理
装置。
【請求項２４】前記区間長変更手段は、長さを変更する前記区間の前記ノードから前記ルートへ
至る各ノードの前記部分区間長を、変更分だけ順次変更
するように構成されたことを特徴とする請求項２３記載
のデータ処理装置。
【請求項２５】前記区間長変更手段は、長さを変更しようとする前記区間の前記ノードをsplayi
ngによって前記ルートへ移動し、前記ルートとなった当該ノードの前記部分区間長を変更
分だけ増減するように構成されたことを特徴とする請求
項２３記載のデータ処理装置。
【請求項２６】前記追加手段は、追加される前記区間に対応する前記ノードを前記二分木
に追加し、各ノードの結合順序を調整し、各ノードについて前記区間長の調整を行うように構成さ
れたことを特徴とする請求項２３記載のデータ処理装
置。
【請求項２７】前記追加手段は、前記区間長の調整において、追加した前記ノードの前記
部分区間長を、当該ノードの部分区間長及び当該ノード
の前記下位ノードの部分区間長の和とし、追加したノードが下位ノードとして直接接続されている
ノードである親ノードから前記ルートに至る経路上の各
ノードについて、追加したノードの区間長だけ部分区間
長を加算するように構成されたことを特徴とする請求項
２６記載のデータ処理装置。
【請求項２８】前記追加手段は、追加しようとするノードの直前及び直後のノードをspla
yingによって前記ルートに順次移動し、前記直前のノードの直後に相当する位置又は前記直後の
ノードの直前に相当する位置に、前記追加される区間に
対応する前記ノードを追加し、前記直前若しくは直後のノード又は前記追加したノード
のうち必要なノードについて、追加したノードの区間長
だけ部分区間長を加算するように構成されたことを特徴
とする請求項２３記載のデータ処理装置。
【請求項２９】前記追加手段は、追加される前記区間に対応する前記ノードを、当該ノー
ドの区間長を０として前記二分木に追加し、追加した当該ノードをsplayingによって前記二分木のル
ートに移動し、ルートに移動した当該ノードの部分区間長を、追加した
区間の区間長だけ増加させるように構成されたことを特
徴とする請求項２３記載のデータ処理装置。
【請求項３０】前記削除手段は、削除する前記区間に対応する前記ノードを前記二分木か
ら削除し、各ノード間の結合関係を調整し、各ノードについて前記区間長の調整を行うように構成さ
れたことを特徴とする請求項２３記載のデータ処理装
置。
【請求項３１】前記削除手段は、削除する前記区間に対応する前記ノードをsplayingによ
ってルートに移動し、削除すべきノードの直前又は直後のノードをsplayingに
よってルートに移動し、ルートとなった前記直前又は直後のノードの部分区間長
を、前記削除すべきノードの区間長だけ減じ、前記削除すべきノードを削除するように構成されたこと
を特徴とする請求項２３記載のデータ処理装置。
【請求項３２】前記各ノード間の結合順序を変更する
ことによって、前記二分木の構造を調整する構造調整手
段を有することを特徴とする請求項２２記載のデータ処
理装置。
【請求項３３】前記構造調整手段は、構造調整の手順の単位として、前記二分木の前記ノード
の順序を維持して構造を変化させる処理であるrotatio
n、double rotation (zig-zig) 及びdouble rotation
(zig-zag) を用いることを特徴とする請求項３２記載の
データ処理装置。
【請求項３４】前記構造調整手段は、任意の前記ノードである対象ノードを前記ルートへ移動
するsplayingを用いて前記二分木の構造を調整するよう
に構成されたことを特徴とする請求項３２記載のデータ
処理装置。
【請求項３５】請求項１９記載のデータ処理装置にお
いて、前記コード列として複数行を含むテキストを用い、前記区間として、テキストに含まれる各行を用い、前記二分木生成手段は、テキストの１又は２以上の行に対応する各ノードによっ
て各行の順序を表す第１の二分木と、各行ごとの１又は２以上の文字に対応する各ノードによ
って各行のコード順を表す第２の二分木と、を生成するように構成されたことを特徴とするデータ処
理装置。
【請求項３６】請求項１９記載のデータ処理装置にお
いて、前記コード列として、長さが一定の行を複数含むテキス
トを用い、前記二分木生成手段は、前記行のうち文字の存在しない部分には所定の空白文字
を配置し、連続する同じ文字又は空白文字を、当該文字をラベルと
し連続の個数を区間長とする単一の前記ノードで、テキ
ストの各部分列を表すことによって、テキストを表す前
記二分木を生成するように構成されたことを特徴とする
データ処理装置。
【請求項３７】キー列による検索対象となるコード列
から、第１の境界によって区分されキー列の最大長であ
るキー最大長より長い又は等しい複数の第１の部分列
と、第２の境界によって区分され前記第１の境界の前後
少なくともキー最大長又はその直前ずつにわたる第２の
部分列と、を決定する区分処理と、前記各部分列について、当該部分列の後方の部分である
後方列と、その後方列の先頭の前記コード列中における
位置とを対照する辞書データを生成する生成処理と、前記辞書データに基づいて、キー列の全体又は一部を前
方列とする後方列を検索する検索処理と、前記コード列を変更する変更処理と、前記変更の内容に基づいて、変更に係る前記部分列の辞
書データを更新する更新処理と、前記各境界の間隔を前記キー最大長又はその直前以上維
持する第１の維持処理と、を含むことを特徴とするデータ検索方法。
【請求項３８】前記区分処理は、前記コード列につい
て、前記第１の境界と前記第２の境界を交互に、かつ、
境界間のコード数がキー最大長又はその直前以上になる
ように設定することによって、前記決定を行うことを特
徴とする請求項３７記載のデータ検索方法。
【請求項３９】前記辞書データはサフィックス・ツリ
ーであり、このツリーは、ルートから末端ノードに至る複数のノー
ドを含むデータ構造で、末端ノード以外の各ノードは、経路を表すエッジで１又
は２以上の末端側のノードに接続され、各エッジにはラベルが設定され、部分列の各後方列にそれぞれ特定の終端ノードが対応
し、ルートからそれら終端ノードに至るパスのラベルを順次
接続すると部分列の各後方列となることを特徴とする請
求項３７記載のデータ検索方法。
【請求項４０】前記検索処理は、前記キー列の各コー
ドに基づいて前記ツリーのパスを辿ることによって、キ
ー列に最も長くパスが一致するノードを検出し、このノ
ードの末端側に位置する各終端ノードに対応する後方列
について、位置を特定することによって検索を行うこと
を特徴とする請求項３９記載のデータ検索方法。
【請求項４１】前記ツリーは、部分列の終端を指すポ
インタを、部分列である後方列の終端ノードにのみ設定
し、部分列である後方列及び他の各後方列については、
当該後方列よりも１コード短い後方列の終端ノードへの
第２のエッジを設定したことを特徴とする請求項３９記
載のデータ検索方法。
【請求項４２】前記後方列の重複検出を除去する除去
処理を含むことを特徴とする請求項３７又は３９記載の
データ検索方法。
【請求項４３】前記第１の維持処理は、前記境界の間
隔がキー最大長未満になった場合、当該間隔に係るいず
れかの境界のうち、消去の結果一体化する部分列が短い
方の境界を消去することを特徴とする請求項３７又は３
９記載のデータ検索方法。
【請求項４４】複数の部分列の各辞書データを、単一
のツリーとして生成することを特徴とする請求項３７又
は３９記載のデータ検索方法。
【請求項４５】１又は２以上の区間を含むコード列の
各区間に基づいて各区間の範囲を表す二分木を生成する
二分木生成処理を含み、前記二分木は各区間に対応するノードを有し、各ノードはルートから末端側に向けて樹状に接続され、各ノードの末端側には、当該ノードに対応する区間以前
の区間に対応するノードである前方ノード及び当該ノー
ドに対応する区間以降の区間に対応するノードである後
方ノードのうち該当するものが接続され、各ノードには、当該ノード及び当該ノードより末端側に
存在する各ノードに対応する区間の区間長の合計である
部分区間長が設定されたことを特徴とするデータ処理方
法。
【請求項４６】前記コード列中の任意の位置である指
定位置が属する区間を特定するための区間検索処理を含
み、この区間検索処理は、所定のポインタが指すノードであるカレントノードを前
記ルートから前記末端側へ順次移動し、各カレントノードにおいて、カレントノード及び、カレ
ントノードの末端側に直接接続されている前記前方ノー
ド乃至前記後方ノードのうち少なくとも一方、の区間長
に基づいてカレントノードの範囲を算出し、算出した範囲と前記指定位置を比較し、算出した範囲よりも指定位置が前方の場合は、カレント
ノードの前方ノードにカレントノードを進め、算出した範囲よりも指定位置が後方の場合は、カレント
ノードの後方ノードにカレントノードを進め、算出した範囲に指定位置が含まれる場合は、指定位置が
カレントノードに含まれる、と特定することを特徴とす
る請求項４５記載のデータ処理方法。
【請求項４７】前記二分木中の任意のノードである指
定ノードに対応する区間を特定するための特定処理を含
み、この特定処理は、所定のポインタが指すノードであるカレントノードを、
前記指定ノードから前記カレントノードの上位ノードで
ある親ノードの方向へ前記ルートまで順次移動し、前記各移動について、当該移動前の前記カレントノード
である子ノードが、当該移動後の前記親ノードに対して
前記前方ノードであるか前記後方ノードであるかに応じ
て、ノードの区間長及び前記前方ノード又は前記後方ノ
ードの部分区間長を順次加算し、Ｌ−Ｃ−Ｒ順において前記指定ノード以前の総区間長で
ある左区間長又はＬ−Ｃ−Ｒ順において前記指定ノード
以降の総区間長である右区間長のうち少なくとも一方を
算出することによって前記指定ノードに対応する区間を
特定することを特徴とする請求項４５記載のデータ処理
方法。
【請求項４８】前記区間が変更された場合に変更の内
容に応じて前記二分木を更新する二分木更新処理を含む
ことを特徴とする請求項４５、４６又は４７記載のデー
タ処理方法。
【請求項４９】前記二分木更新処理は、前記区間長を変更する区間長変更処理と、前記区間が削除された場合に削除された区間に対応する
前記ノードを前記二分木から削除する削除処理と、区間が追加された場合に追加された区間に対応するノー
ドを前記二分木に追加する追加処理と、を含むことを特徴とする請求項４８記載のデータ処理方
法。
【請求項５０】前記各ノード間の結合順序を変更する
ことによって、前記二分木の構造を調整する構造調整処
理を含むことを特徴とする請求項４８記載のデータ処理
方法。