JP2000259646A

JP2000259646A - 情報索引装置

Info

Publication number: JP2000259646A
Application number: JP11058332A
Authority: JP
Inventors: Hideo Ito; 秀夫伊東
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1999-03-05
Filing date: 1999-03-05
Publication date: 2000-09-22
Anticipated expiration: 2019-03-05
Also published as: JP4208326B2

Abstract

(57)【要約】【課題】ｓｕｆｆｉｘａｒｒａｙは一次元配列とい
う単純な構造、高速な情報検索を可能にする等の長所を
持つが、文字列の整列に多大な計算時間と記憶量を要
し、大規模な文字列については実用上問題がある。【解決手段】文字列集合を記憶する文字列バッファ１
と、辞書順に文字列の出現度を記憶する出現度表２と、
文字列の分類に用いる分類表５と、文字列バッファ中の
文字列に対し出現度表から分類番地を算出する番地算出
部３と、文字列バッファ中の文字列を番地計算部が算出
した分類番地に従い分類表５中に対応づける分類部４
と、分類表中の文字列をその分類番地に従い辞書順に整
列する整列部６とを有する。文字列の出現度を用いるこ
とで文字列のバケット整列を高速化することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報索引装置、よ
り詳細には、情報検索システム、情報管理システム等に
おいて使用される情報検索技術に関する。

【０００２】

【従来の技術】テキストや画像は文字コードまたは画素
の系列として計算機中に表現することができる。これら
の系列をここでは文字列と呼び、その最小構成単位を文
字と呼ぶ。既知の文字列Ｓ１に対して、ある文字列Ｓ２
が文字列Ｓ１中のどの位置に出現しているかを求めるた
めに、従来より文字列Ｓ１から索引を構成し、この索引
を利用することで時間的効率化が図られている。

【０００３】Suffix array（Udi Manber,Gene Myers."S
uffix Arrays:ＡNew Method for On-line String Searc
hes",1^st ACM-SLAM Symposium on Discrete Algorithm
s”，ｐｐ．３１９−２３７，１９９０）は上記の索引
の一種である。以下に、例として、文字列“ａａ．ｂ
ｂ．ｃｃｃｃ”に対してｓｕｆｆｉｘａｒｒａｙを構
成する様子を説明する。ただし、文字列の末尾を表す仮
想文字として＃を用い、これを合わせた文字列“ａａ．
ｂｂ．ｃｃｃｃ＃”を対象とする。また、この文字列は
４つの文字｛ａ，ｂ，ｃ，．，＃｝により構成され、こ
れらの文字を辞書順に整列すると“＃．ａｂｃ”となる
ことを前提とする。

【０００４】ｓｔｅｐ１：表１に示す文字列“ａａ．ｂ
ｂ．ｃｃｃｃ”に対し、先頭から一文字づつ除いてでき
る部分文字列（ｓｕｆｆｉｘと呼ぶ）を得る。表１に示
す例の場合、１０個のｓｕｆｆｉｘを得る。ただし、各
ｓｕｆｆｉｘには、元の文字列中での出現位置（先頭か
らのオフセット）が対応づけられているものとする。例
えば、ｓｕｆｆｉｘ“ｃｃ”は、元の文字列の先頭から
７番めの位置に出現している。

【０００５】

【表１】

【０００６】ｓｔｅｐ２：表１に示したｓｕｆｆｉｘの
集合を辞書順に整列して、表２を得る。

【０００７】

【表２】

【０００８】表２の先頭欄にある出現位置の列である表
３が求めるｓｕｆｆｉｘａｒｒａｙである。

【０００９】

【表３】

【００１０】元の文字列“ａａ．ｂｂ．ｃｃｃｃ”に対
し文字列“ｂ”の出現位置を全て求める（つまり検索す
る）には、上記のｓｕｆｆｉｘａｒｒａｙ上で二分探
索を行えばよい。

【００１１】

【発明が解決しようとする課題】ｓｕｆｆｉｘａｒｒ
ａｙは一次元配列という単純な構造、高速な情報検索を
可能にする等の長所を持つが、上記ｓｔｅｐ２の文字列
の整列に多大な計算時間と記憶量を要し、大規模な文字
列については実用問題がある。

【００１２】本発明は、上述のごとき実情に鑑みてなさ
れたもので、請求項１，３の発明は、上記問題のうち計
算時間の問題を解決することを課題とする。請求項２，
４の発明は、請求項１，３の装置が必要とする記憶量の
負荷を軽減することを課題とする。請求項５，６の発明
は、請求項１乃至４の装置が必要とする記憶量の負荷を
軽減することを課題とする。請求項７の発明は、請求項
５，６の装置が必要とする計算時間の負荷を軽減するこ
とを課題とする。

【００１３】元の文字列を修正したり新たな文字列の追
加をする場合、ｓｕｆｆｉｘａｒｒａｙは再構築しな
ければならない。請求項８，９の発明は、この索引更新
の負荷を軽減することを課題とする。

【００１４】ｓｕｆｆｉｘａｒｒａｙを用いた検索で
は、ｓｕｆｆｉｘａｒｒａｙの他に元の文字列が必要
となる。元の文字列が通信ネットワーク等を介し、遠隔
にある場合は、検索時の二分探索の計算時間が増大し、
実用上の問題になる。請求項１０の発明は、この問題を
解決することを課題とする。

【００１５】

【課題を解決するための手段】請求項１の発明は、文字
列集合を記憶する文字列バッファと、辞書順に文字列の
出現度を記憶する出現度表と、文字列の分類に用いる分
類表と、文字列バッファ中の文字列に対し出現度表から
分類番地を算出する番地算出部と、文字列バッファ中の
文字列を番地計算部が算出した分類番地に従い分類表中
に対応づける分類部と、分類表中の文字列をその分類番
地に従い辞書順に整列する整列部とを有することを特徴
とし、もって、文字列の出現度を用いることで文字列の
バケット整列を高速化するようにしたものである。

【００１６】請求項２の発明は、請求項１の発明におい
て、前記文字列の出現度を前記文字列バッファ中の文字
列から算出する出現度算出部を有することを特徴とし、
もって、文字列の出現度を元の文字列（の集合）から求
めることで、請求項１の発明における記憶量の負荷を軽
減するようにしたものである。

【００１７】請求項３の発明は、文字列集合を記憶する
文字列バッファと、辞書順に文字列の圧縮符号を記憶す
る圧縮符号表と、文字列の分類に用いる分類表と、文字
列バッファ中の文字列に対し圧縮符号表から分類番地を
算出する番地算出部と、文字列バッファ中の文字列を番
地計算部が算出した分類番地に従い分類表中に対応づけ
る分類部と、分類表中の文字列をその分類番地に従い辞
書順に整列する整列部とを有することを特徴とし、もっ
て、文字列の圧縮符号を用いることで文字列のバケット
整列を高速化するようにしたものである。

【００１８】請求項４の発明は、請求項３の発明におい
て、前記文字列の圧縮符号を文字列バッファ中の文字列
から算出する圧縮符号算出部を有することを特徴とし、
もって、文字列の圧縮符号を元の文字列（の集合）から
求めることで、請求項３の発明における記憶量の負荷を
軽減するようにしたものである。

【００１９】請求項５の発明は、請求項１又は２の発明
において、前記文字列バッファ中の文字列の内、一部の
文字列についてのみ前記出現度表から分類番地を算出す
る番地算出部を有することを特徴とし、もって、整列対
象となる文字列の範囲を分割し、その各々を別々に整列
することで、請求項１又は２の発明が必要とする計算量
の負荷を軽減し、また、分類番地の衝突を抑制するよう
にしたものである。

【００２０】請求項６の発明は、請求項３又は４の発明
において、前記文字列バッファ中の文字列の内、一部の
文字列についてのみ前記圧縮符号表から分類番地を算出
する番地算出部を有することを特徴とし、もって、整列
対象となる文字列の範囲を分割し、その各々を別々に整
列することで、請求項３又は４の発明が必要とする計算
量の負荷を軽減し、また、分類番地の衝突を抑制するよ
うにしたものである。

【００２１】請求項７の発明は、請求項５又は６の発明
において、前記文字列バッファ中の文字列に対し前記番
地算出部が算出した番地を記憶する番地バッファを有す
ることを特徴とし、もって、バケット整列において求め
た分類番地を記憶することで重複した番地計算をなく
し、請求項５又は６の装置が必要とする計算時間の負荷
を軽減するようにしたものである。

【００２２】請求項８の発明は、請求項１乃至７のいず
れかの発明において、辞書順に整列した文字列の識別番
号を記憶する索引表及び文字列が属する内容分類に応じ
て文字列集合を分割する内容分割部を有することを特徴
とし、もって、文字列集合を内容別に分割し、その各々
についてｓｕｆｆｉｘａｒｒａｙを構成することで、
更新問題を軽減するようにしたものである。

【００２３】請求項９の発明は、請求項１乃至７のいず
れかの発明において、辞書順に整列した文字列の識別番
号を記憶する索引表及び文字列が属する時系列分類に応
じて文字列集合を分割する時系列分割部を有することを
特徴とし、もって、文字列集合を時系列で分割し、その
各々についてｓｕｆｆｉｘａｒｒａｙを構成すること
で、更新問題を軽減するようにしたものである。

【００２４】請求項１０の発明は、辞書順に整列した文
字列の識別番号を記憶する索引表と、索引表中の識別番
号と文字列の対応を記憶する対応表と、索引表と対応表
から文字列を構成する文字列構成部からなることを特徴
とし、もって、ｓｕｆｆｉｘａｒｒａｙの各要素と、そ
れに対応する文字列の先頭文字を対応づける表を用いｓ
ｕｆｆｉｘａｒｒａｙから元の文字列を再現すること
で、検索時に遠隔にある元の文字列への参照を回避し、
検索時間を軽減するようにしたものである。

【００２５】

【発明の実施の形態】（請求項１の発明）図１は、請求
項１の発明の情報索引装置の一実施形態を説明するため
の要部構成図で、図中、１は文字列集合を記憶する文字
列バッファ、２は辞書順に文字列の出現度を記憶する出
現度表、３は文字列バッファ１中の文字列に対して出現
度表２から分類番地を算出する番地算出部、４は文字列
バッファ１中の文字列を番地計算部３が算出した分類番
地に従い分類表５中に対応づける分類部、５は文字列の
分類に用いる分類表、６は分類表５中の文字列をその分
類番地に従い辞書順に整列する整列部である。

【００２６】図２は、図１に示した情報索引装置の動作
説明をするためのフロー図で、以下のｓｔｅｐ１〜４か
らなる。ｓｔｅｐ１：番地算出部３は、文字列バッファ１から文
字列Ｓと、その識別子ｉを取り出す。ｓｔｅｐ２：番地算出部３は、文字列Ｓと出現度表２か
ら分類番地ｊを算出する。ｓｔｅｐ３：分類部４は、分類表５中の分類番地ｊの位
置に文字列Ｓの識別子ｉを格納する。以上の、ｓｔｅｐ
１−ｓｔｅｐ３を文字列バッファ１中の全ての文字に対
して繰り返す。ｓｔｅｐ４：整列部６は、分類表５の先頭から末尾にか
けて操作し、文字列の識別子を検出する度に、その識別
子に対応する文字列バッファ中の文字列を出力する。

【００２７】以上の動作ステップに沿った具体例とし
て、文字列“ａａ．ｂｂ．ｃｃｃｃ”から得られるｓｕ
ｆｆｉｘ（文字列）の集合を整列する場合の過程を示
す。まず、この文字列は４つの文字｛ａ，ｂ，ｃ，．，
＃｝により構成され、これらの文字を辞書順に整列する
と“＃．ａｂｃ”となることを前提とし、表４に示すよ
うに、これらの文字の出現度が出現度表にそれらの辞書
順に格納されているものとする。出現度として、予め定
めた各文字の出現確率と、それを辞書順に累積して得ら
れる累積確率を用いる。

【００２８】

【表４】

【００２９】上記の例では、文字の出現度を用いている
が、一般には、隣接するｎ個の文字（つまり文字ｎ−ｇ
ｒａｍ）等、文字列の出現度を用いても良い。また、文
字列バッファ中に、表５に示すようにｓｕｆｆｉｘが格
納されているものとする。最初の欄の番号が各ｓｕｆｆ
ｉｘの識別子に相当する。また、ｓｕｆｆｉｘは元の文
字列の末尾から先頭に向けた順番に格納している。

【００３０】

【表５】

【００３１】番地算出部３は、文字列バッファ１の先頭
から順に各ｓｕｆｆｉｘを取り出し、その番地を算出す
る。最初はｓｕｆｆｉｘ“ｃ”が取り出され、その識別
子は９である。

【００３２】一般に、文字列Ｓの番地は、以下の式
（１）から算出される。文字列Ｓの番地＝文字列Ｓの相対番地×スケール …式（１）ここで、スケールとは分類表の大きさであり、この例で
は１００とする。以降、文字列Ｓ＝ｓｉ，ｓｉ＋１，‥
ｓｊ（ｓｉは文字）をＳ［ｉ，ｊ］で表す。文字列Ｓ＝
Ｓ［ｉ，ｎ］の相対番地は以下の式（２）から再帰的に
算出される。ただし、文字ｓｉの出現確率をＰ（ｓ
ｉ）、累積確率をＣ（ｓｉ）とする。また、Ｓ［ｎ，
ｎ］の相対番地は０.０とする。Ｓ［ｉ，ｎ］の相対番地＝Ｃ（ｓｉ）＋Ｐ（ｓｉ）×Ｓ［ｉ＋１，ｎ］の相対番地 …式（２）

【００３３】よって、最初のｓｕｆｆｉｘ“ｃ”の番地
は、ｓｕｆｆｉｘ“ｃ”の相対番地＝０.６＋０.４×０＝
０.６ｓｕｆｆｉｘ“ｃ”番地＝０.６×１００＝６０.０次のｓｕｆｆｉｘ“ｃｃ”の番地は、ｓｕｆｆｉｘ“ｃｃ”の相対番地＝０.６＋０.４×０.
６＝０.８４ｓｕｆｆｉｘ“ｃｃ”番地＝０.８４×１００＝８４のようになる。ただし、分類番地は分類表の位置である
ので、上記のように算出された番地を、小数点以下を切
り下げることで得た整数番地を実際には使用する。

【００３４】表６に、全てのｓｕｆｆｉｘに対して算出
される相対番号と整数化された分類番地を示す。分類部
４は、番地算出部３が分類番地を算出する度に、分類表
５の該当する番地にｓｕｆｆｉｘの識別子を格納する。
ただし、分類表５の各要素は全体は予め−１に初期化さ
れているものとする。よって、最終的に表７の分類表を
得る（ただし、以下では初期値（−１）以外の値が格納
されている部分のみを示す）。

【００３５】

【表６】

【００３６】

【表７】

【００３７】整列部６は、分類表５を先頭から末尾にか
けて走査し、初期値以外の値が格納されている場合は、
その識別子を出力する。このように整列部６から出力さ
れた識別子は、ｓｕｆｆｉｘａｒｒａｙの各要素に対
応する（つまり対応する文字列の辞書順に整列されてい
る）。また、この例では出現確率を用いているので、出
現度が高いほど上記の相対番地の少数を表現するための
桁数を消費せず、必要となる分類表の大きさ（スケー
ル）の増大を最小限にできる。

【００３８】（請求項２の発明）図３は、請求項２の情
報索引装置の一実施形態を説明するための要部構成図
で、図中、１は文字列集合を記憶する文字列バッファ、
２は辞書順に文字列の出現度を記憶する出現度表、３は
文字列バッファ１中の文字列に対し出現度表２から分類
番地を算出する番地算出部、４は文字列バッファ１中の
文字列を番地算出部３が算出した分類番地に従い分類表
５中に対応づける分類部、５は文字列の分類に用いる分
類表、６は分類表５中の文字列をその分類番地に従い辞
書順に整列する整列部、７は文字列の出現度を文字列バ
ッファ中の文字列から算出する出現度算出部で、この発
明は、図１に示した請求項１の発明に出現度算出部７を
設けたものである。

【００３９】図４は、図３に示した情報索引装置の動作
説明をするためのフロー図で、以下のｓｔｅｐ０〜４か
らなる。ｓｔｅｐ０：出現度算出部７は、文字列バッファ１中の
文字列から文字列の出現度を算出し出現度表２に格納す
る。ｓｔｅｐ１：番地算出部３は、文字列バッファ１から文
字列Ｓと、その識別子ｉを取り出す。ｓｔｅｐ２：番地算出部３は、文字列Ｓと出現度表２か
ら分類番地ｊを算出する。ｓｔｅｐ３：分類部４は、分類表５中の分類番地ｊの位
置に文字列のＳの識別子ｉを格納する。以上の、ｓｔｅ
ｐ１−ｓｔｅｐ３を文字列バッファ１中の全ての文字に
対して繰り返す。ｓｔｅｐ４：整列部６は、分類表５の先頭から末尾にか
けて操作し、文字列の識別子を検出する度に、その識別
子に対応する文字列バッファ１中の文字列を出力する。

【００４０】ｓｔｅｐ１以降は、請求項１の発明と同様
の動作となる。出現度表２の出現度は、処理対象となる
文字列バッファ１中の文字列集合から算出した方が前述
のスケール（つまり分類表の大きさ）を小さくでき、記
憶量を節約できる。ｓｔｅｐ０は、文字列バッファ１中
の文字列を一つずつ取り出し、それを構成する文字の頻
度及び全文字数を計算し、最終的に前述した出現度表２
の値を求める。すなわち、出現確率は、各文字の出現頻
度を全文字数で割ることで得られる。

【００４１】（請求項３の発明）図５は、請求項３の情
報索引装置の一実施形態を説明するための要部構成図
で、図中、１は文字列集合を記憶する文字列バッファ、
８は辞書順に文字列の圧縮符号を記憶する圧縮符号表、
３は文字列バッファ１中の文字列に対し圧縮符号表８か
ら分類番地を算出する番地算出部、４は文字列バッファ
１中の文字列を番地算出部３が算出した分類番地に従い
分類表５中に対応づける分類部、５は文字列の分類に用
いる分類表、６は分類表５中の文字列をその分類番地に
従い辞書順に整列する整列部で、この発明は、図１に示
した実施例における出現度表２に代わって圧縮符号表８
を用いたものである。

【００４２】図６は、図５に示した情報索引装置の動作
説明をするためのフロー図で、以下のｓｔｅｐ１〜４か
らなる。ｓｔｅｐ１：番地算出部３は、文字列バッファ１から文
字列Ｓと、その識別子ｉを取り出す。ｓｔｅｐ２：番地算出部３は、文字列Ｓと圧縮符号表８
から分類番地ｊを算出する。ｓｔｅｐ３：分類部４は、分類表５中の分類番地ｊの位
置に文字列のＳの識別子ｉを格納する。以上ｓｔｅｐ１
−ｓｔｅｐ３を文字列バッファ１中の全ての文字に対し
て繰り返す。ｓｔｅｐ４：整列部６は、分類表５の先頭から末尾にか
けて操作し、文字列の識別子を検出する度に、その識別
子に対応する文字列バッファ１中の文字列を出力する。

【００４３】請求項１の発明との違いは、出現度表２の
代わりに表８に例示する圧縮符号表を用いる点、およ
び、それを用いた分類番地の求め方にある。前述の例に
おける、圧縮符号表を表８に示す。

【００４４】

【表８】

【００４５】表８の圧縮符号は次のようにして求める。
まず、表中に辞書順に並べた文字からなる集合を、集合
中に含まれる文字の出現確率の和がなるべく均等になる
ように２つの集合に分割し、各々に０と１を圧縮符号と
して割り当てる。よって、まず、表９の圧縮符号を得
る。

【００４６】

【表９】

【００４７】上記において、辞書順に並べた４つの文字
からなる集合｛＃，．，ａ，ｂ，ｃ｝は、｛＃，．，
ａ｝と｛ｂ，ｃ｝という２つの集合に分割される。各々
の集合に属する文字の出現確率の和は０.５と０.５であ
り、他の分割方法に比べて最も均等している（例えば
｛＃，．｝と｛ａ，ｂ，ｃ｝では０.３と０.７になり、
上記の分割より均等していない）。次に、各々分散され
た文字集合をさらに同様の方法で分割し、圧縮符号を割
り当て、既に得られた圧縮符号と連結することで表１０
を得る。

【００４８】

【表１０】

【００４９】表１０において、文字集合｛＃，．｝をさ
らに分割することで、前述の圧縮符号を得る。上記の圧
縮符号化法は、いわゆるＳｈａｎｏｎ−Ｆａｎｏの符号
化に類似しているが、本発明の方法では、分割対象とな
る文字を辞書順に並べておき、この順序を前提として文
字列集合を分割してゆく点が異なる（Ｓｈａｎｏｎ−Ｆ
ａｎｏの方法では文字は頻度が高い順に並べられる）。
このようにすることで、圧縮前の文字の辞書順と、圧縮
符号化された文字（またはそれにより構成される文字
列）の辞書順を一致させることができる。

【００５０】以上の方法で各文字に圧縮符号を対応さ
せ、それを記憶した圧縮符号を用い番地算出部は以下の
ように分類番地を生成する。前述の通り、文字列バッフ
ァには以下のようにｓｕｆｆｉｘが格納されているもの
とする。最初にｓｕｆｆｉｘ“ｃ＃”を取り出し、圧縮
符号表中の“ｃ”と“＃”の圧縮符号を、この順番で連
結することで“１１０００”を得る。次に、ｓｕｆｆｉ
ｘ“ｃｃ”を取り出し、直前に得られた圧縮符号列“１
１０００”に先頭文字“ｃ”の圧縮符号“１１”を前接
することで“１１１１０００”を得る。以下、同様に圧
縮符号を各ｓｕｆｆｉｘに対して求めることができる。
一方、分類表の大きさを表すスケールとして８を採用
し、分類表の大きさを２ ⁸＝２５６とする。そして、圧
縮符号をｂｉｔ列と見なした場合に、上位８ｂｉｔを取
り分類番地とする。このようにして、各ｓｕｆｆｉｘに
対して表１１の圧縮符号と分類番地を得る。

【００５１】

【表１１】

【００５２】実際には、ｓｕｆｆｉｘに対し、その分類
番地を求めるのに必要なｂｉｔ数の圧縮符号を求めれば
よい。分類部は、番地算出部が分類番地を算出する度
に、分類表の該当する番地にｓｕｆｆｉｘの識別子を格
納する。例えば、上記ｓｕｆｆｉｘ“ｃ”の番地は二進
法で１１００００００（１０進法で１９２）なので、分
類表（大きさは２５６）の１９２番目の要素として、識
別子９を格納する。以降の動作は、請求項１の発明と同
じである。

【００５３】（請求項４の発明）図７は、請求項４の情
報索引装置の一実施形態を説明するための要部構成図
で、図中、１は文字列集合を記憶する文字列バッファ、
８は辞書順に文字列の圧縮符号を記憶する圧縮符号表、
９は文字列の圧縮符号を文字列バッファ１中の文字列か
ら算出する圧縮符号算出部、３は文字列バッファ１中の
文字列に対し圧縮符号表８から分類番地を算出する番地
算出部、４は文字列バッファ１中の文字列を番地算出部
３が算出した分類番地に従い分類表５中に対応づける分
類部、５は文字列の分類に用いる分類表、６は分類表５
中の文字列をその分類番地に従い辞書順に整列する整列
部で、この発明は、図５に示した請求項３の発明に圧縮
符号算出部９を設けたものである。

【００５４】図８は、図７に示した情報索引装置の動作
説明をするためのフロー図で、以下のｓｔｅｐ０〜４か
らなる。ｓｔｅｐ０：圧縮符号算出部９は、文字列バッファ１中
の文字列から文字列の圧縮符号を算出し圧縮符号表８に
格納する。ｓｔｅｐ１：番地算出部３は、文字列バッファ１から文
字列Ｓと、その識別子ｉを取り出す。ｓｔｅｐ２：番地算出部３は、文字列Ｓと圧縮符号表８
から分類番地ｊを算出する。ｓｔｅｐ３：分類部４は、分類表５中の分類番地ｊの位
置に文字列Ｓの識別子ｉを格納する。以上ｓｔｅｐ１−
ｓｔｅｐ３を文字列バッファ１中の全ての文字に対して
繰り返す。ｓｔｅｐ４：整列部６は、分類表５の先頭から末尾にか
けて操作し、文字列の識別子を検出する度に、その識別
子に対応する文字列バッファ１中の文字列を出力する。

【００５５】ｓｔｅｐ１以降は、図５に示した請求項３
の発明と同様の動作となる。圧縮符号表８の圧縮符号
は、処理対象となる文字列バッファ中の文字列集合から
算出した方が前述のスケール（つまり分類表の大きさ）
を小さくでき、記憶量を節約できる。ｓｔｅｐ０は、文
字列バッファ１中の文字列を一つずつ取り出し、それを
構成する文字の頻度および全文字数を計数し、最終的に
前述した出現確率の値を求める。すなわち、出現確率
は、各文字の出現頻度を全文字数で割ることで得られ
る。

【００５６】（請求項５の発明）請求項５の発明は、請
求項１又は請求項２の発明に従属する発明で、請求項１
の発明に従属する場合は、図１に示した請求項１の発明
と同様の構成をとり、請求項２の発明に従属する場合
は、図３に示した請求項２の発明と同様の構成をとる
が、共に、番地算出部３において、文字列バッファ１の
文字列の内、一部の文字列についてのみ出現度表２から
分類番地を算出するようにした点で、請求項１或いは請
求項２の発明と異なる。

【００５７】上述のように、請求項５の発明は、図１或
いは図３に示した請求項１或いは請求項２の発明におい
て、番地算出部３は、文字列バッファ１中の一部の文字
列についてのみ出現度表２から番地を算出するようにし
たものである。例えば、出現度表が表１２のように求め
られているとする。

【００５８】

【表１２】

【００５９】番地算出部３は、文字｛．，ａ｝という２
つの文字を先頭とするｓｕｆｆｉｘに対してのみ、分類
番地を算出する。よって、表１３の結果を得る。分類番
地が算出されなかった場合を“−”で表している。

【００６０】

【表１３】

【００６１】そして、分類部４は番地が求められたｓｕ
ｆｆｉｘのみ、分類表５に格納する。この例で必要とな
る分類表の大きさは２４となる（前述の例では大きさが
９７必要）。また、スケールつまり分類表の大きさを２
５０に設定することで、対象となるｓｕｆｆｉｘをより
広い範囲に分散して格納できることから、異なるｓｕｆ
ｆｉｘが同じ分類番地に格納される確率（衝突確率）を
減少させることができる。以降の動作は、前述の請求項
１及び２の発明と同様である。

【００６２】一回の整列の対象となるｓｕｆｆｉｘを上
記のように限定することで、衝突確率を減少させること
ができる。そして、同様の整列を残りの文字列に対して
行い、それらの結果（つまり整列部の出力）を連結する
ことで、ｓｕｆｆｉｘａｒｒａｙの全体を得ることが
できる。

【００６３】（請求項６の発明）請求項６の発明は、図
５或いは図７に示した請求項３或いは請求項４の発明に
従属する発明で、請求項３の発明に従属する場合は、図
５に示した請求項３の発明と同様の構成をとり、請求項
４の発明に従属する場合は、図６に示した請求項４の発
明と同様の構成をとるが、共に、番地算出部３におい
て、文字列バッファ１中の文字列の内、一部の文字列に
ついてのみ圧縮符号表８から分類番地を算出するように
した点で、請求項３或いは請求項４の発明と異なる。

【００６４】上述のように、請求項６の発明は、図５或
いは図７に示した請求項３或いは請求項４の発明におい
て、請求項５の発明と同様、番地算出部３は文字列バッ
ファ１中の一部の文字列についてのみ出現度表から番地
を算出するもので、該番地算出部３は、文字｛．，ａ｝
という２つの文字を先頭とするｓｕｆｆｉｘに対しての
み、分類番地を算出する場合、表１４の結果を得る。分
類番地が算出されなかった場合は“−”を表している。
ここで番地としては上位６ｂｉｔを用いる。必要な分類
表の大きさは２⁶＝６４となる。

【００６５】

【表１４】

【００６６】（請求項７の発明）図９は、請求項７の情
報索引装置の一実施形態を説明するための図で、図中、
１０は番地バッファで、この発明は請求項５或いは請求
項６の発明の構成に、文字列バッファ１中の文字列に対
し番地算出部３が算出した番地を記憶する番地バッファ
１０を加えたものである。而して、この発明において
は、請求項５又は６の情報索引装置で、ｓｕｆｆｉｘ
ａｒｒａｙを数回の整列に分けて得る場合、初回に番地
算出部が算出した分類番地を番地バッファ１０に記憶
し、二回目以降は、番地算出部は番地バッファ１０を参
照して必要な番地を得る。

【００６７】（請求項８の発明）図１０は、請求項８に
記載の情報索引装置の一実施形態を説明するための要部
構成図で、図中、２０は請求項１乃至７に示した情報索
引装置のいずれかに記載の装置、２１は内容分割部、２
２₁〜２２_nは索引表で、この発明は、図示のように、前
述の実施形態１〜７に示した請求項１〜７の発明２０に
文字列が属する内容分類に応じて文字列集合を分割する
内容分割部２１、辞書順に整列した文字列の識別番号を
記憶する索引表２２₁〜２２_nを付加したものである。

【００６８】図８に示した実施形態において、内容分割
部２１は、入力される文字列の集合を各文字列に対応し
て入力される分類コードに基づいて分割する。この分類
コード体系は、文字列の内容に応じて予め決定されてい
るものとする。分割結果は文字列バッファ１に、分類コ
ード毎に格納される文字列の集合として表現される。請
求項１〜７に対応する装置２０は各分類コード毎に、そ
れに対応する文字列を整列する。その際、整列部は処理
結果である辞書順に整列した文字列の識別番号を各分類
コード毎に固有の索引表２２₁〜２２_nに格納する。

【００６９】（請求項９の発明）図１１は、請求項９の
発明の一実施形態を説明するための要部構成図で、図
中、２３は時系列分割部、２２₁〜２２_nは索引表で、こ
の発明は、図示のように、前述の実施形態１〜７に示し
た請求項１〜７の発明２０に文字列が属する時系列分類
に応じて文字列集合を分割する時系列分割部２３、辞書
順に整列した文字列の識別番号を記憶する索引表２２₁
〜２２_nを付加したものである。

【００７０】図１１に示した実施形態において、時系列
分類部２３は、入力される文字列の集合を各文字列に対
応して入力される分類コードに基づいて分割する。この
分類コード体系は、文字列が生成された日時など文字列
間の時系列関係を表現するものとする。分割結果は文字
列バッファに、分類コード毎に格納される文字列の集合
として表現される。請求項１〜７に対応する装置２０は
各分類コード毎に、それに対応する文字列を整列する。
その際、整列部は処理結果である辞書順に整列した文字
列の識別番号を各分類コード毎に固有の索引表２２₁〜
２２_nに格納する。

【００７１】（請求項１０の発明）図１２は、請求項１
０に記載の情報索引装置の一実施形態を説明するための
要部構成図で、図中、３１は索引表、３２は対応表、３
３は文字列構成部で、索引表３１は辞書順に整列した文
字列の識別番号を記憶し、対応表３２は索引表中の識別
番号と文字列の対応を記憶し、文字列構成部３３は索引
表と対応表から文字列を構成する。

【００７２】図１１に示した実施形態において、以下
に、前述の例である文字列“ａａ．ｂｂ．ｃｃｃｃ”を
用いてその動作例を説明する。この文字列に対する索引
表であるｓｕｆｆｉｘａｒｒａｙは、表１５となる。
ｓｕｆｆｉｘａｒｒａｙの各要素は文字列の識別子で
あり、それら文字列の先頭文字を取り出すと表１６のよ
うになる。上記の対応関係が表１７に示す対応表に格納
されているものとする。

【００７３】

【表１５】

【００７４】

【表１６】

【００７５】

【表１７】

【００７６】上記で、例えば文字ａに対応する行は、ｓ
ｕｆｆｉｘａｒｒａｙの２番めの要素を先頭とし３番
めの要素を末尾とする識別子の列、すなわち“1，０”
に対応する文字列の先頭文字がａであることを表す。文
字列構成部３３は上記の索引表３１と対応表３２から、
元の文字列を次のようにして文字配列Ｔ上に構成するこ
とができる。・索引表と同じ大きさ（この場合１０）の文字配列Ｔを
用意する。・対応表の各行Ｌについて以下を行う。行Ｌが文字Ｘに対応しているとき、行Ｌの先頭Ｂから末
尾Ｅまでの索引表に格納されている識別子Ｉの各々に対
し、文字配列ＴのＩ番目に文字Ｘを格納する。

【００７７】

【発明の効果】請求項１の発明は、文字列集合を記憶す
る文字列バッファと、辞書順に文字列の出現度を記憶す
る出現度表と、文字列の分類に用いる分類表と、文字列
バッファ中の文字列に対し出現度表から分類番地を算出
する番地算出部と、文字列バッファ中の文字列を番地計
算部が算出した分類番地に従い分類表中に対応づける分
類部と、分類表中の文字列をその分類番地に従い辞書順
に整列する整列部とを有するので、文字列の出現度を用
いることで文字列のバケット整列を高速化できる。

【００７８】請求項２の発明は、請求項１の発明におい
て、前記文字列の出現度を前記文字列バッファ中の文字
列から算出する出現度算出部を有するので、文字列の出
現度を元の文字列（の集合）から求めることで請求項１
の発明における記憶量の負荷を軽減できる。

【００７９】請求項３の発明は、文字列集合を記憶する
文字列バッファと、辞書順に文字列の圧縮符号を記憶す
る圧縮符号表と、文字列の分類に用いる分類表と、文字
列バッファ中の文字列に対し出現度表から分類番地を算
出する番地算出部と、文字列バッファ中の文字列を番地
計算部が算出した分類番地に従い分類表中に対応づける
分類部と、分類表中の文字列をその分類番地に従い辞書
順に整列する整列部とを有するので、文字列の圧縮符号
を用いることで文字列のバケット整列を高速化できる。

【００８０】請求項４の発明は、請求項３の発明におい
て、前記文字列の圧縮符号を文字列バッファ中の文字列
から算出する圧縮符号算出部を有するので、文字列の圧
縮符号を元の文字列（の集合）から求めることで請求項
３の発明における記憶量の負荷を軽減できる。

【００８１】請求項５の発明は、請求項１又は２の発明
において、前記文字列バッファ中の文字列の内、一部の
文字列についてのみ前記出現度表から分類番地を算出す
る番地算出部を有するので、整列対象となる文字列の範
囲を分割し、その各々を別々に整列することで、請求項
１又は２の発明が必要とする計算量の負荷を軽減し、ま
た、分類番地の衝突を抑制できる。

【００８２】請求項６の発明は、請求項３又は４の発明
において、前記文字列バッファ中の文字列の内、一部の
文字列についてのみ前記圧縮符号表から分類番地を算出
する番地算出部を有するので、整列対象となる文字列の
範囲を分割し、その各々を別々に整列することで、請求
項３又は４の発明が必要とする計算量の負荷を軽減し、
また、分類番地の衝突を抑制できる。

【００８３】請求項７の発明は、請求項５又は６の発明
において、前記文字列バッファ中の文字列に対し前記番
地算出部が算出した番地を記憶する番地バッファを有す
るので、バケット整列において求めた分類番地を記憶す
ることで重複した番地計算をなくし、請求項５又は６の
装置が必要とする計算時間の負荷を軽減できる。

【００８４】請求項８の発明は、請求項１乃至７のいず
れかの発明において、辞書順に整列した文字列の識別番
号を記憶する索引表及び文字列が属する内容分類に応じ
て文字列集合を分割する内容分割部を有するので、文字
列集合を内容別に分割し、その各々についてｓｕｆｆｉ
ｘａｒｒａｙを構成することで、更新問題を軽減でき
る。

【００８５】また、この請求項８の発明は、文字列の内
容分類別にｓｕｆｆｉｘａｒｒａｙを構成するので、
更新の際に対象となる文字列集合が小規模になり、更新
時の計算量が軽減されるとともに、検索時に、検索対象
となる内容分類が予め限定できる場合には、その限定範
囲内で検索を実施することで検索時間を高速化できると
いう副次的な作用効果が得られる。

【００８６】請求項９の発明は、請求項１乃至７のいず
れかの発明において、辞書順に整列した文字列の識別番
号を記憶する索引表及び文字列が属する時系列分類に応
じて文字列集合を分割する時系列分割部を有するので、
文字列集合を時系列で分割し、その各々についてｓｕｆ
ｆｉｘａｒｒａｙを構成することで、更新問題を軽減
できる。

【００８７】また、この請求項９の発明は、文字列の時
系列分類別にｓｕｆｆｉｘａｒｒａｙを構成するの
で、更新の際に対象となる文字列集合が小規模になり、
更新時の計算量が軽減されるとともに、検索時に、検索
対象となる時系列分類が予め限定できる場合（例えば最
近の一年間に追加された文字列に限定する等）、その限
定範囲内で検索を実施することで検索時間を高速化でき
るという副次的な作用効果が得られる。また最新の情報
から古い情報の順に検索結果を提示することができる。

【００８８】請求項１０の発明は、辞書順に整列した文
字列の識別番号を記憶する索引表と、索引表中の識別番
号と文字列の対応を記憶する対応表と、索引表と対応表
から文字列を構成する文字列構成部からなるので、ｓｕ
ｆｆｉｘａｒｒａｙの各要素と、それに対応する文字
列の先頭文字を対応づける表を用いｓｕｆｆｉｘａｒ
ｒａｙから元の文字列を再現することで、検索時に遠隔
にある元の文字列への参照を回避し、検索時間を軽減で
きる。

【図面の簡単な説明】

【図１】請求項１の情報索引装置の一実施形態を説明
するための要部構成図である。

【図２】図１に示した情報索引装置の動作説明をする
ためのフロー図である。

【図３】請求項２の情報索引装置の一実施形態を説明
するための要部構成図である。

【図４】図３に示した情報索引装置の動作説明をする
ためのフロー図である。

【図５】請求項３の情報索引装置の一実施形態を説明
するための要部構成図である。

【図６】図５に示した情報索引装置の動作説明をする
ためのフロー図である。

【図７】請求項４の情報索引装置の一実施形態を説明
するための要部構成図である。

【図８】図７に示した情報索引装置の動作説明をする
ためのフロー図である。

【図９】請求項７の情報索引装置の一実施形態を説明
するための図である。

【図１０】請求項８に記載の情報索引装置の一実施形
態を説明するための要部構成図である。

【図１１】請求項９の発明の一実施形態を説明するた
めの要部構成図である。

【図１２】請求項１０に記載の情報索引装置の一実施
形態を説明するための要部構成図である。

【符号の説明】

１…文字列バッファ、２…出現度表、３…番地算出部、
４…分類部、５…分類表、６…整列部、７…出現度算出
部、８…圧縮符号表、９…圧縮符号算出部、１０…番地
バッファ、２０…請求項１〜７の装置、２１…内容分割
部、２２₁〜２２_n…索引表、２３…時系列分割部、３１
…索引表、３２…対応表、３３…文字列構成部。

Claims

【特許請求の範囲】

【請求項１】文字列集合を記憶する文字列バッファ
と、辞書順に文字列の出現度を記憶する出現度表と、文
字列の分類に用いる分類表と、文字列バッファ中の文字
列に対し出現度表から分類番地を算出する番地算出部
と、文字列バッファ中の文字列を番地計算部が算出した
分類番地に従って分類表中に対応づける分類部と、分類
表中の文字列をその分類番地に従って辞書順に整列する
整列部とを有することを特徴とする情報索引装置。
【請求項２】前記文字列の出現度を前記文字列バッフ
ァ中の文字列から算出する出現度算出部を有することを
特徴とする請求項１記載の情報索引装置。
【請求項３】文字列集合を記憶する文字列バッファ
と、辞書順に文字列の圧縮符号を記憶する圧縮符号表
と、文字列の分類に用いる分類表と、文字列バッファ中
の文字列に対し圧縮符号表から分類番地を算出する番地
算出部と、文字列バッファ中の文字列を番地計算部が算
出した分類番地に従って分類表中に対応づける分類部
と、分類表中の文字列をその分類番地に従って辞書順に
整列する整列部とを有することを特徴とする情報索引装
置。
【請求項４】前記文字列の圧縮符号を文字列バッファ
中の文字列から算出する圧縮符号算出部を有することを
特徴とする請求項３記載の情報索引装置。
【請求項５】前記文字列バッファ中の文字列の内、一
部の文字列についてのみ前記出現度表から分類番地を算
出する番地算出部を有することを特徴とする請求項１又
は２記載の情報索引装置。
【請求項６】前記文字列バッファ中の文字列の内、一
部の文字列についてのみ前記圧縮符号表から分類番地を
算出する番地算出部を有することを特徴とする請求項３
又は４記載の情報索引装置。
【請求項７】前記文字列バッファ中の文字列に対し前
記番地算出部が算出した番地を記憶する番地バッファを
有することを特徴とする請求項５又は６記載の情報索引
装置。
【請求項８】辞書順に整列した文字列の識別番号を記
憶する索引表及び文字列が属する内容分類に応じて文字
列集合を分割する内容分割部を有することを特徴とする
請求項１乃至７のいずれかに記載の情報索引装置。
【請求項９】辞書順に整列した文字列の識別番号を記
憶する索引表及び文字列が属する時系列分類に応じて文
字列集合を分割する時系列分割部を有することを特徴と
する請求項１乃至７のいずれかに記載の情報索引装置。
【請求項１０】辞書順に整列した文字列の識別番号を
記憶する索引表と、索引表中の識別番号と文字列の対応
を記憶する対応表と、前記索引表と対応表から文字列を
構成する文字列構成部からなることを特徴とする情報索
引装置。