JP3506742B2

JP3506742B2 - Ｗ／ｎおよびｎ／ｗマッピング法

Info

Publication number: JP3506742B2
Application number: JP26742893A
Authority: JP
Inventors: エムカプランロナルド; ケイマーティン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1993-10-26
Filing date: 1993-10-26
Publication date: 2004-03-15
Anticipated expiration: 2019-03-15
Also published as: JPH07129367A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ワードをナンバーへ、
そしてナンバーをワードへマッピングする方法に関する
ものである。

【０００２】

【従来の技術】Lucchesi, C.L. and Kowaltowski, T.,
“Applications of Finite AutomataRepresenting Larg
e Vocabularies,”Software-Practice and Experience,
Vol.23(1),January 1993, pp.15-30 に、効率的なス
ペルチェッカーを具体化する問題が動機となって、非常
に大量の語彙を最小非循環決定論的な有限オートマトン
に圧縮する技法が記載されている。図４に、数個の英語
の動詞のすべての形に関する上記オートマトンが示され
ている。オートマトンを構成する技法は、１８頁の冒頭
に記載されており、最小化ステップを含んでいる。デー
タ構造は１９〜２０頁に記述されている。各状態はＮ個
のエントリをもつ配列として表される。ここで、Ｎはア
ルファベットのサイズである。たいていのエントリは実
在しない遷移に対応しており、従って実在するエントリ
がぶつからないやり方で、状態配列をシフトさせ、オー
バラップさせることができる。各状態には、実在する遷
移を選択する１個のＮビットベクトルが付いている。１
つ、２つ、または３つの遷移をもつ状態が非常に大きな
パーセンテージを占めるので、配列のパッキングは、ほ
とんどいつも最適の結果が得られるグレーディ（ greed
y ）アルゴリズムによって行われる。また、個別ビット
ベクトルの数は状態の数よりはるかに少ないので、多く
が共用される。状態配列をパックするほかに、短い（相
対的）および長い（絶対的）状態索引が使用されてい
る。ポルトガル語の場合は、文字から音声区分マークが
取り除かれ、その場所はワードの終止符の後にコード化
される。２６〜２７頁に、図８〜図１０に関する最小完
全ハッシングが記述されている。オートマトンは、各状
態について、その状態から開始し、オーマトンによって
受入れ可能なワードのナンバーを与える整数を有してお
り、２つの簡単な関数が整数１からＬの間で１対１の対
応付けを実施する。ここでＬは、オートマトンによって
受入れ可能なワードのナンバーであり、そしてワード自
身である。

【０００３】

【発明が解決しようとする課題】ディジタルデータ処理
装置においてワードなどの要素列を取り扱うには、ワー
ドをナンバーへマップすることが望ましいことが多い。
その１つの理由は、ワードの長さは大きく異なるけれど
も、ワードのナンバーは、通常、そのワードの文字に関
するディジタルコードより短い一定長さの２進数として
ディジタル的に表現することができ、２進数の取扱いは
ワード自身を取り扱うよりもはるかに効率がよいからで
ある。ワードをナンバーへマップするもう１つの理由
は、そのワードに関する情報にアクセスするアドレスす
なわちポインタが得られるからである。ナンバーからワ
ードへマップして戻すことも、同様に望ましいことが多
い。

【０００４】

【課題を解決するための手段】本発明は、ワードからナ
ンバーへ（Ｗ／Ｎと略す）およびナンバーからワードへ
（Ｎ／Ｗと略す）マッピングをどのように効率的に実行
するかの問題を解決するものである。本発明は、ワード
のリストと、ナンバーの稠密セット（それぞれが１つの
ワードに固有のナンバーである）との間の効率的なＷ／
ＮおよびＮ／Ｗマッピングを可能にする技法を発見した
ことに基づいている。ここで使用する用語「マッピン
グ」は、Ｗ／ＮおよびＮ／Ｗマッピングを含むことがあ
る。

【０００５】ワードリストとナンバーの稠密セットとの
間のＷ／ＮまたはＮ／Ｗマッピングは、ワードリスト内
のワードを表すデータを順次走査して、横切ったワード
を正確にカウントし続けることによって実施できる。Ｗ
／Ｎマッピングの場合は、順序付きワードリストを表す
データを走査すると同時に、ワードを探索し、接尾辞語
尾をカウントし続けることができる。Ｎ／Ｗマッピング
の場合は、順序付きワードリストを表すデータを走査す
ると同時に、接尾辞語尾をカウントし続け、かつ現ワー
ドを記録し続けることができる。

【０００６】マッピングをより効率的に行うために、順
序付きワードリストを表すデータの部分をスキップする
ことを許す情報が与えられる。例えば、もしデータが分
岐を含むように構成されていれば、情報は分岐のスキッ
プを許すことができる。技法は、順序付きワードリスト
を表すデータ内に分岐データを含ませることによって実
施することができる。

【０００７】分岐データは、第１セットの接尾辞語尾を
表す第１接尾辞データのロケーションを表す分岐選択情
報を含んでいる。分岐データは、さらに、前記第１セッ
ト内の接尾辞語尾の数を表す分岐スキップ情報を含んで
いる。従って、第１セットの接尾辞語尾の１つをもつワ
ードについてマップしているとき、分岐選択情報を使用
して第１接尾辞データへ行くことができる。他方、第２
セットの接尾辞語尾の１つをもつワードについてマップ
しているとき、分岐スキップ情報を使用して、第１接尾
辞データをスキップすると同時に、接尾辞語尾を正確に
カウントし続けることができる。例えば、Ｗ／Ｎマッピ
ングの場合は、もし第１接尾辞データをスキップすれ
ば、分岐スキップ情報が表す数を接尾辞語尾のカウント
に加えることができる。他方、Ｎ／Ｗマッピングの場合
は、マップするナンバーからその数を減分することがで
きる。

【０００８】この技法に係るプロダクトは、記憶媒体
と、その記憶媒体に格納されたワードリストデータから
成っている。ワードリストデータは、ワードのリストを
表す。ワードリストデータは、リスト内のワードの接尾
辞語尾を表す複数の接尾辞語尾データ項目を含んでい
る。第１接尾辞語尾データ項目は第１セットの接尾辞語
尾を表し、第２接尾辞語尾データ項目は第２セットの接
尾辞語尾を表す。各接尾辞語尾データ項目はバイトの順
番列を含むことができ、その一部は接尾辞語尾を表す接
尾辞語尾バイトである。

【０００９】ワードリストデータは、さらに、分岐デー
タ項目を含んでいる。分岐データ項目は、前述の分岐選
択情報と分岐スキップ情報を含んでいる。例えば、分岐
データ項目は、ワードリストデータ内の分岐点に置かれ
たポインタを含むことができる。ポインタは、一組の接
尾辞語尾に関する情報を含む分岐のロケーションを指示
することができ、分岐内の接尾辞語尾の数をポインタに
付記することができる。あるいは、分岐データ項目は、
参照用テーブル内のエントリにアクセスするため使用で
きるポインタ索引を含むことができる。エントリは、分
岐へのポインタと、分岐内の多数の接尾辞語尾を含んで
いる。

【００１０】本技法は、同じの幾つかの分岐をつぶし
て、異なるワードサブリストが共用することができる単
一の分岐にすることによって、記憶空間を減らすように
拡張することができる。分岐データ項目は、共用分岐へ
至ることができる各分岐点に、共用分岐へのポインタな
どの分岐選択情報と、共用分岐内の接尾辞語尾の数など
の分岐スキップ情報とを含んでいる。このデータ構成の
ために、記憶空間を減らすために導入されたポインタ
は、分岐のスキップを可能にし、従って処理時間を短縮
する。

【００１１】前に述べた Lucchesi の技法のように、各
セットの接尾辞に関するカウントを格納する必要はな
い。代わりに、通常、接尾辞語尾を含む接尾辞データ項
目を走査して、何個の接尾辞語尾を含むかを決定するこ
とができる。しかし、もし接尾辞データ項目への分岐を
スキップすることが可能であれば、分岐をスキップする
とき接尾辞語尾の数を検索して、その実行カウントを更
新するため使用できるように、接尾辞語尾の数を格納す
ることができる。

【００１２】本技法によるＷ／Ｎマッピングは、分岐を
スキップし、分岐データ項目内の接尾辞語尾の数を使用
して、例えば、接尾辞語尾の数をカウントに加えること
によって接尾辞語尾の実行カウントを更新することがで
きる。ある接尾辞データ項目の終わりに分岐をスキップ
し、カウントを更新したあと、本技法によるＷ／Ｎマッ
ピングは、別の接尾辞データ項目内のバイトの順番列を
を走査し、各接尾辞語尾バイトについて接尾辞語尾のカ
ウントを増分することができる。バイトがマップ中のワ
ードの接尾辞語尾を表すバイトに達したら、接尾辞語尾
のカウントをそのワードのナンバーとして提供すること
ができる。もし分岐データ項目がさらに分岐内の接尾辞
語尾に先行する文字を表すラベル情報を含んでいれば、
Ｗ／Ｎマッピング法は、マップ中のワード内の現文字と
ラベル情報とを比較することによって、分岐をスキップ
するかどうかを決定することができる。

【００１３】同様に、本技法によるＮ／Ｗマッピング
は、ある接尾辞データ項目への分岐をスキップし、スキ
ップした分岐内の接尾辞語尾の数を使用して、接尾辞語
尾のカウントを更新することができる。この場合には、
カウント（マップ中のナンバーで開始することがある）
から接尾辞語尾の数を減分することができる。もし各接
尾辞データ項目がバイトの順番列を含んでいれば（その
一部は文字を表すラベルバイトである）、本技法は、さ
らに、スタック内のラベルバイトからの文字を格納する
ことによって、現接頭辞を格納することができる。分岐
をスキップし、接尾辞語尾の数を減分した後、本技法
は、別の接尾辞データ項目内のバイトの順番列を走査
し、各接尾辞語尾バイトについて接尾辞語尾のカウント
を減分し、そしてスタック内の現接頭辞を更新すること
ができる。接尾辞語尾のカウントが零に達したとき、ス
タック内の現接頭辞をワードのナンバーとして提供する
ことができる。本技法は、カウントの現在値と分岐内の
接尾辞語尾の数とを比較し、ワードの接尾辞語尾が分岐
内にあるかどうかを決定することによって、分岐をスキ
ップさせるかどうかを決定することができる。

【００１４】上に述べた技法は、ワードリストを表すデ
ータを、ワードとナンバーとの間で迅速にマップするこ
とができる形で提供するので都合がよい。時間効率のほ
かに、共用分岐を用いて空間効率を向上させることがで
きる。ワードリストデータは、ワードがマップされるナ
ンバーに基づいて、そのワードに対応付けられた情報を
検索する装置を含むさまざまな用途に使用することがで
きる。また、ワードリストデータは、テキストの圧縮お
よび圧縮解除に使用することもできる。

【００１５】

【実施例】

Ａ．概要マッピング法の概要は、図１および図２から理解するこ
とができる。図１は、１５個のワード（dip,dips,dippe
d,dipper,dipping,drip,drips,dripped,dripper,drippi
ng,drop,drops,dropped,dropper,dropping) を含むワー
ドリストの状態遷移図である。図２は、図１のワードリ
スト内のワードを表すワードリストデータを示す。

【００１６】図１は、ワードリストの状態遷移図を示
す。図１の各遷移は対応付けられた文字で表示してあ
る。受入れ可能なワードの末尾の文字の後の状態には、
妥当な末尾文字を示す“Ｆ”印が付けてある。もし開始
状態１０で開始し、受入れ可能なワードの１つの文字を
順次適用すれば、それらは一連の遷移と状態に沿って
“Ｆ”印の付いた状態の１つに至るであろう。例えば、
ワード“dip ”は状態１６に至る。図１のワードリスト
は、入力ワードが受入れ可能なワードの１つであるかど
うかを決定するのに使用でき、従ってスペルのチェック
や同種の用途に使用することができるであろう。

【００１７】図１は、左で始まり、右で終わるとして、
受入れ可能なワードを表現している。この説明におい
て、用語「接頭辞」とは、受入れ可能なワードの最初に
ある文字の任意の組合せをいい、図１においては、状態
１０からどれかの状態に至る一連の遷移と状態によって
表現される。従って、開始状態１０は、要素をもたない
接頭辞の終わりを表すのに対し、状態１６は接頭辞“di
p ”, “drip”, “dop”の終わりを表す。同様に、用
語「接尾辞」とは、受入れ可能な文字列の終わりにある
文字の任意の組合せをいい、図１においては、状態の１
つから“Ｆ”印を付けたどれかの状態に至る一連の遷移
と状態によって表現される。従って、分岐状態の終わり
は、要素をもたない接尾辞の始まりを表すのに対し、状
態１０はすべての受入れ可能なワードを含む一組の接尾
辞の始まりを表す。

【００１８】当然に、図１の各状態は、少なくとも１個
の接頭辞の終わりと、少なくとも１個の接尾辞の始まり
を表すことになる。さらに、“Ｆ”印の付いた各状態
は、前に指摘したように、受入れ可能なワードの末尾文
字のすぐ後の状態であるから、少なくとも１個の接尾辞
の終わりを表す。例えば、状態１６はワード“dip ”,
“drip”, “dop ”について接尾辞の終わりを表す。

【００１９】以下の説明において、用語「接尾辞」と
「接頭辞」は、語根に付けられた接尾辞および接頭辞に
制限されないが、上に述べたような一般的な意味を有す
る。従って、これらの用語は、各ワードの要素が逆順で
あるワードのリストに対しても同様に適用することがで
きるので、ワードの最初の要素をもつ各ワードの端の接
尾辞および接尾辞は、ワードの最後の要素で始まる。

【００２０】図１は、効率的に格納したり、使用したり
できるワードリスト表現の幾つかの特徴を明らかにして
いる。決められた状態からの遷移は、直接に、あるいは
他の遷移の一定の組合せを介して、その状態へ戻ること
はないので、図１の表現は非周期的である。これは、有
限数の受入れ可能なワードを保証するので、重要なこと
である。仮にワードリストが無限であったとしても、な
んとかして有限数の受入れ可能なワードを保証すること
によって、例えばワードリスト表現の単一走査内に行う
ことが可能なサイクル数を制限することによって、ワー
ドリストを適切なものにすることができる。

【００２１】さらに、図１のワードリスト表現は右側と
左側で共に収束しており、これは接頭辞と接尾辞が多く
の受入れ可能なワードに共通であるかも知れないことを
意味する。このことは重要である。その理由は、以下に
述べる技法が、２つの収束を使用して、ワードリストを
表すデータのサイズを縮小し、同時にリスト内のワード
を固有ナンバーの稠密セットへマップするからである。
例えば、共通の接尾辞は、図１では、状態へ入ってくる
多くの遷移によってそれぞれ表現される。接尾辞“-ps
”と“-s”は、ワード dips、 drips、および drops
に共通の接尾辞である。図１は、さらに、それらの各共
通の接尾辞をつぶして、単一の共用分岐にすることを表
現しており、例えば、接尾辞“-s”は、この接尾辞で終
わる各受入れ可能なワードにつき１回出現するのでな
く、１つの分岐だけに現れる。

【００２２】図１のようなワードリスト表現は、マッピ
ングに使用することができる。例えば、文字と一致した
ときナンバーを利用できるように、各受入れ可能なワー
ドの末尾文字をナンバーに対応付けることができるであ
ろう。しかし、各接尾辞は固有のナンバーを有し、従っ
て他のすべての接尾辞と異なるはずであるから、これ
は、図１に示すように共通の接尾辞をつぶして共用分岐
にすることを妨げるであろう。それに加えて、マップす
るナンバーを見つけるため最初にワードリストを探索
し、その後、そのナンバーに至るストリングを見つける
ことによって対応するワードを決定するのであるから、
Ｎ／Ｗマッピングは時間がかかるであろう。

【００２３】迅速なＷ／ＮおよびＮ／Ｗマッピングは、
前に述べた共通の接尾辞をつぶすことを妨げない。ワー
ドの探索のとき通過した接尾辞語尾の数をカウントする
ことによって、ワードをナンバーへマップすることがで
きる。例えば、図１のワードリスト表現において、ワー
ド“dip ”のナンバーは零であるのに対し、ワード“dr
ops ”のナンバーは１４である。他方、Ｎ／Ｗマッピン
グは、そのナンバーで開始し、ワードリストデータを通
って走査する際に通過した各接尾辞語尾ごとにその数を
減分することができる。数が零に達すると、走査はワー
ドの接尾辞語尾に達しており、従って走査のとき格納し
た文字に基づいて、そのワードを提供することができ
る。

【００２４】Ｗ／ＮおよびＮ／Ｗマッピングの場合、も
し各接尾辞語尾を個別にカウントする必要があれば、ワ
ードリストデータのすべての分岐を走査しなければなら
ない。状態１２において生じる２つの遷移は、この問題
を示している。第１の遷移“Ｉ”は大きな分岐へ至るの
に対し、第２の遷移“Ｒ”は別の大きな分岐へ至る。従
って、ワード“drops ”と図１のワードリスト表現とを
比較する場合や、分岐内の接尾辞語尾をカウントするた
め状態１２からの第１遷移からぶら下がっているすべて
の分岐を通らなければならない場合は、探索はかなり時
間がかかるであろう。このことは、各状態１４，１６，
１８についても同じである。例えば、状態１６は大きな
分岐に至る第１の遷移“Ｐ”を有するが、第２の遷移
“Ｓ”は、それに至る状態と共に非常に小さい分岐を構
成している。

【００２５】分岐をスキップさせるために必要な情報と
分岐内の接尾辞語尾の数をワードリストデータに含ませ
ることによって、分岐をスキップ可能にすることができ
る。そのようにすれば、分岐内の接尾辞語尾をカウント
せずに、接尾辞語尾の数を単に実行カウントに加えた
り、減じたりすることができる。この情報は、走査がス
キップ可能な分岐へ行くか、他の分岐へ行くかの分岐点
であるデータに対応付けることによって、ワードリスト
データに含ませることができる。ここでは「スキップ可
能な分岐」を分岐点の次の分岐と呼び、そして「他の分
岐」を分岐点の代替分岐と呼ぶことにする。一般に、ワ
ードリストデータを探索しているとき、もし探索中のワ
ードからの文字が分岐点内の文字と一致すれば、探索は
次の分岐へ進み、もしそうでなければ、探索は代替分岐
へ進む。それにもかかわらず、分岐点でないデータが次
の分岐をもつことがある。その場合には、もし一致すれ
ば、探索は次の分岐へ進み、もし一致しなければ、探索
は終了する。

【００２６】図２は、図１のワードリストについて上記
の特徴を具体化している、格納されたワードリストデー
タを示す。図２において、各アドレスに格納されたデー
タは、通例、図１に示した遷移の１つを表す。従って、
これらのデータの単位は遷移単位と呼ばれる。図２の各
遷移単位として、遷移に対応する文字を表す文字データ
（CHAR: character data )、遷移が接尾辞語尾かどうか
を指示し、遷移が最後の状態に入ることを意味し、従っ
て受入れ可能なワードの末尾文字を表す末尾データ
（Ｆ：final data）、遷移単位が次の分岐を有するかど
うかを指示する分岐データの終わり（EOB: end of bran
ch data ) 、および遷移単位で始まる分岐が代替分岐を
有するかどうかを指示する代替データ (ALT: alternati
ve data ) がある。CHAR, F , EOB および ALT データ
は、すべて、各遷移単位について単一バイトにコード化
することができる。あるいは、遷移単位が次の分岐を持
たない場合にのみ、EOB データを、第１のバイトに続く
特別な EOB 値をもつ第２のバイトにコード化すること
ができる。

【００２７】図２の PTR 欄には、リストの４つの分岐
点（各分岐点は次の分岐と代替分岐の両方をもつ遷移単
位である）に関連して格納されたポインタが入ってい
る。アドレス２のポインタは状態１２からの遷移“Ｉ”
に対応する遷移単位に対応付けられているのに対し、ア
ドレス５のポインタは状態１４からの遷移“Ｉ”に対応
付けられている。アドレス９のポインタは状態１６から
の遷移“Ｐ”に対応付けられ、そしてアドレス１２のポ
インタは状態１８からの遷移“Ｅ”に対応付けられてい
る。各ポインタは、次の分岐が始まるアドレスを指示し
ているので、次の分岐がスキップされる場合には、ポイ
ンタもまたスキップされる。しかし、次の分岐がスキッ
プされない場合には、ポインタは取り除かれる。このよ
うに、図２に示したポインタは、分岐のスキップを許可
し、かつ次の分岐のロケーションと代替分岐のロケーシ
ョンを指示する役目を果たす。同様に、各ポインタが次
の分岐を指示するのでなく、代替分岐を指示するような
同様なリストを作成することができる。

【００２８】マッピング中に分岐のスキップを許可する
ため、スキップ可能な分岐内の接尾辞語尾の数に関する
追加データがワードリストデータに含まれている。スキ
ップ可能な次の分岐をもつ各分岐点に関連して格納され
た図２の F-size 欄内のデータは、次の分岐内の接尾辞
語尾の数を示す。従って、次の分岐をスキップするとき
であっても、次の分岐の F-size を使用して、接尾辞語
尾をカウントし続けることができる。図１に戻って、例
えば、ワード“drops ”は、状態１２，１４，１６から
のそれぞれの遷移“Ｉ”，“Ｉ”，“Ｐ”の次の分岐を
通らずに、迅速にナンバーへマップすることができる。

【００２９】ポインタと F-size は、図２のスキップ可
能な次の分岐をもつ各分岐点と共同して多くの機能を果
たす。ポインタは次の分岐のロケーションを示す。ポイ
ンタと F-size は、代替分岐のすぐ前にあるので、ポイ
ンタの位置付けは代替分岐のロケーションを詳細に示
す。従って、分岐点に達したワードリストデータの走査
は、次の分岐について続行することもできるし、あるい
はそれをスキップして、代替分岐について続行すること
もできる。 F-size は、次の分岐内の接尾辞語尾の数を
示すので、次の分岐をスキップするときであっても、接
尾辞語尾をカウントし続けることができる。そのよう
に、本技法は、より高速と、よりコンパクトな記憶装置
が得られる点で独特である。すなわち、より高速は、分
岐のスキップを可能にことによって得られ、よりコンパ
クトな記憶装置は、共通の接尾辞をつぶして共用分岐に
することによって得られる。

【００３０】本技法は、指示グラフなどのデータ構造に
応用することができる。その場合、ワードリストデータ
がデータ構造の分岐内に接尾辞語尾をもつようにワード
リストデータを格納することができる。一般に、ワード
リストデータは、各データ単位ごとに、次の分岐および
代替分岐（もしあれば）のロケーションを指示する情
報、データ単位が受入れ可能な接尾辞語尾かどうかを指
示する情報、およびもしデータ単位がスキップ可能な次
の分岐をもつ分岐点であれば、次の分岐内の受入れ可能
な接尾辞語尾の数を表す情報、を有するデータ構造の中
に格納することができる。前に引用した Lucchesi の論
文と異なり、本技法は、すべての遷移を表すデータにカ
ウントが含まれている必要がない。接尾辞語尾のカウン
トは分岐を走査することによって得られるので、分岐の
スキップに使用できる場合だけ、接尾辞語尾のカウント
が含まれている必要がある。

【００３１】次に、図２のようなコンパクトなワードリ
ストデータを作成し、格納する技法について説明する。

【００３２】Ｂ．ワードリストの作成図２のようなワー
ドリストデータを含むプロダクトを作成する際の２つの
重要な要素は、 F-size の決定と、ポインタの割当てで
ある。 F-size を決定する技法を述べたあと、その技法
を使用する装置と、ポインタを割当てて図２のようなワ
ードリストデータを含むプロダクトを作成する多くの別
技法についてある程度詳しく説明する。

【００３３】１． F-size の計算図３は、各スキップ可能な分岐内の接尾辞語尾の数を決
定するのに使用できる再帰的ルーチンを示す。図３のル
ーチンは、詳細には FSM データ構造のコード化に関す
るものである。

【００３４】図３のルーチンは、ボックス２０におい
て、状態（その状態から FSM データ構造の分岐がぶら
下がることができる）を受け取ることで始まる。図３の
ルーチンの最初の呼出しによって、 FSM データ構造の
開始状態が与えられるが、ルーチンのそれ以後の再帰的
呼出しによって、 FSM データ構造の中に別の状態が与
えられる。その結果、図３のルーチンは、全 FSM デー
タ構造をくまなく走査する。走査後の各状態についての
データ単位は、 F-size を表す情報を含んでいる。 F-s
ize は、その状態からぶら下がっている分岐内に語尾を
有する受入れ可能なワードの数である。従って、図３の
ルーチンは、実行する前に、すべての状態の F-size を
零に初期化する。ルーチンは状態を通過するとき、各状
態の F-size を計算し、さらにその状態を訪問したこと
を示すため各状態内のフラッグを変える。

【００３５】次に、図３のルーチンは、ボックス２２に
おいて、受け取った状態がこの走査において前に訪問さ
れたかどうかをテストする。もし YES ならば、ルーチ
ンは、ボックス２４において、Ｂで示したルーチンへ走
査結果を戻す。その走査結果は、受け取った状態の F-s
ize （前の訪問時に計算した）である。

【００３６】他方、ボックス２２のテストで、もし NO
( 前に訪問されていない) であれば、ルーチンは、ボッ
クス２６において、状態が、現走査において調べられず
に残った遷移を有するかどうか決定する。もし NO であ
れば、上記のように、ボックス２４において、走査結果
を戻す。もし YES であれば、ルーチンは、ボックス２
８において、残っている一番上の遷移の行先である状態
を、Ａ′で図３のルーチンの再帰的呼出しへ提供する。
これは、Ａで始まる呼出しになる。その呼出しがＢにそ
の結果を戻すと、その結果はＢ′で呼出しルーチンによ
って受け取られる。呼出しルーチンは、ボックス３０に
おいて、走査結果を F-size の前の値に加え、さらに一
番上の遷移の行先状態のＦデータを加えることによっ
て、状態のF-size を更新する。Ｆデータは、行先状態
が接尾辞語尾ならば１であり、さもなければ０である。
次に、ルーチンは、ボックス２６へ戻って、走査すべき
遷移が残っているかどうかを決定する。

【００３７】図３のルーチンが各状態の遷移を走査する
順序は、それらが各状態のデータ単位内に配列されてい
る順序によって決まる。ワードの対応するナンバーがそ
れらのアルファベット順に対応するようにワードを格納
するため、遷移をアルファベット順に配列することがで
きる。しかし、コンパクトなコード化ＦＳＭデータ構造
を得るために、例えば、各遷移の行先様態に入ってくる
遷移の数に従って、またはその遷移における文字の出現
頻度（各状態からの最初の遷移は最小頻度文字を有す
る）に従って、遷移を格納することができる。これらの
技法またはその他の分類方法は、冗長性を除去するのに
役に立つ。また、ＦＳＭデータ構造を最小化して冗長性
を除去する方法も用いることができる。

【００３８】F-size の計算は、情報を分岐に対応付け
て、分岐が含む接尾辞語尾の数を指示することができる
が、図２に示した形式のコンパクトなワードリストを有
するプロダクトを作成するには、他に多くの処理が必要
である。

【００３９】２．ワードリストシステム図４は、格納されたワードリストを有するプロダクトを
作成するのに使用できるデータ処理装置１００を示す。
ＣＰＵ１０２は、ＦＳＭ入力バッファ１０４を通してコ
ード化するＦＳＭデータ構造を受け取り、コード化が終
了すると、バッファ１０６を通して出力ファイルを提供
する。コード化のとき、ＣＰＵ１０２は、主コード化ル
ーチン１１２、図３について説明したルーチンを含む状
態単位情報収集サブルーチン１１４、ポインタサイズ／
インデックス割当てサブルーチン１１６、遷移単位発生
／位置決めサブルーチン１１８、ファイル書込みサブル
ーチン１２０、およびバイト値割当てサブルーチン１２
２を含むプログラムメモリ１１０に格納されたソフトウ
ェアを実行する。このソフトウェアを実行していると
き、ＣＰＵ１０２は、多数のテーブルと一緒に、各状態
のデータ単位ＳＵや、その状態の出力遷移に関する情報
ＴＵが格納されている作業データメモリ１３０に、デー
タを格納したり、そこからデータを探索したりする。

【００４０】一般に、図４に示したサブルーチンは、特
願平5-191229号 (1993年８月２日出願）に記述されてい
るように実施することができる。上記特願平5-191229号
に記述されているように、各状態について、状態に入る
ポインタのカウント（InPointers) と、状態のコスト
（状態からぶら下がっているデータ構造の部分を格納す
るのに必要なメモリの量を示す）を含む情報が収集され
る。そのほかに、語根リストと呼ばれるリストは、ポイ
ンタを使用して常時アクセスされる遷移単位のブロック
を有している。

【００４１】状態単位情報収集サブルーチン１１４は、
状態からの最初の出力遷移が特殊な非最終遷移（“epsi
lon ”または「空列」遷移と呼ばれる) かどうかを最初
にテストすることができるルーチンを含んでいる。もし
そのテスト結果が YES であれば、現状態のInPointers
を増分せずに、“epsilon ”遷移の行先の Pointersを
増分する。“epsilon ”遷移は、共用データの量を増す
ために時々使用することができる。このルーチンは、テ
ストして、もし非最終“epsilon ”遷移が検出されれ
ば、この状態のコストを変えないままにしておく。さら
に、このルーチンは、その結果と最大状態コストとを比
較することができる。もし結果が最大コスト以上であ
り、かつこの遷移が現状態の最終遷移でなければ、行先
を直接に語根リストに記載し、行先のコストを短ポイン
タのコストに設定し、行先の InPointers を増分する。
さらに、このルーチンは、状態を訪問した最初に、その
状態からぶら下がっている分岐は、たとえその分岐が共
用分岐であっても、ポインタによらずにインラインで格
納されるという、状態での指示を格納することができ
る。

【００４２】３．ポインタ割当てとその他のサブルーチ
ンポインタサイズおよび索引割当てについては、多くの技
法を個別に使用することができる。

【００４３】ａ．総合ポインタ割当てサブルーチンポインタサイズおよび索引の割当ては、若干の相違はあ
るが、概して前記特願平5-191229号に記載されている技
法に従うことができる。

【００４４】ポインタサイズおよび索引を割り当てるサ
ブルーチンは、さらに、分岐をスキップできるように、
ワードリストデータ内の情報を含んでいる。すなわち、
その情報は、もし有益であれば、ポインタを含むことが
できる。次に述べるように、１つの相違点は、このサブ
ルーチンもまた F-size を考慮に入れていることであ
る。 F-size は、各ポインタに関連して格納され、従っ
てポインタ割当ての決定に影響を及ぼす。

【００４５】ポインタを割り当てる前に状態を分類する
際に、サブルーチンは、より低い InPointers を有する
状態の前に、より高い InPointers を有する状態を置く
ことができる。より小さい F-size はより大きな F-siz
e に先行するので、等しい InPointers を有する状態は
F-size によって分類することができる。

【００４６】ワードリストデータを格納する際に、もし
指定された分岐をスキップすれば、F-size を検索する
ことができるように、適当な F-size を各３バイトポイ
ンタに関連して格納する。他方、各１または２バイトポ
インタ索引を使用して適当な３バイトポインタと F-siz
e が入っている参照用テーブルにアクセスすることがで
きるので、１または２バイトポインタ索引の各出現に関
連して、 F-size を格納する必要はない。

【００４７】もし３バイトポインタのすぐ後にそのポイ
ンタの F-size を格納すれば、各３バイトポインタとそ
の F-size は３以上のバイトを占める。例えば、もし F
-size が１バイトであれば、各３バイトポインタとその
F-size は４バイトの長さになる。同様に、もし F-siz
e が２バイトであり、その２バイトの F-size を指示す
るため F-size の前に、すべて０の追加バイトが挿入さ
れれば、各３バイトポインタとその F-size は６バイト
の長さになる。もっと大きな F-size が必要な場合も、
同様である。すべて０の追加バイトを省略して、４バイ
トの長さや５バイトの長さを使用することもできるであ
ろう。しかし、これには、３バイトポインタに出会うた
びに、最初のバイトのバイト値から長さを復号する必要
があろう。１バイトの F-size に比べて２バイトの F-s
ize は稀であるから、この復号を避けることによって得
られる簡単さは、５バイトの長さでなく６バイトの長さ
を使用する記憶空間コストを補って余りある。以下の検
討において、４バイト、６バイト、およびもっと長いポ
インタと F-size の組合せは、すべて長ポインタとして
取り扱うのに対し、１バイトおよび２バイトのポインタ
索引は短ポインタとして取り扱う。

【００４８】遷移単位を生成し、ロケーションを割り当
てるサブルーチンは、各状態の F-size を考慮に入れる
ことができる。ポインタにバイトロケーションを割り当
てるとき、バイトロケーションをコード化データ構造ま
たは適当なポインタテーブルに入れるかどうかを、 F-s
ize に付記することができる。

【００４９】ファイルを書き込むサブルーチンの場合
は、決められた遷移の所でワードリストデータに入ると
き、カウントを開始する F-size を含めるように、開始
状態テーブルに書き込むことができる。カウントを開始
する F-size は、その遷移に対応する文字で始まるワー
ドリストデータ内の最初のワードに対応するナンバーよ
り小さい F-size である。さらに、ポインタテーブルま
たはデータ構造に書き込まれたどのポインタにも付記さ
れた F-size を含めることによって、 F-size を考慮に
入れることができる。

【００５０】ｂ．短ポインタの割当て総合ポインタ割当てサブルーチンは、短ポインタ割当て
を実行するサブルーチンを呼び出すことができる。短ポ
インタ割当てもまた F-size を考慮に入れることができ
る。

【００５１】短ポインタが有利かどうかを決定する際
に、サブルーチンは、状態が２のポインタサイズと、２
の InPointers のみを有するかどうか決定することがで
きる。この場合には、もし状態の F-size が２２５以上
であれば、ポインタ索引に対応付けられた F-size 欄
を、１バイトの幅から２２５以上の値のための２バイト
の幅へ増加させることは、他の各テーブルエントリに不
必要なバイトを加えることになる。これは不利であろ
う。従って、その状態に短ポインタを割り当てるのは止
めるのが得策である。状態を分類することは、それ以後
のすべての状態が２２５以上の F-size を持つことを保
証するので、短ポインタはそれ以上使用されない。

【００５２】もし現ポインタ索引のサイズが有利であ
り、かつ現状態の F-size が参照用テーブル内の単一バ
イトに適合するように２２５以下であれば、現ポインタ
索引のサイズと、そのサイズの次の索引を割り当てるこ
とができる。現ポインタのサイズが有利かどうかを決定
して、 F-size を考慮に入れるために、別のサブルーチ
ンを呼び出すことができる。このサブルーチンは、与え
られた状態からぶら下がっているすべての状態のコスト
を正確に決定する前に、与えられた状態のコストを推定
することができる。このサブルーチンは、ポインタから
ぶら下がるであろう分岐のコストを与えることによっ
て、有利なときだけ、そのポインタが確実に割り当てら
れるようにすることができる。

【００５３】追加の２５５個の２バイトポインタ索引を
持つように、最後の１バイトポインタ索引を２バイトポ
インタ索引へ変更することが有利かどうかを決定するた
めに、さらに別のサブルーチンを呼び出すことができ
る。このサブルーチンは、さらに、状態からぶら下がる
分岐のコストを表す結果を得るために、現ポインタサイ
ズが有利かどうかを決定するサブルーチンを呼び出すこ
とができる。

【００５４】もし分岐のコストが２またはそれ以下であ
れば、２バイトポインタ索引を割り当てることは有利で
ないであろう。もしそうでなければ、呼出しサブルーチ
ンは状態の F-size が２５５以上かどうかを決定する。
その場合、入ってくる各ポインタは２バイトのポインタ
索引でなく、３バイトのポインタである。

【００５５】もし F-size が２５５またはそれ以下であ
れば、２バイトポインタ索引の数を２倍した積から、追
加の２バイトポインタ索引に必要なテーブルエントリの
長さを差し引き（ InPointers に等しくなる）、この差
を変数 Benefit（この変数は、２バイトポインタ索引の
全利益の情報を与える）に加える。しかし、もし F-siz
e が２５５以上であれば、 InPointers の４倍の積から
エントリの長さを差引き、この差を変数 Benefit に加
える。 InPointers に乗じる２の乗数は、１バイト F-s
ize をもつ３バイトポインタを２バイトポインタ索引へ
変更することの利益である。４の乗数は、全部が０の１
バイトと２バイト F-size をもつ３バイトポインタを２
バイトポインタ索引へ変更することによる利益である。

【００５６】いずれの場合も、変数 Benefit が適当に
増加したとき、ポインタの割当てにおいて変更をなすべ
きかどうかを決定するために、その値が使用される。

【００５７】ｃ．長ポインタの割当て総合ポインタ割当てサブルーチンは、同様に、長ポイン
タの割当てを実行するサブルーチンを呼び出すことがで
きる。長ポインタの割当てもまた F-size を考慮に入れ
ることができる。

【００５８】長ポインタ割当てサブルーチンは、もし状
態が InPointers を有していれば、状態の F-size が２
５５以上かどうかを決定することができる。もしそうで
あれば、 F-size 共に、６バイトの長ポインタが必要で
ある。

【００５９】ある状態のポインタのサイズを加減するた
めに、別のサブルーチンを呼び出すことができる。

【００６０】もし状態に長ポインタを割り当てるのであ
れば、このサブルーチンは、その F-size が２５５以上
かどうかを決定することができる。サブルーチンは、も
し２５５以上であれば、６バイトのポインタを割り当
て、もし２５５以下であれば、４バイトのポインタを割
り当てる。

【００６１】Ｃ．Ｗ／Ｎマッピングワードからナンバーへの（Ｗ／Ｎ）マッピングは、いろ
いろなやり方で実行することができる。Ｗ／Ｎマッピン
グは、Ｎ／Ｗマッピングと同様に、マッピングの際にス
キップ可能な分岐を含む指定グラフなどの格納されたワ
ードリストを使用することができる。図５に、格納され
たワードリストを使用するのに適したＷ／Ｎマッピング
ルーチンを示す。

【００６２】図５において、Ｗ／Ｎマッピングは、ボッ
クス４００において、マップするワードの最初の文字お
よび初期化する変数 Number で始まる。最後に、変数 N
umber はワードがマップされたナンバーの値をとる。図
２の簡単なワードリストの場合は、ワードリストデータ
の最初のロケーションおよび零の変数 Number で始める
ことができるが、一般的な大きなデータ構造の場合は、
ワードの最初の文字を使用して最初文字テーブルをアク
セスし、ワードリストデータ内のその文字の開始ロケー
ションを見つけて、その文字で始まる最初の受入れ可能
なワードのナンバーより１つ小さいナンバーを見つけ、
変数 Number をそのナンバーに初期化する。次に、ボッ
クス４０２において、マップするワードを突き合わせる
処理を開始する。各バイトに実行するテストは、ワード
リストデータを作成するとき、コード化されたバイトに
依存して遷移単位の CHAR, F, EOB,および ALT データ
を指示する各ケースにおいて、遷移単位をバイトにコー
ド化したやり方を基礎にすることができる。

【００６３】もしワードの現文字が現遷移単位の CHAR
データと一致すれば、次のボックス４０４のテストは、
この文字がマップするワードの末尾文字であるかどうか
を決定する。もし YES であり、かつボックス４０６に
おいて現遷移単位のＦデータが設定されたと決定されれ
ば、ルーチンは、ボックス４０８において、変数 Numbe
r を戻して、マッピングは終了する。しかし、もしＦデ
ータが設定されていなければ、あるいはもし現文字が末
尾文字でないが、ボックス４１０において現遷移単位の
EOB データが設定されたと決定されれば、そのワード
はワードリスト内に存在しないので、ボックス４１２に
おいて、 NIL を戻す。さもなければ、ボックス４１４
において、現遷移単位のＦデータが設定されたかどうか
を決定する。もし YES あれば、ボックス４１６におい
て、変数 Number を増分する。次に、ルーチンは、ボッ
クス４１８において、ワードの次の文字およびワードリ
ストデータ内の次のロケーションへ進む。もしボックス
４２０のテストが次のロケーションにポインタまたはポ
インタ索引が入っていると決定すれば、ルーチンは、ボ
ックス４２２において、そのロケーションにあるポイン
タ、またはポインタ索引を使用して適当なポインタテー
ブルから検索されたポインタが指示するロケーションへ
進む。この場合は、ポインタがスキップされず、次に続
くので、 F-size は考慮されない。

【００６４】他方、もしボックス４０２のテストが現文
字は現遷移単位の CHAR データと一致しないと決定し、
かつ現遷移単位の ALT データが設定されれば、そのワ
ードは依然としてワードリストに存在する可能性があ
る。ボックス４２６において、もしこれがそのケースで
あると決定すれば、ボックス４３０において、図６の G
oToAlt サブルーチンを実行する。もし NO ならば、そ
のワードはワードリスト内に存在する可能性がないの
で、ルーチンは、ボックス４２８において、NIL を戻
す。

【００６５】図６の GoToAlt サブルーチンは、最初
に、ボックス４４０において、現遷移単位の EOB デー
タが設定されたかどうかを決定する（その場合、分岐の
終わりであるワードリストデータのすべての状態は最後
でなければならないので、Ｆデータもまた設定されなけ
ればならない）。もし YES ならば、データ構造内の次
のロケーションに代替分岐またはその代替分岐へのポイ
ンタが入っているので、GoToAlt サブルーチンは、ボ
ックス４４２において、変数 Number を増分し、ロケー
ションを増分する。そこで GoToAlt サブルーチンは終
了し、図５のルーチンへ戻り、ボックス４２０のテスト
で代替分岐を見つける。

【００６６】他方、もしボックス４４０において、 EOB
は設定されてないと決定されれば、GoToAlt サブルー
チンは、ボックス４５０において、現遷移単位のＦデー
タをテストし、もしＦデータが設定されていれば、ボッ
クス４５２において、変数 Number を増分する。次に、
GoToAlt サブルーチンは、ボックス４５４において、
ロケーションを増分し、次にボックス４５６において、
変数 AltCount を（１）に初期化する。ボックス４５８
のテストによって、変数 AltCount が（０）に達したと
決定されるまで、 GoToAlt サブルーチンは、以下に述
べるやり方でロケーションを次々移る。しかし、変数 A
ltCount が（０）に達したら、 GoToAltサブルーチンは
終了し、図５のルーチンへ戻り、そこで、ボックス４２
０のテストによって代替分岐を見つける。

【００６７】GoToAlt サブルーチンがロケーションを
次々に移るとき、ボックス４６０において、現位置にあ
るバイトがコード化された遷移単位（従って、CHAR デ
ータを含んでいる）か、ポインタまたはポインタ索引か
をテストする。もしポインタまたはポインタ索引であれ
ば、ボックス４６２において、変数 AltCount を減分
し、そしてポインタまたはポインタ索引をスキップオー
バーする。４バイトであれ６バイトであれ、長ポインタ
の長さが上述のように３アドレスバイトの次の値から決
定されることを除いて、スキップオーバーするポインタ
またはポインタ索引の長さは、そのロケーションでの値
から決定することができる。さらに、ボックス４６４に
おいて、スキップした分岐の F-size を変数 Number に
加える。 F-size は、ポインタに付記されたロケーショ
ンから直接に、あるいは適当な参照用テーブルから検索
する。 F-size を加えたら、 GoToAlt サブルーチン
は、 AltCount が０に達したかどうかを決定するため
に、ボックス４５８へ戻る。

【００６８】他方、もしボックス４６０のテストが現位
置にあるバイトは遷移単位であり、従って CHAR データ
が入っていることを指示すれば、 GoToAlt サブルーチ
ンは、ボックス４６６において、現遷移単位のＦデータ
が設定されたかどうかをテストし、もし設定されていれ
ば、ボックス４６８において、変数 Number を増分す
る。同様に、 GoToAlt サブルーチンは、ボックス４７
０において、 EOB データが設定されたかどうか、そし
て ALT データがクリヤされたかどうかをテストし、も
しその通りであれば、ボックス４７２において、変数 A
ltCount を減分する。次に、 GoToAltサブルーチンは、
ボックス４７４において、 ALT データが設定されたか
どうか、そして EOB データがクリヤされたかどうかを
テストし、もしその通りであれば、ボックス４７６にお
いて、変数 AltCount を増分する。このように、変数 N
umber と変数 AltCount を加減した後、 GoToAlt サブ
ルーチンは、ボックス４５８のテストへ戻る前に、ボッ
クス４７８において、ロケーションを増分する。

【００６９】このように、図５および図６のルーチン
は、ワードリスト内のすべてのワードを固有のナンバー
へマップするので、Ｗ／Ｎマッピングを実行する。空列
を受け取る場合はワードリストデータが空列を受け取っ
たかどうかをテストするため、図５のルーチンは最初に
追加試験を加えることができる。最初に受け取ったワー
ドは、空列であってもなくても、０へマップされ、そし
て最後に受け取ったワードは、受入れ可能なワードのナ
ンバーより１つ小さい整数へマップされる。

【００７０】文字は、拡張コードを使用して特別にコー
ド化することができる。これを実行する場合には、図５
のルーチンは多数の追加ステップを取り入れる。ボック
ス４００またはボックス４１８において、ワードの各文
字を受け取った後、文字の拡張コードデータを検査し、
文字バイトの前のワードリストデータ内に現れる拡張コ
ードの数を求める必要がある。次に、ボックス４０２に
おいて、一致が生じたときはいつでも、すべての予想拡
張コードを受け取ったかどうかを検査する必要がある。
もし現遷移単位の EOB データが設定されておらず、か
つそれ以上の拡張コードが予想されなければ、次へ移る
前に、残っている拡張コードの数を減分する。このやり
方で、一般には図５のルーチンに従いながら、格納され
たワードリスト内の拡張コードを復号する。

【００７１】以上のように、ワードからナンバーへのマ
ッピング、すなわち変換は、格納されたワードリストを
くまなく走査すると同時に、それぞれが接尾辞語尾を表
すセットＦデータを有する遷移単位をカウントし続ける
必要がある。ワードが一致したとき、このカウントがワ
ードのナンバーである。リストの簡単な逐次検索にまさ
る重要な利点は、１つの迅速な走査によって分岐全体を
スキップさせることが可能なことである。

【００７２】本技法は、前に引用した Luccesi の技法
にまさる以下の利点を有する。本技法は、コード化アプ
リケーションのバイトコード化法と一緒に使用して、非
常にコンパクトなワードリストデータを得ることができ
る。本技法は、Luccesi の技法のように、すべての状態
についてカウントを表すデータを格納する必要がない。
その代わりに、本技法は、ポインタと共にカウントを格
納するだけである。ポインタは、空間的または時間的ま
たはその両方において利益を得るために入っているだけ
であり、多くの状態についてカウントを表す追加データ
は格納されない。従って、本技法の場合は、カウントを
表すデータを格納するのに必要な追加データは約２〜５
％に過ぎないのに対し、Luccesi の技法の場合は、各遷
移が同じ大きさの空間を占めるので、約３５％の追加デ
ータが必要である。

【００７３】Ｄ．Ｎ／ＷマッピングもしＮ／ＷマッピングがＷ／Ｎマッピングの逆であれ
ば、Ｎ／Ｗマッピングも同様に多くのやり方で実行する
ことができる。図７に、上に述べた格納されたワードリ
ストおよびＷ／Ｎマッピング法に適したＮ／Ｗマッピン
グのためのルーチンを示す。図７のルーチンは、一般
に、格納されたワードリストをくまなく走査して、セッ
トＦデータをもつ各バイトについて照合すべきナンバー
を減分する。ナンバーはマップ中のナンバーに対応する
ワードの終端で零に達し、そのワードが戻される。

【００７４】図７において、Ｎ／Ｗマッピングは、ボッ
クス５００において、変数 Numberおよび空スタックで
始まる。このスタックは、図７のルーチングが終了した
ときマップ中のナンバーに対応するワードが入るよう
に、ルーチングによって管理される。従って、対応する
ワードを戻すためになすべき必要なことは、そのスタッ
クの内容をアンロードして提供するだけである。

【００７５】図２のワードリストのような簡単なワード
リストの場合は、第１エントリで開始することが可能で
あろう。変数 Number は、マップする全ナンバー（full
number)である。しかし、より大きなワードリストの場
合には、マップするナンバーを使用して、最初文字テー
ブル（各文字で始まる最初のワードのすぐ前のワードに
対応するナンバーを含んでいる）に基づいて、どれがワ
ードの最初の文字かどうかを直接決定することができ
る。マップするナンバーと最初文字のナンバーとを比較
して、それよりも小さい最大の数を見つけることができ
る。マップするナンバーと最初の文字のナンバーとの差
が、変数 Number の始値である。次に、現ロケーション
を、その最初文字のナンバーに対応する文字の最初文字
の遷移に設定する。しかし、もしマップするナンバーが
ワードリストデータ内の最後のワードに対応するナンバ
ーより大きいと判れば、 NIL を戻す。同様に、もしマ
ップするナンバーが０であれば、最初にワードリストデ
ータをテストして、ワードリストデータが空列を受け取
ったかどうかを決定する。もし受け取ったのであれば、
空列を戻す。しかし、ルーチンは、通常、図７に示した
ルーチンの残りの部分を続行するであろう。

【００７６】ボックス５０２のテストは、現ロケーショ
ンにあるバイトが遷移単位（すなわち、 CHAR データを
有する）か、ポインタまたはポインタ索引かを決定す
る。もし遷移単位であれば、ボックス５０４において、
バイトをスタックにプッシュし、ボックス５０６におい
て、ＦＳＭ内の次のロケーションへ進むためロケーショ
ンを増分する。もしボックス５０８において、遷移単位
のＦデータが設定されたと決定すれれば、ボックス５１
０において、 Number が０かどうかを決定する。Number
が０に達すると、ボックス５１２において、スタック
内のワードを提供して、マッピングは終了する。しか
し、もし Number が０に達していなければ、ボックス５
１４において、 Number を減分する。次に、ボックス５
１６において、遷移単位の EOB データが設定されたか
どうかを決定する。もし YES ならば、探しているワー
ドはこの分岐内にその語尾を有していないので、ボック
ス５１８において、そのALT データセットを有するエン
トリに達するまで、最も新しくロードされたものから開
始し、 LIFO スタック内の文字エントリをポップする。
次に、ルーチンは、次のロケーションにあるバイトにつ
いてテストするため、ボックス５０２へ戻る。

【００７７】他方、もし現ロケーションにあるバイトが
ポインタまたはポインタ索引であれば、ボックス５２０
において、そのポインタまたはポインタ索引が案内する
分岐の F-size と Number とを比較する。 F-size は、
ポインタに対するその位置か、もし現ロケーションがポ
インタ索引を有していれば、その索引に対応する参照用
テーブルエントリのいずれかから検索される。もし F-s
ize が Number より大きければ、探しているワードはポ
インタからぶら下がっているワードリストデータの分岐
内で終わるので、ルーチンは、ボックス５２２におい
て、ロケーションを、ポインタによって、あるいはポイ
ンタ索引を使用して検索したポインタによって指示され
たロケーションに設定する。その後、ルーチンは、ボッ
クス５０２のテストから開始し、そのロケーションにあ
るバイトを処理する。

【００７８】もし F-size ≦ Number ならば、ルーチン
は、ボックス５２４において、 Number から F-size を
差し引く。次に、ボックス５２６において、ポインタま
たはポインタ索引の後の次のロケーションへ移る。さら
に、前に述べたように、ボックス５１８のステップを実
行して、そのALT データセットを有するエントリに達す
るまで、スタックからエントリをポップする。次に、ル
ーチンはボックス５０２のテストへ戻る。

【００７９】ボックス５１２においてスタックからワー
ドを戻す際に、対応する文字を得るためコード化遷移単
位を復号する必要がある。前に述べたように拡張コード
を使用してワードリストデータ内の文字をコード化した
場合には、復号操作は、拡張コードについてテストする
ことを含む。拡張コードを見つけたら、拡張コードでな
いコードを見つけるまで、連続する拡張コードの数をカ
ウントする。次に、そのコードと一緒に拡張コードの数
を使用して、文字コードテーブル内で適切な文字のため
の出力コード、例えば ASCII コードを見つける。

【００８０】このように、Ｎ／Ｗマッピングは、Ｗ／Ｎ
マッピングと同様に、ワードリストデータの分岐をスキ
ップすると同時に、語尾をカウントし続けることができ
る。F-size はスキップ可能な次の分岐をもつ各分岐点
に対応付けられているので、その F-size を使用してカ
ウントを続けることができる。また、各分岐点には、次
の分岐をスキップするのに必要な情報が対応付けられて
いる。この情報は、その長さを指示するため各ポインタ
またはポインタ索引をコード化することによって、そし
てスキップ可能な分岐へ案内するポインタ（付記された
F-size を有する）またはポインタ索引のすぐ後に代替
分岐を位置付けすることによって、ワードリストデータ
内に格納することができる。その結果、マッピングが進
行しているとき、探索はワードリストデータをくまなく
迅速に進むことができる。

【００８１】Ｅ．用途上に述べたマッピング法はさまざまな用途に使用でき
る。その一部を図８〜図１０に示す。

【００８２】図８は、Ｗ／Ｎマッピングを使用して、情
報をワードに対応付ける機能を示す。ボックス５４０に
おいてワードを入力し、ボックス５４２において各ワー
ドをマップする。次に、ボックス５４４においてそれぞ
れのナンバーを対応する情報に対応付け、ボックス５４
６においてその情報を出力する。このような応用の一例
は辞書であろう。この場合、図８の技法は、入力したワ
ードの定義を検索するために使用される。

【００８３】図９は、図８の変形である。それぞれのナ
ンバーに対応付けられた情報は、他のワードに対応する
１つまたはそれ以上のナンバーである。ボックス５５０
においてワードを入力し、ボックス５５２において各ワ
ードをナンバーへマップする。次に、ボックス５５４に
おいてそれぞれのナンバーをそれと一定の関係を有する
他のナンバーへ対応付ける。ボックス５５６においてこ
れらのナンバーをマップして、ワードへ戻し、ボックス
５５８において得られたワードを出力する。この技法
は、例えば百科辞典などにおいて、同義語や反意語など
の関連ワードを得るために使用することができる。ま
た、ユーザーが多数の言語のうちの１つでワードをタイ
プすると、装置が別の言語でそのワードおよび同義語を
含む多数のワードグループで応答するようにして、翻訳
能力を付与することができる。

【００８４】図１０は、テキストの圧縮にどのようにマ
ッピングを使用できるかを示す。ボックス５６０におい
て圧縮する一連のワードを受け取り、ボックス５６２に
おいて各ワードをナンバーへマップする。次に、ボック
ス５６４において余分の冗長性を除去する適当な圧縮法
を使用して一連のナンバーを圧縮する。次にボックス５
６６において圧縮されたデータを転送するか、または格
納する。ボックス５６８において一連のナンバーへ圧縮
解除する。次にボックス５７０において、これらのナン
バーをワードへマップし、ボックス５７２において一連
のワードをまさに受け取ったように出力する。

【００８５】Ｆ．その他ある種の状況においては、いろいろな修正が有益のこと
がある。上に述べたワードリストをコード化する場合に
は、ワードリストは遷移単位の形でコード化される。次
の分岐および代替分岐を有するこれらの遷移単位は、分
岐点である。もしワードリストデータ内の状態が多くの
出力遷移を有していれば、分岐と接尾辞語尾の情報を、
その状態の対応する分岐点にテーブルの形で対応付ける
ことが有益であろう。そのテーブルの各エントリは、出
力遷移の１つに対応し、その遷移からぶら下がっている
分岐のロケーションと F-size を表す。この F-size
は、その分岐内の接尾辞語尾の数ではなく、その分岐が
選択されたならば有効にスキップされるであろうすべて
の分岐の F-size である。Ｗ／Ｎマッピングのとき、出
力遷移の文字と探索しているワードの次の文字とが一致
すれば、その分岐が選択される。Ｎ／Ｗマッピングのと
き、対応する F-size がテーブルの残りの数より小さい
最大の F-size であれば、その分岐が選択される。テー
ブルのエントリは、出力遷移の文字に基づいて、あるい
は他の適当なやり方で、順序付けできる。

【００８６】もう１つの変形は、前に指摘したように、
分岐点に格納された分岐情報を修正することである。例
えば、ポインタは、次の分岐に格納せずに、代替分岐に
格納することもできる。このポインタは、次の分岐の長
さなど、相対的なポインタであってもよい。

【００８７】さらに別の変形は、接尾辞語尾の情報を分
岐点に対応付ける方法を修正することである。次の分岐
へのポインタを付記するのでなく、接尾辞語尾の数を次
の分岐の始めに格納することができる。２バイトポイン
タ索引へ変更すれば、記憶空間をよりいっそう節減でき
るであろうが、もし次の分岐が３バイトポインタを有し
ていれば、これは各３バイトポインタにつき１バイトを
節減するであろう。

【図面の簡単な説明】

【図１】ワードリストの抜粋の状態遷移図である。

【図２】図１の抜粋の中のワードを示すワードリストデ
ータの略図である。

【図３】ワードリストデータを含むプロダクトを作成す
る際に使用できるルーチンを示すフローチャートであ
る。

【図４】ワードリストデータを含むプロダクトを作成す
るためのデータ処理装置の略図である。

【図５】ワードをナンバーへマップする方法を示すフロ
ーチャートである。

【図６】どのように代替遷移単位を見つけるかを詳細に
示すフローチャートである。

【図７】ナンバーをワードへマッビングする方法を示す
フローチャートである。

【図８】Ｗ／Ｎマッピングを使用して情報をワードに対
応付ける技法の機能ブロック図である。

【図９】Ｗ／ＮおよびＮ／Ｗマッピングを使用してワー
ドを他のワードに対応付ける技法の機能ブロック図であ
る。

【図１０】Ｗ／ＮおよびＮ／Ｗマッピングを使用してテ
キストを圧縮および圧縮解除する技法の機能ブロック図
である。

【符号の説明】

１０〜１８状態１００データ処理装置１０２ＣＰＵ１０４ＦＳＭ入力バッファ１０６出力ファイルバッファ１１０プログラムメモリ１１２主コード化ルーチン１１４状態単位情報収集サブルーチン１１６索引割当てサブルーチン１１８遷移単位発生／位置決めサブルーチン１２０ファイル書き込みサブルーチン１２２バイト値割当てサブルーチン１３０作業データメモリ

───────────────────────────────────────────────────── フロントページの続き (72)発明者マーティンケイアメリカ合衆国カリフォルニア州 94025 メンロパークペニンシュラウェイ 935 (56)参考文献特開平４−332035（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 5/00 H03M 7/30

Claims

(57)【特許請求の範囲】

【請求項１】データを機械アクセス可能な形で格納する
記憶媒体と、前記記憶媒体に格納されたワードのリスト
を表すワードリストデータから成るプロダクトであっ
て、前記ワードリストデータは、ワードリストデータを使用
してリスト内の各ワードとナンバーとの間でマッピング
を実行できるように、リスト内のワードの接尾辞語尾を
表す複数の接尾辞データ項目を含んでおり、前記接尾辞
データ項目は、マッピングのときスキップできない第１
セットの接尾辞語尾を表す第１接尾辞データ項目と、マ
ッピングのときスキップできる第２セットの接尾辞語尾
を表す第２接尾辞データ項目から成っており、前記第１
接尾辞データ項目は、マッピングのとき第１セット内の
接尾辞語尾のカウントを得るためアクセス可能であり、
前記第２接尾辞データ項目は、マッピングのとき第２セ
ット内の接尾辞語尾のカウントを得るためアクセス可能
であり、前記ワードリストデータは、さらに、第１分岐データ項
目を含んでおり、前記第１分岐データ項目は、第２セッ
ト内の接尾辞語尾の１つで終わるワードについてマッピ
ングを実行するため使用できる、第２接尾辞データ項目
のロケーションを表す分岐選択情報と、第１セット内の
接尾辞語尾の１つで終わらないワードについてマッピン
グを実行するため使用できる、第２セット内の接尾辞語
尾の数を表す分岐スキップ情報を含んでおり、第１分岐データ項目内の接尾辞語尾の数は、単に第１接
尾辞データ項目をアクセスすることによって得られるこ
とを特徴とするプロダクト。
【請求項２】ワードのリストを表すワードリストデー
タを使用して、ワードをナンバーへマップする方法であ
って、前記ワードリストデータは、リスト内のワードの接尾辞
語尾を表す複数の接尾辞データ項目を含んでおり、前記
接尾辞データ項目は、マッピングのときスキップできな
い第１セットの接尾辞語尾を表す第１接尾辞データ項目
と、マッピングのときスキップできる第２セットの接尾
辞語尾を表す第２接尾辞データ項目から成っており、前
記第１接尾辞データ項目は、マッピングのとき第１セッ
ト内の接尾辞語尾のカウントを得るためアクセス可能で
あり、前記第２接尾辞データ項目は、マッピングのとき
第２セット内の接尾辞語尾のカウントを得るためアクセ
ス可能であり、前記ワードリストデータは、さらに、分岐データ項目を
含んでおり、前記分岐データ項目は、第２接尾辞データ
項目のロケーションを表す分岐選択情報と、第２セット
の接尾辞語尾の数を表す分岐スキップ情報とを含んでお
り、前記第１接尾辞データ項目内の接尾辞語尾の数は、単に
第１接尾辞データ項目をアクセスすることによって得ら
れる場合において、前記第１接尾辞データ項目にアクセスし、その第１接尾
辞データ項目を使用して、第１接尾辞データ項目内の接
尾辞語尾の数に基づいて、接尾辞語尾の実行カウントを
更新すること、前記分岐データ項目にアクセスすること、もしマップするワードが第２セットの接尾辞語尾内の接
尾辞語尾を有していれば、分岐選択情報を使用して第２
接尾辞データ項目にアクセスすること、およびもしマッ
プするワードが第２セットの接尾辞語尾内の接尾辞語尾
を有していなければ、分岐スキップ情報を使用して接尾
辞語尾の実行カウントを更新すること、の諸ステップか
ら成ることを特徴とする方法。
【請求項３】ワードのリストを表すワードリストデー
タを使用して、ナンバーをワードへマップする方法であ
って、前記ワードリストデータは、リスト内のワードの接尾辞
語尾を表す複数の接尾辞データ項目を含んでおり、前記
接尾辞データ項目は、マッピングのときスキップできな
い第１セットの接尾辞語尾を表す第１接尾辞データ項目
と、マッピングのときスキップできる第２セットの接尾
辞語尾を表す第２接尾辞データ項目から成っており、前
記第１接尾辞データ項目は、マッピングのとき第１セッ
ト内の接尾辞語尾のカウントを得るためアクセス可能で
あり、第２接尾辞データ項目はマッピングのとき第２セ
ット内の接尾辞語尾のカウントを得るためアクセス可能
であり、前記ワードリストデータは、さらに、分岐データ項目を
含んでおり、前記分岐データ項目は、第２接尾辞データ
項目のロケーションを表す分岐選択情報と、第２セット
内の接尾辞語尾の数を表す分岐スキップ情報を含んでお
り、前記第１接尾辞データ項目内の接尾辞語尾の数は、単に
第１接尾辞データ項目をアクセスすることによって得ら
れる場合において、前記第１接尾辞データ項目にアクセスし、その第１接尾
辞データ項目を使用して第１接尾辞データ項目内の接尾
辞語尾の数に基づいて、接尾辞語尾の実行カウントを更
新すること、前記分岐データ項目にアクセスすること、もしマップするナンバーが第２セットの接尾辞語尾内の
接尾辞語尾をもつワードを有していれば、分岐選択情報
を使用して第２接尾辞データ項目にアクセスすること、
およびもしマップするナンバーが第２セットの接尾辞語
尾内にない接尾辞語尾をもつワードを有していれば、分
岐スキップ情報を使用して接尾辞語尾の実行カウントを
更新すること、の諸ステップから成ることを特徴とする
方法。