JPH09212395A

JPH09212395A - テキスト圧縮用辞書作成装置およびテキスト圧縮装置

Info

Publication number: JPH09212395A
Application number: JP8013892A
Authority: JP
Inventors: Taro Morishita; 太朗森下
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1996-01-30
Filing date: 1996-01-30
Publication date: 1997-08-15
Anticipated expiration: 2016-01-30
Also published as: US6047298A; JP3566441B2

Abstract

(57)【要約】【課題】大容量の固定テキストの圧縮率を飛躍的に向
上させるためのテキスト圧縮用辞書作成装置およびテキ
スト圧縮装置を提供する。【解決手段】目標圧縮率を満足するためにテキスト中
で出現が要求される頻度のガイドラインを算出する頻度
ガイドライン算出手段１１１と、テキストから対応する
文字列長の頻度ガイドラインを満たす頻度で出現するも
のをその実頻度とともに文字列長の降順に切出して静的
辞書を生成する長文字列切出手段１１２とを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ワードプロセッサ
（以下「ワープロ」と省略する。）や電子手帳といった
ジャンルの情報機器に関する固定のテキストデータを扱
うテキスト圧縮用辞書作成装置およびテキスト圧縮装置
に関する。

【０００２】

【従来の技術】電子辞書機能が搭載されたワープロ、パ
ーソナルコンピュータ（以下、「パソコン」と省略す
る。）、電子手帳などの情報機器では、機器の内部に辞
書の意味が記述された大容量の固定テキストデータを記
憶しておかなければならない。

【０００３】こういったジャンルの商品で取り扱うテキ
ストデータは、大抵の場合、数メガバイトオーダの容量
のデータになる場合が多い。これらデータはＲＯＭ化、
ハードディスク化されることになるが、テキスト圧縮に
よって、ＲＯＭの点数を減らすなり、ハードディスクの
空き領域を確保するなりの工夫を施さないと、コストパ
フォーマンスを向上させることはできない。

【０００４】従来のテキスト圧縮法は主として次のよう
に分類される。（１）コードの空き領域に、頻出するコード列のコー
ドを割り当てるタイプのもの（特開平２−２７１７２
３）（２）別途用意された単語辞書の辞書番号でソーステ
キスト中の文字列を置換するタイプのもの（特開平５−
４６３５７他）（３）頻出する文字列コードを別のコードで置換する
タイプのもの（特開平３−２０６５３３）（４）汎用の圧縮方法（ハフマン、算術、ＬＺなど）
を適用するタイプのもの（PRENTICE HALL Advanced Ref
erence Series,“Text Compression", 1991 ）これらの手法は、どの方法も一長一短で、限られたメモ
リとＣＰＵパワーの下で大容量の固定テキストを高能率
に圧縮するにはいずれも決め手に欠けるものである。

【０００５】（１）は、特定コードのみで圧縮対象のテ
キストが記述されている場合はよいが、コードの空き領
域自体に限られたスペースしかないため短いコードに置
換できる文字列の数が限られ、圧縮率はよくない。複数
のコードや外字などの特殊コードが混在する場合はほと
んど圧縮できないといってよい。

【０００６】（２）は、たとえば仮名漢字変換モジュー
ルなどの別のアプリケーションが存在する場合、仮名漢
字変換用の辞書の見出し語と一致するソーステキスト中
の文字列を辞書の見出し番号で置換することにより圧縮
する手法である。

【０００７】この方法では、辞書見出しに存在しない文
字列は圧縮できないし、辞書見出しと一致する場合でも
その文字列長が辞書番号を表現するためのビット数（通
常１６ビット前後）より大きくないと圧縮できないた
め、符号化表こそ不要なものの概して圧縮率はよくな
い。

【０００８】（３）は、固定テキストに依存する方法で
あり、頻度に偏りがあるような長い文字列が多く含まれ
るテキストの圧縮に向いた方法である。

【０００９】ただ、単に高頻度語を他のコードで置換す
るだけでは、（１）の手法に対して指摘したように、複
数のコードが混在する場合には置換される文字列の数が
限定され圧縮率はよくない。

【００１０】また、高頻度語と置換コードの置換表（符
号化表）が必要であるため、置換表のサイズを調整する
ための工夫がないと、置換表が大きくなり圧縮率の低下
を招く。さらに、何らかの方法で切出された静的辞書に
対してハフマン等の統計手法を用いる考え方を示したも
のはあるが、具体的にどのような手段で固定テキストか
ら静的辞書を構築すればよいか明示しているものはな
い。

【００１１】（４）にはＣＰＵ性能とＲＡＭ容量に制限
がなければ、高圧縮率を達成できる手法もある。たとえ
ば、高次の統計モデルなどがこれに相当する。

【００１２】しかし、小型の情報機器にそのような機能
を搭載することはコスト的に無理であること、処理速度
が遅いことなどから現実的ではない。

【００１３】また、統計情報に基づく汎用手法（単なる
ハフマン法、算術圧縮法など）はいずれも圧縮対象のコ
ードが１バイト（１文字）であるため、高い圧縮率は望
めない。動的辞書ベースの圧縮法（ＬＺ系統の圧縮法）
は、圧縮対象が可変長であるが、繰返し出現する文字列
パターンが少ない場合や作業領域を超えて分散している
ような場合には、圧縮率またはＲＡＭ容量が犠牲とな
る。

【００１４】最近、辞書ベースの手法と統計手法を融合
させた汎用手法もいくつか提案されている（ＬＨＡな
ど）。

【００１５】これらにしても「どんなデータが入力され
ても処理可能」なユニバーサル圧縮であるという立場を
とっているため、予め頻度情報を計算しておくことはで
きない。したがって融合手法も、予め頻度情報を付与す
る本発明の手法に比べて、大容量の固定データに関して
は圧縮率が悪くなる。

【００１６】以上の従来技術は、一般的な「テキスト」
を圧縮対象とする場合に提唱されているものであるが、
圧縮対象を「電子辞書に搭載される辞典の意味テキスト
（見出し語以外の部分）」に絞ってテキスト圧縮を工夫
改良したものは見受けられない。

【００１７】

【発明が解決しようとする課題】本発明が解決しようと
する課題は、大容量の固定テキストの圧縮率を飛躍的に
向上させることである。具体的には以下のとおりであ
る。

【００１８】第１の課題は、大容量の固定テキストに対
して高い圧縮率が得られるような「圧縮用の静的辞書」
を構築するための具体的な手段を提供することである。

【００１９】第２の課題は、大容量の固定テキストに対
して、高い圧縮率が得られるような「圧縮用の静的辞
書」を構築するための具体的な手段を提供することであ
る。第１の課題とはアプローチが異なる。

【００２０】第３の課題は、大容量の固定テキストに対
して、構築された「圧縮用の静的辞書」自体の容量を、
圧縮率の低下を抑えながら削減し、圧縮データおよび回
答用テーブルデータのトータル容量を小さくするための
具体的な手順を提供することである。

【００２１】第４の課題は、大容量の固定テキストに対
して、構築された「圧縮用の静的辞書」自体の容量を、
圧縮率の低下を抑えながら削減し、圧縮データおよび伸
長用テーブルデータのトータル容量を小さくするための
具体的な手順を提供することである。第３の課題とはア
プローチが異なる。

【００２２】本発明が解決しようとする今一つの課題
は、大容量の辞典の意味テキストの圧縮率を飛躍的に向
上させることである。

【００２３】すなわち、従来技術で示した手法はいずれ
も「大容量の固定テキスト」という制限をうまく利用し
たものではないため、「大容量の固定テキスト」を最も
効果的に圧縮する手法と考えられる「可変長シンボルの
静的辞書による統計ベースの圧縮」と比べて圧縮率が低
い。「可変長シンボルの静的辞書による統計ベースの圧
縮」では、圧縮効率のよい静的辞書をうまく切出す方
法、静的辞書自体のサイズを抑える方法が重要なファク
タとなるが、本発明ではこれらの手法は既知であるとし
て扱い、主として「可変長シンボルの静的辞書による統
計ベースの圧縮」手法だけでは限界となる部分を「辞典
の意味テキスト固有の性質」を利用することによって補
い、さらなる圧縮率の向上を目指す。

【００２４】具体的には、圧縮対象テキストに対して単
一の静的辞書を構築するだけでは、必ずしも効率的な圧
縮結果が得られるとは限らない以下のような場合に対し
て静的辞書のアプローチを前提としながら、さらなる圧
縮率向上を図ることを課題とする。

【００２５】（１）圧縮対象テキストが記述内容の異
なる複数の部分から構成される場合。たとえば、「発
音」「訳」「例文」「変化形」といった異なる記述部分
から構成される「英和辞典の意味テキスト」。

【００２６】（２）圧縮対象テキストが複数個ある場
合。たとえば、「英和辞典」「和英辞典」「国語辞典」
などをまとめて圧縮対象とする場合。

【００２７】（３）静的辞書に登録されなかったシン
ボルが、テキストのある箇所にだけ集中して出現する場
合。たとえば、英和辞典の“citron”という項目付近に
は“citrus”、“citric acid ”などの関連項目が配置
されており、それらの意味テキスト中には、全体として
は頻度の低い“柑橘類”という文字列が頻繁に出現する
という場合。

【００２８】具体的な課題は以下のとおりである。すな
わち、第５の課題は、テキストが記述内容の異なる複数
の部分から構成されている場合でも、高い圧縮率が得ら
れるような「圧縮用の静的辞書」を構築し、これに基づ
いて圧縮伸長を行なうための具体的な手順を提供するこ
とである。

【００２９】第６の課題は、種類の異なる複数個の辞典
の意味テキストに対して、高い圧縮率が得られるような
「圧縮用の静的辞書」を構築し、これに基づいて圧縮伸
長を行なうための具体的な手順を提供することである。

【００３０】第７の課題は、大容量の辞典の大容量の辞
典の意味テキストを予め構築された「圧縮用の静的辞
書」を用いて圧縮する場合、静的辞書のシンボルとして
は登録されなかった文字列で、ある辞書項目の周辺での
み出現頻度が高くなる文字列を、その局所的な高頻度性
を利用した圧縮法により圧縮し、単に圧縮用静的辞書の
みを使う場合よりも圧縮効率を高め、圧縮データの容量
を小さくするための具体的な手順を提供することであ
る。

【００３１】第８の課題は、大容量の辞典の意味テキス
トを予め構築された「圧縮用の静的辞書」を用いて圧縮
する場合、静的辞書のシンボルとしては登録されなかっ
た文字列で、ある辞書項目の周辺でのみ出現頻度が高く
なる文字列を、その局所的な高頻度性を利用した圧縮法
により圧縮し、単に圧縮用静的辞書のみを使う場合より
も圧縮効率を高め、圧縮データの容量を小さくするため
の具体的な手順を提供することである。第７の課題とは
アプローチが異なる。

【００３２】

【課題を解決するための手段】請求項１に記載の発明
は、テキストを圧縮する際に参照される辞書を作成する
ためのテキスト圧縮用辞書作成装置であって、目標圧縮
率に対して、２以上の文字列長の各々について前記目標
圧縮率を満足するためにテキスト中で出現が要求される
頻度のガイドラインを算出する頻度ガイドライン算出手
段と、テキストから、文字列長２以上の文字列であっ
て、対応する文字列長の頻度ガイドラインを満たす頻度
で出現するものを、その実頻度とともに文字列長の降順
に切出して第１の静的辞書を生成するとともに、前記頻
度ガイドラインを満たさない切残しのテキストの集合を
生成する長文字列切出手段と、前記切残しのテキストの
集合から文字列長１の文字ごとにその頻度をカウントし
て第２の静的辞書を生成する１文字シンボル抽出手段
と、前記第１の静的辞書に前記第２の静的辞書を追加し
て最終的静的辞書を生成する最終的静的辞書構築手段と
を含むことを特徴とする。

【００３３】請求項２に記載の発明は、テキストを圧縮
する際に参照される辞書を作成するためのテキスト圧縮
用辞書作成装置であって、目標圧縮率に対して、２以上
の文字列長の各々について前記目標圧縮率を満足するた
めにテキスト中で出現が要求される頻度のガイドライン
を算出する頻度ガイドライン算出手段と、テキストか
ら、文字列長２以上の文字列であって、対応する文字列
長の頻度ガイドラインを満たす頻度で出現するものを、
その実頻度とともに文字列長と実頻度との積の降順に切
出して第１の静的辞書を生成するとともに、前記頻度ガ
イドラインを満たさない切残しのテキストの集合を生成
する効率指標関数値順文字列切出手段と、前記切残しの
テキストの集合から文字列長１の文字ごとにその頻度を
カウントして第２の静的辞書を生成する１文字シンボル
抽出手段と、前記第１の静的辞書に前記第２の静的辞書
を追加して最終的静的辞書を生成する最終的静的辞書構
築手段とを含むことを特徴とする。

【００３４】請求項３に記載の発明は、請求項１または
請求項２に記載のテキスト圧縮用辞書作成装置であっ
て、前記最終的静的辞書中の文字列であって、前記最終
的静的辞書中の他の文字列の組合せであるものを、最も
長い文字列が含まれる複数個の他の文字列に分解し削除
するとともに、当該他の文字列の実頻度を前記削除され
た文字列の頻度だけそれぞれ増加させるための文字列切
出手段をさらに含むことを特徴とする。

【００３５】請求項４に記載の発明は、請求項１または
請求項２に記載のテキスト圧縮用辞書作成装置であっ
て、前記最終的静的辞書中の文字列であって、前記最終
的静的辞書中の他の文字列の組合せであるものを、圧縮
率への寄与が最も大きくなるような複数個の他の文字列
に分解し削除するとともに、当該他の文字列の実頻度を
前記削除された文字列の頻度だけそれぞれ増加させるた
めの文字列切出手段をさらに含むことを特徴とする。

【００３６】請求項５に記載の発明は、それぞれ属性の
異なる複数種類の構成要素から構成されるテキストに対
して、各構成要素種類ごとに前記テキストを分割し、分
割された各々の構成要素種類のテキストに対して、構成
要素種類の境界に含まれる構成要素種類の切換えを指示
するシンボルを含む圧縮辞書を作成する辞書作成手段
と、前記辞書作成手段により作成された辞書を、前記シ
ンボルに遭遇するたびに前記シンボルに応じて切換えな
がら、圧縮対象のテキストの圧縮伸長を行なう辞書切換
圧縮伸長手段とを含むことを特徴とする。

【００３７】請求項６に記載の発明は、各々がそれぞれ
属性の異なる複数種類の構成要素から構成される複数の
テキストであって、少なくとも一部の構成要素種類を共
有する複数のテキストに対して、各構成要素種類ごとに
前記複数のテキストを分割し、分割された各々の構成要
素種類のテキストに対して、構成要素種類の境界に含ま
れる構成要素種類の切換えを指示するシンボルを含む共
有辞書を作成する共有辞書作成手段と、前記共有辞書作
成手段により作成された共有辞書を、前記シンボルに遭
遇するたびに前記シンボルに応じて切換えながら、圧縮
対象のテキストの圧縮伸長を行なう共有辞書切換圧縮伸
長手段とを含むことを特徴とする。

【００３８】請求項７に記載の発明は、テキスト中の局
所的な高頻度語を、２回目の出現以降において、前記テ
キスト中には存在しない文字列である導入シンボルと当
該高頻度語の１回目の出現位置と当該高頻度語の当該出
現位置からの文字列長とで置換して符号化するオフセッ
ト置換圧縮手段と、前記オフセット置換圧縮手段により
圧縮されたデータを、前記導入シンボル後の前記１回目
の出現位置と前記出現位置からの前記文字列長とにより
指定される語に置換することにより伸長して元のテキス
トに復元するオフセット置換伸長手段とを含むことを特
徴とする。

【００３９】請求項８に記載の発明は、テキスト中の局
所的な高頻度語について、初回出現時に番号を付与し、
２回目の出現以降において、前記テキスト中には存在し
ない文字列である導入シンボルと付与された前記番号と
で置換して符号化する番号置換圧縮手段と、前記番号置
換圧縮手段により圧縮されたデータを、前記導入シンボ
ルと前記番号とにより指定される語に置換することによ
り伸長して元のテキストに復元する番号置換伸長手段と
を含むことを特徴とする。

【００４０】

【発明の実施の形態】以下、本願の発明を実施の形態１
と実施の形態２とにより、図面を参照して説明する。

【００４１】［実施の形態１］図１は、実施の形態１に
かかるテキスト圧縮用辞書作成装置の全体構成説明図で
ある。本発明を実施するためのブロック構成の一例が装
置の構成と対応付けて記述されている。

【００４２】図１を参照して、入力手段１４はキーボー
ド、ＯＣＲ（光学的文字読取装置）、ペン等周知の入力
装置および本体側とデータのやり取りを行なう入力イン
タフェース１２から構成される。本発明の入力である、
圧縮対象の固定の「ソーステキスト」は入力手段を用い
て入力される。

【００４３】表示手段１５は、液晶ディスプレイ、ＣＲ
Ｔ（Cathode Ray Tube) など周知の出力装置および本体
側とデータのやり取りを行なう出力インタフェース１３
から構成される。本発明の出力である「ソーステキスト
に対する圧縮用静的辞書」の内容や各種の処理結果は表
示手段を用いて表示される。

【００４４】記憶手段１６は、ＲＯＭ（Read-Only Memo
ry）、ＲＡＭ（Random Access Memory）で構成される記
憶装置１１への記憶、アクセスを司るための周知の手段
である。ＲＯＭ、ＲＡＭへは入出力データ、処理途中の
一時的なデータ、および処理のロジックを表わすデータ
などが格納される。

【００４５】頻度ガイドライン算出手段１１１は、入力
されたソーステキストおよび圧縮仕様に対して、出力す
べき圧縮用静的辞書の各シンボルが文字列長ごとにどれ
くらいの頻度で切出されれば、与えられた圧縮仕様を満
足できるかを算出するためのロジックである。これは記
憶装置１１のＲＯＭの一部にＣＰＵ（中央処理装置）１
０に処理可能な形式で格納されている。

【００４６】長文字列切出手段１１２は、入力されたソ
ーステキストおよび文字列長ごとの指定頻度に対して、
出力すべき圧縮用静的辞書の文字列長２以上のシンボル
をその実頻度とともにソーステキストから文字列長降順
に切出し、同時に指定頻度を満たさない切残しのテキス
トの集合を生成するためのロジックである。長文字列切
出手段１１２は記憶装置１１のＲＯＭの一部にＣＰＵ１
０に処理可能な形式で格納されている。

【００４７】１文字シンボル抽出手段１１３は、入力さ
れたテキストに対して文字列長１の文字の頻度をカウン
トするためのロジックであり、記憶装置１１のＲＯＭの
一部にＣＰＵ１０に処理可能な形式で格納されている。

【００４８】効率指標関数値順文字列切出手段１１４
は、入力されたソーステキストおよび文字列長ごとの指
定頻度に対して、出力すべき圧縮用静的辞書の文字列長
２以上のシンボルをその実頻度とともにソーステキスト
から文字列長×出現頻度の降順に切出すためのロジック
であり、記憶装置１１のＲＯＭの一部にＣＰＵ１０に処
理可能な形式で格納されている。

【００４９】シンボル削除のための文字列切出手段１１
５は、一旦生成した圧縮用静的辞書の中の特定のシンボ
ルを、なるべく長い他のシンボルが含まれるように複数
個の他のシンボルに分解し削除することにより、ソース
テキストの圧縮容量の増大を極力抑えながら、元の圧縮
用静的辞書の容量を削減するためのロジックであり、記
憶装置１１のＲＯＭの一部にＣＰＵ１０に処理可能な形
式で格納されている。

【００５０】シンボル分解手段１１６は、一旦生成した
圧縮用静的辞書中の特定のシンボルを圧縮率への寄与が
最も大きくなるような静的辞書中の他の複数のシンボル
に分解削除することにより、ソーステキストの圧縮容量
の増大を極力抑えながら、元の圧縮用静的辞書の容量を
削減するためのロジックである。記憶装置１１のＲＯＭ
の一部にＣＰＵ１０に処理可能な形式で格納されてい
る。

【００５１】計算・制御手段１７は他の手段を制御しな
がら、記憶装置中のデータを読出してそのロジックを解
釈実行するための手段である。ＣＰＵ１０が対応する機
器となる。

【００５２】以下本発明に固有な１１１〜１１６の各手
段を実施するための方法を述べる。図２は、実施の形態
１に係るテキスト圧縮用辞書作成装置の頻度ガイドライ
ン算出手段の説明図である。

【００５３】図２を参照して、頻度ガイドライン算出手
段の入力は、「静的辞書の予定語数（シンボル数）Ｓ
Ｎ」、「目標圧縮率ＲＴ（０＜ＲＴ＜１）」、「符号化
係数（β、γ）」、「シンボルの最大文字列長Ｎ」であ
り、出力は「目標圧縮率を満たすために必要となる、文
字列長Ｌｉ（ｉ＝Ｎ、Ｎ−１、．．．、２）のシンボル
に対する頻度の最小値Ｇｉ」である。

【００５４】この出力結果を目安とすれば、「長文字列
切出手段」あるいは「効率指標関数値順文字列切出手
段」の入力である「各シンボル長に対する指定頻度値
（＝頻度の最小値）」を与えることができる。

【００５５】文字列長Ｌｉのシンボルに対する頻度の最
小値Ｇｉを算出するための具体的な方法の一例として、
図２に示す「評価条件式（１）」を用い、この条件式を
満たすＧｉを図２の「算出方法」に従って計算する方法
がある。

【００５６】評価式（１）の左辺の分母は、長さＬｉの
特定のシンボルＳがＧｉ回ソーステキスト中に出現する
場合、Ｓがソーステキスト中で占めるバイト数であり、
分子はＳが圧縮されて長さＬ′（＜Ｌｉ）の場合符号
Ｓ′に符号化された場合、圧縮データ中に占めるＳ′の
バイト数を示す。したがって、左辺の値はＳに関する圧
縮率を表しているので、これは入力された「目標圧縮
率」ＲＴ（＝式右辺）以下でなければならない。

【００５７】左辺分子が圧縮データ中のバイト数を示す
理由は以下のとおりである。まず、統計的な圧縮を行な
う場合、シャノンの情報量の定義により、データの出現
確率がｐであればそのデータを識別するためのビット数
は、−ｌｏｇ（ｐ）ビットとなる。ここで、静的辞書に
おけるＳの出現確率は、静的辞書のすべてのシンボルの
頻度の総和Ｆｓｕｍに対するＳの頻度Ｇｉの割合で表わ
される。静的辞書の規模、対象となるソーステキストの
種類に依存するが、静的辞書の規模に応じておおよその
Ｆｓｕｍを与えることができれば、Ｓを識別するための
ビット数、すなわち、統計圧縮手法適用後の理論的な
Ｓ′の符号長は、−ｌｏｇ（Ｇｉ／Ｆｓｕｍ）ビットで
与えられることになる。

【００５８】本手法考案時の種々の実験結果から、３０
０Ｋ〜３Ｍバイトの規模の通常のテキストデータに対し
て、シンボル数が１０Ｋ程度である圧縮用静的辞書の頻
度の総和Ｆｓｕｍは、Ｆｓｕｍ＝α＊ＳＮ、（α＝２０
〜６０程度）であることがわかっている。ここでは、α
の値を「頻度総和係数」と呼ぶ。αの値（すなわちＦｓ
ｕｍの値）をソーステキストから、静的辞書を構成する
前に精度よく推定する方法は困難であるため、ここでは
経験値として特定の値をセットする方式にしている。

【００５９】以上のことから、式（１）の左辺分子第２
項は圧縮テキスト中に占めるＳ′の総バイト数を表わし
ていることがわかる。

【００６０】圧縮テキストを伸長して元のソーステキス
トに戻すためには、静的辞書を用いて圧縮する場合、静
的辞書に対応する伸長用のテーブルが別途必要となる。
伸長用テーブルのサイズは符号化方式に依存するため、
「圧縮伸長モジュール」により異なる。したがって、圧
縮用静的辞書を利用する「伸長モジュール」のデータ構
造から、シンボル１個当りのサーチ用テーブルサイズと
シンボルの文字列を格納する場合サイズとをそれぞれ見
積もっておけば、伸長用データに占めるＳのバイト数が
算出できる。

【００６１】シンボル数１個当りのサーチ用テーブルの
大きさを表わす係数をβ、シンボルの文字列を格納する
ための、文字列長に対するバッファサイズの算出係数を
γとする（β、γは圧縮伸長モジュールが決まれば算出
可能である）と、伸長用データに占めるＳのバイト数
は、左辺分子第１項に示すようにγ＊Ｌｉ＋βとなる。

【００６２】図２の算出方法は、式（１）左辺がＧｉの
単調減少関数であることを利用した単純なアルゴリズム
で、α、β、γをセットした後（２１）、Ｇｉ＝１から
始めて（２２）、式（１）のＧｉに値をセットして実際
に（１）を満たすどうかを計算し（２３）、満たしてい
なければ、Ｇｉを１ずつインクリメントしてＧｉの値が
式（１）を満たすようになるまで処理を繰返す（２
４）。初めて式（１）が満たされるＧｉの値が、Ｌｉに
対する「指定頻度ガイドライン値」である（２５）。

【００６３】この処理を、ｉ＝Ｎからｉ＝２になるまで
繰返して、各シンボル長ごとにＧｉを求め（２６）、こ
れを出力結果とする。

【００６４】このアルゴリズムに従った算出例を図２の
「算出例」に示す。次に、図３を参照して、長文字列切
出手段の実施方法の一例とその処理例を示す。

【００６５】長文字列切出手段の入力は、圧縮対象であ
る固定の「ソーステキスト」、「静的辞書のシンボルの
文字列長最大値ｎ（＞１）」、および「シンボル長ごと
の頻度値Ｇｉ（ｉ＝Ｎ、．．．、２）」である。Ｇｉに
関しては、「頻度ガイドライン算出手段」の結果を目安
の値とすることができるが、Ｇｉ、Ｎの与え方に関して
は基本的に制限はない。

【００６６】長文字列切出手段の出力は、ソーステキス
トを高効率に圧縮するための「圧縮用静的辞書」の一部
である。圧縮用静的辞書のデータ構造は、「シンボルと
その頻度の対」の集合である。このうち長文字列切出手
段によって求められるのは「シンボル長が２以上のシン
ボルとその頻度の対」の集合である。

【００６７】長文字列切出処理においては、静的辞書へ
の登録シンボルのもととなる「文字列長ｉの文字列（以
下ｉ−文字列と表記する）の集合」を求め、頻度を満た
すｉ−文字列の集合をソーステキストから実際に切出し
て、文字列長ｉのシンボルの頻度表ＦＲＱｉを構成す
る。ソーステキストから頻度を満たすｉ−文字列を切取
った残りのテキストの集合ＳＴｉに対して、同様の操作
を繰返しＦＲＱｉ−１、．．．、ＦＲＱ２を順次構成し
ていく。

【００６８】図４を参照して、処理例３Ｃに入力テキス
ト、処理例３Ｄに入力されたシンボルの最大文字列長
ｎ、処理例３Ｅに入力された指定頻度値Ｇ８、．．．、
Ｇ２の例を示す。

【００６９】入力ソーステキストは複数個あっても構わ
ない（すなわち、テキストの集合が処理対象であっても
よい）。ただし、処理対象がテキストの集合で構成され
る場合は、テキストにまたがってのシンボル切出は行な
わない。

【００７０】さて、ｉ＝Ｎから始めて、入力テキストに
対してまずｉ−文字列カウント処理を適用する。ｉ−文
字列カウント処理は、テキストの集合に対して、各テキ
ストごとに行なわれる処理であり、テキストの先頭から
文字列長テキストの末尾（正確にはテキスト長−ｉの位
置）まで１文字ずつ位置をずらしながらｉ−文字列をカ
ウントする処理である。

【００７１】具体的には、図３の右側のフローチャート
に示すように、ｉ−文字列とそのカウント値の対の集合
をＯＣｉ＝｛（ｓｔｒｉｎｇ、ｏｃｃｕｒｒｅｎｃ
ｅ）｝とし、ＯＣｉ＝φ、ｐｏｓ＝０（テキスト先頭位
置）の状態から始めて、ｐｏｓ１を先頭とする長さｉの
文字列ｓｔｒ（ｐｏｓ、ｉ）がＯＣｉに既に登録されて
いればその要素の出現回数値を＋１インクリメントし、
まだ登録されていなければ（ｓｔｒ（ｐｏｓ、ｉ）、
１）を新たにＯＣｉの要素として登録する（３８、３
９、３Ａ）という処理をｐｏｓをカウントアップしなが
ら、テキスト長−ｉの位置にくるまで繰返す（３Ｂ）。
テキストが複数個あれば各テキストに対して同様の処理
を行なう（３６）が、テキスト長がｉより短いテキスト
は処理の対象外である（３７）。

【００７２】この処理により、静的辞書に登録すべき文
字列長ｉのシンボルの候補の集合が求められることにな
る。

【００７３】図４を参照して、処理例で説明すれば、最
初、ソーステキストＳＴに対して、８−文字列カウント
処理により、“ 辞書の本体デー”、“辞書の本体デー
タ”、“書の本体データや”、．．．という、１文字ず
つずらした８−文字列が次々とカウントされながら抽出
される。

【００７４】その結果、ＳＴの他の部分にたとえば、
“辞書の本体データと．．．”、“辞書の本体データ
の．．．”、“辞書の本体データに．．．”のような表
現が出てくれば、“辞書の本体データ”という８−文字
列の出現回数は相当カウントアップされることになり、
“．．．書の本体データや．．．”という表現が処理例
３Ｃに示した“辞書の本体データや．．．”という一箇
所だけにしか出現しなければ“書の本体データや”とい
う８−文字列の出現回数は１のままであることになる。

【００７５】処理例３Ｆは、ＳＴに対して８−文字列カ
ウント処理を行なった出力のＯＣ８である。このような
カウントの仕方で、Ｉ−文字列の集合がもれなく網羅的
に、かつ重複カウントがなく正しく行なわれる。

【００７６】８−文字列カウント処理後、再び長文字列
切出処理に戻る。８−文字列カウント処理の結果生成さ
れたＯＣ８の要素は処理例３Ｆに示すように頻度がＧ８
以上のものでもあれば、Ｇ８未満のものもある。ＯＣｉ
の要素をもとに指定頻度Ｇｉの条件を守りながらＳＴの
頻度表を切出す場合、処理効率の点から、出現回数がＧ
ｉ未満の要素（処理例ｉ＝８の場合（３Ｆ）でいえば、
×印を打った要素に対応する）は予め「切出」処理の対
象から外しておく（３１）。

【００７７】再び図３を参照して、圧縮効率という点か
ら、「なるべく高頻度の（長い）文字列を切出す」とい
うヒューリスティックスに従うため、ＯＣｉを予め出現
回数の大きなもの順にソートしておく（３２）。

【００７８】ＯＣｉの内容を以上のように更新した上
で、対象テキストの集合ＳＴｉ＋１からＯＣｉに登録さ
れている文字列を実際にカウントしながら切出していく
（３３）。

【００７９】ＯＣｉの各要素（ｓ、ｆ）に対するＳＴｉ
＋１「切出し」の処理は以下に従う。

【００８０】各処理対象の文字列Ｔ（ｉ＋１、ｊ）∈Ｓ
Ｔｉ＋１（ｊ＝１、．．．、Ｍｉ＋１）に対して、（１）Ｔ（ｉ＋１、ｊ）の各処理対象文字列の先頭位
置から順にｓに一致する部分文字列を操作する。

【００８１】（２）Ｔ（ｉ＋１、ｊ）の処理対象文字
列＝“…、ｓ、…”。最初のｓが見つかった場合、ｓよ
り前のＴ（ｉ＋１、ｊ）の部分文字列をＴＴ（ｉ＋１、
ｋ）（ｋは見つかるごとにカウントアップする）とし、
ｓの頻度を１だけカウントアップする（初期値０）。

【００８２】ｓが見つからなかった場合ＴＴ（ｉ＋１、
ｋ）＝Ｔ（ｉ＋１、ｊ）と置く。（３）Ｓより後にある部分文字列Ｔ（ｉ＋１、ｊ）を
処理対象の文字列として、（１）（２）の処理を処理対
象文字列がなくなるまで繰返す。

【００８３】（４）Ｔ（ｉ＋１、ｊ）←｛ＴＴ（ｉ＋
１、ｋ）｝として、Ｔ（ｉ＋１、ｊ）を更新する。処理
対象の文字列がｓによって分割された形で登録されるこ
とになる。

【００８４】（５）すべてのＴ（ｉ＋１、ｊ）に対し
て処理した結果、ｓの頻度ｆ′がＧｉ以上であれば、
（ｓ、ｆ′）をＦＲＱｉに登録する。

【００８５】ｆ′＜Ｇｉであれば、ＦＲＱｉには登録せ
ずに、Ｔ（ｉ＋１、ｊ）を切出し前の状態に戻す。

【００８６】ＯＣｉのすべての要素に対して、上記の
（１）〜（５）を行なった後、Ｔ（ｉ、ｋ）＝ＴＴ（ｉ
＋１、ｋ）としてＳＴｉを生成する。

【００８７】図４を参照して、処理例３ＨはＴ（９、
１）＝ＳＴに対して、指定頻度値を満たすＣＯ８を出現
回数順にソートしたもので切出した出力（８−文字列の
頻度表ＦＲＱ８）を表している。

【００８８】ＳＴ（＝ＳＴ９）の先頭部分である“ 辞
書の本体データや検索用のインデックスを記憶…”は、
ＯＣ８の要素“辞書の本体データ”の切出しにより、
“ ”と“検索用のインデックスを記憶…”という部分
に分けられ、これらの分けられた新たな処理対象テキス
トは、さらに、ＯＣ８の要素“のインデックスを”の切
出しによって、“ ”、“検索用”、“のインデックス
を”、“記憶…”に分けられる。

【００８９】ＯＣ８のすべての要素に対する切出処理後
の「切残しテキスト」が次回ＯＣ７（３Ｉ）の切出し対
象の処理対象テキストＳＴ８＝｛Ｔ（８、ｊ）｝になる
（３Ｇ）。

【００９０】切残しテキストに対するｉ−文字列カウン
ト処理と切出処理をｉ＝ｎ、…、２まで繰返し（３
４）、その後、ＦＲＱｉの集合を結合して２文字列長以
上の頻度表と、切残しテキストの集合ＳＴ２が生成され
る（３５）。図５で、処理例を（３Ｊ、３Ｋ）に示す。

【００９１】次に、図８を参照して、１文字シンボル抽
出手段の実施方法の一例を説明する。

【００９２】１文字シンボル抽出手段の入力は、文字列
切出し操作により切残されたテキストの集合、出力は、
入力テキストに対してその中に含まれる文字単位の頻度
表である。

【００９３】この処理は、処理対象のテキストの集合Ｔ
に対して、１−文字カウント処理を適用し（５１）、そ
の結果生成される（１−文字シンボル、出現回数）の対
の集合をそのまま処理結果の頻度表ＦＲＱ１とすればよ
い。

【００９４】長文字列切出手段により生成した頻度表Ｆ
ＲＱと、切残しテキストに対して１文字シンボル抽出手
段により抽出した頻度表ＦＲＱ１とを結合すれば、最終
結果である圧縮用静的辞書ＳＤが求められる。

【００９５】ＳＤ＝ＦＲＱ＋ＦＲＱ１次に、図６を参照して、「効率指標関数値順文字列切出
手段」の実施方法の一例とその処理例を示す。

【００９６】効率指標関数値順文字列切出手段の入出力
は、「長文字列切出手段」と同じで、入力は、圧縮対象
である固定の「ソーステキスト」と、「静的辞書のシン
ボルの文字列最大長ｎ（＞１）」と、「シンボル長ごと
の指定頻度値Ｇｉ（ｉ＝ｎ、…２）」とであり、出力
は、ソーステキストを高効率に圧縮するための「シンボ
ル長が２以上の圧縮用静的辞書」である。

【００９７】「長文字列切出手段」が、ソーステキスト
からなるべく長い文字列を順に切出すための手法である
のに対して、「効率指標関数値順文字列切出手段」は、
単に文字列長だけを指標とするのではなく、出現回数も
考慮に入れた何らかの圧縮効率指標を表わす関数を予め
用意して、この関数値の大きいもの順に静的辞書のシン
ボルを切出していくための方式である。

【００９８】この方式では、たとえば文字列長が長く頻
度の低いものを切出すより、文字列長が短く頻度の高い
ものを切出した方が圧縮効率がよくなるといった場合を
想定している。

【００９９】効率指標を正確に与える関数を見い出すこ
とは困難な問題である。これは、静的辞書の切出処理が
終わらないとすべてのシンボルに対する出現回数の総和
がわからない（すなわち正確な出現確率がわからない）
ので、切出処理の途中で算出されるシンボル候補の文字
列の「文字列長Ｘ」とその「出現回数Ｙ」だけから、そ
の文字列の正確な圧縮効率を予想するのが難しいことに
よる。

【０１００】しかしながら、圧縮効率のおおよその指標
を与えることはできる。おおよその圧縮効率を与える関
数の例を以下に示す。

【０１０１】１つのシンボル候補の文字列長Ｘ、出現回
数Ｙの文字列の、圧縮後の符号長の総和Ｓは、切出後の
出現頻度の総和をＦＳｕｍとすると、Ｓ＝−Ｘｌｏｇ２
（Ｙ／ＦＳｕｍ）で表わすことができる。

【０１０２】１シンボルの圧縮効率を、「元の文字列長
の総和と圧縮後の符号長の総和の差が大きいもの」とみ
なすと、Ｆ（Ｘ、Ｙ、ＦＳｕｍ）＝Ｘ＊Ｙ−Ｓ＝Ｘ＊Ｙ
＋Ｘ＊ｌｏｇ２（Ｙ）−Ｘ＊ｌｏｇ２（ＦＳｕｍ）と記
述できる。

【０１０３】ここで、ＦＳｕｍを、理論的には正しくな
いが、「どのように切出してもほぼ一定」として現実の
計算において丸めこめば、αを定数として、Ｆ（Ｘ、
Ｙ、ＦＳｕｍ）＝Ｘ＊（Ｙ＋ｌｏｇ２（Ｙ）−α）≒Ｘ
＊（Ｙ＋ｌｏｇ２（Ｙ））とみなされるから、Ｆ（Ｘ、Ｙ）＝Ｘ＊（Ｙ＋ｌｏｇ２（Ｙ））を、おおよその圧縮効率指標を与える関数とすることが
できる。その他、もっと精度の高い観点から作成した関
数を圧縮効率指標関数であるとしてもよいし、あるい
は、場合によっては、Ｆ（Ｘ、Ｙ）＝Ｘ＊Ｙとして、ソ
ーステキストに占める文字数の多いもの順に切出しても
効率のよい切出しができる場合がないとは限らない。

【０１０４】処理手順では、圧縮効率指標関数を特に定
めずに説明を進める。ソーステキストＳＴ、ｉ−文字列
の指定頻度をＧｉ、シンボルの最長文字列長をｎ、ｎか
ら２までのｉ−文字列カウント処理の結果をＯＣ、ＯＣ
を効率指標関数値順にソートしたものをＯＣＣ、ＳＴを
ＯＣＣで切出して生成される頻度表をＦＲＱ、切残され
たテキストの集合をＳＴｒと置く。

【０１０５】ｉ＝ｎから始めて、ＳＴに対するｉ−文字
列カウント処理をｉ＝２まで繰返し（４１、４２）、求
めたＯＣｎ、ＯＣｎ−１、．．．、ＯＣ２を結合して
（単純な集合の和）、ＯＣを用意する（４３）。

【０１０６】次に処理効率の観点から、ＯＣの要素
（ｓ、ｏ）で指定頻度の条件ｏ≧Ｇ｜ｓ｜を満たさない
要素は除去する（４４）。

【０１０７】さて、ＯＣの要素（ｓ、ｏ）に対して、文
字列ｓの圧縮効率指標はＦ（ｓ、ｏ、．．．）で表わさ
れる。各（ｓ、ｏ）の出現回数ｏをＦ（ｏ、
ｓ、．．．）に置き換えたものをＯＣＣとし（４５）、
ＯＣＣをＦ（ｏ、ｓ、．．．）の降順、ｓの効率指標関
数値順にソート（４６）した上で、図３の（３４）の処
理と同様の方法で、ＳＴからＯＣＣの要素を順に切出し
ＦＲＱとＳＴｒを求める（４７）。

【０１０８】次に、図７を参照して、処理例に沿って
「効率指標関数値順文字列切出手段」の流れを説明す
る。ここでは、説明をわかりやすくするためにＦ（Ｘ，
Ｙ）＝Ｘ＊Ｙという単純な効率指標関数を例にとる。

【０１０９】図７の処理例のソーステキストＳＴ、シン
ボル最大長ｎ、指定頻度Ｇｉはそれぞれ図３と同じであ
る。ＳＴの先頭から｜ＳＴ｜−８の位置まで１文字ずつ
ずらしながら８−文字列をカウントしたものがＯＣ８
で、ここまでは「長文字列切出処理」と同じ結果であ
る。

【０１１０】「長文字列切出処理」ではこの後、ＳＴを
ＯＣ８で切出し、８−文字列の頻度表と切残しテキスト
ＳＴ８を生成し、その後も切残しテキストに対して切出
し−切残しの処理を繰返す。これに対して、「効率指標
関数値順文字列切出手段」では、「文字列長によらず、
効率指標関数値の大きいシンボルを見い出す」という戦
略をとるため、ＯＣ８でソーステキストを切出すプロセ
スは行なわず、最初にソーステキストからすべてのＯＣ
ｉ（ｉ＝ｎ、．．．、２）を作成、結合した上で、効率
指標関数値順にソートする。

【０１１１】したがって、ＯＣ７以降のカウント処理で
はＯＣ８の場合と同様に、ＳＴの先頭から末尾までｉ−
文字列のカウントが行なわれる（４８）。ＯＣｉを結合
し、指定頻度を満たさないものを削除し、効率指標関数
値順にソートしたＯＣＣの一部を処理例４９に示す。

【０１１２】ＯＣＣの中の、８−文字列“のインデック
スを”という文字列は、効率指標関数値が６４（＝８＊
８）である。これに対して、６−文字列“インデック
ス”という文字列は他の部分でも頻出するため、効率指
標関数値が２３９４（＝３９９＊６）になる。

【０１１３】このように、「効率指標関数値順文字列切
出手段」では「長文字列切出処理」で切出された“のイ
ンデックスを”より先に“インデックス”が切出される
という場合が起こり得る。その結果、“のインデックス
を”を切出すときは既に処理対象テキストから“のイン
デックスを”を含むテキストは残っておらず、ＦＲＱに
はシンボルとしては登録されず（４Ａ）、最初の文字
“の”と最後の文字“を”はそれぞれ切残しテキストＳ
Ｔｒに残る（４Ｂ）。この場合、「長文字列切出処理」
よりも“インデックス”に対する頻度が大きくなり“イ
ンデックス”に対する符号長は短くなる。

【０１１４】「効率指標関数値順文字列切出手段」によ
り生成されたＳＴｒは、「長文字列切出手段の場合と同
様に、「１文字シンボル抽出手段」により１文字頻度表
化され、これと２文字以上のシンボルの頻度表ＦＲＱの
和により最終的な静的辞書を得る。

【０１１５】さて、これまではテキストから静的辞書を
切出す方法についての具体化手順を与えた。それには２
種類の方法があり、請求項１を実施するための手段は
「長文字列切出手段」と「１文字シンボル抽出手段」を
組合せることにより、また、請求項２を実施するための
手段は「効率指標関数値順文字列切出手段」と「１文字
シンボル抽出手段」を組合せることにより実現できるこ
とを示した。

【０１１６】しかしながら、これらの手段で構成した静
的辞書のサイズはソーステキストの内容により異なり、
基本的には「切出処理」を実行して実際に静的辞書を構
築してみないとそのサイズを正確に求めることはできな
い。

【０１１７】もし、圧縮伸長モジュールを実現する側で
伸長用テーブル（静的辞書をもとにして構成する、静的
辞書サイズに比例したサイズのテーブル）のサイズに制
限があって、１回の「切出処理」で求めた静的辞書のサ
イズがこの制限を満たさない場合は、サイズのより小さ
な静的辞書を構成する必要がある。

【０１１８】またそのような制限がなくても、「静的辞
書法」を用いる場合は必ず伸長側で「静的辞書」に対応
する固定の伸長テーブルを持たなければならないので、
圧縮率に大きく影響するようなサイズの静的辞書を生成
することは避けなければならない。

【０１１９】このような観点から、請求項３、請求項４
はソーステキストの圧縮率をあまり損ねることなく、静
的辞書のシンボル数を減らすための適切な手段を提供す
るものとなっている。

【０１２０】静的辞書のシンボル数を削減する単純な方
法には、２文字以上の長文字シンボルで頻度の低いもの
を１文字シンボルに分解して、元からある１文字シンボ
ルとマージする方法がある。

【０１２１】たとえば、（“辞書本体”、４）、
（“辞”、１６）、（“書”、１６）、（“本”、３
２）、（“体”、８）という静的辞書の要素に対して、
（“辞書本体”、４）というエントリを削除したい場
合、“辞書本体”というシンボルを１文字ずつに分解し
て（“辞”、４）、（“書”、４）、（“本”、４）、
（“体”、４）を元からあった静的辞書の要素とマージ
（シンボルの頻度の和をとって静的辞書の要素を更新す
ること）して、（“辞”、２０）、（“書”、２０）、
（“本”、３６）、（“体”、１２）を得る。この方法
は、１文字シンボルの頻度数が増加するので１文字シン
ボルの符号化コードはもとより短くなる場合があるが、
通常１文字シンボルは頻度数が大きく、頻度が多少増え
ても符号長が変化するに至らない場合も多い。

【０１２２】これに対してたとえば“辞書の本体デー
タ”というシンボルが“辞書の”という他のシンボルと
“本体データ”という他のシンボルに分解することがで
きれば、それぞれの“辞書の”、“本体データ”という
もともとのシンボルの頻度数があまり大きくない場合、
分解によって頻度を増やした分、それぞれのシンボルの
符号長が短くなる確率が高い。

【０１２３】削減対象となったシンボルＳの符号化長を
Ｌ、シンボルＳを分解しシンボルＳ１、Ｓ２の和により
分解・削除し、静的辞書を上述の方法で更新したときの
Ｓ１、Ｓ２の符号化長をＬ１、Ｌ２とする。このとき大
抵はＬ１＋Ｌ２＞Ｌであり、分解した符号長の和の方が
元の符号長より小さくなる場合は稀である。

【０１２４】したがって、通常シンボル数を削減すると
伸長用テーブルの容量は確実に減少するが、圧縮データ
の容量は少し増加する。

【０１２５】しかしながら、分解シンボルの個数が少な
いほど、また分解個数は同じでも、何通りかの分解の仕
方が存在するときはより効率的な分解の仕方を選ぶこと
により、ソーステキストの圧縮率の増加を極力抑え込む
ことができる。

【０１２６】図９および図１０を参照して、「シンボル
削除のための文字列切出手段」の実施の方法の一例とそ
の処理例を説明する。これにより請求項３の要件を実現
することができる。

【０１２７】「シンボル削除のための文字列切出手段」
の入力は既に求められた、ソーステキストに対する「圧
縮用静的辞書」と「静的辞書内の削除したい要素」であ
り、出力は「ソーステキストの圧縮効率の低下を極力抑
え込んだ形で、削除対象要素を削除した新しい圧縮用静
的辞書」である。

【０１２８】以下では説明の便宜上、１文字シンボルが
ソーステキストのすべての文字種をカバーしている場合
について述べる。

【０１２９】「シンボル削除のための文字列切出手段」
では、シンボル長の降順にソートされた、削除対象要素
よりも短いシンボルの集合により、削除対象要素のシン
ボルに「文字列切出処理」を適用する。すなわちここで
は、分解方法として分解シンボルの集合になるべく長い
シンボルを含ませるという戦略を用いる。

【０１３０】処理方法は削除要素１個に対する処理手順
が記述されている。複数個一度に削除したい場合は、こ
の処理手順を個数分繰り返せばよい。

【０１３１】まず、静的辞書ＳＤから削除対象要素（ｓ
ｉ、ｆｉ）を取り除き（６１）、削除対象のシンボル長
ｐよりシンボル長が短い要素からなる静的辞書の部分集
合ＬｏｗＰをシンボル長の降順にソートしておく（６
２）。

【０１３２】ｓｉからＬｏｗＰの各要素を順に切出し
て、ｓｉの分解文字列の集合ＦＲＱを生成する（６
３）。このとき、一般にｓｉの切残しテキストが生じる
可能性があるが、静的辞書に登録されている１文字シン
ボルは、ここではソーステキストのすべての文字種をカ
バーしていると仮定しているので、すべて、元の静的辞
書のシンボルにより分解されることになる。

【０１３３】この仮定を外すと、切残しテキストが生じ
るので、切残しテキストが生じるような削除対象に関し
てはこの手法は適用できない。なお、実際は、数メガと
いうサイズの大きなソーステキストでは１文字シンボル
がソーステキストのほとんどの文字種をカバーするの
で、ほとんどのシンボルがこの手法によって削除でき
る。

【０１３４】ＦＲＱはＳＤ１の部分集合により切出され
たものであるから、ＦＲＱの各要素のシンボルと同一の
シンボルを持つ要素は必ずＳＤ１に存在する。このよう
なＳＤ１の要素に対して、削除シンボル（ｓｉ、ｆｉ）
の頻度ｆｉ分だけその頻度を増やせば、ソーステキスト
はＳＤ１により切出されたのと同じことになる。

【０１３５】これが、ＦＲＱの各要素（ｓ′、ｆ′）と
シンボルが共通するＳＤ１の要素（ｓ′、ｆ）の頻度を
ｆ′＊ｆｉ増やす（６４）ことの意味である。

【０１３６】すべての分解シンボルの頻度を削除シンボ
ルの分だけ増やして更新したＳＤ１が本処理の最終結果
ＳＤｒｅｄｕｃｅとなる（６５）。

【０１３７】静的辞書ＳＤ（６６）からＳＤの要素
（“のインデックスを”、８）を削除する場合を処理例
に示す。

【０１３８】ＳＤ１は最初はＳＤから（“のインデック
スを”、８）を単純に除去したもの（６７）であり、Ｌ
ｏｗＰは文字列長７以下のシンボルを持つ要素のみから
なるＳＤ１の部分集合（６８）である。切出しの対象テ
キストが削除対象要素のシンボルの“のインデックス
を”（６９）である。

【０１３９】対象テキストＬｏｗＰで切出した結果をＦ
ＲＱ処理例６Ａに示す。“のインデックスを”から、ま
ず“インデックス”が次いで切残しテキストから“の”
と“を”がそれぞれ頻度１で切出される。

【０１４０】最終結果ＳＤｒｅｄｕｃｅ（６Ｂ）は、Ｓ
Ｄ１の対応要素（“の”、２４６８）、（“インデック
ス”、３８８）、（“を”、１２３４）の頻度をそれぞ
れ１＊８ずつ増やしたものである。

【０１４１】図１１、図１２、および図１３を参照し
て、より高度なシンボル削除手段である「シンボル分解
手段」の実施方法の一例とその処理例を説明する。

【０１４２】「シンボル分解手段」の入出力は「シンボ
ル削減のための文字列切出手段」と同じである。すなわ
ち、入力は「圧縮用静的辞書」と「静的辞書内の削除し
たい要素」、出力は「削除更新後の静的辞書」である。

【０１４３】「シンボル分解手段」では文字列切出しの
手法は使わず、任意の位置で削除対象文字列を分解した
とき、分解されたそれぞれの文字列が静的辞書のシンボ
ルとして登録されているどうかを調べるというアプロー
チをとる。

【０１４４】このようなアプローチをとることにより、
「シンボル削減のための文字列切出手段」では処理後に
しかわからなかった分解個数を予め指定できるととも
に、複数通りの分解候補からソーステキストの圧縮率に
最も貢献するものを選択することができるので、圧縮率
の低下防止の観点からはより効率的な削除処理が可能と
なる。

【０１４５】しかしながら、一方で、「シンボル削減の
ための文字列切出手段」では分解できていたシンボル
が、分解個数制限のために分解できなくなる場合が増え
るため、削除個数のコントロールが難しくなるのも事実
である。

【０１４６】図１１を参照して、処理方法をフローチャ
ートに沿って説明する。圧縮効率を考慮して、この処理
例では分解個数を２とする。３以上の分解個数に対する
アルゴリズムも多少の拡張で実施可能であるが、２の場
合よりも圧縮効率が低下すること、処理時間が指数関数
的に増加することを考え合せれば分解個数２の場合が実
用的であると考えられる。

【０１４７】まず、静的辞書ＳＤから削除対象要素
（ｓ、ｆ）を取り除く（７０）。次に、削除対象シンボ
ルｓ（シンボル長をＮとする）に対してｓの分解方法の
候補の集合Ｃを求める。

【０１４８】ｓの文字と文字の境界位置を先頭から順に
１、…ｉ、…、Ｎ−１とし、ｓを、ｓの先頭からｉまで
の部分文字列ｓ１ｉと、ｉから末尾までの部分文字列ｓ
２ｉに分解する（７２）。

【０１４９】ここで、ｓ１ｉ、ｓ２ｉをシンボルとする
ＳＤの要素（ｓ１ｉ、ｆ１ｉ）と（ｓ２ｉ、ｆ２ｉ）が
あれば（７３）、ｓは静的辞書の他のシンボルで分解で
きることになるので、（（ｓ１ｉ、ｆ１ｉ）、（ｓ２
ｉ、ｆ２ｉ））をｓの分解方法の１つ（１ｉでの分解）
としてＣに登録する（７４）。

【０１５０】ｉ＝１〜Ｎ−１までこの操作を繰返し（７
１）、分解候補集合Ｃを生成する。ここでＣ＝空集合の
場合（７７）は、ｓは２個のシンボルには分解できない
のでこの処理は失敗する（７８）。Ｃ≠空集合ならば
（７７）、Ｃの要素中から圧縮効率のよい分解シンボル
の候補を選択する処理Ｂ（７５）に入る。

【０１５１】図１３を参照して、選択処理では、Ｃの各
要素に対して圧縮効率のおおよその指標を与える計算式
によりその効率指標Ｅを計算し（７５０）、その中から
最も効率指標の値の大きい要素を取出す（７５１）。

【０１５２】ここで（７５０）の計算式は、効率指標＝Σ（削除対象シンボルの頻度）／（分解シンボルの頻度）…（２）である。

【０１５３】削除後に、削除対象シンボルの頻度数Ｄだ
け、元の静的辞書の分解シンボルの各頻度Ｆｉを増加さ
せるので、頻度の総和Ｓｕｍは削除の前後で変化しな
い。削除前後における各分解シンボルのビット数は、分
解前が−ｌｏｇ（Ｆｉ／Ｓｕｍ）ビット、分解後が−ｌ
ｏｇ（（Ｆｉ＋Ｄ）／Ｓｕｍ）ビットであるから、ビッ
ト数の減少分は、 −ｌｏｇ（Ｆｉ／Ｓｕｍ）−（−ｌｏｇ（（Ｆｉ＋Ｄ）
／Ｓｕｍ））＝ｌｏｇ（１＋Ｄ／Ｆｉ）となる。

【０１５４】ｌｏｇ（１＋Ｄ／Ｆｉ）はＤ／Ｆｉに比例
するから、結局Ｄ／Ｆｉの和の大きいものが全体のビッ
ト減少幅の大きい、すなわち圧縮効率が高いものとな
る。これが式（２）の意味である。

【０１５５】再び図１１を参照して、こうして選択され
た最も効率指標の大きいＣの要素に対して、実際にＳＤ
の中でその頻度を削除要素の頻度数分増加させ、最終的
な削除後の静的辞書を得る（７６）。

【０１５６】図１２を参照して、処理例７９に静的辞書
ＳＤを、処理例７Ａに削除対象文字列とその分解位置
を、また、処理例７Ｂに分解候補集合Ｃの例を示す。

【０１５７】ＳＤの内容を見ると、分解位置３で分解し
た場合と分解位置５で分解した場合に、それぞれの分解
シンボルと同一のシンボルを持つ要素がＳＤ内に存在す
るので、Ｃには分解シンボルのペアが２つ登録される。

【０１５８】処理例７Ｃに、Ｃの２つの要素についてそ
れぞれ効率指標を計算した結果を示す。効率指標は最初
の要素の方が大きいので分解シンボルとしては、最初の
要素が選ばれ、削除対象文字列“辞書の本体データ”は
“辞書の”と“本体データ”に分解されることになる。

【０１５９】ＳＤから（“辞書の本体データ”、１０）
を削除する代わりに、（“辞書の”、８）、（“本体デ
ータ”、８）の頻度をそれぞれ１０だけ増加させて、削
除後の静的辞書ＳＤｒｅｄｕｃｅ（７Ｄ）を得る。

【０１６０】以上のように、実施の形態１に係るテキス
ト圧縮用辞書作成装置によれば、大容量の固定のテキス
トデータが必要となる装置（電子辞書や電子ブックな
ど）において、テキストデータに対する優れた圧縮用静
的辞書を提供することができる。

【０１６１】本装置により構築した圧縮用静的辞書をも
とにテキストデータを圧縮・伸長するモジュールを作成
すれば、メモリ容量を大幅に削減して製品のコストダウ
ンを図ることができる。

【０１６２】また本装置により提供される圧縮用静的辞
書自体のサイズ（エントリ数）を、ソーステキストの圧
縮率をあまり落とさずに、細かく調整できる。この結
果、実際に製品に圧縮伸長モジュールを搭載する場合の
メモリ容量のコントロールが柔軟に行なえ、より迅速な
製品開発が可能となる。

【０１６３】［実施の形態２］図１４は、実施の形態２
に係るテキスト圧縮装置の全体構成説明図である。基本
的構成は、実施の形態１に係るテキスト圧縮用辞書作成
装置の構成と共通しており、同一の要素には同一の符号
を付している。以下、共通する要素については説明を省
略し、固有の要素について説明する。

【０１６４】構成要素ごとの辞書作成手段２１１は、入
力されたソーステキストに対して、ソーステキストの各
構成要素ごとに静的辞書、符号化表、および切換対応表
を生成するためのロジックであり、記憶装置１１のＲＯ
Ｍの一部にＣＰＵ１０に処理可能な形式で格納されてい
る。

【０１６５】辞書切換圧縮・伸長手段２１２は、「構成
要素ごとの辞書作成手段」により作成した構成要素ごと
の符号化表を切換えながらソーステキスト圧縮・伸長す
るためのロジックであり、記憶装置１１のＲＯＭの一部
にＣＰＵに処理可能な形式で格納されている。

【０１６６】共有辞書作成手段２１３は、入力された複
数の辞典テキストに対して、各辞典に共通なテキストの
構成要素を集め、各構成要素ごとに各辞典が共有する静
的辞書、符号化表、辞書ごとの切換対応表を作成するた
めのロジックであり、記憶装置１１のＲＯＭの一部にＣ
ＰＵ１０に処理可能な形式で格納されている。

【０１６７】共有辞書切換圧縮・伸長手段２１４は、
「共有辞書作成手段」により作成した構成要素ごとの静
的辞書を各辞典ごとに用意された切換対応表に従って切
換ながら、ソーステキストを圧縮・伸長するためのロジ
ックであり、記憶装置１１のＲＯＭの一部にＣＰＵ１０
に処理可能な形式で格納されている。

【０１６８】オフセット置換圧縮手段２１５は、静的辞
書には登録されなかった局所的な高頻度語を導入シンボ
ル、出現位置、文字列長で置換することにより辞典ソー
ステキストを圧縮するためのロジックであり、記憶装置
１１のＲＯＭの一部にＣＰＵ１０に処理可能な形式で格
納されている。

【０１６９】オフセット置換伸長手段２１６は、「オフ
セット置換圧縮手段」により圧縮されたデータを伸長し
て、元のソーステキストに復元するためのロジックであ
り、記憶装置１１のＲＯＭの一部にＣＰＵ１０に処理可
能な形式で格納されている。

【０１７０】番号置換圧縮手段２１７は、静的辞書には
登録されなかった局所的な高頻度語を導入シンボルと番
号とで置換することにより辞典ソーステキストを圧縮す
るためのロジックであり、記憶装置１１のＲＯＭの一部
にＣＰＵ１０に処理可能な形式で格納されている。

【０１７１】番号置換伸長手段２１８は、「番号置換圧
縮手段」により圧縮されたデータを伸長して、元のソー
ステキストに復元するためのロジックであり、記憶装置
１１のＲＯＭの一部にＣＰＵ１０に処理可能な形式で格
納されている。

【０１７２】以下、本発明に固有な各手段を実施するた
めの方法を述べる。図１５は、構成要素ごとの辞書作成
手段の説明図である。「構成要素ごとの辞書作成手段」
の入力は、複数個の記述部分から構成されるテキストで
あり、辞典では英和辞典の意味テキスト（見出し以外の
部分）が代表的な例である。

【０１７３】「構成要素ごとの辞書作成手段の出力は、
構成要素ごとに作成された静的辞書と符号化表、および
切換対応表（切換シンボルと切換シンボルの出現直後に
セットされる符号化表の対）である。ここで、切換シン
ボルとは、静的辞書中に登録されている、テキスト中の
構成要素と構成要素を区切るための文字列（シンボル）
を示す。

【０１７４】処理の第１段階において、まず、入力テキ
ストの構成要素間を区切る文字列が特定できる場合は、
その文字列を区切り記号として、どの構成要素とどの構
成要素を区切るかという情報とともにＲＡＭ上に記憶す
る。構成要素間を区切る明確な文字列が特定できない場
合は、入力テキスト中には決して出現しない適当な文字
列を区切り記号としてテキスト中に挿入し、その区切り
記号と区切られる構成要素をＲＡＭ上に記憶する（２２
０）。

【０１７５】区切り記号によって区切られたソーステキ
スト、区切り記号が前方の構成要素に含まれるように分
割し、複数個のサブテキストを生成する（２２１）。

【０１７６】分割されたサブテキストごとに独立に静的
辞書（可変長シンボルとその出現頻度の対）を切出す。
テキストから１つの静的辞書を切出すための方式につい
ては、前述したとおりここでは、前提となる方式である
ものとして、詳述はしない。

【０１７７】実現方法の１つとしては、テキストの先頭
から末尾まで１文字ずつ先頭位置をずらしながらｉ文字
列長の文字列の出現回数をカウントし、これをソートし
て圧縮率に貢献する頻度を持つ文字列のみをテキストか
ら切出し実際の頻度に計算し、これを静的辞書に登録す
るとともに、切残されたテキストに対して同様に（ｉ−
１）文字列長の文字列に対して処理を行ない、これをｉ
＝Ｎ〜１まで繰返すという手順がある。ここでは、静的
辞書に登録されるシンボルに必ず区切り記号を含めてお
く必要があるため、静的辞書を切出す前に、対象となる
サブテキストから、まず区切り記号だけを静的辞書のシ
ンボルとして切出した後、切残されたサブテキストから
上述のような方法を使って他のシンボルを切出すことに
よって各構成要素ごとの静的辞書を構築する（２２
２）。

【０１７８】静的辞書をもとに、対象テキスト圧縮伸長
する方法には既知なものがいくつか存在する。ここで
は、静的辞書から各シンボルに割り当てられる符号（圧
縮データのビット列）を求め、シンボルと符号の対から
なる符号化表を作成し、符号化表を参照しながら圧縮・
伸長を行なう手法を例にとって以降の説明を行なう。

【０１７９】ただし、本発明に関しては符号化手法はそ
れが統計ベースのものであれば何でもよく、本質的な問
題ではない。PRENTICE HALL Advanced Reference Serie
s,“Text Vompression", 1991 などに記述された方法
で、各静的辞書から構成要素ごとに符号化表を作成し、
これをＲＯＭに記憶しておく（２２３）。

【０１８０】静的辞書中には、区切り記号がシンボルと
して登録されているが、この区切り記号のシンボルをこ
こでは「切換シンボル」と呼び、予めＲＡＭに記憶して
おいた「区切り記号とそれにより区切られる構成要素の
対」の情報をもとに、「切換シンボルとその直後の構成
要素の符号化表の対」すなわち、「切換対応表」を作成
しこれをＲＯＭに記憶しておく（２２４）。

【０１８１】次に、図１６〜図２１を参照して、構成要
素ごとの辞書作成手段による処理例を処理例２２５以下
に示す。処理例２２５は、英和辞典の意味テキストの一
部で、“ｐａｃｅ”という項目に対応する付近の内容を
示している。テキストは、各項目の先頭から、「発音記
号（“［ｐｅｉｓ］”）」、「訳（“［な］、…、ある
く”）」、「例文（“ａｔａ、…、歩調で”）」、
「変化形（“［な］［ふく、…、ｐａｃｉｎｇ”）」の
各記述部分が順に出現する。

【０１８２】このうち、発音記号、変化形は文字を構成
するコード種が他とは異なっているので、別々の静的辞
書を用意しておく方が効率的に圧縮できる。また、訳の
文と例文内の日本語訳の部分は「日本語テキスト」とし
て、例文内の英語部分は「英語テキスト」として別個に
圧縮した方が、やはりそれぞれのコード種が大きく異な
るため、圧縮効率は良くなる。これに従って、たとえ
ば、「日本語」「英語」「発音記号」「変化形」の各構
成要素にテキストを分割する。

【０１８３】処理例２２６に、処理例２２５のテキスト
を「日本語」「英語」「発音記号」「変化形」の各構成
要素に区切るために区切り記号を特性あるいは挿入した
状態を示している。

【０１８４】「発音記号」に関しては、“］”が出現し
た時点で「日本語」テキストに切換わる。これは始めか
らテキスト内に区切り記号が存在する例である。「訳」
に関しては、すべて「日本語」テキストとして処理し、
区切記号として挿入した文字列“●”が出現した時点で
「英語」テキストに切換わる。「例文」に関しては、例
文内で「日本語」テキストに切換わる部分と「変化形」
テキストに切換わる部分にそれぞれ“＼”、“＾”の区
切り記号を表わす文字列が挿入されている。

【０１８５】処理例２２７に、処理例２２６のテキスト
を実際の「日本語」「英語」「発音記号」「変化形」の
各構成要素ごとに分割して構成要素ごとにまとめたサブ
テキストの例を示す。このようにして同種のコードが多
く含まれるように圧縮対象テキストを分割しておいた上
で、各テキストに対して静的辞書を作成する。処理例２
２８に「日本語」「英語」「発音記号」「変化形」の各
テキストごとに作成された「静的辞書」の例を示す。こ
こで、各静的辞書には、それぞれのソーステキストに含
まれていた区切り記号がそのままの形で「切換えシンボ
ル」として含まれている必要がある。発音記号用静的辞
書中のシンボル“］”、日本語テキスト用静的辞書中の
シンボル“●”、“＾”、英語テキスト用静的辞書中の
シンボル“＼”が切換えシンボルとして扱われるもので
ある。

【０１８６】処理例２２Ａに、これらの切換えシンボル
と、切換えシンボルが出現した直後から次のどの符号化
表を使って圧縮伸長を行なわねばならないかを示す「切
換え対応表」の作成例を示す。

【０１８７】処理例２２９は処理例２２８で作成した構
成要素ごとの静的辞書をもとに、周知の方法で符号化ビ
ット列を求めることにより作成した、「構成要素ごとの
符号化表」の例である。統計情報に基づく符号化表で
は、出現確率の高いシンボルには短いビット列が、また
出現確率が低いシンボルには長いビット列が割り振られ
ることになる。たとえば「日本語テキスト用静的辞書」
中で頻度の高い“（１）”、“●”には短いビット列
が、また頻度が低い“ゆっくり”には長いビット列が割
り振られている。

【０１８８】構成要素ごとにテキストを分割した上で静
的辞書を用意する場合と、テキスト全体を対象とした１
つの静的辞書のみを用意する場合の圧縮効率の違いを処
理例２２Ｂ、処理例２２Ｃに示す。

【０１８９】たとえば、変化用静的辞書中のシンボル
“［３単］−ｓ”は、変化形テキストに対する場合で
も、テキスト全体に対する場合でもその出現頻度は変わ
らないが、変化形テキスト内での出現確率は、テキスト
全体における出現確率よりはるかに大きいため、出現確
率から求められる“［３単］−ｓ”の理論上の符号長に
は大きな差ができる。

【０１９０】このように、テキストをうまく分割すれば
各々のシンボルの符号長が短くなり、圧縮テキストデー
タ自体はかなり小さくなる。反面、分割テキストごとに
複数個の静的辞書（符号化表）を用意しなければならな
いので、静的辞書のサイズが増大することになる。一般
的には、テキストが巨大な場合（１Ｍバイト前後以上）
は、たとえ静的辞書のサイズが増えてもテキスト自体の
圧縮効率がそれを補うため、全体としての圧縮率が改善
される場合が多い。図２２に辞書切換圧縮伸長手段の実
現例を示す。

【０１９１】辞書切換圧縮伸長手段の入力は、区切り記
号によって明確に区切られた複数の構成要素からなるソ
ーステキスト（または圧縮されたデータ）、構成要素ご
との辞書を作成手段により作成された構成要素ごとの符
号化表および切換対応表である。辞書切換圧縮伸長手段
の出力は符号化表と切換対応表に基づいて符号化表を切
換えながら圧縮伸長した結果の圧縮データまたは復元さ
れたソーステキストである。

【０１９２】符号化表に基づく具体的な圧縮伸長方法に
ついては、符号化方式自体は既知なものであるので説明
を省略し、「複数の符号化表をいかにして切換えながら
圧縮伸長を進めるか」という本発明に固有の部分につい
て処理手順を説明する。

【０１９３】まず圧縮（伸長）開始時にセットされる符
号化表を定める（３３０）。どこからどんな部分を伸長
するかにより、開始時にセットされる符号化表が異な
る。たとえば処理例２２６の項目“ｐａｃｅ”に対応す
る意味テキストの先頭からの末尾までを圧縮する場合に
は、最初に“発音記号の符号化表”をセットしておく。

【０１９４】次に、現在セットされている符号化表をも
とに、１シンボル分の圧縮（伸長）処理を行ない（３３
１）、処理されたシンボルば圧縮（伸長）終了を示すシ
ンボルであれば圧縮（伸長）を終え、そうでなければそ
のシンボルが切換シンボルとして切換対応表に登録され
ているか否かを調べる（３３２、３３３）。切換シンボ
ルであれば切換対応表に従って次からの圧縮（伸長）に
用いる符号化表をセットした上で次のシンボルの圧縮
（伸長）に移り、切換シンボルでなければそのまま現在
セットされている符号化表を使って次のシンボルの圧縮
（伸長）を行なう（３３４）。伸長処理において切換シ
ンボルがソーステキストに挿入されたものである場合
（処理例２２６の“●”や“＾”）は、伸長バッファに
は伸長結果を書込まずにそのまま処理を進める。

【０１９５】図２３に共有辞書作成手段の実現例を示
す。共有辞書作成手段は、「構成要素ごとの辞書作成手
段」と基本的な処理タスクが変わらない。ここでは、入
力された複数の辞典テキストに同じような記述部分が存
在する場合に、各辞典ごとに静的辞書を用意するより
も、同じ記述部分を縦割りにして圧縮対象テキストをま
とめた上で構成要素ごとの静的辞書を用意した方が圧縮
効率がよくなることを利用する。したがって、処理タス
クは「構成要素ごとの辞書作成手段」とほとんど同じ、
「構成要素ごとの辞書作成手段」では処理対象が１つの
テキストであったが、「共有辞書作成手段」では処理対
象が２つ以上の異なるテキストになる部分にのみ違いが
でる。

【０１９６】「共有辞書作成手段」の入力は、少なくと
も１つの構成要素が一致する複数個の辞典ソーステキス
トであり、「共有辞書作成手段」の出力は、構成要素ご
とに作成された静的辞書と符号化表、および辞典ごとに
作成された切換対応表（切換シンボルと切換シンボルの
出現直後にセットされる符号化表の対）である。

【０１９７】各辞典のソーステキストごとに、まず、
「構成要素ごとの辞書作成手段」と同様の方法で、区切
り記号の特定、挿入を行ない、区切り記号と区切り記号
により区切られる構成要素をＲＡＭ上に記憶する（４４
０）。

【０１９８】次に、区切り記号によって区切られた各辞
典ごとのソーステキストを、区切り記号が前方の構成要
素に含まれるように分割し、複数個のサブテキストを生
成する（４４１）。

【０１９９】分割されたサブテキストを構成要素ごと
に、複数の辞典に跨がった形で集める（４４２）。構成
要素ごとに再編成された各テキストから、「構成要素ご
との辞書作成手段」の場合と同様の手段を用いて静的辞
書、符号化表を作成してＲＯＭに記憶しておく（４４
３）。ただし、「切換対応表」は「構成要素ごとの辞書
作成手段」とは異なり、同じ構成要素内のシンボルでも
それがある辞典内では切換シンボルとして扱われ、また
別の辞典内では単なるシンボルとして扱われる場合もあ
ることを考慮し、「辞典ごと」の「切換対応表」を用意
しておかねばならない。ここの「切換対応表」の具体的
な作成方法は、構成要素ごとの辞書作成手段」と同様で
ある。

【０２００】図２４〜図２８を参照して、ここまでの処
理例を示す。ここでは、「英和辞典」「和英辞典」「英
熟語辞典」「国語辞典」の４つの辞典テキストが圧縮対
象として入力された場合を例に説明する。「英和辞典」
「和英辞典」「英熟語辞典」「国語辞典」のソーステキ
ストの一部を処理例４４４〜処理例４４７に示す。

【０２０１】各ソーステキストに対して区切り記号を特
定、あるいは挿入した後のテキストを処理例４４８、４
４９、４４Ａおよび４４Ｂに示す。「英和辞典」の区切
記号は発音記号と日本語テキストの各構成要素を区切る
“］”、日本語テキストと英語テキストを区切る“●”
（挿入）、英語テキストと日本語テキストを区切る
“＼”（挿入）、日本語テキストと変化形テキストを区
切る“＾”（挿入）である。「和英辞典」の区切記号
は、日本語テキストと英語テキストを区切る“］”、英
語テキストと日本語テキストを区切る“＼”である。

【０２０２】「英熟語辞典」の区切り記号は、英語テキ
ストと日本語テキストを区切る“＼”である。「国語辞
典」の区切り記号はなしで、テキストすべてにわたって
日本語テキストから構成されるものと見なしている。

【０２０３】構成要素ごとに分割した各辞典のサブテキ
ストを、辞典間に跨がる形で、各構成要素ごとに集め、
再編成したテキストを処理例４４Ｃに示す。各構成要素
ごとに再編成されたテキストから切出した、構成要素ご
との静的辞書を処理４４Ｄに示す。各辞典ごとに作成さ
れた、切換シンボルと、その直後からセットされる符号
化表の対を示す「切換対応表」を処理例４４Ｅに示す。

【０２０４】各辞典のソーステキストの圧縮データ容量
を小さくする、という観点からは、共有辞書を作成する
より個々の辞典ごとに別個の静的辞書を構築した方が、
各シンボルの出現確率が少しでも大きくなるため有利で
あるが、「構成要素ごとの辞書作成手段」の場合とは逆
に、シンボルの出現確率を稼ぐ効果よりも、静的辞書を
共有することによって圧縮データの容量を抑える方が、
複数個の大容量の辞典を圧縮対象とする場合は効果が大
きい。これは、各辞典ごとに各構成要素ごとの静的辞書
を作成した場合、重複するシンボルが数多く切出される
ため、静的辞書自体が冗長になってしまうことによる。

【０２０５】たとえば、日本語テキストの“ゆっく
り”、英語テキストの“ａｔ”など（４Ｃ）は図に示す
ようなわずかな範囲でも異なる辞典にともに出現する。
これらを別個の静的辞書で定義すると、全体としては、
同じシンボルが多数定義された冗長な静的辞書がいくつ
も構成されてしまうことになる。

【０２０６】図２９を参照して、共有辞書切換圧縮・伸
長手段の実現例を示す。共有辞書切換圧縮・伸長手段の
入力は、区切り記号によって明確に区切られた構成要素
からなる複数の辞典ソーステキスト（または圧縮された
データ）と、構成要素ごとの辞書作成手段により作成さ
れた構成要素ごとの符号化表および各辞典ごとに作成さ
れた切換対応表である。辞書切換圧縮・伸長手段の出力
は、符号化表と切換対応表に基づいて符号化表を切換え
ながら圧縮（伸長）した結果の圧縮データ（または復元
されたソーステキスト）である。

【０２０７】共有辞書切換伸長・圧縮手段においても、
符号化表に基づく具体的な圧縮伸長方法については、周
知の方法であるため説明を省略し、「複数の符号化表を
いかにして切換えながら各辞典ごとに圧縮伸長を進める
か」という本発明に固有の部分のみについて処理手順を
説明する。

【０２０８】まず、どの辞典のテキストを圧縮（伸長）
するのかを表わす辞典ＩＤをＲＡＭにセットし、処理対
象の辞典テキストが変わるごとにＩＤも変えるものとす
る（５５０）。

【０２０９】次に、圧縮（伸長）開始時にセットされる
符号化表を定める（５５１）。次に、現在セットされて
いる符号化表をもとに、１シンボル分の圧縮（伸長）処
理を行ない（５５２）、処理されたシンボルが圧縮（伸
長）終了を示すシンボルであれば圧縮（伸長）を終え、
そうでなければそのシンボルが切換シンボルとして辞典
ＩＤに対する切換対応表に登録されているか否かを調べ
る（５５３、５５４）。切換シンボルであれば辞典ＩＤ
ごとの切換対応表に従って次からの圧縮（伸長）に用い
る符号化表をセットした上で次のシンボルの圧縮（伸
長）に移り、切換シンボルでなければそのまま現在セッ
トされている符号化表を使って次のシンボルの圧縮（伸
長）を行なう（５５４、５５５）。伸長処理において切
換シンボルがソーステキストに挿入されたものである場
合（４４８）の“●”や“＾”は、伸長バッファには伸
長結果を書込まずにそのまま処理を進める。

【０２１０】図３０、図３１および図３２を参照して、
オフセット置換圧縮手段の実現例を説明する。

【０２１１】オフセット置換圧縮手段の入力は、局所的
な高頻度が存在するような辞典テキストおよび、その辞
典テキストに対して予め構築された静的辞書と符号化表
である。また、オフセット置換圧縮手段の出力は、局所
的な高頻度語の部分が高効率に圧縮された辞典テキスト
の圧縮データである。また、処理の途中で、高頻度語を
特定し、それを取込んだ形で置換修正された辞典テキス
トと、修正テキストに対して更新された静的辞書および
符号化表が生成される。

【０２１２】ここでは、説明の便宜上、図３４、図３５
および図３６を参照して、処理例から先に説明を行な
う。処理例６６３は英和辞典のソーステキストの一部で
ある。上から順に、“ｃｉｔｒｉｃａｃｉｄ”、“ｃ
ｉｔｒｏｎ”、“ｃｉｔｒｕｓ”という項目のそれぞれ
の意味が記述されているようすが示されている。

【０２１３】処理例６６３の中に出現する局所的な高頻
度語が“柑橘（かんきつ）類”および“シトロン”であ
るとすると、オフセット置換圧縮手段によって処理例６
６３のテキストは処理例６６４のように書替えられる。
すなわち、“柑橘（かんきつ）類”および“シトロン”
はどちらも初回の出現時には何も置換されないが、２回
目以降の出現時には導入シンボル“＊”と“：”で区切
られた２つの数字に置換される。たとえば、処理例６６
３の２行目の“シトロンの木…”の部分の“シトロン”
は、処理例６６４では“＊２９：，８”で置き換えられ
ているがこれは、この位置にはソーステキストで２９バ
イト手前の位置から８バイト分の文字列（＝同じ行の
“シトロン（レモン）に…”の部分の“シトロン”）と
同じ文字列が出現することを表わしている。

【０２１４】導入シンボルは入力されたソーステキスト
中に存在しない文字列であれば何であっても構わない。
また、出現位置と文字列長を表わす２つの数字は、圧縮
効率を考えてその値の範囲を制限する必要がある。この
例では、出現位置を１Ｋバイト手前まで（１０ｂｉ
ｔ）、文字列量を３２バイトまでとしている。

【０２１５】以上の置換操作によって、ソーステキスト
が書替えられてしまったので、それに併せて静的辞書６
６５、符号化表６６６にも変更が必要になる。すなわ
ち、１回置換を行なうごとに導入シンボル“＊”の静的
辞書への登録（カウントアップ）、置換された各シンボ
ルの静的辞書内でのカウントダウンにより、静的辞書と
テキストの整合性を維持しておく。テキスト全体にわた
って置換および静的辞書６６７の変更を行なった後、静
的辞書から周知の手段で符号化表を作成し直す。

【０２１６】このようにして更新されたテキスト６６４
を、更新した符号化表６６８により符号化（圧縮）す
る。

【０２１７】ただし、“＊”の直後の数字の対に対して
は、符号化表による符号化は行なわずに、それらを１０
ｂｉｔ、５ｂｉｔのバイナリの数値に変換する処理が通
常の場合とは異なる。以上のような圧縮法により、オフ
セット置換された文字列（２回目以降の出現文字列）は
一様に導入シンボルの符号長＋１５ｂｉｔで符号化され
ることになる。導入シンボルの出現回数によりその符号
長は異なるが、英和辞典のような局所的な高頻度語がよ
く出てくるテキストに対してはその符号長を短く抑える
ことができる。

【０２１８】処理例６６９にオフセット置換圧縮を採用
せずに、元の静的辞書６６５および符号化表６６６を元
に圧縮した場合の符号長と、オフセット置換圧縮を併用
して圧縮した場合の符号長の比較を示す。

【０２１９】このように、置換対象のシンボルが局所的
な高頻度語であれば、元の静的辞書中では符号長の長い
いくつかのシンボルに分解せざるを得ない文字列も、オ
フセット置換を用いることにより、２回目以降の出現以
降で一定長の、元より短いビットで符号化できることが
わかる。

【０２２０】オフセット置換圧縮を併用する場合に最も
重要なことは、局所的な高頻度語をうまく検出すること
である。すなわち、元の静的辞書を圧縮する場合より少
なくとも置換後の符号長が短くなるような置換対象の文
字列を見つけ出さなければならない。

【０２２１】幸い、元の符号化表から任意の文字列の符
号長が算出でき、かつ、置換後の符号長も出現位置と文
字列長が固定であるから導入シンボルの符号化長をうま
く想定できれば静的辞書を更新する前に概算できる。置
換対象文字列は、任意の文字列に対してこの２つの値を
常に比較し、置換後の符号長の短くなると予想できるも
のを選択すればよい。

【０２２２】以上処理例に基づいてオフセット置換圧縮
方式の概要を述べた。図３０〜図３３を参照して、より
詳細な処理手順を説明する。処理は２つの段階に大別さ
れる。すなわち、元の静的辞書Ｓでに導入シンボル
（“＊”，０）を追加（６６０）しておいた上で、処理
の第１段階でテキスト中の置換対象文字列を検出しなが
ら、テキストと静的辞書の更新を行ない（６６１）、第
２段階で、更新されたテキストを、更新された静的辞書
から作成した符号化表に基づいてエンコードする（６６
２）。

【０２２３】元の静的辞書ＳＤおよびソーステキストＳ
Ｔを更新する作業の準備として、項目ごとの圧縮データ
へのアクセスを想定して、ＳＴを辞典の各項目ごとに分
けたもの（Ｓ０，…Ｓｅ）を処理単位として考える（６
１１）。項目ごとのテキストＳｎをｎ＝０からｅまで順
次処理する（６１２）。まず、Ｓｎを（更新されていな
い元の）ＳＤの符号化表でエンコードし（６１３）、Ｓ
ｎのエンコードシンボル列ＳＳ（０）＝“ｓ０，ｓ１，
…，ｓｐ”を抽出する（６１４）。エンコードシンボル
とは実際にエンコードされる際にエンコード対象となる
静的辞書（符号化表）中のシンボルを指す。図３４の処
理例６６３の“ｃｉｔｒｏｎ”に対応するテキストを例
に取れば、ｓ０＝“［名］（１）”，ｓ１＝“シ”、ｓ
２＝“ト”、ｓ３＝“ロン”、ｓ４＝“（“，…，ｓｐ
＝”）”となる。

【０２２４】ＳＳ（０）に関する置換・更新処理（６１
５）は（６１５１）以下で示される。ＳＳ（ｊ）は現在
の処理対象範囲を示している。処理が進むにつれて、ｊ
の値は増やされ、処理対象範囲は１エンコードシンボル
ずつ後方に縮められる。ＳＳ（ｐ−１）の処理が終わっ
た時点で、辞典１項目（ＳＳ（０））に関する置換・更
新処理が終了する（６１５１）。

【０２２５】処理範囲ＳＳ（ｊ）＝“ｓｊ，…，ｓｉ，
…，ｓｐ”に対して、ＳＳ（ｊ）内に局所的な高頻度語
となる文字列ｓｔｒ（ｉ）が存在するかどうかを検査
し、存在すれば、特定したｓｔｒ（ｉ）を更新するとと
もに、静的辞書の修正を行なう。この仮定ではまず、ｉ
＝ｐとおいて（６１５２）、ＳＳ（ｊ）内の最長文字列
から順に局所的な高頻度語がないかどうか検査し、見つ
かればｊの位置をｉ＋１に更新して、残りの処理範囲Ｓ
Ｓ（ｊ）の処理を行なう。ｉ＝ｊ＋２、すなわちＳＳ
（ｊ）の最初の２シンボルになるまでｓｔｒ（ｉ）を縮
めても見つからない場合は、処理範囲を１シンボル分縮
めて、引続きＳＳ（ｊ＋１）に対する処理を行なう（６
１５３）。

【０２２６】処理例６６３の“ｃｉｔｒｏｎ”に対応す
るテキストを例に取れば、ＳＳ（１１）＝‘シ’‘ト’
‘ロン’‘の’‘木’，…，‘ケーキ’‘用’に対して
は、ｓｔｒ（１３）＝‘シ’‘ト’‘ロン’で、元のＳ
Ｔ中の２９バイト手前に同一の文字列が出現（最初の
“シトロン”）し、これが局所的な高頻度語として処理
される。

【０２２７】ｓｔｒ（ｉ）が局所的な高頻度語になるか
どうかの検査は、まず、処理の無駄を省くために符号化
表からｓｔｒ（ｉ）の符号長を計算し、これが置換符号
長よりも短くならない場合は、たとえ前方に一致する文
字列があっても圧縮効率が改善されないので、置換・更
新処理は行なわず、処理対象範囲を次に進める（６１５
４）。置換符号長は処理例の場合は２２ｂｉｔ（想定導
入シンボル長７ｂｉｔ、出現位置１０ｂｉｔ、文字列長
５ｂｉｔ）に設定しているが、テキストによりこれらの
値は最適な値が異なる。

【０２２８】ｓｔｒ（ｉ）の符号長が置換符号長より短
い場合は、これを局所的な高頻度語の候補と見なして、
（更新されていない元の）ＳＤ上の現在位置から出現位
置の制限幅（ここでは１０２４バイトとしている）分だ
け手前にある文字列に対して、ｓｔｒ（ｉ）と同一の文
字列が存在するか否かサーチする。元のソーステキスト
上で（ｐｏｓ（＜１０２４）バイト手前に同一文字列が
見つかり、かつその文字列がこれまでの処理で、更新テ
キストにおいて置換されていない場合（６１５５）、ｓ
ｔｒ（ｉ）を“＊”で置換し（６１５６）、その直後
に、ＰＯＳおよびｓｔｒ（ｉ）を文字列長の値を“，”
で区切って、アスキー数字で出力する（６１５７）。さ
らにテキストの修正に伴い、ｓｔｒ（ｉ）中のシンボル
ｓｊ、…、ｓｉがテキストから１つずつ削除されるの
で、静的辞書ＳＤ中のｓｊ、…、ｓｉの各頻度も１減ら
す（６１５８）とともに、“＊”が１増えるので、ＳＤ
中の“＊”の頻度も１増やす（６１５９）。

【０２２９】今一度、処理例６６３の“ｃｉｔｒｏｎ”
に対応するテキストを例にとって説明しておく。３回目
に出現するｓｔｒ（４）＝‘シ’‘ト’‘ロン’‘の’
を局所的な高頻度語の候補として検査する場合、元のＳ
Ｔ中の３１バイト手前に同一の文字列が出現（２回目の
“シトロン”以下）するが、これはこれまでの処理で既
に更新テキスト中で置換されている。したがって、「同
一文字列が見つかり、かつその文字列がこれまでの処理
で、更新テキストにおいて置換されていない場合」とい
う条件の後半部に抵触するため、これを局所的な高頻度
語としては処理せず、ｓｔｒをもう１シンボル分減らし
た上で、最初に出てくる（置換処理されていない）“シ
トロン”とマッチングするｓｔｒ（３）＝‘シ’‘ト’
‘ロン’を局所的な高頻度語として置換する。

【０２３０】制限幅内に同一の文字列が見つからなかっ
た場合は、検査対象文字列を１シンボル分末尾方向から
短くして（−−ｉ）、ｓｔｒ（ｉ−１）に対する処理を
行なう。

【０２３１】以上が「静的辞書とソーステキストの更
新」処理の内容である。次に、更新したソーステキスト
を更新した静的辞書でエンコードする手段について説明
する。圧縮は、静的辞書から符号化表を作成し、符号化
表を参照しながら文字列をビット列で置き換える周知の
方法を用いればよいが、オフセット置換に依存する部分
だけ別個の処理を行なう必要がある。

【０２３２】１シンボルずつ、終了シンボルが出現する
まで（６２２）、周知の方法によってエンコードする
（６２１）。ただし、エンコードシンボルが導入“＊”
である場合（６２３）は、それに続く、“，”で区切ら
れたアスキー数字ｄ１、ｄ２を読込み（６２４）、ｄ
１、ｄ２の各値を定められた出現位置のビット幅および
文字列長のビット幅（この場合はそれぞれ１０ｂｉｔ、
５ｂｉｔ）にバイナリパックする（６２５）。

【０２３３】以上がエンコード処理の内容である。次に
図４３を参照して、「オフセット置換圧縮手段により圧
縮されたデータの伸長手段」の実現例について説明す
る。オフセット置換伸長処理も、前述のエンコード処理
同様、基本的には周知の方法を用いて伸長を行なう。オ
フセット置換圧縮に依存して変更した部分だけがオフセ
ット置換伸長処理においても異なることになる。

【０２３４】説明の便宜上、フローチャートでは圧縮デ
ータの先頭から伸長を行なうものとする。伸長したシン
ボルがデータの終了コードになるまで（８２）、符号化
表に基づいて、周知の方法により１シンボルずつ伸長す
る（８１）。

【０２３５】デコードシンボルが“＊”でない場合は、
デコード結果の文字列を出力（８４）して次のデータを
デコードする。デコードシンボルが“＊”であれば、次
の１５ｂｉｔの圧縮データを読込み、出現位置ｄ１、文
字列長ｄ２をセットし、既に復元されたテキストの中か
ら、現在位置よりｄ１バイト手前の位置からｄ２バイト
分の文字列を置換コードの伸長結果として出力し（８
６、８７）、次の圧縮データの処理に移る。

【０２３６】以上の伸長アルゴリズムでは、もし、特定
の辞書項目だけを伸長しようとする場合でも、基本的に
は圧縮データの先頭から伸長しなければならないことに
なるが、圧縮時の制限から実は、伸長対象項目の（ソー
ステキスト上で）その手前１０２４バイト分の情報さえ
事前に処理されていればよい。すなわち、特定の辞書項
目だけを伸長する場合は、ソーステキスト上で所定の辞
書項目の１０２４バイト分以上手前の項目に相当する圧
縮データ区切りから伸長を始める。

【０２３７】手前部分の伸長処理において、置換圧縮さ
れた部分は、さらにその手前のデータを伸長しないとテ
キストに復元できない場合はテキストへの復元は行なわ
ずに置換コードの文字列長の情報からそれが復元テキス
ト上では何バイトの文字列になるかという情報だけを得
ておく。その他のテキストに復元できる部分はすべて復
元しておく。

【０２３８】このような準備をしておけば、手前の１０
２４バイト内にある、テキストに復元された任意の文字
列に対して、それが現在の位置から何バイト手前に出現
するかを算出することができる。一方、「オフセット置
換圧縮手段」の実現方法から、置換のもとになる文字列
が別途置換されていることはないので（図３２の処理６
１５５の処理要件に違反するため）、出現位置まで遡っ
た位置には、文字列長分の復元テキストが必ず存在す
る。

【０２３９】このように、辞典の任意の項目からの伸長
には多少複雑なロジックと、処理時間のオーバヘッドが
生じるが、辞典のソース的を圧縮データの先頭から伸長
しなくてもすむので、「オフセット置換伸長手段」は辞
典モジュールの検索性能を損ねない利点を併せ持ってい
るといえる。

【０２４０】次に、図３７〜図３９を参照して、番号置
換圧縮手段の実現例を説明する。番号置換圧縮手段の入
力は、「オフセット置換圧縮手段」と同様、局所的な高
頻度語が存在するような辞典テキストおよび、その辞典
テキストに対して予め構築された静的辞書と符号化表で
ある。また、番号置換圧縮手段の出力は、局所的な高頻
度語の部分も高効率に圧縮した辞典テキストの圧縮デー
タである。また、処理の途中で、高頻度語を特定し、そ
れを取込んだ形で置換修正された辞典テキストと、修正
テキストに対して更新された静的辞書および符号化表が
生成される。

【０２４１】ここでも、説明の便宜上、図４０〜図４２
を参照して、処理例から先に説明を行なう。

【０２４２】処理例７７４は「オフセット置換圧縮手
段」の処理例６６３と同一の、英和辞典のソーステキス
トの一部である。処理例７７４の中に出現する局所的な
高頻度語が“柑橘（かんきつ）類”および“シトロン”
であるとすると、番号置換圧縮手段によって処理例７７
４のテキストは処理例７７５のように書替えられる。す
なわち、“柑橘（かんきつ）類”および“シトロン”は
どちらも初回出現時には導入シンボル△、番号、および
文字列長を表わす数字がその前に挿入され、２回目以降
の出現時には導入シンボル★と初回出現時に番号付けさ
れたものと同じ番号で文字列自体が置換される。

【０２４３】たとえば、処理例７７３の２行目の最初の
“（１）シトロン（…”の部分の“シトロン”の前には
△１，８が挿入されているが、これは以下の８バイトを
置換対象文字列として番号を１で登録することを表わし
ている。また、同じ行の次の“シトンの木…”の“シト
ロン”は★１で置換されているが、これは最も近い△１
を自分自身の前に持つ文字列が★１で置換されているこ
とを表わしている。

【０２４４】導入シンボルは「オフセット置換圧縮手
段」同様、入力されたソーステキスト中に存在しない文
字列であれば何であっても構わない。また、番号と文字
列長を表わす数字は、圧縮効率を考えてその値の範囲を
制限する必要がある。この例では、番号を０〜７の８個
（３ｂｉｔ）、文字列長３２バイト（５ｂｉｔ）までと
している。

【０２４５】ここで、番号はテキスト全体で８個しか使
えないのではなく、ｍｏｄ−８（７の次はまた０に戻
る）で個数制限なしに使用することができる。ただし、
一意に伸長するために、★ｄがその前方の最も近くの△
ｄ，１以下の１バイトの文字列を指すという制限が必ず
守られるようにテキスト置換操作を行なう。

【０２４６】テキストの置換操作に伴う静的辞書７７
６、符号化表７７７の変更も「オフセット置換圧縮手
段」と同様である。すなわち、１回目の置換を行なう際
は、“△”、“★”のカウントアップ、および置換され
た各シンボルの静的辞書内でのカウントダウンを行な
い、２回目以降の置換では、“★”のカウントアップと
置換された各シンボルの静的辞書内でのカウントダウン
を行なう。テキスト全体にわたって置換および静的辞書
７７８の変更を行なった後静的辞書から周知の手段で符
号化表７７９を作成し直す。

【０２４７】このようにして更新したテキストの処理例
７７５を、更新した符号化表７７９により符号化（圧
縮）する。ただし、“△”の直後の処理と“★”の直後
の処理が通常の場合とは異なる。すなわち、△直後の数
字の対に対しては、符号化表による符号化は行なわず
に、それぞれを３ｂｉｔ、５ｂｉｔのバイナリの数値に
変換し、★の直後の数字に対しては、符号化表による符
号化は行なわずに、３ｂｉｔのバイナリ数値にこれを変
換する。

【０２４８】以上のような圧縮法により、番号置換され
た文字列（２回目以降の出現文字列）は一様に導入シン
ボルの符号長＋３ｂｉｔで符号化されることになる。導
入シンボルの出現回数によりその符号長が異なるが、英
和辞典のような局所的な高頻度語がよく出てくるテキス
トに対してはその符号長を短く抑えることができる。

【０２４９】また、「オフセット置換圧縮手段」に比べ
て、何回も同一の置換対象文字列が出現する場合は、置
換文字列に対する符号長が「オフセット置換圧縮手段」
よりも短いため圧縮効率の点では有利になる。処理例７
７Ａに番号置換圧縮を採用せずに、元の静的辞書７７６
および符号化表７７７を使って圧縮した場合の符号長
と、番号置換圧縮を併用して圧縮した場合の符号長との
比較を示す。

【０２５０】番号置換圧縮を併用する場合に最も重要な
ことは、「オフセット置換圧縮手段」の場合と同様、局
所的な高頻度語をうまく検出することである。すなわ
ち、元の静的辞書で圧縮する場合より少なくとも置換後
の符号長が短くなるような置換対象の文字列を見つけ出
さなければならない。「番号置換圧縮」においても、元
の符号化表から算出される符号長と、置換後の符号長と
の比較を行ない、置換後の符号長が短くなると予想でき
るものを選択する。

【０２５１】以上、処理例に基づいて番号置換圧縮方式
の概要を述べた。再び、図３７〜図３９を参照して、よ
り詳細な処理手順を記述する。

【０２５２】処理は「オフセット置換圧縮手段」の場合
と同様、２つの段階に大別される。すなわち、番号カウ
ンタＣを０クリアし（７７０）、元の静的辞書ＳＤに導
入シンボル（“△”，０）および（“★”，０）を追加
（７７１）しておいた上で、処理の第１段階でテキスト
中の置換対象文字列を検出しながら、テキストと静的辞
書の更新を行ない（７７２）、第２段階で、更新された
テキストを、更新された静的辞書から作成した符号化表
に基づいてエンコードする（７７３）。

【０２５３】元の静的辞書ＳＤおよびソーステキストＳ
Ｔを更新する作業の準備として、項目ごとの圧縮データ
へのアクセスを想定して、ＳＴを辞典の各項目ごとに分
けたもの（Ｓ０、…Ｓｅ）を処理単位として考える（７
２１）。項目ごとのテキストＳｎをｎ＝０からｅまで順
次処理する（７２２）。まず、Ｓｎを（更新されていな
い元の）ＳＤの符号化表でエンコードし（７２３）、Ｓ
ｎのエンコードシンボル列ＳＳ（０）＝“ｓ０、ｓ１、
…、ｓｐ”を抽出する（７２４）。

【０２５４】ＳＳ（０）に関する置換・更新処理７２５
は図３８で示す処理７２５１以下で示される。ＳＳ
（ｊ）は現在の処理対象範囲を示している。処理が進む
につれて、ｊの値は増やされ、処理対象範囲は１エンコ
ードシンボルずつ後方に縮められる。ＳＳ（ｐ−１）の
処理が終わった時点で、辞典１項目（ＳＳ（０））に関
する置換・更新処理が終了する（７２５１）。

【０２５５】処理範囲ＳＳ（ｊ）＝“ｓｊ、…、ｓｉ、
…、ｓｐ”に対して、ＳＳ（ｊ）内に局所的な高頻度語
となる文字列ｓｔｒ（ｉ）が存在するかどうかを検査
し、存在すれば、特定したｓｔｒ（ｉ）を更新するとと
もに、静的辞書の修正を行なう。この過程では、まず、
ｉ＝ｐとおいて（７１５２）、ＳＳ（ｊ）内の最長文字
列から順に局所的な高頻度語がないかどうか検査し、見
つかればｊの位置をｉ＋１に更新して、残りの処理範囲
ＳＳ（ｊ）の処理を行なう。ｉ＝ｊ＋１、すなわちＳＳ
（ｊ）の最初の２シンボルになるまでｓｔｒ（ｉ）を縮
めても見つからない場合は、処理範囲を１シンボル分縮
めて、再度ＳＳ（ｊ＋１）に対する処理を行なう（７２
５３）。

【０２５６】ここまでは、「オフセット置換圧縮手段」
と同様である。ｓｔｒ（ｉ）が局所的な高頻度語になる
かどうかの検査は、まず、処理の無駄を省くために符号
化表からｓｔｒ（ｉ）の符号長を計算し、これが置換符
号長よりも短くならない場合は、たとえ前方に一致する
文字列があっても圧縮効率が改善されないので、置換・
圧縮更新処理は行なわず、処理対象範囲を次に進める
（７２５４）。置換符号長は処理例の場合は２６ｂｉｔ
（想定導入シンボル長（７７＋８）ｂｉｔ、番号（３＊
２）ｂｉｔ、文字列長５ｂｉｔ）に設定しているが、テ
キストによりこれらの値は最適な値が異なる。

【０２５７】ｓｔｒ（ｉ）の符号長が置換符号長より短
い場合は、これを局所的な高頻度語の候補と見なして、
（更新されていない元の）ＳＤ上の現在位置から前方に
ある適当な範囲内の文字列に対して、ｓｔｒ（ｉ）と同
一の文字列が存在するか否かサーチする。元のソーステ
キスト上でＰＯＳバイト手前に同一文字列が見つかった
場合は置換処理を次のステップに進め、見つからなけれ
ば、１エンコードシンボル分短くしたｓｔｒ（ｉ−１）
に対して再度サーチを行なう（７２５５）。

【０２５８】処理７２５５で、ｓｔｒ（ｉ）と同一の文
字列が元のソーステキスト上でＰＯＳバイト手前に見つ
かった場合は、さらに、更新テキストでＰＯＳ位置に対
応する位置の直前に△Ｃ′，１または★Ｃ′が配置され
ておらず（すなわち置換されていない文字列であり）、
かつ更新テキスト上でＰＯＳ位置に対応する位置以降に
△Ｃが存在しなければ（７２５６、７２５７）、これか
ら番号付けしようとする文字列が、置換対象文字列の位
置から前方の最も近い位置にあることを保証できるの
で、ＰＯＳ位置の直前に△Ｃ，１（１＝｜ｓｔｒ（ｉ）
｜）を挿入して、ＰＯＳ位置以下の１バイトの文字列を
Ｃ番に番号登録するとともに、ｓｔｒ（ｉ）を★Ｃに置
換する（７２５９）。

【０２５９】一方△Ｃが存在すれば、前回Ｃ番で番号付
けしたより前の部分に遡ってサーチしてしまったことに
なり、ここで、Ｃの番号付けを行なうと、以降の★Ｃが
どちらの△Ｃに対応するものかわからなくなってしま
う。すなわち、これから番号付けしようとする文字列
が、置換対象文字列の位置から前方の最も近い位置にあ
ることが保証できなくなるため、この場合はｓｔｒ
（ｉ）に対する処理を止めて、ｓｔｒ（ｉ−１）に対す
る処理を行なう（７２５７）。

【０２６０】処理７２５９でテキストが修正された場合
は、テキストの変更に伴う静的辞書の修正を行ない（７
２５Ａ）、Ｃ番の登録が済んだので、番号カウンタをｍ
ｏｄ（８，（Ｃ＋１））として次に進め（７２５Ｂ）、
処理対象範囲ｊをｉ＋１に更新して、未処理部分に対す
る処理を継続する。

【０２６１】処理７２５６でＰＯＳ位置に対応する更新
テキストの位置の直前に△Ｃ′，１または★Ｃ′が配置
されている（すなわち既に置換または番号登録された文
字列である）場合は、△の最近の位置の制約を守るため
に、△Ｃ′がＰＯＳ対応位置以降に出現しないことを確
認した上で（７２５８）、ｓｔｒ（ｉ）を★Ｃ′で置換
し（７２５Ｃ）、静的辞書の対応する箇所を修正する
（７２５Ｄ）。

【０２６２】この処理過程では置換処理されるものが以
前番号付けされたＣ′であるため、Ｃは更新せずに、処
理対象範囲だけをｉ＋１に進めて残りの部分ＳＳ（ｉ＋
１）に対する処理を行なう。

【０２６３】以上の処理を、図４０で示された処理例７
７４の“ｃｉｔｒｏｎ”に代用するテキストを例にとっ
て今一度説明しておく。

【０２６４】今Ｃ＝１で、２回目に出現するＳＳ（１
１）のｓｔｒ（１３）＝‘シ’‘ト’‘ロン’まで処理
が進んだとする。処理７２５５により、ＰＯＳ＝２９バ
イト手前の同一の文字列を特定する。処理７２５６、処
理７２５７の制限をクリアして、処理７２５９に進み、
このタイミングで、最初の“シトロン”の手前に△１，
８が置かれ、２番目の“シトロン”（＝ｓｔｒ（１
３））が★１に置換される。静的辞書がアップデートさ
れ、Ｃ＝２として、“の木（３）…”以降に処理対象範
囲が移る。Ｃ＝２のまま、３回目に出現する“シトロ
ン”がｓｔｒにセットされたとき、処理７２５５によ
り、ＰＯＳ＝３１バイト手前に同一の文字列が特定され
るが、これは更新テキストにおいては既に★１で置換さ
れている（処理７２５６のＹｅｓの場合に相当）ので、
３回目に現れる“シトロン”の★１に置換される。

【０２６５】以上が「静的辞書とソーステキストの更
新」処理の内容である。次に、図３９を参照して、更新
したソーステキストを更新した静的辞書でエンコードす
る手段について説明する。圧縮は、静的辞書から符号化
表を作成し、符号化表を参照しながら文字列をビット列
で置き換える周知の方法を用いればよいが、番号置換に
依存する部分だけ別個の処理を行なう必要がある。

【０２６６】１シンボルずつ、終了シンボルが出現する
まで（７３２）、周知の方法によってエンコードする
（７３１）。ただし、エンコードシンボルが導入シンボ
ル“★”である場合（７３３）は、それに続く、アスキ
ー数字ｄ１を読込みこれを３ｂｉｔでバイナリパックし
て、次の部分のエンコードに移る（７３５）。“★”で
なく、“△”である場合は、それに続くアスキー数字ｄ
１、ｄ２の各値をそれぞれ３ｂｉｔ、５ｂｉｔにバイナ
リパックして、次の部分のエンコードに移る（７３
６）。

【０２６７】以上がエンコード処理の内容である。次に
図４４を参照して、「番号置換圧縮手段」により圧縮さ
れたデータの伸長手段の実現例を説明する。番号置換伸
長手段も、前述のエンコード処理と同様、基本的には周
知の方法を用いて伸長を行なう。番号置換圧縮に依存し
て変更した部分だけが、番号置換伸長処理においても異
なることになる。

【０２６８】伸長したシンボルがデータの終了コードに
なるまで（９１）、符号化表に基づいて、周知の方法に
より１シンボルずつ伸長する（９０）。

【０２６９】デコードシンボルが“★”でも“△”でも
ない場合は、デコードの結果の文字列を出力（９９）し
て次のデータの伸長に移る。デコードシンボルが“△”
であれば、次の８ｂｉｔの圧縮データを読み飛ばし、次
のデータの伸長に移る。

【０２７０】デコードシンボルが“★”であれば、圧縮
データの次の３ｂｉｔを読込み、番号ｄ１を得る（９
３）。ここで、これまでの処理において既に手前方向で
最初に出現する“△ｄ１，ｌｅｎ”以下のｌｅｎバイト
を伸長済みならば（９４）、そのｌｅｎバイト分の文字
列をデコード結果として出力し（９６）、次のデータの
伸長に移る。

【０２７１】“△ｄ１，ｌｅｎ”以下のｌｅｎバイトが
未伸長ならばさらに手前の部分をデコードして、現在位
置から手前方向で最初に“△ｄ１，ｌｅｎ”が出現する
箇所とそれ以下のｌｅｎバイトの文字列を確定させた上
で（９５）、そのｌｅｎバイト分の文字列をデコード結
果として出力し（９６）、次のデータの伸長に移る。

【０２７２】以上の伸長アルゴリズムでは、置換データ
（★ｄ）が出現したとき、対応する△が未伸長であれ
ば、その都度遡って伸長を行なわねばならないオーバヘ
ッドはあるものの、基本的には特定の辞典項目だけを伸
長できるようになっており、「番号置換伸長手段」も辞
典モジュールの検索性能を損ねない利点を持ち合わせて
いるといえる。

【０２７３】以上のように、実施の形態２に係るテキス
ト圧縮装置によれば、大容量の固定の辞典テキストデー
タを必要とする装置（電子辞書など）において、辞典テ
キストデータを効率よく圧縮・伸長をする具体的な手段
を提供することができる。特に、対象となる辞典テキス
トが複数の異なる記述部分から構成されている場合（英
和辞典など）、共通の構成要素を持つ複数個の辞典テキ
ストを圧縮対象とする場合（英和、和英辞典など）に
は、それぞれ、請求項５、６の手法により圧縮率を高め
ることができる。

【０２７４】また本装置により、辞典テキストの圧縮メ
モリ容量を大幅に削減して製品のコストダウンを図るこ
とができる。

【０２７５】さらに本装置によれば、大容量の固定の辞
典のテキストデータを必要とする装置（電子辞書など）
において、特にその装置が、全体としての出現頻度は低
いが、局所的には集中的に出現する文字列が多数存在す
るような辞典テキスト（英和辞典など）を扱う場合に、
辞典テキストの検索性能をあまり落とすことなく、圧縮
メモリ容量を大幅に削減して製品のコストダウンを図る
ことができる。

【図面の簡単な説明】

【図１】実施の形態１に係るテキスト圧縮用辞書作成装
置の全体構成説明図である。

【図２】実施の形態１に係るテキスト圧縮用辞書作成装
置の頻度ガイドライン算出手段の説明図である。

【図３】実施の形態１に係るテキスト圧縮用辞書作成装
置の長文字列切出手段の説明図である。

【図４】実施の形態１に係るテキスト圧縮用辞書作成装
置の長文字列切出手段による処理例の説明図である。

【図５】実施の形態１に係るテキスト圧縮用辞書作成装
置の長文字列切出手段による処理例の説明図である。

【図６】実施の形態１に係るテキスト圧縮用辞書作成装
置の効率指標関数値順文字列切出手段の説明図である。

【図７】実施の形態１に係るテキスト圧縮用辞書作成装
置の効率指標関数値順文字列切出手段による処理例の説
明図である。

【図８】実施の形態１に係るテキスト圧縮用辞書作成装
置の１文字シンボル抽出手段の説明図である。

【図９】実施の形態１に係るテキスト圧縮用辞書作成装
置のシンボル削除のための文字列切出手段の説明図であ
る。

【図１０】実施の形態１に係るテキスト圧縮用辞書作成
装置のシンボル削除のための文字列切出手段による処理
例の説明図である。

【図１１】実施の形態１に係るテキスト圧縮用辞書作成
装置のシンボル分解手段の説明図である。

【図１２】実施の形態１に係るテキスト圧縮用辞書作成
装置のシンボル分解手段による処理例の説明図である。

【図１３】実施の形態１に係るテキスト圧縮用辞書作成
装置のシンボル分解手段の説明図である。

【図１４】実施の形態２に係るテキスト圧縮装置の全体
構成説明図である。

【図１５】実施の形態２に係るテキスト圧縮装置の構成
要素種類ごとの辞書作成手段の説明図である。

【図１６】実施の形態２に係るテキスト圧縮装置の構成
要素種類ごとの辞書作成手段の処理例の説明図である。

【図１７】実施の形態２に係るテキスト圧縮装置の構成
要素種類ごとの辞書作成手段の処理例の説明図である。

【図１８】実施の形態２に係るテキスト圧縮装置の構成
要素種類ごとの辞書作成手段の処理例の説明図である。

【図１９】実施の形態２に係るテキスト圧縮装置の構成
要素種類ごとの辞書作成手段の処理例の説明図である。

【図２０】実施の形態２に係るテキスト圧縮装置の構成
要素種類ごとの辞書作成手段の処理例の説明図である。

【図２１】実施の形態２に係るテキスト圧縮装置の構成
要素種類ごとの辞書作成手段の処理例の説明図である。

【図２２】実施の形態２に係るテキスト圧縮装置の辞書
切換圧縮伸長手段の説明図である。

【図２３】実施の形態２に係るテキスト圧縮装置の共有
辞書作成手段の説明図である。

【図２４】実施の形態２に係るテキスト圧縮装置の共有
辞書作成手段の処理例の説明図である。

【図２５】実施の形態２に係るテキスト圧縮装置の共有
辞書作成手段の処理例の説明図である。

【図２６】実施の形態２に係るテキスト圧縮装置の共有
辞書作成手段の処理例の説明図である。

【図２７】実施の形態２に係るテキスト圧縮装置の共有
辞書作成手段の処理例の説明図である。

【図２８】実施の形態２に係るテキスト圧縮装置の共有
辞書作成手段の処理例の説明図である。

【図２９】実施の形態２に係るテキスト圧縮装置の共有
辞書切換圧縮伸長手段の説明図である。

【図３０】実施の形態２に係るテキスト圧縮装置のオフ
セット置換圧縮手段の説明図である。

【図３１】実施の形態２に係るテキスト圧縮装置のオフ
セット置換圧縮手段の説明図である。

【図３２】実施の形態２に係るテキスト圧縮装置のオフ
セット置換圧縮手段の説明図である。

【図３３】実施の形態２に係るテキスト圧縮装置のオフ
セット置換圧縮手段の説明図である。

【図３４】実施の形態２に係るテキスト圧縮装置のオフ
セット置換圧縮手段の処理例の説明図である。

【図３５】実施の形態２に係るテキスト圧縮装置のオフ
セット置換圧縮手段の処理例の説明図である。

【図３６】実施の形態２に係るテキスト圧縮装置のオフ
セット置換圧縮手段の処理例の説明図である。

【図３７】実施の形態２に係るテキスト圧縮装置の番号
置換圧縮手段の説明図である。

【図３８】実施の形態２に係るテキスト圧縮装置の番号
置換圧縮手段の説明図である。

【図３９】実施の形態２に係るテキスト圧縮装置の番号
置換圧縮手段の説明図である。

【図４０】実施の形態２に係るテキスト圧縮装置の番号
置換圧縮手段の処理例の説明図である。

【図４１】実施の形態２に係るテキスト圧縮装置の番号
置換圧縮手段の処理例の説明図である。

【図４２】実施の形態２に係るテキスト圧縮装置の番号
置換圧縮手段の処理例の説明図である。

【図４３】実施の形態２に係るテキスト圧縮装置のオフ
セット置換伸長手段の説明図である。

【図４４】実施の形態２に係るテキスト圧縮装置の番号
置換伸長手段の説明図である。

【符号の説明】

１１１頻度ガイドライン算出手段１１２長文字列切出手段１１３１文字シンボル抽出手段１１４効率指標関数値順文字列切出手段１１５シンボル削除のための文字列切出手段１１６シンボル分解手段２１１構成要素種類ごとの辞書作成手段２１２辞書切換圧縮・伸長手段２１３共有辞書作成手段２１４共有辞書切換圧縮・伸長手段２１５オフセット置換圧縮手段２１６オフセット置換伸長手段２１７番号置換圧縮手段２１８番号置換伸長手段

Claims

【特許請求の範囲】

【請求項１】テキストを圧縮する際に参照される辞書
を作成するためのテキスト圧縮用辞書作成装置であっ
て、目標圧縮率に対して、２以上の文字列長の各々について
前記目標圧縮率を満足するためにテキスト中で出現が要
求される頻度のガイドラインを算出する頻度ガイドライ
ン算出手段と、テキストから、文字列長２以上の文字列であって、対応
する文字列長の頻度ガイドラインを満たす頻度で出現す
るものを、その実頻度とともに文字列長の降順に切出し
て第１の静的辞書を生成するとともに、前記頻度ガイド
ラインを満たさない切残しのテキストの集合を生成する
長文字列切出手段と、前記切残しのテキストの集合から文字列長１の文字ごと
にその頻度をカウントして第２の静的辞書を生成する１
文字シンボル抽出手段と、前記第１の静的辞書に前記第２の静的辞書を追加して最
終的静的辞書を生成する最終的静的辞書構築手段とを含
むテキスト圧縮用辞書作成装置。
【請求項２】テキストを圧縮する際に参照される辞書
を作成するためのテキスト圧縮用辞書作成装置であっ
て、目標圧縮率に対して、２以上の文字列長の各々について
前記目標圧縮率を満足するためにテキスト中で出現が要
求される頻度のガイドラインを算出する頻度ガイドライ
ン算出手段と、テキストから、文字列長２以上の文字列であって、対応
する文字列長の頻度ガイドラインを満たす頻度で出現す
るものを、その実頻度とともに文字列長と実頻度との積
の降順に切出して第１の静的辞書を生成するとともに、
前記頻度ガイドラインを満たさない切残しのテキストの
集合を生成する効率指標関数値順文字列切出手段と、前記切残しのテキストの集合から文字列長１の文字ごと
にその頻度をカウントして第２の静的辞書を生成する１
文字シンボル抽出手段と、前記第１の静的辞書に前記第２の静的辞書を追加して最
終的静的辞書を生成する最終的静的辞書構築手段とを含
むテキスト圧縮用辞書作成装置。
【請求項３】前記最終的静的辞書中の文字列であっ
て、前記最終的静的辞書中の他の文字列の組合せである
ものを、最も長い文字列が含まれる複数個の他の文字列
に分解し削除するとともに、当該他の文字列の実頻度を
前記削除された文字列の頻度だけそれぞれ増加させるた
めの文字列切出手段をさらに含む請求項１または請求項
２に記載のテキスト圧縮用辞書作成装置。
【請求項４】前記最終的静的辞書中の文字列であっ
て、前記最終的静的辞書中の他の文字列の組合せである
ものを、圧縮率への寄与が最も大きくなるような複数個
の他の文字列に分解し削除するとともに、当該他の文字
列の実頻度を前記削除された文字列の頻度だけそれぞれ
増加させるための文字列切出手段をさらに含む請求項１
または請求項２に記載のテキスト圧縮用辞書作成装置。
【請求項５】それぞれ属性の異なる複数種類の構成要
素から構成されるテキストに対して、各構成要素種類ご
とに前記テキストを分割し、分割された各々の構成要素
種類のテキストに対して、構成要素種類の境界に含まれ
る構成要素種類の切換えを指示するシンボルを含む圧縮
辞書を作成する辞書作成手段と、前記辞書作成手段により作成された辞書を、前記シンボ
ルに遭遇するたびに前記シンボルに応じて切換えなが
ら、圧縮対象のテキストの圧縮伸長を行なう辞書切換圧
縮伸長手段とを含むテキスト圧縮装置。
【請求項６】各々がそれぞれ属性の異なる複数種類の
構成要素から構成される複数のテキストであって、少な
くとも一部の構成要素種類を共有する複数のテキストに
対して、各構成要素種類ごとに前記複数のテキストを分
割し、分割された各々の構成要素種類のテキストに対し
て、構成要素種類の境界に含まれる構成要素種類の切換
えを指示するシンボルを含む共有辞書を作成する共有辞
書作成手段と、前記共有辞書作成手段により作成された共有辞書を、前
記シンボルに遭遇するたびに前記シンボルに応じて切換
えながら、圧縮対象のテキストの圧縮伸長を行なう共有
辞書切換圧縮伸長手段とを含むテキスト圧縮装置。
【請求項７】テキスト中の局所的な高頻度語を、２回
目の出現以降において、前記テキスト中には存在しない
文字列である導入シンボルと当該高頻度語の１回目の出
現位置と当該高頻度語の当該出現位置からの文字列長と
で置換して符号化するオフセット置換圧縮手段と、前記オフセット置換圧縮手段により圧縮されたデータ
を、前記導入シンボル後の前記１回目の出現位置と前記
出現位置からの前記文字列長とにより指定される語に置
換することにより伸長して元のテキストに復元するオフ
セット置換伸長手段とを含むテキスト圧縮装置。
【請求項８】テキスト中の局所的な高頻度語につい
て、初回出現時に番号を付与し２回目の出現以降におい
て、前記テキスト中には存在しない文字列である導入シ
ンボルと付与された前記番号とで置換して符号化する番
号置換圧縮手段と、前記番号置換圧縮手段により圧縮されたデータを、前記
導入シンボルと前記番号とを、対応する語に置換するこ
とにより伸長して元のテキストに復元する番号置換伸長
手段とを含むテキスト圧縮装置。