JPH11177438A

JPH11177438A - 情報変換装置

Info

Publication number: JPH11177438A
Application number: JP34330097A
Authority: JP
Inventors: Riyuuta Terajima; 立太寺嶌; Toshihiro Wakita; 敏裕脇田; Takayuki Nagaya; 隆之長屋
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 1997-12-12
Filing date: 1997-12-12
Publication date: 1999-07-02

Abstract

(57)【要約】【課題】情報の圧縮効率を高める【解決手段】ＲＡＭ３上の辞書に登録された語の並び
の構造に合致する複数で互いの位置が離れた語が変換対
象の記号列に存在する場合には、ＣＰＵ１はこれらの語
を１つの記号に記号化する。辞書に登録される語の並び
の構造は後退参照付き正規表現で表される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、記号列を符号化お
よび／または復号化する情報変換装置に関する。

【０００２】

【従来の技術】圧縮符号化方法としてはHuffman 符号化
方法のように記号と記号の出現確率（情報源のモデル）
が与えられた場合、常に最小の平均符号語長を使用する
方法がよく知られている。従来この種の圧縮符号化で
は、図１の（ａ）に示すように圧縮符号化は各記号に対
して施される。しかしながら複数の記号の並び（記号
列）に対して符号化を行うことによって、より効率の良
い圧縮を実現できる場合がある。この時、一般に並びの
長さを長くすればするほど圧縮における効果は高くな
る。すなわち、あらかじめ決められた出現頻度の高い記
号列を記号とみなしてHuffman 符号を適用すれば良い。
ここで、これらの記号と符号語の対応を記載したものは
辞書と呼ばれる。

【０００３】ここで、辞書を利用した符号の割当の例を
図１の（ｂ）に示す。“ｈ”“ｔ”“ｔ”“ｐ”の並び
を“ｈｔｔｐ”に、“ｗ”“ｗ”“ｗ”の並びを“ｗｗ
ｗ”に、“ｇ”“ｏ”“．”“ｊ”“ｐ”の並びを“ｇ
ｏ．ｊｐ”に辞書に割り当てる。“ｈｔｔｐ”，“ｗｗ
ｗ”，“ｇｏ．ｊｐ”はいずれもＵＲＬ中に現れる。記
号の並びとして出現頻度の高いものである。

【０００４】なお、ＵＲＬ(Uniform Resource Locator)
はインターネット上のサーバに記憶された文書の所在先
を示し、クライアントが上記文書を読出すときにＵＲＬ
を指定する。

【０００５】ＵＲＬはＲＦＣ１７３８で示されるような
文法規則に合致しなければならない。すなわち、「“ｈ
ｔｔｐ：／／”で始まり、ホスト名あるいはホスト名の
後に“：”を介し接続ポート番号が続き、その後英数字
などから構成されるファイルの位置を表すパスによって
構成される」のような、文法規則から定まるいくつかの
構造の組合せによってＵＲＬは構成されている。

【０００６】

【発明が解決しようとする課題】以上、説明したように
符号化対象の記号列の中の出現頻度が高い記号の並びに
ついて辞書を参照して圧縮符号化する情報変換方法の提
案により、圧縮率が向上したが、なお、圧縮率の向上が
求められている。

【０００７】そこで、本発明の目的は、上述の点に鑑み
て、辞書を使用し、さらに高い圧縮率で符号化を行うこ
とが可能な情報変換装置を提供することにある。

【０００８】

【課題を解決するための手段】このような目的を達成す
るために、請求項１の発明は、記号、後退参照付き正規
表現で記述された第１の記号列および区切り記号と、前
記記号、第１の記号列および区切り信号のそれぞれに対
応する符号語とを記憶した第１の記憶手段と、前記記号
からなる第２の記号列を入力し、前記第１の記憶手段に
記憶された内容に基づき前記符号語からなる第１の符号
語列に符号化する符号化手段とを具えたことを特徴とす
る。

【０００９】請求項２の発明は、後退参照付き正規表現
で記述された第３の記号列と、前記第３の記号列中に含
まれる後退参照変数および記号からなる第４の記号列と
の対応関係を記憶した第２の記憶手段と、前記第２の記
憶手段の記憶内容に基づき前記記号からなる第５の記号
列より前記第３の記号列に合致するものを検出し、対応
する前記第４の記号列を出力する検出手段と、前記検出
手段から出力された第４の記号列を用いて、前記第５の
記号列を前記記号からなる第６の記号列に書き換える書
換手段とを具えたことを特徴とする。

【００１０】請求項３の発明は、記号、後退参照付き正
規表現で記述された第１の記号列および区切り記号と、
前記記号、第１の記号列および区切り記号のそれぞれに
対応する符号語とを記憶した第１の記憶手段と、前記符
号語からなる第２の符号語列を入力し、前記第１の記憶
手段に記憶された内容に基づき前記記号からなる第７の
記号列に復号化する復号化手段とを具えたことを特徴と
する。

【００１１】請求項４の発明は、請求項１または３のい
ずれかに記載の情報変換装置において、前記第１の記憶
手段は、前記異なる複数の記号、前記異なる複数の第１
の記号列および対応する前記異なる複数の符号語を登録
する符号語登録手段をさらに有することを特徴とする。

【００１２】請求項５の発明は、請求項２に記載の情報
変換装置において、前記第２の記憶手段は、前記異なる
複数の第３の記号列および前記異なる複数の第４の記号
列を登録する記号列登録手段をさらに有することを特徴
とする。

【００１３】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。

【００１４】（第１実施形態）辞書の正規表現への拡張
について説明する。

【００１５】本実施の形態では、従来の技術の欄で説明
したＵＲＬを構成する文字列の出現順序が、例えば“ｈ
ｔｔｐ”，“ｗｗｗ”，“ｇｏ．ｊｐ”のように定まっ
ていることに着目し、これらの記号列を個別の記号列と
してとらえるのではなく、後退参照付きの正規表現で表
わすことに第１の特徴がある。さらにこれらの記号列を
ＵＲＬを構成する一つの要素として扱うことができるよ
うに従来の辞書の拡張を行うことに第２の特徴がある。
これにより、いくつかの文字列の間にとびとびに出現す
る文字列を辞書中で一つの構造として扱うことが可能に
なる。

【００１６】具体的には、ＵＲＬを構成する記号の集合
をΣとする時、ｓ∈定義域Σ^* に対し、 δ_i ：ｓ×ｓ×... ×ｓ→ｓなる写像δ_i すなわち、対応関係を定義し、δ_i の定義
域の表現方法として後退参照つきの正規表現（以下、正
規表現とは後退参照付きの正規表現を表す。）を用いた
辞書を構成する。なお、後退参照付きの正規表現につい
ての文献には、「Alfred V.AHO、仙波一郎訳、文字列中
のパターン照合のためのアルゴリズム、HANDBOOK OF TH
EORETICAL COMPUTER SCIENCE、第５章、Elesevier Scie
nce Publishers B.V., 1990 」がある。

【００１７】例えば、δとしてｄｏｍ（δ）：＾ｈｔｔｐ（．＋）ｗｗｗ（．＋）ｇｏ
＼ｊｐとすると、“ｈｔｔｐ：／／ｗｗｗ．ａｂｃｄｅｆｇ．
ｇｏ．ｊｐ／ｉｎｄｅｘ．ｈｔｍ”は“δ（：／／，ａ
ｂｃｄｅｆｇ）／ｉｎｄｅｘ．ｈｔｍ”と表現できる。

【００１８】後退参照付き正規表現で表現する記号は以
下のように決定する。

【００１９】・情報源に後退参照付き正規表現で受理さ
れる構造が定義されている場合、それを記号とみなす。

【００２０】・情報源において統計的に出現確率の高い
後退参照付き正規表現で受理される語が出現する場合、
それを記号とみなす。

【００２１】このようにして決定された記号について、
ハフマン符号化などの手法を用いて、記号の出現頻度に
応じた符号割当を行い、符号表を生成する。その際、記
号の中に後述する「区切り記号」を含めて符号割当を行
う。

【００２２】区切り記号の出現回数は次式で求められ
る。

【００２３】

【数１】

【００２４】ここで、符号化の際の手続きについて述べ
る。記号が長さ１以上の文字列の場合、正規表現で受理
されるが、これらについては通常の符号化手法における
文字列に対する手続きと同じ手続きで処理できるため、
ここでは後退参照の変数を含む正規表現に関する符号化
に対する特別な手続きのみ述べる。また、ここでは一意
復号可能な符号を前提とする。

【００２５】符号器中の照合器によって、入力された記
号が符号表中にある後退参照付き正規表現で受理可能で
あると判断された場合、符号器は入力記号に対応する符
号を出力した後、後退参照変数で表される記号を符号化
したものを出力し、続けて区切り記号を符号化したもの
を出力する。この時、一つの記号に含まれる後退参照変
数が複数ある場合、各々の変数の出力の間に区切り記号
を符号化したものを出力する。

【００２６】また、正規表現による記号との合致は先頭
一致最長系列によって判定、処理を行い、後退参照変数
内の符号化の処理は再帰的に行う。すなわち、最初の符
号化処理を一時中断し、新たな符号化処理を行う。その
符号化処理が終了した時点で再び始めの符号化処理を再
開する。

【００２７】一方、復号に際して、復号表は符号表を符
号から記号への対応表とみなすことができる。したがっ
て、通常の符号語、すなわち長さ１以上の記号列に対応
する符号語に対しては、従来の復号化手法と同様に処理
可能である。したがって、ここでは前述の符号化の場合
と同様、正規表現に関する復号化に対する特別な手続き
のみ述べる。

【００２８】後退参照変数を含む符号語が復号器に入力
された場合、その符号語がいくつの後退参照変数を含む
かを符号表から算出し、再帰的に処理を行う。すなわ
ち、最初の復号処理を一時中断し、新たな復号処理を行
う。その復号処理が終了した時点で再び始めの復号処理
を再開する。

【００２９】以上述べた方法による適用例を以下に示
す。ただし、記号と符号語の対応はHuffman 符号などの
方式を用いるものとする。また、ここでの情報源として
は、ＨＴＭＬで記述された文書を仮定する。

【００３０】今、符号表として表１を用意する。

【００３１】

【表１】

【００３２】ここで、前述の処理にしたがって＜ＯＬ＞
＜ＬＩ＞Ａ＜ＯＬ＞＜ＬＩ＞Ｂ＜ＬＩ＞Ｃ＜／ＯＬ＞＜
／ＯＬ＞を入力すると、表１の符号表により、００１
０１１０００１０１１１０１０１１１１０
１０１が得られる。

【００３３】また、逆に上記符号語を入力することによ
り、上記記号に復元できる。

【００３４】以上の符号化復号化手法によって実現され
る情報変換装置の一例を次に説明する。

【００３５】図２は情報変換装置のシステム構成を示
す。図２においてＣＰＵ１、ＲＯＭ２、ＲＡＭ３、ディ
スプレイ４、入力装置５がバス６に接続されている。Ｃ
ＰＵ１はＲＯＭ２に格納された符号化、復号化プログラ
ム（図３、図４）を実行して符号化、復号化を行う。ま
た、Huffman 符号などの手法を用いて記号と符号語の割
当を行う。ディスプレイ４は、正規表現で表現する記号
の抽出時に、対象となる情報を表示する。ユーザはこの
表示を見て、本発明に関わり、後退参照付き正規表現で
示される構造を検出し、入力装置５からこの正規表現の
データを入力する。ＲＯＭ２は符号化、復号化処理で使
用される符号表（表１）を記憶する。なお、ＲＯＭ２や
ＲＡＭ３などのメモリは上記以外の形態で利用すること
ができる。

【００３６】入力装置５はキーボードによる入力、フロ
ッピーディスクなどの記憶媒体に記録された情報の読み
出し、外部装置からの通信手段によって実現される入力
である。変換の対象となる情報は該装置により入力され
る。

【００３７】図３は、上述の符号化処理を実行するため
の処理手順を示す。ＲＯＭ２上の符号表には上述の表１
に示す、記号、正規表現で記述された記号、区切り記号
と符号語の対応が登録されているものとする。

【００３８】図３のステップＳ３１では入力された記号
が上記符号表中の正規表現に合致するかを判定する処理
を行う。“＜ＯＬ＞＜ＬＩ＞Ａ＜ＯＬ＞＜ＬＩ＞Ｂ＜Ｌ
Ｉ＞Ｃ＜／ＯＬ＞＜／ＯＬ＞”では、“＜ＯＬ＞（．
＋）＜／ＯＬ＞”に合致するので、ステップＳ３２の処
理において、対応する符号語００を出力し、ステップＳ
３３を経由してＳ３４を処理する。ステップＳ３４にお
いては、後退参照変数＼１は“＜ＬＩ＞Ａ＜ＯＬ＞＜Ｌ
Ｉ＞Ｂ＜ＬＩ＞Ｃ＜／ＯＬ＞”であるので、現在の処理
を一時中断し、再びＳＴＡＲＴから符号化処理を行う。
“＜ＬＩ＞”は通常の文字列なので、ステップＳ３８で
記号の終端か否かを判定する。記号の終端ではないの
で、ステップＳ３９で符号語１０を出力する。次の符号
化対象である“Ａ”も正規表現ではないので、ステップ
Ｓ３１〜Ｓ３９を同様に処理する。

【００３９】一方、“＜ＯＬ＞＜ＬＩ＞Ｂ＜ＬＩ＞Ｃ＜
／ＯＬ＞”は“＜ＯＬ＞（．＋）＜／ＯＬ＞”に合致す
るので、ステップＳ３２〜Ｓ３４を処理し、ステップＳ
３４では、“＜ＬＩ＞Ｂ＜ＬＩ＞Ｃ”を対象に、再び再
帰実行のため、ステップＳ３１からの処理を実行する。
ステップＳ３９で“Ｃ”に対する符号語の出力後、ステ
ップＳ３１では処理する記号がないため、ステップＳ３
８の記号終端判定では肯定条件が処理され、“＜ＯＬ＞
＜ＬＩ＞Ｂ＜ＬＩ＞Ｃ＜／ＯＬ＞”に対応する再帰実行
の処理が終了される（ＥＮＤ）。その後、ステップＳ３
５〜Ｓ３７が実行される。ステップＳ３７の示すＮは後
退参照変数の数であり、この場合、Ｎ＝１なので、ステ
ップＳ３１〜Ｓ３８→ＥＮＤと処理されることにより、
“＜ＯＬ＞＜ＬＩ＞Ａ＜ＯＬ＞＜ＬＩ＞Ｂ＜ＬＩ＞Ｃ＜
／ＯＬ＞＜／ＯＬ＞”に対応する処理も終了する。さら
に、ステップＳ３５〜Ｓ３７→Ｓ３１〜Ｓ３８→ＥＮＤ
が実行され、ここで符号化処理は終了する。

【００４０】図４は上述の復号化処理を実行するための
処理手順を示す。ＲＯＭ２上の符号表には上述の表１に
示す、記号、正規表現で記述された記号、区切り記号と
符号語の対応が登録されているものとする。

【００４１】図４のステップＳ４１では入力された符号
語が上記符号表中の正規表現を含む記号に合致するかを
判定する処理を行う。００１０１１０００１０
１１１０１０１１１１０１０１では００が
“＜ＯＬ＞（．＋）＜／ＯＬ＞”に合致するので、ステ
ップＳ４２で記号“＜ＯＬ＞”を出力する。ここで、最
初に出力すべき記号が後退参照変数で示される記号であ
る場合、空列を出力する（何も出力しない）。次に、ス
テップＳ４３〜Ｓ４４を処理し、ステップＳ４４では復
号化処理のため、再びＳＴＡＲＴから再帰実行を行う。

【００４２】次の符号語１０は正規表現、区切り記号に
対応する符号語でもなく、かつ符号語の終端でもないの
で、対応する記号“＜ＬＩ＞”を出力する（ステップＳ
４１→Ｓ４７→Ｓ４８→Ｓ４９）。また、１１０も同様
である。

【００４３】次の符号語００はステップＳ４１〜Ｓ４４
と処理し、再帰実行に移る。そして、符号語０１でステ
ップＳ４１〜Ｓ４７→ＥＮＤと処理が進み、ステップＳ
４５〜Ｓ４６が処理される。ここで、Ｎは符号化時に出
力された区切り信号の数である。符号語００の場合はＮ
＝１なので、ステップＳ５０に進み、残りの記号“＜／
ＯＬ＞”が出力される。この時、残りの記号がなければ
空列を出力する（何も出力しない）。次の符号語も０１
なので、Ｓ４１〜Ｓ４７→ＥＮＤ→Ｓ４５〜Ｓ５０と進
む。

【００４４】次に、ステップＳ４１では処理する符号語
がないので、ステップＳ４１→Ｓ４７→Ｓ４８と処理が
実行され、Ｓ４８の肯定条件に合致するので、ステップ
Ｓ４８→ＥＮＤと実行され、復号化処理は終了する。

【００４５】本実施形態の他に次の形態を実施できる。

【００４６】１．上記符号表は、情報の種類毎に複数の
辞書を用意し、選択的に使用しても良いことは勿論であ
る。

【００４７】２．上述の実施形態では、パーソナルコン
ピュータが符号化、復号化する処理を説明しているが、
デジタルプロセッサ等をＩＣ化して符号、復号専用の回
路を作成し、通信装置等各種の情報処理機器に設置して
もよい。

【００４８】（第２実施形態）辞書に含まれる写像の数
が増えれば増えるほど辞書を格納する装置の記憶容量が
より必要となる。また、辞書を含めた上で符号化された
情報を伝送することを考えると、辞書の伝送に占めるオ
ーバーヘッドはより増大する。そのため写像δの集合を
単純に｛０，１｝に符号化するのではなく、情報源の文
法で決まる構造を拡張し、拡張した領域中における記号
の解釈を変えることで写像の記号表現を実現する。

【００４９】今、情報源Σ^* が有限集合だと仮定する。
この時、図５に示すようにＵＲＬの文法（構造）によっ
て決まる集合はＡのようにΣ^* の部分集合になる。

【００５０】ここで、図５のＡと交わらないΣ^* の部分
集合Ｂを定義し、集合Ｂ中では写像δ（ｘ，ｙ）による
像をｅｘ□（スペース）ｙのように表現する。これによ
り例えば、集合Ａのうち＾ｈｔｔｐ（．＋）ｗｗｗ（．
＋）ｇｏ＼．ｊｐは集合Ｂの要素ｅ＼１□＼２として表
現できる。なお、＼１，＼２は＾ｈｔｔｐ（．＋）ｗｗ
ｗ（．＋）ｇｏ＼．ｊｐの開きカッコに左から右の順で
番号をふった時、その番号に対応するカッコの対がマッ
チしたものと等価なものである。

【００５１】逆に集合Ｂの要素をδ^-1に相当する写像に
よって集合Ａに変換することにより、δによる前処理お
よびδ^-1による後処理を行って、情報源の構造を変換
し、Σ^* の符号化、復号化の枠組を同様に扱うことがで
きる。

【００５２】以上の方法を一般化し、適用する写像の順
番を決定するための処理を以下に示す。

【００５３】前処理時以下、辞書中に収められている写像について、ｉ番目の
写像の定義域をＤ_i 、値域をＲ_i とする。写像がｎ個定
義されている時、各々の写像の適用順序は以下の手続き
によって決定する。

【００５４】処理１．Ｄ_i ⊂Ｄ_j の時、δ_i はδ_j より
も先に適用する。

【００５５】処理２．処理１で順序関係が決まらないδ
_i ，δ_j において、Ｄ_i ⊂Ｒ_j またはＤ_i ∩Ｒ_j ＝φな
らばδ_i はδ_j よりも先に適用する。

【００５６】以上による処理によって決まる写像の適用
順序に関する半順序関係に以下の制約を加えることによ
って、全順序関係を決定する。

【００５７】処理３．δ_j より先に適用される写像δ_i
において、Ｒ_i ⊂Ｒ_j でないこと。

【００５８】処理４．処理１〜３で決まらない（全）順
序関係については任意の順序で適用する。

【００５９】次に、構造変換の処理について示す。

【００６０】以上の処理によって決定された順序にした
がって並び換えたδ₁ 〜δ_n を着目する元がその定義域
中に含まれなくなるまで適用する。今、写像δ_i につい
てこの操作を行っているとすると、像がｄｏｍ（δ_i ）
に含まれなくなった場合、次にこの像を定義域中に含む
写像δ_j （ｊ＞ｉ）を探し、前述の操作をδ_n まで繰り
返す。

【００６１】後処理時後処理時は前処理時で決定した順番とは逆にδの逆写像
に相当する写像に関して構造変換の手続きを繰り返す。

【００６２】しかし、前処理時に行う正規表現による文
字列のマッチングを用いた単純な文字列の書き換え操作
は、写像の各元に対して再び同じ領域に写像を行う「入
れ子」の構造を持つために、正規表現のクラスでは受理
するルールを表現することができない。したがって、例
えばルールのマッチング（文字列がある写像の定義域に
含まれるか否か）に正規表現を用い、マッチしたルール
に関する文字列に書き換えにはスタックを用いて、書き
換え部分を判定するなどといったアルゴリズムが必要と
なる。

【００６３】以上述べた情報変換方法の適用例を以下に
示す。ただし、｛０，１｝への符号化はHuffman 符号な
どの静的圧縮手法を用いるものとして、ここでは例示し
ない。また、情報源としてはＵＲＬのｈｔｔｐスキーム
を仮定する。

【００６４】今、辞書として表２に写像を用意する。

【００６５】

【表２】

【００６６】また、表２の写像の定義域を上から順に
Ａ，Ｂ，Ｃ，Ｄ、値域を同じく順にａ，ｂ，ｃ，ｄとす
ると、各写像の定義域と値域の包含関係は図６に示す通
りになる。

【００６７】まず、この辞書における写像の順序関係を
求める。

【００６８】１．・Ｄ⊂Ｂなので、δ₄ はδ₂ よりも
先に適用する。

【００６９】・Ｄ⊂Ａなので、δ₄ はδ₁ よりも先に適
用する。

【００７０】２．・Ａ∩ａ＝φ，Ａ∩ｂ＝φ，Ａ∩ｃ
＝φなのでδ₁ はδ₂ ，δ₃ よりも先に適用する。

【００７１】・Ｄ∩ｃ＝φなので、δ₄ はδ₃ よりも先
に適用する。

【００７２】以上の結果より写像の適用順序に関する半
順序関係

【００７３】

【外１】

【００７４】が得られる。

【００７５】ここで、それぞれの関係において定義域に
関する包含関係を満たしており（前処理における処理
３）、かつ定義域に関するその他の包含関係は決まらな
いのでδ₂ とδ₃ の順序関係はこの順とする（同じく処
理４）。

【００７６】したがって、写像の適用順序としてδ₄ ，
δ₁ ，δ₂ ，δ₃ が得られる。

【００７７】この後、この適用順序に従って、符号化対
象の情報（この場合、ＵＲＬ）を変換し、次に符号化す
る。

【００７８】次に後処理時の処理を示す。また、前提と
してＵＲＬは一行単位で入力されるものとする。

【００７９】処理１１．下記に示す正規表現によって表
される辞書（表３参照）の条件部を下から順に適用す
る。

【００８０】処理１２．ここで、ＵＲＬが条件にマッチ
したら処理１３へ、そうでなければ処理１９を行う。

【００８１】処理１３．マッチした条件の書き換え則に
おいて、後退参照変数（“＼数字”で表される文字列）
が一つしかない場合、＼１に参照部分を代入し、書き換
え則にしたがってＵＲＬの書き換えを行う。

【００８２】処理１４．そうでない場合、行末から□の
数をカウントする。この数を仮にｓとする。

【００８３】処理１５．次に、先頭から順に記号を読
み、□がｓ分だけ出現したところで、その処理を停止す
る。

【００８４】処理１６．処理の停止した位置から行頭ま
でを後退参照変数＼１に代入する。この時、条件にマッ
チした正規表現部分を除いたものを代入する。同様に停
止位置から行末部分を＼２に代入する。ただし、行末の
□は除く。

【００８５】処理１７．上記の処理で行われた後退参照
変数への代入を反映して、ＵＲＬの書き換えを行う。

【００８６】処理１８．書き換えたＵＲＬに同じ条件が
再びマッチするかを確認する。マッチしたら処理１３か
ら同じ処理を繰り返す。

【００８７】処理１９．適用対象を次の条件（上記条
件）にする。最初まで適用が終了した時点で、以上の処
理を終了する。

【００８８】

【表３】

【００８９】ここで、ＵＲＬ“ｈｔｔｐ：／／ｗｗｗ．
ａｂｃｄｅｆｇ．ｇｏ．ｊｐ／ｉｎｄｅｘ．ｈｔｍ”の
適用例を以下に示す。

【００９０】前処理で決定される写像の順位に従って変
換を行うと、

【００９１】

【外２】

【００９２】となる。

【００９３】後処理で書き換え則に従って書き換えら
れ、変換されたＵＲＬは次の通りとなる。

【００９４】

【外３】

【００９５】以上の情報変換方法に従って、情報変換を
行う情報変換装置の一例を次に説明する。

【００９６】情報変換装置のシステム構成は図２のシス
テム構成と同様とすることができるが、第２実施形態の
特徴を以下に説明する。図２において、ＣＰＵ１，ＲＯ
Ｍ２、ＲＡＭ３、ディスプレイ４、入力装置５がバス６
に接続されている。ＣＰＵ１はＲＯＭ２に格納された情
報変換および符号化／復号化プログラム（図６〜図８、
図１０、図１１）を実行して情報変換および符号化／復
号化を行う。また、図１２の辞書作成プログラムを実行
して上述の前処理、後処理で使用する辞書を作成する。
ディスプレイ４は、辞書作成時に、圧縮符号化の対象と
なる情報を表示する。ユーザはこの表示を見て、本発明
に関わり、後退参照付き正規表現で示される構造を検出
し、入力装置５から構造および対応する記号を入力す
る。ＲＡＭ３は前処理および後処理で使用される辞書デ
ータ（表２、表３）、符号化／復号化処理で使用される
各種データ（記号、後退参照付き正規表現の記号列等と
符号語とを互いに関連付けた符号表）を記憶する。な
お、ＲＯＭ２やＲＡＭ３等のメモリは上記以外の形態で
利用することができる。

【００９７】入力装置５はキーボードによる入力、フロ
ッピーディスクなどの記憶媒体に記録された情報の読み
出し、外部装置からの通信手段によって実現される入力
である。変換の対象となる情報は該装置により入力され
る。

【００９８】図７、図８は上述の前処理における辞書の
適用順序の決定処理手順を示す。処理の内容自体はすで
に説明済みなので（処理１〜処理４）、詳細な説明を省
略する。

【００９９】ＲＡＭ３上の辞書には上述の表２に示す正
規表現で記述された構造が写像の識別記号（δ）と関連
付けられて登録されているものとする。本実施形態では
変数ｉ，ｊの示す番号により選択された二つの写像につ
いて、それらの順番を登録する記憶装置（ＲＡＭ３）を
用いて、写像の適用順位を決定する。

【０１００】図７のステップＳ１において、仮の優先順
位としてδ₁ ，δ₂ ，δ₃ ，δ₄ の順で図９に示すよう
にＲＡＭ３に写像記号が記憶される。ただし、ここで行
われる優先順位付けは、ステップＳ５のδ_i とδ_j の順
番が記憶されたか否かを判定する処理には反映されな
い。一方、ステップＳ７で処理される写像に関する優先
順位の登録処理によって、写像の適用順序が記憶され
る。

【０１０１】すなわち、前述の表２を例に挙げると、Ｓ
１〜Ｓ１２→Ｓ８〜Ｓ９→Ｓ１２〜Ｓ４へと処理され、
Ｓ４においてＤ₁ とＤ₂ の包含関係が求められる。これ
らに関しては包含関係が定義できないので、Ｓ５〜Ｓ６
へと処理され、ステップＳ６ではＤ₁ ⊂Ｒ₂ またはＤ₁
∩Ｒ₂ ＝φの判定が行われる。Ｄ₁ ∩Ｒ₂ ＝φは成立す
るので、Ｓ６→Ｓ７〜Ｓ９→Ｓ４と処理される。

【０１０２】ここで、Ｓ４→Ｓ７となるのはｉ＝４、ｊ
＝１およびｉ＝４、ｊ＝２の時であり、Ｓ６→Ｓ７とな
るのはｉ＝１、ｊ＝２およびｉ＝１、ｊ＝３およびｉ＝
４、ｊ＝３の時である。このように、全ての場合に対し
てδ間の関係を求めるとＳ８においてｉ＝ｎ、ｊ＝ｎ＋
１になり、Ｓ８→Ｓ９→Ｓ１０→Ｓ１１→エンドと処理
が実行され、前処理時の写像の順番が決定される。

【０１０３】図７と一連の処理が終了すると図８の処理
を開始する。ステップＳ２４によりエラー処理した場
合、ここで用意された辞書に関しては適用順序が決定で
きないことになる。この場合、辞書を再構築するかある
いはその要素を削除するなどしてから、再び、適用順序
の決定処理を行う。

【０１０４】前述の表２の例ではＳ２４の肯定判定が成
立しないので、全てのｉ，ｊの組合せにおいて条件が比
較された後、正常終了する。

【０１０５】図８が正常終了した場合、まだ決まらない
優先順位について、ステップＳ１で決定した仮の優先順
位を適用することにより、辞書に関する適用順序の決定
処理、すなわち処理４に対応する処理が実現される。な
お、図７は処理１、処理２、図８は処理３に対応したフ
ローチャートである。

【０１０６】包含関係を調べ写像の適用順を決定するた
め処理には、いわゆるソーティング処理と呼ばれる各種
の情報処理手法を用いることができ、図８の処理手順に
限る必要はない。

【０１０７】このようにして全ての写像記号について比
較処理を行うと、ＲＡＭ３上に記憶されたδ₁ 〜δ₄ の
並び順（優先順）は図９に示すようにδ₄ ，δ₁ ，δ
₂ ，δ₃ の順に優先順位が定まる。

【０１０８】図７、図８の処理手順を実行して、写像の
優先順位を決定すると、ＣＰＵ１は図１０の処理手順に
より書き換え処理を実行する。なお、ＣＰＵ１は予め符
号化の対象となる情報、この場合、ＵＲＬの記号列（ｈ
ｔｔｐ：／／ｗｗｗ．ａｂｃｄｅｆｇ．ｇｏ．ｊｐ／ｉ
ｎｄｅｘ．ｈｔｍ）の入力を受け付け、ＲＡＭ３に記憶
しているものとする。

【０１０９】ＣＰＵ１は図１０において、優先順位の高
い写像（この場合、δ₄ ）を条件に設定する（ステップ
Ｓ５１）。ここで、表２の定義域を、同じく表２の値域
によって表される記号列に書き換えるか否かを判断する
条件とする。次に符号化の対象となる記号列ｈｔｔｐ：
／／ｗｗｗ．ａｂｃｄｅｆｇ．ｇｏ．ｊｐ／ｉｎｄｅ
ｘ．ｈｔｍの中に写像δ₄ に合致する条件（表２参照）
が成立するか否かを検出する。この例の場合は条件が成
立するので、ＲＡＭ３上の上記記号列は該当する部分は
c の表記に置換され、ｃ：／／□ａｂｃｄｅｆｇ．ｇ
ｏ．ｊｐ／ｉｎｄｅｘ．ｈｔｍ□と書き換えられる（ス
テップＳ５２→Ｓ５３）。

【０１１０】次に条件が優先順位に従って、写像δ₁ に
変更され、書き換えられた記号列の中で写像δ₁ に合致
する条件が成立するか否かが検出される。写像δ₁ は条
件に合致しない。手順はステップＳ５１〜Ｓ５４→Ｓ５
１へと進み、条件が写像δ₂に更新される。上記書き換
えられた記号列は写像δ₂ の条件には一致しないので条
件が写像δ₃ に更新される。写像δ₃ については上記書
き換えられた文字列が条件（表１参照）に一致するの
で、該当部分がｃ１と記号化され、書き換えられる記号
列はｃ１ｃ：／／□ａｂｃｄｅｆｇ／ｉｎｄｅｘ．ｈ
ｔｍ□□となる（ステップＳ５３）。

【０１１１】写像δ₃ が辞書に記載された最後の条件で
あるので、ステップＳ５４の最終判定でＹＥＳ判定が得
られる。この後、ＣＰＵ１はＲＡＭ３の符号表を用いて
従来と同様Huffman 符号などにより符号化を行う。

【０１１２】上述の書き換え処理により、ｈｔｔｐ、ｗ
ｗｗ、ｇｏ．ｊｐといった隣接していない複数の語が本
実施形態の前処理によりｃ１ｃと３個の記号で置き換え
られる。また、この記号化に使用される写像の種類は２
種類だけである。従来の単一の語を複数組み記載した辞
書を使用する記号化では上述の例では、ｈｔｔｐ、ｗｗ
ｗ、，ｇｏ、ｊｐの４種類の語を辞書に登録しておかな
ければならず、記号化した場合の文字数も最低で４であ
る。したがって、本実施形態の前処理が有効であること
が明らかであろう。

【０１１３】次に、前処理によって書き換えられた情報
を復元する処理を説明する。Huffman 符号などの復号処
理は周知であるので説明を省略する。

【０１１４】Huffman 符号などの復号後にはｃ１ｃ：／
／□ａｂｃｄｅｆｇ□／ｉｎｄｅｘ．ｈｔｍ□□の記号
列が得られる。

【０１１５】この記号列に対してＣＰＵ１は上述した後
処理を施す。この後処理をＣＰＵ１で実行するための処
理手順を図１１に示す。

【０１１６】なお、辞書には表２の条件と対応させて表
３の書き換え則および参照変数の数が記載されているも
のとする。

【０１１７】ＣＰＵ１は優先順位の高い条件（写像δ₃
に対応する条件“＾ｃ１”）の記号を復元条件として設
定する（ステップＳ１００）。次に設定した復元条件に
合致する記号列が復元対象の文字列にあるか否かを判定
する（ステップＳ１０１→Ｓ１０２）。

【０１１８】肯定判定が得られた場合には、辞書中の復
元条件に対応する参照変数の個数を読み取る。この例の
場合、復号対象の記号列ｃ１ｃ：／／□ａｂｃｄｅｆｇ
□／ｉｎｄｅｘ．ｈｔｍ□□の先頭部の記号化部分には
ｃ１が含まれており、参照変数の個数は２（表３参照）
であるので、手順はステップＳ１０３→Ｓ１０５へと進
み、行末から□記号の個数を計数する。この例の場合に
は計数結果として２が得られる。

【０１１９】これにより手順はステップＳ１０３→Ｓ１
０５へと進む。ステップＳ１０５〜Ｓ１０８の処理によ
りＣＰＵ１は書き換え則に従って、条件に合致するよう
にｃ１と□部分を置き換える。これにより、書き換えの
対象の記号列が書き換えられるとｃ：／／□ａｂｃｄｅ
ｆｇ．ｇｏ．ｊｐ／ｉｎｄｅｘ．ｈｔｍ□が得られる
（ステップＳ１０９）。

【０１２０】書き換えられた記号列の中には同じ条件
“＾ｃ１”に合致する記号列はないので、手順はステッ
プＳ１１０からステップＳ１００に戻り、優先順が次と
なる条件により復号を行う。次の条件となる“＾ｃ”に
合致する記号列が書き換え対象の文字列ｃ：／／□ａｂ
ｃｄｅｆｇ．ｇｏ．ｊｐ．／ｉｎｄｅｘ．ｈｔｍ□の中
に存在するので、上述と同様の処理手順が実行され、ｈ
ｔｔｐ：ａｂｃｄｅｆｇ．ｇｏ．ｊｐ／ｉｎｄｅｘ．ｈ
ｔｍと書き換えられる。

【０１２１】このようにして辞書に記載されている復号
条件について全てを適用するか、復号すべき記号がなく
なることがステップＳ１０１で検出されるとＣＰＵ１は
図１１の処理手順を終了する。

【０１２２】次に、上述した表２および表３を記載した
辞書を作成する手順を図１２を参照して説明する。

【０１２３】ユーザはキーボードからの指示で、変換対
象の記号列をディスプレイ４に表示させる（ステップＳ
２００）。この表示を見てユーザは記号列の中の後退参
照付き記号列に変換可能な語を目視確認し、次に表２お
よび表３に示される情報をキーボードから入力し、ＲＡ
Ｍ３上の辞書に登録する（ステップＳ２１０→Ｓ２２
０）。複数の条件がある場合には以上の処理を繰り返す
（ステップＳ２００〜Ｓ２３０のループ処理）。なお、
辞書に登録する情報はキーボードに限らず、通信、記録
媒体より入力することができる。

【０１２４】本実施形態の他に次の形態を実施できる。

【０１２５】１）上述実施形態では、前処理のための条
件（表２）と後処理のための条件（表３）とを同一の辞
書に記載しているが、別個に辞書を用意してもよい。た
とえば、送信側から受信側に圧縮、符号化した情報を転
送をする場合、送信側には表２を記載した辞書を設置
し、受信側には表３を記載した辞書を設置する。また、
送信側から受信側に辞書を送信するようにしてもよい。
情報処理装置が装着の記録媒体、たとえば、フロッピー
ディスクに情報を書込み、読み出す場合に情報の圧縮、
伸長を行うことがある。このような場合には上述実施形
態のように表２、表３を一体化した辞書を用意するとよ
い。

【０１２６】２）上記辞書は、上述実施形態のようにそ
の都度作成してもよいが、圧縮符号化の対象の情報のデ
ータ構造が固定化されている場合には保存用の記録媒
体、たとえば、ＲＯＭやハードディスク記憶装置に辞書
を記憶しておくとよい。また、情報の種類毎に複数の辞
書を用意し選択的に使用してもよいことは勿論である。

【０１２７】３）上述実施形態では、パーソナルコンピ
ュータが圧縮伸長する処理を説明しているが、デジタル
プロセッサ等をＩＣ化して圧縮／伸長専用の回路を作成
し、通信装置等各種の情報処理機器に設置してもよい。

【０１２８】

【発明の効果】以上、説明したように、請求項１、３の
発明によれば、記号と符号語の対応関係を示す表におい
て、記号の表現に後退参照付き正規表現を用いることに
よって、後退表現付き正規表現でその一部または全ての
構造が表現できる情報源の符号化における圧縮効率を高
めることができる。また、符号化された符号語を復号化
することができる。

【０１２９】請求項２の発明によれば、記号列の符号化
に際し、あらかじめ記号列を後退参照つき正規表現によ
って記述された一連の規則により書換えを行うことによ
って、後退参照付き正規表現でその一部または全ての構
造が実現できる情報源の符号化における圧縮効率を高め
ることができる。また、前記書き換えた記号列の復号後
に、前記と逆の書換えを行うことにより、元の記号列に
復元できる。

【０１３０】請求項４、５の発明では、（第１、第２
の）記憶手段に（第１、第３の）記号列と、対応の符号
語あるいは第４の記号列を登録可能とすることにより、
ユーザは、自己が頻繁に使用する記号列、たとえば、Ｕ
ＲＬ等を符号化（記号化）することができる。

【図面の簡単な説明】

【図１】従来の記号の区切り方法と本発明に関わる記号
（語）の区切り方法を示す説明図である。

【図２】本発明実施形態のシステム構成を示すブロック
図である。

【図３】本発明実施形態の符号化のための処理手順を示
すフローチャートである。

【図４】本発明実施形態の復号化のための処理手順を示
すフローチャートである。

【図５】情報の包含関係を示す説明図である。

【図６】定義域と値域の包含関係を示す説明図である。

【図７】写像の優先順位を決定するための処理手順を示
すフローチャートである。

【図８】写像の優先順位を決定するための処理手順を示
すフローチャートである。

【図９】図７、図８の処理手順を説明するための説明図
である。

【図１０】本発明実施形態の書き換えの処理手順を示す
フローチャートである。

【図１１】本発明実施形態の後処理のための処理手順を
示すフローチャートである。

【図１２】本発明実施形態の辞書作成のための処理手順
を示すフローチャートである。

【符号の説明】

１ＣＰＵ２ＲＯＭ３ＲＡＭ４ディスプレイ５入力装置

Claims

【特許請求の範囲】

【請求項１】記号、後退参照付き正規表現で記述され
た第１の記号列および区切り記号と、前記記号、第１の
記号列および区切り信号のそれぞれに対応する符号語と
を記憶した第１の記憶手段と、前記記号からなる第２の記号列を入力し、前記第１の記
憶手段に記憶された内容に基づき前記符号語からなる第
１の符号語列に符号化する符号化手段とを具えたことを
特徴とする情報変換装置。
【請求項２】後退参照付き正規表現で記述された第３
の記号列と、前記第３の記号列中に含まれる後退参照変
数および記号からなる第４の記号列との対応関係を記憶
した第２の記憶手段と、前記第２の記憶手段の記憶内容に基づき前記記号からな
る第５の記号列より前記第３の記号列に合致するものを
検出し、対応する前記第４の記号列を出力する検出手段
と、前記検出手段から出力された第４の記号列を用いて、前
記第５の記号列を前記記号からなる第６の記号列に書き
換える書換手段とを具えたことを特徴とする情報変換装
置。
【請求項３】記号、後退参照付き正規表現で記述され
た第１の記号列および区切り記号と、前記記号、第１の
記号列および区切り記号のそれぞれに対応する符号語と
を記憶した第１の記憶手段と、前記符号語からなる第２の符号語列を入力し、前記第１
の記憶手段に記憶された内容に基づき前記記号からなる
第７の記号列に復号化する復号化手段とを具えたことを
特徴とする情報変換装置。
【請求項４】請求項１または３のいずれかに記載の情
報変換装置において、前記第１の記憶手段は、前記異な
る複数の記号、前記異なる複数の第１の記号列および対
応する前記異なる複数の符号語を登録する符号語登録手
段をさらに有することを特徴とする情報変換装置。
【請求項５】請求項２に記載の情報変換装置におい
て、前記第２の記憶手段は、前記異なる複数の第３の記
号列および前記異なる複数の第４の記号列を登録する記
号列登録手段をさらに有することを特徴とする情報変換
装置。