JPH11177438A - 情報変換装置 - Google Patents

情報変換装置

Info

Publication number
JPH11177438A
JPH11177438A JP34330097A JP34330097A JPH11177438A JP H11177438 A JPH11177438 A JP H11177438A JP 34330097 A JP34330097 A JP 34330097A JP 34330097 A JP34330097 A JP 34330097A JP H11177438 A JPH11177438 A JP H11177438A
Authority
JP
Japan
Prior art keywords
symbol
processing
symbol string
string
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP34330097A
Other languages
English (en)
Inventor
Riyuuta Terajima
立太 寺嶌
Toshihiro Wakita
敏裕 脇田
Takayuki Nagaya
隆之 長屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Original Assignee
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Central R&D Labs Inc filed Critical Toyota Central R&D Labs Inc
Priority to JP34330097A priority Critical patent/JPH11177438A/ja
Publication of JPH11177438A publication Critical patent/JPH11177438A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 情報の圧縮効率を高める 【解決手段】 RAM3上の辞書に登録された語の並び
の構造に合致する複数で互いの位置が離れた語が変換対
象の記号列に存在する場合には、CPU1はこれらの語
を1つの記号に記号化する。辞書に登録される語の並び
の構造は後退参照付き正規表現で表される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、記号列を符号化お
よび/または復号化する情報変換装置に関する。
【0002】
【従来の技術】圧縮符号化方法としてはHuffman 符号化
方法のように記号と記号の出現確率(情報源のモデル)
が与えられた場合、常に最小の平均符号語長を使用する
方法がよく知られている。従来この種の圧縮符号化で
は、図1の(a)に示すように圧縮符号化は各記号に対
して施される。しかしながら複数の記号の並び(記号
列)に対して符号化を行うことによって、より効率の良
い圧縮を実現できる場合がある。この時、一般に並びの
長さを長くすればするほど圧縮における効果は高くな
る。すなわち、あらかじめ決められた出現頻度の高い記
号列を記号とみなしてHuffman 符号を適用すれば良い。
ここで、これらの記号と符号語の対応を記載したものは
辞書と呼ばれる。
【0003】ここで、辞書を利用した符号の割当の例を
図1の(b)に示す。“h”“t”“t”“p”の並び
を“http”に、“w”“w”“w”の並びを“ww
w”に、“g”“o”“.”“j”“p”の並びを“g
o.jp”に辞書に割り当てる。“http”,“ww
w”,“go.jp”はいずれもURL中に現れる。記
号の並びとして出現頻度の高いものである。
【0004】なお、URL(Uniform Resource Locator)
はインターネット上のサーバに記憶された文書の所在先
を示し、クライアントが上記文書を読出すときにURL
を指定する。
【0005】URLはRFC1738で示されるような
文法規則に合致しなければならない。すなわち、「“h
ttp://”で始まり、ホスト名あるいはホスト名の
後に“:”を介し接続ポート番号が続き、その後英数字
などから構成されるファイルの位置を表すパスによって
構成される」のような、文法規則から定まるいくつかの
構造の組合せによってURLは構成されている。
【0006】
【発明が解決しようとする課題】以上、説明したように
符号化対象の記号列の中の出現頻度が高い記号の並びに
ついて辞書を参照して圧縮符号化する情報変換方法の提
案により、圧縮率が向上したが、なお、圧縮率の向上が
求められている。
【0007】そこで、本発明の目的は、上述の点に鑑み
て、辞書を使用し、さらに高い圧縮率で符号化を行うこ
とが可能な情報変換装置を提供することにある。
【0008】
【課題を解決するための手段】このような目的を達成す
るために、請求項1の発明は、記号、後退参照付き正規
表現で記述された第1の記号列および区切り記号と、前
記記号、第1の記号列および区切り信号のそれぞれに対
応する符号語とを記憶した第1の記憶手段と、前記記号
からなる第2の記号列を入力し、前記第1の記憶手段に
記憶された内容に基づき前記符号語からなる第1の符号
語列に符号化する符号化手段とを具えたことを特徴とす
る。
【0009】請求項2の発明は、後退参照付き正規表現
で記述された第3の記号列と、前記第3の記号列中に含
まれる後退参照変数および記号からなる第4の記号列と
の対応関係を記憶した第2の記憶手段と、前記第2の記
憶手段の記憶内容に基づき前記記号からなる第5の記号
列より前記第3の記号列に合致するものを検出し、対応
する前記第4の記号列を出力する検出手段と、前記検出
手段から出力された第4の記号列を用いて、前記第5の
記号列を前記記号からなる第6の記号列に書き換える書
換手段とを具えたことを特徴とする。
【0010】請求項3の発明は、記号、後退参照付き正
規表現で記述された第1の記号列および区切り記号と、
前記記号、第1の記号列および区切り記号のそれぞれに
対応する符号語とを記憶した第1の記憶手段と、前記符
号語からなる第2の符号語列を入力し、前記第1の記憶
手段に記憶された内容に基づき前記記号からなる第7の
記号列に復号化する復号化手段とを具えたことを特徴と
する。
【0011】請求項4の発明は、請求項1または3のい
ずれかに記載の情報変換装置において、前記第1の記憶
手段は、前記異なる複数の記号、前記異なる複数の第1
の記号列および対応する前記異なる複数の符号語を登録
する符号語登録手段をさらに有することを特徴とする。
【0012】請求項5の発明は、請求項2に記載の情報
変換装置において、前記第2の記憶手段は、前記異なる
複数の第3の記号列および前記異なる複数の第4の記号
列を登録する記号列登録手段をさらに有することを特徴
とする。
【0013】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。
【0014】(第1実施形態)辞書の正規表現への拡張
について説明する。
【0015】本実施の形態では、従来の技術の欄で説明
したURLを構成する文字列の出現順序が、例えば“h
ttp”,“www”,“go.jp”のように定まっ
ていることに着目し、これらの記号列を個別の記号列と
してとらえるのではなく、後退参照付きの正規表現で表
わすことに第1の特徴がある。さらにこれらの記号列を
URLを構成する一つの要素として扱うことができるよ
うに従来の辞書の拡張を行うことに第2の特徴がある。
これにより、いくつかの文字列の間にとびとびに出現す
る文字列を辞書中で一つの構造として扱うことが可能に
なる。
【0016】具体的には、URLを構成する記号の集合
をΣとする時、s∈定義域Σ* に対し、 δi :s×s×... ×s→s なる写像δi すなわち、対応関係を定義し、δi の定義
域の表現方法として後退参照つきの正規表現(以下、正
規表現とは後退参照付きの正規表現を表す。)を用いた
辞書を構成する。なお、後退参照付きの正規表現につい
ての文献には、「Alfred V.AHO、仙波一郎訳、文字列中
のパターン照合のためのアルゴリズム、HANDBOOK OF TH
EORETICAL COMPUTER SCIENCE、第5章、Elesevier Scie
nce Publishers B.V., 1990 」がある。
【0017】例えば、δとして dom(δ):^http(.+)www(.+)go
\jp とすると、“http://www.abcdefg.
go.jp/index.htm”は“δ(://,a
bcdefg)/index.htm”と表現できる。
【0018】後退参照付き正規表現で表現する記号は以
下のように決定する。
【0019】・情報源に後退参照付き正規表現で受理さ
れる構造が定義されている場合、それを記号とみなす。
【0020】・情報源において統計的に出現確率の高い
後退参照付き正規表現で受理される語が出現する場合、
それを記号とみなす。
【0021】このようにして決定された記号について、
ハフマン符号化などの手法を用いて、記号の出現頻度に
応じた符号割当を行い、符号表を生成する。その際、記
号の中に後述する「区切り記号」を含めて符号割当を行
う。
【0022】区切り記号の出現回数は次式で求められ
る。
【0023】
【数1】
【0024】ここで、符号化の際の手続きについて述べ
る。記号が長さ1以上の文字列の場合、正規表現で受理
されるが、これらについては通常の符号化手法における
文字列に対する手続きと同じ手続きで処理できるため、
ここでは後退参照の変数を含む正規表現に関する符号化
に対する特別な手続きのみ述べる。また、ここでは一意
復号可能な符号を前提とする。
【0025】符号器中の照合器によって、入力された記
号が符号表中にある後退参照付き正規表現で受理可能で
あると判断された場合、符号器は入力記号に対応する符
号を出力した後、後退参照変数で表される記号を符号化
したものを出力し、続けて区切り記号を符号化したもの
を出力する。この時、一つの記号に含まれる後退参照変
数が複数ある場合、各々の変数の出力の間に区切り記号
を符号化したものを出力する。
【0026】また、正規表現による記号との合致は先頭
一致最長系列によって判定、処理を行い、後退参照変数
内の符号化の処理は再帰的に行う。すなわち、最初の符
号化処理を一時中断し、新たな符号化処理を行う。その
符号化処理が終了した時点で再び始めの符号化処理を再
開する。
【0027】一方、復号に際して、復号表は符号表を符
号から記号への対応表とみなすことができる。したがっ
て、通常の符号語、すなわち長さ1以上の記号列に対応
する符号語に対しては、従来の復号化手法と同様に処理
可能である。したがって、ここでは前述の符号化の場合
と同様、正規表現に関する復号化に対する特別な手続き
のみ述べる。
【0028】後退参照変数を含む符号語が復号器に入力
された場合、その符号語がいくつの後退参照変数を含む
かを符号表から算出し、再帰的に処理を行う。すなわ
ち、最初の復号処理を一時中断し、新たな復号処理を行
う。その復号処理が終了した時点で再び始めの復号処理
を再開する。
【0029】以上述べた方法による適用例を以下に示
す。ただし、記号と符号語の対応はHuffman 符号などの
方式を用いるものとする。また、ここでの情報源として
は、HTMLで記述された文書を仮定する。
【0030】今、符号表として表1を用意する。
【0031】
【表1】
【0032】ここで、前述の処理にしたがって<OL>
<LI>A<OL><LI>B<LI>C</OL><
/OL>を入力すると、表1の符号表により、00 1
0110 00 10 1110 10 1111 0
1 01が得られる。
【0033】また、逆に上記符号語を入力することによ
り、上記記号に復元できる。
【0034】以上の符号化復号化手法によって実現され
る情報変換装置の一例を次に説明する。
【0035】図2は情報変換装置のシステム構成を示
す。図2においてCPU1、ROM2、RAM3、ディ
スプレイ4、入力装置5がバス6に接続されている。C
PU1はROM2に格納された符号化、復号化プログラ
ム(図3、図4)を実行して符号化、復号化を行う。ま
た、Huffman 符号などの手法を用いて記号と符号語の割
当を行う。ディスプレイ4は、正規表現で表現する記号
の抽出時に、対象となる情報を表示する。ユーザはこの
表示を見て、本発明に関わり、後退参照付き正規表現で
示される構造を検出し、入力装置5からこの正規表現の
データを入力する。ROM2は符号化、復号化処理で使
用される符号表(表1)を記憶する。なお、ROM2や
RAM3などのメモリは上記以外の形態で利用すること
ができる。
【0036】入力装置5はキーボードによる入力、フロ
ッピーディスクなどの記憶媒体に記録された情報の読み
出し、外部装置からの通信手段によって実現される入力
である。変換の対象となる情報は該装置により入力され
る。
【0037】図3は、上述の符号化処理を実行するため
の処理手順を示す。ROM2上の符号表には上述の表1
に示す、記号、正規表現で記述された記号、区切り記号
と符号語の対応が登録されているものとする。
【0038】図3のステップS31では入力された記号
が上記符号表中の正規表現に合致するかを判定する処理
を行う。“<OL><LI>A<OL><LI>B<L
I>C</OL></OL>”では、“<OL>(.
+)</OL>”に合致するので、ステップS32の処
理において、対応する符号語00を出力し、ステップS
33を経由してS34を処理する。ステップS34にお
いては、後退参照変数\1は“<LI>A<OL><L
I>B<LI>C</OL>”であるので、現在の処理
を一時中断し、再びSTARTから符号化処理を行う。
“<LI>”は通常の文字列なので、ステップS38で
記号の終端か否かを判定する。記号の終端ではないの
で、ステップS39で符号語10を出力する。次の符号
化対象である“A”も正規表現ではないので、ステップ
S31〜S39を同様に処理する。
【0039】一方、“<OL><LI>B<LI>C<
/OL>”は“<OL>(.+)</OL>”に合致す
るので、ステップS32〜S34を処理し、ステップS
34では、“<LI>B<LI>C”を対象に、再び再
帰実行のため、ステップS31からの処理を実行する。
ステップS39で“C”に対する符号語の出力後、ステ
ップS31では処理する記号がないため、ステップS3
8の記号終端判定では肯定条件が処理され、“<OL>
<LI>B<LI>C</OL>”に対応する再帰実行
の処理が終了される(END)。その後、ステップS3
5〜S37が実行される。ステップS37の示すNは後
退参照変数の数であり、この場合、N=1なので、ステ
ップS31〜S38→ENDと処理されることにより、
“<OL><LI>A<OL><LI>B<LI>C<
/OL></OL>”に対応する処理も終了する。さら
に、ステップS35〜S37→S31〜S38→END
が実行され、ここで符号化処理は終了する。
【0040】図4は上述の復号化処理を実行するための
処理手順を示す。ROM2上の符号表には上述の表1に
示す、記号、正規表現で記述された記号、区切り記号と
符号語の対応が登録されているものとする。
【0041】図4のステップS41では入力された符号
語が上記符号表中の正規表現を含む記号に合致するかを
判定する処理を行う。00 10 110 00 10
1110 10 1111 01 01では00が
“<OL>(.+)</OL>”に合致するので、ステ
ップS42で記号“<OL>”を出力する。ここで、最
初に出力すべき記号が後退参照変数で示される記号であ
る場合、空列を出力する(何も出力しない)。次に、ス
テップS43〜S44を処理し、ステップS44では復
号化処理のため、再びSTARTから再帰実行を行う。
【0042】次の符号語10は正規表現、区切り記号に
対応する符号語でもなく、かつ符号語の終端でもないの
で、対応する記号“<LI>”を出力する(ステップS
41→S47→S48→S49)。また、110も同様
である。
【0043】次の符号語00はステップS41〜S44
と処理し、再帰実行に移る。そして、符号語01でステ
ップS41〜S47→ENDと処理が進み、ステップS
45〜S46が処理される。ここで、Nは符号化時に出
力された区切り信号の数である。符号語00の場合はN
=1なので、ステップS50に進み、残りの記号“</
OL>”が出力される。この時、残りの記号がなければ
空列を出力する(何も出力しない)。次の符号語も01
なので、S41〜S47→END→S45〜S50と進
む。
【0044】次に、ステップS41では処理する符号語
がないので、ステップS41→S47→S48と処理が
実行され、S48の肯定条件に合致するので、ステップ
S48→ENDと実行され、復号化処理は終了する。
【0045】本実施形態の他に次の形態を実施できる。
【0046】1.上記符号表は、情報の種類毎に複数の
辞書を用意し、選択的に使用しても良いことは勿論であ
る。
【0047】2.上述の実施形態では、パーソナルコン
ピュータが符号化、復号化する処理を説明しているが、
デジタルプロセッサ等をIC化して符号、復号専用の回
路を作成し、通信装置等各種の情報処理機器に設置して
もよい。
【0048】(第2実施形態)辞書に含まれる写像の数
が増えれば増えるほど辞書を格納する装置の記憶容量が
より必要となる。また、辞書を含めた上で符号化された
情報を伝送することを考えると、辞書の伝送に占めるオ
ーバーヘッドはより増大する。そのため写像δの集合を
単純に{0,1}に符号化するのではなく、情報源の文
法で決まる構造を拡張し、拡張した領域中における記号
の解釈を変えることで写像の記号表現を実現する。
【0049】今、情報源Σ* が有限集合だと仮定する。
この時、図5に示すようにURLの文法(構造)によっ
て決まる集合はAのようにΣ* の部分集合になる。
【0050】ここで、図5のAと交わらないΣ* の部分
集合Bを定義し、集合B中では写像δ(x,y)による
像をex□(スペース)yのように表現する。これによ
り例えば、集合Aのうち^http(.+)www(.
+)go\.jpは集合Bの要素e\1□\2として表
現できる。なお、\1,\2は^http(.+)ww
w(.+)go\.jpの開きカッコに左から右の順で
番号をふった時、その番号に対応するカッコの対がマッ
チしたものと等価なものである。
【0051】逆に集合Bの要素をδ-1に相当する写像に
よって集合Aに変換することにより、δによる前処理お
よびδ-1による後処理を行って、情報源の構造を変換
し、Σ* の符号化、復号化の枠組を同様に扱うことがで
きる。
【0052】以上の方法を一般化し、適用する写像の順
番を決定するための処理を以下に示す。
【0053】前処理時 以下、辞書中に収められている写像について、i番目の
写像の定義域をDi 、値域をRi とする。写像がn個定
義されている時、各々の写像の適用順序は以下の手続き
によって決定する。
【0054】処理1.Di ⊂Dj の時、δi はδj より
も先に適用する。
【0055】処理2.処理1で順序関係が決まらないδ
i ,δj において、Di ⊂Rj またはDi ∩Rj =φな
らばδi はδj よりも先に適用する。
【0056】以上による処理によって決まる写像の適用
順序に関する半順序関係に以下の制約を加えることによ
って、全順序関係を決定する。
【0057】処理3.δj より先に適用される写像δi
において、Ri ⊂Rj でないこと。
【0058】処理4.処理1〜3で決まらない(全)順
序関係については任意の順序で適用する。
【0059】次に、構造変換の処理について示す。
【0060】以上の処理によって決定された順序にした
がって並び換えたδ1 〜δn を着目する元がその定義域
中に含まれなくなるまで適用する。今、写像δi につい
てこの操作を行っているとすると、像がdom(δi
に含まれなくなった場合、次にこの像を定義域中に含む
写像δj (j>i)を探し、前述の操作をδn まで繰り
返す。
【0061】後処理時 後処理時は前処理時で決定した順番とは逆にδの逆写像
に相当する写像に関して構造変換の手続きを繰り返す。
【0062】しかし、前処理時に行う正規表現による文
字列のマッチングを用いた単純な文字列の書き換え操作
は、写像の各元に対して再び同じ領域に写像を行う「入
れ子」の構造を持つために、正規表現のクラスでは受理
するルールを表現することができない。したがって、例
えばルールのマッチング(文字列がある写像の定義域に
含まれるか否か)に正規表現を用い、マッチしたルール
に関する文字列に書き換えにはスタックを用いて、書き
換え部分を判定するなどといったアルゴリズムが必要と
なる。
【0063】以上述べた情報変換方法の適用例を以下に
示す。ただし、{0,1}への符号化はHuffman 符号な
どの静的圧縮手法を用いるものとして、ここでは例示し
ない。また、情報源としてはURLのhttpスキーム
を仮定する。
【0064】今、辞書として表2に写像を用意する。
【0065】
【表2】
【0066】また、表2の写像の定義域を上から順に
A,B,C,D、値域を同じく順にa,b,c,dとす
ると、各写像の定義域と値域の包含関係は図6に示す通
りになる。
【0067】まず、この辞書における写像の順序関係を
求める。
【0068】1. ・D⊂Bなので、δ4 はδ2 よりも
先に適用する。
【0069】・D⊂Aなので、δ4 はδ1 よりも先に適
用する。
【0070】2. ・A∩a=φ,A∩b=φ,A∩c
=φなのでδ1 はδ2 ,δ3 よりも先に適用する。
【0071】・D∩c=φなので、δ4 はδ3 よりも先
に適用する。
【0072】以上の結果より写像の適用順序に関する半
順序関係
【0073】
【外1】
【0074】が得られる。
【0075】ここで、それぞれの関係において定義域に
関する包含関係を満たしており(前処理における処理
3)、かつ定義域に関するその他の包含関係は決まらな
いのでδ2 とδ3 の順序関係はこの順とする(同じく処
理4)。
【0076】したがって、写像の適用順序としてδ4
δ1 ,δ2 ,δ3 が得られる。
【0077】この後、この適用順序に従って、符号化対
象の情報(この場合、URL)を変換し、次に符号化す
る。
【0078】次に後処理時の処理を示す。また、前提と
してURLは一行単位で入力されるものとする。
【0079】処理11.下記に示す正規表現によって表
される辞書(表3参照)の条件部を下から順に適用す
る。
【0080】処理12.ここで、URLが条件にマッチ
したら処理13へ、そうでなければ処理19を行う。
【0081】処理13.マッチした条件の書き換え則に
おいて、後退参照変数(“\数字”で表される文字列)
が一つしかない場合、\1に参照部分を代入し、書き換
え則にしたがってURLの書き換えを行う。
【0082】処理14.そうでない場合、行末から□の
数をカウントする。この数を仮にsとする。
【0083】処理15.次に、先頭から順に記号を読
み、□がs分だけ出現したところで、その処理を停止す
る。
【0084】処理16.処理の停止した位置から行頭ま
でを後退参照変数\1に代入する。この時、条件にマッ
チした正規表現部分を除いたものを代入する。同様に停
止位置から行末部分を\2に代入する。ただし、行末の
□は除く。
【0085】処理17.上記の処理で行われた後退参照
変数への代入を反映して、URLの書き換えを行う。
【0086】処理18.書き換えたURLに同じ条件が
再びマッチするかを確認する。マッチしたら処理13か
ら同じ処理を繰り返す。
【0087】処理19.適用対象を次の条件(上記条
件)にする。最初まで適用が終了した時点で、以上の処
理を終了する。
【0088】
【表3】
【0089】ここで、URL“http://www.
abcdefg.go.jp/index.htm”の
適用例を以下に示す。
【0090】前処理で決定される写像の順位に従って変
換を行うと、
【0091】
【外2】
【0092】となる。
【0093】後処理で書き換え則に従って書き換えら
れ、変換されたURLは次の通りとなる。
【0094】
【外3】
【0095】以上の情報変換方法に従って、情報変換を
行う情報変換装置の一例を次に説明する。
【0096】情報変換装置のシステム構成は図2のシス
テム構成と同様とすることができるが、第2実施形態の
特徴を以下に説明する。図2において、CPU1,RO
M2、RAM3、ディスプレイ4、入力装置5がバス6
に接続されている。CPU1はROM2に格納された情
報変換および符号化/復号化プログラム(図6〜図8、
図10、図11)を実行して情報変換および符号化/復
号化を行う。また、図12の辞書作成プログラムを実行
して上述の前処理、後処理で使用する辞書を作成する。
ディスプレイ4は、辞書作成時に、圧縮符号化の対象と
なる情報を表示する。ユーザはこの表示を見て、本発明
に関わり、後退参照付き正規表現で示される構造を検出
し、入力装置5から構造および対応する記号を入力す
る。RAM3は前処理および後処理で使用される辞書デ
ータ(表2、表3)、符号化/復号化処理で使用される
各種データ(記号、後退参照付き正規表現の記号列等と
符号語とを互いに関連付けた符号表)を記憶する。な
お、ROM2やRAM3等のメモリは上記以外の形態で
利用することができる。
【0097】入力装置5はキーボードによる入力、フロ
ッピーディスクなどの記憶媒体に記録された情報の読み
出し、外部装置からの通信手段によって実現される入力
である。変換の対象となる情報は該装置により入力され
る。
【0098】図7、図8は上述の前処理における辞書の
適用順序の決定処理手順を示す。処理の内容自体はすで
に説明済みなので(処理1〜処理4)、詳細な説明を省
略する。
【0099】RAM3上の辞書には上述の表2に示す正
規表現で記述された構造が写像の識別記号(δ)と関連
付けられて登録されているものとする。本実施形態では
変数i,jの示す番号により選択された二つの写像につ
いて、それらの順番を登録する記憶装置(RAM3)を
用いて、写像の適用順位を決定する。
【0100】図7のステップS1において、仮の優先順
位としてδ1 ,δ2 ,δ3 ,δ4 の順で図9に示すよう
にRAM3に写像記号が記憶される。ただし、ここで行
われる優先順位付けは、ステップS5のδi とδj の順
番が記憶されたか否かを判定する処理には反映されな
い。一方、ステップS7で処理される写像に関する優先
順位の登録処理によって、写像の適用順序が記憶され
る。
【0101】すなわち、前述の表2を例に挙げると、S
1〜S12→S8〜S9→S12〜S4へと処理され、
S4においてD1 とD2 の包含関係が求められる。これ
らに関しては包含関係が定義できないので、S5〜S6
へと処理され、ステップS6ではD1 ⊂R2 またはD1
∩R2 =φの判定が行われる。D1 ∩R2 =φは成立す
るので、S6→S7〜S9→S4と処理される。
【0102】ここで、S4→S7となるのはi=4、j
=1およびi=4、j=2の時であり、S6→S7とな
るのはi=1、j=2およびi=1、j=3およびi=
4、j=3の時である。このように、全ての場合に対し
てδ間の関係を求めるとS8においてi=n、j=n+
1になり、S8→S9→S10→S11→エンドと処理
が実行され、前処理時の写像の順番が決定される。
【0103】図7と一連の処理が終了すると図8の処理
を開始する。ステップS24によりエラー処理した場
合、ここで用意された辞書に関しては適用順序が決定で
きないことになる。この場合、辞書を再構築するかある
いはその要素を削除するなどしてから、再び、適用順序
の決定処理を行う。
【0104】前述の表2の例ではS24の肯定判定が成
立しないので、全てのi,jの組合せにおいて条件が比
較された後、正常終了する。
【0105】図8が正常終了した場合、まだ決まらない
優先順位について、ステップS1で決定した仮の優先順
位を適用することにより、辞書に関する適用順序の決定
処理、すなわち処理4に対応する処理が実現される。な
お、図7は処理1、処理2、図8は処理3に対応したフ
ローチャートである。
【0106】包含関係を調べ写像の適用順を決定するた
め処理には、いわゆるソーティング処理と呼ばれる各種
の情報処理手法を用いることができ、図8の処理手順に
限る必要はない。
【0107】このようにして全ての写像記号について比
較処理を行うと、RAM3上に記憶されたδ1 〜δ4
並び順(優先順)は図9に示すようにδ4 ,δ1 ,δ
2 ,δ3 の順に優先順位が定まる。
【0108】図7、図8の処理手順を実行して、写像の
優先順位を決定すると、CPU1は図10の処理手順に
より書き換え処理を実行する。なお、CPU1は予め符
号化の対象となる情報、この場合、URLの記号列(h
ttp://www.abcdefg.go.jp/i
ndex.htm)の入力を受け付け、RAM3に記憶
しているものとする。
【0109】CPU1は図10において、優先順位の高
い写像(この場合、δ4 )を条件に設定する(ステップ
S51)。ここで、表2の定義域を、同じく表2の値域
によって表される記号列に書き換えるか否かを判断する
条件とする。次に符号化の対象となる記号列http:
//www.abcdefg.go.jp/inde
x.htmの中に写像δ4 に合致する条件(表2参照)
が成立するか否かを検出する。この例の場合は条件が成
立するので、RAM3上の上記記号列は該当する部分は
c の表記に置換され、c://□abcdefg.g
o.jp/index.htm□と書き換えられる(ス
テップS52→S53)。
【0110】次に条件が優先順位に従って、写像δ1
変更され、書き換えられた記号列の中で写像δ1 に合致
する条件が成立するか否かが検出される。写像δ1 は条
件に合致しない。手順はステップS51〜S54→S5
1へと進み、条件が写像δ2に更新される。上記書き換
えられた記号列は写像δ2 の条件には一致しないので条
件が写像δ3 に更新される。写像δ3 については上記書
き換えられた文字列が条件(表1参照)に一致するの
で、該当部分がc1と記号化され、書き換えられる記号
列はc1c://□abcdefg /index.h
tm□□となる(ステップS53)。
【0111】写像δ3 が辞書に記載された最後の条件で
あるので、ステップS54の最終判定でYES判定が得
られる。この後、CPU1はRAM3の符号表を用いて
従来と同様Huffman 符号などにより符号化を行う。
【0112】上述の書き換え処理により、http、w
ww、go.jpといった隣接していない複数の語が本
実施形態の前処理によりc1cと3個の記号で置き換え
られる。また、この記号化に使用される写像の種類は2
種類だけである。従来の単一の語を複数組み記載した辞
書を使用する記号化では上述の例では、http、ww
w、,go、jpの4種類の語を辞書に登録しておかな
ければならず、記号化した場合の文字数も最低で4であ
る。したがって、本実施形態の前処理が有効であること
が明らかであろう。
【0113】次に、前処理によって書き換えられた情報
を復元する処理を説明する。Huffman 符号などの復号処
理は周知であるので説明を省略する。
【0114】Huffman 符号などの復号後にはc1c:/
/□abcdefg□/index.htm□□の記号
列が得られる。
【0115】この記号列に対してCPU1は上述した後
処理を施す。この後処理をCPU1で実行するための処
理手順を図11に示す。
【0116】なお、辞書には表2の条件と対応させて表
3の書き換え則および参照変数の数が記載されているも
のとする。
【0117】CPU1は優先順位の高い条件(写像δ3
に対応する条件“^c1”)の記号を復元条件として設
定する(ステップS100)。次に設定した復元条件に
合致する記号列が復元対象の文字列にあるか否かを判定
する(ステップS101→S102)。
【0118】肯定判定が得られた場合には、辞書中の復
元条件に対応する参照変数の個数を読み取る。この例の
場合、復号対象の記号列c1c://□abcdefg
□/index.htm□□の先頭部の記号化部分には
c1が含まれており、参照変数の個数は2(表3参照)
であるので、手順はステップS103→S105へと進
み、行末から□記号の個数を計数する。この例の場合に
は計数結果として2が得られる。
【0119】これにより手順はステップS103→S1
05へと進む。ステップS105〜S108の処理によ
りCPU1は書き換え則に従って、条件に合致するよう
にc1と□部分を置き換える。これにより、書き換えの
対象の記号列が書き換えられるとc://□abcde
fg.go.jp/index.htm□が得られる
(ステップS109)。
【0120】書き換えられた記号列の中には同じ条件
“^c1”に合致する記号列はないので、手順はステッ
プS110からステップS100に戻り、優先順が次と
なる条件により復号を行う。次の条件となる“^c”に
合致する記号列が書き換え対象の文字列c://□ab
cdefg.go.jp./index.htm□の中
に存在するので、上述と同様の処理手順が実行され、h
ttp:abcdefg.go.jp/index.h
tmと書き換えられる。
【0121】このようにして辞書に記載されている復号
条件について全てを適用するか、復号すべき記号がなく
なることがステップS101で検出されるとCPU1は
図11の処理手順を終了する。
【0122】次に、上述した表2および表3を記載した
辞書を作成する手順を図12を参照して説明する。
【0123】ユーザはキーボードからの指示で、変換対
象の記号列をディスプレイ4に表示させる(ステップS
200)。この表示を見てユーザは記号列の中の後退参
照付き記号列に変換可能な語を目視確認し、次に表2お
よび表3に示される情報をキーボードから入力し、RA
M3上の辞書に登録する(ステップS210→S22
0)。複数の条件がある場合には以上の処理を繰り返す
(ステップS200〜S230のループ処理)。なお、
辞書に登録する情報はキーボードに限らず、通信、記録
媒体より入力することができる。
【0124】本実施形態の他に次の形態を実施できる。
【0125】1)上述実施形態では、前処理のための条
件(表2)と後処理のための条件(表3)とを同一の辞
書に記載しているが、別個に辞書を用意してもよい。た
とえば、送信側から受信側に圧縮、符号化した情報を転
送をする場合、送信側には表2を記載した辞書を設置
し、受信側には表3を記載した辞書を設置する。また、
送信側から受信側に辞書を送信するようにしてもよい。
情報処理装置が装着の記録媒体、たとえば、フロッピー
ディスクに情報を書込み、読み出す場合に情報の圧縮、
伸長を行うことがある。このような場合には上述実施形
態のように表2、表3を一体化した辞書を用意するとよ
い。
【0126】2)上記辞書は、上述実施形態のようにそ
の都度作成してもよいが、圧縮符号化の対象の情報のデ
ータ構造が固定化されている場合には保存用の記録媒
体、たとえば、ROMやハードディスク記憶装置に辞書
を記憶しておくとよい。また、情報の種類毎に複数の辞
書を用意し選択的に使用してもよいことは勿論である。
【0127】3)上述実施形態では、パーソナルコンピ
ュータが圧縮伸長する処理を説明しているが、デジタル
プロセッサ等をIC化して圧縮/伸長専用の回路を作成
し、通信装置等各種の情報処理機器に設置してもよい。
【0128】
【発明の効果】以上、説明したように、請求項1、3の
発明によれば、記号と符号語の対応関係を示す表におい
て、記号の表現に後退参照付き正規表現を用いることに
よって、後退表現付き正規表現でその一部または全ての
構造が表現できる情報源の符号化における圧縮効率を高
めることができる。また、符号化された符号語を復号化
することができる。
【0129】請求項2の発明によれば、記号列の符号化
に際し、あらかじめ記号列を後退参照つき正規表現によ
って記述された一連の規則により書換えを行うことによ
って、後退参照付き正規表現でその一部または全ての構
造が実現できる情報源の符号化における圧縮効率を高め
ることができる。また、前記書き換えた記号列の復号後
に、前記と逆の書換えを行うことにより、元の記号列に
復元できる。
【0130】請求項4、5の発明では、(第1、第2
の)記憶手段に(第1、第3の)記号列と、対応の符号
語あるいは第4の記号列を登録可能とすることにより、
ユーザは、自己が頻繁に使用する記号列、たとえば、U
RL等を符号化(記号化)することができる。
【図面の簡単な説明】
【図1】従来の記号の区切り方法と本発明に関わる記号
(語)の区切り方法を示す説明図である。
【図2】本発明実施形態のシステム構成を示すブロック
図である。
【図3】本発明実施形態の符号化のための処理手順を示
すフローチャートである。
【図4】本発明実施形態の復号化のための処理手順を示
すフローチャートである。
【図5】情報の包含関係を示す説明図である。
【図6】定義域と値域の包含関係を示す説明図である。
【図7】写像の優先順位を決定するための処理手順を示
すフローチャートである。
【図8】写像の優先順位を決定するための処理手順を示
すフローチャートである。
【図9】図7、図8の処理手順を説明するための説明図
である。
【図10】本発明実施形態の書き換えの処理手順を示す
フローチャートである。
【図11】本発明実施形態の後処理のための処理手順を
示すフローチャートである。
【図12】本発明実施形態の辞書作成のための処理手順
を示すフローチャートである。
【符号の説明】
1 CPU 2 ROM 3 RAM 4 ディスプレイ 5 入力装置

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 記号、後退参照付き正規表現で記述され
    た第1の記号列および区切り記号と、前記記号、第1の
    記号列および区切り信号のそれぞれに対応する符号語と
    を記憶した第1の記憶手段と、 前記記号からなる第2の記号列を入力し、前記第1の記
    憶手段に記憶された内容に基づき前記符号語からなる第
    1の符号語列に符号化する符号化手段とを具えたことを
    特徴とする情報変換装置。
  2. 【請求項2】 後退参照付き正規表現で記述された第3
    の記号列と、前記第3の記号列中に含まれる後退参照変
    数および記号からなる第4の記号列との対応関係を記憶
    した第2の記憶手段と、 前記第2の記憶手段の記憶内容に基づき前記記号からな
    る第5の記号列より前記第3の記号列に合致するものを
    検出し、対応する前記第4の記号列を出力する検出手段
    と、 前記検出手段から出力された第4の記号列を用いて、前
    記第5の記号列を前記記号からなる第6の記号列に書き
    換える書換手段とを具えたことを特徴とする情報変換装
    置。
  3. 【請求項3】 記号、後退参照付き正規表現で記述され
    た第1の記号列および区切り記号と、前記記号、第1の
    記号列および区切り記号のそれぞれに対応する符号語と
    を記憶した第1の記憶手段と、 前記符号語からなる第2の符号語列を入力し、前記第1
    の記憶手段に記憶された内容に基づき前記記号からなる
    第7の記号列に復号化する復号化手段とを具えたことを
    特徴とする情報変換装置。
  4. 【請求項4】 請求項1または3のいずれかに記載の情
    報変換装置において、前記第1の記憶手段は、前記異な
    る複数の記号、前記異なる複数の第1の記号列および対
    応する前記異なる複数の符号語を登録する符号語登録手
    段をさらに有することを特徴とする情報変換装置。
  5. 【請求項5】 請求項2に記載の情報変換装置におい
    て、前記第2の記憶手段は、前記異なる複数の第3の記
    号列および前記異なる複数の第4の記号列を登録する記
    号列登録手段をさらに有することを特徴とする情報変換
    装置。
JP34330097A 1997-12-12 1997-12-12 情報変換装置 Pending JPH11177438A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP34330097A JPH11177438A (ja) 1997-12-12 1997-12-12 情報変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34330097A JPH11177438A (ja) 1997-12-12 1997-12-12 情報変換装置

Publications (1)

Publication Number Publication Date
JPH11177438A true JPH11177438A (ja) 1999-07-02

Family

ID=18360458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34330097A Pending JPH11177438A (ja) 1997-12-12 1997-12-12 情報変換装置

Country Status (1)

Country Link
JP (1) JPH11177438A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103460209A (zh) * 2011-04-11 2013-12-18 阿尔卡特朗讯公司 编码数据标识符的方法
WO2014147671A1 (ja) * 2013-03-22 2014-09-25 富士通株式会社 圧縮装置、圧縮方法、伸張装置、伸張方法および情報処理システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103460209A (zh) * 2011-04-11 2013-12-18 阿尔卡特朗讯公司 编码数据标识符的方法
JP2014515228A (ja) * 2011-04-11 2014-06-26 アルカテル−ルーセント データ識別子を符号化する方法
WO2014147671A1 (ja) * 2013-03-22 2014-09-25 富士通株式会社 圧縮装置、圧縮方法、伸張装置、伸張方法および情報処理システム
US9509333B2 (en) 2013-03-22 2016-11-29 Fujitsu Limited Compression device, compression method, decompression device, decompression method, information processing system, and recording medium
JPWO2014147671A1 (ja) * 2013-03-22 2017-02-16 富士通株式会社 圧縮装置、圧縮方法、伸張装置、伸張方法および情報処理システム

Similar Documents

Publication Publication Date Title
US5032838A (en) Variable length code parallel decoding apparatus and method
JP2840589B2 (ja) データ圧縮装置及びデータ復元装置
JP3309031B2 (ja) 短ブロックのデータを圧縮、伸長するための方法、及び装置
JP3009727B2 (ja) 改良形データ圧縮装置
AU702207B2 (en) Method of and apparatus for compressing and decompressing data and data processing apparatus and network system using the same
US6646577B2 (en) Method of performing Huffman decoding
JP3276860B2 (ja) データ圧縮/復元方法
JP3302210B2 (ja) データ符号化/復号化方法及び装置
US6801141B2 (en) Method for lossless data compression using greedy sequential context-dependent grammar transform
JP2004525537A (ja) ハフマン・コード長情報を生成する方法
US6748520B1 (en) System and method for compressing and decompressing a binary code image
JP3080149B2 (ja) パタン符号化方法及び復号化方法とこの方法を用いた符号化装置及び復号化装置
JP2000201080A (ja) 付加コ―ドを用いたデ―タ圧縮/復元装置および方法
JPH11177438A (ja) 情報変換装置
JP7003443B2 (ja) 符号化プログラム、符号化装置および符号化方法
US20030052802A1 (en) Method and apparatus for huffman decoding technique
CN107094022B (zh) 一种用于VLSI设计的Huffman编码系统的实现方法
JP3108404B2 (ja) データ圧縮装置及びデータ復元装置
JP3088740B2 (ja) データ圧縮及び復元方式
JPH1155125A (ja) 文字データの圧縮・復元方法
JP3708318B2 (ja) データ圧縮/復元装置およびデータ圧縮/復元方法
JPH08167853A (ja) データ圧縮・復元方法
JPH06152988A (ja) 可変長符号の復号化装置
CN114218937A (zh) 数据纠错方法、装置及电子设备
JP3083329B2 (ja) データ圧縮復元方式