JP3859313B2 - タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP3859313B2
JP3859313B2 JP21091597A JP21091597A JP3859313B2 JP 3859313 B2 JP3859313 B2 JP 3859313B2 JP 21091597 A JP21091597 A JP 21091597A JP 21091597 A JP21091597 A JP 21091597A JP 3859313 B2 JP3859313 B2 JP 3859313B2
Authority
JP
Japan
Prior art keywords
tag
unit
document
code
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21091597A
Other languages
English (en)
Other versions
JPH1153349A (ja
Inventor
君孝 村下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP21091597A priority Critical patent/JP3859313B2/ja
Priority to US09/050,104 priority patent/US6330574B1/en
Priority to EP98302590A priority patent/EP0896284A1/en
Publication of JPH1153349A publication Critical patent/JPH1153349A/ja
Application granted granted Critical
Publication of JP3859313B2 publication Critical patent/JP3859313B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Description

【0001】
(目次)
発明の属する技術分野
従来の技術(図31〜図33)
発明が解決しようとする課題
課題を解決するための手段
発明の実施の形態
(a)第1実施形態の説明(図1〜図5)
(b)第2実施形態の説明(図6〜図9)
(c)第3実施形態の説明(図10〜図16)
(d)第4実施形態の説明(図17〜図20)
(e)第5実施形態の説明(図21〜図25)
(f)第6実施形態の説明(図26〜図29)
(g)その他(図30)
発明の効果
【0002】
【発明の属する技術分野】
本発明は、データの圧縮および復元技術に関し、特に、タグと呼ばれる文書構造を定義した制御文字(列)に従い構造化されて記述された文書(タグ文書)の圧縮および復元に用いて好適な、装置,方法および記録媒体に関する。
【0003】
【従来の技術】
近年、コンピュータ(計算機)で扱う文書の形式を統一する動きがある。これまで、計算機あるいはアプリケーションによってばらばらであった文書の形式を異なる計算機環境でも使用できるようにするものである。
この代表的なものに、SGML(Standard Generalized Markup Language)と呼ばれる1986年にISOが制定した文書形式の国際規格(ISO8879)がある。SGML文書は図31に模式的に示すように、SGML宣言部301,文書型定義部(DTD:Document Type Definision)302および文書実現値303の3つの部分からなっている。
【0004】
ここで、SGML宣言部301は、SGML文書を他のシステムで処理するのに必要な文字体系などを宣言する部分であり、DTD302は、文書の章や節,タイトルなどの文書中の構造を定義する部分で、例えば図32に示すような形式で記述されている。なお、この図32に示すDTD302は、インターネットのWWW(World Wide Web)の記述形式として普及しているSGMLの一種であるHTML(HyperText Markup Language)のDTDの一部である。
【0005】
また、文書実現値303は、SGML文書の本文で、筆者(ユーザ)がDTD302を参考にしながらコンピュータのエディタなどを用いて作成する部分である。具体的に、この文書実現値303は、通常、タグと呼ばれる要素を示す制御用文字(列)を使用して記述される。このタグは上述のDTD302で定義されており、本文303中の各要素が何であるか(例えば、タイトルであるのか章であるのかなど)を表している。
【0006】
図33はこの文書実現値303の記述例を示す図であるが、この図33では、“<”と“>”あるいは“</”と“>”とによって囲まれた文字列(<TITLE>,</TITLE>,<SECTION>,</SECION>など)がタグである。そして、例えば、この図33に示すように、
<TITLE>発明(考案)明細書</TITLE>
と記述された部分は、開始タグである<TITLE>と終了タグである</TITLE>で囲まれた文字(列)が要素(タイトル名)であることを表している。
【0007】
なお、現在、公的機関を中心にこのSGMLを採用する動きが活発化していきている。特に、アメリカ国防総省では文書をSGMLで記述して納入することを義務付けており、日本でも特許庁のCD−ROM公報としてSGMLを採用することを決めている。
ところで、近年、文字コードやベクトル情報,画像情報など様々な種類のデータが計算機で扱われるようになってきており、扱われるデータ量も急速に増加してきている。これに伴い、通常、計算機では、大量のデータを扱うときには、そのデータの中の冗長な部分を省いてデータ量を圧縮することで、データの記憶容量を削減したり、データの伝送を高速に行なえるようにしている。
【0008】
ここで、データ圧縮技術にはいくつかの手法があるが、ここでは、計算機上で使われているデータ圧縮の適用例として、アーカイバと圧縮ドライブとについて説明する。
まず、アーカイバは、1つあるいは複数のデータファイルを圧縮すると同時に1つのファイルにまとめるという手法であり、使用頻度の低いファイルや、古いファイルなどに対してこのアーカイバを用いることでファイル容量を削減することができる。また、パソコン通信やインターネットなどでサーバがファイル(データやアプリケーション等)を供給するとき、このアーカイバを用いて全てのファイルを圧縮して1つにまとめることで、通信コストと転送の手間を削減することもできる。
【0009】
一方、圧縮ドライブは、計算機のハードディスク(HD)やフロッピーディスク(FD)などディスクシステム単位にデータの圧縮を行なう手法で、任意のディスクドライブを指定することで、指定したドライブ内の全てのファイルが圧縮されて保持される。通常、この圧縮ドライブでは圧縮・復元処理は計算機のバックグラウンドで処理され、ユーザの通常のオペレーション(読み書き)で自動的に圧縮/復元(読み込みの時は復元、書き込みの時は圧縮)が行なわれる。従って、ユーザはデータの圧縮/復元を全く意識しないため、見かけ上指定したディスクシステムのサイズが増えたように見える。
【0010】
そして、具体的に、これらの適用例で用いられる符号化方式としては、計算機上では文字や機械語,画像,音声など様々なデータが扱われることから、圧縮効率がデータの性質にあまり依存しないユニバーサル符号化方式がよく用いられている。
このユニバーサル符号化方式には、さらに、文字の再現性を利用した辞書型符号化方式と文字の出現確率を符号化する確率統計型符号化方式とがあり、辞書型符号化方式は、過去に出現した文字(列)をバッファ内に保存し、同じ文字(列)が出現したとき、バッファ内の開始位置と一致長を符号化データとして出力する。一方、確率統計型符号化方式は、過去に出現した文字の出現確率(頻度)を計算し、出現確率に応じた符号を出力する。辞書型符号化方式は高速処理、確率統計型方式は高圧縮率が期待できる。
【0011】
このように、データ圧縮技術は、計算機上のデータ容量の削減や通信コストの削減などに日常的に使われており、文書ファイルにおいても、文書全体を圧縮して保持することで大量の文書を管理することができる。
【0012】
【発明が解決しようとする課題】
ところで、SGML文書の本文303では、文書に加えて文書内の各要素を定義するタグが加わるため、文書のデータ量は増加する。或るSGML文書について調査したところ、文書全体のタグが占める割合は4割を超えていた。官公庁への提出書類だけでなく、現在では製品に添付されるマニュアル類もSGML文書化されてきている。このようなマニュアルは数十からときには数百ページにもわたることがあり、また頻繁に改版されるため、改版履歴も含めると、そのデータ量は膨大なものとなる。
【0013】
そこで、このようなSGML文書も通常の文書や他の形式の文書の圧縮と同様に上述のユニバーサル符号化方式や他の符号化方式を用いて圧縮すれば、ある程度、データ量を削減することができるが、いずれの場合も、従来から使われている符号化方式をSGML文書に適用しただけであり、文書全体の多くを占めているタグを考慮した圧縮は行なっていないので、非常に、非効率的である。
【0014】
本発明は、このような課題に鑑み創案されたもので、タグ文書内のタグを考慮してその文書の圧縮および復元を行なうことにより、タグ文書の圧縮率を向上してそのデータ量を削減できるようにすることを目的とする。
【0015】
【課題を解決するための手段】
このため、本発明のタグ文書の圧縮装置は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮するためのものであって、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて、当該文書型定義部内のタグに所定の符号を割り当ててタグ符号表を作成するタグ符号表作成部と、このタグ符号表作成部により作成されたタグ符号表に基づいて、前記文書型定義部及び前記文書実現部のうちの前記文書実現部内のタグを符号化するタグ符号化部とをそなえたことを特徴としている。
【0016】
なお、上記のタグ符号化部は、同一の文書型定義部を有する複数のタグ文書については、タグ抽出部およびタグ符号表作成部において最初のタグ文書について作成されたタグ符号表に基づいて、全てのタグ文書の文書実現部内のタグに対する符号化を行なうように構成してもよい。
また、本発明のタグ文書の圧縮装置は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮するためのものであって、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて、当該文書型定義部内のタグに所定の符号を割り当ててタグ符号表を作成するタグ符号表作成部と、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータが上記のタグ抽出部により抽出されたタグであるか否かを判別するタグ判別部と、このタグ判別部において上記の入力データがタグであると判別されると、上記のタグ符号表に基づいて入力データを符号化する一方、上記のタグ判別部において入力データがタグでないと判別されると、入力データを所定の符号化方式で符号化する符号化処理部と、上記のタグ判別部において上記の入力データがタグであると判別されると、入力データの符号化前に、タグの符号化を示す特殊コードをタグの復号側へ出力する特殊コード出力部とをそなえたことを特徴としている。
【0017】
ここで、上記の符号化処理部は、入力データを上記のタグ符号表に基づいて符号化する第1符号化部と、入力データを所定の符号化方式で符号化する第2符号化部と、上記のタグ判別部において入力データがタグであると判別されると入力データを第1符号化部へ出力する一方、上記のタグ判別部において入力データがタグでないと判別されると入力データを第2符号化部へ出力する切り替え制御部とをそなえてもよい。
【0018】
また、上記のタグ符号表作成部は、上記のタグ抽出部により抽出されたタグを記憶するタグ記憶部を有し、上記タグのタグ記憶部における記憶箇所についての情報をタグの符号として割り当てることにより上記のタグ符号表を作成するように構成してもよい。
なお、上記の記憶箇所についての情報は、例えば、上記タグ記憶部のアドレス情報を含む情報で、具体的には、上記タグ記憶部のアドレス情報とタグの長さ情報とであってもよい。
【0019】
さらに、上記のタグ符号表作成部は、上記のタグ抽出部により抽出されたタグに所定の初期符号を割り当てることによりタグの第1符号化用辞書をタグ符号表として作成する第1符号化用辞書作成部と、上記の符号化処理部によりタグが符号化されると、そのタグの出現頻度に応じて、第1符号化用辞書作成部により作成された第1符号化用辞書内の符号の更新を行なう符号化用辞書更新部とをそなえてもよい。
【0020】
また、上記のタグ符号表作成部は、上記のタグ抽出部により抽出されたタグに基づいて文書実現部内のタグの出現頻度を計数し、その計数結果に応じた符号をタグに割り当てることによりタグの第2符号化用辞書をタグ符号表として作成する第2符号化用辞書作成部をそなえてもよい。なお、この場合、本圧縮装置は、上記のタグの出現頻度に関する情報をタグの復号側へ出力する出現頻度情報出力部をそなえてもよい。
【0021】
さらに、上記の第2符号化用辞書作成部は、具体的に、上記のタグ抽出部により抽出されたタグと文書実現部内のタグとが一致するか否かを判定することにより文書実現部内のタグの出現頻度を計数するタグ計数部と、このタグ計数部での計数結果に応じた符号を生成する符号生成部と、この符号生成部により生成された符号を保持することにより第2符号化用辞書を作成する符号保持部とをそなえてもよい。
【0022】
また、本発明のタグ文書の圧縮装置は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮するためのものであって、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて、当該文書型定義部内のタグに所定の符号を割り当ててタグ符号表を作成するタグ符号表作成部と、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータがタグ抽出部により抽出されたタグであるか否かを判別するタグ判別部と、このタグ判別部において上記の入力データがタグであると判別されると、上記のタグ符号表に基づいて入力データを符号化する一方、上記のタグ判別部において入力データがタグでないと判別されると、入力データを所定の符号化方式で符号化する符号化処理部とをそなえたことを特徴としている。
【0023】
なお、上記のタグ判別部は、タグ抽出部で抽出されたタグに基づいてタグの始まりを示す開始タグを検出することにより入力データがタグであると判別するように構成してもよい。
一方、本発明のタグ文書の復元装置は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有する符号化後のタグ文書を復号して復元するためのものであって、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて、当該文書型定義部内のタグに所定の符号を割り当ててタグ復号表を作成するタグ復号表作成部と、このタグ復号表作成部により作成されたタグ復号表に基づいて、符号化された前記文書型定義部及び前記文書実現部のうちの前記文書実現部内のタグを復号するタグ復号部とをそなえたことを特徴としている。
【0024】
なお、上記のタグ復号部は、同一の文書型定義部を有する複数のタグ文書については、上記のタグ抽出部およびタグ復号表作成部を通じて最初のタグ文書について作成されたタグ復号表に基づいて、全てのタグ文書の文書実現部に対するタグの復号を行なうように構成してもよい。
また、本発明のタグ文書の復元装置は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有する符号化後のタグ文書を復号して復元するためのものであって、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて、当該文書型定義部内のタグに所定の符号を割り当ててタグ復号表を作成するタグ復号表作成部と、入力された符号化データが、タグの符号化データが入力されることを示す特殊コードであるか否かを判別する特殊コード判別部と、この特殊コード判別部において符号化データが特殊コードであると判別されると、その特殊コードの後に入力される符号化データをタグ復号表に基づいて復号する一方、上記の特殊コード判別部において符号化データが特殊コードでないと判別されると、その符号化データを所定の復号方式で復号する復号処理部とをそなえたことを特徴としている。
【0025】
ここで、上記の復号処理部は、具体的に、入力された符号化データを上記のタグ復号表に基づいて復号する第1復号部と、入力された符号化データを所定の復号方式で復号する第2復号部と、上記の特殊コード判別部において符号化データが特殊コードであると判別されるとその特殊コードの後に入力される符号化データを第1復号部へ出力する一方、上記の特殊コード判別部において符号化データが特殊コードでないと判別されるとその符号化データを第2復号部へ出力する切り替え制御部とをそなえてもよい。
【0026】
また、上記のタグ復号表作成部は、上記のタグ抽出部により抽出されたタグを記憶するタグ記憶部を有し、上記タグのタグ記憶部における記憶箇所についての情報をタグの符号として割り当てることによりタグ復号表を作成するように構成してもよい。
なお、上記の記憶箇所についての情報は、例えば、上記タグ記憶部のアドレス情報を含む情報で、具体的には、上記のアドレス情報とタグの長さ情報とであってもよい。
【0027】
さらに、上記のタグ復号表作成部は、上記のタグ抽出部により抽出されたタグに所定の初期符号を割り当てることによりタグの第1復号用辞書をタグ復号表を作成する第1復号用辞書作成部と、上記の復号処理部によりタグが復号されると、そのタグの出現頻度に応じて、上記の第1復号用辞書作成部により作成された第1復号用辞書内の符号の更新を行なう復号用辞書更新部とをそなえてもよい。
【0028】
また、上記のタグ復号表作成部は、上記のタグ抽出部により抽出されたタグとタグの出現頻度に関する情報とに基づいて、タグの第2復号用辞書を作成する第2復号用辞書作成部をそなえてもよい。
さらに、本発明のタグ文書の復元装置は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有する符号化後のタグ文書を復号して復元するためのものであって、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて、当該文書型定義部内のタグに所定の符号を割り当ててタグ復号表を作成するタグ復号表作成部と、入力された符号化データがタグの符号化データであるか否かを判別するタグ符号判別部と、このタグ符号判別部において符号化データがタグであると判別されると、上記のタグ復号表に基づいて符号化データを復号する一方、上記のタグ符号判別部において符号化データがタグでないと判別されると、その符号化データを所定の復号方式で復号する復号処理部とをそなえたことを特徴としている。
【0029】
なお、上記のタグ符号判別部は、タグ抽出部で抽出されたタグに基づいてタグの始まりを示す開始タグを検出することにより符号化データがタグであると判別するように構成してもよい。
また、本発明のタグ文書の圧縮/復元装置は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮する一方、符号化されたタグ文書を復号して復元するためのものであって、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて、当該文書型定義部内のタグに所定の符号を割り当ててタグ符号/復号表を作成するタグ符号/復号表作成部と、このタグ符号/復号表作成部により作成されたタグ符号/復号表に基づいて、前記文書型定義部及び前記文書実現部のうちの前記文書実現部内のタグを符号化するタグ符号化部と、上記のタグ符号/復号表作成部により作成されたタグ符号/復号表に基づいて、上記のタグ符号化部によって符号化された文書実現部内のタグを復号するタグ復号部とをそなえたことを特徴としている。
【0030】
さらに、本発明のタグ文書の圧縮/復元装置は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮する一方、符号化されたタグ文書を復号して復元するためのものであって、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて、当該文書型定義部内のタグに所定の符号を割り当ててタグ符号/復号表を作成するタグ符号/復号表作成部と、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータが上記のタグ抽出部により抽出されたタグであるか否かを判別するタグ判別部と、このタグ判別部において上記の入力データがタグであると判別されると、上記のタグ符号/復号表に基づいて入力データを符号化する一方、上記のタグ判別部において入力データがタグでないと判別されると、入力データを所定の符号化方式で符号化する符号化処理部と、上記のタグ判別部において上記の入力データがタグであると判別されると、入力データの符号化前に、タグの符号化を示す特殊コードを出力する特殊コード出力部と、上記の符号化処理部から出力される符号化データが特殊コードであるか否かを判別する特殊コード判別部と、この特殊コード判別部において符号化データが特殊コードであると判別されると、その特殊コードの後に符号化処理部から出力される符号化データをタグ符号/復号表に基づいて復号する一方、上記の特殊コード判別部において符号化データが特殊コードでないと判別されると、符号化処理部から出力される符号化データを所定の復号方式で復号する復号処理部とをそなえたことを特徴としている。
【0031】
また、本発明のタグ文書の圧縮方法は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書についてのタグ符号表作成部と、タグ符号化部とをそなえ、前記タグ文書を符号化して圧縮するタグ文書の圧縮装置における圧縮方法であって、タグ符号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内のタグに所定の符号を割り当ててタグ符号表を作成し、タグ符号化部によって、そのタグ符号表に基づいて、前記文書型定義部及び前記文書実現部のうちの前記文書実現部内のタグを符号化することを特徴としている。
【0032】
なお、このとき、前記タグ符号化部によって、同一の文書型定義部を有する複数のタグ文書については、最初のタグ文書について作成された上記のタグ符号表に基づいて、全てのタグ文書の文書実現部内のタグに対する符号化を行なってもよい。
また、本発明のタグ文書の圧縮方法は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書についてのタグ符号表作成部と、タグ判別部と、符号化処理部と、特殊コード出力部とをそなえ、前記タグ文書を符号化して圧縮するタグ文書の圧縮装置における圧縮方法であって、タグ符号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内のタグに所定の符号を割り当ててタグ符号表を作成し、タグ判別部によって、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータがタグであると判定した場合は、特殊コード出力部によって、タグの符号化を示す特殊コードをタグの復号側へ出力した後、符号化処理部によって、上記のタグ符号表に基づいて入力データを符号化する一方、タグ判別部によって、入力データがタグでないと判定した場合は、符号化処理部によって、入力データを所定の符号化方式で符号化することを特徴としている。
【0033】
さらに、本発明のタグ文書の圧縮方法は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書についてのタグ符号表作成部と、タグ判別部と、符号化処理部とをそなえ、前記タグ文書を符号化して圧縮するタグ文書の圧縮装置における圧縮方法であって、タグ符号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内のタグに所定の符号を割り当ててタグ符号表を作成し、タグ判別部によって、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータがタグであると判定した場合は、符号化処理部によって、上記のタグ符号表に基づいて入力データを符号化する一方、タグ判別部によって、入力データがタグでないと判定した場合は、符号化処理部によって、入力データを所定の符号化方式で符号化することを特徴としている。
【0034】
また、本発明のタグ文書の復元方法は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有する符号化後のタグ文書についてのタグ復号表作成部と、タグ復号部とをそなえ、前記タグ文書を復号して復元するタグ文書の復元装置における復元方法であって、タグ復号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内のタグに所定の符号を割り当ててタグ復号表を作成し、タグ復号部によって、そのタグ復号表に基づいて符号化された前記文書型定義部及び前記文書実現部のうちの前記文書実現部内のタグを復号することを特徴としている。
【0035】
なお、このとき、前記タグ復号部によって、同一の文書型定義部を有する複数のタグ文書については、最初のタグ文書について作成されたタグ復号表に基づいて、全てのタグ文書の文書実現部に対するタグの復号を行なってもよい。
さらに、本発明のタグ文書の復元方法は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有する符号化後のタグ文書についてのタグ復号表作成部と、特殊コード判別部と、復号処理部とをそなえ、前記タグ文書を復号して復元するタグ文書の復元装置における復元方法であって、タグ復号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内のタグに所定の符号を割り当ててタグ復号表を作成し、特殊コード判別部によって、入力された符号化データが、タグの符号化データが入力されることを示す特殊コードであると判定した場合は、復号処理部によって、その特殊コードの後に入力される符号化データをタグ復号表に基づいて復号する一方、特殊コード判別部によって、入力された符号化データが特殊コードでないと判定した場合は、復号処理部によって、その符号化データを所定の復号方式で復号することを特徴としている。
【0036】
また、本発明のタグ文書の復元方法は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有する符号化後のタグ文書についてのタグ復号表作成部と、タグ符号判別部と、復号処理部とをそなえ、前記タグ文書を復号して復元するタグ文書の復元装置における復元方法であって、タグ復号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内のタグに所定の符号を割り当ててタグ復号表を作成し、タグ符号判別部によって、入力された符号化データがタグの符号化データであると判定した場合は、復号処理部によって、上記のタグ復号表に基づいて符号化データを復号する一方、タグ符号判別部によって、入力された符号化データがタグの符号化データでないと判定した場合は、復号処理部によって、その符号化データを所定の復号方式で復号することを特徴としている。
【0037】
さらに、本発明のタグ文書の圧縮/復元方法は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書についてのタグ符号/復号表作成部と、タグ符号化部と、タグ復号部とをそなえ、前記タグ文書を符号化して圧縮する一方、符号化されたタグ文書を復号して復元するタグ文書の圧縮/復元装置における圧縮/復元方法であって、タグ符号/復号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内のタグに所定の符号を割り当ててタグ符号/復号表を作成し、タグ符号化部によって、そのタグ符号/復号表に基づいて前記文書型定義部及び前記文書実現部のうちの前記文書実現部内のタグを符号化する一方、タグ復号部によって、符号化されたタグを上記のタグ符号/復号表に基づいて復号することを特徴としている。
【0038】
また、本発明のタグ文書の圧縮/復元方法は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書についてのタグ符号/復号表作成部と、タグ判別部と、符号化処理部と、特殊コード出力部と、特殊コード判別部と、復号処理部とをそなえ、前記タグ文書を符号化して圧縮する一方、符号化されたタグ文書を復号して復元するタグ文書の圧縮/復元装置における圧縮/復元方法であって、タグ符号/復号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内のタグに所定の符号を割り当ててタグ符号/復号表を作成し、タグ判別部によって、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータがタグであると判定した場合は、特殊コード出力部によって、タグの符号化を示す特殊コードを出力した後、符号化処理部によって、上記のタグ符号/復号表に基づいて入力データを符号化する一方、タグ判別部によって、入力データがタグでないと判定した場合は、符号化処理部によって、その入力データを所定の符号化方式で符号化するとともに、符号化データの復号に際しては、特殊コード判別部によって、符号化データが特殊コードであると判定すれば、復号処理部によって、特殊コードの後の符号化データを上記のタグ符号/復号表に基づいて復号する一方、特殊コード判別部によって、符号化データが特殊コードでないと判定すれば、復号処理部によって、その符号化データを所定の復号方式で復号することを特徴としている。
【0039】
さらに、本発明のタグ文書の圧縮プログラムを記録したコンピュータ読み取り可能な記録媒体は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮するためのものであって、上記のコンピュータを、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて、当該文書型定義部内のタグに所定の符号を割り当ててタグ符号表を作成するタグ符号表作成部と、このタグ符号表作成部により作成されたタグ符号表に基づいて、前記文書型定義部及び前記文書実現部のうちの前記文書実現部内のタグを符号化するタグ符号化部として機能させるためのタグ文書の圧縮プログラムが記録されていることを特徴としている。
【0040】
また、本発明のタグ文書の圧縮プログラムを記録したコンピュータ読み取り可能な記録媒体は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮するためのものであって、上記のコンピュータを、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて、当該文書型定義部内のタグに所定の符号を割り当ててタグ符号表を作成するタグ符号表作成部と、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータがタグ抽出部により抽出されたタグであるか否かを判別するタグ判別部と、このタグ判別部において上記の入力データがタグであると判別されると、上記のタグ符号表に基づいて入力データを符号化する一方、上記のタグ判別部において入力データがタグでないと判別されると、その入力データを所定の符号化方式で符号化する符号化処理部と、上記のタグ判別部において上記の入力データがタグであると判別されると、入力データの符号化前に、タグの符号化を示す特殊コードをタグの復号側へ出力する特殊コード出力部として機能させるためのタグ文書の圧縮プログラムが記録されていることを特徴としている。
【0041】
さらに、本発明のタグ文書の復元プログラムを記録したコンピュータ読み取り可能な記録媒体は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有する符号化後のタグ文書を復号して復元するためのものであって、上記のコンピュータを、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて、当該文書型定義部内のタグに所定の符号を割り当ててタグ復号表を作成するタグ復号表作成部と、このタグ復号表作成部により作成されたタグ復号表に基づいて、符号化された前記文書型定義部及び前記文書実現部のうちの前記文書実現部内のタグを復号するタグ復号部として機能させるためのタグ文書の復元プログラムが記録されていることを特徴としている。
【0042】
また、本発明のタグ文書の復元プログラムを記録したコンピュータ読み取り可能な記録媒体は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有する符号化後のタグ文書を復号して復元するためのものであって、上記のコンピュータを、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて、当該文書型定義部内のタグに所定の符号を割り当ててタグ復号表を作成するタグ復号表作成部と、入力された符号化データが、タグの符号化データが入力されることを示す特殊コードであるか否かを判別する特殊コード判別部と、この特殊コード判別部において符号化データが特殊コードであると判別されると、その特殊コードの後に入力される符号化データをタグ復号表に基づいて復号する一方、上記の特殊コード判別部において符号化データが特殊コードでないと判別されると、その符号化データを所定の復号方式で復号する復号処理部として機能させるためのタグ文書の復元プログラムが記録されていることを特徴としている。
【0043】
さらに、本発明のタグ文書の圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮する一方、符号化されたタグ文書を復号して復元するためのものであって、上記のコンピュータを、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて当該文書型定義部内のタグに所定の符号を割り当ててタグ符号/復号表を作成するタグ符号/復号表作成部と、このタグ符号/復号表作成部により作成されたタグ符号/復号表に基づいて前記文書型定義部及び前記文書実現部のうちの前記文書実現部内のタグを符号化するタグ符号化部と、上記のタグ符号/復号表作成部により作成されたタグ符号/復号表に基づいて上記のタグ符号化部によって符号化された文書実現部内のタグを復号するタグ復号部として機能させるためのタグ文書の圧縮/復元プログラムが記録されていることを特徴としている。
【0044】
また、本発明のタグ文書の圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体は、文書構造を示すタグを定義した文書型定義部と文書型定義部に定義されているタグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮する一方、符号化されたタグ文書を復号して復元するためのものであって、上記のコンピュータを、入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査してタグを抽出するタグ抽出部と、このタグ抽出部により該文書型定義部から抽出されたタグに基づいて当該文書型定義部内のタグに所定の符号を割り当ててタグ符号/復号表を作成するタグ符号/復号表作成部と、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータがタグ抽出部により抽出されたタグであるか否かを判別するタグ判別部と、このタグ判別部において上記の入力データがタグであると判別されると上記のタグ符号/復号表に基づいて入力データを符号化する一方、上記のタグ判別部において入力データがタグでないと判別されると入力データを所定の符号化方式で符号化する符号化処理部と、上記のタグ判別部において上記の入力データがタグであると判別されると入力データの符号化前にタグの符号化を示す特殊コードを出力する特殊コード出力部と、上記の符号化処理部から出力される符号化データが特殊コードであるか否かを判別する特殊コード判別部と、この特殊コード判別部において符号化データが特殊コードであると判別されるとその特殊コードの後に符号化処理部から出力される符号化データをタグ符号/復号表に基づいて復号する一方、上記の特殊コード判別部において上記符号化データが特殊コードでないと判別されるとその符号化データを所定の復号方式で復号する復号処理部として機能させるためのタグ文書の圧縮/復元プログラムが記録されていることを特徴としている。
【0045】
【発明の実施の形態】
(a)本発明の第1実施形態の説明
図1は本発明の第1実施形態としてのSGML文書(タグ文書)の圧縮装置および復元装置が適用されるコンピュータシステムを示すブロック図であるが、この図1に示すように、本実施形態におけるシステムは、パーソナルコンピュータ(以下、単に「パソコン」という)2,3がモデムやTA(Terminal Adapter)などのネットワーク接続装置4を介してインターネットなどの所要のネットワーク6に接続された構成となっている。
【0046】
そして、パソコン2,3は、この図1に示すように、それぞれ、パソコン本体21,ディスプレイ(表示画面)22,キーボード23およびマウス(ポインティングデバイス)24などから構成されており、例えば、ユーザは、パソコン2,3のエディタ上でキーボード23を通じて前述のSGML文書(タグ文書)を作成したり、作成した文書をCPU(Central Processing Unit)26の処理によって本体21内のハードディスク(記憶装置)27に文書ファイルとして保存したりネットワーク6を介して他のパソコン3,2に提供(ファイル転送)したりすることができるようになっている。
【0047】
ここで、上記のSGML文書を上述のごとくハードディスク27に保存したりネットワーク6を介して転送する場合、前述したようにそのままでは非常にデータ量が多いので、メモリ容量の節約,データ伝送量,データ伝送時間の削減のためにも、符号化して圧縮してから保存/伝送を行ない、その文書をディスプレイ22に表示したりプリントアウトしたりする場合に圧縮された文書を復元(復号)することが望ましい。
【0048】
特に、複数種類のSGML文書が流通するようなシステム(例えば、CALSシステムなど)の場合、SGML文書の本文303以外の部分も毎回送らなければならないので、そのまま文書を送るよりも、符号化して圧縮してから送ることで、伝送時間の削減、文書の送信側(サーバ側)/受信側(クライアント側)の記憶装置の容量の削減などが期待できる。
【0049】
このため、本実施形態では、SGML文書の圧縮プログラムや復元プログラムがハードディスク27内に記憶されており、CPU26がこれらのプログラムに従って動作することにより、パソコン2,3(具体的にはCPU26)がSGML文書を符号化して圧縮する圧縮装置あるいは符号化されて圧縮されたSGML文書を復号して復元する復元装置として使用されるようになっている。
【0050】
ただし、以下では、便宜上、パソコン2がSGML文書の圧縮装置,パソコン3がSGML文書の復元装置として使用されるものとして説明を行なう。
また、上記の各プログラムは、ユーザがパソコン2,3を使って作成することによりハードディスク27に予め保存しておくことも可能であるし、フロッピーディスク(FD)11やCD−ROM12,MO(光磁気ディスク)13などの各種の記録媒体15に予め記録されているものをディスクドライブ25を通じて読み取ることによりハードディスク27に保存することも可能である。
【0051】
(a1)SGML文書の圧縮装置(符号化側)の説明
図2は上述のSGML文書の圧縮装置としてのパソコン2の要部の構成を示すブロック図で、この図2に示すように、本実施形態のパソコン(以下、圧縮装置という)2は、SGMLタグ抽出部30,タグ符号表作成部40,タグ判別部50及びタグ符号化部60を有して構成されている。
【0052】
ここで、SGMLタグ抽出部30は、例えば、CPU26がハードディスク27内に文書ファイルとして記憶されているSGML文書を読み出すことにより入力されたSGML文書のDTD(文書型定義部)302(図31参照)を走査してDTD302内に定義されているタグを抽出するものであり、タグ符号表作成部40は、このタグ抽出部により抽出されたタグに基づいて、DTD302内のタグに所定の符号を割り当ててタグ符号表を作成するものである。
【0053】
また、タグ判別部50は、DTD302とともに入力されたSGML文書の文書実現値(本文)303のデータ(文字もしくは文字列)がタグであるか否かを判別するもので、入力データがタグであればそのデータをタグ符号化部60へ出力する一方、入力データがタグでなければそのデータをそのまま外部(例えば、ハードディスク27やネットワーク6)へ出力するようになっている。
【0054】
さらに、タグ符号化部60は、タグ符号表作成部40により作成されたタグ符号表に基づいて、SGML文書の本文303内のタグを符号化するもので、ここでは、タグ判別部50から入力されたデータ(タグ)に対応する上記符号表における符号をタグの符号として出力するようになっている。
上述のごとく構成された本第1実施形態の圧縮装置2では、図3に示すように、まず、SGMLタグ抽出部30がSGML文書のDTD302を走査してタグを抽出し(ステップA1)、タグ符号表作成部40が抽出されたタグに所定の符号を割り当てることによりタグの符号表を作成する(ステップA2)。そして、入力されたSGML文書の本文303のデータがタグであるとタグ判別部50において判別されると、そのデータは、タグ符号化部60において上記タグ符号表に基づいて符号化されて出力される(ステップA3)。
【0055】
例えば、SGMLタグ抽出部30が<TITLE>及び</TITLE>というタグを抽出し、タグ符号表作成部40において各タグにそれぞれ<TITLE>=“00”,</TITLE>=“10”という符号が割り当てられてタグ符号表が作成されたとする。このとき、例えば、本文303として、
<TITLE>発明(考案)明細書</TITLE>
が入力されたとすると、タグ判別部50では、まず、<TITLE>がタグであると判別するので、このタグはタグ符号化部60へ出力される。タグ符号化部60では、入力されたタグ(<TITLE>)を基に上記のタグ符号表を参照することにより<TITLE>に対応する符号“00”を得て、この“00”を<TITLE>の符号として出力する。
【0056】
次に、タグ判別部50では、上記のタグ(<TITLE>)に続いて入力されたデータがタグであるか否かを判別するが、今、上記の<TITLE>に続いて入力されるのは「発明(考案)明細書」であるので、タグ判別部50は、入力データがタグ以外であると判別し、その入力データを符号化せずにそのまま外部へ出力する。
【0057】
その後、タグ判別部50では、さらに、入力されたデータがタグであるか否かを判別するが、今、上記の「発明(考案)明細書」の後に入力されるのは</TITLE>(終了タグ)であるので、タグ判別部50は、そのタグをタグ符号化部60へ出力し、タグ符号化部60では、入力されたタグ(</TITLE>)を基に上記のタグ符号表を参照することにより</TITLE>に対応する符号“10”を得て、この“10”を</TITLE>の符号として出力する。
【0058】
この結果、最終的に、上記の本文303は、“00発明(考案)明細書10”というようにタグのみが符号化され圧縮されて出力される。ただし、本実施形態ではDTD302自体は符号化されずに出力される。
このように、本実施形態のSGML文書の圧縮装置2によれば、DTD302内のタグに所定の符号を割り当ててタグ符号表を作成し、そのタグ符号表に基づいて、本文303内のタグを符号化するので、通常、SGML文書内に多数使用されているタグを極めて効率良く圧縮することができ、SGML文書のデータ量を大幅に削減することができる。
【0059】
従って、SGML文書を保存するためのメモリ容量が節約されるとともに、SGML文書をネットワーク6を通じて伝送する際のデータ伝送量やデータ伝送時間も大幅に削減される。
(a2)SGML文書の復元装置(復号側)の説明
次に、図4は上述のSGML文書の復元装置としてのパソコン3の要部の構成を示すブロック図であるが、この図4に示すパソコン(以下、復元装置という)3は、図2により上述した圧縮装置2で符号化(圧縮)されたSGML文書を復号(復元)するためのもので、本実施形態では、SGMLタグ抽出部30′,タグ復号表作成部40′,タグ判別部50′及びタグ復号部60′を有して構成されている。
【0060】
ここで、SGMLタグ抽出部30′は、例えば、ネットワーク6を介して圧縮装置2から入力されたDTD302(ただし、符号化されていないもの)を走査してそのDTD302内に定義されているタグを抽出するものであり、タグ復号表作成部40′は、このタグ抽出部30′により抽出されたタグに基づいて、DTD302内のタグに所定の符号を割り当ててタグ復号表を作成するものである。
【0061】
また、タグ判別部50′は、DTD302とともに入力された符号化側でタグのみ符号化されたSGML文書の本文303のデータがタグであるか否かを判別するもので、入力データがタグの符号であればその符号化データをタグ復号部60′へ出力する一方、入力データがタグの符号以外であればその入力データをそのまま外部(例えば、ハードディスク27)へ出力するようになっている。
【0062】
さらに、タグ復号部60′は、タグ復号表作成部40′により作成されたタグ復号表に基づいて、符号化された本文303内のタグを復号するもので、ここでは、タグ判別部50から入力されたデータ(タグの符号)に対応する上記復号表におけるタグを復号結果として出力するようになっている。
上述のごとく構成された本第1実施形態の復元装置3では、図5に示すように、まず、SGMLタグ抽出部30′がSGML文書のDTD302を走査してタグを抽出し(ステップB1)、タグ復号表作成部40′が抽出されたタグに符号化側と同じ符号を割り当てることによりタグの復号表を作成する(ステップB2)。そして、入力されたSGML文書の本文303のデータがタグの符号であるとタグ判別部50′において判別されると、そのデータは、タグ符号化部60′において上記タグ復号表に基づいてタグが復号されて出力される(ステップB3)。
【0063】
例えば、符号化側と同様に、タグ抽出部30′及びタグ復号表作成部40′によって、<TITLE>=“00”,</TITLE>=“10”というように各タグに符号が割り当てられたタグ復号表が作成されたとする。このとき、例えば、入力データとして、符号化側で符号化された“00発明(考案)明細書10”が入力されたとすると、タグ判別部50′では、まず、“00”がタグの符号であるであると判別するので、この符号化データはタグ符号化部60′へ出力される。
【0064】
タグ符号化部60′では、入力されたタグの符号“00”を基に上記のタグ復号表を参照することにより“00”に対応するタグ<TITLE>を得て、この<TITLE>を符号“00”の復号結果として出力する。
次に、タグ判別部50では、上記の“00”に続いて入力されたデータがタグの符号であるか否かを判別するが、今、上記の“00”に続いて入力されるのは「発明(考案)明細書」であるので、タグ判別部50′は、入力データがタグの符号以外であると判別し、その符号化データは復号せずにそのまま外部へ出力する。
【0065】
その後、タグ判別部50′では、さらに、続いて入力されたデータがタグの符号であるか否かを判別するが、今、上記の「発明(考案)明細書」の後に入力されるのは“10”というタグの符号であるので、タグ判別部50′は、そのタグの符号をタグ復号部60′へ出力し、タグ復号部60′では、入力されたタグの符号“10”を基に上記のタグ復号表を参照することにより符号“10”に対応するタグ(</TITLE>)を得て、この</TITLE>を符号“10”の復号結果として出力する。
【0066】
この結果、最終的に、タグのみ符号化されて入力されたSGML文書の本文303は、“<TITLE>発明(考案)明細書</TITLE>”というように元の状態に復元されて出力される。
このように、本実施形態のSGML文書の復元装置3によれば、DTD302内のタグに符号化側と同じ符号を割り当ててタグ復号表を作成し、そのタグ復号表に基づいて符号化されたSGML文書の本文303内のタグを復号するので、SGML文書内の符号化されたタグを極めて効率良く、且つ、正確に復号(復元)することができる。
【0067】
(b)第2実施形態の説明
(b1)SGML文書の圧縮装置(符号化側)の説明
図6は本発明の第2実施形態としてのタグ文書の圧縮装置の要部の構成を示すブロック図であるが、この図6に示す圧縮装置2は、図2に示すものに比して、DTD比較部70及びコントローラ80を有して構成されている点が異なる。
【0068】
ここで、上記のDTD比較部70は、新規に入力されたSGML文書のDTD302とそのDTD302の直前に入力された過去のSGML文書のDTD302とを比較して、各DTD302の一致/不一致信号をコントローラ80へ出力するもので、本実施形態では、入力されたDTD302を順次保持しながら新規入力されたDTD302との比較を行なうようになっている。
【0069】
また、コントローラ80は、このDTD比較部70からの一致/不一致信号に応じてタグ符号表作成部40での符号表作成処理を制御するもので、ここでは、DTD比較部70から各DTD302の一致信号を受けるとタグ符号表作成部40に対し過去に作成したタグ符号表を維持するよう指示する一方、各DTD302の不一致信号を受けるとタグ符号表作成部40に対しタグ符号表の更新を指示するものである。
【0070】
つまり、本実施形態のタグ符号表作成部40は、同一のDTD302を有するSGML文書が入力される間はそれら複数の文書のうち最初の文書について作成したタグ符号表をそのまま維持し、異なるDTD302を有するSGML文書が入力された時点で、第1実施形態と同様に、SGMLタグ抽出部30によってそのDTD302から抽出されたタグに所定の符号を割り当てることにより、タグ符号表を再作成するようになっているのである。
【0071】
上述のごとく構成された本実施形態における圧縮装置2の動作を図7に示すフローチャート(ステップC1〜C4)を参照しながら説明すると、まず、圧縮装置2は、DTD302が新規に入力されると、そのDTD302と過去に入力されたDTD302とをDTD比較部70にて比較する(ステップC1)。この比較の結果、各DTD302が一致していなければ(ステップC1でNOと判定されれば)、DTD比較部70は、不一致信号をコントローラ80に出力するとともに、新規に入力された上記のDTD302をSGMLタグ抽出部30へ出力する。
【0072】
SGMLタグ抽出部30は、受け取ったDTD302を走査してそのDTD302内に定義されているタグを抽出し(ステップC2)、タグ符号表作成部40へ出力する。このとき、タグ符号表作成部40は、上述のごとくDTD比較部70からコントローラ80へ不一致信号が出力されていることから、コントローラ80からタグ符号表の更新指示を受けるので、SGMLタグ抽出部30で抽出されたタグに所定の符号を割り当てることにより、タグ符号表を再作成する(ステップC3)。
【0073】
そして、このとき、DTD302とともに入力されたSGML文書の文書実現値303は、タグ判別部50へ入力され、タグ判別部50は、入力された文書実現値303がタグであればそのタグをタグ符号化部60へ出力する。タグ符号化部60は、受け取ったタグに対応する符号をタグ符号表作成部40で作成されたタグ符号表から取得し、その符号をタグの符号として出力する(ステップC4)。
【0074】
一方、上記のDTD比較部70での比較の結果、各DTDが一致していた場合(ステップC1でYESと判定された場合)、DTD比較部70は、コントローラ80へ一致信号を出力し、コントローラ80は、タグ符号表作成部40にタグ符号表の維持(非更新)を指示する。これにより、タグ符号化部60は、過去に作成されたタグ符号表に基づいて、上記と同様に文書実現値303内のタグの符号化を行なう(ステップC4)。
【0075】
このように、本実施形態におけるSGML文書の圧縮装置2によれば、同一のDTD302を有する複数のSGML文書については、それらのうちの最初の文書について作成されたタグ符号表に基づいて、全てのSGML文書の本文303内のタグに対する符号化を行なうので、各SGML文書毎にタグ符号表を作成する必要がなく、タグの符号化処理を極めて高速に行なうことができる。
【0076】
なお、SGMLを利用する環境によっては、文書の提供先(サーバ)と受け手(クライアント)との間で、どのようなDTD302に基づくSGML文書が送られてくるかが既に確立されている場合がある。このような場合は本文303以外を毎回相手に渡す必要はない。
例えば、インターネットのWWWで使用されているHTML形式の文書のように予め使用するDTD302の形式が統一されており全ての文書のDTD302が同じであるような場合は、コントローラ80の制御により、最初にタグ符号表作成部40で作成されたタグ符号表を固定的に使用することで、さらに高速にタグの符号化処理を行なうことができる。
【0077】
また、上述した実施形態では、タグ符号表の維持/更新をコントローラ80がタグ符号表作成部40でのタグ符号表の作成処理を直接的に制御することで行なっているが、SGMLタグ抽出部30でのタグの抽出処理を制御する(各DTD302の比較結果に応じてタグの抽出を許可/禁止する)ことで行なってもよい。
【0078】
(b2)SGML文書の復元装置(復号側)の説明
図8は本発明の第2実施形態としてのSGML文書の復元装置の要部の構成を示すブロック図であるが、この図8に示す復元装置3は、図6及び図7により上述した圧縮装置2の復号側に相当するもので、図4に示す構成に、図6により上述したものとそれぞれ同様のDTD比較部70′及びコントローラ80′が設けられた構成となっている。
【0079】
これにより、本実施形態におけるSGML文書の復元装置3では、符号化されたタグの復号については符号化側と同様に、同一のDTD302を有するSGML文書が入力される間はそれら複数の文書のうち最初の文書についてタグ復号表作成部40′にて作成されたタグ復号表に基づいてタグ復号部60′がタグの復号を行ない、異なるDTD302を有するSGML文書が入力されると、タグ復号表作成部40′によってタグ復号表を再作成し、そのタグ復号表に基づいてタグ復号部60′がタグの復号を行なう。
【0080】
以下、上述の動作を図9に示すフローチャート(ステップD1〜D4)参照しがら詳述すると、まず、復元装置3は、DTD302が新規に入力されると、そのDTD302と過去に入力されたDTD302とをDTD比較部70′にて比較する(ステップD1)。この比較の結果、各DTD302が一致していなければ(ステップD1でNOと判定されれば)、DTD比較部70′は、不一致信号をコントローラ80′に出力するとともに、新規に入力された上記のDTD302をSGMLタグ抽出部30′へ出力する。
【0081】
SGMLタグ抽出部30′は、受け取ったDTD302を走査してそのDTD302内に定義されているタグを抽出し(ステップD2)、タグ復号表作成部40′へ出力する。このとき、タグ復号表作成部40′は、上述のごとくDTD比較部70′からコントローラ80′へ不一致信号が出力されていることから、コントローラ80′からタグ符号表の更新指示を受けるので、SGMLタグ抽出部30′で抽出されたタグに所定の符号を割り当てることにより、タグ復号表を再作成する(ステップD3)。
【0082】
そして、このとき、DTD302とともに入力された符号化後のSGML文書の文書実現値303は、タグ判別部50′へ入力され、タグ判別部50′は、入力された文書実現値303の符号がタグであればその符号をタグ復号部60′へ出力する。タグ復号部60′は、受け取った符号に対応するシンボル(タグ)をタグ復号表作成部40′で作成されたタグ復号表から取得し、そのタグを復号結果として出力する(ステップD4)。
【0083】
一方、上記のDTD比較部70′での比較の結果、各DTDが一致していた場合(ステップD1でYESと判定された場合)、DTD比較部70′は、コントローラ80′へ一致信号を出力し、コントローラ80′は、タグ復号表作成部40′にタグ復号表の維持(非更新)を指示する。これにより、タグ復号部60′は、過去に作成されたタグ復号表に基づいて、上記と同様に文書実現値303内の符号化されたタグの復号を行なう(ステップD4)。
【0084】
このように、本実施形態におけるSGML文書の復元装置3によれば、同一のDTD302を有する複数のSGML文書については、それらのうちの最初のSGML文書について作成されたタグ復号表に基づいて、全てのSGML文書の本文303に対するタグの復号を行なうので、各SGML文書毎にタグ復号表を作成する必要がなく、タグの復号処理を極めて高速に行なうことができる。
【0085】
なお、上記の復元装置3についても、HTML形式の文書のように予め使用するDTD302の形式が統一されており全ての文書のDTD302が同じであるような場合は、コントローラ80′の制御により、最初にタグ復号表作成部40′で作成されたタグ復号表を固定的に使用することで、さらに高速にタグの復号処理を行なうことができる。
【0086】
また、上述した実施形態では、タグ復号表の維持/更新をコントローラ80′がタグ復号表作成部40′でのタグ復号表の作成処理を直接的に制御することで行なっているが、SGMLタグ抽出部30′でのタグの抽出処理を制御する(各DTD302の比較結果に応じてタグの抽出を許可/禁止する)ことで行なってもよい。
【0087】
(c)第3実施形態の説明
(c1)SGML文書の圧縮装置(符号化側)の説明
図10は本発明の第3実施形態としてのSGML文書の圧縮装置の要部の構成を示すブロック図であるが、この図10に示すように、本第3実施形態におけるSGML文書の圧縮装置2は、SGMLタグ抽出部100,メモリ101,SGMLタグ検出部102,符号化処理部103a及びCOC出力部106を有して構成されている。
【0088】
ここで、SGMLタグ抽出部100は、入力されたSGML文書のDTD302(図31参照)を走査してそのDTD302内に定義されているタグを抽出するものであり、メモリ(タグ記憶部)101は、タグ符号表作成部としての機能を果たすもので、SGMLタグ抽出部100により抽出されたタグを順次記憶し、そのメモリ101におけるタグのアドレス情報と長さ情報とをタグの符号として割り当てることによりタグ符号表を作成するようになっている。
【0089】
例えば、文書実現値(本文)303として、図11に示すような文書が入力されたとする(ただし、文書中の1文字は1バイトとする)と、SGMLタグ抽出部100により抽出された“TITLE”,“/TITLE”,“SECTION”,“/SECTION”,“SUBSECTION”,“/SUBSECTION”などの各タグが、メモリ101のアドレス“00”番地から順次記憶され、<TITLE>には“00”番地とそのタグの長さ(5バイト)を示す“05”とを組み合わせた“0005”が符号として割り当てられ、<SECTION>には“0c(HEX)”番地とそのタグの長さ(7バイト)を示す“07”とを組み合わせた“0c07”が符号として割り当てられることになる。
【0090】
また、SGMLタグ検出部(タグ判別部)102は、入力されたSGML文書の本文303のデータがSGMLタグ抽出部100により抽出されたタグであるか否かを判別することにより本文303内で使用されているタグを検出するもので、本実施形態では、入力された本文303のデータ(以下、本文データということがある)がメモリ101に記憶されているタグと一致するか否かをみることでタグの検出を行なうようになっている。
【0091】
さらに、符号化処理部103aは、上記のSGMLタグ検出部102において上記の入力データがタグであると判別されると、タグ符号表として作成されたメモリ101の記憶内容に基づいてその入力データを符号化する一方、SGMLタグ検出部102において入力データがタグでないと判別されると、その入力データを所定の符号化方式(ユニバーサル符号化方式など)で符号化するものである。
【0092】
このため、上記の符号化処理部103aは、この図10に示すように、さらに、タグ符号化部103,第2符号化部104及び切り替え制御部105を有して構成されている。
ここで、タグ符号化部(第1符号化部)103は、入力データを上記のタグ符号表(メモリ101の記憶内容)に基づいて符号化するものであり、第2符号化部104は、入力データをユニバーサル符号化方式などの所定の符号化方式で符号化するものであり、切り替え制御部105は、SGMLタグ検出部102において入力データがタグであると判別されるとその入力データをタグ符号化部103へ出力する一方、SGMLタグ検出部102において入力データがタグでないと判別されるとその入力データを第2符号化部104へ出力するものである。
【0093】
なお、上記のタグ符号化部103は、タグの符号化が終了すると、SGMLタグ検出部102にその旨を通知するようになっており、SGMLタグ検出部102はこの通知を受けると、再度、次の本文データに対するタグの検出処理を行なうようになっている。
また、COC出力部(特殊コード出力部)106は、SGMLタグ検出部102において上記の入力データがタグであると判別されると、その入力データのタグ符号化部103での符号化前に、タグの符号化(符号化方式の切り替え)を示す特殊コード(COC:Change Of Coding) を後述するタグの復号側へ出力するものである。
【0094】
以下、上述のごとく構成された本第3実施形態におけるSGML文書の圧縮装置2の動作について、図12に示すフローチャート(ステップE1〜E6)を参照しながら詳述する。
まず、圧縮装置2は、SGMLタグ抽出部100により、入力されたDTD302を走査してそのDTD302内に定義されているタグを抽出し、抽出したタグを、順次、メモリ101に記憶することにより、そのタグにメモリ101のアドレス情報とタグの長さ情報とをタグの符号として割り当ててタグ符号表を作成する(ステップE1)。
【0095】
そして、圧縮装置2は、SGMLタグ検出部102により、入力された本文データがタグであるか否かを判別し(ステップE2)、タグであれば、COC出力部106にCOCの出力を指示するとともに、符号化処理部103aの切り替え制御部105に本文データのタグ符号化部103側への出力切り替えを指示する。これにより、COC出力部106は後述する復号側へCOCを出力し(ステップE2のYESルートからステップE3)、タグ符号化部103は、入力データ(タグ)を基にメモリ101を参照し、そのタグに対応する符号(アドレスと長さ)をタグの符号として出力する(ステップE4)。
【0096】
一方、上記のステップE2において、符号化対象の本文データがタグでなければ、圧縮装置2は、切り替え制御部105に本文データの第2符号化部103側への出力切り替えを指示し、第2符号化部104によって、その本文データ(文字または文字列)を所定の符号化方式で符号化する(ステップE2のNOルートからステップE5)。
【0097】
そして、圧縮装置2は、符号化が終了したか否かを判定し(ステップE5)、終了していなければ(本文データが未だ残っていれば)、符号化が終了するまで上記ステップE2からの処理を繰り返す(ステップE6のNOルート)一方、符号化が終了していれば圧縮処理を終える(ステップE6のYESルート)。
ここで、例えば図13に示すように、本文データとして“今日は<B>晴れ</B>です。”が入力されたと仮定し(ステップF1)、タグ<B>,</B>にそれぞれ符号“0”,“1”が割り当てられてタグ符号表101aが作成され、これらのタグ以外の各文字にそれぞれ図13中に示すような符号が割り当てられている(第2符号化部104用の符号表104aが作成されている)ものとする。
【0098】
すると、上記の本文データは、各タグ<B>,</B>の前にCOC(“10”)が挿入されたのち、これらの各タグがタグ符号化部103によってタグ符号表101aに基づいて符号化されるとともに(ステップF2)、タグ以外の文字がそれぞれ第2符号化部104によって符号表104aに基づいて符号化される。
【0099】
この結果、上記の本文データは、最終的に、この図13中に示すように、16進(HEX)表示で“ff9e7b2e2b”、2進表示で“11111/11110/0111/10/0/11110/1100/10/1/1101/0110/010 ”という符号に符号化される(ステップF3)。
以上のように、本第3実施形態におけるSGML文書の圧縮装置2によれば、入力された本文データがタグである場合は、COCをタグの復号側へ出力した後、タグ符号化部103がタグ符号表に基づいて入力データを符号化する一方、本文データがタグでない場合はその本文データを第2符号化部104が所定の符号化方式で符号化するので、SGML文書内のタグのみならずタグ以外の文書さえも極めて効率良く圧縮することができ、より大幅にSGML文書のデータ量を削減することができる。
【0100】
また、COC出力部106がCOCを復号側へ出力することにより、後述するように、タグの復号側ではタグの判別を容易に行なうことができるので、タグの復号処理の高速化にも大いに寄与している。なお、このCOC出力部106は、復号側での処理を考慮しなければ省略することも可能である。
また、本実施形態の符号化処理部103aは、タグ符号化部103,第2符号化部104及び切り替え制御部105をそなえることにより、その機能が簡素な構成で容易に実現されている。
【0101】
さらに、本実施形態のタグ符号表作成部としてのメモリ101は、タグのメモリ101内でのアドレスと長さについての情報タグの符号として割り当てることによりタグ符号表を作成するので、タグをメモリ101に順次記憶してゆくだけで各タグに符号が割り当てられることになり、メモリ101を1つ設けるという極めて簡素な構成で、且つ、高速に、タグ符号表を作成することができる。
【0102】
また、後述するように、タグの復号側では、これらのアドレスと長さとを基に、容易に、復号すべきタグを特定することができ、タグの復号処理の高速化にも大いに寄与している。
ただし、タグに割り当てる符号は、必ずしも、上記のアドレスと長さについての情報でなくてもよく、少なくともアドレス情報を含む情報であればよい。
【0103】
(c2)SGML文書の復元装置(復号側)の説明
図14は本発明の第3実施形態としてのSGML文書の復元装置の要部の構成を示すブロック図であるが、この図14に示す復元装置2は、図10〜図13により上述した圧縮装置2の復号側に相当するもので、SGMLタグ抽出部200,メモリ201,COC判別部202及び復号処理部203aを有して構成されている。
【0104】
ここで、SGMLタグ抽出部200は、入力されたSGML文書のDTD302(図31参照)を走査してそのDTD302内に定義されているタグを抽出するものであり、メモリ201は、タグ復号表作成部としての機能を果たすもので、符号化側と同様に、SGMLタグ抽出部200により抽出されたタグを順次記憶し、そのメモリ201におけるタグのアドレス情報と長さ情報とをタグの符号として割り当てることによりタグ復号表を作成するようになっている。
【0105】
また、COC判別部(特殊コード判別部)202は、入力された符号化データが、タグの符号化データが入力されることを示すCOCであるか否かを判別するものであり、復号処理部203aは、このCOC判別部202において入力された符号化データがCOCであると判別されると、そのCOCの後に入力される符号化データ(つまり、タグの符号)をタグ復号表に基づいて復号する一方、COC判別部202において入力された符号化データがCOCでないと判別されると、その符号化データを所定の復号方式で復号するものである。
【0106】
このため、上記の復号処理部203aは、この図14に示すように、タグ復号部203,第2復号部204及び切り替え制御部205を有して構成されている。
ここで、タグ復号部(第1復号部)203は、入力された符号化データを上記のタグ復号表として作成されたメモリ201の記憶内容に基づいて復号するものであり、第2復号部204は、入力された符号化データを所定の復号方式で復号するものであるが、この場合は、符号化側に対応する復号方式で復号処理を行なうようになっている。
【0107】
また、切り替え制御部205は、COC判別部202において入力された符号化データがCOCであると判別されるとそのCOCの後に入力される符号化データをタグ復号部203へ出力する一方、COC判別部202において入力された符号化データがCOCでないと判別されるとその符号化データを第2復号部204へ出力するものである。
【0108】
以下、上述のごとく構成された本第3実施形態におけるSGML文書の復元装置3の動作について、図15に示すフローチャート(ステップG1〜G5)を参照しながら詳述する。
まず、復元装置3は、SGMLタグ抽出部200により、入力されたDTD302を走査してそのDTD302内に定義されているタグを抽出し、抽出したタグを、順次、メモリ201に記憶することにより、そのタグにメモリ101のアドレス情報とタグの長さ情報とをタグの符号として割り当てることにより符号化側と同じ記憶内容のタグ復号表を作成する(ステップG1)。
【0109】
そして、復元装置3は、COC判別部202により、入力された符号化データがCOCであるか否かを判別し(ステップG2)、COCであれば、復号処理部203aの切り替え制御部205に符号化データのタグ復号部203側への出力切り替えを指示する。これにより、タグ復号部203は、COCの後に続く符号化データ(タグの符号:アドレスと長さ)を基にメモリ201を参照し、その符号化データに対応するシンボル(タグ)を復号結果として出力する(ステップG3)。
【0110】
一方、上記のステップG2において、復号対象の符号化データがCOCでなければ、復元装置3は、切り替え制御部205に符号化データの第2復号部203側への出力切り替えを指示し、第2復号部204によって、その符号化データ(文字または文字列)を符号化側に対応する復号方式で復号する(ステップG2のNOルートからステップG4)。
【0111】
そして、復元装置3は、復号が終了したか否かを判定し(ステップG5)、終了していなければ(符号化データが未だ残っていれば)、復号が終了するまで上記ステップG2からの処理を繰り返す(ステップG5のNOルート)一方、復号化が終了していれば復元処理を終える(ステップG5のYESルート)。
以上のように、本第3実施形態におけるSGML文書の復元装置3によれば、入力された符号化データがCOCである場合は、そのCOCの後に入力される符号化データをタグ復号部203がタグ復号表に基づいて復号する一方、入力された符号化データがCOCでない場合は、その符号化データを第2復号部204が符号化側に対応する復号方式で復号するので、タグだけでなく符号化されたタグ以外の文書をも極めて効率良く、且つ、正確に復元することができる。
【0112】
また、COCを検出するだけで、復号対象の符号化データがタグであるか否かを判別することができるので、タグの復号処理を大幅に高速化することが可能になっている。
さらに、本実施形態の復号処理部203aは、タグ復号部203,第2復号部204及び切り替え制御部205をそなえることにより、その機能が簡素な構成で容易に実現されている。
【0113】
また、上記のタグ復号表作成部としてのメモリ201は、タグのメモリ201におけるアドレス情報とそのタグの長さ情報とをタグの符号として割り当てることによりタグ復号表を作成するので、タグをメモリ201に順次記憶してゆくだけで自動的に各タグに符号が割り当てられて符号化側と同一の記憶内容を有するタグ復号表を作成することができ、極めて簡素な構成で、高速且つ正確にタグの復号処理を行なうことができる。
【0114】
そして、本実施形態では、上述のように、メモリ201のアドレス情報とタグの長さ情報とがそのままタグの符号として使用されているので、符号化側においてタグがアドレス情報とタグの長さ情報からなる符号として符号化されていればその符号化データに対応するタグをメモリ201から容易に取り出すことができ、タグの復号処理の大幅高速化に大いに寄与している。
【0115】
なお、タグに割り当てる符号は、必ずしも、上記のアドレスと長さについての情報でなくてもよく、符号化側と対応していれば、少なくともアドレス情報を含む情報であればよい。
ところで、上述の復元装置3は、COC検出タイミングでタグの復号とタグ以外の文字(列)の復号とを切り替えるようにしているが、タグ以外の文字(列)群の符号とタグの符号とが一致しないように符号の割り当てを行なえば、例えば図16に示すように、上記のCOC判別部202の代わりに、入力された符号化データがタグであるか否かを判別するSGMLタグ判別部202′をそなえることにより、タグ自体の検出タイミングでタグの復号とタグ以外の文字(列)の復号とを切り替えることができる。
【0116】
(d)第4実施形態の説明
(d1)SGML文書の圧縮装置(符号化側)の説明
図17は本発明の第4実施形態としてのSGML文書の圧縮装置の要部の構成を示すブロック図であるが、この図17に示すように、本第4実施形態におけるSGML文書の圧縮装置2は、図10に示すメモリ101に代えて、タグ符号表作成部101′として、辞書作成部107及び辞書更新部108をそなえた構成となっている。
【0117】
ここで、辞書作成部(第1符号化用辞書作成部)107は、SGMLタグ抽出部100により抽出されたタグに所定の初期符号を割り当てることによりタグの辞書(統計型動的辞書:第1符号化用辞書)をタグ符号表として作成するものであり、辞書更新部(符号化用辞書更新部)108は、符号化処理部103a(タグ符号化部103)によりタグが符号化されると、そのタグの出現頻度に応じて、辞書作成部107により作成された辞書内の符号の更新を行なうもので、本実施形態では、出現頻度の高いタグほど短いそのタグには短い符号(出現頻度に反比例した長さの符号)が割り当てられるようになっている。
【0118】
つまり、本第4実施形態のSGML文書の圧縮装置2は、タグの符号化の際に使用する辞書(符号表)をタグの符号化毎にそのタグの出現頻度を考慮しながら更新して、タグの符号化を行なうようになっているのである。
以下、上述のごとく構成された本第4実施形態におけるSGML文書の圧縮装置2の動作について、図18に示すフローチャート(ステップH1〜H8)を参照しながら詳述する。
【0119】
まず、圧縮装置2は、SGMLタグ抽出部100によって、入力されたDTD302を走査してそのDTD302内に定義されているタグを抽出し(ステップH1)、タグ符号表作成部101′の辞書作成部107へ出力する。辞書作成部107は、入力されたタグに、順次、所定の初期符号を割り当てることにより、タグ符号表を作成する(ステップH2)。
【0120】
そして、圧縮装置2は、SGMLタグ検出部102により、上記のDTD302とともに入力された本文303のデータがタグであるか否かを判別し(ステップH3)、タグであれば、COC出力部106にCOCの出力を指示するとともに、符号化処理部103aの切り替え制御部105に本文データのタグ符号化部103側への出力切り替えを指示する。
【0121】
これにより、COC出力部106は後述する復号側へCOCを出力し(ステップH3のYESルートからステップH4)、タグ符号化部103は、入力データ(タグ)を基に辞書作成部107により作成された辞書(タグ符号表)を参照し、そのタグに対応する符号をタグの符号として出力する(ステップH5)。
すると、圧縮装置2は、辞書更新部108により、タグ符号化部103で符号化されたタグの出現頻度を計算し、その計算結果に応じた符号(初期符号よりも短い符号)を符号化したタグに再割り当てして辞書の更新を行なう(ステップH6)。
【0122】
一方、上記のステップH3において、符号化対象の本文データがタグでなければ、圧縮装置2は、切り替え制御部105に本文データの第2符号化部103側への出力切り替えを指示し、第2符号化部104によって、その本文データ(文字または文字列)を所定の符号化方式で符号化する(ステップH3のNOルートからステップH7)。
【0123】
そして、圧縮装置2は、符号化が終了したか否かを判定し(ステップH8)、終了していなければ(本文データが未だ残っていれば)、符号化が終了するまで上記ステップH3からの処理を繰り返す(ステップH8のNOルート)一方、符号化が終了していれば圧縮処理を終える(ステップH8のYESルート)。
このように、本第4実施形態におけるSGML文書の圧縮装置2は、SGMLタグ抽出部100により抽出されたタグに所定の初期符号を割り当てることによりタグの辞書を作成し、出現頻度の高いタグの符号が短くなくなるよう、タグが符号化されると、そのタグの出現頻度に応じて、辞書内の符号の更新を行なうこので、タグの符号化が進むにつれて、出現頻度の高いタグほど短い符号が再割り当てされることになり、タグの圧縮率を大幅に向上することができる。
【0124】
(d2)SGML文書の復元装置(復号側)の説明
図19は本発明の第4実施形態としてのSGML文書の復元装置の要部の構成を示すブロック図であるが、この図19に示す復元装置3は、図17及び図18により上述した圧縮装置2の復号側に相当するもので、本実施形態では、図14に示す構成に、辞書作成部207及び辞書更新部208をタグ復号表作成部201′としてそなえた構成となっている。
【0125】
ここで、辞書作成部(第1復号用辞書作成部)208は、SGMLタグ抽出部200により抽出されたタグに所定の初期符号を割り当てることによりタグの辞書(第1復号用辞書)をタグ復号表として作成するものであるが、ここでは、上述の符号化側と同じルールに従って初期符号を各タグに割り当てるようになっている。
【0126】
また、辞書更新部(復号用辞書更新部)207は、復号処理部203a(タグ復号部203)によりタグが復号されると、出現頻度の高いタグの符号ほどその符号が短くなるように、タグの出現頻度に応じて、辞書作成部207により作成された辞書内の符号の更新(再割り当て)を行なうものである。
以下、上述のごとく構成された本第4実施形態におけるSGML文書の復元装置3の動作について、図20に示すフローチャート(ステップJ1〜J7)を参照しながら詳述する。
【0127】
まず、復元装置3は、SGMLタグ抽出部200によって、入力されたDTD302を走査してそのDTD302内に定義されているタグを抽出し(ステップJ1)、タグ復号表作成部201′の辞書作成部207へ出力する。辞書作成部207は、受け取ったタグに、符号化側での初期符号の割り当てと同じルールに従って、順次、初期符号を割り当てることにより辞書(タグ復号表)を作成する(ステップJ2)。
【0128】
そして、復元装置3は、COC判別部202により、入力された符号化データがCOCであるか否かを判別し(ステップJ3)、COCであれば、復号処理部203aの切り替え制御部205に符号化データのタグ復号部203側への出力切り替えを指示する。これにより、タグ復号部203は、COCの後に続く符号化データを基に辞書作成部207により作成された辞書を参照し、その符号化データに対応するシンボル(タグ)を復号結果として出力する(ステップJ4)。
【0129】
すると、復元装置3は、辞書更新部208により、タグ復号部203で復号されたタグの出現頻度を計算し、その計算結果に応じた符号(初期符号よりも短い符号)を復号したタグに再割り当てして辞書の更新を行なう(ステップJ5)。一方、上記のステップJ3において、復号対象の符号化データがCOCでなければ、復元装置3は、切り替え制御部205に符号化データの第2復号部203側への出力切り替えを指示し、第2復号部204によって、その符号化データ(文字または文字列)を符号化側に対応する復号化方式で復号する(ステップJ3のNOルートからステップJ6)。
【0130】
そして、復元装置3は、復号が終了したか否かを判定し(ステップJ7)、終了していなければ(符号化データが未だ残っていれば)、復号が終了するまで上記ステップJ3からの処理を繰り返す(ステップJ7のNOルート)一方、復号化が終了していれば復元処理を終える(ステップJ7のYESルート)。
このように、本第4実施形態におけるSGML文書の復元装置3によれば、SGMLタグ抽出部200により抽出されたタグに符号化側と同じルールに従って所定の初期符号を割り当てることによりタグの辞書を作成し、タグが復号されると、そのタグの出現頻度に応じて、第1復号用辞書内の符号の更新を行なうので、タグの復号が進むにつれて、出現頻度の高いタグほど短い符号が再割り当てされることになり、タグの復号効率を大幅に向上することができるとともに、正確に符号化されたタグを復号することがでできる。
【0131】
(e)第5実施形態の説明
(e1)SGML文書の圧縮装置(符号化側)の説明
図21は本発明の第5実施形態としてのSGML文書の圧縮装置の要部の構成を示すブロック図であるが、この図21に示すように、本第5実施形態におけるSGML文書の圧縮装置2は、図17に示す構成に比して、タグ符号表作成部101′として符号作成部109をそなえるほか、符号情報出力部112及びバッファ113をそなえて構成されている点が異なる。
【0132】
ここで、上記の符号作成部(第2符号化用辞書作成部)109は、SGMLタグ抽出部100により抽出されたタグに基づいて本文303内のタグの出現頻度を計数し、その計数結果に応じた符号をタグに割り当てることによりタグの辞書(統計型準動的辞書:第2符号化用辞書)をタグ符号表として作成するものであり、符号情報出力部(出現頻度情報出力部)112は、上記のタグの出現頻度に関する情報を後述するタグの復号側へ出力するものである。
【0133】
なお、バッファ113は、符号作成部109にてタグ符号表(辞書)が作成されるまで、本文データを保持するものである。
そして、上述の符号作成部109は、本実施形態では、例えば図22に示すように、タグ計数部151,タグ保持部152,タグ判定部153,符号生成部154及び符号保持部155をそなえることにより、容易に上記の統計型準動的辞書を作成できるようになっている。
【0134】
ここで、タグ計数部151は、SGMLタグ抽出部100により抽出されたタグと本文303内のタグとが一致するか否かを判定することにより本文303内のタグの出現頻度を計数するもので、本実施形態では、SGMLタグ抽出部100により抽出されたタグと、タグ判定部153でタグであると判定された本文303内のタグとがそれぞれタグ保持部152に保持され、保持された各タグの一致数を計数することにより各タグの出現頻度を求めるようになっている。
【0135】
また、符号生成部154は、タグ計数部151での計数結果に応じた符号をタグに割り当てる符号として生成するものであり、符号保持部155は、この符号生成部154により生成された符号をタグ判定部153を通じてタグ保持部152に保持されているタグと対応付けて保持することによりタグの辞書を作成するものである。
【0136】
つまり、本第5実施形態のSGML文書の圧縮装置2は、最初に本文303内のタグの出現頻度を考慮したタグの辞書(符号表)を作成しておき、以降の符号化処理では、その辞書に基づいて(辞書の更新は行なわずに)タグの符号化を行なうようになっているのである。
以下、上述のごとく構成された本第5実施形態におけるSGML文書の圧縮装置2の動作について、図23に示すフローチャート(ステップK1〜K8)を参照しながら詳述する。
【0137】
まず、圧縮装置2は、SGMLタグ抽出部100によって、入力されたDTD302を走査してそのDTD302内に定義されているタグを抽出し(ステップK1)、符号作成部109へ出力する。
符号作成部109では、受け取ったタグをタグ保持部152に保持するとともに、入力された本文303のデータがタグであるか否かを判定することにより、本文データ内のタグのみをタグ保持部152に保持し、タグ計数部151がタグ保持部152内に保持されているタグの一致数を計数することにより、各タグの出現頻度を算出する(ステップK2)。
【0138】
さらに、符号作成部109は、符号生成部154によって、上述のごとく得られた各タグの出現頻度に応じた符号を生成し、各符号をそれぞれ対応するタグに割り当てて符号保持部155に保持する(タグの辞書を作成する)(ステップK3)。なお、このとき、タグ計数部151によって計数されたタグの出現頻度情報は、復号側で本符号化側と同じ辞書を作成するための情報として符号情報出力部112を通じて復号側へ出力されている。
【0139】
そして、圧縮装置2は、SGMLタグ検出部102により、入力された本文データがタグであるか否かを判別し(ステップK4)、タグであれば、COC出力部106にCOCの出力を指示するとともに、符号化処理部103aの切り替え制御部105に本文データのタグ符号化部103側への出力切り替えを指示する。これにより、COC出力部106は後述する復号側へCOCを出力し(ステップK4のYESルートからステップK5)、タグ符号化部103は、入力データ(タグ)を基に符号作成部109により作成された辞書を参照し、そのタグに対応する符号をタグの符号として出力する(ステップK6)。
【0140】
一方、上記のステップK4において、符号化対象の本文データがタグでなければ、圧縮装置2は、切り替え制御部105に本文データの第2符号化部103側への出力切り替えを指示し、第2符号化部104によって、その本文データ(文字または文字列)を所定の符号化方式で符号化する(ステップK4のNOルートからステップK7)。
【0141】
そして、圧縮装置2は、符号化が終了したか否かを判定し(ステップK8)、終了していなければ(本文データが未だ残っていれば)、符号化が終了するまで上記ステップK4からの処理を繰り返す(ステップK8のNOルート)一方、符号化が終了していれば圧縮処理を終える(ステップK8のYESルート)。
このように、本第5実施形態におけるSGML文書の圧縮装置2によれば、本文303内のタグの出現頻度を計数し、その計数結果に応じた符号(出現頻度の高いタグほど短い符号)をタグに割り当ててタグの辞書(統計型準動的辞書)を作成するので、タグの符号化前に予め出現頻度の高いタグに短い符号を割り当てておくことができる。
【0142】
従って、前記の統計型動的辞書のようにタグの符号化毎に辞書を更新する必要がないので、タグの圧縮率を向上させながら圧縮処理を高速化することができる。
また、上述の圧縮装置2では、符号情報出力部112により、タグの出現頻度に関する情報をタグの復号側へ出力するので、復号側では容易に符号化側で作成された辞書と同一の辞書を作成することができるようになり、復号側におけるタグの復号処理の正確性の向上にも大いに寄与している。なお、復号側へはタグの出現頻度に関する情報ではなく、符号化側で作成された符号表そのものの情報を送るようにしてもよい。
【0143】
(e2)SGML文書の復元装置(復号側)の説明
図24は本発明の第5実施形態としてのSGML文書の復元装置の要部の構成を示すブロック図であるが、この図24に示す復元装置3は、図21〜図23により上述した圧縮装置2の復号側に相当するもので、本実施形態では、図14に示すメモリ201の代わりにタグ復号表作成部201′として符号作成部209をそなえるほか、バッファ213をそなえて構成されている。
【0144】
ここで、上記の符号作成部(第2復号用辞書作成部)209は、SGMLタグ抽出部200により抽出されたタグと、符号化側の符号情報出力部112を通じて送られてくるそのタグの出現頻度に関する情報とに基づいて、符号化側と同一の符号内容を有するタグの辞書(統計型準動的辞書:第2復号用辞書)をタグ復号表として作成するものである。
【0145】
なお、バッファ213は、この符号作成部209にてタグ復号表(辞書)が作成されるまで、入力された符号化データを保持するものである。
以下、上述のごとく構成された本第5実施形態におけるSGML文書の復元装置3の動作について、図25に示すフローチャート(ステップL1〜L6)を参照しながら詳述する。
【0146】
まず、復元装置3は、SGMLタグ抽出部200によって、入力されたDTD302を走査してそのDTD302内に定義されているタグを抽出し(ステップL1)、タグ復号表作成部201′の辞書作成部209へ出力する。辞書作成部209は、受け取ったタグと符号化側から送られてくるタグの出現頻度情報とに基づいて、符号化側で作成された符号表と同一の符号内容を有するタグの復号表を(辞書)作成する(ステップL2)。
【0147】
そして、復元装置3は、COC判別部202により、入力された符号化データがCOCであるか否かを判別し(ステップL3)、COCであれば、復号処理部203aの切り替え制御部205に符号化データのタグ復号部203側への出力切り替えを指示する。これにより、タグ復号部203は、COCの後に続く符号化データを基に辞書作成部207により作成された辞書を参照し、その符号化データに対応するシンボル(タグ)を復号結果として出力する(ステップL3のYESルートからステップL4)。
【0148】
一方、復号対象の符号化データがCOCでなければ、復元装置3は、切り替え制御部205に符号化データの第2復号部203側への出力切り替えを指示し、第2復号部204によって、その符号化データ(文字または文字列)を符号化側に対応する復号化方式で復号する(ステップL3のNOルートからステップL5)。
【0149】
そして、復元装置3は、復号が終了したか否かを判定し(ステップL6)、終了していなければ(符号化データが未だ残っていれば)、復号が終了するまで上記ステップL3からの処理を繰り返す(ステップL6のNOルート)一方、復号化が終了していれば復元処理を終える(ステップL6のYESルート)。
このように、本第5実施形態におけるSGML文書の復元装置3によれば、SGMLタグ抽出部200により抽出されたDTD302内のタグと、符号化側から送られてくるSGML文書の本文303内のタグの出現頻度に関する情報とに基づいて、符号化側と同一の符号内容を有するタグの復号表を作成するので、符号化側で符号化されたタグを正確に復号することができる。また、符号化側と同様に、タグの復号前に予め出現頻度の高いタグには短い符号が割り当てられるので、タグの復号効率を向上させながら復号処理を高速化することができる。
【0150】
(f)第6実施形態の説明
(f1)SGML文書の圧縮装置(符号化側)の説明
図26は本発明の第6実施形態としてのSGML文書の圧縮装置の要部の構成を示すブロック図であるが、この図26に示す圧縮装置2は、図10に示すSGMLタグ検出部102に代えて、開始タグ保持部110及び開始タグ検出部111を有するSGMLタグ検出部102′をそなえた構成となっている。
【0151】
ここで、上記の開始タグ保持110は、SGMLタグ抽出部100により抽出されたDTD302内のタグの始まりを示すタグ開始文字(列)(例えば、“<”や“</”など)のみを保持するものであり、開始タグ検出部111は、この開始タグ保持部110に保持されたタグ開始文字(列)(以下、開始タグという)に基づいて、入力された本文303のデータがタグ開始タグである否かを検出するものである。
【0152】
つまり、本実施形態のSGMLタグ検出部(タグ判別部)102′は、SGMLタグ抽出部100で抽出されたタグに基づいてタグの始まりを示す開始タグを検出することにより入力データがタグであると判別するようになっているのである。
ただし、上記の開始タグ検出部111は、本実施形態では、上記の開始タグが検出されると、開始タグそのもの(“<”や“</”)は第2符号化部104にてタグ以外のデータとして符号化されるよう切り替え制御部205に指示を与えたのち、上記の開始タグに続くデータがタグ本体としてタグ符号化部103で符号化されるよう切り替え制御部205に指示を与えるようになっている。
【0153】
以下、上述のごとく構成された本第6実施形態におけるSGML文書の圧縮装置2の動作について、図27に示すフローチャート(ステップM1〜M6)を参照しながら詳述する。
まず、圧縮装置2は、SGMLタグ抽出部100によって、入力されたDTD302を走査してそのDTD302内に定義されているタグを抽出し、抽出したタグを順次メモリ101に記憶することにより、そのタグにメモリ101のアドレス情報とタグの長さ情報とをタグの符号として割り当ててタグ符号表を作成する(ステップM1)。
【0154】
一方、このとき、開始タグ保持部110へはSGMLタグ抽出部100によって抽出されたタグのうち開始タグのみが出力され、開始タグ保持部110は、入力された開始タグを順次保持することにより、開始タグを決定しておく(ステップM2)。
そして、圧縮装置2は、開始タグ検出部111により、入力された本文データが開始タグであるか否かを判別し(ステップM3)、開始タグであれば、符号化処理部103aの切り替え制御部105に本文データの第2符号化部104側への出力切り替えを指示する。これにより、第2符号化部103は、入力データ(開始タグ)を所定の符号化方式で符号化する。
【0155】
その後、開始タグ検出部111は、切り替え制御部105に本文データのタグ符号化部103側への出力切り替えを指示し、これにより、上記の開始タグに続くタグ本体がタグ符号化部103へ入力され、タグ符号化部103では、その入力データ(タグ本体)を基にメモリ101を参照し、そのタグのアドレスと長さとをタグの符号として出力する(ステップM3のYESルートからステップM4)。
【0156】
一方、入力された本文データが開始タグでなければ、開始タグ検出部111は、切り替え制御部105に本文データの第2符号化部104側への出力切り替えを指示し、第2符号化部104によって、その本文データ(文字または文字列)を所定の符号化方式で符号化する(ステップM3のNOルートからステップM5)。
【0157】
そして、圧縮装置2は、符号化が終了したか否かを判定し(ステップM6)、終了していなければ(本文データが未だ残っていれば)、符号化が終了するまで上記ステップM3からの処理を繰り返す(ステップM6のNOルート)一方、符号化が終了していれば圧縮処理を終える(ステップM6のYESルート)。
このように、本第6実施形態におけるSGML文書の圧縮装置2によれば、入力された本文データがタグである否かを開始タグを検出することにより判別するので、上記のCOCを復号側へ出力しなくても復号側でも同様に開始タグからタグの判別を行なうことができ、COCを出力しない分、よりSGML文書の圧縮率を高めることができる。
【0158】
また、タグの判別を開始タグのみを検出することにより行なっているので、より簡素な構成で、且つ、高速に、タグの判別を行なうことができ、タグの圧縮処理の高速化にも大いに寄与している。
(f2)SGML文書の復元装置(復号側)の説明
図28は本発明の第6実施形態としてのSGML文書の復元装置の要部の構成を示すブロック図であるが、この図28に示す復元装置3は、図26及び図27により上述した圧縮装置2の復号側に相当するもので、本実施形態では、図14に示すSGMLタグ検出部202に代えて、開始タグ保持部210及び開始タグ検出部211を有するSGMLタグ検出部202′をそなえた構成となっている。
【0159】
ここで、上記の開始タグ保持部210及び開始タグ検出部211は、それぞれ、符号化側の開始タグ保持部110及び開始タグ検出部111と同様のもので、開始タグ保持部210は、SGMLタグ抽出部200により抽出されたDTD302内の開始タグ(“<”や“</”など)のみを保持するものであり、開始タグ検出部211は、この開始タグ保持部210に保持された開始タグに基づいて、第2復号部204で復号されたシンボルが開始タグであるか否かを検出するもので、開始タグが検出されると、その後の復号対象の符号化データがタグの符号であるので、切り替え制御部205の出力をタグ復号部203側へ切り替えるよう指示するようになっている。
【0160】
以下、上述のごとく構成された本第6実施形態における復元装置3の動作について、図29に示すフローチャート(ステップN1〜N6)を参照しながら詳述する。
まず、復元装置3は、SGMLタグ抽出部200によって、入力されたDTD302を走査してそのDTD302内に定義されているタグを抽出し、抽出したタグを順次メモリ101に記憶することにより、そのタグにメモリ101のアドレス情報とタグの長さ情報とをタグの符号として割り当ててタグ復号表を作成する(ステップN1)。
【0161】
一方、このとき、開始タグ保持部210へはSGMLタグ抽出部200によって抽出されたタグのうち開始タグのみが出力され、開始タグ保持部210は、入力された開始タグを順次保持することにより、開始タグを決定しておく(ステップN2)。
そして、復元装置2は、開始タグ検出部211により、第2復号部204で復号されたシンボルが開始タグであるか否かを判別し(ステップN3)、開始タグであれば、続いて入力される符号化データ(タグ本体の符号=アドレスと長さ)がタグ復号部204へ出力されるよう、切り替え制御部205に符号化データのタグ復号部203側への出力切り替えを指示する。
【0162】
これにより、タグ復号部203は、入力データ(アドレスと長さ)を基にメモリ201を参照して該当するタグを復号結果として出力する(ステップN3のYESルートからステップN4)。
一方、第2復号部204で復号されたシンボルが開始タグでなかった場合、開始タグ検出部211は、切り替え制御部105に符号化データの第2復号部204側への出力切り替えを指示し、第2復号部204によって、その符号化データを符号化側の符号化方式と対応する復号方式で復号する(ステップN3のNOルートからステップN5)。
【0163】
そして、復元装置2は、復号が終了したか否かを判定し(ステップN6)、終了していなければ(符号化データが未だ残っていれば)、復号が終了するまで上記ステップN3からの処理を繰り返す(ステップN6のNOルート)一方、復号が終了していれば復元処理を終える(ステップN6のYESルート)。
このように、本第6実施形態におけるSGML文書の復元装置3によれば、復号された符号化データが開始タグである否かを検出することによりタグの開始位置を判別するので、上記のCOCを受信しなくてもタグの復号とタグ以外の文字(列)の復号とを切り替えることができる。従って、COCを受信しない分、符号化側での圧縮率を高めながら正確にタグの復元処理を行なうことができる。
【0164】
また、タグの判別を開始タグのみを検出することにより行なっているので、より簡素な構成で、且つ、高速に、タグの判別を行なうことができ、タグの復元処理の高速化にも大いに寄与している。
以上のように、上述した各実施形態におけるSGML文書の圧縮装置2によれば、本文303内のタグを符号化して圧縮することができるので、SGML文書のデータ量を大幅に削減することができる。また、タグだけでなく、タグ以外の文字(列)についても所定の符号化方式で符号化して圧縮することができるので、SGML文書のデータ量をより大幅に削減することができる。
【0165】
さらに、上述した各実施形態におけるSGML文書の復元装置3によれば、符号化されたタグもしくはタグとタグ以外の文字(列)とを効率良く、且つ、確実に復号することができるので、常に正確にタグもしくはタグとタグ以外の文字(列)を復元することができる。
また、上述した各圧縮装置2,復元装置3は、それぞれ、上述のような機能を有する圧縮プログラム,復元プログラムを記録したフロッピーディスク11やCD−ROM12,MO13などの記録媒体15をコンピュータ2,3に提供することで、容易に実現されるので、本発明の汎用性を大幅に向上させることができ、本発明の普及が大いに期待できる。
(g)その他
なお、上述した実施形態では、いずれも、圧縮装置2,復元装置3がそれぞれ単体で異なるパソコン上で実現されている場合について説明したが、圧縮装置2と復元装置3の両方を圧縮/復元装置として1つのパソコン上で実現することも可能である。
【0166】
例えば、第3実施形態にて前述した圧縮装置2(図10参照)と復元装置(図14参照)とを1つのパソコン上で実現することを考えた場合、その構成は図30に示すようになる。
ただし、この場合、復元側では、符号化側で作成されたタグ符号表を使用してタグの復号を行なえばよいので、図30に示すように、メモリ101が符号化側と復元側とで共用化されている(タグ符号/復号表作成部として機能している)。なお、この図30に示すSGML文書の圧縮/復元装置の各部の動作は、第3実施形態にて前述したものと同様であるので、ここでは、その説明は省略する。
【0167】
このように、上述のSGML文書の圧縮/復元装置によれば、タグの復号に際しては、タグの符号化時に作成・使用したメモリ101の記憶内容(タグ符号/復号表)に基づいて、タグの復号処理を行なうので、少なくとも、前述の各実施形態で述べたようにタグ復号用の復号表をタグ符号化用の符号表と個別に作成する必要がなく、タグ復号(復元)処理の高速化,装置規模の削減に大いに寄与している。
【0168】
なお、上記の第3実施形態以外の各実施形態における圧縮装置2,復元装置3についても、同様に、1つの装置(パソコン)上で圧縮/復元装置として実現することが可能である。
また、上述した各実施形態では、SGML文書のDTD302内に定義されているタグを抽出して符号を割り当てているが、SGML宣言部301にもDTD302と同様にタグが定義されていれば、そのSGML宣言部301内のタグも抽出して符号を割り当てるようにしてもよい。
【0169】
さらに、上述した各実施形態では、SGML文書の本文303についてのみ圧縮/復元を行なっているが、本文303以外(SGML宣言部301,DTD302)についても同様に圧縮/復元を行なっても良い。
【0170】
【発明の効果】
以上詳述したように、本発明のタグ文書の圧縮装置および圧縮方法によれば、文書型定義部及び文書実現部のうちの前記文書型定義部内のタグに所定の符号を割り当ててタグ符号表を作成し、そのタグ符号表に基づいて、前記文書型定義部及び前記文書実現部のうちの前記文書実現部内のタグを符号化するので、タグ文書のタグを極めて効率良く圧縮することができ、タグ文書のデータ量を大幅に削減することができる。
【0171】
なお、このとき、同一の文書型定義部を有する複数のタグ文書については、最初のタグ文書について作成されたタグ符号表に基づいて、全てのタグ文書の文書実現部内のタグに対する符号化を行なうので、各タグ文書毎にタグ符号表を作成する必要がなく、タグの符号化処理を極めて高速に行なうことができる。
【0172】
また、本発明のタグ文書の圧縮装置および圧縮方法によれば、上記と同様のタグ符号表を作成し、入力されたデータがタグである場合は、タグの符号化を示す特殊コードをタグの復号側へ出力した後、タグ符号表に基づいて入力データを符号化する一方、入力データがタグでない場合は入力データを所定の符号化方式で符号化するので、タグ文書内のタグのみならずタグ以外の文書さえも極めて効率良く圧縮することができ、より大幅にタグ文書のデータ量を削減することができる。また、タグの復号側では上記の特殊コードによりタグの判別を容易に行なうことができるので、タグの復号処理の高速化にも大いに寄与する。
【0173】
ここで、上記の符号化処理は、入力データを上記のタグ符号表に基づいて符号化する第1符号化部と、入力データを所定の符号化方式で符号化する第2符号化部と、入力データがタグであると判別されるとその入力データを第1符号化部へ出力する一方、入力データがタグでないと判別されるとその入力データを第2符号化部へ出力する切り替え制御部とをそなえることにより、簡素な構成で容易に実現される。
【0174】
また、上記のタグ符号表は、タグをタグ記憶部に記憶させ、そのタグ記憶部における記憶箇所についての情報をタグの符号として割り当てることにより作成すれば、タグをタグ記憶部に順次記憶してゆくだけで各タグに符号が割り当てられることになるので、極めて簡素な構成で、且つ、高速に、上記のタグ符号表を作成することができる。
【0175】
なお、上記の記憶箇所についての情報を、例えば、上記タグ記憶部のアドレス情報を含む情報とすれば、タグ記憶部のアドレス情報がそのままタグの符号として使用されるので、より高速に、タグの符号化を行なうことができる。具体的に、上記の記憶箇所についての情報を、例えば、上記アドレス情報とタグの長さ情報とすれば、タグの長さもそのタグの符号として割り当てられるので、タグの復号側では、容易に、復号すべきタグを特定することができ、タグの復号処理の高速化に大いに寄与する。
【0176】
さらに、上記のタグ符号表は、上記のタグ抽出部により抽出されたタグに所定の初期符号を割り当てることによりタグの第1符号化用辞書を作成し、タグが符号化されると、そのタグの出現頻度に応じて、第1符号化用辞書内の符号の更新を行なうことにより作成すれば、タグの符号化が進むにつれて、例えば出現頻度の高いタグほど短い符号が再割り当てされるので、タグの圧縮効率を大幅に向上することができる。
【0177】
また、上記のタグ符号表は、文書実現部内のタグの出現頻度を計数し、その計数結果に応じた符号をタグに割り当ててタグの第2符号化用辞書として作成すれば、タグの符号化前に予め出現頻度の高いタグには短い符号を割り当てておくことができるので、タグの圧縮効率を向上させながら圧縮処理を高速化することができる。
【0178】
なお、この場合、上記のタグの出現頻度に関する情報をタグの復号側へ出力するようにすれば、復号側では容易に上記の第2符号化用辞書と同一の辞書を作成することができるので、復号側におけるタグの復号処理の正確性の向上に大いに寄与する。
なお、上記の第2符号化用辞書は、文書実現部内のタグの出現頻度を計数するタグ計数部と、このタグ計数部での計数結果に応じた符号を生成する符号生成部と、この符号生成部により生成された符号を保持する符号保持部とをそなえることにより、容易に作成することができる。
【0179】
また、本発明のタグ文書の圧縮装置および圧縮方法によれば、文書型定義部及び文書実現部のうちの前記文書型定義部内のタグに所定の符号を割り当ててタグ符号表を作成し、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータがタグである場合は上記のタグ符号表に基づいて入力データを符号化する一方、入力データがタグでない場合は入力データを所定の符号化方式で符号化するので、上記の特殊コードを出力しない分、より圧縮効率を高めることができる。
【0180】
なお、このとき、タグの始まりを示す開始タグを検出することにより入力データがタグであると判別するようにすれば、より簡素な構成で、且つ、高速に、タグの判別を行なうことができ、これにより、タグの圧縮処理を高速化することができる。
一方、本発明のタグ文書の復元装置および復元方法によれば、文書型定義部及び文書実現部のうちの文書型定義部内のタグに所定の符号を割り当ててタグ復号表を作成し、そのタグ復号表に基づいて符号化された前記文書型定義部及び前記文書実現部のうちの前記文書実現部内のタグを復号するので、タグ文書内の符号化されたタグを極めて効率良く、且つ、正確に復号(復元)することができる。
【0181】
なお、このとき、同一の文書型定義部を有する複数のタグ文書については、最初のタグ文書について作成されたタグ復号表に基づいて、全てのタグ文書の文書実現部に対するタグの復号を行なうので、各タグ文書毎にタグ復号表を作成する必要がなく、タグの復号処理を極めて高速に行なうことができる。
【0182】
また、本発明のタグ文書の復元装置および復元方法によれば、上記と同様のタグ復号表を作成し、入力された符号化データが特殊コードである場合は、その特殊コードの後に入力される符号化データをタグ復号表に基づいて復号する一方、入力された符号化データが特殊コードでない場合は、その符号化データを所定の復号方式で復号するので、タグだけでなく符号化されたタグ以外の文書をも極めて効率良く、且つ、正確に復元することができる。また、特殊コードを検出するだけで、復号対象の符号化データがタグであるか否かを判別することができるので、タグの復号処理を大幅に高速化することができる。
【0183】
ここで、上記の復号処理は、入力された符号化データを上記のタグ復号表に基づいて復号する第1復号部と、入力された符号化データを所定の復号方式で復号する第2復号部と、符号化データが特殊コードであると判別されるとその特殊コードの後に入力される符号化データを第1復号部へ出力する一方、符号化データが特殊コードでないと判別されるとその符号化データを第2復号部へ出力する切り替え制御部とをそなえることにより、簡素な構成で容易に実現される。
【0184】
また、上記のタグ復号表は、タグをタグ記憶部をさせ、そのタグ記憶部における記憶箇所についての情報をタグの符号として割り当てることにより作成すれば、タグをタグ記憶部に順次記憶してゆくだけで各タグに符号が割り当てられることになるので、極めて簡素な構成で、且つ、高速に、上記のタグ復号表を作成することができる。
【0185】
なお、上記の記憶箇所についての情報を、例えば、上記タグ記憶部のアドレス情報を含む情報とすれば、タグ記憶部のアドレス情報がそのままタグの符号として使用されるので、符号化側においてタグがアドレス情報を含む情報として符号化されていればその符号化データに対応するタグをタグ記憶部から容易に取り出すことができ、タグの復号処理が大幅に高速化される。
【0186】
具体的に、上記の記憶箇所についての情報を、例えば、上記アドレス情報とタグの長さ情報とすれば、タグの長さもそのタグの符号として割り当てられるので、符号化側においてタグが上記のアドレス情報とその長さ情報として符号化されていれば、より正確に、その符号化データに対応するタグをタグ記憶部から取り出すことができ、タグ復号処理の高速化,正確性の向上に大いに寄与する。
【0187】
さらに、上記のタグ復号表は、文書型定義部内のタグに所定の初期符号を割り当てることによりタグの第1復号用辞書を作成し、タグが復号されると、そのタグの出現頻度に応じて、第1復号用辞書内の符号の更新を行なうことにより作成すれば、タグの復号が進むにつれて、例えば出現頻度の高いタグほど短い符号が再割り当てされるので、タグの復号効率を大幅に向上することができる。
【0188】
また、上記のタグ復号表は、文書型定義部内のタグと文書実現部内のタグの出現頻度に関する情報とに基づいて、文書型定義部内のタグにその出現頻度に応じた符号を割り当ててタグの第2復号用辞書として作成すれば、タグの復号前に予め出現頻度の高いタグには短い符号を割り当てておくことができるので、タグの復号効率を向上させながら復号処理を高速化することができる。
【0189】
さらに、本発明のタグ文書の復元装置および復元方法によれば、文書型定義部及び文書実現部のうちの文書型定義部内のタグに所定の符号を割り当ててタグ復号表を作成し、入力された符号化データがタグの符号化データである場合は、上記のタグ復号表に基づいて符号化データを復号する一方、入力された符号化データがタグの符号化データでない場合は、その符号化データを所定の復号方式で復号するので、上記の特殊コードを受信しない分、符号化側での圧縮効率を高めながら正確にタグの復元処理を行なうことができる。
【0190】
なお、このとき、タグの始まりを示す開始タグを検出することにより入力データがタグであると判別するようにすれば、より簡素な構成で、且つ、高速に、タグの判別を行なうことができ、これにより、タグの復元処理を高速化することができる。
また、本発明のタグ文書の圧縮/復元装置および圧縮/復元方法によれば、文書型定義部及び文書実現部のうちの文書実現部内のタグに所定の符号を割り当ててタグ符号/復号表を作成し、タグの復号に際しては、タグの符号化時に使用した上記のタグ符号/復号表に基づいて、タグの復号処理を行なうので、少なくとも、タグ復号用の復号表をタグ符号化用の符号表と個別に作成する必要がなく、タグ復号(復元)処理の高速化,装置規模の削減に大いに寄与する。
【0191】
さらに、本発明のタグ文書の圧縮/復元装置および圧縮/復元方法によれば、文書型定義部及び文書実現部のうちの文書実現部内のタグに所定の符号を割り当ててタグ符号/復号表を作成し、タグの復号に際して、前記と同様の特殊コードを検出すると、タグの符号化時に使用した上記のタグ符号/復号表に基づいて、タグの復号処理を行なうので、上記と同様に、タグ復号(復元)処理の高速化,装置規模の削減に大いに寄与するほか、上記特殊コードにより、高速且つ正確に、復号対象のタグを特定してタグの復号を行なうことができる。
【0192】
なお、上記のタグ文書の圧縮装置,復元装置および圧縮/復元装置は、それぞれコンピュータを上述のごとく機能させるための圧縮プログラム,復元プログラムおよび圧縮/復元プログラムをコンピュータ読み取り可能な記録媒体に記録して、その記録媒体を所望のコンピュータに提供することにより容易に実現されるので、本発明の汎用性を大幅に向上させることができ、本発明の普及が大いに期待できる。
【図面の簡単な説明】
【図1】本発明の第1実施形態としてのSGML文書(タグ文書)の圧縮装置および復元装置が適用されるコンピュータシステムを示すブロック図である。
【図2】第1実施形態におけるSGML文書の圧縮装置としてのパソコンの要部の構成を示すブロック図である。
【図3】第1実施形態におけるSGML文書の圧縮装置の動作を説明するためのフローチャートである。
【図4】本発明の第1実施形態におけるSGML文書の復元装置としてのパソコンの要部の構成を示すブロック図である。
【図5】第1実施形態におけるSGML文書の復元装置の動作を説明するためのフローチャートである。
【図6】本発明の第2実施形態としてのSGML文書の圧縮装置の要部の構成を示すブロック図である。
【図7】第2実施形態におけるSGML文書の圧縮装置の動作を説明するためのフローチャートである。
【図8】本発明の第2実施形態としてのSGML文書の復元装置の要部の構成を示すブロック図である。
【図9】第2実施形態におけるSGML文書の復元装置の動作を説明するためのフローチャートである。
【図10】本発明の第3実施形態としてのSGML文書の圧縮装置の要部の構成を示すブロック図である。
【図11】第3実施形態におけるSGML文書の圧縮装置の動作を説明するための図である。
【図12】第3実施形態におけるSGML文書の圧縮装置の動作を説明するためのフローチャートである。
【図13】第3実施形態におけるSGML文書の圧縮装置の動作を説明するための図である。
【図14】本発明の第3実施形態としてのSGML文書の復元装置の要部の構成を示すブロック図である。
【図15】第3実施形態におけるSGML文書の復元装置の動作を説明するためのフローチャートである。
【図16】第3実施形態におけるSGML文書の復元装置の変形例を示すブロック図である。
【図17】本発明の第4実施形態としてのSGML文書の圧縮装置の要部の構成を示すブロック図である。
【図18】第4実施形態におけるSGML文書の圧縮装置の動作を説明するためのフローチャートである。
【図19】本発明の第4実施形態としてのSGML文書の復元装置の要部の構成を示すブロック図である。
【図20】第4実施形態におけるSGML文書の復元装置の動作を説明するためのフローチャートである。
【図21】本発明の第5実施形態としてのSGML文書の圧縮装置の要部の構成を示すブロック図である。
【図22】第5実施形態におけるSGML文書の圧縮装置の符号作成部の構成を示すブロック図である。
【図23】第5実施形態におけるSGML文書の圧縮装置の動作を説明するためのフローチャートである。
【図24】本発明の第5実施形態としてのSGML文書の復元装置の要部の構成を示すブロック図である。
【図25】第5実施形態におけるSGML文書の復元装置の動作を説明するためのフローチャートである。
【図26】本発明の第6実施形態としてのSGML文書の圧縮装置の要部の構成を示すブロック図である。
【図27】第6実施形態におけるSGML文書の圧縮装置の動作を説明するためのフローチャートである。
【図28】本発明の第6実施形態としてのSGML文書の復元装置の要部の構成を示すブロック図である。
【図29】第6実施形態におけるSGML文書の復元装置の動作を説明するためのフローチャートである。
【図30】本発明の一実施形態としてのSGML文書の圧縮/復元装置の要部の構成を示すブロック図である。
【図31】SGML文書のフォーマットを模式的に示す図である。
【図32】SGML文書の文書型定義部(DTD)の記述例を示す図である。
【図33】SGML文書の文書実現値(本文)の記述例を示す図である。
【符号の説明】
2 パーソナルコンピュータ(圧縮装置)
3 パーソナルコンピュータ(復元装置)
4 ネットワーク接続装置
11 フロッピーディスク(FD)
12 CD−ROM
13 MO(光磁気ディスク)
15 記録媒体
21 本体
22 ディスプレイ
23 キーボード
24 マウス(ポインティングデバイス)
25 ディスクドライブ
26 CPU(Central Processing Unit)
27 ハードディスク(記憶装置)
30,30′,100,200 SGMLタグ抽出部
40,101′ タグ符号表作成部
40′,201′ タグ復号表作成部
50,50′ タグ判別部
60 タグ符号化部
60′ タグ復号部
70,70′ DTD比較部
80,80′ コントローラ
101,201 メモリ(タグ記憶部)
101a タグ符号表
102,102′ SGMLタグ検出部(タグ判別部)
103 タグ符号化部(第1符号化部)
103a 符号化処理部
104 第2符号化部
104a 符号表
105,205 切り替え制御部
106 COC出力部(特殊コード出力部)
107 辞書作成部(第1符号化用辞書作成部)
108 辞書更新部(符号化用辞書更新部)
109 符号作成部(第2符号化用辞書作成部)
110,210 開始タグ保持部
111,211 開始タグ検出部
112 符号情報出力部(出現頻度情報出力部)
113,213 バッファ
151 タグ計数部
152 タグ保持部
153 タグ判定部
154 符号生成部
155 符号保持部
202 COC判別部(特殊コード判別部)
202′ SGMLタグ判別部
203 タグ復号部(第1復号部)
203a 復号処理部
204 第2復号部
207 辞書作成部(第1復号用辞書作成部)
208 辞書更新部(復号用辞書更新部)
209 符号作成部(第2復号用辞書作成部)
301 SGML宣言部
302 文書型定義部(DTD)
303 文書実現値(本文)

Claims (42)

  1. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮するタグ文書の圧縮装置であって、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、
    該タグ抽出部により該文書型定義部から抽出された該タグに基づいて、該文書型定義部内の該タグに所定の符号を割り当ててタグ符号表を作成するタグ符号表作成部と、
    該タグ符号表作成部により作成された該タグ符号表に基づいて、前記文書型定義部及び前記文書実現部のうちの前記文書実現部内の該タグを符号化するタグ符号化部とをそなえたことを特徴とする、タグ文書の圧縮装置。
  2. 該タグ符号化部が、
    同一の文書型定義部を有する複数のタグ文書については、該タグ抽出部および該タグ符号表作成部において最初のタグ文書について作成されたタグ符号表に基づいて、全てのタグ文書の文書実現部内のタグに対する符号化を行なうように構成されていることを特徴とする、請求項1記載のタグ文書の圧縮装置。
  3. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮するタグ文書の圧縮装置であって、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、
    該タグ抽出部により該文書型定義部から抽出された該タグに基づいて、該文書型定義部内の該タグに所定の符号を割り当ててタグ符号表を作成するタグ符号表作成部と、
    入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータが該タグ抽出部により抽出された該タグであるか否かを判別するタグ判別部と、
    該タグ判別部において上記の入力データが該タグであると判別されると、該タグ符号表に基づいて該入力データを符号化する一方、該タグ判別部において該入力データが該タグでないと判別されると、該入力データを所定の符号化方式で符号化する符号化処理部と、
    該タグ判別部において上記の入力データが該タグであると判別されると、該入力データの符号化前に、タグの符号化を示す特殊コードを該タグの復号側へ出力する特殊コード出力部とをそなえたことを特徴とする、タグ文書の圧縮装置。
  4. 該符号化処理部が、
    入力データを該タグ符号表に基づいて符号化する第1符号化部と、
    入力データを所定の符号化方式で符号化する第2符号化部と、
    該タグ判別部において該入力データが該タグであると判別されると該入力データを該第1符号化部へ出力する一方、該タグ判別部において該入力データが該タグでないと判別されると該入力データを該第2符号化部へ出力する切り替え制御部とをそなえていることを特徴とする、請求項3記載のタグ文書の圧縮装置。
  5. 該タグ符号表作成部が、
    該タグ抽出部により抽出された該タグを記憶するタグ記憶部を有し、該タグの該タグ記憶部における該記憶箇所についての情報を該タグの符号として割り当てることにより該タグ符号表を作成するように構成されていることを特徴とする、請求項3記載のタグ文書の圧縮装置。
  6. 上記の記憶箇所についての情報が、該タグ記憶部のアドレス情報を含む情報であることを特徴とする、請求項5記載のタグ文書の圧縮装置。
  7. 上記の記憶箇所についての情報が、該アドレス情報と該タグの長さ情報とであることを特徴とする、請求項6記載のタグ文書の圧縮装置。
  8. 該タグ符号表作成部が、
    該タグ抽出部により抽出された該タグに所定の初期符号を割り当てることにより該タグの第1符号化用辞書を該タグ符号表として作成する第1符号化用辞書作成部と、
    該符号化処理部により該タグが符号化されると、該タグの出現頻度に応じて、該第1符号化用辞書作成部により作成された該第1符号化用辞書内の該符号の更新を行なう符号化用辞書更新部とをそなえていることを特徴とする、請求項3記載のタグ文書の圧縮装置。
  9. 該タグ符号表作成部が、
    該タグ抽出部により抽出された該タグに基づいて該文書実現部内の該タグの出現頻度を計数し、その計数結果に応じた符号を該タグに割り当てることにより該タグの第2符号化用辞書を該タグ符号表として作成する第2符号化用辞書作成部をそなえていることを特徴とする、請求項3記載のタグ文書の圧縮装置。
  10. 該タグの出現頻度に関する情報を該タグの復号側へ出力する出現頻度情報出力部をそなえていることを特徴とする、請求項9記載のタグ文書の圧縮装置。
  11. 該第2符号化用辞書作成部が、
    該タグ抽出部により抽出された該タグと該文書実現部内の該タグとが一致するか否かを判定することにより該文書実現部内の該タグの出現頻度を計数するタグ計数部と、
    該タグ計数部での計数結果に応じた符号を生成する符号生成部と、
    該符号生成部により生成された該符号を保持することにより該第2符号化用辞書を作成する符号保持部とをそなえていることを特徴とする、請求項9記載のタグ文書の圧縮装置。
  12. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮するタグ文書の圧縮装置であって、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、
    該タグ抽出部により該文書型定義部から抽出された該タグに基づいて、該文書型定義部内の該タグに所定の符号を割り当ててタグ符号表を作成するタグ符号表作成部と、
    入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータが該タグ抽出部により抽出された該タグであるか否かを判別するタグ判別部と、
    該タグ判別部において上記の入力データが該タグであると判別されると、該タグ符号表に基づいて該入力データを符号化する一方、該タグ判別部において該入力データが該タグでないと判別されると、該入力データを所定の符号化方式で符号化する符号化処理部とをそなえたことを特徴とする、タグ文書の圧縮装置。
  13. 該タグ判別部が、
    該タグ抽出部で抽出された該タグに基づいてタグの始まりを示す開始タグを検出することにより該入力データが該タグであると判別するように構成されていることを特徴とする、請求項12記載のタグ文書の圧縮装置。
  14. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有する符号化後のタグ文書を復号して復元するタグ文書の復元装置であって、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、
    該タグ抽出部により該文書型定義部から抽出された該タグに基づいて、該文書型定義部内の該タグに所定の符号を割り当ててタグ復号表を作成するタグ復号表作成部と、
    該タグ復号表作成部により作成された該タグ復号表に基づいて、符号化された前記文書型定義部及び前記文書実現部のうちの前記文書実現部内の該タグを復号するタグ復号部とをそなえたことを特徴とする、タグ文書の復元装置。
  15. 該タグ復号部が、
    同一の文書型定義部を有する複数のタグ文書については、該タグ抽出部および該タグ復号表作成部を通じて最初のタグ文書について作成されたタグ復号表に基づいて、全てのタグ文書の文書実現部に対するタグの復号を行なうように構成されていることを特徴とする、請求項14記載のタグ文書の復元装置。
  16. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有する符号化後のタグ文書を復号して復元するタグ文書の復元装置であって、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、
    該タグ抽出部により該文書型定義部から抽出された該タグに基づいて、該文書型定義部内の該タグに所定の符号を割り当ててタグ復号表を作成するタグ復号表作成部と、
    入力された符号化データが、タグの符号化データが入力されることを示す特殊コードであるか否かを判別する特殊コード判別部と、
    該特殊コード判別部において該符号化データが該特殊コードであると判別されると、該特殊コードの後に入力される符号化データを該タグ復号表に基づいて復号する一方、該特殊コード判別部において該符号化データが該特殊コードでないと判別されると、該符号化データを所定の復号方式で復号する復号処理部とをそなえたことを特徴とする、タグ文書の復元装置。
  17. 該復号処理部が、
    入力された符号化データを該タグ復号表に基づいて復号する第1復号部と、
    入力された符号化データを所定の復号方式で復号する第2復号部と、
    該特殊コード判別部において該符号化データが該特殊コードであると判別されると該特殊コードの後に入力される符号化データを該第1復号部へ出力する一方、該特殊コード判別部において該符号化データが該特殊コードでないと判別されると該符号化データを該第2復号部へ出力する切り替え制御部とをそなえていることを特徴とする、請求項16記載のタグ文書の復元装置。
  18. 該タグ復号表作成部が、
    該タグ抽出部により抽出された該タグを記憶するタグ記憶部を有し、該タグの該タグ記憶部における該記憶箇所についての情報を該タグの符号として割り当てることにより該タグ復号表を作成するように構成されていることを特徴とする、請求項16記載のタグ文書の復元装置。
  19. 上記の記憶箇所についての情報が、該タグ記憶部のアドレス情報を含む情報であることを特徴とする、請求項18記載のタグ文書の復元装置。
  20. 上記の記憶箇所についての情報が、該アドレス情報と該タグの長さ情報とであることを特徴とする、請求項19記載のタグ文書の復元装置。
  21. 該タグ復号表作成部が、
    該タグ抽出部により抽出された該タグに所定の初期符号を割り当てることにより該タグの第1復号用辞書を該タグ復号表として作成する第1復号用辞書作成部と、
    該復号処理部により該タグが復号されると、該タグの出現頻度に応じて、該第1復号用辞書作成部により作成された該第1復号用辞書内の該符号の更新を行なう復号用辞書更新部とをそなえていることを特徴とする、請求項16記載のタグ文書の復元装置。
  22. 該タグ復号表作成部が、
    該タグ抽出部により抽出された該タグと該タグの出現頻度に関する情報とに基づいて、該タグの第2復号用辞書を作成する第2復号用辞書作成部をそなえていることを特徴とする、請求項16記載のタグ文書の復元装置。
  23. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有する符号化後のタグ文書を復号して復元するタグ文書の復元装置であって、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、
    該タグ抽出部により該文書型定義部から抽出された該タグに基づいて、該文書型定義部内の該タグに所定の符号を割り当ててタグ復号表を作成するタグ復号表作成部と、
    入力された符号化データがタグの符号化データであるか否かを判別するタグ符号判別部と、
    該タグ符号判別部において該符号化データがタグであると判別されると、該タグ復号表に基づいて該符号化データを復号する一方、該タグ符号判別部において該符号化データがタグでないと判別されると、該符号化データを所定の復号方式で復号する復号処理部とをそなえたことを特徴とする、タグ文書の復元装置。
  24. 該タグ符号判別部が、
    該タグ抽出部で抽出された該タグに基づいてタグの始まりを示す開始タグを検出することにより該符号化データが該タグであると判別するように構成されていることを特徴とする、請求項23記載のタグ文書の復元装置。
  25. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮する一方、符号化された該タグ文書を復号して復元するタグ文書の圧縮/復元装置であって、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、
    該タグ抽出部により該文書型定義部から抽出された該タグに基づいて、該文書型定義部内の該タグに所定の符号を割り当ててタグ符号/復号表を作成するタグ符号/復号表作成部と、
    該タグ符号/復号表作成部により作成された該タグ符号/復号表に基づいて、前記文書型定義部及び前記文書実現部のうちの前記文書実現部内の該タグを符号化するタグ符号化部と、
    該タグ符号/復号表作成部により作成された該タグ符号/復号表に基づいて、該タグ符号化部によって符号化された該文書実現部内の該タグを復号するタグ復号部とをそなえたことを特徴とする、タグ文書の圧縮/復元装置。
  26. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮する一方、符号化された該タグ文書を復号して復元するタグ文書の圧縮/復元装置であって、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、
    該タグ抽出部により該文書型定義部から抽出された該タグに基づいて、該文書型定義部内の該タグに所定の符号を割り当ててタグ符号/復号表を作成するタグ符号/復号表作成部と、
    入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータが該タグ抽出部により抽出された該タグであるか否かを判別するタグ判別部と、
    該タグ判別部において上記の入力データが該タグであると判別されると、該タグ符号/復号表に基づいて該入力データを符号化する一方、該タグ判別部において該入力データが該タグでないと判別されると、該入力データを所定の符号化方式で符号化する符号化処理部と、
    該タグ判別部において上記の入力データが該タグであると判別されると、該入力データの符号化前に、タグの符号化を示す特殊コードを出力する特殊コード出力部と、
    該符号化処理部から出力される符号化データが該特殊コードであるか否かを判別する特殊コード判別部と、
    該特殊コード判別部において該符号化データが該特殊コードであると判別されると、該特殊コードの後に該符号化処理部から出力される符号化データを該タグ符号/復号表に基づいて復号する一方、該特殊コード判別部において該符号化データが該特殊コードでないと判別されると、該符号化処理部から出力される符号化データを所定の復号方式で復号する復号処理部とをそなえたことを特徴とする、タグ文書の圧縮/復元装置。
  27. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書についてのタグ符号表作成部と、タグ符号化部とをそなえ、該タグ文書を符号化して圧縮するタグ文書の圧縮装置における圧縮方法であって、
    該タグ符号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内の該タグに所定の符号を割り当ててタグ符号表を作成し、該タグ符号化部によって、該タグ符号表に基づいて、前記文書型定義部及び前記文書実現部のうちの前記文書実現部内の該タグを符号化することを特徴とする、タグ文書の圧縮方法。
  28. 該タグ符号化部によって、同一の文書型定義部を有する複数のタグ文書については、最初のタグ文書について作成されたタグ符号表に基づいて、全てのタグ文書の該文書実現部内のタグに対する符号化を行なうことを特徴とする、請求項27記載のタグ文書の圧縮方法。
  29. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書についてのタグ符号表作成部と、タグ判別部と、符号化処理部と、特殊コード出力部とをそなえ、該タグ文書を符号化して圧縮するタグ文書の圧縮装置における圧縮方法であって、
    該タグ符号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内の該タグに所定の符号を割り当ててタグ符号表を作成し、
    該タグ判別部によって、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータがタグであると判定した場合は、該特殊コード出力部によって、タグの符号化を示す特殊コードを該タグの復号側へ出力した後、該符号化処理部によって、該タグ符号表に基づいて該入力データを符号化する一方、該タグ判別部によって、該入力データが該タグでないと判定した場合は、該符号化処理部によって、該入力データを所定の符号化方式で符号化することを特徴とする、タグ文書の圧縮方法。
  30. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書についてのタグ符号表作成部と、タグ判別部と、符号化処理部とをそなえ、該タグ文書を符号化して圧縮するタグ文書の圧縮装置における圧縮方法であって、
    該タグ符号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内の該タグに所定の符号を割り当ててタグ符号表を作成し、
    該タグ判別部によって、入力された該文書実現部のデータがタグであると判定した場合は、該符号化処理部によって、該タグ符号表に基づいて該入力データを符号化する一方、該タグ判別部によって、該入力データがタグでないと判定した場合は、該符号化処理部によって、該入力データを所定の符号化方式で符号化することを特徴とする、タグ文書の圧縮方法。
  31. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有する符号化後のタグ文書についてのタグ復号表作成部と、タグ復号部とをそなえ、該タグ文書を復号して復元するタグ文書の復元装置における復元方法であって、
    該タグ復号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内の該タグに所定の符号を割り当ててタグ復号表を作成し、
    該タグ復号部によって、該タグ復号表に基づいて、符号化された前記文書型定義部及び前記文書実現部のうちの前記文書実現部内の該タグを復号することを特徴とする、タグ文書の復元方法。
  32. 該タグ復号部によって、同一の文書型定義部を有する複数のタグ文書については、最初のタグ文書について作成されたタグ復号表に基づいて、全てのタグ文書の文書実現部に対するタグの復号を行なうことを特徴とする、請求項31記載のタグ文書の復元方法。
  33. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有する符号化後のタグ文書についてのタグ復号表作成部と、特殊コード判別部と、復号処理部とをそなえ、該タグ文書を復号して復元するタグ文書の復元装置における復元方法であって、
    該タグ復号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内の該タグに所定の符号を割り当ててタグ復号表を作成し、
    該特殊コード判別部によって、入力された符号化データが、タグの符号化データが入力されることを示す特殊コードであると判定した場合は、該復号処理部によって、その特殊コードの後に入力される符号化データを該タグ復号表に基づいて復号する一方、該特殊コード判別部によって、入力された符号化データが該特殊コードでないと判定した場合は、該復号処理部によって、その符号化データを所定の復号方式で復号することを特徴とする、タグ文書の復元方法。
  34. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有する符号化後のタグ文書についてのタグ復号表作成部と、タグ符号判別部と、復号処理部とをそなえ、該タグ文書を復号して復元するタグ文書の復元装置における復元方法であって、
    該タグ復号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内の該タグに所定の符号を割り当ててタグ復号表を作成し、
    該タグ符号判別部によって、入力された符号化データがタグの符号化データであると判定した場合は、該復号処理部によって、該タグ復号表に基づいて該符号化データを復号する一方、該タグ符号判別部によって、入力された符号化データがタグの符号化データでないと判定した場合は、該復号処理部によって、該符号化データを所定の復号方式で復号することを特徴とする、タグ文書の復元方法。
  35. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書についてのタグ符号/復号表作成部と、タグ符号化部と、タグ復号部とをそなえ、該タグ文書を符号化して圧縮する一方、符号化された該タグ文書を復号して復元するタグ文書の圧縮/復元装置における圧縮/復元方法であって、
    該タグ符号/復号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内の該タグに所定の符号を割り当ててタグ符号/復号表を作成し、
    該タグ符号化部によって、該タグ符号/復号表に基づいて前記文書型定義部及び前記文書実現部のうちの前記文書実現部内の該タグを符号化する一方、該タグ復号部によって、符号化された該タグを該タグ符号/復号表に基づいて復号することを特徴とする、タグ文書の圧縮/復元方法。
  36. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書についてのタグ符号/復号表作成部と、タグ判別部と、符号化処理部と、特殊コード出力部と、特殊コード判別部と、復号処理部とをそなえ、該タグ文書を符号化して圧縮する一方、符号化された該タグ文書を復号して復元するタグ文書の圧縮/復元装置における圧縮/復元方法であって、
    該タグ符号/復号表作成部によって、前記文書型定義部及び前記文書実現部のうちの前記文書型定義部内の該タグに所定の符号を割り当ててタグ符号/復号表を作成し、
    該タグ判別部によって、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータがタグであると判定した場合は、該特殊コード出力部によって、タグの符号化を示す特殊コードを出力した後、該符号化処理部によって、該タグ符号/復号表に基づいて該入力データを符号化する一方、該タグ判別部によって、該入力データがタグでないと判定した場合は、該符号化処理部によって、該入力データを所定の符号化方式で符号化するとともに、
    符号化データの復号に際しては、該特殊コード判別部によって、該符号化データが該特殊コードであると判定すれば、該復号処理部によって、該特殊コードの後の符号化データを該タグ符号/復号表に基づいて復号する一方、該特殊コード判別部によって、該符号化データが特殊コードでないと判定すれば、該復号処理部によって、該符号化データを所定の復号方式で復号することを特徴とする、タグ文書の圧縮/復元方法。
  37. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮するタグ文書の圧縮プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    該コンピュータを、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、該タグ抽出部により該文書型定義部から抽出された該タグに基づいて、該文書型定義部内の該タグに所定の符号を割り当ててタグ符号表を作成するタグ符号表作成部と、該タグ符号表作成部により作成された該タグ符号表に基づいて、前記文書型定義部及び前記文書実現部のうちの前記文書実現部内の該タグを符号化するタグ符号化部として機能させるためのタグ文書の圧縮プログラムが記録されていることを特徴とする、タグ文書の圧縮プログラムを記録したコンピュータ読み取り可能な記録媒体。
  38. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮するタグ文書の圧縮プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    該コンピュータを、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、該タグ抽出部により該文書型定義部から抽出された該タグに基づいて、該文書型定義部内の該タグに所定の符号を割り当ててタグ符号表を作成するタグ符号表作成部と、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータが該タグ抽出部により抽出された該タグであるか否かを判別するタグ判別部と、該タグ判別部において上記の入力データが該タグであると判別されると、該タグ符号表に基づいて該入力データを符号化する一方、該タグ判別部において該入力データが該タグでないと判別されると、該入力データを所定の符号化方式で符号化する符号化処理部と、該タグ判別部において上記の入力データが該タグであると判別されると、該入力データの符号化前に、タグの符号化を示す特殊コードを該タグの復号側へ出力する特殊コード出力部として機能させるためのタグ文書の圧縮プログラムが記録されていることを特徴とする、タグ文書の圧縮プログラムを記録したコンピュータ読み取り可能な記録媒体。
  39. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有する符号化後のタグ文書を復号して復元するタグ文書の復元プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    該コンピュータを、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、該タグ抽出部により該文書型定義部から抽出された該タグに基づいて、該文書型定義部内の該タグに所定の符号を割り当ててタグ復号表を作成するタグ復号表作成部と、該タグ復号表作成部により作成された該タグ復号表に基づいて、符号化された前記文書型定義部及び前記文書実現部のうちの前記文書実現部内の該タグを復号するタグ復号部として機能させるためのタグ文書の復元プログラムが記録されていることを特徴とする、タグ文書の復元プログラムを記録したコンピュータ読み取り可能な記録媒体。
  40. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有する符号化後のタグ文書を復号して復元するタグ文書の復元プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    該コンピュータを、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、該タグ抽出部により該文書型定義部から抽出された該タグに基づいて、該文書型定義部内の該タグに所定の符号を割り当ててタグ復号表を作成するタグ復号表作成部と、入力された符号化データが、タグの符号化データが入力されることを示す特殊コードであるか否かを判別する特殊コード判別部と、該特殊コード判別部において該符号化データが該特殊コードであると判別されると、該特殊コードの後に入力される符号化データを該タグ復号表に基づいて復号する一方、該特殊コード判別部において該符号化データが該特殊コードでないと判別されると、該符号化データを所定の復号方式で復号する復号処理部として機能させるためのタグ文書の復元プログラムが記録されていることを特徴とする、タグ文書の復元プログラムを記録したコンピュータ読み取り可能な記録媒体。
  41. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮する一方、符号化された該タグ文書を復号して復元するタグ文書の圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    該コンピュータを、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、該タグ抽出部により該文書型定義部から抽出された該タグに基づいて該文書型定義部内の該タグに所定の符号を割り当ててタグ符号/復号表を作成するタグ符号/復号表作成部と、該タグ符号/復号表作成部により作成された該タグ符号/復号表に基づいて前記文書型定義部及び前記文書実現部のうちの前記文書実現部内の該タグを符号化するタグ符号化部と、該タグ符号/復号表作成部により作成された該タグ符号/復号表に基づいて該タグ符号化部によって符号化された該文書実現部内の該タグを復号するタグ復号部として機能させるためのタグ文書の圧縮/復元プログラムが記録されていることを特徴とする、タグ文書の圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体。
  42. 文書構造を示すタグを定義した文書型定義部と該文書型定義部に定義されている該タグを用いて記述された文書実現部とを有するタグ文書を符号化して圧縮する一方、符号化された該タグ文書を復号して復元するタグ文書の圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    該コンピュータを、
    入力されたタグ文書の前記文書型定義部及び前記文書実現部のうちの前記文書型定義部を走査して該タグを抽出するタグ抽出部と、該タグ抽出部により該文書型定義部から抽出された該タグに基づいて該文書型定義部内の該タグに所定の符号を割り当ててタグ符号/復号表を作成するタグ符号/復号表作成部と、入力された前記文書型定義部及び前記文書実現部のうちの前記文書実現部のデータが該タグ抽出部により抽出された該タグであるか否かを判別するタグ判別部と、該タグ判別部において上記の入力データが該タグであると判別されると該タグ符号/復号表に基づいて該入力データを符号化する一方、該タグ判別部において該入力データが該タグでないと判別されると該入力データを所定の符号化方式で符号化する符号化処理部と、該タグ判別部において上記の入力データが該タグであると判別されると該入力データの符号化前にタグの符号化を示す特殊コードを出力する特殊コード出力部と、該符号化処理部から出力される符号化データが該特殊コードであるか否かを判別する特殊コード判別部と、該特殊コード判別部において該符号化データが該特殊コードであると判別されると該特殊コードの後に該符号化処理部から出力される符号化データを該タグ符号/復号表に基づいて復号する一方、該特殊コード判別部において該符号化データが該特殊コードでないと判別されると該符号化データを所定の復号方式で復号する復号処理部として機能させるためのタグ文書の圧縮/復元プログラムが記録されていることを特徴とする、タグ文書の圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP21091597A 1997-08-05 1997-08-05 タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP3859313B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP21091597A JP3859313B2 (ja) 1997-08-05 1997-08-05 タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体
US09/050,104 US6330574B1 (en) 1997-08-05 1998-03-30 Compression/decompression of tags in markup documents by creating a tag code/decode table based on the encoding of tags in a DTD included in the documents
EP98302590A EP0896284A1 (en) 1997-08-05 1998-04-02 Compressing and decompressing data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21091597A JP3859313B2 (ja) 1997-08-05 1997-08-05 タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH1153349A JPH1153349A (ja) 1999-02-26
JP3859313B2 true JP3859313B2 (ja) 2006-12-20

Family

ID=16597179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21091597A Expired - Fee Related JP3859313B2 (ja) 1997-08-05 1997-08-05 タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (3)

Country Link
US (1) US6330574B1 (ja)
EP (1) EP0896284A1 (ja)
JP (1) JP3859313B2 (ja)

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311223B1 (en) * 1997-11-03 2001-10-30 International Business Machines Corporation Effective transmission of documents in hypertext markup language (HTML)
JP4003854B2 (ja) * 1998-09-28 2007-11-07 富士通株式会社 データ圧縮装置及び復元装置並びにその方法
US6635088B1 (en) * 1998-11-20 2003-10-21 International Business Machines Corporation Structured document and document type definition compression
US6964011B1 (en) * 1998-11-26 2005-11-08 Canon Kabushiki Kaisha Document type definition generating method and apparatus, and storage medium for storing program
GB9911099D0 (en) * 1999-05-13 1999-07-14 Euronet Uk Ltd Compression/decompression method
JP2000339312A (ja) * 1999-05-31 2000-12-08 Toshiba Corp 文書編集システム及びタグ情報管理テーブル作成方法
JP4776050B2 (ja) * 1999-07-13 2011-09-21 ソニー株式会社 配信コンテンツ生成方法、コンテンツ配信方法および装置、並びに、コード変換方法
WO2001019052A2 (en) * 1999-09-10 2001-03-15 General Instrument Corporation Method and apparatus for compressing scripting language content
US6718516B1 (en) 1999-09-30 2004-04-06 International Business Machines Corporation Method for verifying context between multiple related XML tags in document object model (DOM)
US6732330B1 (en) * 1999-09-30 2004-05-04 International Business Machines Corporation Scripting language blocks to support multiple scripting languages in a single web page
US6981212B1 (en) 1999-09-30 2005-12-27 International Business Machines Corporation Extensible markup language (XML) server pages having custom document object model (DOM) tags
US6981211B1 (en) 1999-09-30 2005-12-27 International Business Machines Corporation Method for processing a document object model (DOM) tree using a tagbean
US7266766B1 (en) 1999-09-30 2007-09-04 International Business Machines Corporation Method for developing a custom tagbean
US6675354B1 (en) 1999-11-18 2004-01-06 International Business Machines Corporation Case-insensitive custom tag recognition and handling
JP3368883B2 (ja) * 2000-02-04 2003-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置
US6883137B1 (en) * 2000-04-17 2005-04-19 International Business Machines Corporation System and method for schema-driven compression of extensible mark-up language (XML) documents
US7814408B1 (en) * 2000-04-19 2010-10-12 Microsoft Corporation Pre-computing and encoding techniques for an electronic document to improve run-time processing
US6789229B1 (en) 2000-04-19 2004-09-07 Microsoft Corporation Document pagination based on hard breaks and active formatting tags
KR20090116813A (ko) 2000-04-24 2009-11-11 비자 인터내셔날 써비스 어쏘시에이션 온라인 지불인 인증 서비스
US7080314B1 (en) * 2000-06-16 2006-07-18 Lucent Technologies Inc. Document descriptor extraction method
US7600183B2 (en) * 2000-06-16 2009-10-06 Olive Software Inc. System and method for data publication through web pages
JP2002044348A (ja) * 2000-07-28 2002-02-08 Murata Mach Ltd ファクシミリサーバ
JP2002044347A (ja) * 2000-07-28 2002-02-08 Murata Mach Ltd ネットワークシステム
US6938204B1 (en) * 2000-08-31 2005-08-30 International Business Machines Corporation Array-based extensible document storage format
US6904562B1 (en) * 2000-08-31 2005-06-07 International Business Machines Corporation Machine-oriented extensible document representation and interchange notation
RU2285354C2 (ru) * 2000-10-17 2006-10-10 Конинклейке Филипс Электроникс Н.В. Бинарный формат для экземпляров mpeg-7
US7054953B1 (en) * 2000-11-07 2006-05-30 Ui Evolution, Inc. Method and apparatus for sending and receiving a data structure in a constituting element occurrence frequency based compressed form
US20020138518A1 (en) * 2000-12-27 2002-09-26 Kddi Corporation Method and system for code processing of document data
US7415669B1 (en) * 2001-02-27 2008-08-19 Open Invention Network Method and apparatus for viewing electronic commerce-related documents
US7036072B1 (en) 2001-12-18 2006-04-25 Jgr Acquisition, Inc. Method and apparatus for declarative updating of self-describing, structured documents
US20020138526A1 (en) * 2001-03-20 2002-09-26 International Business Machines Corporation Javascript code optimizer
US7134075B2 (en) * 2001-04-26 2006-11-07 International Business Machines Corporation Conversion of documents between XML and processor efficient MXML in content based routing networks
FR2826754B1 (fr) * 2001-06-29 2004-02-06 Canon Kk Procede et dispositif d'indexation reppresente avec un langage de balisage
US20030121005A1 (en) * 2001-12-20 2003-06-26 Axel Herbst Archiving and retrieving data objects
EP1324221A3 (en) * 2001-12-21 2003-12-03 Sap Ag Storing data objects either in database or in archive
JP3997790B2 (ja) * 2002-02-15 2007-10-24 コニカミノルタビジネステクノロジーズ株式会社 プログラム及びスタイルシート選択装置
JP3888621B2 (ja) * 2002-02-21 2007-03-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書処理システム、文書処理方法及びプログラム
GB2385686A (en) * 2002-02-25 2003-08-27 Oracle Corp Mark-up language conversion
JP2003263461A (ja) * 2002-03-08 2003-09-19 Just Syst Corp 記号列を格納するデータ構造、登録装置、検索装置、登録方法、検索方法、ならびに、プログラム
US7707120B2 (en) * 2002-04-17 2010-04-27 Visa International Service Association Mobile account authentication service
US7032170B2 (en) * 2002-06-03 2006-04-18 General Electric Company Creating data structures from a form file and creating a web page in conjunction with corresponding data structures
JP2004015743A (ja) * 2002-06-11 2004-01-15 Vehicle Information & Communication System Center 道路交通情報の圧縮符号化送信装置、その解凍復号化受信装置、その圧縮符号化送信方法、及びその解凍復号化受信方法
US8645862B2 (en) * 2002-06-28 2014-02-04 International Business Machines Corporation Displaying and executing web services in multiple content domains
ATE327538T1 (de) * 2002-07-15 2006-06-15 Siemens Ag Verfahren und vorrichtungen zum kodieren/dekodieren von strukturierten dokumenten,insbesondere von xml-dokumenten
SG152061A1 (en) 2002-09-10 2009-05-29 Visa Int Service Ass Data authentication and provisioning method and system
US7296263B1 (en) * 2002-12-12 2007-11-13 F5 Networks, Inc. Method and system for performing operations on data using XML streams
US7409440B1 (en) 2002-12-12 2008-08-05 F5 Net Works, Inc. User defined data items
US7415665B2 (en) * 2003-01-15 2008-08-19 At&T Delaware Intellectual Property, Inc. Methods and systems for compressing markup language files
WO2004073278A1 (en) * 2003-02-14 2004-08-26 Research In Motion Limited System and method of compact messaging in network communications
EP1593204B1 (en) * 2003-02-14 2008-08-13 Research In Motion Limited System and method for compression structured definition language
WO2004112301A2 (en) * 2003-06-11 2004-12-23 Wtviii, Inc. Mark up language authoring system
US7890852B2 (en) * 2003-06-26 2011-02-15 International Business Machines Corporation Rich text handling for a web application
JP2005018672A (ja) * 2003-06-30 2005-01-20 Hitachi Ltd 構造化文書の圧縮方法
US20070112810A1 (en) * 2003-07-08 2007-05-17 Mattias Jonsson Method for compressing markup languages files, by replacing a long word with a shorter word
US7039394B2 (en) * 2003-11-25 2006-05-02 Good Technology, Inc. Communication system and method for compressing information sent by a communication device to a target portable communication device
US8762283B2 (en) 2004-05-03 2014-06-24 Visa International Service Association Multiple party benefit from an online authentication service
JP2005327154A (ja) * 2004-05-17 2005-11-24 Fujitsu Ltd Htmlファイル処理方法及びプログラム
US7818342B2 (en) * 2004-11-12 2010-10-19 Sap Ag Tracking usage of data elements in electronic business communications
US7735001B2 (en) * 2005-02-11 2010-06-08 Fujitsu Limited Method and system for decoding encoded documents
US20060288028A1 (en) * 2005-05-26 2006-12-21 International Business Machines Corporation Decompressing electronic documents
CN101529807B (zh) * 2006-11-02 2011-02-02 中兴通讯股份有限公司 一种网管系统通用的接口实现方法及其系统
US7836396B2 (en) * 2007-01-05 2010-11-16 International Business Machines Corporation Automatically collecting and compressing style attributes within a web document
US20090044101A1 (en) * 2007-08-07 2009-02-12 Wtviii, Inc. Automated system and method for creating minimal markup language schemas for a framework of markup language schemas
US8121117B1 (en) 2007-10-01 2012-02-21 F5 Networks, Inc. Application layer network traffic prioritization
JP5379372B2 (ja) * 2007-11-15 2013-12-25 キヤノン株式会社 データ圧縮装置、データ伸長装置およびデータ圧縮方法
US20100146410A1 (en) * 2008-12-10 2010-06-10 Barrett Kreiner Markup language stream compression using a data stack
US9558164B1 (en) 2008-12-31 2017-01-31 F5 Networks, Inc. Methods and system for converting WSDL documents into XML schema
US8438558B1 (en) 2009-03-27 2013-05-07 Google Inc. System and method of updating programs and data
JP5507295B2 (ja) * 2009-06-05 2014-05-28 株式会社ミツトヨ 信号処理装置、および信号変換伝送システム
US10721269B1 (en) 2009-11-06 2020-07-21 F5 Networks, Inc. Methods and system for returning requests with javascript for clients before passing a request to a server
US8806056B1 (en) 2009-11-20 2014-08-12 F5 Networks, Inc. Method for optimizing remote file saves in a failsafe way
US11140178B1 (en) 2009-11-23 2021-10-05 F5 Networks, Inc. Methods and system for client side analysis of responses for server purposes
US9069731B2 (en) * 2009-12-29 2015-06-30 Olive Software Inc. System and method for providing online versions of print-medium publications
US9420049B1 (en) 2010-06-30 2016-08-16 F5 Networks, Inc. Client side human user indicator
US9503375B1 (en) 2010-06-30 2016-11-22 F5 Networks, Inc. Methods for managing traffic in a multi-service environment and devices thereof
US8347100B1 (en) 2010-07-14 2013-01-01 F5 Networks, Inc. Methods for DNSSEC proxying and deployment amelioration and systems thereof
US10296653B2 (en) 2010-09-07 2019-05-21 F5 Networks, Inc. Systems and methods for accelerating web page loading
EP2710784B1 (en) 2011-05-16 2017-12-06 F5 Networks, Inc A method for load balancing of requests' processing of diameter servers
US8396836B1 (en) 2011-06-30 2013-03-12 F5 Networks, Inc. System for mitigating file virtualization storage import latency
US8463850B1 (en) 2011-10-26 2013-06-11 F5 Networks, Inc. System and method of algorithmically generating a server side transaction identifier
US10230566B1 (en) 2012-02-17 2019-03-12 F5 Networks, Inc. Methods for dynamically constructing a service principal name and devices thereof
US9244843B1 (en) 2012-02-20 2016-01-26 F5 Networks, Inc. Methods for improving flow cache bandwidth utilization and devices thereof
US9020912B1 (en) 2012-02-20 2015-04-28 F5 Networks, Inc. Methods for accessing data in a compressed file system and devices thereof
EP2853074B1 (en) 2012-04-27 2021-03-24 F5 Networks, Inc Methods for optimizing service of content requests and devices thereof
US10033837B1 (en) 2012-09-29 2018-07-24 F5 Networks, Inc. System and method for utilizing a data reducing module for dictionary compression of encoded data
US9578090B1 (en) 2012-11-07 2017-02-21 F5 Networks, Inc. Methods for provisioning application delivery service and devices thereof
US10375155B1 (en) 2013-02-19 2019-08-06 F5 Networks, Inc. System and method for achieving hardware acceleration for asymmetric flow connections
US9876507B2 (en) 2013-02-22 2018-01-23 Sap Se Semantic compression of structured data
US9497614B1 (en) 2013-02-28 2016-11-15 F5 Networks, Inc. National traffic steering device for a better control of a specific wireless/LTE network
US10187317B1 (en) 2013-11-15 2019-01-22 F5 Networks, Inc. Methods for traffic rate control and devices thereof
US11838851B1 (en) 2014-07-15 2023-12-05 F5, Inc. Methods for managing L7 traffic classification and devices thereof
CN105323103B (zh) * 2014-08-01 2019-11-05 中兴通讯股份有限公司 网络运维系统及其兼容网管系统报文变化的方法
US10182013B1 (en) 2014-12-01 2019-01-15 F5 Networks, Inc. Methods for managing progressive image delivery and devices thereof
JP2016134754A (ja) * 2015-01-19 2016-07-25 富士通株式会社 変換処理プログラム、情報処理装置および変換処理方法
US11895138B1 (en) 2015-02-02 2024-02-06 F5, Inc. Methods for improving web scanner accuracy and devices thereof
US10834065B1 (en) 2015-03-31 2020-11-10 F5 Networks, Inc. Methods for SSL protected NTLM re-authentication and devices thereof
US11350254B1 (en) 2015-05-05 2022-05-31 F5, Inc. Methods for enforcing compliance policies and devices thereof
US10505818B1 (en) 2015-05-05 2019-12-10 F5 Networks. Inc. Methods for analyzing and load balancing based on server health and devices thereof
US10476992B1 (en) 2015-07-06 2019-11-12 F5 Networks, Inc. Methods for providing MPTCP proxy options and devices thereof
US11757946B1 (en) 2015-12-22 2023-09-12 F5, Inc. Methods for analyzing network traffic and enforcing network policies and devices thereof
US10404698B1 (en) 2016-01-15 2019-09-03 F5 Networks, Inc. Methods for adaptive organization of web application access points in webtops and devices thereof
US11178150B1 (en) 2016-01-20 2021-11-16 F5 Networks, Inc. Methods for enforcing access control list based on managed application and devices thereof
US10797888B1 (en) 2016-01-20 2020-10-06 F5 Networks, Inc. Methods for secured SCEP enrollment for client devices and devices thereof
US10412198B1 (en) 2016-10-27 2019-09-10 F5 Networks, Inc. Methods for improved transmission control protocol (TCP) performance visibility and devices thereof
US11063758B1 (en) 2016-11-01 2021-07-13 F5 Networks, Inc. Methods for facilitating cipher selection and devices thereof
US10505792B1 (en) 2016-11-02 2019-12-10 F5 Networks, Inc. Methods for facilitating network traffic analytics and devices thereof
US10812266B1 (en) 2017-03-17 2020-10-20 F5 Networks, Inc. Methods for managing security tokens based on security violations and devices thereof
US11343237B1 (en) 2017-05-12 2022-05-24 F5, Inc. Methods for managing a federated identity environment using security and access control data and devices thereof
US11122042B1 (en) 2017-05-12 2021-09-14 F5 Networks, Inc. Methods for dynamically managing user access control and devices thereof
US11223689B1 (en) 2018-01-05 2022-01-11 F5 Networks, Inc. Methods for multipath transmission control protocol (MPTCP) based session migration and devices thereof

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB928070A (en) * 1962-02-12 1963-06-06 Mine Safety Appliances Co Pipe flaring tool
US5179378A (en) * 1991-07-30 1993-01-12 University Of South Florida Method and apparatus for the compression and decompression of data using Lempel-Ziv based techniques
US5590317A (en) 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
US5442350A (en) 1992-10-29 1995-08-15 International Business Machines Corporation Method and means providing static dictionary structures for compressing character data and expanding compressed data
JPH08255155A (ja) 1995-03-16 1996-10-01 Fuji Xerox Co Ltd 全文登録語検索装置および方法
US5663721A (en) * 1995-03-20 1997-09-02 Compaq Computer Corporation Method and apparatus using code values and length fields for compressing computer data
JPH0981763A (ja) * 1995-07-07 1997-03-28 Oki Data:Kk 文字・イメージ混在データの圧縮方法及び装置
US5893109A (en) * 1996-03-15 1999-04-06 Inso Providence Corporation Generation of chunks of a long document for an electronic book system
JP3305191B2 (ja) * 1996-03-19 2002-07-22 富士通株式会社 文書管理装置及びデータ圧縮方法及びデータ復元方法
US5673322A (en) * 1996-03-22 1997-09-30 Bell Communications Research, Inc. System and method for providing protocol translation and filtering to access the world wide web from wireless or low-bandwidth networks
US5890172A (en) * 1996-10-08 1999-03-30 Tenretni Dynamics, Inc. Method and apparatus for retrieving data from a network using location identifiers
US5999949A (en) * 1997-03-14 1999-12-07 Crandall; Gary E. Text file compression system utilizing word terminators
US5946697A (en) * 1997-04-22 1999-08-31 Microsoft Corporation Rapid transfer of HTML files
US5991713A (en) * 1997-11-26 1999-11-23 International Business Machines Corp. Efficient method for compressing, storing, searching and transmitting natural language text

Also Published As

Publication number Publication date
US6330574B1 (en) 2001-12-11
JPH1153349A (ja) 1999-02-26
EP0896284A1 (en) 1999-02-10

Similar Documents

Publication Publication Date Title
JP3859313B2 (ja) タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3337633B2 (ja) データ圧縮方法及びデータ復元方法並びにデータ圧縮プログラム又はデータ復元プログラムを記録したコンピュータ読み取り可能な記録媒体
US7277878B2 (en) Variable length file header apparatus and system
US5999949A (en) Text file compression system utilizing word terminators
CN1736030B (zh) 编码输入数据的方法
JP3278297B2 (ja) データ圧縮方法及びデータ復元方法並びにデータ圧縮装置及びデータ復元装置
JP3305191B2 (ja) 文書管理装置及びデータ圧縮方法及びデータ復元方法
US8363731B2 (en) Encoding and decoding methods and systems
US6020972A (en) System for performing collective symbol-based compression of a corpus of document images
JP5831298B2 (ja) プログラム、情報処理装置およびインデックス生成方法
EP1562193A1 (en) System for storing and rendering multimedia data
JP4003854B2 (ja) データ圧縮装置及び復元装置並びにその方法
US20130262486A1 (en) Encoding and Decoding of Small Amounts of Text
EP2850532A1 (en) Method and apparatus for storing network data
US8954400B2 (en) Method, system and program product for managing structured data
US7379940B1 (en) Focal point compression method and apparatus
US6834283B1 (en) Data compression/decompression apparatus using additional code and method thereof
US6714950B1 (en) Methods for reproducing and recreating original data
JPH10261969A (ja) データ圧縮方法および装置
JP2006100973A (ja) データ圧縮装置、及びデータ伸長装置
US8244677B2 (en) Focal point compression method and apparatus
KR101661646B1 (ko) 이미지 코드를 이용한 웹페이지 서비스 시스템 및 방법
US6832225B1 (en) Method and device for recording and searching for a document on a communication network
Rincy et al. Preprocessed text compression method for Malayalam text files
CN100401295C (zh) 一种网络词典检索结果的反馈显示方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060919

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees