JP2001217720A - データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置 - Google Patents

データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置

Info

Publication number
JP2001217720A
JP2001217720A JP2000028359A JP2000028359A JP2001217720A JP 2001217720 A JP2001217720 A JP 2001217720A JP 2000028359 A JP2000028359 A JP 2000028359A JP 2000028359 A JP2000028359 A JP 2000028359A JP 2001217720 A JP2001217720 A JP 2001217720A
Authority
JP
Japan
Prior art keywords
document
data
encoding
grammar
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000028359A
Other languages
English (en)
Other versions
JP3368883B2 (ja
Inventor
Hiroshi Maruyama
宏 丸山
Taketo Tamura
健人 田村
Naohiko Uramoto
直彦 浦本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2000028359A priority Critical patent/JP3368883B2/ja
Priority to US09/670,489 priority patent/US7043686B1/en
Priority to TW089122825A priority patent/TW501350B/zh
Priority to EP01300387A priority patent/EP1122655A3/en
Priority to KR10-2001-0003131A priority patent/KR100424130B1/ko
Priority to CNB011032413A priority patent/CN1166072C/zh
Publication of JP2001217720A publication Critical patent/JP2001217720A/ja
Application granted granted Critical
Publication of JP3368883B2 publication Critical patent/JP3368883B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Abstract

(57)【要約】 【課題】 XMLやASN.1等の木ローカル言語にお
ける文書の構造部分の符号化を行うデータ圧縮を実現す
る。 【解決手段】 データを符号化して圧縮するデータ圧縮
装置であって、データがラベル付きの木構造で表現され
る木ローカル言語の文法規則12と、この木ローカル言
語で記述された文書を読み込んで、この文書を構造とコ
ンテンツとに分け、文法規則12を用いてこの構造を符
号化するエンコーダ11と、このエンコーダ11によっ
て抽出されたこの文書のコンテンツを圧縮符号化する圧
縮器13とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、XMLやASN.
1等の木ローカル言語で記述された文書を圧縮するデー
タ圧縮方法に関する。
【0002】
【従来の技術】XML(Extensible Markup Language)
は、文書の意味構造を簡単なマークで記述(マークアッ
プ)するマークアップ言語の一種である。XMLでは、
文法を規定し、文書の構成要素に論理的意味を持たせる
ことにより、ユーザが独自の拡張を行うことが可能であ
る。そのため、インターネットにおけるデータ交換に用
いるデータフォーマットとして期待されている。
【0003】XMLには、DTD(文書型定義:Docume
nt Type Definition)という概念があり、あるDTDに
関して、文書が妥当(valid)かどうかを判定できる。
具体的には、例えば、<BOOK>というノードの下には、<T
ITLE>、<AUTHOR>、<PUBLISHER>というノードがこの順に
それぞれ1回ずつ現れる、というような文法規則を規定
する。そして、所定の文書が妥当かどうか、すなわち、
当該文法規則に則しているかどうかを判定することがで
きる。
【0004】XML文書の構造は、形式言語的には、木
言語のうちの木ローカルと呼ばれるクラスに属する。木
ローカル言語とは、データがラベル付きの木構造で表現
され、かつ、正しいデータが木の各ノードラベルに対し
て子ノードのラベルの正規言語で規定されるような木言
語である。すなわち、木ローカル言語では、所定の文法
(XMLにおいてはDTDにて規定される)に属する木
の集合が、各ノードの子ノードのリストを規定する正規
言語によって決定付けられる。この種の木ローカル言語
としては、他に、ASN.1(Abstract Syntax Notatio
n 1)等がある。
【0005】近年、XMLを用いて、ネットワーク上の
リソースやHTMLでは実現不可能であった複雑なデー
タ構造を記述し、ビジネスアプリケーションを構築する
動きが広がっている。このようなシステムでは、大規模
なXML文書がアプリケーション間で交換されることが
予想される。一般に、データ交換を行ったりデータベー
スにデータを格納したりする際には、送信効率の向上や
格納するデータファイルのサイズを縮小するために、デ
ータファイルの圧縮を行う。そのため、種々のデータフ
ォーマットに対して適用できる汎用的なデータ圧縮技術
や、特定のデータフォーマットに特化したデータ圧縮技
術などが数多く提案されている。したがって、XML文
書の交換においてもこれらのデータ圧縮技術を適用する
ことが考えられる。なお、XML文書は、タグ名などに
かなりの冗長度があるため、高い圧縮率が期待できるデ
ータ構造であるといえる。
【0006】
【発明が解決しようとする課題】上述したように、デー
タ交換を行ったりデータベースにデータを格納したりす
る際には、データファイルの圧縮を行うことが一般的で
ある。そして、XML等の木ローカル言語では、タグな
どの文書構造を示す情報部分に対して高い圧縮率を期待
できる。
【0007】例えば、データ通信において、通信の当事
者が文法Gを共有しており、互いに当該文法Gに対して
妥当なXML文書のみをやりとりすることが保証される
場合を考える。また、上記のように文法Gにおいて、<B
OOK>というノードの下には、<TITLE>、<AUTHOR>、<PUBL
ISHER>というノードがこの順にそれぞれ1回ずつ現れ
る、という文法規則が規定されているものとする。この
場合、XML文書の受信者は、受信したXML文書の中
で、例えば<BOOK>というタグを検出した場合に、その最
初の子ノードは<TITLE>であると予測することができ
る。したがって、<TITLE>という情報は、この仮定のも
とでは冗長である。この考えを用いることで、メッセー
ジ長を最適化するような、XML文書のエンコーディン
グ方法が可能である。このことは、XMLに限らず、任
意の木ローカル言語(例えば、ASN.1)に対しても
同様である。しかしながら、従来、このような木ローカ
ル言語における文書の構造部分を符号化する圧縮方法は
何ら提案されていなかった。
【0008】そこで本発明は、XMLやASN.1等の
木ローカル言語における文書の構造部分の符号化を行う
データ圧縮を実現する。
【0009】また本発明は、木ローカル言語に特化する
と共に、他の汎用的なデータ圧縮技術と併用することに
より、高い圧縮率を期待できるデータ圧縮方法を提供す
る。
【0010】
【課題を解決するための手段】かかる目的のもと、本発
明は、データを符号化して圧縮するデータ圧縮装置であ
って、データがラベル付きの木構造で表現される木ロー
カル言語の文法規則を格納した文法格納部と、この木ロ
ーカル言語で記述された文書を読み込んで、この文書を
構造とコンテンツとに分け、文法格納部に格納された文
法規則を用いてこの構造を符号化するエンコーダと、こ
のエンコーダによって抽出されたこの文書のコンテンツ
を圧縮符号化する圧縮器とを備えることを特徴としてい
る。木ローカル言語とは、データがラベル付きの木構造
で表現され、かつ、正しいデータが木の各ノードラベル
に対して子ノードのラベルの正規言語で規定されるよう
な木言語である。
【0011】ここで、このエンコーダは、処理対象であ
る文書を構造とコンテンツとに分ける分割処理部と、文
法規則に対応するプッシュダウンオートマトンを構築す
るオートマトン構築部と、このオートマトン構築部によ
り構築された前記プッシュダウンオートマトンを用い
て、前記分割処理部により分割された前記文書の構造に
対する構文解析を行い、当該構造の符号化されたデータ
列を生成する符号化データ生成部とを備えることを特徴
としている。
【0012】さらに、このエンコーダの符号化データ生
成部は、オートマトン構築部により構築されたこのプッ
シュダウンオートマトン中に存在する選択肢に対して符
号を割り当て、このプッシュダウンオートマトンを走ら
せて木ローカル言語で記述された文書の構造を解析した
際にこの選択肢の箇所で選択された選択肢に割り当てら
れている符号を出力することにより、この構造の符号化
データ列を生成することを特徴としている。このような
構成とすれば、タグなどのラベルを用いて記述されたこ
の文書の構造を簡単な符号列に変換(符号化)すること
が可能となる。プッシュダウンオートマトンを用いて文
書の構造を解析する際には、この文書の木構造を深さ優
先でたどりながら解析を行う。すなわち親ノードからの
距離が等しい階層ごとに解析していくのではなく、深さ
方向のノードどうしのつながり(親子関係)を優先させ
て木をたどりながら解析する。
【0013】またここで、圧縮器は、この木ローカル言
語で記述された文書のコンテンツと共に、エンコーダに
て符号化されたこの文書の構造に対しても圧縮符号化を
行うことを特徴としている。この圧縮器による圧縮手法
は、特に制限はなく、従来から用いられている汎用的な
手法を採用することができる。エンコーダにより文書の
構造を符号化した結果、ある程度規則的なデータ列が得
られる場合は、この符号化データ列に対し、PKZIP
等の汎用的な手法を用いてさらに圧縮符号化を行うこと
により、高い圧縮率を期待できる。そこで、文書のコン
テンツを圧縮する際に、この符号化データ列を合わせて
圧縮することが好ましい。さらに、同じ文書における構
造の符号化データ列とコンテンツとを結合した上で圧縮
を行うことにより、構造とコンテンツとが別ファイルと
なることを避けられるので、ファイル管理の上でも好ま
しい。
【0014】また、本発明は、通信ネットワークを介し
てデータ送信を行う送信側データ処理装置と、この送信
側データ処理装置から送信されたデータをこの通信ネッ
トワークを介して受信する受信側データ処理装置とを備
えたデータ通信システムであって、この送信側データ処
理装置は、データがラベル付きの木構造で表現される木
ローカル言語の文法規則を格納した第1の文法格納部
と、この木ローカル言語で記述された送信文書を読み込
んで、この送信文書を構造とコンテンツとに分け、第1
の文法格納部に格納された文法規則を用いてこの送信文
書の構造を符号化するエンコーダと、このエンコーダに
よって抽出されたこの送信文書のコンテンツを圧縮符号
化する圧縮器と、エンコーダにより符号化された構造及
び圧縮器により圧縮符号化されたコンテンツを送信する
送信部とを備え、この受信側データ処理装置は、この送
信側データ処理装置から送信された受信する受信部と、
送信側データ処理装置の第1の文法格納部に格納された
文法規則と同一内容の文法規則を格納した第2の文法格
納部と、送信側データ処理装置の圧縮器による圧縮符号
化手法に対応する解凍手法にて、この受信部が受信した
受信データのうち送信文書のコンテンツに対応するデー
タを解凍する解凍器と、この受信部が受信した受信デー
タのうち送信文書の構造に対応するデータを、第2の文
法格納部に格納された前記文法規則を用いて当該構造を
復号化するデコーダとを備えることを特徴としている。
このように、データの送信側と受信側とで予め共通の文
法規則を用意しておけば、データ通信において、木ロー
カル言語で記述された文書に対するきわめて圧縮率の高
い圧縮を行うことができ、通信効率を向上させることが
できる点できわめて優れている。なお、ビジネス間通信
においては、木ローカル言語の文法規則として共通のも
のを用いることが予め定められることが一般的なので、
本発明を導入することは容易である。
【0015】さらにまた、本発明は、データを記憶装置
に格納して管理するデータベースシステムであって、デ
ータがラベル付きの木構造で表現される木ローカル言語
の文法規則を格納した文法格納部と、この木ローカル言
語で記述された文書を読み込んで、この文書を構造とコ
ンテンツとに分け、文法格納部に格納された文法規則を
用いてこの文書の構造を符号化するエンコーダと、この
エンコーダによって抽出された文書のコンテンツを圧縮
符号化する圧縮器と、エンコーダにより符号化されたこ
の文書の構造と圧縮器により圧縮符号化されたこの文書
のコンテンツとを格納する記憶装置とを備えることを特
徴としている。
【0016】ここで、この圧縮器は、前記文書のコンテ
ンツと共に、前記エンコーダにて符号化された当該文書
の構造に対しても圧縮符号化を行うことを特徴としてい
る。同じ文書における構造の符号化データ列とコンテン
ツとを結合した上で圧縮を行うことにより、高い圧縮率
を期待でき、さらに構造とコンテンツとが別ファイルと
なることを避けられるので、ファイル管理の上でも好ま
しい。
【0017】また、本発明は、データを符号化して圧縮
するデータ圧縮方法であって、データがラベル付きの木
構造で表現される木ローカル言語で記述された文書を読
み込んで、この文書を構造とコンテンツとに分けるステ
ップと、この木ローカル言語の文法規則を用いて、この
文書の構造を符号化するステップと、この文書のコンテ
ンツを圧縮符号化するステップとを含むことを特徴とし
ている。
【0018】ここで、文書の構造を符号化するステップ
は、文法規則に対応するプッシュダウンオートマトンを
構築するステップと、プッシュダウンオートマトン中に
存在する選択肢に対して符号を割り当てるステップと、
このプッシュダウンオートマトンを走らせて前記文書の
構造を深さ優先でたどりながら解析し、この選択肢の箇
所で選択された選択肢に割り当てられているこの符号を
出力するステップと、このプッシュダウンオートマトン
を走らせて出力されたこの符号の列をこの木ローカル言
語で記述された文書の構造の符号化されたデータ列とし
て出力するステップとを含むことを特徴としている。こ
のような構成とすれば、タグなどのラベルを用いて記述
されたこの文書の構造を簡単な符号列に変換(符号化)
することが可能となる。
【0019】このデータ圧縮方法において、木ローカル
言語で記述された文書の構造を符号化するステップに先
だって、処理対象であるこの木ローカル言語の文書のノ
ードに属性が含まれている場合に、この属性を、この属
性を持つ要素の子ノードに変換することにより、この木
ローカル言語の文法規則及び文書を、プッシュダウンオ
ートマトンで扱える木構造に変換するステップをさらに
含むことを特徴としている。このように構成すれば、X
MLのように処理対象の文書に属性が含まれている場合
にも、プッシュダウンオートマトンを用いた構造の符号
化を行うことができる点で好ましい。
【0020】さらに、文書の構造を符号化するステップ
の後に、汎用的な他の圧縮符号化手法を用いて、符号化
された文書の構造をさらに圧縮符号化するステップをさ
らに含むことを特徴としている。このような構成とする
ことにより、さらに高い圧縮率を期待できる点で好まし
い。
【0021】また、本発明は、コンピュータに実行させ
るプログラムを当該コンピュータの入力手段が読取可能
に記憶した記憶媒体において、このプログラムは、デー
タがラベル付きの木構造で表現される木ローカル言語で
記述された文書を読み込んで、この文書を構造とコンテ
ンツとに分ける処理と、この木ローカル言語の文法規則
を用いて、この文書の構造を符号化する処理と、この文
書のコンテンツを圧縮符号化する処理とをこのコンピュ
ータに実行させることを特徴としている。このような構
成とすれば、このプログラムをインストールしたあらゆ
る情報処理装置において、この木ローカル言語にて記述
された文書を高い圧縮率で圧縮することができ、通信効
率や記憶効率を向上させることができる。
【0022】さらにまた、本発明は、コンピュータに、
データがラベル付きの木構造で表現される木ローカル言
語で記述された文書を読み込んで、この文書を構造とコ
ンテンツとに分ける処理と、この木ローカル言語の文法
規則を用いて、この文書の構造を符号化する処理と、こ
の文書のコンテンツを圧縮符号化する処理とを実行させ
るプログラムを記憶する記憶手段と、この記憶手段から
このプログラムを読み出してこのプログラムを送信する
送信手段とを備えたことを特徴としている。このような
構成とすれば、このプログラム伝送装置からこのプログ
ラムをダウンロードしてインストールしたあらゆる情報
処理装置において、この木ローカル言語にて記述された
文書を高い圧縮率で圧縮することができ、通信効率や記
憶効率を向上させることができる。
【0023】
【発明の実施の形態】以下、添付図面に示す実施の形態
に基づいてこの発明を詳細に説明する。図1は、本実施
の形態における文書圧縮システムの全体構成を説明する
図である。図1において、符号11はエンコーダであ
り、圧縮対象である文書を構造とコンテンツとに分け、
その構造部分を、所定の記憶装置に記憶された文法規則
12を用いて符号化する。符号13は圧縮器であり、エ
ンコーダ11により符号化された構造部分と、当該文書
のコンテンツ部分とを圧縮する。符号21は解凍器であ
り、圧縮器13により圧縮された文書を解凍する。解凍
器21により解凍された時点では、当該文書は、コンテ
ンツ部分とエンコーダ11により符号化された構造部分
とに分かれている。符号23はデコーダであり、符号化
されている構造部分を、所定の記憶装置に記憶された文
法規則22を用いて複合化し、コンテンツ部分と合わせ
て、文書を復元する。
【0024】本実施の形態をデータ通信の際のデータ圧
縮に用いる場合は、エンコーダ11及び圧縮器13は送
信側に置かれ、解凍器21及びデコーダ23は受信側に
置かれることとなる。また、データベースシステムにお
いて格納するデータファイルを圧縮するために用いる場
合は、データの流れに応じて、エンコーダ11がデコー
ダ23として動作し、圧縮器13が解凍器21として動
作する。
【0025】以下、処理対象の木ローカル言語としてX
MLを用いる場合を例として説明する。図2は、本実施
の形態によるデータ圧縮の手順を説明する図である。図
2に示す本実施の形態によるデータ圧縮処理では、ま
ず、処理対象であるXML文書201が、エンコーダ1
1に読み込まれて、構造202とコンテンツ204とに
分解される。ここで、構造202とは、当該XML文書
201の木構造、タグ名及び属性名であり、コンテンツ
204とは、当該XML文書201の#PCDATA及
び属性値である。XML文書201を構造202とコン
テンツ204とに分解するのは、構造202とコンテン
ツ204とは、通常全く異なる統計的偏りを持っている
ため、独立して圧縮した方が効果的だからである。
【0026】次に、XML文書201を分解して得られ
た構造202が、エンコーダ11により符号化される。
構造202の符号化には、文法規則12が用いられる。
ここでは、処理対象をXML文書としているので、文法
規則12はDTDにより規定される。符号化処理の詳細
な内容については後述する。符号化された結果である符
号化データ列203とコンテンツ204とは、圧縮器1
3に送られる。
【0027】最後に、圧縮器13において、符号化デー
タ列203とコンテンツ204とが圧縮符号化され、こ
れらのデータを合わせて、圧縮されたXML文書205
が生成される。圧縮器13による符号化処理には、LZ
77等の既知の適当な手法を用いる。ここで、圧縮器1
3による圧縮符号化は、主としてコンテンツ204に対
して行われることとなる。しかしながら、PKZIP等
の汎用的な圧縮符号化方式は、符号化データ列203に
対しても有効である。後述するように、本実施例では、
符号化データ列203は数字列として出力される。した
がって、ある程度規則的な数字列であるような場合は、
高い圧縮率が期待できる。そこで、圧縮器13では、コ
ンテンツ204と共に符号化データ列203も圧縮符号
化を行う。なお、符号化データ列203に対して圧縮器
13による圧縮を行うか否かは任意である。符号化デー
タ列203と圧縮器13により圧縮されたコンテンツ2
04とを単に関連づけ、または結合して、送受信した
り、記憶装置に格納したりするようにしても良い。以上
のように、本実施の形態は、XML文書201における
構造202の部分を本実施の形態による手法を用いて圧
縮し、さらに符号化された構造202の部分とコンテン
ツ204の部分とを、従来の手法を用いて圧縮する。こ
のため、本実施の形態によるデータ圧縮は、全体として
は、従来の種々の圧縮手法と併用して行うこととなる。
【0028】以上のようにして圧縮されたXML文書2
05を解凍する場合は、上記の圧縮課程の反対の過程を
たどる。すなわち、まず解凍器21において、圧縮器1
3が圧縮符号化に用いた手法に対応する手法で、符号化
データ列203とコンテンツ204とを解凍する。次
に、デコーダ23において、解凍された符号化データ列
203を、文法規則12と同一の文法規則22を用いて
複合化する。復号化処理の詳細な内容については後述す
る。文法規則22はDTDにより規定される。そして、
この復号化処理により得られた構造202と解凍器21
により解凍されたコンテンツ204とを用いて、XML
文書201を復元する。
【0029】次に、本実施の形態によるXML文書の構
造に対する符号化処理の内容を詳細に説明する。ここで
は、処理対象のXML文書は、簡単のため、属性を含ま
ないものとし、XML文書中のすべての実体は展開され
ているものとする。属性の扱いについては後述する。
【0030】図3は、XML文書の構造を符号化するエ
ンコーダ11の構成を説明する機能ブロック図である。
図3を参照すると、エンコーダ11は、処理対象である
XML文書201を構造202とコンテンツ204とに
分割する分割処理部111と、文法規則12に基づいて
後述するプッシュダウンオートマトンを構築するオート
マトン構築部112と、オートマトン構築部112によ
り構築されたプッシュダウンオートマトンを符号化トラ
ンスデューサとして用いて構造202の符号化データ列
203を生成する符号化データ列生成部113とを備え
る。
【0031】図4に処理対象とするXML文書の例を示
す。XML文書のコンテンツとは、内容モデルにおけ
る、#PCDATAに相当する部分の文字列のリストで
ある。すなわち、図4のXML文書におけるコンテンツ
は、“String1”、“String2”、“String3”、“Strin
g4”という4つの文字列からなるリストである。これ
は、例えば、ナル文字で終わる文字列を並べたバイト列
として、以下のように、コンパクトに表現可能である
(但し“\O”はナル文字をあらわす)。“String1\0Strin
g2\0String3\0String4\0”この文字列は、上述したよう
に、構造部分とは別に圧縮符号化される。また、図4の
XML文書における構造は、図5に示すようになる。こ
れは、図4のXML文書中のコンテンツに相当する文字
列をプレースホルダ(□)に置き換えたものである。
【0032】本実施の形態において、エンコーダ11
は、分割処理部111により図4に示すXML文書から
図5に示す構造を取り出し、オートマトン構築部112
により文法規則12を用いてプッシュダウンオートマト
ンを構築し、符号化データ列生成部113により当該プ
ッシュダウンオートマトンを用いて当該構造を符号化す
る。図6は、文法規則12を規定するDTDの例を示
す。分割処理部111による分割処理の後、オートマト
ン構築部112は、文法規則12を用いた符号化処理の
ために、当該DTDに対応するプッシュダウンオートマ
トンを構築する。図6のDTDによれば、要素Aが現れ
た場合は、次に、要素B、要素Cがこの順番で1回ずつ
現れた後に終了することを示す。同様に、要素Bが現れ
たときは、次に、要素Dが1回現れた後に終了すること
を示す。また、要素Cが現れたときは、次に、要素Eま
たは要素Fが0回以上現れた後に終了することを示す。
さらにまた、要素Eが現れたときは、次に、要素Gまた
は要素Hのいずれか一方が1回現れた後に終了すること
を示す。図7は、図6に示したDTDに対応する自然な
プッシュダウンオートマトンを示す図である。なお、非
終端記号DとGに関しては、終端記号#PCDATAを
取るだけの自明なルールなので、省略してある。このよ
うなオートマトンは、文法の各非終端記号について曖昧
さ無く構築できる。したがって、本実施の形態をデータ
通信に用いる場合、送信側と受信側との共通のDTDか
らは、全く同一のプッシュダウンオートマトンを構築す
ることができる。
【0033】通常、プッシュダウンオートマトンは、入
力列の構文解析を行うために用いられる。その意味で
は、このプッシュダウンオートマトンは、表層のシンボ
ル列、すなわち、#PCDATA(またはプレースホル
ダ“□”)の1個以上の並びからなる全ての列を受理す
る。しかし、解析の結果生成される構文解析木として
は、例えば、構文木のノードAの子供として、ノード
B、ノードCがこの順に現われなければならない。ま
た、要素Cの後は、空遷移で最終状態に遷移する。この
ように、このプッシュダウンオートマトンは、解析済み
のXML文書(例えば、DOM木)のような、構文解析
木が文法を満たすかどうかのチェックに用いることもで
きる。
【0034】図8に示す構文木を例として、プッシュダ
ウンオートマトンを用いた文法のチェックについて説明
する。なお、図8において、各リーフの#PCDATA
は省略してある。この構文木が図6のDTDに規定され
る文法によって生成可能かどうかを調べるには、この構
文木の各ノードに対して、そのノードの非終端記号に対
応するオートマトンによって、その子ノードの列が受理
できるかどうかを調べればよい。例えば、要素Aは、子
ノードとしてBCという列を持っている。これは、非終
端記号Aに対応するオートマトンによって受理される
(図7のA参照)。したがって、この部分については文
法を満たすことがわかる。同様にして、全てのノードに
ついて、対応するオートマトンを使ってPreorderでトラ
バース(深さ優先でたどる)すれば、文法のチェックは
終了する。構文解析木に対して、プッシュダウンオート
マトンをこのように使うことを、以下の説明では妥当性
検証と呼ぶ。なお、以上の操作で用いる各非終端記号に
対するオートマトンについては、終了状態へのε遷移を
除き、決定性で最小のオートマトンであるものとする。
【0035】次に、オートマトン構築部112は、図7
のプッシュダウンオートマトンを、XML文書の構造部
分(図5参照)を符号化するトランスデューサ、すなわ
ち、文字列の構文解析のオートマトンに変換する。図7
のプッシュダウンオートマトンにおいて、入力を、4つ
の#PCDATA(またはブレースホルダー“□”)か
らなる並びとし、開始記号をAとして解析を開始する
と、ノードA、ノードB、ノードDが順に作られ、最初
の#PCDATAが認識される。次に、ノードCが作ら
れたところで選択肢が発生する。すなわち、ノードEを
作るべきか、ノードFを作るべきか、それともノードC
をこれで終わりにして上位のノードに戻るか、の3通り
である。そこで、これらの3通りの選択肢に、ラベルの
アルファベット順に1、2、3という番号を割り振る
(ラベルεは常に最後と決める)。同様に、ルールEの
最初の状態も、ノードGを作るかまたはノードHを作る
という選択肢を持つので、これらについても、1、2と
いう番号を割り当てる。なお、ここでは選択肢に番号を
割り振るとしたが、選択肢の識別に用いる符号は数字に
限らない。アルファベットや記号など任意の符号を用い
て選択肢を特定することが可能である。図9は、図7の
プッシュダウンオートマトンから変換された符号化トラ
ンスデューサである。
【0036】エンコーダ11の符号化データ列生成部1
13は、オートマトン構築部112により構築された符
号化トランスデューサを走らせる。図9に示す符号化ト
ランスデューサは、妥当性検証(Preorderでのルール適
用)を行った場合に、対応する選択肢番号があれば、そ
の番号を出力する。すなわち、図9において、ルール
A、B、F、Hに関しては、選択肢がないので何ら出力
を行わず、ルールC及びルールDが適用された場合は、
該当する番号を出力する。例えば、図8の構文木に対し
て妥当性検証を行った場合、木をたどるにしたがって、
図10に示すような番号を出力する。以上の処理によ
り、“112123”という番号列が得られる。この番
号列は、プッシュダウンオートマトンの動きを厳密に規
定している。したがって、この番号列を、図4に示した
XML文書の構造部分(図5)の符号化されたデータ列
として扱うことができる。
【0037】次に、本実施の形態によるXML文書の構
造に対する復号化処理の内容を説明する。上記の手順を
経て符号化されたXML文書を復号するには、符号化ト
ランスデューサの入出力を逆にして適用すればよい。し
たがって、デコーダ23は、図7と同一のプッシュダウ
ンオートマトンを用いて復号化トランスデューサを生成
し、復号化処理を実行する。上述したように、オートマ
トンは、文法の各非終端記号について曖昧さ無く構築で
きるため、DTDにて規定される文法規則12と文法規
則22とが共通であれば、デコーダ23においても図7
と全く同一のプッシュダウンオートマトンを構築するこ
とができる。
【0038】図11は、図7と同一のプッシュダウンオ
ートマトンから変換された復号化トランスデューサであ
る。図11に示す復号化トランスデューサにおいて、i
/Bという表現は、「iという入力文字列を見たら、B
というルールを呼び、その後、次の状態へ遷移する」と
いう遷移をあらわす。これにより、エンコーダ11から
出力された番号列を入力して、対応する構文解析木を生
成する。上述した“112123”という番号列を入力
した場合、元々の番号の割り当て方から、このプッシュ
ダウンオートマトン(復号化トランスデューサ)は、暖
昧さ無くXML文書の符号化番号列を受理することがで
きる。したがって、生成される構文解析木は、図8に示
したオリジナルの構文解析木と同一となる。これによ
り、当該XML文書の構造部分が復元されることとな
る。
【0039】次に、属性の扱いについて説明する。本実
施の形態では、属性は、プッシュダウンオートマトンで
扱えるように、木構造に変換する。具体的には、属性を
持つ全ての要素(ELEMEMT)に関して、それらの属性を
子ノードとして取るように変換する。この際、属性は属
性名のアルファベット順に現れるものとする。そして、
#REQUIREDである属性は、そのまま並べる。ま
た、#IMPLIEDである属性は、オプショナルであ
る“?”をつける。なお、#FIXEDである属性につ
いては、元々情報がないので、変換後のDTDには含め
ない。図12は、例示的に、所定のDTDにおける変換
前後の状態を比較する図である。図12において、左側
に示されるDTDは、右側に示される形式に変換され
る。このようなDTDに応じて、属性を含むXML文書
においても、属性を要素に変換する。図13は、例示的
に、所定のXML文書における変換前後の状態を比較す
る図である。
【0040】以上のようにして、DTDとXML文書と
を、属性を持たない状態とした後に、上述した符号化処
理及び復号化処理を実行する。なお、DTDの変換は、
プッシュダウンオートマトンを構築する前の段階で予め
行っても良いし、プッシュダウンオートマトンを構築す
る段階で逐次行っても良い。前者の場合は、変換後の新
しいDTDを用いてプッシュダウンオートマトンを構築
する手順となる。また、後者の場合は、元の(属性を持
つ)DTDから直接プッシュダウンオートマトンを構成
する手順となる。
【0041】以上説明したように、本実施の形態は、X
ML文書を圧縮する側と解凍する側の双方において同一
のDTDを共有することが不可欠である。したがって、
本実施の形態をデータ通信の際のデータ圧縮に用いる場
合は、送信側データ処理装置と受信側データ処理装置と
にそれぞれ同一のDTDを用意する必要がある。図14
は、本実施の形態を用いたデータ通信システムの構成例
を説明する図である。送信側データ処理装置1410に
おいて、エンコーダ11は、データ処理部からXML文
書を受け取り、DTD1411(図1の文法規則12に
相当)を用いて構造部分の符号化を行う。圧縮器13
は、符号化された構造部分及びコンテンツ部分の圧縮を
行う。送信部1412は、エンコーダ11及び圧縮器1
3にて圧縮されたXML文書を、通信ネットワークを介
して受信側データ処理装置1420へ送信する。受信側
データ処理装置1420において、受信部1422は通
信ネットワークを介して受信した受信データを解凍器2
1へ送る。解凍器21は、受け取った受信データの解凍
を行う。この時点でXML文書のコンテンツ部分は復元
される。デコーダ23は、解凍された受信データの構造
部分の符号化データ列を、DTD1421(図1の文法
規則22に相当)を用いて復号化する。そして、解凍さ
れているコンテンツ部分と合わせてXML文書を復元
し、データ処理部へ送る。ここで、送信側データ処理装
置1410のDTD1411と受信側データ処理装置1
420のDTD1421とが同一の内容となっている。
なお、電子商取引等のビジネス間通信では、アプリケー
ションどうしでXML文書をやりとりする場合、DTD
は事前に合意されている場合がほとんどである。したが
って、DTDを共有していることを前提に、本実施の形
態をビジネス間通信に利用することができる。
【0042】また、データベースシステムにおいて格納
するデータファイルを圧縮するために用いる場合は、X
MLファイルの構造を符号化するために用いたDTD
を、そのまま復号化する際に利用できるため、DTDが
共有されているかどうかを考慮する必要はない。図15
は、本実施の形態を用いたデータベースシステムの構成
を説明する図である。データベースシステム1500に
おいて、エンコーダ11は、データ処理部からXML文
書を受け取り、DTD1501(図1の文法規則12に
相当)を用いて構造部分の符号化を行う。圧縮器13
は、符号化された構造部分及びコンテンツ部分の圧縮を
行う。そして、エンコーダ11及び圧縮器13にて圧縮
されたXML文書が記憶装置1502に格納される。記
憶装置1502に格納されている圧縮されたXML文書
を読み出す場合は、圧縮器13が解凍器21として動作
し、エンコーダ11がデコーダ23として動作する。X
ML文書の構造部分の復号化には、符号化の際に用いた
DTD1501を再度使用する。
【0043】なお、以上の説明では、木ローカル言語と
してXMLを用いた場合を例として説明したが、AS
N.1等の他の木ローカル言語においてもそのまま利用
することができる。ただし、この場合においても、デー
タファイルを圧縮する側と解凍する側とで、上述したX
MLにおけるDTDのような文法規則を共有することが
必要である。
【0044】
【発明の効果】以上説明したように、本発明によれば、
木ローカル言語における文書の構造部分の符号化を行う
データ圧縮を実現することができる。
【0045】また、木ローカル言語に特化すると共に、
他の汎用的なデータ圧縮技術と併用することにより、高
い圧縮率を期待できるデータ圧縮方法を提供することが
できる。
【図面の簡単な説明】
【図1】 本実施の形態における文書圧縮システムの全
体構成を説明する図である。
【図2】 本実施の形態によるデータ圧縮の手順を説明
する図である。
【図3】 本実施の形態におけるエンコーダの構成を説
明する図である。
【図4】 本実施の形態の処理対象であるXML文書の
例を示す図である。
【図5】 図4のXML文書における構造を示す図であ
る。
【図6】 本実施の形態にて用いる文法規則の例を示す
図である。
【図7】 図6の文法規則から構築されるプッシュダウ
ンオートマトンを示す図である。
【図8】 プッシュダウンオートマトンを用いた文法の
チェックの手法を説明するための構文木を例示的に示す
図である。
【図9】 図7のプッシュダウンオートマトンを用いて
生成された符号化トランスデューサを示す図である。
【図10】 図8の構文木に対して妥当性検証を行った
結果を例示的に示す図である。
【図11】 図7と同一のプッシュダウンオートマトン
を用いて生成された復号化トランスデューサを示す図で
ある。
【図12】 属性を持つDTDを、属性を持たないDT
Dに変換した状態を説明する図である。
【図13】 属性を持つXML文書を、属性を持たない
XML文書に変換した状態を説明する図である。
【図14】 本実施の形態をデータ通信システムに適用
した場合の構成を説明する図である。
【図15】 本実施の形態をデータベースシステムに適
用した場合の構成を説明する図である。
【符号の説明】
11…エンコーダ、12、22…文法規則、13…圧縮
器、21…解凍器、23…デコーダ、201…XML文
書、202…構造、203…符号化データ列、204…
コンテンツ、205…圧縮されたXML文書
───────────────────────────────────────────────────── フロントページの続き (72)発明者 丸山 宏 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 田村 健人 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 浦本 直彦 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 Fターム(参考) 5J064 AA00 BA11 BA14 BC02 BD02 BD03

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 データを符号化して圧縮するデータ圧縮
    装置であって、 データがラベル付きの木構造で表現される木ローカル言
    語の文法規則を格納した文法格納部と、 前記木ローカル言語で記述された文書を読み込んで、当
    該文書を構造とコンテンツとに分け、前記文法格納部に
    格納された前記文法規則を用いて当該構造を符号化する
    エンコーダと、 前記エンコーダによって抽出された前記文書のコンテン
    ツを圧縮符号化する圧縮器とを備えることを特徴とする
    データ圧縮装置。
  2. 【請求項2】 前記エンコーダは、 処理対象である文書を構造とコンテンツとに分ける分割
    処理部と、 前記文法規則に対応するプッシュダウンオートマトンを
    構築するオートマトン構築部と、 前記オートマトン構築部により構築された前記プッシュ
    ダウンオートマトンを用いて、前記分割処理部により分
    割された前記文書の構造に対する構文解析を行い、当該
    構造の符号化されたデータ列を生成する符号化データ生
    成部とを備えることを特徴とする請求項1に記載のデー
    タ圧縮装置。
  3. 【請求項3】 前記エンコーダの前記符号化データ生成
    部は、前記オートマトン構築部により構築された前記プ
    ッシュダウンオートマトン中に存在する選択肢に対して
    符号を割り当て、当該プッシュダウンオートマトンを走
    らせて前記文書の構造を解析した際に当該選択肢の箇所
    で選択された選択肢に割り当てられている当該符号を出
    力することにより、当該構造の符号化データ列を生成す
    ることを特徴とする請求項2に記載のデータ圧縮装置。
  4. 【請求項4】 前記圧縮器は、前記文書のコンテンツと
    共に、前記エンコーダにて符号化された当該文書の構造
    に対しても圧縮符号化を行うことを特徴とする請求項1
    に記載のデータ圧縮装置。
  5. 【請求項5】 通信ネットワークを介してデータ送信を
    行う送信側データ処理装置と、当該送信側データ処理装
    置から送信されたデータを当該通信ネットワークを介し
    て受信する受信側データ処理装置とを備えたデータ通信
    システムであって、 前記送信側データ処理装置は、 データがラベル付きの木構造で表現される木ローカル言
    語の文法規則を格納した第1の文法格納部と、 前記木ローカル言語で記述された送信文書を読み込ん
    で、当該送信文書を構造とコンテンツとに分け、前記第
    1の文法格納部に格納された前記文法規則を用いて当該
    構造を符号化するエンコーダと、 前記エンコーダによって抽出された前記送信文書のコン
    テンツを圧縮符号化する圧縮器と、 前記エンコーダにより符号化された前記構造及び前記圧
    縮器により圧縮符号化された前記コンテンツを送信する
    送信部とを備え、 前記受信側データ処理装置は、 前記送信側データ処理装置から送信された受信する受信
    部と、 前記送信側データ処理装置の前記第1の文法格納部に格
    納された文法規則と同一内容の文法規則を格納した第2
    の文法格納部と、 前記送信側データ処理装置の前記圧縮器による圧縮符号
    化手法に対応する解凍手法にて、前記受信部が受信した
    受信データのうち前記送信文書のコンテンツに対応する
    データを解凍する解凍器と、 前記受信部が受信した受信データのうち前記送信文書の
    構造に対応するデータを、前記第2の文法格納部に格納
    された前記文法規則を用いて当該構造を復号化するデコ
    ーダとを備えることを特徴とするデータ通信システム。
  6. 【請求項6】 データを記憶装置に格納して管理するデ
    ータベースシステムであって、 データがラベル付きの木構造で表現される木ローカル言
    語の文法規則を格納した文法格納部と、 前記木ローカル言語で記述された文書を読み込んで、当
    該文書を構造とコンテンツとに分け、前記文法格納部に
    格納された前記文法規則を用いて当該構造を符号化する
    エンコーダと、 前記エンコーダによって抽出された前記文書のコンテン
    ツを圧縮符号化する圧縮器と、 前記エンコーダにより符号化された前記文書の構造と前
    記圧縮器により圧縮符号化された前記文書のコンテンツ
    とを格納する記憶装置とを備えることを特徴とするデー
    タベースシステム。
  7. 【請求項7】 前記圧縮器は、前記文書のコンテンツと
    共に、前記エンコーダにて符号化された当該文書の構造
    に対しても圧縮符号化を行うことを特徴とする請求項6
    に記載のデータベースシステム。
  8. 【請求項8】 データを符号化して圧縮するデータ圧縮
    方法であって、 データがラベル付きの木構造で表現される木ローカル言
    語で記述された文書を読み込んで、当該文書を構造とコ
    ンテンツとに分けるステップと、 前記木ローカル言語の文法規則を用いて、前記文書の構
    造を符号化するステップと、 前記文書のコンテンツを圧縮符号化するステップとを含
    むことを特徴とするデータ圧縮方法。
  9. 【請求項9】 前記文書の構造を符号化するステップ
    は、 前記文法規則に対応するプッシュダウンオートマトンを
    構築するステップと、 前記プッシュダウンオートマトン中に存在する選択肢に
    対して符号を割り当てるステップと、 前記プッシュダウンオートマトンを走らせて前記文書の
    構造を深さ優先でたどりながら解析し、当該選択肢の箇
    所で選択された選択肢に割り当てられている前記符号を
    出力するステップと、 前記プッシュダウンオートマトンを走らせて出力された
    前記符号の列を前記文書の構造の符号化されたデータ列
    として出力するステップとを含むことを特徴とする請求
    項8に記載のデータ圧縮方法。
  10. 【請求項10】 前記文書の構造を符号化するステップ
    に先だって、 処理対象である前記木ローカル言語の文書のノードに属
    性が含まれている場合に、当該属性を、当該属性を持つ
    要素の子ノードに変換することにより、前記木ローカル
    言語の文法規則及び前記文書を、前記プッシュダウンオ
    ートマトンで扱える木構造に変換するステップをさらに
    含むことを特徴とする請求項9に記載のデータ圧縮方
    法。
  11. 【請求項11】 前記文書の構造を符号化するステップ
    の後に、 汎用的な他の圧縮符号化手法を用いて、当該符号化され
    た当該文書の構造をさらに圧縮符号化するステップをさ
    らに含むことを特徴とする請求項8に記載のデータ圧縮
    方法。
  12. 【請求項12】 コンピュータに実行させるプログラム
    を当該コンピュータの入力手段が読取可能に記憶した記
    憶媒体において、 前記プログラムは、 データがラベル付きの木構造で表現される木ローカル言
    語で記述された文書を読み込んで、当該文書を構造とコ
    ンテンツとに分ける処理と、 前記木ローカル言語の文法規則を用いて、前記文書の構
    造を符号化する処理と、 前記文書のコンテンツを圧縮符号化する処理とを前記コ
    ンピュータに実行させることを特徴とする記憶媒体。
  13. 【請求項13】 コンピュータに、 データがラベル付きの木構造で表現される木ローカル言
    語で記述された文書を読み込んで、当該文書を構造とコ
    ンテンツとに分ける処理と、前記木ローカル言語の文法
    規則を用いて、前記文書の構造を符号化する処理と、前
    記文書のコンテンツを圧縮符号化する処理とを実行させ
    るプログラムを記憶する記憶手段と、 前記記憶手段から前記プログラムを読み出して当該プロ
    グラムを送信する送信手段とを備えたことを特徴とする
    プログラム伝送装置。
JP2000028359A 2000-02-04 2000-02-04 データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置 Expired - Fee Related JP3368883B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2000028359A JP3368883B2 (ja) 2000-02-04 2000-02-04 データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置
US09/670,489 US7043686B1 (en) 2000-02-04 2000-09-26 Data compression apparatus, database system, data communication system, data compression method, storage medium and program transmission apparatus
TW089122825A TW501350B (en) 2000-02-04 2000-10-30 Data compression apparatus, database system, data communication system, data compression method, and program transmission apparatus
EP01300387A EP1122655A3 (en) 2000-02-04 2001-01-17 Data compression apparatus, database system, data communication system, data compression method, storage medium and program transmission apparatus
KR10-2001-0003131A KR100424130B1 (ko) 2000-02-04 2001-01-19 데이터 압축 장치, 데이터베이스 시스템, 데이터 통신시스템, 데이터 압축 방법, 기억 매체 및 프로그램 전송장치
CNB011032413A CN1166072C (zh) 2000-02-04 2001-02-02 用于数据压缩、传输、存储以及通信的方法、设备和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000028359A JP3368883B2 (ja) 2000-02-04 2000-02-04 データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置

Publications (2)

Publication Number Publication Date
JP2001217720A true JP2001217720A (ja) 2001-08-10
JP3368883B2 JP3368883B2 (ja) 2003-01-20

Family

ID=18553774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000028359A Expired - Fee Related JP3368883B2 (ja) 2000-02-04 2000-02-04 データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置

Country Status (6)

Country Link
US (1) US7043686B1 (ja)
EP (1) EP1122655A3 (ja)
JP (1) JP3368883B2 (ja)
KR (1) KR100424130B1 (ja)
CN (1) CN1166072C (ja)
TW (1) TW501350B (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157249A (ja) * 2001-11-21 2003-05-30 Degital Works Kk 文書の圧縮格納方法
JP2004508647A (ja) * 2000-09-06 2004-03-18 エクスプウェイ 構造化文書の圧縮/解凍方法
JP2004523166A (ja) * 2001-02-01 2004-07-29 シーメンス アクチエンゲゼルシヤフト Mpeg−7および他のxmlベースの内容記述のバイナリ表現における機能を改善する方法
JP2005018672A (ja) * 2003-06-30 2005-01-20 Hitachi Ltd 構造化文書の圧縮方法
JP2005510804A (ja) * 2001-11-23 2005-04-21 リサーチ イン モーション リミテッド 拡張可能マークアップ言語(xml)ドキュメントを処理するシステムおよび方法
KR20050038786A (ko) * 2003-10-23 2005-04-29 조이원(주) 데이터 변환을 통한 대용량 데이터 축소 저장 및 연산 기술을 적용한 고객관계관리 시스템
JP2006505043A (ja) * 2002-10-29 2006-02-09 ロッキード・マーチン・コーポレイション ハードウェアパーサアクセラレータ
JP2006505044A (ja) * 2002-10-29 2006-02-09 ロッキード・マーチン・コーポレイション ハードウェアにより加速された妥当性検証パーサ
US7231591B2 (en) 2003-03-31 2007-06-12 Nec Corporation Computer system suitable for communications of structured documents
JP2007293874A (ja) * 2007-05-18 2007-11-08 Degital Works Kk 文書の圧縮格納方法及び装置
JPWO2005101210A1 (ja) * 2004-04-09 2008-03-06 シャープ株式会社 データ解析装置およびデータ解析プログラム
WO2008099793A1 (en) * 2007-02-16 2008-08-21 Canon Kabushiki Kaisha Encoding/decoding apparatus, method and computer program
JP2009518755A (ja) * 2005-12-08 2009-05-07 グッド テクノロジー インコーポレイテッド 無線装置と通信するためにデータを圧縮/解凍するための方法及び装置
JP2009519508A (ja) * 2005-12-05 2009-05-14 インターナショナル・ビジネス・マシーンズ・コーポレーション ウェブ・サービス通信の履歴を駆使した最適化のためのシステム及び方法
JP2014059744A (ja) * 2012-09-18 2014-04-03 Toshiba Corp 文書処理装置、及びプログラム
JP2016134754A (ja) * 2015-01-19 2016-07-25 富士通株式会社 変換処理プログラム、情報処理装置および変換処理方法
JP2017195447A (ja) * 2016-04-18 2017-10-26 富士通株式会社 符号化処理プログラム、符号化処理装置、符号化処理方法、復号化処理プログラム、復号化処理装置および復号化処理方法
US10685179B2 (en) 2016-10-12 2020-06-16 Fujitsu Limited XML verification apparatus, verification method, encoding apparatus, encoding method, and computer-readable recording medium

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714926B1 (en) * 1999-02-02 2004-03-30 Amazon.Com, Inc. Use of browser cookies to store structured data
JP4774145B2 (ja) * 2000-11-24 2011-09-14 富士通株式会社 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム
EP2197213B1 (de) 2000-12-22 2013-05-29 Siemens Aktiengesellschaft Verfahren zur Verbesserung der Funktionalität der binären Repräsentation von MPEG-7 und anderen XML basierten Inhaltsbeschreibungen
US7669120B2 (en) * 2002-06-21 2010-02-23 Microsoft Corporation Method and system for encoding a mark-up language document
KR100513736B1 (ko) 2002-12-05 2005-09-08 삼성전자주식회사 그래픽 데이터 압축에 관한 메타표현을 이용한 입력파일생성 방법 및 시스템
US7415665B2 (en) * 2003-01-15 2008-08-19 At&T Delaware Intellectual Property, Inc. Methods and systems for compressing markup language files
GB0316806D0 (en) * 2003-07-17 2003-08-20 Ivis Group Ltd Improved search engine
EP1510942A1 (en) * 2003-08-27 2005-03-02 Hewlett-Packard Development Company, L.P. Compatibility of tree-structured data
JP4261299B2 (ja) * 2003-09-19 2009-04-30 株式会社エヌ・ティ・ティ・ドコモ データ圧縮装置、データ復元装置およびデータ管理装置
JP4177218B2 (ja) * 2003-09-24 2008-11-05 株式会社エヌ・ティ・ティ・ドコモ 文書変換装置
US7676742B2 (en) * 2003-11-24 2010-03-09 International Business Machines Corporation System and method for processing of markup language information
US7769904B2 (en) * 2004-06-09 2010-08-03 L-3 Communications Integrated Systems L.P. Extensible binary mark-up language for efficient XML-based data communications and related systems and methods
US20060117307A1 (en) * 2004-11-24 2006-06-01 Ramot At Tel-Aviv University Ltd. XML parser
US8677123B1 (en) 2005-05-26 2014-03-18 Trustwave Holdings, Inc. Method for accelerating security and management operations on data segments
US20060288028A1 (en) * 2005-05-26 2006-12-21 International Business Machines Corporation Decompressing electronic documents
KR100705971B1 (ko) * 2005-07-20 2007-04-12 주식회사 휴맥스 비트스트림 인코딩/디코딩 방법 및 장치
US7593949B2 (en) * 2006-01-09 2009-09-22 Microsoft Corporation Compression of structured documents
US20080077606A1 (en) * 2006-09-26 2008-03-27 Motorola, Inc. Method and apparatus for facilitating efficient processing of extensible markup language documents
US8386444B2 (en) * 2006-12-29 2013-02-26 Teradata Us, Inc. Techniques for selective compression of database information
US8948385B2 (en) * 2007-05-31 2015-02-03 Pfu Limited Electronic document encrypting system, decrypting system, program and method
EP2153611B1 (en) * 2007-06-01 2013-03-27 Research In Motion Limited Synchronization of side information caches
US7747558B2 (en) * 2007-06-07 2010-06-29 Motorola, Inc. Method and apparatus to bind media with metadata using standard metadata headers
WO2009001174A1 (en) * 2007-06-28 2008-12-31 Smartimage Solutions, Sia System and method for data compression and storage allowing fast retrieval
FR2919400A1 (fr) 2007-07-23 2009-01-30 Canon Kk Procede et dispositif d'encodage d'un document structure et procede et dispositif de decodage d'un document ainsi encode.
FR2926378B1 (fr) * 2008-01-14 2013-07-05 Canon Kk Procede et dispositif de traitement pour l'encodage d'un document de donnees hierarchisees
FR2939535B1 (fr) * 2008-12-10 2013-08-16 Canon Kk Procede et systeme de traitement pour la configuration d'un processseur exi
US20100146410A1 (en) * 2008-12-10 2010-06-10 Barrett Kreiner Markup language stream compression using a data stack
US20100223398A1 (en) * 2009-02-27 2010-09-02 Slipstream Data Inc. Method and apparatus for creating side information from data for use in interactive compression
US8179291B2 (en) * 2009-05-04 2012-05-15 International Business Machines Corporation Method and system for compression of logical data objects for storage
JP5478936B2 (ja) * 2009-05-13 2014-04-23 キヤノン株式会社 情報処理装置、情報処理方法
JP5507295B2 (ja) * 2009-06-05 2014-05-28 株式会社ミツトヨ 信号処理装置、および信号変換伝送システム
DE102010006931A1 (de) * 2010-02-04 2011-08-04 Bienert, Jörg, 50354 Verfahren zur Verarbeitung von Datensammlungen, insbesondere in Datenbanksystemen
US8478731B1 (en) * 2010-03-31 2013-07-02 Emc Corporation Managing compression in data storage systems
US9619443B2 (en) 2012-03-05 2017-04-11 International Business Machines Corporation Enhanced messaging transaction performance with auto-selected dual-tag fields
CN104850561A (zh) * 2014-02-18 2015-08-19 北京京东尚科信息技术有限公司 一种Android APK文件自适应压缩方法
US10361712B2 (en) * 2017-03-14 2019-07-23 International Business Machines Corporation Non-binary context mixing compressor/decompressor
CN108132999B (zh) * 2017-12-21 2019-06-04 恒宝股份有限公司 一种元素名的处理方法及系统
CN111159273B (zh) * 2019-12-31 2023-07-18 中国联合网络通信集团有限公司 数据流处理方法、装置、服务器及存储介质
CN113239394B (zh) * 2021-05-06 2021-10-29 国家计算机网络与信息安全管理中心 固件的保护方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261072A (ja) * 1996-03-19 1997-10-03 Fujitsu Ltd 文書管理装置及びデータ圧縮方法及びデータ復元方法
JPH10283233A (ja) * 1997-04-07 1998-10-23 Pfu Ltd Html文書形式アプリケーションの実行方法及びhtml文書変換ツール記憶媒体
JPH11168425A (ja) * 1997-12-03 1999-06-22 Nec Corp マークアップランゲージ文書の保存方法及び通信方法
JPH11284517A (ja) * 1997-12-29 1999-10-15 Bruce K Martin シンタックス構造を保持してマークアップ言語を用いたドキュメントを圧縮する方法
JP2000076155A (ja) * 1998-09-01 2000-03-14 Mitsubishi Materials Corp Htmlドキュメント圧縮・展開・表示方式
JP2000101442A (ja) * 1998-09-28 2000-04-07 Fujitsu Ltd データ圧縮装置及び復元装置並びにその方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713966A (ja) * 1993-04-12 1995-01-17 Xerox Corp 文書の編集方法
US5438512A (en) * 1993-10-22 1995-08-01 Xerox Corporation Method and apparatus for specifying layout processing of structured documents
US5583762A (en) * 1994-08-22 1996-12-10 Oclc Online Library Center, Incorporated Generation and reduction of an SGML defined grammer
WO1996017310A1 (en) * 1994-11-29 1996-06-06 Avalanche Development Company System and process for creating structured documents
US5630126A (en) * 1994-12-13 1997-05-13 International Business Machines Corp. Systems and methods for integrating computations into compound documents
US5819264A (en) * 1995-04-03 1998-10-06 Dtl Data Technologies Ltd. Associative search method with navigation for heterogeneous databases including an integration mechanism configured to combine schema-free data models such as a hyperbase
AU2585797A (en) * 1996-03-15 1997-10-01 University Of Massachusetts Compact tree for storage and retrieval of structured hypermedia documents
US5915259A (en) * 1996-03-20 1999-06-22 Xerox Corporation Document schema transformation by patterns and contextual conditions
US5933842A (en) * 1996-05-23 1999-08-03 Microsoft Corporation Method and system for compressing publication documents in a computer system by selectively eliminating redundancy from a hierarchy of constituent data structures
US5884014A (en) * 1996-05-23 1999-03-16 Xerox Corporation Fontless structured document image representations for efficient rendering
US6182029B1 (en) * 1996-10-28 2001-01-30 The Trustees Of Columbia University In The City Of New York System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
US5999949A (en) * 1997-03-14 1999-12-07 Crandall; Gary E. Text file compression system utilizing word terminators
US6016467A (en) * 1997-05-27 2000-01-18 Digital Equipment Corporation Method and apparatus for program development using a grammar-sensitive editor
JP3859313B2 (ja) * 1997-08-05 2006-12-20 富士通株式会社 タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体
US6336214B1 (en) * 1998-11-10 2002-01-01 International Business Machines Corporation System and method for automatically generating browsable language grammars
US6635088B1 (en) * 1998-11-20 2003-10-21 International Business Machines Corporation Structured document and document type definition compression
US6523172B1 (en) * 1998-12-17 2003-02-18 Evolutionary Technologies International, Inc. Parser translator system and method
US6647534B1 (en) * 1999-06-30 2003-11-11 Ricoh Company Limited Method and system for organizing document information in a non-directed arrangement of documents
US6665665B1 (en) * 1999-07-30 2003-12-16 Verizon Laboratories Inc. Compressed document surrogates
FR2813743B1 (fr) * 2000-09-06 2003-01-03 Claude Seyrat Procede de compression/decompression de documents structures
KR20020058639A (ko) * 2000-12-30 2002-07-12 오길록 엑스엠엘 문서 검색 시스템 및 그 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261072A (ja) * 1996-03-19 1997-10-03 Fujitsu Ltd 文書管理装置及びデータ圧縮方法及びデータ復元方法
JPH10283233A (ja) * 1997-04-07 1998-10-23 Pfu Ltd Html文書形式アプリケーションの実行方法及びhtml文書変換ツール記憶媒体
JPH11168425A (ja) * 1997-12-03 1999-06-22 Nec Corp マークアップランゲージ文書の保存方法及び通信方法
JPH11284517A (ja) * 1997-12-29 1999-10-15 Bruce K Martin シンタックス構造を保持してマークアップ言語を用いたドキュメントを圧縮する方法
JP2000076155A (ja) * 1998-09-01 2000-03-14 Mitsubishi Materials Corp Htmlドキュメント圧縮・展開・表示方式
JP2000101442A (ja) * 1998-09-28 2000-04-07 Fujitsu Ltd データ圧縮装置及び復元装置並びにその方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004508647A (ja) * 2000-09-06 2004-03-18 エクスプウェイ 構造化文書の圧縮/解凍方法
JP4653381B2 (ja) * 2000-09-06 2011-03-16 エクスプウェイ 構造化文書の圧縮/解凍方法
JP2004523166A (ja) * 2001-02-01 2004-07-29 シーメンス アクチエンゲゼルシヤフト Mpeg−7および他のxmlベースの内容記述のバイナリ表現における機能を改善する方法
JP2003157249A (ja) * 2001-11-21 2003-05-30 Degital Works Kk 文書の圧縮格納方法
US7636565B2 (en) 2001-11-23 2009-12-22 Research In Motion Limited System and method for processing extensible markup language (XML) documents
US8010097B2 (en) 2001-11-23 2011-08-30 Research In Motion Limited System and method for processing extensible markup language (XML) documents
JP2005510804A (ja) * 2001-11-23 2005-04-21 リサーチ イン モーション リミテッド 拡張可能マークアップ言語(xml)ドキュメントを処理するシステムおよび方法
US7904073B2 (en) 2001-11-23 2011-03-08 Research In Motion Limited System and method for processing extensible markup language (XML) documents
JP2006505043A (ja) * 2002-10-29 2006-02-09 ロッキード・マーチン・コーポレイション ハードウェアパーサアクセラレータ
JP2006505044A (ja) * 2002-10-29 2006-02-09 ロッキード・マーチン・コーポレイション ハードウェアにより加速された妥当性検証パーサ
US7231591B2 (en) 2003-03-31 2007-06-12 Nec Corporation Computer system suitable for communications of structured documents
JP2005018672A (ja) * 2003-06-30 2005-01-20 Hitachi Ltd 構造化文書の圧縮方法
KR20050038786A (ko) * 2003-10-23 2005-04-29 조이원(주) 데이터 변환을 통한 대용량 데이터 축소 저장 및 연산 기술을 적용한 고객관계관리 시스템
JPWO2005101210A1 (ja) * 2004-04-09 2008-03-06 シャープ株式会社 データ解析装置およびデータ解析プログラム
JP2009519508A (ja) * 2005-12-05 2009-05-14 インターナショナル・ビジネス・マシーンズ・コーポレーション ウェブ・サービス通信の履歴を駆使した最適化のためのシステム及び方法
JP2009518755A (ja) * 2005-12-08 2009-05-07 グッド テクノロジー インコーポレイテッド 無線装置と通信するためにデータを圧縮/解凍するための方法及び装置
JP2008204000A (ja) * 2007-02-16 2008-09-04 Canon Inc 符号化装置及びその制御方法、復号装置及びその制御方法、プログラム、記憶媒体
WO2008099793A1 (en) * 2007-02-16 2008-08-21 Canon Kabushiki Kaisha Encoding/decoding apparatus, method and computer program
US8250465B2 (en) 2007-02-16 2012-08-21 Canon Kabushiki Kaisha Encoding/decoding apparatus, method and computer program
JP4562749B2 (ja) * 2007-05-18 2010-10-13 ディジタル・ワークス株式会社 文書の圧縮格納方法及び装置
JP2007293874A (ja) * 2007-05-18 2007-11-08 Degital Works Kk 文書の圧縮格納方法及び装置
JP2014059744A (ja) * 2012-09-18 2014-04-03 Toshiba Corp 文書処理装置、及びプログラム
JP2016134754A (ja) * 2015-01-19 2016-07-25 富士通株式会社 変換処理プログラム、情報処理装置および変換処理方法
JP2017195447A (ja) * 2016-04-18 2017-10-26 富士通株式会社 符号化処理プログラム、符号化処理装置、符号化処理方法、復号化処理プログラム、復号化処理装置および復号化処理方法
US10685179B2 (en) 2016-10-12 2020-06-16 Fujitsu Limited XML verification apparatus, verification method, encoding apparatus, encoding method, and computer-readable recording medium

Also Published As

Publication number Publication date
EP1122655A2 (en) 2001-08-08
CN1316828A (zh) 2001-10-10
TW501350B (en) 2002-09-01
KR20010078015A (ko) 2001-08-20
CN1166072C (zh) 2004-09-08
JP3368883B2 (ja) 2003-01-20
US7043686B1 (en) 2006-05-09
EP1122655A3 (en) 2005-08-17
KR100424130B1 (ko) 2004-03-24

Similar Documents

Publication Publication Date Title
JP3368883B2 (ja) データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置
US7013425B2 (en) Data processing method, and encoder, decoder and XML parser for encoding and decoding an XML document
KR101247075B1 (ko) 마크업 언어 데이터의 인코딩
US8346737B2 (en) Encoding of hierarchically organized data for efficient storage and processing
Girardot et al. Millau: an encoding format for efficient representation and exchange of XML over the Web
US7089567B2 (en) Efficient RPC mechanism using XML
US20050120031A1 (en) Structured document encoder, method for encoding structured document and program therefor
US20050144556A1 (en) XML schema token extension for XML document compression
US8015218B2 (en) Method for compressing/decompressing structure documents
US7318194B2 (en) Methods and apparatus for representing markup language data
EP1803225A1 (en) Adaptive compression scheme
US8024353B2 (en) Method and system for sequentially accessing compiled schema
US20090254882A1 (en) Methods and devices for iterative binary coding and decoding of xml type documents
US20040225754A1 (en) Method of compressing XML data and method of decompressing compressed XML data
KR20020069229A (ko) 텍스트 도큐먼트들을 압축하기 위한 방법 및 장치
JP4168946B2 (ja) 文書データの符号化又は復号化方法及びそのプログラム
US7676742B2 (en) System and method for processing of markup language information
Werner et al. Compressing soap messages by using pushdown automata
US20060184547A1 (en) Method and system for fast encoding of data documents
Levene et al. XML Structure Compression.
US7735001B2 (en) Method and system for decoding encoded documents
US8156148B2 (en) Scalable algorithm for sharing EDI schemas
JP4821287B2 (ja) 構造化文書の符号化方法、符号化装置、符号化プログラム、復号装置及び符号化された構造化文書のデータ構造
KR100898614B1 (ko) 스키마, 구문 분석 방법 및 스키마에 기초하여 비트 스트림을 발생시키는 방법
Nicholas et al. On the Interchangeability of SGML and ODA.

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071115

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081115

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees