CN1166072C - 用于数据压缩、传输、存储以及通信的方法、设备和系统 - Google Patents
用于数据压缩、传输、存储以及通信的方法、设备和系统 Download PDFInfo
- Publication number
- CN1166072C CN1166072C CNB011032413A CN01103241A CN1166072C CN 1166072 C CN1166072 C CN 1166072C CN B011032413 A CNB011032413 A CN B011032413A CN 01103241 A CN01103241 A CN 01103241A CN 1166072 C CN1166072 C CN 1166072C
- Authority
- CN
- China
- Prior art keywords
- file
- data
- structure division
- content
- native language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 60
- 238000013144 data compression Methods 0.000 title claims description 25
- 230000005540 biological transmission Effects 0.000 title claims description 18
- 238000004891 communication Methods 0.000 title claims description 17
- 238000003860 storage Methods 0.000 title claims description 15
- 238000007906 compression Methods 0.000 claims abstract description 35
- 230000006835 compression Effects 0.000 claims abstract description 35
- 239000003638 chemical reducing agent Substances 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 230000006837 decompression Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 28
- 230000033228 biological regulation Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000009933 burial Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于对数据编码和用于压缩编码数据的压缩设备包含:一个其中的数据是由标号树结构表示的树本机语言的语法规则(12);一个用于读取以该树本机语言编写的文件,把文件划分成结构部分和内容,和用语法规则(12)对该结构部分编码的编码器(11);一个用于压缩由编码器(11)提取的文件的内容,和对该压缩内容编码的压缩器(13)。
Description
技术领域
本发明涉及一种用于压缩以诸如XML或ASN.1的树本机语言(treelocal language)编写的文件数据的数据压缩方法。
背景技术
XML(eXtensible Markup Language-可扩充标记语言)是用简单标签(tags)描述(标记)文件的逻辑结构的标记语言之一。在XML中,为文件的成分规定语法规则,提供逻辑定义,使得用户能唯一地扩充文件数据。所以,预计将来XML将作为一种数据格式,用于因特网上的数据交换。
XML有一个概念称为DTD(文件类型定义),可以确定某文件对特定DTD是否有效。举例来说,规定一条语法规则,使得节点<题目>、<作者>和<出版者>,按照标着名称的顺序,一次一个地出现在节点<书>的下面。可以确定预定的文件是否有效,即预定的文件是否符合该语法规则。
至于语言风格,XML文件的结构属于一个称为树本机语言的类。按照树本机语言的定义,数据是由标号(labeled)树结构表示的,各个节点标号(labels)的正确数据是由子节点的标号的标准语言规定的。就是说,在树本机语言中,一个属于(由XML中的DTD规定的)某预定语法的树的集合,是由指定各个节点的子节点的列表的标准语言确定的。这个类型的另一个树本机语言是ASN.1(Abstract SyntaxNotation 1-抽象语义表示法1)。
采用XML为商业应用和其它目的编写以前用HTML或网络上可用的其它资源不能编写的复杂数据结构,有上升的趋势。预计,有了这个系统,大型XML文件将有可能被应用程序交换。
一般来说,为了交换数据或在数据库中存储的数据,要对数据文件进行压缩,以降低文件的大小,提高传输效率。因此,许多可用于各种数据格式类型的通用数据压缩技术和许多只适合特定数据格式类型的专用数据压缩技术,已经被开发出来,可用于XML文件的交换。就压缩而言,应当注意到,尽管考虑了XML文件的数据结构,也有对标签的明显多余的使用,以便能指望有高的压缩比例。
如上所述,为方便数据的交换和在数据库中存储数据,一般要进行对数据文件的压缩。用树本机语言,如XML,可以期望对数据部分-如代表文件结构的标签-有高的压缩比例。
假设对于数据通信来说,双方采用共同的语法G并保证它们只交换对该语法有效的XML文件。还假设对语法规则的规定,使得在节点<题目>、<作者>和<出版者>,按照标着名称的顺序,一次一个地出现在节点<书>的下面。在这种情况下,当XML文件的接收者例如在XML文件中发现标签<书>时,该接收者就能预测到第一个子节点将是<题目>。因此,根据这个假设,标签<题目>变得多余,于是可以设计一种对XML文件编码的方法用以优化消息长度。这不仅适用于XML,也适用于任意树本机语言(例如ASN.1)。
然而按照惯例,用压缩来对树本机语言的文件的结构部分进行编码的压缩方法尚未提出。
发明内容
所以,本发明的一个目的是采用数据压缩来对诸如XML或ASN.1的树本机语言编写的文件的结构部分进行编码。
本发明的另一个目的是为树本机语言提供一种与另一个通用数据压缩技术一起采用的专用数据压缩方法,以便能实现高的压缩比例。
为了实现以上目的,按照本发明,一种用于对数据编码和用于压缩该编码数据的数据压缩设备包含:一个为其中的数据是由标号树结构表示的树本机语言存储语法规则的语法存储单元;一个用于读取以该树本机语言编写的文件,把该文件划分成结构部分和内容,并用语法存储单元中存储的语法规则对该结构部分进行编码的编码器;和一个用于压缩由编码器提取的文件的内容并用于对该压缩内容编码的压缩器。树本机语言是一种树语言,其中的数据是由标号树结构表示的,并且其中,对于各个节点标号,采用用于子节点标号的标准语言来规定正确的数据。
该编码器包括:一个用于将目标文件划分成结构部分和内容的划分器;一个自动机构造器,用于构造对应于该语法规则的下推自动机;一个编码数据生成器,采用由自动机构造器所构造的下推自动机来对由划分器获得的文件的结构部分进行语义分析,并用于为该结构部分生成编码数据串。
该编码器的编码数据生成器向在由自动机构造器所构造的下推自动机中驻留的选择分配符号。该编码数据生成器采用下推自动机来分析以树本机语言编写的该文件的结构部分,并在选定的各选择的位置,输出为这些选择分配的符号,以便为该结构部分生成编码数据串。用这个方案,就能将用诸如标签的标号编写的文件的结构部分改变(编码)成一个简单的编码序列。为了用下推自动机分析文件结构部分,按深度优先搜索跟踪文件的树结构。就是说,不是用与父节点等距离的次序,而是采用沿深度方向的节点之间的关系(父子关系)作为优先次序跟踪树,进行分析。
此外,压缩器不仅为以树本机语言编写的文件的内容,也为由编码器获得的文件的结构部分,进行压缩和编码。尽管由压缩器使用的压缩方法没有特别的限制,可以采用的普通的通用方法。如果编码器通过对文件的结构部分的编码获得标准数据串,该编码器可采用诸如PKZIP的通用方法,为编码数据串执行压缩和编码,预期能有高的压缩比例。因此,在文件的内容被压缩时,最好也压缩该编码数据串。
还有,如果将结构部分的编码数据串与文件的内容结合起来,然后将产生的数据压缩,该结构部分和该内容就构成一个单一的文件。这对文件管理来说更可取。
按照本发明,一种数据通信系统包含:一个用于在网络上发送数据的传输源数据处理设备;一个用于接收由传输源数据处理设备在网络上发送的数据的传输目的地数据处理设备。该传输源数据处理设备包含一个用于为其中的数据是由标号树结构表示的树本机语言存储语法规则的第一语法存储单元,一个用于读取以该树本机语言编写的文件、用于把文件划分成结构部分和内容和用于采用该第一语法存储单元中存储的语法规则对该结构部分进行编码的编码器,一个用于压缩由编码器提取的文件的内容并用于对该压缩内容编码的压缩器,以及一个用于发送由编码器编码的结构部分以及由压缩器压缩和编码的内容的发送器。该传输目的地数据处理设备包含一个用于从数据源数据处理设备接收数据的接收器,一个用于存储与数据源数据处理设备的第一语法存储单元存储的语法规则相同的语法规则的第二语法存储单元,一个采用与由数据源数据处理设备使用的压缩和编码方法对应的解压方法来解压由接收器接收的对应于文件的内容的数据的解压器,以及一个用于采用第二语法存储单元中存储的语法规则来解译由接收器接收的对应于文件的结构部分的数据的编码器。实现该过程的一个高级方法,是让所准备的语法规则由数据传输源和目的地共同使用,因为对于数据通信来说,可以为以树本机语言编写的文件获得高的压缩比例,并且能提高通信效率。因为对于商业通信来说,一般法则是把树本机语言的语法规则共同使用,所以能容易引用本发明。
此外,按照本发明,一种用于存储和管理存储单元中的数据的数据库系统包含:一个为其中的数据是由标号树结构表示的树本机语言存储语法规则的语法存储单元;一个用于读取以该树本机语言编写的文件,把文件划分成结构部分和内容,并用语法存储单元中存储的语法规则对结构部分编码的编码器;一个用于压缩由编码器提取的文件的内容并用于对该压缩内容编码的压缩器;一个用于存储由编码器编码的文件的结构部分和存储由压缩器压缩和编码的文件的内容的存储单元。
该压缩器不仅为以树本机语言编写的文件的内容,也为由编码器获得的文件的结构部分,进行压缩和编码。如果将结构部分的编码数据串与文件的内容结合起来,然后将产生的数据压缩,结构部分和内容就构成一个单一的文件;对文件管理来说,这更可取。
按照本发明,一种用于对数据编码和用于压缩编码数据的数据压缩方法包含以下步骤:读取以其中的数据是由标号树结构表示的树本机语言编写的文件,并把该文件划分成结构部分和内容;用该树本机语言的语法规则对结构部分进行编码;压缩由编码器提取的文件的内容并用于对该压缩内容进行编码。
对文件的结构部分编码的步骤包括步骤:构造对应于该语法规则的下推自动机;向在下推自动机中驻留的选择分配符号;按照深度优先搜索用下推自动机分析该文件的结构部分,并在各选择的位置,输出向这些选择分配的符号;输出通过采用下推自动机而获得的符号串,作为以树本机语言编写的文件的结构部分的编码数据串。用这个方案,就能将用诸如标签的标号编写的文件的结构部分改变(编码),获得一个简单的编码序列。
该数据压缩方法进一步包括:一个当某属性属于树本机语言中某个目标文件的节点时要在对以树本机语言编写的文件的结构部分编码的步骤之前执行的步骤,即将该属性改变为拥有该属性的元素的子节点,以便将树本机语言的语法规则和文件转换成一个要由下推自动机处理的树结构。这个方案之所以更可取,是因为即使该属性包含在如XML文件的目标文件中,也能用下推自动机对该结构部分进行编码。
该数据压缩方法还包含:一个要在对文件的结构部分编码的步骤之后执行的步骤,即采用另一个通用压缩和编码方法进一步对编码的文件结构部分进行压缩和编码。这个方案之所以更可取,是因为预期能有更高的压缩比例。
按照本发明,提供一种存储介质,其上面的计算机输入装置存储一个计算机可读程序,该程序允许计算机执行:一个用于读取以其中的数据是由标号树结构表示的树本机语言编写的文件并且用于把该文件划分成结构部分和内容的过程;一个采用该树本机语言的语法规则对结构部分编码的过程;一个用于压缩由编码器提取的文件的内容并且用于对该压缩内容编码的过程。用这个方案,所有其中安装这个程序的信息处理设备都能在压缩以该树本机语言编写的文件时实现高的压缩比例,并且能获得较高的通信和存储效率。
此外,按照本发明,一种程序传输设备包含:用于存储程序的存储装置,该程序允许计算机执行一个用于读取以其中的数据是由标号树结构表示的树本机语言编写的文件并用于把该文件划分成结构部分和内容的过程,一个采用该树本机语言的语法规则对该结构部分编码的过程,一个用于压缩由编码器提取的文件的内容并且用于对该压缩内容编码的过程;用于从该存储装置读取该程序并用于发送该程序的传输装置。用这个方案,所有已经从该程序传输设备下载这个程序并安装该程序的信息处理设备,都能在压缩以该树本机语言编写的文件时实现高的压缩比例,并且能获得较高的通信和存储效率。
附图说明
图1是解释按照本发明一个实施例的文件压缩系统的总体方案的示意图;
图2是解释按照实施例的数据压缩处理的示意图;
图3是解释按照实施例的编码器的示意图;
图4是表示按照实施例的一例目标XML文件的示意图;
图5是表示图4中的XML文件结构部分的示意图;
图6是表示用于实施例的一例语法规则的示意图;
图7是表示按照图6中的语法规则构造的下推自动机的示意图;
图8是表示用于解释使用下推自动机的语法检查方法的一例语义树的示意图;
图9是通过使用图7中下推自动机而生成的编码转换器(transducer)的示意图;
图10是表示通过为图8中的语义树进行有效性检查而获得的结果例子的示意图;
图11是通过使用图7中下推自动机而生成的解码转换器的示意图;
图12是解释其中将有属性的DTD转换成无属性的DTD的状态的示意图;
图13是解释其中将有属性的XML文件转换成无属性的XML文件的状态的示意图;
图14是解释对数据通信系统应用实施例时的结构的示意图;
图15是解释对数据库系统应用实施例时的结构的示意图;
具体实施方式
现在将参考附图,详细地说明本发明的最佳实施例。
图1是解释按照本发明的一个文件压缩系统的总体方案的示意图。图1中,编码器11将目标文件划分成结构部分和内容,并用在预定存储器中存储的语法规则12对结构部分编码。压缩器13包含由编码器11编码的结构部分和文件的内容。解压器21解压由压缩器13压缩的文件。在文件被解压器21解压的时候,文件被分离成内容和由编码器11编码的结构部分。解码器23通过使用在预定存储器中存储的语法规则22,重新构造编码的结构部分,将结构部分与内容结合起来,重新产生文件。
当将实施例的方法用于数据通信的数据压缩时,将编码器11和压缩器13配置在发送端,将解压器21和解码器23配置在接收端。当将实施例的方法用于压缩要在数据库系统中存储的数据文件时,按照数据发送,编码器11起解码器23的作用,压缩器13起解压器21的作用。
现在将就用XML作为目标树本机语言的例子给出解释。
图2是解释按照实施例的数据压缩处理的示意图。在图2中的数据压缩处理中,首先,目标XML文件201由编码器11读出,划分成结构部分202和内容204。结构部分202包括XML文件的树结构、标签名和属性名;内容204包含#PCDATA和XML文件的属性值。之所以将XML文件划分成结构部分202和内容204,是因为一般来说结构部分202和内容204有相当不同的统计偏差,独立地压缩这二者是效率高的。
将通过划分XML文件201所获得的结构部分202用编码器11进行编码,并且将语法规则12用于这个编码。由于在本实施例中XML文件是目标,语法规则12由DTD规定。这个编码处理将在后文作详细说明。所获得的编码数据串203和内容204被传送到压缩器13。
最后,压缩器13对编码数据串203和内容204进行压缩和编码,将获得的数据组合起来,生成压缩XML文件205。为了进行该编码过程,压缩器13采用常规的有名方法,诸如LZ77。此时,压缩器13主要被用来对内容204进行压缩和编码。然而,对编码数据串203可以有效地使用通用压缩与编码方法,诸如PKZIP。正如后文中将要说明的那样,在本实施例中,编码数据串203是作为数字序列被输出的。因此,如果数据是一序列的比较规则的数字,就可以期望有高的压缩比例。所以,压缩器13可以将编码数据串203与内容204一起进行压缩和编码。不过应当注意,压缩器13对编码数据串203的压缩是个任意过程。编码数据串203和内容204可以不由压缩器13压缩,而可以只是被彼此关联或结合起来,可以交换或存储在存储器中。
如上所述,在本实施例中,XML文件的结构部分202是用本发明方法压缩的,此外,编码结构部分202和内容204是用常规方法压缩的。所以,本发明方法是与各种常规压缩方法结合起来使用的。
为了将这样压缩的XML文件解压,要反过来进行以上的压缩处理。具体来说,解压器21用与压缩器13所使用的压缩和编码方法相对应的方法对编码数据串203解压。然后,如下文将要详细说明的那样,解码器23用语法规则22重新构造被解压的编码数据串203。语法规则22与语法规则12相同,是由DTD规定的。然后,用在解码过程中获得的结构部分202和由解压器21解压的内容204重新生成XML文件201。
现在将详细解释按照本实施例进行的用于对XML文件的结构部分编码的处理。
为简化解释,对于这个过程来说,目标XML文件不含任何属性,XML文件的实际总体是设计好的。如何处理属性将在以后作讨论。
图3是解释对XML文件的结构部分编码的编码器11的方案的功能框图。在图3中,编码器11包含:划分器111,用于将目标XML文件201划分成结构部分202和内容204;自动机构遣器112,用于用语法规则12构造将在以后作说明的下推自动机;编码数据串生成器113,用于通过用由自动机构造器112构造的下推自动机作为编码转换器,为结构部分202生成编码数据串203。
图4是表示一例目标XML文件的示意图。XML文件的内容由字符串的列表组成,字符串位于对应于#PCDATA的内容模型(contentsmodel)的部分。就是说,图4中的XML文件的内容,是一个由4个字符串“String1”、“String2”、“String3”、和“String4”组成的列表。该列表例如可以用下列字节串来紧凑地表示,该字节串中,将各字符串以空字符作为结束(
代表空字符)。
如上所述地将这个字符串独立于结构部分进行压缩和编码。
图4中的XML文件结构部分在图5中表示。这个结构部分是通过将对应于图4中XML文件的内容的字符串替换为占位符(□)而获得的。
本实施例中,编码器11的划分器111从图4中的XML文件提取图5中的结构部分,自动机构造器112用语法规则12构造下推自动机,编码数据串生成器113用下推自动机对结构部分编码。图6是表示用于规定语法规则12一例DTD的示意图。
在划分器111执行了划分过程之后,为了用语法规则12进行编码,自动机构造器112构造对应于DTD的下推自动机。按照图6中的DTD,当元素A出现时,意味着元素B和元素C将按照标着名称的顺序逐一地出现,该状态转换(state shifting)然后结束。类似地,当元素B出现时,意味着元素D将出现,该状态转换然后结束。当元素C出现时,意味着0个元素或元素E或元素F将出现,该状态转换然后结束。当元素E出现时,意味着一个元素G或一个元素H将出现,该状态转换然后结束。
图7是表示对应于图6中的DTD的自然下推自动机的示意图。由于非结束符(non-terminal symbol)D和G是明显的只有结束符#PCDATA的规则,它们没有在图中显示。
可以为语法的各个非结束符构造没有二义的自动机。因此,如果将本实施例应用于数据通信,可以通过利用发送端和接收端公用的DTD来构造同样的下推自动机。
一般来说,下推自动机被用来分析输入串的语义。在这个意义上,下推自动机接收表面层上的所有符号串,即所用通过设置一个或多个#PCDATA(或者占位符“□”)而获得的串。然而例如,作为获得的语义分析树,节点B和节点C必须作为节点A的子节点按照标着名称的顺序出现。此外,紧接元素C之后,空状态被转换到最后状态。如上所述,下推自动机可以被用来确定被分析的XML文件的语义分析树是否满足语法。
现在将采用图8中的语义树作为例子,解释用下推自动机检查语法所进行的处理。在图8中,没有显示每个树叶上的#PCDATA。为了确定这个语义树是否能由图6中的DTD规定的语法生成,只需要语义树的每个节点能确定由其子节点组成的串是否能被对应于该节点的非结束符接收。例如,元素A的子节点是串BC。这些子节点被对应于非结束符A的自动机(见图7中的A)接收。因此,发现这个部分满足语法。如果通过使用对应自动机按预排序以同样的方式(按深度优先搜索跟踪)遍历所有的节点,语法检查就结束。
下推自动机对语义分析树的这个用法,在以下的解释中被称为有效性检查。应当注意,除了ε到最终状态的转换之外,对应于以上过程中使用的每个非结束符的自动机都是最小决策自动机(minimumdecisive automata)。
自动机构造器112将图7中的下推自动机转换成一个对XML文件的结构部分(见图5)编码的转换器,即用于分析字符串的语义的自动机。
在图7中的下推自动机中,假设某项是一个由4个#PCDATA(或占位符“□”)组成的字符串,并且分析过程是在用A作为开始符时启动的。然后,顺序地生成节点A、节点B、节点C和节点D,识别第一个#PCDATA。节点C被生成时,有三个选择:可以生成节点E,可以生成节点F,或者状态转换可以在节点C被结束并返回到上层节点。将数字1、2和3按标签的字母顺序分配给这三个选择(标签ε总是被确定是最后的)。类似地,因为节点E的第一个状态提供两种选择,或者可以生成节点G,或者可以生成节点H,所以将数字1和2分配给这些选择。在本实施例中,分配给选择的是数字,但是可用来标识选择的符号并不限于数字。任意符号,如字母字符或符号,都可以用来表明选择。
图9是通过转换图7中的下推自动机而生成的编码转换器的示意图。
编码器11的编码数据串生成器113运行由自动机构造器112构造的编码转换器。
进行有效性检查(按先根次序应用规则)时,图9中的编码转换器输出对应的选择号。具体来说,在图9中,没有对应规则A、B、F和H的选择,编码转换器没有输出。然而,当规则C和规则E被使用时,编码转换器输出适当的号码。例如,当对图8中的语义树进行有效性检查时,编码转换器在跟踪该树时,输出图10中所示的号码。
通过以上处理,获得号码串“112123”,它严格地规定下推自动机的运动。因此,该号码串可以被用作图4中的XML文件的结构部分(图5)的编码数据串。
现在将说明按照本实施例解译XML文件的结构部分的处理。
要解译通过以上处理编码的XML文件,只需要将编码转换器的输入/输出反过来。因此,解码器23用与图7中的同样的下推自动机来生成解码转换器,开始解码过程。如上所述,因为可以为语法的各个非结束符构造没有二义的自动机,如果由DTD规定的语法规则12与语法规则22相同,解码器23就能构造出与图7中的完全相同的下推自动机。
图11是通过转换与图7中的相同的下推自动机而生成的解码转换器的示意图。在图11中的解码转换器中,“i/B”代表“当输入字符串“I”出现时,调用规则B,然后将状态转换到下一个”的转换。这样,从编码器11输入一个号码串,生成一个对应的语义分析树。
如果根据原始号码的分配,输入上述号码串“112123”,下推自动机(译码转换器)就能没有二义地接受XML文件的编码号码串。因此,所生成的语义分析树与图8中的原始语义分析树相同。结果,就能重新生成XML文件的结构部分。
现在将说明对属性的处理。
在本实施例中,将属性转换成树结构,以便能由下推自动机作处理。具体来说,改变所有有属性的元素(ELEMENT)改变,使得将属性看作子节点。此时,属性以它们名称的字母顺序出现。让属性#REQUIRED(#必需的)不变,并让属性#IMPLIED(#隐含的)带有选项“?”。因为起初没有为属性#FIXED(#固定的)提供信息,所以它不包含在通过转换而获得的DTD中。
图12是表示预定的DTD在换成前与转换后的状态的比较的示意图。图12中,左边的DTD被转换成右边所示的形式。图13是表示预定的XML文件在换成前与转换后的状态的比较的示意图。
按以上方式将DTD和XML文件改变到没有提供属性的状态,就执行了上述的编码和译码处理。应当注意的是,DTD的转换可以在下推自动机的构造之前提前进行,或者可以在下推自动机已经被构造之后按需进行。在第一种情况下,由转换所得的新DTD被用来构造下推自动机。在第二种情况下,原始DTD(有属性的)被用来构造下推自动机。
如上所述,按照本实施例,XML文件压缩端和解压端不可避免地要使用共同的相同DTD。因此,如果将本实施例的数据压缩方法用于数据通信,就必须为发送端数据处理设备和接收端数据处理设备准备相同的DTD。
图14是解释采用本实施例的数据通信系统的配置的示意图。在发送端的数据处理设备1410中,编码器11接收来自数据处理器的XML文件,并用(对应于图1中的语法规则12的)DTD 1411来对结构部分编码。压缩器13压缩编码结构部分和内容,发送器1412通过通信网络向接收端发送数据处理设备1410中的由编码器11进行的编码和压缩器13进行的压缩而生成的结果XML文件。在接收端的数据处理设备1420中,接收器1422通过通信网络接收数据,并将它们发送到解压器21。此时,解压器21解压所接收的数据,将XML文件的内容恢复。解码器23然后用(对应于图1中的语法规则12的)DTD 1421来解译已经被解压的数据的结构部分的编码数据串。解码器23然后重新装配所获得的结构部分和内容,以重新生成XML文件,并将该XML文件发送给数据处理器。在这个处理期间,发送端的数据处理设备1410中的DTD1411与接收端的数据处理设备1420中的DTD 1421有相同的内容。
如果XML文件是由用于商业通信的应用交换的,例如是在电子商务事务处理期间交换的,在大多数情况下,要经互相同意而预先建立一个DTD。因此,假设DTD将被共同使用,则本实施例可以应用于商业通信。
当用本实施例的方法来压缩要由数据库系统存储的数据文件时,要解译XML文件的结构部分,可以原封不动地用对结构部分编码所使用的DTD来解译该结构部分,这样就不必考虑是否要共同使用一个DTD。
图15是解释采用本实施例的数据库系统的配置的示意图。在数据库系统1500中,编码器11接收来自数据处理器的XML文件,并用(对应于图1中的语法规则12的)DTD 1501来对结构部分编码。压缩器13然后压缩编码结构部分和内容。XML文件被编码器11编码并被压缩器13压缩后,被存储在存储器1502中。要从存储器1502读取XML文件,压缩器13起着解压器21的作用,编码器11起着解码器23的作用,用于对XML文件的结构部分编码的DTD 1501被用于解译该结构部分。
在上述解释中,用XML语言作为树本机语言。然而,本实施例可用于另一个树本机语言,如ASN.1。不过在这种情况下,语法规则如XML的DTD,也必须由数据文件压缩端和解压端共同使用。
如上所述,按照本发明,可以通过进行数据压缩来对树本机语言的文件的结构部分编码。
此外,因为数据压缩方法特别适合于树本机语言并且是与另一个通用数据压缩技术一起使用的,所以可以采用一个提供高压缩比例的数据压缩方法。
Claims (9)
1.一种用于对数据编码和压缩该编码数据的数据压缩设备,包含:
语法存储单元,用于存储如下树本机语言的语法规则,在所述树本机语言中,数据用标号树结构加以表示;
编码器,用于读取采用所述树本机语言编写的文件,把所述文件划分成结构部分和内容,并用所述语法存储单元中存储的所述语法规则对所述结构部分进行编码,所述编码器包括:
划分器,用于将目标文件划分成结构部分和内容;
自动机构造器,用于构造对应于所述语法规则的下推自动机;
和
编码数据生成器,用于使用由所述自动机构造器所构造的所述下推自动机来对由所述划分器获得的所述文件的结构部分进行语义分析,并为所述结构部分生成编码数据串;以及
压缩器,用于压缩由所述编码器提取的所述文件的所述内容并对所述压缩的内容进行编码。
2.按照权利要求1的数据压缩设备,其中,所述编码器的所述编码数据生成器向在由所述自动机构造器所构造的所述下推自动机中驻留的选择分配符号;并且
所述编码数据生成器用所述下推自动机来分析以所述树本机语言编写的所述文件的所述结构部分,并在选定的各选择的位置,输出为所述选择分配的所述符号,以便为所述结构部分生成编码数据串。
3.按照权利要求1的数据压缩设备,其中,所述压缩器不仅为以所述树本机语言编写的所述文件的所述内容,也为由所述编码器获得的所述文件的所述结构部分,进行压缩和编码。
4.一种数据通信系统,包括:
传输源数据处理设备,用于经过通信网络发送数据;和
传输目的地数据处理设备,用于接收由所述传输源数据处理设备经过所述通信网络发送的所述数据;
其中,所述传输源数据处理设备包括:
第一语法存储单元,用于存储如下树本机语言的语法规则,在所述树本机语言中,数据用标号树结构加以表示;
编码器,用于读取以所述树本机语言编写的文件,用于把所述文件划分成结构部分和内容和用所述第一语法存储单元中存储的所述语法规则对所述结构部分编码,所述编码器包括:
划分器,用于将目标文件划分成结构部分和内容;
自动机构造器,用于构造对应于所述语法规则的下推自动机;
和
编码数据生成器,用于使用由所述自动机构造器所构造的所述下推自动机来对由所述划分器获得的所述文件的结构部分进行语义分析,并为所述结构部分生成编码数据串;以及
压缩器,用于压缩由所述编码器提取的所述文件的所述内容并对该压缩内容编码,和
发送器,用于发送由所述编码器编码的所述结构部分以及由所述压缩器压缩和编码的所述内容;并且
所述传输目的地数据处理设备包括:
接收器,用于从所述传输源数据处理设备接收数据;
第二语法存储单元,用于存储与所述传输源数据处理设备的所述第一语法存储单元存储的所述语法规则相同的语法规则;
解压器,用于采用与由所述传输源数据处理设备的所述压缩器使用的压缩和编码方法对应的解压方法,来解压由所述接收器接收的对应于所述文件的所述内容的数据;和
解码器,用于采用所述第二语法存储单元中存储的所述语法规则,来解码由所述接收器接收的对应于所述文件的所述结构部分的数据。
5.一种用于存储和管理存储单元中数据的数据库系统,包括:
语法存储单元,用于存储如下树本机语言的语法规则,在所述树本机语言中,数据用标号树结构加以表示;
编码器,用于读取以所述树本机语言编写的文件,把所述文件划分成结构部分和内容,并用所述语法存储单元中存储的所述语法规则对所述结构部分编码,所述编码器包括:
划分器,用于将目标文件划分成结构部分和内容;
自动机构造器,用于构造对应于所述语法规则的下推自动机;和
编码数据生成器,用于使用由所述自动机构造器所构造的所述下推自动机来对由所述划分器获得的所述文件的结构部分进行语义分析,并为所述结构部分生成编码数据串;
压缩器,用于压缩由所述编码器提取的所述文件的所述内容并用于对该压缩内容编码;以及
存储单元,用于存储由所述编码器编码的所述文件的所述结构部分和存储由所述压缩器压缩和编码的所述文件的所述内容。
6.按照权利要求5的数据库系统,其中,所述压缩器不仅为以所述树本机语言编写的所述文件的所述内容,也为由所述编码器获得的所述文件的所述结构部分,进行压缩和编码。
7.一种用于对数据编码和压缩该编码数据的数据压缩方法,包括以下步骤:
读取以如下树本机语言编写的文件,把所述文件划分成结构部分和内容,在所述树本机语言中,数据用标号树结构加以表示;
用所述树本机语言的所述语法规则对所述结构部分进行编码,该编码步骤包括如下步骤:
构造对应于所述语法规则的下推自动机;
向在所述下推自动机中驻留的选择分配符号;
按照深度优先搜索用所述下推自动机分析所述文件的所述结构部分,并在所述选择的位置,输出给所述选择分配的所述符号;和
输出通过采用所述下推自动机而获得的符号串,作为以所述树本机语言编写的所述文件的所述结构部分的编码数据串;以及
压缩由所述编码器提取的所述文件的所述内容并对该压缩内容编码。
8.按照权利要求7的数据压缩方法,还包括:一个在某属性属于所述树本机语言的某个目标文件时,要在所述对以所述树本机语言编写的所述文件的所述结构部分编码的步骤之前执行的步骤,即将所述属性改变为拥有所述属性的元素的子节点,目的是将所述树本机语言的所述语法规则和所述文件转换成一个要由所述下推自动机处理的树结构。
9.按照权利要求7的数据压缩方法,还包括:一个要在所述对所述文件的所述结构部分编码的步骤之后执行的步骤,即采用另一个通用压缩和编码方法进一步对所述文件的所述编码结构部分进行压缩和编码。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28359/2000 | 2000-02-04 | ||
JP2000028359A JP3368883B2 (ja) | 2000-02-04 | 2000-02-04 | データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1316828A CN1316828A (zh) | 2001-10-10 |
CN1166072C true CN1166072C (zh) | 2004-09-08 |
Family
ID=18553774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB011032413A Expired - Fee Related CN1166072C (zh) | 2000-02-04 | 2001-02-02 | 用于数据压缩、传输、存储以及通信的方法、设备和系统 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7043686B1 (zh) |
EP (1) | EP1122655A3 (zh) |
JP (1) | JP3368883B2 (zh) |
KR (1) | KR100424130B1 (zh) |
CN (1) | CN1166072C (zh) |
TW (1) | TW501350B (zh) |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6714926B1 (en) * | 1999-02-02 | 2004-03-30 | Amazon.Com, Inc. | Use of browser cookies to store structured data |
FR2813743B1 (fr) * | 2000-09-06 | 2003-01-03 | Claude Seyrat | Procede de compression/decompression de documents structures |
JP4774145B2 (ja) * | 2000-11-24 | 2011-09-14 | 富士通株式会社 | 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム |
EP2197210A3 (de) * | 2000-12-22 | 2010-08-11 | Siemens Aktiengesellschaft | Verfahren zur Verbesserung der Funktionalität der binären Repräsentation von MPEG-7 und andere XML basierten Inhaltsbeschreibungen |
EP1400124B1 (de) * | 2001-02-01 | 2009-08-05 | Siemens Aktiengesellschaft | Verfahren zur verbesserung der funktionalität der binären repräsentation von mpeg-7 und anderen xml-basierten inhaltsbeschreibungen |
JP2003157249A (ja) * | 2001-11-21 | 2003-05-30 | Degital Works Kk | 文書の圧縮格納方法 |
ATE431593T1 (de) | 2001-11-23 | 2009-05-15 | Research In Motion Ltd | System und verfahren zum verarbeiten von dokumenten in erweitbarer markierungssprache (xml) |
US7669120B2 (en) * | 2002-06-21 | 2010-02-23 | Microsoft Corporation | Method and system for encoding a mark-up language document |
CA2504491A1 (en) * | 2002-10-29 | 2004-05-13 | Lockheed Martin Corporation | Hardware accelerated validating parser |
AU2003277249A1 (en) * | 2002-10-29 | 2004-05-25 | Lockheed Martin Corporation | Hardware parser accelerator |
KR100513736B1 (ko) | 2002-12-05 | 2005-09-08 | 삼성전자주식회사 | 그래픽 데이터 압축에 관한 메타표현을 이용한 입력파일생성 방법 및 시스템 |
US7415665B2 (en) * | 2003-01-15 | 2008-08-19 | At&T Delaware Intellectual Property, Inc. | Methods and systems for compressing markup language files |
JP3815567B2 (ja) | 2003-03-31 | 2006-08-30 | 日本電気株式会社 | コンピュータシステム、コンピュータプログラム、コンピュータ間の通信方法、構造化文書の符号化方法、符号化された構造化文書の復号方法 |
JP2005018672A (ja) * | 2003-06-30 | 2005-01-20 | Hitachi Ltd | 構造化文書の圧縮方法 |
GB0316806D0 (en) * | 2003-07-17 | 2003-08-20 | Ivis Group Ltd | Improved search engine |
EP1510942A1 (en) * | 2003-08-27 | 2005-03-02 | Hewlett-Packard Development Company, L.P. | Compatibility of tree-structured data |
JP4261299B2 (ja) * | 2003-09-19 | 2009-04-30 | 株式会社エヌ・ティ・ティ・ドコモ | データ圧縮装置、データ復元装置およびデータ管理装置 |
JP4177218B2 (ja) | 2003-09-24 | 2008-11-05 | 株式会社エヌ・ティ・ティ・ドコモ | 文書変換装置 |
KR20050038786A (ko) * | 2003-10-23 | 2005-04-29 | 조이원(주) | 데이터 변환을 통한 대용량 데이터 축소 저장 및 연산 기술을 적용한 고객관계관리 시스템 |
US7676742B2 (en) * | 2003-11-24 | 2010-03-09 | International Business Machines Corporation | System and method for processing of markup language information |
WO2005101210A1 (ja) * | 2004-04-09 | 2005-10-27 | Sharp Kabushiki Kaisha | データ解析装置、データ解析方法、データ解析プログラム、およびデータ解析プログラムを記録した記録媒体 |
US7769904B2 (en) * | 2004-06-09 | 2010-08-03 | L-3 Communications Integrated Systems L.P. | Extensible binary mark-up language for efficient XML-based data communications and related systems and methods |
US20060117307A1 (en) * | 2004-11-24 | 2006-06-01 | Ramot At Tel-Aviv University Ltd. | XML parser |
US20060288028A1 (en) * | 2005-05-26 | 2006-12-21 | International Business Machines Corporation | Decompressing electronic documents |
US8677123B1 (en) | 2005-05-26 | 2014-03-18 | Trustwave Holdings, Inc. | Method for accelerating security and management operations on data segments |
KR100705971B1 (ko) * | 2005-07-20 | 2007-04-12 | 주식회사 휴맥스 | 비트스트림 인코딩/디코딩 방법 및 장치 |
US7808975B2 (en) * | 2005-12-05 | 2010-10-05 | International Business Machines Corporation | System and method for history driven optimization of web services communication |
US20070136492A1 (en) * | 2005-12-08 | 2007-06-14 | Good Technology, Inc. | Method and system for compressing/decompressing data for communication with wireless devices |
US7593949B2 (en) * | 2006-01-09 | 2009-09-22 | Microsoft Corporation | Compression of structured documents |
US20080077606A1 (en) * | 2006-09-26 | 2008-03-27 | Motorola, Inc. | Method and apparatus for facilitating efficient processing of extensible markup language documents |
US8386444B2 (en) * | 2006-12-29 | 2013-02-26 | Teradata Us, Inc. | Techniques for selective compression of database information |
JP4429329B2 (ja) * | 2007-02-16 | 2010-03-10 | キヤノン株式会社 | 符号化装置及びその制御方法、復号装置及びその制御方法、プログラム、記憶媒体 |
JP4562749B2 (ja) * | 2007-05-18 | 2010-10-13 | ディジタル・ワークス株式会社 | 文書の圧縮格納方法及び装置 |
CN101627620B (zh) * | 2007-05-31 | 2011-10-19 | 株式会社Pfu | 电子文件加密系统、解密系统以及方法 |
WO2008144936A1 (en) * | 2007-06-01 | 2008-12-04 | Research In Motion Limited | Synchronization of side information caches |
US7747558B2 (en) * | 2007-06-07 | 2010-06-29 | Motorola, Inc. | Method and apparatus to bind media with metadata using standard metadata headers |
WO2009001174A1 (en) * | 2007-06-28 | 2008-12-31 | Smartimage Solutions, Sia | System and method for data compression and storage allowing fast retrieval |
FR2919400A1 (fr) * | 2007-07-23 | 2009-01-30 | Canon Kk | Procede et dispositif d'encodage d'un document structure et procede et dispositif de decodage d'un document ainsi encode. |
FR2926378B1 (fr) * | 2008-01-14 | 2013-07-05 | Canon Kk | Procede et dispositif de traitement pour l'encodage d'un document de donnees hierarchisees |
US20100146410A1 (en) * | 2008-12-10 | 2010-06-10 | Barrett Kreiner | Markup language stream compression using a data stack |
FR2939535B1 (fr) * | 2008-12-10 | 2013-08-16 | Canon Kk | Procede et systeme de traitement pour la configuration d'un processseur exi |
US20100223398A1 (en) * | 2009-02-27 | 2010-09-02 | Slipstream Data Inc. | Method and apparatus for creating side information from data for use in interactive compression |
US8179291B2 (en) * | 2009-05-04 | 2012-05-15 | International Business Machines Corporation | Method and system for compression of logical data objects for storage |
JP5478936B2 (ja) * | 2009-05-13 | 2014-04-23 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
JP5507295B2 (ja) * | 2009-06-05 | 2014-05-28 | 株式会社ミツトヨ | 信号処理装置、および信号変換伝送システム |
DE102010006931A1 (de) * | 2010-02-04 | 2011-08-04 | Bienert, Jörg, 50354 | Verfahren zur Verarbeitung von Datensammlungen, insbesondere in Datenbanksystemen |
US8478731B1 (en) * | 2010-03-31 | 2013-07-02 | Emc Corporation | Managing compression in data storage systems |
US9619443B2 (en) | 2012-03-05 | 2017-04-11 | International Business Machines Corporation | Enhanced messaging transaction performance with auto-selected dual-tag fields |
JP5665821B2 (ja) * | 2012-09-18 | 2015-02-04 | 株式会社東芝 | 文書処理装置、及びプログラム |
CN104850561A (zh) * | 2014-02-18 | 2015-08-19 | 北京京东尚科信息技术有限公司 | 一种Android APK文件自适应压缩方法 |
JP2016134754A (ja) * | 2015-01-19 | 2016-07-25 | 富士通株式会社 | 変換処理プログラム、情報処理装置および変換処理方法 |
JP6728926B2 (ja) * | 2016-04-18 | 2020-07-22 | 富士通株式会社 | 符号化処理プログラム、符号化処理装置、符号化処理方法、復号化処理プログラム、復号化処理装置および復号化処理方法 |
JP6903892B2 (ja) | 2016-10-12 | 2021-07-14 | 富士通株式会社 | 検証プログラム、検証装置、検証方法、符号化プログラム、符号化装置および符号化方法 |
US10361712B2 (en) * | 2017-03-14 | 2019-07-23 | International Business Machines Corporation | Non-binary context mixing compressor/decompressor |
CN108132999B (zh) * | 2017-12-21 | 2019-06-04 | 恒宝股份有限公司 | 一种元素名的处理方法及系统 |
CN111159273B (zh) * | 2019-12-31 | 2023-07-18 | 中国联合网络通信集团有限公司 | 数据流处理方法、装置、服务器及存储介质 |
CN113239394B (zh) * | 2021-05-06 | 2021-10-29 | 国家计算机网络与信息安全管理中心 | 固件的保护方法、装置及设备 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0713966A (ja) * | 1993-04-12 | 1995-01-17 | Xerox Corp | 文書の編集方法 |
US5438512A (en) * | 1993-10-22 | 1995-08-01 | Xerox Corporation | Method and apparatus for specifying layout processing of structured documents |
US5583762A (en) * | 1994-08-22 | 1996-12-10 | Oclc Online Library Center, Incorporated | Generation and reduction of an SGML defined grammer |
WO1996017310A1 (en) * | 1994-11-29 | 1996-06-06 | Avalanche Development Company | System and process for creating structured documents |
US5630126A (en) * | 1994-12-13 | 1997-05-13 | International Business Machines Corp. | Systems and methods for integrating computations into compound documents |
US5819264A (en) * | 1995-04-03 | 1998-10-06 | Dtl Data Technologies Ltd. | Associative search method with navigation for heterogeneous databases including an integration mechanism configured to combine schema-free data models such as a hyperbase |
WO1997034240A1 (en) * | 1996-03-15 | 1997-09-18 | University Of Massachusetts | Compact tree for storage and retrieval of structured hypermedia documents |
JP3305191B2 (ja) * | 1996-03-19 | 2002-07-22 | 富士通株式会社 | 文書管理装置及びデータ圧縮方法及びデータ復元方法 |
US5915259A (en) * | 1996-03-20 | 1999-06-22 | Xerox Corporation | Document schema transformation by patterns and contextual conditions |
US5884014A (en) * | 1996-05-23 | 1999-03-16 | Xerox Corporation | Fontless structured document image representations for efficient rendering |
US5933842A (en) * | 1996-05-23 | 1999-08-03 | Microsoft Corporation | Method and system for compressing publication documents in a computer system by selectively eliminating redundancy from a hierarchy of constituent data structures |
US6182029B1 (en) * | 1996-10-28 | 2001-01-30 | The Trustees Of Columbia University In The City Of New York | System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters |
US5999949A (en) * | 1997-03-14 | 1999-12-07 | Crandall; Gary E. | Text file compression system utilizing word terminators |
JPH10283233A (ja) * | 1997-04-07 | 1998-10-23 | Pfu Ltd | Html文書形式アプリケーションの実行方法及びhtml文書変換ツール記憶媒体 |
US6016467A (en) * | 1997-05-27 | 2000-01-18 | Digital Equipment Corporation | Method and apparatus for program development using a grammar-sensitive editor |
JP3859313B2 (ja) * | 1997-08-05 | 2006-12-20 | 富士通株式会社 | タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3070555B2 (ja) * | 1997-12-03 | 2000-07-31 | 日本電気株式会社 | マークアップランゲージ文書の保存方法及び通信方法 |
EP0928070A3 (en) * | 1997-12-29 | 2000-11-08 | Phone.Com Inc. | Compression of documents with markup language that preserves syntactical structure |
JP2000076155A (ja) * | 1998-09-01 | 2000-03-14 | Mitsubishi Materials Corp | Htmlドキュメント圧縮・展開・表示方式 |
JP4003854B2 (ja) * | 1998-09-28 | 2007-11-07 | 富士通株式会社 | データ圧縮装置及び復元装置並びにその方法 |
US6336214B1 (en) * | 1998-11-10 | 2002-01-01 | International Business Machines Corporation | System and method for automatically generating browsable language grammars |
US6635088B1 (en) * | 1998-11-20 | 2003-10-21 | International Business Machines Corporation | Structured document and document type definition compression |
US6523172B1 (en) * | 1998-12-17 | 2003-02-18 | Evolutionary Technologies International, Inc. | Parser translator system and method |
US6647534B1 (en) * | 1999-06-30 | 2003-11-11 | Ricoh Company Limited | Method and system for organizing document information in a non-directed arrangement of documents |
US6665665B1 (en) * | 1999-07-30 | 2003-12-16 | Verizon Laboratories Inc. | Compressed document surrogates |
FR2813743B1 (fr) * | 2000-09-06 | 2003-01-03 | Claude Seyrat | Procede de compression/decompression de documents structures |
KR20020058639A (ko) * | 2000-12-30 | 2002-07-12 | 오길록 | 엑스엠엘 문서 검색 시스템 및 그 방법 |
-
2000
- 2000-02-04 JP JP2000028359A patent/JP3368883B2/ja not_active Expired - Fee Related
- 2000-09-26 US US09/670,489 patent/US7043686B1/en not_active Expired - Lifetime
- 2000-10-30 TW TW089122825A patent/TW501350B/zh not_active IP Right Cessation
-
2001
- 2001-01-17 EP EP01300387A patent/EP1122655A3/en not_active Withdrawn
- 2001-01-19 KR KR10-2001-0003131A patent/KR100424130B1/ko not_active IP Right Cessation
- 2001-02-02 CN CNB011032413A patent/CN1166072C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR100424130B1 (ko) | 2004-03-24 |
EP1122655A3 (en) | 2005-08-17 |
CN1316828A (zh) | 2001-10-10 |
JP3368883B2 (ja) | 2003-01-20 |
EP1122655A2 (en) | 2001-08-08 |
KR20010078015A (ko) | 2001-08-20 |
TW501350B (en) | 2002-09-01 |
JP2001217720A (ja) | 2001-08-10 |
US7043686B1 (en) | 2006-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1166072C (zh) | 用于数据压缩、传输、存储以及通信的方法、设备和系统 | |
CN101783788B (zh) | 文件压缩、解压缩方法、装置及压缩文件搜索方法、装置 | |
CN103067022B (zh) | 一种整型数据无损压缩方法、解压缩方法及装置 | |
CN1183683C (zh) | 使用前缀预测的位自适应编码方法 | |
US20060212467A1 (en) | Encoding of hierarchically organized data for efficient storage and processing | |
CN1669024A (zh) | 结构化文档、尤其xml文档的编码/译码的方法和装置 | |
EP3526694A1 (en) | Method and system for selective access of stored or transmitted bioinformatics data | |
CN104283567A (zh) | 一种名称数据的压缩、解压缩方法及设备 | |
CN104125475B (zh) | 一种多维量子数据压缩、解压缩方法及装置 | |
CN110088839B (zh) | 用于生物信息学信息表示的有效数据结构 | |
US8862531B2 (en) | Knowledge based encoding of data | |
CN1426629A (zh) | 使用多个编码器的优化无损压缩的方法和装置 | |
US20050114762A1 (en) | System and method for processing of markup language information | |
KR20190062551A (ko) | 액세스 유닛으로 구조화된 생물정보학 데이터에 액세스하기 위한 방법 및 장치 | |
KR20190113971A (ko) | 다중 게놈 디스크립터를 이용한 생명정보학 데이터의 압축 표현 방법 및 장치 | |
CN104021121A (zh) | 一种文本数据压缩方法、装置及服务器 | |
JP2004342029A (ja) | 構造化文書圧縮方法及び装置 | |
Brisaboa et al. | Managing Compressed Structured Text | |
Wei et al. | A new and effective approach to GML documents compression | |
CN118316455A (zh) | 基于范式预编码的xml二进制化压缩和解压方法及系统 | |
Shirazee et al. | The Effects of Data Compression on Performance of Service-Oriented Architecture (SOA) | |
Selimovic | Compressing Massive Sequencing Data with Multiple Attribute Tree | |
JP2005087069A (ja) | 生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置 | |
CN118861038A (zh) | 基于重山压缩的大数据标签方法 | |
CN113708773A (zh) | 一种电厂数据的无损压缩、传输方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20040908 Termination date: 20120202 |