CN1316828A - 数据压缩、传输、存储及程序传输 - Google Patents

数据压缩、传输、存储及程序传输 Download PDF

Info

Publication number
CN1316828A
CN1316828A CN01103241A CN01103241A CN1316828A CN 1316828 A CN1316828 A CN 1316828A CN 01103241 A CN01103241 A CN 01103241A CN 01103241 A CN01103241 A CN 01103241A CN 1316828 A CN1316828 A CN 1316828A
Authority
CN
China
Prior art keywords
file
data
structure division
content
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN01103241A
Other languages
English (en)
Other versions
CN1166072C (zh
Inventor
丸山宏
田村健人
浦本直彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1316828A publication Critical patent/CN1316828A/zh
Application granted granted Critical
Publication of CN1166072C publication Critical patent/CN1166072C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于对数据编码和用于压缩编码数据的压缩设备包含:一个其中的数据是由标号树结构表示的树本机语言的语法规则12;一个用于读取以该树本机语言编写的文件,把文件划分成结构部分和内容,和用语法规则12对该结构部分编码的编码器11;一个用于压缩由编码器11提取的文件的内容,和对该压缩内容编码的压缩器13。

Description

数据压缩、传输、存储及程序传输
本发明涉及一种用于压缩以诸如XML或ASN.1的树本机语言(treelocal language)编写的文件数据的数据压缩方法。
XML(eXtensible Markup Language-可扩充标记语言)是用简单标签(tags)描述(标记)文件的逻辑结构的标记语言之一。在XML中,为文件的成分规定语法规则,提供逻辑定义,使得用户能唯一地扩充文件数据。所以,预计将来XML将作为一种数据格式,用于因特网上的数据交换。
XML有一个概念称为DTD(文件类型定义),可以确定某文件对特定DTD是否有效。举例来说,规定一条语法规则,使得节点<题目>、<作者>和<出版者>,按照标着名称的顺序,一次一个地出现在节点<书>的下面。可以确定预定的文件是否有效,即预定的文件是否符合该语法规则。
至于语言风格,XML文件的结构属于一个称为树本机语言的类。按照树本机语言的定义,数据是由标号(labeled)树结构表示的,各个节点标号(labels)的正确数据是由子节点的标号的标准语言规定的。就是说,在树本机语言中,一个属于(由XML中的DTD规定的)某预定语法的树的集合,是由指定各个节点的子节点的列表的标准语言确定的。这个类型的另一个树本机语言是ASN.1(Abstract SyntaxNotation 1-抽象语义表示法1)。
采用XML为商业应用和其它目的编写以前用HTML或网络上可用的其它资源不能编写的复杂数据结构,有上升的趋势。预计,有了这个系统,大型XML文件将有可能被应用程序交换。
一般来说,为了交换数据或在数据库中存储的数据,要对数据文件进行压缩,以降低文件的大小,提高传输效率。因此,许多可用于各种数据格式类型的通用数据压缩技术和许多只适合特定数据格式类型的专用数据压缩技术,已经被开发出来,可用于XML文件的交换。就压缩而言,应当注意到,尽管考虑了XML文件的数据结构,也有对标签的明显多余的使用,以便能指望有高的压缩比例。
如上所述,为方便数据的交换和在数据库中存储数据,一般要进行对数据文件的压缩。用树本机语言,如XML,可以期望对数据部分-如代表文件结构的标签-有高的压缩比例。
假设对于数据通讯来说,双方采用共同的语法G并保证它们只交换对该语法有效的XML文件。还假设对语法规则的规定,使得在节点<题目>、<作者>和<出版者>,按照标着名称的顺序,一次一个地出现在节点<书>的下面。在这种情况下,当XML文件的接收者例如在XML文件中发现标签<书>时,该接收者就能预测到第一个子节点将是<题目>。因此,根据这个假设,标签<题目>变得多余,于是可以设计一种对XML文件编码的方法用以优化消息长度。这不仅适用于XML,也适用于任意树本机语言(例如ASN.1)。
然而按照惯例,用压缩来对树本机语言的文件的结构部分进行编码的压缩方法尚未提出。
所以,本发明的一个目的是采用数据压缩来对诸如XML或ASN.1的树本机语言编写的文件的结构部分进行编码。
本发明的另一个目的是为树本机语言提供一种与另一个通用数据压缩技术一起采用的专用数据压缩方法,以便能实现高的压缩比例。
为了实现以上目的,按照本发明,一种用于对数据编码和用于压缩该编码数据的数据压缩设备包含:一个为其中的数据是由标号树结构表示的树本机语言存储语法规则的语法存储单元;一个用于读取以该树本机语言编写的文件,把该文件划分成结构部分和内容,并用语法存储单元中存储的语法规则对该结构部分进行编码的编码器;和一个用于压缩由编码器提取的文件的内容并用于对该压缩内容编码的压缩器。树本机语言是一种树语言,其中的数据是由标号树结构表示的,并且其中,对于各个节点标号,采用用于子节点标号的标准语言来规定正确的数据。
该编码器包括:一个用于将目标文件划分成结构部分和内容的划分器;一个自动机构造器,用于构造对应于该语法规则的下推自动机;一个编码数据生成器,采用由自动机构造器所构造的下推自动机来对由划分器获得的文件的结构部分进行语义分析,并用于为该结构部分生成编码数据串。
该编码器的编码数据生成器向在由自动机构造器所构造的下推自动机中驻留的选择分配符号。该编码数据生成器采用下推自动机来分析以树本机语言编写的该文件的结构部分,并在选定的各选择的位置,输出为这些选择分配的符号,以便为该结构部分生成编码数据串。用这个方案,就能将用诸如标签的标号编写的文件的结构部分改变(编码)成一个简单的编码序列。为了用下推自动机分析文件结构部分,按深度优先检索策略跟踪文件的树结构。就是说,不是用与父节点等距离的次序,而是采用沿深度方向的节点之间的关系(父子关系)作为优先次序跟踪树,进行分析。
此外,压缩器不仅为以树本机语言编写的文件的内容,也为由编码器获得的文件的结构部分,进行压缩和编码。尽管由压缩器使用的压缩方法没有特别的限制,可以采用的普通的通用方法。如果编码器通过对文件的结构部分的编码获得标准数据串,该编码器可采用诸如PKZIP的通用方法,为编码数据串执行压缩和编码,预期能有高的压缩比例。因此,在文件的内容被压缩时,最好也压缩该编码数据串。
还有,如果将结构部分的编码数据串与文件的内容结合起来,然后将产生的数据压缩,该结构部分和该内容就构成一个单一的文件。这对文件管理来说更可取。
按照本发明,一种数据通讯系统包含:一个用于在网络上发送数据的传输源数据处理设备;一个用于接收由传输源数据处理设备在网络上发送的数据的传输目的地数据处理设备。该传输源数据处理设备包含一个用于为其中的数据是由标号树结构表示的树本机语言存储语法规则的第一语法存储单元,一个用于读取以该树本机语言编写的文件、用于把文件划分成结构部分和内容和用于采用该第一语法存储单元中存储的语法规则对该结构部分进行编码的编码器,一个用于压缩由编码器提取的文件的内容并用于对该压缩内容编码的压缩器,以及一个用于发送由编码器编码的结构部分以及由压缩器压缩和编码的内容的发送器。该传输目的地数据处理设备包含一个用于从数据源数据处理设备接收数据的接收器,一个用于存储与数据源数据处理设备的第一语法存储单元存储的语法规则相同的语法规则的第二语法存储单元,一个采用与由数据源数据处理设备使用的压缩和编码方法对应的解压方法来解压由接收器接收的对应于文件的内容的数据的解压器,以及一个用于采用第二语法存储单元中存储的语法规则来解译由接收器接收的对应于文件的结构部分的数据的译码器。实现该过程的一个高级方法,是让所准备的语法规则由数据传输源和目的地共同使用,因为对于数据通讯来说,可以为以树本机语言编写的文件获得高的压缩比例,并且能提高通讯效率。因为对于商业通讯来说,一般法则是把树本机语言的语法规则共同使用,所以能容易引用本发明。
此外,按照本发明,一种用于存储和管理存储单元中的数据的数据库系统包含:一个为其中的数据是由标号树结构表示的树本机语言存储语法规则的语法存储单元;一个用于读取以该树本机语言编写的文件,把文件划分成结构部分和内容,并用语法存储单元中存储的语法规则对结构部分编码的编码器;一个用于压缩由编码器提取的文件的内容并用于对该压缩内容编码的压缩器;一个用于存储由编码器编码的文件的结构部分和存储由压缩器压缩和编码的文件的内容的存储单元。
该压缩器不仅为以树本机语言编写的文件的内容,也为由编码器获得的文件的结构部分,进行压缩和编码.如果将结构部分的编码数据串与文件的内容结合起来,然后将产生的数据压缩,结构部分和内容就构成一个单一的文件;对文件管理来说,这更可取。
按照本发明,一种用于对数据编码和用于压缩编码数据的数据压缩方法包含以下步骤:读取以其中的数据是由标号树结构表示的树本机语言编写的文件,并把该文件划分成结构部分和内容;用该树本机语言的语法规则对结构部分进行编码;压缩由编码器提取的文件的内容并用于对该压缩内容进行编码。
对文件的结构部分编码的步骤包括步骤:构造对应于该语法规则的下推自动机;向在下推自动机中驻留的选择分配符号;按照深度优先检索策略用下推自动机分析该文件的结构部分,并在各选择的位置,输出向这些选择分配的符号;输出通过采用下推自动机而获得的符号串,作为以树本机语言编写的文件的结构部分的编码数据串。用这个方案,就能将用诸如标签的标号编写的文件的结构部分改变(编码),获得一个简单的编码序列。
该数据压缩方法进一步包括:一个当某属性属于树本机语言中某个目标文件的节点时要在对以树本机语言编写的文件的结构部分编码的步骤之前执行的步骤,即将该属性改变为拥有该属性的元素的子节点,以便将树本机语言的语法规则和文件转换成一个要由下推自动机处理的树结构。这个方案之所以更可取,是因为即使该属性包含在如XML文件的目标文件中,也能用下推自动机对该结构部分进行编码。
该数据压缩方法还包含:一个要在对文件的结构部分编码的步骤之后执行的步骤,即采用另一个通用压缩和编码方法进一步对编码的文件结构部分进行压缩和编码。这个方案之所以更可取,是因为预期能有更高的压缩比例。
按照本发明,提供一种存储介质,其上面的计算机输入装置存储一个计算机可读程序,该程序允许计算机执行:一个用于读取以其中的数据是由标号树结构表示的树本机语言编写的文件并且用于把该文件划分成结构部分和内容的过程;一个采用该树本机语言的语法规则对结构部分编码的过程;一个用于压缩由编码器提取的文件的内容并且用于对该压缩内容编码的过程。用这个方案,所有其中安装这个程序的信息处理设备都能在压缩以该树本机语言编写的文件时实现高的压缩比例,并且能获得较高的通讯和存储效率。
此外,按照本发明,一种程序传输设备包含:用于存储程序的存储装置,该程序允许计算机执行一个用于读取以其中的数据是由标号树结构表示的树本机语言编写的文件并用于把该文件划分成结构部分和内容的过程,一个采用该树本机语言的语法规则对该结构部分编码的过程,一个用于压缩由编码器提取的文件的内容并且用于对该压缩内容编码的过程;用于从该存储装置读取该程序并用于发送该程序的传输装置。用这个方案,所有已经从该程序传输设备下载这个程序并安装该程序的信息处理设备,都能在压缩以该树本机语言编写的文件时实现高的压缩比例,并且能获得较高的通讯和存储效率。
图1是解释按照本发明一个实施例的文件压缩系统的总体方案的示意图;
图2是解释按照实施例的数据压缩处理的示意图;
图3是解释按照实施例的编码器的示意图;
图4是表示按照实施例的一例目标XML文件的示意图;
图5是表示图4中的XML文件结构部分的示意图;
图6是表示用于实施例的一例语法规则的示意图;
图7是表示按照图6中的语法规则构造的下推自动机的示意图;
图8是表示用于解释使用下推自动机的语法检查方法的一例语义树的示意图;
图9是通过使用图7中下推自动机而生成的编码转换器(transducer)的示意图;
图10是表示通过为图8中的语义树进行有效性检查而获得的结果例子的示意图;
图11是通过使用图7中下推自动机而生成的解码转换器的示意图;
图12是解释其中将有属性的DTD转换成无属性的DTD的状态的示意图;
图13是解释其中将有属性的XML文件转换成无属性的XML文件的状态的示意图;
图14是解释对数据通讯系统应用实施例时的结构的示意图;
图15是解释对数据库系统应用实施例时的结构的示意图;
现在将参考附图,详细地说明本发明的最佳实施例。
图1是解释按照本发明的一个文件压缩系统的总体方案的示意图。图1中,编码器11将目标文件划分成结构部分和内容,并用在预定存储器中存储的语法规则12对结构部分编码。压缩器13包含由编码器11编码的结构部分和文件的内容。解压器21解压由压缩器13压缩的文件。在文件被解压器21解压的时候,文件被分离成内容和由编码器11编码的结构部分。解码器23通过使用在预定存储器中存储的语法规则22,重新构造编码的结构部分,将结构部分与内容结合起来,重新产生文件。
当将实施例的方法用于数据通讯的数据压缩时,将编码器11和压缩器13配置在发送端,将解压器21和解码器23配置在接收端。当将实施例的方法用于压缩要在数据库系统中存储的数据文件时,按照数据发送,编码器11起译码器23的作用,压缩器13起解压器21的作用。
现在将就用XML作为目标树本机语言的例子给出解释。
图2是解释按照实施例的数据压缩处理的示意图。在图2中的数据压缩处理中,首先,目标XML文件201被从编码器11读出,划分成结构部分202和内容204。结构部分202包括XML文件的树结构、标签名和属性名;内容204包含#PCDATA和XML文件的属性值。之所以将XML文件划分成结构部分202和内容204,是因为一般来说结构部分202和内容204有相当不同的统计偏差,独立地压缩这二者是效率高的。
将通过划分XML文件201所获得的结构部分202用编码器11进行编码,并且将语法规则12用于这个编码.由于在本实施例中XML文件是目标,语法规则12由DTD规定。这个编码处理将在后文作详细说明。所获得的编码数据串203和内容204被传送到压缩器13。
最后,压缩器13对编码数据串203和内容204进行压缩和编码,将获得的数据组合起来,生成压缩XML文件205。为了进行该编码过程,压缩器13采用常规的有名方法,诸如LZ77。此时,压缩器13主要被用来对内容204进行压缩和编码。然而,对编码数据串203可以有效地使用通用压缩与编码方法,诸如PKZIP。正如后文中将要说明的那样,在本实施例中,编码数据串203是作为数字序列被输出的。因此,如果数据是一序列的比较规则的数字,就可以期望有高的压缩比例。所以,压缩器13可以将编码数据串203与内容204一起进行压缩和编码。不过应当注意,压缩器13对编码数据串203的压缩是个任意过程。编码数据串203和内容204可以不由压缩器13压缩,而可以只是被彼此关联或结合起来,可以交换或存储在存储器中。
如上所述,在本实施例中,XML文件的结构部分202是用本发明方法压缩的,此外,编码结构部分202和内容204是用常规方法压缩的。所以,本发明方法是与各种常规压缩方法结合起来使用的。
为了将这样压缩的XML文件解压,要反过来进行以上的压缩处理。具体来说,解压器21用与压缩器13所使用的压缩和编码方法相对应的方法对编码数据串203解压。然后,如下文将要详细说明的那样,解码器23用语法规则22重新构造被解压的编码数据串203。语法规则22与语法规则12相同,是由DTD规定的。然后,用在解码过程中获得的结构部分202和由解压器21解压的内容204重新生成XML文件201。
现在将详细解释按照本实施例进行的用于对XML文件的结构部分编码的处理。
为简化解释,对于这个过程来说,目标XML文件不含任何属性,XML文件的实际总体是设计好的。如何处理属性将在以后作讨论。
图3是解释对XML文件的结构部分编码的编码器11的方案的功能框图。在图3中,编码器11包含:划分器111,用于将目标XML文件201划分成结构部分202和内容204;自动机构造器112,用于用语法规则12构造将在以后作说明的下推自动机;编码数据串生成器113,用于通过用由自动机构造器112构造的下推自动机作为编码转换器,为结构部分202生成编码数据串203。
图4是表示一例目标XML文件的示意图。XML文件的内容由字符串的列表组成,字符串位于对应于#PCDATA的内容模型(contentsmodel)的部分.就是说,图4中的XML文件的内容,是一个由4个字符串“String1”、“String2”、“String3”、和“String4”组成的列表。该列表例如可以用下列字节串来紧凑地表示,该字节串中,将各字符串以空字符作为结束(“¥0”代表空字符)。
“String1¥0String2¥0String3¥0String4¥0”
如上所述地将这个字符串独立于结构部分进行压缩和编码。
图4中的XML文件结构部分在图5中表示。这个结构部分是通过将对应于图4中XML文件的内容的字符串替换为占位符(□)而获得的。
本实施例中,译码器11的划分器111从图4中的XML文件提取图5中的结构部分,自动机构造器112用语法规则12构造下推自动机,编码数据串生成器113用下推自动机对结构部分编码。图6是表示用于规定语法规则12一例DTD的示意图。
在划分器111执行了划分过程之后,为了用语法规则12进行编码,自动机构造器112构造对应于DTD的下推自动机。按照图6中的DTD,当元素A出现时,意味着元素B和元素C将按照标着名称的顺序逐一地出现,该状态转换(state shifting)然后结束。类似地,当元素B出现时,意味着元素D将出现,该状态转换然后结束。当元素C出现时,意味着0个元素或元素E或元素F将出现,该状态转换然后结束。当元素E出现时,意味着一个元素G或一个元素H将出现,该状态转换然后结束。
图7是表示对应于图6中的DTD的自然下推自动机的示意图。由于非结束符(non-terminal symbol)D和G是明显的只有结束符#PCDATA的规则,它们没有在图中显示。
可以为语法的各个非结束符构造没有二义的自动机。因此,如果将本实施例应用于数据通讯,可以通过利用发送端和接收端公用的DTD来构造同样的下推自动机。
一般来说,下推自动机被用来分析输入串的语义。在这个意义上,下推自动机接收表面层上的所有符号串,即所用通过设置一个或多个#PCDATA(或者占位符“□”)而获得的串。然而例如,作为获得的语义分析数,节点B和节点C必须作为节点A的子节点按照标着名称的顺序出现。此外,紧接元素C之后,空状态被转换到最后状态。如上所述,下推自动机可以被用来确定被分析的XML文件的语义分析树是否满足语法。
现在将采用图8中的语义树作为例子,解释用下推自动机检查语法所进行的处理。在图8中,没有显示每个树叶上的#PCDATA。为了确定这个语义树是否能由图6中的DTD规定的语法生成,只需要语义树的每个节点能确定由其子节点组成的串是否能被对应于该节点的非结束符接收。例如,元素A的子节点是串BC。这些子节点被对应于非结束符A的自动机(见图7中的A)接收.因此,发现这个部分满足语法。如果通过使用对应自动机按预排序以同样的方式(按深度优先检索策略跟踪)遍历所有的节点,语法检查就结束。
下推自动机对语义分析树的这个用法,在以下的解释中被称为有效性检查。应当注意,除了ε到最终状态的转换之外,对应于以上过程中使用的每个非结束符的自动机都是最小决策自动机(minimumdecisive automata)。
自动机构造器112将图7中的下推自动机转换成一个对XML文件的结构部分(见图5)编码的转换器,即用于分析字符串的语义的自动机。
在图7中的下推自动机中,假设某项是一个由4个#PCDATA(或占位符“□”),并且分析过程是在用A作为开始符时启动的。然后,顺序地生成节点A、节点B、节点C和节点D,识别第一个#PCDATA。节点C被生成时,有三个选择:可以生成节点E,可以生成节点F,或者状态转换可以在节点C被结束并返回到上层节点。将数字1、2和3按标签的字母顺序分配给这三个选择(标签ε总是被确定是最后的)。类似地,因为节点E的第一个状态提供两种选择,或者可以生成节点G,或者可以生成节点H,所以将数字1和2分配给这些选择。在本实施例中,分配给选择的是数字,但是可用来标识选择的符号并不限于数字。任意符号,如字母字符或符号,都可以用来表明选择。
图9是通过转换图7中的下推自动机而生成的编码转换器的示意图。
编码器11的编码数据串生成器113运行由自动机构造器112构造的编码转换器。
进行有效性检查(按先根次序应用规则)时,图9中的编码转换器输出对应的选择号。具体来说,在图9中,没有对应规则A、B、F和H的选择,编码转换器没有输出。然而,当规则C和规则E被使用时,编码转换器输出适当的号码。例如,当对图8中的语义树进行有效性检查时,编码转换器在跟踪该树时,输出图10中所示的号码。
通过以上处理,获得号码串“112123”,它严格地规定下推自动机的运动。因此,该号码串可以被用作图4中的XML文件的结构部分(图5)的编码数据串。
现在将说明按照本实施例解译XML文件的结构部分的处理。
要解译通过以上处理编码的XML文件,只需要将编码转换器的输入/输出反过来。因此,译码器23用与图7中的同样的下推自动机来生成解码转换器,开始解码过程。如上所述,因为可以为语法的各个非结束符构造没有二义的自动机,如果由DTD规定的语法规则12与语法规则22相同,译码器23就能构造出与图7中的完全相同的下推自动机。
图11是通过转换与图7中的相同的下推自动机而生成的解码转换器的示意图。在图11中的解码转换器中,“i/B”代表“当输入字符串“I”出现时,调用规则B,然后将状态转换到下一个”的转换。这样,从译码器11输入一个号码串,生成一个对应的语义分析树。
如果根据原始号码的分配,输入上述号码串“112123”,下推自动机(译码转换器)就能没有二义地接受XML文件的编码号码串。因此,所生成的语义分析树与图8中的原始语义分析树相同。结果,就能重新生成XML文件的结构部分。
现在将说明对属性的处理。
在本实施例中,将属性转换成树结构,以便能由下推自动机作处理。具体来说,改变所有有属性的元素(ELEMENT)改变,使得将属性看作子节点。此时,属性以它们名称的字母顺序出现。让属性#REQUIRED(#必需的)不变,并让属性#IMPLIED(#隐含的)带有选项“?”。因为起初没有为属性#FIXED(#固定的)提供信息,所以它不包含在通过转换而获得的DTD中。
图12是表示预定的DTD在换成前与转换后的状态的比较的示意图。图12中,左边的DTD被转换成右边所示的形式。图13是表示预定的XML文件在换成前与转换后的状态的比较的示意图。
按以上方式将DTD和XML文件改变到没有提供属性的状态,就执行了上述的编码和译码处理。应当注意的是,DTD的转换可以在下推自动机的构造之前提前进行,或者可以在下推自动机已经被构造之后按需进行。在第一种情况下,由转换所得的新DTD被用来构造下推自动机。在第二种情况下,原始DTD(有属性的)被用来构造下推自动机。
如上所述,按照本实施例,XML文件压缩端和解压端不可避免地要使用共同的相同DTD。因此,如果将本实施例的数据压缩方法用于数据通讯,就必须为发送端数据处理设备和接收端数据处理设备准备相同的DTD。
图14是解释采用本实施例的数据通讯系统的配置的示意图。在发送端的数据处理设备1410中,译码器11接收来自数据处理器的XML文件,并用(对应于图1中的语法规则12的)DTD 1411来对结构部分编码。压缩器13压缩编码结构部分和内容,发送器1412通过通讯网络向接收端发送数据处理设备1410中的由编码器11进行的编码和压缩器13进行的压缩而生成的结果XML文件。在接收端的数据处理设备1420中,接收器1422通过通讯网络接收数据,并将它们发送到解压器21。此时,解压器21解压所接收的数据,将XML文件的内容恢复。译码器23然后用(对应于图1中的语法规则12的)DTD 1421来解译已经被解压的数据的结构部分的编码数据串。译码器23然后重新装配所获得的结构部分和内容,以重新生成XML文件,并将该XML文件发送给数据处理器。在这个处理期间,发送端的数据处理设备1410中的DTD1411与接收端的数据处理设备1420中的DTD1421有相同的内容。
如果XML文件是由用于商业通讯的应用交换的,例如是在电子商务事务处理期间交换的,在大多数情况下,要经互相同意而预先建立一个DTD。因此,假设DTD将被共同使用,则本实施例可以应用于商业通讯。
当用本实施例的方法来压缩要由数据库系统存储的数据文件时,要解译XML文件的结构部分,可以原封不动地用对结构部分编码所使用的DTD来解译该结构部分,这样就不必考虑是否要共同使用一个DTD。
图15是解释采用本实施例的数据库系统的配置的示意图。在数据库系统1500中,译码器11接收来自数据处理器的XML文件,并用(对应于图1中的语法规则12的)DTD1501来对结构部分编码。压缩器13然后压缩编码结构部分和内容。XML文件被译码器11编码并被压缩器13压缩后,被存储在存储器1502中。要从存储器1502读取XML文件,压缩器13起着解压器21的作用,编码器11起着译码器23的作用,用于对XML文件的结构部分编码的DTD1501被用于解译该结构部分。
在上述解释中,用XML语言作为树本机语言.然而,本实施例可用于另一个树本机语言,如ASN.1。不过在这种情况下,语法规则如XML的DTD,也必须由数据文件压缩端和解压端共同使用。
如上所述,按照本发明,可以通过进行数据压缩来对树本机语言的文件的结构部分编码。
此外,因为数据压缩方法特别适合于树本机语言并且是与另一个通用数据压缩技术一起使用的,所以可以采用一个提供高压缩比例的数据压缩方法。

Claims (13)

1.一种用于对数据编码和用于压缩该编码数据的压缩设备,包含:
一个为其中的数据是由标号树结构表示的树本机语言存储语法规则的语法存储单元;
一个用于读取以该树本机语言编写的文件,把文件划分成结构部分和内容,并用语法存储单元中存储的语法规则对结构部分编码的编码器;和
一个用于压缩由所述编码器抽出的所述文件的所述内容并对该压缩的内容进行编码的压缩器。
2.按照权利要求1的数据压缩设备,其中,所述编码器包括:
一个用于将目标文件划分成结构部分和内容的划分器;
一个自动机构造器,用于构造对应于所述语法规则的下推自动机;
一个编码数据生成器,用于用由所述自动机构造器所构造的下推自动机来对由所述划分器获得的所述文件的所述结构部分进行语义分析,并用于为该结构部分生成编码数据串。
3.按照权利要求2的数据压缩设备,其中,所述编码器的所述编码数据生成器向在由所述自动机构造器所构造的所述下推自动机中驻留的选择分配符号,并且,所述编码数据生成器用所述下推自动机来分析以所述树本机语言编写的所述文件的所述结构部分,并在选定的各选择的位置,输出为所述选择分配的符号,以便为所述结构部分生成编码数据串。
4.按照权利要求1的数据压缩设备,其中,所述压缩器不仅为以所述树本机语言编写的所述文件的所述内容,也为由所述编码器获得的所述文件的所述结构部分,进行压缩和编码。
5.一种数据通讯系统,包括:
一个用于在网络上发送数据的传输源数据处理设备;和
一个用于接收由所述传输源数据处理设备在所述网络上发送的所述数据的传输目的地数据处理设备,
所述传输源数据处理设备包括:
一个用于为其中的数据是由标号树结构表示的树本机语言存储语法规则的第一语法存储单元,
一个用于读取以所述树本机语言编写的文件、用于把所述文件划分成结构部分和内容和用于用所述第一语法存储单元中存储的所述语法规则对所述结构部分编码的编码器,
一个用于压缩由所述编码器提取的所述文件的所述内容并用于对该压缩内容编码的压缩器,和
一个用于发送由所述编码器编码的所述结构部分以及由所述压缩器压缩和编码的所述内容的发送器,并且
所述传输目的地数据处理设备包括:
一个用于从所述数据源数据处理设备接收数据的接收器,
一个用于存储与所述数据源数据处理设备的所述第一语法存储单元存储的所述语法规则相同的语法规则的第二语法存储单元,
一个用于采用与由所述数据源数据处理设备使用的压缩和编码方法对应的解压方法来解压由所述接收器接收的对应于所述文件的所述内容的数据的解压器,和
一个用于采用所述第二语法存储单元中存储的所述语法规则来解译由所述接收器接收的对应于所述文件的结构部分的数据的解码器。
6.一种用于存储和管理存储单元中数据的数据库系统,包括:
一个为其中的数据是由标号树结构表示的树本机语言存储语法规则的语法存储单元;
一个用于读取以所述树本机语言编写的文件,把所述文件划分成结构部分和内容,并用所述语法存储单元中存储的所述语法规则对所述结构部分编码的编码器;
一个用于压缩由所述编码器提取的所述文件的所述内容并用于对该压缩内容编码的压缩器;
一个用于存储由所述编码器编码的所述文件的所述结构部分和存储由所述压缩器压缩和编码的所述文件的所述内容的存储单元。
7.按照权利要求6的数据库系统,其中,所述压缩器不仅为以所述树本机语言编写的所述文件的所述内容,也为由所述编码器获得的所述文件的所述结构部分,进行压缩和编码。
8.一种用于对数据编码和用于压缩编码数据的数据压缩方法,包括以下步骤:
读取以其中的数据是由标号树结构表示的树本机语言编写的文件,把所述文件划分成结构部分和内容;
用所述树本机语言的语法规则对所述结构部分编码;
压缩由所述编码器提取的所述文件的所述内容并用于对该压缩内容编码。
9.按照权利要求8的数据压缩方法,其中,所述对所述文件的所述结构部分编码的步骤包括以下步骤:
构造对应于所述语法规则的下推自动机;
向在所述下推自动机中驻留的选择分配符号;
按照深度优先检索策略用所述下推自动机分析所述文件的所述结构部分,并在所述选择的位置,输出向所述选择分配的所述符号;
输出通过采用所述下推自动机而获得的符号串,作为以所述树本机语言编写的所述文件的所述结构部分的编码数据串。
10.按照权利要求9的数据压缩方法,还包括:一个在某属性属于所述树本机语言的某个目标文件时要在所述对以所述树本机语言编写的所述文件的所述结构部分编码的步骤之前执行的步骤,即将所述属性改变为拥有所述属性的元素的子节点,目的是将所述树本机语言的所述语法规则和所述文件转换成一个要由所述下推自动机处理的树结构。
11.按照权利要求8的数据压缩方法,还包括:一个要在所述对所述文件的所述结构部分编码的步骤之后执行的步骤,即采用另一个通用压缩和编码方法进一步对所述文件的所述编码结构部分进行压缩和编码。
12.一种存储介质,其上面的计算机输入装置存储一个计算机可读程序,该程序允许计算机执行:
一个用于读取以其中的数据是由标号树结构表示的树本机语言编写的文件并且用于把所述文件划分成结构部分和内容的过程;
一个用于用所述树本机语言的所述语法规则对所述结构部分编码的过程;和
一个用于压缩由所述编码器提取的所述文件的所述内容并且用于对该压缩内容编码的过程。
13.一种程序传输设备,包括:
用于存储程序的存储装置,该程序允许计算机执行
一个用于读取以其中的数据是由标号树结构表示的树本机语言编写的文件并用于把所述文件划分成结构部分和内容的过程;
一个用于用所述树本机语言的语法规则对所述结构部分编码的过程;
一个用于压缩由所述编码器提取的所述文件的所述内容并且用于对该压缩内容编码的过程;和
用于从所述存储装置读取所述程序并用于发送所述程序的传输装置。
CNB011032413A 2000-02-04 2001-02-02 用于数据压缩、传输、存储以及通信的方法、设备和系统 Expired - Fee Related CN1166072C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP28359/2000 2000-02-04
JP2000028359A JP3368883B2 (ja) 2000-02-04 2000-02-04 データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置

Publications (2)

Publication Number Publication Date
CN1316828A true CN1316828A (zh) 2001-10-10
CN1166072C CN1166072C (zh) 2004-09-08

Family

ID=18553774

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011032413A Expired - Fee Related CN1166072C (zh) 2000-02-04 2001-02-02 用于数据压缩、传输、存储以及通信的方法、设备和系统

Country Status (6)

Country Link
US (1) US7043686B1 (zh)
EP (1) EP1122655A3 (zh)
JP (1) JP3368883B2 (zh)
KR (1) KR100424130B1 (zh)
CN (1) CN1166072C (zh)
TW (1) TW501350B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7221801B2 (en) 2002-12-05 2007-05-22 Samsung Electronics Co., Ltd. Method and system for generating input file using meta language regarding graphic data compression
CN100354861C (zh) * 2003-09-19 2007-12-12 株式会社Ntt都科摩 数据压缩器和数据解压缩器
CN101908266A (zh) * 2009-06-05 2010-12-08 株式会社三丰 信号转换装置、信号处理装置以及信号转换传送系统
CN101268697B (zh) * 2005-07-20 2010-12-29 数码士有限公司 编码器和解码器
CN101617307B (zh) * 2007-02-16 2011-05-25 佳能株式会社 编解码设备和方法
CN102906740A (zh) * 2010-02-04 2013-01-30 帕斯特里姆有限责任公司 压缩数据记录和处理压缩数据记录的方法和系统
CN104850561A (zh) * 2014-02-18 2015-08-19 北京京东尚科信息技术有限公司 一种Android APK文件自适应压缩方法
CN108132999A (zh) * 2017-12-21 2018-06-08 恒宝股份有限公司 一种元素名的处理方法及系统
CN110301095A (zh) * 2017-03-14 2019-10-01 国际商业机器公司 非二进制上下文混合压缩器/解压缩器

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714926B1 (en) * 1999-02-02 2004-03-30 Amazon.Com, Inc. Use of browser cookies to store structured data
FR2813743B1 (fr) * 2000-09-06 2003-01-03 Claude Seyrat Procede de compression/decompression de documents structures
JP4774145B2 (ja) * 2000-11-24 2011-09-14 富士通株式会社 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム
DE50115539D1 (de) 2000-12-22 2010-08-12 Siemens Ag Verfahren zur verbesserung der funktionalität der binären repräsentation von mpeg-7 und anderen xml-basierten inhaltsbeschreibungen
WO2002062070A2 (de) * 2001-02-01 2002-08-08 Siemens Aktiengesellschaft Verfahren zur verbesserung der funktionalität der binären repräsentation von mpeg-7 und anderen xml-basierten inhaltsbeschreibungen
JP2003157249A (ja) * 2001-11-21 2003-05-30 Degital Works Kk 文書の圧縮格納方法
EP1451719B1 (en) 2001-11-23 2009-05-13 Research In Motion Limited System and method for processing extensible markup language (xml) documents
US7669120B2 (en) * 2002-06-21 2010-02-23 Microsoft Corporation Method and system for encoding a mark-up language document
JP2006505043A (ja) * 2002-10-29 2006-02-09 ロッキード・マーチン・コーポレイション ハードウェアパーサアクセラレータ
AU2003277250A1 (en) * 2002-10-29 2004-05-25 Lockheed Martin Corporation Hardware accelerated validating parser
US7415665B2 (en) * 2003-01-15 2008-08-19 At&T Delaware Intellectual Property, Inc. Methods and systems for compressing markup language files
JP3815567B2 (ja) 2003-03-31 2006-08-30 日本電気株式会社 コンピュータシステム、コンピュータプログラム、コンピュータ間の通信方法、構造化文書の符号化方法、符号化された構造化文書の復号方法
JP2005018672A (ja) * 2003-06-30 2005-01-20 Hitachi Ltd 構造化文書の圧縮方法
GB0316806D0 (en) * 2003-07-17 2003-08-20 Ivis Group Ltd Improved search engine
EP1510942A1 (en) * 2003-08-27 2005-03-02 Hewlett-Packard Development Company, L.P. Compatibility of tree-structured data
JP4177218B2 (ja) 2003-09-24 2008-11-05 株式会社エヌ・ティ・ティ・ドコモ 文書変換装置
KR20050038786A (ko) * 2003-10-23 2005-04-29 조이원(주) 데이터 변환을 통한 대용량 데이터 축소 저장 및 연산 기술을 적용한 고객관계관리 시스템
US7676742B2 (en) * 2003-11-24 2010-03-09 International Business Machines Corporation System and method for processing of markup language information
JPWO2005101210A1 (ja) * 2004-04-09 2008-03-06 シャープ株式会社 データ解析装置およびデータ解析プログラム
US7769904B2 (en) * 2004-06-09 2010-08-03 L-3 Communications Integrated Systems L.P. Extensible binary mark-up language for efficient XML-based data communications and related systems and methods
US20060117307A1 (en) * 2004-11-24 2006-06-01 Ramot At Tel-Aviv University Ltd. XML parser
US20060288028A1 (en) * 2005-05-26 2006-12-21 International Business Machines Corporation Decompressing electronic documents
US8677123B1 (en) 2005-05-26 2014-03-18 Trustwave Holdings, Inc. Method for accelerating security and management operations on data segments
US7808975B2 (en) * 2005-12-05 2010-10-05 International Business Machines Corporation System and method for history driven optimization of web services communication
US20070136492A1 (en) * 2005-12-08 2007-06-14 Good Technology, Inc. Method and system for compressing/decompressing data for communication with wireless devices
US7593949B2 (en) * 2006-01-09 2009-09-22 Microsoft Corporation Compression of structured documents
US20080077606A1 (en) * 2006-09-26 2008-03-27 Motorola, Inc. Method and apparatus for facilitating efficient processing of extensible markup language documents
US8386444B2 (en) * 2006-12-29 2013-02-26 Teradata Us, Inc. Techniques for selective compression of database information
JP4562749B2 (ja) * 2007-05-18 2010-10-13 ディジタル・ワークス株式会社 文書の圧縮格納方法及び装置
US8948385B2 (en) * 2007-05-31 2015-02-03 Pfu Limited Electronic document encrypting system, decrypting system, program and method
WO2008144936A1 (en) 2007-06-01 2008-12-04 Research In Motion Limited Synchronization of side information caches
US7747558B2 (en) * 2007-06-07 2010-06-29 Motorola, Inc. Method and apparatus to bind media with metadata using standard metadata headers
WO2009001174A1 (en) * 2007-06-28 2008-12-31 Smartimage Solutions, Sia System and method for data compression and storage allowing fast retrieval
FR2919400A1 (fr) * 2007-07-23 2009-01-30 Canon Kk Procede et dispositif d'encodage d'un document structure et procede et dispositif de decodage d'un document ainsi encode.
FR2926378B1 (fr) * 2008-01-14 2013-07-05 Canon Kk Procede et dispositif de traitement pour l'encodage d'un document de donnees hierarchisees
US20100146410A1 (en) * 2008-12-10 2010-06-10 Barrett Kreiner Markup language stream compression using a data stack
FR2939535B1 (fr) * 2008-12-10 2013-08-16 Canon Kk Procede et systeme de traitement pour la configuration d'un processseur exi
US20100223398A1 (en) * 2009-02-27 2010-09-02 Slipstream Data Inc. Method and apparatus for creating side information from data for use in interactive compression
US8179291B2 (en) * 2009-05-04 2012-05-15 International Business Machines Corporation Method and system for compression of logical data objects for storage
JP5478936B2 (ja) * 2009-05-13 2014-04-23 キヤノン株式会社 情報処理装置、情報処理方法
US8478731B1 (en) * 2010-03-31 2013-07-02 Emc Corporation Managing compression in data storage systems
US9619443B2 (en) 2012-03-05 2017-04-11 International Business Machines Corporation Enhanced messaging transaction performance with auto-selected dual-tag fields
JP5665821B2 (ja) * 2012-09-18 2015-02-04 株式会社東芝 文書処理装置、及びプログラム
JP2016134754A (ja) * 2015-01-19 2016-07-25 富士通株式会社 変換処理プログラム、情報処理装置および変換処理方法
JP6728926B2 (ja) * 2016-04-18 2020-07-22 富士通株式会社 符号化処理プログラム、符号化処理装置、符号化処理方法、復号化処理プログラム、復号化処理装置および復号化処理方法
JP6903892B2 (ja) 2016-10-12 2021-07-14 富士通株式会社 検証プログラム、検証装置、検証方法、符号化プログラム、符号化装置および符号化方法
CN111159273B (zh) * 2019-12-31 2023-07-18 中国联合网络通信集团有限公司 数据流处理方法、装置、服务器及存储介质
CN113239394B (zh) * 2021-05-06 2021-10-29 国家计算机网络与信息安全管理中心 固件的保护方法、装置及设备

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713966A (ja) * 1993-04-12 1995-01-17 Xerox Corp 文書の編集方法
US5438512A (en) * 1993-10-22 1995-08-01 Xerox Corporation Method and apparatus for specifying layout processing of structured documents
US5583762A (en) * 1994-08-22 1996-12-10 Oclc Online Library Center, Incorporated Generation and reduction of an SGML defined grammer
WO1996017310A1 (en) * 1994-11-29 1996-06-06 Avalanche Development Company System and process for creating structured documents
US5630126A (en) * 1994-12-13 1997-05-13 International Business Machines Corp. Systems and methods for integrating computations into compound documents
US5819264A (en) * 1995-04-03 1998-10-06 Dtl Data Technologies Ltd. Associative search method with navigation for heterogeneous databases including an integration mechanism configured to combine schema-free data models such as a hyperbase
AU2585797A (en) * 1996-03-15 1997-10-01 University Of Massachusetts Compact tree for storage and retrieval of structured hypermedia documents
JP3305191B2 (ja) * 1996-03-19 2002-07-22 富士通株式会社 文書管理装置及びデータ圧縮方法及びデータ復元方法
US5915259A (en) * 1996-03-20 1999-06-22 Xerox Corporation Document schema transformation by patterns and contextual conditions
US5884014A (en) * 1996-05-23 1999-03-16 Xerox Corporation Fontless structured document image representations for efficient rendering
US5933842A (en) * 1996-05-23 1999-08-03 Microsoft Corporation Method and system for compressing publication documents in a computer system by selectively eliminating redundancy from a hierarchy of constituent data structures
US6182029B1 (en) * 1996-10-28 2001-01-30 The Trustees Of Columbia University In The City Of New York System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
US5999949A (en) * 1997-03-14 1999-12-07 Crandall; Gary E. Text file compression system utilizing word terminators
JPH10283233A (ja) * 1997-04-07 1998-10-23 Pfu Ltd Html文書形式アプリケーションの実行方法及びhtml文書変換ツール記憶媒体
US6016467A (en) * 1997-05-27 2000-01-18 Digital Equipment Corporation Method and apparatus for program development using a grammar-sensitive editor
JP3859313B2 (ja) * 1997-08-05 2006-12-20 富士通株式会社 タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3070555B2 (ja) * 1997-12-03 2000-07-31 日本電気株式会社 マークアップランゲージ文書の保存方法及び通信方法
EP0928070A3 (en) * 1997-12-29 2000-11-08 Phone.Com Inc. Compression of documents with markup language that preserves syntactical structure
JP2000076155A (ja) * 1998-09-01 2000-03-14 Mitsubishi Materials Corp Htmlドキュメント圧縮・展開・表示方式
JP4003854B2 (ja) * 1998-09-28 2007-11-07 富士通株式会社 データ圧縮装置及び復元装置並びにその方法
US6336214B1 (en) * 1998-11-10 2002-01-01 International Business Machines Corporation System and method for automatically generating browsable language grammars
US6635088B1 (en) * 1998-11-20 2003-10-21 International Business Machines Corporation Structured document and document type definition compression
US6523172B1 (en) * 1998-12-17 2003-02-18 Evolutionary Technologies International, Inc. Parser translator system and method
US6647534B1 (en) * 1999-06-30 2003-11-11 Ricoh Company Limited Method and system for organizing document information in a non-directed arrangement of documents
US6665665B1 (en) * 1999-07-30 2003-12-16 Verizon Laboratories Inc. Compressed document surrogates
FR2813743B1 (fr) * 2000-09-06 2003-01-03 Claude Seyrat Procede de compression/decompression de documents structures
KR20020058639A (ko) * 2000-12-30 2002-07-12 오길록 엑스엠엘 문서 검색 시스템 및 그 방법

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7221801B2 (en) 2002-12-05 2007-05-22 Samsung Electronics Co., Ltd. Method and system for generating input file using meta language regarding graphic data compression
CN100354861C (zh) * 2003-09-19 2007-12-12 株式会社Ntt都科摩 数据压缩器和数据解压缩器
CN101268697B (zh) * 2005-07-20 2010-12-29 数码士有限公司 编码器和解码器
CN101617307B (zh) * 2007-02-16 2011-05-25 佳能株式会社 编解码设备和方法
CN101908266A (zh) * 2009-06-05 2010-12-08 株式会社三丰 信号转换装置、信号处理装置以及信号转换传送系统
CN101908266B (zh) * 2009-06-05 2014-11-12 株式会社三丰 信号转换装置、信号处理装置以及信号转换传送系统
CN102906740A (zh) * 2010-02-04 2013-01-30 帕斯特里姆有限责任公司 压缩数据记录和处理压缩数据记录的方法和系统
CN102906740B (zh) * 2010-02-04 2015-10-21 帕斯特里姆有限责任公司 压缩数据记录和处理压缩数据记录的方法和系统
CN104850561A (zh) * 2014-02-18 2015-08-19 北京京东尚科信息技术有限公司 一种Android APK文件自适应压缩方法
CN110301095A (zh) * 2017-03-14 2019-10-01 国际商业机器公司 非二进制上下文混合压缩器/解压缩器
CN110301095B (zh) * 2017-03-14 2023-05-02 国际商业机器公司 非二进制上下文混合压缩器/解压缩器
CN108132999A (zh) * 2017-12-21 2018-06-08 恒宝股份有限公司 一种元素名的处理方法及系统

Also Published As

Publication number Publication date
JP3368883B2 (ja) 2003-01-20
KR100424130B1 (ko) 2004-03-24
CN1166072C (zh) 2004-09-08
EP1122655A2 (en) 2001-08-08
KR20010078015A (ko) 2001-08-20
EP1122655A3 (en) 2005-08-17
US7043686B1 (en) 2006-05-09
JP2001217720A (ja) 2001-08-10
TW501350B (en) 2002-09-01

Similar Documents

Publication Publication Date Title
CN1166072C (zh) 用于数据压缩、传输、存储以及通信的方法、设备和系统
CN101783788B (zh) 文件压缩、解压缩方法、装置及压缩文件搜索方法、装置
CN110603595B (zh) 用于从压缩的基因组序列读段重建基因组参考序列的方法和系统
CN1183683C (zh) 使用前缀预测的位自适应编码方法
CN103067022B (zh) 一种整型数据无损压缩方法、解压缩方法及装置
US8346737B2 (en) Encoding of hierarchically organized data for efficient storage and processing
CN1669024A (zh) 结构化文档、尤其xml文档的编码/译码的方法和装置
US8015218B2 (en) Method for compressing/decompressing structure documents
EP1803225A1 (en) Adaptive compression scheme
CN104125475B (zh) 一种多维量子数据压缩、解压缩方法及装置
CN100349160C (zh) 一种对数据进行有限穷举优化的压缩方法
CN110088839B (zh) 用于生物信息学信息表示的有效数据结构
CN1426629A (zh) 使用多个编码器的优化无损压缩的方法和装置
US7565339B2 (en) Knowledge based encoding of data
KR20190062551A (ko) 액세스 유닛으로 구조화된 생물정보학 데이터에 액세스하기 위한 방법 및 장치
Levene et al. XML Structure Compression.
KR20190113971A (ko) 다중 게놈 디스크립터를 이용한 생명정보학 데이터의 압축 표현 방법 및 장치
Kieffer et al. Structured grammar-based codes for universal lossless data compression
JP2004342029A (ja) 構造化文書圧縮方法及び装置
Brisaboa et al. Managing Compressed Structured Text
Shirazee et al. The Effects of Data Compression on Performance of Service-Oriented Architecture (SOA)
CN110663022B (zh) 使用基因组描述符紧凑表示生物信息学数据的方法和设备
Wei et al. A new and effective approach to GML documents compression
Selimovic Compressing Massive Sequencing Data with Multiple Attribute Tree
JP2005087069A (ja) 生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040908

Termination date: 20120202