CN101847998A

CN101847998A - 一种高性能gml流压缩方法

Info

Publication number: CN101847998A
Application number: CN201010148380A
Authority: CN
Inventors: 关佶红; 于一男; 周水庚; 朱付保
Original assignee: Tongji University; Fudan University
Current assignee: Tongji University; Fudan University
Priority date: 2010-04-15
Filing date: 2010-04-15
Publication date: 2010-09-29

Abstract

本发明属于信息技术中的空间信息获取与处理技术领域，具体是一种GML流压缩方法—GSPress。它在只扫描GML文档一次且不利用GML文件的模式或DTD的情况下，将GML文档的结构和数据分离后分别进行压缩。对于GML文档中的结构部分采用自适应LZ77方法进行压缩；对于文档中的坐标数据则利用增量压缩的方法进行处理。实验结果表明，GSPress可以在压缩性能和压缩效率两个方面上取得较好的权衡，是一种高效的GML流压缩算法。

Description

一种高性能GML流压缩方法

技术领域

本发明属于信息技术中的空间信息获取与处理技术领域，具体涉及在Internet环境下GIS空间信息数据流的压缩方法。

背景技术

地理信息系统(简称GIS)近年来正成为越来越多的信息系统的支撑平台。随着Internet的迅速发展和Web的广泛使用，GIS已经由专业人员使用的集中式系统逐步向分布式、网络化的海量信息系统演变。而近年来移动Internet的快速出现和手机用户的飞速增长，给移动空间信息服务带来了新的机遇。GIS、GPS、RS、移动Internet和移动设备(手机、PDA等)的结合将使得人们可以利用手机或其它移动个人设备在任何时间、任何地点访问任何空间信息。然而，要实现这一目标，现有空间信息处理方法与技术还面临着不少挑战：

1)现有的GIS系统多是孤立、自主、异构的集中式GIS系统，它们的采用数据格式和数据模型可能不同，开发工具与环境或者平台都可能不同，所以要对这些GIS系统进行集成以实现空间信息的共享和GIS的互操作并不容易。

2)在地理信息的表现方面，现有Web GIS要么在服务器端生成地图，再传到客户端进行显示；要么先把地理信息传到客户端，然后由客户端程序(Applet或ActiveX)显示。前一种方法效率低，服务器和网络负担重；后一种方法所用的技术和客户端设备有关。在目前的移动网络环境下，客户端设备包括手机、PDA、车载计算机、笔记本电脑和台式计算机等等。它们的处理能力、显示能力和通信能力都各不相同，现有技术很难同时适应各种不同的客户端设备条件。

为了改变当前GIS应用与其内部数据模型及数据格式紧密捆绑的现状，开放地理信息系统组织(Open GIS Consortium，OGC)推出基于XML的地理标记语言(Geography MarkupLanguage，GML)。GML以XML的格式来对区域、位置、内容信息进行编码，将内容和表现形式分离。用GML来组织和表达数据，是实现地理空间数据的标准化、结构化和实现地理信息系统的互操作的必由之路。目前GML得到了Oracle，SQL Server等主流数据库以及MapInfo等重要的GIS软件厂商的大力支持，并已成为空间信息的标准表示与交换格式。参考文献：

由于GML是一种自描述的、与编程语言和运行平台无关的空间信息表达与交换标准语言，这就为空间信息的集成与共享以及实现GIS互操作提供了一种潜在的简单、灵活的技术途径。用GML可以比较容易地构建面向对象的数据模型，可以清楚地表示地物对象的属性信息和几何信息，可以简洁地描述地物之间的拓扑关系。GML的出现，解决了空间数据格式不一致的问题，顺应了空间信息共享发展的要求，也符合当前所提出的语义Web要求提供包含结构和语义的数据，使地理信息的相互交换变得更加容易。然而，GML迅猛发展的同时也带来了GML数据管理的问题，特别是GML的存储和传输问题。

首先GML文档存在很大的冗余，它的冗余主要来自那些大量表示结构信息的重复标签、描述地物特征的各种属性及属性值等。近年来，由于地理信息系统的发展与普及，GML文档数量随之增加，GML文档越来越大，文档内部冗余信息也越来越多，这就增加Web上数据处理、数据存储和数据交换的代价。

其次，GML文档中含有大量的浮点坐标数据、空间关系拓扑数据和时间序列数据。由于地理定位的精度要求比较高，浮点坐标数据的数值一般精确到小数点后6～8位，时间序列数据也精确到秒，而这些时间和空间数据都被当作一个文本串存储在GML文档中，这样就非常浪费存储空间。

由于GML这种天生的结构冗余、包含的数据量大，以及整个文档的纯文本表示，从而造成了GML文档的容量非常庞大。这些庞大的GML文档在存储时将占用大量的磁盘空间，在用于传输时也将占用更多的带宽。为了解决由于GML文档数据量大而给网络传输带来的负担，本发明设计了一种GML流压缩方法以保证GML数据在网络上的平稳传输。

发明内容

针对以上问题，本发明提出一种高效的GML流压缩方法，来提高GML数据传输效率。

本发明提出的GML流压缩方法，具体步骤如下：

(1)对于给定的GML文件，首先利用SAX解析GML文档，解析结果是一系列事件标记，根据不同的解析结果得到4个不同的数据流：结构数据流、属性数据流、坐标数据流和文本数据流。

(2)然后针对不同的数据流采用不同的压缩算法：

对于结构数据流，采用自适应的基于词的LZ77算法进行压缩，即在压缩算法中对结构数据利用自适应方法建立压缩字典，压缩字典初始化为空，遇到新的标签则放入字典，在输出流中输出字符值；遇到出现过的标签则先缓存它，继续读取下一个标签，如果此标签和缓存组成的集合不在字典中或者此标签为新出现的话，则输出缓存中标签集合在字典中的索引，将此标签放入缓存。

对于属性数据流，采用字符串搜索法进行压缩，即尝试寻找相邻属性间的最大的公共子字符串(LCS)。如果此字符串存在，赋予它一个索引值，我们就可以利用相应的索引值代替这个公共子字符串；如果不存在，则不进行替换，保留原值。此方法对于GML文档的属性值，利用相同标签下相同属性值之间的相关性，取得属性和第一次遇到的属性间的最大公共子字符串，将其存入字典，利用其在字典中的索引代替此字符串达到压缩的目的。

对于坐标数据流和文本数据流采用增量压缩的方法进行压缩，该方法对于GML文档中的坐标数据，利用存储相邻坐标之间的差值而不是存储原坐标值，先输出基准值，输出其后坐标与基准坐标的差值，即输出坐标整数部分之间的差值，小数部分则保留原值。

(3)利用上述不同的压缩算法进行压缩后得到不同的压缩流，然后合并成统一的压缩流。此压缩流在网络上进行传输，在解压缩方得到压缩的数据流后同时进行解压缩，根据数据流中的不同部分利用相对应的解压缩方法，最后组合成原始GML文件。

本发明具有如下特点：

1)数据流中的数据随着时间推移而增加，系统内存中无法保留已经处理的全部数据，所以在压缩中只能缓存部分数据；

2)算法无须对数据整体进行二次扫描；

3)由于数据流以网络速度进行传输，算法能够实时处理数据流。

基于上述方法，本发明设计并且实现了一种GML流压缩器GSPress。它的设计原理如下：

一、由于利用DOM技术解析GML文档需要消耗大量的内存，而且考虑到数据流是动态的，所以GSPress先利用SAX解析GML文档，解析的结果是一系列事件标记。根据不同的解析结果将信息输出到4种不同的数据流里：结构数据流、属性数据流、坐标数据流和文本数据流。

二、对于结构数据流，由于其中存在大量相同的标签，并且数据流的总长度和各个标签的概率是未知的，所以我们可以采用自适应的基于词的LZ77算法对其进行压缩，这样压缩方的字典容量会随着遇到新词组个数的增加而自适应增大，出现新词组时则利用其在字典中的索引值进行替换；选择基于词而非基于单个字符的LZ77方法是因为每一个标签名由多个字符组成，在文档中标签名作为基本单位重复出现，所以将标签名作为字典中的词条可以最大化字典中每一词条的代表能力从而增大压缩性能。

三、由于相同标签的相同属性的属性值之间存在着相似性，虽然相似性不及标签间的相似程度，但是我们也可以从其中找到一些规律。对于这些属性值来说，我们可以尝试寻找相邻属性间的最大的公共子字符串(LCS)。如果此字符串存在，赋予它一个索引值，我们就可以利用相应的索引值代替这个公共子字符串；如果不存在，则不进行替换，保留原值。

四、对于文本值数据流中的坐标数据增量压缩的方法进行压缩，由于表示一个空间对象需要大量二维或三维坐标数据，同一维的坐标数据具有局部相似性，即同一维坐标之间具有单调性或者在某区间内具有单调性，同一维的相邻坐标之间的差值通常很小，所以如果我们存储差值而不存储实际的坐标数据值就会节省很大的存储空间。

五、上述数据流分别经过特殊处理后会被合并到统一的数据流中，我们再用通用文本压缩方法Gzip对其进行压缩得到最终的数据压缩流。

本发明的特点是：GSPress压缩器在压缩端采用SAX方式解析GML源文件，它预先定义了四种数据流：结构数据流，属性数据流，坐标数据流和其它文本数据流。在利用SAX解析源文件的时候，程序每遇到一个元素标记时程序先看标签属于哪一个数据流，然后利用对应的处理方法处理，后将结果写到对应的数据流中。

附图说明

图1 GSPress框架图。

图2各种压缩器压缩率的比较图。

图3各种压缩器压缩时间比较图。

图4各种压缩器解压缩时间比较图。

具体实施方式

一、利用SAX解析GML文档

我们利用微软提供的编程语言C#对GML文档进行解析，通过解析可以得到一系列事件标记，例如StartElement()，EndElement()，PCDATA()等等，根据不同含义将它们传送到预先定义好的四个数据流中的相应数据流中。

二、结构数据流压缩

对于结构数据流，我们没有采用GML文档的模式或者DTD，因为在实际的应用中很可能压缩文档不提供它们。所以我们初始化字典时，字典中没有词条。当新标签出现的时候，将其放入字典，同时将其值写入输出流；如果此标签在字典中出现过，我们会先缓存此标签，继续读取下一个标签，直到字典中不存在缓存中所有标签组成的标签集合时，先将缓存中标签集合的索引值写入数据流，再将新标签放入字典，将其值写入数据流。

这样做的好处在于在压缩方动态建立的字典具有很强的扩展性；利用在数据流中写入标签值和相应的索引值的机制，我们就可以在解压缩方实时建立字典进行解压缩；利用缓存存储字典中出现过的标签而不局限于只存储单个标签，这样当几个标签对以固定顺序频繁出现时，算法可以利用其索引值替换它们，利用这种方法最大限度地存储标签组合来达到压缩的目的。

具体算法如下：

GSPress结构压缩算法

Input：GML structural stream

Output：GML structural compression stream

1：Init dic，buffer＝null；

2：while((a＝readtag())！＝null)do

3：if(dic contains a)then

4； if(buffer is not empty)then

5： output the index of buffer in the dic

6： end if

7：output a.value

8：put a into dic

9：end if

10：else

11： if(dic contains(buffer.concat(a)))then

12： buffer.append(a)

13： continue

14： end if

15： else

16： output index of buffer in the dic

17： buffer.clear()

18： buffer.append(a)

19： continue

20： end if

21：end if

22：end while

23：output index of the buffer in the dic

24：buffer.clear()

三、坐标数据流压缩

在GML文档中的这些数据是以文本值的形式存储于特定标签中的。目前GML规范中已规定了很多标签名，比如<gml:X>，<gml:Y>，<gml:posList>等，但是不同标签下的坐标数据之间的数据格式差别很大，所以首先要对这些坐标数据进行简单的预处理来统一数据格式。

经过预处理后的数据，我们发现相同维度下相邻坐标的整数值相差很小，但小数值之间相差很大而且没有规律。所以我们的策略是对于坐标的整数部分进行增量压缩，存储当前坐标与相邻坐标整数部分的差值，同时将基准坐标的整数值更新为当前坐标的整数值；而对于小数部分采用String类型存储原始值。

这里String类型存储小数部分是因为坐标数据通常是高精度的，即小数部分的位数通常比较多，例如“-97.1244430541992”。如果使用数据类型存储容易出现值溢出的情况，所以使用String类型存储小数是安全的；文档中也有很多小数部分位数少的数据，如果采用数据类型存储则至少需要4位的存储空间，而利用String类型存储时每一位小数占用1字节的存储空间，所以利用String类型存储数据具有很大的弹性。

另外，如果存储相邻数据小数部分的差值，由于很多坐标数据的精度很高，这样可能出现相减后数值的小数位数会比原值大，尽管它所代表的数值是减小的，但是存储它要占用更多的字节，所以我们存储小数部分的原始值。

当读取到相应的标签后，我们会分析文本中坐标的格式来发现它是几维的坐标，然后先初始化每一维上数据值为0作为基准坐标，继续向前读取数据，输出当前值和基准值整数间的差值，存储其小数值原值，同时更新基准坐标值为当前坐标整数值，这样依次读取数据直至读取结束。采用这种机制来达到压缩的目的。

具体算法如下：

GSPress坐标数据增量压缩算法

Input：GML coordinate stream

Output：GML coordinate compression stream

1：preprocess the coordinate data

2：int temp[3]＝{0，0，0}

3：int dimension＝the dimension of this element

4：string[]tempcoord＝read text of this element

5：for each i in the tempcoord do

6： coord＝tempcoord[i]

7： int intvalue＝currentcoord.intpart

8： string decimalvalue＝currentcoord.decimalpart

9： int delta＝intvalue-temp[i％dimension]

10： temp[i％dimension]＝delta；

11： output delta to outputstream

12： output decimalvalue to outputstream

13：end for

四、频繁出现的属性数据流编码

我们发现，相同标签的相同属性的属性值之间存在着很大相似性。对于这些属性值来说，我们可以尝试寻找这些属性值之间的最大的公共子字符串(LCS)。如果此字符串存在，将其存入到字典，利用相应的索引值代替这个公共子字符串；如果不存在，则不需要替换。算法三表示对属性值编码的LCS方法。

具体算法如下：

GSPress属性流压缩

Input：GSPress attribute stream

Output：GSPress attribute compression stream

1：init dic＝null

2：init dic_attri＝null

3：string current_attribute

4：while(read attribute stream)do

5：current_attribute＝read attribute()

6： if current_attribute.length＜3 then

7： output current_attribute.value

8： continue

9：end if

10：else

11： if current element is not in the dic then

12： put(current element，current_attribute)in the dic

13： output current_attribute.value

14： end if

15： else

16： string temp＝getLCS(current_attribute，dic[current

element])

17： if temp not in the dic_attri then

18： put temp in the dic_attri

19： output hintsymbol and temp

20： end if

21： output string before the temp

22： output the index of the temp in the dic_attri

23： output string after the temp

24： end if

25： end if

26：end while

27：

28：function getLCS(string A，string B)

29： string shortString＝A.Length＞B.Length？B:A；

30： string longString＝A.Length＞B.Length？A:B；

31：for each i in the shortstring do

32： for each j in the shortstring do

33： if shortString.Substring(j，i)in longString then

34： return shortString.Substring(j，i)

35： end if

36： end for

37：end for

38：return string.Empty

五、对于其它文本数据流的压缩

由于每一个标签下的数据之间差别很大，所以我们不采用任何方法来进行处理，只利用最终的Gzip压缩算法来压缩这些数据。

六、性能对比测试

为了测试本实验的测试数据来自Citygml数据集合(11.8M)、CleanSeaNet数据集合(2.5M)、TOP10NL数据集合(11.5M)和通过其它格式的空间数据导入到oracle spatial进而生成的GML数据集(11.5M)。测试机器的CPU频率为2.6G Hz、内存为2GB，操作系统为WindowsXP Professional sp3。

表1测试文件详细信息

文件类型	文件名	文件大小(K)	最大深度	节点个数	标签个数	不同标签个数	结构比例	属性比例	坐标比例	文本比例
文件类型	文件名	文件大小(K)	最大深度	节点个数	标签个数	不同标签个数	结构比例	属性比例	坐标比例	文本比例	citygml	080305SIG3D_Breakline_Levkreuz.xml	4150	7	145929	72398	17	0.646967673	0.01196088	0.33957127	0.00150017
citygml	080305SIG3D_RoadATKIS_Levkreuz.xml	8366	7	260575	118929	15	0.632456649	0.05059229	0.29301809	0.023932965	citygml	080305SIG3D_Breakline_Levkreuz.xml	4150	7	145929	72398	17	0.646967673	0.01196088	0.33957127	0.00150017
citygml	080305SIG3D_RoadATKIS_Levkreuz.xml	8366	7	260575	118929	15	0.632456649	0.05059229	0.29301809	0.023932965	citygml	080305SIG3D_RoadNoise_Levkreuz.xml	2327	7	161333	41317	36	0.762851951	0.07006893	0.10567577	0.040266216

文件类型	文件名	文件大小(K)	最大深度	节点个数	标签个数	不同标签个数	结构比例	属性比例	坐标比例	文本比例
文件类型	文件名	文件大小(K)	最大深度	节点个数	标签个数	不同标签个数	结构比例	属性比例	坐标比例	文本比例	CleanSeaNet	20071026_202817_AIS.xml	2461	7	161959	59844	28	0.799152782	0.00304615	0.0362942	0.161430902
oracle spacial	admin3.xml	965	7	81452	24308	20	0.455162728	0.00086377	0.25891526	0.001157906	CleanSeaNet	20071026_202817_AIS.xml	2461	7	161959	59844	28	0.799152782	0.00304615	0.0362942	0.161430902
oracle spacial	admin3.xml	965	7	81452	24308	20	0.455162728	0.00086377	0.25891526	0.001157906	oracle spacial	admin4.xml	542	7	45718	13685	20	0.449991892	0.00060808	0.26379788	0.000420128
oracle spacial	admin7.xml	2856	7	241600	71564	20	0.467727056	0.00180727	0.24649234	0.003459785	oracle spacial	admin4.xml	542	7	45718	13685	20	0.449991892	0.00060808	0.26379788	0.000420128
oracle spacial	admin7.xml	2856	7	241600	71564	20	0.467727056	0.00180727	0.24649234	0.003459785	oracle spacial	arc.xml	4514	7	388589	111923	23	0.507696343	0.00479197	0.20305891	0.015644778
top 10nl	datalionic.xml	7898	9	470925	128675	62	0.523843727	0.07074023	0.10961949	0.169071044	oracle spacial	arc.xml	4514	7	388589	111923	23	0.507696343	0.00479197	0.20305891	0.015644778
top 10nl	datalionic.xml	7898	9	470925	128675	62	0.523843727	0.07074023	0.10961949	0.169071044	top 10nl	data6intergraph_org.xml	5982	7	207348	79084	58	0.536602632	0.01741451	0.22459671	0.221277993
oracle spacial	ROAD1.xml	2643	8	220333	65455	27	0.451313469	0.00094746	0.2484105	0.001747409	top 10nl	data6intergraph_org.xml	5982	7	207348	79084	58	0.536602632	0.01741451	0.22459671	0.221277993

对于这些测试文件我们与XMLPPM，Gzip两个压缩工具在下面两个实验指标上进行了比较：

1.压缩性能：压缩性能在本实验中可以从压缩率CR(Compression Ratio)上体现出来，下面的公式来计算压缩工具的压缩率：

通过上述公式我们可以发现，压缩工具的CR越小，证明它的压缩性能越高。

2.压缩效率：压缩效率可以通过压缩时间体现出来，压缩时间越高，证明此压缩工具的压缩效率越低。

图5表示各种压缩器的压缩率的比较，我们发现对于所有数据集来说，Gzip具有最大的CR值，证明Gzip的压缩率最低；XMLPPM的平均CR值比GSPRESS大，则前者的压缩性能没有后者高，所以GSPRESS具有最好的压缩性能。

我们分析出来得到这种结果的原因是：Gzip适合于所有文本，它采用滑动窗口的思想结合了动态霍夫曼编码和基于字符的LZ77方法，这两种方法的压缩性能都不是最高的；XMLPPM利用了基于预测的PPM[18]压缩工具作为它的后台压缩工具，它预定义了四种不同的容器收集文档中相应的数据，这样相同容器中数据相似程度较大，再利用PPM压缩可以使得压缩效果更高；GSPRESS采用了自适应的基于词的LZ77算法压缩结构，对占文档多数比例的坐标数据采用了增量压缩的方法，对属性采取了LCS方法，这些特性使得它压缩GML数据时具有非常好的压缩性能。

从图6可以看出，XMLPPM具有最长的压缩时间，这是因为PPM压缩数据基于马尔可夫链来预测压缩数据的概率值，在这个过程中需要进行大量的数学计算，这是很消耗时间的；对于Gzip来说，它在压缩过程中的滑动窗口长度只有32KB，这样切换窗口的速度很快，所以它的压缩时间是最少的；对于GSPRESS来说，虽然它采用Gzip作为后台压缩工具，但是它在前期处理中需要计算属性的LCS，增量压缩的处理也要花费大量的时间，所以它的压缩时间比Gzip长，但是它比XMLPPM的时间短。

从图7可以看出，XMLPPM具有最长的解压缩时间，因为PPM的解压缩的计算也是很复杂的；GSPress由于也要进行四个数据流的分别解压缩，并且要重新组合它们成原始文件，所以它的压缩时间也比较长；Gzip的解压缩时间最短，它具有最小的压缩时间和解压缩时间。

Claims

1.本发明为一种GML流压缩方法，其特征在于具体步骤如下：

(1)对于给定的GML文件，首先利用SAX解析GML文档，解析结果是一系列事件标记，根据不同的解析结果得到4个不同的数据流：结构数据流、属性数据流、坐标数据流和文本数据流；

(2)针对不同的数据流采用不同的压缩算法：

对于结构数据流，采用自适应的基于词的LZ77算法进行压缩，即在压缩算法中对结构数据利用自适应方法建立压缩字典，压缩字典初始化为空，遇到新的标签则放入字典，在输出流中输出原值；遇到出现过的标签则先缓存它，继续读取下一个标签，如果此标签和缓存组成的集合不在字典中或者此标签为新出现的话，则输出缓存中标签集合在字典中的索引，将此标签放入缓存；

对于属性数据流，尝试寻找相邻属性间的最大的公共子字符串；如果此字符串存在，也将其放入字典，利用相应的索引值代替这个最大公共子字符串；如果不存在，保留原值；此方法利用相同标签下相同属性值之间的相关性，取得属性和第一次遇到的属性间的最大公共子字符串，将其存入字典，利用其在字典中的索引代替此字符串达到压缩的目的；

对于坐标数据流我们采用增量压缩的方法进行压缩，该方法对于GML文档中的坐标数据，利用存储相邻坐标之间的差值而不是存储原坐标值，向压缩数据流中输出相邻坐标整数之间的差值，输出坐标小数部分的原值；

对于文本数据流，将原始值输入到压缩数据流中。

(3)利用上述不同的压缩算法进行压缩后得到不同的压缩流，最后合并成统一的压缩流后利用Gzip压缩；此压缩流在网络上进行传输，在解压缩方得到压缩的数据流后同时进行解压缩，根据数据流中的不同部分利用相对应的解压缩方法，最后组合成原始GML文件。