CN1845102A - 一种可扩展标记语言文档树的序列化方法 - Google Patents

一种可扩展标记语言文档树的序列化方法 Download PDF

Info

Publication number
CN1845102A
CN1845102A CN 200610078771 CN200610078771A CN1845102A CN 1845102 A CN1845102 A CN 1845102A CN 200610078771 CN200610078771 CN 200610078771 CN 200610078771 A CN200610078771 A CN 200610078771A CN 1845102 A CN1845102 A CN 1845102A
Authority
CN
China
Prior art keywords
node
xml document
document tree
sequence
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610078771
Other languages
English (en)
Inventor
冯建华
钱乾
李国良
王建勇
周立柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN 200610078771 priority Critical patent/CN1845102A/zh
Publication of CN1845102A publication Critical patent/CN1845102A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种可扩展标记语言文档树的序列化方法,属于网络数据处理技术领域。首先对可扩展标记语言文档树进行遍历,用深度优先遍历方法给文档树中的每个结点赋予一个惟一的编号,并使编号连续;用符号串i(Fi)表示其中的第i个结点的信息,Fi为第i个结点的父亲结点的编号;最后得到的序列为:1(F1)2(F2)…3(Fi)…n(Fn),序列中的文档结点按照编号从1到n的顺序依次排列。本发明的优点是,维护了文档树中结点之间的父子关系和兄弟结点之间的先后关系;将可扩展标记语言文档树的非叶结点和叶结点统一处理,因此使用方便;其大小与可扩展标记语言文档树的大小成线性关系,节省存储空间。

Description

一种可扩展标记语言文档树的序列化方法
技术领域
本发明涉及一种可扩展标记语言文档树的序列化方法,属于网络数据处理技术领域。
背景技术
随着大量可扩展标记语言(eXtensible Markup Language)数据的出现,可扩展标记语言不再单纯的是为了增强应用程序对从网络上获得的文档的解释和操作能力,它已经逐步成为网上数据交换和数据表示的事实标准,而如何有效地存储和查询这些可扩展标记语言数据成为学术界研究的一个热点。目前,解决可扩展标记语言文档树的查询问题的有效方法之一就是将可扩展标记语言文档树序列化,变成可扩展标记语言文档的结点标签序列,然后利用序列匹配的方法(类似于字符串匹配)来求解可扩展标记语言文档的查询问题。这就是所谓的可扩展标记语言查询的序列匹配问题。
序列匹配的核心思想是把可扩展标记语言的路径查询,尤其是带有分支路径查询的问题转化为序列之间的匹配问题。序列匹配方法首先要把查找对象和查找内容序列化,然后利用建立在序列上的特定索引完成序列之间的匹配任务,从而避免结构连接中的连接运算,以提高可扩展标记语言查询的性能。在序列匹配中可扩展标记语言文档树的序列化方法是整个方法的关键步骤。
有关可扩展标记语言文档树的序列化方法,最常用的有深度优先遍历(DFT:Depth-First Traversal)方法和PruferCode方法。文献“Praveen Rao,Bongki Moon.PRIX:Indexing and Querying XML Using Prüfer Sequences.In Proceedings of the 20thInternational Conference on Data Engineering.Boston,Massachusetts,USA,2004.pp.288-300”就采用了PruferCode的序列化方法。PruferCode是一种比较简单的树编码方法,如图1所示,一棵有6个结点的可扩展标记语言文档树被任意赋予编号1到6来表示6个不同的结点,然后每次删除树中所有叶结点中编号最小的结点,并记录下它的父亲结点编号。那么这些被记录下来的父亲结点编号构成的序列就是著名的PruferCode序列,也简称为Prufer序列,与图1对应的Prufer序列是(1,5,1,5,1)。
目前,Prufer序列的最大问题是不能保证连通性,即序列对应的可扩展标记语言文档子树是不连通的,而且Prufer序列没有维护序列中结点间的父子关系。另外,Prufer序列只能处理可扩展标记语言文档树的非叶结点,没有很好地统一非叶结点和叶结点的完整处理,这给很多实际的应用带来了不便之处。
发明内容
本发明的目的是提出一种可扩展标记语言文档树的序列化方法,针对Prufer序列存在的问题,用新方法产生一个序列,既保留可扩展标记语言文档树中结点间的父子关系和兄弟结点的先后顺序关系,使得序列与可扩展标记语言文档树能够一一对应,又能够维护可扩展标记语言文档树的非叶结点和叶结点的统一性,避免两种结点的不同处理给实际应用带来的不便。
本发明提出的可扩展标记语言文档树的序列化方法,包括以下步骤:
(1)对可扩展标记语言文档树进行遍历,用深度优先遍历方法给文档树中的每个结点赋予一个惟一的编号,并使编号连续;
(2)用符号串i(Fi)表示上述可扩展标记语言文档树中的第i个结点的信息,其中i为上述惟一编号,Fi为第i个结点的父亲结点的编号;
(3)上述可扩展标记语言文档树的序列为:1(F1)2(F2)…3(Fi)…n(Fn),序列中的文档结点按照编号从1到n的顺序依次排列,其中n表示可扩展标记语言文档树的结点个数。
上述方法中可扩展标记语言文档树的根结点的编号可以特别规定为1。
上述方法中可扩展标记语言文档树的根结点的父亲结点的编号可以特别规定为0。
本发明提出的可扩展标记语言文档树的序列化方法,具有以下优点:
1、用本发明方法得到的序列可以惟一表示一个有序的可扩展标记语言文档树,维护了文档树中结点之间的父子关系和兄弟结点之间的先后关系。
2、本发明方法将可扩展标记语言文档树的非叶结点和叶结点统一处理,给实际应用带来了极大的方便,例如对可扩展标记语言文档树的查询处理。
3、用本发明方法产生的序列,其大小与可扩展标记语言文档树的大小成线性关系,因此可以节省可扩展标记语言文档树的磁盘存储空间。
附图说明
图1是已有的用于Prufer序列的可扩展标记语言文档树示例。
图2是本发明的用于新序列的可扩展标记语言文档树示例。
具体实施方式
本发明提出的可扩展标记语言文档树的序列化方法,首先对可扩展标记语言文档树进行遍历,用深度优先遍历方法给文档树中的每个结点赋予一个惟一的编号,并使编号连续;用符号串i(Fi)表示上述可扩展标记语言文档树中的第i个结点的信息,其中i为上述惟一编号,Fi为第i个结点的父亲结点的编号;上述可扩展标记语言文档树的序列为:1(F1)2(F2)…3(Fi)…n(Fn),序列中的文档结点按照编号从1到n的顺序依次排列,其中n表示可扩展标记语言文档树的结点个数。
上述方法中可扩展标记语言文档树的根结点的编号可以特别规定为1,根结点的父亲结点的编号可以特别规定为0。
以下是本发明的一个实施例。
正如上面所描述的,将如图2所示的这样一个可扩展标记语言文档树序列化的详细过程如下:
(1)根结点R的编号为1,按照深度优先遍历方法对文档树的其他结点依次进行编号:
a)D结点的编号为2;
b)A结点的编号为3;
c)B结点的编号为4;
d)E结点的编号为5;
e)C结点的编号为6。
(2)由于根结点R没有父亲结点,因此F1=0。根据图2的可扩展标记语言文档树结构可以得到:
a)D结点的父亲结点为结点R,其编号为1,即F2=1;
b)A结点的父亲结点为结点R,其编号为1,即F3=1;
c)B结点的父亲结点为结点A,其编号为3,即F4=3;
d)E结点的父亲结点为结点A,其编号为3,即F5=3;
e)C结点的父亲结点为结点R,其编号为1,即F6=1。
(3)将表示结点的符号串i(Fi)按照i从1到6的顺序依次排列,就可以得到图2所示的可扩展标记语言文档树的序列为:1(0)2(1)3(1)4(3)5(3)6(1)。

Claims (3)

1、一种可扩展标记语言文档树的序列化方法,其特征在于该方法包括以下步骤:
(1)对可扩展标记语言文档树进行遍历,用深度优先遍历方法给文档树中的每个结点赋予一个惟一的编号,并使编号连续;
(2)用符号串i(Fi)表示上述可扩展标记语言文档树中的第i个结点的信息,其中i为上述惟一编号,Fi为第i个结点的父亲结点的编号;
(3)上述可扩展标记语言文档树的序列为:1(F1)2(F2)…3(Fi)…n(Fn),序列中的文档结点按照编号从1到n的顺序依次排列,其中n表示可扩展标记语言文档树的结点个数。
2、如权利要求1所述的方法,其特征在于其中可扩展标记语言文档树的根结点的编号为1。
3、如权利要求1所述的方法,其特征在于其中可扩展标记语言文档树的根结点的父亲结点的编号为0。
CN 200610078771 2006-05-12 2006-05-12 一种可扩展标记语言文档树的序列化方法 Pending CN1845102A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610078771 CN1845102A (zh) 2006-05-12 2006-05-12 一种可扩展标记语言文档树的序列化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610078771 CN1845102A (zh) 2006-05-12 2006-05-12 一种可扩展标记语言文档树的序列化方法

Publications (1)

Publication Number Publication Date
CN1845102A true CN1845102A (zh) 2006-10-11

Family

ID=37064030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610078771 Pending CN1845102A (zh) 2006-05-12 2006-05-12 一种可扩展标记语言文档树的序列化方法

Country Status (1)

Country Link
CN (1) CN1845102A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446983B (zh) * 2009-01-12 2011-02-02 腾讯科技(深圳)有限公司 一种实现移动终端获取网页的方法、系统和设备
CN101211361B (zh) * 2006-12-28 2011-07-06 富士施乐株式会社 信息处理装置、信息处理系统和信息处理方法
CN104484337B (zh) * 2014-11-19 2018-09-14 西安电子科技大学 Xml文档的存储方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211361B (zh) * 2006-12-28 2011-07-06 富士施乐株式会社 信息处理装置、信息处理系统和信息处理方法
CN101446983B (zh) * 2009-01-12 2011-02-02 腾讯科技(深圳)有限公司 一种实现移动终端获取网页的方法、系统和设备
CN104484337B (zh) * 2014-11-19 2018-09-14 西安电子科技大学 Xml文档的存储方法

Similar Documents

Publication Publication Date Title
CN1297936C (zh) 用来比较两个计算机文件的方法及系统
CN102184222B (zh) 一种在大数据量存储中快速检索的方法
CN104750761B (zh) 分子结构数据库的建立方法及搜索方法
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
CN109902142B (zh) 一种基于编辑距离的字符串模糊匹配和查询方法
CN101079032A (zh) 数字串模糊匹配的方法
CN1737796A (zh) 数字音乐旋律的跨越式高速匹配方法
CN101136013A (zh) 一种在全文检索系统中快速更新数据域的方法
CN100397397C (zh) 基于关系数据库的xml数据存储与访问方法
CN109918682A (zh) 一种文本标注方法及装置
CN104391908A (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN109446293B (zh) 一种并行的高维近邻查询方法
CN1845102A (zh) 一种可扩展标记语言文档树的序列化方法
CN1752970A (zh) 数字音乐旋律的跨越式高速匹配装置
CN106096014A (zh) 基于dmr的混合长度文本集的文本聚类方法
Catania et al. Lazy XML updates: laziness as a virtue, of update and structural join efficiency
CN116090413A (zh) 一种基于序列化的通用rdf数据压缩方法
CN114612071A (zh) 一种基于知识图谱的数据管理方法
CN101499081A (zh) 文字语言结构树的构建方法
CN110321456B (zh) 一种海量不确定xml近似查询方法
Liu et al. A novel three-phase XML twig pattern matching algorithm based on version tree
CN1841372A (zh) 帮用户根据非结构化信息源形成结构化图表的方法和设备
CN108268517A (zh) 数据库中标签的管理方法及系统
CN1204516C (zh) 数据查寻方法
CN109033215A (zh) 基于互相关函数的数据信息储存方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication