CN101030220A - 一种基于可扩展标记语言文档树的连接方法 - Google Patents

一种基于可扩展标记语言文档树的连接方法 Download PDF

Info

Publication number
CN101030220A
CN101030220A CN 200710065197 CN200710065197A CN101030220A CN 101030220 A CN101030220 A CN 101030220A CN 200710065197 CN200710065197 CN 200710065197 CN 200710065197 A CN200710065197 A CN 200710065197A CN 101030220 A CN101030220 A CN 101030220A
Authority
CN
China
Prior art keywords
xml document
tree
trees
node
language file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200710065197
Other languages
English (en)
Inventor
李国良
冯建华
王建勇
塔娜
周立柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN 200710065197 priority Critical patent/CN101030220A/zh
Publication of CN101030220A publication Critical patent/CN101030220A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本方法涉及一种基于可扩展标记语言文档树的连接方法,属于网络数据处理技术领域。首先设两棵可扩展标记语言文档树分别为T1<r,V1,E1>和T2<r,V2,E2>,两棵树具有相同的根结点;将两棵文档树的结点和边分别合并,得到可扩展标记语言文档树T<r,V,E>。本发明方法的优点是,在合并结点和边的过程中,采用了普通的集合并运算,不仅是基于R树的空间连接运算,而且适合各种XML应用的需求。本方法使得可扩展标记语言文档数据的查询处理和关键字检索技术有了严格的数学理论的支持,保证了各种可扩展标记语言文档树的变换方法的正确性。

Description

一种基于可扩展标记语言文档树的连接方法
技术领域
本发明涉及一种基于可扩展标记语言文档树的连接方法,属于网络数据处理技术领域。
背景技术
传统的关系数据库和可扩展标记语言(eXtensible Markup Language,以下简称XML)文档数据库的查询处理方法主要是利用结构化查询语言(以下简称SQL)和XML查询语言(XQuery)语言进行查询。首先,对非专业的数据库用户来说,这些语言很难理解和掌握;第二,这些查询语言都需要复杂的数据库模式的支持。因此,传统的数据库查询方法虽然强大,但是对大多数用户来说并不友好。
随着大量可扩展标记语言文档数据的出现,可扩展标记语言不再单纯的是为了增强应用程序对从网络上获得的文档的解释和操作能力,它已经逐步成为网上数据交换和数据表示的事实标准,而如何有效地存储和查询这些可扩展标记语言文档数据成为数据库界研究的一个热点问题。当前,关键字搜索已被广泛用于文本文档查询和万维网上的数据检索,数据库研究人员已经注意到了关键字搜索的便利之处,而且已经在关系数据库和可扩展标记语言文档数据库中引入了关键字搜索技术。
目前,解决可扩展标记语言文档数据关键字搜索的有效方法之一就是在可扩展标记语言文档树中找出相关关键字的全部的最小共同祖先(Lowest Common Ancestor,简称LCA)。要想为所查找的关键字找到一个更加有意义的LCA,就需要对可扩展标记语言文档数据进行各种变换,而基于可扩展标记语言文档树的连接运算就是这些变换中比较重要的一个,它对可扩展标记语言文档数据上的关键字检索提供了必要的技术支持。文献“Y.Huang,N.Jing.et al.Spatial Joins Using R-trees:Breadth-First Traversal with GlobalOptimizations.In Proceedings of the 23rd VLDB Conference,Athens,Greece,1997,pp.396-405”首先提出了基于R树的空间连接方法,解决空间数据的连接问题。该方法以宽度优先的顺序同时遍历两棵R,一次只处理一层数据的连接计算。虽然该方法在每一层都会创建一个中间的连接索引,并且利用排序、内存管理和缓冲管理实现了全局优化,提高了R树的下一层的连接计算能力,但是该方法只适合基于R树的空间连接,不具有普遍性。
发明内容
本发明的目的是提出一种基于可扩展标记语言文档树的连接方法,针对已有技术中对于基于R树的空间连接方法不具有普遍性的问题,将两棵同根文档树的所有结点和边合并,以形成一棵新的可扩展标记语言文档树。
本方法提出的基于可扩展标记语言文档树的连接方法,包括以下步骤:
(1)设两棵可扩展标记语言文档树分别为T1<r,V1,E1>和T2<r,V2,E2>,两棵树具有相同的根结点,其中r表示可扩展标记语言文档树的根结点,V1和V2分别表示两棵树的结点集合;
(2)将上述两棵文档树的结点和边分别合并,得到可扩展标记语言文档树T<r,V,E>,其中V=V1∪V2、E=E1∪E2,E1和E2分别表示上述两棵文档树的边的集合。
本发明提出的基于可扩展标记语言文档树的连接方法,其优点是,在合并结点和边的过程中,采用了普通的集合并运算,因此本方法的树连接运算能够适合各种XML应用的需求,而不仅仅是基于R树的空间连接运算问题,因此具有普遍意义。该方法以集合理论为基础,有严格的数学理论的支持,使得可扩展标记语言文档数据的查询处理和关键字检索技术有了严格的数学理论的支持,保证了各种可扩展标记语言文档树的变换方法的正确性。
附图说明
图1是可扩展标记语言文档树T1<r,V1,E1>的结构示意图。
图2是可扩展标记语言文档树T2<r,V2,E2>的结构示意图。
图3是使用本发明方法将可扩展标记语言文档树T1和T2连接后的结构示意图。
具体实施方式
本发明提出的基于可扩展标记语言文档树的连接方法,首先设两棵可扩展标记语言文档树分别为T1<r,V1,E1>和T2<r,V2,E2>,两棵树具有相同的根结点,其中r表示可扩展标记语言文档树的根结点,V1和V2分别表示两棵树的结点集合;将上述两棵文档树的结点和边分别合并,得到可扩展标记语言文档树T<r,V,E>,其中V=V1∪V2、E=E1∪E2,其中E1和E2分别表示上述两棵文档树的边的集合。
本发明的方法中,首先要求做连接运算的两棵树具有相同的根结点。假设这两棵树分别为T1<r,V1,E1>和T2<r,V2,E2>,其中r表示可扩展标记语言文档树的根结点,V1和V2分别表示两棵树的结点集合,E1和E2分别表示两棵树的边的集合。树T1<r,V1,E1>和树T2<r,V2,E2>的连接结果为一棵新的可扩展标记语言文档树T<r,V,E>,其中V=V1∪V2、E=E1∪E2。也就是说,连接的结果是将两棵树的结点和边分别合并,这样就得到了一棵更有利于查询处理或关键字检索的可扩展标记语言文档树。
以下是本发明方法的一个实施例:
假设用户给定的可扩展标记语言文档树分别如图1和图2所示,分别为T1<r,V1,E1>和T2<r,V2,E2>,连接的结果为如图3所示的树T<r,V,E>)。
(1)将可扩展标记语言文档树T1和T2的所有结点合并,即V=V1∪V2={r,n1,n2,n3,n4,n5,n6,n7}。
(2)将可扩展标记语言文档树T1和T2的所有边合并,即E=E1∪E2={<r,n1>,<r,n2>,<r,n3>,<r,n7>,<n1,n2>,<n1,n4>,<n1,n5>,<n2,n3>,<n2,n6>,<n2,n7>},其中<r,n1>表示从结点r到结点n1的边,其他类同。
最后,可扩展标记语言文档T1和T2的树连接的最终结果如图3所示。

Claims (1)

1、一种基于可扩展标记语言文档树的连接方法,其特征在于该方法包括以下步骤:
(1)设两棵可扩展标记语言文档树分别为T1<r,V1,E1>和T2<r,V2,E2>,两棵树具有相同的根结点,其中r表示可扩展标记语言文档树的根结点,V1和V2分别表示两棵树的结点集合;
(2)将上述两棵文档树的结点和边分别合并,得到可扩展标记语言文档树T<r,V,E>,其中V=V1∪V2、E=E1∪E2,E1和E2分别表示上述两棵文档树的边的集合。
CN 200710065197 2007-04-06 2007-04-06 一种基于可扩展标记语言文档树的连接方法 Pending CN101030220A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710065197 CN101030220A (zh) 2007-04-06 2007-04-06 一种基于可扩展标记语言文档树的连接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710065197 CN101030220A (zh) 2007-04-06 2007-04-06 一种基于可扩展标记语言文档树的连接方法

Publications (1)

Publication Number Publication Date
CN101030220A true CN101030220A (zh) 2007-09-05

Family

ID=38715566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710065197 Pending CN101030220A (zh) 2007-04-06 2007-04-06 一种基于可扩展标记语言文档树的连接方法

Country Status (1)

Country Link
CN (1) CN101030220A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226558A (zh) * 2012-01-27 2013-07-31 国际商业机器公司 基于文档模式的知识的文档合并的方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226558A (zh) * 2012-01-27 2013-07-31 国际商业机器公司 基于文档模式的知识的文档合并的方法和系统

Similar Documents

Publication Publication Date Title
Rao et al. PRIX: Indexing and querying XML using prufer sequences
Chen et al. BLAS: An efficient XPath processing system
CN107169033A (zh) 基于数据模式转换和并行框架的关系数据查询优化方法
CN106294695A (zh) 一种面向实时大数据搜索引擎的实现方法
CN102819600B (zh) 面向电力生产管理系统关系数据库的关键词搜索方法
CN111881160A (zh) 一种基于关系代数的等价展开方法的分布式查询优化方法
CN101183376A (zh) 基于关系代数范围运算的xml数据库查询方法
CN103345536B (zh) 一种语义关联索引方法
CN102760173A (zh) 一种自下而上的xml分支模式匹配方法
CN101030220A (zh) 一种基于可扩展标记语言文档树的连接方法
Chen et al. A bi-labeling based XPath processing system
Prakash et al. Efficient recursive XML query processing using relational database systems
CN110321456B (zh) 一种海量不确定xml近似查询方法
Alaoui et al. SQL to SPARQL mapping for RDF querying based on a new Efficient Schema Conversion Technique
Wang et al. XML-based data processing in network supported collaborative design
Di Martino An ontology matching approach to semantic web services discovery
Brenes et al. Trie Indexes for Efficient XML Query Evaluation.
Leela et al. Schema-conscious XML indexing
Zhang et al. An extended hybrid ontology approach to data integration
Posonia et al. Structural-based clustering technique of XML documents
Mlynkova et al. Adaptability of Methods for Processing XML Data using Relational Databases-the State of the Art and Open Problems.
CN108268517A (zh) 数据库中标签的管理方法及系统
Paparizos et al. The importance of algebra for XML query processing
CN1975738A (zh) 将可扩展标记语言文档树转化为紧凑查询树的方法
Lee et al. Memory-efficient query processing over XML fragment stream with fragment labeling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication