CN101030220A

CN101030220A - 一种基于可扩展标记语言文档树的连接方法

Info

Publication number: CN101030220A
Application number: CN 200710065197
Authority: CN
Inventors: 李国良; 冯建华; 王建勇; 塔娜; 周立柱
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2007-04-06
Filing date: 2007-04-06
Publication date: 2007-09-05

Abstract

本方法涉及一种基于可扩展标记语言文档树的连接方法，属于网络数据处理技术领域。首先设两棵可扩展标记语言文档树分别为T₁<r，V₁，E₁>和T₂<r，V₂，E₂>，两棵树具有相同的根结点；将两棵文档树的结点和边分别合并，得到可扩展标记语言文档树T<r，V，E>。本发明方法的优点是，在合并结点和边的过程中，采用了普通的集合并运算，不仅是基于R树的空间连接运算，而且适合各种XML应用的需求。本方法使得可扩展标记语言文档数据的查询处理和关键字检索技术有了严格的数学理论的支持，保证了各种可扩展标记语言文档树的变换方法的正确性。

Description

一种基于可扩展标记语言文档树的连接方法

技术领域

本发明涉及一种基于可扩展标记语言文档树的连接方法，属于网络数据处理技术领域。

背景技术

传统的关系数据库和可扩展标记语言(eXtensible Markup Language，以下简称XML)文档数据库的查询处理方法主要是利用结构化查询语言(以下简称SQL)和XML查询语言(XQuery)语言进行查询。首先，对非专业的数据库用户来说，这些语言很难理解和掌握；第二，这些查询语言都需要复杂的数据库模式的支持。因此，传统的数据库查询方法虽然强大，但是对大多数用户来说并不友好。

随着大量可扩展标记语言文档数据的出现，可扩展标记语言不再单纯的是为了增强应用程序对从网络上获得的文档的解释和操作能力，它已经逐步成为网上数据交换和数据表示的事实标准，而如何有效地存储和查询这些可扩展标记语言文档数据成为数据库界研究的一个热点问题。当前，关键字搜索已被广泛用于文本文档查询和万维网上的数据检索，数据库研究人员已经注意到了关键字搜索的便利之处，而且已经在关系数据库和可扩展标记语言文档数据库中引入了关键字搜索技术。

目前，解决可扩展标记语言文档数据关键字搜索的有效方法之一就是在可扩展标记语言文档树中找出相关关键字的全部的最小共同祖先(Lowest Common Ancestor，简称LCA)。要想为所查找的关键字找到一个更加有意义的LCA，就需要对可扩展标记语言文档数据进行各种变换，而基于可扩展标记语言文档树的连接运算就是这些变换中比较重要的一个，它对可扩展标记语言文档数据上的关键字检索提供了必要的技术支持。文献“Y.Huang，N.Jing.et al.Spatial Joins Using R-trees：Breadth-First Traversal with GlobalOptimizations.In Proceedings of the 23rd VLDB Conference，Athens，Greece，1997，pp.396-405”首先提出了基于R树的空间连接方法，解决空间数据的连接问题。该方法以宽度优先的顺序同时遍历两棵R，一次只处理一层数据的连接计算。虽然该方法在每一层都会创建一个中间的连接索引，并且利用排序、内存管理和缓冲管理实现了全局优化，提高了R树的下一层的连接计算能力，但是该方法只适合基于R树的空间连接，不具有普遍性。

发明内容

本发明的目的是提出一种基于可扩展标记语言文档树的连接方法，针对已有技术中对于基于R树的空间连接方法不具有普遍性的问题，将两棵同根文档树的所有结点和边合并，以形成一棵新的可扩展标记语言文档树。

本方法提出的基于可扩展标记语言文档树的连接方法，包括以下步骤：

(1)设两棵可扩展标记语言文档树分别为T₁<r，V₁，E₁>和T₂<r，V₂，E₂>，两棵树具有相同的根结点，其中r表示可扩展标记语言文档树的根结点，V₁和V₂分别表示两棵树的结点集合；

(2)将上述两棵文档树的结点和边分别合并，得到可扩展标记语言文档树T<r，V，E>，其中V＝V₁∪V₂、E＝E₁∪E₂，E₁和E₂分别表示上述两棵文档树的边的集合。

本发明提出的基于可扩展标记语言文档树的连接方法，其优点是，在合并结点和边的过程中，采用了普通的集合并运算，因此本方法的树连接运算能够适合各种XML应用的需求，而不仅仅是基于R树的空间连接运算问题，因此具有普遍意义。该方法以集合理论为基础，有严格的数学理论的支持，使得可扩展标记语言文档数据的查询处理和关键字检索技术有了严格的数学理论的支持，保证了各种可扩展标记语言文档树的变换方法的正确性。

附图说明

图1是可扩展标记语言文档树T₁<r，V₁，E₁>的结构示意图。

图2是可扩展标记语言文档树T₂<r，V₂，E₂>的结构示意图。

图3是使用本发明方法将可扩展标记语言文档树T₁和T₂连接后的结构示意图。

具体实施方式

本发明提出的基于可扩展标记语言文档树的连接方法，首先设两棵可扩展标记语言文档树分别为T₁<r，V₁，E₁>和T₂<r，V₂，E₂>，两棵树具有相同的根结点，其中r表示可扩展标记语言文档树的根结点，V₁和V₂分别表示两棵树的结点集合；将上述两棵文档树的结点和边分别合并，得到可扩展标记语言文档树T<r，V，E>，其中V＝V₁∪V₂、E＝E₁∪E₂，其中E₁和E₂分别表示上述两棵文档树的边的集合。

本发明的方法中，首先要求做连接运算的两棵树具有相同的根结点。假设这两棵树分别为T₁<r，V₁，E₁>和T₂<r，V₂，E₂>，其中r表示可扩展标记语言文档树的根结点，V₁和V₂分别表示两棵树的结点集合，E₁和E₂分别表示两棵树的边的集合。树T₁<r，V₁，E₁>和树T₂<r，V₂，E₂>的连接结果为一棵新的可扩展标记语言文档树T<r，V，E>，其中V＝V₁∪V₂、E＝E₁∪E₂。也就是说，连接的结果是将两棵树的结点和边分别合并，这样就得到了一棵更有利于查询处理或关键字检索的可扩展标记语言文档树。

以下是本发明方法的一个实施例：

假设用户给定的可扩展标记语言文档树分别如图1和图2所示，分别为T₁<r，V₁，E₁>和T₂<r，V₂，E₂>，连接的结果为如图3所示的树T<r，V，E>)。

(1)将可扩展标记语言文档树T₁和T₂的所有结点合并，即V＝V₁∪V₂＝{r，n₁，n₂，n₃，n₄，n₅，n₆，n₇}。

(2)将可扩展标记语言文档树T₁和T₂的所有边合并，即E＝E₁∪E₂＝{<r，n₁>，<r，n₂>，<r，n₃>，<r，n₇>，<n₁，n₂>，<n₁，n₄>，<n₁，n₅>，<n₂，n₃>，<n₂，n₆>，<n₂，n₇>}，其中<r，n₁>表示从结点r到结点n₁的边，其他类同。

最后，可扩展标记语言文档T₁和T₂的树连接的最终结果如图3所示。

Claims

1、一种基于可扩展标记语言文档树的连接方法，其特征在于该方法包括以下步骤：