CN103186674A

CN103186674A - 一种基于XML的Web数据快速查询方法

Info

Publication number: CN103186674A
Application number: CN2013101121780A
Authority: CN
Inventors: 张砚波
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2013-04-02
Filing date: 2013-04-02
Publication date: 2013-07-03

Abstract

本发明提供一种基于XML的Web数据快速查询方法，在现在Web领域，对数据的快速查找和响应成为影响用户使用的重要指标，而大部分的Web的数据是以XML提供的文档结构来实现的，针对XML匹配等方面存在的问题提出了一种灵活的模式树匹配方法HPM(High-Performance-Match)，该方法能够在XML中直接找到一个查询模式树的匹配结果，所有的中间结果集在堆栈中保存起来，通过连接运算很好的形成最后的查询匹配结果，提高了查询匹配的成功概率，达到了快速响应用户需求的目的。

Description

一种基于XML的Web数据快速查询方法

技术领域

本发明涉及计算机应用技术领域,具体地说是一种基于XML的Web数据快速查询方法。

背景技术

目前，Web应用中如何在XML文档中高效的查询是一个关键问题，尤其是路径表达式的计算。在XPath中使用传统的路径表达式来浏览XML文档的嵌套层次结构，而在XQuery查询语言中，传统的路径表达式不仅是结构化文档上的一个基本操作，而且成为几乎所有复杂操作的组成部分，但是这种XML查询计算的方法需要遍历整个文档，效率低下。

在现阶段，这种传统的XML查询算法以及策略主要存在以下３个方面的问题：

1）这些算法大都是基于先匹配后合并步骤进行查询匹配处理，缺点是产生了大量无用的中间结果，产生了许多无用的重复匹配；

2）现在算法存在着传统索引效率不高的问题，导致了查询的效率下降比较大；

3）对查询结果的连接算法存在着输入集合中的元素必须有序，传统的索引结构是无序的，因此会产生大量不必要的重复匹配，引起性能的下降。

发明内容

本发明的目的是提供一种基于XML的Web数据快速查询方法。

本发明的目的是按以下方式实现的，通过双层的双向树索引结构HPT在XML中直接找到一个查询模式树的匹配结果，所有的中间结果集在堆栈中保存起来，最终形成最后的查询匹配结果，以此提高查询匹配的成功概率，达到了快速响应用户需求的目的，具体内容如下：

两层的HPT双向树索引结构，HPT是High-Performance-Tree的英文缩写，HPT双向树索引结构，包括组层和元素层，元素层提供详细的子节点到父节点的连接，能够方便的找到相关节点的父节点，因此双向树索引结构HPT是一种能够处理XML结构查询的快速索引，组层内的元素索引是基于组的，这样方便结构查询时根据组进行，去掉多余的查询空间，减少匹配次数能够提高效率和方便查询，传统的路径索引方法是同一个组内元素是无序的，而双向树索引结构HPT是把具有相同路径信息的节点放到一个组内，也就是说，如果两个节点是等同的，在该索引结构中就把它们放到一个组内，这样就能大大的提高XML数据的查询效率，HPT索引结构的定义及具体实现方式如下：

HPT中的每个节点g称为一个组，每个组的信息包括标识符g.id和组名称g.name，查询匹配时，根据查询模式树中节点名称和g.name进行匹配，第一，每个组包括一个元素数组g.pid[]，在组中用一个数组保存组中元素的父节点信息，第二，HPT中边是有方向的，假设有边g1—>g2，那么组g1叫做组g2的父组，组g2叫做组g1的子组；第三，组g中数组g.pid[]的索引下标为k的数值表示组g中的第(k+l)个元素，g.Pid[k]的值表示组中第(k+l)个元素的父节点在组g的父组中的数组的索引位置；

为了提高查询效率，减少匹配次数采用HPM模式树匹配方法进行查询模式树的匹配，HPM是High-Performance-Match的英文缩写，HPM模式树匹配方法如下：

设定查询HPM模式树节点q和XML数据源中节点p，如果q是叶子节点，且节点p和节点q标记相同，则称p和q相匹配；如果q是非叶子节点，同时存在节点p和以p为根结点的子树和查询模式树中节点q以及以q为根结点的子树相匹配，那么p和q相匹配，在HPM模式树匹配方法中，对查询模式树中的每一个节点，设计一个栈和一个列表，栈用来存储和查询模式树节点相匹配的数据源中的节点集合，列表存储的是查询模式树对应的HPT中组p中的元素数组，Gpàcurrent表示目前正在匹配的组中的节点，该方法的基本实现流程为：

给一个查询模式树和生成的数据源HPT，首先调用广度优先算法把查询模式树中的节点压栈，然后在栈上调用HPM模式树匹配方法，在数据源中找到与查询模式树中节点相匹配的节点，并且把结果存储在堆栈中，最后调用函数把中间结果连接起来得到与查询模式树相匹配的节点集合；

HPM模式树匹配算法的具体实现方式如下：

首先利用广度优先对查询模式树进行遍历，然后对遍历到的节点压栈，得到查询模式树栈S， HPM式树匹配算法是用来查找查询模式树栈S在XML数据源中相匹配的节点，在HPM式树匹配算法中，对应一个查询模式树的q节点，Sq.value表示栈Sq中Gq.value的值集合，它表示栈Sq中元素的父节点在父组中的位置，再HPM模式树匹配算法判断查询模式树节点q是不是叶子节点；

判断方法如下，首先将查询模式树节点q出栈，如果q是叶子节点，那么在数据源中对应的组Gq中节点都和q相匹配，则需要把组q中所有节点都放入栈Sq；如果q不是叶子节点，需要首先查找节点q的所有子节点qi(i=0，…N-1)和子节点数目N，然后遍历与查询节点q相匹配的组Gq，对组的每一个节点Gq->Current进行匹配，判断节点Gq->Current是否存在N个子节点分别和qi匹配，如果存在，说明当前节点Gq->Current满足以q为根结点的查询模式树分支匹配，则把节点对(Gq->Current，Gq->Current.value)放入栈Sq中，HPM式树匹配算法执行后，所有满足子匹配的节点都放入对应的栈中。

本发明的有益效果是：针对XML读取访问等方面存在的问题提出了一种灵活的模式树匹配算法HPM，该算法基于文中设计的一种两层的双向树索引结构HPT (High-Performance-Tree)，能够在XML文档中直接找到一个查询模式树的匹配结果，不会产生无用的中间结果集，然后将中间结果集保存在堆栈中，然后通过连接运算形成最后的查询匹配结果，提高了查询匹配的成功概率。

附图说明

图1是一个简单的XML文档拓扑结构示例图；

图2是传统索引结构图；

图3是HPT索引结构示例图；

图4是HPM查询模式树；

图5是HPM堆栈示意图；

图6是查询模式树中间匹配栈结构示意图；

图7是匹配结果栈结构示例图。

具体实施方式

本发明中两层的双向树索引结构HPT的主要实现思路为：

HPT是本文中设计的一种两层的双向树索引结构，包括组层和元素层，该索引结构是一个两层树结构，组层可以提供一个简单的结构关系，元素层提供详细的子节点到父节点的连接，能够方便的找到相关节点的父节点，因此HPT是一种能够处理XML结构查询的快速索引。组层内的元素索引是基于组的，这样方便结构查询时根据组进行，可以去掉多余的查询空间，减少匹配次数能够提高效率和方便查询。HPT与传统的路径索引方法的同一个组内元素是无序的相比，HPT索引把具有相同路径信息的节点放到一个组内。也就是说，如果两个节点是等同的，在该索引结构中就把它们放到一个组内，这样就可以大大的提高XML数据的查询效率。

本发明中HPM模式树匹配算法的主要实现思路为：

HPM模式树匹配算法是本专利中为提高查询效率设计的一个算法。我们设定查询模式树节点q和XML数据源中节点p，如果q是叶子节点，且节点p和节点q标记相同，则称p和q相匹配；如果q是非叶子节点，同时存在节点p和以p为根结点的子树和查询模式树中节点q以及以q为根结点的子树相匹配，那么p和q相匹配。在HPM算法中，对查询模式树中的每一个节点，我们设计了一个栈和一个列表，栈用来存储和查询模式树节点相匹配的数据源中的节点集合，列表存储的是查询模式树对应的HPT中组p中的元素数组。Gpàcurrent表示目前正在匹配的组中的节点。该算法基本实现流程为：给一个查询模式树和生成的数据源HPT，首先调用广度优先算法把查询模式树中的节点压栈，然后在栈上调用HPM方法，在数据源中找到与查询模式树中节点相匹配的节点，并且把结果存储在堆栈中，最后调用函数把中间结果连接起来得到与查询模式树相匹配的节点集合。

本发明中涉及的HPT索引结构的主要定义及实现方式如下： HPT中的每个节点g称为一个组，每个组的信息包括标识符g.id和组名称g.name，查询匹配时，根据查询模式树中节点名称和g.name进行匹配，例如，1:a。每个组包括一个元素数组g.pid[]，在组中用一个数组保存组中元素的父节点信息，第二，HPT中边是有方向的，假设有边g1—>g2，那么组g1叫做组g2的父组，组g2叫做组g1的子组；第三，组g中数组g.pid[]的索引下标为k的数值表示组g中的第(k+l)个元素，g.Pid[k]的值表示组中第(k+l)个元素的父节点在组g的父组中的数组的索引位置。

实施例

利用HPT索引可以解决高效查询问题，它用数组索引表示元素信息和利用数组的值指向父元素。图2中HPT索引结构给出了XML数据树(图1)的HPT表示T。在T中，保存的是Id的相对信息。例如，组2中的节点3、7、13、15在HPT中被转化为0、l、2、3，通过这些相对位置可以直接映射为数组索引，HPT中的每个组g都和一个数组相关联，表示为T.grps[g].pid[]。数组中的索引k表示一个节点，简称为node-k，并且值T.grps[g].pid[k]指向父节点。比如，在查询条件a/c[d and e]中，查询条件是找到满足条件父节点为a和包含子节点d和e的a节点。在图2中包括数组索引1、2和3，则满足条件的节点就是node-1 node-2 node-3，通过HPT索引结构，能够提高查询速率。

本发明中涉及的模式树匹配算法HPM的主要实现方式如下：

HPM算法首先利用广度优先对查询模式树进行遍历，然后对遍历到的节点压栈，得到查询模式树栈S。例如，对图3中查询模式树遍历之后压栈为图3。HPM方法是用来查找查询模式树栈S在XML数据源中相匹配的节点。在HPM该方法中，对应一个查询模式树的q节点，Sq.value表示栈Sq中Gq.value的值集合，它表示栈Sq中元素的父节点在父组中的位置。IsLeaf(q)方法判断查询模式树节点q是不是叶子节点。

下面详细说明HPM(S)方法，首先将查询模式树节点q出栈，如果q是叶子节点，那么在数据源中对应的组Gq中节点都和q相匹配，则需要把组q中所有节点都放入栈Sq；如果q不是叶子节点，需要首先查找节点q的所有子节点qi(i=0，…N-1)和子节点数目N，然后遍历与查询节点q相匹配的组Gq，对组的每一个节点Gq->Current进行匹配，判断节点Gq->Current是否存在N个子节点分别和qi匹配，如果存在，说明当前节点Gq->Current满足以q为根结点的查询模式树分支匹配，则把节点对(Gq->Current，Gq->Current.value)放入栈Sq中。方法HPM( )执行后，所有满足子匹配的节点都放入对应的栈中。

例如，查询模式树(图3)在数据源(图2)执行HPM方法后子匹配结果为图4所示。然后把栈中的子节点匹配结果连接起来，得到在数据源和查询模式树相匹配的节点序列如图4所示，整个HPM算法执行结束，一共在数据源中得到4个匹配结果。如果需要得到查询模式树的子树其它匹配，也可以直接通过图4，调用合适的连接运算，得到匹配结果，不必要再重新执行一次算法HPM。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种基于XML的Web数据快速查询方法, 其特征在于通过双层的双向树索引结构HPT在XML中直接找到一个查询模式树的匹配结果，所有的中间结果集在堆栈中保存起来，最终形成最后的查询匹配结果，以此提高查询匹配的成功概率，达到了快速响应用户需求的目的，具体内容如下：

HPT双向树索引结构中的每个节点g称为一个组，每个组的信息包括标识符g.id和组名称g.name，查询匹配时，根据查询模式树中节点名称和g.name进行匹配，第一，每个组包括一个元素数组g.pid[]，在组中用一个数组保存组中元素的父节点信息，第二，HPT中边是有方向的，假设有边g1—>g2，那么组g1叫做组g2的父组，组g2叫做组g1的子组；第三，组g中数组g.pid[]的索引下标为k的数值表示组g中的第(k+l)个元素，g.Pid[k]的值表示组中第(k+l)个元素的父节点在组g的父组中的数组的索引位置；

HPM模式树匹配算法的具体实现方式如下：