CN103186674A - 一种基于XML的Web数据快速查询方法 - Google Patents

一种基于XML的Web数据快速查询方法 Download PDF

Info

Publication number
CN103186674A
CN103186674A CN2013101121780A CN201310112178A CN103186674A CN 103186674 A CN103186674 A CN 103186674A CN 2013101121780 A CN2013101121780 A CN 2013101121780A CN 201310112178 A CN201310112178 A CN 201310112178A CN 103186674 A CN103186674 A CN 103186674A
Authority
CN
China
Prior art keywords
node
group
tree
query pattern
hpm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013101121780A
Other languages
English (en)
Inventor
张砚波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2013101121780A priority Critical patent/CN103186674A/zh
Publication of CN103186674A publication Critical patent/CN103186674A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种基于XML的Web数据快速查询方法,在现在Web领域,对数据的快速查找和响应成为影响用户使用的重要指标,而大部分的Web的数据是以XML提供的文档结构来实现的,针对XML匹配等方面存在的问题提出了一种灵活的模式树匹配方法HPM(High-Performance-Match),该方法能够在XML中直接找到一个查询模式树的匹配结果,所有的中间结果集在堆栈中保存起来,通过连接运算很好的形成最后的查询匹配结果,提高了查询匹配的成功概率,达到了快速响应用户需求的目的。

Description

一种基于XML的Web数据快速查询方法
技术领域
本发明涉及计算机应用技术领域,具体地说是一种基于XML的Web数据快速查询方法。 
背景技术
目前,Web应用中如何在XML文档中高效的查询是一个关键问题,尤其是路径表达式的计算。在XPath中使用传统的路径表达式来浏览XML文档的嵌套层次结构,而在XQuery查询语言中,传统的路径表达式不仅是结构化文档上的一个基本操作,而且成为几乎所有复杂操作的组成部分,但是这种XML查询计算的方法需要遍历整个文档,效率低下。 
在现阶段,这种传统的XML查询算法以及策略主要存在以下3个方面的问题: 
1)这些算法大都是基于先匹配后合并步骤进行查询匹配处理,缺点是产生了大量无用的中间结果,产生了许多无用的重复匹配;
2)现在算法存在着传统索引效率不高的问题,导致了查询的效率下降比较大;
3)对查询结果的连接算法存在着输入集合中的元素必须有序,传统的索引结构是无序的,因此会产生大量不必要的重复匹配,引起性能的下降。
发明内容
本发明的目的是提供一种基于XML的Web数据快速查询方法。 
本发明的目的是按以下方式实现的,通过双层的双向树索引结构HPT在XML中直接找到一个查询模式树的匹配结果,所有的中间结果集在堆栈中保存起来,最终形成最后的查询匹配结果,以此提高查询匹配的成功概率,达到了快速响应用户需求的目的,具体内容如下: 
两层的HPT双向树索引结构,HPT是High-Performance-Tree的英文缩写,HPT双向树索引结构,包括组层和元素层,元素层提供详细的子节点到父节点的连接,能够方便的找到相关节点的父节点,因此双向树索引结构HPT是一种能够处理XML结构查询的快速索引,组层内的元素索引是基于组的,这样方便结构查询时根据组进行,去掉多余的查询空间,减少匹配次数能够提高效率和方便查询,传统的路径索引方法是同一个组内元素是无序的,而双向树索引结构HPT是把具有相同路径信息的节点放到一个组内,也就是说,如果两个节点是等同的,在该索引结构中就把它们放到一个组内,这样就能大大的提高XML数据的查询效率,HPT索引结构的定义及具体实现方式如下:
HPT中的每个节点g称为一个组,每个组的信息包括标识符g.id和组名称g.name,查询匹配时,根据查询模式树中节点名称和g.name进行匹配,第一,每个组包括一个元素数组g.pid[],在组中用一个数组保存组中元素的父节点信息,第二,HPT中边是有方向的,假设有边g1—>g2,那么组g1叫做组g2的父组,组g2叫做组g1的子组;第三,组g中数组g.pid[]的索引下标为k的数值表示组g中的第(k+l)个元素,g.Pid[k]的值表示组中第(k+l)个元素的父节点在组g的父组中的数组的索引位置;
为了提高查询效率,减少匹配次数采用HPM模式树匹配方法进行查询模式树的匹配,HPM是High-Performance-Match的英文缩写,HPM模式树匹配方法如下:
设定查询HPM模式树节点q和XML数据源中节点p,如果q是叶子节点,且节点p和节点q标记相同,则称p和q相匹配;如果q是非叶子节点,同时存在节点p和以p为根结点的子树和查询模式树中节点q以及以q为根结点的子树相匹配,那么p和q相匹配,在HPM模式树匹配方法中,对查询模式树中的每一个节点,设计一个栈和一个列表,栈用来存储和查询模式树节点相匹配的数据源中的节点集合,列表存储的是查询模式树对应的HPT中组p中的元素数组,Gpàcurrent表示目前正在匹配的组中的节点,该方法的基本实现流程为:
给一个查询模式树和生成的数据源HPT,首先调用广度优先算法把查询模式树中的节点压栈,然后在栈上调用HPM模式树匹配方法,在数据源中找到与查询模式树中节点相匹配的节点,并且把结果存储在堆栈中,最后调用函数把中间结果连接起来得到与查询模式树相匹配的节点集合;
HPM模式树匹配算法的具体实现方式如下:
首先利用广度优先对查询模式树进行遍历,然后对遍历到的节点压栈,得到查询模式树栈S, HPM式树匹配算法是用来查找查询模式树栈S在XML数据源中相匹配的节点,在HPM式树匹配算法中,对应一个查询模式树的q节点,Sq.value表示栈Sq中Gq.value的值集合,它表示栈Sq中元素的父节点在父组中的位置,再HPM模式树匹配算法判断查询模式树节点q是不是叶子节点; 
判断方法如下,首先将查询模式树节点q出栈,如果q是叶子节点,那么在数据源中对应的组Gq中节点都和q相匹配,则需要把组q中所有节点都放入栈Sq;如果q不是叶子节点,需要首先查找节点q的所有子节点qi(i=0,…N-1)和子节点数目N,然后遍历与查询节点q相匹配的组Gq,对组的每一个节点Gq->Current进行匹配,判断节点Gq->Current是否存在N个子节点分别和qi匹配,如果存在,说明当前节点Gq->Current满足以q为根结点的查询模式树分支匹配,则把节点对(Gq->Current,Gq->Current.value)放入栈Sq中,HPM式树匹配算法执行后,所有满足子匹配的节点都放入对应的栈中。
本发明的有益效果是:针对XML读取访问等方面存在的问题提出了一种灵活的模式树匹配算法HPM,该算法基于文中设计的一种两层的双向树索引结构HPT (High-Performance-Tree),能够在XML文档中直接找到一个查询模式树的匹配结果,不会产生无用的中间结果集,然后将中间结果集保存在堆栈中,然后通过连接运算形成最后的查询匹配结果,提高了查询匹配的成功概率。 
附图说明
图1是一个简单的XML文档拓扑结构示例图; 
图2是传统索引结构图;
图3是HPT索引结构示例图;
图4是HPM查询模式树;
图5是HPM堆栈示意图;
图6是查询模式树中间匹配栈结构示意图;
图7是匹配结果栈结构示例图。
具体实施方式
本发明中两层的双向树索引结构HPT的主要实现思路为: 
HPT是本文中设计的一种两层的双向树索引结构,包括组层和元素层,该索引结构是一个两层树结构,组层可以提供一个简单的结构关系,元素层提供详细的子节点到父节点的连接,能够方便的找到相关节点的父节点,因此HPT是一种能够处理XML结构查询的快速索引。组层内的元素索引是基于组的,这样方便结构查询时根据组进行,可以去掉多余的查询空间,减少匹配次数能够提高效率和方便查询。HPT与传统的路径索引方法的同一个组内元素是无序的相比,HPT索引把具有相同路径信息的节点放到一个组内。也就是说,如果两个节点是等同的,在该索引结构中就把它们放到一个组内,这样就可以大大的提高XML数据的查询效率。
本发明中HPM模式树匹配算法的主要实现思路为: 
HPM模式树匹配算法是本专利中为提高查询效率设计的一个算法。我们设定查询模式树节点q和XML数据源中节点p,如果q是叶子节点,且节点p和节点q标记相同,则称p和q相匹配;如果q是非叶子节点,同时存在节点p和以p为根结点的子树和查询模式树中节点q以及以q为根结点的子树相匹配,那么p和q相匹配。在HPM算法中,对查询模式树中的每一个节点,我们设计了一个栈和一个列表,栈用来存储和查询模式树节点相匹配的数据源中的节点集合,列表存储的是查询模式树对应的HPT中组p中的元素数组。Gpàcurrent表示目前正在匹配的组中的节点。该算法基本实现流程为:给一个查询模式树和生成的数据源HPT,首先调用广度优先算法把查询模式树中的节点压栈,然后在栈上调用HPM方法,在数据源中找到与查询模式树中节点相匹配的节点,并且把结果存储在堆栈中,最后调用函数把中间结果连接起来得到与查询模式树相匹配的节点集合。
本发明中涉及的HPT索引结构的主要定义及实现方式如下: HPT中的每个节点g称为一个组,每个组的信息包括标识符g.id和组名称g.name,查询匹配时,根据查询模式树中节点名称和g.name进行匹配,例如,1:a。每个组包括一个元素数组g.pid[],在组中用一个数组保存组中元素的父节点信息,第二,HPT中边是有方向的,假设有边g1—>g2,那么组g1叫做组g2的父组,组g2叫做组g1的子组;第三,组g中数组g.pid[]的索引下标为k的数值表示组g中的第(k+l)个元素,g.Pid[k]的值表示组中第(k+l)个元素的父节点在组g的父组中的数组的索引位置。 
实施例
利用HPT索引可以解决高效查询问题,它用数组索引表示元素信息和利用数组的值指向父元素。图2中HPT索引结构给出了XML数据树(图1)的HPT表示T。在T中,保存的是Id的相对信息。例如,组2中的节点3、7、13、15在HPT中被转化为0、l、2、3,通过这些相对位置可以直接映射为数组索引,HPT中的每个组g都和一个数组相关联,表示为T.grps[g].pid[]。数组中的索引k表示一个节点,简称为node-k,并且值T.grps[g].pid[k]指向父节点。比如,在查询条件a/c[d and e]中,查询条件是找到满足条件父节点为a和包含子节点d和e的a节点。在图2中包括数组索引1、2和3,则满足条件的节点就是node-1 node-2 node-3,通过HPT索引结构,能够提高查询速率。 
本发明中涉及的模式树匹配算法HPM的主要实现方式如下: 
HPM算法首先利用广度优先对查询模式树进行遍历,然后对遍历到的节点压栈,得到查询模式树栈S。例如,对图3中查询模式树遍历之后压栈为图3。HPM方法是用来查找查询模式树栈S在XML数据源中相匹配的节点。在HPM该方法中,对应一个查询模式树的q节点,Sq.value表示栈Sq中Gq.value的值集合,它表示栈Sq中元素的父节点在父组中的位置。IsLeaf(q)方法判断查询模式树节点q是不是叶子节点。 
下面详细说明HPM(S)方法,首先将查询模式树节点q出栈,如果q是叶子节点,那么在数据源中对应的组Gq中节点都和q相匹配,则需要把组q中所有节点都放入栈Sq;如果q不是叶子节点,需要首先查找节点q的所有子节点qi(i=0,…N-1)和子节点数目N,然后遍历与查询节点q相匹配的组Gq,对组的每一个节点Gq->Current进行匹配,判断节点Gq->Current是否存在N个子节点分别和qi匹配,如果存在,说明当前节点Gq->Current满足以q为根结点的查询模式树分支匹配,则把节点对(Gq->Current,Gq->Current.value)放入栈Sq中。方法HPM( )执行后,所有满足子匹配的节点都放入对应的栈中。 
例如,查询模式树(图3)在数据源(图2)执行HPM方法后子匹配结果为图4所示。然后把栈中的子节点匹配结果连接起来,得到在数据源和查询模式树相匹配的节点序列如图4所示,整个HPM算法执行结束,一共在数据源中得到4个匹配结果。如果需要得到查询模式树的子树其它匹配,也可以直接通过图4,调用合适的连接运算,得到匹配结果,不必要再重新执行一次算法HPM。 
除说明书所述的技术特征外,均为本专业技术人员的已知技术。 

Claims (1)

1.一种基于XML的Web数据快速查询方法, 其特征在于通过双层的双向树索引结构HPT在XML中直接找到一个查询模式树的匹配结果,所有的中间结果集在堆栈中保存起来,最终形成最后的查询匹配结果,以此提高查询匹配的成功概率,达到了快速响应用户需求的目的,具体内容如下:
两层的HPT双向树索引结构,HPT是High-Performance-Tree的英文缩写,HPT双向树索引结构,包括组层和元素层,元素层提供详细的子节点到父节点的连接,能够方便的找到相关节点的父节点,因此双向树索引结构HPT是一种能够处理XML结构查询的快速索引,组层内的元素索引是基于组的,这样方便结构查询时根据组进行,去掉多余的查询空间,减少匹配次数能够提高效率和方便查询,传统的路径索引方法是同一个组内元素是无序的,而双向树索引结构HPT是把具有相同路径信息的节点放到一个组内,也就是说,如果两个节点是等同的,在该索引结构中就把它们放到一个组内,这样就能大大的提高XML数据的查询效率,HPT索引结构的定义及具体实现方式如下:
HPT双向树索引结构中的每个节点g称为一个组,每个组的信息包括标识符g.id和组名称g.name,查询匹配时,根据查询模式树中节点名称和g.name进行匹配,第一,每个组包括一个元素数组g.pid[],在组中用一个数组保存组中元素的父节点信息,第二,HPT中边是有方向的,假设有边g1—>g2,那么组g1叫做组g2的父组,组g2叫做组g1的子组;第三,组g中数组g.pid[]的索引下标为k的数值表示组g中的第(k+l)个元素,g.Pid[k]的值表示组中第(k+l)个元素的父节点在组g的父组中的数组的索引位置;
为了提高查询效率,减少匹配次数采用HPM模式树匹配方法进行查询模式树的匹配,HPM是High-Performance-Match的英文缩写,HPM模式树匹配方法如下:
设定查询HPM模式树节点q和XML数据源中节点p,如果q是叶子节点,且节点p和节点q标记相同,则称p和q相匹配;如果q是非叶子节点,同时存在节点p和以p为根结点的子树和查询模式树中节点q以及以q为根结点的子树相匹配,那么p和q相匹配,在HPM模式树匹配方法中,对查询模式树中的每一个节点,设计一个栈和一个列表,栈用来存储和查询模式树节点相匹配的数据源中的节点集合,列表存储的是查询模式树对应的HPT中组p中的元素数组,Gpàcurrent表示目前正在匹配的组中的节点,该方法的基本实现流程为:
给一个查询模式树和生成的数据源HPT,首先调用广度优先算法把查询模式树中的节点压栈,然后在栈上调用HPM模式树匹配方法,在数据源中找到与查询模式树中节点相匹配的节点,并且把结果存储在堆栈中,最后调用函数把中间结果连接起来得到与查询模式树相匹配的节点集合;
HPM模式树匹配算法的具体实现方式如下:
首先利用广度优先对查询模式树进行遍历,然后对遍历到的节点压栈,得到查询模式树栈S, HPM式树匹配算法是用来查找查询模式树栈S在XML数据源中相匹配的节点,在HPM式树匹配算法中,对应一个查询模式树的q节点,Sq.value表示栈Sq中Gq.value的值集合,它表示栈Sq中元素的父节点在父组中的位置,再HPM模式树匹配算法判断查询模式树节点q是不是叶子节点; 
判断方法如下,首先将查询模式树节点q出栈,如果q是叶子节点,那么在数据源中对应的组Gq中节点都和q相匹配,则需要把组q中所有节点都放入栈Sq;如果q不是叶子节点,需要首先查找节点q的所有子节点qi(i=0,…N-1)和子节点数目N,然后遍历与查询节点q相匹配的组Gq,对组的每一个节点Gq->Current进行匹配,判断节点Gq->Current是否存在N个子节点分别和qi匹配,如果存在,说明当前节点Gq->Current满足以q为根结点的查询模式树分支匹配,则把节点对(Gq->Current,Gq->Current.value)放入栈Sq中,HPM式树匹配算法执行后,所有满足子匹配的节点都放入对应的栈中。
CN2013101121780A 2013-04-02 2013-04-02 一种基于XML的Web数据快速查询方法 Pending CN103186674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013101121780A CN103186674A (zh) 2013-04-02 2013-04-02 一种基于XML的Web数据快速查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013101121780A CN103186674A (zh) 2013-04-02 2013-04-02 一种基于XML的Web数据快速查询方法

Publications (1)

Publication Number Publication Date
CN103186674A true CN103186674A (zh) 2013-07-03

Family

ID=48677841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013101121780A Pending CN103186674A (zh) 2013-04-02 2013-04-02 一种基于XML的Web数据快速查询方法

Country Status (1)

Country Link
CN (1) CN103186674A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346350A (zh) * 2013-07-26 2015-02-11 南京中兴力维软件有限公司 异步树的树节点查询方法及系统
CN104598454A (zh) * 2013-10-31 2015-05-06 南京思润软件有限公司 一种基于xml的信息搜索方法
CN106599218A (zh) * 2016-12-16 2017-04-26 北京奇虎科技有限公司 一种树形结构的处理方法和装置
CN106598578A (zh) * 2016-12-05 2017-04-26 沈阳中科创达软件有限公司 一种可扩展标记语言解析方法及装置
CN110933077A (zh) * 2019-11-29 2020-03-27 深圳市风云实业有限公司 一种报文解析系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6684204B1 (en) * 2000-06-19 2004-01-27 International Business Machines Corporation Method for conducting a search on a network which includes documents having a plurality of tags
CN101984434A (zh) * 2010-11-16 2011-03-09 东北大学 基于可扩展语言查询的网页数据抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6684204B1 (en) * 2000-06-19 2004-01-27 International Business Machines Corporation Method for conducting a search on a network which includes documents having a plurality of tags
CN101984434A (zh) * 2010-11-16 2011-03-09 东北大学 基于可扩展语言查询的网页数据抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨楠: "XML模式树匹配查询算法的研究与改进", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346350A (zh) * 2013-07-26 2015-02-11 南京中兴力维软件有限公司 异步树的树节点查询方法及系统
CN104598454A (zh) * 2013-10-31 2015-05-06 南京思润软件有限公司 一种基于xml的信息搜索方法
CN106598578A (zh) * 2016-12-05 2017-04-26 沈阳中科创达软件有限公司 一种可扩展标记语言解析方法及装置
CN106599218A (zh) * 2016-12-16 2017-04-26 北京奇虎科技有限公司 一种树形结构的处理方法和装置
CN110933077A (zh) * 2019-11-29 2020-03-27 深圳市风云实业有限公司 一种报文解析系统及方法

Similar Documents

Publication Publication Date Title
CN106227800B (zh) 一种高度关联大数据的存储方法及管理系统
KR101525529B1 (ko) 데이터 처리장치 및 그 데이터 매핑방법
CN107291807B (zh) 一种基于图遍历的sparql查询优化方法
CN104809190B (zh) 一种树形结构数据的数据库存取方法
CN104123374B (zh) 分布式数据库中聚合查询的方法及装置
Zhao et al. Modeling MongoDB with relational model
CN103116625A (zh) 一种基于Hadoop的海量RDF数据分布式查询处理方法
CN102662974B (zh) 一种基于邻接节点树的网络图索引方法
CN103186674A (zh) 一种基于XML的Web数据快速查询方法
CN103646032A (zh) 一种基于本体和受限自然语言处理的数据库查询方法
CN109947904A (zh) 一种基于Spark环境的偏好空间Skyline查询处理方法
CN103678550B (zh) 一种基于动态索引结构的海量数据实时查询方法
CN104462351B (zh) 一种面向MapReduce范型的数据查询模型与方法
CN102270232A (zh) 一种存储优化的语义数据查询系统
CN106874425B (zh) 基于Storm的实时关键词近似搜索算法
CN105978711B (zh) 一种基于最小生成树的最佳交换边查找方法
CN103123650A (zh) 一种基于整数映射的xml数据库全文索引方法
CN105550332A (zh) 一种基于双层索引结构的起源图查询方法
CN104102699A (zh) 一种聚簇图集合中的子图检索方法
KR101255639B1 (ko) 컬럼 기반 데이터베이스 시스템 및 데이터베이스 시스템의 조인 인덱스를 이용한 조인 처리 방법
CN103186611A (zh) 一种压缩、解压及查询文档的方法、装置
Richly A survey on trajectory data management for hybrid transactional and analytical workloads
CN114168591A (zh) 寻找树形结构数据路径节点的方法
CN103345536B (zh) 一种语义关联索引方法
CN105956203B (zh) 一种信息存储方法、信息查询方法、搜索引擎装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130703

WD01 Invention patent application deemed withdrawn after publication