CN101231657A

CN101231657A - 用于访问数据的方法以及数据处理系统

Info

Publication number: CN101231657A
Application number: CNA2008100089024A
Authority: CN
Inventors: 乔治·A.·米海拉; 里普耶奥·利姆; 张元极
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2007-01-26
Filing date: 2008-01-25
Publication date: 2008-07-30
Also published as: US20080183657A1

Abstract

提供了一种用于访问唯一分层数据的计算机实现的方法、数据处理系统和计算机可用程序代码。分析了文档的树结构。确定一组唯一路径是否存在于树结构中。根据该组唯一路径的存在，将唯一路径标识符分配给该组唯一路径中的每一个以创建一组唯一路径标识符和所分配的唯一路径对。然后，将该组唯一路径标识符和所分配的唯一路径对中的每一个的、所述唯一分层数据的唯一路径标识符和节点地址存储到文档盘页中的首部中。

Description

用于访问数据的方法以及数据处理系统

技术领域

本发明通常涉及数据库。更准确地说，本发明涉及用于访问分层数据项(hierarchical data item)的计算机实现的方法、装置、以及计算机可用程序代码。

背景技术

结构化文档是具有嵌套结构的文档。用可扩展标记语言(XML)编写的文档是结构化文档。XML正迅速成为用于在万维网上传送信息的标准格式，这是因为该格式允许用户为多类结构化文档设计定制的标记语言。XML支持用户定义的标签页(tab)，以便更好地描述嵌套文档结构和相关的语义，并且支持文档内容与浏览器显示的分离。XML文档具有分层结构，并且可以在概念上被解释为树结构，其被称作XML树。

随着越来越多的企业以XML文档提供和交换数据，其中的挑战是利用现有的关系型数据库系统存储、搜索和检索这些文档。关系型数据库管理系统(RDBMS)是利用存储和检索数据的关系技术的数据库管理系统。关系型数据库被组织成表格，表格包括数据的行和列。数据库通常会具有多个表格，并且每个表格通常会具有多个行和列。表格通常被存储在直接存取存储设备(DASD)上，该DASD例如是半永久存储设备的磁或者光盘驱动器。

大多数Web应用与数据库有关，并且使用XML将数据从数据库传送给Web应用，反之亦然。每个主要数据库卖主都有将XML用于关系型数据库的专有扩展，但是他们采取完全不同的方案，并且其间没有互操作性。

当前关系型数据库系统已发展成存储关系数据以及XML数据两者的混合系统。实际上，在最新版本的国际商用机器公司的DB2^数据库中，XML被引入为数据类型。SQL/XML和XQuery是供XML数据类型使用的新查询语言。

XQuery和SQL/XML是使用说明性、轻便的查询来通过查询数据返回XML的两种标准。在两种标准中，XML可以具有任意期望的结构，并且查询可以任意复杂。XQuery是以XML为中心的，而SQL/XML是以SQL为中心的。SQL/XML是作为ANSI/ISO SQL 2003的一部分的SQL的扩展。SQL/XML令SQL查询建立具有少数强大的XML发布功能的XML结构。

对XML执行查询通常包括通过跟随指定路径导航XML分层结构，从XML树检索特定节点。然而，由于计算和去引用(de-reference)多个节点的地址，导航(navigation)存在的一个问题是其导致了很大的计算开销。

发明内容

不同的图解实施例提供了用于访问唯一分层数据的计算机实现的方法、数据处理系统和计算机可用程序代码。图解实施例分析了文档的树结构。图解实施例确定一组唯一路径是否存在于树结构中。图解实施例响应于该组唯一路径的存在，将唯一路径标识符分配给该组唯一路径中的每一个以建立一组唯一路径标识符和所分配的唯一路径对。图解实施例将该组唯一路径标识符和所分配的唯一路径对中的每一个的、唯一分层数据的唯一路径标识符和节点地址存储到文档盘页(document disk page)中的首部中。

在用于访问数据的另一个图解实施例中，图解实施例接收对于特定数据的查询请求。然后，图解实施例确定是否在包含指向分层结构中的多个节点的指针的数据结构中找到指向特定数据的指针，其中响应于接收到所述查询请求，所述多个节点通过唯一路径引用。在该图解实施例中，所述节点包含数据。

附图说明

在所附权利要求书中阐述了被认为是本发明的特征的新颖特征。然而，结合附图参照以下对示例性实施例进行的详细描述，可以更好地理解本发明自身，以及最优使用模式、其它目标和优点，其中：

图1图示了可以实施示例性实施例的数据处理系统的网络；

图2是可以实施示例性实施例的数据处理系统的框图；

图3描绘了根据图解实施例的示例性XML树；

图4描绘了根据图解实施例的将唯一路径表达式与唯一数字路径标识符关联起来的路径表(pathtable)；

图5描绘了根据图解实施例的要被存储在包含XML树的文档盘页中的首部的布局；

图6描绘了根据图解实施例的用于在文档中创建首部以便利用路径标识符访问唯一分层数据项的流程图；以及

图7描绘了根据图解实施例的利用文档首部中的路径标识符访问唯一分层数据项的操作的流程图。

具体实施方式

图解实施例提供了利用文档的首部中的路径标识符来访问唯一分层数据项。将图1-2提供作为可以实现实施例的数据处理环境的示例图。应当理解，图1-2仅仅是示例性的，并不意欲声明或意味着对可以实施本发明的各方面或各实施例的环境的任意限制。在不偏离宗旨和范围的情况下，对图示的环境可以进行许多修改。

现在参考附图，图1描绘了可以实施示例性实施例的数据处理系统的网络的图示。网络数据处理系统100是一种可以实现各实施例的计算机网络。网络数据处理系统100包含网络102，其为用于提供网络数据处理系统100内连接在一起的各种设备和计算机之间的通信链路的介质。网络102可以包含诸如有线、无线通信链路或光缆的连接。

在图示的例子中，服务器104和服务器106连同存储单元108一起连接到网络102上。此外，客户机110、112和114连接到网络102。这些客户机110、112和114可以是例如个人计算机或网络计算机。在图示的例子中，服务器104向客户机110、112和114提供诸如引导文件，操作系统映像和应用程序的数据。客户机110、112和114在该例子中为服务器104的客户端。网络数据处理系统100可以包含附加的服务器、客户端和未示出的其它设备。

在图示的例子中，网络数据处理系统100为具有网络102的因特网，其代表了使用传输控制协议/网际协议(TCP/IP)协议族相互通信的网络和网关的世界范围的集合。互联网的核心是主节点或主机之间的高速数据通信线路的干线，其包括数以千计的路由数据和消息的商业、政府、教育及其他计算机系统。当然，网络数据处理系统100也可以被实现成若干不同类型的网络，例如内联网、局域网(LAN)或广域网(WAN)。图1仅用于举例，并且不对不同实施例产生体系结构限制。

现在参照图2，其中图解了可以实现示例性实施例的数据处理系统的框图。数据处理系统200是诸如图1中的服务器104或客户端110的计算机的示例，实现各实施例的处理的计算机可用代码或指令可被放置于其中。

在图示的例子中，数据处理系统200采用集线器体系结构，其包含北桥和存储器控制器集线器(NB/MCH)202，以及南桥和输入/输出(I/O)控制器集线器(ICH)204。处理单元206、主存储器208，以及图形处理器210被连接到北桥和存储器控制器集线器202上。图形处理器210通过图形加速端口(AGP)可被连接到北桥和存储器控制器集线器202上。

在图示的例子中，局域网(LAN)适配器212连接到南桥和I/O控制器集线器204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、硬盘驱动器(HDD)226、CD-ROM驱动器230、通用串行总线(USB)端口及其他通信端口232以及PCI/PCIe设备234通过总线238和总线240连接到南桥和I/O控制器集线器204上。PCI/PCIe设备可包含例如以太网适配器、内插式卡和笔记本计算机的PC卡。PCI使用卡总线控制器，而PCIe不用。ROM 224可以是例如快擦写二进制输入/输出系统(BIOS)。

硬盘驱动器226和CD-ROM驱动器230通过总线240连接到南桥和I/O控制器集线器204上。硬盘驱动器226和CD-ROM驱动器230可使用例如电子集成驱动器(Integrated Drive Electronics，IDE)或串行高级技术附件(Serial Advanced Technology Attachment，SATA)接口。超级I/O(SIO)设备236可被连接到南桥和I/O控制器集线器204上。

操作系统在处理单元206上运行，并且协调和提供图2中的数据处理系统200内的各部件的控制。作为客户端，操作系统可以是商用操作系统，例如Microsoft^Windows^XP(Microsoft和Windows是微软公司在美国、其它国家或两者中的商标)。面向对象编程系统，例如Java^TM程序设计系统，可与操作系统联合运行，并且提供从在数据处理系统200上执行的Java程序或应用程序对操作系统的调用(Java是Sun Microsystems公司在美国、其它国家或两者中的商标)。

作为服务器，数据处理系统200可以是例如IBM eServer^TMpSeries^计算机系统，其运行高级交互执行(AIX^)操作系统或Linux^操作系统(eServer、pSeries和AIX是国际商业机器公司在美国、其它国家或两者中的商标，而Linux是Linus Torvalds在美国、其它国家或两者中的商标)。数据处理系统200可以是包含处理单元206中的多个处理器的对称多处理器(SMP)系统。可选地，可以采用单个处理器系统。

操作系统、面向对象的程序设计系统和应用程序或程序的指令位于诸如硬盘驱动器226的存储设备上，并且可被载入主存储器208以便由处理单元206执行。实施例的进程由处理单元206利用计算机可用程序代码执行，该程序代码可位于诸如主存储器208、只读存储器224的存储器中，或在一个或多个外围设备226和230中。

本领域普通技术人员会理解图1-2中的硬件可以根据实现而改变。除了或取代图1-2中所描述的硬件，可使用诸如快擦写存储器、等同的非易失存储器或光盘驱动器等等的其它内部硬件或外部设备。并且，处理可被应用于多处理器数据处理系统。

在一些说明的例子中的，数据处理系统200可以是个人数字助理(PDA)，其配有快擦写存储器以提供用于存储操作系统文件和/或用户生成的数据的非易失性存储器。

总线系统可以由诸如图2中所示的总线238或总线240的一个或多个总线组成。当然，总线系统可以利用提供附接于结构或体系结构的不同部件或装置之间的数据传送的任意类型的通信结构或体系结构来实现。通信单元可包含一个或多个用于发送和接收数据的设备，例如图2的调制解调器222或网络适配器212。存储器可以是例如主存储器208、只读存储器224，或诸如在图2中的北桥和存储器控制器集线器202中存在的高速缓存器。在图1-2中描述的例子和上述例子不意味着对体系结构的限制。例如，除了采取PDA的形式，数据处理系统200还可以是平板计算机、膝上型计算机、或电话设备。

诸如XML的分层数据在数据库中被固有地存储为树。该树中的节点代表数据项，而边代表包含。边被存为节点内的指针，例如子指针阵列或父指针。对树中的特定数据项的查询通常使用路径模式说明，例如，XPath，其表明相对于树的根，数据项在树中的位置。为了检索由路径表明的数据项，数据库引擎执行由开始于根的路径所指定的导航步骤。然而，因为通常针对大量文档，需要遍历查询中所指定的每个路径，所以执行此类由开始于根的路径所指定的导航步骤导致很大的计算开销。因而，图解实施例在每个文档盘页内存储首部，其包含将每个唯一发生的路径模式与通过该路径可到达的节点地址关联起来的阵列。文档盘页也可以被称作页高速缓存或磁盘高速缓存。文档盘页是一种为了快速访问而在主存储器中保存的盘备份页的透明高速缓存。

图3描绘了根据图解实施例的示例性XML树。XML树300包含代表XML元素的内部节点302，以及代表诸如文本内容的数据的叶节点304。典型的XML查询指定要借助于路径表达式从文档中检索的一个或多个节点，路径表达式可以利用XPath语言表示。例如，路径表达式/PurchaseOrder/Seller/Name指定节点306。某些路径表达式唯一地指定一个节点，例如节点306或节点312，而其它路径表达式指定多个节点。例如，路径表达式/PurchaseOrder/LineItems/Item/Name与XML树300中的节点308和310匹配。图解实施例仅着重于唯一地指定文档中的节点，例如节点306或节点312，的路径表达式。有关由路径表达式指定的节点的唯一性的信息可以从文档模式中获得，或者如果不提供模式的话，直接从文档实例中获得。

图4描绘了根据图解实施例的、将唯一路径表达式与唯一数字路径标识符关联起来的路径表。路径表400识别诸如条目406和408的若干条目的路径表达式402和路径标识符404。条目406表明路径表达式402为/PurchaseOrder/Seller/Name，其与图3中的节点306的路径表达式相同，并且指出路径标识符404是示例性的″3783″。条目408表明路径表达式402为/PurchaseOrder/Buyer/Name，其与图3中的节点312的路径表达式相同，并且指出路径标识符404是示例性的″3362″。路径表400可以在文档盘页以外，并且由数据库管理系统(DBMS)使用，以便减少在查询评估时匹配路径表达式所需的空间与时间。

图5描绘了根据图解实施例的要存储在包含XML树的文档盘页中的首部的布局。在该示例性实施例中，首部502被存储在文档盘页504内。首部502包含条目506和508，其分别标识唯一发生的路径标识符510与节点地址512，以及路径标识符514与节点地址516之间的关联。因而，例如，条目506包含相应于图4的路径表400所示的路径表达式/PurchaseOrder/Seller/Name的路径标识符510，以及节点地址512包含相应节点的地址。

在检索与文档相关联的元素时，诸如图2的处理单元206的处理器分析文档盘页504以确定首部502是否存在。如果首部502存在，则处理器启动分析首部502的查询以识别全部路径标识符，例如路径标识符510和514，并且参考路径表以检索每个路径标识符的路径表达式。利用检索到的路径表达式和节点地址，例如节点地址512和516，该查询访问节点地址处的数据。

图6描绘了根据图解实施例的、用于在文档中创建首部以便利用路径标识符访问唯一分层数据项的流程图。随着操作开始，处理器分析文档的、诸如图3的XML树300的树结构(步骤602)。然后，处理器确定是否至少一个唯一路径存在于树结构中(步骤604)。如果在步骤604，没有唯一路径存在于树结构中，那么所述操作终止。如果在步骤604，至少一个唯一路径存在，则处理器将唯一路径标识符分配给每个唯一路径(步骤606)。然后，处理器将唯一路径标识符和唯一路径对载入路径表，例如图4的路径表400(步骤608)。然后，处理器在文档盘页中创建首部，例如图5的首部502(步骤610)，并且将唯一路径对的唯一路径标识符和节点地址存储在首部中(步骤612)，此后操作终止。

图7描绘了根据图解实施例的、利用文档的首部中的路径标识符访问唯一分层数据项的操作的流程图。随着操作开始，处理器接收对于显示利用路径表达式指定的、来自文档的一组元素的请求(步骤702)。一组元素可以是一个元素或多个元素。然后，处理器确定文档是否包含需要检索的一个或多个元素(步骤704)。如果在步骤704中，文档的确包含需要检索的元素，则处理器启动查询来确定是否在文档盘页内预置了诸如图5的首部502的首部(步骤706)。如果在步骤706中，首部存在于文档盘页内，则查询分析文档以确定首部是否包含一个或多个所请求的路径标识符(步骤708)。

如果在步骤708中，首部包含一个或多个路径标识符，则查询检索相应于每个路径标识符的路径表达式(步骤710)。利用与首部中的路径标识符相关的路径表达式和节点地址，查询随后检索节点地址处的数据(步骤712)。对于在首部中没有找到的路径标识符，查询根据路径遍历树并且检索在遍历结束时的节点地址处的数据。然后，处理器显示具有检索到的数据的文档(步骤714)，此后操作终止。

返回到步骤704，如果文档不包含需要检索的元素，则处理器显示具有检索到的数据的文档(步骤714)，此后操作终止。返回到步骤706，如果首部没有存在于文档盘页内，则查询根据通向节点地址的树路径遍历树(步骤716)，此后操作前进到步骤712。返回到步骤708，如果首部不包含任何路径标识符，则查询根据通向节点地址的树路径遍历树(步骤716)，此后操作前进到步骤712。

因而，图解实施例利用文档的首部中的路径标识符访问唯一分层数据项。在一个实施例中，针对特定数据接收查询请求，并且根据接收的查询请求，确定指向特定数据的指针是否在包含指向分层结构中的多个节点的指针的数据结构中被找到，在所述分层结构中多个节点由唯一路径引用。在该实施例中，节点包含数据。在另一个实施例中，分析文档的树结构。确定一组唯一路径是否存在于树结构中。根据该组唯一路径的存在，将唯一路径标识符分配给该组唯一路径中的每一个以创建一组唯一路径标识符和所分配的唯一路径对。将该组唯一路径标识符和所分配的唯一路径对中的每一个的、唯一分层数据的唯一路径标识符和节点地址存储在文档盘页中的首部中。

本发明可采取完全硬件实施例、完全软件实施例，或包含硬件和软件元素二者的实施例的形式。在优选实施例中，用软件实施本发明，其包含但不局限于固件、常驻软件、微码等等。

此外，本发明可采取从提供程序代码以供计算机或任何指令执行系统使用或与计算机或任何指令执行系统结合使用的计算机可用或计算机可读介质中访问的计算机程序产品的形式。为了该描述的目的，计算机可用或计算机可读介质可以是任何有形装置，其可包含、存储、通信、传播或传送程序以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用。

介质可以是电子、磁性、光学、电磁、红外或半导体系统(装置或设备)或传播介质。计算机可读介质的例子包含半导体或固态存储器、磁带、可移动计算机磁盘、随机访问存储器(RAM)、只读存储器(ROM)、刚性磁盘和光盘。光盘的当前例子包含密度盘-只读存储器(CD-ROM)、密度盘-读/写(CD-R/W)和DVD。

适于存储和/或执行程序代码的数据处理系统将包含至少一个直接或通过系统总线间接耦接到存储器元件的处理器。存储器元件可包含在程序代码的实际执行期间所采用的本地存储器、大容量存储器和高速缓冲存储器，所述高速缓冲存储器提供了至少一些程序代码的临时存储器，以便减少执行期间必须从大容量存储器检索代码的次数。

输入/输出或I/O设备(包含但不局限于键盘、显示器、定点设备等等)可直接或者通过居间的I/O控制器耦接到系统上。

网络适配器还可被耦接到系统上，通过居间的专有或公共网络，使数据处理系统能变为耦接到其它数据处理系统、远程打印机或存储设备上。调制解调器、电缆调制解调器和以太网卡仅为少数几中当前可用的网络适配器。

前面对本发明进行的描述只是为了图解和描述，不被用来对具有公开形式的本发明进行详细定义和限制。本领域的普通技术人员显然可以进行许多修改和改变。选择和描述实施例是为了提供对本发明原理及其实际应用的最优说明，并且也是为了使本领域的其它普通技术人员针对可以根据所考虑的具体使用情况进行各种修改，更好地使用本发明和各种实施例。

Claims

1.一种用于访问数据的计算机实现的方法，所述计算机实现的方法包括：

接收对于特定数据的查询请求；以及

响应于接收所述查询请求，确定在包含指向分层结构中的多个节点的指针的数据结构中是否发现指向该特定数据的指针，在所述分层结构中所述多个节点由唯一路径引用，其中所述多个节点包含该数据。

2.如权利要求1所述的计算机实现的方法，还包括：

响应于所述数据结构中的指针中没有所述指针，遍历所述分层结构以识别所述分层结构中包含该特定数据的节点。

3.如权利要求1所述的计算机实现的方法，其中所述数据结构是首部。

4.一种用于访问唯一分层数据的计算机实现的方法，所述计算机实现的方法包括：

分析文档的树结构；

确定一组唯一路径是否存在于所述树结构中；

响应于该组唯一路径的存在，将唯一路径标识符分配给该组唯一路径中的每一个以创建一组唯一路径标识符和所分配的唯一路径对；以及

将该组唯一路径标识符和所分配的唯一路径对中的每一个的、所述唯一分层数据的唯一路径标识符和节点地址存储到文档盘页中的首部中。

5.如权利要求4所述的计算机实现的方法，还包括：

接收对于显示利用路径表达式指定的、来自文档的一组元素的请求；

确定所述文档是否包含需要检索的分层数据；

响应于所述文档包含需要检索的分层数据，确定所述首部是否存在于所述文档盘页中；以及

响应于所述首部存在于所述文档盘页中，检索由存储在所述首部中的每个唯一路径标识符指定的该组唯一路径。

6.如权利要求5所述的计算机实现的方法，还包括：

检索该唯一分层数据的所述节点地址处的与该组唯一路径相关联的唯一分层数据。

7.如权利要求6所述的计算机实现的方法，还包括：

显示具有所述唯一分层数据的所述文档。

8.如权利要求5所述的计算机实现的方法，还包括：

响应于所述文档盘页中没有所述首部，遍历所述树结构到所述节点地址以取回所述唯一分层数据。

9.如权利要求4所述的计算机实现的方法，还包括：

将该组唯一路径标识符和所分配的唯一路径对载入路径表中。

10.如权利要求4所述的计算机实现的方法，还包括：

在与所述文档相关联的所述文档盘页中创建首部。

11.如权利要求4所述的计算机实现的方法，还包括：

响应于该组唯一路径不存在，显示具有所述唯一分层数据的所述文档。

12.如权利要求4所述的计算机实现的方法，其中所述树结构是可扩展标记语言树结构。

13.一种数据处理系统，包括：

总线系统；

连接到所述总线系统的通信系统；

连接到总线系统的存储器，其中所述存储器包含一组指令；以及

连接到所述总线系统的处理单元，其中所述处理单元执行该组指令以分析文档的树结构；确定一组唯一路径是否存在于所述树结构中；响应于该组唯一路径的存在，将唯一路径标识符分配给该组唯一路径中的每一个以建立一组唯一路径标识符和所分配的唯一路径对；以及将该组唯一路径标识符和所分配的唯一路径对中的每一个的、所述唯一分层数据的唯一路径标识符和节点地址存储到文档盘页中的首部中。

14.如权利要求13所述的数据处理系统，其中所述处理单元执行该组指令，以便接收对于显示利用路径表达式指定的、来自文档的一组元素的请求；确定所述文档是否包含需要检索的分层数据；响应于所述文档包含需要检索的分层数据，确定所述首部是否存在于所述文档盘页中；以及响应于所述首部存在于所述文档盘页中，检索由存储在所述首部中的每个唯一路径标识符指定的该组唯一路径。

15.如权利要求14所述的数据处理系统，其中所述处理单元执行该组指令，以便检索该唯一分层数据的所述节点地址处的与该组唯一路径相关联的唯一分层数据。

16.如权利要求15所述的数据处理系统，其中所述处理单元执行该组指令，以便显示具有所述唯一分层数据的所述文档。