CN110321456B

CN110321456B - 一种海量不确定xml近似查询方法

Info

Publication number: CN110321456B
Application number: CN201910644208.XA
Authority: CN
Inventors: 刘健; 张蕾; 龚蕾蕾
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2021-06-29
Anticipated expiration: 2039-07-17
Also published as: CN110321456A

Abstract

本发明公开了一种海量不确定XML近似查询方法，本发明将首先解决海量不确定XML数据表示与存储问题，借助数据库模式映射技术，构建面向海量不确定XML的数据表示与存储模型。然后建立不确定XML XPath/XQuery查询模型与MapReduce查询模型之间的映射转换模型，进而研究海量不确定XML异构小枝查询方法。最后将以提出的数据表示与查询模型为基础，给出海量不确定XML近似查询的解决方案。本发明创新地提出模式已知以及模式未知情况下的海量不确定XML数据库与列数据库的双向映射模型，为海量不确定XML数据表示模型构建提供了新思路，有效地对海量不确定XML数据进行管理，使数据管理系统适应数据爆炸式增长特点，并以较小的代价获得高质量的数据管理服务。

Description

一种海量不确定XML近似查询方法

技术领域

本发明涉及数据处理技术领域，具体为一种海量不确定XML近似查询方法。

背景技术

对不确定 XML 数据查询技术的研究，现有文献中主要采用基于小枝的结构化查询方法。结构化查询的核心操作是从 XML 数据中抽取查询所感兴趣的、既包含多个查询结点且满足一定结构关系的文档片段，通常用小枝查询来表示查询感兴趣的结点以及结点之间的关系。这种查询对结点之间的结构关系并不是非常感兴趣。

发明内容

本发明的目的在于提供一种海量不确定XML近似查询方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种海量不确定XML近似查询方法,包括以下步骤：

1）、数据表示与存储实现；

2）、数据查询处理实现；

3）、智能化数据查询实现；

所述步骤1）中，在数据表示与存储实现阶段，将主要实现面向海量不确定 XML 的列数据库表示与存储，包括以下步骤：

A、基于列数据库的海量不确定 XML 数据表示模型构建具体过程如下：

a、识别不确定 XML 数据的多粒度不确定性；

b、给出不确定 XML 数据在列数据库中的表示方法和不确定列数据库模型定义；

c、建立基于不确定列数据库的海量不确定 XML 数据表示模型；

B、基于不确定列数据库的海量不确定 XML 数据存储具体实现过程如下：

i)、对于模式已知的海量不确定 XML 数据，将依照如下过程设计其在不确定列数据库的存储模型：

(a)获取不确定 XML 数据库模式中的叶子元素、非叶子元素、属性信息；

(b)以非叶子元素为基本划分单元设计相应列数据库表，依据每个非叶子元素单元内嵌套的叶子元素、属性信息设计相应列；

ii) 对于模式未知的海量不确定 XML 数据，将依照如下过程设计其在不确定列数据库的存储模型：

(a)识别不确定 XML 数据库中的数据实体，抽取不确定 XML 数据树结点路径信息；

(b)以数据实体为基本划分单元设计相应列数据库表，依据每个数据实体单元内对应的数据树路径信息设计列数据库相应列，给出海量不确定 XML 数据库数据实体、路径信息与列数据库列之间的映射规则；

(c) 建立模式未知情况下的不确定 XML 数据库与列数据库之间的映射模型；

iii)对于不确定列数据库中的海量不确定数据，依据如下过程实现不确定列数据库到不确定 XML 数据库的存储转换模型：

(a)依据不确定列数据库中各表的主键和列设计以非叶子结点为根的多棵不确定XML 树；

(b)依据不确定列数据库中数据关联信息对各不确定XML树进行拼接从而生成完整不确定XML树；

所述步骤2）中在查询处理实现阶段，首先将构建不确定 XML XPath/XQuery 查询模型与 MapReduce 查询模型的映射模型，具体过程如下：

i) XPath 查询与 MapReduce 查询的映射模型构建：

(a)识别 XPath 查询轴、路径表达式查询限制条件，设计 XPath 父子轴、祖先后代轴、兄弟轴轴限制条件，以及绝对查询路径和相对查询路径路径查询表达式的MapReduce 映射转换方法；

(b)建立 XPath 查询与 MapReduce 查询转换模型，并对转换后的查询条件进行拼接，进而生成完整映射查询表达式，在此基础上设计划分查询任务，设计实现面向海量不确定 XML 数据的分布式查询方法；

ii) XQuery 查询与 MapReduce 查询的映射模型构建：

(a)识别 XQuery 查询语句，设计 XQuery FLWOR 查询的 For、Let、Where、Orderby、Return 语句的MapReduce 映射转换方法；

(b)建立 XQuery 查询与 MapReduce 查询转换模型，并对转换后的查询条件进行拼接，进而生成完整映射查询表达式，在此基础上设计划分查询任务，设计实现面向海量不确定 XML 数据的分布式查询方法；

所述步骤3）中智能化数据查询阶段，将主要实现海量不确定 XML 智能化近似查询模式，近似查询具体实现过程如下：

(a)识别给定查询条件，将给定查询条件分类成数值型内容查询条件、文本型内容查询条件、树型结构查询条件三个类型；

(b)推理用户查询意图，设计查询条件权重评估方法；

(c)设计数值型查询内容、文本型查询内容、树型查询结构的相似度评估方法；

(d)设计自适应查询松弛方法以及 TopK 查询结果排序方法，并给出海量不确定XML 近似查询解决方案。

与现有技术相比，本发明的有益效果是：本发明创新地提出模式已知以及模式未知情况下的海量不确定 XML 数据库与列数据库的双向映射模型，为海量不确定XML数据表示模型构建提供了新思路，有效地对海量不确定 XML 数据进行管理，使数据管理系统适应数据爆炸式增长特点，并以较小的代价获得高质量的数据管理服务。

附图说明

图1为本发明流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种海量不确定XML近似查询方法,包括以下步骤：

1）、数据表示与存储实现；

2）、数据查询处理实现；

3）、智能化数据查询实现。

本发明中，步骤1）中，在数据表示与存储实现阶段，将主要实现面向海量不确定XML 的列数据库表示与存储，包括以下步骤：

a、识别不确定 XML 数据的多粒度不确定性；

(b)依据不确定列数据库中数据关联信息对各不确定XML树进行拼接从而生成完整不确定XML树。

本发明中，步骤2）中在查询处理实现阶段，首先将构建不确定 XML XPath/XQuery查询模型与 MapReduce 查询模型的映射模型，具体过程如下：

i) XPath 查询与 MapReduce 查询的映射模型构建：

ii) XQuery 查询与 MapReduce 查询的映射模型构建：

(b)建立 XQuery 查询与 MapReduce 查询转换模型，并对转换后的查询条件进行拼接，进而生成完整映射查询表达式，在此基础上设计划分查询任务，设计实现面向海量不确定 XML 数据的分布式查询方法。

此后将实现海量不确定 XML 异构小枝查询，具体过程如下：

(a)遍历源

不确定 XML 文档，标识文档祖先后代结点线索；

(b)基于祖先后代结点线索，构建异构哈希表，推理并缓存文档结构信息；

(c)利用文档结构缓存信息，推理有效小枝查询结构，同时基于整体匹配策略，设计并实现海量不确定 XML 异构小枝查询算法。

本发明中，步骤3）中智能化数据查询阶段，将主要实现海量不确定 XML 智能化近似查询模式，近似查询具体实现过程如下：

(b)推理用户查询意图，设计查询条件权重评估方法；

实验方案：

实验过程将充分考虑可能影响到数据查询的各种因素，进行科学合理的实验设计，采用准确、有代表性的系统性能指标，选用对比实验方法对所提方法进行比较性研究，以寻求更为优越的解决方案。本项目拟采用的实验手段主要有：

(1) 基于大样本的实验测试

将从各主要 XML 数据库中收集测试数据，获得满足实验需求的大规模测试数据，从而对已建立好的模型进行测试。将根据测试结果对模型进行客观评价，并对解决方案进行修正。

(2) 相关方法的处理能力测试

在获取大规模测试数据的基础上，执行标准的技术评价体系，对所提出的方法进行测试，根据测试结果对相关方法的正确性及有效性进行客观评价，进而选择最佳解决方案。

(3) 系统可用性测试

将通过用户的使用反馈，测试系统的可用性指标，如界面交互的友好程度、使用简易度性能指标，并加以改进。

本发明从实际应用需求入手，创新性地提出了海量不确定 XML 数据查询理论框架，在理论研究和实际应用中都形成了自己的特色。本发明创新地提出模式已知以及模式未知情况下的海量不确定 XML 数据库与列数据库的双向映射模型，为海量不确定XML数据表示模型构建提供了新思路，有效地对海量不确定 XML 数据进行管理，使数据管理系统适应数据爆炸式增长特点，并以较小的代价获得高质量的数据管理服务。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种海量不确定XML近似查询方法,其特征在于：包括以下步骤：

1）、数据表示与存储实现；

2）、数据查询处理实现；

3）、智能化数据查询实现；

a、识别不确定 XML 数据的多粒度不确定性；

(a)依据不确定列数据库中各表的主键和列设计以非叶子结点为根的多棵不确定 XML树；

i) XPath 查询与 MapReduce 查询的映射模型构建：

(a)识别 XPath 查询轴、路径表达式查询限制条件，设计 XPath 父子轴、祖先后代轴、兄弟轴轴限制条件，以及绝对查询路径和相对查询路径路径查询表达式的 MapReduce 映射转换方法；

(b)建立 XPath 查询与 MapReduce 查询转换模型，并对转换后的查询条件进行拼接，进而生成完整映射查询表达式，在此基础上设计划分查询任务，设计实现面向海量不确定XML 数据的分布式查询方法；

ii) XQuery 查询与 MapReduce 查询的映射模型构建：

(a)识别 XQuery 查询语句，设计 XQuery FLWOR 查询的 For、Let、Where、Order by、Return 语句的MapReduce 映射转换方法；

(b)推理用户查询意图，设计查询条件权重评估方法；

(d)设计自适应查询松弛方法以及 TopK 查询结果排序方法，并给出海量不确定 XML近似查询解决方案。