CN110321456A - 一种海量不确定xml近似查询方法 - Google Patents

一种海量不确定xml近似查询方法 Download PDF

Info

Publication number
CN110321456A
CN110321456A CN201910644208.XA CN201910644208A CN110321456A CN 110321456 A CN110321456 A CN 110321456A CN 201910644208 A CN201910644208 A CN 201910644208A CN 110321456 A CN110321456 A CN 110321456A
Authority
CN
China
Prior art keywords
xml
magnanimity
uncertain
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910644208.XA
Other languages
English (en)
Other versions
CN110321456B (zh
Inventor
刘健
张蕾
龚蕾蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201910644208.XA priority Critical patent/CN110321456B/zh
Publication of CN110321456A publication Critical patent/CN110321456A/zh
Application granted granted Critical
Publication of CN110321456B publication Critical patent/CN110321456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海量不确定XML近似查询方法,本发明将首先解决海量不确定XML数据表示与存储问题,借助数据库模式映射技术,构建面向海量不确定XML的数据表示与存储模型。然后建立不确定XML XPath/XQuery查询模型与MapReduce查询模型之间的映射转换模型,进而研究海量不确定XML异构小枝查询方法。最后将以提出的数据表示与查询模型为基础,给出海量不确定XML近似查询的解决方案。本发明创新地提出模式已知以及模式未知情况下的海量不确定XML数据库与列数据库的双向映射模型,为海量不确定XML数据表示模型构建提供了新思路,有效地对海量不确定XML数据进行管理,使数据管理系统适应数据爆炸式增长特点,并以较小的代价获得高质量的数据管理服务。

Description

一种海量不确定XML近似查询方法
技术领域
本发明涉及数据处理技术领域,具体为一种海量不确定XML近似查询方法。
背景技术
对不确定 XML 数据查询技术的研究,现有文献中主要采用基于小枝的结构化查询方法。结构化查询的核心操作是从 XML 数据中抽取查询所感兴趣的、既包含多个查询结点且满足一定结构关系的文档片段,通常用小枝查询来表示查询感兴趣的结点以及结点之间的关系。这种查询对结点之间的结构关系并不是非常感兴趣。
发明内容
本发明的目的在于提供一种海量不确定XML近似查询方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种海量不确定XML近似查询方法,包括以下步骤:
1)、数据表示与存储实现;
2)、数据查询处理实现;
3)、智能化数据查询实现。
优选的,所述步骤1)中,在数据表示与存储实现阶段,将主要实现面向海量不确定XML 的列数据库表示与存储,包括以下步骤:
A、基于列数据库的海量不确定 XML 数据表示模型构建具体过程如下:
a、识别不确定 XML 数据的多粒度不确定性;
b、给出不确定 XML 数据在列数据库中的表示方法和不确定列数据库模型定义;
c、建立基于不确定列数据库的海量不确定 XML 数据表示模型;
B、基于不确定列数据库的海量不确定 XML 数据存储具体实现过程如下:
i)、对于模式已知的海量不确定 XML 数据,将依照如下过程设计其在不确定列数据库的存储模型:
(a)获取不确定 XML 数据库模式中的叶子元素、非叶子元素、属性信息;
(b)以非叶子元素为基本划分单元设计相应列数据库表,依据每个非叶子元素单元内嵌套的叶子元素、属性信息设计相应列;
ii) 对于模式未知的海量不确定 XML 数据,将依照如下过程设计其在不确定列数据库的存储模型:
(a)识别不确定 XML 数据库中的数据实体,抽取不确定 XML 数据树结点路径信息;
(b)以数据实体为基本划分单元设计相应列数据库表,依据每个数据实体单元内对应的数据树路径信息设计列数据库相应列,给出海量不确定 XML 数据库数据实体、路径信息与列数据库列之间的映射规则;
(c) 建立模式未知情况下的不确定 XML 数据库与列数据库之间的映射模型;
iii)对于不确定列数据库中的海量不确定数据,依据如下过程实现不确定列数据库到不确定 XML 数据库的存储转换模型:
(a)依据不确定列数据库中各表的主键和列设计以非叶子结点为根的多棵不确定 XML树;
(b)依据不确定列数据库中数据关联信息对各不确定XML树进行拼接从而生成完整不确定XML树。
优选的,所述步骤2)中在查询处理实现阶段,首先将构建不确定 XML XPath/XQuery 查询模型与 MapReduce 查询模型的映射模型,具体过程如下:
i) XPath 查询与 MapReduce 查询的映射模型构建:
(a)识别 XPath 查询轴、路径表达式等查询限制条件,设计 XPath 父子轴、祖先后代轴、兄弟轴等轴限制条件,以及绝对查询路径和相对查询路径等路径查询表达式的MapReduce 映射转换方法;
(b)建立 XPath 查询与 MapReduce 查询转换模型,并对转换后的查询条件进行拼接,进而生成完整映射查询表达式,在此基础上设计划分查询任务,设计实现面向海量不确定XML 数据的分布式查询方法;
ii) XQuery 查询与 MapReduce 查询的映射模型构建:
(a)识别 XQuery 查询语句,设计 XQuery FLWOR 查询的 For、Let、Where、Order by、Return 语句的MapReduce 映射转换方法;
(b)建立 XQuery 查询与 MapReduce 查询转换模型,并对转换后的查询条件进行拼接,进而生成完整映射查询表达式,在此基础上设计划分查询任务,设计实现面向海量不确定 XML 数据的分布式查询方法。
优选的,所述步骤3)中智能化数据查询阶段,将主要实现海量不确定 XML 智能化近似查询模式,近似查询具体实现过程如下:
(a)识别给定查询条件,将给定查询条件分类成数值型内容查询条件、文本型内容查询条件、树型结构查询条件三个类型;
(b)推理用户查询意图,设计查询条件权重评估方法;
(c)设计数值型查询内容、文本型查询内容、树型查询结构的相似度评估方法;
(d)设计自适应查询松弛方法以及 TopK 查询结果排序方法,并给出海量不确定 XML近似查询解决方案。
与现有技术相比,本发明的有益效果是:本发明创新地提出模式已知以及模式未知情况下的海量不确定 XML 数据库与列数据库的双向映射模型,为海量不确定XML数据表示模型构建提供了新思路,有效地对海量不确定 XML 数据进行管理,使数据管理系统适应数据爆炸式增长特点,并以较小的代价获得高质量的数据管理服务。
附图说明
图1为本发明流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种海量不确定XML近似查询方法,包括以下步骤:
1)、数据表示与存储实现;
2)、数据查询处理实现;
3)、智能化数据查询实现。
本发明中,步骤1)中,在数据表示与存储实现阶段,将主要实现面向海量不确定XML 的列数据库表示与存储,包括以下步骤:
A、基于列数据库的海量不确定 XML 数据表示模型构建具体过程如下:
a、识别不确定 XML 数据的多粒度不确定性;
b、给出不确定 XML 数据在列数据库中的表示方法和不确定列数据库模型定义;
c、建立基于不确定列数据库的海量不确定 XML 数据表示模型;
B、基于不确定列数据库的海量不确定 XML 数据存储具体实现过程如下:
i)、对于模式已知的海量不确定 XML 数据,将依照如下过程设计其在不确定列数据库的存储模型:
(a)获取不确定 XML 数据库模式中的叶子元素、非叶子元素、属性信息;
(b)以非叶子元素为基本划分单元设计相应列数据库表,依据每个非叶子元素单元内嵌套的叶子元素、属性信息设计相应列;
ii) 对于模式未知的海量不确定 XML 数据,将依照如下过程设计其在不确定列数据库的存储模型:
(a)识别不确定 XML 数据库中的数据实体,抽取不确定 XML 数据树结点路径信息;
(b)以数据实体为基本划分单元设计相应列数据库表,依据每个数据实体单元内对应的数据树路径信息设计列数据库相应列,给出海量不确定 XML 数据库数据实体、路径信息与列数据库列之间的映射规则;
(c) 建立模式未知情况下的不确定 XML 数据库与列数据库之间的映射模型;
iii)对于不确定列数据库中的海量不确定数据,依据如下过程实现不确定列数据库到不确定 XML 数据库的存储转换模型:
(a)依据不确定列数据库中各表的主键和列设计以非叶子结点为根的多棵不确定 XML树;
(b)依据不确定列数据库中数据关联信息对各不确定XML树进行拼接从而生成完整不确定XML树。
本发明中,步骤2)中在查询处理实现阶段,首先将构建不确定 XML XPath/XQuery查询模型与 MapReduce 查询模型的映射模型,具体过程如下:
i) XPath 查询与 MapReduce 查询的映射模型构建:
(a)识别 XPath 查询轴、路径表达式等查询限制条件,设计 XPath 父子轴、祖先后代轴、兄弟轴等轴限制条件,以及绝对查询路径和相对查询路径等路径查询表达式的MapReduce 映射转换方法;
(b)建立 XPath 查询与 MapReduce 查询转换模型,并对转换后的查询条件进行拼接,进而生成完整映射查询表达式,在此基础上设计划分查询任务,设计实现面向海量不确定XML 数据的分布式查询方法;
ii) XQuery 查询与 MapReduce 查询的映射模型构建:
(a)识别 XQuery 查询语句,设计 XQuery FLWOR 查询的 For、Let、Where、Order by、Return 语句的MapReduce 映射转换方法;
(b)建立 XQuery 查询与 MapReduce 查询转换模型,并对转换后的查询条件进行拼接,进而生成完整映射查询表达式,在此基础上设计划分查询任务,设计实现面向海量不确定 XML 数据的分布式查询方法。
此后将实现海量不确定 XML 异构小枝查询,具体过程如下:
(a)遍历源
不确定 XML 文档,标识文档祖先后代结点线索;
(b)基于祖先后代结点线索,构建异构哈希表,推理并缓存文档结构信息;
(c)利用文档结构缓存信息,推理有效小枝查询结构,同时基于整体匹配策略,设计并实现海量不确定 XML 异构小枝查询算法。
本发明中,步骤3)中智能化数据查询阶段,将主要实现海量不确定 XML 智能化近似查询模式,近似查询具体实现过程如下:
(a)识别给定查询条件,将给定查询条件分类成数值型内容查询条件、文本型内容查询条件、树型结构查询条件三个类型;
(b)推理用户查询意图,设计查询条件权重评估方法;
(c)设计数值型查询内容、文本型查询内容、树型查询结构的相似度评估方法;
(d)设计自适应查询松弛方法以及 TopK 查询结果排序方法,并给出海量不确定 XML近似查询解决方案。
实验方案:
实验过程将充分考虑可能影响到数据查询的各种因素,进行科学合理的实验设计,采用准确、有代表性的系统性能指标,选用对比实验方法对所提方法进行比较性研究,以寻求更为优越的解决方案。本项目拟采用的实验手段主要有:
(1) 基于大样本的实验测试
将从各主要 XML 数据库中收集测试数据,获得满足实验需求的大规模测试数据,从而对已建立好的模型进行测试。将根据测试结果对模型进行客观评价,并对解决方案进行修正。
(2) 相关方法的处理能力测试
在获取大规模测试数据的基础上,执行标准的技术评价体系,对所提出的方法进行测试,根据测试结果对相关方法的正确性及有效性进行客观评价,进而选择最佳解决方案。
(3) 系统可用性测试
将通过用户的使用反馈,测试系统的可用性指标,如界面交互的友好程度、使用简易度等性能指标,并加以改进。
本发明从实际应用需求入手,创新性地提出了海量不确定 XML 数据查询理论框架,在理论研究和实际应用中都形成了自己的特色。本发明创新地提出模式已知以及模式未知情况下的海量不确定 XML 数据库与列数据库的双向映射模型,为海量不确定XML数据表示模型构建提供了新思路,有效地对海量不确定 XML 数据进行管理,使数据管理系统适应数据爆炸式增长特点,并以较小的代价获得高质量的数据管理服务。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (4)

1.一种海量不确定XML近似查询方法,其特征在于:包括以下步骤:
1)、数据表示与存储实现;
2)、数据查询处理实现;
3)、智能化数据查询实现。
2.根据权利要求1所述的一种海量不确定XML近似查询方法,其特征在于:所述步骤1)中,在数据表示与存储实现阶段,将主要实现面向海量不确定 XML 的列数据库表示与存储,包括以下步骤:
A、基于列数据库的海量不确定 XML 数据表示模型构建具体过程如下:
a、识别不确定 XML 数据的多粒度不确定性;
b、给出不确定 XML 数据在列数据库中的表示方法和不确定列数据库模型定义;
c、建立基于不确定列数据库的海量不确定 XML 数据表示模型;
B、基于不确定列数据库的海量不确定 XML 数据存储具体实现过程如下:
i)、对于模式已知的海量不确定 XML 数据,将依照如下过程设计其在不确定列数据库的存储模型:
(a)获取不确定 XML 数据库模式中的叶子元素、非叶子元素、属性信息;
(b)以非叶子元素为基本划分单元设计相应列数据库表,依据每个非叶子元素单元内嵌套的叶子元素、属性信息设计相应列;
ii) 对于模式未知的海量不确定 XML 数据,将依照如下过程设计其在不确定列数据库的存储模型:
(a)识别不确定 XML 数据库中的数据实体,抽取不确定 XML 数据树结点路径信息;
(b)以数据实体为基本划分单元设计相应列数据库表,依据每个数据实体单元内对应的数据树路径信息设计列数据库相应列,给出海量不确定 XML 数据库数据实体、路径信息与列数据库列之间的映射规则;
(c) 建立模式未知情况下的不确定 XML 数据库与列数据库之间的映射模型;
iii)对于不确定列数据库中的海量不确定数据,依据如下过程实现不确定列数据库到不确定 XML 数据库的存储转换模型:
(a)依据不确定列数据库中各表的主键和列设计以非叶子结点为根的多棵不确定 XML树;
(b)依据不确定列数据库中数据关联信息对各不确定XML树进行拼接从而生成完整不确定XML树。
3. 根据权利要求1所述的一种海量不确定XML近似查询方法,其特征在于:所述步骤2)中在查询处理实现阶段,首先将构建不确定 XML XPath/XQuery 查询模型与 MapReduce查询模型的映射模型,具体过程如下:
i) XPath 查询与 MapReduce 查询的映射模型构建:
(a)识别 XPath 查询轴、路径表达式等查询限制条件,设计 XPath 父子轴、祖先后代轴、兄弟轴等轴限制条件,以及绝对查询路径和相对查询路径等路径查询表达式的MapReduce 映射转换方法;
(b)建立 XPath 查询与 MapReduce 查询转换模型,并对转换后的查询条件进行拼接,进而生成完整映射查询表达式,在此基础上设计划分查询任务,设计实现面向海量不确定XML 数据的分布式查询方法;
ii) XQuery 查询与 MapReduce 查询的映射模型构建:
(a)识别 XQuery 查询语句,设计 XQuery FLWOR 查询的 For、Let、Where、Order by、Return 语句的MapReduce 映射转换方法;
(b)建立 XQuery 查询与 MapReduce 查询转换模型,并对转换后的查询条件进行拼接,进而生成完整映射查询表达式,在此基础上设计划分查询任务,设计实现面向海量不确定 XML 数据的分布式查询方法。
4.根据权利要求1所述的一种海量不确定XML近似查询方法,其特征在于:所述步骤3)中智能化数据查询阶段,将主要实现海量不确定 XML 智能化近似查询模式,近似查询具体实现过程如下:
(a)识别给定查询条件,将给定查询条件分类成数值型内容查询条件、文本型内容查询条件、树型结构查询条件三个类型;
(b)推理用户查询意图,设计查询条件权重评估方法;
(c)设计数值型查询内容、文本型查询内容、树型查询结构的相似度评估方法;
(d)设计自适应查询松弛方法以及 TopK 查询结果排序方法,并给出海量不确定 XML近似查询解决方案。
CN201910644208.XA 2019-07-17 2019-07-17 一种海量不确定xml近似查询方法 Active CN110321456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910644208.XA CN110321456B (zh) 2019-07-17 2019-07-17 一种海量不确定xml近似查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910644208.XA CN110321456B (zh) 2019-07-17 2019-07-17 一种海量不确定xml近似查询方法

Publications (2)

Publication Number Publication Date
CN110321456A true CN110321456A (zh) 2019-10-11
CN110321456B CN110321456B (zh) 2021-06-29

Family

ID=68123774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910644208.XA Active CN110321456B (zh) 2019-07-17 2019-07-17 一种海量不确定xml近似查询方法

Country Status (1)

Country Link
CN (1) CN110321456B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656438A (zh) * 2021-08-06 2021-11-16 北京数码大方科技股份有限公司 数据树的数据查询方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005606A (zh) * 2015-07-03 2015-10-28 华南理工大学 基于MapReduce的XML数据查询方法和系统
KR20160139693A (ko) * 2015-05-28 2016-12-07 목포대학교산학협력단 선박 기자재 관리를 위한 HBase 저장구조 기반 쉽덱스 문서 모델링

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160139693A (ko) * 2015-05-28 2016-12-07 목포대학교산학협력단 선박 기자재 관리를 위한 HBase 저장구조 기반 쉽덱스 문서 모델링
CN105005606A (zh) * 2015-07-03 2015-10-28 华南理工大学 基于MapReduce的XML数据查询方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIAN LIU等: "Enabling Massive XML-Based Biological Data Management in HBase", 《IEEE》 *
王玉操: "一种海量XML文档存储和检索平台的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
闫东亮: "基于语义的XML近似查询方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656438A (zh) * 2021-08-06 2021-11-16 北京数码大方科技股份有限公司 数据树的数据查询方法及装置
CN113656438B (zh) * 2021-08-06 2023-12-12 北京数码大方科技股份有限公司 数据树的数据查询方法及装置

Also Published As

Publication number Publication date
CN110321456B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN105706078B (zh) 实体集合的自动定义
Gubichev et al. Fast and accurate estimation of shortest paths in large graphs
KR101646754B1 (ko) 모바일 시멘틱 검색 장치 및 그 방법
Meroño-Peñuela et al. CEDAR: the Dutch historical censuses as linked open data
CN109033314B (zh) 内存受限情况下的大规模知识图谱的实时查询方法和系统
CN102479252A (zh) 查询语句转换装置及查询语句转换方法
CN104899314A (zh) 一种数据仓库的血统分析方法和装置
CN104573039A (zh) 一种关系数据库的关键词查询方法
CN103838857B (zh) 一种基于语义的自动服务组合系统及方法
CN105335487A (zh) 基于农业技术信息本体库的农业专家信息检索系统及方法
KR102157218B1 (ko) 공간 데이터의 의미론적 주석을 위한 데이터 변환 방법
Soussi et al. Towards social network extraction using a graph database
Martínez-Prieto et al. Querying RDF dictionaries in compressed space
Kiran et al. Ontology based data integration of NoSQL datastores
Michel Bioschemas & Schema. org: a lightweight semantic layer for life sciences websites
CN104156431A (zh) 一种基于实体图社团结构的rdf关键词查询方法
CN110321456A (zh) 一种海量不确定xml近似查询方法
CN106021306A (zh) 基于本体匹配的案例搜索系统
CN107577752A (zh) 一种基于关键字的xml检索排序处理系统及方法
CN113094514A (zh) 一种基于领域知识图谱的水务数据智能发现方法
CN101719162A (zh) 基于片段模式匹配的多版本开放式地理信息服务访问方法及系统
US20040260697A1 (en) Apparatus for and method of evaluating named entities
Dede et al. Scalable and distributed processing of scientific XML data
CN114880483A (zh) 一种元数据知识图谱构建方法、存储介质及系统
Li et al. Building an Open Cloud Virtual Dataspace Model for Materials Scientific Data.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant