CN104598454A - 一种基于xml的信息搜索方法 - Google Patents

一种基于xml的信息搜索方法 Download PDF

Info

Publication number
CN104598454A
CN104598454A CN201310527298.7A CN201310527298A CN104598454A CN 104598454 A CN104598454 A CN 104598454A CN 201310527298 A CN201310527298 A CN 201310527298A CN 104598454 A CN104598454 A CN 104598454A
Authority
CN
China
Prior art keywords
query
xml
result
size estimation
cost estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310527298.7A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Sirun Software Co Ltd
Original Assignee
Nanjing Sirun Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Sirun Software Co Ltd filed Critical Nanjing Sirun Software Co Ltd
Priority to CN201310527298.7A priority Critical patent/CN104598454A/zh
Publication of CN104598454A publication Critical patent/CN104598454A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

随着Internet上信息量的与日俱增,传统的基于HTML的信息检索已经无法满足人们不断变化的信息需求。本发明涉及一种基于XML的信息搜索方法,属于计算机技术领域。该方法提出了一套完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计,有效解决了XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。

Description

一种基于XML的信息搜索方法
技术领域
本发明涉及一种基于XML的信息搜索方法,属于计算机技术领域。
背景技术
随着Internet上信息量的与日俱增,传统的基于HTML的信息检索已经无法满足人们不断变化的信息需求。为此,人们努力寻求各种新的技术方法和解决手段,XML的出现在很大程度上能缓解这一问题。由于XML具有可扩展性、简单性、开放性、互操作性等诸多特点,正逐步取代HTML,成为驻留在Web上的主要的信息形式,而其结构化及自描述等特性亦给检索效果的提高带来了新的契机。
可扩展的标识语言XML(Extensible Markup Language)是一种元标注语言,即定义了用于定义其他特定领域有关语义的、结构化的标记语言,这些标记语言将文档分成许多部件并对这些部件加以标识。XML 文档定义方式有:DTD (Document Type Definition)和XML Schema。DTD定义了文档的整体结构以及文档的语法,应用广泛并有丰富工具支持。XML Schema用于定义管理信息等更强大、更丰富的特征。XML能够更精确地声明内容,方便跨越多种平台的更有意义的搜索结果。它提供了一种描述结构数据的格式,简化了网络中数据交换和表示,使得代码、数据和表示分离,并作为数据交换的标准格式,因此它常被称为智能数据文档。XML技术已经广泛应用于e-Learning应用系统的开发,大多数的商用e-Learning平台都支持XML标准。
发明内容
本发明介绍了一种基于XML的信息搜索方法,该方法建立索引时不仅需要建立倒排文本索引,还需要建立结构信息索引;查询处理时不仅需要处理关键字查询条件,还需要处理结构化查询条件。具体过程如下:
(1)分析XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题,以及查询结果和查询条件间的相关度算法,提出了一种高效的动态XML结构索引算法,它采用动态后向结构相似性的概念,可根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息。
(2)为考虑XML数据中的结构信息对查询结果相关度值的影响,提出了一种综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法,以及一种基于节点的关键字权重计算法,取得了更优的检索性能。
(3)分析XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别,提出了一套完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计。SXM有效解决了XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。
具体实施方式
实施例一
使用MyEclipse 8.6作为开发工具,使用市场上专用的数据库 MySQL建立系统所需要的数据库,使用Navicat for MySQL作为数据库管理工具。
具体过程如下:
(1)分析XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题,以及查询结果和查询条件间的相关度算法,提出了一种高效的动态XML结构索引算法,它采用动态后向结构相似性的概念,可根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息。
(2)为考虑XML数据中的结构信息对查询结果相关度值的影响,本发明提出了一种综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法,以及一种基于节点的关键字权重计算法,取得了更优的检索性能。
(3)分析XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别,提出了一套完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计。SXM有效解决了XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (1)

1.本发明介绍了一种基于XML的信息搜索方法,具体过程如下:
(1)分析XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题,以及查询结果和查询条件间的相关度算法,提出了一种高效的动态XML结构索引算法,它采用动态后向结构相似性的概念,可根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息;
(2)为考虑XML数据中的结构信息对查询结果相关度值的影响,利用综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法,以及一种基于节点的关键字权重计算法,以便取得更优的检索性能;
(3)分析XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别,利用完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计。
CN201310527298.7A 2013-10-31 2013-10-31 一种基于xml的信息搜索方法 Pending CN104598454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310527298.7A CN104598454A (zh) 2013-10-31 2013-10-31 一种基于xml的信息搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310527298.7A CN104598454A (zh) 2013-10-31 2013-10-31 一种基于xml的信息搜索方法

Publications (1)

Publication Number Publication Date
CN104598454A true CN104598454A (zh) 2015-05-06

Family

ID=53124253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310527298.7A Pending CN104598454A (zh) 2013-10-31 2013-10-31 一种基于xml的信息搜索方法

Country Status (1)

Country Link
CN (1) CN104598454A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005606A (zh) * 2015-07-03 2015-10-28 华南理工大学 基于MapReduce的XML数据查询方法和系统
CN111752542A (zh) * 2020-06-26 2020-10-09 武汉众邦银行股份有限公司 基于xml模板的数据库查询接口引擎
CN112559554A (zh) * 2020-12-24 2021-03-26 北京百家科技集团有限公司 一种查询语句优化方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183385A (zh) * 2007-12-04 2008-05-21 西安交通大学 一种基于多模态索引结构的xml查询方法
CN101295315A (zh) * 2007-04-27 2008-10-29 软件股份公司 用于执行xml数据库查询的方法和数据库系统
CN101645075A (zh) * 2009-09-07 2010-02-10 浪潮集团山东通用软件有限公司 一种基于xml和动态脚本文件配置实现的通用数据列表方法
CN102325161A (zh) * 2011-07-18 2012-01-18 北京航空航天大学 一种基于查询工作量估算的xml分片方法
CN103186674A (zh) * 2013-04-02 2013-07-03 浪潮电子信息产业股份有限公司 一种基于XML的Web数据快速查询方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295315A (zh) * 2007-04-27 2008-10-29 软件股份公司 用于执行xml数据库查询的方法和数据库系统
CN101183385A (zh) * 2007-12-04 2008-05-21 西安交通大学 一种基于多模态索引结构的xml查询方法
CN101645075A (zh) * 2009-09-07 2010-02-10 浪潮集团山东通用软件有限公司 一种基于xml和动态脚本文件配置实现的通用数据列表方法
CN102325161A (zh) * 2011-07-18 2012-01-18 北京航空航天大学 一种基于查询工作量估算的xml分片方法
CN103186674A (zh) * 2013-04-02 2013-07-03 浪潮电子信息产业股份有限公司 一种基于XML的Web数据快速查询方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005606A (zh) * 2015-07-03 2015-10-28 华南理工大学 基于MapReduce的XML数据查询方法和系统
CN105005606B (zh) * 2015-07-03 2018-06-29 华南理工大学 基于MapReduce的XML数据查询方法和系统
CN111752542A (zh) * 2020-06-26 2020-10-09 武汉众邦银行股份有限公司 基于xml模板的数据库查询接口引擎
CN111752542B (zh) * 2020-06-26 2020-12-29 武汉众邦银行股份有限公司 基于xml模板的数据库查询接口引擎
CN112559554A (zh) * 2020-12-24 2021-03-26 北京百家科技集团有限公司 一种查询语句优化方法及装置
CN112559554B (zh) * 2020-12-24 2024-01-26 北京百家科技集团有限公司 一种查询语句优化方法及装置

Similar Documents

Publication Publication Date Title
US10984042B2 (en) Publishing RDF quads as relational views
Salas et al. Publishing statistical data on the web
Vassiliadis et al. Extraction, Transformation, and Loading.
US8745021B2 (en) Transformation of complex data source result sets to normalized sets for manipulation and presentation
CN103646032A (zh) 一种基于本体和受限自然语言处理的数据库查询方法
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN104866554A (zh) 一种基于社会化标注的个性化搜索方法及系统
WO2018127747A1 (en) A method, apparatus and computer program product for user-directed database configuration, and automated mining and conversion of data
CN104598454A (zh) 一种基于xml的信息搜索方法
Sawadogo et al. Joint management and analysis of textual documents and tabular data within the audal data lake
Sundaram et al. A change detection system for unordered XML data using a relational model
CN106055702B (zh) 一种面向互联网的数据服务统一描述方法
Xu et al. From XML Schema to Relations: A Incremental Approach to XML Storage
Wu et al. Investigations on XML-based data exchange between heterogeneous databases
CN103778118A (zh) 一种基于sql的xml到关系数据库的转换方法
Ruixian Bibliometrical Analysis on the Big Data Research in China.
Mahboubi XML warehousing and OLAP
Zaniolo Event-oriented data models and temporal queries in transaction-time databases
Lai et al. A Spatio-Temporal Resource Description Framework Schema Model for Aeronautical Dynamic Information Based on Semantic Analysis
Shaowen et al. Application of decision tree in xml database mining
Cui et al. Modeling and application of data correlations among heterogeneous data sources
Curotto et al. Multi-relational data mining in Microsoft SQL Server 2005
Vanea et al. Semantically enhancing multimedia data warehouses-using ontologies as part of the metadata
Papakonstantinou et al. Some thoughts on OWL-empowered SPARQL query optimization
Wang et al. A storage and query mechanism of XBRL data based on native XML database

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150506