CN104598454A - 一种基于xml的信息搜索方法 - Google Patents
一种基于xml的信息搜索方法 Download PDFInfo
- Publication number
- CN104598454A CN104598454A CN201310527298.7A CN201310527298A CN104598454A CN 104598454 A CN104598454 A CN 104598454A CN 201310527298 A CN201310527298 A CN 201310527298A CN 104598454 A CN104598454 A CN 104598454A
- Authority
- CN
- China
- Prior art keywords
- query
- xml
- result
- size estimation
- cost estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/835—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
随着Internet上信息量的与日俱增,传统的基于HTML的信息检索已经无法满足人们不断变化的信息需求。本发明涉及一种基于XML的信息搜索方法,属于计算机技术领域。该方法提出了一套完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计,有效解决了XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。
Description
技术领域
本发明涉及一种基于XML的信息搜索方法,属于计算机技术领域。
背景技术
随着Internet上信息量的与日俱增,传统的基于HTML的信息检索已经无法满足人们不断变化的信息需求。为此,人们努力寻求各种新的技术方法和解决手段,XML的出现在很大程度上能缓解这一问题。由于XML具有可扩展性、简单性、开放性、互操作性等诸多特点,正逐步取代HTML,成为驻留在Web上的主要的信息形式,而其结构化及自描述等特性亦给检索效果的提高带来了新的契机。
可扩展的标识语言XML(Extensible Markup Language)是一种元标注语言,即定义了用于定义其他特定领域有关语义的、结构化的标记语言,这些标记语言将文档分成许多部件并对这些部件加以标识。XML 文档定义方式有:DTD (Document Type Definition)和XML Schema。DTD定义了文档的整体结构以及文档的语法,应用广泛并有丰富工具支持。XML Schema用于定义管理信息等更强大、更丰富的特征。XML能够更精确地声明内容,方便跨越多种平台的更有意义的搜索结果。它提供了一种描述结构数据的格式,简化了网络中数据交换和表示,使得代码、数据和表示分离,并作为数据交换的标准格式,因此它常被称为智能数据文档。XML技术已经广泛应用于e-Learning应用系统的开发,大多数的商用e-Learning平台都支持XML标准。
发明内容
本发明介绍了一种基于XML的信息搜索方法,该方法建立索引时不仅需要建立倒排文本索引,还需要建立结构信息索引;查询处理时不仅需要处理关键字查询条件,还需要处理结构化查询条件。具体过程如下:
(1)分析XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题,以及查询结果和查询条件间的相关度算法,提出了一种高效的动态XML结构索引算法,它采用动态后向结构相似性的概念,可根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息。
(2)为考虑XML数据中的结构信息对查询结果相关度值的影响,提出了一种综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法,以及一种基于节点的关键字权重计算法,取得了更优的检索性能。
(3)分析XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别,提出了一套完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计。SXM有效解决了XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。
具体实施方式
实施例一
使用MyEclipse 8.6作为开发工具,使用市场上专用的数据库 MySQL建立系统所需要的数据库,使用Navicat for MySQL作为数据库管理工具。
具体过程如下:
(1)分析XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题,以及查询结果和查询条件间的相关度算法,提出了一种高效的动态XML结构索引算法,它采用动态后向结构相似性的概念,可根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息。
(2)为考虑XML数据中的结构信息对查询结果相关度值的影响,本发明提出了一种综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法,以及一种基于节点的关键字权重计算法,取得了更优的检索性能。
(3)分析XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别,提出了一套完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计。SXM有效解决了XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。
Claims (1)
1.本发明介绍了一种基于XML的信息搜索方法,具体过程如下:
(1)分析XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题,以及查询结果和查询条件间的相关度算法,提出了一种高效的动态XML结构索引算法,它采用动态后向结构相似性的概念,可根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息;
(2)为考虑XML数据中的结构信息对查询结果相关度值的影响,利用综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法,以及一种基于节点的关键字权重计算法,以便取得更优的检索性能;
(3)分析XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别,利用完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310527298.7A CN104598454A (zh) | 2013-10-31 | 2013-10-31 | 一种基于xml的信息搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310527298.7A CN104598454A (zh) | 2013-10-31 | 2013-10-31 | 一种基于xml的信息搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104598454A true CN104598454A (zh) | 2015-05-06 |
Family
ID=53124253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310527298.7A Pending CN104598454A (zh) | 2013-10-31 | 2013-10-31 | 一种基于xml的信息搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104598454A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005606A (zh) * | 2015-07-03 | 2015-10-28 | 华南理工大学 | 基于MapReduce的XML数据查询方法和系统 |
CN111752542A (zh) * | 2020-06-26 | 2020-10-09 | 武汉众邦银行股份有限公司 | 基于xml模板的数据库查询接口引擎 |
CN112559554A (zh) * | 2020-12-24 | 2021-03-26 | 北京百家科技集团有限公司 | 一种查询语句优化方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101183385A (zh) * | 2007-12-04 | 2008-05-21 | 西安交通大学 | 一种基于多模态索引结构的xml查询方法 |
CN101295315A (zh) * | 2007-04-27 | 2008-10-29 | 软件股份公司 | 用于执行xml数据库查询的方法和数据库系统 |
CN101645075A (zh) * | 2009-09-07 | 2010-02-10 | 浪潮集团山东通用软件有限公司 | 一种基于xml和动态脚本文件配置实现的通用数据列表方法 |
CN102325161A (zh) * | 2011-07-18 | 2012-01-18 | 北京航空航天大学 | 一种基于查询工作量估算的xml分片方法 |
CN103186674A (zh) * | 2013-04-02 | 2013-07-03 | 浪潮电子信息产业股份有限公司 | 一种基于XML的Web数据快速查询方法 |
-
2013
- 2013-10-31 CN CN201310527298.7A patent/CN104598454A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295315A (zh) * | 2007-04-27 | 2008-10-29 | 软件股份公司 | 用于执行xml数据库查询的方法和数据库系统 |
CN101183385A (zh) * | 2007-12-04 | 2008-05-21 | 西安交通大学 | 一种基于多模态索引结构的xml查询方法 |
CN101645075A (zh) * | 2009-09-07 | 2010-02-10 | 浪潮集团山东通用软件有限公司 | 一种基于xml和动态脚本文件配置实现的通用数据列表方法 |
CN102325161A (zh) * | 2011-07-18 | 2012-01-18 | 北京航空航天大学 | 一种基于查询工作量估算的xml分片方法 |
CN103186674A (zh) * | 2013-04-02 | 2013-07-03 | 浪潮电子信息产业股份有限公司 | 一种基于XML的Web数据快速查询方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005606A (zh) * | 2015-07-03 | 2015-10-28 | 华南理工大学 | 基于MapReduce的XML数据查询方法和系统 |
CN105005606B (zh) * | 2015-07-03 | 2018-06-29 | 华南理工大学 | 基于MapReduce的XML数据查询方法和系统 |
CN111752542A (zh) * | 2020-06-26 | 2020-10-09 | 武汉众邦银行股份有限公司 | 基于xml模板的数据库查询接口引擎 |
CN111752542B (zh) * | 2020-06-26 | 2020-12-29 | 武汉众邦银行股份有限公司 | 基于xml模板的数据库查询接口引擎 |
CN112559554A (zh) * | 2020-12-24 | 2021-03-26 | 北京百家科技集团有限公司 | 一种查询语句优化方法及装置 |
CN112559554B (zh) * | 2020-12-24 | 2024-01-26 | 北京百家科技集团有限公司 | 一种查询语句优化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10984042B2 (en) | Publishing RDF quads as relational views | |
Salas et al. | Publishing statistical data on the web | |
Vassiliadis et al. | Extraction, Transformation, and Loading. | |
US8745021B2 (en) | Transformation of complex data source result sets to normalized sets for manipulation and presentation | |
CN103646032A (zh) | 一种基于本体和受限自然语言处理的数据库查询方法 | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
CN104866554A (zh) | 一种基于社会化标注的个性化搜索方法及系统 | |
WO2018127747A1 (en) | A method, apparatus and computer program product for user-directed database configuration, and automated mining and conversion of data | |
CN104598454A (zh) | 一种基于xml的信息搜索方法 | |
Sawadogo et al. | Joint management and analysis of textual documents and tabular data within the audal data lake | |
Sundaram et al. | A change detection system for unordered XML data using a relational model | |
CN106055702B (zh) | 一种面向互联网的数据服务统一描述方法 | |
Xu et al. | From XML Schema to Relations: A Incremental Approach to XML Storage | |
Wu et al. | Investigations on XML-based data exchange between heterogeneous databases | |
CN103778118A (zh) | 一种基于sql的xml到关系数据库的转换方法 | |
Ruixian | Bibliometrical Analysis on the Big Data Research in China. | |
Mahboubi | XML warehousing and OLAP | |
Zaniolo | Event-oriented data models and temporal queries in transaction-time databases | |
Lai et al. | A Spatio-Temporal Resource Description Framework Schema Model for Aeronautical Dynamic Information Based on Semantic Analysis | |
Shaowen et al. | Application of decision tree in xml database mining | |
Cui et al. | Modeling and application of data correlations among heterogeneous data sources | |
Curotto et al. | Multi-relational data mining in Microsoft SQL Server 2005 | |
Vanea et al. | Semantically enhancing multimedia data warehouses-using ontologies as part of the metadata | |
Papakonstantinou et al. | Some thoughts on OWL-empowered SPARQL query optimization | |
Wang et al. | A storage and query mechanism of XBRL data based on native XML database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150506 |