CN103399952A - 一种基于关键词的关系数据库检索系统及方法 - Google Patents
一种基于关键词的关系数据库检索系统及方法 Download PDFInfo
- Publication number
- CN103399952A CN103399952A CN2013103635774A CN201310363577A CN103399952A CN 103399952 A CN103399952 A CN 103399952A CN 2013103635774 A CN2013103635774 A CN 2013103635774A CN 201310363577 A CN201310363577 A CN 201310363577A CN 103399952 A CN103399952 A CN 103399952A
- Authority
- CN
- China
- Prior art keywords
- keyword
- grade form
- engine
- query
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关键词的关系数据库检索系统及方法。其中该系统包括:语法分析模块,将不同形式的关键词识别出来,以便于IR引擎采用不同的方法进行处理;IR引擎模块,采用不同的方法查询不同的关键词,对每个关键词创建一个基本评分表及评分表;候选评分表连接树集合的生成模块,根据数据库模式图和IR引擎生成的评分表集合来生成候选评分表连接树集合;Top-k查询结果生成模块,将候选评分表连接树转换为SQL查询,从数据库中查询出数据,将k个得分最高的结果返回给用户,从而实现基于关键词的关系数据库检索,达到用户可以方便地检索结构化数据的目的,满足用户个性化检索的需要。
Description
技术领域
本发明涉及关系数据库检索领域,具体涉及一种基于关键词的关系数据库检索系统及方法。
背景技术
信息检索最常见的技术是搜索引擎,互联网用户通常通过搜索引擎从互联网上抓取网页,建立索引数据库,再从索引数据库中搜索排序。用户把一组关键字作为一个查询条件,搜索引擎返回一个相关的文件种类列表作为结果。但它只能机械地匹配网页上的文字,不能真正地理解网页上的内容。搜索引擎搜索的实际上是预先整理好的相关网页索引数据库,它收集互联网上数以亿计的网页,对网页的每一个关键词进行索引,建立起网页索引数据库。在通过复杂的算法进行排序后,将所有相关网页针对该关键词的相关度计算好,按照与搜索关键词的相关度高低对这些查询结果依次排列,排序越靠前的相关度越高。当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到在网页内容里包含了关键词的所有相关网页,由页面生成系统把页面内容摘要和搜索结果的链接地址等内容组织起来返回给用户。
尽管数据库和信息检索系统都是关注数据查询,但他们解决问题的方法是不同的。SQL是用于查询结构化数据的非过程化编程语言,是关系数据库的标准查询语言,允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法,也不需要用户了解具体的数据存放方式,所以具有完全不同底层结构的不同数据库系统可以使用相同的SQL语言作为数据输入与管理的接口。关系数据库系统的数据查询技术通过复杂的SQL查询语句查询结构化数据,结果是确定和完整的。信息检索系统通过关键字查询非结构数据,它的结果通常是不精确和不完整。关键词查询是查询文档和网页的最简单、最流行的信息检索技术,关键词查询直观、易用,不需要学习查询语言,也不需要知道查询对象的底层结构。
实现基于关键词的关系数据库信息检索,不但可以规避数据库的数据模式,使用户不需要任何SQL语言和数据库模式的知识,而且还可以得到普遍推广,直观、易用,像使用Google那样通过提交关键词来获取数据库中的相关数据。
发明内容
为了解决现有技术的问题,本发明的目的是对用户提交的关键词进行有效地查询,使用户能方便地查询关系数据库,满足用户个性化查询的需要。
为达成所述目的,本发明提供一种基于关键词的关系数据库检索系统及方法,该系统包括:语法分析模块,将不同形式的关键词识别出来,以便于IR引擎采用不同的方法进行处理;IR引擎模块,采用不同的方法进行查询不同的关键词,对每个关键词创建一个基本评分表及评分表;候选评分表连接树集合的生成模块,根据数据库模式图和IR引擎生成的评分表集合来生成候选评分表连接树集合;以及Top-k查询结果生成模块,将候选评分表连接树转换为SQL查询,从数据库中查询出数据,将k个得分最高的结果返回给用户。
本发明的有益效果是:与现有技术不同,本发明通过结合基于半结构化数据的信息检索技术与结构化的数据库检索技术进行检索,可以规避数据库的数据模式,使用户不需要任何SQL语言和数据库模式的知识,像使用Google那样通过提交关键词来获取数据库中的相关数据。
附图说明
图1为本发明提供的一种基于关键词的关系数据库检索系统及方法的框架图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例子,并参照附图,对本发明进一步详细说明。
图1为本发明提供的一种基于关键词的关系数据库检索系统及方法的框架图。该系统包括:IR引擎模块,采用不同的方法进行查询不同的关键词,对每个关键词创建一个基本评分表及评分表;候选评分表连接树集合的生成模块,根据数据库模式图和IR引擎生成的评分表集合来生成候选评分表连接树集合;以及Top-k查询结果生成模块,将候选评分表连接树转换为SQL查询,从数据库中查询出数据,将k个得分最高的结果返回给用户。
当用户提交关键词,支持Top-k的查询采用完全匹配方法进行连接,产生基于一致性数据库的SQL语句,采用非一致性数据处理的查询重写方法,产生SQL重写语句,再对结果集进行排序;如果返回的结果集为空,则根据其非连接谓词和连接谓词形式采用不同的近似匹配方法。如果为非数字属性的非连接谓词,则采用非数字属性的模糊查询方法;如果为数字属性的非连接谓词,则采用基于隶属函数的模糊查询方法;如果为连接谓词,则采用完全匹配方法连接。如果非连接谓词采用近似匹配仍然不能返回结果,则连接谓词采用近似匹配方法进行连接。在上述过程中,如果为概率数据,则非连接谓词近似匹配采用基于可信度的非连接谓词近似匹配方法。
进一步,所述语法分析包括文本属性、元数据查询和数字属性等不同类型的关键词。
进一步,所述IR引擎模块为了支持对元数据的查询,建立两个匹配表,分别用于关系和属性的关键词匹配;对于不同的关键词,IR引擎采用不同的方法进行查询;IR引擎对文本属性的评分将由RDBMS的全文索引给出,对数字属性的评分由公式给出;对每个关键词,IR引擎为数据库中的每一个关系创建一个基本评分表,在基本评分表的基础上生成评分表。
进一步,所述候选评分表连接树集合的生成模块以树的形式表示中间过程,并返回查询结果;候选评分表连接树至少包含一个关键词,它的所有叶子结点至少包含一个关键词,它的大小是连接树中评分表的数量。
进一步,所述Top-k查询结果生成模块将k个得分最高的结果返回给用户;把有序的候选评分表连接树集合转换成SQL查询,再在数据库中查询到包含关键词的元组集;为提高查询性能,对每一条查询到包含关键词的元组记录成分数,如果任何包含关键词的元组低于结果中第k个结果的分数,则直接过滤掉,再对前k个元组进行排序。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的实质精神所引伸出的显而易见的变化或变动仍属于本发明的保护范围。
Claims (5)
1.一种基于关键词的关系数据库检索系统及方法,包括:
语法分析模块,将不同形式的关键词识别出来,以便于IR引擎采用不同的方法进行处理;
IR引擎模块,采用不同的方法查询不同的关键词,对每个关键词创建一个基本评分表及评分表;
候选评分表连接树集合的生成模块,根据数据库模式图和IR引擎生成的评分表集合来生成候选评分表连接树集合;
以及Top-k查询结果生成模块,将候选评分表连接树转换为SQL查询,从数据库中查询出数据,将k个得分最高的结果返回给用户。
2.根据权利要求1所述的基于关键词的关系数据库检索系统及方法,其中语法分析模块包括文本属性、元数据查询和数字属性等不同类型的关键词。
3.根据权利要求1所述的基于关键词的关系数据库检索系统及方法,其中IR引擎模块为了支持对元数据的查询,建立两个匹配表,分别用于关系和属性的关键词匹配;对于不同的关键词,IR引擎采用不同的方法进行查询;IR引擎对文本属性的评分将由RDBMS的全文索引给出,对数字属性的评分由公式给出;对每个关键词,IR引擎为数据库中的每一个关系创建一个基本评分表,在基本评分表的基础上生成评分表。
4.根据权利要求1所述的基于关键词的关系数据库检索系统及方法,其中候选评分表连接树集合的生成模块以树的形式表示中间过程,并返回查询结果;候选评分表连接树至少包含一个关键词,它的所有叶子结点至少包含一个关键词,它的大小是连接树中评分表的数量。
5.根据权利要求1所述的基于关键词的关系数据库检索系统及方法,其中Top-k查询结果生成模块将k个得分最高的结果返回给用户;把有序的候选评分表连接树集合转换成SQL查询,再在数据库中查询到包含关键词的元组集;为提高查询性能,对每一条查询到包含关键词的元组记录成分数,如果任何包含关键词的元组低于结果中第k个结果的分数,则直接过滤掉,再对前k个元组进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013103635774A CN103399952A (zh) | 2013-08-20 | 2013-08-20 | 一种基于关键词的关系数据库检索系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013103635774A CN103399952A (zh) | 2013-08-20 | 2013-08-20 | 一种基于关键词的关系数据库检索系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103399952A true CN103399952A (zh) | 2013-11-20 |
Family
ID=49563580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013103635774A Pending CN103399952A (zh) | 2013-08-20 | 2013-08-20 | 一种基于关键词的关系数据库检索系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103399952A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731781A (zh) * | 2013-12-18 | 2015-06-24 | 格博信息技术(苏州)有限公司 | 定量搜索方法及其系统 |
CN106227894A (zh) * | 2016-08-24 | 2016-12-14 | 中国农业银行股份有限公司 | 一种数据分页查询方法和装置 |
CN106874422A (zh) * | 2017-01-25 | 2017-06-20 | 东南大学 | 一种面向关系型数据库的图查询方法 |
CN107783962A (zh) * | 2017-11-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于查询指令的方法及装置 |
-
2013
- 2013-08-20 CN CN2013103635774A patent/CN103399952A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731781A (zh) * | 2013-12-18 | 2015-06-24 | 格博信息技术(苏州)有限公司 | 定量搜索方法及其系统 |
CN106227894A (zh) * | 2016-08-24 | 2016-12-14 | 中国农业银行股份有限公司 | 一种数据分页查询方法和装置 |
CN106227894B (zh) * | 2016-08-24 | 2019-11-26 | 中国农业银行股份有限公司 | 一种数据分页查询方法和装置 |
CN106874422A (zh) * | 2017-01-25 | 2017-06-20 | 东南大学 | 一种面向关系型数据库的图查询方法 |
CN106874422B (zh) * | 2017-01-25 | 2019-07-26 | 东南大学 | 一种面向关系型数据库的图查询方法 |
CN107783962A (zh) * | 2017-11-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于查询指令的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li | Human-in-the-loop data integration | |
KR101525529B1 (ko) | 데이터 처리장치 및 그 데이터 매핑방법 | |
CN102087669B (zh) | 基于语义关联的智能搜索引擎系统 | |
Chen et al. | Keyword search on structured and semi-structured data | |
EP2843567B1 (en) | Computer-implemented method for improving query execution in relational databases normalized at level 4 and above | |
JP2006012173A5 (zh) | ||
CN104008210B (zh) | 一种基于多搜索引擎的Web信息检索方法 | |
Abedjan et al. | Dataxformer: Leveraging the Web for Semantic Transformations. | |
US20070271228A1 (en) | Documentary search procedure in a distributed system | |
CN106777343A (zh) | 增量分布式索引系统和方法 | |
CN104142968A (zh) | 一种基于solr技术的分布式搜索方法及系统 | |
CN103399952A (zh) | 一种基于关键词的关系数据库检索系统及方法 | |
CN102314464A (zh) | 歌词搜索方法及搜索引擎 | |
CN110134686B (zh) | 一种中文关键词模糊查询的索引创建方法及系统 | |
CN108536819B (zh) | 整型列与字符串比较的方法、装置、服务器及存储介质 | |
Zhan et al. | ITREKS: Keyword search over relational database by indexing tuple relationship | |
Stasiu et al. | Estimating recall and precision for vague queries in databases | |
Agarwal et al. | Enabling generic keyword search over raw XML data | |
Zhong et al. | 3SEPIAS: A semi-structured search engine for personal information in dataspace system | |
Xu | Dynamic Optimization Analysis of Keyword Query Results in Relational Databases Based on Ant Colony Optimization Algorithm | |
Tian et al. | A survey on XML keyword search | |
Li et al. | Query optimization for massive RDF data based on Spark | |
Elsayed et al. | Enhancing keyword search over relational databases using ontologies | |
Lee et al. | Two-step RDF query processing for Linked Data | |
Khare et al. | Review on enabling document annotation using content and querying value |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20131120 |