CN105912649A

CN105912649A - 一种数据库模糊检索方法和系统

Info

Publication number: CN105912649A
Application number: CN201610218737.XA
Authority: CN
Inventors: 朱洪波; 武吉涛; 李国防; 郭永安
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2016-04-08
Filing date: 2016-04-08
Publication date: 2016-08-31

Abstract

本发明公开了一种数据库模糊检索方法和系统，该方法包括：对对象图的检索以及利用模糊推理的方法计算相关性分数；对对象图的检索是根据对象图中各个对象之间边的最小权重使用宽度优先算法来找到最适合的对象目标；根据各个对象之间联系的重要性来确定各个对象之间具体的权重值的大小；模糊索引构建，分为关键词模糊索引和对象模糊索引；关键词索引包括两部分内容；用户根据自己想查询的内容输入具体数据；通过输入的检索关键词，利用反向扩展算法和宽度搜索算法搜索对象图，得到不同的对象连接树，这些对象连接树表示不同的检索结果，利用评分机制计算不同对象连接树的IR分数，将最相关的检索结果反馈给用户。很好地改善数据库结构对搜索的影响。

Description

一种数据库模糊检索方法和系统

技术领域

本发明涉及基于体育健身服务平台管理与设计背景下的一种数据库模糊检索方法，属于计算机技术领域。

背景技术

随着物联网地进一步发展，可以展望，物物相连的物联网技术必将产生大量的数据。传统上，关系数据库存储的结构化数据可以使用SQL语言查询，以XML格式存储的半结构化数据可以使用Xquery语言查询，而存储在文件系统和文档数据库中的非结构化数据则使用关键词查询。近年来，在应用需求的推动下，数据库信息检索技术(Database InformationRetrieval，DBIR)的研究得到快速发展。DBIR只需用户输入检索关键词就可以从关系数据库中获取信息，这一技术使得用户既不需要了解底层的数据库模式也不需要掌握SQL语言。DBIR技术极大地提高了数据库的可用性。但是，很多普通用户对于数据库中存储的具体数据名称可能不能够准确掌握，让用户使用数据库数据很不方便。在信息管理系统中，许多信息的表示具有二义性，使用者在查询有关信息时可能因为信息表示的不同而找不到所需的数据，给系统使用者带来不便。如“计算机”、“电子计算机”与“电脑”同义等。但计算机是讲究精确的机器，若数据库中保存着的是“计算机”，而你却按“电脑来进行查询，这是不可能得到结果的。而本发明能够解决上面的问题。

现有技术大多是对于SATR算法的实现，而STAR算法在解决上述问题时存在明显的缺点。具体表现在STAR算法简单地采用随机赋值的方式。在STAR算法的迭代优化过程中，主要是依据路径值的大小也就是路径中边的权重值，进行路径替换的，随机赋值的方式使得最终检索结果所包含的内容并不一定具有关联性。

发明内容

本发明目的在于解决了上述现有技术的问题，提出了一种数据库模糊检索方法，该方法实现了对STAR算法的改进，给出基于模糊逻辑的相关性评分机制，主要采用模糊推理方法对对象进行最终的评分，提高了检索效果，在检索过程中通过构建索引以加快检索效率。

本发明解决其技术问题所采用的技术方案是：一种数据库模糊检索方法，该方法针对一个对象级别的检索，基于模糊逻辑的对象级别检索。对象级别检索算法是对STAR算法的改进，主要实现对对象图的检索以及利用模糊推理的方法计算相关性分数，同时DOFSTAR算法还考虑了数据库结构对关键词检索的影响。

方法流程：

步骤1：对对象图的检索以及利用模糊推理的方法计算相关性分数；

对对象图的检索是根据对象图中各个对象之间边的最小权重使用宽度优先算法来找到最适合的对象目标。根据各个对象之间联系的重要性来确定各个对象之间具体的权重值的大小。比如，可以根据各个对象具体关键词属性的字符串符合程度或者语义符合程度来确定关键词的具体值。

步骤2：模糊索引构建，分为关键词模糊索引和对象模糊索引；关键词索引主要包括两部分内容，即一个是关键词模糊索引，主要用于记录关键词的IR分数及所属对象；另一个是对象模糊索引，主要用于记录对象所包含的元组和属性及其各种对象之间的重要性。

步骤3：用户根据自己想查询的内容输入具体数据；

步骤4：通过输入的检索关键词，利用反向扩展算法和宽度搜索算法搜索对象图，可以得到不同的对象连接树，这些对象连接树表示了不同的检索结果，利用评分机制计算不同对象连接树的IR分数，可以将最相关的检索结果反馈给用户。

进一步的，本发明基于模糊逻辑的对象级别检索算法；所述的对象级别检索算法是对STAR算法的改进，实现对对象图的检索以及利用模糊推理的方法计算相关性分数，同时DOFSTAR算法还考虑了数据库结构对关键词检索的影响。实现对对象图的检索主要通过反向扩展算法和宽度优先搜索算法来实现。

进一步的，本发明数据库模糊检索方法能够实现用户数据的多种转义存储，以及检索时的提供相关数据的任意别名查询。

进一步的，本发明STAR算法就是利用Steiner树的近似算法解决关系数据图的关键词检索问题。STAR算法主要分为两部分:第一部分尽可能找到包含全部查询关键词的树，采用的是反向扩展搜索策略。第二部分是查找图中低权重的路径替换树中原有的路径，通过迭代优化树直到找到最小Steiner树，主要采用的是宽度优先搜索策略。

进一步的，本发明包括两个索引，即：一个是关键词模糊索引，主要用于记录关键词的IR分数及所属对象；另一个是对象模糊索引，主要用于记录对象所包含的元组和属性及其各种的重要性。

进一步的，本发明记录关键词的IR分数，对象的IR分数的计算从对象的组成结构进行考虑，即需要分别考虑关键词在对象主题域和对象描述域中的IR分数。

本发明提供了一种数据库模糊检索系统，该系统包括数据库存储模块、算法模块、用户查询模块。

数据库存储模块：用于存储各种转义数据以及存储关键词索引信息。当用户输入关键词后，可以根据关键词索引来查询所属对象，然后定位到相应对象后，使用本算法来实现相近对象的查询。

算法模块：实现搜索算法。对于用户输入的关键词，本模块向数据库查询模块查询关键词所属对象，然后经过本发明上述方法的各个步骤查询出关键词所属对象的相近对象。

用户查询模块：主要用于接收用户输入的数据，对于各种不符合格式的数据进行相应反馈，以及根据算法模块的响应返回给用户相应数据。

有益效果：

1、本发明实现了对输入关键词的转义查询，即对一个客观事物的多种别名之间在数据库中相当于等义结果。

2、本发明实现了对象级别的模糊查询。使用对象之间的IR分数的大小，代表对象之间关联的紧密程度。从而，可以使用本算法找到输入关键词对象对象的各个最相近对象。

3、本发明改进了STAR算法，考虑了检索结点彼此之间的语义相关性，而不是像STAR算法一样简单地采用随机赋值的方式。在STAR算法的迭代优化过程中，主要是依据路径值的大小也就是路径中边的权重值，进行路径替换的，随机赋值的方式使得最终检索结果所包含的内容并不一定具有关联性。

4、本发明能够很好地改善数据库结构对搜索的影响。

附图说明

图1为本发明的方法流程图。

图2为本发明的对象示意图。

图3为本发明的反向扩展搜索结果图。

图4为本发明的关键词模糊索引。

图5为本发明的系统架构图。

具体实施方式

下面结合说明书附图对本发明作进一步的详细说明。

如图1所示，用户输入一个精确的输入值即关键词输入，本发明根据关键词在数据库中索引对应的记录定位到关键词所属对象，即进行了关键词的模糊化，然后根据此对象在数据库记录中的IR分数反向扩展搜索得到对象优化后的连接数，即进行了模糊推理。根据得到的连接数，取出最小路径的一条最有路径得到最符合输入关键词的精确输出结果进行输出。

如图2所示，是DBLP对象图的一部分，输入查询关键词k1＝object、k2＝retrievaK、k3＝database，利用反向扩展搜索得到图3所示的搜索结果，再进行迭代优化即可得到图2所示的对象连接树a/T，这是下面本发明方法的设计的前提。

本发明方法流程由以下六步组成，包括：

(1)根据对象图的结构计算每条边的权重(即对象联系的重要性)；

(2)依据关键词模糊索引定位对象在对象图中的位置，同时计算这些对象的IR分数；

(3)利用反向扩展搜索算法搜索对象图，得到对象连接树；

(4)利用对象图中低权重的路径来替换对象连接树中的路径，直到得到的对象连接树不能再被优化为止；

(5)根据包含关键词的对象的IR分数计算对象连接树中未包含关键词的对象的IR分数；

(6)利用包含关键词的对象的IR分数，不包含关键词的对象的IR分数以及对象联系的重要性计算对象连接树a/T的IR分数。

本发明的数据库模糊检索方法能够实现用户数据的多种转义存储，以及检索时的提供相关数据的任意别名查询。检索时只要使用SQL语句在数据库中根据关键词对应的字段得到的关键词对应的关键词对象，然后使用本算法，就可以得到最符合输入关键词的结果。

本发明的STAR算法就是利用Steiner树的近似算法解决关系数据图的关键词检索问题。STAR算法主要分为两部分:第一部分尽可能找到包含全部查询关键词的树，采用的是反向扩展搜索策略。第二部分是查找图中低权重的路径替换树中原有的路径，通过迭代优化树直到找到最小Steiner树，主要采用的是宽度优先搜索策略。

本发明主要包括两个索引，即：一个是关键词模糊索引，主要用于记录关键词的IR分数及所属对象；另一个是对象模糊索引，主要用于记录对象所包含的元组和属性及其各种的重要性。

本发明所述的一种模糊逻辑的对象级别检索方法，其特征在于：所述记录关键词的IR分数，对象的IR分数的计算从对象的组成结构进行考虑，即需要分别考虑关键词在对象主题域和对象描述域中的IR分数。

本发明是利用模糊数学知识，主要是模糊集理论知识与模糊逻辑中的模糊推理方法，设计一个基于模糊逻辑的关系数据库对象级别检索方法。

与STAR算法相比，本发明设计的方法首先实现的是对象级别的信息检索；其次考虑了检索结点彼此之间的语义相关性，而不是简单地采用随机赋值的方式。在STAR算法的迭代优化过程中，主要是依据路径值的大小也就是路径中边的权重值，进行路径替换的，随机赋值的方式使得最终检索结果所包含的内容并不一定具有关联性；最后设计的算法不仅考虑了包含关键词的结点的重要性对检索结果排序的作用还考虑了不包含关键词的结点对排序的影响。此种算法的伪码如图所示。

算法1：DOFSTAR算法

本发明提出的系统中主要包括两个索引，即：一个是关键词模糊索引，主要用于记录关键词的IR分数及所属对象；另一个是对象模糊索引，主要用于记录对象所包含的元组和属性及其各种的重要性。

关键词模糊索引由关键词所属位置、属性上关键词的权重(即IR分数)及关键词所属的对象三部分组成。当用户输入检索关键词后，利用关键词模糊索引可快速定位关键词所属对象，以便实现对对象图的快速检索。属性上关键词的IR分数未直接利用数据库的全文检索得到分数，主要考虑实现数值型关键词的IR分数的计算，直接采用数据库的全文检索无法实现此过程。关键词模糊索引结构如图4所示。

如图4所示，关键词模糊索引由关键词所属位置、属性上关键词的权重(即IR分数)及关键词所属的对象三部分组成。当用户输入检索关键词后，利用关键词模糊索引快速定位关键词所属对象，以便实现对对象图的快速检索。属性上关键词的IR分数未直接利用数据库的全文检索得到分数，主要考虑实现数值型关键词的IR分数的计算，直接采用数据库的全文检索无法实现此过程。

对象模糊索引由构成对象的元组、元组重要性、属性及属性重要性组成。通过对象模糊索引就可以知道对象的组成部分。对象模糊索引中每个对象对应一个由<元组，元组重要性>链接而成的列表，而在每个<元组，元组重要性>下对应一个由<属性，属性重要性>链接而成的列表。对象模糊索引结构如图2所示。通过对象模糊索引可以快速获取元组和属性的重要性，这样可以加快对象IR分数的计算速度。

通过输入的检索关键词，利用图搜索算法搜索对象图，可以得到不同的对象连接树，这些对象连接树表示了不同的检索结果。利用评分机制计算不同对象连接树的IR分数，可以将最相关的检索结果反馈给用户。对对象连接树评分的影响。主要包括两个方面:一方面是对象的IR分数；另一方面是对象联系的重要性。在对象IR分数的计算中分两种情况考虑:一种是包含关键词的对象；另一种是不包含关键词的对象。

如图5所示，本发明提供了一种数据库模糊检索系统，该系统包括数据库存储模块、算法模块、用户查询模块。

算法模块：实现本发明上述搜索方法。对于用户输入的关键词，本模块向数据库查询模块查询关键词所属对象，然后经过本发明上述方法的各个步骤查询出关键词所属对象的相近对象。

Claims

1.一种数据库模糊检索方法，其特征在于，所述方法包括如下步骤：

对对象图的检索是根据对象图中各个对象之间边的最小权重使用宽度优先算法来找到最适合的对象目标；根据各个对象之间联系的重要性来确定各个对象之间具体的权重值的大小，即根据各个对象具体关键词属性的字符串符合程度或者语义符合程度来确定关键词的具体值；

步骤2：模糊索引构建，分为关键词模糊索引和对象模糊索引；关键词索引包括两部分内容，即一个是关键词模糊索引，用于记录关键词的IR分数及所属对象；另一个是对象模糊索引，用于记录对象所包含的元组和属性及其各种对象之间的重要性；

步骤3：用户根据自己想查询的内容输入具体数据；

步骤4：通过输入的检索关键词，利用反向扩展算法和宽度搜索算法搜索对象图，可以得到不同的对象连接树，这些对象连接树表示了不同的检索结果，利用评分机制计算不同对象连接树的IR分数，将最相关的检索结果反馈给用户。

2.根据权利要求1所述的一种数据库模糊检索方法，其特征在于：所述方法基于模糊逻辑的对象级别检索算法；所述的对象级别检索算法是对STAR算法的改进，实现对对象图的检索以及利用模糊推理的方法计算相关性分数，同时DOFSTAR算法还考虑了数据库结构对关键词检索的影响，采用对对象图的检索通过反向扩展算法和宽度优先搜索算法。

3.根据权利要求2所述的实现对对象图的检索，其实现方法在于通过反向扩展算法和宽度优先搜索算法来找到和输入关键词相关联对象的关联对象，形成关系树。

4.根据权利要求1所述的一种模糊逻辑的对象级别检索方法，其特征在于：所述数据库模糊检索是对用户数据的多种转义存储，以及检索时的提供相关数据的任意别名查询。

5.根据权利要求4所述的一种模糊逻辑的对象级别检索方法，其特征在于，所述数据库模糊检索实现过程是：将已知客观事物的多种别名在数据库中对应表的字段中进行存储，以及根据用户搜索习惯即使修改各个对象之间的IR分数。

6.根据权利要求2所述一种模糊逻辑的对象级别检索方法，其特征在于：所述STAR算法利用Steiner树的近似算法解决关系数据图的关键词检索问题，STAR算法分为两部分，即第一部分尽可能找到包含全部查询关键词的树，采用的是反向扩展搜索策略，第二部分是查找图中低权重的路径替换树中原有的路径，通过迭代优化树直到找到最小Steiner树，采用的是宽度优先搜索策略。

7.根据权利要求1所述的一种模糊逻辑的对象级别检索方法，其特征在于：所述方法是对STAR算法的改进，即首先通过STAR算法的反向扩展策略来找到包含全部关键词的树，然后通过宽度优先算法策略来找到最小的Steiner树。

8.根据权利要求1所述的一种模糊逻辑的对象级别检索方法，其特征在于：所述模糊索引包括两个索引，即一个是关键词模糊索引，用于记录关键词的IR分数及所属对象；另一个是对象模糊索引，用于记录对象所包含的元组和属性及其各种的重要性。

9.根据权利要求1所述的一种模糊逻辑的对象级别检索方法，其特征在于：所述记录关键词的IR分数，对象的IR分数的计算从对象的组成结构进行考虑，即需要分别考虑关键词在对象主题域和对象描述域中的IR分数。

10.一种数据库模糊检索系统，其特征在于：所述系统包括数据库存储模块、算法模块、用户查询模块；

数据库存储模块：用于存储各种转义数据以及存储关键词索引信息；当用户输入关键词后，根据关键词索引来查询所属对象，然后定位到相应对象后，实现对相近对象的查询；

算法模块：对于用户输入的关键词，向数据库查询模块查询关键词所属对象，然后查询出关键词所属对象的相近对象；

用户查询模块：用于接收用户输入的数据，对于各种不符合格式的数据进行相应反馈，以及根据算法模块的响应返回给用户相应数据。