CN107729518A

CN107729518A - 一种关系型数据库的全文检索方法及装置

Info

Publication number: CN107729518A
Application number: CN201711019957.0A
Authority: CN
Inventors: 张佩佩; 崔乐乐; 谢传家; 李仰允
Original assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Current assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2018-02-23

Abstract

本发明提供了一种关系型数据库的全文检索方法及装置，该方法包括：从待检索数据库提取至少一个关键数据信息；根据提取的所述至少一个关键数据信息以及每一个所述关键数据信息对应的索引关系，构建所述待检索数据库对应的索引目录；获取至少一个检索关键词；根据所述索引目录，分别确定与每一个所述检索关键词对应的目标关键数据信息，并确定所述目标关键信息对应的目标索引关系；根据所述目标索引关系，从所述待检索数据库中检索与所述至少一个检索关键词对应的目标数据。本方案能提高关系型数据库全文检索的效率。

Description

一种关系型数据库的全文检索方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种关系型数据库的全文检索方法及装置。

背景技术

关系型数据库是借助于集合代数等概念和方法来处理数据库中的数据，同时也是一个被组织成一组拥有正式描述性的表格，由于其易扩充性，现已成为数据库应用的主流。

由于关系型数据库的定义，使得关系型数据库具有固定的表结构，其中的数据类型为结构化数据。在对关系型数据库进行全文检索时，主要通过编写SQL语言对关系型数据库进行操作，而由于结构化数据与SQL的兼容性较差，且关系型数据库中的结构化数据量较大，导致全文检索的效率较低。

发明内容

本发明实施例提供了一种关系型数据库的全文检索方法及装置，能提高关系型数据库全文检索的效率。

第一方面，本发明实施例提供了一种关系型数据库的全文检索方法，包括：

从待检索数据库提取至少一个关键数据信息；

根据提取的所述至少一个关键数据信息以及每一个所述关键数据信息对应的索引关系，构建所述待检索数据库对应的索引目录；

还包括：

获取至少一个检索关键词；

根据所述索引目录，分别确定与每一个所述检索关键词对应的目标关键数据信息，并确定所述目标关键信息对应的目标索引关系；

根据所述目标索引关系，从所述待检索数据库中检索与所述至少一个检索关键词对应的目标数据。

优选地，

所述获取至少一个检索关键词，包括：

接收用户输入的检索语句和专有名词；

对所述检索语句进行分词，得到至少一个检索词；

确定所述至少一个检索词中是否存在无实意助词，如果有，将确定出的所述无实意助词进行删除；

确定删除后的所述至少一个检索词中是否存在至少两个相互关联的关联词，如果是，将每两个相互关联的所述关联词进行组合；

将组合的所述关联词、删除后的所述至少一个检索词中的除所述关联词以外的其他检索词以及所述专有名词作为所述检索关键词。

优选地，

在所述构建所述待检索数据库对应的索引目录之后，进一步包括：

配置定时任务，根据所述定时任务对应的周期，检测所述待检索数据库中是否存在增删数据或更改数据；

如果是，确定所述增删数据或所述更改数据对应的更新索引关系，并根据所述更新索引关系，对所述索引目录进行更新。

优选地，

所述从待检索数据库提取至少一个关键数据信息，包括：

确定与所述待检索数据库对应的至少一个数据表；

从每一个所述数据表中提取至少一个字段，将提取的所述字段作为所述关键数据信息；

所述根据提取的所述至少一个关键数据信息以及每一个所述关键数据信息对应的索引关系，包括：

根据预设的每一个所述数据表的存储路径，以及每一个所述字段在所对应的数据表中的位置信息，确定每一个所述关键数据信息对应的索引关系。

优选地，

在所述根据所述目标索引关系，从所述待检索数据库中检索与所述检索关键词对应的目标数据之后，进一步包括：

确定检索出的目标数据与各个所述检索关键词的对应关系；

根据所述对应关系，对所述目标数据进行分组；其中，每一组所述目标数据对应一个所述检索关键词；

将分组后的所述目标数据进行输出。

第二方面，本发明实施例提供了一种关系型数据库的全文检索装置，包括：目录构建单元、关键词获取单元和检索单元；其中，

所述目录构建单元，用于从待检索数据库提取至少一个关键数据信息，根据提取的所述至少一个关键数据信息以及每一个所述关键数据信息对应的索引关系，构建所述待检索数据库对应的索引目录；

所述关键词获取单元，用于获取至少一个检索关键词；

所述检索单元，用于根据所述索引目录，分别确定与每一个所述检索关键词对应的目标关键数据信息，并确定所述目标关键信息对应的目标索引关系；根据所述目标索引关系，从所述待检索数据库中检索与所述至少一个检索关键词对应的目标数据。

优选地，

所述关键词获取单元包括：接收子单元、去停用词子单元、实体识别子单元和确定子单元；其中，

所述接收子单元，用于接收用户输入的检索语句和专有名词；对所述检索语句进行分词，得到至少一个检索词；

所述去停用词子单元，用于确定所述至少一个检索词中是否存在无实意助词，如果有，将确定出的所述无实意助词进行删除；

所述实体识别子单元，用于确定删除后的所述至少一个检索词中是否存在至少两个相互关联的关联词，如果是，将每两个相互关联的所述关联词进行组合；

所述确定子单元，用于将组合的所述关联词、删除后的所述至少一个检索词中的除所述关联词以外的其他检索词以及所述专有名词作为所述检索关键词。

优选地，

所述目录构建单元，用于配置定时任务，根据所述定时任务对应的周期，检测所述待检索数据库中是否存在增删数据或更改数据；如果是，确定所述增删数据或所述更改数据对应的更新索引关系，并根据所述更新索引关系，对所述索引目录进行更新。

优选地，

所述目录构建单元，用于确定与所述待检索数据库对应的至少一个数据表，并从每一个所述数据表中提取至少一个字段，将提取的所述字段作为所述关键数据信息；根据预设的每一个所述数据表的存储路径，以及每一个所述字段在所对应的数据表中的位置信息，确定每一个所述关键数据信息对应的索引关系。

优选地，

所述检索单元，进一步用于确定检索出的目标数据与各个所述检索关键词的对应关系；根据所述对应关系，对所述目标数据进行分组；其中，每一组所述目标数据对应一个所述检索关键词；将分组后的所述目标数据进行输出。

本发明实施例提供了一种关系型数据库的全文检索方法及装置，首先根据从待检索数据库中提取的关键数据信息构建索引目录，在获取到检索关键词之后，根据构建的索引目录，确定与检索关键词对应的目标索引关系，并根据确定出的目标索引关系，从待检索数据库中检索出目标数据。由此，通过索引目录对关系型数据库进行检索，无需遍历关系型数据库中大量的结构数据，且无需考虑检索语言与结构化语言之间的兼容性，从而提高了关系型数据库全文检索的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种关系型数据库的全文检索方法的流程图；

图2是本发明另一个实施例提供的一种关系型数据库的全文检索方法的流程图；

图3是本发明一个实施例提供的一种关系型数据库的全文检索装置的结构示意图；

图4是本发明另一个实施例提供的一种关系型数据库的全文检索装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种关系型数据库的全文检索方法，该方法可以包括以下步骤：

步骤101：从待检索数据库提取至少一个关键数据信息；

步骤102：根据提取的所述至少一个关键数据信息以及每一个所述关键数据信息对应的索引关系，构建所述待检索数据库对应的索引目录；

步骤103：获取至少一个检索关键词；

步骤104：根据所述索引目录，分别确定与每一个所述检索关键词对应的目标关键数据信息，并确定所述目标关键信息对应的目标索引关系；

步骤105：根据所述目标索引关系，从所述待检索数据库中检索与所述至少一个检索关键词对应的目标数据。

上述实施例中，首先根据从待检索数据库中提取的关键数据信息构建索引目录，在获取到检索关键词之后，根据构建的索引目录，确定与检索关键词对应的目标索引关系，并根据确定出的目标索引关系，从待检索数据库中检索出目标数据。由此，通过索引目录对关系型数据库进行检索，无需遍历关系型数据库中大量的结构数据，且无需考虑检索语言与结构化语言之间的兼容性，从而提高了关系型数据库全文检索的效率。

本发明一个实施例中，步骤103的具体实施方式，可以包括：接收用户输入的检索语句和专有名词；

对所述检索语句进行分词，得到至少一个检索词；

在这里，接收到用户的检索语句之后，对检索语句进行有效分词，例如，检索语句为“张三的单位名称和身份证号码”，则可从中拆出的检索词为“张”、“三”、“的”、“单位名称”和“身份证号码”。然后去掉各个检索词中的停用词，即去掉无实意助词，在这里可去掉“的”和“和”，由于这些无实意助词没有实质含义，也没有检索的意义，因此将这些词删除掉，以降低检索的工作量。然后，再对剩余的检索词进行实体识别，即确定其中是否存在相互关联的关联词，在这里，确定出“张”为姓氏，则可确定出与其相连的检索词很可能为对应的名字，因此确定“三”与“张”为相互关联的关联词，将二者进行组合，形成检索词“张三”。然后，再结合用户输入的专有名词，例如“统一社会信用代码”，生成包括专有名词和检索词的配置文件，则配置文件中的词语则为检索关键词，在检索时可直接调用配置文件。

另外，还可根据各个检索关键词之间的组合关系，构建出不同检索条件，例如，检索关键词之间的和/或关系将构建出两种不同的检索条件。在实际应用中，可根据用户输入的条件指令，构建相应的检索条件。由此，对用户输入的检索语句进行处理，准确确定出检索关键词，并构建相应的检索条件，有利于提高检索的准确性。

本发明一个实施例中，在步骤102之后，可以进一步包括：

在这里，为了及时反映数据库中数据的变化，在生成索引目录之后，通过配置定时任务，执行SQL语言，当数据库中的数据发生变化时，即数据又增加或删除或者更改数据等情况时，对索引目录进行相应的增加或删除或更改，以使索引目录能实时准确地与数据库中的数据相对应，从而有利于提高检索的准确性。

本发明一个实施例中，步骤101的具体实施方式，可以包括：

确定与所述待检索数据库对应的至少一个数据表；

在本实施例中，首先确定出与待检索数据库对应的多个数据表，然后提取出每一个数据表中的字段，例如姓名、身份证号码、企业名称、单位名称、统一社会信用代码等字段，形成关键数据信息。然后通过编写SQL语言提取数据，利用Solr搜索引擎自动获取数据存储到索引目录库中，在此过程中确定数据表的存储路径以及字段在其对应的数据表中的位置信息，例如具体在数据库中的某行某列，由此形成索引目录库。

本发明一个实施例中，在步骤105之后，可以进一步包括：

确定检索出的目标数据与各个所述检索关键词的对应关系；

将分组后的所述目标数据进行输出。

在本实施例中，从待检索数据库中检索到目标数据之后，根据目标数据与各个检索关键词的对应关系，对目标数据进行分组。例如，“张三”对应的目标数据形成一组目标数据，“单位名称”对应的目标数据形成另一组目标数据，将各组目标数据进行分组输出，有利于用户的查看，从而提高用户体验。

如图2所示，本发明实施例提供了一种关系型数据库的全文检索方法，该方法可以包括以下步骤：

步骤201：确定与待检索数据库对应的至少一个数据表，并从每一个所述数据表中提取至少一个字段，将提取的所述字段作为所述关键数据信息。

在这里，首先确定出与待检索数据库对应的多个数据表，然后提取出每一个数据表中的字段，例如姓名、身份证号码、企业名称、单位名称、统一社会信用代码等字段，形成关键数据信息。

步骤202：根据预设的每一个所述数据表的存储路径，以及每一个所述字段在所对应的数据表中的位置信息，确定每一个所述关键数据信息对应的索引关系。

通过编写SQL语言提取数据，利用Solr搜索引擎自动获取数据存储到索引目录库中，在此过程中确定数据表的存储路径以及字段在其对应的数据表中的位置信息，例如具体在数据表中的某行某列。

步骤203：接收用户输入的检索语句和专有名词，并对所述检索语句进行分词，得到至少一个检索词。

例如，接收到的检索语句为“张三的单位名称和身份证号码”，则可从中拆出的检索词为“张”、“三”、“的”、“单位名称”、和“身份证号码”。

步骤204：判断所述至少一个检索词中是否存在无实意助词，如果是，则执行步骤205，否则执行步骤206。

步骤205：将确定出的无实意助词进行删除，并执行步骤206。

在这里，无实意助词为“的”和“和”，由于这些无实意助词没有实质含义，也没有检索的意义，因此将这些词删除掉，以降低检索的工作量。

步骤206：判断删除后的所述至少一个检索词中是否存在至少两个相互关联的关联词，如果是，则执行步骤207，否则执行步骤208。

步骤207：将每两个相互关联的所述关联词进行组合，并执行步骤208。

在这里，在这里，确定出“张”为姓氏，则可确定出与其相连的检索词很可能为对应的名字，因此确定“三”与“张”为相互关联的关联词，将二者进行组合，形成检索词“张三”。

步骤208：将组合的所述关联词、删除后的所述至少一个检索词中的除所述关联词以外的其他检索词以及所述专有名词作为检索关键词。

若获取到的专有名词为“统一社会信用代码”，确定出的检索关键词为“张三”、“单位名称”、“身份证号码”和“统一社会信用代码”。

步骤209：根据所述索引目录，分别确定与每一个所述检索关键词对应的目标关键数据信息，并确定所述目标关键信息对应的目标索引关系。

在这里，确定出的目标索引关系即对应于目标关键数据的存储路径。

步骤210：根据所述目标索引关系，从所述待检索数据库中检索与所述至少一个检索关键词对应的目标数据。

根据相应的存储路径，从待检索数据库中提取出与检索关键词对应的目标数据。

步骤211：确定检索出的目标数据与各个所述检索关键词的对应关系，根据所述对应关系，对所述目标数据进行分组，其中，每一组所述目标数据对应一个所述检索关键词；并将分组后的所述目标数据进行输出。

例如，“张三”对应的目标数据形成一组目标数据，“单位名称”对应的目标数据形成另一组目标数据，将各组目标数据进行分组输出，有利于用户的查看。

如图3所示，本发明实施例提供了一种关系型数据库的全文检索装置，包括：目录构建单元301、关键词获取单元302和检索单元303；其中，

所述目录构建单元301，用于从待检索数据库提取至少一个关键数据信息，根据提取的所述至少一个关键数据信息以及每一个所述关键数据信息对应的索引关系，构建所述待检索数据库对应的索引目录；

所述关键词获取单元302，用于获取至少一个检索关键词；

所述检索单元303，用于根据所述索引目录，分别确定与每一个所述检索关键词对应的目标关键数据信息，并确定所述目标关键信息对应的目标索引关系；根据所述目标索引关系，从所述待检索数据库中检索与所述至少一个检索关键词对应的目标数据。

如图4所示，本发明一个实施例中，所述关键词获取单元302包括：接收子单元3021、去停用词子单元3022、实体识别子单元3023和确定子单元3024；其中，

所述接收子单元3021，用于接收用户输入的检索语句和专有名词；对所述检索语句进行分词，得到至少一个检索词；

所述去停用词子单元3022，用于确定所述至少一个检索词中是否存在无实意助词，如果有，将确定出的所述无实意助词进行删除；

所述实体识别子单元3023，用于确定删除后的所述至少一个检索词中是否存在至少两个相互关联的关联词，如果是，将每两个相互关联的所述关联词进行组合；

所述确定子单元3024，用于将组合的所述关联词、删除后的所述至少一个检索词中的除所述关联词以外的其他检索词以及所述专有名词作为所述检索关键词。

本发明一个实施例中，所述目录构建单元301，用于配置定时任务，根据所述定时任务对应的周期，检测所述待检索数据库中是否存在增删数据或更改数据；如果是，确定所述增删数据或所述更改数据对应的更新索引关系，并根据所述更新索引关系，对所述索引目录进行更新。

本发明一个实施例中，所述目录构建单元301，用于确定与所述待检索数据库对应的至少一个数据表，并从每一个所述数据表中提取至少一个字段，将提取的所述字段作为所述关键数据信息；根据预设的每一个所述数据表的存储路径，以及每一个所述字段在所对应的数据表中的位置信息，确定每一个所述关键数据信息对应的索引关系。

本发明一个实施例中，所述检索单元303，进一步用于确定检索出的目标数据与各个所述检索关键词的对应关系；根据所述对应关系，对所述目标数据进行分组；其中，每一组所述目标数据对应一个所述检索关键词；将分组后的所述目标数据进行输出。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例还提供了一种可读介质，包括执行指令，当存储控制器的处理器执行所述执行指令时，所述存储控制器执行本发明上述任一实施例提供的方法。

本发明实施例还提供了一种存储控制器，包括：处理器、存储器和总线；所述存储器用于存储执行指令，所述处理器与所述存储器通过所述总线连接，当所述存储控制器运行时，所述处理器执行所述存储器存储的所述执行指令，以使所述存储控制器执行本发明上述任一实施例提供的方法。

综上所述，本发明以上各个实施例至少具有如下有益效果：

1、在本发明实施例中，首先根据从待检索数据库中提取的关键数据信息构建索引目录，在获取到检索关键词之后，根据构建的索引目录，确定与检索关键词对应的目标索引关系，并根据确定出的目标索引关系，从待检索数据库中检索出目标数据。由此，通过索引目录对关系型数据库进行检索，无需遍历关系型数据库中大量的结构数据，且无需考虑检索语言与结构化语言之间的兼容性，从而提高了关系型数据库全文检索的效率。

2、在本发明实施例中，对用户输入的检索语句进行分词处理，得到多个检索词，并去除检索词中的无实意助词，以及对关联词进行组合，由此准确确定出检索关键词，并构建相应的检索条件，从而提高了检索的准确性。

3、在本发明实施例中，配置定时任务，周期性的检测待检索数据库中的数据是否发生了增删或更改，如果有，则相应的对索引关系进行增删或更改，以使索引目录能实时准确地与待检索数据库中的数据相对应，从而有利于提高检索的准确性。

4、在本发明实施例中，从待检索数据库中检索到目标数据之后，根据目标数据与各个检索关键词的对应关系，对目标数据进行分组，并将各组目标数据进行分组输出，有利于用户的查看，从而提高用户体验。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种关系型数据库的全文检索方法，其特征在于，包括：

从待检索数据库提取至少一个关键数据信息；

还包括：

获取至少一个检索关键词；

2.根据权利要求1所述的方法，其特征在于，

所述获取至少一个检索关键词，包括：

接收用户输入的检索语句和专有名词；

对所述检索语句进行分词，得到至少一个检索词；

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，

所述从待检索数据库提取至少一个关键数据信息，包括：

确定与所述待检索数据库对应的至少一个数据表；

5.根据权利要求1至4任一所述的方法，其特征在于，

确定检索出的目标数据与各个所述检索关键词的对应关系；

将分组后的所述目标数据进行输出。

6.一种关系型数据库的全文检索装置，其特征在于，包括：目录构建单元、关键词获取单元和检索单元；其中，

所述关键词获取单元，用于获取至少一个检索关键词；

7.根据权利要求6所述的装置，其特征在于，

8.根据权利要求6所述的装置，其特征在于，所述目录构建单元，用于配置定时任务，根据所述定时任务对应的周期，检测所述待检索数据库中是否存在增删数据或更改数据；如果是，确定所述增删数据或所述更改数据对应的更新索引关系，并根据所述更新索引关系，对所述索引目录进行更新。

9.根据权利要求6所述的装置，其特征在于，所述目录构建单元，用于确定与所述待检索数据库对应的至少一个数据表，并从每一个所述数据表中提取至少一个字段，将提取的所述字段作为所述关键数据信息；根据预设的每一个所述数据表的存储路径，以及每一个所述字段在所对应的数据表中的位置信息，确定每一个所述关键数据信息对应的索引关系。

10.根据权利要求6至9任一所述的装置，其特征在于，所述检索单元，进一步用于确定检索出的目标数据与各个所述检索关键词的对应关系；根据所述对应关系，对所述目标数据进行分组；其中，每一组所述目标数据对应一个所述检索关键词；将分组后的所述目标数据进行输出。