CN104281698B

CN104281698B - 一种高效的大数据查询方法

Info

Publication number: CN104281698B
Application number: CN201410545402.XA
Authority: CN
Inventors: 胡文彬; 艾建文; 季统凯
Original assignee: G Cloud Technology Co Ltd
Current assignee: G Cloud Technology Co Ltd
Priority date: 2014-10-15
Filing date: 2014-10-15
Publication date: 2017-07-07
Anticipated expiration: 2034-10-15
Also published as: CN104281698A

Abstract

本发明涉及大数据查询技术领域，特别是涉及一种高效的大数据查询方法。本发明在历史查询库中保存了词的历史查询记录；用户输入查询请求时，系统首先分析用户的查询意图，并提供候选关键词供用户选择，用户确定最终的查询关键词后，系统对关键词进行分词处理，从关键词中提取出主词和辅词；系统将主词与历史查询库执行匹配操作，匹配后，将符合的历史查询库结果和新数据的查询结果合并，产生合并结果集，若有辅词，则在合并结果集上继续查询，得到最终查询结果；若无辅词，则直接将合并结果集作为查询结果返回给用户；最后更新历史查询库。本发明节省了大数据搜索时间，提高了查询效率；可以用于大数据的查询上。

Description

一种高效的大数据查询方法

技术领域

本发明涉及大数据查询技术领域，特别是涉及一种高效的大数据查询方法。

背景技术

随着大数据时代的到来，面对日益增长的海量数据，如何更好的处理大数据，满足用户对大数据查询的高效、准确及个性化等需求，逐渐引起人们的关注。虽然针对大数据处理已经有很多新的技术或方法，但是从大数据中获取满足用户查询需求的数据，仍然需要花费较长的时间，而对于大数据交互式的查询效率，更是一个巨大的挑战。

发明内容

本发明解决的技术问题在于提供一种高效的大数据查询方法，可节省大数据处理时间，实现高效的大数据查询。

本发明解决上述技术问题的技术方案是：

在历史查询库中保存主词的历史查询记录；用户输入查询请求时，首先分析用户的查询意图，并提供候选关键词供用户选择；用户确定最终的查询关键词后，对关键词进行分词处理，从关键词中提取出主词和辅词；系统将主词与历史查询库执行匹配操作，若匹配，则将符合的历史查询库结果和新数据的查询结果合并，产生合并结果集；如有辅词，则在合并结果集上继续查询，得到最终查询结果；如无辅词，则直接将合并结果集作为查询结果返回给用户；若不匹配，则全库执行全新查询后将结果返回给用户；最后更新历史查询库。

所述的查询方法详细流程为：

第一步，用户通过系统输入查询关键词；

第二步，系统通过分析用户的查询请求意图，提供相近的候选查询关键词供用户选择，若用户不选择候选查询关键词，则将用户输入的查询关键词作为本次查询的关键词；用户确定最终的查询关键词后，系统对关键词进行分词处理，提取出主词和辅词；

第三步，系统将分词处理后的主、辅词和历史查询库进行匹配处理，历史查询库只保存主词的历史查询结果，匹配的过程可能出现3种情况：

(1)全匹配：如果是全匹配，则表明用户的查询关键词只有主词，且该主词以前出现过，在历史共享库中有相应的历史查询结果，因此，历史库的历史查询结果可以直接为本次查询使用，即共享历史查询库结果；同时，由于历史查询库只是保存某段时间之前的查询数据，有可能在该历史查询后又有新的数据产生，所以对于历史查询库最后时间点之后新增的数据，仍然需要执行查询，最后将新增数据的查询结果和历史查询库的共享结果合并，形成合并结果集，即是用户本次查询的结果；

(2)部分匹配：如果是部分匹配，则表明用户输入的查询关键词提取出了主词和辅词，其中主词以前出现过，在历史共享库中有相应的历史查询结果，因此，历史库的历史查询结果可以直接为本次查询使用，即共享历史查询库结果；同时，由于历史查询库只是保存某段时间之前的查询数据，有可能在该历史查询后又有新的数据产生，所以对于历史查询库最后时间点之后新增的数据，仍然需要执行查询，然后将新增数据的查询结果和历史查询库的共享结果合并，形成合并结果集；最后在合并结果集中继续对辅词进行查询，得出用户本次查询的结果；

(3)完全不匹配：如果是完全不匹配，则表明用户输入的查询关键词没有任何历史查询记录，在历史查询库中不存在，这种情况则需要对全库执行全新的查询处理，最终得到用户本次查询的结果；

第四步，将用户本次查询的结果返回给用户；

第五步，更新历史查询库中对应主词的查询记录。

所述的提取主词和辅词的具体方法为：

系统采用开源的分词工具ICTCLAS，对用户确定的查询关键词进行分词处理，分词后的关键词都带有形容词、动词、名词等词性标注，其中，动词和名词对主题表达的贡献度最大，所以可将动词和名词作为主词，其他词则作为辅词。

所述的提供相近候选查询关键词的具体方法为：

系统通过和历史查询库进行模糊匹配的方式，分析用户的查询请求意图，提供相近的候选查询关键词。

本发明通过对用户查询的关键词进行分词处理，并通过共享历史查询库的历史查询结果，使其具有如下优点：(1)分词匹配，查询更精确；(2)共享历史查询库，减少重复查询操作；(3)节省大数据搜索时间，提高了查询效率。

附图说明

下面结合附图对本发明进一步说明：

图1是本发明的处理流程示意图。

具体实施方式

如图1所示，本发明的详细流程为：

第一步，用户通过系统输入查询关键词；

其中，提供相近候选查询关键词的具体方法为：

系统通过和历史查询库进行模糊匹配的方式，分析用户的查询请求意图，提供相近的候选查询关键词，例如用户输入“车”，系统会根据历史查询库中已有的历史查询关键词记录，提供候选关键词“汽车”、“自行车”等，供用户选择；

提取主词和辅词的具体方法为：

系统采用开源的分词工具ICTCLAS，对用户确定的查询关键词进行分词处理，分词后的关键词都带有词性标注，如形容词、动词、名词等，其中，动词和名词对主题表达的贡献度最大，所以可将动词和名词作为主词，其他词则作为辅词；例如用户确定的查询关键词为“红色的苹果”，分词后为“红色/的/苹果”，则提取“苹果”为主词，“红色”为辅词；

第四步，将用户本次查询的结果返回给用户；

第五步，更新历史查询库中对应主词的查询记录。

Claims

1.一种高效的大数据查询方法，其特征在于：在历史查询库中保存主词的历史查询记录；用户输入查询请求时，首先分析用户的查询意图，并提供候选关键词供用户选择；用户确定最终的查询关键词后，对关键词进行分词处理，从关键词中提取出主词和辅词；系统将主词与历史查询库执行匹配操作，若匹配，则将符合的历史查询库结果和新数据的查询结果合并，产生合并结果集；如有辅词，则在合并结果集上继续查询，得到最终查询结果；如无辅词，则直接将合并结果集作为查询结果返回给用户；若不匹配，则全库执行全新查询后将结果返回给用户；最后更新历史查询库；

所述的查询方法详细流程为：

第一步，用户通过系统输入查询关键词；

第三步，系统将分词处理后的主、辅词和历史查询库进行匹配处理，历史查询库只保存主词的历史查询结果，匹配的过程会出现3种情况：

(1)全匹配：如果是全匹配，则表明用户的查询关键词只有主词，且该主词以前出现过，在历史查询库中有相应的历史查询结果，因此，历史查询库的历史查询结果可以直接为本次查询使用，即共享历史查询库结果；同时，由于历史查询库只是保存某段时间之前的查询数据，有可能在该历史查询后又有新的数据产生，所以对于历史查询库最后时间点之后新增的数据，仍然需要执行查询，最后将新增数据的查询结果和历史查询库的共享结果合并，形成合并结果集，即是用户本次查询的结果；

(2)部分匹配：如果是部分匹配，则表明用户输入的查询关键词提取出了主词和辅词，其中主词以前出现过，在历史查询库中有相应的历史查询结果，因此，历史查询库的历史查询结果可以直接为本次查询使用，即共享历史查询库结果；同时，由于历史查询库只是保存某段时间之前的查询数据，有可能在该历史查询后又有新的数据产生，所以对于历史查询库最后时间点之后新增的数据，仍然需要执行查询，然后将新增数据的查询结果和历史查询库的共享结果合并，形成合并结果集；最后在合并结果集中继续对辅词进行查询，得出用户本次查询的结果；

第四步，将用户本次查询的结果返回给用户；

第五步，更新历史查询库中对应主词的查询记录。

2.根据权利要求1所述的高效的大数据查询方法，其特征在于：

提取主词和辅词的具体方法为：

系统采用开源的分词工具ICTCLAS，对用户确定的查询关键词进行分词处理，分词后的关键词都带有形容词、动词、名词词性标注，其中，动词和名词对主题表达的贡献度最大，所以可将动词和名词作为主词，其他词则作为辅词。

3.根据权利要求1或2所述的高效的大数据查询方法，其特征在于：

提供相近候选查询关键词的具体方法为：