CN104281698B - 一种高效的大数据查询方法 - Google Patents
一种高效的大数据查询方法 Download PDFInfo
- Publication number
- CN104281698B CN104281698B CN201410545402.XA CN201410545402A CN104281698B CN 104281698 B CN104281698 B CN 104281698B CN 201410545402 A CN201410545402 A CN 201410545402A CN 104281698 B CN104281698 B CN 104281698B
- Authority
- CN
- China
- Prior art keywords
- result
- storehouse
- historical query
- user
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据查询技术领域,特别是涉及一种高效的大数据查询方法。本发明在历史查询库中保存了词的历史查询记录;用户输入查询请求时,系统首先分析用户的查询意图,并提供候选关键词供用户选择,用户确定最终的查询关键词后,系统对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,匹配后,将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集,若有辅词,则在合并结果集上继续查询,得到最终查询结果;若无辅词,则直接将合并结果集作为查询结果返回给用户;最后更新历史查询库。本发明节省了大数据搜索时间,提高了查询效率;可以用于大数据的查询上。
Description
技术领域
本发明涉及大数据查询技术领域,特别是涉及一种高效的大数据查询方法。
背景技术
随着大数据时代的到来,面对日益增长的海量数据,如何更好的处理大数据,满足用户对大数据查询的高效、准确及个性化等需求,逐渐引起人们的关注。虽然针对大数据处理已经有很多新的技术或方法,但是从大数据中获取满足用户查询需求的数据,仍然需要花费较长的时间,而对于大数据交互式的查询效率,更是一个巨大的挑战。
发明内容
本发明解决的技术问题在于提供一种高效的大数据查询方法,可节省大数据处理时间,实现高效的大数据查询。
本发明解决上述技术问题的技术方案是:
在历史查询库中保存主词的历史查询记录;用户输入查询请求时,首先分析用户的查询意图,并提供候选关键词供用户选择;用户确定最终的查询关键词后,对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,若匹配,则将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集;如有辅词,则在合并结果集上继续查询,得到最终查询结果;如无辅词,则直接将合并结果集作为查询结果返回给用户;若不匹配,则全库执行全新查询后将结果返回给用户;最后更新历史查询库。
所述的查询方法详细流程为:
第一步,用户通过系统输入查询关键词;
第二步,系统通过分析用户的查询请求意图,提供相近的候选查询关键词供用户选择,若用户不选择候选查询关键词,则将用户输入的查询关键词作为本次查询的关键词;用户确定最终的查询关键词后,系统对关键词进行分词处理,提取出主词和辅词;
第三步,系统将分词处理后的主、辅词和历史查询库进行匹配处理,历史查询库只保存主词的历史查询结果,匹配的过程可能出现3种情况:
(1)全匹配:如果是全匹配,则表明用户的查询关键词只有主词,且该主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,最后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集,即是用户本次查询的结果;
(2)部分匹配:如果是部分匹配,则表明用户输入的查询关键词提取出了主词和辅词,其中主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,然后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集;最后在合并结果集中继续对辅词进行查询,得出用户本次查询的结果;
(3)完全不匹配:如果是完全不匹配,则表明用户输入的查询关键词没有任何历史查询记录,在历史查询库中不存在,这种情况则需要对全库执行全新的查询处理,最终得到用户本次查询的结果;
第四步,将用户本次查询的结果返回给用户;
第五步,更新历史查询库中对应主词的查询记录。
所述的提取主词和辅词的具体方法为:
系统采用开源的分词工具ICTCLAS,对用户确定的查询关键词进行分词处理,分词后的关键词都带有形容词、动词、名词等词性标注,其中,动词和名词对主题表达的贡献度最大,所以可将动词和名词作为主词,其他词则作为辅词。
所述的提供相近候选查询关键词的具体方法为:
系统通过和历史查询库进行模糊匹配的方式,分析用户的查询请求意图,提供相近的候选查询关键词。
本发明通过对用户查询的关键词进行分词处理,并通过共享历史查询库的历史查询结果,使其具有如下优点:(1)分词匹配,查询更精确;(2)共享历史查询库,减少重复查询操作;(3)节省大数据搜索时间,提高了查询效率。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明的处理流程示意图。
具体实施方式
如图1所示,本发明的详细流程为:
第一步,用户通过系统输入查询关键词;
第二步,系统通过分析用户的查询请求意图,提供相近的候选查询关键词供用户选择,若用户不选择候选查询关键词,则将用户输入的查询关键词作为本次查询的关键词;用户确定最终的查询关键词后,系统对关键词进行分词处理,提取出主词和辅词;
其中,提供相近候选查询关键词的具体方法为:
系统通过和历史查询库进行模糊匹配的方式,分析用户的查询请求意图,提供相近的候选查询关键词,例如用户输入“车”,系统会根据历史查询库中已有的历史查询关键词记录,提供候选关键词“汽车”、“自行车”等,供用户选择;
提取主词和辅词的具体方法为:
系统采用开源的分词工具ICTCLAS,对用户确定的查询关键词进行分词处理,分词后的关键词都带有词性标注,如形容词、动词、名词等,其中,动词和名词对主题表达的贡献度最大,所以可将动词和名词作为主词,其他词则作为辅词;例如用户确定的查询关键词为“红色的苹果”,分词后为“红色/的/苹果”,则提取“苹果”为主词,“红色”为辅词;
第三步,系统将分词处理后的主、辅词和历史查询库进行匹配处理,历史查询库只保存主词的历史查询结果,匹配的过程可能出现3种情况:
(1)全匹配:如果是全匹配,则表明用户的查询关键词只有主词,且该主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,最后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集,即是用户本次查询的结果;
(2)部分匹配:如果是部分匹配,则表明用户输入的查询关键词提取出了主词和辅词,其中主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,然后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集;最后在合并结果集中继续对辅词进行查询,得出用户本次查询的结果;
(3)完全不匹配:如果是完全不匹配,则表明用户输入的查询关键词没有任何历史查询记录,在历史查询库中不存在,这种情况则需要对全库执行全新的查询处理,最终得到用户本次查询的结果;
第四步,将用户本次查询的结果返回给用户;
第五步,更新历史查询库中对应主词的查询记录。
Claims (3)
1.一种高效的大数据查询方法,其特征在于:在历史查询库中保存主词的历史查询记录;用户输入查询请求时,首先分析用户的查询意图,并提供候选关键词供用户选择;用户确定最终的查询关键词后,对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,若匹配,则将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集;如有辅词,则在合并结果集上继续查询,得到最终查询结果;如无辅词,则直接将合并结果集作为查询结果返回给用户;若不匹配,则全库执行全新查询后将结果返回给用户;最后更新历史查询库;
所述的查询方法详细流程为:
第一步,用户通过系统输入查询关键词;
第二步,系统通过分析用户的查询请求意图,提供相近的候选查询关键词供用户选择,若用户不选择候选查询关键词,则将用户输入的查询关键词作为本次查询的关键词;用户确定最终的查询关键词后,系统对关键词进行分词处理,提取出主词和辅词;
第三步,系统将分词处理后的主、辅词和历史查询库进行匹配处理,历史查询库只保存主词的历史查询结果,匹配的过程会出现3种情况:
(1)全匹配:如果是全匹配,则表明用户的查询关键词只有主词,且该主词以前出现过,在历史查询库中有相应的历史查询结果,因此,历史查询库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,最后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集,即是用户本次查询的结果;
(2)部分匹配:如果是部分匹配,则表明用户输入的查询关键词提取出了主词和辅词,其中主词以前出现过,在历史查询库中有相应的历史查询结果,因此,历史查询库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,然后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集;最后在合并结果集中继续对辅词进行查询,得出用户本次查询的结果;
(3)完全不匹配:如果是完全不匹配,则表明用户输入的查询关键词没有任何历史查询记录,在历史查询库中不存在,这种情况则需要对全库执行全新的查询处理,最终得到用户本次查询的结果;
第四步,将用户本次查询的结果返回给用户;
第五步,更新历史查询库中对应主词的查询记录。
2.根据权利要求1所述的高效的大数据查询方法,其特征在于:
提取主词和辅词的具体方法为:
系统采用开源的分词工具ICTCLAS,对用户确定的查询关键词进行分词处理,分词后的关键词都带有形容词、动词、名词词性标注,其中,动词和名词对主题表达的贡献度最大,所以可将动词和名词作为主词,其他词则作为辅词。
3.根据权利要求1或2所述的高效的大数据查询方法,其特征在于:
提供相近候选查询关键词的具体方法为:
系统通过和历史查询库进行模糊匹配的方式,分析用户的查询请求意图,提供相近的候选查询关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410545402.XA CN104281698B (zh) | 2014-10-15 | 2014-10-15 | 一种高效的大数据查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410545402.XA CN104281698B (zh) | 2014-10-15 | 2014-10-15 | 一种高效的大数据查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104281698A CN104281698A (zh) | 2015-01-14 |
CN104281698B true CN104281698B (zh) | 2017-07-07 |
Family
ID=52256571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410545402.XA Active CN104281698B (zh) | 2014-10-15 | 2014-10-15 | 一种高效的大数据查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104281698B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765800A (zh) * | 2015-03-30 | 2015-07-08 | 浪潮集团有限公司 | 一种基于大数据的高效搜索方法 |
CN104778232B (zh) * | 2015-03-31 | 2017-04-19 | 北京奇虎科技有限公司 | 一种基于长查询的搜索结果的优化方法和装置 |
US20170103132A1 (en) * | 2015-10-11 | 2017-04-13 | Microsoft Technology Licensing, Llc | Identifying search results from local and remote search of communications in parallel |
WO2017088126A1 (zh) * | 2015-11-25 | 2017-06-01 | 华为技术有限公司 | 获取未登录词的方法与装置 |
CN106294645A (zh) * | 2016-08-03 | 2017-01-04 | 王晓光 | 不同词性在大数据搜索中的实现方法及系统 |
WO2018023481A1 (zh) * | 2016-08-03 | 2018-02-08 | 王晓光 | 同义词在大数据搜索中的应用方法及系统 |
CN106250516A (zh) * | 2016-08-03 | 2016-12-21 | 王晓光 | 同义词在大数据搜索中的应用方法及系统 |
WO2018023484A1 (zh) * | 2016-08-03 | 2018-02-08 | 王晓光 | 不同词性在大数据搜索中的实现方法及系统 |
CN106649770B (zh) * | 2016-12-27 | 2020-05-05 | 北京启明星辰信息安全技术有限公司 | 一种大数据查询方法及系统 |
CN109948017B (zh) * | 2018-04-26 | 2021-03-30 | 华为技术有限公司 | 一种信息处理方法及装置 |
CN109582757A (zh) * | 2018-12-06 | 2019-04-05 | 深圳高企在线科技有限公司 | 一种知识产权综合信息快速查询方法及系统 |
CN110471907A (zh) * | 2019-08-21 | 2019-11-19 | 小胡杨信息技术(武汉)有限公司 | 一种数据处理效率更高的计算机数据库数据处理方法 |
CN115641090B (zh) * | 2022-11-07 | 2023-11-07 | 北京北明数科信息技术有限公司 | 事项分发方法、系统、计算机设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539918A (zh) * | 2008-03-19 | 2009-09-23 | 天下互联(北京)科技有限公司 | 一种互联网搜索方法及系统 |
CN103064838A (zh) * | 2011-10-19 | 2013-04-24 | 阿里巴巴集团控股有限公司 | 数据搜索方法和装置 |
CN103970761A (zh) * | 2013-01-28 | 2014-08-06 | 阿里巴巴集团控股有限公司 | 一种商品数据搜索方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2693349A1 (en) * | 2012-08-03 | 2014-02-05 | Tata Consultancy Services Limited | A system and method for massive call data storage and retrieval |
-
2014
- 2014-10-15 CN CN201410545402.XA patent/CN104281698B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539918A (zh) * | 2008-03-19 | 2009-09-23 | 天下互联(北京)科技有限公司 | 一种互联网搜索方法及系统 |
CN103064838A (zh) * | 2011-10-19 | 2013-04-24 | 阿里巴巴集团控股有限公司 | 数据搜索方法和装置 |
CN103970761A (zh) * | 2013-01-28 | 2014-08-06 | 阿里巴巴集团控股有限公司 | 一种商品数据搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104281698A (zh) | 2015-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104281698B (zh) | 一种高效的大数据查询方法 | |
CN110955764B (zh) | 场景知识图谱的生成方法、人机对话方法以及相关设备 | |
CN110633330B (zh) | 事件发现方法、装置、设备及存储介质 | |
CN102915299B (zh) | 一种分词方法及装置 | |
US20090112903A1 (en) | Ontology data import/export method and apparatus | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
WO2010151788A3 (en) | System and methods for units-based numeric information retrieval | |
CN110262273A (zh) | 一种家居设备控制方法、装置、存储介质及智能家居系统 | |
WO2014005657A4 (en) | A system and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information | |
CN105677795B (zh) | 抽象语义的推荐方法、推荐装置及推荐系统 | |
JP5838086B2 (ja) | 減少クエリを推薦する検索システムおよび検索方法 | |
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
CN102968987A (zh) | 一种语音识别方法及系统 | |
WO2004072757A3 (en) | Text and attribute searches of data stores that include business object | |
CN111581990A (zh) | 跨境交易撮合匹配方法及装置 | |
CN110555108B (zh) | 事件脉络生成方法、装置、设备及存储介质 | |
CN102122280A (zh) | 一种智能提取内容对象的方法及系统 | |
CN112699232A (zh) | 文本标签提取方法、装置、设备和存储介质 | |
CN107291770A (zh) | 一种分布式系统中海量数据的查询方法及装置 | |
EP2887239A2 (en) | Method and system of audio retrieval and source separation | |
CN111062211A (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN109255011A (zh) | 一种基于人工智能的搜索提示方法及电子设备 | |
CN105468792B (zh) | 一种基于大数据的模糊查询方法及系统 | |
CN110555199B (zh) | 基于热点素材的文章生成方法、装置、设备及存储介质 | |
CN114302227B (zh) | 基于容器采集的网络视频采集与解析的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 523808 19th Floor, Cloud Computing Center, Chinese Academy of Sciences, No. 1 Kehui Road, Songshan Lake Hi-tech Industrial Development Zone, Dongguan City, Guangdong Province Patentee after: G-Cloud Technology Co., Ltd. Address before: 523808 No. 14 Building, Songke Garden, Songshan Lake Science and Technology Industrial Park, Dongguan City, Guangdong Province Patentee before: G-Cloud Technology Co., Ltd. |
|
CP02 | Change in the address of a patent holder |