CN104281698B - 一种高效的大数据查询方法 - Google Patents

一种高效的大数据查询方法 Download PDF

Info

Publication number
CN104281698B
CN104281698B CN201410545402.XA CN201410545402A CN104281698B CN 104281698 B CN104281698 B CN 104281698B CN 201410545402 A CN201410545402 A CN 201410545402A CN 104281698 B CN104281698 B CN 104281698B
Authority
CN
China
Prior art keywords
result
storehouse
historical query
user
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410545402.XA
Other languages
English (en)
Other versions
CN104281698A (zh
Inventor
胡文彬
艾建文
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
G Cloud Technology Co Ltd
Original Assignee
G Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Cloud Technology Co Ltd filed Critical G Cloud Technology Co Ltd
Priority to CN201410545402.XA priority Critical patent/CN104281698B/zh
Publication of CN104281698A publication Critical patent/CN104281698A/zh
Application granted granted Critical
Publication of CN104281698B publication Critical patent/CN104281698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据查询技术领域,特别是涉及一种高效的大数据查询方法。本发明在历史查询库中保存了词的历史查询记录;用户输入查询请求时,系统首先分析用户的查询意图,并提供候选关键词供用户选择,用户确定最终的查询关键词后,系统对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,匹配后,将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集,若有辅词,则在合并结果集上继续查询,得到最终查询结果;若无辅词,则直接将合并结果集作为查询结果返回给用户;最后更新历史查询库。本发明节省了大数据搜索时间,提高了查询效率;可以用于大数据的查询上。

Description

一种高效的大数据查询方法
技术领域
本发明涉及大数据查询技术领域,特别是涉及一种高效的大数据查询方法。
背景技术
随着大数据时代的到来,面对日益增长的海量数据,如何更好的处理大数据,满足用户对大数据查询的高效、准确及个性化等需求,逐渐引起人们的关注。虽然针对大数据处理已经有很多新的技术或方法,但是从大数据中获取满足用户查询需求的数据,仍然需要花费较长的时间,而对于大数据交互式的查询效率,更是一个巨大的挑战。
发明内容
本发明解决的技术问题在于提供一种高效的大数据查询方法,可节省大数据处理时间,实现高效的大数据查询。
本发明解决上述技术问题的技术方案是:
在历史查询库中保存主词的历史查询记录;用户输入查询请求时,首先分析用户的查询意图,并提供候选关键词供用户选择;用户确定最终的查询关键词后,对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,若匹配,则将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集;如有辅词,则在合并结果集上继续查询,得到最终查询结果;如无辅词,则直接将合并结果集作为查询结果返回给用户;若不匹配,则全库执行全新查询后将结果返回给用户;最后更新历史查询库。
所述的查询方法详细流程为:
第一步,用户通过系统输入查询关键词;
第二步,系统通过分析用户的查询请求意图,提供相近的候选查询关键词供用户选择,若用户不选择候选查询关键词,则将用户输入的查询关键词作为本次查询的关键词;用户确定最终的查询关键词后,系统对关键词进行分词处理,提取出主词和辅词;
第三步,系统将分词处理后的主、辅词和历史查询库进行匹配处理,历史查询库只保存主词的历史查询结果,匹配的过程可能出现3种情况:
(1)全匹配:如果是全匹配,则表明用户的查询关键词只有主词,且该主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,最后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集,即是用户本次查询的结果;
(2)部分匹配:如果是部分匹配,则表明用户输入的查询关键词提取出了主词和辅词,其中主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,然后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集;最后在合并结果集中继续对辅词进行查询,得出用户本次查询的结果;
(3)完全不匹配:如果是完全不匹配,则表明用户输入的查询关键词没有任何历史查询记录,在历史查询库中不存在,这种情况则需要对全库执行全新的查询处理,最终得到用户本次查询的结果;
第四步,将用户本次查询的结果返回给用户;
第五步,更新历史查询库中对应主词的查询记录。
所述的提取主词和辅词的具体方法为:
系统采用开源的分词工具ICTCLAS,对用户确定的查询关键词进行分词处理,分词后的关键词都带有形容词、动词、名词等词性标注,其中,动词和名词对主题表达的贡献度最大,所以可将动词和名词作为主词,其他词则作为辅词。
所述的提供相近候选查询关键词的具体方法为:
系统通过和历史查询库进行模糊匹配的方式,分析用户的查询请求意图,提供相近的候选查询关键词。
本发明通过对用户查询的关键词进行分词处理,并通过共享历史查询库的历史查询结果,使其具有如下优点:(1)分词匹配,查询更精确;(2)共享历史查询库,减少重复查询操作;(3)节省大数据搜索时间,提高了查询效率。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明的处理流程示意图。
具体实施方式
如图1所示,本发明的详细流程为:
第一步,用户通过系统输入查询关键词;
第二步,系统通过分析用户的查询请求意图,提供相近的候选查询关键词供用户选择,若用户不选择候选查询关键词,则将用户输入的查询关键词作为本次查询的关键词;用户确定最终的查询关键词后,系统对关键词进行分词处理,提取出主词和辅词;
其中,提供相近候选查询关键词的具体方法为:
系统通过和历史查询库进行模糊匹配的方式,分析用户的查询请求意图,提供相近的候选查询关键词,例如用户输入“车”,系统会根据历史查询库中已有的历史查询关键词记录,提供候选关键词“汽车”、“自行车”等,供用户选择;
提取主词和辅词的具体方法为:
系统采用开源的分词工具ICTCLAS,对用户确定的查询关键词进行分词处理,分词后的关键词都带有词性标注,如形容词、动词、名词等,其中,动词和名词对主题表达的贡献度最大,所以可将动词和名词作为主词,其他词则作为辅词;例如用户确定的查询关键词为“红色的苹果”,分词后为“红色/的/苹果”,则提取“苹果”为主词,“红色”为辅词;
第三步,系统将分词处理后的主、辅词和历史查询库进行匹配处理,历史查询库只保存主词的历史查询结果,匹配的过程可能出现3种情况:
(1)全匹配:如果是全匹配,则表明用户的查询关键词只有主词,且该主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,最后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集,即是用户本次查询的结果;
(2)部分匹配:如果是部分匹配,则表明用户输入的查询关键词提取出了主词和辅词,其中主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,然后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集;最后在合并结果集中继续对辅词进行查询,得出用户本次查询的结果;
(3)完全不匹配:如果是完全不匹配,则表明用户输入的查询关键词没有任何历史查询记录,在历史查询库中不存在,这种情况则需要对全库执行全新的查询处理,最终得到用户本次查询的结果;
第四步,将用户本次查询的结果返回给用户;
第五步,更新历史查询库中对应主词的查询记录。

Claims (3)

1.一种高效的大数据查询方法,其特征在于:在历史查询库中保存主词的历史查询记录;用户输入查询请求时,首先分析用户的查询意图,并提供候选关键词供用户选择;用户确定最终的查询关键词后,对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,若匹配,则将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集;如有辅词,则在合并结果集上继续查询,得到最终查询结果;如无辅词,则直接将合并结果集作为查询结果返回给用户;若不匹配,则全库执行全新查询后将结果返回给用户;最后更新历史查询库;
所述的查询方法详细流程为:
第一步,用户通过系统输入查询关键词;
第二步,系统通过分析用户的查询请求意图,提供相近的候选查询关键词供用户选择,若用户不选择候选查询关键词,则将用户输入的查询关键词作为本次查询的关键词;用户确定最终的查询关键词后,系统对关键词进行分词处理,提取出主词和辅词;
第三步,系统将分词处理后的主、辅词和历史查询库进行匹配处理,历史查询库只保存主词的历史查询结果,匹配的过程会出现3种情况:
(1)全匹配:如果是全匹配,则表明用户的查询关键词只有主词,且该主词以前出现过,在历史查询库中有相应的历史查询结果,因此,历史查询库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,最后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集,即是用户本次查询的结果;
(2)部分匹配:如果是部分匹配,则表明用户输入的查询关键词提取出了主词和辅词,其中主词以前出现过,在历史查询库中有相应的历史查询结果,因此,历史查询库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,然后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集;最后在合并结果集中继续对辅词进行查询,得出用户本次查询的结果;
(3)完全不匹配:如果是完全不匹配,则表明用户输入的查询关键词没有任何历史查询记录,在历史查询库中不存在,这种情况则需要对全库执行全新的查询处理,最终得到用户本次查询的结果;
第四步,将用户本次查询的结果返回给用户;
第五步,更新历史查询库中对应主词的查询记录。
2.根据权利要求1所述的高效的大数据查询方法,其特征在于:
提取主词和辅词的具体方法为:
系统采用开源的分词工具ICTCLAS,对用户确定的查询关键词进行分词处理,分词后的关键词都带有形容词、动词、名词词性标注,其中,动词和名词对主题表达的贡献度最大,所以可将动词和名词作为主词,其他词则作为辅词。
3.根据权利要求1或2所述的高效的大数据查询方法,其特征在于:
提供相近候选查询关键词的具体方法为:
系统通过和历史查询库进行模糊匹配的方式,分析用户的查询请求意图,提供相近的候选查询关键词。
CN201410545402.XA 2014-10-15 2014-10-15 一种高效的大数据查询方法 Active CN104281698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410545402.XA CN104281698B (zh) 2014-10-15 2014-10-15 一种高效的大数据查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410545402.XA CN104281698B (zh) 2014-10-15 2014-10-15 一种高效的大数据查询方法

Publications (2)

Publication Number Publication Date
CN104281698A CN104281698A (zh) 2015-01-14
CN104281698B true CN104281698B (zh) 2017-07-07

Family

ID=52256571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410545402.XA Active CN104281698B (zh) 2014-10-15 2014-10-15 一种高效的大数据查询方法

Country Status (1)

Country Link
CN (1) CN104281698B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765800A (zh) * 2015-03-30 2015-07-08 浪潮集团有限公司 一种基于大数据的高效搜索方法
CN104778232B (zh) * 2015-03-31 2017-04-19 北京奇虎科技有限公司 一种基于长查询的搜索结果的优化方法和装置
US20170103132A1 (en) * 2015-10-11 2017-04-13 Microsoft Technology Licensing, Llc Identifying search results from local and remote search of communications in parallel
WO2017088126A1 (zh) * 2015-11-25 2017-06-01 华为技术有限公司 获取未登录词的方法与装置
CN106294645A (zh) * 2016-08-03 2017-01-04 王晓光 不同词性在大数据搜索中的实现方法及系统
WO2018023481A1 (zh) * 2016-08-03 2018-02-08 王晓光 同义词在大数据搜索中的应用方法及系统
CN106250516A (zh) * 2016-08-03 2016-12-21 王晓光 同义词在大数据搜索中的应用方法及系统
WO2018023484A1 (zh) * 2016-08-03 2018-02-08 王晓光 不同词性在大数据搜索中的实现方法及系统
CN106649770B (zh) * 2016-12-27 2020-05-05 北京启明星辰信息安全技术有限公司 一种大数据查询方法及系统
CN109948017B (zh) * 2018-04-26 2021-03-30 华为技术有限公司 一种信息处理方法及装置
CN109582757A (zh) * 2018-12-06 2019-04-05 深圳高企在线科技有限公司 一种知识产权综合信息快速查询方法及系统
CN110471907A (zh) * 2019-08-21 2019-11-19 小胡杨信息技术(武汉)有限公司 一种数据处理效率更高的计算机数据库数据处理方法
CN115641090B (zh) * 2022-11-07 2023-11-07 北京北明数科信息技术有限公司 事项分发方法、系统、计算机设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539918A (zh) * 2008-03-19 2009-09-23 天下互联(北京)科技有限公司 一种互联网搜索方法及系统
CN103064838A (zh) * 2011-10-19 2013-04-24 阿里巴巴集团控股有限公司 数据搜索方法和装置
CN103970761A (zh) * 2013-01-28 2014-08-06 阿里巴巴集团控股有限公司 一种商品数据搜索方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2693349A1 (en) * 2012-08-03 2014-02-05 Tata Consultancy Services Limited A system and method for massive call data storage and retrieval

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539918A (zh) * 2008-03-19 2009-09-23 天下互联(北京)科技有限公司 一种互联网搜索方法及系统
CN103064838A (zh) * 2011-10-19 2013-04-24 阿里巴巴集团控股有限公司 数据搜索方法和装置
CN103970761A (zh) * 2013-01-28 2014-08-06 阿里巴巴集团控股有限公司 一种商品数据搜索方法及装置

Also Published As

Publication number Publication date
CN104281698A (zh) 2015-01-14

Similar Documents

Publication Publication Date Title
CN104281698B (zh) 一种高效的大数据查询方法
CN110955764B (zh) 场景知识图谱的生成方法、人机对话方法以及相关设备
CN110633330B (zh) 事件发现方法、装置、设备及存储介质
CN102915299B (zh) 一种分词方法及装置
US20090112903A1 (en) Ontology data import/export method and apparatus
CN107544988B (zh) 一种获取舆情数据的方法和装置
WO2010151788A3 (en) System and methods for units-based numeric information retrieval
CN110262273A (zh) 一种家居设备控制方法、装置、存储介质及智能家居系统
WO2014005657A4 (en) A system and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information
CN105677795B (zh) 抽象语义的推荐方法、推荐装置及推荐系统
JP5838086B2 (ja) 減少クエリを推薦する検索システムおよび検索方法
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN102968987A (zh) 一种语音识别方法及系统
WO2004072757A3 (en) Text and attribute searches of data stores that include business object
CN111581990A (zh) 跨境交易撮合匹配方法及装置
CN110555108B (zh) 事件脉络生成方法、装置、设备及存储介质
CN102122280A (zh) 一种智能提取内容对象的方法及系统
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN107291770A (zh) 一种分布式系统中海量数据的查询方法及装置
EP2887239A2 (en) Method and system of audio retrieval and source separation
CN111062211A (zh) 信息提取方法、装置、电子设备及存储介质
CN109255011A (zh) 一种基于人工智能的搜索提示方法及电子设备
CN105468792B (zh) 一种基于大数据的模糊查询方法及系统
CN110555199B (zh) 基于热点素材的文章生成方法、装置、设备及存储介质
CN114302227B (zh) 基于容器采集的网络视频采集与解析的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 523808 19th Floor, Cloud Computing Center, Chinese Academy of Sciences, No. 1 Kehui Road, Songshan Lake Hi-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee after: G-Cloud Technology Co., Ltd.

Address before: 523808 No. 14 Building, Songke Garden, Songshan Lake Science and Technology Industrial Park, Dongguan City, Guangdong Province

Patentee before: G-Cloud Technology Co., Ltd.

CP02 Change in the address of a patent holder