CN102436510A - 通过离线查询提高在线实时搜索质量的方法与系统 - Google Patents

通过离线查询提高在线实时搜索质量的方法与系统 Download PDF

Info

Publication number
CN102436510A
CN102436510A CN2011104563308A CN201110456330A CN102436510A CN 102436510 A CN102436510 A CN 102436510A CN 2011104563308 A CN2011104563308 A CN 2011104563308A CN 201110456330 A CN201110456330 A CN 201110456330A CN 102436510 A CN102436510 A CN 102436510A
Authority
CN
China
Prior art keywords
result
search
online
time
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104563308A
Other languages
English (en)
Inventor
史何富
曹学军
刘庆生
曹智清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHEJIANG LEDE NETWORK TECHNOLOGY Co Ltd
Original Assignee
ZHEJIANG LEDE NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHEJIANG LEDE NETWORK TECHNOLOGY Co Ltd filed Critical ZHEJIANG LEDE NETWORK TECHNOLOGY Co Ltd
Priority to CN2011104563308A priority Critical patent/CN102436510A/zh
Publication of CN102436510A publication Critical patent/CN102436510A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种通过离线查询提高在线实时搜索质量的方法与系统,系统接受用户查询请求;通过数据缓存平台,搜索有效时间窗口W1内满足要求的结果集;如果未找到满足要求的结果,将请求送至在线数据实时查询平台,获取在线实时结果集;实时结果集按照时间和关键值排序后返回给用户;如果没有满意结果,从离线数据提供者集合中按分类选取一组或者全部,将用户查询请求以及部分在线结果送出查询;从数据提供者接收结果并存入数据缓存平台;在用户可接受的时间窗口W2内,将数据提供者返回的结果和在线实时结果集合并。本发明的优点是:本发明对于用户在线提交和时间相关的查询,在一定的时间窗口内能够快速高效地帮助用户找到满意的解答。

Description

通过离线查询提高在线实时搜索质量的方法与系统
技术领域
本发明涉及网络通信领域,主要是一种通过离线查询提高在线实时搜索质量的方法与系统。
背景技术
随着信息技术的发展和互联网的不断普及,网络搜索引擎不仅成为人们在互联网上获取知识的重要平台,也成为解决人们生活中各类问题的有效渠道。人们可以通过搜索引擎查询所需的资料和信息,也可以通过搜索引擎寻求生活中遇到的各方面问题的答案。在现有的搜索技术和方法中,搜索引擎能过检索的信息源依赖于互联网在线资源,如果用户查询的结果掌握在一部分离线提供者手中,用户需要通过各种方式获取这些离线数据提供者的联系方式,并通过线下的方式向这些提供者进行询问,按个询问结果。
但是在现有的技术和方法中,用户提出查询后,如果在线搜索返回的在线结果不能满足用户的要求,而真正能够满足用户要求的解答掌握在部分线下人员或者机构手中,这种情形下,用户首先需要手动通过各种方式取得这些线下人员或者机构的联系方式,进行筛选后分别联系这些线下数据提供者并发出询问,然后等待线下数据提供者回应。对于这种情况,用户往往需要耗费巨大的精力获得有效的数据提供者名单和联系方式,精准度很低;而且分别通过线下联系方法进行联系的效率非常低。这样容易导致用户未能定位到真正掌握满足自己需求的离线数据提供者,同时又浪费巨大的时间和精力,最终仍未能获得自己满意的结果。
发明内容
本发明的目的正是要克服上述技术的不足,而提供一种通过离线查询提高在线实时搜索质量的方法与系统,当用户通过网络平台触发一个查询请求时,如果在缓存数据平台(记录一定时间窗口内的在线和离线查询的结果)和在线实时搜索系统中都未能找到满意的结果,该系统可以快速高效地帮助用户定位到一组掌握问题相关领域知识或资源并且愿意接受查询的离线数据提供者,向这些用户推送查询请求并收集答案,然后展现给提问者,由提问的用户提名一个最满意的查询结果。
本发明解决其技术问题采用的技术方案:这种通过离线查询提高在线实时搜索质量的方法,包括以下步骤:
步骤S1,系统接受用户查询请求;
步骤S2,通过数据缓存平台,搜索一定时间窗口W1内满足要求的结果集,如果有,排序后返回给用
户;
步骤S3,如果未找到满足要求的结果,将请求送至在线数据实时查询平台,获取实时结果集;
步骤S4,实时结果集按照时间和关键值排序后返回给用户,用户如果从中找到满意结果,则完成;
步骤S5,如果没有满意结果,从离线数据提供者集合中按分类选取一组或者全部,将用户查询请求以及部分在线结果送出查询;
步骤S6,从数据提供者接收结果;
步骤S7,在用户可接受的时间窗口W2内,将数据提供者返回的结果和在线实时结果集合并,排序作
为结果集,离线送给用户。
前述的通过离线查询提高在线实时搜索质量的方法中,步骤S2中所述的通过数据缓存平台,获取一定时间周期内满足要求的结果集包括:提取初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息;统计数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息;其中所述的缓存数据平台指的是在一定时间周期内被用户挑选为满意结果的查询和结果组合,比如数分钟或数小时乃至数天内曾被用户选作满意结果,超出时间窗口的查询和结果组合会从数据缓存平台中清除。
前述的通过离线查询提高在线实时搜索质量的方法中,步骤S2还包括:若结果集存在,则根据统计结果成绩由高到低排列结果,根据排序结果成绩由高到低分页返回给用户。
前述的通过离线查询提高在线实时搜索质量的方法中,步骤S3所述的将查询请求送至在线数据实时查询平台包括:根据查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型,从在线实时查询平台中选择合适的在线数据源,进行在线实时搜索,并获取实时搜索结果集。
前述的通过离线查询提高在线实时搜索质量的方法中,步骤S4中所述的对在线实时搜索结果集按照时间和值排序包括:根据在线实时搜索结果集中结果的返回时间和结果值进行排序。排序后的结果集返回给用户,若用户从中选择了满意结果,则搜索完成。
前述的通过离线查询提高在线实时搜索质量的方法中,步骤S5中所述的从离线数据提供者集合中按分类选取一组或者全部的选择依据包括:初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩。其中所述的离线数据提供者的历史数据提供成绩包括:离线数据提供者总共回答过的问题数量和质量(在搜索结果中的排名统计),离线数据提供者在一定周期内回答过的问题数量,如一周或一个月。
前述的通过离线查询提高在线实时搜索质量的方法中,步骤S6中所述的在用户可接受的时间窗口内,从数据提供者接收结果包括:由用户设定时间作为从离线数据提供者接收查询结果的时间窗口;若用户未设定时间,则取系统默认值。
前述的通过离线查询提高在线实时搜索质量的方法中,步骤S7中所述的将数据提供者返回的结果和在线实时结果集合并,排序作为结果集,离线送给用户包括:在允许的时间窗口内接收到的离线查询结果和在线实时查询结果集合并,并进行排序。排序依据包括:各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括:离线结果提供者的历史活跃度、离线结果提供者的历史数据提供成绩。排序后的结果,通过离线的方式送回给用户。用户选中的来自离线的满意结果将会保存至缓存数据平台,包括:查询请求内容,查询请求的领域类型信息,查询请求关键词列表,查询请求的类型信息,查询请求的提交时间,用户账号,满意结果的内容,满意结果的回答时间,满意结果的有效期限。
本发明所述的这种通过离线查询提高在线实时搜索质量的系统,它包括:
触发模块,用于用户触发查询请求;
搜索模块一,用于从数据缓存平台获取满足要求的结果集并排序;
显示模块一,用于显示排好序的缓存结果集;
搜索模块二,用于搜索在线数据实时查询平台,获取实时结果集并排序;
显示模块二,用于显示排好序的实时结果集;
选择模块,用于选择一组或全部离线数据提供者作为查询的离线数据源;
传送模块,用于将查询请求传送至离线数据提供者,收集离线结果,将离线结果和在线实时结果合并后排序;
显示模块三,用于离线显示合并后的结果集;
存储模块,用于将离线结果集保存至数据缓存平台。
前述的通过离线查询来提高实时搜索质量的系统中,所述的搜索模块一还包括:
统计模块一,用于提取初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息;统计数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息。其中所述的缓存数据平台指的是在一定时间周期内被用户挑选为满意结果的查询和结果组合,比如数小时或者数天内曾被用户选作满意结果,超出时间周期的查询和结果组合会从数据缓存平台中清除。
前述的通过离线查询来提高实时搜索质量的系统中,所述的搜索模块一还包括:
排序模块一,用于根据统计成绩由高到低排列从缓存数据平台找到的结果集,其中所述的结果集是根据查询请求和缓存数据平台上保存的查询请求相似度选出的候选结果集,从而保证候选结果集的命中率。
前述的通过离线查询来提高实时搜索质量的系统中,所述的搜索模块二还包括:
统计模块二,用于提取和统计查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型。
前述的通过离线查询来提高实时搜索质量的系统中,所述的搜索模块二还包括:
排序模块二,用于对实时搜索结果集根据结果的返回时间和结果值进行排序。
前述的通过离线查询来提高实时搜索质量的系统中,所述的选择模块,还包括:
统计模块三,用于从离线数据提供者集合中按分类选取一组或者全部作为离线查询的源;统计依据包括:初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩。其中所述的离线数据提供者的历史数据提供成绩包括:离线数据提供者总共回答过的问题数量和质量,离线数据提供者在一定周期内回答过的问题数量,如一周或一个月。
前述的通过离线查询来提高实时搜索质量的系统中,所述的传送模块,还包括:
排序模块三,用于对将离线数据提供者返回的结果集和在线在线实时搜索结果集所形成的合并结果集进行排序。排序依据包括:各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括:离线结果提供者的历史数据提供成绩。其中所述的离线数据提供者的历史数据提供成绩包括:离线数据提供者总共回答过的问题数量和质量,离线数据提供者在一定周期内回答过的问题数量,如一周或一个月。
本发明有益的效果是:与现有技术相比,首先,本发明通过搜索显示缓存数据平台,它同时记录了过去的,在线和离线查询的结果,在线实时搜索和定位查询相关的离线数据提供者的方法,当用户提出一个时间相关的问题时,如果用户在缓存数据中找不到满足要求的结果,则将请求实时查询平台,获取实时结果集,若用户从实时查询平台返回的结果集中仍未找到期望的满意结果,系统将从离线数据提供者群组中选取一组或全部,并向他们提交用户查询和搜集结果,使得用户从中挑选满意结果,并将选中的满意结果保存至缓存,以备后来的用户查询。其次,本发明提取和统计初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息、数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息,其中所述的关键词列表包括:该查询包含的所对应领域类别相关的属性名称和属性值,根据全面统计各种因素作为查询相似度的分值,实现在缓存数据平台中准确地定位同样的或者相似的查询和结果的集合。再次,本发明根据统计结果成绩由高到低排列从缓存数据平台中找到的查询和结果,其中所述的根据统计结果成绩排列的查询和结果的集合是在初始查询和缓存数据中的查询的相似度分值满足一定系统阀值的前提下,选出的缓存结果集的子集,从而确保这些挑选出来的缓存结果集能够满足用户查询需求的命中率;其中所述的缓存数据平台指的是在一定时间周期内被用户挑选为满意结果的查询和结果组合,比如数小时或者数天内曾被用户选作满意结果,超出时间周期的查询和结果组合会从数据缓存平台中清除。还有,本发明将查询请求送至在线数据实时查询平台包括:根据查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型,从在线实时查询平台中选择合适的在线数据源,进行在线实时搜索,并获取实时搜索结果集;然后对在线实时搜索结果集按照时间和值排序包括:根据在线实时搜索结果集中结果的返回时间和结果值进行排序;排序后的结果集返回给用户。另外,本发明在用户从在线实时搜索结果中仍未能找到满意结果的情况下,从离线数据提供者集合中按分类选取一组或者全部的选择依据包括:初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩。其中所述的离线数据提供者历史活跃度包括:离线数据提供者在一定周期内的登录次数,如一周或一个月,离线数据提供者最后一次登录时间;其中所述的离线数据提供者的历史数据提供成绩包括:离线数据提供者总共回答过的问题数量,离线数据提供者在一定周期内回答过的问题数量和质量,如一周或一个月。最后,本发明在用户可接受的时间窗口内,从数据提供者接收结果;在允许的时间窗口内接收到的离线查询结果和在在线实时查询结果集合并,并进行排序。排序依据包括:各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括:离线结果提供者的历史活跃度、离线结果提供者的历史数据提供成绩。排序后的结果,通过离线的方式送回给用户。用户选中的来自离线的满意结果将会保存至缓存数据平台,包括:查询请求内容,查询请求的领域类型信息,查询请求关键词列表,查询请求的类型信息,查询请求的提交时间,用户账号,满意结果的内容,满意结果的回答时间,满意结果的有效期限。
附图说明
图1为本发明的方法流程图;
图2为本发明实施例的系统结构示意图。
附图标记:1-触发模块,2-搜索模块一,3-显示模块一,4-搜索模块二,5-显示模块二,6-选择模块,7-传送模块,8-显示模块三,9-存储模块,10-统计模块一,11-排序模块一,12-统计模块二,13-排序模块二,14-统计模块三,15-排序模块三。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图及举例,对本发明进行进一步详细说明。应当理解,此处所描述的举例仅仅用以解释本发明,并不用于限定本发明。
本发明的实施例:一种通过离线查询提高在线实时搜索质量的方法,如图1所示,包括以下步骤:
步骤S1,系统接受用户查询请求;
步骤S2,通过数据缓存平台,获取一定时间窗口W1内满足要求的结果集,如果有,排序后返回给用户;
步骤S3,如果未找到满足要求的结果,将请求送至在线数据实时查询平台,获取实时结果集;
步骤S4,实时结果集按照时间和值排序后返回给用户,用户如果从中找到满意结果,则完成;
步骤S5,如果没有满意结果,从离线数据提供者集合中按分类选取一组或者全部,将用户查询请求以及部分在线结果送出查询;
步骤S6,从数据提供者接收结果;
步骤S7,在用户可接受的时间窗口W2内,将数据提供者返回的结果和在线实时结果集合并,排序作为结果集,离线送给用户。
上述方法中,步骤S2中所述的通过数据缓存平台,获取一定时间周期内满足要求的结果集包括:提取初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息;统计数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息;其中所述的缓存数据平台指的是在一定时间周期内被用户挑选为满意结果的查询和结果组合,比如数小时或者数天内曾被用户选作满意结果,超出时间周期的查询和结果组合会从数据缓存平台中清除。
上述方法中,步骤S2还包括:若结果集存在,则根据统计结果成绩由高到低排列结果,根据排序结果成绩由高到低分页返回给用户。
上述方法中,步骤S3所述的将查询请求送至在线数据实时查询平台包括:根据查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型,从在线实时查询平台中选择合适的在线数据源,进行在线实时搜索,并获取在线实时搜索结果集。
上述方法中,步骤S4中所述的对在线实时搜索结果集按照时间和值排序包括:根据在线实时搜索结果集中结果的返回时间和结果值进行排序。排序后的结果集返回给用户,若用户从中选择了满意结果,则搜索完成。
上述方法中,步骤S5中所述的从离线数据提供者集合中按分类选取一组或者全部的选择依据包括:初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩。其中所述的离线数据提供者的历史数据提供成绩包括:离线数据提供者总共回答过的问题数量和质量,离线数据提供者在一定周期内回答过的问题数量,如一周或一个月。
上述方法中,步骤S6中所述的在用户可接受的时间窗口内,从数据提供者接收结果包括:由用户设定时间作为从离线数据提供者接收查询结果的时间窗口;若用户未设定时间,则取系统默认值。
上述方法中,步骤S7中所述的将数据提供者返回的结果和在线实时结果集合并,排序作为结果集,离线送给用户包括:在允许的时间窗口内接收到的离线查询结果和在线实时查询结果集合并,并进行排序。排序依据包括:各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括:离线结果提供者的历史数据提供成绩。排序后的结果,通过离线的方式送回给用户。用户选中的来自离线的满意结果将会保存至缓存数据平台,包括:查询请求内容,查询请求的领域类型信息,查询请求关键词列表,查询请求的类型信息,查询请求的提交时间,用户账号,满意结果的内容,满意结果的回答时间,满意结果的有效期限。
一种实现上述方法的通过离线查询来提高在线实时搜索质量的系统,如图2所示,包括:
触发模块1,用于用户触发查询请求;
搜索模块一2,用于从数据缓存平台获取满足要求的结果集并排序;
显示模块一3,用于显示排好序的缓存结果集;
搜索模块二4,用于搜索在线数据实时查询平台,获取实时结果集并排序;
显示模块二5,用于显示排好序的实时结果集;
选择模块6,用于选择一组或全部离线数据提供者作为查询的离线数据源;
传送模块7,用于将查询请求传送至离线数据提供者,收集离线结果,将离线结果和在线实时结果合并后排序;
显示模块三8,用于离线显示合并后的结果集;
存储模块9,用于将离线结果集保存至数据缓存平台。
上述系统中,所述的搜索模块一还包括:
统计模块一10,用于提取初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息;统计数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息。其中所述的缓存数据平台指的是在一定时间周期内被用户挑选为满意结果的查询和结果组合,比如数小时或者数天内曾被用户选作满意结果,超出时间周期的查询和结果组合会从数据缓存平台中清除。
上述系统中,所述的搜索模块一还包括:
排序模块一11,用于根据统计成绩由高到低排列从缓存数据平台找到的结果集,其中所述的结果集是根据查询请求和缓存数据平台上保存的查询请求相似度选出的候选结果集,从而保证候选结果集的命中率。
上述系统中,所述的搜索模块二还包括:
统计模块二12,用于提取和统计查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型。
上述系统中,所述的搜索模块二还包括:
排序模块二13,用于对实时搜索结果集根据结果的返回时间和结果值进行排序。
上述系统中,所述的选择模块,还包括:
统计模块三14,用于从离线数据提供者集合中按分类选取一组或者全部作为离线查询的源;统计依据包括:初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩。其中所述的离线数据提供者的历史数据提供成绩包括:离线数据提供者总共回答过的问题数量,离线数据提供者在一定周期内回答过的问题数量,如一周或一个月。
上述系统中,所述的传送模块,还包括:
排序模块三15,用于对将离线数据提供者返回的结果集和在线实时搜索结果集所形成的合并结果集进行排序。排序依据包括:各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括:离线结果提供者的历史数据提供成绩。其中所述的离线数据提供者历史活跃度包括:其中所述的离线数据提供者的历史数据提供成绩包括:离线数据提供者总共回答过的问题数量和质量,离线数据提供者在一定周期内回答过的问题数量,如一周或一个月。
本发明的一种实施例的工作流程:
S20,系统接受用户查询请求;
S30,Web服务器根据用户查询请求的类型信息、关键词信息和查询条件信息从数据缓存平台搜索与用户查询匹配的结果,获取一定时间窗口W1内满足要求的结果集,如果有,排序后在客户端显示排好序的结果列表;
S40,如果在数据缓存平台未找到满足用户要求的结果,则将请求送至在线数据实时查询平台,获取实时结果集;
S50,将在线实时获取的结果集按照时间和值排序后返回并在用户客户端显示,用户如果从中找到满意结果,则完成此次查询请求;
S60,如果在线实时结果集中仍然没有令用户满意的结果,从离线数据提供者集合中按分类选取一组或者全部,将用户查询请求以及部分在线结果送出至这些选取的数据提供者进行查询;
S70,接收从数据提供者返回的结果;
S80,在用户可接受的时间窗口W2内,将数据提供者返回的结果和在线实时结果集合并,排序作为结果集,离线送给用户。
实例说明:
实例一,用户“天行者”提交一个查询请求:“11月30日从上海飞往纽约的机票价格”,该问题类别为“机票”,关键词为“机票搜索”,查询条件为“上海至纽约”,“11月30日”,“单程”。系统收到该查询之后,立即开始在缓存数据平台搜索24小时之内由离线数据提供者回应同样或相似问题的结果。缓存数据平台返回结果“11月30日,国航CA1832,人民币2980元”,结果返回给用户,用户认为该结果可以接受。
实例二,用户“天涯游子”提交查询请求:“10月28日入住,10月30日退房,杭州4星级标准间”,该问题类别为“酒店搜索”,关键词为“酒店”,查询条件为“入住日期10月28日”,“退房日期10月30日”,“标准间”,“杭州”。系统收到该查询后,立即开始在缓存数据平台搜索24小时之内由离线数据提供者回应同样或相似问题的结果。缓存数据平台未找到匹配的结果,则系统进行在线实时搜索,在和“酒店”相关的在线数据源中进行实时查询。在线实时查询返回一组结果,其中有一条:“10月28日入住,10月30日退房,杭州西湖四季酒店,标准间,298每晚”,用户认为该结果可以接受。
实例三,用户“天涯游子”提交查询请求:“10月28日入住,10月30日退房,杭州4星级标准间”,该问题类别为“酒店搜索”,关键词为“酒店”,查询条件为“入住日期10月28日”,“退房日期10月30日”,“标准间”,“杭州”。系统收到该查询后,立即开始在缓存数据平台搜索24小时之内由离线数据提供者回应同样或相似问题的结果。缓存数据平台未找到匹配的结果,则系统进行在线实时搜索,在和“酒店”相关的在线数据源中进行实时查询。在线实时查询返回一组结果,用户都不觉得满意,触发离线查询。系统离线查询模块收到用户请求,根据问题类别“酒店搜索”从离线数据提供者列表中定位一组或者全部与“酒店搜索”相关的离线数据提供者,并将查询条件“入住日期10月28日”,“退房日期10月30日”,“标准间”,“杭州”传送至这些离线数据提供者。在24小时之内接受离线提供者提交的报价结果并通知用户,用户通过客户端查看离线数据提供者返回的结果集和当时在线实时结果集,通过比较选取满意的结果。
可以理解的是,对本领域技术人员来说,对本发明的技术方案及发明构思加以等同替换或改变都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种通过离线查询提高在线实时搜索质量的方法,其特征在于:包括以下步骤:
步骤S1,系统接受用户查询请求;
步骤S2,通过数据缓存平台,搜索有效时间窗口内满足要求的结果集,如果有,排序后返回给用户;
步骤S3,如果未找到满足要求的结果,将请求送至在线数据实时查询平台,获取实时结果集并存入数据缓存平台;
步骤S4,实时结果集按照时间和关键值排序后返回给用户,用户如果从中找到满意结果,则完成;
步骤S5,如果没有满意结果, 从离线数据提供者集合中按分类选取一组或者全部, 将用户查询请求以及部分在线结果送出查询;
步骤S6,从数据提供者接收结果并存入数据缓存平台;
步骤S7,在用户可接受的时间窗口W2内,将数据提供者返回的结果和在线实时结果集合并,排序作为结果集,离线送给用户。
2.根据权利要求1所述的通过离线查询提高在线实时搜索质量的方法,其特征在于:步骤S2中所述的通过数据缓存平台,获取一定时间周期内满足要求的结果集包括:提取初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息;统计数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息;其中所述的缓存数据平台指的是在一定时间周期内被用户挑选为满意结果的查询和结果组合,超出时间周期的查询和结果组合会从数据缓存平台中自动清除。
3.根据权利要求1所述的通过离线查询提高在线实时搜索质量的方法,其特征在于:步骤S3所述的将查询请求送至在线数据实时查询平台包括:根据查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型,从在线实时查询平台中选择合适的在线数据源,进行在线实时搜索,并获取实时搜索结果集。
4.根据权利要求1所述的通过离线查询提高在线实时搜索质量的方法,其特征在于:步骤S4中所述的对在线实时搜索结果集按照时间和关键值排序包括:根据在线实时搜索结果集中结果的返回时间和结果值进行排序;排序后的结果集返回给用户,若用户从中选择了满意结果,则搜索完成。
5.根据权利要求1所述的通过离线查询提高在线实时搜索质量的方法,其特征在于:步骤S5中所述的从离线数据提供者集合中按分类选取一组或者全部的选择依据包括:初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的历史活跃度、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩。
6.根据权利要求1所述的通过离线查询提高在线实时搜索质量的方法,其特征在于:步骤S6中所述的从数据提供者接收结果包括:由用户设定时间作为从离线数据提供者接收查询结果的时间窗口;若用户未设定时间,则取系统默认值。
7.根据权利要求1所述的通过离线查询提高在线实时搜索质量的方法,其特征在于:步骤S7中所述的在用户可接受的时间窗口W2内,将数据提供者返回的结果和在线实时结果集合并,排序作为结果集,离线送给用户包括:在允许的时间窗口内接收到的离线查询结果和在在线实时查询结果集合并,并进行排序;排序依据包括:各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括:离线结果提供者的历史活跃度、离线结果提供者的历史数据提供成绩;排序后的结果,通过离线的方式送回给用户。
8.一种实现如权利要求1所述方法的通过离线查询提高在线实时搜索质量的系统,其特征在于:它包括:
触发模块(1),用于用户触发查询请求;
搜索模块一(2),用于从数据缓存平台搜索满足要求的结果集并排序; 
显示模块一(3),用于显示排好序的缓存结果集;
搜索模块二(4),用于搜索在线数据实时查询平台,获取实时结果集并排序;
显示模块二(5),用于显示排好序的实时结果集;
选择模块(6),用于选择一组或全部离线数据提供者作为查询的离线数据源;
传送模块(7),用于将查询请求传送至离线数据提供者,收集离线结果,将离线结果和在线实时结果合并后排序;
显示模块三(8),用于离线显示合并后的结果集;
存储模块(9),用于将离线结果集保存至数据缓存平台。
9.根据权利要求8所述的通过离线查询提高在线实时搜索质量的系统,其特征在于:所述的搜索模块一(2)还包括统计模块一(10),用于提取初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息;统计数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息;还包括排序模块一(11),用于根据统计成绩由高到低排列结果;所述的搜索模块二(4)还包括统计模块二(12),用于提取和统计查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型;所述的搜索模块二(4)还包括排序模块二(13),用于对实时搜索结果集根据结果的返回时间和结果值进行排序。
10.根据权利要求8所述的通过离线查询提高在线实时搜索质量的系统,其特征在于:所述的选择模块(6),还包括统计模块三(14),用于从离线数据提供者集合中按分类选取一组或者全部作为离线查询的源;统计依据包括:初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩;所述的传送模块(7)还包括排序模块三(15),用于对将离线数据提供者返回的结果集和在线实时搜索结果集所形成的合并结果集进行排序;排序依据包括:各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括:离线结果提供者的历史数据提供成绩。
CN2011104563308A 2011-12-30 2011-12-30 通过离线查询提高在线实时搜索质量的方法与系统 Pending CN102436510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104563308A CN102436510A (zh) 2011-12-30 2011-12-30 通过离线查询提高在线实时搜索质量的方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104563308A CN102436510A (zh) 2011-12-30 2011-12-30 通过离线查询提高在线实时搜索质量的方法与系统

Publications (1)

Publication Number Publication Date
CN102436510A true CN102436510A (zh) 2012-05-02

Family

ID=45984572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104563308A Pending CN102436510A (zh) 2011-12-30 2011-12-30 通过离线查询提高在线实时搜索质量的方法与系统

Country Status (1)

Country Link
CN (1) CN102436510A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915380A (zh) * 2012-11-19 2013-02-06 北京奇虎科技有限公司 用于对数据进行搜索的方法和系统
CN102930054A (zh) * 2012-11-19 2013-02-13 北京奇虎科技有限公司 数据搜索方法及系统
CN103218436A (zh) * 2013-04-17 2013-07-24 中国科学院自动化研究所 一种融合用户类别标签的相似问题检索方法及装置
CN103440302A (zh) * 2013-08-21 2013-12-11 广东电网公司电力调度控制中心 实时数据交换的方法和系统
CN103559307A (zh) * 2013-11-18 2014-02-05 中国农业银行股份有限公司 一种查询的缓存方法及装置
WO2014040521A1 (zh) * 2012-09-13 2014-03-20 腾讯科技(深圳)有限公司 搜索方法、系统及存储介质
CN103823805A (zh) * 2012-11-16 2014-05-28 腾讯科技(深圳)有限公司 基于社区的相关帖推荐系统及推荐方法
CN103870533A (zh) * 2013-12-12 2014-06-18 沈阳美行科技有限公司 一种导航设备的在线离线混合检索方法
CN104794225A (zh) * 2015-04-29 2015-07-22 无锡天脉聚源传媒科技有限公司 一种搜索处理方法及装置
CN104794216A (zh) * 2015-04-27 2015-07-22 无锡天脉聚源传媒科技有限公司 一种搜索结果排序方法及搜索结果排序装置
CN105897874A (zh) * 2016-04-01 2016-08-24 南京邮电大学 基于云计算技术的周边数据实时查询方法
CN106156135A (zh) * 2015-04-10 2016-11-23 华为技术有限公司 查询数据的方法及装置
CN106446170A (zh) * 2016-09-27 2017-02-22 努比亚技术有限公司 数据查询方法及装置
CN106503054A (zh) * 2016-09-26 2017-03-15 深圳市金立通信设备有限公司 一种数据查询方法及服务器
WO2018090338A1 (en) * 2016-11-18 2018-05-24 Google Inc. Autonomously providing search results post-facto, including in conversational assistant context
CN108959644A (zh) * 2018-07-27 2018-12-07 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN110609843A (zh) * 2019-09-24 2019-12-24 上海依图网络科技有限公司 一种通过合并不同数据来源提升检索召回率的方法及系统
CN110704402A (zh) * 2019-10-18 2020-01-17 广州趣丸网络科技有限公司 一种多数据源的数据分析系统、方法及设备
CN111666436A (zh) * 2019-03-07 2020-09-15 搜狗(杭州)智能科技有限公司 一种数据处理方法、装置和电子设备
CN112507199A (zh) * 2020-12-22 2021-03-16 北京百度网讯科技有限公司 用于对搜索系统进行优化的方法和装置
US11243955B2 (en) 2017-11-29 2022-02-08 International Business Machines Corporation Latent token representations for passage and answer scoring in question answering systems
US11971935B2 (en) 2022-01-10 2024-04-30 Google Llc Autonomously providing search results post-facto, including in assistant context

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020140715A1 (en) * 2000-08-07 2002-10-03 Smet Francis De Method for searching information on internet
CN1637744A (zh) * 2004-01-09 2005-07-13 微软公司 为在大量电子文档中搜索而确定文档相关性的机器学习方法
CN101405734A (zh) * 2006-01-23 2009-04-08 查查搜索公司 用于人工辅助挖掘和捕获精确结果的自动工具

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020140715A1 (en) * 2000-08-07 2002-10-03 Smet Francis De Method for searching information on internet
CN1637744A (zh) * 2004-01-09 2005-07-13 微软公司 为在大量电子文档中搜索而确定文档相关性的机器学习方法
CN101405734A (zh) * 2006-01-23 2009-04-08 查查搜索公司 用于人工辅助挖掘和捕获精确结果的自动工具

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014040521A1 (zh) * 2012-09-13 2014-03-20 腾讯科技(深圳)有限公司 搜索方法、系统及存储介质
CN103823805B (zh) * 2012-11-16 2018-10-19 腾讯科技(深圳)有限公司 基于社区的相关帖推荐系统及推荐方法
CN103823805A (zh) * 2012-11-16 2014-05-28 腾讯科技(深圳)有限公司 基于社区的相关帖推荐系统及推荐方法
CN102930054A (zh) * 2012-11-19 2013-02-13 北京奇虎科技有限公司 数据搜索方法及系统
CN102915380A (zh) * 2012-11-19 2013-02-06 北京奇虎科技有限公司 用于对数据进行搜索的方法和系统
CN103218436A (zh) * 2013-04-17 2013-07-24 中国科学院自动化研究所 一种融合用户类别标签的相似问题检索方法及装置
CN103218436B (zh) * 2013-04-17 2016-05-18 中国科学院自动化研究所 一种融合用户类别标签的相似问题检索方法及装置
CN103440302A (zh) * 2013-08-21 2013-12-11 广东电网公司电力调度控制中心 实时数据交换的方法和系统
CN103440302B (zh) * 2013-08-21 2016-06-08 广东电网公司电力调度控制中心 实时数据交换的方法和系统
CN103559307A (zh) * 2013-11-18 2014-02-05 中国农业银行股份有限公司 一种查询的缓存方法及装置
CN103870533A (zh) * 2013-12-12 2014-06-18 沈阳美行科技有限公司 一种导航设备的在线离线混合检索方法
CN106156135A (zh) * 2015-04-10 2016-11-23 华为技术有限公司 查询数据的方法及装置
CN104794216A (zh) * 2015-04-27 2015-07-22 无锡天脉聚源传媒科技有限公司 一种搜索结果排序方法及搜索结果排序装置
CN104794216B (zh) * 2015-04-27 2017-11-28 无锡天脉聚源传媒科技有限公司 一种搜索结果排序方法及搜索结果排序装置
CN104794225A (zh) * 2015-04-29 2015-07-22 无锡天脉聚源传媒科技有限公司 一种搜索处理方法及装置
CN104794225B (zh) * 2015-04-29 2018-08-24 无锡天脉聚源传媒科技有限公司 一种搜索处理方法及装置
CN105897874A (zh) * 2016-04-01 2016-08-24 南京邮电大学 基于云计算技术的周边数据实时查询方法
CN106503054A (zh) * 2016-09-26 2017-03-15 深圳市金立通信设备有限公司 一种数据查询方法及服务器
CN106446170A (zh) * 2016-09-27 2017-02-22 努比亚技术有限公司 数据查询方法及装置
WO2018090338A1 (en) * 2016-11-18 2018-05-24 Google Inc. Autonomously providing search results post-facto, including in conversational assistant context
US11238116B2 (en) 2016-11-18 2022-02-01 Google Llc Autonomously providing search results post-facto, including in assistant context
US11243955B2 (en) 2017-11-29 2022-02-08 International Business Machines Corporation Latent token representations for passage and answer scoring in question answering systems
CN108959644A (zh) * 2018-07-27 2018-12-07 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN108959644B (zh) * 2018-07-27 2020-04-14 北京字节跳动网络技术有限公司 搜索排序方法、装置、计算机设备和存储介质
US11194822B2 (en) 2018-07-27 2021-12-07 Tianjin Bytedance Technology Co., Ltd. Search ranking method and apparatus, electronic device and storage medium
CN111666436A (zh) * 2019-03-07 2020-09-15 搜狗(杭州)智能科技有限公司 一种数据处理方法、装置和电子设备
CN110609843A (zh) * 2019-09-24 2019-12-24 上海依图网络科技有限公司 一种通过合并不同数据来源提升检索召回率的方法及系统
CN110704402A (zh) * 2019-10-18 2020-01-17 广州趣丸网络科技有限公司 一种多数据源的数据分析系统、方法及设备
CN112507199A (zh) * 2020-12-22 2021-03-16 北京百度网讯科技有限公司 用于对搜索系统进行优化的方法和装置
US11971935B2 (en) 2022-01-10 2024-04-30 Google Llc Autonomously providing search results post-facto, including in assistant context

Similar Documents

Publication Publication Date Title
CN102436510A (zh) 通过离线查询提高在线实时搜索质量的方法与系统
CN102859516B (zh) 使用历史搜索结果生成改进的文档分类数据
Smyth A community-based approach to personalizing web search
CN101183364B (zh) 一种信息搜索方法、搜索引擎客户端/服务器及系统
US8468143B1 (en) System and method for directing questions to consultants through profile matching
US8645390B1 (en) Reordering search query results in accordance with search context specific predicted performance functions
US8447651B1 (en) Bidding on pending, query term-based advertising opportunities
US7831474B2 (en) System and method for associating an unvalued search term with a valued search term
AU2007236098B2 (en) Improved global distribution system for searching best travel deals
US20140108445A1 (en) System and Method for Personalizing Query Suggestions Based on User Interest Profile
CN107862553A (zh) 广告实时推荐方法、装置、终端设备及存储介质
US20100262607A1 (en) System and Method for Automatic Matching of Contracts to Impression Opportunities Using Complex Predicates and an Inverted Index
CN100507918C (zh) 一种网络关键资源页面的自动定位方法
CN107103027A (zh) 用于识别相关法律文件的系统、方法、和软件
CN105701216A (zh) 一种信息推送方法及装置
RU2008134151A (ru) Масштабируемая система поиска с использованием поисковых специалистов
US20070266306A1 (en) Site finding
WO2009046327A1 (en) Collaborative search results
CN101520784A (zh) 信息发布系统和信息发布方法
CN103488680A (zh) 建立搜索引擎的组合算符
US20100318427A1 (en) Enhancing database management by search, personal search, advertising, and databases analysis efficiently using core-set implementations
CN100414869C (zh) 一种互联网上实现资讯订阅的方法及系统
CN102214183A (zh) 按页面反馈内容与固定排名相结合的搜索引擎查询方法
KR20020025142A (ko) 키워드 광고 서비스를 위한 키워드 추천 시스템 및 방법
CN101997933A (zh) 一种网址提供方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120502