CN110362749A - 搜索结果召回方法、装置、服务器和介质 - Google Patents

搜索结果召回方法、装置、服务器和介质 Download PDF

Info

Publication number
CN110362749A
CN110362749A CN201910635670.3A CN201910635670A CN110362749A CN 110362749 A CN110362749 A CN 110362749A CN 201910635670 A CN201910635670 A CN 201910635670A CN 110362749 A CN110362749 A CN 110362749A
Authority
CN
China
Prior art keywords
search
prediction
result
click relationship
snippet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910635670.3A
Other languages
English (en)
Inventor
陈加钏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910635670.3A priority Critical patent/CN110362749A/zh
Publication of CN110362749A publication Critical patent/CN110362749A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种搜索结果召回方法、装置、服务器和介质。所述方法包括:从用户的历史搜索日志中,挖掘每一次搜索过程中用户输入过的各搜索片段与用户在本次搜索过程触发的搜索需求结果之间的点击关系;依据历史搜索日志,统计每一组点击关系发生的频次,并将频次满足预设频次阈值的至少一个点击关系作为预测点击关系进行存储;其中,预测点击关系用于与线上实时的目标搜索请求进行搜索片段匹配,以便将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为目标搜索请求的预测目标搜索结果召回。本发明实施例能够有效降低用户搜索时的输入成本,提高搜索效率,同时提升系统的召回率和产品的转化率。

Description

搜索结果召回方法、装置、服务器和介质
技术领域
本发明实施例涉及互联网技术,尤其涉及一种搜索结果召回方法、装置、服务器和介质。
背景技术
在现有的很多搜索场景下,例如地图应用中对POI的搜索场景,通常需要根据用户实时输入的片段对用户需求进行预测,以便缩短用户输入与查找的时间。而现有技术通常是采用前缀匹配来进行预测和召回,也就是说,基于用户输入片段的字面来进行实体匹配,因此,用户输入的片段越完整,预测和召回的结果才能越符合用户真实的需求。
然而,用户输入一个完整的检索词通常要经历一系列的过程,尤其是受到输入法的制约,经常会存在输错或误输入的情形,此时,如果按照现有技术中的字面匹配,则无法召回准确的用户需求,用户也需要对输入的片段进行反复纠正,才能搜到真实需求。这一过程中用户需要花费更大的代价来找到其需求,给用户造成了很大的输入成本,搜索时间长,搜索效率低。
发明内容
本发明实施例提供一种搜索结果召回方法、装置、服务器和介质,以解决用户使用搜索引擎时,因为输入法制约导致用户输错或误输入搜索词,从而需要进行反复纠正搜索词的搜索效率低的问题。
第一方面,本发明实施例提供了一种搜索结果召回方法,所述方法包括:
从用户的历史搜索日志中,挖掘每一次搜索过程中用户输入过的各搜索片段与触发的搜索需求结果之间的点击关系;
依据所述历史搜索日志,统计每一组点击关系发生的频次,并将频次满足预设频次阈值的至少一组点击关系作为预测点击关系进行存储;
其中,所述预测点击关系用于与线上实时的目标搜索请求进行搜索片段匹配,以便将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
第二方面,本发明实施例提供了一种搜索结果召回装置,所述装置包括:
点击关系获取模块,用于从用户的历史搜索日志中,挖掘每一次搜索过程中用户输入过的各搜索片段与触发的搜索需求结果之间的点击关系;
预测点击关系存储模块,用于依据所述历史搜索日志,统计每一组点击关系发生的频次,并将频次满足预设频次阈值的至少一组点击关系作为预测点击关系进行存储;
其中,所述预测点击关系用于与线上实时的目标搜索请求进行搜索片段匹配,以便将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
第三方面,本发明实施例提供了一种服务器,所述服务器还包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的一种搜索结果召回方法。
第四方面,本发明实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的一种搜索结果召回方法。
本发明实施例通过获取用户的历史搜索日志中搜索片段与搜索需求结果之间的点击关系,并将频次满足预设频次阈值的至少一个点击关系作为预测点击关系进行本地存储,当线上产生实时的目标搜索请求时,可先与本地存储的点击关系进行匹配,若能匹配上,则将相匹配的点击关系中的搜索需求结果作为当前实时的搜索请求的预测结果进行召回,从而有效降低用户搜索时的输入成本,提高搜索效率,同时提升系统的召回率和产品的转化率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例一提供的一种搜索结果召回方法的流程图;
图2为本发明实施例二提供的一种搜索结果召回方法的流程图;
图3为本发明实施例三提供的一种搜索结果召回装置的结构示意图;
图4为本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种搜索结果召回方法的流程图。本实施例适用于用户在搜索引擎中或者任一软件应用的搜索框中输入搜索词进行需求搜索的情况,该方法可以由本发明实施例提供的搜索结果召回装置来执行,该装置可以采用软件和/或硬件的方式实现,并可配置在服务器中。如图1所示,该方法可以包括:
S101、从用户的历史搜索日志中,挖掘每一次搜索过程中用户输入过的各搜索片段与触发的搜索需求结果之间的点击关系。
其中,用户的历史搜索日志是用来记录不同用户在历史搜索过程中涉及到的相关信息,例如用户的session日志。可选的包括搜索片段、搜索结果、搜索需求结果、搜索时间以及搜索耗时等等。搜索片段指的是用户完成搜索词输入所涉及的字符信息,例如用户在搜索引擎中,通过手写汉字输入搜索词“酒店”,那么对应的搜索片段为“酒”和“酒店”,又例如用户在搜索引擎中通过“拼音输入法”输入搜索词“酒店”,那么对应的搜索片段为“j”、“ji”、“jiu”、“jiud”、“jiudi”、“jiudia”以及“jiudian”。用户每输入一个搜索片段,即向服务器发出一次搜索请求,服务器就会根据搜索请求反馈给用户与输入搜索片段相关的搜索结果,如果用户对于某个搜索结果触发了点击操作,则该搜索结果即为搜索需求结果。
通过获取搜索片段与触发的搜索需求结果之间的点击关系,确定了用户输入的每个搜索片段对应的搜索需求结果,为后续存储预测点击关系奠定了数据基础。
S102、依据所述历史搜索日志,统计每一组点击关系发生的频次,并将频次满足预设频次阈值的至少一组点击关系作为预测点击关系进行存储。
其中,预设频次阈值可以根据用户使用搜索引擎的频率来自行设定,可选的,预设频次阈值与用户使用搜索引擎的频率成正比,即用户使用搜索引擎的频率越高,则对应预设频次阈值就越高,相应的,用户使用搜索引擎的频率越低,则对应预设频次阈值就越低。所述预测点击关系用于与线上实时的目标搜索请求进行搜索片段匹配,以便将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
可选的,所述预测点击关系中的搜索片段与搜索需求结果是以键值对的方式存储在缓存。
其中,键值对表示key(键)与value(值)的对应关系,例如搜索片段“dishini”、“迪士尼”以及“迪士尼xz”在预测点击关系中的搜索需求结果都为“迪士尼小镇”,则搜索片段“dishini”、“迪士尼”以及“迪士尼xz”即为key1、key2以及key3,对应的“迪士尼小镇”即为value。
通过将满足预设频次阈值的至少一组点击关系作为预测点击关系进行存储,为后续当线上产生实时的目标搜索请求时,可先与本地存储的预测点击关系进行匹配奠定了数据基础。
本发明实施例提供的技术方案,通过获取用户的历史搜索日志中搜索片段与搜索需求结果之间的点击关系,并将频次满足预设频次阈值的至少一个点击关系作为预测点击关系进行本地存储,当线上产生实时的目标搜索请求时,可先与本地存储的预测点击关系进行匹配,若能匹配上,则将相匹配的预测点击关系中的搜索需求结果作为当前实时的搜索请求的预测结果进行召回,从而有效的降低用户输入成本,提升系统的召回,极大的提升产品的转化率。
在上述实施例一的基础上,S102之后还包括:
A、获取线上实时的目标搜索请求,其中,所述目标搜索请求中包含目标搜索片段;
B、将所述目标搜索片段与所述预测点击关系中的搜索片段进行匹配,并将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
具体的,将目标搜索片段作为关键词,在存储的预测点击关系中的搜索片段中进行关键词搜索,将与关键词完全相同的搜索片段,作为与目标搜索片段相匹配的搜索片段,并将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果,进而将预测目标搜索结果反馈给用户。
通过将获取的线上实时的目标搜索请求中的目标搜索片段与预测点击关系中的搜索片段进行匹配,并将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为目标搜索请求的预测目标搜索结果召回,实现了在用户输入成本较低的前提下,为用户召回准确的搜索结果。
实施例二
图2为本发明实施例二提供的一种搜索结果召回方法的流程图。本实施例为上述实施例提供了一种具体实现方式,如图2所示,该方法可以包括:
S201、从用户的历史搜索日志中,挖掘每一次搜索过程中用户输入过的各搜索片段与触发的搜索需求结果之间的点击关系。
示例性的,用户输入搜索片段“kouqiang”,得到多个搜索结果,而用户对于搜索结果“口腔医院”触发了点击操作,则“口腔医院”即为搜索需求结果,搜索片段“kouqiang”与搜索需求结果“口腔医院”即为一组点击关系。
示例性的,用户输入搜索片段“kou”,得到多个搜索结果,而用户对于搜索结果“口腔医院”触发了点击操作,则“口腔医院”即为搜索需求结果,搜索片段“kou”与搜索需求结果“口腔医院”即为一组点击关系。
具体的,不同搜索片段可能与同一个搜索需求结果存在点击关系,也可能与不同搜索需求结果存在点击关系;相应的,一个搜索片段可能与一个搜索需求结果存在点击关系,也可能与多个搜索需求结果存在点击关系。
S202、依据所述历史搜索日志,统计每一组点击关系发生的频次,并将频次满足预设频次阈值的至少一组点击关系作为预测点击关系。
示例性的,搜索片段“迪士尼”分别与搜索需求结果“迪士尼小镇”、“迪士尼乐园”和“迪士尼电影”存在点击关系,预设频次阈值设置为10次,而搜索片段“迪士尼”与搜索需求结果“迪士尼小镇”的点击关系发生频次为8次,与搜索需求结果“迪士尼乐园”的点击关系发生频次为16次,与搜索需求结果“迪士尼电影”的点击关系发生频次为11次,则搜索片段“迪士尼”与搜索需求结果“迪士尼乐园”为一组预测点击关系,且搜索片段“迪士尼”与搜索需求结果“迪士尼电影”也为一组预测点击关系。
S203、针对每一组预测点击关系中的搜索片段,利用泛化技术进行泛化,得到各搜索片段对应的至少一个泛化片段。
其中,泛化技术是将本适用于个别事物的词义演变到用于一般事物,同时保留专有意义。例如对“口腔医院”进行泛化得到“口腔”和“医院”两个泛化片段;又例如“迪士尼小镇”进行泛化得到“迪士尼”和“小镇”两个泛化片段。
为了保证泛化片段能够尽量体现所属搜索片段的词义,S203可选的包括:
A、针对每一组预测点击关系中的搜索片段进行分词,得到分词集合。
具体的,通过包括分词算法来对每一组预测点击关系中的搜索片段进行分词。
B、对所述分词集合进行关键词识别,将所述分词集合中存在的至少一个关键词作为各搜索片段对应的至少一个泛化片段。
可选的,通过包括自然语言处理技术对分词集合进行关键词识别,将分词集合中存在的至少一个关键词作为各搜索片段对应的至少一个泛化片段。
可选的,关键词包括实体名词。
示例性的,搜索片段“迪士尼xz”的分词结果为“迪士尼”和“xz”,通过自然语言处理技术识别到“迪士尼”为实体名词,则将“迪士尼”作为“迪士尼xz”对应的至少一个泛化片段。
通过利用泛化技术得到各搜索片段对应的至少一个泛化片段,为后续组成新的预测点击关系进行存储奠定了数据基础。
S204、将每个泛化片段与其对应的搜索片段所在的预测点击关系中的搜索需求结果组成新的预测点击关系进行存储。
示例性的,搜索片段“北京市kq”与搜索需求结果“北京市口腔医院”是一组预测点击关系,而“北京市kq”对应的泛化片段为“北京市”和“kq”,则泛化片段“北京市”和“kq”与搜索需求结果“北京市口腔医院”组成新的预测点击关系进行存储。
示例性的,搜索片段“口腔医院”与搜索需求结果“北京市口腔医院”是一组预测点击关系,而“口腔医院”对应的泛化片段为“口腔”和“医院”,则泛化片段“口腔”和“医院”与搜索需求结果“北京市口腔医院”组成新的预测点击关系进行存储。
示例性的,搜索片段“迪士尼xz”与搜索需求结果“迪士尼小镇”是一组预测点击关系,而“迪士尼xz”对应的泛化片段为“迪士尼”和“xz”,则泛化片段“迪士尼”和“xz”与搜索需求结果“迪士尼小镇”组成新的预测点击关系进行存储。
通过将每个泛化片段与其对应的搜索片段所在的预测点击关系中的搜索需求结果组成新的预测点击关系进行存储,增加了用户输入的目标搜索片段与存储的新的预测点击关系的匹配概率,相应的增加了搜索需求结果的召回率,提高了搜索效率。
S205、获取线上实时的目标搜索请求,其中,所述目标搜索请求中包含目标搜索片段。
S206、将所述目标搜索片段与所述新的预测点击关系中的搜索片段进行匹配,并将相匹配的搜索片段所在的新的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
示例性的,目标搜索片段为“dishini”,则将“dishini”作为关键词在存储的新的预测点击关系中的搜索片段中进行搜索,若匹配到新的预测点击关系中的搜索片段“dishini”对应的搜索需求结果为“迪士尼小镇”,则将“迪士尼小镇”作为目标搜索请求“dishini”的预测目标搜索结果反馈给用户。
本发明实施例提供的技术方案,通过获取用户的历史搜索日志中搜索片段与搜索需求结果之间的点击关系,并对每一组预测点击关系中的搜索片段,利用泛化技术进行泛化,将每个泛化片段与其对应的搜索片段所在的预测点击关系中的搜索需求结果组成新的预测点击关系进行存储,增加了用户输入的目标搜索片段与存储的新的预测点击关系的匹配概率,相应的增加了搜索需求结果的召回率,提高了用户体验;通过当线上产生实时的目标搜索请求时,可先与本地存储的新的预测点击关系进行匹配,若能匹配上,则将相匹配的新的预测点击关系中的搜索需求结果作为当前实时的搜索请求的预测结果进行召回,从而有效的降低用户搜索时的输入成本,提高搜索效率,同时提升系统的召回率和产品的转化率。
实施例三
图3为本发明实施例三提供的一种搜索结果召回装置的结构示意图,可执行本发明任一实施例所提供的一种搜索结果召回方法,具备执行方法相应的功能模块和有益效果。如图3所示,该装置可以包括:
点击关系获取模块31,用于从用户的历史搜索日志中,挖掘每一次搜索过程中用户输入过的各搜索片段与触发的搜索需求结果之间的点击关系;
预测点击关系存储模块32,用于依据所述历史搜索日志,统计每一组点击关系发生的频次,并将频次满足预设频次阈值的至少一组点击关系作为预测点击关系进行存储;
其中,所述预测点击关系用于与线上实时的目标搜索请求进行搜索片段匹配,以便将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
在上述实施例的基础上,所述装置还包括搜索片段泛化模块,具体用于:
针对每一组预测点击关系中的搜索片段,利用泛化技术进行泛化,得到各搜索片段对应的至少一个泛化片段;
将每个泛化片段与其对应的搜索片段所在的预测点击关系中的搜索需求结果组成新的预测点击关系进行存储。
在上述实施例的基础上,所述搜索片段泛化模块,包括:
分词单元,用于针对每一组预测点击关系中的搜索片段进行分词,得到分词集合;
关键词识别单元,用于对所述分词集合进行关键词识别,将所述分词集合中存在的至少一个关键词作为各搜索片段对应的至少一个泛化片段;
组合单元,用于将每个泛化片段与其对应的搜索片段所在的预测点击关系中的搜索需求结果组成新的预测点击关系进行存储。
在上述实施例的基础上,所述预测点击关系中的搜索片段与搜索需求结果是以键值对的方式存储在缓存。
在上述实施例的基础上,装置还包括预测目标搜索结果召回模块,具体用于:
获取线上实时的目标搜索请求,其中,所述目标搜索请求中包含目标搜索片段;
将所述目标搜索片段与所述预测点击关系中的搜索片段进行匹配,并将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
本发明实施例所提供的一种搜索结果召回装置,可执行本发明任一实施例所提供的一种搜索结果召回方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任一实施例提供的一种搜索结果召回方法。
实施例四
图4为本发明实施例四提供的一种服务器的结构示意图。图4示出了适于用来实现本发明实施方式的示例性服务器400的框图。图4显示的服务器400仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,服务器400以通用计算服务器的形式表现。服务器400的组件可以包括但不限于:一个或者多个处理器或者处理单元401,系统存储器402,连接不同系统组件(包括系统存储器402和处理单元401)的总线403。
总线403表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器400典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器400访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器402可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)404和/或高速缓存存储器405。服务器400可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统406可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块407的程序/实用工具408,可以存储在例如存储器402中,这样的程序模块407包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。
服务器400也可以与一个或多个外部服务器409(例如键盘、指向服务器、显示器410等)通信,还可与一个或者多个使得用户能与该服务器400交互的服务器通信,和/或与使得该服务器400能与一个或多个其它计算服务器进行通信的任何服务器(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且,服务器400还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器412通过总线403与服务器400的其它模块通信。应当明白,尽管图中未示出,可以结合服务器400使用其它硬件和/或软件模块,包括但不限于:微代码、服务器驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元401通过运行存储在系统存储器402中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的搜索结果召回方法,包括:
从用户的历史搜索日志中,挖掘每一次搜索过程中用户输入过的各搜索片段与触发的搜索需求结果之间的点击关系;
依据所述历史搜索日志,统计每一组点击关系发生的频次,并将频次满足预设频次阈值的至少一组点击关系作为预测点击关系进行存储;
其中,所述预测点击关系用于与线上实时的目标搜索请求进行搜索片段匹配,以便将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种搜索结果召回方法,该方法包括:
从用户的历史搜索日志中,挖掘每一次搜索过程中用户输入过的各搜索片段与触发的搜索需求结果之间的点击关系;
依据所述历史搜索日志,统计每一组点击关系发生的频次,并将频次满足预设频次阈值的至少一组点击关系作为预测点击关系进行存储;
其中,所述预测点击关系用于与线上实时的目标搜索请求进行搜索片段匹配,以便将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种搜索结果召回方法中的相关操作。本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种搜索结果召回方法,其特征在于,所述方法包括:
从用户的历史搜索日志中,挖掘每一次搜索过程中用户输入过的各搜索片段与触发的搜索需求结果之间的点击关系;
依据所述历史搜索日志,统计每一组点击关系发生的频次,并将频次满足预设频次阈值的至少一组点击关系作为预测点击关系进行存储;
其中,所述预测点击关系用于与线上实时的目标搜索请求进行搜索片段匹配,以便将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对每一组预测点击关系中的搜索片段,利用泛化技术进行泛化,得到各搜索片段对应的至少一个泛化片段;
将每个泛化片段与其对应的搜索片段所在的预测点击关系中的搜索需求结果组成新的预测点击关系进行存储。
3.根据权利要求2所述的方法,其特征在于,所述针对每一组预测点击关系中的搜索片段,利用泛化技术进行泛化,得到各搜索片段对应的至少一个泛化片段,包括:
针对每一组预测点击关系中的搜索片段进行分词,得到分词集合;
对所述分词集合进行关键词识别,将所述分词集合中存在的至少一个关键词作为各搜索片段对应的至少一个泛化片段。
4.根据权利要求1所述的方法,其特征在于,所述预测点击关系中的搜索片段与搜索需求结果是以键值对的方式存储在缓存。
5.根据权利要求1所述的方法,其特征在于,所述将频次满足预设频次阈值的至少一个点击关系作为预测点击关系进行存储之后,还包括:
获取线上实时的目标搜索请求,其中,所述目标搜索请求中包含目标搜索片段;
将所述目标搜索片段与所述预测点击关系中的搜索片段进行匹配,并将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
6.一种搜索结果召回装置,其特征在于,所述装置包括:
点击关系获取模块,用于从用户的历史搜索日志中,挖掘每一次搜索过程中用户输入过的各搜索片段与触发的搜索需求结果之间的点击关系;
预测点击关系存储模块,用于依据所述历史搜索日志,统计每一组点击关系发生的频次,并将频次满足预设频次阈值的至少一组点击关系作为预测点击关系进行存储;
其中,所述预测点击关系用于与线上实时的目标搜索请求进行搜索片段匹配,以便将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括搜索片段泛化模块,具体用于:
针对每一组预测点击关系中的搜索片段,利用泛化技术进行泛化,得到各搜索片段对应的至少一个泛化片段;
将每个泛化片段与其对应的搜索片段所在的预测点击关系中的搜索需求结果组成新的预测点击关系进行存储。
8.根据权利要求7所述的装置,其特征在于,所述搜索片段泛化模块,包括:
分词单元,用于针对每一组预测点击关系中的搜索片段进行分词,得到分词集合;
关键词识别单元,用于对所述分词集合进行关键词识别,将所述分词集合中存在的至少一个关键词作为各搜索片段对应的至少一个泛化片段;
组合单元,用于将每个泛化片段与其对应的搜索片段所在的预测点击关系中的搜索需求结果组成新的预测点击关系进行存储。
9.根据权利要求6所述的装置,其特征在于,所述预测点击关系中的搜索片段与搜索需求结果是以键值对的方式存储在缓存。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括预测目标搜索结果召回模块,具体用于:
获取线上实时的目标搜索请求,其中,所述目标搜索请求中包含目标搜索片段;
将所述目标搜索片段与所述预测点击关系中的搜索片段进行匹配,并将相匹配的搜索片段所在的预测点击关系中的搜索需求结果,作为所述目标搜索请求的预测目标搜索结果召回。
11.一种服务器,其特征在于,所述服务器还包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的搜索结果召回方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的搜索结果召回方法。
CN201910635670.3A 2019-07-15 2019-07-15 搜索结果召回方法、装置、服务器和介质 Pending CN110362749A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910635670.3A CN110362749A (zh) 2019-07-15 2019-07-15 搜索结果召回方法、装置、服务器和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910635670.3A CN110362749A (zh) 2019-07-15 2019-07-15 搜索结果召回方法、装置、服务器和介质

Publications (1)

Publication Number Publication Date
CN110362749A true CN110362749A (zh) 2019-10-22

Family

ID=68219230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910635670.3A Pending CN110362749A (zh) 2019-07-15 2019-07-15 搜索结果召回方法、装置、服务器和介质

Country Status (1)

Country Link
CN (1) CN110362749A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111045836A (zh) * 2019-11-25 2020-04-21 三角兽(北京)科技有限公司 搜索方法、装置、电子设备及计算机可读存储介质
CN111767477A (zh) * 2020-06-19 2020-10-13 北京百度网讯科技有限公司 一种检索方法、装置、电子设备和存储介质
CN112651566A (zh) * 2020-12-30 2021-04-13 湖南虹康规划勘测咨询有限公司 全域土地综合整治评价分析方法、存储介质、终端及系统
CN113158091A (zh) * 2021-03-24 2021-07-23 北京奇艺世纪科技有限公司 一种召回方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844744A (zh) * 2017-02-15 2017-06-13 腾讯科技(深圳)有限公司 点击模型应用方法、装置及搜索系统
CN108694440A (zh) * 2018-05-14 2018-10-23 南京邮电大学 一种实时搜索在线泛化方法
US10282359B1 (en) * 2018-03-30 2019-05-07 Atlassian Pty Ltd Search based on group relevance
CN109948014A (zh) * 2017-08-24 2019-06-28 阿里巴巴集团控股有限公司 一种搜索方法和服务器
CN109992689A (zh) * 2019-03-26 2019-07-09 华为技术有限公司 搜索方法、终端及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844744A (zh) * 2017-02-15 2017-06-13 腾讯科技(深圳)有限公司 点击模型应用方法、装置及搜索系统
CN109948014A (zh) * 2017-08-24 2019-06-28 阿里巴巴集团控股有限公司 一种搜索方法和服务器
US10282359B1 (en) * 2018-03-30 2019-05-07 Atlassian Pty Ltd Search based on group relevance
CN108694440A (zh) * 2018-05-14 2018-10-23 南京邮电大学 一种实时搜索在线泛化方法
CN109992689A (zh) * 2019-03-26 2019-07-09 华为技术有限公司 搜索方法、终端及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
青岛英谷教育科技股份有限公司: "《云计算与大数据概论》", 31 October 2017, 西安电子科技大学出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111045836A (zh) * 2019-11-25 2020-04-21 三角兽(北京)科技有限公司 搜索方法、装置、电子设备及计算机可读存储介质
CN111045836B (zh) * 2019-11-25 2023-05-09 腾讯科技(深圳)有限公司 搜索方法、装置、电子设备及计算机可读存储介质
CN111767477A (zh) * 2020-06-19 2020-10-13 北京百度网讯科技有限公司 一种检索方法、装置、电子设备和存储介质
CN111767477B (zh) * 2020-06-19 2023-07-28 北京百度网讯科技有限公司 一种检索方法、装置、电子设备和存储介质
CN112651566A (zh) * 2020-12-30 2021-04-13 湖南虹康规划勘测咨询有限公司 全域土地综合整治评价分析方法、存储介质、终端及系统
CN113158091A (zh) * 2021-03-24 2021-07-23 北京奇艺世纪科技有限公司 一种召回方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110362749A (zh) 搜索结果召回方法、装置、服务器和介质
CN108170792B (zh) 基于人工智能的问答引导方法、装置和计算机设备
US10592532B2 (en) Database sharding
CN107656913A (zh) 地图兴趣点地址提取方法、装置、服务器和存储介质
CN108491373A (zh) 一种实体识别方法及系统
US10755052B2 (en) Semantic disambiguation method, device, server and storage medium
US10838963B2 (en) Optimized access for hierarchical low cardinality value synopsis in analytical databases
CN108509569A (zh) 企业画像的生成方法、装置、电子设备以及存储介质
US20230334880A1 (en) Hot word extraction method and apparatus, electronic device, and medium
US20220027575A1 (en) Method of predicting emotional style of dialogue, electronic device, and storage medium
CN109343926A (zh) 应用程序图标的显示方法、装置、终端和存储介质
CN107861948A (zh) 一种标签提取方法、装置、设备和介质
CN111694866A (zh) 数据搜索及存储方法、数据搜索系统、装置、设备及介质
KR20230007268A (ko) 임무 처리 방법, 임무 처리 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
US11423219B2 (en) Generation and population of new application document utilizing historical application documents
CN110688434A (zh) 一种兴趣点处理方法、装置、设备和介质
CN113688193A (zh) 轨迹数据的存储与索引方法、装置、电子设备及可读介质
CN114678137A (zh) 基于数字化医疗的大数据挖掘方法及服务器
JP7241122B2 (ja) スマート応答方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN110175128A (zh) 一种相似代码案例获取方法、装置、设备和存储介质
CN114385891B (zh) 数据搜索方法、装置、电子设备及存储介质
CN110515758A (zh) 一种故障定位方法、装置、计算机设备及存储介质
CN113672154B (zh) 页面交互方法、介质、装置和计算设备
CN110110099A (zh) 一种多媒体文件检索方法及装置
US20220083918A1 (en) Intelligent scoring of missing data records

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191022