CN103425650A - 推荐搜索方法和系统 - Google Patents

推荐搜索方法和系统 Download PDF

Info

Publication number
CN103425650A
CN103425650A CN2012101500867A CN201210150086A CN103425650A CN 103425650 A CN103425650 A CN 103425650A CN 2012101500867 A CN2012101500867 A CN 2012101500867A CN 201210150086 A CN201210150086 A CN 201210150086A CN 103425650 A CN103425650 A CN 103425650A
Authority
CN
China
Prior art keywords
entry
identify label
historical
record
click
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101500867A
Other languages
English (en)
Other versions
CN103425650B (zh
Inventor
孙国政
陈洪亮
肖战勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210150086.7A priority Critical patent/CN103425650B/zh
Publication of CN103425650A publication Critical patent/CN103425650A/zh
Application granted granted Critical
Publication of CN103425650B publication Critical patent/CN103425650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种推荐搜索方法和系统。所述方法包括:通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;根据所述相似度估算关键词对应的条目点击记录的评分;按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。所述系统包括:触发推荐模块、处理模块、估算模块以及结果推荐模块。采用本发明提高了搜索的准确性。

Description

推荐搜索方法和系统
技术领域
本发明涉及互联网技术,特别是涉及一种推荐搜索方法和系统。
背景技术
随着互联网技术的发展,互联网用户对信息的获取需求越来越多,网络搜索技术占据了越来越重要的地位。网络搜索技术根据用户输入的关键词对互联网中的所有网络资源进行搜索,并向用户返回符合搜索意图的搜索结果。
然而,用户进行搜索的过程中,符合搜索意图的搜索结果常常会被返回的大量网络资源淹没,无法在短时间内从大量的网络资源中查找到符合搜索意图的搜索结果。因此,为提高搜索效率,通过输入的关键词以及搜索页面中搜索结果的点击提取用于描述用户兴趣或者搜索意图的关键词,并根据提取的关键词生成该用户的属性信息。
拥有属性信息的用户进行搜索时,任一关键词所生成的大量搜索结果将通过属性信息进行过滤,以得到与属性信息中的关键词相似度较高的结果,进而将这些过滤得到的结果优先向用户展示。但是,属性信息中的关键词未必与用户搜索意图相符,用户对通过属性信息过滤得到的结果不满意的情况时有发生,此时,还将继续提取关键词更新属性信息,因此,用户继续进行关键词搜索并通过属性信息过滤所得到的搜索结果也将是与搜索意图不相符的,这一对搜索结果过滤的方式缺乏准确性,无法满足用户的需求。
发明内容
基于此,有必要提供一种能提高搜索准确性的推荐搜索方法。
此外,还有必要提供一种能提高搜索准确性的推荐搜索系统。
一种推荐搜索方法,包括如下步骤:
通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;
查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;
根据所述相似度估算关键词对应的条目点击记录的评分;
按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。
在其中一个实施例中,所述查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度的步骤之前还包括:
获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识;
将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立所述关键词中历史身份标识与条目点击记录之间的对应关系。
在其中一个实施例中,所述查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度的步骤为:
在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识;
分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度;
根据所述关注度进行运算得到所述历史身份标识和当前客户端身份标识之间的相似度。
在其中一个实施例中,所述根据所述相似度估算关键词对应的条目点击记录的评分的步骤为:
根据所述历史身份标识对查找得到的条目点击记录的关注度以及所述当前客户端身份标识和历史身份标识之间的相似度计算得到与所述关注度对应的条目点击记录的评分。
在其中一个实施例中,所述获取历史身份标识对条目点击记录的关注度的步骤之后还包括:
判断所述关注度是否为常数,若是,则统计所述关键词对应的条目点击记录的点击频率;
根据所述点击频率调整所述历史身份标识的关注度。
一种推荐搜索系统,包括:
触发推荐模块,用于通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;
处理模块,用于查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;
估算模块,用于根据所述相似度估算关键词对应的条目点击记录的评分;
结果推荐模块,用于按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。
在其中一个实施例中,还包括:
点击获取模块,用于获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识;
存储模块,用于将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立所述关键词中历史身份标识与条目点击记录之间的对应关系。
在其中一个实施例中,所述处理模块包括:
查找单元,用于在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识;
第一关注度获取单元,用于分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度;
相似度运算单元,用于根据所述关注度进行运算得到所述历史身份标识和当前客户端身份标识之间的相似度。
在其中一个实施例中,所述估算模块还根据所述历史身份标识对查找得到的条目点击记录的关注度以及所述当前客户端身份标识和历史身份标识之间的相似度计算得到与所述关注度对应的条目点击记录的评分。
在其中一个实施例中,所述估算模块还包括:
判断单元,用于判断所述关注度是否为常数,若是,则统计所述关键词对应的条目点击记录的点击频率;
调整单元,用于根据所述点击频率调整所述历史身份标识的关注度。
上述推荐搜索方法和系统,在通过关键词进行搜索的过程中用户点击任一搜索条目触发获取当前客户端身份标识以及该关键词对应的条目点击记录,在关键词对应的条目点击记录中得到与点击的搜索条目相同的条目点击记录所对应的历史身份标识,计算历史身份标识和当前客户端身份标识之间的相似度,进而根据相似度估算出关键词的搜索条目对应的评分,按照评分进行推荐,在这一推荐搜索的过程中,通过相似度得到相似的用户,根据这些相似用户对搜索条目关注度进行推荐,提高了搜索的准确性,挖掘用户的意图,使返回的搜索条目更好地满足用户的需求。
附图说明
图1为一个实施例中推荐搜索方法的流程图;
图2为另一个实施例中推荐搜索方法的流程图;
图3为一个实施例中查找与点击的搜索条目相同的条目点击记录,根据条目点击记录得到对应的历史身份标识,并计算历史身份标识和当前客户端身份标识之间的相似度的方法流程图;
图4为一个实施例中根据相似度估算搜索条目的评分的方法流程图;
图5为一个实施例中推荐搜索系统的结构示意图;
图6为另一个实施例中推荐搜索系统的结构示意图;
图7为一个实施例中处理模块的结构示意图;
图8为一个实施例中估算模块的结构示意图。
具体实施方式
如图1所示,在一个实施例中,一种推荐搜索方法,包括如下步骤:
步骤S110,通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录。
本实施例中,在搜索页面中通过用户输入的任一关键词得到一搜索结果,该搜索结果包括若干个搜索条目。用户点击任一搜索条目都将触发根据该搜索条目所进行的搜索结果推荐。例如,推荐的搜索结果包括与用户点击的搜索条目相关的一个或者多个搜索条目。此时将获取当前客户端身份标识以及后台存储的日志中关键词对应的条目点击记录,该关键词为当前搜索页面中用户输入的关键词。当前客户端身份标识用于对客户端进行唯一标识,可以是客户端产生的cookie或者客户端所在的网络地址,即客户端当前所对应的ip地址。
具体的,条目点击记录是搜索页面中对用户点击一搜索条目所产生的历史记录,用于记载一关键词所对应的搜索结果中用户曾点击的搜索条目,换而言之,条目点击记录中以网络链接的形式存储了用户曾点击的搜索条目,在后台存储的日志中条目点击记录是按照关键词进行分类存储的,即关键词是与相应的条目点击记录存在映射关系的。
在另一个实施例中,获取搜索页面中输入的关键词对应的一搜索条目点击记录之前,还将对关键词进行语义分析得到该关键词的同义词;相应的,在获取关键词对应的条目点击记录时,还将获取该同义词所对应的条目点击记录。本实施例中,将同义词所对应的条目点击记录纳入搜索过程中推荐条目点击记录的范围,丰富推荐的条目点击记录,明显提高了搜索推荐的多样性。
步骤S130,查找与点击的搜索条目相同的条目点击记录,根据条目点击记录得到对应的历史身份标识,并计算历史身份标识和当前客户端身份标识之间的相似度。
本实施例中,后台存储的日志中除了存储关键词与条目点击记录之间的对应关系之后,还存储了条目点击记录和历史身份标识之间的对应关系。其中,历史身份标识为曾产生该条目点击记录的当前客户端身份标识,一旦客户端中发生了某一搜索条目的点击之后,该搜索条目被存储为输入的关键词对应的条目点击记录,当前客户端身份标识也被存储为历史身份标识,并与条目点击记录对应。
进一步的,在当前客户端的搜索页面中存在着多个搜索条目,以供用户点击并查看;在发生了搜索条目的点击之后,被点击的搜索条目和当前客户端身份标识分别被存储为条目点击记录和历史身份标识。因此,存储的每一条目点击记录对应了多个历史身份标识,而每一历史身份标识又对应了其它条目点击记录,也就是说,每一历史身份标识对应了多个条目点击记录。
根据点击的搜索条目得到拥有与点击的搜索条目相同的条目点击记录的历史身份标识,其中,该条目点击记录可以是一个或者多个。通过与当前客户端身份标识所对应点击的搜索条目相同的条目点击记录进行分析得到当前客户端身份标识和历史身份标识之间的相似度,该相似度可用于表征当前客户端身份标识和历史身份标识所对应的两个用户之间兴趣、喜好等方面的相似程度。具体的,相似度的计算可以通过余弦相似性、皮尔森系数、调整余弦相似性等方法实现。
如图2所示,在另一个实施例中,上述步骤S130之前还包括如下步骤:
步骤S210,获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识。
本实施例中,在搜索页面的搜索结果中发生点击行为时获取点击的搜索条目,以及当前客户端身份标识。
步骤S230,将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立关键词中历史身份标识与条目点击记录之间的对应关系。
本实施例中,对任一搜索页面中发生的搜索条目点击行为均生成相应的日志进行存储。具体的,获取客户端的搜索页面中用户点击的搜索条目以及当前客户端身份标识之后将当前客户端身份标识以及点击的搜索条目按照关键词生成日志中的历史身份标识及条目点击记录,并将历史身份标识与条目点击记录进行关联,形成对应关系。
在日志中,每一关键词与多个条目点击记录相对应,而每一个条目点击记录也与多个历史身份标识存在着对应关系,用于表示进行了该关键词搜索的历史身份标识以及点击的搜索条目。
如图3所示,在一个实施例中,上述步骤S130的具体过程为:
步骤S131,在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识。
本实施例中,根据当前客户端身份标识所对应的搜索条目在关键词中历史身份标识与条目点击记录之间的对应关系查找与搜索条目相同的历史身份标识。
在另一个实施例中,上述查找到与点击的搜索条目相同的条目点击记录对应的历史身份标识的步骤之后还包括:判断所述查找得到的历史身份标识对应的条目点击记录数量是否小于阈值,若是,则清除所述历史身份标识以及对应的条目点击记录,若否,则进入步骤S133。
本实施例中,若判断到查找得到的历史身份标识对应的条目点击记录数量小于阈值,则说明在对关键词进行搜索的过程中产生的点击行为过少,可忽略不计,以减少数据处理的数量。
步骤S133,分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度。
本实施例中,关注度是当前客户端身份标识或历史身份标识所对应的用户对某一条目点击记录的关注程度,在与当前客户端身份标识对应的点击的搜索条目或历史身份标识对应的条目点击都将对应了相应的关注度,例如,以条目点击记录为统计对象,计算出条目点击记录在关键词搜索过程中点击频次的加权和即为关注度。
步骤S135,根据关注度进行运算得到历史身份标识和当前客户端身份标识之间的相似度。
本实施例中,通过历史身份标识对与点击的搜索条目相同的条目点击记录的关注度和身份标识对该点击的搜索条目的关注度计算历史身份标识和当前客户端身份标识之间的相似度,详细计算过程如以下公式所示:
sim ( a , u ) = Σ i ∈ I r a , i r u , i Σ i ∈ I r a , i 2 Σ i ∈ I r u , i 2
其中,sim(a,u)为当前客户端身份标识a和历史身份标识u之间的相似度,i为当前客户端身份标识和历史身份标识之间与点击的搜索条目相同的条目点击记录,I为与点击的搜索条目相同的条目点击记录的集合,ra,i为当前客户端身份标识a对相同条目点击记录i的关注度,ru,i为当前客户端身份标识u对与点击的搜索条目相同的条目点击记录i的关注度。
步骤S150,根据相似度估算搜索条目的评分。
本实施例中,在得到当前客户端身份标识和历史身份标识之间的相似度之后,在历史身份标识对应的条目点击记录中通过相似度以及关注度,估算历史身份标识对应的条目点击记录的评分。在历史身份标识对应的条目点击记录中根据相似度以及对应的关注度。
如图4所示,在另一个实施例中,上述步骤S150之前还包括如下步骤:
步骤S301,判断关注度是否为常数,若是,则进入步骤S303,若否,则进入步骤S150。
本实施例中,关注度指的是历史身份标识对某一条目点击记录的关注度,在关注度为常数时该条目点击记录所对应的点击频率较高,为高频点击的条目点击记录,因此,需对为常数的关注度进行调整,以防止每一次推荐的条目点击记录都为这些高频点击的条目点击记录。
步骤S303,统计关键词对应的条目点击记录的点击频率。
本实施例中,在存储的关键词对应的条目点击记录中统计关注度为常数的历史身份标识对应的条目点击记录点击频率。
步骤S305,根据点击频率调整历史身份标识的关注度。
本实施例中,根据点击频率进行关注度的调整,以减小推荐的条目点击记录中高频点击的干扰。一实施例中,可将log2(1/p)作为调整后历史身份标识的关注度,其中,p为点击频率。另一个实施例中,历史身份标识的关注度可通过如下公式进行调整,即ru,i=α·1/p+(1-α)log2(1/p),其中,α为调整参数,优选为0.28。
在一个实施例中,上述步骤S150的具体过程为:根据历史身份标识对查找得到的条目点击记录的关注度以及当前客户端身份标识和历史身份标识之间的相似度计算得到与关注度对应的条目点击记录的评分。
本实施例中,在历史身份标识对应的条目点击记录中根据关注度和相似度进行计算得到该条目点击记录的评分,详细计算过程如以下公式所示:
P a , i = Σ u ∈ U sim ( a , u ) × r u , i Σ u ∈ U sim ( a , u )
其中,Pa,j为当前客户端身份标识a对与点击的搜索条目相同的条目点击记录i的评分,u为与身份标识a对应相同的条目点击记录的历史身份标识,U为历史身份标识u的集合。
通过关注度以及相似度估算条目点击记录的评分来实现搜索过程中的动态推荐,即使是首次在对某一关键词的搜索条目进行点击也能够进行准确地推荐。
步骤S170,按照评分对当前客户端身份标识进行条目点击记录的推荐。
本实施例中,根据评分的大小,按照从大到小的顺序提取预设数量的条目点击记录,向用户推荐提取的条目点击记录。
在另一个实施例中,上述推荐搜索方法还将获取当前进行关键词搜索的用户信息,根据用户信息以及估算得到的评分进行条目点击记录的筛选,进而推荐筛选得到的条目点击记录。本实施例中,将用户信息与估算得到的评分相结合进一步地提高了推荐的准确性。
如图5所示,在一个实施例中,一种推荐搜索系统,包括触发推荐模块110、处理模块130、估算模块150以及结果推荐模块170。
触发推荐模块110,用于通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录。
本实施例中,在搜索页面中通过用户输入的任一关键词得到一搜索结果,该搜索结果包括若干个搜索条目。用户点击任一搜索条目都将触发根据该搜索条目所进行的搜索结果推荐。此时触发推荐模块110将获取当前客户端身份标识以及后台存储的日志中关键词对应的条目点击记录,该关键词为当前搜索页面中用户输入的关键词。当前客户端身份标识用于对客户端进行唯一标识,可以是客户端产生的cookie或者客户端所在的网络地址,即客户端当前所对应的ip地址。
具体的,条目点击记录是搜索页面中对用户点击一搜索条目所产生的历史记录,用于记载一关键词所对应的搜索结果中用户曾点击的搜索条目,换而言之,条目点击记录中以网络链接的形式存储了用户曾点击的搜索条目。在后台存储的日志中条目点击记录是按照关键词进行分类存储的,即关键词是与相应的条目点击记录存在映射关系的。
在另一个实施例中,触发推荐模块110还将对关键词进行语义分析得到该关键词的同义词;相应的,在获取关键词对应的条目点击记录时,还将获取该同义词所对应的条目点击记录。本实施例中,将同义词所对应的条目点击记录纳入搜索过程中推荐条目点击记录的范围,丰富推荐的条目点击记录,明显提高了搜索推荐的多样性。
处理模块130,用于查找与点击的搜索条目相同的条目点击记录,根据条目点击记录得到对应的历史身份标识,并计算历史身份标识和当前客户端身份标识之间的相似度。
本实施例中,后台存储的日志中除了存储关键词与条目点击记录之间的对应关系之后,还存储了条目点击记录和历史身份标识之间的对应关系。其中,历史身份标识为曾产生该条目点击记录的当前客户端身份标识,一旦客户端中发生了某一搜索条目的点击之后,该搜索条目被存储为输入的关键词对应的条目点击记录,当前客户端身份标识也被存储为历史身份标识,并与条目点击记录对应。
进一步的,在当前客户端的搜索页面中存在着多个搜索条目,以供用户点击并查看;在发生了搜索条目的点击之后,被点击的搜索条目和当前客户端身份标识分别被存储为条目点击记录和历史身份标识。因此,存储的每一条目点击记录对应了多个历史身份标识,而每一历史身份标识又对应了其它条目点击记录,也就是说,每一历史身份标识对应了多个条目点击记录。
处理模块130根据点击的搜索条目得到拥有与点击的搜索条目相同的条目点击记录的历史身份标识,其中,该条目点击记录可以是一个或者多个。处理模块130通过与当前客户端身份标识所对应点击的搜索条目相同的条目点击记录进行分析得到当前客户端身份标识和历史身份标识之间的相似度,该相似度可用于表征当前客户端身份标识和历史身份标识所对应的两个用户之间兴趣、喜好等方面的相似程度。具体的,相似度的计算可以通过余弦相似性、皮尔森系数、调整余弦相似性等方法实现。
如图6所示,在另一个实施例中,上述推荐搜索系统还包括点击获取模块210以及存储模块230。
点击获取模块210,用于获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识。
本实施例中,在搜索页面的搜索结果中发生点击行为时点击获取模块210获取点击的搜索条目,以及当前客户端身份标识。
存储模块230,用于将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立关键词中历史身份标识与条目点击记录之间的对应关系。
本实施例中,存储模块230对任一搜索页面中发生的搜索条目点击行为均生成相应的日志进行存储。具体的,存储模块230获取客户端的搜索页面中用户点击的搜索条目以及当前客户端身份标识之后将当前客户端身份标识以及点击的搜索条目按照关键词生成日志中的历史身份标识及条目点击记录,并将历史身份标识与条目点击记录进行关联,形成对应关系。该对应关系中历史身份标识和条目点击记录为一对多的关系。
在日志中,每一关键词与多个条目点击记录相对应,而每一个条目点击记录也与多个历史身份标识存在着对应关系,用于表示进行了该关键词搜索的历史身份标识以及点击的搜索条目。
如图7所示,在一个实施例中,上述处理模块130包括查找单元131、第一关注度获取单元133以及相似度运算单元135。
查找单元131,用于在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识。
本实施例中,查找单元131根据当前客户端身份标识所对应的搜索条目在关键词中历史身份标识与条目点击记录之间的对应关系查找与搜索条目相同的历史身份标识。
在另一个实施例中,查找到与点击的搜索条目相同的条目点击记录对应的历史身份标识之后还需判断所述查找得到的历史身份标识对应的条目点击记录数量是否小于阈值,若是,则清除所述历史身份标识以及对应的条目点击记录,若否,则进入通知第一关注度获取单元133。
本实施例中,若判断到查找得到的历史身份标识对应的条目点击记录数量小于阈值,则说明在对关键词进行搜索的过程中产生的点击行为过少,可忽略不计,以减少数据处理的数量。
第一关注度获取单元133,用于分别当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度。
本实施例中,关注度是当前客户端身份标识或历史身份标识所对应的用户对某一条目点击记录的关注程度,在与当前客户端身份标识对应的点击的搜索条目或历史身份标识对应的条目点击都将对应了相应的关注度,例如,以条目点击记录为统计对象,计算出条目点击记录在关键词搜索过程中点击频次的加权和即为关注度。
相似度运算单元135,用于根据关注度进行运算得到历史身份标识和当前客户端身份标识之间的相似度。
本实施例中,相似度运算单元135通过历史身份标识对与点击的搜索条目相同的条目点击记录的关注度和当前客户端身份标识对该点击的搜索条目的关注度计算历史身份标识和当前客户端身份标识之间的相似度,详细计算过程如以下公式所示:
sim ( a , u ) = Σ i ∈ I r a , i r u , i Σ i ∈ I r a , i 2 Σ i ∈ I r u , i 2
其中,sim(a,u)为当前客户端身份标识a和历史身份标识u之间的相似度,i为当前客户端身份标识和历史身份标识之间与点击的搜索条目相同的条目点击记录,I为与点击的搜索条目相同的条目点击记录的集合,ra,i为当前客户端身份标识a对相同条目点击记录i的关注度,ru,i为当前客户端身份标识u对与点击的搜索条目相同的条目点击记录i的关注度。
估算模块150,用于根据相似度估算关键词对应的条目点击记录的评分。
本实施例中,在得到当前客户端身份标识和历史身份标识之间的相似度之后,估算模块150在历史身份标识对应的条目点击记录中通过相似度以及关注度,估算历史身份标识对应的条目点击记录的评分。在历史身份标识对应的条目点击记录中根据相似度以及对应的关注度。
在一个实施例中,上述估算模块150还用于根据历史身份标识对查找得到的条目点击记录的关注度以及当前客户端身份标识和历史身份标识之间的相似度计算得到与关注度对应的条目点击记录的评分。
本实施例中,评分计算单元153在历史身份标识对应的条目点击记录中根据关注度和相似度进行计算得到该条目点击记录的评分,详细计算过程如以下公式所示:
P a , i = Σ u ∈ U sim ( a , u ) × r u , i Σ u ∈ U sim ( a , u )
其中,Pa,j为当前客户端身份标识a对与点击的搜索条目相同的条目点击记录i的评分,u为与当前客户端身份标识a对应相同的条目点击记录的历史身份标识,U为历史身份标识u的集合。
通过关注度以及相似度估算条目点击记录的评分来实现搜索过程中的动态推荐,即使是首次在对某一关键词的搜索条目进行点击也能够进行准确地推荐。
如图8所示,在另一个实施例中,上述估算模块150包括判断单元155以及调整单元157。
判断单元155,用于判断关注度是否为常数,若是,则统计关键词对应的条目点击记录的点击频率。
本实施例中,关注度指的是历史身份标识对某一条目点击记录的关注度,在关注度为常数时该条目点击记录所对应的点击频率较高,为高频点击的条目点击记录,因此,需判断单元155对为常数的关注度进行调整,在存储的关键词对应的条目点击记录中统计关注度为常数的历史身份标识对应的条目点击记录点击频率,以防止每一次推荐的条目点击记录都为这些高频点击的条目点击记录。
调整单元157,用于根据点击频率调整历史身份标识的关注度。
本实施例中,调整单元157根据点击频率进行关注度的调整,以减小推荐的条目点击记录中高频点击的干扰。一实施例中,调整单元157可将log2(1/p)作为调整后历史身份标识的关注度,其中,p为点击频率。另一个实施例中,历史身份标识的关注度可通过如下公式进行调整,即ru,i=α·1/p+(1-α)log2(1/p),其中,α为调整参数,优选为0.28。
结果推荐模块170,用于按照评分对当前客户端身份标识进行条目点击记录的推荐。
本实施例中,结果推荐模块170根据评分的大小,按照从大到小的顺序提取预设数量的条目点击记录,向用户推荐提取的条目点击记录。
在另一个实施例中,上述推荐搜索系统还将获取当前进行关键词搜索的用户信息,根据用户信息以及估算得到的评分进行条目点击记录的筛选,进而推荐筛选得到的条目点击记录。本实施例中,将用户信息与估算得到的评分相结合进一步地提高了推荐的准确性。
上述推荐搜索方法和系统,在通过关键词进行搜索的过程中用户点击任一搜索条目触发获取当前客户端身份标识以及该关键词对应的条目点击记录,在关键词对应的条目点击记录中得到与点击的搜索条目相同的条目点击记录所对应的历史身份标识,计算历史身份标识和当前客户端身份标识之间的相似度,进而根据相似度估算出关键词的搜索条目对应的评分,按照评分进行推荐,在这一推荐搜索的过程中,通过相似度得到相似的用户,根据这些相似用户对搜索条目关注度进行推荐,提高了搜索的准确性,挖掘用户的意图,使返回的搜索条目更好地满足用户的需求。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种推荐搜索方法,包括如下步骤:
通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;
查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;
根据所述相似度估算关键词对应的条目点击记录的评分;
按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。
2.根据权利要求1所述的推荐搜索方法,其特征在于,所述查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度的步骤之前还包括:
获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识;
将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立所述关键词中历史身份标识与条目点击记录之间的对应关系。
3.根据权利要求2所述的推荐搜索方法,其特征在于,所述查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度的步骤为:
在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识;
分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度;
根据所述关注度进行运算得到所述历史身份标识和当前客户端身份标识之间的相似度。
4.根据权利要求3所述的推荐搜索方法,其特征在于,所述根据所述相似度估算关键词对应的条目点击记录的评分的步骤为:
根据所述历史身份标识对查找得到的条目点击记录的关注度以及所述当前客户端身份标识和历史身份标识之间的相似度计算得到与所述关注度对应的条目点击记录的评分。
5.根据权利要求4所述的推荐搜索方法,其特征在于,所述获取历史身份标识对条目点击记录的关注度的步骤之后还包括:
判断所述关注度是否为常数,若是,则统计所述关键词对应的条目点击记录的点击频率;
根据所述点击频率调整所述历史身份标识的关注度。
6.一种推荐搜索系统,其特征在于,包括:
触发推荐模块,用于通过搜索条目的点击触发获取当前客户端身份标识以及搜索所输入关键词对应的条目点击记录;
处理模块,用于查找与点击的搜索条目相同的条目点击记录,根据所述条目点击记录得到对应的历史身份标识,并计算所述历史身份标识和当前客户端身份标识之间的相似度;
估算模块,用于根据所述相似度估算关键词对应的条目点击记录的评分;
结果推荐模块,用于按照所述评分对所述当前客户端身份标识进行条目点击记录的推荐。
7.根据权利要求6所述的推荐搜索系统,其特征在于,还包括:
点击获取模块,用于获取搜索结果中点击的搜索条目以及对应的当前客户端身份标识;
存储模块,用于将关键词对应的当前客户端身份标识以及点击的搜索条目存储为历史身份标识以及条目点击记录,并建立所述关键词中历史身份标识与条目点击记录之间的对应关系。
8.根据权利要求7所述的推荐搜索系统,其特征在于,所述处理模块包括:
查找单元,用于在条目点击记录和历史身份标识之间的对应关系中查找与点击的搜索条目相同的条目点击记录,并得到对应的历史身份标识;
第一关注度获取单元,用于分别获取当前客户端身份标识对点击的搜索条目的关注度和历史身份标识对查找得到的条目点击记录的关注度;
相似度运算单元,用于根据所述关注度进行运算得到所述历史身份标识和当前客户端身份标识之间的相似度。
9.根据权利要求8所述的推荐搜索系统,其特征在于,所述估算模块包括还用于根据所述历史身份标识对查找得到的条目点击记录的关注度以及所述当前客户端身份标识和历史身份标识之间的相似度计算得到与所述关注度对应的条目点击记录的评分。
10.根据权利要求9所述的推荐搜索系统,其特征在于,所述估算模块还包括:
判断单元,用于判断所述关注度是否为常数,若是,则统计所述关键词对应的条目点击记录的点击频率;
调整单元,用于根据所述点击频率调整所述历史身份标识的关注度。
CN201210150086.7A 2012-05-15 2012-05-15 推荐搜索方法和系统 Active CN103425650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210150086.7A CN103425650B (zh) 2012-05-15 2012-05-15 推荐搜索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210150086.7A CN103425650B (zh) 2012-05-15 2012-05-15 推荐搜索方法和系统

Publications (2)

Publication Number Publication Date
CN103425650A true CN103425650A (zh) 2013-12-04
CN103425650B CN103425650B (zh) 2018-03-16

Family

ID=49650409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210150086.7A Active CN103425650B (zh) 2012-05-15 2012-05-15 推荐搜索方法和系统

Country Status (1)

Country Link
CN (1) CN103425650B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484413A (zh) * 2014-12-16 2015-04-01 北京奇虎科技有限公司 一种获得搜索结果的方法和装置
CN105653588A (zh) * 2015-12-21 2016-06-08 北京奇虎科技有限公司 搜索历史记录生成方法及装置
CN106021602A (zh) * 2016-06-15 2016-10-12 腾讯科技(深圳)有限公司 一种搜索结果排序的方法及装置
WO2018161880A1 (zh) * 2017-03-08 2018-09-13 腾讯科技(深圳)有限公司 媒体搜索词推送方法、装置及存储介质
WO2019072007A1 (zh) * 2017-10-12 2019-04-18 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN110147496A (zh) * 2019-05-13 2019-08-20 百度在线网络技术(北京)有限公司 内容推送方法及装置
CN110442593A (zh) * 2019-08-12 2019-11-12 四川长虹电器股份有限公司 基于用户搜索信息跨应用共享的方法
WO2020258100A1 (zh) * 2019-06-26 2020-12-30 深圳市欢太科技有限公司 内容推送方法、装置、服务端及存储介质
CN113220986A (zh) * 2021-04-20 2021-08-06 广州市百果园信息技术有限公司 一种信息推荐方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105795A (zh) * 2006-10-27 2008-01-16 北京搜神网络技术有限责任公司 基于网络行为的个性化推荐方法和系统
US20110191311A1 (en) * 2010-02-03 2011-08-04 Gartner, Inc. Bi-model recommendation engine for recommending items and peers
CN102184199A (zh) * 2011-04-22 2011-09-14 北京志腾新诺科技有限公司 网络信息推荐方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105795A (zh) * 2006-10-27 2008-01-16 北京搜神网络技术有限责任公司 基于网络行为的个性化推荐方法和系统
US20110191311A1 (en) * 2010-02-03 2011-08-04 Gartner, Inc. Bi-model recommendation engine for recommending items and peers
CN102184199A (zh) * 2011-04-22 2011-09-14 北京志腾新诺科技有限公司 网络信息推荐方法及系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484413A (zh) * 2014-12-16 2015-04-01 北京奇虎科技有限公司 一种获得搜索结果的方法和装置
CN105653588A (zh) * 2015-12-21 2016-06-08 北京奇虎科技有限公司 搜索历史记录生成方法及装置
CN105653588B (zh) * 2015-12-21 2019-07-02 北京奇虎科技有限公司 搜索历史记录生成方法及装置
CN106021602B (zh) * 2016-06-15 2018-07-06 腾讯科技(深圳)有限公司 一种搜索结果排序的方法及装置
CN106021602A (zh) * 2016-06-15 2016-10-12 腾讯科技(深圳)有限公司 一种搜索结果排序的方法及装置
WO2018161880A1 (zh) * 2017-03-08 2018-09-13 腾讯科技(深圳)有限公司 媒体搜索词推送方法、装置及存储介质
WO2019072007A1 (zh) * 2017-10-12 2019-04-18 阿里巴巴集团控股有限公司 一种数据处理方法及装置
TWI710917B (zh) * 2017-10-12 2020-11-21 開曼群島商創新先進技術有限公司 資料處理方法及裝置
CN110147496A (zh) * 2019-05-13 2019-08-20 百度在线网络技术(北京)有限公司 内容推送方法及装置
CN110147496B (zh) * 2019-05-13 2021-06-25 百度在线网络技术(北京)有限公司 内容推送方法及装置
WO2020258100A1 (zh) * 2019-06-26 2020-12-30 深圳市欢太科技有限公司 内容推送方法、装置、服务端及存储介质
CN110442593A (zh) * 2019-08-12 2019-11-12 四川长虹电器股份有限公司 基于用户搜索信息跨应用共享的方法
CN110442593B (zh) * 2019-08-12 2022-02-01 四川长虹电器股份有限公司 基于用户搜索信息跨应用共享的方法
CN113220986A (zh) * 2021-04-20 2021-08-06 广州市百果园信息技术有限公司 一种信息推荐方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103425650B (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
CN103425650A (zh) 推荐搜索方法和系统
US9317550B2 (en) Query expansion
US8150841B2 (en) Detecting spiking queries
US10776431B2 (en) System and method for recommending content based on search history and trending topics
CN107341268B (zh) 一种热搜榜排序方法及系统
CN103870461B (zh) 主题推荐方法、装置和服务器
CN110781317A (zh) 事件图谱的构建方法、装置及电子设备
CN103365839A (zh) 一种搜索引擎的推荐搜索方法和装置
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN104462385A (zh) 一种基于用户兴趣模型的电影个性化相似度计算方法
US9053186B2 (en) Method and apparatus for detecting and explaining bursty stream events in targeted groups
CN102591948B (zh) 一种基于用户行为分析的搜索结果改进的方法及其系统
CN104424291A (zh) 一种对搜索结果进行排序的方法及装置
EP2488970A1 (en) System and method for grouping multiple streams of data
US10387805B2 (en) System and method for ranking news feeds
CN103514304A (zh) 一种项目推荐方法和装置
CN103902597A (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN103873601A (zh) 一种寻址类查询词的挖掘方法及系统
CN106682049B (zh) 议题显示系统和议题显示方法
CN103136289B (zh) 资源推荐方法及系统
TWI571756B (zh) 用以分析瀏覽記錄及其文件之方法及其系統
JP6678666B2 (ja) ランキング関数のオフライン評価
CN107688563B (zh) 一种同义词的识别方法及识别装置
CN111324801A (zh) 基于热点词的司法领域热点事件发现方法
CN103455593A (zh) 一种基于社交网络的服务竞争性实现系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant