一种流行检索词的挖掘、推荐方法及装置
技术领域
本发明属于信息处理领域,尤其涉及一种流行检索词的挖掘、推荐方法及装置。
背景技术
随着网络的发展,网络信息更新的速度也越来越快,如何使用户能够最快的获取最新的而且是其感兴趣的网络信息呢?网络流行检索词的挖掘与推荐是解决该问题的关键。
现有网络流行检索词的挖掘和推荐方法主要是按照词汇的搜索量来排序,将搜索量高的一个或者多个词汇作为流行检索词推荐给用户。然而,对于新出现的网络词汇,在初始阶段其搜索量可能并不高,如果仅按搜索量排序会造成对新词汇捕捉的不及时。另外,对于某些搜索量很高的词汇,其点击量可能并不高,原因大多是用户输入该词汇却无法搜索到想要的结果,或者是用户通过作弊等手段,人为的提高某些词汇的搜索量,如果将这些词汇推荐给用户,会严重影响到用户的体验及满意度。
发明内容
本发明实施例提供一种流行检索词的挖掘方法,旨在解决现有技术在挖掘流行检索词时,挖掘不够及时及不够准确的问题。
本发明实施例是这样实现的,一种流行检索词的挖掘方法,所述方法包括以下步骤:
对历史检索词进行预处理;
计算所述预处理后检索词的查询密度、查询热度以及点击度;
根据计算得到的查询密度、查询热度以及点击度,获取所述预处理后检索词的流行度。
一种流行检索词的推荐方法,所述方法包括所述的流行检索词的挖掘方法,以及
根据应用场景和用户属性,将流行度最高的前N个检索词推荐给对应的用户,所述N大于等于1。
本发明实施例的另一目的在于提供一种流行检索词的挖掘装置,所述装置包括:
预处理单元,用于对历史检索词进行预处理;
计算单元,用于计算所述预处理后检索词的查询密度、查询热度以及点击度;
流行度获取单元,用于根据计算得到的查询密度、查询热度以及点击度,获取所述预处理后检索词的流行度。
一种流行检索词的推荐装置,所述推荐装置包括所述的流行检索词的挖掘装置,以及
推荐单元,用于根据应用场景和用户属性,将流行度最高的前N个检索词推荐给对应的用户,所述N大于等于1。
从上述技术方案可以看出,本发明实施例根据计算得到的查询密度、查询热度以及点击度来获取预处理后检索词的流行度,由于查询密度能更好的反应用户对检索词的关注程度,查询热度能更好的反应用户关注程度的上升或下降趋势,点击度能更好的反应搜索结果的有效性,使得挖掘到的检索词能够更好的反应其流行度,从而有效解决现有技术单纯依靠词汇的搜索量进行排序,造成新兴词汇挖掘不及时以及某些词汇由于作弊或者搜索信息的无效而挖掘不准确的问题。另外,本发明实施例还可以根据应用场景和用户属性的不同,将挖掘到的流行度最高的一个或者多个检索词推荐给对所述检索词感兴趣的用户,从而提高用户的满意度。
附图说明
图1是本发明实施例一提供的流行检索词的挖掘方法的实现流程图;
图2是本发明实施例一提供的流行检索词挖掘结果的示例图;
图3是本发明实施例二提供的流行检索词的推荐方法的实现流程图;
图4是本发明实施例三提供的流行检索词的挖掘装置的组成结构图;
图5是本发明实施例四提供的流行检索词的挖掘装置的组成结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过计算预处理后检索词的查询密度、查询热度以及点击度,根据计算得到的查询密度、查询热度以及点击度来获取所述预处理后检索词的流行度,并根据应用场景和用户属性的不同,将挖掘到的流行度最高的一个或者多个检索词推荐给对所述检索词感兴趣的用户,提高了用户对推荐的流行检索词的满意度,并有效解决了现有技术单纯依靠词汇的搜索量进行排序,造成新兴词汇挖掘不及时以及某些词汇由于作弊或者搜索信息的无效而挖掘不准确的问题。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明实施例一提供的流行检索词的挖掘方法的实现流程,该方法过程详述如下:
在步骤S101中,对历史检索词进行预处理。
在本实施例中,在对检索词进行挖掘前,需要对搜索日志(不局限于此)中的历史检索词进行预处理。其中,所述历史检索词包括所述检索词每天的搜索量(Query View,QV)、结果点击次数等信息。
所述预处理包括但不局限于去导航处理以及去重处理。其中,去导航处理指的是过滤以导航为目的的检索词,例如“优酷”、“youku”、“百度”、“QQ”等;去重处理指的是把有相同目的或者相同含义的检索词归并到一起,以方便对该检索词的搜索量进行更准确的统计。比如“优酷”和“youku”、“百度”和“baidu”、“4399”和“4399游戏”等。
本实施例在去导航和去重处理过程中采用了线性设计方法,使得查询和点击百万级关键词拟合到一起的时间复杂度为O(max(n,m))(原先复杂度为O(n*m)),极大提升了处理性能。
在步骤S102中,计算所述预处理后检索词的查询密度、查询热度以及点击度。
在本实施例中,查询密度考虑了时间衰减的QV量,即距离当日时间越久远的QV折扣越大,通过查询密度能更好的反应用户对检索词的关注程度。
其中,查询密度的一种计算方法如下:
其中t为计算查询密度的总的时间量,qvi为当前词汇第i天的搜索量,τ为预设的折旧因子,介于0~1之间,可根据实际的数据定期调整,根据实验验证得知,τ的优选值为0.01或者0.05。
举例如下:
表一
根据检索词“火影忍者”7天(t=7)的qv数据,查询密度计算结果如下:
查询热度能更好的反应用户关注程度的上升或下降趋势,即QV随时间变化的上升或者下降的趋势,通过查询热度可以挖掘出由于某些突发性事件所造成的热点检索词,例如检索词“药家鑫”,在药家鑫执行死刑当日该词的QV数激增,而前7日则QV平平,查询热度的迅速升高,可突现出该词的流行度。
其中,查询热度的一种计算方法如下:
其中t为计算查询热度的总的时间量,qvi为当前词汇第i天的搜索量,qv为当前词汇当天的搜索量。
举例如下(数据如表一所示),第7天的查询热度为:
点击度是指从用户对检索结果的点击情况来反应检索结果的有效性,进而衡量检索词的流行度。
其中,点击度的一种计算方法如下:
其中t为计算点击度的总的时间量,qvi为当前词汇第i天的搜索量,click_qvi为当前词汇第i天的点击量。
举例如下:
表二
根据检索词“火影忍者”7天(t=7)的qv量(如表一所示)及点击qv量(如表二所示),点击度计算结果如下:
在步骤S103中,根据计算得到的查询密度、查询热度以及点击度,获取所述预处理后检索词的流行度。
在本实施例中,流行度的一种计算方法如下:
score=(int ensity)α×(recency)β×(clickability)γ(4)
其中int ensity为查询密度,recency为查询热度,clickability为点击度,α、β、λ分别为预先设置的权重参数,可根据实际的数据定期调整,优选的是α=1、β=2、λ=1。
举例如下:
取α=1、β=2、λ=1,根据检索词“火影忍者”之前计算得到的查询密度、查询热度、和点击度的值,该词的流行度计算结果如下:
score(火影忍者)=(int ensity)α×(recency)β×(clickability)γ=27,177×1.752×0.35=29130。
本实施例以榜单的形式(不局限于此方式)展现挖掘到的流行检索词(如图2a、2b所示),通过榜单,用户可以更直观、快速的了解到当前的热点信息。榜单将以其更新频率更快、影响范围更广、最广泛反映民意等特点,成为人们见证社会事件发生的第一窗口。
通过本发明方法对2011年6月18日至6月25日网吧联盟进行检索词挖掘,将挖掘到的检索词以榜单的形式展现,取top20进行了比较分析,结果如图2a所示。
灰色表示该检索词与前一天相比排名位置有所上升;黑色表示该检索词与前一天相比排名位置有所下降;白色表示该词为当日新出现的检索词;其他色则表示排名位置未发生改变的检索词。
从图2a中可以看出,Top20中连续7日上榜的检索词排名位置变动合理,这些检索词具有时新性、实时性和多样性,能够很好的反应其流行度,如小说类的斗破苍穹、游戏类的火影忍者、电视剧类的裸婚时代、人物类的苍井空;而且对新词的捕捉也更及时和准确,每天都有2到3个新的检索词出现在Top20中,如6月21日出现的新词“高考查分网”等。
本发明实施例从多个维度(包括查询密度、查询热度和点击度)对搜索日志中的检索词进行挖掘和分析,并综合各维度的分析结果,获取所述检索词的流行度。由于查询密度能更好的反应用户对检索词的关注程度,查询热度能更好的反应关注程度的上升或下降趋势,点击度能更好的反应搜索结果的有效性,使得挖掘到的检索词能够更好的反应其流行度,从而有效解决现有技术单纯依靠词汇的搜索量进行排序,造成新兴词汇挖掘不及时以及某些词汇由于作弊或者搜索信息的无效而挖掘不准确的问题。
实施例二:
图3示出了本发明实施例二提供的流行检索词的推荐方法的实现流程,该实施例是在实施一的基础上增加了步骤S304:
在步骤S304中,根据应用场景和用户属性,将流行度最高的前N个检索词推荐给对应的用户,所述N大于等于1。
在本实施例中,所述应用场景包括但不局限于网吧、企业、学校等,所述用户属性包括但不局限于用户的性别、年龄、职业、兴趣爱好等。本实施例根据应用场景和用户属性,将流行度最高的前N个检索词推荐给对应的用户,所述N大于等于1。例如:对应用场景为网吧,用户属性为年龄18-25、兴趣爱好包括游戏的用户,将流行度最高的前N个与游戏相关的检索词推荐给该用户。
在本实施例中,推荐的方式包括但不局限于榜单的形式。通过榜单的推荐方式可省掉用户输入关键词的步骤(如图2b中所示的“热词”,用户直接点击就可以),即在没有输入词的情况下,就能将用户感兴趣的热点信息推荐给他们。
本发明实施例根据应用场景和用户属性的不同,将挖掘到的流行度最高的一个或者多个检索词推荐给对所述检索词感兴趣的用户,实现个性化推荐,提高用户的满意度。
实施例三:
图4示出了本发明实施例三提供的流行检索词的挖掘装置的组成结构,为了便于说明,仅示出了与本发明实施例相关的部分。
该流行检索词的挖掘装置可以是运行于信息处理系统内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些信息处理系统中或者运行于这些信息处理系统的应用系统中。
该流行检索词的挖掘装置包括预处理单元41、计算单元42以及流行度获取单元43。其中,各单元的具体功能如下:
预处理单元41,用于对历史检索词进行预处理;
计算单元42,用于计算所述预处理后检索词的查询密度、查询热度以及点击度;
流行度获取单元43,用于根据计算得到的查询密度、查询热度以及点击度,获取所述预处理后检索词的流行度。
在本实施例中,所述预处理包括但不局限于去导航处理以及去重处理。所述查询密度的一种计算公式为:其中t为计算查询密度的总的时间量,qvi为当前词汇第i天的搜索量,τ为预设的折旧因子。所述查询热度的一种计算公式为:其中t为计算查询热度的总的时间量,qvi为当前词汇第i天的搜索量,qv为当前词汇当天的搜索量。所述点击度的一种计算公式为:
其中t为计算点击度的总的时间量,qvi为当前词汇第i天的搜索量,click_qvi为当前词汇第i天的点击量。所述流行度的一种计算公式为:score=(int ensity)α×(recency)β×(clickability)γ,其中int ensity为查询密度,recency为查询热度,clickabilty为点击度,α、β、λ分别为预先设置的权重参数。
本实施例提供的流行检索词的挖掘装置可以使用在前述对应的流行检索词的挖掘方法,详情参见上述流行检索词的挖掘方法实施例一的相关描述,在此不再赘述。
实施例四:
图5示出了本发明实施例四提供的流行检索词的推荐装置的组成结构,为了便于说明,仅示出了与本发明实施例相关的部分。
该流行检索词的推荐装置可以是运行于信息处理系统内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些信息处理系统中或者运行于这些信息处理系统的应用系统中。
该流行检索词的推荐装置包括预处理单元51、计算单元52、流行度获取单元53以及推荐单元54。其中,各单元的具体功能如下:
预处理单元51,用于对历史检索词进行预处理;
计算单元52,用于计算所述预处理后检索词的查询密度、查询热度以及点击度;
流行度获取单元53,用于根据计算得到的查询密度、查询热度以及点击度,获取所述预处理后检索词的流行度;
推荐单元54,用于根据应用场景和用户属性,将流行度最高的前N个检索词推荐给对应的用户,所述N大于等于1。
在本实施例中,所述预处理包括但不局限于去导航处理以及去重处理。所述查询密度的一种计算公式为:其中t为计算查询密度的总的时间量,qvi为当前词汇第i天的搜索量,τ为预设的折旧因子。所述查询热度的一种计算公式为:其中t为计算查询热度的总的时间量,qvi为当前词汇第i天的搜索量,qv为当前词汇当天的搜索量。所述点击度的一种计算公式为:
其中t为计算点击度的总的时间量,qvi为当前词汇第i天的搜索量,click_qvi为当前词汇第i天的点击量。所述流行度的一种计算公式为:score=(int ensity)α×(recency)β×(clickability)γ,其中int ensity为查询密度,recency为查询热度,clickability为点击度,α、β、λ分别为预先设置的权重参数。
本实施例提供的流行检索词的推荐装置可以使用在前述对应的流行检索词的推荐方法,详情参见上述流行检索词的推荐方法实施例二的相关描述,在此不再赘述。
综上所述,本发明实施例从多个维度(包括查询密度、查询热度和点击度)对搜索日志中的检索词进行挖掘和分析,并综合各维度的分析结果,获取所述检索词的流行度。由于查询密度能更好的反应用户对检索词的关注程度,查询热度能更好的反应关注程度的上升或下降趋势,点击度能更好的反应搜索结果的有效性,使得挖掘到的检索词能够更好的反应其流行度,提高了流行检索词挖掘的准确率,有效解决了现有技术单纯依靠词汇的搜索量进行排序,造成新兴词汇挖掘不及时以及某些词汇由于作弊或者搜索信息的无效而挖掘不准确的问题。另外,本发明实施例还根据应用场景和用户属性的不同,将挖掘到的流行度最高的一个或者多个检索词推荐给对所述检索词感兴趣的用户,实现个性化推荐,提高用户的满意度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。