CN101984423B - 一种热搜词生成方法及系统 - Google Patents

一种热搜词生成方法及系统 Download PDF

Info

Publication number
CN101984423B
CN101984423B CN2010105144877A CN201010514487A CN101984423B CN 101984423 B CN101984423 B CN 101984423B CN 2010105144877 A CN2010105144877 A CN 2010105144877A CN 201010514487 A CN201010514487 A CN 201010514487A CN 101984423 B CN101984423 B CN 101984423B
Authority
CN
China
Prior art keywords
searching request
search
query
request
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010105144877A
Other languages
English (en)
Other versions
CN101984423A (zh
Inventor
彭学政
黄炜
蔡勋梁
刘涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2010105144877A priority Critical patent/CN101984423B/zh
Publication of CN101984423A publication Critical patent/CN101984423A/zh
Application granted granted Critical
Publication of CN101984423B publication Critical patent/CN101984423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种热搜词生成方法及系统,涉及信息处理领域,用以解决现有技术未将搜索请求Query热搜词与垂直门户网页关联,用户的搜索体验有待提升的问题。方法包括:对用户向搜索引擎发起的搜索请求进行存储;对搜索请求进行聚类运算,得出搜索请求簇;确定搜索请求簇中最热门的搜索请求;在垂直门户网页中搜索上述最热门的搜索请求,得出与该搜索请求相匹配的网页数量;取上述网页数量大于第一阈值时所关联的搜索请求簇,并从该搜索请求簇中挑选热搜词。系统包括:搜索请求存储模块,聚类模块,验证模块,页面搜索模块和挑选模块。本发明将搜索请求热搜词和垂直门户网页进行验证,可辨别出新闻或事件相关的搜索请求热搜词。

Description

一种热搜词生成方法及系统
【技术领域】
本发明涉及信息处理领域,特别涉及一种热搜词生成方法及系统。
【背景技术】
随着科技的发展,互联网越来越普遍,出现了许多网络搜索技术。例如:搜索引擎关键词热搜榜,针对用户搜索条件进行统计分析所得热搜词;搜索引擎会针对用户所使用的搜索条件,提供相关的关键词搜索建议或者关键词(错字)的揪错建议;搜索引擎提供上述技术方案,让用户可以根据热搜词或者相关关键词搜索建议,进行进一步浏览取得信息。
但是现有技术中搜索请求Query热搜词与垂直搜索领域的文本(例如门户网站的新闻网页)信息相互独立,没有将二者关联,用户的搜索体验还有待提升。
【发明内容】
本发明提供了一种热搜词生成方法及系统,用以解决现有技术未将搜索请求Query热搜词与垂直门户网页关联,用户的搜索体验有待提升的问题;为了进一步提高用户的搜索感受,经过验证后的热搜词进一步可以对用户作个性化的推送。
本发明提供了一种热搜词生成方法,包括:搜索请求存储步骤:对用户向搜索引擎发起的搜索请求进行存储;聚类步骤:对搜索请求进行聚类运算,得出搜索请求簇;验证步骤:确定搜索请求簇中最热门的搜索请求;页面搜索步骤:在垂直门户网页中搜索上述最热门的搜索请求,得出与该搜索请求相匹配的网页数量;挑选步骤:取上述网页数量大于第一阈值时所关联的搜索请求簇,并从该搜索请求簇中挑选热搜词。
根据本发明一优选实施例,搜索请求存储步骤中,还一并存储输入搜索请求的时间。
根据本发明一优选实施例,聚类步骤中的聚类运算包括:凝聚聚类算法、划分式聚类算法、基于密度的聚类算法,或者网格聚类算法。
根据本发明一优选实施例,聚类步骤中进一步包括:获取单位时间内被存储的搜索请求;采用基于凝聚的层次聚类算法对上述获取的搜索请求进行运算,得出搜索请求簇。
根据本发明一优选实施例,基于凝聚的层次聚类算法具体包括:若两个所述被获取的搜索请求之间的编辑距离小于等于第二阈值,则确定该两个搜索请求为同一搜索请求簇。
根据本发明一优选实施例,验证步骤之前还包括:计算聚类步骤中得出的搜索请求簇的突发热度,当所述突发热度大于第三阈值时,转入验证步骤;
其中,计算突发热度具体包括:分别对搜索请求簇中每一搜索请求当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该搜索请求的突发热度;将所述搜索请求簇中各搜索请求的突发热度累加,得出该搜索请求簇的突发热度。
根据本发明一优选实施例,页面搜索步骤中所述匹配的条件具体为:所述最热门的搜索请求在垂直门户网页中的权值大于第四阈值,则判定相互匹配。
根据本发明一优选实施例,最热门的搜索请求为搜索频次最高的搜索请求;或者,最热门的搜索请求为突发热度数值最大的搜索请求,其中搜索请求的突发热度由对搜索请求当前一段时间的搜索频次与昨日同期搜索频次对比计算得到;或者,最热门的搜索请求为单位时间内搜索次数最多的搜索请求。
根据本发明一优选实施例,在聚类步骤之前还包括:过滤步骤:获取单位时间内被存储的搜索请求作为短期搜索请求集合,以及获取至少二个单位时间内被存储的搜索请求作为历史搜索请求集合;以所述历史搜索请求集合过滤短期搜索请求集合中存在的周期性突增搜索请求或/和历史事件突增搜索请求,得出过滤后的短期搜索请求,并转入聚类步骤。
根据本发明一优选实施例,过滤步骤中,得出历史搜索请求集合具体包括:获取至少二个单位时间内被存储的,与短期搜索请求集合中的搜索请求同质的搜索请求;将获取的搜索请求求并集,得出历史搜索请求集合;以及,以历史搜索请求集合过滤短期搜索请求集合具体包括:短期搜索请求集合中的搜索请求在上述历史搜索请求集合中,则过滤该搜索请求。
根据本发明一优选实施例,过滤步骤中,得出历史搜索请求集合具体包括:非在线情况下,统计历史热门搜索请求集合;并且分析该历史热门搜索请求集合得到周期性突发搜索请求集合作为上述历史搜索请求集合;以及,以历史搜索请求集合过滤短期搜索请求集合具体包括:短期搜索请求集合中的搜索请求在上述历史搜索请求集合中,则过滤该搜索请求。
根据本发明一优选实施例,在聚类步骤之前还包括:过滤步骤:获取单位时间内被存储的搜索请求作为短期搜索请求集合;以作弊搜索请求列表过滤短期搜索请求集合中存在的作弊搜索请求,得出过滤后的短期搜索请求,并转入聚类步骤。
根据本发明一优选实施例,作弊搜索请求列表中包括关键词集合,若短期搜索请求集合中的搜索请求含有上述关键词集合中的关键词,则过滤该搜索请求。
根据本发明一优选实施例,作弊搜索请求列表生成的过程包括:动态获取敏感词;根据获取的敏感词生成动态的作弊搜索请求列表;若短期搜索请求集合中的搜索请求在上述动态作弊搜索请求列表中,则过滤该搜索请求。
根据本发明一优选实施例,在挑选步骤之后还包括:用户行为分析步骤:进行用户行为分析,获知用户关注的搜索请求类别;推荐步骤:定位所述用户关注的搜索请求类别与所述热搜词分类所得类别的交集,并将所述交集类别中包含的热搜词作为个性化热搜词推送给该用户。
本发明还提供了一种热搜词生成系统,包括:搜索请求存储模块,对用户向搜索引擎发起的搜索请求进行存储;聚类模块,对获取的搜索请求进行聚类运算,得出搜索请求簇;验证模块,确定所述搜索请求簇中搜索最热门的搜索请求;页面搜索模块,在垂直门户网页中搜索上述最热门的搜索请求,得出与该搜索请求相匹配的网页数量;挑选模块,取上述网页数量大于第一阈值时所关联的搜索请求簇,并从该搜索请求簇中挑选热搜词。
根据本发明一优选实施例,搜索请求存储模块还一并存储输入搜索请求的时间。
根据本发明一优选实施例,聚类模块预设的聚类运算包括:凝聚聚类算法、划分式聚类算法、基于密度的聚类算法,或者网格聚类算法。
根据本发明一优选实施例,聚类模块从搜索请求存储模块中获取单位时间内被存储的搜索请求,并以预设的基于凝聚的层次聚类算法对上述获取的搜索请求进行运算。
根据本发明一优选实施例,聚类模块中预设的基于凝聚的层次聚类算法是若两个所述被获取的搜索请求之间的编辑距离小于等于第二阈值,则确定该两个搜索请求为同一搜索请求簇。
根据本发明一优选实施例,验证模块先计算聚类模块得出的搜索请求簇的突发热度,当所述突发热度大于第三阈值时,再确定所述搜索请求簇中搜索最热门的搜索请求;
其中计算突发热度具体是分别对搜索请求簇中每一搜索请求当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该搜索请求的突发热度;将所述搜索请求簇中各搜索请求的突发热度累加,得出该搜索请求簇的突发热度。
根据本发明一优选实施例,页面搜索模块判断搜索请求与网页相匹配的匹配条件是所述最热门的搜索请求在垂直门户网页中的权值大于第四阈值,则判定相互匹配。
根据本发明一优选实施例,最热门的搜索请求为搜索频次最高的搜索请求;或者,最热门的搜索请求为突发热度数值最大的搜索请求,其中搜索请求的突发热度由对搜索请求当前一段时间的搜索频次与昨日同期搜索频次对比计算得到;或者,最热门的搜索请求为单位时间内搜索次数最多的搜索请求。
根据本发明一优选实施例,还包括:第一过滤模块,用于从搜索请求存储模块中获取单位时间内被存储的搜索请求作为短期搜索请求集合,以及从搜索请求存储模块中获取至少二个单位时间内被存储的搜索请求作为历史搜索请求集合;并以所述历史搜索请求集合过滤短期搜索请求集合中存在的周期性突增搜索请求或/和历史事件突增搜索请求,得出过滤后的短期搜索请求,并输出到聚类模块。
根据本发明一优选实施例,第一过滤模块得出历史搜索请求集合具体包括:获取至少二个单位时间内被存储的,与所述短期搜索请求集合中的搜索请求同质的搜索请求;将所述获取的搜索请求求并集,得出历史搜索请求集合;以及第一过滤模块以历史搜索请求集合过滤短期搜索请求集合具体包括:短期搜索请求集合中的搜索请求在上述历史搜索请求集合中,则过滤该搜索请求。
根据本发明一优选实施例,第一过滤模块得出历史搜索请求集合具体包括:非在线情况下,统计历史热门搜索请求集合;并且分析该历史热门搜索请求集合得到周期性突发搜索请求集合作为上述历史搜索请求集合;以及第一过滤模块以历史搜索请求集合过滤短期搜索请求集合具体包括:短期搜索请求集合中的搜索请求在上述历史搜索请求集合中,则过滤该搜索请求。
根据本发明一优选实施例,还包括:第二过滤模块,用于从搜索请求存储模块中获取单位时间内被存储的搜索请求作为短期搜索请求集合;并以作弊搜索请求列表过滤短期搜索请求集合中存在的作弊搜索请求,得出过滤后的短期搜索请求,并输出到聚类模块。
根据本发明一优选实施例,第二过滤模块中存储的作弊搜索请求列表中包括关键词集合,若所述短期搜索请求集合中的搜索请求含有上述关键词集合中的关键词,则过滤该搜索请求。
根据本发明一优选实施例,第二过滤模块动态获取敏感词,并根据获取的敏感词生成动态的作弊搜索请求列表;若所述短期搜索请求集合中的搜索请求在上述动态作弊搜索请求列表中,则过滤该搜索请求。
根据本发明一优选实施例,还包括:用户行为分析模块,用于进行用户行为分析,获知用户关注的搜索请求类别;推荐模块,用于定位所述用户关注的搜索请求类别与所述热搜词分类所得类别的交集,并将所述交集类别中包含的热搜词作为个性化热搜词推送给该用户。
通过上述方式,本发明通过分析用户搜索请求的热度变化,来找出当前最具时效性的搜索请求集合;然后利用搜索引擎收录的资源来做验证,确保搜索请求是有用的资讯。亦即,将搜索请求的热搜词(即搜索请求簇中搜索最热门的搜索请求)和垂直门户网页进行验证,辨别出新闻或事件相关的搜索请求热搜词,从而一方面补充各个新闻分类下的热搜词,亦即结合了检索和浏览的功能,提供给用户一种比浏览新闻更简洁明了的获取信息的方式,另一方面,帮助机器自动完成焦点选取,进而给予用户更优的搜索和浏览体验,此外,经过验证后的热搜词可以对用户作个性化的推送,提高用户的搜索感受。。
【附图说明】
图1是本发明实施例中热搜词生成方法的流程图。
图2是本发明优选实施例中的热搜词生成方法的流程图。
图3是本发明优选实施例中的热搜词生成方法的流程图。
图4是本发明优选实施例中的热搜词生成方法的流程图。
图5是本发明实施例中热搜词生成系统的示意图。
图6是本发明优选实施例中的热搜词生成系统的示意图。
图7是本发明优选实施例中的热搜词生成系统的示意图。
图8是本发明优选实施例中的热搜词生成系统的示意图。
【具体实施方式】
下面结合附图和实施例对本发明进行详细说明。
如图1所示,为本发明实施例的热搜词生成方法流程图,包括下列步骤:
101、对用户向搜索引擎发起的搜索请求Query(以下实施例中对搜索请求简称为Query,不再赘述)进行存储;
102、对Query进行聚类运算,得出搜索请求簇Query cluster(以下实施例中对搜索请求簇简称为Query cluster,不再赘述);
103、确定Query cluster中搜索最热门的Query;
104、在垂直门户网页中搜索上述最热门的Query,得出与该Query相匹配的网页数量;
105、取上述网页数量大于第一阈值时所关联的Query cluster,并从该Query cluster中挑选热搜词。
为了达到更优的效果,结合图1进一步对本发明的优选实施方案描述如下:
101、对用户向搜索引擎发起的Query进行存储,并且其中还存储了输入及发起Query的时间。
102、获取单位时间内被存储的Query,上述单位时间例如1小时。其后对获取的Query进行聚类运算,最终得出Query cluster。本实施例中采用但不限于基于凝聚的层次聚类算法,还可采用凝聚聚类算法、划分式聚类算法、基于密度的聚类算法、网格聚类算法,或者其它能将相似Query归类在一起的算法(比如按照Query检索返回的页面来做关联性分析等)。更为具体的,通过层次聚类算法直到Query cluster之间的距离大于第二阈值,例如第二阈值设定为0.4。计算Query cluster之间距离的方法为:计算两个Querycluster之间两两Query组合的平均编辑距离。上述编辑距离的计算以汉字或者字母为单位,每一次增、删、改都计为一次编辑,得出的编辑次数除以两个Query之间较长Query的长度即为编辑距离,值域为[0,1]。
103、步骤102中得出Query cluster后,进一步计算该Query cluster的突发热度,更为具体的,分别对Query cluster中每一Query当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该Query的突发热度,再将Query cluster中各Query的突发热度累加,得出该Query cluster的突发热度。
如果得出的Query cluster突发热度大于第三阈值,则确定该Querycluster中最热门的Query,否则,舍弃该Query cluster,并获取其他经由步骤102聚类得出的Query cluster,重复步骤103前述操作。第三阈值可根据需求设定,第三阈值越高,则得到的Query cluster突发性越强,但被舍弃的Query cluster也越多。需要说明的是,最热门的Query包括但不限于搜索频次最高的Query,突发热度数值最大的Query,或者单位时间内搜索次数最多的Query。
104、在垂直门户网页中搜索上述最热门的Query,例如,如果返回的某篇网页的相关权值大于第四阈值,则判定搜索到一篇与该Query相匹配的网页。最终得出与该Query相匹配的网页数量。设定第四阈值是需要保证确实找到相关的网页,否则起不到验证的作用。其中,垂直门户网页可包括但不限于新闻、论坛、图片、视频、音乐、贴吧。进一步还可通过控制第四阈值相应控制前述数量,例如控制到0~10条24小时内的新闻网页,但不局限于0~10条,也不局限于24小时内,可依照新闻或事件的热门程度、时效性、发布媒体的数量、发布新闻时间做弹性调整。
105、取上述网页数量大于第一阈值时所关联的Query cluster,由于步骤104中与该Query相匹配的网页数量值域为[0,10],故本实施例中第一阈值可为0~10间的正整数,并从该Query cluster中挑选热搜词。其中,热搜词挑选的原则可以根据需要择定,包括但不限于选择突发性最强的,或者选择最精简的,或者在Query cluster分析的基础上,重新生成。
需要说明的是,步骤102中通过聚类算法计算后,得出的Query cluster可能不止一个,若为多个,则从每一满足上述条件的Query cluster中分别挑选1个Query作为热搜词,并且被挑选出的Query互不重复,进而可生成突增热搜词集合。
可见,本实施例中步骤101一并存储了发起Query的时间,为后续流程提供了基础。步骤102中获取单位时间内被存储的Query,可保持所生成的热搜词之时效性,单位时间也可被理解热搜词所需要分析的时效性而增加或缩短;通过聚类算法计算,可以帮助更精确的统计每一类事件Query的突增变化,从而更准确地把握突增。步骤103中引入突发热度机制,保证与Query所匹配的网页具备突发热度,降低“噪声”,可给予用户更好的体验。
为了达到更优的效果,本发明还提供了优选实施例,参见图2所示,包括下列步骤:
201、对用户向搜索引擎发起的Query进行存储,并且其中还存储了输入及发起Query的时间。
202、获取单位时间内被存储的Query作为短期Query集合(小时级突增),以及获取至少二个单位时间内被存储的Query作为历史Query集合(例如历史)。之后以历史Query集合过滤短期Query集合中存在的周期性突增Query或/和历史事件突增Query,得出过滤后的短期Query。更为具体的,可以积累一定周期(一周,一个月)的同质的历史数据,同质是指具有相同突发性质的Query,比如昨天、前天的突发Query,求并集得到历史Query集合,如果当前分析的Query在历史Query集合中,则过滤掉。也可以,线下统计历史热门Query集合,并分析得到周期性突发的Query集合作为历史Query集合,如果短期Query集合中的Query在历史Query集合中,则过滤该Query。
203、取步骤202过滤后的短期Query,对获取的Query进行聚类运算,最终得出Query cluster。本实施例中采用但不限于基于凝聚的层次聚类算法,还可采用凝聚聚类算法、划分式聚类算法、基于密度的聚类算法、网格聚类算法,或者其它能将相似Query归类在一起的算法(比如按照Query检索返回的页面来做关联性分析等)。更为具体的,通过层次聚类算法直到Querycluster之间的距离大于第二阈值,例如第二阈值设定为0.4。计算Querycluster之间距离的方法为:计算两个Query cluster之间两两Query组合的平均编辑距离。上述编辑距离的计算以汉字或者字母为单位,每一次增、删、改都计为一次编辑,得出的编辑次数除以两个Query之间较长Query的长度即为编辑距离,值域为[0,1]。
204、步骤203中得出Query cluster后,进一步计算该Query cluster的突发热度,更为具体的,分别对Query cluster中每一Query当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该Query的突发热度,再将Query cluster中各Query的突发热度累加,得出该Query cluster的突发热度。
如果得出的Query cluster突发热度大于第三阈值,则确定该Querycluster中最热门的Query,否则,舍弃该Query cluster,并获取其他经由步骤203聚类得出的Query cluster,重复步骤204前述操作。第三阈值可根据需求设定,第三阈值越高,则得到的Query cluster突发性越强,但被舍弃的Query cluster也越多。需要说明的是,最热门的Query包括但不限于搜索频次最高的Query,突发热度数值最大的Query,或者单位时间内搜索次数最多的Query。
205、在垂直门户网页中搜索上述最热门的Query,例如,如果返回的某篇网页的相关权值大于第四阈值,则判定搜索到一篇与该Query相匹配的网页。最终得出与该Query相匹配的网页数量。设定第四阈值是需要保证确实找到相关的网页,否则起不到验证的作用。其中,垂直门户网页可包括但不限于新闻、论坛、图片、视频、音乐、贴吧。进一步还可通过控制第四阈值相应控制前述数量,例如控制到0~10条24小时内的新闻网页,但不局限于0~10条,也不局限于24小时内,可依照新闻或事件的热门程度、时效性、发布媒体的数量、发布新闻时间做弹性调整。
206、取上述网页数量大于第一阈值时所关联的Query cluster,由于步骤205中与该Query相匹配的网页数量值域为[0,10],故本实施例中第一阈值可为0~10间的正整数,并从该Query cluster中挑选热搜词。其中,热搜词挑选的原则可以根据需要择定,包括但不限于选择突发性最强的,或者选择最精简的,或者在Query cluster分析的基础上,重新生成。需要说明的是,步骤203中通过聚类算法计算后,得出的Query cluster可能不止一个,若为多个,则从每一满足上述条件的Query cluster中分别挑选1个Query作为热搜词,并且被挑选出的Query互不重复,进而可生成突增热搜词集合。
可见,本实施例中步骤201一并存储了发起Query的时间,为后续流程提供了基础。步骤202中引入了过滤机制,以历史Query集合过滤短期Query集合中存在的周期性突增Query或/和历史事件突增Query,得出过滤后的短期Query,为后续聚类运算提供了优质的Query源。步骤203中,获取的Query为短期Query,即单位时间的Query,因此可保持所生成的热搜词之时效性,单位时间也可被理解热搜词所需要分析的时效性而增加或缩短;通过聚类算法计算,可以帮助更精确的统计每一类事件Query的突增变化,从而更准确地把握突增。步骤204中引入突发热度机制,保证与Query所匹配的网页具备突发热度,降低“噪声”,可给予用户更好的体验。
为了达到更优的效果,本发明还提供了优选实施例,参见图3所示,包括下列步骤:
301、对用户向搜索引擎发起的Query进行存储,并且其中还存储了输入及发起Query的时间。
302、获取单位时间内被存储的Query作为短期Query集合,以作弊Query列表过滤短期Query集合中存在的作弊Query,得出过滤后的短期Query。作弊Query列表可以为静态,即作弊Query列表中包括关键词集合,若短期Query集合中的Query含有上述关键词集合中的关键词,则过滤该Query。作弊Query列表可以为动态,即动态获取敏感词,并根据获取的敏感词生成动态的作弊Query列表,若短期Query集合中的Query在上述动态作弊Query列表中,则过滤该Query。上述作弊Query列表中具体包括黄色、反动、限制级的Query等。
303、取步骤302过滤后的短期Query,对获取的Query进行聚类运算,最终得出Query cluster。本实施例中采用但不限于基于凝聚的层次聚类算法,还可采用凝聚聚类算法、划分式聚类算法、基于密度的聚类算法、网格聚类算法,或者其它能将相似Query归类在一起的算法(比如按照Query检索返回的页面来做关联性分析等)。更为具体的,通过层次聚类算法直到Querycluster之间的距离大于第二阈值,例如第二阈值设定为0.4。计算Querycluster之间距离的方法为:计算两个Query cluster之间两两Query组合的平均编辑距离。上述编辑距离的计算以汉字或者字母为单位,每一次增、删、改都计为一次编辑,得出的编辑次数除以两个Query之间较长Query的长度即为编辑距离,值域为[0,1]。
304、步骤303中得出Query cluster后,进一步计算该Query cluster的突发热度,更为具体的,分别对Query cluster中每一Query当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该Query的突发热度,再将Query cluster中各Query的突发热度累加,得出该Query cluster的突发热度。
如果得出的Query cluster突发热度大于第三阈值,则确定该Querycluster中最热门的Query,否则,舍弃该Query cluster,并获取其他经由步骤303聚类得出的Query cluster,重复步骤304前述操作。第三阈值可根据需求设定,第三阈值越高,则得到的Query cluster突发性越强,但被舍弃的Query cluster也越多。需要说明的是,最热门的Query包括但不限于搜索频次最高的Query,突发热度数值最大的Query,或者单位时间内搜索次数最多的Query。
305、在垂直门户网页中搜索上述最热门的Query,例如,如果返回的某篇网页的相关权值大于第四阈值,则判定搜索到一篇与该Query相匹配的网页。最终得出与该Query相匹配的网页数量。设定第四阈值是需要保证确实找到相关的网页,否则起不到验证的作用。其中,垂直门户网页可包括但不限于新闻、论坛、图片、视频、音乐、贴吧。进一步还可通过控制第四阈值相应控制前述数量,例如控制到0~10条24小时内的新闻网页,但不局限于0~10条,也不局限于24小时内,可依照新闻或事件的热门程度、时效性、发布媒体的数量、发布新闻时间做弹性调整。
306、取上述网页数量大于第一阈值时所关联的Query cluster,由于步骤305中与该Query相匹配的网页数量值域为[0,10],故本实施例中第一阈值可为0~10间的正整数,并从该Query cluster中挑选热搜词。其中,热搜词挑选的原则可以根据需要择定,包括但不限于选择突发性最强的,或者选择最精简的,或者在Query cluster分析的基础上,重新生成。需要说明的是,步骤303中通过聚类算法计算后,得出的Query cluster可能不止一个,若为多个,则从每一满足上述条件的Query cluster中分别挑选1个Query作为热搜词,并且被挑选出的Query互不重复,进而可生成突增热搜词集合。
可见,本实施例中步骤301一并存储了发起Query的时间,为后续流程提供了基础。步骤302中引入了过滤机制,以作弊Query列表过滤短期Query集合中存在的作弊Query,为后续聚类运算提供了优质的Query源。步骤303中,获取的Query为短期Query,即单位时间的Query,因此可保持所生成的热搜词之时效性,单位时间也可被理解热搜词所需要分析的时效性而增加或缩短;通过聚类算法计算,可以帮助更精确的统计每一类事件Query的突增变化,从而更准确地把握突增。步骤304中引入突发热度机制,保证与Query所匹配的网页具备突发热度,降低“噪声”,可给予用户更好的体验。
为了达到更优的效果,进一步提高用户的搜索感受,本发明还提供了优选实施例,经过验证后的热搜词进一步可以对用户作个性化的推送,参见图4所示,包括下列步骤:
401、对用户向搜索引擎发起的Query进行存储;
402、对Query进行聚类运算,得出Query cluster;
403、确定Query cluster中搜索最热门的Query;
404、在垂直门户网页中搜索上述最热门的Query,得出与该Query相匹配的网页数量及其每个网页是哪个分类属性,进而,可以据此得知上述最热门的Query是哪个类别,可以是单一类别,也可以是多个类别。在具体实现中,对于每篇网页,可以通过分类或者打标签等方式得到其类别,该类别的粒度可大可小,大粒度如:体育,娱乐,军事;细一些的粒度,则如:明星、电影、武器、拆迁等;甚至更精准的粒度,如:曼联等。对于细粒度的分类可允许一篇网页有多个类别。
405、取上述网页数量大于第一阈值时所关联的Query cluster,并从该Query cluster中挑选热搜词。
406、对用户行为分析,获知该用户关注的Query类别。具体可获取该用户以往的Query,对获取的Query进行行为分析,从而获知用户喜好或关注的Query类别;也可获取用户当前浏览的网页,例如:用户当前浏览娱乐新闻网页,根据网页中的信息进行用户行为分析,从而获知用户喜好或关注的Query类别。
407、向用户推送个性化热搜词。个性化热搜词具体可从定位用户关注的Query类别与所述热搜词分类所得类别的交集获取。例如:用户关注的Query类别为娱乐新闻和体育新闻,热搜词类别包括社会新闻、政治新闻、财经新闻、科技新闻、法律新闻、娱乐新闻和体育新闻,那么交集为娱乐新闻和体育新闻;进一步提取娱乐新闻和体育新闻类别的热搜词作为个性化热搜词推送给该用户。
可见,本实施例除了确定哪些是热搜词,热搜词之间的关联还可以进一步分类,分类后的热搜词可以和用户行为建立关联,达到个性化的热搜词推荐、推送。即前台可以做到区分展示,具体来说,用户在看娱乐新闻的时候,热搜词的集合只推荐娱乐新闻相关的。因此可以给予用户更优的搜索体验。
需要说明的是,上述步骤406和407,也可接续到上述步骤105、206和306之后,形成另外几个方法实施例,在此不再赘述,都应在本发明保护范围之内。
如图5所示,为本发明实施例的热搜词生成系统示意图,包括:
搜索请求存储模块501,用于对用户向搜索引擎发起的Query进行存储;
聚类模块502,可以从搜索请求存储模块501获取Query并进行聚类运算,得出Query cluster,并输出到验证模块503;
验证模块503,用于确定Query cluster中搜索最热门的Query,并向页面搜索模块504发起验证请求,以及接收页面搜索模块504返回的验证结果;
页面搜索模块504,根据验证模块503发来的验证请求中携带的上述最热门的Query,在垂直门户网页中搜索该Query,得出与该Query相匹配的网页数量,并将该网页数量作为验证结果向验证模块503返回;
挑选模块505,从验证模块503得到上述网页数量,并且取上述网页数量大于第一阈值时所关联的Query cluster,以及从该Query cluster中挑选热搜词。
为了达到更优的效果,结合图5进一步对本发明的优选实施方案描述如下:
搜索请求存储模块501,用于对用户向搜索引擎发起的Query进行存储,并且其中还存储了输入及发起Query的时间。
聚类模块502,用于获取单位时间内被搜索请求存储模块501存储的Query,上述单位时间例如1小时。其后对获取的Query进行聚类运算,最终得出Query cluster,并输出到验证模块503。本实施例中采用但不限于基于凝聚的层次聚类算法,还可采用凝聚聚类算法、划分式聚类算法、基于密度的聚类算法、网格聚类算法,或者其它能将相似Query归类在一起的算法(比如按照Query检索返回的页面来做关联性分析等)。更为具体的,通过层次聚类算法直到Query cluster之间的距离大于第二阈值,例如第二阈值设定为0.4。计算Query cluster之间距离的方法为:计算两个Query cluster之间两两Query组合的平均编辑距离。上述编辑距离的计算以汉字或者字母为单位,每一次增、删、改都计为一次编辑,得出的编辑次数除以两个Query之间较长Query的长度即为编辑距离,值域为[0,1]。
验证模块503,接收到聚类模块502输出的Query cluster后,进一步计算该Query cluster的突发热度,更为具体的,分别对Query cluster中每一Query当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该Query的突发热度,再将Query cluster中各Query的突发热度累加,得出该Query cluster的突发热度。
如果得出的Query cluster突发热度大于第三阈值,则确定该Querycluster中最热门的Query,并向页面搜索模块504发起验证请求,以及接收页面搜索模块504返回的验证结果;否则,舍弃该Query cluster,并获取其他经由聚类模块502聚类得出的Query cluster,重复前述操作。第三阈值可根据需求设定,第三阈值越高,则得到的Query cluster突发性越强,但被舍弃的Query cluster也越多。需要说明的是,最热门的Query包括但不限于搜索频次最高的Query,突发热度数值最大的Query,或者单位时间内搜索次数最多的Query。
页面搜索模块504,根据验证模块503发来的验证请求中携带的上述最热门的Query,在垂直门户网页中搜索该Query,得出与该Query相匹配的网页数量,并将该网页数量作为验证结果向验证模块503返回。例如,如果返回的某篇网页的相关权值大于第四阈值,则判定搜索到一篇与该Query相匹配的网页。最终得出与该Query相匹配的网页数量。设定第四阈值是需要保证确实找到相关的网页,否则起不到验证的作用。其中,垂直门户网页可包括但不限于新闻、论坛、图片、视频、音乐、贴吧。进一步还可通过控制第四阈值相应控制前述数量,如控制到0~10条24小时内的新闻网页,但不局限于0~10条,也不局限于24小时内,可依照新闻或事件的热门程度、时效性、发布媒体的数量、发布新闻时间做弹性调整。
挑选模块505,从验证模块503得到上述网页数量,取上述网页数量大于第一阈值时所关联的Query cluster,由于该Query相匹配网页数量的值域在本实施例为[0,10],故本实施例中第一阈值可为0~10间的正整数,并从该Query cluster中挑选热搜词。其中,热搜词挑选的原则可以根据需要择定,包括但不限于选择突发性最强的,或者选择最精简的,或者在Query cluster分析的基础上,重新生成。需要说明的是,经由聚类模块502计算后,得出的Query cluster可能不止一个,若为多个,则从每一满足上述条件的Querycluster中分别挑选1个Query作为热搜词,并且被挑选出的Query互不重复,进而可生成突增热搜词集合。
可见,本实施例中搜索请求存储模块501一并存储了发起Query的时间,为后续操作提供了基础。聚类模块502获取单位时间内被存储的Query,可保持所生成的热搜词之时效性,单位时间也可被理解热搜词所需要分析的时效性而增加或缩短;通过聚类算法计算,可以帮助更精确的统计每一类事件Query的突增变化,从而更准确地把握突增。验证模块503引入突发热度机制,保证与Query所匹配的网页具备突发热度,降低“噪声”,可给予用户更好的体验。
为了达到更优的效果,本发明还提供了优选实施例,参见图6所示,包括:
搜索请求存储模块601,用于对用户向搜索引擎发起的Query进行存储,并且其中还存储了输入及发起Query的时间。
第一过滤模块602,用于获取单位时间内被存储的Query作为短期Query集合(小时级突增),以及获取至少二个单位时间内被存储的Query作为历史Query集合(例如历史)。之后以历史Query集合过滤短期Query集合中存在的周期性突增Query或/和历史事件突增Query,得出过滤后的短期Query。更为具体的,第一过滤模块602可以从搜索请求存储模块601中获取积累一定周期(一周,一个月)的同质的历史数据,同质是指具有相同突发性质的Query,比如昨天、前天的突发Query,求并集得到历史Query集合,如果判定当前分析的Query在历史Query集合中,则过滤掉该Query。第一过滤模块602也可以线下统计历史热门Query集合,并分析得到周期性突发的Query集合作为历史Query集合,如果短期Query集合中的Query在历史Query集合中,则过滤该Query。
聚类模块603,取第一过滤模块602过滤后的短期Query,对获取的Query进行聚类运算,最终得出Query cluster,并输出到验证模块604。本实施例中采用但不限于基于凝聚的层次聚类算法,还可采用凝聚聚类算法、划分式聚类算法、基于密度的聚类算法、网格聚类算法,或者其它能将相似Query归类在一起的算法(比如按照Query检索返回的页面来做关联性分析等)。更为具体的,通过层次聚类算法直到Query cluster之间的距离大于第二阈值,例如第二阈值设定为0.4。计算Query cluster之间距离的方法为:计算两个Query cluster之间两两Query组合的平均编辑距离。上述编辑距离的计算以汉字或者字母为单位,每一次增、删、改都计为一次编辑,得出的编辑次数除以两个Query之间较长Query的长度即为编辑距离,值域为[0,1]。
验证模块604,接收到聚类模块603输出的Query cluster后,进一步计算该Query cluster的突发热度,更为具体的,分别对Query cluster中每一Query当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该Query的突发热度,再将Query cluster中各Query的突发热度累加,得出该Query cluster的突发热度。
如果得出的Query cluster突发热度大于第三阈值,则确定该Querycluster中最热门的Query,并向页面搜索模块605发起验证请求,以及接收页面搜索模块605返回的验证结果;否则,舍弃该Query cluster,并获取其他经由聚类模块603聚类得出的Query cluster,重复前述操作。第三阈值可根据需求设定,第三阈值越高,则得到的Query cluster突发性越强,但被舍弃的Query cluster也越多。需要说明的是,最热门的Query包括但不限于搜索频次最高的Query,突发热度数值最大的Query,或者单位时间内搜索次数最多的Query。
页面搜索模块605,根据验证模块604发来的验证请求中携带的上述最热门的Query,在垂直门户网页中搜索该Query,得出与该Query相匹配的网页数量,并将该网页数量作为验证结果向验证模块604返回。例如,如果返回的某篇网页的相关权值大于第四阈值,则判定搜索到一篇与该Query相匹配的网页。最终得出与该Query相匹配的网页数量。设定第四阈值是需要保证确实找到相关的网页,否则起不到验证的作用。其中,垂直门户网页可包括但不限于新闻、论坛、图片、视频、音乐、贴吧。进一步还可通过控制第四阈值相应控制前述数量,如控制到0~10条24小时内的新闻网页,但不局限于0~10条,也不局限于24小时内,可依照新闻或事件的热门程度、时效性、发布媒体的数量、发布新闻时间做弹性调整。
挑选模块606,从验证模块604得到上述网页数量,取上述网页数量大于第一阈值时所关联的Query cluster,由于该Query相匹配网页数量的值域在本实施例为[0,10],故本实施例中第一阈值可为0~10间的正整数,并从该Query cluster中挑选热搜词。其中,热搜词挑选的原则可以根据需要择定,包括但不限于选择突发性最强的,或者选择最精简的,或者在Query cluster分析的基础上,重新生成。需要说明的是,经由聚类模块603计算后,得出的Query cluster可能不止一个,若为多个,则从每一满足上述条件的Querycluster中分别挑选1个Query作为热搜词,并且被挑选出的Query互不重复,进而可生成突增热搜词集合。
可见,本实施例中搜索请求存储模块601一并存储了发起Query的时间,为后续操作提供了基础。第一过滤模块602引入了过滤机制,以历史Query集合过滤短期Query集合中存在的周期性突增Query或/和历史事件突增Query,得出过滤后的短期Query,为聚类模块603提供了优质的Query源。聚类模块603获取的Query为短期Query,即单位时间的Query,因此可保持所生成的热搜词之时效性,单位时间也可被理解热搜词所需要分析的时效性而增加或缩短;通过聚类算法计算,可以帮助更精确的统计每一类事件Query的突增变化,从而更准确地把握突增。验证模块604引入突发热度机制,保证与Query所匹配的网页具备突发热度,降低“噪声”,可给予用户更好的体验。
为了达到更优的效果,本发明还提供了优选实施例,参见图7所示,包括:
搜索请求存储模块701,用于对用户向搜索引擎发起的Query进行存储,并且其中还存储了输入及发起Query的时间。
第二过滤模块702,用于获取单位时间内被存储的Query作为短期Query集合,以作弊Query列表过滤短期Query集合中存在的作弊Query,得出过滤后的短期Query。第二过滤模块702所使用的作弊Query列表可以为静态,即第二过滤模块702预设的作弊Query列表中包括关键词集合,若短期Query集合中的Query含有上述关键词集合中的关键词,则过滤该Query。第二过滤模块702所使用的作弊Query列表可以为动态,即第二过滤模块702动态获取敏感词,并根据获取的敏感词生成动态的作弊Query列表,若短期Query集合中的Query在上述动态作弊Query列表中,则过滤该Query。上述作弊Query列表中具体包括黄色、反动、限制级的Query等。
聚类模块703,取第二过滤模块702过滤后的短期Query,对获取的Query进行聚类运算,最终得出Query cluster,并输出到验证模块704。本实施例中采用但不限于基于凝聚的层次聚类算法,还可采用凝聚聚类算法、划分式聚类算法、基于密度的聚类算法、网格聚类算法,或者其它能将相似Query归类在一起的算法(比如按照Query检索返回的页面来做关联性分析等)。更为具体的,通过层次聚类算法直到Query cluster之间的距离大于第二阈值,例如第二阈值设定为0.4。计算Query cluster之间距离的方法为:计算两个Query cluster之间两两Query组合的平均编辑距离。上述编辑距离的计算以汉字或者字母为单位,每一次增、删、改都计为一次编辑,得出的编辑次数除以两个Query之间较长Query的长度即为编辑距离,值域为[0,1]。
验证模块704,接收到聚类模块703输出的Query cluster后,进一步计算该Query cluster的突发热度,更为具体的,分别对Query cluster中每一Query当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该Query的突发热度,再将Query cluster中各Query的突发热度累加,得出该Query cluster的突发热度。
如果得出的Query cluster突发热度大于第三阈值,则确定该Querycluster中最热门的Query,并向页面搜索模块705发起验证请求,以及接收页面搜索模块705返回的验证结果;否则,舍弃该Query cluster,并获取其他经由聚类模块703聚类得出的Query cluster,重复前述操作。第三阈值可根据需求设定,第三阈值越高,则得到的Query cluster突发性越强,但被舍弃的Query cluster也越多。需要说明的是,最热门的Query包括但不限于搜索频次最高的Query,突发热度数值最大的Query,或者单位时间内搜索次数最多的Query。
页面搜索模块705,根据验证模块704发来的验证请求中携带的上述最热门的Query,在垂直门户网页中搜索该Query,得出与该Query相匹配的网页数量,并将该网页数量作为验证结果向验证模块704返回。例如,如果返回的某篇网页的相关权值大于第四阈值,则判定搜索到一篇与该Query相匹配的网页。最终得出与该Query相匹配的网页数量。设定第四阈值是需要保证确实找到相关的网页,否则起不到验证的作用。其中,垂直门户网页可包括但不限于新闻、论坛、图片、视频、音乐、贴吧。进一步还可通过控制第四阈值相应控制前述数量,如控制到0~10条24小时内的新闻网页,但不局限于0~10条,也不局限于24小时内,可依照新闻或事件的热门程度、时效性、发布媒体的数量、发布新闻时间做弹性调整。
挑选模块706,从验证模块704得到上述网页数量,取上述网页数量大于第一阈值时所关联的Query cluster,由于该Query相匹配网页数量的值域在本实施例为[0,10],故本实施例中第一阈值可为0~10间的正整数,并从该Query cluster中挑选热搜词。其中,热搜词挑选的原则可以根据需要择定,包括但不限于选择突发性最强的,或者选择最精简的,或者在Query cluster分析的基础上,重新生成。需要说明的是,经由聚类模块703计算后,得出的Query cluster可能不止一个,若为多个,则从每一满足上述条件的Querycluster中分别挑选1个Query作为热搜词,并且被挑选出的Query互不重复,进而可生成突增热搜词集合。
可见,本实施例中搜索请求存储模块701一并存储了发起Query的时间,为后续操作提供了基础。第二过滤模块702引入了过滤机制,以作弊Query列表过滤短期Query集合中存在的作弊Query,为后续聚类运算提供了优质的Query源。聚类模块703获取的Query为短期Query,即单位时间的Query,因此可保持所生成的热搜词之时效性,单位时间也可被理解热搜词所需要分析的时效性而增加或缩短;通过聚类算法计算,可以帮助更精确的统计每一类事件Query的突增变化,从而更准确地把握突增。验证模块704引入突发热度机制,保证与Query所匹配的网页具备突发热度,降低“噪声”,可给予用户更好的体验。
为了达到更优的效果,进一步提高用户的搜索感受,本发明还提供了优选实施例,经过验证后的热搜词进一步可以对用户作个性化的推送,参见图8所示,包括:
搜索请求存储模块801,用于对用户向搜索引擎发起的Query进行存储;
聚类模块802,可以从搜索请求存储模块801获取Query并进行聚类运算,得出Query cluster,并输出到验证模块803;
验证模块803,用于确定Query cluster中搜索最热门的Query,并向页面搜索模块804发起验证请求,以及接收页面搜索模块804返回的验证结果;
页面搜索模块804,根据验证模块803发来的验证请求中携带的上述最热门的Query,在垂直门户网页中搜索该Query,得出与该Query相匹配的网页数量及其每个网页是哪个分类属性,并将该网页数量及每个网页的分类属性作为验证结果向验证模块803返回,进而,验证模块803可以从验证结果得知用来验证的最热门Query是哪个类别,可以是单一类别,也可以是多个类别。在具体实现中,对于每篇网页,可以通过分类或者打标签等方式得到其类别,该类别的粒度可大可小,大粒度如:体育,娱乐,军事;细一些的粒度,则如:明星、电影、武器、拆迁等;甚至更精准的粒度,如:曼联等。对于细粒度的分类可允许一篇网页有多个类别。挑选模块805,从验证模块803得到上述网页数量,并且取上述网页数量大于第一阈值时所关联的Query cluster,以及从该Query cluster中挑选热搜词。
用户行为分析模块806,用于进行用户行为分析,获知该用户关注的Query类别。具体可从搜索请求存储模块801中获取该用户以往的Query,对获取的Query进行行为分析,从而获知用户喜好或关注的Query类别;也可获取用户当前浏览的网页,例如:用户当前浏览娱乐新闻网页,根据网页中的信息进行用户行为分析,从而获知用户喜好或关注的Query类别。
推荐模块807,用于向所述用户推送个性化热搜词。个性化热搜词具体可从定位用户关注的Query类别与所述热搜词分类所得类别的交集获取。例如:用户关注的Query类别为娱乐新闻和体育新闻,热搜词类别包括社会新闻、政治新闻、财经新闻、科技新闻、法律新闻、娱乐新闻和体育新闻,那么交集为娱乐新闻和体育新闻;进一步提取挑选模块805挑选出的娱乐新闻和体育新闻类别的热搜词作为个性化热搜词;最后,推荐模块807向所述用户推送得到的个性化热搜词。
可见,本实施例除了确定哪些是热搜词,热搜词之间的关联还可以进一步分类,分类后的热搜词可以和用户行为建立关联,达到个性化的热搜词推荐、推送。即前台可以做到区分展示,具体来说,用户在看娱乐新闻的时候,热搜词的集合只推荐娱乐新闻相关的。因此可以给予用户更优的搜索体验。
需要说明的是,用户行为分析模块806和推荐模块807,也可与上述系统实施例组合,形成另外几个系统实施例,在此不再赘述,都应在本发明保护范围之内。
在上述实施例中,仅对本发明进行了示范性描述,但是本领域技术人员在阅读本专利申请后可以在不脱离本发明的精神和范围的情况下对本发明进行各种修改。

Claims (30)

1.一种热搜词生成方法,其特征在于,包括下列步骤:
搜索请求存储步骤:对用户向搜索引擎发起的搜索请求进行存储;
聚类步骤:对搜索请求进行聚类运算,得出搜索请求簇;
验证步骤:确定搜索请求簇中最热门的搜索请求;
页面搜索步骤:在垂直门户网页中搜索上述最热门的搜索请求,得出与该搜索请求相匹配的网页数量;
挑选步骤:取上述网页数量大于第一阈值时所关联的搜索请求簇,并从该搜索请求簇中挑选热搜词。
2.根据权利要求1所述的热搜词生成方法,其特征在于,所述搜索请求存储步骤中,还一并存储输入搜索请求的时间。
3.根据权利要求1所述的热搜词生成方法,其特征在于,所述聚类步骤中的聚类运算包括:凝聚聚类算法、划分式聚类算法、基于密度的聚类算法,或者网格聚类算法。
4.根据权利要求1所述的热搜词生成方法,其特征在于,所述聚类步骤中进一步包括:
获取单位时间内被存储的搜索请求;
采用基于凝聚的层次聚类算法对上述获取的搜索请求进行运算,得出搜索请求簇。
5.根据权利要求4所述的热搜词生成方法,其特征在于,所述基于凝聚的层次聚类算法具体包括:若两个所述被获取的搜索请求之间的编辑距离小于等于第二阈值,则确定该两个搜索请求为同一搜索请求簇。
6.根据权利要求1所述的热搜词生成方法,其特征在于,所述验证步骤之前还包括:
计算聚类步骤中得出的搜索请求簇的突发热度,当所述突发热度大于第三阈值时,转入验证步骤;
其中,所述计算突发热度具体包括:
分别对搜索请求簇中每一搜索请求当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该搜索请求的突发热度;
将所述搜索请求簇中各搜索请求的突发热度累加,得出该搜索请求簇的突发热度。
7.根据权利要求1所述的热搜词生成方法,其特征在于,页面搜索步骤中所述匹配的条件具体为:
所述最热门的搜索请求在垂直门户网页中的权值大于第四阈值,则判定相互匹配。
8.根据权利要求1或7所述的热搜词生成方法,其特征在于,所述最热门的搜索请求为搜索频次最高的搜索请求;
或者,所述最热门的搜索请求为突发热度数值最大的搜索请求,其中搜索请求的突发热度由对搜索请求当前一段时间的搜索频次与昨日同期搜索频次对比计算得到;
或者,所述最热门的搜索请求为单位时间内搜索次数最多的搜索请求。
9.根据权利要求1所述的热搜词生成方法,其特征在于,在聚类步骤之前还包括:
过滤步骤:获取单位时间内被存储的搜索请求作为短期搜索请求集合,以及获取至少二个单位时间内被存储的搜索请求作为历史搜索请求集合;
以所述历史搜索请求集合过滤短期搜索请求集合中存在的周期性突增搜索请求或/和历史事件突增搜索请求,得出过滤后的短期搜索请求,并转入聚类步骤。
10.根据权利要求9所述的热搜词生成方法,其特征在于,所述过滤步骤中,得出历史搜索请求集合具体包括:获取至少二个单位时间内被存储的,与所述短期搜索请求集合中的搜索请求同质的搜索请求;将所述获取的搜索请求求并集,得出历史搜索请求集合;
以及,所述以历史搜索请求集合过滤短期搜索请求集合具体包括:短期搜索请求集合中的搜索请求在上述历史搜索请求集合中,则过滤该搜索请求。
11.根据权利要求9所述的热搜词生成方法,其特征在于,所述过滤步骤中,得出历史搜索请求集合具体包括:非在线情况下,统计历史热门搜索请求集合;并且分析该历史热门搜索请求集合得到周期性突发搜索请求集合作为上述历史搜索请求集合;
以及,所述以历史搜索请求集合过滤短期搜索请求集合具体包括:短期搜索请求集合中的搜索请求在上述历史搜索请求集合中,则过滤该搜索请求。
12.根据权利要求1所述的热搜词生成方法,其特征在于,在聚类步骤之前还包括:
过滤步骤:获取单位时间内被存储的搜索请求作为短期搜索请求集合;
以作弊搜索请求列表过滤短期搜索请求集合中存在的作弊搜索请求,得出过滤后的短期搜索请求,并转入聚类步骤。
13.根据权利要求12所述的热搜词生成方法,其特征在于,所述作弊搜索请求列表中包括关键词集合,若所述短期搜索请求集合中的搜索请求含有上述关键词集合中的关键词,则过滤该搜索请求。
14.根据权利要求12所述的热搜词生成方法,其特征在于,所述作弊搜索请求列表生成的过程包括:动态获取敏感词;根据获取的敏感词生成动态的作弊搜索请求列表;
若所述短期搜索请求集合中的搜索请求在上述动态作弊搜索请求列表中,则过滤该搜索请求。
15.根据权利要求1所述的热搜词生成方法,其特征在于,在挑选步骤之后还包括:
用户行为分析步骤:进行用户行为分析,获知用户关注的搜索请求类别;
推荐步骤:定位所述用户关注的搜索请求类别与所述热搜词分类所得类别的交集,并将所述交集类别中包含的热搜词作为个性化热搜词推送给该用户。
16.一种热搜词生成系统,其特征在于,包括:
搜索请求存储模块,对用户向搜索引擎发起的搜索请求进行存储;
聚类模块,对获取的搜索请求进行聚类运算,得出搜索请求簇;
验证模块,确定所述搜索请求簇中最热门的搜索请求;
页面搜索模块,在垂直门户网页中搜索上述最热门的搜索请求,得出与该搜索请求相匹配的网页数量;
挑选模块,取上述网页数量大于第一阈值时所关联的搜索请求簇,并从该搜索请求簇中挑选热搜词。
17.根据权利要求16所述的热搜词生成系统,其特征在于,所述搜索请求存储模块还一并存储输入搜索请求的时间。
18.根据权利要求16所述的热搜词生成系统,其特征在于,所述聚类模块预设的聚类运算包括:凝聚聚类算法、划分式聚类算法、基于密度的聚类算法,或者网格聚类算法。
19.根据权利要求16所述的热搜词生成系统,其特征在于,所述聚类模块从搜索请求存储模块中获取单位时间内被存储的搜索请求,并以预设的基于凝聚的层次聚类算法对上述获取的搜索请求进行运算。
20.根据权利要求19所述的热搜词生成系统,其特征在于,所述聚类模块中预设的基于凝聚的层次聚类算法是若两个所述被获取的搜索请求之间的编辑距离小于等于第二阈值,则确定该两个搜索请求为同一搜索请求簇。
21.根据权利要求16所述的热搜词生成系统,其特征在于,验证模块先计算聚类模块得出的搜索请求簇的突发热度,当所述突发热度大于第三阈值时,再确定所述搜索请求簇中搜索最热门的搜索请求;
其中计算突发热度具体是分别对搜索请求簇中每一搜索请求当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该搜索请求的突发热度;将所述搜索请求簇中各搜索请求的突发热度累加,得出该搜索请求簇的突发热度。
22.根据权利要求16所述的热搜词生成系统,其特征在于,所述页面搜索模块判断搜索请求与网页相匹配的匹配条件是所述最热门的搜索请求在垂直门户网页中的权值大于第四阈值,则判定相互匹配。
23.根据权利要求16或22所述的热搜词生成系统,其特征在于,所述最热门的搜索请求为搜索频次最高的搜索请求;
或者,所述最热门的搜索请求为突发热度数值最大的搜索请求,其中搜索请求的突发热度由对搜索请求当前一段时间的搜索频次与昨日同期搜索频次对比计算得到;
或者,所述最热门的搜索请求为单位时间内搜索次数最多的搜索请求。
24.根据权利要求16所述的热搜词生成系统,其特征在于,还包括:第一过滤模块,用于从搜索请求存储模块中获取单位时间内被存储的搜索请求作为短期搜索请求集合,以及从搜索请求存储模块中获取至少二个单位时间内被存储的搜索请求作为历史搜索请求集合;并以所述历史搜索请求集合过滤短期搜索请求集合中存在的周期性突增搜索请求或/和历史事件突增搜索请求,得出过滤后的短期搜索请求,并输出到聚类模块。
25.根据权利要求24所述的热搜词生成系统,其特征在于,所述第一过滤模块得出历史搜索请求集合具体包括:获取至少二个单位时间内被存储的,与所述短期搜索请求集合中的搜索请求同质的搜索请求;将所述获取的搜索请求求并集,得出历史搜索请求集合;以及第一过滤模块以历史搜索请求集合过滤短期搜索请求集合具体包括:短期搜索请求集合中的搜索请求在上述历史搜索请求集合中,则过滤该搜索请求。
26.根据权利要求24所述的热搜词生成系统,其特征在于,所述第一过滤模块得出历史搜索请求集合具体包括:非在线情况下,统计历史热门搜索请求集合;并且分析该历史热门搜索请求集合得到周期性突发搜索请求集合作为上述历史搜索请求集合;以及第一过滤模块以历史搜索请求集合过滤短期搜索请求集合具体包括:短期搜索请求集合中的搜索请求在上述历史搜索请求集合中,则过滤该搜索请求。
27.根据权利要求16所述的热搜词生成系统,其特征在于,还包括:第二过滤模块,用于从搜索请求存储模块中获取单位时间内被存储的搜索请求作为短期搜索请求集合;并以作弊搜索请求列表过滤短期搜索请求集合中存在的作弊搜索请求,得出过滤后的短期搜索请求,并输出到聚类模块。
28.根据权利要求27所述的热搜词生成系统,其特征在于,所述第二过滤模块中存储的作弊搜索请求列表中包括关键词集合,若所述短期搜索请求集合中的搜索请求含有上述关键词集合中的关键词,则过滤该搜索请求。
29.根据权利要求27所述的热搜词生成系统,其特征在于,所述第二过滤模块动态获取敏感词,并根据获取的敏感词生成动态的作弊搜索请求列表;若所述短期搜索请求集合中的搜索请求在上述动态作弊搜索请求列表中,则过滤该搜索请求。
30.根据权利要求16所述的热搜词生成系统,其特征在于,还包括:
用户行为分析模块,用于进行用户行为分析,获知用户关注的搜索请求类别;
推荐模块,用于定位所述用户关注的搜索请求类别与所述热搜词分类所得类别的交集,并将所述交集类别中包含的热搜词作为个性化热搜词推送给该用户。
CN2010105144877A 2010-10-21 2010-10-21 一种热搜词生成方法及系统 Active CN101984423B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105144877A CN101984423B (zh) 2010-10-21 2010-10-21 一种热搜词生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105144877A CN101984423B (zh) 2010-10-21 2010-10-21 一种热搜词生成方法及系统

Publications (2)

Publication Number Publication Date
CN101984423A CN101984423A (zh) 2011-03-09
CN101984423B true CN101984423B (zh) 2012-07-04

Family

ID=43641592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105144877A Active CN101984423B (zh) 2010-10-21 2010-10-21 一种热搜词生成方法及系统

Country Status (1)

Country Link
CN (1) CN101984423B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8667007B2 (en) 2011-05-26 2014-03-04 International Business Machines Corporation Hybrid and iterative keyword and category search technique
CN103136221B (zh) * 2011-11-24 2017-06-06 北京百度网讯科技有限公司 一种生成需求模板的方法、需求识别的方法及其装置
CN103186618B (zh) * 2011-12-30 2016-06-29 北京新媒传信科技有限公司 正确数据的获取方法和装置
CN103198072B (zh) * 2012-01-06 2018-11-13 深圳市世纪光速信息技术有限公司 一种流行检索词的挖掘、推荐方法及装置
CN103294686B (zh) * 2012-02-24 2018-04-17 腾讯科技(深圳)有限公司 一种网页作弊用户、作弊网页的识别方法及系统
CN102693304B (zh) * 2012-05-22 2014-10-22 北京邮电大学 一种搜索引擎的反馈信息处理方法及搜索引擎
CN102929480A (zh) * 2012-09-28 2013-02-13 百度在线网络技术(北京)有限公司 一种移动终端的解锁方法及装置
CN103942226B (zh) * 2013-01-23 2018-07-10 腾讯科技(深圳)有限公司 获取热点内容的方法和装置
CN103500235A (zh) * 2013-10-25 2014-01-08 乐视网信息技术(北京)股份有限公司 一种多媒体文件推荐方法及装置
US9589050B2 (en) 2014-04-07 2017-03-07 International Business Machines Corporation Semantic context based keyword search techniques
CN105045882B (zh) * 2015-07-21 2018-09-25 无锡天脉聚源传媒科技有限公司 一种热词处理方法及装置
CN105069102B (zh) * 2015-08-03 2017-05-24 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN105488027B (zh) * 2015-11-30 2019-07-12 百度在线网络技术(北京)有限公司 关键词的推送方法和装置
CN105574185A (zh) * 2015-12-22 2016-05-11 北京奇虎科技有限公司 一种提供聚合类型的智能摘要的方法和装置
CN105808685B (zh) * 2016-03-02 2021-09-28 腾讯科技(深圳)有限公司 推广信息的推送方法及装置
CN107229654A (zh) * 2016-03-25 2017-10-03 北大方正集团有限公司 一种热搜词获取方法及系统
CN105893467A (zh) * 2016-03-28 2016-08-24 北京麒麟合盛网络技术有限公司 一种信息分类方法及装置
CN105956149B (zh) * 2016-05-12 2019-12-06 北京奇艺世纪科技有限公司 默认搜索词的推荐方法和装置
CN106503233A (zh) * 2016-11-03 2017-03-15 北京挖玖电子商务有限公司 热门搜索词推荐系统
CN107291932B (zh) * 2017-06-30 2021-02-05 北京奇虎科技有限公司 一种数据查询方法和装置
WO2019041281A1 (zh) 2017-08-31 2019-03-07 深圳市云中飞网络科技有限公司 资源搜索方法及相关产品
US11468125B2 (en) 2017-08-31 2022-10-11 Shenzhen Heytap Technology Corp., Ltd. Resource search method and related product
CN107679186B (zh) * 2017-09-30 2021-12-21 北京奇虎科技有限公司 基于实体库进行实体搜索的方法及装置
CN109902698A (zh) * 2017-12-08 2019-06-18 北京京东尚科信息技术有限公司 信息生成方法和装置
CN108304507A (zh) * 2018-01-18 2018-07-20 宁波公众信息产业有限公司 一种门户网站的管理系统
CN110968691B (zh) * 2018-09-30 2023-07-04 北京国双科技有限公司 司法热点确定方法及装置
CN109558538B (zh) * 2018-11-23 2022-02-01 北京字节跳动网络技术有限公司 输入联想词的构建方法、装置、存储介质及电子设备
CN110348940A (zh) * 2019-05-28 2019-10-18 成都美美臣科技有限公司 一种电子商务网站搜索建议的方法
CN111048215B (zh) * 2019-12-13 2023-08-18 北京纵横无双科技有限公司 一种基于crm的医疗视频制作方法及系统
CN111382342B (zh) * 2020-01-22 2023-03-24 腾讯科技(深圳)有限公司 一种热搜词的获取方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030206A (zh) * 2006-03-02 2007-09-05 吴风勇 搜索引擎关键字关联的发现和生成方法
CN101211368A (zh) * 2007-12-25 2008-07-02 北京搜狗科技发展有限公司 一种对查询词分类的方法、装置及搜索引擎系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076984A1 (en) * 2008-03-27 2010-03-25 Alkis Papadopoullos System and method for query expansion using tooltips
US7962487B2 (en) * 2008-12-29 2011-06-14 Microsoft Corporation Ranking oriented query clustering and applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030206A (zh) * 2006-03-02 2007-09-05 吴风勇 搜索引擎关键字关联的发现和生成方法
CN101211368A (zh) * 2007-12-25 2008-07-02 北京搜狗科技发展有限公司 一种对查询词分类的方法、装置及搜索引擎系统

Also Published As

Publication number Publication date
CN101984423A (zh) 2011-03-09

Similar Documents

Publication Publication Date Title
CN101984423B (zh) 一种热搜词生成方法及系统
US10102307B2 (en) Method and system for multi-phase ranking for content personalization
Xu et al. Towards the semantic web: Collaborative tag suggestions
Dupret et al. A model to estimate intrinsic document relevance from the clickthrough logs of a web search engine
CN103164521B (zh) 一种基于用户浏览和搜索行为的关键词计算方法及装置
US8145623B1 (en) Query ranking based on query clustering and categorization
Wetzker et al. A hybrid approach to item recommendation in folksonomies
CN101641697B (zh) 对网页的相关搜索查询及其应用
US20160048754A1 (en) Classifying resources using a deep network
Bogers et al. Collaborative and content-based filtering for item recommendation on social bookmarking websites
CN104885081A (zh) 搜索系统和相应方法
WO2014090007A1 (zh) 用于获取推荐主题的方法、装置和服务器
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN101685521A (zh) 在网页中展现广告的方法及系统
CN105378730A (zh) 社交媒体分析与输出
CN104077415A (zh) 搜索方法及装置
TWI571756B (zh) 用以分析瀏覽記錄及其文件之方法及其系統
Zhou et al. An intelligent video tag recommendation method for improving video popularity in mobile computing environment
CN104239552A (zh) 生成关联关键词、提供关联关键词的方法及系统
Baeza-Yates et al. The new frontier of web search technology: Seven challenges
WO2014155380A1 (en) System and method for topics extraction and filtering
CN103262079B (zh) 检索装置及检索方法
Qiu et al. Incorporate the syntactic knowledge in opinion mining in user-generated content
Jiang et al. Classifying user search intents for query auto-completion
KR20160002199A (ko) 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant