CN108170693B - 推送热词的方法及装置 - Google Patents

推送热词的方法及装置 Download PDF

Info

Publication number
CN108170693B
CN108170693B CN201611121628.2A CN201611121628A CN108170693B CN 108170693 B CN108170693 B CN 108170693B CN 201611121628 A CN201611121628 A CN 201611121628A CN 108170693 B CN108170693 B CN 108170693B
Authority
CN
China
Prior art keywords
retrieval
keywords
behavior data
pushing
access behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611121628.2A
Other languages
English (en)
Other versions
CN108170693A (zh
Inventor
孙中秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611121628.2A priority Critical patent/CN108170693B/zh
Publication of CN108170693A publication Critical patent/CN108170693A/zh
Application granted granted Critical
Publication of CN108170693B publication Critical patent/CN108170693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种推送热词的方法及装置。该方法包括:获取用户访问行为数据,其中,用户访问行为数据为多个用户访问目标网站产生的数据,用户访问行为数据包括多个用户ID和多个检索关键词,检索关键词为通过用户ID在目标网站上进行检索的关键词;对用户访问行为数据进行去重处理,得到去重后的用户访问行为数据;根据去重后的用户访问行为数据中多个用户ID确定去重后的用户访问行为数据中每个检索关键词的关联度;以及在目标网站上根据关联度进行热词推送。通过本申请,解决了相关技术中基于用户检索关键词的词频高低为用户推送热词的准确性较低的问题。

Description

推送热词的方法及装置
技术领域
本申请涉及互联网技术领域,具体而言,涉及一种推送热词的方法及装置。
背景技术
通常,在目标网站上通过部署网站用户行为数据采集代码,抓取用户访问行为数据(例如:检索关键词),抓取到的检索关键词的搜索量越高,表明此检索关键词的用户关注度越高,用户需求越大。然后搜索引擎会按照检索关键词的搜索量由高到低为用户推荐检索关键词。然而,相关技术中仅仅依据检索关键词的词频高低为用户推荐的热词,经常并不是用户所关注的热词,即为用户推送热词的准确性较低,导致用户在搜索引擎上查找所需信息的效率较低。
针对相关技术中基于用户检索关键词的词频高低为用户推送热词的准确性较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种推送热词的方法及装置,以解决相关技术中基于用户检索关键词的词频高低为用户推送热词的准确性较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种推送热词的方法。该方法包括:获取用户访问行为数据,其中,用户访问行为数据为多个用户访问目标网站产生的数据,用户访问行为数据包括多个用户ID和多个检索关键词,检索关键词为通过用户ID在目标网站上进行检索的关键词;对用户访问行为数据进行去重处理,得到去重后的用户访问行为数据;根据去重后的用户访问行为数据中多个用户ID确定去重后的用户访问行为数据中每个检索关键词的关联度;以及在目标网站上根据关联度进行热词推送。
进一步地,根据去重后的用户访问行为数据中多个用户ID确定去重后的用户访问行为数据中每个检索关键词的关联度包括:根据去重后的用户访问行为数据中的检索关键词建立邻接矩阵;在邻接矩阵中根据去重后的用户访问行为数据中的用户ID确定去重后的用户访问行为数据中的第一检索关键词与去重后的用户访问行为数据中的第二检索关键词之间是否存在关联关系;如果第一检索关键词与第二检索关键词之间存在关联关系,将第一检索关键词和第二检索关键词之间的关联度记录为第一标记;以及如果第一检索关键词与第二检索关键词之间不存在关联关系,将第一检索关键词和第二检索关键词之间的关联度记录为第二标记。
进一步地,在目标网站上根据关联度进行热词推送包括:根据每个检索关键词的关联度计算每个检索关键词的中心度,其中,中心度根据每个检索关键词记录的第一标记的个数除以关联度总和得到,关联度总和为邻接矩阵中记录的所有第一标记个数的总和;以及在目标网站上根据中心度进行热词推送。
进一步地,在目标网站上根据关联度进行热词推送包括:对每个检索关键词的中心度由高到低进行排序;按照预设规则获取N个排序后的检索关键词,其中,N为预设数值;判断N个排序后的检索关键词中是否存在中心度相同的检索关键词;如果N个排序后的检索关键词中不存在中心度相同的检索关键词,按照N个排序后的检索关键词的中心度由高到低进行检索关键词推送;以及如果N个排序后的检索关键词中存在中心度相同的检索关键词,对中心度相同的检索关键词按照预设规则进行检索关键词推送。
进一步地,如果N个排序后的检索关键词中存在中心度相同的检索关键词,对中心度相同的检索关键词按照预设规则进行检索关键词推送包括:确定中心度相同的检索关键词被用户检索的次数;以及对于中心度相同的检索关键词按照被用户检索的次数由高到低进行检索关键词推送。
为了实现上述目的,根据本申请的另一方面,提供了一种推送热词的装置。该装置包括:获取单元,用于获取用户访问行为数据,其中,用户访问行为数据为多个用户访问目标网站产生的数据,用户访问行为数据包括多个用户ID和多个检索关键词,检索关键词为通过用户ID在目标网站上进行检索的关键词;处理单元,用于对用户访问行为数据进行去重处理,得到去重后的用户访问行为数据;确定单元,用于根据去重后的用户访问行为数据中多个用户ID确定去重后的用户访问行为数据中每个检索关键词的关联度;以及推送单元,用于在目标网站上根据关联度进行热词推送。
进一步地,确定单元包括:建立模块,用于根据去重后的用户访问行为数据中的检索关键词建立邻接矩阵;第一判断模块,用于在邻接矩阵中根据去重后的用户访问行为数据中的用户ID确定去重后的用户访问行为数据中的第一检索关键词与去重后的用户访问行为数据中的第二检索关键词之间是否存在关联关系;第一记录模块,用于在第一检索关键词与第二检索关键词之间存在关联关系的情况下,将第一检索关键词和第二检索关键词之间的关联度记录为第一标记;以及第二记录模块,用于在第一检索关键词与第二检索关键词之间不存在关联关系的情况下,将第一检索关键词和第二检索关键词之间的关联度记录为第二标记。
进一步地,推送单元包括:计算模块,用于根据每个检索关键词的关联度计算每个检索关键词的中心度,其中,中心度根据每个检索关键词记录的第一标记的个数除以关联度总和得到,关联度总和为邻接矩阵中记录的所有第一标记个数的总和;以及第一推送模块,用于在目标网站上根据中心度进行热词推送。
进一步地,推送单元包括:排序模块,用于对每个检索关键词的中心度由高到低进行排序;获取模块,用于按照预设规则获取N个排序后的检索关键词,其中,N为预设数值;第二判断模块,用于判断N个排序后的检索关键词中是否存在中心度相同的检索关键词;第二推送模块,用于在N个排序后的检索关键词中不存在中心度相同的检索关键词的情况下,按照N个排序后的检索关键词的中心度由高到低进行检索关键词推送;以及第三推送模块,用于在N个排序后的检索关键词中存在中心度相同的检索关键词的情况下,对中心度相同的检索关键词按照预设规则进行检索关键词推送。
进一步地,第三推送模块包括:确定子模块,用于确定中心度相同的检索关键词被用户检索的次数;以及推送子模块,用于对于中心度相同的检索关键词按照被用户检索的次数由高到低进行检索关键词推送。
通过本申请,采用以下步骤:获取用户访问行为数据,其中,用户访问行为数据为多个用户访问目标网站产生的数据,用户访问行为数据包括多个用户ID和多个检索关键词,检索关键词为通过用户ID在目标网站上进行检索的关键词;对用户访问行为数据进行去重处理,得到去重后的用户访问行为数据;根据去重后的用户访问行为数据中多个用户ID确定去重后的用户访问行为数据中每个检索关键词的关联度;以及在目标网站上根据关联度进行热词推送,解决了相关技术中基于用户检索关键词的词频高低为用户推送热词的准确性较低的问题。由于根据检索关键词的关联度进行热词推送,进而达到了提升为用户推送热词的准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的推送热词的方法的流程图;以及
图2是根据本申请实施例提供的推送热词的装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
检索关键词:包括两部分,站内检索关键词和站外检索关键词。站内检索关键词,就是用户在使用站内搜索功能时输入的搜索文本。站外检索关键词,就是用户在搜索引擎的搜索框中输入的文字,可以是任何语言文字、数字或文字与数字等的混合体。
热词推送:网站站内搜索框下方位置放置的热搜索。
关联分析:又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。
中心度:社会网络学家认为,如果一个行动者与很多他者有直接的关联,该行动者就居于中心地位,从而拥有较大的权力。简单地说,如果一个点与其它许多点直接相连,就认为该点具有较高的中心度。
根据本申请的实施例,提供了一种推送热词的方法。
图1是根据本申请实施例的推送热词的方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取用户访问行为数据,其中,用户访问行为数据为多个用户访问目标网站产生的数据,用户访问行为数据包括多个用户ID和多个检索关键词,检索关键词为通过用户ID在目标网站上进行检索的关键词。
为了获取访问目标网站的用户ID和通过用户ID在目标网站上进行检索的关键词。通过在目标网站部署采集用户访问行为数据的采集代码,抓取用户访问行为数据。从而获取到用户访问行为数据。
步骤S102,对用户访问行为数据进行去重处理,得到去重后的用户访问行为数据。
获取到的用户访问行为数据中可能存在相同的用户ID,在目标网站上多次检索了相同的关键词。对用户访问行为数据中包含的相同的用户ID检索的多个相同的检索关键词执行去重处理,去除多条相同的用户ID检索的多个相同的检索关键词的数据信息。例如,用户A,在不同时间在目标网站上检索了5次“网红”。即,用户访问行为数据中包括:5条用户A,“网红”的数据信息。对其进行去重处理,保留一条用户A,“网红”信息。
步骤S103,根据去重后的用户访问行为数据中多个用户ID确定去重后的用户访问行为数据中每个检索关键词的关联度。
例如,用户A通过其用户ID在目标网站上检索了:网红、神曲、福利;用户B通过其用户ID在目标网站上检索了:福利、国庆、春节;用户C通过其用户ID在目标网站上检索了:春节、房价、神曲。那么,网红与神曲、福利具有关联关系,神曲与网红、福利、春节、房价具有关联关系,福利与网红、神曲、国庆、春节具有关联关系等等。需要说明的是,本申请中提及的关联关系是依据通过同一用户ID在目标网站上检索过的检索关键词具有关联关系。网红与神曲、福利具有关联关系,将检索关键词“网红”的关联度记录为2。神曲与网红、福利、春节、房价具有关联关系,将检索关键词“神曲”的关联度记录为4等等。
可选地,在本申请实施例提供的推送热词的方法中,根据去重后的用户访问行为数据中多个用户ID确定去重后的用户访问行为数据中每个检索关键词的关联度包括:根据去重后的用户访问行为数据中的检索关键词建立邻接矩阵;在邻接矩阵中根据去重后的用户访问行为数据中的用户ID确定去重后的用户访问行为数据中的第一检索关键词与去重后的用户访问行为数据中的第二检索关键词之间是否存在关联关系;如果第一检索关键词与第二检索关键词之间存在关联关系,将第一检索关键词和第二检索关键词之间的关联度记录为第一标记;以及如果第一检索关键词与第二检索关键词之间不存在关联关系,将第一检索关键词和第二检索关键词之间的关联度记录为第二标记。
需要说明的是,根据去重后的用户访问行为数据中的用户ID确定去重后的用户访问行为数据中的第一检索关键词与去重后的用户访问行为数据中的第二检索关键词之间是否存在关联关系,具体可以为:当第一检索关键词与第二检索关键词属于同一个用户ID的检索关键词时,确定第一检索关键词与第二检索关键词存在关联关系。
在本申请中提及的邻接矩阵为根据去重后的用户访问行为数据中的检索关键词进行创建的矩阵。例如,去重后的用户访问行为数据中的检索关键词:用户A通过其用户ID在目标网站上检索了:网红、神曲、福利;用户B通过其用户ID在目标网站上检索了:福利、国庆、春节;用户C通过其用户ID在目标网站上检索了:春节、房价、神曲。例如,设第一标记为数值,该数值为1,第二标记为数值,该数值为0。根据以上数据信息创建的邻接矩阵如下表1所示:
表1
网红 神曲 福利 福利 国庆 春节 春节 房价 神曲
网红 1 1 1 1 0 0 0 0 1
神曲 1 1 1 1 0 1 1 1 1
福利 1 1 1 1 1 1 0 0 1
福利 1 1 1 1 1 1 0 0 1
国庆 0 0 1 1 1 1 1 0 0
春节 0 1 1 1 1 0 1 1 1
春节 0 1 1 1 1 0 1 1 1
房价 0 1 0 0 0 1 1 1 1
神曲 1 1 1 1 0 1 1 1 1
步骤S104,在目标网站上根据关联度进行热词推送。
在目标网站上根据上述确定的检索关键词的关联度进行热词推送。本技术方案通过根据检索关键词的关联度进行热词推送,避免了基于用户检索关键词的词频高低为用户推送热词的准确性较低的问题。进而达到了提升为用户推送热词的准确性的效果。
可选地,在本申请实施例提供的推送热词的方法中,在目标网站上根据关联度进行热词推送包括:根据每个检索关键词的关联度计算每个检索关键词的中心度,其中,中心度根据每个检索关键词记录的第一标记的个数除以关联度总和得到,关联度总和为邻接矩阵中记录的所有第一标记个数的总和;以及在目标网站上根据中心度进行热词推送。
以上述表1中的数据为例,例如,检索关键词“网红”的关联度(“网红”记录的第一标记的个数)为5。邻接矩阵中记录的所有关联度之和,关联度总和为61,检索关键词“网红”的中心度为5/61;检索关键词“神曲”的关联度为16。邻接矩阵中记录的所有关联度之和,关联度总和为61,检索关键词“神曲”的中心度为16/61等等,根据计算出来的检索关键词的中心度进行热词推送。
可选地,在本申请实施例提供的推送热词的方法中,在目标网站上根据关联度进行热词推送包括:对每个检索关键词的中心度由高到低进行排序;按照预设规则获取N个排序后的检索关键词,其中,N为预设数值,为正整数;判断N个排序后的检索关键词中是否存在中心度相同的检索关键词;如果N个排序后的检索关键词中不存在中心度相同的检索关键词,按照N个排序后的检索关键词的中心度由高到低进行检索关键词推送;以及如果N个排序后的检索关键词中存在中心度相同的检索关键词,对中心度相同的检索关键词按照预设规则进行检索关键词推送。
可选地,在本申请实施例提供的推送热词的方法中,如果N个排序后的检索关键词中存在中心度相同的检索关键词,对中心度相同的检索关键词按照预设规则进行检索关键词推送包括:确定中心度相同的检索关键词被用户检索的次数;以及对于中心度相同的检索关键词按照被用户检索的次数由高到低进行检索关键词推送。
以上述表1中的数据为例,对上述计算出来的检索关键词“网红”、“神曲”、“福利”、“国庆”、“春节”的中心度由高到低进行排序,例如,获取前3个依据中心度进行排序后的检索关键词,如,获取到“福利”、“神曲”和“春节”。判断这3个检索关键词是否存在相同中心度。如果不存在相同中心度的检索关键词,按照中心度由高到底的顺序在目标网站上进行检索关键词推送。如果存在相同中心度的检索关键词,假如,“神曲”与“春节”的中心度相同,判断“神曲”与“春节”被用户检索的次数,如果“神曲”被检索10次,“春节”被检索6次,则“神曲”的排序靠前,“春节”的排序靠后。先按照中心度由高到低的顺序进行检索关键词推送,对于中心度相同的检索关键词,依据被用户检索的次数进行检索关键词推送。通过以上方法,将检索关键词的关联度与用户检索次数(即检索关键词的词频高低)进行结合,提升了目标网站为用户推送热词的准确性。
本申请实施例提供的推送热词的方法,通过获取用户访问行为数据,其中,用户访问行为数据为多个用户访问目标网站产生的数据,用户访问行为数据包括多个用户ID和多个检索关键词,检索关键词为通过用户ID在目标网站上进行检索的关键词;对用户访问行为数据进行去重处理,得到去重后的用户访问行为数据;根据去重后的用户访问行为数据中多个用户ID确定去重后的用户访问行为数据中每个检索关键词的关联度;以及在目标网站上根据关联度进行热词推送,解决了相关技术中基于用户检索关键词的词频高低为用户推送热词的准确性较低的问题。由于根据检索关键词的关联度进行热词推送,进而达到了提升为用户推送热词的准确性的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种推送热词的装置,需要说明的是,本申请实施例的推送热词的装置可以用于执行本申请实施例所提供的用于推送热词的方法。以下对本申请实施例提供的推送热词的装置进行介绍。
图2是根据本申请实施例的推送热词的装置的示意图。如图2所示,该装置包括:获取单元10、处理单元20、确定单元30和推送单元40。
具体地,获取单元10,用于获取用户访问行为数据,其中,用户访问行为数据为多个用户访问目标网站产生的数据,用户访问行为数据包括多个用户ID和多个检索关键词,检索关键词为通过用户ID在目标网站上进行检索的关键词。
处理单元20,用于对用户访问行为数据进行去重处理,得到去重后的用户访问行为数据。
确定单元30,用于根据去重后的用户访问行为数据中多个用户ID确定去重后的用户访问行为数据中每个检索关键词的关联度。
推送单元40,用于在目标网站上根据关联度进行热词推送。
本申请实施例提供的推送热词的装置,通过获取单元10获取用户访问行为数据,其中,用户访问行为数据为多个用户访问目标网站产生的数据,用户访问行为数据包括多个用户ID和多个检索关键词,检索关键词为通过用户ID在目标网站上进行检索的关键词;处理单元20对用户访问行为数据进行去重处理,得到去重后的用户访问行为数据;确定单元30根据去重后的用户访问行为数据中多个用户ID确定去重后的用户访问行为数据中每个检索关键词的关联度;推送单元40在目标网站上根据关联度进行热词推送,解决了相关技术中基于用户检索关键词的词频高低为用户推送热词的准确性较低的问题。由于根据检索关键词的关联度进行热词推送,进而达到了提升为用户推送热词的准确性的效果。
可选地,在本申请实施例提供的推送热词的装置中,确定单元包括:建立模块,用于根据去重后的用户访问行为数据中的检索关键词建立邻接矩阵;第一判断模块,用于在邻接矩阵中根据去重后的用户访问行为数据中的用户ID确定去重后的用户访问行为数据中的第一检索关键词与去重后的用户访问行为数据中的第二检索关键词之间是否存在关联关系;第一记录模块,用于在第一检索关键词与第二检索关键词之间存在关联关系的情况下,将第一检索关键词和第二检索关键词之间的关联度记录为第一标记;以及第二记录模块,用于在第一检索关键词与第二检索关键词之间不存在关联关系的情况下,将第一检索关键词和第二检索关键词之间的关联度记录为第二标记。
可选地,在本申请实施例提供的推送热词的装置中,推送单元包括:计算模块,用于根据每个检索关键词的关联度计算每个检索关键词的中心度,其中,中心度根据每个检索关键词记录的第一标记的个数除以关联度总和得到,关联度总和为邻接矩阵中记录的所有第一标记个数的总和;以及第一推送模块,用于在目标网站上根据中心度进行热词推送。
可选地,在本申请实施例提供的推送热词的装置中,推送单元包括:排序模块,用于对每个检索关键词的中心度由高到低进行排序;获取模块,用于按照预设规则获取N个排序后的检索关键词,其中,N为预设数值;第二判断模块,用于判断N个排序后的检索关键词中是否存在中心度相同的检索关键词;第二推送模块,用于在N个排序后的检索关键词中不存在中心度相同的检索关键词的情况下,按照N个排序后的检索关键词的中心度由高到低进行检索关键词推送;以及第三推送模块,用于在N个排序后的检索关键词中存在中心度相同的检索关键词的情况下,对中心度相同的检索关键词按照预设规则进行检索关键词推送。
可选地,在本申请实施例提供的推送热词的装置中,第三推送模块包括:确定子模块,用于确定中心度相同的检索关键词被用户检索的次数;以及推送子模块,用于对于中心度相同的检索关键词按照被用户检索的次数由高到低进行检索关键词推送。
所述推送热词的装置包括处理器和存储器,上述获取单元10、处理单元20、确定单元30和推送单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述第一标记、第二标记、预设数值和预设规则都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数推送热词。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取用户访问行为数据,其中,用户访问行为数据为多个用户访问目标网站产生的数据,用户访问行为数据包括多个用户ID和多个检索关键词,检索关键词为通过用户ID在目标网站上进行检索的关键词;对用户访问行为数据进行去重处理,得到去重后的用户访问行为数据;根据去重后的用户访问行为数据中多个用户ID确定去重后的用户访问行为数据中每个检索关键词的关联度;以及在目标网站上根据关联度进行热词推送。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.一种推送热词的方法,其特征在于,包括:
获取用户访问行为数据,其中,所述用户访问行为数据为多个用户访问目标网站产生的数据,所述用户访问行为数据包括多个用户ID和多个检索关键词,所述检索关键词为通过所述用户ID在所述目标网站上进行检索的关键词;
对所述用户访问行为数据进行去重处理,得到去重后的用户访问行为数据;
根据所述去重后的用户访问行为数据中多个用户ID确定所述去重后的用户访问行为数据中每个检索关键词的关联度;以及
在所述目标网站上根据所述关联度进行热词推送;
其中,根据所述去重后的用户访问行为数据中多个用户ID确定所述去重后的用户访问行为数据中每个检索关键词的关联度包括:
根据所述去重后的用户访问行为数据中的检索关键词建立邻接矩阵;
在所述邻接矩阵中根据所述去重后的用户访问行为数据中的用户ID确定所述去重后的用户访问行为数据中的第一检索关键词与所述去重后的用户访问行为数据中的第二检索关键词之间是否存在关联关系;
如果所述第一检索关键词与所述第二检索关键词之间存在关联关系,将所述第一检索关键词和所述第二检索关键词之间的关联度记录为第一标记;以及
如果所述第一检索关键词与所述第二检索关键词之间不存在关联关系,将所述第一检索关键词和所述第二检索关键词之间的关联度记录为第二标记;
在所述目标网站上根据所述关联度进行热词推送包括:
根据所述每个检索关键词的关联度计算所述每个检索关键词的中心度,其中,所述中心度根据所述每个检索关键词记录的第一标记的个数除以关联度总和得到,所述关联度总和为所述邻接矩阵中记录的所有第一标记个数的总和;以及
在所述目标网站上根据所述中心度进行热词推送。
2.根据权利要求1所述的方法,其特征在于,在所述目标网站上根据所述关联度进行热词推送包括:
对所述每个检索关键词的中心度由高到低进行排序;
按照预设规则获取N个排序后的检索关键词,其中,所述N为预设数值;
判断所述N个排序后的检索关键词中是否存在中心度相同的检索关键词;
如果所述N个排序后的检索关键词中不存在所述中心度相同的检索关键词,按照所述N个排序后的检索关键词的中心度由高到低进行检索关键词推送;以及
如果所述N个排序后的检索关键词中存在所述中心度相同的检索关键词,对所述中心度相同的检索关键词按照预设规则进行检索关键词推送。
3.根据权利要求2所述的方法,其特征在于,如果所述N个排序后的检索关键词中存在所述中心度相同的检索关键词,对所述中心度相同的检索关键词按照预设规则进行检索关键词推送包括:
确定所述中心度相同的检索关键词被用户检索的次数;以及
对于所述中心度相同的检索关键词按照所述被用户检索的次数由高到低进行检索关键词推送。
4.一种推送热词的装置,其特征在于,包括:
获取单元,用于获取用户访问行为数据,其中,所述用户访问行为数据为多个用户访问目标网站产生的数据,所述用户访问行为数据包括多个用户ID和多个检索关键词,所述检索关键词为通过所述用户ID在所述目标网站上进行检索的关键词;
处理单元,用于对所述用户访问行为数据进行去重处理,得到去重后的用户访问行为数据;
确定单元,用于根据所述去重后的用户访问行为数据中多个用户ID确定所述去重后的用户访问行为数据中每个检索关键词的关联度;以及
推送单元,用于在所述目标网站上根据所述关联度进行热词推送;
其中,所述确定单元包括:
建立模块,用于根据所述去重后的用户访问行为数据中的检索关键词建立邻接矩阵;
第一判断模块,用于在所述邻接矩阵中根据所述去重后的用户访问行为数据中的用户ID确定所述去重后的用户访问行为数据中的第一检索关键词与所述去重后的用户访问行为数据中的第二检索关键词之间是否存在关联关系;
第一记录模块,用于在所述第一检索关键词与所述第二检索关键词之间存在关联关系的情况下,将所述第一检索关键词和所述第二检索关键词之间的关联度记录为第一标记;以及
第二记录模块,用于在所述第一检索关键词与所述第二检索关键词之间不存在关联关系的情况下,将所述第一检索关键词和所述第二检索关键词之间的关联度记录为第二标记;
所述推送单元包括:
计算模块,用于根据所述每个检索关键词的关联度计算所述每个检索关键词的中心度,其中,所述中心度根据所述每个检索关键词记录的第一标记的个数除以关联度总和得到,所述关联度总和为所述邻接矩阵中记录的所有第一标记个数的总和;以及
第一推送模块,用于在所述目标网站上根据所述中心度进行热词推送。
5.根据权利要求4所述的装置,其特征在于,所述推送单元包括:
排序模块,用于对所述每个检索关键词的中心度由高到低进行排序;
获取模块,用于按照预设规则获取N个排序后的检索关键词,其中,所述N为预设数值;
第二判断模块,用于判断所述N个排序后的检索关键词中是否存在中心度相同的检索关键词;
第二推送模块,用于在所述N个排序后的检索关键词中不存在所述中心度相同的检索关键词的情况下,按照所述N个排序后的检索关键词的中心度由高到低进行检索关键词推送;以及
第三推送模块,用于在所述N个排序后的检索关键词中存在所述中心度相同的检索关键词的情况下,对所述中心度相同的检索关键词按照预设规则进行检索关键词推送。
6.根据权利要求5所述的装置,其特征在于,所述第三推送模块包括:
确定子模块,用于确定所述中心度相同的检索关键词被用户检索的次数;以及
推送子模块,用于对于所述中心度相同的检索关键词按照所述被用户检索的次数由高到低进行检索关键词推送。
CN201611121628.2A 2016-12-07 2016-12-07 推送热词的方法及装置 Active CN108170693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611121628.2A CN108170693B (zh) 2016-12-07 2016-12-07 推送热词的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611121628.2A CN108170693B (zh) 2016-12-07 2016-12-07 推送热词的方法及装置

Publications (2)

Publication Number Publication Date
CN108170693A CN108170693A (zh) 2018-06-15
CN108170693B true CN108170693B (zh) 2020-07-31

Family

ID=62526571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611121628.2A Active CN108170693B (zh) 2016-12-07 2016-12-07 推送热词的方法及装置

Country Status (1)

Country Link
CN (1) CN108170693B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489507B (zh) * 2020-11-23 2023-04-11 广西水利电力职业技术学院 基于vr与全息投影的大数据融合式智慧教学法
CN113032680A (zh) * 2021-04-19 2021-06-25 南京点橙互联网科技有限公司 基于用户订阅热词模式的推荐方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
CN101324948A (zh) * 2008-07-24 2008-12-17 阿里巴巴集团控股有限公司 一种信息推荐的方法及装置
CN101408960A (zh) * 2007-10-12 2009-04-15 阿里巴巴集团控股有限公司 一种个性化信息推荐方法和装置
CN102194015A (zh) * 2011-06-30 2011-09-21 重庆新媒农信科技有限公司 检索信息热度统计方法
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN103020212A (zh) * 2012-12-07 2013-04-03 合一网络技术(北京)有限公司 一种基于用户查询日志实时发现热点视频的方法和装置
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN104408102A (zh) * 2014-11-19 2015-03-11 北京国双科技有限公司 用于网络热词与对象的关联度的数据处理方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
CN101408960A (zh) * 2007-10-12 2009-04-15 阿里巴巴集团控股有限公司 一种个性化信息推荐方法和装置
CN101324948A (zh) * 2008-07-24 2008-12-17 阿里巴巴集团控股有限公司 一种信息推荐的方法及装置
CN102194015A (zh) * 2011-06-30 2011-09-21 重庆新媒农信科技有限公司 检索信息热度统计方法
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN103020212A (zh) * 2012-12-07 2013-04-03 合一网络技术(北京)有限公司 一种基于用户查询日志实时发现热点视频的方法和装置
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN104408102A (zh) * 2014-11-19 2015-03-11 北京国双科技有限公司 用于网络热词与对象的关联度的数据处理方法和装置

Also Published As

Publication number Publication date
CN108170693A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN110532451B (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
CN108121737B (zh) 一种业务对象属性标识的生成方法、装置和系统
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
CN107526807B (zh) 信息推荐方法及装置
US9317613B2 (en) Large scale entity-specific resource classification
CN105653537B (zh) 一种数据库应用系统的分页查询方法和装置
US20080154876A1 (en) Methods and apparatus for providing a location based search
CN105512156B (zh) 点击模型生成方法和装置
US20130006975A1 (en) System and method for matching entities and synonym group organizer used therein
CN103597474A (zh) 对列入访问控制表的文档进行的高效索引和搜索
CN111241389A (zh) 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN103605715A (zh) 用于多个数据源的数据整合处理方法和装置
CN106815265B (zh) 裁判文书的搜索方法及装置
CN115145871A (zh) 文件查询方法、装置和电子设备
CN108170693B (zh) 推送热词的方法及装置
RU2014102136A (ru) Способ извлечения полезного контента из установочных файлов мобильных приложений для дальнейшей машинной обработки данных, в частности поиска
CN114780606A (zh) 一种大数据挖掘方法及系统
TW201333727A (zh) 開端式偵測及文字資料中之字叢集之分類
Kim et al. TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme
US20140081982A1 (en) Method and Computer for Indexing and Searching Structures
CN110399026B (zh) 基于fpga的多源单输出复位方法、装置及相关设备
CN108268522B (zh) 网站栏目内容的展现方法及装置
CN116228374A (zh) 物流行业市场单量数据预警方法、装置、设备及存储介质
CN110543457A (zh) 轨迹类文档处理方法和装置、存储介质及电子装置
CN111723273A (zh) 一种智慧云检索系统及方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant