CN112000865B - 热词生成方法、装置、服务器及存储介质 - Google Patents

热词生成方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN112000865B
CN112000865B CN202010712756.4A CN202010712756A CN112000865B CN 112000865 B CN112000865 B CN 112000865B CN 202010712756 A CN202010712756 A CN 202010712756A CN 112000865 B CN112000865 B CN 112000865B
Authority
CN
China
Prior art keywords
information
target
hotword
theme
hotwords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010712756.4A
Other languages
English (en)
Other versions
CN112000865A (zh
Inventor
金峙廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202010712756.4A priority Critical patent/CN112000865B/zh
Publication of CN112000865A publication Critical patent/CN112000865A/zh
Application granted granted Critical
Publication of CN112000865B publication Critical patent/CN112000865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种热词生成方法、装置、服务器及存储介质,该方法包括:确定每个信息主题对应的目标用户数量;根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量;根据每个信息主题中目标用户的历史行为信息和待展示的热词数量,生成每个信息主题待展示的目标热词;确定所述目标热词在所述热词榜单中的展示位置。本公开由于在确定热词榜单中的目标热词时,结合了信息主题的目标用户数量来为每个信息主题分配待展示的热词数量,从而使得较多的信息主题的热词展示在热词榜单中,避免了只展示某一类型的信息主题,提高了热词的准确性,而且可以覆盖较多的用户,提高了热词的用户覆盖度。

Description

热词生成方法、装置、服务器及存储介质
技术领域
本公开涉及互联网技术领域,尤其涉及一种热词生成方法、装置、服务器及存储介质。
背景技术
相关技术中,在生成热词时主要是将点击率较高的内容提炼为热词,容易导致某一类型的信息对应的热词较多,从而导致展示的热词只能面向某一部分的用户,展示的热词不准确,覆盖的用户不全面。
发明内容
本公开提供一种热词生成方法、装置、服务器及存储介质,以至少解决相关技术中生成的热词不准确、覆盖用户不全面的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种热词生成方法,包括:
确定每个信息主题对应的目标用户数量;
根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量;
根据每个信息主题中目标用户的历史行为信息和待展示的热词数量,生成每个信息主题待展示的目标热词;
确定所述目标热词在所述热词榜单中的展示位置。
可选的,所述根据每个信息主题中目标用户的历史行为信息和待展示的热词数量,生成每个信息主题待展示的目标热词,包括:
根据每个信息主题中目标用户的历史行为信息,生成每个信息主题对应的热词;
根据每个信息主题对应热词的使用频次,从每个信息主题对应的热词中确定出待展示的热词数量预设倍数的热词,作为每个信息主题对应的候选热词;
从每个信息主题对应的候选热词中选取所述热词数量的候选热词,作为每个信息主题待展示的目标热词。
可选的,在所述根据每个信息主题中目标用户的历史行为信息,生成每个信息主题对应的热词之前,还包括:
根据每个信息主题中每个目标用户的使用频次,将每个信息主题中的目标用户分为活跃用户和非活跃用户;
所述根据每个信息主题中目标用户的历史行为信息,生成每个信息主题对应的热词,包括:
根据每个信息主题中活跃用户的历史行为信息,生成每个信息主题对应的热词。
可选的,在所述确定所述目标热词在所述热词榜单中的展示位置之后,还包括:
在当前调节时间区间内,确定所述热词榜单中每个信息主题的目标热词对应的非活跃用户的使用频次;
根据每个信息主题中非活跃用户对目标热词的使用频次和非活跃用户的数量,确定每个信息主题中目标热词的引流率;
若一个信息主题中目标热词的引流率小于引流率阈值,则从该信息主题对应的候选热词中选取一个所述目标热词之外的候选热词,并使用选取到的候选热词替换所述热词榜单中的目标热词。
可选的,所述根据每个信息主题中每个目标用户的使用频次,将每个信息主题中的目标用户分为活跃用户和非活跃用户,包括:
若一个信息主题中一个目标用户的使用频次小于该信息主题对应的频次阈值,则将该目标用户作为该信息主题的非活跃用户;
若一个信息主题中一个目标用户的使用频次大于或等于该信息主题对应的频次阈值,则将该目标用户作为该信息主题的活跃用户。
可选的,所述根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量,包括:
计算每个信息主题对应的目标用户数量之间的比例,作为每个信息主题待展示的热词数量的比例;
根据每个信息主题待展示的热词数量的比例和热词榜单中待展示热词的总数量,确定热词榜单中每个信息主题待展示的热词数量。
可选的,在所述根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量之前,还包括:
若信息主题的数量大于热词榜单中待展示热词的总数量,则根据每个信息主题中目标用户的数量,选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题。
可选的,所述根据每个信息主题中目标用户的数量,选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题,包括:
按照每个信息主题中目标用户的数量从大到小的顺序,对每个信息主题进行排序;
按照顺序从排序后的信息主题中选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题。
可选的,在所述确定每个信息主题对应的目标用户数量之前,还包括:
根据用户的注册信息中的信息主题和用户的历史行为信息,确定用户对应的信息主题;
按照信息主题,将与该信息主题对应的用户归入该信息主题下,作为该信息主题对应的目标用户。
根据本公开实施例的第二方面,提供一种热词生成装置,包括:
用户数量确定模块,被配置为确定每个信息主题对应的目标用户数量;
热词数量确定模块,被配置为根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量;
目标热词生成模块,被配置为根据每个信息主题中目标用户的历史行为信息和待展示的热词数量,生成每个信息主题待展示的目标热词;
展示位置确定模块,被配置为确定所述目标热词在所述热词榜单中的展示位置。
可选的,所述目标热词生成模块包括:
热词生成单元,被配置为根据每个信息主题中目标用户的历史行为信息,生成每个信息主题对应的热词;
候选热词确定单元,被配置为根据每个信息主题对应热词的使用频次,从每个信息主题对应的热词中确定出待展示的热词数量预设倍数的热词,作为每个信息主题对应的候选热词;
目标热词确定单元,被配置为从每个信息主题对应的候选热词中选取所述热词数量的候选热词,作为每个信息主题待展示的目标热词。
可选的,所述装置还包括:
用户划分模块,被配置为根据每个信息主题中每个目标用户的使用频次,将每个信息主题中的目标用户分为活跃用户和非活跃用户;
所述热词生成单元具体被配置为:
根据每个信息主题中活跃用户的历史行为信息,生成每个信息主题对应的热词。
可选的,所述装置还包括:
目标热词频次确定模块,被配置为在当前调节时间区间内,确定所述热词榜单中每个信息主题的目标热词对应的非活跃用户的使用频次;
引流率确定模块,被配置为根据每个信息主题中非活跃用户对目标热词的使用频次和非活跃用户的数量,确定每个信息主题中目标热词的引流率;
目标热词替换模块,被配置为若一个信息主题中目标热词的引流率小于引流率阈值,则从该信息主题对应的候选热词中选取一个所述目标热词之外的候选热词,并使用选取到的候选热词替换所述热词榜单中的目标热词。
可选的,所述用户划分模块具体被配置为:
若一个信息主题中一个目标用户的使用频次小于该信息主题对应的频次阈值,则将该目标用户作为该信息主题的非活跃用户;
若一个信息主题中一个目标用户的使用频次大于或等于该信息主题对应的频次阈值,则将该目标用户作为该信息主题的活跃用户。
可选的,所述热词数量确定模块包括:
热词比例确定单元,被配置为计算每个信息主题对应的目标用户数量之间的比例,作为每个信息主题待展示的热词数量的比例;
热词数量确定单元,被配置为根据每个信息主题待展示的热词数量的比例和热词榜单中待展示热词的总数量,确定热词榜单中每个信息主题待展示的热词数量。
可选的,所述装置还包括:
信息主题确定模块,被配置为若信息主题的数量大于热词榜单中待展示热词的总数量,则根据每个信息主题中目标用户的数量,选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题。
可选的,所述信息主题确定模块包括:
排序单元,被配置为按照每个信息主题中目标用户的数量从大到小的顺序,对每个信息主题进行排序;
信息主题确定单元,被配置为按照顺序从排序后的信息主题中选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题。
可选的,所述装置还包括:
用户主题确定模块,被配置为根据用户的注册信息中的信息主题和用户的历史行为信息,确定用户对应的信息主题;
主题用户确定模块,被配置为按照信息主题,将与该信息主题对应的用户归入该信息主题下,作为该信息主题对应的目标用户。
根据本公开实施例的第三方面,提供一种服务器,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的热词生成方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如第一方面所述的热词生成方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,该计算机程序产品包括可读性程序代码,该可读性程序代码由服务器的处理器执行时,使得服务器能够执行如第一方面所述的热词生成方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开实施例通过确定每个信息主题对应的目标用户数量,根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量,根据每个信息主题中目标用户的历史行为信息和待展示的热词数量,生成每个信息主题待展示的目标热词,并确定目标热词在热词榜单中的展示位置,由于在确定热词榜单中的目标热词时,结合了信息主题的目标用户数量来为每个信息主题分配待展示的热词数量,从而使得较多的信息主题的热词展示在热词榜单中,避免了只展示某一类型的信息主题,提高了热词的准确性,而且可以覆盖较多的用户,提高了热词的用户覆盖度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种热词生成方法的流程图;
图2是根据一示例性实施例示出的一种热词生成方法的流程图;
图3是根据一示例性实施例示出的一种热词生成装置的结构框图;
图4是根据一示例性实施例示出的一种服务器的结构框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
目前,使用信息流平台的用户越来越多,与此同时,平台上每天也会产生非常多的信息内容。有些内容比较优质,能引起用户们的兴趣,则这些内容会得到很多用户的搜索与点击,内容的热度就会随之提高。信息流平台会将这些有热度的内容提炼出关键字,形成热词,对热词的热度进行排名,进一步推荐给用户,用户又通过热词榜单中的热词,可以点击进入阅读相关的内容文章。
相关技术中,大部分热词的生成方式是通过用户阅读或者检索的内容,找出点击率较高的内容,然后将内容进行关键词提炼,提炼出的词就是热词;内容对应的点击率可以代表热词的热度,根据热词的热度对热词进行排序,截取出符合热词榜单中热词数量的热词。
可见,相关技术中生成热词的规则没有区分信息流平台的用户类型,统一按照热词的热度来确定热词榜单中的热词,容易导致某一类型的信息对应的热词较多,从而导致展示的热词只能面向某一部分的用户,展示的热词不准确,覆盖的用户不全面。
图1是根据一示例性实施例示出的一种热词生成方法的流程图,如图1所示,所述热词生成方法用于服务器中,包括以下步骤。
在步骤S11中,确定每个信息主题对应的目标用户数量。
其中,所述信息主题是信息的主题类型,例如可以包括娱乐新闻、时事新闻、体育、养生、育儿等。
根据用户的注册信息和用户的历史行为信息,可以确定每个用户感兴趣的信息主题,从而对于一个信息主题,将对该信息主题感兴趣的用户作为该信息主题的目标用户,并统计该信息主题对应的目标用户数量,对于每一个信息主题都分别进行统计,从而可以确定每个信息主题对应的目标用户数量。
在步骤S12中,根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量。
可以根据各个信息主题对应的目标用户数量来为每个信息主题分配热词榜单中待展示的热词数量。例如,若一个信息主题对应的目标用户数量较多,则可以为该信息主题分配较多的热词数量,若一个信息主题对应的目标用户数量较少,则可以为该信息主题分配较少的热词数量。当然,在根据每个信息主题对应的目标用户数量为每个信息主题分配热词榜单中待展示的热词数量时,还需要结合热词榜单中待展示热词的总数量和信息主题的数量来确定,如果信息主题的数量大于或等于热词榜单中待展示热词的总数量,则可以从所有的信息主题中选取一部分信息主题进行热词的展示。
在步骤S13中,根据每个信息主题中目标用户的历史行为信息和待展示的热词数量,生成每个信息主题待展示的目标热词。
其中,所述历史行为信息包括访问内容、检索关键词等。
根据每个信息主题中目标用户的访问内容、检索关键词等历史行为信息,生成每个信息主题对应的热词,按照一个信息主题中每个热词访问或搜索的频次,选取频次最高的待展示的热词数量的热词,作为该信息主题待展示的目标热词。
在步骤S14中,确定所述目标热词在所述热词榜单中的展示位置。
在确定热词榜单中待展示的每个信息主题的目标热词后,可以随机确定每个目标热词在热词榜单中的展示位置,或者,也可以根据每个目标热词被访问或搜索的频次,来为每个目标热词进行排序,按照排序后的顺序,确定每个目标热词在热词榜单中的展示位置。在确定每个目标热词在热词榜单中的展示位置后,将所有的目标热词展示在热词榜单中,
本示例性实施例提供的热词生成方法,通过确定每个信息主题对应的目标用户数量,根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量,根据每个信息主题中目标用户的历史行为信息和待展示的热词数量,生成每个信息主题待展示的目标热词,并确定目标热词在热词榜单中的展示位置,由于在确定热词榜单中的目标热词时,结合了信息主题的目标用户数量来为每个信息主题分配待展示的热词数量,从而使得较多的信息主题的热词展示在热词榜单中,避免了只展示某一类型的信息主题,提高了热词的准确性,而且可以覆盖较多的用户,提高了热词的用户覆盖度。
在上述技术方案的基础上,在所述确定每个信息主题对应的目标用户数量之前,还包括:根据用户的注册信息中的信息主题和用户的历史行为信息,确定用户对应的信息主题;按照信息主题,将与该信息主题对应的用户归入该信息主题下,作为该信息主题对应的目标用户。
每个用户在注册时,可以选择自己感兴趣的信息主题,从而用户的注册信息中可以包括用户选择的信息主题。用户在浏览搜索信息的过程中,一般也会浏览自己感兴趣的信息主题,从而从用户的历史行为信息中也可以确定用户对应的信息主题。在确定每个用户对应的信息主题后,对于一个信息主题,分别将与该信息主题对应的用户归入该信息主题下,作为该信息主题对应的目标用户,对于每个信息主题均按照这种方式确定信息主题对应的目标用户。通过根据用户的注册信息和历史行为信息来确定每个信息主题对应的目标用户,实现了按照用户的兴趣对用户进行分组。
在上述技术方案的基础上,所述根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量,包括:计算每个信息主题对应的目标用户数量之间的比例,作为每个信息主题待展示的热词数量的比例;根据每个信息主题待展示的热词数量的比例和热词榜单中待展示热词的总数量,确定热词榜单中每个信息主题待展示的热词数量。
将每个信息主题对应的目标用户数量之间的比例,作为每个信息主题待展示的热词数量的比例,例如,热词榜单中可展示的目标热词的数量为20个,有2个信息主题A和B,这两个信息主题中目标用户数量比例是A:B=2:3,则确定热词榜单中信息主题A待展示的热词数量为20*(2/(2+3))=8,确定热词榜单中信息主题B待展示的热词数量为20*(3/(2+3))=12。通过根据每个信息主题对应的目标用户数量之间的比例,来为每个信息主题分配待展示的热词数量,可以为目标用户数量较多的信息主题分配较多的热词展示位置,为目标用户数量较少的信息主题分配较少的热词展示位置,从而可以覆盖到不同类型的用户。
在上述技术方案的基础上,在所述根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量之前,还包括:若信息主题的数量大于热词榜单中待展示热词的总数量,则根据每个信息主题中目标用户的数量,选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题。
计算信息主题的数量,将信息主题的数量与热词榜单中待展示热词的总数量进行比较,如果信息主题的数量小于或等于热词榜单中待展示热词的总数量,则不需要进行处理,如果信息主题的数量大于热词榜单中待展示热词的总数量,则可以选取目标用户数量较多的信息主题,选取的信息主题的数量与热词榜单中待展示热词的总数量相同,从而选取到目标用户数量较多的信息主题,并对这些信息主题的目标热词进行展示,从而可以起到吸引用户的目的。
在上述技术方案的基础上,所述根据每个信息主题中目标用户的数量,选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题,包括:按照每个信息主题中目标用户的数量从大到小的顺序,对每个信息主题进行排序;按照顺序从排序后的信息主题中选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题。
在选取信息主题时,可以按照每个信息主题中目标用户的数量从大到小的顺序对每个信息主题进行排序,并选取排序靠前的数量与待展示热词的总数量相同的信息主题,作为待展示热词的信息主题,从而选取到目标用户数量较多的信息主题,并对这些信息主题的目标热词进行展示,从而可以起到吸引用户的目的。
图2是根据一示例性实施例示出的一种热词生成方法的流程图,如图2所示,所述热词生成方法用于服务器中,包括以下步骤。
在步骤S21中,确定每个信息主题对应的目标用户数量。
在步骤S22中,根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量。
在步骤S23中,根据每个信息主题中目标用户的历史行为信息,生成每个信息主题对应的热词。
根据每个信息主题中目标用户的访问内容、搜索关键词等历史行为信息,提炼出对应的关键词,作为每个信息主题对应的热词。
在步骤S24中,根据每个信息主题对应热词的使用频次,从每个信息主题对应的热词中确定出待展示的热词数量预设倍数的热词,作为每个信息主题对应的候选热词。
对于每个信息主题,可以确定数量较待展示的热词数量多的热词,作为候选热词,以便于后续根据热词榜单中展示的目标热词的被使用情况,来对该信息主题展示的目标热词进行调整。每个信息主题对应的候选热词的数量是该信息主题待展示的热词数量的预设倍数,例如,预设倍数可以是2倍、3倍等。
在步骤S25中,从每个信息主题对应的候选热词中选取所述热词数量的候选热词,作为每个信息主题待展示的目标热词。
在确定每个信息主题对应的候选热词后,从每个信息主题对应的候选热词中选取待展示的热词数量的候选热词,作为每个信息主题待展示的目标热词。在选取一个信息主题对应的目标热词时,可以从候选热词中随机选取待展示的热词数量的热词,作为目标热词,或者,也可以根据每个候选热词在目标用户的历史行为信息中的使用频次,来选取使用频次较高的待展示的热词数量的热词,作为目标热词。
在步骤S26中,确定所述目标热词在所述热词榜单中的展示位置。
本示例性实施例提供的热词生成方法,通过在生成每个信息主题对应的目标热词时,首先根据每个信息主题中目标用户的历史行为信息生成每个信息主题对应的热词,再根据每个信息主题对应热词的使用频次,从每个信息主题对应的热词中确定出待展示的热词数量预设倍数的热词,作为每个信息主题对应的候选热词,从每个信息主题对应的候选热词中选取待展示的热词数量的候选热词,作为每个信息主题待展示的目标热词,由于在生成目标热词时,可以生成数量较多的候选热词,可以为后续对热词榜单中的热词进行调整提供基础,便于对热词榜单中结果不满意的热词进行调整。
在上述技术方案的基础上,在所述根据每个信息主题中目标用户的历史行为信息,生成每个信息主题对应的热词之前,还包括:根据每个信息主题中每个目标用户的使用频次,将每个信息主题中的目标用户分为活跃用户和非活跃用户;
所述根据每个信息主题中目标用户的历史行为信息,生成每个信息主题对应的热词,包括:根据每个信息主题中活跃用户的历史行为信息,生成每个信息主题对应的热词。
其中,目标用户的使用频次是指目标用户使用当前信息流平台的频次,可以包括点击量、转发量和阅读量等。
对于每个信息主题中的目标用户,有的目标用户表现非常活跃(例如,每天经常访问信息流网页、阅读文章、转发、点赞等),而有的目标用户浏览、访问等的使用频次都比较低,因此,可以将目标用户分为活跃用户和非活跃用户。由于非活跃用户的使用频次较低,从而可以只根据每个信息主题中活跃用户的历史行为信息来生成每个信息主题对应的热词。通过将每个信息主题对应的目标用户分为活跃用户和非活跃用户,并根据活跃用户的历史形式信息,生成每个信息主题对应的热词,从而可以减少对非活跃用户历史行为信息的统计,降低了计算量。
在上述技术方案的基础上,所述根据每个信息主题中每个目标用户的使用频次,将每个信息主题中的目标用户分为活跃用户和非活跃用户,包括:
若一个信息主题中一个目标用户的使用频次小于该信息主题对应的频次阈值,则将该目标用户作为该信息主题的非活跃用户;
若一个信息主题中一个目标用户的使用频次大于或等于该信息主题对应的频次阈值,则将该目标用户作为该信息主题的活跃用户。
对于一个信息主题,将该信息主题中的目标用户分为活跃用户和非活跃用户时,可以将一个目标用户的点击量、转发量和阅读量等组成的使用频次与该信息主题对应的频次阈值进行比较,若一个目标用户的使用频次小于该信息主题对应的频次阈值,则确定该目标用户为该信息主题的非活跃用户,若一个目标用户的使用频次大于或等于该信息主题对应的频次阈值,则确定该目标用户为该信息主题的活跃用户。通过将目标用户的使用频次与频次阈值进行比较,可以较为准确的确定一个信息主题中的活跃用户和非活跃用户。
在上述技术方案的基础上,在所述确定所述目标热词在所述热词榜单中的展示位置之后,还包括:
在当前调节时间区间内,确定所述热词榜单中每个信息主题的目标热词对应的非活跃用户的使用频次;
根据每个信息主题中非活跃用户对目标热词的使用频次和非活跃用户的数量,确定每个信息主题中目标热词的引流率;
若一个信息主题中目标热词的引流率小于引流率阈值,则从该信息主题对应的候选热词中选取一个所述目标热词之外的候选热词,并使用选取到的候选热词替换所述热词榜单中的目标热词。
其中,调节时间区间是在生成一次热词榜单中的目标热词后到下一次生成热词榜单中的目标热词之间的时间区间,例如,每隔1个小时生成一次热词榜单中的目标热词,则调节时间区间可以为10分钟、20分钟等。调节时间区间用于根据该调节时间区间内的目标热词的使用情况,对热词榜单中展示的目标热词进行调节。
由于生产热词榜单中的目标热词时是根据每个信息主题的活跃用户的历史行为信息生成的,从而热词榜单中的目标热词只代表了当前信息流平台比较火的一些词汇和话题,但是热词榜单中的目标热词需要对用户具有吸引力,能够起到一定的引流作用,这就需要根据非活跃用户对目标热词的使用频次,来对热词榜单中的目标热词进行调节。在对热词榜单中每个信息主题对应的目标热词进行调节时,可以根据非活跃用户在当前调节时间区间内的使用频次,来对热词榜单中展示的目标热词进行调节。在当前调节时间区间内,确定热词热词榜单中每个信息主题的目标热词对应的非活跃用户的使用频次,并将每个信息主题中非活跃用户对目标热词的使用频次与该信息主题中非活跃用户的数量之比,作为每个信息主题中目标热词的引流率,例如,某个目标热词吸引到了非活跃用户的100次点击,而这个目标热词对应的信息主题下的非活跃用户有500人,则该目标热词对非活跃用户的引流率为(100/500)*100%=20%。如果一个目标热词的引流率大于或等于引流率阈值,则不需要对该目标热词进行调整,如果一个目标热词的引流率小于引流率阈值,则从该信息主题对应的候选热词中选取一个目标热词之外的候选热词,并将该选取到的候选热词替换热词榜单中的目标热词,即将再展示热词榜单时,展示选取到的候选热词,而不再展示替换掉的目标热词。通过对引流率低于引流率阈值的目标热词进行替换,实现了对热词榜单中的目标热词进行反馈调节,解决了相关技术中无法对热词榜单中的热词进行动态改变的问题。
图3是根据一示例性实施例示出的一种热词生成装置的结构框图。参照图3,该装置包括用户数量确定模块31、热词数量确定模块32、目标热词生成模块33和展示位置确定模块34。
该用户数量确定模块31被配置为确定每个信息主题对应的目标用户数量;
该热词数量确定模块32被配置为根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量;
该目标热词生成模块33被配置为根据每个信息主题中目标用户的历史行为信息和待展示的热词数量,生成每个信息主题待展示的目标热词;
该展示位置确定模块34被配置为确定所述目标热词在所述热词榜单中的展示位置。
可选的,所述目标热词生成模块包括:
热词生成单元,被配置为根据每个信息主题中目标用户的历史行为信息,生成每个信息主题对应的热词;
候选热词确定单元,被配置为根据每个信息主题对应热词的使用频次,从每个信息主题对应的热词中确定出待展示的热词数量预设倍数的热词,作为每个信息主题对应的候选热词;
目标热词确定单元,被配置为从每个信息主题对应的候选热词中选取所述热词数量的候选热词,作为每个信息主题待展示的目标热词。
可选的,所述装置还包括:
用户划分模块,被配置为根据每个信息主题中每个目标用户的使用频次,将每个信息主题中的目标用户分为活跃用户和非活跃用户;
所述热词生成单元具体被配置为:
根据每个信息主题中活跃用户的历史行为信息,生成每个信息主题对应的热词。
可选的,所述装置还包括:
目标热词频次确定模块,被配置为在当前调节时间区间内,确定所述热词榜单中每个信息主题的目标热词对应的非活跃用户的使用频次;
引流率确定模块,被配置为根据每个信息主题中非活跃用户对目标热词的使用频次和非活跃用户的数量,确定每个信息主题中目标热词的引流率;
目标热词替换模块,被配置为若一个信息主题中目标热词的引流率小于引流率阈值,则从该信息主题对应的候选热词中选取一个所述目标热词之外的候选热词,并使用选取到的候选热词替换所述热词榜单中的目标热词。
可选的,所述用户划分模块具体被配置为:
若一个信息主题中一个目标用户的使用频次小于该信息主题对应的频次阈值,则将该目标用户作为该信息主题的非活跃用户;
若一个信息主题中一个目标用户的使用频次大于或等于该信息主题对应的频次阈值,则将该目标用户作为该信息主题的活跃用户。
可选的,所述热词数量确定模块包括:
热词比例确定单元,被配置为计算每个信息主题对应的目标用户数量之间的比例,作为每个信息主题待展示的热词数量的比例;
热词数量确定单元,被配置为根据每个信息主题待展示的热词数量的比例和热词榜单中待展示热词的总数量,确定热词榜单中每个信息主题待展示的热词数量。
可选的,所述装置还包括:
信息主题确定模块,被配置为若信息主题的数量大于热词榜单中待展示热词的总数量,则根据每个信息主题中目标用户的数量,选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题。
可选的,所述信息主题确定模块包括:
排序单元,被配置为按照每个信息主题中目标用户的数量从大到小的顺序,对每个信息主题进行排序;
信息主题确定单元,被配置为按照顺序从排序后的信息主题中选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题。
可选的,所述装置还包括:
用户主题确定模块,被配置为根据用户的注册信息中的信息主题和用户的历史行为信息,确定用户对应的信息主题;
主题用户确定模块,被配置为按照信息主题,将与该信息主题对应的用户归入该信息主题下,作为该信息主题对应的目标用户。
本示例性实施例提供的热词生成装置,通过用户数量确定模块确定每个信息主题对应的目标用户数量,热词数量确定模块根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量,目标热词生成模块根据每个信息主题中目标用户的历史行为信息和待展示的热词数量,生成每个信息主题待展示的目标热词,展示位置确定模块确定目标热词在热词榜单中的展示位置,由于在确定热词榜单中的目标热词时,结合了信息主题的目标用户数量来为每个信息主题分配待展示的热词数量,从而使得较多的信息主题的热词展示在热词榜单中,避免了只展示某一类型的信息主题,提高了热词的准确性,而且可以覆盖较多的用户,提高了热词的用户覆盖度。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于服务器的结构框图。参照图4,服务器400包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422的执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述热词生成方法。
服务器400还可以包括一个电源组件426被配置为执行服务器400的电源管理,一个有线或无线网络接口450被配置为将服务器400连接到网络,和一个输入输出(I/O)接口458。服务器400可以操作基于存储在存储器732的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器432,上述指令可由服务器400的处理组件422执行以完成上述热词生成方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (20)

1.一种热词生成方法,其特征在于,包括:
确定每个信息主题对应的目标用户数量;
根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量;所述每个信息主题待展示的热词数量的比例为每个信息主题对应的目标用户数量之间的比例;
根据每个信息主题中目标用户的历史行为信息和待展示的热词数量,生成每个信息主题待展示的目标热词;
确定所述目标热词在所述热词榜单中的展示位置。
2.根据权利要求1所述的方法,其特征在于,所述根据每个信息主题中目标用户的历史行为信息和待展示的热词数量,生成每个信息主题待展示的目标热词,包括:
根据每个信息主题中目标用户的历史行为信息,生成每个信息主题对应的热词;
根据每个信息主题对应热词的使用频次,从每个信息主题对应的热词中确定出待展示的热词数量预设倍数的热词,作为每个信息主题对应的候选热词;
从每个信息主题对应的候选热词中选取所述热词数量的候选热词,作为每个信息主题待展示的目标热词。
3.根据权利要求2所述的方法,其特征在于,在所述根据每个信息主题中目标用户的历史行为信息,生成每个信息主题对应的热词之前,还包括:
根据每个信息主题中每个目标用户的使用频次,将每个信息主题中的目标用户分为活跃用户和非活跃用户;
所述根据每个信息主题中目标用户的历史行为信息,生成每个信息主题对应的热词,包括:
根据每个信息主题中活跃用户的历史行为信息,生成每个信息主题对应的热词。
4.根据权利要求3所述的方法,其特征在于,在所述确定所述目标热词在所述热词榜单中的展示位置之后,还包括:
在当前调节时间区间内,确定所述热词榜单中每个信息主题的目标热词对应的非活跃用户的使用频次;
根据每个信息主题中非活跃用户对目标热词的使用频次和非活跃用户的数量,确定每个信息主题中目标热词的引流率;
若一个信息主题中目标热词的引流率小于引流率阈值,则从该信息主题对应的候选热词中选取一个所述目标热词之外的候选热词,并使用选取到的候选热词替换所述热词榜单中的目标热词。
5.根据权利要求3所述的方法,其特征在于,所述根据每个信息主题中每个目标用户的使用频次,将每个信息主题中的目标用户分为活跃用户和非活跃用户,包括:
若一个信息主题中一个目标用户的使用频次小于该信息主题对应的频次阈值,则将该目标用户作为该信息主题的非活跃用户;
若一个信息主题中一个目标用户的使用频次大于或等于该信息主题对应的频次阈值,则将该目标用户作为该信息主题的活跃用户。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量,包括:
计算每个信息主题对应的目标用户数量之间的比例,作为每个信息主题待展示的热词数量的比例;
根据每个信息主题待展示的热词数量的比例和热词榜单中待展示热词的总数量,确定热词榜单中每个信息主题待展示的热词数量。
7.根据权利要求1-5任一项所述的方法,其特征在于,在所述根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量之前,还包括:
若信息主题的数量大于热词榜单中待展示热词的总数量,则根据每个信息主题中目标用户的数量,选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题。
8.根据权利要求7所述的方法,其特征在于,所述根据每个信息主题中目标用户的数量,选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题,包括:
按照每个信息主题中目标用户的数量从大到小的顺序,对每个信息主题进行排序;
按照顺序从排序后的信息主题中选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题。
9.根据权利要求1-5任一项所述的方法,其特征在于,在所述确定每个信息主题对应的目标用户数量之前,还包括:
根据用户的注册信息中的信息主题和用户的历史行为信息,确定用户对应的信息主题;
按照信息主题,将与该信息主题对应的用户归入该信息主题下,作为该信息主题对应的目标用户。
10.一种热词生成装置,其特征在于,包括:
用户数量确定模块,被配置为确定每个信息主题对应的目标用户数量;
热词数量确定模块,被配置为根据每个信息主题对应的目标用户数量,确定热词榜单中每个信息主题待展示的热词数量;所述每个信息主题待展示的热词数量的比例为每个信息主题对应的目标用户数量之间的比例;
目标热词生成模块,被配置为根据每个信息主题中目标用户的历史行为信息和待展示的热词数量,生成每个信息主题待展示的目标热词;
展示位置确定模块,被配置为确定所述目标热词在所述热词榜单中的展示位置。
11.根据权利要求10所述的装置,其特征在于,所述目标热词生成模块包括:
热词生成单元,被配置为根据每个信息主题中目标用户的历史行为信息,生成每个信息主题对应的热词;
候选热词确定单元,被配置为根据每个信息主题对应热词的使用频次,从每个信息主题对应的热词中确定出待展示的热词数量预设倍数的热词,作为每个信息主题对应的候选热词;
目标热词确定单元,被配置为从每个信息主题对应的候选热词中选取所述热词数量的候选热词,作为每个信息主题待展示的目标热词。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
用户划分模块,被配置为根据每个信息主题中每个目标用户的使用频次,将每个信息主题中的目标用户分为活跃用户和非活跃用户;
所述热词生成单元具体被配置为:
根据每个信息主题中活跃用户的历史行为信息,生成每个信息主题对应的热词。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
目标热词频次确定模块,被配置为在当前调节时间区间内,确定所述热词榜单中每个信息主题的目标热词对应的非活跃用户的使用频次;
引流率确定模块,被配置为根据每个信息主题中非活跃用户对目标热词的使用频次和非活跃用户的数量,确定每个信息主题中目标热词的引流率;
目标热词替换模块,被配置为若一个信息主题中目标热词的引流率小于引流率阈值,则从该信息主题对应的候选热词中选取一个所述目标热词之外的候选热词,并使用选取到的候选热词替换所述热词榜单中的目标热词。
14.根据权利要求12所述的装置,其特征在于,所述用户划分模块具体被配置为:
若一个信息主题中一个目标用户的使用频次小于该信息主题对应的频次阈值,则将该目标用户作为该信息主题的非活跃用户;
若一个信息主题中一个目标用户的使用频次大于或等于该信息主题对应的频次阈值,则将该目标用户作为该信息主题的活跃用户。
15.根据权利要求10-14任一项所述的装置,其特征在于,所述热词数量确定模块包括:
热词比例确定单元,被配置为计算每个信息主题对应的目标用户数量之间的比例,作为每个信息主题待展示的热词数量的比例;
热词数量确定单元,被配置为根据每个信息主题待展示的热词数量的比例和热词榜单中待展示热词的总数量,确定热词榜单中每个信息主题待展示的热词数量。
16.根据权利要求10-14任一项所述的装置,其特征在于,所述装置还包括:
信息主题确定模块,被配置为若信息主题的数量大于热词榜单中待展示热词的总数量,则根据每个信息主题中目标用户的数量,选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题。
17.根据权利要求16所述的装置,其特征在于,所述信息主题确定模块包括:
排序单元,被配置为按照每个信息主题中目标用户的数量从大到小的顺序,对每个信息主题进行排序;
信息主题确定单元,被配置为按照顺序从排序后的信息主题中选取数量与所述总数量相同的信息主题,作为待展示热词的信息主题。
18.根据权利要求10-14任一项所述的装置,其特征在于,所述装置还包括:
用户主题确定模块,被配置为根据用户的注册信息中的信息主题和用户的历史行为信息,确定用户对应的信息主题;
主题用户确定模块,被配置为按照信息主题,将与该信息主题对应的用户归入该信息主题下,作为该信息主题对应的目标用户。
19.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至9中任一项所述的热词生成方法。
20.一种存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如权利要求1至9中任一项所述的热词生成方法。
CN202010712756.4A 2020-07-22 2020-07-22 热词生成方法、装置、服务器及存储介质 Active CN112000865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010712756.4A CN112000865B (zh) 2020-07-22 2020-07-22 热词生成方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010712756.4A CN112000865B (zh) 2020-07-22 2020-07-22 热词生成方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN112000865A CN112000865A (zh) 2020-11-27
CN112000865B true CN112000865B (zh) 2024-01-23

Family

ID=73467093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010712756.4A Active CN112000865B (zh) 2020-07-22 2020-07-22 热词生成方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN112000865B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757923B (zh) * 2023-01-09 2023-05-23 北京创新乐知网络技术有限公司 搜索热词的确定方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014675A (ja) * 2010-06-01 2012-01-19 Ntt Docomo Inc サーバ装置、プログラム及び検索エリア推定方法
CN104239552A (zh) * 2014-09-24 2014-12-24 北京百度网讯科技有限公司 生成关联关键词、提供关联关键词的方法及系统
CN104572889A (zh) * 2014-12-24 2015-04-29 深圳市腾讯计算机系统有限公司 一种搜索词推荐方法、装置和系统
KR20180000166A (ko) * 2016-06-22 2018-01-02 네이버 주식회사 관심사 및 콘텐츠를 제공하는 방법 및 시스템
CN107784092A (zh) * 2017-10-11 2018-03-09 深圳市金立通信设备有限公司 一种推荐热词的方法、服务器及计算机可读介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014675A (ja) * 2010-06-01 2012-01-19 Ntt Docomo Inc サーバ装置、プログラム及び検索エリア推定方法
CN104239552A (zh) * 2014-09-24 2014-12-24 北京百度网讯科技有限公司 生成关联关键词、提供关联关键词的方法及系统
CN104572889A (zh) * 2014-12-24 2015-04-29 深圳市腾讯计算机系统有限公司 一种搜索词推荐方法、装置和系统
KR20180000166A (ko) * 2016-06-22 2018-01-02 네이버 주식회사 관심사 및 콘텐츠를 제공하는 방법 및 시스템
CN107784092A (zh) * 2017-10-11 2018-03-09 深圳市金立通信设备有限公司 一种推荐热词的方法、服务器及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于主题语言模型的句子检索算法;吴友政;赵军;徐波;;计算机研究与发展(第02期);全文 *

Also Published As

Publication number Publication date
CN112000865A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN107222566B (zh) 信息推送方法、装置及服务器
CN108763502B (zh) 信息推荐方法和系统
US20200068034A1 (en) Method and system for measuring user engagement using click/skip in content stream
US9703783B2 (en) Customized news stream utilizing dwelltime-based machine learning
CA2770868C (en) Objective and subjective ranking of comments
US11966445B2 (en) Recommending contents using a base profile
US20120185481A1 (en) Method and Apparatus for Executing a Recommendation
US20140280548A1 (en) Method and system for discovery of user unknown interests
US20130097146A1 (en) Personalized ranking of categorized search results
CN108028962A (zh) 处理视频使用情况信息以投放广告
US10482142B2 (en) Information processing device, information processing method, and program
CN113535991B (zh) 一种多媒体资源推荐方法、装置、电子设备及存储介质
US20130246432A1 (en) Providing content based on online topical trends
CN112579854A (zh) 信息处理方法、装置、设备和存储介质
CN112000865B (zh) 热词生成方法、装置、服务器及存储介质
US9514194B1 (en) Website duration performance based on category durations
US8745042B2 (en) Determining matching degrees between information categories and displayed information
KR20110053185A (ko) 사용자의 배경정보에 따른 컨텐츠의 트렌드 분석/검색 시스템 및 방법
GB2556970A (en) Method and system for providing content
CN108259588B (zh) 一种基于大数据的文化云平台的推送方法及装置
CN111988642A (zh) 推荐视频的方法、装置、服务器和存储介质
Chang et al. Identifying Museum Visitors via Social Network Analysis of Instagram
US20160055203A1 (en) Method for record selection to avoid negatively impacting latency
CN112967086B (zh) 一种智能营销推广方法、装置和电子设备
CA2740499C (en) Methods, apparatus, and articles of manufacture to rank users in an online social network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant