CN111382342A - 一种热搜词的获取方法、装置、设备及存储介质 - Google Patents

一种热搜词的获取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111382342A
CN111382342A CN202010412534.0A CN202010412534A CN111382342A CN 111382342 A CN111382342 A CN 111382342A CN 202010412534 A CN202010412534 A CN 202010412534A CN 111382342 A CN111382342 A CN 111382342A
Authority
CN
China
Prior art keywords
search
hot
word
time
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010412534.0A
Other languages
English (en)
Other versions
CN111382342B (zh
Inventor
史文峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of CN111382342A publication Critical patent/CN111382342A/zh
Application granted granted Critical
Publication of CN111382342B publication Critical patent/CN111382342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术领域,尤其涉及一种热搜词的获取方法、装置、设备及存储介质。该方法预先获取第一搜索词集合和第二搜索词集合,第一搜索词集合记录了搜索词和搜索词对应的场景,第二搜索词集合记录了搜索词和搜索词对应不同时间段的累计衰减搜索量,当收到查询实时热搜词请求时,根据第一搜索词集合和第二搜索词集合中获取第一目标热搜词集合,当收到查询历史热搜词请求时,根据第一搜索词集合获取第二目标热搜词集合,能够支持不同场景下热搜词的计算,并区别对待实时热搜词和历史热搜词,提高实时热搜的准确性及历史热搜的灵活性。

Description

一种热搜词的获取方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种热搜词的获取方法、装置、设备及存储介质。
背景技术
热搜词可以为用户提供搜索建议,用户通过热搜词可以获知近期热点事件,并进一步浏览取得热点事件的相关信息。例如:搜索引擎关键词热搜榜,针对用户在搜索界面输入的搜索条件进行统计分析所得热搜词,搜索引擎会针对用户所使用的搜索条件,提供相关的关键词搜索建议,让用户可以根据热搜词或者相关关键词搜索建议,进行进一步浏览取得信息,为用户提供便利的搜索体验。
发明内容
本发明提供了一种热搜词的获取方法、装置、设备及存储介质,能够支持不同应用场景下热搜词的获取,提高获取实时热搜词的准确度。
一方面,本发明提供一种热搜词的获取方法,其特征在于,包括:
获取热搜词查询请求;
若所述热搜词查询请求为实时热搜词查询请求,提取所述实时热搜词查询请求中的场景类别;
根据所述场景类别查询第一搜索词集合得到第一热搜数据集合,所述第一热搜数据集合包括至少一个第一热搜数据,所述第一热搜数据包括第一热搜词和所述第一热搜词在第一时间区间内的搜索量;
根据所述场景类别查询第二搜索词集合得到第二热搜数据集合,所述第二热搜数据集合包括至少一个第二热搜数据,所述第二热搜数据包括第二热搜词和所述第二热搜词在第二时间区间内的累计衰减搜索量;
根据所述第一热搜数据集合和所述第二热搜数据集合得到第一目标热搜词集合。
另一方面,本发明提供一种热搜词的获取装置,其特征在于,包括热搜词查询请求获取模块和实时热搜词查询请求处理模块:
所述热搜词查询请求获取模块,用于获取热搜词查询请求;
所述实时热搜词查询请求处理模块包括:
实时热搜词查询请求获取单元,用于在所述热搜词查询请求为实时热搜词查询请求时,提取所述实时热搜词查询请求中的场景类别;
第一热搜数据集合获取单元,用于根据所述场景类别查询第一搜索词集合得到第一热搜数据集合,所述第一热搜数据集合包括至少一个第一热搜数据,所述第一热搜数据包括第一热搜词和所述第一热搜词在第一时间区间内的搜索量;
第二热搜数据集合获取单元,用于根据所述场景类别查询第二搜索词集合得到第二热搜数据集合,所述第二热搜数据集合包括至少一个第二热搜数据,所述第二热搜数据包括第二热搜词和所述第二热搜词在第二时间区间内的累计衰减搜索量;
第一目标热搜词集合获取单元,用于根据所述第一热搜数据集合和所述第二热搜数据集合得到第一目标热搜词集合。
另一方面,本发明提供一种电子设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行上述的热搜词的获取方法。
另一方面,本发明提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现上述的热搜词的获取方法。
本发明提供的一种热搜词的获取方法、装置、设备及存储介质,具有如下有益效果:
本发明预先获取第一搜索词集合和第二搜索词集合,第一搜索词集合记录了搜索词和搜索词对应的场景,第二搜索词集合记录了搜索词和搜索词对应不同时间段的累计衰减搜索量,当收到查询实时热搜词请求时,在第一搜索词集合中获取第一热搜数据集合,在第二搜索词集合中获取第二热搜数据集合,由于第一热搜数据集合中的第一热搜词是第一时间区间内搜索量排序在前的搜索词,第二热搜数据集合中的第二热搜词是第二时间区间内累计衰减搜索量排序在前的搜索词,通过对第一热搜数据集合和第二热搜数据集合进行归并处理可以得到第一目标热搜词集合,第一目标热搜词集合中的搜索词是在第一时间区间和第二时间区间内综合搜索量排序在前的搜索词,能够更加真实的反映实时热搜状况,提高查询实时热搜词的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种热搜词的获取方法的实施环境示意图;
图2是本发明实施例提供的一种热搜词的获取方法的架构示意图;
图3是本发明实施例提供的构建第一搜索词集合的方法的流程示意图;
图4是本发明实施例提供的构建第二搜索词集合的方法的流程示意图;
图5是本发明实施例提供的一种生成第二搜索词集合的方法的流程示意图;
图6是本发明实施例提供的处理实时热搜词查询请求以获得第一目标热搜词集合的方法的流程示意图;
图7是本发明实施例提供的一种获取第一目标热搜词集合的方法的流程示意图;
图8是本发明实施例提供的处理历史热搜词查询请求以获得第二目标热搜词集合的方法的流程示意图;
图9是本发明实施例提供的一种获取第二目标热搜词集合的方法的流程示意图;
图10是本发明实施例提供的一种热搜词获取方法的系统流程图;
图11是本发明实施例提供的一种搜索界面示意图;
图12是本发明实施例提供的热搜词的获取装置的结构示意图;
图13本发明实施例提供的实施热搜词获取方法的服务器的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于说明本发明实施例中的方法的优势,在本发明实施例的技术方案详述伊始,首先对现有技术的相关内容进行分析:
现有的热搜词搜索方法包括:根据用户的检索记录,统计或更新固定时间片内每个搜索词的搜索量,然后将top-N的词作为当前的热搜词;或者,根据搜索词的搜索频次进行排序,获取流行搜索词。
然而,发明人经研究发现这些现有技术存在如下缺点:
1.应用场景单一
1)基于窗口时间,热搜词可分为两种:1)当前实时热搜词;2)历史固定时间段内的历史热搜词,如去年第三季度热搜索词。这两种定义不完全相同,前者反映的搜索词的当前热度趋势,后者则是给定时间段内搜索词的累积统计。现有技术未针对性的区别对待。
2)现有技术提供的是一种“全局”热搜词,未能基于行业词提供多场景的热搜词计算功能(如企业、行业群、货源等场景),而这种需求在2B领域(也叫B2B,是指进行电子商务交易的供需双方都是商家、企业或公司,他们使用互联网的技术或各种商务网络平台,完成商务交易的过程)中却广泛存在。
2.针对历史热搜词,统计时间窗口固定
现有技术方案基于性能或用户体验等因素,会预设一个或多个固定的时间窗口,并提前统计好搜索词的检量,不能灵活的支持历史任意时间窗口内的热词计算。
3.针对实时热搜词,未考虑检索词的时效性
用户历史搜索行为和当前搜索趋势的相关性,是随时间间隔的拉长而不断减弱的,最近时间段内搜索词的检索量排序,并不能准确的反映当前实时热搜词的趋势。
鉴于现有技术的不足,本发明实施例提供一种行业热搜词的获取方案,以实现:支持不同应用场景下行业热搜词的计算,区别对待实时热搜词和历史热搜词;针对历史热搜词,支持任意时间窗口内的热搜词计算,并保证良好的性能和体验;针对实时热搜词,采用时间衰减函数模型进行计算,解决检索词的时效性问题,提高实时热搜词的准确性。
下面结合附图对本发明实施例中的技术方案进行清楚、完整的描述。
图1是本发明实施例提供的一种热搜词的获取方法的实施环境示意图;请参考图1,该实施环境包括:客户端01、服务器03。
客户端01可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如具有日程记录及管理功能的应用程序等。所述客户端01可以基于浏览器/服务器模式(Browser/Server,B/S)或客户端/服务器模式(Client/Server,C/S)与所述服务器03通信连接。
客户端01可以根据用户在搜索框输入的搜索内容提取获得搜索词,将搜索词、搜索词对应的场景标识以及搜索时间戳上报至服务器03,服务器可以根据客户端01上报的内容生成第一搜索词集合中的一个元素,并通过对第一搜索词集合中的元素进行衰减处理获得第二搜索词集合,当客户端01接收到热搜词查询请求时,将热搜词查询请求携带的信息上报至服务器03,服务器03识别热搜词查询请求的类型,根据识别结果调取对应的数据处理逻辑进行处理,包括:当热搜词查询请求为实时热搜词查询请求时,根据第一搜索词集合获得第一目标热搜词集合,当热搜词查询请求为历史热搜词查询请求时,根据第一搜索词集合和第二搜索词集合获得第二目标热搜词集合;服务器03进一步将请求处理结果返回客户端01,经由客户端01进行呈现。
所述服务器03可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器03也可以包括数据处理服务器和数据存储服务器,其中数据存储服务器用于存储第一搜索词集合和第二搜索词集合,数据处理服务器用于进行数据分析处理,例如:基于第一搜索词集合获得第二搜索词集合,以及,接收并处理热搜词查询请求。可替代的,所述数据处理服务器的部分或者全部功能可以由客户端01完成。
图2是本发明实施例提供的一种热搜词的获取方法的架构示意图。该方法可以由图1所示的服务器执行实现,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。请参见图2,本发明实施例提供的热搜词的获取方法包括数据准备和搜索查询请求处理两个部分,其中,数据准备和搜索查询请求处理可以经由同一服务器完成,也可以分别在不同的服务器上实施,如由服务器A实现数据准备,由服务器B调用服务器A中的数据进行搜索查询请求的处理,且服务器B处理获得的数据可以返回至服务器A进行存储。以下将结合附图就本发明方案涉及的两个主要部分分别展开说明。
图3至图5示出了数据准备的过程,首先,结合图3至图5就数据准备部分进行详细说明。
图3是本发明实施例提供的构建第一搜索词集合的方法的流程示意图,请参见图3,构建第一搜索词集合的步骤包括:
S301:接收搜索内容查询请求,搜索内容查询请求包含搜索内容和场景类别;
S303:获取搜索内容查询请求对应的时间戳;
S305:基于场景类别和预设的关键词提取策略对搜索内容进行预处理,获得搜索词;
S307:根据时间戳、场景类别和搜索词生成第一搜索词集合中的一个元素。
在一个可行的实施例中,用户可以在向搜索框输入搜索内容前,预先选定对应的场景,然后在该选定的场景下向搜索框输入搜索内容,客户端响应搜索框中输入的搜索内容生成搜索内容查询请求,提取搜索内容、选定场景的场景类别和搜索查询请求对应的时间戳,采用关键词提取策略结合提取的场景类别对提取的搜索内容进行预处理获得搜索词,将预处理获得的每个搜索词与场景类别和时间戳关联后作为一个元素,如果预处理获得多个搜索词,则相应的产生多个元素。假定提取的搜索词为K1、K2,场景为S1,时间戳为T1,则写入第一搜索词集合的元素有两个,即[K1,S1,T1]、[K2,S1,T1]。收集用户在不同场景下输入搜索内容产生的元素,将这些元素汇集以生成第一搜索词集合。其中,关键词提取策略可以包括:1)脏词清洗,包括清洗掉emoj表情、手机号、邮箱等;2)标准化处理,包括繁简转化、字母大小写转化,缩略词转换等;3)行业定向分词,对标准化文本进行精准分词;4)干扰词过滤,包括过滤掉停用词、寒暄词、非专业名词、重复词等。
图4是本发明实施例提供的构建第二搜索词集合的方法的流程示意图。请参见图4,构建第二搜索词集合的步骤包括:
S401:根据场景类别对第一搜索词集合的元素进行分类,得到至少一个子集合,每个子集合中元素的场景类别相同。
第一搜索词集合汇集有多个元素,各元素包含的场景类别不尽相同,以场景类别为依据对第一搜索词集合中的元素进行分类,可以获得一个或多个子集合,每个子集合对应一种场景类别,子集合之间的场景类别不同,子集合内元素的场景类别相同。
S403:计算每个子集合在预设时间段内的每个第一时间周期对应的搜索词统计数据,每个第一时间周期对应的搜索词统计数据包括搜索词和搜索词在第一时间周期内的搜索量。
子集合中各元素的时间戳不完全相同,这些时间戳之间的跨度范围可能较大,从达成实时反馈当下搜索趋势以及节约计算资源考虑,在一个可行的实施例中,可以先划定预设时间段,统计预设时间段内各搜索词在每个第一时间周期内的相关数据,其中,第一时间段可以为当前时刻至已发生的目标时刻之间的时间段,预设时间段内的第一时间周期是指将预设时间段划分为多个单位时间相同的时间片段,单位时间即为第一时间周期,例如,设定预设时间段为60天、第一时间周期可以为几小时、1天、2天或小于60天的任意时间单位。通过引入第一时间周期,可以进一步细化搜索词在不同时段内的搜索数据,获得更详尽的统计数据以便于即使反馈最新搜索趋势。
对于一个包含X个元素的子集合,若预设时间段内的第一时间周期为Y个,则计算该子集合在预设时间段内的每个第一时间周期对应的搜索词统计数据,可以获得X×Y项搜索词统计数据,每个搜索词对应有Y个搜索词统计数据,每个第一时间周期对应有X个搜索词统计数据。其中,X和Y均为大于1的正整数。
S405:对各个子集合在预设时间段内的每个第一时间周期对应的搜索词进行数据处理,得到第二搜索词集合;第二搜索词集合中的每个元素包括搜索词、搜索词的场景类别和搜索词在第二时间周期内的累计衰减搜索量。
图5是本发明实施例提供的一种生成第二搜索词集合的方法的流程示意图,其示出了对各个子集合在预设时间段内的每个第一时间周期对应的搜索词进行数据处理的一种可行实施流程。请参见图5,在一个可行的实施例中,获得第二搜索词集合可以包括:
S501:根据每个子集合在所述预设时间段内的每个第一时间周期对应的搜索词统计数据确定目标搜索词。
对于每个子集合对应的每个第一时间周期的搜索词统计数据,按照搜索量降序排序,提取排序在前的预设数量的搜索词作为目标搜索词。执行以上处理步骤,可以获得对应每个子集合的每个第一时间周期的多个目标搜索词。
S503:根据各所述目标搜索词在所述预设时间段内的首次搜索时间和末次搜索时间确定冷却时间。
预设时间段的起始时间不一定为目标搜索词的首次搜索时间、预设时间段的终了时间也不一定为目标搜索词的末次搜索时间,通过遍历目标搜索词对应的时间戳,可以确定目标搜索词在预设时间段内的首次搜索时间和末次搜索时间,将首次搜索时间和末次搜索时间之间的时间间隔作为冷却时间,以便于进一步确定目标搜索词在冷却时间内搜索量的变化趋势。
S505:根据预设的衰减计算模型计算各目标搜索词在冷却时间中的每个第二时间周期内的累计衰减搜索量。
冷却时间为一个时间段,可以为几天、几周甚至几个月,本发明实施例将冷却时间段划分为多个单位时间相同的时间片段,每个时间片段对应一第二时间周期,第二时间周期根据统计需要设定,可以为几小时、一天、几天或小于冷却时间的任意时间单位,第二时间周期与第一时间周期相同,设定第二时间周期可以获得各目标搜索词在冷却时间内更细粒度的搜索量统计数据。
在一个可行的实施例中,计算目标搜索词在冷却时间中的每个第二时间周期的累计衰减搜索量可以包括如下步骤:
(1)获取预设的窗口时间;
(2)根据所述窗口时间和所述冷却时间在预设的衰减计算模型中确定目标衰减公式;
(3)根据目标衰减公式和所述冷却时间计算所述目标搜索词的累计衰减搜索量。
其中,窗口时间为预设的判断搜索词的热度持续时间,例如,对于当下产生的热门搜索词C,可以为搜索词C设置窗口时间为2周,其中,2周为预估的搜索词C作为热门词被搜索的时长。由于搜索词在窗口时间内的搜索量会大于窗口时间之外的搜索量,因此,在计算搜索词的衰减搜索量时就搜索词的第二时间周期在冷却时间中的对应时间点处于窗口时间内和处于窗口时间外的情况采用不同的计算方式,当搜索词的第二时间周期在冷却时间中的对应时间点处于窗口时间内(含窗口时间)时,根据第一衰减计算公式计算该搜索词在第二时间周期的累计衰减搜索量,当搜索词的第二时间周期在冷却时间中的对应时间点处于窗口时间外时,根据第二衰减计算公式计算该搜索词在第二时间周期的累计衰减搜索量。
一个可行的实施例中,设窗口时间为14天,冷却时间为30天,第二时间周期的单位时间为1天,则冷却时间可划分为30个第二时间周期,第一个第二时间周期在冷却时间中的对应时间点为第1天,第二个第二时间周期在冷却时间中的对应时间点为第2天,第三个第二时间周期在冷却时间中的对应时间点为第3天,依次类推,可获得:第一个第二时间周期至第十四个第二时间周期在冷却时间中的对应时间点均处于窗口时间内,采用第一衰减计算公式计算搜索词在各个第二时间周期内的累计衰减搜索量,第十五个第二时间周期至第三十个第二时间周期在冷却时间中的对应时间点均处于窗口时间外,采用第二衰减计算公式计算搜索词在各个第二时间周期内的累计衰减搜索量。
S507:根据所述目标搜索词、所述目标搜索词的场景类别和累计衰减搜索量生成所述第二搜索词集合中的一个元素。
在一个具体的实施例中,可以基于牛顿冷却定律的时间衰减函数模型(Newton'slaw of cooling),计算预设窗口时间内,搜索词的累积衰减搜索量,并将数据写入第二搜索词集合。可以默认以天为间隔时间,每天凌晨计算“截止到昨天的累积衰减搜索量”数据,计算模型如下,
1)假设搜索词为key,场景为s,第i天当天搜索词的搜索总次数为Ti(s,key),经过Δt天时间的冷却后,搜索次数衰减为Ti'(s,key),冷却系数为K(s)(该值大于零,是一个基于应用场景s的函数,不同场景下系数不同,且可以根据需求定期更新),根据牛顿冷却定理的时间衰减函数模型,有如下等式:
T′i(s,key)=Ti(s,key)×e-K(s)×Δt 公式一
2)假定实时热搜词的预设时间窗口为w,截止统计到第t天,搜索词key的累积衰减搜索量为Dt(s,key),基于公式一,则有:
Figure BDA0002493798450000111
3)考虑到t≤w的情况,且由于实时热搜词只需要返回特定的Top-N个有限的搜索词,因此可基于第(t-1)天的累积衰减数据Dt-1(s,key),选出Top-N的搜索词列表L'(t-1),基于第t天的统计数据Tt(s,key),选出Top-N的搜索词列表L(t-1),计算结果如下:
Figure BDA0002493798450000121
其中,key∈L'(t-1)∪L(t-1)
基于公式三,衰减计算模块将离线计算出的搜索词key的累积衰减次数,即Dt(s,key)写入第二搜索词集合。
以下对基于第一搜索词集合和第二搜索词集合进行搜索查询请求处理的过程进行详细说明。
搜索查询请求包括实时热搜词查询请求、历史热搜词查询请求以及搜索内容查询请求,其中,搜索内容查询请求的处理过程与上述生成第一搜索词集合的过程一致,在此不再赘述,以下分别对实时热搜词查询请求和历史热搜词查询请求的处理过程进行说明。
图6是本发明实施例提供的处理实时热搜词查询请求以获得第一目标热搜词集合的方法的流程示意图。请参见图6,处理实时热搜词查询请求以获得第一目标热搜词集合包括:
S601:获取热搜词查询请求;
S603:若所述热搜词查询请求为实时热搜词查询请求,提取所述实时热搜词查询请求中的场景类别;
S605:根据所述场景类别查询第一搜索词集合得到第一热搜数据集合,所述第一热搜数据集合包括至少一个第一热搜数据,所述第一热搜数据包括第一热搜词和所述第一热搜词在第一时间区间内的搜索量;
S607:根据所述场景类别查询第二搜索词集合得到第二热搜数据集合,所述第二热搜数据集合包括至少一个第二热搜数据,所述第二热搜数据包括第二热搜词和所述第二热搜词在第二时间区间内的累计衰减搜索量;
S609:根据所述第一热搜数据集合和所述第二热搜数据集合得到第一目标热搜词集合。
本发明根据实时热搜词查询请求返回对应的第一目标热搜词集合,在实际应用中,出于显示页面的限制和优化用户体验的目的,仅需返回搜索量较高的几个热搜词即可,因此还可以限定热搜词的数量。
图7是本发明实施例提供的一种获取第一目标热搜词集合的方法的流程示意图。请参见图7,在一个可行的实施例中,获取第一目标热搜词集合可以包括:
S701:当热搜词查询请求为实时热搜词查询请求,提取实时热搜词查询请求中的场景类别和第一目标搜索词数量M。
S703:根据场景类别查询第一搜索词集合得到第一热搜数据集合,第一热搜数据集合包括至少一个第一热搜数据,第一热搜数据包括第一热搜词和第一热搜词在第一时间区间内的搜索量。
具体可以包括:
S7031、从所述第一搜索词集合中确定第一候选数据,所述第一候选数据中搜索词的场景类别与所述实时热搜词查询请求中场景类别相同,并且所述第一候选数据中的搜索词的时间戳位于所述第一时间区间内;
S7033、统计所述第一候选数据中的搜索词和所述搜索词的搜索量;
S7035、根据搜索量对所述第一候选数据中的搜索词进行降序排列,将排序在前的M个搜索词作为M个所述第一热搜词,根据M个所述第一热搜词和对应的搜索量生成所述第一热搜数据集合。
S705:根据场景类别查询第二搜索词集合得到第二热搜数据集合,第二热搜数据集合包括至少一个第二热搜数据,第二热搜数据包括第二热搜词和第二热搜词在第二时间区间内的累计衰减搜索量。
具体可以包括:
S7051、从所述第二搜索词集合中确定第二候选数据,所述第二候选数据包括搜索词和所述搜索词在所述第二时间区间内的累计衰减搜索量;所述第二候选数据中的搜索词的场景类别与所述实时热搜词查询请求中场景类别相同,所述第二时间区间为所述第一时间区间之前的预设时间段;
S7053、根据累计衰减搜索量对所述第二候选数据中的搜索词进行降序排序,将排序在前的M个搜索词作为M个所述第二热搜词,根据M个所述第二热搜词和对应的累计衰减搜索量生成所述第二热搜数据集合。
其中,第一时间区间与第一时间周期对应,第二时间区间与第二时间周期对应。所述第一时间区间和第二时间区间可以根据上述的第一时间周期和第二时间周期确定。对于搜索词K,第一搜索词集合包含K在T个第一时间周期中每个第一时间周期内的检索量,第二搜索词集合包括K在(T-1)个时间周期中每个第二时间周期内的累计衰减检索量,第一时间周期与第二时间周期的时长相等,则,可以将第T个第一时间周期作为第一时间区间,将第(T-1)个时间周期作为第二时间区间。在一个优选的实施例中,第一时间区间、第二时间区间、第一时间周期和第二时间周期的时长均相同。
S707:根据第一热搜数据集合和第二热搜数据集合得到第一目标热搜词集合。
具体可以包括:
S7071、根据所述第一搜索数据集合和所述第二搜索数据集合获得第三搜索数据集合;
S7073、将第三搜索数据集合中的搜索词按照搜索量由高至低排序,根据排序在前的M个搜索词和对应的搜索量生成所述第一目标热搜词集合。
图8是本发明实施例提供的处理历史热搜词查询请求以获得第二目标热搜词集合的方法的流程示意图。请参见图8,处理历史热搜词查询请求以获得第二目标热搜词集合包括:
S801:获取热搜词查询请求;
S803:若热搜词查询请求为历史热搜词查询请求,提取历史热搜词查询请求中的场景类别和查询时间;
S805:根据历史热搜词查询请求中的场景类别和查询时间联合查询第一搜索词集合,得到第二目标热搜词集合。
本发明根据历史热搜词查询请求返回对应的第二目标热搜词集合,在实际应用中,可以仅返回搜索量较高的几个热搜词即可,因此还可以限定热搜词的数量。
图9是本发明实施例提供的一种获取第二目标热搜词集合的方法的流程示意图。请求参见图9,获取第二目标热搜词集合的方法可以包括:
S901:所述历史热搜词查询请求还包括第二目标搜索词数量N。
S903:根据所述历史热搜词查询请求中的场景类别和查询时间联合查询所述第一搜索词集合,得到第二目标热搜词集合。包括:
S9031、根据所述历史热搜词查询请求中的场景类别和查询时间从所述第一搜索词集合中确定第三候选数据,所述第三候选数据中搜索词的场景类别与所述历史热搜词查询请求中的场景类别相同,并且所述第三候选数据中的搜索词的时间戳位于所述查询时间内;
S9033、统计所述第三候选数据中的搜索词和所述搜索词的搜索量;
S9035、根据搜索量对所述第三候选数据中的搜索词进行降序排序,根据排序在前的N个搜索词和对应的搜索量生成所述第二目标热搜词集合。
图10是本发明实施例提供的一种热搜词获取方法的系统流程图。请参见图10,系统模块结构可以包括请求处理模块、预处理模块、存储模块和衰减计算模块。
请求处理模块:用于实现与客户端交互,根据不同的请求类型和内容,触发相应的处理策略。若接收的是用户输入的检索内容,则将检索内容和场景类型写入消息队列系统,供预处理模块进行消费和处理;若请求的是实时热搜词查询,则根据场景类型,请求存储模块获取当前的实时热搜词列表,并返回给客户端;若请求的是历史热搜词查询,则根据时间范围、场景类型和Top-N参数,请求存储模块获取top-N热搜词,并返回给客户端。
预处理模块:从消息队列系统,获取用户的实时检索内容,提取出行业关键词和场景信息后,将结果按规则写入到存储模块。
存储模块:负责数据存储,支持海量数据的时间序列存储,提供预聚合和秒级(或亚秒级)的实时查询统计功能。存储包含两块区域:实时数据源(Raw DataSource)和衰减数据源(Decay DataSource)。实时数据源存储预处理模块实时写入的数据:衰减数据源存储衰减计算模块离线写入的数据,该数据是经过时间衰减计算后,在预设窗口时间内的搜索量的统计数据。
衰减计算模块:基于牛顿冷却定律的时间衰减函数模型,计算预设窗口时间内,搜索词的累积衰减搜索量,并将数据写入存储模块中的Decay DataSource区域。
利用该系统处理请求的流程包括:
1.客户端发送的热搜词查询请求可分为A、B、C三类,请求处理模块在收到请求后,根据类别触发相应的后续逻辑。其中,A为上报搜索内容,B为查询历史热搜词,C为查询实时热搜词。
2.A1-A4为实时处理流,基于用户的实时搜索内容和场景,提取行业关键词等数据后,写入到存储模块中的Raw DataSource区域。
3.B1-B2为查询历史热搜词的处理流,基于用户输入的参数,从存储模块RawDataSource区域中,获取特定时间段的Top-N热搜词。
4.C1-C5为实时热搜词的处理流,其中
a)C3-C5为离线处理(默认每天运行一次),衰减计算模块从Raw DataSource区域获取预设时间段内的每日搜索词统计数据,从Decay DataSource区域获取第(t-1)天的累积衰减搜索词统计数据,基于公式三计算出,第t天的累积衰减数据,并写入DecayDataSource区域
B)C1-C2为查询请求处理,根据用户的场景信息,C2返回实时的Top-N热搜词,热搜词的生成步骤为(假定当前为第(t-1)天):从Raw DataSource获取场景类型下当天Top-N的热搜数据D1,从Decay DataSource获取应用场景下第t天的Top-N的累积衰减数据D2,基于D1、D2中的数据再做归并排序,取出Top-N的搜索词作为最终结果。
图11是本发明实施例提供的一种搜索界面示意图,请参见图11,当用户点击图中“输入要搜索的企业”栏时,触发实时热搜词查询,后台会根据上述方法获取第一目标热搜词,并返回至客户端以在搜索页面中显示,图中“大家都在搜”示出的搜索词即为第一目标热搜词。为细化搜索结果、提高搜索结果的准确性,还在搜索页面中设置场景类型供用户选择,例如图中的企业、行业群、货源,用以提供多场景的热搜词计算功能,满足2B领域精细化搜索的需求。
本发明实施例提供的热搜词的获取方法,预先获取第一搜索词集合和第二搜索词集合,第一搜索词集合记录了搜索词和搜索词对应的场景,第二搜索词集合记录了搜索词和搜索词对应不同时间段的累计衰减搜索量。当收到查询实时热搜词请求时,在第一搜索词集合中获取第一热搜数据集合,在第二搜索词集合中获取第二热搜数据集合,由于第一热搜数据集合中的第一热搜词是第一时间区间内搜索量排序在前的搜索词,第二热搜数据集合中的第二热搜词是第二时间区间内累计衰减搜索量排序在前的搜索词,通过对第一热搜数据集合和第二热搜数据集合进行归并处理可以得到第一目标热搜词集合,第一目标热搜词集合中的搜索词是在第一时间区间和第二时间区间内综合搜索量排序在前的搜索词。当收到历史热搜词查询请求时,基于第一搜索词集合可获得任意所需时段的热搜词结果。
本发明实施例支持不同应用场景下热搜词的计算,并区别对待实时热搜词和历史热搜词,增强了服务的适用性。支持任意时间窗口内的热搜词统计,提高了查询历史热搜词的灵活性,并保证了良好的性能和用户体验。本方案采用了基于牛顿冷却定理的时间衰减函数模型,解决了检索词的时效性的问题,更好的反映了最近的搜索趋势,提高查询实时热搜词的准确性。
本发明实施例还提供了一种热搜词的获取装置,图12是本发明实施例提供的热搜词的获取装置的结构示意图,请参见图12,热搜词的获取装置包括热搜词查询请求获取模块1210、实时热搜词查询请求处理模块1220、第一搜索词集合构建模块、第二搜索词集合构建模块和历史热搜词查询请求处理模块。
第一搜索词集合构建模块包括搜索内容查询请求获取单元、时间戳获取单元、预处理单元和第一元素生成单元。其中,
搜索内容查询请求获取单元,用于接收搜索内容查询请求,搜索内容查询请求包含搜索内容和场景类别;
时间戳获取单元,用于获取搜索内容查询请求对应的时间戳;
预处理单元,用于基于场景类别和预设的关键词提取策略对搜索内容进行预处理,获得搜索词;
第一元素生成单元,用于根据时间戳、场景类别和搜索词生成第一搜索词集合中的一个元素。
第二搜索词构建模块包括分类单元、统计数据获取单元和第二搜索词集合获取单元。其中,
分类单元,用于根据场景类别对第一搜索词集合的元素进行分类,得到至少一个子集合,每个子集合中元素的场景类别相同;
统计数据获取单元,用于计算每个子集合在预设时间段内的每个第一时间周期对应的搜索词统计数据,每个第一时间周期对应的搜索词统计数据包括搜索词和搜索词在第一时间周期内的搜索量;
第二搜索词集合获取单元,用于对各个子集合在预设时间段内的每个第一时间周期对应的搜索词进行数据处理,得到第二搜索词集合;第二搜索词集合中的每个元素包括搜索词、搜索词的场景类别和搜索词在第二时间周期内的累计衰减搜索量。
在一个可行的实施例中,第二搜索词集合获取单元还用于:根据每个子集合在预设时间段内的每个第一时间周期对应的搜索词统计数据确定目标搜索词;根据各目标搜索词在预设时间段内的首次搜索时间和末次搜索时间确定冷却时间;根据预设的衰减计算模型计算各目标搜索词在冷却时间中的每个第二时间周期内的累计衰减搜索量;根据目标搜索词、目标搜索词的场景类别和累计衰减搜索量生成第二搜索词集合中的一个元素。
热搜词查询请求获取模块1210,用于获取热搜词查询请求;
实时热搜词查询请求处理模块1220包括:实时热搜词查询请求获取单元1221、第一热搜数据集合获取单元1223、第二热搜数据集合获取单元1225和第一目标热搜词集合获取单元1227。其中,
实时热搜词查询请求获取单元1221,用于在热搜词查询请求为实时热搜词查询请求时,提取实时热搜词查询请求中的场景类别;
第一热搜数据集合获取单元1223,用于根据场景类别查询第一搜索词集合得到第一热搜数据集合,第一热搜数据集合包括至少一个第一热搜数据,第一热搜数据包括第一热搜词和第一热搜词在第一时间区间内的搜索量;
第二热搜数据集合获取单元1225,用于根据场景类别查询第二搜索词集合得到第二热搜数据集合,第二热搜数据集合包括至少一个第二热搜数据,第二热搜数据包括第二热搜词和第二热搜词在第二时间区间内的累计衰减搜索量;
第一目标热搜词集合获取单元1227,用于根据第一热搜数据集合和第二热搜数据集合得到第一目标热搜词集合。
在一个可行的实施例中,实时热搜词查询请求获取单元1221,还用于:在热搜词查询请求为实时热搜词查询请求时,提取实时热搜词查询请求中的场景类别和第一目标搜索词数量M。
第一热搜数据集合获取单元1223还用于:从第一搜索词集合中确定第一候选数据,第一候选数据中搜索词的场景类别与实时热搜词查询请求中场景类别相同,并且第一候选数据中的搜索词的时间戳位于第一时间区间内;统计第一候选数据中的搜索词和搜索词的搜索量;根据搜索量对第一候选数据中的搜索词进行降序排列,将排序在前的M个搜索词作为M个第一热搜词,根据M个第一热搜词和对应的搜索量生成第一热搜数据集合。
第二热搜数据集合获取单元1225还用于:从第二搜索词集合中确定第二候选数据,第二候选数据包括搜索词和搜索词在第二时间区间内的累计衰减搜索量;第二候选数据中的搜索词的场景类别与实时热搜词查询请求中场景类别相同,第二时间区间为第一时间区间之前的预设时间段;根据累计衰减搜索量对第二候选数据中的搜索词进行降序排序,将排序在前的M个搜索词作为M个第二热搜词,根据M个第二热搜词和对应的累计衰减搜索量生成第二热搜数据集合。
第一目标热搜词集合获取单元1227还用于:根据第一搜索数据集合和第二搜索数据集合获得第三搜索数据集合;将第三搜索数据集合中的搜索词按照搜索量由高至低排序,根据排序在前的M个搜索词和对应的搜索量生成第一目标热搜词集合。
历史热搜词查询请求处理模块包括历史热搜词查询请求获取单元和第二目标热搜词集合获取单元。其中,
历史热搜词查询请求获取单元,用于在热搜词查询请求为历史热搜词查询请求时,提取历史热搜词查询请求中的场景类别和查询时间;
第二目标热搜词集合获取单元,用于根据历史热搜词查询请求中的场景类别和查询时间联合查询第一搜索词集合,得到第二目标热搜词集合。
在一个可行的实施例中,历史热搜词查询请求获取单元还用于:在热搜词查询请求为历史热搜词查询请求时,提取历史热搜词查询请求中的场景类别、查询时间和第二目标搜索词数量N。
第二目标热搜词集合获取单元还用于:根据历史热搜词查询请求中的场景类别和查询时间从第一搜索词集合中确定第三候选数据,第三候选数据中搜索词的场景类别与历史热搜词查询请求中的场景类别相同,并且第三候选数据中的搜索词的时间戳位于查询时间内;统计第三候选数据中的搜索词和搜索词的搜索量;根据搜索量对第三候选数据中的搜索词进行降序排序,根据排序在前的N个搜索词和对应的搜索量生成第二目标热搜词集合。
本发明实施例的热搜词的获取装置与方法实施例基于同样地发明构思。
本发明实施例提供的热搜词的获取装置支持不同应用场景下热搜词的计算,并区别对待实时热搜词和历史热搜词,增强了服务的适用性。支持任意时间窗口内的热搜词统计,提高了历史热搜词的灵活性,并保证了良好的性能和用户体验。本方案采用了基于牛顿冷却定理的时间衰减函数模型,解决了检索词的时效性的问题,更好的反映了最近的搜索趋势,提高查询实时热搜词的准确性。
本发明实施例提供了一种电子设备,该电子设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的热搜词的获取方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图13本发明实施例提供的实施热搜词获取方法的服务器的硬件结构框图。如图13所示,该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1310(处理器1310可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1330,一个或一个以上存储应用程序1323或数据1322的存储介质1320(例如一个或一个以上海量存储设备)。其中,存储器1330和存储介质1320可以是短暂存储或持久存储。存储在存储介质1320的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1310可以设置为与存储介质1320通信,在服务器1300上执行存储介质1320中的一系列指令操作。服务器1300还可以包括一个或一个以上电源1360,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1340,和/或,一个或一个以上操作系统1321,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1340可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1300的通信供应商提供的无线网络。在一个实例中,输入输出接口1340包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1340可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图13所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1300还可包括比图13中所示更多或者更少的组件,或者具有与图13所示不同的配置。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种热搜词的获取方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的热搜词的获取方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络客户端中的至少一个网络客户端。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种热搜词的获取方法,其特征在于,包括:
获取热搜词查询请求;
若所述热搜词查询请求为实时热搜词查询请求,提取所述实时热搜词查询请求中的场景类别;
根据所述场景类别查询第一搜索词集合得到第一热搜数据集合,所述第一热搜数据集合包括至少一个第一热搜数据,所述第一热搜数据包括第一热搜词和所述第一热搜词在第一时间区间内的搜索量;
根据所述场景类别查询第二搜索词集合得到第二热搜数据集合,所述第二热搜数据集合包括至少一个第二热搜数据,所述第二热搜数据包括第二热搜词和所述第二热搜词在第二时间区间内的累计衰减搜索量;
根据所述第一热搜数据集合和所述第二热搜数据集合得到第一目标热搜词集合。
2.根据权利要求1所述的方法,其特征在于,还包括构建所述第一搜索词集合的步骤,所述构建第一搜索词集合包括:
接收搜索内容查询请求,所述搜索内容查询请求包含搜索内容和场景类别;
获取所述搜索内容查询请求对应的时间戳;
基于所述场景类别和预设的关键词提取策略对所述搜索内容进行预处理,获得搜索词;
根据所述时间戳、所述场景类别和所述搜索词生成所述第一搜索词集合中的一个元素。
3.根据权利要求1或2所述的方法,其特征在于,还包括构建第二搜索词集合的步骤,所述构建第二搜词集合包括:
根据场景类别对所述第一搜索词集合的元素进行分类,得到至少一个子集合,每个所述子集合中元素的场景类别相同;
计算每个子集合在预设时间段内的每个第一时间周期对应的搜索词统计数据,所述每个第一时间周期对应的搜索词统计数据包括搜索词和所述搜索词在所述第一时间周期内的搜索量;
对各个子集合在所述预设时间段内的每个第一时间周期对应的搜索词进行数据处理,得到第二搜索词集合;所述第二搜索词集合中的每个元素包括搜索词、所述搜索词的场景类别和所述搜索词在第二时间周期内的累计衰减搜索量。
4.根据权利要求3所述的方法,其特征在于,所述对各个子集合在所述预设时间段内的每个第一时间周期对应的搜索词进行数据处理,得到第二搜索词集合,包括:
根据每个子集合在所述预设时间段内的每个第一时间周期对应的搜索词统计数据确定目标搜索词;
根据各所述目标搜索词在所述预设时间段内的首次搜索时间和末次搜索时间确定冷却时间;
根据预设的衰减计算模型计算各所述目标搜索词在所述冷却时间中的每个所述第二时间周期内的累计衰减搜索量;
根据所述目标搜索词、所述目标搜索词的场景类别和累计衰减搜索量生成所述第二搜索词集合中的一个元素。
5.根据权利要求1所述的方法,其特征在于,所述实时热搜词查询请求还包括第一目标搜索词数量M;
所述根据所述场景类别查询第一搜索词集合得到第一热搜数据集合,包括:
从所述第一搜索词集合中确定第一候选数据,所述第一候选数据中搜索词的场景类别与所述实时热搜词查询请求中场景类别相同,并且所述第一候选数据中的搜索词的时间戳位于所述第一时间区间内;
统计所述第一候选数据中的搜索词和所述搜索词的搜索量;
根据搜索量对所述第一候选数据中的搜索词进行降序排列,将排序在前的M个搜索词作为M个所述第一热搜词,根据M个所述第一热搜词和对应的搜索量生成所述第一热搜数据集合;
根据所述场景类别查询第二搜索词集合得到第二热搜数据集合,包括:
从所述第二搜索词集合中确定第二候选数据,所述第二候选数据包括搜索词和所述搜索词在所述第二时间区间内的累计衰减搜索量;所述第二候选数据中的搜索词的场景类别与所述实时热搜词查询请求中场景类别相同,所述第二时间区间为所述第一时间区间之前的预设时间段;
根据累计衰减搜索量对所述第二候选数据中的搜索词进行降序排序,将排序在前的M个搜索词作为M个所述第二热搜词,根据M个所述第二热搜词和对应的累计衰减搜索量生成所述第二热搜数据集合;
所述根据所述第一热搜数据集合和所述第二热搜数据集合得到第一目标热搜词集合,包括:
根据所述第一搜索数据集合和所述第二搜索数据集合获得第三搜索数据集合;
将第三搜索数据集合中的搜索词按照搜索量由高至低排序,根据排序在前的M个搜索词和对应的搜索量生成所述第一目标热搜词集合。
6.根据权利要求1所述的方法,其特征在于,
若所述热搜词查询请求为历史热搜词查询请求,提取所述历史热搜词查询请求中的场景类别和查询时间;
根据所述历史热搜词查询请求中的场景类别和查询时间联合查询所述第一搜索词集合,得到第二目标热搜词集合。
7.根据权利要求6所述的方法,其特征在于,所述历史热搜词查询请求还包括第二目标搜索词数量N;
根据所述历史热搜词查询请求中的场景类别和查询时间联合查询所述第一搜索词集合,得到第二目标热搜词集合,包括:
根据所述历史热搜词查询请求中的场景类别和查询时间从所述第一搜索词集合中确定第三候选数据,所述第三候选数据中搜索词的场景类别与所述历史热搜词查询请求中的场景类别相同,并且所述第三候选数据中的搜索词的时间戳位于所述查询时间内;
统计所述第三候选数据中的搜索词和所述搜索词的搜索量;
根据搜索量对所述第三候选数据中的搜索词进行降序排序,根据排序在前的N个搜索词和对应的搜索量生成所述第二目标热搜词集合。
8.一种热搜词的获取装置,其特征在于,包括热搜词查询请求获取模块和实时热搜词查询请求处理模块:
所述热搜词查询请求获取模块,用于获取热搜词查询请求;
所述实时热搜词查询请求处理模块包括:
实时热搜词查询请求获取单元,用于在所述热搜词查询请求为实时热搜词查询请求时,提取所述实时热搜词查询请求中的场景类别;
第一热搜数据集合获取单元,用于根据所述场景类别查询第一搜索词集合得到第一热搜数据集合,所述第一热搜数据集合包括至少一个第一热搜数据,所述第一热搜数据包括第一热搜词和所述第一热搜词在第一时间区间内的搜索量;
第二热搜数据集合获取单元,用于根据所述场景类别查询第二搜索词集合得到第二热搜数据集合,所述第二热搜数据集合包括至少一个第二热搜数据,所述第二热搜数据包括第二热搜词和所述第二热搜词在第二时间区间内的累计衰减搜索量;
第一目标热搜词集合获取单元,用于根据所述第一热搜数据集合和所述第二热搜数据集合得到第一目标热搜词集合。
9.一种电子设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-7任一所述的热搜词的获取方法。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-7任一所述的热搜词的获取方法。
CN202010412534.0A 2020-01-22 2020-05-15 一种热搜词的获取方法、装置、设备及存储介质 Active CN111382342B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020100735874 2020-01-22
CN202010073587 2020-01-22

Publications (2)

Publication Number Publication Date
CN111382342A true CN111382342A (zh) 2020-07-07
CN111382342B CN111382342B (zh) 2023-03-24

Family

ID=71216045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010412534.0A Active CN111382342B (zh) 2020-01-22 2020-05-15 一种热搜词的获取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111382342B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116861063A (zh) * 2023-06-07 2023-10-10 广州数说故事信息科技有限公司 一种发掘社媒热搜商业价值度的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984423A (zh) * 2010-10-21 2011-03-09 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102043843A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于目标应用获取目标词条的方法与获取设备
CN104765835A (zh) * 2015-04-14 2015-07-08 无锡天脉聚源传媒科技有限公司 一种搜索词的搜索方法及装置
CN107341268A (zh) * 2017-07-25 2017-11-10 北京奇艺世纪科技有限公司 一种热搜榜排序方法及系统
WO2018006703A1 (zh) * 2016-07-07 2018-01-11 腾讯科技(深圳)有限公司 文本内容的推荐方法、系统及存储介质
CN107798066A (zh) * 2017-09-25 2018-03-13 北京小度信息科技有限公司 一种搜索词推送方法、装置及终端
US20180260484A1 (en) * 2017-03-06 2018-09-13 Guangzhou Shenma Mobile Information Technology Co., Ltd. Method, Apparatus, and Device for Generating Hot News

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984423A (zh) * 2010-10-21 2011-03-09 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102043843A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于目标应用获取目标词条的方法与获取设备
CN104765835A (zh) * 2015-04-14 2015-07-08 无锡天脉聚源传媒科技有限公司 一种搜索词的搜索方法及装置
WO2018006703A1 (zh) * 2016-07-07 2018-01-11 腾讯科技(深圳)有限公司 文本内容的推荐方法、系统及存储介质
US20180260484A1 (en) * 2017-03-06 2018-09-13 Guangzhou Shenma Mobile Information Technology Co., Ltd. Method, Apparatus, and Device for Generating Hot News
CN107341268A (zh) * 2017-07-25 2017-11-10 北京奇艺世纪科技有限公司 一种热搜榜排序方法及系统
CN107798066A (zh) * 2017-09-25 2018-03-13 北京小度信息科技有限公司 一种搜索词推送方法、装置及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ISHIKAWA S等: "hot topic detection in local areas using Twitter and Wikipedia", 《ARCS 2012》 *
孟志青等: "时态文本数据流特征流行趋势模型及算法", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116861063A (zh) * 2023-06-07 2023-10-10 广州数说故事信息科技有限公司 一种发掘社媒热搜商业价值度的方法
CN116861063B (zh) * 2023-06-07 2024-02-27 广州数说故事信息科技有限公司 一种发掘社媒热搜商业价值度的方法

Also Published As

Publication number Publication date
CN111382342B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
US9058631B2 (en) Method and system for e-commerce transaction data accounting
WO2015192667A1 (zh) 推荐广告的方法及广告推荐服务器
US20120166438A1 (en) System and method for recommending queries related to trending topics based on a received query
CN109165975B (zh) 标签推荐方法、装置、计算机设备及存储介质
US10346496B2 (en) Information category obtaining method and apparatus
CN103838756A (zh) 一种确定推送信息的方法及装置
CN111597449B (zh) 用于搜索的候选词构建方法、装置、电子设备及可读介质
CN104933100A (zh) 关键词推荐方法和装置
CN110717093B (zh) 一种基于Spark的电影推荐系统及方法
CN112052394B (zh) 专业内容信息的推荐方法、系统、终端设备和存储介质
US20150234883A1 (en) Method and system for retrieving real-time information
CN112818230B (zh) 内容推荐方法、装置、电子设备和存储介质
CN112487283A (zh) 训练模型的方法、装置、电子设备及可读存储介质
CN114528495B (zh) 基于小程序的操作数据处理方法、装置、设备及存储介质
CN107169821B (zh) 大数据查询推荐方法及其系统
Sun et al. Collaborative nowcasting for contextual recommendation
CN110795613A (zh) 商品搜索方法、装置、系统及电子设备
CN106874332B (zh) 数据库访问方法和装置
CN115423555A (zh) 一种商品推荐方法、装置、电子设备及存储介质
CN111382342B (zh) 一种热搜词的获取方法、装置、设备及存储介质
CN108664605B (zh) 一种模型评估方法及系统
CN113706253A (zh) 实时产品推荐方法、装置、电子设备及可读存储介质
CN108875014B (zh) 基于大数据与人工智能的精准项目推荐方法和机器人系统
US20180276294A1 (en) Information processing apparatus, information processing system, and information processing method
JP2007183903A (ja) トレンド情報分析装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40026136

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant