CN107341268A

CN107341268A - 一种热搜榜排序方法及系统

Info

Publication number: CN107341268A
Application number: CN201710612008.7A
Authority: CN
Inventors: 王天畅
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-07-25
Filing date: 2017-07-25
Publication date: 2017-11-10
Anticipated expiration: 2037-07-25
Also published as: CN107341268B

Abstract

本发明公开了一种热搜榜排序方法及系统，该方法包括：在搜索日志系统中，按照查询词的来源对所述查询词进行数量加和统计，获得所述查询词的点击数据；对所述查询词进行过滤，得到候选查询词；加权计算获得所述候选查询词排序依据分数；根据所述候选查询词的排序依据分数，对所述候选查询词进行排序，生成热搜榜。解决了现有技术中热搜榜查询词更新率不高和用户体验度不高的问题。

Description

一种热搜榜排序方法及系统

技术领域

本发明涉及搜索引擎技术领域，特别是涉及一种热搜榜排序方法及系统。

背景技术

随着互联网的广泛应用，在互联网视频或社交产品中，用户可以通过搜索行为来获取感兴趣的明星或者剧集等相关内容，同时也可以使用热点事件相关的查询词获取事件资讯。通常搜索引擎可以统计一定时间段内的用户搜索行为数据，对所有查询词按搜索次数进行排序生成热搜榜。用户可以通过热搜榜获知近期热门查询词，这些热门查询词易于引导用户拓展兴趣。

现有的热搜榜排序方法通常以查询词在一定时间段内的搜索次数为依据，但是这会导致在特定用户习惯下，热搜榜查询词会出现长期更新率不高的现象，使得某些查询词长期占据热搜榜的位置。而对于社交产品搜索，热搜榜更新变化率低不利于用户通过热搜榜探索发现近期热点查询词，从而降低了用户体验。

发明内容

针对于上述问题，本发明提供一种热搜榜排序方法及系统，解决了现有技术中热搜榜查询词更新率不高和用户体验度不高的问题。

为了实现上述目的，根据本发明的第一方面，提供了一种热搜榜排序方法，该方法包括：

在搜索日志系统中，按照查询词的来源对所述查询词进行数量加和统计，获得所述查询词的点击数据；

按照预设的查询词过滤规则，对所述查询词进行过滤，得到候选查询词；

对所述候选查询词的点击数据进行加权计算，得到所述候选查询词排序依据分数；

根据所述候选查询词的排序依据分数，对所述候选查询词进行排序，生成热搜榜。

优选的，所述在搜索日志系统中，按照查询词的来源对所述查询词进行数量加和统计，获得所述查询词的点击数据，包括：

获取搜索日志系统中搜索事件的搜索属性，并在所述搜索属性中提取出所述查询词的搜索来源属性；

根据所述查询词的搜索来源属性，分别计算所述每个查询词的搜索次数、点击次数和搜索人数，对各个数据进行加和统计得到所述查询词的点击数据。

优选的，所述根据所述查询词的属性和类型，按照预设的查询词过滤规则，对所述查询词进行过滤，得到候选查询词，包括：

按照所述查询词的属性和类型对所述查询词进行分类，判断所述查询词中是否包含满足预设的查询词过滤规则的查询词，如果是，则过滤掉所述满足预设的查询词过滤规则的查询词，将过滤后的查询词作为候选查询词；

其中，所述预设的查询词过滤规则的查询词包括恶意刷量查询词、色情查询词和低质量查询词。

优选的，所述对所述候选查询词的点击数据进行加权计算，得到所述候选查询词排序依据分数，包括：

根据所述候选查询词的点击数据，得到候选查询词来源为输入的搜索量、候选查询词来源为热搜榜的搜索量、候选查询词为默认搜索词的搜索量和候选查询词来源为历史搜索词的搜索量；

对所述每个来源的搜索量进行归一化处理，得到所述候选查询词来源的四个维度搜索量；

对每个候选词进行四个维度搜索量的加权计算，获得所述每个候选词的排序依据分数。

根据本发明的第二方面，提供了一种热搜榜排序系统，该系统包括：

日志分析模块，用于在搜索日志系统中，按照查询词的来源对所述查询词进行数量加和统计，获得所述查询词的点击数据；

过滤模块，用于按照预设的查询词过滤规则，对所述查询词进行过滤，得到候选查询词；

计算模块，依据所述候选查询词的点击数据，计算获得所述候选查询词排序依据分数；

排序模块，用于根据所述候选查询词的排序依据分数，对所述候选查询词进行排序，生成热搜榜。

优选的，所述日志分析模块包括：

搜索来源获取单元，用于获取搜索日志系统中搜索事件的搜索属性，并在所述搜索属性中提取出所述查询词的搜索来源属性；

数据统计单元，用于根据所述查询词的搜索来源属性，分别计算每个查询词的搜索次数、点击次数和搜索人数，对各个数据进行加和统计得到所述查询词的点击数据。

优选的，所述过滤模块包括：

判断单元，用于按照所述查询词的属性和类型对所述查询词进行分类，判断所述查询词中是否包含满足预设的查询词过滤规则的查询词，如果是，则过滤掉所述满足预设的查询词过滤规则的查询词，将过滤后的查询词作为候选查询词；

优选的，所述计算模块包括：

搜索量获取单元，用于根据所述候选查询词的点击数据，得到候选查询词来源为输入的搜索量、候选查询词来源为热搜榜的搜索量、候选查询词为默认搜索词的搜索量和查询词来源为历史搜索词的搜索量；

处理单元，用于对所述每个来源的搜索量进行归一化处理，得到所述候选查询词来源的四个维度搜索量；

计算单元，用于对所述每个候选词进行四个维度搜索量的加权计算，获得所述每个候选词的排序依据分数。

相较于现有技术，本发明在搜索日志系统中，按照查询词的来源对查询词的点击数据进行数量加和统计，并且过滤掉了查询词中的恶意刷量、色情和低质量的词，保证了查询词的质量，并且通过加权计算获得了候选查询词的排序分数，这样会使较新或搜索量增长较快的查询词取代用户主动输入较少并且长期占据热搜榜的查询词，解决了现有技术中热搜榜查询词更新率不高和用户体验度不高的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例一提供的一种热搜榜排序方法的流程示意图；

图2为本发明实施例二对应的图1中所示S11步骤中的获取查询词点击数据的流程示意图；

图3为本发明实施例二对应的图1中所示S13步骤中的计算排序依据分数的流程示意图；

图4为本发明实施例三提供的一种热搜榜排序系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参见图1为本发明实施例一提供的一种热搜榜排序方法的流程示意图，该方法包括下步骤：

S11、在搜索日志系统中，按照查询词的来源对所述查询词进行数量加和统计，获得所述查询词的点击数据；

具体的，用户以多种途径进入搜索页面，主要有搜索输入、搜索框默认搜索词、热搜榜点击和历史搜索词点击。在进入搜索页面后客户端产生一条搜索日志记录当前搜索事件的各种属性，如搜索词、搜索时间、事件ID和用户ID等，产生的日志将记录在搜索日志系统中，作为数据来源。在本发明中通过查询词来源进行数量加和统计，可以使查询词在来源上进行区分，能够为构造的热搜榜符合用户的需求，提高用户体验度。

S12、按照预设的查询词过滤规则，对所述查询词进行过滤，得到候选查询词；

可以理解的，热搜榜是重要的搜索查询词展示位置，所以需要控制展示查询词的质量，应该避免一些低质量和没有存在意义的词获得展示位置。

对应查询词的属性和类型，即查询词的性质和词类型，根据这些与预设的过滤规则进行比较，可以过滤掉一些没有统计价值或者不符合相关法规的词语，得到候选查询词。在本发明实施例中，通过对查询词的过滤可以使统计结果更加准确，并且更能符合网络传播安全的规则。

S13、对所述候选查询词的点击数据进行加权计算，得到所述候选查询词排序依据分数；

需要说明的是，由于生成的热搜榜的最终目的是为了提高用户的体验度，所以可以根据对查询词的不同来源的点击数据设置对应的权值，该权值的取值范围的设置取决于用户的实际情况，可以将经常获取查询词的来源的对应的数据的权值设置的相对较大，进而这种通过加权计算得到的结果将更符合用户需求。

S14、根据所述候选查询词的排序依据分数，对所述候选查询词进行排序，生成热搜榜。

具体的，通过计算分数使得候选词的排序更具备客观性，生成的热搜榜中的查询词更能具有代表性。

通过本发明实施例一公开的技术方案，在搜索日志系统中，按照查询词的来源对查询词的点击数据进行数量加和统计，并且过滤掉了查询词中的恶意刷量、色情和低质量的词，保证了查询词的质量，并且通过加权计算获得了候选查询词的排序分数，这样会使较新或搜索量增长较快的查询词取代用户主动输入较少并且长期占据热搜榜的查询词，解决了现有技术中热搜榜查询词更新率不高和用户体验度不高的问题。

实施例二

参照本发明实施例一和图1中所描述的S11到S14步骤的具体过程，并参见图2为发明实施例二对应的图1中所示S11步骤中的获取查询词点击数据的流程示意图和图3为本发明实施例二对应的图1中所示步骤S13步骤中的计算排序依据分数的流程示意图，其中图1中步骤S11具体包括：

S111、获取搜索日志系统中搜索事件的搜索属性，并在所述搜索属性中提取出所述查询词的搜索来源属性；

具体的，某个搜索事件可以对应多个搜索属性，比如，该事件发生的时间则为搜索时间属性，该事件发生的目的则为搜索目的属性。搜索事件之所以产生是由于输入查询词获得某些查询结果，所以可以得知查询词的来源属性，即查询词是通过什么方式进行的输入，比如单纯的输入，在热搜榜中的选取还有系统提示的默认搜索词等，这些由搜索服务器后台进行统计分析。

S112、根据所述查询词的搜索来源属性，分别计算所述每个查询词的搜索次数、点击次数和搜索人数，对各个数据进行加和统计得到所述查询词的点击数据。

具体的，获取搜索日志系统中搜索事件的搜索属性，进一步提取出查询词的搜索来源属性，其中搜索来源包括input(输入)、hot(热搜榜)、default(默认搜索词)和history(历史搜索记录)，当然在本实施例中只是列举出以上四种搜索来源也可以根据实际情况或需要定义其他搜索来源，根据搜索来源，统计每个查询词的搜索次数、点击次数和搜索人数，并对查询词对应的搜索来源的各个数据进行了加和统计，并将这些数据作为点击数据供后续步骤分析利用。按照来源不同对查询词进行统计得到的统计量更加客观，并且为后续生成的热搜榜更加符合用户的需求，提高了用户的体验度。

在获得了查询词的点击数据后，需要执行图1中步骤S12获取候选查询词，具体的为按照所述查询词的属性和类型对所述查询词进行分类，判断所述查询词中是否包含满足预设的查询词过滤规则的查询词，如果是，则过滤掉所述满足预设的查询词过滤规则的查询词，将过滤后的查询词作为候选查询词；

具体的，对于恶意刷量或者作弊查询词通用特征为搜索次数较多，但搜索人数、IP极少，因此可以对每个查询词计算搜索量与搜索人数的比值，若比值大于预设较大的阈值，，即某个用户对某一查询词进行了多次搜索，进而将搜索次数的数值变大，而对应的搜索人数的数值并未改变，所以说明单个用户对该词搜索量贡献较大，将通过这种显现产生的搜索词判定为恶意刷量或者作弊性质的查询词，对其过滤；

以模版匹配的方式过滤包含色情类词语的查询词，也可以采用其他的方式对色情类查询词进行过滤，本发明对此不做限定；

相应的，搜索引擎最常以点击率评价搜索质量，查询词维度也可使用点击率评价查询词对搜索的贡献度，所以对于每个查询词，若点击率过低，则可能查询词缺少相关对应内容，或者查询词输入有误。通过设定点击率阈值，将点击率低于该阈值的查询词过滤。

因为热搜榜是重要的查询词的展示位置，所以要控制展示的查询词的质量，过滤掉了恶意刷量查询词使查询词的展示更加客观，并且过滤掉了色情查询词，使生成的热搜榜更加符合网络传输安全规则，同时过滤掉了低质量查询词，使得热搜榜更加准确。

在获取候选查询词后，需要执行图1中步骤S13计算所述候选查询词排序依据分数，参见图3，该步骤具体包括：

S131、根据所述候选查询词的点击数据，得到候选查询词来源为输入的搜索量、候选查询词来源为热搜榜的搜索量、候选查询词为默认搜索词的搜索量和查询词来源为历史搜索词的搜索量；

具体的，将imp_input记为查询词来源为输入的搜索量；imp_hot记为查询词来源为热搜榜的搜索量；imp_default记为查询词来源为默认搜索词的搜索量；imp_history记为查询词来源为历史搜索词的搜索量。

S132、对每个来源的搜索量进行归一化处理，得到所述候选查询词来源的四个维度搜索量；

相应的，对每个来源的搜索量进行归一化后分别得到：

imp_norm_input、imp_norm_hot、imp_norm_default、imp_norm_history。

对每个来源的搜索量进行归一化处理，是为了使后续的分数计算更加直观和简单。

S133、对每个候选词进行四个维度搜索量的加权计算，获得所述每个候选词的排序依据分数。

具体的，对四个维度搜索量的归一化分数线性加权，得到最终排序依赖的score：

Score＝∑w_iimp_norm_i

其中w_i代表各维度搜索量的权重，为经验性权重得分，通常来源为用户输入的搜索量权重最高，最能反映实时热点事件变化趋势。

在本发明实施例中，提供的线性加权的计算方法，能够根据用户的使用习惯进行相应的权值的匹配，使生成的热搜榜更加符合用户的需求，提高了用户的体验度。

根据本发明实施例二公开的技术方案，从查询词的来源对查询词的搜索量进行了统计，并过滤掉了查询词中的恶意刷量查询词、色情查询词和低质量查询词，保证了候选查询词的质量，并以线性加权的方法计算候选查询词的排序方法使用户经常输入的查询词获得更多的展示机会，提高了用户的体验度，通过本方案生成的热搜榜，解决了现有技术中热搜榜查询词更新率不高和用户体验度不高的问题。

实施例三

与本发明实施例一和实施例二所公开的热搜榜排序方法相对应，本发明的实施例三还提供了一种热搜榜排序系统，参见图4，该系统包括：

日志分析模块1，用于在搜索日志系统中，按照查询词的来源对所述查询词进行数量加和统计，获得所述查询词的点击数据；

过滤模块2，用于按照预设的查询词过滤规则，对所述查询词进行过滤，得到候选查询词；

计算模块3，对所述候选查询词的点击数据进行加权计算，得到所述候选查询词排序依据分数；

排序模块4，用于根据所述候选查询词的排序依据分数，对所述候选查询词进行排序，生成热搜榜。

相应的，所述日志分析模块1包括：

搜索来源获取单元11，用于获取搜索日志系统中搜索事件的搜索属性，并在所述搜索属性中提取出所述查询词的搜索来源属性；

数据统计单元11，用于根据所述查询词的搜索来源属性，分别计算所述每个查询词的搜索次数、点击次数和搜索人数，对各个数据进行加和统计得到所述查询词的点击数据。

同时，所述过滤模块2包括：

判断单元21，用于按照所述查询词的属性和类型对所述查询词进行分类，判断所述查询词中是否包含满足预设的查询词过滤规则的查询词，如果是，则过滤掉所述满足预设的查询词过滤规则的查询词，将过滤后的查询词作为候选查询词；

相应的，所述计算模块3包括：

搜索量获取单元31，用于根据所述候选查询词的点击数据，得到候选查询词来源为输入的搜索量、候选查询词来源为热搜榜的搜索量、候选查询词为默认搜索词的搜索量和查询词来源为历史搜索词的搜索量；

处理单元32，用于对所述每个来源的搜索量进行归一化处理，得到所述候选查询词来源的四个维度搜索量；

计算单元33，用于对所述每个候选词进行四个维度搜索量的加权计算，获得所述每个候选词的排序依据分数。

在本发明的实施例三中，通过日志分析模块，按照查询词的来源获得了所述查询词的点击数据，并且在过滤模块中过滤掉恶意刷量、色情和低质量的查询词，然后通过计算模块，对候选查询词的搜索量进行加权计算，获得排序分数，在排序模块中依据排序分数对候选查询词进行排序生成热搜榜，由于按查询词的来源进行统计计算，使得热搜榜中的查询词可以不断更新提高了用户的体验度，解决了现有技术中热搜榜查询词更新率不高和用户体验度不高的问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种热搜榜排序方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述在搜索日志系统中，按照查询词的来源对所述查询词进行数量加和统计，获得所述查询词的点击数据，包括：

根据所述查询词的搜索来源属性，分别计算每个查询词的搜索次数、点击次数和搜索人数，对各个数据进行加和统计得到所述查询词的点击数据。

3.根据权利要求1所述的方法，其特征在于，所述按照预设的查询词过滤规则，对所述查询词进行过滤，得到候选查询词，包括：

按照所述查询词的属性和类型对所述查询词进行分类，判断所述查询词中是否包含满足预设的查询词过滤规则的查询词，如果是，则过滤掉满足预设的查询词过滤规则的查询词，将过滤后的查询词作为候选查询词；

4.根据权利要求1所述的方法，其特征在于，所述对所述候选查询词的点击数据进行加权计算，得到所述候选查询词排序依据分数，包括：

5.一种热搜榜排序系统，其特征在于，该系统包括：

计算模块，对所述候选查询词的点击数据进行加权计算，得到所述候选查询词排序依据分数；

6.根据权利要求5所述的系统，其特征在于，所述日志分析模块包括：

7.根据权利要求5所述的系统，其特征在于，所述过滤模块包括：

判断单元，用于按照所述查询词的属性和类型对所述查询词进行分类，判断所述查询词中是否包含满足预设的查询词过滤规则的查询词，如果是，则过滤掉所述预设的查询词过滤规则的查询词，将过滤后的查询词作为候选查询词；

8.根据权利要求5所述的系统，其特征在于，所述计算模块包括：

搜索量获取单元，用于根据所述候选查询词的点击数据，得到候选查询词来源为输入的搜索量、候选查询词来源为热搜榜的搜索量、候选查询词为默认搜索词的搜索量和候选查询词来源为历史搜索词的搜索量；

计算单元，用于对所述每个候选词进行四个维度搜索量的加权计算，获得每个候选词的排序依据分数。