CN111611491A

CN111611491A - 搜索词推荐方法、装置、设备及可读存储介质

Info

Publication number: CN111611491A
Application number: CN202010453099.6A
Authority: CN
Inventors: 王国瑞; 刘博�
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-09-01

Abstract

本发明公开了一种搜索词推荐方法、装置、设备及可读存储介质，该方法包括以下步骤：当侦测到用户搜索指令时，确定所述用户搜索指令对应用户的目标用户簇；将预设热词池中的各热词分别和所述目标用户簇进行计算，得到所述用户在各所述热词上的预估点击率；根据各所述预估点击率，确定各所述热词中与所述用户匹配的搜索词，并向所述用户推荐所述搜索词。本发明依据各个预估点击率，可准确确定各个热词中与用户匹配的搜索词，实现了搜索词的准确推荐。

Description

搜索词推荐方法、装置、设备及可读存储介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种搜索词推荐方法、装置、设备及可读存储介质。

背景技术

随着金融科技(Fintech)，尤其是互联网科技金融的不断发展，越来越多的技术(如人工智能、大数据、云存储等)应用在金融领域，但金融领域也对各类技术提出了更高的要求，如要求准确的向用户推荐用于搜索的热词。

当前搜索热词的推荐通常是依据用户的热词的感兴趣程度来进行推荐的，收集当前事实热点信息，结合用户画像和热点信息进行推荐。但是由于用户画像所反映的用户兴趣往往不够全面准确，导致依据用户画像和热点信息向用户推荐的搜索热词不准确。

发明内容

本发明的主要目的在于提供一种搜索词推荐方法、装置、设备及可读存储介质，旨在解决现有技术中向用户推荐的搜索热词不准确的技术问题。

为实现上述目的，本发明提供一种搜索词推荐方法，所述搜索词推荐方法包括以下步骤：

当侦测到用户搜索指令时，确定所述用户搜索指令对应用户的目标用户簇；

将预设热词池中的各热词分别和所述目标用户簇进行计算，得到所述用户在各所述热词上的预估点击率；

根据各所述预估点击率，确定各所述热词中与所述用户匹配的搜索词，并向所述用户推荐所述搜索词。

可选地，所述将预设热词池中的各热词分别和所述目标用户簇进行计算，得到所述用户在各所述热词上的预估点击率的步骤包括：

读取所述预设热词池中的各个热词；

针对每个所述热词，根据所述目标用户簇和所述热词，计算探索因子；

获取所述目标用户簇在所述热词上的平均点击率，以及随机数，并基于预设公式，对所述平均点击率、所述探索因子和所述随机数进行运算，生成所述用户在所述热词上的预估点击率。

可选地，所述确定所述用户搜索指令对应用户的目标用户簇的步骤包括：

获取所述用户的兴趣标签，并对所述兴趣标签进行编码，得到兴趣编码；

获取各预设用户簇的簇中心编码，并确定各所述簇中心编码分别与所述兴趣编码之间的相似度值；

根据各所述相似度值之间的大小关系，确定各所述预设用户簇中与所述用户搜索指令对应用户的目标用户簇。

可选地，所述获取所述用户的兴趣标签的步骤之前，所述方法还包括：

获取所述用户的历史搜索记录，并对与所述历史搜索记录对应的信息进行词频分析，生成所述用户的兴趣标签；

按照预设周期间隔，获取所述用户在所述预设周期内的搜索记录，并根据所述预设周期内的搜索记录，对所述用户的兴趣标签进行更新。

可选地，所述将预设热词池中的各热词分别和所述目标用户簇进行计算的步骤之前，所述方法还包括：

获取网络热词，并对所述网络热词进行过滤，生成目标网络热词添加到预设热词库中；

获取与预设品类对应的网络热点信息，从所述网络热点信息中提取出品类关键词，并生成与所述品类关键词对应的扩展词；

将所述品类关键词和所述扩展词添加到所述预设热词库中，以对所述预设热词库中的目标网络热词进行补充。

可选地，所述根据各所述预估点击率，确定各所述热词中与所述用户匹配的搜索词的步骤包括：

根据各所述预估点击率之间从大到小的顺序，对各所述预估点击率进行排序，生成点击率序列；

确定所述点击率序列中排列在前预设位的目标点击率，并查找各所述热词中与各所述目标点击率分别对应的热词，作为与所述用户匹配的搜索词。

可选地，所述当侦测到用户搜索指令时，确定所述用户搜索指令对应用户的目标用户簇的步骤之前，所述方法还包括：

获取多个待聚类用户的待聚类兴趣标签，并对各所述待聚类兴趣标签进行编码，生成多个所述待聚类用户的待聚类兴趣编码；

基于预设聚类规则，对多个所述待聚类兴趣编码进行聚类，形成多个预设用户簇。

进一步地，为实现上述目的，本发明还提供一种搜索词推荐装置，所述搜索词推荐装置包括：

确定模块，用于当侦测到用户搜索指令时，确定所述用户搜索指令对应用户的目标用户簇；

计算模块，用于将预设热词池中的各热词分别和所述目标用户簇进行计算，得到所述用户在各所述热词上的预估点击率；

推荐模块，用于根据各所述预估点击率，确定各所述热词中与所述用户匹配的搜索词，并向所述用户推荐所述搜索词。

进一步地，为实现上述目的，本发明还提供一种搜索词推荐设备，所述搜索词推荐设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的搜索词推荐程序，所述搜索词推荐程序被所述处理器执行时实现如上述所述的搜索词推荐方法的步骤。

进一步地，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有搜索词推荐程序，所述搜索词推荐程序被处理器执行时实现如上所述的搜索词推荐方法的步骤。

本发明的搜索词推荐方法、装置、设备及计算机可读存储介质，在侦测到用户搜索指令时，先对该用户搜索指令所对应用户的目标用户簇进行确定，目标用户簇表征了与发送用户搜索指令的用户具有相似兴趣爱好的多个同类用户的集合；再将预设热词池中的各个热词分别和目标用户簇进行计算，得到用户在各热词上的预估点击率，以通过目标用户簇中具有相同兴趣爱好的同类用户对各个热词的点击情况，来推测用户当前可能需求的热词；用户在各个热词上的预估点击率即表征了用户对各热词的需求情况，预估点击率越大则需求越大，从而可依据各个预估点击率，来确定各个热词中与用户匹配的搜索词向用户进行推荐。因目标用户簇中具有相同兴趣爱好的同类用户对各个热词的点击情况为各同类用户实际的点击情况，具有较高的准确性，使得依据其所计算得到的预估点击率也具有较高的准确性，依据各个预估点击率，可准确确定各个热词中与用户匹配的搜索词，实现了搜索词的准确推荐。

附图说明

图1为本发明搜索词推荐设备实施例方案涉及的设备硬件运行环境的结构示意图；

图2为本发明搜索词推荐方法第一实施例的流程示意图；

图3为本发明搜索词推荐装置较佳实施例的功能模块示意图；

图4为本发明搜索词推荐方法一具体实施例中推荐搜索词的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种搜索词推荐设备，参照图1，图1为本发明搜索词推荐设备实施例方案涉及的设备硬件运行环境的结构示意图。

如图1所示，该搜索词推荐设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图1中示出的搜索词推荐设备的硬件结构并不构成对搜索词推荐设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及搜索词推荐程序。其中，操作系统是管理和控制搜索词推荐设备与软件资源的程序，支持网络通信模块、用户接口模块、搜索词推荐程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的搜索词推荐设备硬件结构中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；处理器1001可以调用存储器1005中存储的搜索词推荐程序，并执行以下操作：

进一步地，所述将预设热词池中的各热词分别和所述目标用户簇进行计算，得到所述用户在各所述热词上的预估点击率的步骤包括：

读取所述预设热词池中的各个热词；

进一步地，所述确定所述用户搜索指令对应用户的目标用户簇的步骤包括：

进一步地，所述获取所述用户的兴趣标签的步骤之前，处理器1001可以调用存储器1005中存储的搜索词推荐程序，并执行以下操作：

进一步地，所述将预设热词池中的各热词分别和所述目标用户簇进行计算的步骤之前，处理器1001可以调用存储器1005中存储的搜索词推荐程序，并执行以下操作：

进一步地，所述根据各所述预估点击率，确定各所述热词中与所述用户匹配的搜索词的步骤包括：

进一步地，所述当侦测到用户搜索指令时，确定所述用户搜索指令对应用户的目标用户簇的步骤之前，处理器1001可以调用存储器1005中存储的搜索词推荐程序，并执行以下操作：

本发明搜索词推荐设备的具体实施方式与下述搜索词推荐方法各实施例基本相同，在此不再赘述。

本发明还提供一种搜索词推荐方法。

参照图2，图2为本发明搜索词推荐方法第一实施例的流程示意图。

本发明实施例提供了搜索词推荐方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。具体地，本实施例中的搜索词推荐方法包括：

步骤S10，当侦测到用户搜索指令时，确定所述用户搜索指令对应用户的目标用户簇；

本实施例中的搜索词推荐方法应用于服务器，适用于通过服务器匹配与用户兴趣匹配程度高的当前热词，作为向用户推荐的搜索词供用户搜索。具体地，服务器与手机、电脑等终端通信连接；当服务器侦测到用户在其终端上启动浏览器，或者点击终端内所安装app(Application，应用程序)的搜索栏操作，则判定用户具有搜索需求。服务器将侦测的该类操作作为用户搜索指令，一旦侦测到该类用户搜索指令，则对该用户搜索指令所对应用户的目标用户簇进行确定。其中，用户簇为预先针对各用户的兴趣所划分的用户分类，具有相同兴趣的用户划分到一个分类，形成一个用户簇。相同用户簇中各用户之间的兴趣具有相似性，不同用户簇之间各用户的兴趣具有较大的差异性。服务器在接收到用户搜索指令后，通过对发起用户搜索指令的用户所具有的兴趣，来确定其所归属的用户簇，该归属的用户簇即目标用户簇。具体地，确定用户搜索指令对应用户的目标用户簇的步骤包括：

步骤S11，获取所述用户的兴趣标签，并对所述兴趣标签进行编码，得到兴趣编码；

进一步地，对表征用户兴趣的兴趣标签进行获取，并对各兴趣标签基于预设编码方式进行编码，得到用户的兴趣编码。预设编码方式依据需求预先设定，如simhash编码，实现将兴趣标签转换为预设位数的二进制数据；预设位数依据需求设定，如设定为64位或者128位等。用户的兴趣标签在获取之前预先生成，并以数字或者英文字符的标签ID(Identification，身份标识)形式存在；通过simhash编码的预设编码方式对其进行编码转换，所得到的二进制数据即为兴趣编码。相对于对每个标签ID建立embedding，simhash编码的方式大幅度的降低时间复杂度，也无需对embedding进行更新，且具有较好的编码效果。

更进一步地，所述获取所述用户的兴趣标签的步骤之前，还包括：

步骤a1，获取所述用户的历史搜索记录，并对与所述历史搜索记录对应的信息进行词频分析，生成所述用户的兴趣标签；

步骤a2，按照预设周期周期，获取所述用户在所述预设周期内的搜索记录，并根据所述预设周期内的搜索记录，对所述用户的兴趣标签进行更新。

进一步地，对用户的历史搜索记录进行获取，历史搜索记录为用户以往通过浏览器进行搜索或者app进行查找搜索，所搜索得到的信息进行浏览的记录，表征用户在何时使用何种设备浏览了何种内容。从历史搜索记录中提取所浏览的内容作为对应的信息，并对该类信息进行词频分析。其中所浏览的内容可以是文字信息，也可以是图片信息或者是视频信息，使得与历史搜索记录对应的信息可能是文字、可能是图片也可能是视频。在对其进行词频分析时，对于图片或者视频类型的信息先转换为文字类型的信息。通过识别图片中的文字，或者图片中的图像内容，来将图片信息转换为文字信息；或者通过识别视频的标题、视频中的文字或者视频中的声音，来将视频信息转换为文字信息。

更进一步地，在得到与历史搜索记录对应的文字类型的信息之后，则对该文字类型的信息进行词频分析。本实施例中词频分析用于评估某个词语对于文本集或语料库中一个文件的重要程度，词语的重要性随着其在文本中出现的次数成比例增加，但随着其在文本集或语料库中的频率反比例下降，体现文件与用户搜索的相关程度。本实施例可通过Tf-Idf(term frequency–inverse document frequency，信息检索数据挖掘的常用加权技术)来实现词频分析，得到与历史搜索记录对应信息中的高词频词语，表征与用户搜索相关程度高，体现用户的兴趣。进而将得到的高词频词语转换为数字或英文字符形式的标签ID，通过数字或英文字符的标签ID来提高数据处理速度，快速确定用户所归属的用户簇。

可理解地，用户在不同时间的兴趣不同，使得所搜索的内容存在差异性。从而为了准确表征用户的兴趣，设置有对兴趣标签的更新机制。设定用于更新的时间周期作为预设周期，按照该预设周期间隔，则对用户在该预设周期内所生成的搜索记录进行获取，并对与获取的搜索记录对应的信息依据上述方式进行词频分析，得到新的兴趣标签，对已生成的兴趣标签进行更新。

需要说明的是，在对获取的兴趣标签进行编码得到兴趣编码的过程中，结合长期的兴趣标签和短期的兴趣编码来生成兴趣编码；并且将各兴趣标签编码至同一个预设位数的二进制的兴趣编码中，以准确体现用户长期兴趣以及短期内的兴趣。

步骤S12，获取各预设用户簇的簇中心编码，并确定各所述簇中心编码分别与所述兴趣编码之间的相似度值；

步骤S13，根据各所述相似度值之间的大小关系，确定各所述预设用户簇中与所述用户搜索指令对应用户的目标用户簇。

进一步地，将预先针对各用户兴趣划分的用户分类，而形成的用户簇作为预设用户簇，并获取各预设用户簇的簇中心编码。该簇中心编码依据预设用户簇中各用户的兴趣编码生成，可表征预设用户簇中各用户在整体上的兴趣。将每个预设用户簇中各用户的兴趣编码进行平均值处理，所得到的结果即为预设用户簇的簇中心编码。

更进一步地，分别计算用户的兴趣编码和各个簇中心编码之间的相似度值，所得到的相似度值越大，表征用户的兴趣编码与簇中心编码越相似，用户的兴趣与簇中心编码所归属的预设用户簇中各用户的兴趣越一致。为了确定与用户兴趣一致程度最高的预设用户簇，在计算的各个相似度值之间进行比较，确定各个相似度值中的最大值。该最大值表征了与用户的兴趣最为相似的预设用户簇，将该最为相似的预设用户簇作为用户的目标用户簇；以通过具有相似兴趣爱好的各用户对热词的需求情况，来反映发起用户搜索指令的用户所具有的热词需求。

步骤S20，将预设热词池中的各热词分别和所述目标用户簇进行计算，得到所述用户在各所述热词上的预估点击率；

进一步地，预先设置有预设热词池，预设热词池中包含有当前的多个热词，如当前的搜索热词、各类型排行榜的排行热词等。需要说明的是，不同时段的热词不一样，为了确保预设热词池中热词的热度，设置有对预设热词池的间隔更新机制。如每间隔三天更新一次，或者五天更新一次等。

更进一步地，将预设热词池中的各个热词分别和目标用户簇进行计算，通过计算来表征目标用户簇中各兴趣相似的用户对各热词的需求程度。进而由需求程度来得到用户在各个热词上的预估点击率，体现用户对各个热词的需求可能性大小；需求程度越高则所得到的预估点击率越大，用户点击该热词进行搜索的可能性更大。具体地，将预设热词池中的各热词分别和目标用户簇进行计算，得到用户在各热词上的预估点击率的步骤包括：

步骤S21，读取所述预设热词池中的各个热词；

步骤S22，针对每个所述热词，根据所述目标用户簇和所述热词，计算探索因子；

步骤S23，获取所述目标用户簇在所述热词上的平均点击率，以及随机数，并基于预设公式，对所述平均点击率、所述探索因子和所述随机数进行运算，生成所述用户在所述热词上的预估点击率。

更进一步地，对预设热词池中各个热词的处理，可采用并行的方式进行处理，即针对各个热词同时进行处理；也可采用串行的方式进行处理，即针对各个热词进行逐一处理。无论是并行处理还是串行处理，各个热词均是分别按照同样的流程进行单独处理，各个热词之间在处理过程中没有关联关系，本实施例以一个热词的处理流程为例进行说明。具体地，在从预设热词库中读取到热词后，依据读取的热词和目标用户簇来计算探索因子，探索因子用于控制热词曝光的随机程度，具体通过公式(1)进行计算，公式(1)为：

其中，ξ_g，q表示探索因子，g表示用户所属的目标用户簇，q表示热词，N_g，q表示目标用户簇g和热词q的曝光次数。

在热词曝光前期，曝光次数少，随机程度大，ξ_g，q的数值较大；而在热词曝光后期，曝光次数增加，随机程度变小，ξ_g，q的数值较小。

进一步地，为了确保探索因子的准确性，设定有修正机制。获取用于对探索因子进行修正的随机数，以通过随机数对探索因子进行修正，其中随机数在数值范围0-1之间随机取得，且0-1之间的数据呈符合均匀分布。

更进一步地，获取目标用户簇在热词上的平均点击率，平均点击率为目标用户簇中各用户对该热词的实际点击率与目标用户簇中所具有用户数量之间的平均值。实际点击率通过点击次数与曝光次数计算得到，用目标用户簇中每一用户对该热词的实际点击次数除以向每一用户曝光展示该热词的次数，即得到实际点击率，表征每一用户对该热词的需求程度高低，体现每一用户在该热词所表征事项上的兴趣。

在获取到经计算的平均点击率之后，则可将平均点击率、探索因子和随机数传输到预设公式进行计算，得到用户在该热词上的预估点击率。其中预设公式为预先设定在服务器中，用于对预估点击率进行计算。具体的预设公式如下公式(2)所示：

f(u，q)＝ξ_g，q*rand+(1-ξ_g，q)*S_g,q (2)；

其中，f(u，q)表示预估点击率，u表示发送用户搜索指令的用户，rand表示随机数，ξ_g，q表示探索因子，S_g,q表示平均点击率。

通过预设公式计算得到用户在热词上的预估点击率，来表征用户对该热词的需求程度，体现用户在该热词所表征事项上的兴趣高低。预估点击率越高，用户的兴趣程度越高，向用户推荐该热词，用户对其点击的可能性越大，推荐的准确性高。

步骤S30，根据各所述预估点击率，确定各所述热词中与所述用户匹配的搜索词，并向所述用户推荐所述搜索词。

进一步地，在计算得到用户在各个热词上的预估点击率之后，则可通过预设点击率来确定各热词中用户兴趣程度高的热词，并将该类热词作为与用户匹配的搜索词推荐给用户，方便于用户的搜索。具体地，根据各预估点击率，确定各热词中与用户匹配的搜索词的步骤包括：

步骤S31，根据各所述预估点击率之间从大到小的顺序，对各所述预估点击率进行排序，生成点击率序列；

步骤S32，确定所述点击率序列中排列在前预设位的目标点击率，并查找各所述热词中与各所述目标点击率分别对应的热词，作为与所述用户匹配的搜索词。

更进一步地，在各项预估点击率之间进行比较，确定各预估点击率之间的大小关系，并按照从大到小的顺序，对各预估点击率进行排序，得到点击率序列。查找点击率序列中排列在前预设位的点击率作为目标点击率，前预设位为预先依据需求所设置的位数，如前5位、前8位等，表征用户具有较高兴趣的几类热词。此后，对各个热词进行查找，确定其中生成各目标点击率的热词，即与各目标点击率分别对应的热词，作为与用户匹配的搜索词显示推荐给用户。用户选择推荐的搜索词，即可搜索其感兴趣的内容，无需用户的手动输入，方便了用户使用。

请参照图4，图4示出了一具体实施例中，依据用户所属的用户簇和热词池中各个热词，为用户推荐搜索热词并展示的过程。其中，在接收到作为用户搜索指令的用户请求u时，对用户的用户画像进行检索。用户画像依据用户的历史浏览记录生成，包含有体现用户兴趣爱好的兴趣标签ID。从用户画像中查找用户的兴趣ID返回，对该返回的兴趣ID进行simhash编码得到二进制编码，进而对二进制编码进行kmeans聚类，确定用户所归属的用户簇g。此外，预先从百度热点、微博热点等热点信息中抓取热词，并且还从综艺、电视剧、电影、小说、彩票、有效等各自的排行榜top中抓取热词；将抓取的热词q添加到预设热词池中，形成为热词池。进而通过arm(g，q)函数确定目标用户簇对在热词池中各个热词q的探索因子ξ_g，q。

同时，将用户簇中各个用户gi对各个热词qi的点击次数clki以及各个热词的曝光次数impi添加到cache进行缓存，通过缓存的数据确定平均点击率S_g,q。将探索因子ξ_g，q、平均点击率S_g,q和随机数传输到f(u，q)进行分值计算，得到用户在各个热词上的预估点击率。对计算的分值进行排序，确定分值最大值argmaxf(u，g，q)，以得到各个热词中预估点击率最大的热词作为搜索词展示推荐。此后，对展示的搜索词进行追踪反馈，根据用户是否对该搜索词进行点击浏览，形成反馈数据对缓存的数据进行更新，以通过更新使后续的推荐更为准确。

本发明的搜索词推荐方法，在侦测到用户搜索指令时，先对该用户搜索指令所对应用户的目标用户簇进行确定，目标用户簇表征了与发送用户搜索指令的用户具有相似兴趣爱好的多个同类用户的集合；再将预设热词池中的各个热词分别和目标用户簇进行计算，得到用户在各热词上的预估点击率，以通过目标用户簇中具有相同兴趣爱好的同类用户对各个热词的点击情况，来推测用户当前可能需求的热词；用户在各个热词上的预估点击率即表征了用户对各热词的需求情况，预估点击率越大则需求越大，从而可依据各个预估点击率，来确定各个热词中与用户匹配的搜索词向用户进行推荐。因目标用户簇中具有相同兴趣爱好的同类用户对各个热词的点击情况为各同类用户实际的点击情况，具有较高的准确性，使得依据其所计算得到的预估点击率也具有较高的准确性，依据各个预估点击率，可准确确定各个热词中与用户匹配的搜索词，实现了搜索词的准确推荐。

进一步地，基于本发明搜索词推荐方法的第一实施例，提出本发明搜索词推荐方法第二实施例。

所述搜索词推荐方法第二实施例与所述搜索词推荐方法第一实施例的区别在于，所述将预设热词池中的各热词分别和所述目标用户簇进行计算的步骤之前，还包括：

步骤S40，获取网络热词，并对所述网络热词进行过滤，生成目标网络热词添加到预设热词库中；

步骤S50，获取与预设品类对应的网络热点信息，从所述网络热点信息中提取出品类关键词，并生成与所述品类关键词对应的扩展词；

步骤S60，将所述品类关键词和所述扩展词添加到所述预设热词库中，以对所述预设热词库中的目标网络热词进行补充。

本实施预设热词池中的热词由各网络热词和各网络热点信息形成。具体地，从网络中获取网络热词，如微博热词，百度热词等，并对所获取的网络热词进行过滤。预先通过大量样本数据训练用于过滤的鉴别模型，样本数据包括但不限于涉及到政治、涉黑、涉恐等敏感词，以对该类词语进行过滤。同时鉴别模型还经训练对相似的词语进行识别，以过滤含义相似的词语。将获取的网络热词传输到鉴别模型中，通过鉴别模型判断其中是否包含有需要过滤的词语。如包含有需要过滤词语，则对该类词语进行过滤，形成目标网络热词。将经过滤得到的目标网络热词添加到预设热词池中，体现当前大众的兴趣爱好。若网络热词中不包含有需要过滤的词语，则直接将获取的网络热词作为目标网络热词添加到预设热词池中，反映当前大众的兴趣爱好。其中，预设热词池为预先设定用于存储热词的数据库或存储单元。

进一步地，预先设定预设品类，预设品类包括但不限于小说、电影、综艺、电视剧、游戏、彩票等。从网络获取与预设品类对应的网络热点信息，网络热点信息为各品类中搜索量高的品类名称信息。如搜索量排列在前十的热门小说名称，观看量排列在前十的电影名称等。进而从各网络热点信息中提取出品类关键词，并对品类关键词进行扩展，得到与品类关键词对应的扩展词。其中扩展词与品类关键词属于同一网络热点中所关联的热点词语，如品类关键词为某一热门小说中男主人公的名称，则其扩展词可以为该热门小说中女主人公的名称。通过品类关键词及其对应的扩展词来表征预设品类的当前网络热点信息中的具体热点信息。此后，将获取的品类关键词及其扩展词添加到预设热词库中，以对预设热词库中的目标网络热词进行补充扩展。

本实施例通过获取网络热词形成预设热词池，并从网络热点信息中获取出品类关键词和扩展词添加到预设热词池，以对预设热词池中的热词进行补充扩展，丰富了预设热词库中的热词，便于更为精细的确定用户对各个热词的需求情况，更准确的体现用户的兴趣。

进一步地，基于本发明搜索词推荐方法的第一或第二实施例，提出本发明搜索词推荐方法第三实施例。

所述搜索词推荐方法第三实施例与所述搜索词推荐方法第一或第二实施例的区别在于，所述当侦测到用户搜索指令时，确定所述用户搜索指令对应用户的目标用户簇的步骤之前，还包括：

步骤S70，获取多个待聚类用户的待聚类兴趣标签，并对各所述待聚类兴趣标签进行编码，生成多个所述待聚类用户的待聚类兴趣编码；

步骤S80，基于预设聚类规则，对多个所述待聚类兴趣编码进行聚类，形成多个预设用户簇。

在本实施例中，通过聚类的方式来形多个预设用户簇。具体地，将用于聚类形成预设用户簇的多个用户作为多个待聚类用户，并从多个待聚类用户各自的历史搜索记录中，获取筛选关键词生成为多个待聚类用户的用户画像，进而通过对用户画像中各关键词的分析，得到多个待聚类用户各自的待聚类兴趣标签。此外，也可直接通过对多个待聚类用户各自的历史搜索记录进行词频分析，得到各自的待聚类兴趣标签。

进一步地，通过上述诸如simhash此类的预设编码方式对各待聚类兴趣标签进行编码，得到多个待聚类用户的待聚类兴趣编码。其中，各待聚类用户的待聚类兴趣编码包含了待聚类用户各自的兴趣标签，以体现待聚类用户在各方面的兴趣爱好。

更进一步地，服务器中预先设定有用于聚类的预设聚类规则，如依据需求设定为kmeans聚类、均值漂移聚类或者DBSCAN聚类等，本实施例结合simhash的编码方式，将预设聚类规则优选设定为kmeans聚类，以减少生成预设用户簇的时间复杂度。通过该预设聚类规则，对多个待聚类兴趣编码进行聚类，将相似程度满足聚类条件的待聚类兴趣编码聚集到同一类，而将相似程度不满足聚类条件的待聚类兴趣编码聚集到异类，形成多个预设用户簇。其中，聚类条件依据需求设定，如设定相似度大于预设相似阈值。聚类后同一个预设用户簇中的各用户具有相似的兴趣爱好，不同预设用户簇之间的用户所具有的兴趣爱好相差较大。

本实施例通过将多个待聚类用户的待聚类兴趣便签经编码后聚类，形成多个预设用户簇；在向用户推荐搜索词的过程中，确定用户在各预设用户簇中的目标用户簇，由目标用户簇中各用户的兴趣爱好，来推测用户的兴趣爱好，进而向用户推荐满足其兴趣爱好的搜索词，由此提升所推荐搜索词的准确性。

本发明还提供一种搜索词推荐装置。

参照图3，图3为本发明搜索词推荐装置第一实施例的功能模块示意图。

所述搜索词推荐装置包括：

确定模块10，用于当侦测到用户搜索指令时，确定所述用户搜索指令对应用户的目标用户簇；

计算模块20，用于将预设热词池中的各热词分别和所述目标用户簇进行计算，得到所述用户在各所述热词上的预估点击率；

推荐模块30，用于根据各所述预估点击率，确定各所述热词中与所述用户匹配的搜索词，并向所述用户推荐所述搜索词。

进一步地，所述计算模块20包括：

读取单元，用于读取所述预设热词池中的各个热词；

计算单元，用于针对每个所述热词，根据所述目标用户簇和所述热词，计算探索因子；

获取单元，用于获取所述目标用户簇在所述热词上的平均点击率，以及随机数，并基于预设公式，对所述平均点击率、所述探索因子和所述随机数进行运算，生成所述用户在所述热词上的预估点击率。

进一步地，所述确定模块10包括：

编码单元，用于获取所述用户的兴趣标签，并对所述兴趣标签进行编码，得到兴趣编码；

确定单元，用于获取各预设用户簇的簇中心编码，并确定各所述簇中心编码分别与所述兴趣编码之间的相似度值；

所述确定单元还用于根据各所述相似度值之间的大小关系，确定各所述预设用户簇中与所述用户搜索指令对应用户的目标用户簇。

进一步地，所述确定模块10还包括：

分析单元，用于获取所述用户的历史搜索记录，并对与所述历史搜索记录对应的信息进行词频分析，生成所述用户的兴趣标签；

更新单元，用于按照预设周期间隔，获取所述用户在所述预设周期内的搜索记录，并根据所述预设周期内的搜索记录，对所述用户的兴趣标签进行更新。

进一步地，所述搜索词推荐装置还包括：

获取模块，用于获取网络热词，并对所述网络热词进行过滤，生成目标网络热词添加到预设热词库中；

提取模块，用于获取与预设品类对应的网络热点信息，从所述网络热点信息中提取出品类关键词，并生成与所述品类关键词对应的扩展词；

添加模块，用于将所述品类关键词和所述扩展词添加到所述预设热词库中，以对所述预设热词库中的目标网络热词进行补充。

进一步地，所述推荐模块还包括：

排序模块，用于根据各所述预估点击率之间从大到小的顺序，对各所述预估点击率进行排序，生成点击率序列；

查找模块，用于确定所述点击率序列中排列在前预设位的目标点击率，并查找各所述热词中与各所述目标点击率分别对应的热词，作为与所述用户匹配的搜索词。

进一步地，所述搜索词推荐装置还包括：

编码模块，应用获取多个待聚类用户的待聚类兴趣标签，并对各所述待聚类兴趣标签进行编码，生成多个所述待聚类用户的待聚类兴趣编码；

聚类模块，用于基于预设聚类规则，对多个所述待聚类兴趣编码进行聚类，形成多个预设用户簇。

本发明搜索词推荐装置具体实施方式与上述搜索词推荐方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种可读存储介质。

可读存储介质上存储有搜索词推荐程序，搜索词推荐程序被处理器执行时实现如上所述的搜索词推荐方法的步骤。

本发明可读存储介质可以是计算机可读存储介质，其具体实施方式与上述搜索词推荐方法各实施例基本相同，在此不再赘述。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种搜索词推荐方法，其特征在于，所述搜索词推荐方法包括以下步骤：

2.如权利要求1所述的搜索词推荐方法，其特征在于，所述将预设热词池中的各热词分别和所述目标用户簇进行计算，得到所述用户在各所述热词上的预估点击率的步骤包括：

读取所述预设热词池中的各个热词；

3.如权利要求1所述的搜索词推荐方法，其特征在于，所述确定所述用户搜索指令对应用户的目标用户簇的步骤包括：

4.如权利要求3所述的搜索词推荐方法，其特征在于，所述获取所述用户的兴趣标签的步骤之前，所述方法还包括：

5.如权利要求1所述的搜索词推荐方法，其特征在于，所述将预设热词池中的各热词分别和所述目标用户簇进行计算的步骤之前，所述方法还包括：

6.如权利要求1所述的搜索词推荐方法，其特征在于，所述根据各所述预估点击率，确定各所述热词中与所述用户匹配的搜索词的步骤包括：

7.如权利要求1-6任一项所述的搜索词推荐方法，其特征在于，所述当侦测到用户搜索指令时，确定所述用户搜索指令对应用户的目标用户簇的步骤之前，所述方法还包括：

8.一种搜索词推荐装置，其特征在于，所述搜索词推荐装置包括：

9.一种搜索词推荐设备，其特征在于，所述搜索词推荐设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的搜索词推荐程序，所述搜索词推荐程序被所述处理器执行时实现如权利要求1-7中任一项所述的搜索词推荐方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有搜索词推荐程序，所述搜索词推荐程序被处理器执行时实现如权利要求1-7中任一项所述的搜索词推荐方法的步骤。