CN110532454A

CN110532454A - 一种搜索词推荐方法及装置

Info

Publication number: CN110532454A
Application number: CN201910804115.9A
Authority: CN
Inventors: 黄腾玉
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2019-12-03
Anticipated expiration: 2039-08-28
Also published as: CN110532454B

Abstract

本发明实施例提供了一种搜索词推荐方法及装置，获取目标用户的浏览记录；浏览记录中包含至少一个目标浏览内容标识；基于浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为目标用户推荐搜索词；离线索引包括每个浏览内容标识与预设数量个搜索词的对应关系，以及每个浏览内容标识与具备对应关系的搜索词的相似度。由于在构建离线索引时考虑了许多用户的浏览记录这个较大的数据量，相较于现有技术中仅考虑数据量较小的搜索记录来为用户推荐搜索词的方式，能够提高为用户推荐搜索词的个性化和针对性。

Description

一种搜索词推荐方法及装置

技术领域

本发明涉及计算机应用技术领域，特别是涉及一种搜索词推荐方法及装置。

背景技术

用户在浏览视频网站、购物网站时，经常会输入搜索词以查找相应的视频资源或商品等，其中，搜索词可以是视频名称，商品名称等。而对于网站来说，合理的向用户推荐搜索词有很积极的作用。举例来讲，若最近剧集“封神演义”较为火爆，那么当用户登录视频网站时，视频网站可以直接向用户推送“封神演义”这个搜索词，从而，若用户对该搜索词感兴趣，可以直接点击搜索按钮即可基于“封神演义”进行搜索，可见，为用户推送搜索词的方式能够促进用户对相关推荐内容的消费。

然而，现有的搜索词推荐方法中，仅仅考虑了搜索词本身的热度以及用户之前的搜索记录，举例来讲，若某用户最近搜索过“指环王1”，那么视频网站很可能为其推送搜索词“指环王2”。

这种推荐方式考虑的数据较为简单、片面，因此为用户推荐搜索词的个性化以及针对性不高。

发明内容

本发明实施例的目的在于提供一种搜索词推荐方法及装置，以实现提高为用户推荐搜索词的个性化和针对性。具体技术方案如下：

为实现上述目的，本发明实施例提供了一种搜索词推荐方法，所述方法包括：

获取目标用户的浏览记录；所述浏览记录中包含至少一个目标浏览内容标识；

基于所述浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为所述目标用户推荐搜索词；所述离线索引包括每个浏览内容标识与预设数量个搜索词的对应关系，以及每个浏览内容标识与具备对应关系的搜索词的相似度。

可选的，所述基于所述浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为所述目标用户推荐搜索词的步骤，包括：

针对每个所述目标浏览内容标识，基于所述离线索引，确定与该目标浏览内容标识具备对应关系的搜索词，作为该目标浏览内容标识的候选搜索词；

针对每个所述目标浏览内容标识，确定该目标浏览内容标识的每个候选搜索词的评分值，所述评分值正相关于该目标浏览内容标识与该候选搜索词的相似度；

按照所述候选搜索词的评分值从大到小的顺序，为所述目标用户推荐所述候选搜索词。

获取所述目标用户的浏览记录中包含的目标浏览内容标识，以及每个所述目标浏览内容标识的浏览次数；

针对每个所述目标浏览内容标识，基于所述离线索引，确定与该目标浏览内容标识具备对应关系的搜索词，作为该目标浏览内容的候选搜索词；

针对每个所述目标浏览内容标识，基于该目标浏览内容标识与候选搜索词的相似度，以及该目标浏览内容标识的浏览次数，计算该目标浏览内容标识的每个候选搜索词的评分值；

可选的，所述针对每个所述目标浏览内容标识，基于该目标浏览内容标识与候选搜索词的相似度，以及该目标浏览内容标识的浏览次数，计算该目标浏览内容标识的每个候选搜索词的评分值的步骤，包括：

确定与相似度相关的第一权重，以及与浏览次数相关的第二权重；

针对每个所述目标浏览内容标识，将该目标浏览内容标识与候选搜索词的相似度乘以所述第一权重，得到第一评分值；将该目标浏览内容标识的浏览次数乘以所述第二权重，得到第二评分值；将所述第一评分值与所述第二评分值之和作为该目标浏览内容的候选搜索词的评分值。

可选的，所述离线索引按照如下步骤构建：

获取多个样本用户的浏览记录，以及搜索记录；所述浏览记录中包含浏览内容标识；所述搜索记录中包含搜索词；

基于所述浏览记录和所述搜索记录，生成包含多个浏览内容标识和搜索词的样本序列；

将所述样本序列输入文本训练模型，得到所述样本序列中每个浏览内容标识的第一类向量，以及每个搜索词的第二类向量；

计算所述第一类向量和所述第二类向量的相似度，根据所计算的相似度构建所述离线索引。

可选的，所述基于所述浏览记录和所述搜索记录，生成多个包含浏览内容标识和搜索词的样本序列的步骤，包括：

针对每个样本用户，按照该样本用户的浏览行为和搜索行为的时间顺序，生成该样本用户的包含浏览内容标识和搜索词的样本序列。

可选的，所述计算所述第一类向量与所述第二类向量的相似度，根据所计算的相似度构建所述离线索引的步骤，包括：

针对每一个浏览内容标识的第一类向量，计算该第一类向量与各个第二类向量的相似度；

针对所述每一个浏览内容标识的第一类向量，按照相似度从大到小的顺序，确定所述预设数量个第二类向量，生成该浏览内容标识与所述预设数量个第二类向量对应的所述预设数量个搜索词的离线索引，其中，该浏览内容标识与具备对应关系的搜索词的相似度等同于该第一类向量与所述具备对应关系的搜索词对应的第二类向量的相似度。

为实现上述目的，本发明实施例还提供了一种搜索词推荐装置，所述装置包括：

获取模块，用于获取目标用户的浏览记录；所述浏览记录中包含至少一个目标浏览内容标识；

推荐模块，用于基于所述浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为所述目标用户推荐搜索词；所述离线索引包括每个浏览内容标识与预设数量个搜索词的对应关系，以及每个浏览内容标识与具备对应关系的搜索词的相似度。

可选的，所述推荐模块，具体用于：

可选的，所述推荐模块包括第一获取子模块，确定子模块，计算子模块，推荐子模块，

所述第一获取子模块，用于获取所述目标用户的浏览记录中包含的目标浏览内容标识，以及每个所述目标浏览内容标识的浏览次数；

所述确定子模块，用于针对每个所述目标浏览内容标识，基于所述离线索引，确定与该目标浏览内容标识具备对应关系的搜索词，作为该目标浏览内容的候选搜索词；

所述计算子模块，用于针对每个所述目标浏览内容标识，基于该目标浏览内容标识与候选搜索词的相似度，以及该目标浏览内容标识的浏览次数，计算该目标浏览内容标识的每个候选搜索词的评分值；

所述推荐子模块，用于按照所述候选搜索词的评分值从大到小的顺序，为所述目标用户推荐所述候选搜索词。

可选的，所述计算子模块，具体用于：

可选的，所述装置还包括：构建模块，所述构建模块用于构建所述离线索引；所述构建模块包括：第二获取子模块，生成子模块，输入子模块，构建子模块，

所述第二获取子模块，用于获取多个样本用户的浏览记录，以及搜索记录；所述浏览记录中包含浏览内容标识；所述搜索记录中包含搜索词；

所述生成子模块，用于基于所述浏览记录和所述搜索记录，生成包含多个浏览内容标识和搜索词的样本序列；

所述输入子模块，用于将所述样本序列输入文本训练模型，得到所述样本序列中每个浏览内容标识的第一类向量，以及每个搜索词的第二类向量；

所述构建子模块，用于计算所述第一类向量和所述第二类向量的相似度，根据所计算的相似度构建所述离线索引。

可选的，所述生成子模块，具体用于：

可选的，所述构建子模块，具体用于：

为实现上述目的，本发明实施例还提供了一种服务器，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现上述任一方法步骤。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法步骤。

可见，应用本发明实施例提供的搜索词推荐方法及装置，获取目标用户的浏览记录；浏览记录中包含至少一个目标浏览内容标识；基于浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为目标用户推荐搜索词；离线索引包括每个浏览内容标识与预设数量个搜索词的对应关系，以及每个浏览内容标识与具备对应关系的搜索词的相似度。由于在构建离线索引时考虑了许多用户的浏览记录这个较大的数据量，相较于现有技术中仅考虑数据量较小的搜索记录来为用户推荐搜索词的方式，能够提高为用户推荐搜索词的个性化和针对性。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的搜索词推荐方法的一种流程示意图；

图2为本发明实施例提供的推荐搜索词的显示界面的一种示意图；

图3为本发明实施例提供的搜索词推荐装置的一种结构示意图；

图4为本发明实施例提供的服务器的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种搜索词推荐方法，该方法可以应用于能够为用户推荐搜索词的网站服务器，上述网站可以是视频网站，购物网站等。

下面通过具体实施例，对本发明进行说明。

参见图1，图1为本发明实施例提供的搜索词推荐方法的一种流程图，可以包括以下步骤：

S101：获取目标用户的浏览记录，浏览记录中包含至少一个目标浏览内容标识；

本发明实施例中，目标用户表示待推荐搜索词的用户，即在需要对某一用户推荐搜索词时，可以将该用户确定为目标用户。例如，刚登陆网站的用户可以是目标用户。网站服务器可以统计目标用户近期的浏览记录。

本发明实施例中，用户的浏览记录可以是在预定的时间段内用户浏览的视频、商品等，每一条浏览记录中都包含一个浏览内容标识。其中，浏览内容标识可以为ID(identification，标识)号。

为了便于理解，下面均以视频网站爱奇艺为例进行说明。

在爱奇艺网站中，每一个视频都对应唯一的一个ID号，服务器从用户的浏览记录中可以确定用户所浏览的视频所对应的ID号，并将ID号作为用户的浏览记录中的浏览内容标识。当然，服务器还可以根据其他方式确定每一条浏览记录中所包含的浏览内容标识，例如，将浏览记录中视频名称作为浏览内容标识，本发明对此不做限定。

针对目标用户，可以将目标用户的浏览记录中包含的浏览内容标识均表示为目标浏览内容标识。

S102：基于浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为目标用户推荐搜索词，离线索引包括每个浏览内容标识与预设数量个搜索词的对应关系，以及每个浏览内容标识与具备对应关系的搜索词的相似度。

本发明实施例中，可以预先构建浏览内容标识与搜索词的离线索引，其中离线索引包括每个浏览内容标识与预设数量个搜索词的对应关系，以及每个浏览内容标识与具备对应关系的搜索词的相似度。

其中，搜索词来源于用户的搜索记录。

本发明的一种实施例中，用户的搜索记录可以是预定的时间段内用户主动在搜索栏内输入的搜索内容。例如，若用户主动在网站的搜索栏内输入“隋唐演义”，则“隋唐演义”即为该搜索记录中包含的搜索词；

本发明的另一种实施例中，网站为用户推送的搜索词中被用户接受的搜索内容也可以作为用户的搜索记录。例如，网站主动为用户推送“三国演义”，且用户对该内容感兴趣并点击搜索按钮，则“三国演义”也可以作为该用户的搜索记录。其中，每一个搜索记录中都包含一个搜索词。上例中“三国演义”也可以作为该搜索记录中包含的搜索词。

当然，服务器也可以根据具体情况确定出搜索记录中所包含的搜索词，本发明对此不做限定。

本发明实施例可以基于视频网站的所有用户，或大部分用户的浏览记录以及搜索记录来构建离线索引，因此构建完成的离线索引中可以涵盖所有，或几乎所有的浏览内容标识。

具体的，离线索引中包含每个浏览内容标识与预设数量个搜索词的对应关系，以及每个浏览内容标识与具备对应关系的搜索词的相似度。其中预设数量可以根据实际需求进行设置。

例如，离线索引中包含5000个浏览内容标识，每个浏览内容标识对应5个搜索词。离线索引中还包含每个浏览内容标识与所对应的5个搜索词中每一个搜索词的相似度，相似度可以在0-1之间取值。针对其中的一个浏览内容标识a来讲，离线索引中浏览内容标识a与搜索词1，搜索词2，搜索词3，搜索词4，和搜索词5分别对应，也可以说搜索词1，搜索词2，搜索词3，搜索词4，和搜索词5均与浏览内容标识a具备对应关系，此外，离线索引中还包含浏览内容标识a与各个搜索词的相似度，例如分别为0.98,0.97,0.96,0.95,0.94。

其中，构建离线索引的具体过程可以参见下文。

本发明实施例中，可以基于目标用户浏览记录中包含的目标浏览内容标识，以及预先构建的离线索引，为目标用户推荐搜索词。由于离线索引中包含每个浏览内容标识与预设数量个搜索词的对应关系，因此服务器可以确定出与目标浏览内容标识具备对应关系的搜索词，并为目标用户推荐这些搜索词。

可见，应用本发明实施例提供的搜索词推荐方法，获取目标用户的浏览记录；浏览记录中包含至少一个目标浏览内容标识；基于浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为目标用户推荐搜索词；离线索引包括每个浏览内容标识与预设数量个搜索词的对应关系，以及每个浏览内容标识与具备对应关系的搜索词的相似度。由于在构建离线索引时考虑了许多用户的浏览记录这个较大的数据量，相较于现有技术中仅考虑数据量较小的搜索记录来为用户推荐搜索词的方式，能够提高为用户推荐搜索词的个性化和针对性。

在本发明的一种实施方式中，可以优先为目标用户推送相似度较高的搜索词，具体的，可以基于以下细化步骤为目标用户推荐搜索词：

步骤11：针对目标用户的浏览记录中包含的每个目标浏览内容标识，基于离线索引，确定与该目标浏览内容标识具备对应关系的搜索词，作为该目标浏览内容标识的候选搜索词；

本步骤中，可以分别获取每个目标浏览内容标识，基于已构建的离线索引，确定与每个目标浏览内容标识具备对应关系的搜索词，分别作为每个目标浏览内容的候选搜索词。

具体的，服务器可以将每个目标浏览内容标识输入数据库进行匹配，该数据库中预先输入有构建好的浏览内容标识与搜索词的离线索引，则数据库即可输入与每个目标浏览内容标识相匹配的搜索词。

作为一个示例，目标用户n的近期浏览记录中包含的浏览内容标识为标识1，标识2和标识3。针对目标用户n，若与标识1具备对应关系的搜索词分别为搜索词a，搜索词b和搜索词c；与标识2具备对应关系的搜索词分别为搜索词d，搜索词e和搜索词f；与标识3具备对应关系的搜索词分别为搜索词g，搜索词h和搜索词i。则搜索词a,b,c为标识1的候选搜索词；搜索词d,e,f为标识2的候选搜索词；搜索词g,h,i为标识3的候选搜索词。而针对目标用户n来讲，搜索词a,b,c,d,e,f,g,h,i均为目标用户n的候选搜索词。

步骤12：针对每个目标浏览内容标识，确定该目标浏览内容标识的每个候选搜索词的评分值，评分值正相关于该目标浏览内容标识与该候选搜索词的相似度；

本发明实施例中，为了优先为目标用户推送相似度较高的搜索词，可以根据离线索引中包含的浏览内容标识与搜索词的相似度，为各个候选搜索词进行评分。其中，评分值正相关于目标浏览内容标识与候选搜索词的相似度，即相似度越高，则评分值越高。也可以直接将目标浏览内容标识与对应的候选搜索词的相似度，作为各个候选搜索词的评分值。

承接上例，若标识1与候选搜索词a,b,c的相似度分别为0.71,0.91和0,81，则候选搜索词a,b,c的评分值相应也分别为0.71,0.91和0,81；标识2与候选搜索词d,e,f的相似度分别为0.72,0.92和0,82，则候选搜索词d,e,f的评分值相应也分别为0.72,0.92和0,82；标识3与候选搜索词g,h,i的相似度分别为0.73,0.93和0,83，则候选搜索词g,h,i的评分值相应也分别为0.73,0.93和0,83。则针对目标用户n，各个候选搜索词的评分值均已确定。

特别的，当不同浏览内容标识对应相同的候选搜索词时，可以将较高的相似度作为该候选搜索词的评分值。例如，标识1和标识2对应的候选搜索词均包含搜索词b，标识1与搜索词b的相似度为0.6，标识2与搜索词b的相似度为0.8，则针对目标用户，可以将0.8作为该搜索词b的评分值。

步骤13：按照候选搜索词的评分值从大到小的顺序，为目标用户推荐候选搜索词。

本发明实施例中，可以按照候选搜索词评分值从大到小的顺序，为目标用户推荐搜索词。具体的，评分值最高的候选搜索词可以推送至目标用户打开的网站中的搜索栏中，其他候选搜索词可以按照评分值从大到小的顺序依次显示在推荐栏中。作为一个示例，可以参见图2，图2为本发明实施例提供的推荐搜索词的显示界面的一种示意图。图2中，评分值最高的候选搜索词“搜索词A”显示在搜索栏中，其他候选搜索词，例如“搜索词B”，“搜索词C”等按照评分值从大到小的顺序依次显示在“猜你想搜”的推荐栏中。

在本发明的另一种实施方式中，在确定候选搜索词的评分值时，除了上述的相似度之外，还可以考虑目标用户针对每一个目标浏览内容标识的浏览次数。

具体的，也可以基于如下细化步骤为用户推送搜索词：

步骤21：获取目标用户的浏览记录中包含的目标浏览内容标识，以及每个目标浏览内容标识的浏览次数；

本步骤中，除了获取目标用户的浏览记录中的目标浏览内容标识之外，还可以获取每个目标浏览内容标识的浏览次数。

承接上述例子，针对目标用户n，近期浏览记录包含的浏览内容标识中标识1的浏览次数为1，标识2的浏览次数为2，标识3的浏览次数为3。

步骤22：针对每个目标浏览内容标识，基于离线索引，确定与该目标浏览内容标识具备对应关系的搜索词，作为该目标浏览内容的候选搜索词；

本步骤与上述步骤11中确定候选搜索词的过程相同，不再赘述。

步骤23：针对每个目标浏览内容标识，基于该目标浏览内容标识与候选搜索词的相似度，以及该目标浏览内容标识的浏览次数，计算该目标浏览内容标识的每个候选搜索词的评分值；

本步骤中，可以基于综合考虑目标浏览内容标识与各个候选搜索词的相似度，以及目标浏览内容标识的浏览次数，计算每个候选搜索词的评分值。

在本发明的一种实施例中，可以预设与相似度相关的第一权重，以及与浏览次数相关的第二权重。

举例来讲，第一权重为0.8，第二权重为0.2。

则针对每个目标浏览内容标识，可以基于相似度，以及第一权重计算第一评分值；针对该目标浏览内容标识的浏览次数以及第二权重，计算第二评分值。第一评分值和第二评分值的总和作为候选搜索词的评分值。

一种实施例方式中，可以将该目标浏览内容标识与候选搜索词的相似度乘以第一权重，得到第一评分值；将该目标浏览内容标识的浏览次数乘以第二权重，得到第二评分值；将第一评分值与第二评分值之和作为该目标浏览内容的候选搜索词的评分值。

结合上述例子，针对标识1，标识1与候选搜索词a,b,c的相似度分别为0.71,0.91和0,81，标识1的浏览次数为1次，则可以分别计算候选搜索词a,b,c的评分值为：0.71×0.8+1×0.2，0.91×0.8+1×0.2，0.81×0.8+1×0.2。

针对标识2，标识2与候选搜索词d,e,f的相似度分别为0.72,0.92和0,82，标识2的浏览次数为2次，则可以分别计算候选搜索词d,e,f的评分值为：0.72×0.8+2×0.2，0.92×0.8+2×0.2，0.82×0.8+2×0.2。

针对标识3，标识3与候选搜索词g,h,i的相似度分别为0.73,0.93和0,83，标识3的浏览次数为3次，则可以分别计算候选搜索词g,h,i的评分值为：0.73×0.8+3×0.2，0.93×0.8+3×0.2，0.83×0.8+3×0.2。

从而针对目标用户n，各个候选搜索词的评分值均已确定。

当然，上述基于相似度与浏览内容标识的浏览次数，确定候选搜索词的评分值的过程仅作为一个示例，只要是基于相似度与浏览次数确定评分值的方法均可应用于本发明实施例。例如，也可以直接将目标浏览内容标识与候选搜索词的相似度与浏览次数的乘积作为候选搜索词的评分值。本发明实施例对此不做限定。

步骤24：按照候选搜索词的评分值从大到小的顺序，为目标用户推荐候选搜索词。

本步骤与上述步骤13的过程相同，不再赘述。

值得说明的是，相比于现有技术，本发明实施例额外考虑了浏览内容标识与搜索词的相似度，以及浏览内容标识的浏览次数来为用户推荐搜索词，即现有技术中考虑的搜索词本身的热度，以及用户的搜索历史等也可以应用于本发明实施例中，例如，为搜索词本身的热度进行归一化并设置第三权重，对此不做赘述。

可见，本发明实施例中，相比于现有技术，额外考虑了浏览内容标识与搜索词的相似度，以及浏览内容标识的浏览次数，来为目标用户推荐搜索词。由于结合了浏览次数来计算候选搜索词的评分值，能够进一步提高为用户推荐搜索词的个性化和针对性。

上文仅通过视频网站进行举例说明，但本发明的保护范围并不限于次。举例来讲，也可以应用于购物网站，可以将用户浏览的商品ID或名称作为浏览内容标识。可见，也可以采用本发明实施例提供的搜索词推荐方法，以提高为用户推荐搜索词的个性化和针对性。

下面对本发明实施例中构建离线索引的过程进行说明。

本发明实施例提供的离线索引可以按照如下步骤构建：

步骤31：获取多个样本用户的浏览记录，以及搜索记录；浏览记录中包含浏览内容标识；搜索记录中包含搜索词；

本发明实施例中，样本用户可以表示为构建离线索引提供数据的用户。只要是登录服务器观看视频，以及进行搜索的用户均可以作为样本用户。当然，服务器也可以选择部分用户作为样本用户，例如，选取某一段时间登录过服务器的用户作为样本用户。

服务器可以收集样本用户的浏览记录，以及搜索记录。

以视频网站爱奇艺为例进行说明。则在本发明实施例中，爱奇艺网站的服务器可以收集每个样本用户的浏览记录，以及每个样本用户的搜索记录。容易理解的，针对视频网站来讲，用户观看视频的记录是一个很大的数据量，相对而言，用户的搜索记录是较小的数据量。

为了便于说明，假设爱奇艺网站统计了一天内用户甲和用户乙的浏览记录和搜索记录，用户甲一天内先观看了视频A，随后搜索了搜索词a，再随后观看了视频B，最后观看了视频C。用户乙一天内先观看了视频D，随后观看了视频E，搜索了搜索词b，最后观看了视频F。其中，各个视频的名称即为该浏览记录的浏览内容标识。当然，实际应用中，为了更好的构建离线索引，网站可以统计大量用户的浏览记录和搜索记录，这里仅作为示例说明。

步骤32：基于浏览记录和搜索记录，生成包含多个浏览内容标识和搜索词的样本序列；

本发明实施例中，针对每一个样本用户，服务器可以根据该样本用户的浏览记录和搜索记录，生成包含浏览内容标识和搜索词的样本序列。

在本发明的一种实施例中，服务器可以按照样本用户的浏览行为和搜索行为的时间顺序，生成针对每个样本用户的包含浏览内容标识和搜索词的样本序列。

承接以上例子，则针对用户甲，爱奇艺网站可以确定样本序列：视频A-搜索词a-视频B-视频C；针对用户乙，爱奇艺网站可以确定样本序列：视频D-视频E-搜索词b-视频F。

步骤33：将样本序列输入文本训练模型，得到样本序列中每个浏览内容标识的第一类向量，以及每个搜索词的第二类向量；

本发明实施例中，文本训练模型可以采用现有的word2vec模型，doc2vec模型，CBOW(Continuous Bag-Of-Words Model，连续词袋模型)等，这类模型的输入为词序列，输出为词序列中每个词的词向量。且不同词之间的相似度，可以用相应的词向量的相似度来衡量。

本发明的一种实施例中，可以将每个样本用户的样本序列均输入文本训练模型，即可得到样本序列中每个浏览内容标识的词向量和每个搜索词的词向量。其中，浏览内容标识的词向量为第一类向量，搜索词的词向量为第二类向量。例如将视频A-搜索词a-视频B-视频C输入word2vec模型后，即可得到三个第一类向量，分别为视频A的词向量，视频B的词向量和视频C的词向量；另外可以得到一个第二类向量，即搜索词a的词向量。

本发明实施例中，基于样本用户的浏览行为和搜索行为的时间顺序，来生成样本序列，是为了文本训练模型能够更好的利用局部的相关信息。具体的，文本训练模型是分段分析样本序列中的元素的，由于大部分用户是在同一时间段内专注于同一类视频，因此，浏览行为和搜索行为的时间顺序来生成样本序列，能够更大程度的保证文本训练模型每次分析的元素是相关的，进而能够更好的利用局部的相关信息。

例如，某用户一周前喜欢看武侠视频，看了5个武侠视频，本周开始喜欢动漫，看了7个动漫视频，按照顺序输入的话，相比于将武侠视频和动漫视频打乱输入，更有利于文本训练模型在训练过程中利用局部的相关信息，从而训练得到更符合要求的模型。

其中，将多个输入的词序列中每个词转换为词向量的过程可以采用现有技术来实现，例如一些运行有文本训练程序的开源软件，即可实现上述转换过程。

在本发明的另一种实施例中，为了更好区分输出的每个向量为第一类向量或第二类向量，在将行为序列输入文本训练模型之前，可以将每个行为序列中的浏览内容标识和搜索词进行分离，并组合成仅包含浏览内容标识的序列或仅包含搜索词的序列。举例来讲，可以将用户甲的行为序列“视频A-搜索词a-视频B-视频C”中的浏览内容标识和搜索词分离，得到仅包含浏览内容标识的序列“视频A-视频B-视频C”以及仅包含搜索词的序列“搜索词a”。再分别将得到的序列输入文本训练模型，则仅包含浏览内容标识的序列对应输出的向量均为第一类向量，仅包含搜索词的序列对应输出的向量均为第二类向量。

步骤34：计算第一类向量和第二类向量的相似度，根据所计算的相似度构建离线索引。

在步骤33中，可以得到每个浏览内容标识的第一类向量，以及每个搜索词的第二类向量。由于第一类向量和第二类向量都是通过相同的文本训练模型训练出来的，因此，第一类向量和第二类向量可以理解为是同一空间内的向量，则第一类向量和第二类向量的相似度能够表征相应的浏览内容标识与搜索词的相似度。

则本步骤中，可以计算第一类向量与第二类向量的相似度，并基于相似度构建浏览内容标识与搜索词的离线索引。

其中，两个向量的相似度可以通过该两个向量的余弦值来确定。余弦值越接近1，说明这两个词向量之间的夹角越接近0，也即该两个词向量越相似。当然，本发明并不限于通过余弦值来确定词向量的相似度，现有的其他确定词向量的相似度的方式均可应用于本发明实施例。

在本发明的一种实施例中，上述计算第一类向量与第二类向量的相似度，根据所计算的相似度构建浏览内容标识与搜索词的离散索引的步骤，具体可以包括以下细化步骤：

步骤41：针对每一个浏览内容标识的第一类向量，计算该第一类向量与各个第二类向量的相似度；

为了便于理解，假设浏览内容标识相应的第一类向量有M个，搜索词相应的第二类向量有N个。则依次计算第一个第一类向量与每个第二类向量的相似度，第二个第一类向量与每个第二类向量的相似度，一直到第M个第一类向量与每个第二类向量的相似度。

步骤42：针对每一个浏览内容标识的第一类向量，按照相似度从大到小的顺序，确定预设数量个第二类向量，生成该浏览内容标识与预设数量个第二类向量对应的预设数量个搜索词的离线索引，其中，该浏览内容标识与具备对应关系的搜索词的相似度等同于该第一类向量与具备对应关系的搜索词对应的第二类向量的相似度。

本发明实施例中，针对每一个浏览内容标识的第一类向量，可以确定与该第一类向量的相似度最高的预设数量个第二类向量，建立这预设数量个第二类向量对应的搜索词与该浏览内容标识的对应关系，此外，将该第一类向量与该预设数量个第二类向量的相似度确定为该浏览内容标识与该预设数量个具备对应关系的搜索词的相似度。

为了便于说明，承接上述例子，以针对第m个浏览内容标识构建离线索引为例进行说明。

针对第m个浏览内容标识的第一类向量，分别与N个第二类向量计算相似度后，可以按照相似度从大到小的顺序，确定预设数量个第二类向量。例如，若预设数量为3，则可以确定三个第二类向量，分别记为量x1，x2和x3，该三个第二类向量与上述第m个浏览内容标识的第一类向量的相似度最大。进而确定与该三个第二类向量对应的三个搜索词。设第二类向量x1对应搜索词1，设第二类向量x2对应搜索词2，设第二类向量x3对应搜索词3。

进一步的，可以构建第m个浏览内容标识与该三个推荐词的离线索引。具体的，生成该第m个浏览内容标识与该三个搜索词的对应关系，并确定该第m个浏览内容标识与三个搜索词中的每个搜索词的相似度。

若第m个浏览内容标识的第一类向量与上述第二类向量x1，x2和x3的相似度分别为0.9，0.8和0.7，则第m个浏览内容标识与搜索词1，搜索词2和搜索词3的相似度也分别为0.9，0.8和0.7。

可见，本发明实施例可以基于多个样本用户的浏览记录以及搜索记录构建离线索引，进而基于离线索引为目标用户推荐搜索词。由于用户的浏览记录是较大的数据量，相较于现有技术中仅考虑数据量较小的搜索记录来讲，能够提高为用户推荐搜索词的个性化和针对性。

基于相同的发明构思，根据上述搜索词推荐方法实施例，本发明实施例还提供了一种搜索词推荐方法装置，参见图3，图3为本发明实施例提供的搜索词推荐装置的一种结构示意图，可以包括以下模块：

获取模块301，用于获取目标用户的浏览记录；浏览记录中包含至少一个目标浏览内容标识；

推荐模块302，用于基于浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为目标用户推荐搜索词；离线索引包括每个浏览内容标识与预设数量个搜索词的对应关系，以及每个浏览内容标识与具备对应关系的搜索词的相似度。

可见，应用本发明实施例提供的搜索词推荐装置，获取目标用户的浏览记录；浏览记录中包含至少一个目标浏览内容标识；基于浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为目标用户推荐搜索词；离线索引包括每个浏览内容标识与预设数量个搜索词的对应关系，以及每个浏览内容标识与具备对应关系的搜索词的相似度。由于在构建离线索引时考虑了许多用户的浏览记录这个较大的数据量，相较于现有技术中仅考虑数据量较小的搜索记录来为用户推荐搜索词的方式，能够提高为用户推荐搜索词的个性化和针对性。

在本发明的一种实施例中，推荐模块302，具体可以用于：

针对每个目标浏览内容标识，基于离线索引，确定与该目标浏览内容标识具备对应关系的搜索词，作为该目标浏览内容标识的候选搜索词；

针对每个目标浏览内容标识，确定该目标浏览内容标识的每个候选搜索词的评分值，评分值正相关于该目标浏览内容标识与该候选搜索词的相似度；

按照候选搜索词的评分值从大到小的顺序，为目标用户推荐候选搜索词。

在本发明的一种实施例中，推荐模块302可以包括第一获取子模块，确定子模块，计算子模块和推荐子模块，

第一获取子模块，用于获取目标用户的浏览记录中包含的目标浏览内容标识，以及每个目标浏览内容标识的浏览次数；

确定子模块，用于针对每个目标浏览内容标识，基于离线索引，确定与该目标浏览内容标识具备对应关系的搜索词，作为该目标浏览内容的候选搜索词；

计算子模块，用于针对每个目标浏览内容标识，基于该目标浏览内容标识与候选搜索词的相似度，以及该目标浏览内容标识的浏览次数，计算该目标浏览内容标识的每个候选搜索词的评分值；

推荐子模块，用于按照候选搜索词的评分值从大到小的顺序，为目标用户推荐候选搜索词。

在本发明的一种实施例中，计算子模块，具体可以用于：

针对每个目标浏览内容标识，将该目标浏览内容标识与候选搜索词的相似度乘以第一权重，得到第一评分值；将该目标浏览内容标识的浏览次数乘以第二权重，得到第二评分值；将第一评分值与第二评分值之和作为该目标浏览内容的候选搜索词的评分值。

在本发明的一种实施例中，在图3所示装置的基础上，还可以包括构建模块，构建模块用于构建离线索引，构建模块包括第二获取子模块，生成子模块，输入子模块，构建子模块。

第二获取子模块，用于获取多个样本用户的浏览记录，以及搜索记录；浏览记录中包含浏览内容标识；搜索记录中包含搜索词；

生成子模块，用于基于浏览记录和搜索记录，生成包含多个浏览内容标识和搜索词的样本序列；

输入子模块，用于将样本序列输入文本训练模型，得到样本序列中每个浏览内容标识的第一类向量，以及每个搜索词的第二类向量；

构建子模块，用于计算第一类向量和第二类向量的相似度，根据所计算的相似度构建离线索引。

在本发明的一种实施例中，生成子模块，具体可以用于：

在本发明的一种实施例中，构建子模块，具体可以用于：

针对每一个浏览内容标识的第一类向量，按照相似度从大到小的顺序，确定预设数量个第二类向量，生成该浏览内容标识与预设数量个第二类向量对应的预设数量个搜索词的离线索引，其中，该浏览内容标识与具备对应关系的搜索词的相似度等同于该第一类向量与具备对应关系的搜索词对应的第二类向量的相似度。

基于相同的发明构思，根据上述搜索词推荐方法实施例，本发明实施例还提供了一种服务器，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现如下步骤：

获取目标用户的浏览记录；浏览记录中包含至少一个目标浏览内容标识；

基于浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为目标用户推荐搜索词；离线索引包括每个浏览内容标识与预设数量个搜索词的对应关系，以及每个浏览内容标识与具备对应关系的搜索词的相似度。

上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述服务器与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可见，应用本发明实施例提供服务器，获取目标用户的浏览记录；浏览记录中包含至少一个目标浏览内容标识；基于浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为目标用户推荐搜索词；离线索引包括每个浏览内容标识与预设数量个搜索词的对应关系，以及每个浏览内容标识与具备对应关系的搜索词的相似度。由于在构建离线索引时考虑了许多用户的浏览记录这个较大的数据量，相较于现有技术中仅考虑数据量较小的搜索记录来为用户推荐搜索词的方式，能够提高为用户推荐搜索词的个性化和针对性。

基于相同的发明构思，根据上述搜索词推荐方法实施例，在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述图1-3所示的任一搜索词推荐方法步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于搜索词推荐装置实施例、服务器实施例以及存储介质实施例而言，由于其基本相似于搜索词推荐方法实施例，所以描述的比较简单，相关之处参见搜索词推荐方法实施例的部分说明即可。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种搜索词推荐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为所述目标用户推荐搜索词的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述浏览记录中包含的目标浏览内容标识，以及预先构建的浏览内容标识与搜索词的离线索引，为所述目标用户推荐搜索词的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述针对每个所述目标浏览内容标识，基于该目标浏览内容标识与候选搜索词的相似度，以及该目标浏览内容标识的浏览次数，计算该目标浏览内容标识的每个候选搜索词的评分值的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述离线索引按照如下步骤构建：

6.根据权利要求5所述的方法，其特征在于，所述基于所述浏览记录和所述搜索记录，生成多个包含浏览内容标识和搜索词的样本序列的步骤，包括：

7.根据权利要求5所述的方法，其特征在于，所述计算所述第一类向量与所述第二类向量的相似度，根据所计算的相似度构建所述离线索引的步骤，包括：

8.一种搜索词推荐装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述推荐模块，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述推荐模块包括第一获取子模块，确定子模块，计算子模块，推荐子模块，

11.根据权利要求10所述的装置，其特征在于，所述计算子模块，具体用于：

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：构建模块，所述构建模块用于构建所述离线索引；所述构建模块包括：第二获取子模块，生成子模块，输入子模块，构建子模块，

13.根据权利要求12所述的装置，其特征在于，所述生成子模块，具体用于：

14.根据权利要求12所述的装置，其特征在于，所述构建子模块，具体用于：

15.一种服务器，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。