CN108984680B

CN108984680B - 一种信息推荐方法、装置、服务器及存储介质

Info

Publication number: CN108984680B
Application number: CN201810714377.1A
Authority: CN
Inventors: 吴泽衡; 王凡; 周坤胜; 张希; �田�浩; 方晓敏; 陈雅雪; 周古月; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2021-01-15
Anticipated expiration: 2038-06-29
Also published as: CN108984680A

Abstract

本发明实施例公开了一种信息推荐方法、装置、服务器及存储介质。所述方法包括：根据预先确定的当前时间步对应的推荐向量和预先确定的所述当前时间步对应的输出向量，确定下一个时间步对应的推荐向量和所述下一个时间步对应的输出向量；将所述下一个时间步作为所述当前时间步，直到确定出各个时间步对应的推荐向量；根据各个时间步对应的推荐向量确定所述当前用户对应的推荐列表；将所述当前用户对应的推荐列表推荐给所述当前用户。能够综合考虑推荐列表中各个推荐内容的关联关系，从而可以得到最优组合的推荐列表。

Description

一种信息推荐方法、装置、服务器及存储介质

技术领域

本发明实施例涉及互联网技术领域，尤其涉及一种信息推荐方法、装置、服务器及存储介质。

背景技术

随着互联网的高速发展，网络中的信息呈数量级增长，如何从海量的信息中向用户推荐符合需求的内容，是互联网内容平台重点关注的方向之一。现有的信息推荐系统，在面对推荐列表的组合问题的时候，一般有采用以下两种信息推荐方法：第一种信息推荐方法完全忽略列表内各个推荐内容的关联关系，通过构造一个打分模型来对每个item进行打分，然后根据打分结果从这些推荐内容中挑选出若干个推荐内容组成一个推荐列表，返回给用户。这些方法包括：协同过滤(Collaborative Filtering)，基于内容的推荐(Content-Based)、混合推荐(Hybrid Recommendation)以及应用深度学习的推荐模型(Wide andDeep)；第二种信息推荐方法是基于用户行为的假设以及推荐列表中部分推荐内容的关联关系，来构造整个排序列表。这些方法包括：基于Submodular的方法，以及基于DPP(Determinant Point Process)的方法等；其中，基于Submodular的方法是基于Submodular函数进行多样性探索，该方法只考虑了推荐列表中部分推荐内容的关联关系。而基于DPP的方法，则是通过Kernel来描述结果之间的多样性，该方法也是只考虑了推荐列表中部分推荐内容的关联关系。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：

在现有的第一种信息推荐方法中，没有考虑推荐列表中各个推荐内容的关联关系；在现有的第二种信息推荐方法中，也只考虑了推荐列表中部分推荐内容的关联关系。因此，现有的信息推荐方法对推荐列表中各个推荐内容的组合优化是欠考虑的，无法得到最优组合的推荐列表。

发明内容

有鉴于此，本发明实施例提供一种信息推荐方法、装置、服务器及存储介质，能够综合考虑推荐列表中各个推荐内容的关联关系，从而可以得到最优组合的推荐列表。

第一方面，本发明实施例提供了一种信息推荐方法，所述方法包括：

根据预先确定的当前时间步对应的推荐向量和预先确定的所述当前时间步对应的输出向量，确定下一个时间步对应的推荐向量和所述下一个时间步对应的输出向量；将所述下一个时间步作为所述当前时间步，直到确定出各个时间步对应的推荐向量；

根据各个时间步对应的推荐向量确定所述当前用户对应的推荐列表；

将所述当前用户对应的推荐列表推荐给所述当前用户。

在上述实施例中，所述根据预先确定的当前时间步对应的推荐向量和预先确定的所述当前时间步对应的输出向量，确定所述下一个时间步对应的推荐向量和所述下一个时间步对应的输出向量，包括：

根据所述当前时间步对应的推荐向量和所述当前时间步对应的输出向量，通过政策网络模型计算候选推荐集中各个候选推荐向量被确定为所述下一个时间步对应的推荐向量的概率；

根据所述候选推荐集中各个候选推荐向量被确定为所述下一个时间步对应的推荐向量的概率，通过所述政策网络模型确定所述下一个时间步对应的推荐向量和所述下一个时间步对应的输出向量。

在上述实施例中，所述根据所述候选推荐集中各个候选推荐向量被确定为所述下一个时间步对应的推荐向量的概率，通过所述政策网络模型确定所述下一个时间步对应的推荐向量，包括：

根据所述候选推荐集中各个候选推荐向量被确定为所述下一个时间步对应的推荐向量的概率，通过所述政策网络模型在所述候选推荐集中选取出推荐概率最大的候选推荐向量；

通过所述政策网络模型将推荐概率最大的候选推荐向量确定为所述下一个时间步对应的推荐向量。

在上述实施例中，根据各个时间步对应的推荐向量确定所述当前用户对应的推荐列表，包括：

根据各个时间步对应的推荐向量确定各个推荐向量对应的推荐内容；

根据各个推荐向量对应的推荐内容确定所述当前用户对应的推荐列表。

在上述实施例中，所述方法还包括：

通过评估网络模型对所述当前用户对应的推荐列表进行评估；

根据所述推荐列表对应的评估结果通过增强学习的训练方式对所述政策网络模型中确定所述推荐列表中各个推荐内容的模型参数进行调整。

第二方面，本发明实施例提供了一种信息推荐装置，确定模块和推荐模块；其中，

所述确定模块，用于根据预先确定的当前时间步对应的推荐向量和预先确定的所述当前时间步对应的输出向量，确定下一个时间步对应的推荐向量和所述下一个时间步对应的输出向量；将所述下一个时间步作为所述当前时间步，直到确定出各个时间步对应的推荐向量；根据各个时间步对应的推荐向量确定所述当前用户对应的推荐列表；

所述推荐模块，用于将所述当前用户对应的推荐列表推荐给所述当前用户。

在上述实施例中，所述确定模块包括：计算子模块和确定子模块；其中，

所述计算子模块，用于根据所述当前时间步对应的推荐向量和所述当前时间步对应的输出向量，通过政策网络模型计算候选推荐集中各个候选推荐向量被确定为所述下一个时间步对应的推荐向量的概率；

所述确定子模块，用于根据所述候选推荐集中各个候选推荐向量被确定为所述下一个时间步对应的推荐向量的概率，通过所述政策网络模型确定所述下一个时间步对应的推荐向量和所述下一个时间步对应的输出向量。

在上述实施例中，所述确定子模块，具体用于根据所述候选推荐集中各个候选推荐向量被确定为所述下一个时间步对应的推荐向量的概率，通过所述政策网络模型在所述候选推荐集中选取出推荐概率最大的候选推荐向量；通过所述政策网络模型将推荐概率最大的候选推荐向量确定为所述下一个时间步对应的推荐向量。

在上述实施例中，所述确定模块，具体用于根据各个时间步对应的推荐向量确定各个推荐向量对应的推荐内容；根据各个推荐向量对应的推荐内容确定所述当前用户对应的推荐列表。

在上述实施例中，所述装置还包括：评估模块，用于通过评估网络模型对所述当前用户对应的推荐列表进行评估；根据所述推荐列表对应的评估结果通过增强学习的训练方式对所述政策网络模型中确定所述推荐列表中各个推荐内容的模型参数进行调整。

第三方面，本发明实施例提供了一种服务器，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的信息推荐方法。

第四方面，本发明实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的信息推荐方法。

本发明实施例提出了一种信息推荐方法、装置、服务器及存储介质，先根据预先确定的当前时间步对应的推荐向量和预先确定的所述当前时间步对应的输出向量，确定下一个时间步对应的推荐向量和下一个时间步对应的输出向量；将下一个时间步作为当前时间步，直到确定出各个时间步对应的推荐向量；然后根据各个时间步对应的推荐向量确定当前用户对应的推荐列表；再将当前用户对应的推荐列表推荐给当前用户。也就是说，在本发明的技术方案中，可以根据当前时间步对应的推荐向量和当前时间步对应的输出向量，确定下一个时间步对应的推荐向量和下一个时间步对应的输出向量，这样能够综合考虑推荐列表中各个推荐内容的关联关系。在现有的信息推荐方法中，没有考虑推荐列表中各个推荐内容的关联关系；或者只考虑推荐列表中部分推荐内容的关联关系。因此，和现有技术相比，本发明实施例提出的信息推荐方法、装置、服务器及存储介质，能够综合考虑推荐列表中各个推荐内容的关联关系，从而可以得到最优组合的推荐列表；并且，本发明实施例的技术方案实现简单方便、便于普及，适用范围更广。

附图说明

图1为本发明实施例一提供的信息推荐方法的流程示意图；

图2为本发明实施例一提供的政策网络模型的组成结构示意图；

图3为本发明实施例一提供的评估网络模型的组成结构示意图；

图4为本发明实施例二提供的信息推荐方法的流程示意图；

图5为本发明实施例三提供的信息推荐方法的流程示意图；

图6为本发明实施例四提供的信息推荐装置的第一结构示意图；

图7为本发明实施例四提供的信息推荐装置的第二结构示意图；

图8为本发明实施例五提供的服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

实施例一

图1为本发明实施例一提供的信息推荐方法的流程示意图。如图1所示，信息推荐方法可以包括以下步骤：

S101、根据预先确定的当前时间步对应的推荐向量和预先确定的当前时间步对应的输出向量，确定下一个时间步对应的推荐向量和下一个时间步对应的输出向量；将下一个时间步作为当前时间步，直到确定出各个时间步对应的推荐向量。

在本发明的具体实施例中，服务器可以根据预先确定的当前时间步对应的推荐向量和预先确定的当前时间步对应的输出向量，确定下一个时间步对应的推荐向量和下一个时间步对应的输出向量；将下一个时间步作为当前时间步，直到确定出各个时间步对应的推荐向量。具体地，服务器可以根据预先确定的当前时间步对应的推荐向量和预先确定的当前时间步对应的输出向量，通过政策网络模型确定下一个时间步对应的推荐向量和下一个时间步对应的输出向量。具体地，在第一个时间步上，服务器可以根据预先确定的初始推荐向量和预先确定的初始输出向量，确定第一个时间步对应的推荐向量和第一个时间步对应的输出向量；在第二个时间步上，服务器可以根据第一个时间步对应的推荐向量和第一个时间步对应的输出向量，确定第二个时间步对应的推荐向量和第二个时间步对应的输出向量；以此类推，直到确定出最后一个时间步对应的推荐向量。

图2为本发明实施例一提供的政策网络模型的组成结构示意图。如图2所示，政策网络模型可以包括：编码子模型和解码子模型；其中，编码子模型包括：第一嵌入单元、第二嵌入单元和汇聚单元；解码子模型包括：第一RNN、第二RNN、…、第X RNN；其中，X为大于1的自然数。具体地，服务器可以先获取待推荐内容集，包括：第一推荐内容C₁、第二候选推荐内容C₂、…、第N候选推荐内容C_N，然后待推荐内容集转换为候选推荐集，包括：第一候选推荐向量M¹ ₁、第二候选推荐向量M¹ ₂、…第N候选推荐向量M¹ _N；其中，第一推荐内容C₁对应第一候选推荐向量M¹ ₁、第二候选推荐内容C₂对应第二候选推荐向量M¹ ₂、…、第N候选推荐内容C_N第N候选推荐向量M¹ _N；候选推荐集经过一个Embedding之后，第一输入单元将其结合到一起，作为候选推荐集的一个隐含的向量表示；而当前用户相关的特征，则经过另一个Embedding之后，得到相应的用户向量；这两部分结合到一起，作为汇聚单元的输出，它描述候选推荐集和当前用户的信息，该向量将作为编码子模型中的第一个RNN的输入向量。解码子模型是一个RNN网络，它以编码子模型输出的向量表示作为初始化。在第一个时间步上，与第一个时间步对应的候选推荐集包括：第一候选推荐向量M¹ ₁、第二候选推荐向量M¹ ₂、…第N候选推荐向量M¹ _N；在第二个时间步上，与第二个时间步对应的候选推荐集，包括：第一候选推荐向量M² ₁、第二候选推荐向量M² ₂、…第N候选推荐向量M² _N；以此类推。也就是说，在每个时间步，它会输出一个概率向量，这个概率向量表示候选推荐集中，在当前时间步上每个候选推荐向量被选择的概率，也就是说它有一个Pointer指向了候选推荐集中的一个候选推荐向量，这个候选推荐向量将作为下一个时间步的输入向量。

较佳地，在本发明的具体实施例中，服务器还可以通过评估网络模型对当前用户对应的推荐列表进行评估；然后根据推荐列表对应的评估结果通过增强学习的训练方式对政策网络模型中确定推荐列表中各个推荐内容的模型参数进行调整。

图3为本发明实施例一提供的评估网络模型的组成结构示意图。如图3所示，评估网络模型可以包括；输入层、中间层和输出层。由于传统的Pointer Network是通过Supervised的方式来进行训练的，在训练样本中，需要提供一个候选推荐集对应的正确序列，评估网络模型通过拟合这些序列来进行训练。但是在信息推荐系统中，我们并不知道什么样的推荐列表是正确的序列，一般获取到的推荐结果的样本，都是通过线上策略推荐后的结果，如果通过Supervised Learning去拟合这些样本，相当于模型在拟合线上策略。为了解决这个问题，本发明实施例提出了基于增强学习RL的训练方式，评估网络模型向政策网络模型提供各个推荐列表对应的评估结果，帮助政策网络模型学习到更好的策略。评估网络模型是一个双向的RNN，对于政策网络模型提供的各个推荐列表，评估网络模型会给出一个打分，这个打分是对各个推荐列表的点击次数的一个预估。

S102、根据各个时间步对应的推荐向量确定当前用户对应的推荐列表。

在本发明的具体实施例中，服务器可以根据各个时间步对应的推荐向量确定当前用户对应的推荐列表。具体地，服务器可以先根据各个时间步对应的推荐向量确定各个推荐向量对应的推荐内容；然后根据各个推荐向量对应的推荐内容确定当前用户对应的推荐列表。具体地，服务器可以根据推荐向量1、推荐向量2、…、推荐向量X确定与其对应的推荐内容1、推荐内容2、…、推荐内容X；然后将推荐内容1、推荐内容2、…、推荐内容X组合成为当前用户对应的推荐列表。

S103、将当前用户对应的推荐列表推荐给当前用户。

在本发明的具体实施例中，服务器根据各个时间步对应的推荐向量确定出当前用户对应的推荐列表之后，服务器可以将当前用户对应的推荐列表推荐给当前用户。

本发明实施例提出的信息推荐方法，先根据预先确定的当前时间步对应的推荐向量和预先确定的当前时间步对应的输出向量，确定下一个时间步对应的推荐向量和下一个时间步对应的输出向量；将下一个时间步作为当前时间步，直到确定出各个时间步对应的推荐向量；然后根据各个时间步对应的推荐向量确定当前用户对应的推荐列表；再将当前用户对应的推荐列表推荐给当前用户。也就是说，在本发明的技术方案中，可以根据当前时间步对应的推荐向量和当前时间步对应的输出向量，确定下一个时间步对应的推荐向量和下一个时间步对应的输出向量，这样能够综合考虑推荐列表中各个推荐内容的关联关系。在现有的信息推荐方法中，没有考虑推荐列表中各个推荐内容的关联关系；或者只考虑推荐列表中部分推荐内容的关联关系。因此，和现有技术相比，本发明实施例提出的信息推荐方法，能够综合考虑推荐列表中各个推荐内容的关联关系，从而可以得到最优组合的推荐列表；并且，本发明实施例的技术方案实现简单方便、便于普及，适用范围更广。

实施例二

图4为本发明实施例二提供的信息推荐方法的流程示意图。如图4所示，信息推荐方法可以包括以下步骤：

S401、根据当前时间步对应的推荐向量和当前时间步对应的输出向量，通过政策网络模型计算候选推荐集中各个候选推荐向量被确定为下一个时间步对应的推荐向量的概率。

在本发明的具体实施例中，服务器可以根据当前时间步对应的推荐向量和当前时间步对应的输出向量，通过政策网络模型计算候选推荐集中各个候选推荐向量被确定为下一个时间步对应的推荐向量的概率。具体地，在第一个时间步上，服务器可以计算出各个候选推荐向量被确定为第二个时间步对应的推荐向量的概率；在第二个时间步上，服务器可以计算出各个候选推荐向量被确定为第三个时间步对应的推荐向量的概率；以此类推。

S402、根据候选推荐集中各个候选推荐向量被确定为下一个时间步对应的推荐向量的概率，通过政策网络模型确定下一个时间步对应的推荐向量和下一个时间步对应的输出向量；将下一个时间步作为当前时间步，直到确定出各个时间步对应的推荐向量。

在本发明的具体实施例中，服务器可以根据候选推荐集中各个候选推荐向量被确定为下一个时间步对应的推荐向量的概率，服务器可以通过政策网络模型确定下一个时间步对应的推荐向量和下一个时间步对应的输出向量；将下一个时间步作为当前时间步，直到确定出各个时间步对应的推荐向量。具体地，服务器可以根据预先确定的各个候选推荐向量被确定为第一个时间步对应的推荐向量的概率，通过政策网络模型确定第二个时间步对应的推荐向量和第二个时间步对应的输出向量；根据各个候选推荐向量被确定为第二个时间步对应的推荐向量的概率，通过政策网络模型确定第三个时间步对应的推荐向量和第二个时间步对应的输出向量；以此类推。

较佳地，在本发明的具体实施例中，服务器可以根据候选推荐集中各个候选推荐向量被确定为下一个时间步对应的推荐向量的概率，通过政策网络模型在候选推荐集中选取出推荐概率最大的候选推荐向量；通过政策网络模型将推荐概率最大的候选推荐向量确定为下一个时间步对应的推荐向量。

S403、根据各个时间步对应的推荐向量确定当前用户对应的推荐列表。

S404、将当前用户对应的推荐列表推荐给当前用户。

实施例三

图5为本发明实施例三提供的信息推荐方法的流程示意图。如图5所示，信息推荐方法可以包括以下步骤：

S501、根据当前时间步对应的推荐向量和当前时间步对应的输出向量，通过政策网络模型计算候选推荐集中各个候选推荐向量被确定为下一个时间步对应的推荐向量的概率。

S502、根据候选推荐集中各个候选推荐向量被确定为下一个时间步对应的推荐向量的概率，通过政策网络模型确定下一个时间步对应的推荐向量和下一个时间步对应的输出向量，将下一个时间步作为当前时间步，直到确定出各个时间步对应的推荐向量。

S503、根据各个时间步对应的推荐向量确定各个推荐向量对应的推荐内容。

在本发明的具体实施例中，服务器可以根据各个时间步对应的推荐向量确定各个推荐向量对应的推荐内容。具体地，服务器可以根据推荐向量1、推荐向量2、…、推荐向量X确定与其对应的推荐内容1、推荐内容2、…、推荐内容X。

S504、根据各个推荐向量对应的推荐内容确定当前用户对应的推荐列表。

在本发明的具体实施例中，服务器可以根据各个推荐向量对应的推荐内容确定当前用户对应的推荐列表。具体地，服务器根据推荐向量1、推荐向量2、…、推荐向量X确定与其对应的推荐内容1、推荐内容2、…、推荐内容X；然后将推荐内容1、推荐内容2、…、推荐内容X组合成为当前用户对应的推荐列表。

S505、将当前用户对应的推荐列表推荐给当前用户。

实施例四

图6为本发明实施例四提供的信息推荐装置的第一结构示意图。如图6所示，本发明实施例所述的信息推荐装置可以包括：确定模块601和推荐模块602；其中，

所述确定模块601，用于根据预先确定的当前时间步对应的推荐向量和预先确定的所述当前时间步对应的输出向量，确定下一个时间步对应的推荐向量和所述下一个时间步对应的输出向量；将所述下一个时间步作为所述当前时间步，直到确定出各个时间步对应的推荐向量；根据各个时间步对应的推荐向量确定所述当前用户对应的推荐列表；

所述推荐模块602，用于将所述当前用户对应的推荐列表推荐给所述当前用户。

图7为本发明实施例四提供的信息推荐装置的第二结构示意图。如图7所示，所述确定模块601包括：计算子模块6011和确定子模块6012；其中，

所述计算子模块6011，用于根据所述当前时间步对应的推荐向量和所述当前时间步对应的输出向量，通过政策网络模型计算候选推荐集中各个候选推荐向量被确定为所述下一个时间步对应的推荐向量的概率；

所述确定子模块6012，用于根据所述候选推荐集中各个候选推荐向量被确定为所述下一个时间步对应的推荐向量的概率，通过所述政策网络模型确定所述下一个时间步对应的推荐向量和所述下一个时间步对应的输出向量。

进一步的，所述确定子模块6012，具体用于根据所述候选推荐集中各个候选推荐向量被确定为所述下一个时间步对应的推荐向量的概率，通过所述政策网络模型在所述候选推荐集中选取出推荐概率最大的候选推荐向量；通过所述政策网络模型将推荐概率最大的候选推荐向量确定为所述下一个时间步对应的推荐向量。

进一步的，所述确定模块601，具体用于根据各个时间步对应的推荐向量确定各个推荐向量对应的推荐内容；根据各个推荐向量对应的推荐内容确定所述当前用户对应的推荐列表。

进一步的，所述装置还包括：评估模块603(图中未示出)，用于通过评估网络模型对所述当前用户对应的推荐列表进行评估；根据所述推荐列表对应的评估结果通过增强学习的训练方式对所述政策网络模型中确定所述推荐列表中各个推荐内容的模型参数进行调整。

上述信息推荐装置可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的信息推荐方法。

实施例五

图8为本发明实施例五提供的服务器的结构示意图。图8示出了适于用来实现本发明实施方式的示例性服务器的框图。图8显示的服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该服务器12交互的设备通信，和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的信息推荐方法。

实施例六

本发明实施例六提供了一种计算机存储介质。

本发明实施例的计算机可读存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种信息推荐方法，其特征在于，所述方法包括：

根据预先确定的当前时间步对应的推荐向量和预先确定的所述当前时间步对应的输出向量，通过政策网络模型确定下一个时间步对应的推荐向量和所述下一个时间步对应的输出向量；将所述下一个时间步作为所述当前时间步，直到确定出各个时间步对应的推荐向量；其中，所述政策网络模型包括：编码子模型和解码子模型；其中，所述编码子模型包括：第一嵌入单元、第二嵌入单元和汇聚单元；所述解码子模型包括X个RNN；其中，X为大于1的自然数；通过评估网络模型对当前用户对应的推荐列表进行评估；其中，所述评估网络模型包括：输入层、中间层和输出层；

将所述当前用户对应的推荐列表推荐给所述当前用户。

2.根据权利要求1所述的方法，其特征在于，所述根据预先确定的当前时间步对应的推荐向量和预先确定的所述当前时间步对应的输出向量，确定所述下一个时间步对应的推荐向量和所述下一个时间步对应的输出向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述候选推荐集中各个候选推荐向量被确定为所述下一个时间步对应的推荐向量的概率，通过所述政策网络模型确定所述下一个时间步对应的推荐向量，包括：

4.根据权利要求1所述的方法，其特征在于，根据各个时间步对应的推荐向量确定所述当前用户对应的推荐列表，包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.一种信息推荐装置，其特征在于，所述装置包括：确定模块和推荐模块；其中，

所述确定模块，用于根据预先确定的当前时间步对应的推荐向量和预先确定的所述当前时间步对应的输出向量，通过政策网络模型确定下一个时间步对应的推荐向量和所述下一个时间步对应的输出向量；将所述下一个时间步作为所述当前时间步，直到确定出各个时间步对应的推荐向量；其中，所述政策网络模型包括：编码子模型和解码子模型；其中，所述编码子模型包括：第一嵌入单元、第二嵌入单元和汇聚单元；所述解码子模型包括X个RNN；其中，X为大于1的自然数；通过评估网络模型对当前用户对应的推荐列表进行评估；其中，所述评估网络模型包括：输入层、中间层和输出层；根据各个时间步对应的推荐向量确定所述当前用户对应的推荐列表；

7.根据权利要求6所述的装置，其特征在于，所述确定模块包括：计算子模块和确定子模块；其中，

8.根据权利要求7所述的装置，其特征在于：

所述确定子模块，具体用于根据所述候选推荐集中各个候选推荐向量被确定为所述下一个时间步对应的推荐向量的概率，通过所述政策网络模型在所述候选推荐集中选取出推荐概率最大的候选推荐向量；通过所述政策网络模型将推荐概率最大的候选推荐向量确定为所述下一个时间步对应的推荐向量。

9.根据权利要求6所述的装置，其特征在于：

所述确定模块，具体用于根据各个时间步对应的推荐向量确定各个推荐向量对应的推荐内容；根据各个推荐向量对应的推荐内容确定所述当前用户对应的推荐列表。

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：评估模块，用于根据所述推荐列表对应的评估结果通过增强学习的训练方式对所述政策网络模型中确定所述推荐列表中各个推荐内容的模型参数进行调整。

11.一种服务器，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的信息推荐方法。

12.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的信息推荐方法。