CN114528469A

CN114528469A - 推荐方法、装置、电子设备、存储介质

Info

Publication number: CN114528469A
Application number: CN202011321668.8A
Authority: CN
Inventors: 樊森; 屠要峰; 徐进; 王德政
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2022-05-24
Also published as: JP2023550510A; WO2022105780A1; US20240005170A1

Abstract

本申请实施例涉及计算机技术领域，特别涉及一种推荐方法、装置、电子设备、存储介质。本申请实施例提出的推荐方法，响应t时刻用户请求，根据策略网络为用户生成物品推荐排序，根据用户对物品推荐排序的反馈结果获取t时刻的经验，将各用户的t时刻的经验汇总到全局经验池，也就是说，并行获取多个用户产生的经验汇集到经验池，根据全局经验池中的经验更新策略网络，相较于相关技术中根据单个策略网络的经验训练策略网络，本实施例对策略网络的训练速度更快，训练效率更高，而且大幅度提升了探索能力，使得给用户的物品推荐排序能够更快满足用户需求。

Description

推荐方法、装置、电子设备、存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种推荐方法、装置、电子设备、存储介质。

背景技术

推荐系统主要是指获取“用户知识”和“物品知识”的基础上来预测用户对某一物品的喜好程度，再根据喜好程度对物品进行排序，最终将排序结果返回给用户。

然而，在传统的推荐系统中，相关技术使用单个策略网络actor生成经验，以此来训练策略函数，使得策略函数的训练效率较低。

发明内容

本申请实施例的主要目的在于提出一种推荐方法、装置、电子设备、存储介质，能够提高推荐系统中策略网络的训练效率。

为实现上述目的，本申请实施例提供了一种推荐方法，包括：响应t时刻用户请求，根据策略网络为用户生成物品推荐排序；根据用户对所述物品推荐排序的反馈结果获取t时刻的经验；将各用户的所述t时刻的经验汇总到全局经验池；根据所述全局经验池中的经验获取更新后的策略网络。

为实现上述目的，本申请实施例还提供了一种推荐装置，包括：物品推荐排序生成模块，用于响应t时刻用户请求，根据策略网络为用户生成物品推荐排序；经验获取模块，用于根据用户对所述物品推荐排序的反馈结果获取t时刻的经验；经验池获取模块，用于将各用户所述t时刻的经验汇总到全局经验池；策略网络更新模块，用于根据所述全局经验池中的经验获取更新后的策略网络。

为实现上述目的，本申请实施例还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的推荐方法。

为实现上述目的，本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述的推荐方法。

本申请实施例提出的推荐方法，响应t时刻用户请求，根据策略网络为用户生成物品推荐排序，根据用户对物品推荐排序的反馈结果获取t时刻的经验，将各用户的t时刻的经验汇总到全局经验池，也就是说，并行获取多个用户产生的经验汇集到经验池，根据全局经验池中的经验更新策略网络，相较于相关技术中根据单个策略网络的经验训练策略网络，本实施例对策略网络的训练速度更快，训练效率更高，而且大幅度提升了探索能力，使得给用户的物品推荐排序能够更快满足用户需求。

附图说明

图1是根据本发明第一实施例中的用户文档知识图谱的示意图；

图2是根据本发明第一实施例中的推荐方法的流程图；

图3是根据本发明第一实施例中的推荐方法中生成物品推荐排序的流程图；

图4是根据本发明第一实施例中的获取t时刻环境状态的流程图；

图5是根据本发明第一实施例中的知识图谱中构造实体特征向量的示意图；

图6是根据本发明第一实施例中的知识图谱中的关系网络图；

图7是根据本发明第二实施例中的推荐方法的流程图；

图8是根据本发明第二实施例中的使用Ape-x算法训练策略网络的示意图；

图9是根据本发明第三实施例中的推荐装置的示意图；

图10是根据本发明第四实施例的电子设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施例涉及一种推荐方法，可以应用于服务器等电子设备，本实施例的推荐方法包括：响应t时刻用户请求，根据策略网络为用户生成物品推荐排序；根据用户对所述物品推荐排序的反馈结果获取t时刻的经验；将各用户的所述t时刻的经验汇总到全局经验池；根据所述全局经验池中的经验获取更新后的策略网络。相较于相关技术中根据采用单个策略网络获取经验，本实施例能够并行获取多个用户产生的经验，根据汇总的全局经验池获取更新后的策略网络，能够加速训练策略网络，而且还提升了探索的能力，使得物品推荐排序能够满足用户需求。下面对本实施例的推荐方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。本发明第一实施例的推荐方法的流程图如图1所示。

在一个例子中，在根据策略网络为用户生成物品推荐排序之前，根据用户信息和物品信息创建知识图谱。

示例性的，以文档为例，对知识图谱进行创建，首先进行实体类创建，如图1所示，根据用户信息和物品信息创建知识图谱，例如通过用户信息创建人员信息类，通过物品信息创建组织信息类、标签体系类、文档类。人员信息：每个用户可以作为一个实体，包含用户的姓名、性别、职位等属性，如图示中的张明，王涛以及其工号等等。组织信息：表示一个机构或者团体。文档库：主要由各个领域文档组成，每个文档可以作为一个实体，每个实体由标题、内容、作者和其他属性组成。标签体系：主要对个人和文档进行分类，打标签，例如图示中的集合，C++，多线程，Java。创建实体类之后，可以通过知识图谱建立用户-用户，用户-文档关系网络。

在一个例子中，根据知识图谱和知识图谱嵌入模型获取实体特征向量。例如，物品实体特征向量，用户实体特征向量。将知识图谱引入推荐系统中，知识图谱作为构造实体之间的关系网络不仅能够进行特征学习，而且提供用户之间的关联网络，使得生成的物品排序更贴合用户的实际需求。

示例性的，用知识图谱嵌入模型如TransE、TransH、TransR等方法生成上述知识图谱中的用户、文档等实体特征向量。

知识图谱本质上是构造实体之间的关系网络，基于知识图谱的语义搜索，能够跳出语句的字面本身，而是解析语句的本身结构，准确地捕捉到用户输入语句内在的关联信息，能够方便用户利用数据之间的内在结构和语义关联来进行复杂的查询，最终返回精确的匹配的查询结果。

步骤201，响应t时刻用户请求，根据策略网络为用户生成物品推荐排序。

在一个例子中，获取所述用户的t时刻的状态；根据所述t时刻的状态和所述策略网络获取所述t时刻物品初始得分向量；根据所述用户和所述物品的匹配度获取所述物品的权重；根据所述t时刻物品初始得分和所述物品的权重生成物品推荐排序。

在一个例子中，用户的t时刻的状态包括：用户特征向量，物品特征向量，用户上下文特征向量。

在一个例子中，根据实体特征向量获取t时刻的用户特征向量，物品特征向量，用户上下文特征向量。在推荐中不仅考虑用户知识和物品知识也考虑用户上下文，即好友，考虑到了关系相近的人对于某类的文档的偏好度可能相近的情况，使推荐文档更贴合用户需求。

示例性的，用户响应t时刻用户请求，根据策略网络为用户生成物品推荐排序的流程图如图3所示。

步骤301，获取所述用户的t时刻的状态。用户获取t时刻状态的流程图如图4所示。

步骤401，根据用户实体特征向量和用户标签特征向量获取用户特征向量。

示例性的，用户特征向量包括：用户实体特征向量和用户标签特征向量。如图5所示，图5中与实体以虚线相连的方格表示该实体的实体特征向量，例如：与组织实体相连的方格表示组织实体特征向量，在图5所示的知识图谱中与用户实体以虚线相连的方格对应的是用户实体特征向量，用户标签特征向量对应的用户标签主要是指用户的喜好标签，用户标签包括显示和隐式标签。显示标签为用户的自设的标签属性，隐形的标签主要从用户的行为埋点数据来获取，主要分为两种途径，第一种，根据用户上传的物品的标签，例如用户发表的文章，用户所发表所有文章的标签如图6中601所示，对标签数量进行统计，按数量对标签进行升序排序，选取数量排在前m个的标签，并将这前m个的标签转换成标签向量。第二种，根据用户历史浏览物品获取用户的标签。例如文档通过用户历史浏览文档来模拟用户的兴趣变化，抽取用户一段时间内浏览历史文档所对应的文档标签出现频率，取频率排在前n个的标签作为用户的兴趣标签，将兴趣标签转换成特征向量。

步骤402，根据召回的K个物品的实体特征向量，获取物品特征向量。

示例性的，将搜索系统一次召回的K个文档通过Embedding技术，即知识图谱嵌入技术，例如知识图谱嵌入模型，转化成对应的文档特征向量，记为E_D，其中，

其中

表示第i个文档特征向量。

步骤403，根据用户-用户关系网络和用户实体特征向量获取用户上下文特征向量。本实施例不仅仅考虑用户的行为，还通过关系网络引入“好友”特征向量，即用户上下文特征向量。

示例性的，如图6所示的602对应于当前用户下一跳临近的用户实体，设当前用户e_u，E(e_u)为e_u的实体特征向量，Neigh(e_u)表示e_u的下一跳连接节点。以下给出两种获取用户上下文特征向量的方法。

在一个例子中，采用用户好友特征向量的均值获取用户上下文特征向量。这种方式，每个“好友”实体特征向量具有相同的权重，无法挖掘“好友”的差异性。将好友特征向量的均值作为e_u，上下文向量记为

的计算公式如下：

在另一个例子中，考虑到实际中好友实体特征与当前用户实体特征相似度不同，相似度越高，说明当前好友与用户类型越接近，因此在用户的上下文特征中需要着重考虑。在本例中根据好友相似度来设置权重，好友相似度从两方面来考虑：第一，根据好友的实体特征向量与当前用户的实体特征向量相似度不同来设置权重，相似度越高，说明当前好友与用户越接近，权重就会越大，因此在用户的上下文特征向量设置中需要着重考虑。第二，根据用户之间的标签相似度，标签相似度越高，权重设置越高。本例主要通过余弦相似性来计算用户的相似度，最终用户上下文特征向量为“好友”特征向量的加权平均值。

例如，用m_k，u表示用户k和用户u的相似性，用户相似性由用户实体特征余弦相似性和用户标签余弦相似性组成。设用户u的实体特征向量为O_u，用户u的标签特征向量集合为

表示用户u的第i个标签向量，m_u为用户u的标签个数；设用户k的实体特征向量为O_k，用户k的标签特征向量集合为

表示用户k的第i个标签向量，m_k为用户k的标签个数。则m_k，u的计算公式如下：

其中，(α,β>0)；

根据上述公式m_k，u得到了用户k和用户u的相似性，即权重，根据上述得到的权重计算“好友”特征向量的加权平均值，得到用户上下文特征向量，因此改进后的公式

计算公式如下：

步骤404，根据用户上下文特征向量，用户特征向量，物品特征向量获取t时刻环境状态。也就是说，合并用户特征向量，文档特征向量，用户上下文特征向量，成为最终的t时刻环境状态state即st＝(用户特征向量，文档特征向量，用户上下文特征向量)，也记作，状态空间

需要说明的是，用户特征向量、物品特征向量、用户上下文特征向量获取的顺序是任意的，上述流程图不造成对用户特征向量、物品特征向量、用户上下文特征向量获取的步骤的限定。

步骤302，根据所述t时刻的状态和所述策略网络获取所述t时刻物品初始得分向量。

示例性的，使用DQN算法来对文档的排序进行实时优化。在该算法中，Actor的输出是一个确定性的策略，即某个动作,采用Actor以状态空间s，即t时刻状态环境为输入，最终输出初始的文档排序得分向量a，公式如下；

其中：a＝(a₁，a₂，...，a_k)

其中，a为K维向量，表示输出K个文档的初始排序得分a_t，θ^μ为策略网络训练的参数。

步骤303，根据所述用户和所述物品的匹配度获取所述物品的权重。

示例性的，将搜索用户的标签与文档标签的余弦相似性作为该文档的排序权重，用户标签与文档标签的相似性越大，排序权重就越高。用户u的标签特征向量集合为

表示用户u的第i个标签向量，m_u为用户u的标签个数；设文档D_d的标签特征向量集合为

表示文档D_d第j个标签向量，n_d为文档D_d的标签个数，C_u，d表示用户u和文档D_d的匹配度，即相似度，本实施例使用余弦相似性计算，公式如下：

将上述使用余弦相似性得到的匹配度作为物品的权重。

步骤304，根据所述t时刻物品初始得分和所述物品的权重生成物品推荐排序。结合策略网络得到的初始得分和权重得到物品推荐排序，使得物品推荐排序更切合用户实际需求。

承上例的，λ_U，d表示对于用户u文档D_d的最终得分，λ_U，d公式如下：

根据{λ_u，1，λ_u，2，…，λ_u，k}，生成最终k个文档排序结果。

步骤202，根据用户对所述物品推荐排序的反馈结果获取t时刻的经验。

在一个例子中，t时刻的经验包括：t时刻的状态，t时刻物品初始得分，t时刻奖励，t+1时刻的状态，t时刻物品初始得分根据t时刻的状态和策略网络获取得到；t时刻奖励根据所述用户对所述物品推荐排序的反馈结果获取得到。

在一个例子中，反馈结果包括：一次点击、二次点击和所述物品所在推荐页面中的页数；根据所述一次点击、所述二次点击和所述预设函数获取t时刻奖励，其中，所述预设函数的自变量为所述物品所在推荐页面中的页数，所述预设函数表示t时刻奖励随所述推荐页面中的页数变化的趋势。生成t时刻奖励的时候不仅考虑了用户是否点击文档，还考虑了用户的二次点击，使得生成的奖励更准确，另外，设计的预设函数表示t时刻奖励随物品所在页数的变化趋势，模拟了实际用户的操作根据页数的变化情况，进一步提高了生成的奖励的准确性。

示例性的，设C_i为第i个文档点击情况，发生点击时C_i为1，否则为0，D_i为第i个文档是否二次点击，发生二次点击则为1，否则为0，x_i为文档所在推荐页面中的页数，设计H(x)函数表示奖励随页面变化趋势，H(x)的变化趋势由快到慢的过程，H(x)满足：H(x)>0,H'(x)<0，H”(x)>0(x>0)，即H(x)的一阶导数小于零，H(x)的二阶导数大于零。本实施例选取一种，设置

α，β是系数(α>0，β>0)。则K个文档的回报之和如下：

将上述k个文档之和记作r_t，r_t即为t时刻奖励，用户操作完成之后得到了t+1时刻的状态，记作s_t+1。

由上，得到了t时刻的状态s_t，t时刻物品初始得分a_t，t时刻奖励r_t，t+1时刻的状态s_t+1，得到了t时刻的经验(s_t，a_t，r_t，s_t+1)。

步骤203，将各用户的所述t时刻的经验汇总到全局经验池。

承上例，当多个用户同时在线查询文档，每个用户分配一个actor，actor负责为用户生成文档排序，并且收集用户的反馈信息，将(s_t，a_t，r_t，s_t+1)作为经验存入本地经验池。将各个actor的经验池进行汇总到全局经验池中。

步骤204，根据所述全局经验池中的经验获取更新后的策略网络。

在一个例子中，从全局经验池中采样获取经验集，根据经验集获取更新后的策略网络。该实现中，能够加强策略网络的训练速度。

本实施例的推荐方法结合了强化学习(ReinforcementLearning,RL)。强化学习，又称增强学习，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达到最大化回报或实现特定目标的问题。RL和传统的机器学习相比，能够实现在线增量式学习，其主要运行流程：根据当前环境状态(state)生成决策并转化成动作(action)，改变当前环境状态收集回报(Reward)，根据自身状态再进行下一个动作的决策，以此类推，这种模式简称“状态-行动-反馈-状态更新”的循环，在循环的过程中，不断提升智能体的决策能力以获取最大化回报特定的目标。本实施例能在策略网络更新中，不断提升物品推荐排序与用户自身需求的契合度。

在相关技术的推荐系统中有部分使用DRN算法对推荐模型进行线上实时学习和更新，相比于其他“静态”深度学习模型大大增强对数据实时利用的能力。然而，本实施例考虑到关系相近的人对某类物品的偏好度可能相近，DRN算法在环境状态设置过程中没有加入用户“好友”的特征，DQN算法可以加入用户“好友”特征。因此本实施例采用DQN算法对物品排序进行实时优化。

本实施例提出的推荐方法，响应t时刻用户请求，根据策略网络为用户生成物品推荐排序，根据用户对物品推荐排序的反馈结果获取t时刻的经验，将各用户的t时刻的经验汇总到全局经验池，也就是说，并行获取多个用户产生的经验汇集到经验池，根据全局经验池中的经验更新策略网络，相较于相关技术中根据单个策略网络的经验训练策略网络，本实施例充分利用计算资源，并行使用多个策略网络获取经验，对策略网络的训练速度更快，训练效率更高，而且大幅度提升了探索能力，使得给用户的物品推荐排序能够更快满足用户需求。

本发明的第二实施例涉及一种推荐方法，本实施例与第一实施例大致相同，不同之处在于：从全局经验池采样获取经验集需要获取全局经验池中各经验的时间差分误差；根据时间差分误差获取经验集。时间差分误差根据所述用户对所述物品推荐排序的反馈结果得到的t时刻奖励和根据所述用户的t时刻状态得到的预期奖励确定。

本实施例使用分布式经验优先级经验回放方法Ape-x。Ape-x算法采用多个策略网络获取replaymemory数据，即经验，根据TD-error，即时间差分误差大小设置replaymemory数据排序优先级，合并每个策略网络的replaymemory数据到全局数据，从全局数据抽取经验进行模型训练，不仅大幅度提升了explore探索能力，而且防止了过拟合。本发明第二实施例的流程图如图7所示。

步骤701，响应t时刻用户请求，根据策略网络为用户生成物品推荐排序。

步骤702，根据用户对所述物品推荐排序的反馈结果获取t时刻的经验。

步骤703，将各用户的所述t时刻的经验汇总到全局经验池。

步骤701至步骤703与实施例一中大致相同，此处不再赘述。

步骤704，获取全局经验池中各经验的时间差分误差。

示例性的，获取全局经验池中各经验的时间差分误差，即TD-error。时间差分误差根据所述用户对所述物品推荐排序的反馈结果得到的t时刻奖励和根据所述用户的t时刻状态得到的预期奖励确定。

步骤705，根据各经验的时间差分误差获取各经验的优先级。

示例性的，在经验池中，根据TD-error大小设置优先级，并进行排序。

步骤706，根据各经验的优先级采样获取经验集。

示例性的，根据优先级的排序结果，采样获取经验集。

步骤707，经验集获取更新后的策略网络。

示例性的，采样经验池数据训练模型，调整和更新Actor-Critic网络参数，并同步到每个策略函数中，为了进一步增加智能体探索，训练参数可以增加噪音

图8为推荐方法使用Ape-x的训练流程，各用户产生的环境状态输入到各策略网络中，根据策略网络得到物品推荐排序，用户对物品推荐排序进行反馈，得到反馈结果，根据反馈结果生成经验，存储到各个策略函数的经验池，然后将经验池的经验汇总到全局经验池，按照排序权重，即优先级，从全局经验池中采样经验训练Actor-Critic网络并同步更新到每个策略网络中，作为下一轮文档排序的策略，大幅度提高了探索能力，防止过拟合。

需要说明的是，在用户首次发出搜索请求的时候，无法根据埋点数据获取用户的标签，此时可以给用户提供标签。获取用户设置标签，当用户进行搜索的时候，计算用户标签和物品标签的匹配度，来给用户生成物品推荐排序。可以根据这种方法对策略网络初始化，对于未策略网络未开始训练，默认物品初始排序一致，此时排序顺序只与用户标签和物品标签匹配度有关。

本实施例根据用户对所述物品推荐排序的反馈结果得到的t时刻奖励和根据所述用户的t时刻状态得到的预期奖励得到TD_error，以此得到优先级，根据优先级获取经验集，更新策略网络，增强了策略网络的训练效率，使得策略网络的参数能够快速收敛。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种推荐装置，包括：物品推荐排序生成模块901，用于响应t时刻用户请求，根据策略网络为用户生成物品推荐排序；经验获取模块902，用于根据用户对所述物品推荐排序的反馈结果获取t时刻的经验；经验池获取模块903，用于将各用户所述t时刻的经验汇总到全局经验池；策略网络更新模块904，用于根据所述全局经验池中的经验获取更新后的策略网络。

在一个例子中，经验获取模块902中经验包括：t时刻的状态，t时刻物品初始得分，t时刻奖励，t+1时刻的状态；其中，所述t时刻物品初始得分根据所述t时刻的状态和所述策略网络获取得到；所述t时刻奖励根据所述用户对所述物品推荐排序的反馈结果获取得到。

在一个例子中，物品推荐排序生成模块901进一步用于获取所述用户的t时刻的状态；根据所述t时刻的状态和所述策略网络获取所述t时刻物品初始得分向量；根据所述用户和所述物品的匹配度获取所述物品的权重；根据所述t时刻物品初始得分和所述物品的权重生成物品推荐排序。

在一个例子中，经验获取模块902进一步用于根据所述一次点击、所述二次点击和所述预设函数获取t时刻奖励，其中，所述预设函数的自变量为所述物品所在推荐页面中的页数，所述预设函数表示t时刻奖励随所述推荐页面中的页数变化的趋势，反馈结果包括：一次点击、二次点击和物品所在推荐页面中的页数。

在一个例子中，经验获取模块902进一步用于根据所述实体特征向量获取所述t时刻的所述用户特征向量，所述物品特征向量，所述用户上下文特征向量，所述实体特征向量根据知识图谱和知识图谱嵌入模型获取实体特征向量，所述知识图谱根据用户信息和物品信息获取。

在一个例子中，策略网络更新模块904进一步用于从全局经验池中采样获取经验集，根据经验集获取更新后的策略网络。

在一个例子中，策略网络更新模块904进一步用于获取所述全局经验池中各经验的时间差分误差；根据所述各经验的时间差分误差获取所述各经验的优先级；根据所述各经验的优先级采样获取经验集；其中，所述时间差分误差根据所述用户对所述物品推荐排序的反馈结果得到的t时刻奖励和根据所述用户的t时刻状态得到的预期奖励确定。

不难发现，本实施方式为与第一实施方式相对应的系统实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第四实施方式涉及一种电子设备，如图10所示，包括至少一个处理器1001；以及，与所述至少一个处理器通信连接的存储器1002；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的推荐方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种推荐方法，其特征在于，包括：

响应t时刻用户请求，根据策略网络为用户生成物品推荐排序；

根据用户对所述物品推荐排序的反馈结果获取t时刻的经验；

将各用户的所述t时刻的经验汇总到全局经验池；

根据所述全局经验池中的经验获取更新后的策略网络。

2.根据权利要求1所述的推荐方法，其特征在于，所述经验包括：t时刻的状态，t时刻物品初始得分，t时刻奖励，t+1时刻的状态；

其中，所述t时刻物品初始得分根据所述t时刻的状态和所述策略网络获取得到；所述t时刻奖励根据所述用户对所述物品推荐排序的反馈结果获取得到。

3.根据权利要求2所述的推荐方法，其特征在于，所述响应t时刻用户请求，根据策略网络为用户生成物品推荐排序，包括：

获取所述用户的t时刻的状态；

根据所述t时刻的状态和所述策略网络获取所述t时刻物品初始得分向量；

根据所述用户和所述物品的匹配度获取所述物品的权重；

根据所述t时刻物品初始得分和所述物品的权重生成物品推荐排序。

4.根据权利要求2所述的推荐方法，其特征在于，所述反馈结果包括：一次点击、二次点击和所述物品所在推荐页面中的页数；

所述t时刻奖励根据所述用户对所述物品推荐排序的反馈结果获取得到，包括：

根据所述一次点击、所述二次点击和所述预设函数获取t时刻奖励，其中，所述预设函数的自变量为所述物品所在推荐页面中的页数，所述预设函数表示t时刻奖励随所述推荐页面中的页数变化的趋势。

5.根据权利要求3所述的推荐方法，其特征在于，所述响应t时刻用户请求，根据策略网络为用户生成物品推荐排序之前，还包括：

根据知识图谱和知识图谱嵌入模型获取实体特征向量，其中，所述知识图谱根据用户信息和物品信息获取；

所述用户的t时刻的状态包括：用户特征向量，物品特征向量，用户上下文特征向量；

所述获取所述用户的t时刻的状态，包括：

根据所述实体特征向量获取所述t时刻的所述用户特征向量，所述物品特征向量，所述用户上下文特征向量。

6.根据权利要求1至5任一项所述的推荐方法，其特征在于，所述根据所述全局经验池中的经验获取更新后的策略网络：

从全局经验池中采样获取经验集；

根据所述经验集获取更新后的策略网络。

7.根据权利要求6所述的推荐方法，其特征在于，所述从所述全局经验池中采样获取经验集，包括：

获取所述全局经验池中各经验的时间差分误差；

根据所述各经验的时间差分误差获取所述各经验的优先级；

根据所述各经验的优先级采样获取经验集；

其中，所述时间差分误差根据所述用户对所述物品推荐排序的反馈结果得到的t时刻奖励和根据所述用户的t时刻状态得到的预期奖励确定。

8.一种推荐装置，其特征在于，包括：

物品推荐排序生成模块，用于响应t时刻用户请求，根据策略网络为用户生成物品推荐排序；

经验获取模块，用于根据用户对所述物品推荐排序的反馈结果获取t时刻的经验；

经验池获取模块，用于将各用户所述t时刻的经验汇总到全局经验池；

策略网络更新模块，用于根据所述全局经验池中的经验获取更新后的策略网络。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的推荐方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的推荐方法。