CN112307214A

CN112307214A - 一种基于深度强化学习的推荐方法及推荐装置

Info

Publication number: CN112307214A
Application number: CN201910683178.3A
Authority: CN
Inventors: 丁磊; 童毅轩; 董滨; 姜珊珊; 张永伟
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2021-02-02
Also published as: US20210027178A1

Abstract

本发明提供了一种基于深度强化学习的推荐方法及推荐装置。本发明实施例提供的基于深度强化学习的推荐方法及推荐装置，在推荐模型上线之前，利用产品知识图谱和用户历史浏览行为对推荐模型进行离线状态下的预训练，使得在上行初始阶段推荐模型即可达到较好的推荐效果，提升了推荐模型的推荐性能，满足了用户需求。

Description

一种基于深度强化学习的推荐方法及推荐装置

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于深度强化学习的推荐方法及推荐装置。

背景技术

近年来，随着推荐算法的迅速发展，推荐系统已经广泛应用在各种业务场景中，例如，应用于搜索引擎中，根据用户输入给出相关内容，又例如，应用于电商网站中，向用户推荐其感兴趣的产品等。

传统的推荐算法根据用户历史行为，分析用户兴趣，进而推荐相关产品。发明人发现，传统的推荐算法无法对用户的实时反馈做出反应，而基于深度强化学习的推荐算法克服了以上问题。发明人发现，现有的基于深度强化学习的推荐系统在初始上线阶段的推荐效果通常不够好，难以满足用户需求。

发明内容

本发明实施例要解决的技术问题是提供一种基于深度强化学习的推荐方法及推荐装置，提升推荐模型的推荐效果。

为解决上述技术问题，本发明实施例提供的基于深度强化学习的推荐方法，包括：

基于产品知识图谱，生成产品的实体语义信息表示向量；

基于用户对产品的历史浏览行为，生成产品的浏览上下文信息表示向量；

合并所述产品的实体语义信息表示向量和浏览上下文信息表示向量，获得所述产品的向量；

构建基于深度强化学习的推荐模型，利用用户历史行为数据对基于深度强化学习的推荐模型进行离线训练，得到离线训练后的推荐模型，其中，所述用户历史行为数据中的产品通过所述产品的向量进行表示；

利用离线训练后的所述推荐模型进行在线产品推荐。

此外，根据本发明的至少一个实施例，基于产品知识图谱，生成产品的实体语义信息表示向量的步骤，包括：

根据实体拓扑关系的三元组，构建第一函数J_TE，所述第一函数J_TE用于计算基于第一三元组的第二函数与基于第二三元组的所述第二函数之间的差值之和，所述第一三元组为所述产品知识图谱中存在的实体拓扑关系三元组，所述第二三元组为所述产品知识图谱中不存在的实体拓扑关系三元组；

根据实体属性的三元组，构建第三函数J_AE，所述第三函数J_AE用于计算基于第三三元组的所述第二函数与基于第四三元组的所述第二函数之间的差值，所述第三三元组为所述产品知识图谱中存在的实体属性三元组，所述第四三元组为所述产品知识图谱中不存在的实体属性三元组；

将所述第一函数和第三函数的和值作为目标函数，通过优化所述目标函数，获得所述产品知识图谱中的各个实体、关系以及属性的向量表示，得到所述产品的语义信息表示向量。

此外，根据本发明的至少一个实施例，所述第二函数为第一向量与第二向量的函数，且所述第二函数的取值与所述第一向量和第二向量之间的距离正相关或负相关，所述第一向量为对应三元组中前两个元素的向量表示之和，所述第二向量为对应三元组中的最后一个元素的向量表示。

此外，根据本发明的至少一个实施例，所述实体属性的三元组中的最后一个元素为属性值，所述属性值的向量是将所述属性值作为字符序列输入至长短期记忆模型LSTM模型后所得到的最后一个隐藏状态。

此外，根据本发明的至少一个实施例，基于用户对产品的历史浏览行为，生成产品的浏览上下文信息表示向量的步骤，包括：

将所述历史浏览行为中的各个产品组成的产品序列，输入至字符到向量Word2vec模型，获得所述产品的浏览上下文信息表示向量。

此外，根据本发明的至少一个实施例，合并所述产品的实体语义信息表示向量和浏览上下文信息表示向量的步骤，包括：

对所述产品的实体语义信息表示向量和浏览上下文信息表示向量进行拼接，得到所述产品的向量表示。

此外，根据本发明的至少一个实施例，构建基于深度强化学习的推荐模型，利用用户历史行为数据对基于深度强化学习的推荐模型进行离线训练的步骤，包括：

构建并初始化基于深度强化学习的推荐模型和推荐结果判别模型；

利用用户历史行为数据对所述推荐模型和推荐结果判别模型进行离线训练，其中，所述推荐结果判别模型用于对所述推荐模型的推荐结果进行评价，并将评价反馈至所述推荐模型；所述推荐模型根据所述评价结果更新模型参数。

此外，根据本发明的至少一个实施例，在利用离线训练后的所述推荐模型进行在线产品推荐之后，所述方法还包括：根据用户对推荐结果的反馈，对所述推荐模型进行更新。

根据本发明实施例的另一方面，还提供了一种基于深度强化学习的推荐装置，包括：

第一生成单元，用于基于产品知识图谱，生成产品的实体语义信息表示向量；

第二生成单元，基于用户对产品的历史浏览行为，生成产品的浏览上下文信息表示向量；

向量合并单元，用于合并所述产品的实体语义信息表示向量和浏览上下文信息表示向量，获得所述产品的向量；

离线训练单元，构建基于深度强化学习的推荐模型，利用用户历史行为数据对基于深度强化学习的推荐模型进行离线训练，得到离线训练后的推荐模型，其中，所述用户历史行为数据中的产品通过所述产品的向量进行表示；

在线推荐单元，用于利用离线训练后的所述推荐模型进行在线产品推荐，并根据用户对推荐结果的反馈，对所述推荐模型进行更新。

此外，根据本发明的至少一个实施例，所述第一生成单元，还用于：

此外，根据本发明的至少一个实施例，所述离线训练单元，还用于构建并初始化基于深度强化学习的推荐模型和推荐结果判别模型；以及，利用用户历史行为数据对所述推荐模型和推荐结果判别模型进行离线训练，其中，所述推荐结果判别模型用于对所述推荐模型的推荐结果进行评价，并将评价反馈至所述推荐模型；所述推荐模型根据所述评价结果更新模型参数。

此外，根据本发明的至少一个实施例，所述在线推荐单元还用于在利用离线训练后的所述推荐模型进行在线产品推荐之后，根据用户对推荐结果的反馈，对所述推荐模型进行更新。

此外，根据本发明的至少一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于深度强化学习的推荐方法的步骤。

与现有技术相比，本发明实施例提供的基于深度强化学习的推荐方法及推荐装置，在推荐模型上线之前，利用产品知识图谱和用户历史浏览行为对推荐模型进行离线状态下的预训练，使得在上行初始阶段推荐模型即可达到较好的推荐效果，提升了推荐模型的推荐性能，满足了用户需求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的产品知识图谱的一种示例图；

图2为本发明实施例的基于深度强化学习的推荐方法的一种流程示意图；

图3为本发明实施例的生成实体语义信息表示向量的一种流程示意图；

图4为本发明实施例的推荐模型的离线训练的示意图；

图5为本发明实施例的基于深度强化学习的推荐装置的一种结构示意图；

图6为本发明实施例的基于深度强化学习的推荐装置的一种结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明实施例提供的基于深度强化学习的推荐方法，利用产品知识图谱和用户历史浏览行为对推荐模型进行离线状态下的预训练，可以提升推荐模型在上线初始阶段的推荐效果。

知识图谱(Knowledge Graph)通过语义网来描述现实世界中不同信息之间的关系，主要以<实体，关系，实体>和/或<实体，属性，属性值>等三元组作为表达和储存的方式，如：<iPhone6，品牌，苹果>和<iPhone6，价格，4999元>等。其中，<实体，关系，实体>为实体拓扑关系的三元组，该三元组中的首尾两个元素分别为两个实体，中间元素为该两个实体之间的关系。<实体，属性，属性值>为实体属性的三元组，该三元组的三个元素依次为某个实体、该实体的某个属性以及该属性的具体属性值。知识图谱是把不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。本发明实施例中的产品知识图谱包含所需推荐的产品实体与相关产品实体之间的实体拓扑关系的三元组，还包括产品实体的实体属性的三元组。

图1给出了产品实体“iPhone 6”的一个关系网络的示例，其中包括有该产品实体与相关产品实体(如“iPhone 6 plus”、“苹果”等)的实体间拓扑关系(如“同系列”、“品牌”等)，还包括有该产品实体的多种属性(如价格、屏幕尺寸)及其属性值(如“4999元”、“4.7英寸”等)。

请参照图2，给出了本发明实施例提供的基于深度强化学习的推荐方法的一种流程示意图，如图2所示，该推荐方法包括：

步骤201，基于产品知识图谱，生成产品的实体语义信息表示向量。

这里，在生成产品的实体语义信息表示向量时，本发明实施例具体可以包括如图3所示的以下步骤：

步骤2011，根据所需推荐的产品实体的实体拓扑关系的三元组，构建第一函数J_TE。

这里，所述第一函数J_TE用于计算基于第一三元组的第二函数与基于第二三元组的所述第二函数之间的差值之和，所述第一三元组为所述产品知识图谱中存在的实体拓扑关系三元组，所述第二三元组为所述产品知识图谱中不存在的实体拓扑关系三元组。所述第二函数具体可以是第一向量与第二向量的函数，且所述第二函数的取值与所述第一向量和第二向量之间的距离大小呈正相关或负相关的关系，其中，所述第一向量为对应三元组中前两个元素的向量表示之和，所述第二向量为对应三元组中的最后一个元素的向量表示。

例如，在基于第一三元组的第二函数中，所述第一向量为所述第一三元组中前两个元素的向量表示之和，所述第二向量为所述第一三元组中的最后一个元素的向量表示。类似的，在基于第二三元组的第二函数中，所述第一向量为所述第二三元组中前两个元素的向量表示之和，所述第二向量则为所述第二三元组中的最后一个元素的向量表示。

本发明实施例中的产品实体的知识图谱中包括有多个实体拓扑关系的三元组，为了构建第一函数，本发明实施例还可以基于知识图谱中已存在的实体拓扑关系的三元组(即第一三元组)，构建与第一三元组的数量大致相同(例如在同一数量级或者比第一三元组的数量高一个数量级)的第二三元组，具体构建方式可以是将第一三元组中的某个元素替换为另一元素，从而得到第二三元组，且使得构建得到的第二三元组为所述知识图谱中并不存在的三元组。

以下给出了以上各个函数的一个示例，需要说明的是，以下示例仅为本发明实施例可以采用的一种实现方式，并不用于限定本发明。

第一函数J_TE：

第二函数f(t)：

f(t)＝||h+r-t||

以上公式中，t_r表示第一三元组，t′_r表示第二三元组，T_r表示知识图谱中存在的第一三元组的集合，T′_r表示所构建的知识图谱中不存在的第二三元组的集合。h、r和t分别表示三元组t中第一个元素、第二个元素和第三个元素的向量表示，第一三元组和第二三元组中的各个元素的向量表示可以通过随机初始化算法生成，并通过后续优化目标函数，获得上述向量表示的最终结果。

本发明实施例可以通过优化目标函数，最终获得上述向量表示的结果。

步骤2012，根据所需推荐的产品实体的实体属性的三元组，构建第三函数J_AE。

这里，所述第三函数J_AE用于计算基于第三三元组的所述第二函数与基于第四三元组的所述第二函数之间的差值，所述第三三元组为所述产品知识图谱中存在的实体属性三元组，所述第四三元组为所述产品知识图谱中不存在的实体属性三元组。

类似的，以下给出第三函数的一个示例：

以上公式中，t_a表示第三三元组，t′_a表示第四三元组，T_a表示知识图谱中存在的第三三元组的集合，T′_a表示所构建的知识图谱中不存在的第四三元组的集合。

这里，需要说明的是，第三三元组和第四三元组中的前两个元素的向量表示可以通过随机初始化算法生成，并通过后续优化目标函数，获得上述向量表示的最终结果。而对于第三三元组和第四三元组中的最后一个元素(即属性值)，为了便于计算，该属性值的向量表示可以通过以下方式生成：将所述属性值作为字符序列，输入至一个长短期记忆模型LSTM模型，将所得到的该LSTM模型的最后一个隐藏状态，作为该属性值的向量表示的初始值，并通过优化下文所述的目标函数训练该LSTM模型。

步骤2013，将所述第一函数和第三函数的和值作为目标函数，通过优化所述目标函数，获得所述产品知识图谱中的各个实体、关系以及属性的向量表示，得到所述产品的语义信息表示向量。

这里，将J＝J_TE+J_AE作为目标函数，通过优化目标函数J，可以获得所述产品知识图谱中的各个实体、关系以及属性的向量表示，由于知识图谱中的实体包括有所需推荐的各个产品，从而可以获得各个产品(如iphone 6)的向量表示，该向量表示本文称之为产品的语义信息表示向量。

步骤202，基于用户对产品的历史浏览行为，生成产品的浏览上下文信息表示向量。

这里，本发明实施例为了进行离线的预训练，需要获取用户对产品的历史浏览行为，具体的，可以将所述历史浏览行为中用户依次浏览的各个产品，按照浏览顺序组成产品序列，将该产品序列输入至字符到向量(Word2vec)模型进行训练，从而可以获得各个产品的向量表示，该向量表示在本文中称之为产品的浏览上下文信息表示向量。

步骤203，合并所述产品的实体语义信息表示向量和浏览上下文信息表示向量，获得所述产品的向量表示。

这里，本发明实施例可以采用向量拼接的方式，将所述产品的实体语义信息表示向量和浏览上下文信息表示向量首尾相连，得到一个更高维度的向量，该向量作为所述产品的向量表示。具体拼接时，可以按照所述产品的实体语义信息表示向量在前，浏览上下文信息表示向量在后的方式进行拼接，也可以按照所述浏览上下文信息表示向量在前，所述产品的实体语义信息表示向量在后的方式进行拼接，本发明实施例对此不做具体限定。

步骤204，构建基于深度强化学习的推荐模型，利用用户历史行为数据对基于深度强化学习的推荐模型进行离线训练，得到离线训练后的推荐模型，其中，所述用户历史行为数据中的产品通过所述产品的向量进行表示。

通过步骤201～203，本发明实施例获得了产品知识图谱中的各个产品的向量，然后，本发明实施例可以构建并随机初始化如图4所示的基于深度强化学习的推荐模型和推荐结果判别模型，并利用用户历史行为数据对所述推荐模型和推荐结果判别模型进行离线方式的协同训练，依次迭代训练上述两个模型，其中，所述推荐结果判别模型用于对所述推荐模型的推荐结果进行评价，并将评价结果r_t反馈至所述推荐模型；所述推荐模型用于根据所述评价结果更新模型参数。

具体的，基于深度强化学习的推荐模型实现以下功能：根据当前推荐状态，推荐策略和状态转移函数，生成推荐结果；并根据所述推荐结果的反馈，更新推荐状态和推荐策略。所述推荐结果判别模型则给出推荐结果好坏的反馈信息。所述推荐结果判别模型可以是任何独立于上述基于深度强化学习的推荐模型的其他模型，本文提供了如下两种模型形式：

1)根据与历史数据的相似度计算

用户历史行为数据中通常包含如下形式的数据记录：

(s_i，a_i)→r_i

其中，s_i是当前的推荐状态，a_i是执行的推荐结果，r_i从用户获得对所述推荐结果的反馈结果。

所述推荐结果判别模型可以是计算当前的推荐状态和推荐结果，与用户历史行为数据中的数据记录的相似度，从而得到反馈结果。例如，将相似度最高的数据记录的反馈结果作为当前输入的推荐结果的反馈。

2)根据与浏览产品的相关性计算

所述推荐结果判别模型还可以根据当前的推荐结果与用户最近浏览产品的相关性计算得出反馈结果，例如，相关性越高，则反馈结果越优。

以图4所示的模型结构为例，上述模型的训练流程如下：

1)随机初始化

P_φ(s_t，a_t)和f_θ(x)

2)使用用户历史行为数据训练参数

P_φ(s_t，a_t)和f_θ(x)

3)重复以下步骤3a和3b，直至达到预定的收敛条件：

3a)所述推荐模型根据输入的用户历史行为数据生成推荐结果，并根据所述推荐结果判别模型对所述推荐结果的评价反馈，更新所述推荐模型的模型参数；

3b)推荐结果判别模型将所述推荐模型的推荐结果作为正样本，并随机生成负样本，并将新生成的样本(包括正样本和负样本)作为训练集更新推荐结果判别模型的模型参数。

关于推荐模型的训练方式本文不再详细描述，相关细节可以参考现有技术的实现。通过以上离线训练的方式，本发明实施例可以获得离线训练好的基于深度强化学习的推荐模型。

步骤205，利用离线训练后的所述推荐模型进行在线产品推荐。

在本步骤205中，本发明实施例可以利用训练好的基于深度强化学习的推荐模型进行在线产品推荐，由于该推荐模型事先已经经过用户历史行为数据的预训练，因此即使是在初始上线阶段也能够获得较好的推荐结果，提高用户对推荐模型的满意度。

通过以上步骤，本发明实施例可以利用产品知识图谱和用户历史浏览行为对推荐模型进行离线状态下的预训练，使得在上线初始阶段推荐模型即可达到较好的推荐效果，提升了推荐模型的推荐性能，满足了用户需求。

此外，根据本发明的至少一个实施例，在上述步骤205中，本发明实施例还可以根据用户对推荐结果的实时反馈，对所述推荐模型进行在线更新模型参数，进一步提升推荐模型的推荐性能。

基于以上方法，本发明实施例还提供了实施上述方法的装置，请参考图5，本发明实施例提供的基于深度强化学习的推荐装置400，包括：

第一生成单元401，用于基于产品知识图谱，生成产品的实体语义信息表示向量；

第二生成单元402，基于用户对产品的历史浏览行为，生成产品的浏览上下文信息表示向量；

向量合并单元403，用于合并所述产品的实体语义信息表示向量和浏览上下文信息表示向量，获得所述产品的向量；

离线训练单元404，构建基于深度强化学习的推荐模型，利用用户历史行为数据对基于深度强化学习的推荐模型进行离线训练，得到离线训练后的推荐模型，其中，所述用户历史行为数据中的产品通过所述产品的向量进行表示；

在线推荐单元405，用于利用离线训练后的所述推荐模型进行在线产品推荐。

通过以上单元，本发明实施例可以利用产品知识图谱和用户历史浏览行为对推荐模型进行离线状态下的预训练，使得在上线初始阶段推荐模型即可具有较好的推荐效果，提升了推荐模型的推荐性能。

根据本发明的至少一个实施例，所述第一生成单元401，还用于：

根据本发明的至少一个实施例，所述第二函数为第一向量与第二向量的函数，且所述第二函数的取值与所述第一向量和第二向量之间的距离正相关或负相关，所述第一向量为对应三元组中前两个元素的向量表示之和，所述第二向量为对应三元组中的最后一个元素的向量表示。

根据本发明的至少一个实施例，所述实体属性的三元组中的最后一个元素为属性值，所述属性值的向量是将所述属性值作为字符序列输入至长短期记忆模型LSTM模型后所得到的最后一个隐藏状态。

根据本发明的至少一个实施例，所述第二生成单元402，还用于将所述历史浏览行为中的各个产品组成的产品序列，输入至字符到向量Word2vec模型，获得所述产品的浏览上下文信息表示向量。

根据本发明的至少一个实施例，所述向量合并单元403，还用于对所述产品的实体语义信息表示向量和浏览上下文信息表示向量进行拼接，得到所述产品的向量表示。

根据本发明的至少一个实施例，所述离线训练单元404，还用于构建并初始化基于深度强化学习的推荐模型和推荐结果判别模型；以及，利用用户历史行为数据对所述推荐模型和推荐结果判别模型进行离线训练，其中，所述推荐结果判别模型用于对所述推荐模型的推荐结果进行评价，并将评价反馈至所述推荐模型；所述推荐模型根据所述评价结果更新模型参数。

根据本发明的至少一个实施例，所述在线推荐单元405，还用于在利用离线训练后的所述推荐模型进行在线产品推荐之后，根据用户对推荐结果的反馈，对所述推荐模型进行更新。

请参考图6，本发明实施例还提供了基于深度强化学习的推荐装置的一种硬件结构框图，如图6所示，该基于深度强化学习的推荐装置500包括：

处理器502；和

存储器504，在所述存储器504中存储有程序指令，

其中，在所述程序指令被所述处理器运行时，使得所述处理器502执行以下步骤：

基于产品知识图谱，生成产品的实体语义信息表示向量；

利用离线训练后的所述推荐模型进行在线产品推荐。

进一步地，如图6所示，该神经机器翻译模型的训练装置500还可以包括网络接口501、输入设备503、硬盘505、和显示设备506。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是包括任意数量的互联的总线和桥。具体由处理器502代表的一个或者多个中央处理器(CPU)，以及由存储器504代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口501，可以连接至网络(如因特网、局域网等)，从网络中收集产品知识图谱，并可以将收集到的产品知识图谱保存在硬盘505中。

所述输入设备503，可以接收操作人员输入的各种指令，并发送给处理器502以供执行。所述输入设备503可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等)。

所述显示设备506，可以将处理器502执行指令获得的结果进行显示，例如显示推荐结果等。

所述存储器504，用于存储操作系统运行所必须的程序和数据，以及处理器502计算过程中的中间结果等数据，例如，存储产品知识图谱以及用户历史行为数据等。

可以理解，本发明实施例中的存储器504可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器504旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器504存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统5041和应用程序5042。

其中，操作系统5041，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5042，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5042中。

本发明上述实施例揭示的方法可以应用于处理器502中，或者由处理器502实现。处理器502可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器502中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器502可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器504，处理器502读取存储器504中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

优选的，所述程序被处理器502执行时还可实现如下步骤：

优选的，所述第二函数为第一向量与第二向量的函数，且所述第二函数的取值与所述第一向量和第二向量之间的距离正相关或负相关，所述第一向量为对应三元组中前两个元素的向量表示之和，所述第二向量为对应三元组中的最后一个元素的向量表示。

优选的，所述实体属性的三元组中的最后一个元素为属性值，所述属性值的向量是将所述属性值作为字符序列输入至长短期记忆模型LSTM模型后所得到的最后一个隐藏状态。

优选的，所述程序被处理器502执行时还可实现如下步骤：

在利用离线训练后的所述推荐模型进行在线产品推荐之后，根据用户对推荐结果的反馈，对所述推荐模型进行更新。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的基于深度强化学习的推荐方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁盘或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度强化学习的推荐方法，其特征在于，包括：

基于产品知识图谱，生成产品的实体语义信息表示向量；

利用离线训练后的所述推荐模型进行在线产品推荐。

2.如权利要求1所述的方法，其特征在于，基于产品知识图谱，生成产品的实体语义信息表示向量的步骤，包括：

3.如权利要求2所述的方法，其特征在于，

所述第二函数为第一向量与第二向量的函数，且所述第二函数的取值与所述第一向量和第二向量之间的距离正相关或负相关，所述第一向量为对应三元组中前两个元素的向量表示之和，所述第二向量为对应三元组中的最后一个元素的向量表示。

4.如权利要求3所述的方法，其特征在于，所述实体属性的三元组中的最后一个元素为属性值，所述属性值的向量是将所述属性值作为字符序列输入至长短期记忆模型LSTM模型后所得到的最后一个隐藏状态。

5.如权利要求4所述的方法，其特征在于，基于用户对产品的历史浏览行为，生成产品的浏览上下文信息表示向量的步骤，包括：

6.如权利要求4所述的方法，其特征在于，合并所述产品的实体语义信息表示向量和浏览上下文信息表示向量的步骤，包括：

7.如权利要求1至6任一项的所述的方法，其特征在于，构建基于深度强化学习的推荐模型，利用用户历史行为数据对基于深度强化学习的推荐模型进行离线训练的步骤，包括：

8.如权利要求7所述的方法，其特征在于，在利用离线训练后的所述推荐模型进行在线产品推荐之后，所述方法还包括：

根据用户对推荐结果的反馈，对所述推荐模型进行更新。

9.一种基于深度强化学习的推荐装置，其特征在于，包括：

在线推荐单元，用于利用离线训练后的所述推荐模型进行在线产品推荐。

10.如权利要求9所述的推荐装置，其特征在于，

所述第一生成单元，还用于：

11.如权利要求10所述的推荐装置，其特征在于，

12.如权利要求11所述的推荐装置，其特征在于，所述实体属性的三元组中的最后一个元素为属性值，所述属性值的向量是将所述属性值作为字符序列输入至长短期记忆模型LSTM模型后所得到的最后一个隐藏状态。

13.如权利要求9至12任一项所述的推荐装置，其特征在于，

所述离线训练单元，还用于构建并初始化基于深度强化学习的推荐模型和推荐结果判别模型；以及，利用用户历史行为数据对所述推荐模型和推荐结果判别模型进行离线训练，其中，所述推荐结果判别模型用于对所述推荐模型的推荐结果进行评价，并将评价反馈至所述推荐模型；所述推荐模型根据所述评价结果更新模型参数。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的基于深度强化学习的推荐方法的步骤。