CN113449183A

CN113449183A - 基于离线用户环境和动态奖励的交互式推荐方法和系统

Info

Publication number: CN113449183A
Application number: CN202110680280.5A
Authority: CN
Inventors: 李玉华; 饶超; 李瑞轩; 辜希武
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-09-28
Anticipated expiration: 2041-06-18
Also published as: CN113449183B

Abstract

本发明公开了基于离线用户环境和动态奖励的交互式推荐方法和系统，属于交互式推荐技术领域。包括：构建离线用户环境，将其作为强化学习的环境，构建演员‑评论家架构的推荐智能体，将其作为强化学习的智能体；推荐智能体与离线用户环境不断进行交互自主学习，以期望在不断学习过程中获得最大化的累积奖励，得到学习好的推荐智能体，将待推荐用户的状态输入至学习好的推荐智能体，得到推荐项目列表。本发明通过构建并训练一个离线用户环境，捕获用户的兴趣偏好，模拟用户的行为(选择奖励最大的项目)，完成环境的状态转移。本发明通过构建离线用户环境学习用户的奖励函数，根据用户的动态兴趣偏好动态调整奖励反馈，从而提高智能体学习效果。

Description

基于离线用户环境和动态奖励的交互式推荐方法和系统

技术领域

本发明属于交互式推荐技术领域，更具体地，涉及基于离线用户环境和动态奖励的交互式推荐方法和系统。

背景技术

推荐系统是一种解决信息过载问题的技术，使用户在海量信息中找到符合自己兴趣的信息，使商家能根据用户的兴趣给用户提供个性化服务，获得一个双赢的结果。传统的推荐系统采用协同过滤和基于内容的推荐方法，广泛运用在各个实际的商业应用中。随着深度学习的发展，深度神经网络强大的特征提取与表示能力被结合到推荐系统中，使得推荐系统得到进一步发展。然而，随着移动互联网的发展，抖音、Pandora广播和InstagramFeed等移动应用程序广泛占据市场，交互式推荐系统也受到越来越多的关注。传统的推荐算法具有静态特点，仅关注用户的即时反馈，比如希望用户尽快下单；而交互式推荐系统注重长期收益，希望用户在系统中停留的时间尽可能长，即应用的使用时间尽可能长，因此，传统推荐算法不适用于交互式推荐场景。

强化学习是一种依靠智能体不断与环境进行交互，依靠环境的奖励反馈进行策略调整，训练出完成特定任务的智能体的机器学习技术。推荐问题可以看作是强化学习问题的特殊实例，由此用户是智能体在其上行动的环境，推荐系统在该环境上作用以接收奖励，例如用户的点击或参与。传统的推荐系统通常关注于预测用户在特定时间点的兴趣，通常是下一个时刻，而基于强化学习的推荐系统的目标是在长期内最大限度地提高用户的参与度和满意度，即增加用户与系统的交互时间，这与交互式推荐系统希望增加用户与系统的交互次数，延长用户的使用时间的目标不谋而合。因此，强化学习技术十分适用于交互式推荐系统。

基于强化学习的推荐系统面临如下挑战：环境对应于登录的在线用户，驱动用户行为的用户兴趣(奖励函数)通常是未知的，但这对于强化学习算法的使用相当重要；在现有的强化学习推荐系统中，奖励函数被手动设计(例如点击奖励为1，不点击奖励为-1)，不能反映用户对不同项目的偏好；无模型的强化学习算法通常需要与环境进行大量交互以学习一个好的策略，这在推荐系统中是不切实际的，如果推荐项目看起来是随机而不符合兴趣的，在线用户会很快放弃使用服务；强化学习推荐系统面临“灾难性遗忘”和Q值高估等问题，从而影响推荐的有效性。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了基于离线用户环境和动态奖励的交互式推荐方法和系统，其目的在于提高强化学习推荐系统的推荐效果

为实现上述目的，按照本发明的第一方面，提供了一种基于离线用户环境和动态奖励的交互式推荐方法，该方法包括：

准备阶段：

一、构建离线用户环境，将其作为强化学习的环境

S1.构建用户模型，所述用户模型包括：GRU和前馈神经网络，所述GRU用于从用户t时刻之前的历史项目记录中提取到用户t时刻的状态h_t-1；所述前馈神经网络，用于根据用户t时刻的状态h_t-1和用户t时刻被推荐的项目列表a_t，计算出用户t时刻被推荐的项目列表中各项目的奖励；

S2.利用生成对抗网络的思想构建损失函数，使得用户真实项目记录的奖励尽可能大，虚假项目记录的奖励尽可能小；

S3.使用用户历史项目记录数据集训练用户模型，使得损失函数值尽可能小，得到训练好的用户模型，将其作为离线用户环境；

二、构建演员-评论家架构的推荐智能体，将其作为强化学习的智能体；

三、推荐智能体与离线用户环境不断进行交互自主学习，以期望在不断学习过程中获得最大化的累积奖励，得到学习好的推荐智能体；所述交互自主学习包含：推荐智能体观察离线用户环境的状态，并根据状态生成动作用于离线用户环境，所述动作为生成推荐项目列表；离线用户环境在推荐智能体生成的推荐项目列表作用下产生状态转变，同时给出动态奖励作为反馈；推荐智能体根据反馈的奖励调整推荐策略；

应用阶段：

将待推荐用户的状态输入至学习好的推荐智能体，得到推荐项目列表。

优选地，步骤S1中，获取待推荐领域的各用户的历史项目数据，得到项目空间；对于每个用户的历史项目数据，首先按照时间进行升序排序，以步长a、窗口N滑动方式截取该用户历史项目数据，N个项目数据作为用户状态；对于该用户的每个用户状态，将下一个项目作为对应真实目标，从项目空间和该用户的历史项目的差集中，随机选取K-1个项目作为对应虚假目标，K表示推荐列表的长度，真实目标和K-1个虚假目标构成该用户该状态的推荐列表；最终得到该用户的状态集和推荐列表集，所述状态和推荐列表一一对应。

优选地，步骤S2中，给定一个用户行为轨迹

其对应的用户点击项目的特征为

推荐给用户但未被选择的项目记为

离线用户环境的损失函数L(θ)可用公式表示：

其中，r_θ表示奖励函数，θ表示奖励函数中所有参数，s_t表示用户的历史项目记录，

表示用户真实项目记录，

表示用户虚假项目记录。

有益效果：本发明运用了生成对抗网络的思想构建损失函数，对于用户真实选择的项目，其奖励

应尽可能大，则

会尽可能小；用户未选择的项目，其奖励

应尽可能小，则

会尽可能小。通过最小化损失函数L(θ)，可以满足上述要求，从而解得奖励函数。

优选地，所述构建演员-评论家架构的推荐智能体，具体如下：

推荐智能体包括：推荐策略网络和孪生价值网络；

所述推荐策略网络，用于观察离线用户环境状态并生成推荐列表动作，传递给孪生价值网络；

所述孪生价值网络包含：两个结构相同但参数独立初始化和训练的价值网络，用于根据环境状态和推荐动作计算Q值，基于较小的Q值计算时间差分目标，进而分别更新推荐策略网络和孪生价值网络。

有益效果：本发明改进智能体的价值网络，孪生价值网络使用两个结构相同的价值网络，在更新网络时使用其中的较小值作为Q值计算时间差分目标，防止差的动作通过贝尔曼方程传播增强，解决了高估值偏差，提高推荐性能。

优选地，推荐策略网络与离线用户环境不断进行交互从而探索策略，并将交互记录{<s_i,a_i,r_i,s_i+1>}顺序存储在经验池中，s_i表示i时刻的环境状态，a_i表示根据状态s_i采取的动作，r_i表示动作a_i的奖励，s_i+1表示由于动作a_i的执行环境从s_i转移到的下一个状态，然后在网络更新时从经验池随机均匀采样，得到采样结果<s,a,r,s′>，输入到推荐策略网络和孪生价值网络中。

有益效果：本发明在网络更新时从经验池采样进行经验重放，具有以下优点：当实际经验获取十分昂贵时，在许多更新中重用每个状态转换可以有效地利用以前的经验，提高数据使用效率；采集的连续数据之间存在着关联性，顺序使用它们进行训练会使网络表现不稳定，经验重放机制可以打破这种相关性，在批处理中使用不相关的状态转换来提高稳定性。

优选地，s作为策略网络和两个价值网络的输入，更新后的策略网络根据s计算出新的动作a作为两个价值网络的输入，价值网络根据输入s和a分别计算出值q₁和q₂，策略网络根据q₁利用反向传播进行优化更新；

s′作为目标策略网络和两个目标价值网络的输入，更新后的目标策略网络根据s′计算出新的动作a′，并利用目标策略平滑正则化加上噪声，作为两个目标价值网络的输入，目标价值网络根据输入s′和a′分别计算出值q₁′和q₂′，取q₁′和q₂′的较小值作为q′，将q′与奖励r计算得到目标值q_target＝r+γ*q′，γ表示折扣系数；

q_target与q₁和q₂分别进行均方误差计算得到优化目标，分别对它们进行反向传播以更新价值两个价值网络，目标价值网络和目标策略网络的参数使用原网络的参数软更新实现。

有益效果：目标网络是将稳定性引入智能体训练的一个很好的工具，但是在演员-评论家架构下，该技术存在一些问题。这是策略网络和价值网络相互作用的结果。当一项糟糕的策略被高估时，对智能体的训练就会发散。智能体的策略将继续变得更糟，因为它正在更新有很多错误的状态。为了解决这个问题，需要让策略网络的更新频率低于价值网络的更新频率。这样可以使价值网络在用于更新策略网络之前变得更加稳定，减少误差。

确定性策略方法在更新价值网络时倾向于产生具有高方差的目标值。这是由于对值估计中的峰值过拟合造成的。为了减少这种差异，本发明使用目标策略平滑正则化技术。

优选地，推荐策略网络将每个项目作为节点，边表示两个节点是否同属某一分类，得到项目图；利用GCN提取项目图中节点的特征，将用户状态中项目特征与对应项目图中节点特征连接形成新状态，输入至推荐策略网络，利用循环神经网络提取特征后经深度神经网络计算评分函数的权重，权重与项目特征空间相乘得到评分，将得分最高的k个项目作为推荐动作。

有益效果：本发明利用GCN从项目图中提取状态对应节点的特征，与原状态连接形成新状态，根据新状态学习用户兴趣分布，生成符合用户偏好的项目，同时构建一个经验池，采用经验重放机制，提高数据的利用效率并消除数据间的相关性。

为实现上述目的，按照本发明的第二方面，提供了一种基于离线用户环境和动态奖励的交互式推荐系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行第一方面所述的基于离线用户环境和动态奖励的交互式推荐方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

本发明通过构建并训练一个离线用户环境，捕获用户的兴趣偏好，模拟用户的行为(选择奖励最大的项目)，完成环境的状态转移。本发明通过构建离线用户环境学习用户的奖励函数，根据用户的动态兴趣偏好动态调整奖励反馈，从而提高智能体学习效果。

附图说明

图1为本发明提供的一种基于离线用户环境和动态奖励的交互式推荐系统的总体框架；

图2为本发明提供的一种离线用户环境构建示意图；

图3为本发明提供的一种推荐策略网络构建示意图；

图4为本发明提供的推荐列表生成伪代码示意图；

图5为本发明提供的一种孪生价值网络构建示意图；

图6为本发明提供的推荐智能体的训练过程；

图7为本发明提供的一种经验池构建示意图；

图8为本发明提供的推荐智能体参数训练伪代码示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提出了一种基于离线用户环境和动态奖励的交互式推荐系统，该推荐系统的整体流程包括：模型训练阶段、项目推荐阶段；

模型训练阶段包括：

(S1)数据收集与预处理

通过对比各公开推荐系统数据集，本实施选择使用MovieLens 100k数据集，并利用词嵌入技术将项目用向量表示。然后对数据集按用户进行处理，将用户真实历史记录按时间排序得到记录序列

对每一个真实项目

从项目集合与用户记录的差集中随机选择若干个项目与之组成一个列表

并将列表洗牌，所有列表按

的时间顺序排列组成用户历史记录，由所有用户的历史记录构成可用数据集，并将所述数据集划分为训练集、验证集和测试集

(S2)离线用户环境构建

离线用户环境基于以下假设：1)用户在推荐交互中是积极的，每次都会选择最符合自己兴趣的项目，即使用户未做选择，也可看做用户选择了一个特殊的项目，该项目代表不选择任何项目最符合自身兴趣。2)奖励不仅与用户选择的项目有关，还与用户的历史记录有关。例如，用户可能一开始对周杰伦的歌不感兴趣，但一旦他碰巧听了这首歌，他可能会喜欢这首歌，然后对他的其他歌曲感兴趣。此外，用户在反复听周杰伦的歌后可能会感到无聊。换句话说，用户对项目的评价根据其个人经历而有所不同。

离线用户环境构建示意图如图2所示，其输入为用户在时刻t的状态s_t以及用户在时刻t的行为

表示为用户在时刻t之前点击的m个项目历史序列的嵌入特征，即f_i ^*是

的特征，

是用户在时刻t点击的项目，其嵌入特征为f_i ^t。通过GRU提取用户状态s_t的特征h_t-1，并将其与用户在时刻t点击的项目特征f_i ^t连接作为前馈神经网络的输入，输出为用户对该推荐项目的奖励反馈

该过程可参数化为公式(1)所示的奖励函数：

其中

是权重矩阵，

是偏差向量，

是最终回归参数，f是提取的用户状态特征向量的维数，d是项目的嵌入特征向量的维数，l是回归参数的维数。

基于用户会选择最符合自己兴趣的项目的假设，在t时刻，用户会在a_t中选择使奖励

最大的项目

用户行为模型可参数化为公式(2)：

给定一个用户行为轨迹

其对应的用户点击项目的特征为

推荐给用户但未被选择的项目记为

离线用户环境的损失函数L(θ)可表示为公式(3)：

该损失函数运用了生成对抗网络的思想，对于用户真实选择的项目，其奖励

应尽可能大，则

会尽可能小；用户未选择的项目，其奖励

应尽可能小，则

会尽可能小。通过最小化损失函数L(θ)，可以满足上述要求，从而解得奖励函数和行为函数。

(S3)推荐策略网络构建

推荐策略网络构建示意图如图3所示，策略网络构建了一个项目图，将所有项目作为节点，边代表两个项目是否同属某一分类，利用GCN从项目图中提取节点特征，如公式(4)所示：

其中X是节点特征矩阵，A是节点邻接矩阵；

I是单位矩阵；

是

的度矩阵，公式为

W是权重。

同时，推荐策略网络将

与

连接得到新状态

其中s_t为t时刻之前被点击或订购的n个项目的特征，z_t为这n个项目对应的节点特征。推荐策略网络使用一个特定于状态的评分函数，它根据新状态对项目进行评分，将新状态

映射成一个权重向量

如公式(5)所示：

其中

是参数为θ^π的函数，将状态空间映射到权重表示空间。本发明使用深度神经网络作为参数生成函数。在不丧失一般性的前提下，本发明假设评分函数参数w_t与项目空间I中第i个项目的嵌入e_i是线性相关的，如公式(6)所示：

在计算所有项目的得分后，推荐智能体选择得分最高的k个项目作为推荐动作

整个过程如图4所示。

(S4)孪生价值网络构建

孪生价值网络构建示意图如图5所示，它的目的是利用一个近似器学习动作-价值函数Q(s_t,a_t)，进而判断策略网络产生的动作a_t是否匹配当前的状态s_t。在真实的推荐系统中，状态和动作空间都是巨大的，因此为每一个状态-动作对建立动作-价值函数Q(s,a)是不可行的。此外，许多状态-动作对可能不会出现在真实的轨迹中，因此很难更新它们的值。因此，使用近似函数

来估计动作-价值函数更为灵活和实用。在实践中，动作-价值函数通常是高度非线性的。而深度神经网络被认为是优秀的非线性函数近似器。本发明将参数为θ^μ的神经网络函数近似器称为深度Q网络(DQN)。一个深度Q网络可以通过公式(7)所示的最小化损失函数序列L(θ^μ)训练出来：

其中

是当前迭代的目标。在优化损失函数L(θ^μ)时，前一次迭代的参数θ_μ′是固定的。

使用单个价值网络存在Q值高估问题，对较差的动作给出较高的Q值，使得该动作通过贝尔曼方程强化，影响模型效果。本发明使用孪生价值网络，即使用两个完全相同的价值网络，它们的参数相互独立，各自初始化和更新，取其中较小值作为损失函数中的Q值，从而损失函数变为公式(8)所示的

时间差分目标相应变为

损失函数

计算中，贝尔曼方程通过Q(s_t+1,a_t+1)提供Q(s_t,a_t)的值，然而s_t+1与s_t只相差一步，当更新神经网络的参数使Q(s_t,a_t)更接近预期结果时，会间接地改变Q(s_t+1,a_t+1)和附近其他状态产生的值，这会使训练十分不稳定。本发明使用目标网络机制，保留一份神经网络的副本，用它来计算贝尔曼方程中的Q(s_t+1,a_t+1)，利用目标网络的Q值来训练主网络，提高训练的稳定性。若目标网络参数为θ′，主网络参数为θ，目标网络参数更新方式为θ′←τθ+(1-τ)θ′。

确定性策略方法在更新价值网络时倾向于产生具有高方差的目标值，这是由于对值估计中的峰值过拟合造成的。为了减少这种差异，本发明使用目标策略平滑正则化技术。理想情况下，目标值之间不存在差异，类似的操作接收类似的值。本发明通过向目标添加少量的随机噪声并对小批量进行平均来减少这种差异，如公式(9)所示：

(S5)模型训练

本发明中推荐智能体训练示意图如图6所示，训练过程可分为策略探索阶段和网络更新阶段。

策略探索阶段中，将离线用户环境作为训练环境，策略网络观察用户环境t时刻的状态s_t并作为输入，输出推荐动作a_t，用户环境从a_t中选择符合自己兴趣的项目

状态由s_t转变为s_t+1，并给出奖励反馈r_t。策略网络根据新的状态s_t+1产生新的推荐动作，如此循环往复进行策略探索。

策略探索的交互记录作为经验存储在经验池中，经验池示意图如图7所示，其容量为n，基本单元是一个四元组，以t时刻的四元组<s_t,a_t,r_t,s_t+1>为例，s_t是t时刻的环境状态，a_t为根据状态s_t采取的动作，r_t是对动作a_t的奖励，s_t+1是由于动作a_t的执行环境从s_t转移到的下一个状态。经验池中的记录按顺序存储，当记录数量达到经验池的容量n时，新的记录又从头开始存储，形成一个循环。

网络更新阶段中，不再需要策略网络与用户环境交互，而是从经验池中均匀随机采样进行经验重放。对于经验池中的记录<s,a,r,s′>，s作为策略网络和两个价值网络的输入，更新后的策略网络根据s计算出新的动作a作为两个价值网络的输入，价值网络根据输入s和a分别计算出值q₁和q₂。策略网络根据q₁利用反向传播进行优化更新。s′作为目标策略网络和两个目标价值网络的输入，更新后的目标策略网络根据s′计算出新的动作a′，并利用目标策略平滑正则化加上噪声，作为两个目标价值网络的输入，目标价值网络根据输入s′和a′分别计算出值q′₁和q′₂。取q′₁和q′₂的较小值作为q′，即q′＝min(q′₁,q′₂)，将q′与奖励r计算得到目标值q_target＝r+γ*q′，q_target与q₁和q₂分别进行均方误差计算得到优化目标TD-error₁和TD-error₂，分别对它们进行反向传播以更新价值网络1和价值网络2。三个目标网络的参数则使用原网络的参数软更新实现。完整的训练过程如图8所示。

项目推荐阶段包括：

构建项目图并提取节点特征，获取用户的历史记录，将用户历史记录的特征以及对应项目图中节点的特征作为推荐策略网络的输入，生成推荐列表，根据用户的选择和奖励反馈，利用孪生价值网络调整策略，再次进行推荐，直至用户结束服务。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于离线用户环境和动态奖励的交互式推荐方法，其特征在于，该方法包括：

准备阶段：

一、构建离线用户环境，将其作为强化学习的环境

应用阶段：

2.如权利要求1所述的方法，其特征在于，步骤S1中，获取待推荐领域的各用户的历史项目数据，得到项目空间；对于每个用户的历史项目数据，首先按照时间进行升序排序，以步长a、窗口N滑动方式截取该用户历史项目数据，N个项目数据作为用户状态；对于该用户的每个用户状态，将下一个项目作为对应真实目标，从项目空间和该用户的历史项目的差集中，随机选取K-1个项目作为对应虚假目标，K表示推荐列表的长度，真实目标和K-1个虚假目标构成该用户该状态的推荐列表；最终得到该用户的状态集和推荐列表集，所述状态和推荐列表一一对应。

3.如权利要求1所述的方法，其特征在于，步骤S2中，给定一个用户行为轨迹

其对应的用户点击项目的特征为

推荐给用户但未被选择的项目记为

离线用户环境的损失函数L(θ)可用公式表示：

表示用户真实项目记录，

表示用户虚假项目记录。

4.如权利要求1所述的方法，其特征在于，所述构建演员-评论家架构的推荐智能体，具体如下：

推荐智能体包括：推荐策略网络和孪生价值网络；

5.如权利要求4所述的方法，其特征在于，推荐策略网络与离线用户环境不断进行交互从而探索策略，并将交互记录{<s_i,a_i,r_i,s_i+1>}顺序存储在经验池中，s_i表示i时刻的环境状态，a_i表示根据状态s_i采取的动作，r_i表示动作a_i的奖励，s_i+1表示由于动作a_i的执行环境从s_i转移到的下一个状态，然后在网络更新时从经验池随机均匀采样，得到采样结果<s,a,r,s′>，输入到推荐策略网络和孪生价值网络中。

6.如权利要求5所述的方法，其特征在于，s作为策略网络和两个价值网络的输入，更新后的策略网络根据s计算出新的动作a作为两个价值网络的输入，价值网络根据输入s和a分别计算出值q₁和q₂，策略网络根据q₁利用反向传播进行优化更新；

7.如权利要求4至6任一项所述的方法，其特征在于，推荐策略网络将每个项目作为节点，边表示两个节点是否同属某一分类，得到项目图；利用GCN提取项目图中节点的特征，将用户状态中项目特征与对应项目图中节点特征连接形成新状态，输入至推荐策略网络，利用循环神经网络提取特征后经深度神经网络计算评分函数的权重，权重与项目特征空间相乘得到评分，将得分最高的k个项目作为推荐动作。

8.一种基于离线用户环境和动态奖励的交互式推荐系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1至7任一项所述的基于离线用户环境和动态奖励的交互式推荐方法。