CN109978660A

CN109978660A - 一种基于强化学习框架的推荐系统离线训练方法

Info

Publication number: CN109978660A
Application number: CN201910195737.6A
Authority: CN
Inventors: 皮德常; 吴致远; 赵晓东
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-07-05

Abstract

本发明公开一种基于强化学习框架的推荐系统离线训练方法。包括：使用离线训练的方式，通过矩阵分解得到用户和商品的隐向量表示；通过强化学习算法，根据用户兴趣与所推荐商品的差异以及用户的反馈，对用户兴趣进行动态捕捉和更新；为用户维护一个参考向量，用来记录用户在最近一段时间内感兴趣商品的向量表示之和，并以此为依据对商品集合进行过滤，去除与计算长期回报无关的商品，降低计算复杂度，本发明可适用于大规模的基于评分的推荐系统。

Description

一种基于强化学习框架的推荐系统离线训练方法

技术领域

本发明涉及一种基于强化学习框架的推荐系统离线训练方法，是针对推荐系统中用户兴趣动态捕捉以及最大化系统长期收益的方法，属于工程应用和信息科学的交叉学科。

背景技术

随着移动互联网和各种智能设备的快速普及，人们进入了一个信息爆炸的时代。相较于过去信息匮乏的年代，现如今，人们面对各大电商网站上充斥着琳琅满目的商品亦或是视频播放网站上成千上万的电影，反而更加难以抉择。因为可供选择的方案太多，人们往往难以快速找到自己感兴趣的物品，浪费了不必要的时间和精力。为了解决上述信息过载问题，智能化、个性化的推荐系统应运而生。

推荐系统根据用户的兴趣偏好、商品的特征、用户与商品的历史交互过程以及一些附加信息(如时空数据)等，为用户推荐商品。推荐系统一般可以分为(1) 基于内容的推荐系统；(2)基于协同过滤的推荐系统；(3)混合推荐系统。针对推荐系统，国内外学者展开了大量的研究，现在主流方法包括使用矩阵分解学习用户和商品的特征表示，使用RNN等神经网络对用户历史行为进行建模等等。

但是这些方法大多存在如下两点缺陷，(1)大多数传统推荐系统，将推荐过程看作是一个静态的过程，一旦模型训练完成，就不会改变。这种做法忽视了用户兴趣的动态变化。现实生活中，用户的兴趣不仅会随着时间变化，还会受到所推荐内容的影响；2)传统推荐系统只考虑当前利益最大化，而忽视了长期回报。

针对上述的问题，本发明提出一种基于强化学习框架的推荐系统离线训练方法。该方法将推荐系统与用户的交互过程看作是一个动态建模的过程，不仅可以有效地捕捉用户兴趣的动态变化，还可以最大化系统的长期回报并有效地减少计算的复杂度，提高了推荐系统的效率。

发明内容

发明目的：本发明的目的是提供一种基于强化学习框架的推荐系统离线训练方法。(1)通过整合矩阵分解和强化学习，对用户对兴趣进行动态捕捉和建模； (2)通过降低计算复杂度以及采用离线训练的方式，使得本发明可适用于大规模的基于评分的推荐系统。

技术方案：为实现上述目的，本发明使用离线训练的方式，首先通过矩阵分解，得到用户和商品的隐向量表示，并实时捕捉用户兴趣的动态变化，然后使用强化学习的框架，使得推荐系统在与用户的交互过程中不断提升性能，并通过整合用户的历史信息，有效地降低了计算的复杂度。其具体的技术方案包括以下几个步骤：

步骤一：建立用户-商品评分矩阵，使用矩阵分解得到隐向量表示。

(1)根据所有用户的历史记录，建立N行M列的全局评分矩阵(N表示用户总数，M表示商品总数)，矩阵中第i行，第j列的元素r_i，j表示用户u_i对商品v_j的评分；

(2)通过隐语义模型LFM矩阵分解得到用户和商品的隐向量表示；

步骤二：使用深度Q网络DQN算法动态更新用户状态，最大化长期回报。

(1)使用DQN算法，选择相应的商品，最大化长期回报

(2)根据用户反馈，实时捕捉用户的兴趣变化

步骤三：结合用户历史信息，降低计算复杂度。

(1)维护一个长度为l的时间窗口，根据时间窗口中历史信息计算用户i的参考向量e_i

(2)结合参考向量e_i对商品集进行过滤，降低DQN的计算复杂度

有益效果：本发明针对传统的推荐方法无法对用户兴趣进行动态建模以及只考虑短期收益的问题，通过使用矩阵分解和强化学习相结合的方式，实时捕捉用户兴趣的动态变化，不断提升推荐系统的性能，并通过历史信息过滤无用的商品集，从而有效地降低了计算的复杂度。

附图说明

图1用户的状态表示

图2方法流程图

具体实施方式

下面对本发明做进一步描述。

首先使用少量的训练数据，构成用户-商品的评分矩阵矩阵为高维稀疏矩阵，不利于计算，因此使用矩阵分解得到用户和商品的隐矩阵表示(如公式(1) 所示)，分别记做和(其中，N和M分别表示用户数和商品数， k为向量空间的维度)，从而使得用户和商品的表示映射到相同的低维向量空间中。

其中i和j分别表示用户和商品的序号。通过随机梯度下降法(SGD)最小化式(1)中的损失函数，得到用户和商品的最初的隐向量表示U和V。

本发明将用户的兴趣视作一个动态变化的过程。通过计算当前商品的向量表示与用户兴趣的差异，持续更新用户的兴趣表示。简单的方式是直接计算U_i(t)和 V_j(t)在各个维度上的差值，并归一化到区间[-1，1]。

D(U_i(t)，V_j(t))＝scale(U_i(t)-V_j(t)，[-1，1]) (2)

其中，U_i(t)和V_j(t)分别为用户u_i和商品v_j在t时刻的向量表示； D(U_i(t)，V_j(t))是一个k维向量，用来衡量在t时刻，U_i(t)和V_j(t)在各个维度上的差异；scale(x)为归一化函数，即将x的值归一化到[-1，1]。也可以采用其它度量向量相似性的指标。

由于用户的兴趣会随时间变化而变化，但商品的特征一般不会改变。固定商品的向量表示V，在V的基础上增加一个很小的噪声，这样做是为了增加推荐方法的鲁棒性，此外考虑到最初矩阵分解得到的商品向量表示，可能并不能完美地表征商品的所有信息。

从t时刻到t+1时刻(这里的时刻不是具体的时间度量，而是代表更新的周期)，更新用户的兴趣表示。如果从时刻t到时刻t+1，用户u_i对商品v_j的R_i，j发生了变化，则通过最小化式(3)求解参数α，然后将参数α代入式(4)来更新用户状态。

U_i(t+1)＝U_i(t)+αD(U_i(t)，V_j(t)) (4)

其中，S_i(t)表示对于用户u_i，从时刻t到时刻t+1，使R_i，j发生了变化的任意商品v_j的集合，待求解参数α表示更新的幅度。计算得到的U_i(t+1)即为在t+1时刻，用户i的状态表示s(t+1)，噪声noise可以从一个高斯分布中产生。

为了提升推荐系统的性能，本发明在强化学习的框架下考虑交互式推荐系统问题。在t时刻，推荐系统会根据当前用户的状态表示s(t)，按照一定的策略π选择相应的动作a(t)(即推荐相应的商品)，用户根据推荐的商品做出反馈(如评分、点击、购买等)。系统根据用户的反馈获得相应的回报r，并更新用户的状态，得到t+1时刻的状态表示s(t+1)。系统的最终目标是学习到最大化长期累积回报的最优策略。

其中，π^*表示最优策略；r_t表示在t时刻获得的即时回报；参数γ取值范围为(0，1)，用来平衡不同时刻r_t的权重。整个过程可以被看作是一个马尔科夫决策MDP过程。

一个马尔科夫决策过程定义为一个四元组

为状态空间，代表所有用户的状态表示集合。对于一个用户u_i，他的状态表示s_i由三部分组成(如附图1所示)：(1)用户u_i的兴趣向量U_i；(2)用户u_i的参考向量e_i；(3)用户的附加属性信息(如年龄段、职业和地域等)。

为动作空间，代表所有可选动作a的集合。在电商推荐系统中，即为商品集合；在电影推荐系统中即为所有电影的集合；在音乐推荐系统中，即为所有的音乐集合。本发明使用所有商品的向量集合构成动作空间A。推荐系统根据用户状态s选择动作a_i的过程，即为向用户推荐商品V_i的过程；

为状态转移函数，用户的状态会随着时间变化而变化，本发明使用上述公式(3)和(4)表示用户状态由s(t)转移到s(t+1)的过程；

为回报函数，代表所有r(s，a)的集合。r(s，a)表示在状态为s时，采取动作a所获得的即时回报，可以由使用者定义，例如在电影推荐系统中，可以定义为用户对电影的评分；在电商系统中，如果用户购买某一件商品，则回报为1，否则为0；在计算广告中，如果用户点击了某一个广告的定义为1，否则为0；

Q(s(t)，a)为状态-动作值函数(即Q值)，在已知状态s(t)的情况下，根据策略π选择动作a所获得长期回报的优劣程度。

推荐系统的目的就是在已知用户状态s_t的情况下，选择合适的动作a(商品)，使的Q(s(t)，a)最大。由于Q值的计算涉及到长期回报，无法直接计算，只能依靠 s(t)和a进行估算。DQN(深度Q网络)算法作为一种强化学习算法，使用一个全连接神经网络作为Q-网络的函数近似，以此来估计Q值Q(s(t)，a)。

在t时刻，推荐系统会得到用户对动作(商品)a的反馈(如评分、点击行为等)，从而获得一个即时回报r(t+1)，此时时刻t的Q值就是即时回报r(t+1)加上t+1时刻的Q值，即

y(t)＝r(t+1)+γmax_a′Q(s(t+1)，a′；θ^-) (6)

将公式进一步展开，得到

y(t)＝r(t+1)+γQ(s(t+1)，argmax_a′Q(s(t+1)，a′；θ)；θ^-) (7)

其中θ^-为目标网络(Target Network)的参数，θ对应行动网络(BehaviorNetwork)的参数。行动网络用来采样和选择最优行动，目标网络用来计算Q值，行动网络和目标网络是Q-网络的两种形式，他们的结构相同，但参数不同。这样设计有两个目的：(1)为了减少过高估计的影响；(2)使神经网络的更新过程更为平滑。

最小化y(t)和t时刻的Q值Q(s(t)，a；θ)之间的均方误差，通过梯度下降法进行反向传播，从而更新模型的参数。模型训练结束后，在任一时刻t，推荐系统将用户的状态表示s(t)和作为Q-网络的输入，选择a^*＝argmax_aQ(s(t)，a)，此时的a^*对应的商品即为推荐给用户的最佳选项。

上述基于DQN的离线训练算法整体描述如方法1所示：

现实生活中，某些推荐场景(如电商推荐)，商品数可能高达几十万甚至更多，使用原始形式的DQN需要计算出每一个商品的Q值，从中选出Q值最大的动作，时间复杂度与商品的个数成正比，这在要求实时响应的推荐系统领域是不能接受的。在已知用户状态表示s(t)的情况下，可以对可选的动作集(即商品集合)进行过滤，本发明通过以下指标对原始动作集A进行过滤，从而地减少对Q 值的计算。

对于用户u_i，记录用户在最近一段时间内感兴趣的l个商品的向量表示，记作(如果不满l个则用零向量填充)。为用户u_i维护一个参考向量e_i定义为中所有向量之和。e_i的计算方式如式(8)所示：

根据式(9)计算sim(a_j，e_i)，如果得到的sim值小于β(β可以根据具体的应用场景来确定)，则过滤掉当前的动作a(商品)。相较于计算Q值需要经过多层的神经网络矩阵运算，计算sim只需要经过一次向量点乘，这大大降低了计算复杂度，提高了推荐效率。

关于阈值β的选择，需要考虑到以下两点，1)如果β特别小，则对于整个动作集A而言，只会过滤少量的动作，大部分的动作仍需计算Q值，因此计算的复杂度基本不会降低；2)如果β较大，虽然可以降低时间复杂度，却增大了过滤掉最优解的风险(由于搜索空间变小，一定程度上也降低了推荐结果的多样性) 。

Claims

1.一种基于强化学习框架的推荐系统离线训练方法，其主要特征包括以下步骤：

(1)根据所有用户的历史记录，建立N行M列的全局评分矩阵(N表示用户总数，M表示商品总数)，矩阵中第i行第j列的元素r_i，j表示用户u_i对商品v_j的评分，通过隐语义模型LFM矩阵分解，得到用户和商品的隐向量表示；

(2)使用深度Q网络DQN算法，选择相应的商品，最大化长期回报，根据用户反馈，实时捕捉用户的兴趣变化；

(3)结合用户历史信息，维护一个长度为l的时间窗口，根据该窗口中的历史信息计算用户i的参考向量e_i，结合参考向量e_i对商品集进行过滤，降低DQN的计算复杂度。

2.根据权利要求1所述的基于强化学习框架的推荐系统离线训练方法，其特征在于步骤(2)实时地更新用户的兴趣表示，其实现包括：

(21)计算当前商品的向量表示与用户兴趣的差异。直接计算U_i(t)和V_j(t)在各个维度上的差值，并归一化到区间[-1，1]。计算方式如式(1)所示：

D(U_i(t)，V_j(t))＝scale(U_i(t)-V_j(t)，[-1，1]) (1)其中，U_i(t)和V_j(t)分别为用户u_i和商品v_j在t时刻的兴趣向量表示；D(U_i(t)，V_j(t))是一个k维向量，用来衡量在t时刻，U_i(t)和V_j(t)在各个维度上的差异；scale(x)为归一化函数，即将x的值归一化到[-1，1]。也可以采用其它度量向量相似性的指标；

(22)由于用户的兴趣会随着时间变化而变化，而商品的特征一般不会改变。固定商品的向量表示V，在V的基础上增加一个很小的噪声，这样做的目的是，考虑到最初矩阵分解得到的商品向量表示，可能并不能完美地表征商品的所有信息。

从t时刻到t+1时刻(这里的时刻不是具体的时间度量，而是代表更新的周期)，更新用户的兴趣表示。如果从时刻t到时刻t+1，用户u_i对商品v_j的R_i，j发生了变化，则通过最小化式(2)求解参数α，然后将参数α代入式(3)来更新用户状态，式(2)和式(3)如下所示：

U_i(t+1)＝U_i(t)+αD(U_i(t)，V_j(t)) (3)

3.根据权利要求1所述的基于强化学习框架的推荐系统离线训练方法，其特征在于步骤(3)结合参考向量e_i对商品集进行过滤，降低DQN的计算复杂度，其实现包括：

(31)对于用户u_i，记录用户在最近一段时间内感兴趣的l个商品的向量表示，记作(如果不满l个则用零向量填充)。为用户u_i维护一个参考向量e_i定义为中所有向量之和。e_i的计算方式如式(4)所示：

根据式(5)计算sim(a_j，e_i)，如果得到的sim值小于β(这里的β可以根据具体的应用场景来确定)，则过滤掉当前的动作a(商品)。相较于计算Q值需要经过多层神经网络的矩阵运算，计算sim只需要经过一次向量点乘，这样减少了计算的复杂度，提高了运算效率。