CN113313381B

CN113313381B - 一种用户交互敏感的动态图序列推荐系统

Info

Publication number: CN113313381B
Application number: CN202110589775.7A
Authority: CN
Inventors: 李建欣; 朱天晨; 彭浩; 姜春阳; 王栋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-04-08
Anticipated expiration: 2041-05-28
Also published as: CN113313381A

Abstract

本发明通过人工智能技术领域的方法，实现了一种用户交互敏感的动态图序列推荐系统。系统整体采用强化学习框架，数据输入为用户对商品带有时间戳的评分数据及用户自身的属性数据，系统的输出为连续多轮推荐产生的推荐商品序列，每一轮的推荐结果均为智能体在观察过经由动态图建模的系统环境后，基于动态图环境的状态表征、商品表征、用户对于商品的实时兴趣以及用户属性信息来做出最优推荐决策。系统的运算过程依次分为五个模块，采用强化学习中离线训练方式进行训练，使用小批量梯度下降方法优化参数，并利用图神经网络和自注意力机制建模了环境状态，能够基于实时全局环境状态生成推荐策略得到推荐，具有强实时性、高动态性和可扩展性。

Description

一种用户交互敏感的动态图序列推荐系统

技术领域

本发明涉及人工智能领域，尤其涉及一种用户交互敏感的动态图序列推荐系统。

背景技术

随着社会、经济等信息化程度的逐渐加深，信息爆炸、信息过载等问题愈演愈烈，因而人们获取信息的方式正在由“人找信息”逐渐转变为“信息找人”。众所周知，推荐系统是解决数据过载的有效手段，精准而有效的推荐在提升用户体验感和用户黏性的同时也提升了信息传递的效率，能够直接或间接地创造更多的收益。然而用户的兴趣爱好会跟随时间的推移而不断地变化，且用户与推荐系统的每次交互都会受到其历史交互行为的影响，这使得静态预测用户对于商品的兴趣及评分难以满足用户长期、动态的推荐需求。由于这种动态兴趣和时序依赖对于精确描述用户画像或更准确地推荐商品来说有十分重大的意义，并且它们只能在序列推荐系统中体现，因此将用户的历史交互商品建模为商品序列，基于用户的历史交互序列开展个性化推荐是推荐系统的重要发展趋势。

近年来有一些序列推荐方法被提出出来，不幸的是，这些推荐方法的效果总是差强人意，其主要原因在于他们很少从长远的角度考虑每一次推荐所能带来的回报，进而导致推荐的召回率较低，且结果有很大的趋同性，难以生成多样化的推荐。

当前序列推荐系统的主流方法主要是通过RNN类的时序算法、注意力算法或静态图神经网络算法实现。然而一方面，现有的这些方法在推荐过程中均只考虑了单步推荐给用户和系统带来的短期收益，具有很大的局限性；另一方面，现有的方法大多基于强时序假设，采取序列模型或静态图+序列模型的方式来建模环境的状态，而这一假设并非在所有场景下均适用。

发明内容

为此，本发明首先提出一种用户交互敏感的动态图序列推荐系统，系统整体采用强化学习框架，数据输入为用户对商品带有时间戳的评分数据及用户自身的属性数据，系统的输出为连续多轮推荐产生的推荐商品序列，每一轮的推荐结果均为智能体在观察过经由动态图建模的系统环境后，基于动态图环境的状态表征、商品表征、用户对于商品的实时兴趣以及用户属性信息来做出最优推荐决策。系统的运算过程依次分为五个模块：数据预处理模块、序列图建模模块、动态环境建模模块、环境状态表征模块、智能体决策模块，训练方式采用强化学习中离线训练的方式进行训练，使用小批量梯度下降方法优化学习图神经网络和Q函数网络中的所有参数，训练直到神经网络收敛到一个局部最优点，loss函数定义如下：

L＝(y_n-Q(s_t，x，a_t))²

其中R_n(s_t，a_t)代表智能体连续n轮推荐所能获取的奖励,其计算方式为用户对于系统连续推荐的n个商品的归一化评分之和；

所述数据预处理模块将所述用户对商品带有时间戳的评分数据转化为序列数据，并过滤长尾和噪声数据，增强系统的稳定性和泛化性；

所述序列图建模模块将数据预处理模块中生成的用户交互序列数据通过合并相同点的方式转化为一个h-hop全局序列图，近似还原商品之间的h-hop依赖关系和相似关系

所述动态环境建模模块在序列图建模模块中生成的全局序列图上加入用户与所有商品之间的实时交互顺序信息作为图上顶点的属性信息，形成一个跟随用户交互和时间步而变化的动态图，以表示系统环境的实时状态。

所述环境状态表征模块使用基于偏好传播的图注意力神经网络模型在动态环境建模模块生成的动态图上学习用户对所有商品的实时兴趣，进而学习动态图环境的全局状态表征，更新系统环境状态，协助智能体的决策模型做出个性化推荐；

所述智能体决策模块将序列推荐建模为马尔科夫决策问题，基于动态图的环境表征及用户对商品的偏好表征计算长期奖励，并采用贪心策略选取下一步的动作，给用户推荐在当前状态下能够获得最大长期收益的商品作为所述最优推荐结果。

所述评分数据转化为序列数据的方法为：将用户对于商品带有时间戳的评分数据按照用户提取相应的商品和评分，并按照时间戳排序形成商品和评分序列。

所述过滤长尾和噪声数据方法为：过滤所有评分数量少于特定阈值的用户和商品；并截断过长的商品评分序列，按照保留用户最新商品评分的原则，保证每个用户生成的商品序列长度不超过某一阈值。

所述合并相同点的方式转化全局序列图的具体过程为：将所有的采样序列依照商品顺序拼接为一个有向的全局序列图G(V,E)，拼接的过程中合并相同的商品作为一个顶点，序列中的相邻商品在序列图上连接为边，边的权值取值于两个顶点所代表的商品出现在序列中的转移次数的归一化值，进而对序列图G(V,E)邻接矩阵N引入变换，为序列图上所有距离为h以内的顶点加一条短连接边，使得这些顶点可以通过该短连接边实现直连，即：

其中d(v_i，v_j)代表顶点v_i和顶点v_j之间在序列图上的最短距离。

所述引入用户实时交互顺序信息生成动态图的具体过程为：所述引入用户实时交互顺序信息生成动态图的具体过程为：将用户与商品k发生交互的次序通过三角函数变换，生成位置编码向量信息，并作为该商品在图上对应顶点v_k的一个动态属性c_k：

其中S_t代表用户的历史交互商品序列。

所述基于偏好传播的动态图注意力神经网络模型的结构为：将用户对于商品的评分r分解：

r＝p^T·h

p∈R^d×1代表用户对用户-商品级偏好表征，h∈R^d×1代表用户对于不同评价维度的在意程度，用户对于商品k经过第l层图注意力网络之后的实时偏好记为

则每层图注意力网络中用户-商品级偏好计算为：

其中所有的θ,b均为网络中可训练的参数矩阵，σ为激活函数，

被初始化为零向量，三角函数位置编码c_k来表示商品k被用户选择的次序；

采用引入膨胀聚合的方式或在图注意网络中引入短连接的方式用户对于商品的偏好信息难以传播到较远的顶点的问题；

之后接一个平均池化层，计算用户对所有商品的偏好的平均向量，并将该向量作为当前系统环境状态的表征：

所述膨胀聚合的方式为将h-hop内的顶点均看作一个邻域，扩大聚合范围；所述在图注意网络中引入短连接的方式，在层与层之间加入残差连接，将浅层特征与深层特征相结合。

所述将序列推荐问题建模为马尔科夫决策问题(MDP)的实现方式为：将MDP中的状态(s)，动作(a)，奖励(r)，转移(t)定义如下：

状态(s)：基于用户历史交互信息和全局序列图生成的系统环境动态图的图结构、顶点关系以及图上顶点表征出的用户对商品的动态偏好。

动作(a)：选取图上的某一个顶点k对应的商品作为给予用户的推荐。

奖励(r)：用户对于商品经过归一化后的评分。

转移(t)：基于前一时间步的系统环境动态图和智能体给出的推荐结果更新系统环境动态图。

所述贪心策略的实现方式为：基于带有用户实时交互信息的序列图计算得到当前环境状态s，并结合用户的属性特征x产生推荐决策，采用Deep Q-Learning的架构，使用一个Q(s,x,a)函数表示在给定环境状态下，智能体给用户推荐商品a所能得到的长期收益，Q函数：

其中所有的θ,b均为网络中可训练的参数矩阵，σ为激活函数。

本发明所要实现的技术效果在于：

提出了一种基于动态图强化学习的个性化推荐系统，具有强实时性和高动态性。该系统将序列推荐建模为动态图上的马尔科夫决策问题，采用基于用户历史交互的动态图建模系统环境，并使用图神经网络和自注意力机制精准建模了环境状态，其采用的图上的偏好传播表征算法和强化学习算法可根据用户的每一次交互和反馈实时更新系统的全局环境状态，并基于当前的全局环境状态生成推荐策略，从而得到较为准确的推荐。

该方法具有以下优势：

1.采用深度强化学习技术，考虑了用户长期的反馈结果，能够更好的适应用户的兴趣变化，做出精准的推荐；

2.将全部商品的推荐序列以及环境状态分别建模为静态图结构和动态图结构，弱化了商品之间的强时序依赖假设，更好地还原了商品之间的复杂结构关系和动态依赖关系；

3.采用图神经网络和自注意力机制学习用户偏好传播的模式，使得推荐系统的环境状态具有用户交互的敏感性；

4.将动态图神经网络与强化学习相结合，提升了系统环境状态表征的准确性和完整性，扩大了智能体的感知视野；

5.具有良好的泛化性能，系统学习到的是归纳模型，不受商品数量变化、商品属性变化的限制和约束；

6.具有良好的可扩展性，上线部署后能够实时借助用户的反馈进而动态、高效地迭代智能体的推荐策略，实现在线更新；

7.具有良好的迁移性能，该强化学习序列推荐系统不受商品领域的限制，可移植性强。

附图说明

图1序列图建模流程图；

图2动态环境建模示意图；

图3环境状态表征模块功能图；

图4智能体决策结构图；

图5用户交互敏感的动态图序列推荐系统流程图；

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种用户交互敏感的动态图序列推荐系统，系统整体采用强化学习框架，数据输入为用户对商品带有时间戳的评分数据(或用户与商品的交互序列数据)及用户自身的属性数据，系统的输出为连续多轮推荐产生的推荐商品序列，每一轮的推荐结果均为智能体在观察过经由动态图建模的系统环境后，基于动态图环境的状态表征、商品表征、用户对于商品的实时兴趣以及用户属性信息来做出最优推荐决策。具体分为五个模块：

数据预处理模块：所述数据预处理模块将原始评分数据转化为序列数据，并过滤源数据中的长尾和噪声数据，增强系统的稳定性和泛化性；

序列图建模模块：所述序列图建模模块将数据预处理模块中生成的用户交互序列数据通过合并相同点的方式转化为一个全局序列图，近似还原商品之间的依赖关系和相似关系；

动态环境建模模块：所述动态环境建模模块在序列图建模模块中生成的全局序列图上加入用户与所有商品之间的实时交互顺序信息作为图上顶点的属性信息，形成一个跟随用户交互和时间步而变化的动态图，以表示系统环境的实时状态。

环境状态表征模块：所述环境状态表征模块基于偏好传播的动态图神经网络模型学习用户对所有商品的实时兴趣，进而学习动态图环境的全局状态表征，更新系统环境状态，协助智能体的决策模型做出个性化推荐；

智能体决策模块：所述智能体决策模块采用贪心策略选取下一步的动作，给用户推荐在当前状态下能够获得最大长期收益的商品。

数据预处理模块

将用户对于商品带有时间戳的评分数据进行如下数据预处理操作：

从所有评分数据中按照用户提取相应的商品和评分，并按照时间戳排序形成商品和评分序列；

过滤所有评分数量少于10的用户和商品；

截断过长的商品评分序列，按照保留用户最新商品评分的原则，保证每个用户生成的商品序列长度不超过30；

序列图建模模块

为了引入更多的全局信息，需要将序列信息还原至高维空间。用户的评分序列大量采样了商品之间的时序依赖关系、相似关系、共现关系等，因而可以将所有的采样序列拼接为一个全局序列图G(V,E)，拼接的过程中合并相同的商品作为一个顶点，序列中的相邻商品在序列图上连接为边，边的权值取值于两个顶点所代表的商品出现在序列中的转移次数的归一化值，如图1所示。由于序列中商品具有先后顺序，因而该图为一个有向图。

考虑到更好地解耦序列中商品的依赖关系，同时尽可能消除序列中引入的噪声，进而增大每个商品在序列图上的邻域范围，在上述构建方式的基础上还要对序列图G(V,E)邻接矩阵N引入一些变换。简单来说，我们为序列图上所有距离为h以内的顶点加一条短连接边，使得这些顶点可以通过该短连接边实现直连，即

其中d(v_i,v_j)代表顶点v_i和顶点v_j之间在序列图上的最短距离。

动态环境建模模块

为了在全局序列图中引入用户与商品之间的实时交互信息，我们将用户与商品k发生交互的次序作为该商品在图上对应顶点v_k的一个动态属性c_k。举例来说，我们得到一个用户与商品的历史交互序列，且商品k在该序列中的位置为j，因而此时顶点v_k的属性c_k通过下式计算：

此时，整个全局序列图被转化为一个图上所有顶点的属性都随用户交互而实时变化的动态图，该动态图整体可建模为智能体观测到的环境状态，蕴含了商品之间的复杂关系以及当前时间步下用户已选择商品的情况。

环境状态表征模块

该模块为本系统的核心模块，其主要功能为融合分解用户对商品的评分并将用户的偏好沿序列图进行传播，进而提取当前环境状态的特征，支撑后续模块中智能体产生推荐决策。

本系统将用户对于商品的评分r按照如下方式分解：

r＝p^T·h

其中，p∈R^d×1代表用户对于该商品在多个评价维度上的偏好表征，即用户-商品级偏好，该偏好向量将沿着序列图结构向邻域顶点传播，而h∈R^d×1代表用户对于这些不同评价维度的在意程度，该向量在一定时间范围内可看作一个常量，即用户固有不变的属性。

本系统采用一种动态的图注意力模型学习偏好在序列图上的传播。用户对于商品k经过第l层图注意力网络之后的实时偏好记为

则每层图注意力网络中用户-商品级偏好通过下式计算：

被初始化为零向量，其原因在于该系统环境下用户对于所有商品的初始偏好均为未知数，零向量在偏好传播的过程中不会引入额外的偏差。上述公式的含义为用户对于商品k的偏好向量由用户是否已和该商品产生交互、用户对该商品在序列图邻域内其他商品的偏好的加权和以及序列图的结构信息(包含商品k的边的权值)三个因素共同决定。此外，由于用户历史交互的商品具有次序区分，因而我们采用一种特殊的三角函数位置编码c_k来表示商品k被用户选择的次序，该编码由于具有良好的线性保序性，因而能够在深层网络结构中保留商品被选择的次序信息。

通常情况下，推荐场景下的商品数量繁多，因而生成序列图的规模较大，顶点数量较多，然而图卷积模型的层数有限，容易导致用户对于商品的偏好信息难以传播到较远的顶点。本系统采用两种方法解决该问题，首先引入膨胀聚合的方式，即将h-hop内的顶点均看作一个邻域，扩大聚合范围，从而减少将偏好表征更新传播至所有顶点所需的次数；其次为在图注意网络中引入短连接的方式，在层与层之间加入残差连接，将浅层特征与深层特征相结合，增强模型学习恒等映射的能力，从而保证深层图卷积网络的有效性和泛化性。

本系统在上述模型最后接一个平均池化层，计算用户对所有商品的偏好的平均向量，并将该向量作为当前系统环境状态的表征：

智能体决策模块

在本系统中，商品的序列推荐过程可建模为马尔科夫决策过程(MDP)，其中，将MDP中的状态(s)，动作(a)，奖励(r)，转移(t)定义如下：

奖励(r)：用户对于商品经过归一化后的评分。

智能体基于带有用户实时交互信息的序列图计算得到当前环境状态s，并结合用户的属性特征x产生推荐决策。系统采用Deep Q-Learning的架构，使用一个Q(s,x,a)函数表示在给定环境状态下，智能体采取动作a(即给用户推荐商品a)所能得到的长期收益。本系统采用如下公式计算Q函数：

其中所有的θ,b均为网络中可训练的参数矩阵，σ为激活函数。智能体采用贪心策略选取动作，即给用户推荐在当前状态下能够获得最大长期收益的商品。

模型的训练方式

本发明采用强化学习中离线训练的方式，并使用小批量梯度下降方法优化学习图神经网络和Q函数网络中的所有参数，训练直到神经网络收敛到一个局部最优点。其中图神经网络和Q函数在结构上是顺序连接的，训练过程也是同步的，即由Q函数产生的loss函数的梯度最终会回传到图神经网络中训练优化。本发明中神经网络的loss函数定义如下：

L＝(y_n-Q(s_t,x,a_t))²

其中R_n(s_t，a_t)代表智能体连续n轮推荐所能获取的奖励,其计算方式为用户对于系统连续推荐的n个商品的归一化评分之和。

Claims

1.一种用户交互敏感的动态图序列推荐系统，其特征在于：系统整体采用强化学习框架，数据输入为用户对商品带有时间戳的评分数据及用户自身的属性数据，系统的输出为连续多轮推荐产生的推荐商品序列，每一轮的推荐结果均为智能体在观察过经由动态图建模的系统环境后，基于动态图环境的状态表征、商品表征、用户对于商品的实时兴趣以及用户属性信息来做出最优推荐决策，系统的运算过程依次分为五个模块：数据预处理模块、序列图建模模块、动态环境建模模块、环境状态表征模块、智能体决策模块；

其中，所述序列图建模模块将数据预处理模块中生成的用户交互序列数据通过合并相同点的方式转化为一个h-hop全局序列图，近似还原商品之间的h-hop依赖关系和相似关系；

所述动态环境建模模块在序列图建模模块中生成的全局序列图上加入用户与所有商品之间的实时交互顺序信息作为图上顶点的属性信息，形成一个跟随用户交互和时间步而变化的动态图，以表示系统环境的实时状态；

所述智能体决策模块将序列推荐建模为马尔科夫决策问题，基于动态图的环境表征及用户对商品的偏好表征计算长期奖励，并采用贪心策略选取下一步的动作，给用户推荐在当前状态下能够获得最大长期收益的商品作为最优推荐结果。

2.如权利要求1所述的一种用户交互敏感的动态图序列推荐系统，其特征在于：所述合并相同点的方式转化全局序列图的具体过程为：将所有的采样序列依照商品顺序拼接为一个有向的全局序列图G(V，E)，拼接的过程中合并相同的商品作为一个顶点，序列中的相邻商品在序列图上连接为边，边的权值取值于两个顶点所代表的商品出现在序列中的转移次数的归一化值，进而对序列图G(V，E)邻接矩阵N引入变换，为序列图上所有距离为h以内的顶点加一条短连接边，使得这些顶点可以通过该短连接边实现直连，即：

3.如权利要求2所述的一种用户交互敏感的动态图序列推荐系统，其特征在于：所述引入用户实时交互顺序信息生成动态图的具体过程为：将用户与商品k发生交互的次序通过三角函数变换，生成位置编码向量信息，并作为该商品在图上对应顶点v_k的一个动态属性c_k：

其中S_t代表用户的历史交互商品序列。

4.如权利要求3所述的一种用户交互敏感的动态图序列推荐系统，其特征在于：所述基于偏好传播的动态图注意力神经网络模型的结构为：将用户对于商品的评分r分解：

r＝p^T·h

p∈R^d×1代表用户对用户-商品级偏好表征，h∈R^d×1代表用户对于不同评价维度的在意程度，用户对于商品k经过第1层图注意力网络之后的实时偏好记为

则每层图注意力网络中用户-商品级偏好计算为：

其中所有的θ，b均为网络中可训练的参数矩阵，σ为激活函数，

被初始化为零向量，三角函数位置编码c_k用来表示商品k被用户选择的次序；

采取引入膨胀聚合的方式或在图注意网络中引入短连接的方式用户对于商品的偏好信息难以传播到较远的顶点的问题；

在图神经网络后接一个全局平均池化层，计算用户对所有商品的偏好的平均向量，并将该向量作为当前系统环境状态的表征：

5.如权利要求4所述的一种用户交互敏感的动态图序列推荐系统，其特征在于：所述膨胀聚合的方式为将h-hop内的顶点均看作一个邻域，扩大聚合范围；所述在图注意网络中引入短连接的方式，在层与层之间加入残差连接，将浅层特征与深层特征相结合。

6.如权利要求5所述的一种用户交互敏感的动态图序列推荐系统，其特征在于：所述将序列推荐问题建模为马尔科夫决策问题(MDP)的实现方式为：将MDP中的状态(s)，动作(a)，奖励(r)，转移(t)定义如下：

状态(s)：基于用户历史交互信息和全局序列图生成的系统环境动态图的图结构、顶点关系以及图上顶点表征出的用户对商品的动态偏好；

动作(a)：选取图上的某一个顶点k对应的商品作为给予用户的推荐；

奖励(r)：用户对于商品经过归一化后的评分；

7.如权利要求6所述的一种用户交互敏感的动态图序列推荐系统，其特征在于：所述贪心策略的实现方式为：基于带有用户实时交互信息的序列图计算得到当前环境状态s，并结合用户的属性特征x产生推荐决策，采用DeepQ-Learning的架构，使用一个Q(s，x，a)函数表示在给定环境状态下，智能体给用户推荐商品a所能得到的长期收益，Q函数：

其中所有的θ，b均为网络中可训练的参数矩阵，σ为激活函数，选取能够获得最大Q值的商品作为待推荐的商品。