CN113313381B - 一种用户交互敏感的动态图序列推荐系统 - Google Patents

一种用户交互敏感的动态图序列推荐系统 Download PDF

Info

Publication number
CN113313381B
CN113313381B CN202110589775.7A CN202110589775A CN113313381B CN 113313381 B CN113313381 B CN 113313381B CN 202110589775 A CN202110589775 A CN 202110589775A CN 113313381 B CN113313381 B CN 113313381B
Authority
CN
China
Prior art keywords
user
commodity
graph
sequence
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110589775.7A
Other languages
English (en)
Other versions
CN113313381A (zh
Inventor
李建欣
朱天晨
彭浩
姜春阳
王栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110589775.7A priority Critical patent/CN113313381B/zh
Publication of CN113313381A publication Critical patent/CN113313381A/zh
Application granted granted Critical
Publication of CN113313381B publication Critical patent/CN113313381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)

Abstract

本发明通过人工智能技术领域的方法,实现了一种用户交互敏感的动态图序列推荐系统。系统整体采用强化学习框架,数据输入为用户对商品带有时间戳的评分数据及用户自身的属性数据,系统的输出为连续多轮推荐产生的推荐商品序列,每一轮的推荐结果均为智能体在观察过经由动态图建模的系统环境后,基于动态图环境的状态表征、商品表征、用户对于商品的实时兴趣以及用户属性信息来做出最优推荐决策。系统的运算过程依次分为五个模块,采用强化学习中离线训练方式进行训练,使用小批量梯度下降方法优化参数,并利用图神经网络和自注意力机制建模了环境状态,能够基于实时全局环境状态生成推荐策略得到推荐,具有强实时性、高动态性和可扩展性。

Description

一种用户交互敏感的动态图序列推荐系统
技术领域
本发明涉及人工智能领域,尤其涉及一种用户交互敏感的动态图序列推荐系统。
背景技术
随着社会、经济等信息化程度的逐渐加深,信息爆炸、信息过载等问题愈演愈烈,因而人们获取信息的方式正在由“人找信息”逐渐转变为“信息找人”。众所周知,推荐系统是解决数据过载的有效手段,精准而有效的推荐在提升用户体验感和用户黏性的同时也提升了信息传递的效率,能够直接或间接地创造更多的收益。然而用户的兴趣爱好会跟随时间的推移而不断地变化,且用户与推荐系统的每次交互都会受到其历史交互行为的影响,这使得静态预测用户对于商品的兴趣及评分难以满足用户长期、动态的推荐需求。由于这种动态兴趣和时序依赖对于精确描述用户画像或更准确地推荐商品来说有十分重大的意义,并且它们只能在序列推荐系统中体现,因此将用户的历史交互商品建模为商品序列,基于用户的历史交互序列开展个性化推荐是推荐系统的重要发展趋势。
近年来有一些序列推荐方法被提出出来,不幸的是,这些推荐方法的效果总是差强人意,其主要原因在于他们很少从长远的角度考虑每一次推荐所能带来的回报,进而导致推荐的召回率较低,且结果有很大的趋同性,难以生成多样化的推荐。
当前序列推荐系统的主流方法主要是通过RNN类的时序算法、注意力算法或静态图神经网络算法实现。然而一方面,现有的这些方法在推荐过程中均只考虑了单步推荐给用户和系统带来的短期收益,具有很大的局限性;另一方面,现有的方法大多基于强时序假设,采取序列模型或静态图+序列模型的方式来建模环境的状态,而这一假设并非在所有场景下均适用。
发明内容
为此,本发明首先提出一种用户交互敏感的动态图序列推荐系统,系统整体采用强化学习框架,数据输入为用户对商品带有时间戳的评分数据及用户自身的属性数据,系统的输出为连续多轮推荐产生的推荐商品序列,每一轮的推荐结果均为智能体在观察过经由动态图建模的系统环境后,基于动态图环境的状态表征、商品表征、用户对于商品的实时兴趣以及用户属性信息来做出最优推荐决策。系统的运算过程依次分为五个模块:数据预处理模块、序列图建模模块、动态环境建模模块、环境状态表征模块、智能体决策模块,训练方式采用强化学习中离线训练的方式进行训练,使用小批量梯度下降方法优化学习图神经网络和Q函数网络中的所有参数,训练直到神经网络收敛到一个局部最优点,loss函数定义如下:
L=(yn-Q(st,x,at))2
Figure BDA0003088933080000021
其中Rn(st,at)代表智能体连续n轮推荐所能获取的奖励,其计算方式为用户对于系统连续推荐的n个商品的归一化评分之和;
所述数据预处理模块将所述用户对商品带有时间戳的评分数据转化为序列数据,并过滤长尾和噪声数据,增强系统的稳定性和泛化性;
所述序列图建模模块将数据预处理模块中生成的用户交互序列数据通过合并相同点的方式转化为一个h-hop全局序列图,近似还原商品之间的h-hop依赖关系和相似关系
所述动态环境建模模块在序列图建模模块中生成的全局序列图上加入用户与所有商品之间的实时交互顺序信息作为图上顶点的属性信息,形成一个跟随用户交互和时间步而变化的动态图,以表示系统环境的实时状态。
所述环境状态表征模块使用基于偏好传播的图注意力神经网络模型在动态环境建模模块生成的动态图上学习用户对所有商品的实时兴趣,进而学习动态图环境的全局状态表征,更新系统环境状态,协助智能体的决策模型做出个性化推荐;
所述智能体决策模块将序列推荐建模为马尔科夫决策问题,基于动态图的环境表征及用户对商品的偏好表征计算长期奖励,并采用贪心策略选取下一步的动作,给用户推荐在当前状态下能够获得最大长期收益的商品作为所述最优推荐结果。
所述评分数据转化为序列数据的方法为:将用户对于商品带有时间戳的评分数据按照用户提取相应的商品和评分,并按照时间戳排序形成商品和评分序列。
所述过滤长尾和噪声数据方法为:过滤所有评分数量少于特定阈值的用户和商品;并截断过长的商品评分序列,按照保留用户最新商品评分的原则,保证每个用户生成的商品序列长度不超过某一阈值。
所述合并相同点的方式转化全局序列图的具体过程为:将所有的采样序列依照商品顺序拼接为一个有向的全局序列图G(V,E),拼接的过程中合并相同的商品作为一个顶点,序列中的相邻商品在序列图上连接为边,边的权值取值于两个顶点所代表的商品出现在序列中的转移次数的归一化值,进而对序列图G(V,E)邻接矩阵N引入变换,为序列图上所有距离为h以内的顶点加一条短连接边,使得这些顶点可以通过该短连接边实现直连,即:
Figure BDA0003088933080000031
其中d(vi,vj)代表顶点vi和顶点vj之间在序列图上的最短距离。
所述引入用户实时交互顺序信息生成动态图的具体过程为:所述引入用户实时交互顺序信息生成动态图的具体过程为:将用户与商品k发生交互的次序通过三角函数变换,生成位置编码向量信息,并作为该商品在图上对应顶点vk的一个动态属性ck
Figure BDA0003088933080000032
其中St代表用户的历史交互商品序列。
所述基于偏好传播的动态图注意力神经网络模型的结构为:将用户对于商品的评分r分解:
r=pT·h
p∈Rd×1代表用户对用户-商品级偏好表征,h∈Rd×1代表用户对于不同评价维度的在意程度,用户对于商品k经过第l层图注意力网络之后的实时偏好记为
Figure BDA0003088933080000033
则每层图注意力网络中用户-商品级偏好计算为:
Figure BDA0003088933080000034
Figure BDA0003088933080000041
Figure BDA0003088933080000042
其中所有的θ,b均为网络中可训练的参数矩阵,σ为激活函数,
Figure BDA0003088933080000043
被初始化为零向量,三角函数位置编码ck来表示商品k被用户选择的次序;
采用引入膨胀聚合的方式或在图注意网络中引入短连接的方式用户对于商品的偏好信息难以传播到较远的顶点的问题;
之后接一个平均池化层,计算用户对所有商品的偏好的平均向量,并将该向量作为当前系统环境状态的表征:
Figure BDA0003088933080000044
所述膨胀聚合的方式为将h-hop内的顶点均看作一个邻域,扩大聚合范围;所述在图注意网络中引入短连接的方式,在层与层之间加入残差连接,将浅层特征与深层特征相结合。
所述将序列推荐问题建模为马尔科夫决策问题(MDP)的实现方式为:将MDP中的状态(s),动作(a),奖励(r),转移(t)定义如下:
状态(s):基于用户历史交互信息和全局序列图生成的系统环境动态图的图结构、顶点关系以及图上顶点表征出的用户对商品的动态偏好。
动作(a):选取图上的某一个顶点k对应的商品作为给予用户的推荐。
奖励(r):用户对于商品经过归一化后的评分。
转移(t):基于前一时间步的系统环境动态图和智能体给出的推荐结果更新系统环境动态图。
所述贪心策略的实现方式为:基于带有用户实时交互信息的序列图计算得到当前环境状态s,并结合用户的属性特征x产生推荐决策,采用Deep Q-Learning的架构,使用一个Q(s,x,a)函数表示在给定环境状态下,智能体给用户推荐商品a所能得到的长期收益,Q函数:
Figure BDA0003088933080000045
其中所有的θ,b均为网络中可训练的参数矩阵,σ为激活函数。
本发明所要实现的技术效果在于:
提出了一种基于动态图强化学习的个性化推荐系统,具有强实时性和高动态性。该系统将序列推荐建模为动态图上的马尔科夫决策问题,采用基于用户历史交互的动态图建模系统环境,并使用图神经网络和自注意力机制精准建模了环境状态,其采用的图上的偏好传播表征算法和强化学习算法可根据用户的每一次交互和反馈实时更新系统的全局环境状态,并基于当前的全局环境状态生成推荐策略,从而得到较为准确的推荐。
该方法具有以下优势:
1.采用深度强化学习技术,考虑了用户长期的反馈结果,能够更好的适应用户的兴趣变化,做出精准的推荐;
2.将全部商品的推荐序列以及环境状态分别建模为静态图结构和动态图结构,弱化了商品之间的强时序依赖假设,更好地还原了商品之间的复杂结构关系和动态依赖关系;
3.采用图神经网络和自注意力机制学习用户偏好传播的模式,使得推荐系统的环境状态具有用户交互的敏感性;
4.将动态图神经网络与强化学习相结合,提升了系统环境状态表征的准确性和完整性,扩大了智能体的感知视野;
5.具有良好的泛化性能,系统学习到的是归纳模型,不受商品数量变化、商品属性变化的限制和约束;
6.具有良好的可扩展性,上线部署后能够实时借助用户的反馈进而动态、高效地迭代智能体的推荐策略,实现在线更新;
7.具有良好的迁移性能,该强化学习序列推荐系统不受商品领域的限制,可移植性强。
附图说明
图1序列图建模流程图;
图2动态环境建模示意图;
图3环境状态表征模块功能图;
图4智能体决策结构图;
图5用户交互敏感的动态图序列推荐系统流程图;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
本发明提出了一种用户交互敏感的动态图序列推荐系统,系统整体采用强化学习框架,数据输入为用户对商品带有时间戳的评分数据(或用户与商品的交互序列数据)及用户自身的属性数据,系统的输出为连续多轮推荐产生的推荐商品序列,每一轮的推荐结果均为智能体在观察过经由动态图建模的系统环境后,基于动态图环境的状态表征、商品表征、用户对于商品的实时兴趣以及用户属性信息来做出最优推荐决策。具体分为五个模块:
数据预处理模块:所述数据预处理模块将原始评分数据转化为序列数据,并过滤源数据中的长尾和噪声数据,增强系统的稳定性和泛化性;
序列图建模模块:所述序列图建模模块将数据预处理模块中生成的用户交互序列数据通过合并相同点的方式转化为一个全局序列图,近似还原商品之间的依赖关系和相似关系;
动态环境建模模块:所述动态环境建模模块在序列图建模模块中生成的全局序列图上加入用户与所有商品之间的实时交互顺序信息作为图上顶点的属性信息,形成一个跟随用户交互和时间步而变化的动态图,以表示系统环境的实时状态。
环境状态表征模块:所述环境状态表征模块基于偏好传播的动态图神经网络模型学习用户对所有商品的实时兴趣,进而学习动态图环境的全局状态表征,更新系统环境状态,协助智能体的决策模型做出个性化推荐;
智能体决策模块:所述智能体决策模块采用贪心策略选取下一步的动作,给用户推荐在当前状态下能够获得最大长期收益的商品。
数据预处理模块
将用户对于商品带有时间戳的评分数据进行如下数据预处理操作:
从所有评分数据中按照用户提取相应的商品和评分,并按照时间戳排序形成商品和评分序列;
过滤所有评分数量少于10的用户和商品;
截断过长的商品评分序列,按照保留用户最新商品评分的原则,保证每个用户生成的商品序列长度不超过30;
序列图建模模块
为了引入更多的全局信息,需要将序列信息还原至高维空间。用户的评分序列大量采样了商品之间的时序依赖关系、相似关系、共现关系等,因而可以将所有的采样序列拼接为一个全局序列图G(V,E),拼接的过程中合并相同的商品作为一个顶点,序列中的相邻商品在序列图上连接为边,边的权值取值于两个顶点所代表的商品出现在序列中的转移次数的归一化值,如图1所示。由于序列中商品具有先后顺序,因而该图为一个有向图。
考虑到更好地解耦序列中商品的依赖关系,同时尽可能消除序列中引入的噪声,进而增大每个商品在序列图上的邻域范围,在上述构建方式的基础上还要对序列图G(V,E)邻接矩阵N引入一些变换。简单来说,我们为序列图上所有距离为h以内的顶点加一条短连接边,使得这些顶点可以通过该短连接边实现直连,即
Figure BDA0003088933080000071
其中d(vi,vj)代表顶点vi和顶点vj之间在序列图上的最短距离。
动态环境建模模块
为了在全局序列图中引入用户与商品之间的实时交互信息,我们将用户与商品k发生交互的次序作为该商品在图上对应顶点vk的一个动态属性ck。举例来说,我们得到一个用户与商品的历史交互序列,且商品k在该序列中的位置为j,因而此时顶点vk的属性ck通过下式计算:
Figure BDA0003088933080000072
此时,整个全局序列图被转化为一个图上所有顶点的属性都随用户交互而实时变化的动态图,该动态图整体可建模为智能体观测到的环境状态,蕴含了商品之间的复杂关系以及当前时间步下用户已选择商品的情况。
环境状态表征模块
该模块为本系统的核心模块,其主要功能为融合分解用户对商品的评分并将用户的偏好沿序列图进行传播,进而提取当前环境状态的特征,支撑后续模块中智能体产生推荐决策。
本系统将用户对于商品的评分r按照如下方式分解:
r=pT·h
其中,p∈Rd×1代表用户对于该商品在多个评价维度上的偏好表征,即用户-商品级偏好,该偏好向量将沿着序列图结构向邻域顶点传播,而h∈Rd×1代表用户对于这些不同评价维度的在意程度,该向量在一定时间范围内可看作一个常量,即用户固有不变的属性。
本系统采用一种动态的图注意力模型学习偏好在序列图上的传播。用户对于商品k经过第l层图注意力网络之后的实时偏好记为
Figure BDA0003088933080000081
则每层图注意力网络中用户-商品级偏好通过下式计算:
Figure BDA0003088933080000082
Figure BDA0003088933080000083
Figure BDA0003088933080000084
其中所有的θ,b均为网络中可训练的参数矩阵,σ为激活函数,
Figure BDA0003088933080000085
被初始化为零向量,其原因在于该系统环境下用户对于所有商品的初始偏好均为未知数,零向量在偏好传播的过程中不会引入额外的偏差。上述公式的含义为用户对于商品k的偏好向量由用户是否已和该商品产生交互、用户对该商品在序列图邻域内其他商品的偏好的加权和以及序列图的结构信息(包含商品k的边的权值)三个因素共同决定。此外,由于用户历史交互的商品具有次序区分,因而我们采用一种特殊的三角函数位置编码ck来表示商品k被用户选择的次序,该编码由于具有良好的线性保序性,因而能够在深层网络结构中保留商品被选择的次序信息。
通常情况下,推荐场景下的商品数量繁多,因而生成序列图的规模较大,顶点数量较多,然而图卷积模型的层数有限,容易导致用户对于商品的偏好信息难以传播到较远的顶点。本系统采用两种方法解决该问题,首先引入膨胀聚合的方式,即将h-hop内的顶点均看作一个邻域,扩大聚合范围,从而减少将偏好表征更新传播至所有顶点所需的次数;其次为在图注意网络中引入短连接的方式,在层与层之间加入残差连接,将浅层特征与深层特征相结合,增强模型学习恒等映射的能力,从而保证深层图卷积网络的有效性和泛化性。
本系统在上述模型最后接一个平均池化层,计算用户对所有商品的偏好的平均向量,并将该向量作为当前系统环境状态的表征:
Figure BDA0003088933080000091
智能体决策模块
在本系统中,商品的序列推荐过程可建模为马尔科夫决策过程(MDP),其中,将MDP中的状态(s),动作(a),奖励(r),转移(t)定义如下:
状态(s):基于用户历史交互信息和全局序列图生成的系统环境动态图的图结构、顶点关系以及图上顶点表征出的用户对商品的动态偏好。
动作(a):选取图上的某一个顶点k对应的商品作为给予用户的推荐。
奖励(r):用户对于商品经过归一化后的评分。
转移(t):基于前一时间步的系统环境动态图和智能体给出的推荐结果更新系统环境动态图。
智能体基于带有用户实时交互信息的序列图计算得到当前环境状态s,并结合用户的属性特征x产生推荐决策。系统采用Deep Q-Learning的架构,使用一个Q(s,x,a)函数表示在给定环境状态下,智能体采取动作a(即给用户推荐商品a)所能得到的长期收益。本系统采用如下公式计算Q函数:
Figure BDA0003088933080000092
其中所有的θ,b均为网络中可训练的参数矩阵,σ为激活函数。智能体采用贪心策略选取动作,即给用户推荐在当前状态下能够获得最大长期收益的商品。
模型的训练方式
本发明采用强化学习中离线训练的方式,并使用小批量梯度下降方法优化学习图神经网络和Q函数网络中的所有参数,训练直到神经网络收敛到一个局部最优点。其中图神经网络和Q函数在结构上是顺序连接的,训练过程也是同步的,即由Q函数产生的loss函数的梯度最终会回传到图神经网络中训练优化。本发明中神经网络的loss函数定义如下:
L=(yn-Q(st,x,at))2
Figure BDA0003088933080000101
其中Rn(st,at)代表智能体连续n轮推荐所能获取的奖励,其计算方式为用户对于系统连续推荐的n个商品的归一化评分之和。

Claims (7)

1.一种用户交互敏感的动态图序列推荐系统,其特征在于:系统整体采用强化学习框架,数据输入为用户对商品带有时间戳的评分数据及用户自身的属性数据,系统的输出为连续多轮推荐产生的推荐商品序列,每一轮的推荐结果均为智能体在观察过经由动态图建模的系统环境后,基于动态图环境的状态表征、商品表征、用户对于商品的实时兴趣以及用户属性信息来做出最优推荐决策,系统的运算过程依次分为五个模块:数据预处理模块、序列图建模模块、动态环境建模模块、环境状态表征模块、智能体决策模块;
其中,所述序列图建模模块将数据预处理模块中生成的用户交互序列数据通过合并相同点的方式转化为一个h-hop全局序列图,近似还原商品之间的h-hop依赖关系和相似关系;
所述动态环境建模模块在序列图建模模块中生成的全局序列图上加入用户与所有商品之间的实时交互顺序信息作为图上顶点的属性信息,形成一个跟随用户交互和时间步而变化的动态图,以表示系统环境的实时状态;
所述环境状态表征模块使用基于偏好传播的图注意力神经网络模型在动态环境建模模块生成的动态图上学习用户对所有商品的实时兴趣,进而学习动态图环境的全局状态表征,更新系统环境状态,协助智能体的决策模型做出个性化推荐;
所述智能体决策模块将序列推荐建模为马尔科夫决策问题,基于动态图的环境表征及用户对商品的偏好表征计算长期奖励,并采用贪心策略选取下一步的动作,给用户推荐在当前状态下能够获得最大长期收益的商品作为最优推荐结果。
2.如权利要求1所述的一种用户交互敏感的动态图序列推荐系统,其特征在于:所述合并相同点的方式转化全局序列图的具体过程为:将所有的采样序列依照商品顺序拼接为一个有向的全局序列图G(V,E),拼接的过程中合并相同的商品作为一个顶点,序列中的相邻商品在序列图上连接为边,边的权值取值于两个顶点所代表的商品出现在序列中的转移次数的归一化值,进而对序列图G(V,E)邻接矩阵N引入变换,为序列图上所有距离为h以内的顶点加一条短连接边,使得这些顶点可以通过该短连接边实现直连,即:
Figure FDA0003088933070000011
其中d(vi,vj)代表顶点vi和顶点vj之间在序列图上的最短距离。
3.如权利要求2所述的一种用户交互敏感的动态图序列推荐系统,其特征在于:所述引入用户实时交互顺序信息生成动态图的具体过程为:将用户与商品k发生交互的次序通过三角函数变换,生成位置编码向量信息,并作为该商品在图上对应顶点vk的一个动态属性ck
Figure FDA0003088933070000021
其中St代表用户的历史交互商品序列。
4.如权利要求3所述的一种用户交互敏感的动态图序列推荐系统,其特征在于:所述基于偏好传播的动态图注意力神经网络模型的结构为:将用户对于商品的评分r分解:
r=pT·h
p∈Rd×1代表用户对用户-商品级偏好表征,h∈Rd×1代表用户对于不同评价维度的在意程度,用户对于商品k经过第1层图注意力网络之后的实时偏好记为
Figure FDA0003088933070000022
则每层图注意力网络中用户-商品级偏好计算为:
Figure FDA0003088933070000023
Figure FDA0003088933070000024
Figure FDA0003088933070000025
其中所有的θ,b均为网络中可训练的参数矩阵,σ为激活函数,
Figure FDA0003088933070000026
被初始化为零向量,三角函数位置编码ck用来表示商品k被用户选择的次序;
采取引入膨胀聚合的方式或在图注意网络中引入短连接的方式用户对于商品的偏好信息难以传播到较远的顶点的问题;
在图神经网络后接一个全局平均池化层,计算用户对所有商品的偏好的平均向量,并将该向量作为当前系统环境状态的表征:
Figure FDA0003088933070000027
5.如权利要求4所述的一种用户交互敏感的动态图序列推荐系统,其特征在于:所述膨胀聚合的方式为将h-hop内的顶点均看作一个邻域,扩大聚合范围;所述在图注意网络中引入短连接的方式,在层与层之间加入残差连接,将浅层特征与深层特征相结合。
6.如权利要求5所述的一种用户交互敏感的动态图序列推荐系统,其特征在于:所述将序列推荐问题建模为马尔科夫决策问题(MDP)的实现方式为:将MDP中的状态(s),动作(a),奖励(r),转移(t)定义如下:
状态(s):基于用户历史交互信息和全局序列图生成的系统环境动态图的图结构、顶点关系以及图上顶点表征出的用户对商品的动态偏好;
动作(a):选取图上的某一个顶点k对应的商品作为给予用户的推荐;
奖励(r):用户对于商品经过归一化后的评分;
转移(t):基于前一时间步的系统环境动态图和智能体给出的推荐结果更新系统环境动态图。
7.如权利要求6所述的一种用户交互敏感的动态图序列推荐系统,其特征在于:所述贪心策略的实现方式为:基于带有用户实时交互信息的序列图计算得到当前环境状态s,并结合用户的属性特征x产生推荐决策,采用DeepQ-Learning的架构,使用一个Q(s,x,a)函数表示在给定环境状态下,智能体给用户推荐商品a所能得到的长期收益,Q函数:
Figure FDA0003088933070000031
其中所有的θ,b均为网络中可训练的参数矩阵,σ为激活函数,选取能够获得最大Q值的商品作为待推荐的商品。
CN202110589775.7A 2021-05-28 2021-05-28 一种用户交互敏感的动态图序列推荐系统 Active CN113313381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110589775.7A CN113313381B (zh) 2021-05-28 2021-05-28 一种用户交互敏感的动态图序列推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110589775.7A CN113313381B (zh) 2021-05-28 2021-05-28 一种用户交互敏感的动态图序列推荐系统

Publications (2)

Publication Number Publication Date
CN113313381A CN113313381A (zh) 2021-08-27
CN113313381B true CN113313381B (zh) 2022-04-08

Family

ID=77375857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110589775.7A Active CN113313381B (zh) 2021-05-28 2021-05-28 一种用户交互敏感的动态图序列推荐系统

Country Status (1)

Country Link
CN (1) CN113313381B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186139B (zh) * 2021-12-30 2022-08-16 重庆理工大学 一种基于时间增强的图神经网络会话推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648049A (zh) * 2018-05-03 2018-10-12 中国科学技术大学 一种基于用户行为区别建模的序列推荐方法
CN109978660A (zh) * 2019-03-13 2019-07-05 南京航空航天大学 一种基于强化学习框架的推荐系统离线训练方法
CN111242729A (zh) * 2020-01-07 2020-06-05 西北工业大学 一种基于长短期兴趣的序列化推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374138A1 (en) * 2017-06-23 2018-12-27 Vufind Inc. Leveraging delayed and partial reward in deep reinforcement learning artificial intelligence systems to provide purchase recommendations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648049A (zh) * 2018-05-03 2018-10-12 中国科学技术大学 一种基于用户行为区别建模的序列推荐方法
CN109978660A (zh) * 2019-03-13 2019-07-05 南京航空航天大学 一种基于强化学习框架的推荐系统离线训练方法
CN111242729A (zh) * 2020-01-07 2020-06-05 西北工业大学 一种基于长短期兴趣的序列化推荐方法

Also Published As

Publication number Publication date
CN113313381A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN110728541B (zh) 信息流媒体广告创意推荐方法及装置
CN110555112A (zh) 一种基于用户正负偏好学习的兴趣点推荐方法
CN112035743B (zh) 数据推荐方法、装置、计算机设备以及存储介质
CN116664719B (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
WO2021139415A1 (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN111709493B (zh) 对象分类方法、训练方法、装置、设备及存储介质
CN111310068B (zh) 基于动态图的社交网络节点分类方法
CN105933425A (zh) 推荐应用的方法及装置
CN110738314B (zh) 一种基于深度迁移网络的点击率预测方法及装置
CN109492129A (zh) 一种基于双流神经网络的相似视频搜索方法和系统
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN113435520A (zh) 神经网络的训练方法、装置、设备及计算机可读存储介质
CN113569129A (zh) 点击率预测模型处理方法、内容推荐方法、装置及设备
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN113313381B (zh) 一种用户交互敏感的动态图序列推荐系统
CN112069412B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN112559877A (zh) 基于跨平台异构数据及行为上下文的ctr预估方法及系统
CN113065321B (zh) 基于lstm模型和超图的用户行为预测方法及系统
CN115599990A (zh) 一种知识感知结合深度强化学习的跨域推荐方法及系统
Li et al. ANN: a heuristic search algorithm based on artificial neural networks
CN114528490A (zh) 一种基于用户长短期兴趣的自监督序列推荐方法
CN115482019A (zh) 一种活动关注度预测方法、装置、电子设备和存储介质
CN115203516A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN111967973A (zh) 银行客户数据处理方法及装置
CN113297511B (zh) 商户排序模型的构建方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant