CN111523940B - 一种带负反馈的基于深度强化学习的推荐方法及系统 - Google Patents

一种带负反馈的基于深度强化学习的推荐方法及系统 Download PDF

Info

Publication number
CN111523940B
CN111523940B CN202010328640.0A CN202010328640A CN111523940B CN 111523940 B CN111523940 B CN 111523940B CN 202010328640 A CN202010328640 A CN 202010328640A CN 111523940 B CN111523940 B CN 111523940B
Authority
CN
China
Prior art keywords
user
negative feedback
positive
network
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010328640.0A
Other languages
English (en)
Other versions
CN111523940A (zh
Inventor
李玉华
李鑫
李瑞轩
辜希武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010328640.0A priority Critical patent/CN111523940B/zh
Publication of CN111523940A publication Critical patent/CN111523940A/zh
Application granted granted Critical
Publication of CN111523940B publication Critical patent/CN111523940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0254Targeted advertisements based on statistics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种带负反馈的基于深度强化学习的推荐方法及系统,收集商品特征信息,同时收集用户行为数据得到用户的正负反馈行为向量;对用户的正负反馈行为向量通过特征提取网络模型得到用户的正负反馈特征混合状态向量;利用用户的正负反馈特征混合状态向量对由策略网络和估值网络组成的深度确定性策略梯度模型进行训练,直至模型收敛;根据需要进行推荐工作的用户的历史行为,先生成正负反馈特征混合状态向量,通过完成训练的深度确定性策略梯度模型生成用户推荐商品列表供给用户进行选择,完成用户推荐工作。本申请可以使得相关神经网络的参数更新得到延迟,从而减小网络之间的相关性,提升推荐方法的训练速度和准确度。

Description

一种带负反馈的基于深度强化学习的推荐方法及系统
技术领域
本发明属于数据挖掘和推荐技术领域,更具体地,涉及一种带负反馈的基于深度强化学习的推荐方法及系统。
背景技术
近几年来,随着电子商务的蓬勃发展,用户推荐领域的技术也是飞速发展,如基于协同过滤、机器学习、以及深度学习等各类技术都被应用于推荐方法当中。但传统的推荐方法有着各式各样的问题,如基于协同过滤的方法、基于传统的机器学习方法,或是基于深度学习的方法,他们均具有静态的推荐算法特点,即无法对用户动态表现做出反应,且大多数方法遵循类似于贪心的固定算法来进行推荐,这会将使得他们过分注重要求短期的奖励最大化,并且是以用户最终订单为目的,从而完全忽略了推荐用户可能会喜欢或者更适合用户的长期的产品,即只能局部最优而无法做到全局最优。而基于传统的强化学习算法,如基于价值的强化学习方法,在面临大规模状态维度和大规模行为维度的任务时,会出现需要维护更新一张过大的Q值表而导致内存和时间开销过大的问题。而基于策略的强化学习方法也会面临着回合更新,导致学习速率过慢的问题。
此外当前大多数商品推荐算法都过多关专注于如购买或添加到购物车等用户的正反馈信息,这样往往忽略了实际过程中如浏览商品这种数据量更大的负反馈信息。在实际中正反馈信息数据量的往往是稀疏的,这样会导致推荐模型的训练不充分,进而导致推荐算法的准确度无法提高等问题。
现有的解决方案主要是将深度学习融入到强化学习。由此产生了深度强化学习模型,相较于传统的深度学习算法,深度强化学习算法将推荐过程中用户与推荐系统的序列化的交互行为视为一个马尔科夫的动态过程,过程满足马尔科夫性,并利用强化学习的特性,通过推荐产品并由此接受用户的反馈来动态的学习最优的策略,从而实现对用户的动态行为的学习,避免局部最优的情况发生。同时相较于传统的强化学习,深度强化学习则同时可以通过包含神经网络的特性,可以直接使用状态价值函数计算出Q值,从而省去维护庞大Q值表的开销,提高了算法的运算速度。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种带负反馈的基于深度强化学习的推荐方法及系统,旨在解决现有用户推荐方法学习速率过慢、准确度低的问题。
为实现上述目的,本发明所采用的技术方案是:结合现有深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)模型,设计出一种针对真实用户的商品推荐方法,首先使用带门循环单元(Gated Recurrent Unit,GRU)网络模型根据用户正负反馈的历史行为进行特征提取、处理和混合,得到用户的正负反馈混合状态向量,将正负反馈混合状态向量输入到Actor策略神经网络模型中,根据策略函数对进行推荐的产品候选集进行阈值计算筛选,挑选出基于当前用户正负反馈混合状态向量的推荐行为向量,使用Critic估值神经网络对推荐行为进行评测打分计算出状态价值Q值,而后模型使用随机梯度下降方式完成参数更新,使模型总体状态价值Q值不断增大直至收敛,从而完成推荐方法的训练工作,最后使用完成训练的策略网络Actor神经网络实现对用户的推荐工作。
为实现上述目的,按照本发明的一方面,提供了一种带负反馈的基于深度强化学习的推荐方法,包括如下步骤:
S1.收集商品特征信息得到商品特征向量数据集,同时收集用户行为数据得到用户的正负反馈行为向量;
S2.对用户的正负反馈行为向量通过特征提取网络模型处理后,得到用户的正负反馈特征混合状态向量;
S3.利用用户的正负反馈特征混合状态向量对由Actor策略网络和Critic估值网络组成的深度确定性策略梯度模型进行训练,直至模型收敛;
S4.根据需要进行推荐工作的用户的历史行为,先使用步骤S2生成正负反馈特征混合状态向量,通过步骤S3完成训练的深度确定性策略梯度模型生成用户推荐商品列表供给用户进行选择,完成用户推荐工作。
进一步地,步骤S1具体包括:
S1.1.收集商品特征信息,按照时间与商品种类进行划分,分别进行embedding处理,得到商品特征向量数据集(timestamp,itemid,embedding),用于后续的训练工作;
S1.2.收集用户行为数据,按照行为时间、用户、行为动作以及对应商品编号进行划分得到用户行为数据集(timestamp,visitorid,event,itemid),按照用户与时间划分数据,得到用户的正负反馈行为向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},其中in与jn分别为用户某时间段内进行了正反馈和负反馈的商品。
进一步地,步骤S2具体包括:
S2.1.将用户行为数据集按用户与时间进行训练任务划分,选取用户某时段内的前n个正反馈行为{i1,i2,...,in}与前n个负反馈行为{j1,j2,...,jn},构成用户某时段内的历史行为向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},并使用带门循环单元的特征提取网络模型进行处理,生成正反馈状态向量St+={s1+,s2+,...,sn+}与负反馈状态向量St-={s1-,s2-,...,sn-};
S2.2.将步骤S2.1中获取的正反馈状态向量St+={s1+,s2+,...,sn+}、负反馈状态向量St-={s1-,s2-,...,sn-}进行处理而后再进行混合,完成正负反馈特征混合状态向量Kt={k1,k2,...,kn}生成工作。
进一步地,步骤S3具体包括:
S3.1.将所述混合状态向量Kt={k1,k2,...,kn}输入到online Actor网络,按照策略函数
Figure BDA0002464151150000041
生成推荐动作向量At,并按照用户行为记忆模拟器根据用户的历史行为,计算当前状态与历史状态的相似度,对当前状态进行计算评分得出状态价值rt,根据状态价值rt将推荐产品加入到{i1,i2,....in}与{j1,j2,....jn}生成用户行为Ut+1,将(Ut,At,rt,Ut+1)记录加入到记忆池中供后续模型的训练使用;
S3.2.随机从记忆池中选取batch size条记录用于模型的训练工作,利用步骤S2.1、S2.2生成正负反馈状态向量St={St+,St-},St+1={St+1+,St+1-}以及混合状态向量Kt与Kt+1,状态价值rt
S3.3.利用步骤S3.2中的正负反馈混合状态向量Kt+1,target Actor网络按照策略函数
Figure BDA0002464151150000042
根据Kt+1生成At+1
S3.4.利用步骤S3.2中正负反馈混合状态向量Kt,online Actor网络按照策略函数
Figure BDA0002464151150000043
根据Kt生成At
S3.5.将步骤S3.2与S3.4中St={St+,St-},At交付给online Critic价值网络,生成预测行为价值Q*(St,At;θμ),以及Q*(St,At;θμ)关于推荐动作At的梯度方向
Figure BDA0002464151150000044
S3.6.将步骤S3.3、S3.2中At+1,St+1={St+1+,St+1-}交付给TargetCritic网络生成预测行为价值Q(St+1,At+1;θμ’);
S3.7.根据S3.2、S3.5与S3.6得到的价值rt值、Q*(St,At;θμ)与Q(St+1,At+1;θμ’)计算损失函数L(θμ),online Critic根据损失函数L(θμ)与online critic网络参数parameter的梯度方向进行参数更新;
S3.8.online Actor网络根据策略函数
Figure BDA0002464151150000045
关于S3.5中返回的梯度
Figure BDA0002464151150000046
以及网络模型参数的优化梯度方向,完成模型的参数更新;
S3.9.target Actor与target Critic网络更新则依赖于online Actor与onlineCritic的网络参数,按照学习率γ进行网络参数的软更新操作;
S3.10.重复执行步骤S3.1~S3.9完成推荐方法的训练工作,直至模型收敛
按照本发明的另一方面,提供了一种带负反馈的基于深度强化学习的推荐系统,包括:
正负反馈行为向量获取模块,收集商品特征信息得到商品特征向量数据集,同时收集用户行为数据得到用户的正负反馈行为向量;
正负反馈特征混合状态向量获取模块,对所述用户的正负反馈行为向量通过特征提取网络模型处理后,得到用户的正负反馈特征混合状态向量;
模型训练模块,利用所述用户的正负反馈特征混合状态向量对由Actor策略网络和Critic估值网络组成的深度确定性策略梯度模型进行训练,直至模型收敛;
用户推荐模块,根据需要进行推荐工作的用户的历史行为,先生成正负反馈特征混合状态向量,通过完成训练的深度确定性策略梯度模型生成用户推荐商品列表供给用户进行选择,完成用户推荐工作。
优选地,所述正负反馈行为向量获取模块包括:
商品特征收集单元,收集商品特征信息,按照时间与商品种类进行划分,分别进行embedding处理,得到商品特征向量数据集(timestamp,itemid,embedding),用于后续的训练工作;
用户行为收集单元,收集用户行为数据,按照行为时间、用户、行为动作以及对应商品编号进行划分得到用户行为数据集(timestamp,visitorid,event,itemid),按照用户与时间划分数据,得到用户的正负反馈行为向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},其中in与jn分别为用户某时间段内进行了正反馈和负反馈的商品。
优选地,正负反馈特征混合状态向量获取模块包括:
正负反馈状态向量生成单元,将用户行为数据集按用户与时间进行训练任务划分,选取用户某时段内的前n个正反馈行为{i1,i2,...,in}与前n个负反馈行为{j1,j2,...,jn},构成用户某时段内的历史行为向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},并使用带门循环单元的特征提取网络模型进行处理,生成正反馈状态向量St+={s1+,s2+,...,sn+}与负反馈状态向量St-={s1-,s2-,...,sn-};
正负反馈特征混合状态向量生成单元,将生成的正反馈状态向量St+={s1+,s2+,...,sn+}、负反馈状态向量St-={s1-,s2-,...,sn-}进行处理而后再进行混合,完成正负反馈特征混合状态向量Kt={k1,k2,...,kn}生成工作。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)本发明将用户与推荐方法做出的序列化交互行为视作马尔科夫过程,通过向用户推荐货品,并接受用户的消极和积极的反馈来自动学习最优的策略。相较于传统的推荐方法均基于一个静态的过程,本发明中推荐方法能够动态的学习用户行为,更好的完成推荐工作。利用深度强化学习的深度确定性策略梯度模型完成推荐方法训练工作,本发明基于深度强化学习带负反馈的推荐方法的训练模型拥有双网络、经验回放和随机噪声等特性,能够较好解决传统深度强化学习模型存在的难收敛问题,同时可以使得相关神经网络的参数更新得到延迟,从而减小网络之间的相关性,提升推荐方法的训练速度;
(2)本发明对于用户的正反馈行为关注的同时,对于传统推荐方法关注较少的用户负反馈行为也予以利用。同时对正负反馈行为进行特征提取,使得推荐方法可以从用户的积极与消极两个方面进行训练和学习,从而完善推荐算法对于用户特征的捕获,使得推荐方法的准确率得到提高。
附图说明
图1是本发明提供的带负反馈的基于深度强化学习的推荐方法的步骤流程图;
图2是本发明提供的带负反馈的基于深度强化学习的推荐方法的正负反馈特征提取网络模型结构图;
图3是本发明提供的带负反馈的基于深度强化学习的推荐方法的训练过程图;
图4是本发明提供的带负反馈的基于深度强化学习的推荐方法的参数更新流图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种方法,如图1所示,具体包括:
S1.基于深度强化学习带负反馈推荐方法的数据获取主要依赖于电子商务网站中的用户游览网站时的行为信息以及商品的特征信息,在真实的电子商务网站获取数据后需要对商品特征信息进行提取以及对用户的行为数据进行划分;
S1.1.根据收集到商品特征信息按照时间与商品种类进行划分,通过对商品的所有特征进行统计,筛选出数量合适并对所有商品种类覆盖率高且有意义的商品特征,生成特征字典,而后对不同时间点的不同商品进行按照特征字典进行embedding处理,得到每个时刻的商品特征向量,生成商品特征向量集合embed文件,其处理完成后数据格式为(timestamp,itemid,embedding)。其中embedding为商品的特征向量,用于后续的训练工作和推荐工作。
S1.2.根据收集用户行为数据,按照行为时间,用户名,行为动作,以及商品编号进行划分得到用户行为数据集,处理完成的格式为(timestamp,visitorid,event,itemid)。将处理完成的行为数据集,按照用户与时间进行相应的划分,得到用户行为向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},其中in与jn分别为用户某时间段内的进行了正反馈与负反馈的商品编号。
S2.对所述用户的正负反馈行为向量通过特征提取网络模型处理后,得到用户的正负反馈特征混合状态向量,特征提取网络模型结构如图2所示;前期准备工作包括完成带门循环单元(Gated Recurrent Units,GRU)用户正负反馈状态向量提取网络模型的参数初始化,用户模拟记忆simulator初始化,记忆池replay buffer初始化等工作,而后进行用户正负反馈状态向量的生成工作:
S2.1.基于深度强化学习带负反馈推荐方法中,根据步骤S1.2中生成的用户历史行为向量Ut={{i1,i2,...,in},{j1,j2,...,jn}}生成用户正反馈状态向量St+={s1+,s2+,...,sn+}与负反馈状态向量St-={s1-,s2-,...,sn-},选择使用带GRU的循环神经网络完成处理工作,选择GRU单元的原因是因为相较于长短期记忆网络(Long Short-TermMemory,LSTM),GRU单元在塑造用户连续行为状态St方面会有优势。
在行为向量生成RNN网络中,GRU单元会使用更新门zn来生成新状态,同时会使用重置门rn来控制来自RNN网络中前一个GRU单元的输出hn-1,在处理开始前将用户的积极行为{i1,i2....in}(消极行为处理过程相同)输入到RNN中,处理过程公式(1-1)-(1-4)所示:
zn=σ(Wzin+Uzhn-1),   (1-1)
rn=σ(Wrin+Urhn-1),   (1-2)
h′n=tanh[Win+U(rn·hn-1)],   (1-3)
hn=(1-zn)hn-1+zn h′n,   (1-4)
σ(),tanh()为非线性激活函数,Wz,Wr,W为相应层的权重值,Uz,Ur,U是线性层。
S2.2.将正负反馈状态向量输入相应处理隐层中,而后两个处理隐层输出到全连接混合隐层中,生成正负反馈混合状态向量Kt={k1,k2,...,kn},过程如公式(1-5)-(1-7)所示:
h1=wiSt++b1   (1-5)
h2=w2St-+b2   (1-6)
Kt=W+h1+W-h2+b   (1-7)
其中W1,W2,W+,W-分别为正负反馈向量对应的权重矩阵,b1,b2,b为偏置矩阵,t为某一时刻。
S3.完成推荐方法的训练工作,具体过程如图3所示;需提前初始化训练模型的模型参数,参数包括双Actor策略网络(online Actor,target Actor)与双Critic价值网络(online Critic,target Critic)参数,网络模型的迭代回合数,推荐行为向量长度,batch_size大小,以及模型的学习率等,而后完成模型训练工作。
S3.1.将混合状态向量Kt={k1,k2,...,kn}输入到online Actor网络生成推荐动作At={a1,a2,...,ak},以及用户对推荐动作At的反馈,使用用户交互记忆simulator生成在Kt状态下采取At后的状态价值rt,生成用户新的行为向量Ut+1,将结果保存到记忆池中的,完成记忆池数据更新:
使用步骤S2.1-S2.2,生成混合状态向量Kt={k1,k2,...,kn},并将其输入到online Actor网络,online Actor网络根据算法1.1生成推荐动作;具体过程为,根据策略函数
Figure BDA0002464151150000091
与当前的混合状态向量Kt={k1,k2,...,kn},生成权重向量Wt={w1,w2,...,wk},其中策略函数
Figure BDA0002464151150000104
是关于参数θπ的函数,其功能是将混合特征向量Kt映射到权重空间中,本发明在这里选用Actor策略深度神经网络来实现策略函数
Figure BDA0002464151150000101
的功能,过程如公式(1-8)所示:
Figure BDA0002464151150000102
根据生成的Wt={w1,w2,...,wk}中wi与推荐产品候选集I中的商品特征向量Ei={e1,e2,...,en}进行点乘得生成得分socre Ei,过程如公式(1-9)所示:
socre Ei=wk t ET i   (1-9)
将得分socre Ei最高的商品Ei添加到为At中,生成推荐动作向量At={a1,a2,...,ak},具体算法如表1所示:
表1
Figure BDA0002464151150000103
Figure BDA0002464151150000111
并根据用户模拟记忆simulator计算当前的行为向量Ut,推荐动作At,计算出与记忆池中的历史行为的相似度Cosine(pt,mi),如公式(1-10)所示:
Figure BDA0002464151150000112
其中α为行为状态的折算率,pt为与记忆池中mi记录的相似度,ui与ai为记忆池中mi记录中的历史行为向量与推荐行为向量。
而后用对Cosine(pt,mi)进行归一化处理,如公式(1-11)所示:
Figure BDA0002464151150000113
其中M为记忆池中所有得记录,mj为M中得记录,ri为第i个价值。
获取当前状态下的状态价值rt值,如公式(1-12)所示:
rt=∑mj∈M P(pt→ri)*ri   (1-12)
根据状态价值rt值将当前的推荐动作At添加到{i1,i2,...,in}与{j1,j2,...,jn},若rt>0则将At加入到用户积极行为中,生成用户行为Ut+1={{i1,i2,...,in,At},{j1,j2,...,jn}},反之则加入到用户的消极行为中生成Ut+1={{i1,i2,...,in},{j1,j2,...,jn,At}},并将(Ut,At,rt,Ut+1)记录加入到记忆池中供后续模型的训练学习使用。
S3.2.随机从记忆池中选取batch size条记录用于模型的训练工作,利用步骤S2.1、,S2.2、生成正负反馈状态向量St={St+,St-},St+1={St+1+,St+1-}以及混合状态向量Kt与Kt+1,状态价值rt完成模型训练;
S3.3.利用步骤S3.2中正负反馈混合状态向量Kt+1,target Actor网络依照算法1.1使用策略函数
Figure BDA0002464151150000121
根据Kt+1生成At+1
S3.4.利用步骤S3.2中正负反馈混合状态向量Kt,online Actor网络按照依照算法1.1,使用策略函数
Figure BDA0002464151150000122
根据Kt生成At
S3.5.将步骤S3.3、S3.2中At+1,St+1={St+1+,St+1-}交付给target Critic价值网络,target Critic价值网络需要先将正负反馈状态向量St+1={St+1+,St+1-}与推荐动作向量At+1={a1,a2,...,ak}进行相应处理,首先使用融合隐层将正负反馈状态向量分别与推荐动作向量进行融合,而后输出到混合隐层进行混合,其过程如公式(1-13)-(1-15)所示:
h1=w+St+1++w1aAt+1+b1   (1-13)
h2=w-St+1-+w2aAt+1+b2   (1-14)
h3=w31h1+w32h2+b3   (1-15)
其中w+,w1a,w-,w2a,w31,w32,b1,b2,b3,分别为权重矩阵以及偏置矩阵。
target Critic神经网络根据h3的输入,生成评估价值Q(St+1,At+1;θμ’)输出,而后将Q(St+1,At+1;θμ’)乘以学习率γ,并加上基于St状态的行为价值rt,从而得到t时刻下的实际总价值Rt,Rt获取过程如公式(1-16)所示:
Figure BDA0002464151150000123
其中E为期望。
S3.6.将步骤S3.2、S3.4中St={St+,St-},At交付给online Critic网络,onlineCritic网络采取同步骤S3.5相同的方法处理St={St+,St-},At,而后生成预测行为价值Q*(St,At;θμ),以及Q*(St,At;θμ)关于推荐动作At的梯度方向
Figure BDA0002464151150000124
S3.7.根据步骤S3.5与S3.6得到Q*(St,At;θμ)与Rt,计算损失函数L(θμ),过程如公式(1-17)所示:
Figure BDA0002464151150000131
其中θμ为online Critic网络参数。
online Critic网络参数更新是沿着minimizing(L(θμ))方向进行的,其过程如公式(1-18)所示:
Figure BDA0002464151150000132
S3.8.target Critic网络参数更新形式则是依靠online Critic网络参数以及更新率τ的软更新,其过程如公式(1-19)所示:
θμ’←τθμ+(1-τ)θμ’   (1-19)
其中θμ’为Target Critic网络参数。
S3.9.online Actor网络参数更新方向是沿着策略函数
Figure BDA0002464151150000136
关于online Actor网络模型参数以及步骤S3.6中返回的梯度
Figure BDA0002464151150000133
的优化梯度方向进行,其更新过程如公式(1-20)所示:
Figure BDA0002464151150000134
其中θπ为online Actor网络参数。
S3.10、target Actor网络的参数更新更新形式是依靠online Critic网络参数以及更新率τ的软更新,其更新过程如公式(1-21)所示:
θπ’←τθπ+(1-τ)θπ’   (1-21)
其中θπ’为target Actor网络参数,具体的相关网络参数更新过程如图4所示。
S3.11.结合步骤S3.1~S3.10为模型的整体训练过程,如此往复直至模型收敛,具体过程如表2所示:
表2
Figure BDA0002464151150000135
Figure BDA0002464151150000141
Figure BDA0002464151150000151
S4.用户商品推荐;按照用户的行为时间以及用户正在浏览的电子商务网站商品区域(如数码产品区,日用品区,食物药品区等),选取该商品区类中所有在此时间节的商品特征向量,作为商品特征向量集合embed={e1,e2…,en},将embed交付给完成训练的Actor策略网络,Actor网络根据用户在电子商务网站的历史行为生成的状态向量St={{s1+,s2+,...,sn+},{s1-,s2-,...,sn-}}以及商品特征向量集合embed,使用算法1.1生成用户推荐商品列表,供给用户进行选择(具体过程与步骤S3.1相同)。而后将用户的正负反馈添加到行为向量中生成ut+1,供后续使用。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种带负反馈的基于深度强化学习的推荐方法,其特征在于,具体包括以下步骤:
S1.收集商品特征信息得到商品特征向量数据集,同时收集用户行为数据得到用户的正负反馈行为向量;具体包括:
S1.1.收集商品特征信息,按照时间与商品种类进行划分,分别进行嵌入处理,得到商品特征向量数据集(timestamp,itemid,embedding),用于后续的训练工作;
S1.2.收集用户行为数据,按照行为时间、用户、行为动作以及对应商品编号进行划分得到用户行为数据集(timestamp,visitorid,event,itemid),按照用户与时间划分数据,得到用户的正负反馈行为向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},其中in与jn分别为用户某时间段内进行了正反馈和负反馈的商品;
S2.对所述用户的正负反馈行为向量通过特征提取网络模型处理后,得到用户的正负反馈特征混合状态向量;具体包括:
S2.1.选取用户某时段内的前n个正反馈行为{i1,i2,...,in}与前n个负反馈行为{j1,j2,...,jn},构成用户某时段内的历史行为向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},并使用带门循环单元的特征提取网络模型进行处理,生成正反馈状态向量St+={s1+,s2+,...,sn+}与负反馈状态向量St-={s1-,s2-,...,sn-};
S2.2.将步骤S2.1中获取的正反馈状态向量St+={s1+,s2+,...,sn+}、负反馈状态向量St-={s1-,s2-,...,sn-}进行处理而后再进行混合,完成正负反馈特征混合状态向量Kt={k1,k2,...,kn}生成工作;
S3.利用所述用户的正负反馈特征混合状态向量使用深度强化学习模型进行训练,直至模型收敛;具体包括:
S3.1.将所述混合状态向量Kt={k1,k2,...,kn}输入到在线策略网络,按照策略函数
Figure FDA0004100591610000021
生成推荐动作向量At,并按照用户行为记忆模拟器根据用户的历史行为,计算当前状态与历史状态的相似度,对当前状态进行计算评分得出状态价值rt,根据状态价值rt将推荐产品加入到{i1,i2,....in}与{j1,j2,....jn},生成用户行为Ut+1,将(Ut,At,rt,Ut+1)记录加入到记录库中供后续模型的训练使用;
S3.2.随机从记录库中选取预设数量记录用于模型的训练工作,利用步骤S2.1、S2.2生成正负反馈状态向量St={St+,St-},St+1={St+1+,St+1-}以及混合状态向量Kt与Kt+1,状态价值rt
S3.3.利用步骤S3.2中的正负反馈混合状态向量Kt+1,目标策略网络按照策略函数
Figure FDA0004100591610000022
根据Kt+1生成At+1
S3.4.利用步骤S3.2中正负反馈混合状态向量Kt,在线策略网络按照策略函数
Figure FDA0004100591610000023
根据Kt生成At
S3.5.将步骤S3.2与S3.4中St={St+,St-},At交付给在线估值网络,生成预测行为价值Q*(St,At;θμ),以及Q*(St,At;θμ)关于推荐动作At的梯度方向
Figure FDA0004100591610000024
S3.6.将步骤S3.3、S3.2中At+1,St+1={St+1+,St+1-}交付给目标估值网络生成预测行为价值Q(St+1,At+1;θμ’);
S3.7.根据S3.2、S3.5与S3.6得到的价值rt值、Q*(St,At;θμ)与Q(St+1,At+1;θμ’)计算损失函数L(θμ),在线估值网络根据损失函数L(θμ)与在线估值网络参数parameter的梯度方向进行参数更新;
S3.8.在线策略网络根据策略函数
Figure FDA0004100591610000025
关于S3.5中返回的梯度
Figure FDA0004100591610000026
以及网络模型参数的优化梯度方向,完成模型的参数更新;
S3.9.目标策略网络与目标估值网络更新则依赖于在线策略网络与在线估值网络的网络参数,按照设定学习率进行相关网络参数的更新操作;
S3.10.重复执行步骤S3.1~S3.9完成推荐方法的训练工作,直至模型收敛;
S4.根据需要进行推荐工作的用户的历史行为,先使用步骤S2生成正负反馈特征混合状态向量,通过步骤S3完成训练的深度强化学习模型生成用户推荐商品列表供给用户进行选择,完成用户推荐工作。
2.一种带负反馈的基于深度强化学习的推荐系统,其特征在于,包括:
正负反馈行为向量获取模块,收集商品特征信息得到商品特征向量数据集,同时收集用户行为数据得到用户的正负反馈行为向量;所述正负反馈行为向量获取模块包括:
商品特征收集单元,收集商品特征信息,按照时间与商品种类进行划分,分别进行嵌入处理,得到商品特征向量数据集(timestamp,itemid,embedding),用于后续的训练工作;
用户行为收集单元,收集用户行为数据,按照行为时间、用户、行为动作以及对应商品编号进行划分得到用户行为数据集(timestamp,visitorid,event,itemid),按照用户与时间划分数据,得到用户的正负反馈行为向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},其中in与jn分别为用户某时间段内进行了正反馈和负反馈的商品;
正负反馈特征混合状态向量获取模块,对所述用户的正负反馈行为向量通过特征提取网络模型处理后,得到用户的正负反馈特征混合状态向量;所述正负反馈特征混合状态向量获取模块包括:
正负反馈状态向量生成单元,选取用户某时段内的前n个正反馈行为{i1,i2,...,in}与前n个负反馈行为{j1,j2,...,jn},构成用户某时段内的历史行为向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},并使用带门循环单元的特征提取网络模型进行处理,生成正反馈状态向量St+={s1+,s2+,...,sn+}与负反馈状态向量St-={s1-,s2-,...,sn-};
正负反馈特征混合状态向量生成单元,将生成的正反馈状态向量St+={s1+,s2+,...,sn+}、负反馈状态向量St-={s1-,s2-,...,sn-}进行处理而后再进行混合,完成正负反馈特征混合状态向量Kt={k1,k2,...,kn}生成工作;
模型训练模块,利用所述用户的正负反馈特征混合状态向量对由策略网络和估值网络组成的深度强化学习模型进行训练,直至模型收敛;所述模型训练模块包括:
将所述混合状态向量Kt={k1,k2,...,kn}输入到在线策略网络,按照策略函数fθπ生成推荐动作向量At,并按照用户行为记忆模拟器根据用户的历史行为,计算当前状态与历史状态的相似度,对当前状态进行计算评分得出状态价值rt,根据状态价值rt将推荐产品加入到{i1,i2,....in}与{j1,j2,....jn},生成用户行为Ut+1,将(Ut,At,rt,Ut+1)记录加入到记录库中供后续模型的训练使用;
随机从记录库中选取预设数量记录用于模型的训练工作,生成正负反馈状态向量St={St+,St-},St+1={St+1+,St+1-}以及混合状态向量Kt与Kt+1,状态价值rt
利用正负反馈混合状态向量Kt+1,目标策略网络按照策略函数
Figure FDA0004100591610000041
根据Kt+1生成At+1
利用正负反馈混合状态向量Kt,在线策略网络按照策略函数
Figure FDA0004100591610000042
根据Kt生成At
将St={St+,St-},At交付给在线估值网络,生成预测行为价值Q*(St,At;θμ),以及Q*(St,At;θμ)关于推荐动作At的梯度方向
Figure FDA0004100591610000043
将步骤At+1,St+1={St+1+,St+1-}交付给目标估值网络生成预测行为价值Q(St+1,At+1;θμ’);
根据价值rt值、Q*(St,At;θμ)与Q(St+1,At+1;θμ’)计算损失函数L(θμ),在线估值网络根据损失函数L(θμ)与在线估值网络参数parameter的梯度方向进行参数更新;
在线策略网络根据策略函数
Figure FDA0004100591610000051
关于梯度
Figure FDA0004100591610000052
以及网络模型参数的优化梯度方向,完成模型的参数更新;
目标策略网络与目标估值网络更新则依赖于在线策略网络与在线估值网络的网络参数,按照设定学习率进行相关网络参数的更新操作;重复完成推荐方法的训练工作,直至模型收敛;
用户推荐模块,根据需要进行推荐工作的用户的历史行为,先生成正负反馈特征混合状态向量,通过完成训练的深度强化学习模型生成用户推荐商品列表供给用户进行选择,完成用户推荐工作。
CN202010328640.0A 2020-04-23 2020-04-23 一种带负反馈的基于深度强化学习的推荐方法及系统 Active CN111523940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010328640.0A CN111523940B (zh) 2020-04-23 2020-04-23 一种带负反馈的基于深度强化学习的推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010328640.0A CN111523940B (zh) 2020-04-23 2020-04-23 一种带负反馈的基于深度强化学习的推荐方法及系统

Publications (2)

Publication Number Publication Date
CN111523940A CN111523940A (zh) 2020-08-11
CN111523940B true CN111523940B (zh) 2023-04-18

Family

ID=71904428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010328640.0A Active CN111523940B (zh) 2020-04-23 2020-04-23 一种带负反馈的基于深度强化学习的推荐方法及系统

Country Status (1)

Country Link
CN (1) CN111523940B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780317A (zh) * 2020-08-27 2021-12-10 北京同邦卓益科技有限公司 行为方式预测方法及装置、存储介质、电子设备
CN112734030B (zh) * 2020-12-31 2022-09-02 中国科学技术大学 用状态相似性进行经验回放采样的无人平台决策学习方法
CN113938415B (zh) * 2021-09-09 2022-08-02 华中科技大学 一种基于链路状态估计的网络路由转发方法及系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922717B2 (en) * 2017-04-07 2021-02-16 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for activity recommendation
CN108694182B (zh) * 2017-04-07 2021-03-02 北京嘀嘀无限科技发展有限公司 活动推送方法、活动推送装置和服务器
CN107423335B (zh) * 2017-04-27 2020-06-05 电子科技大学 一种针对单类协同过滤问题的负样本选择方法
US11100400B2 (en) * 2018-02-15 2021-08-24 Adobe Inc. Generating visually-aware item recommendations using a personalized preference ranking network
KR102551343B1 (ko) * 2018-02-22 2023-07-05 삼성전자주식회사 전자 장치 및 그 제어 방법
CN108763493B (zh) * 2018-05-30 2022-06-21 深圳市思迪信息技术股份有限公司 一种基于深度学习的推荐方法
CN109241440A (zh) * 2018-09-29 2019-01-18 北京工业大学 一种基于深度学习的面向隐式反馈推荐方法
CN109299370B (zh) * 2018-10-09 2022-03-01 中国科学技术大学 多对级个性化推荐方法
CN110555112B (zh) * 2019-08-22 2022-07-15 桂林电子科技大学 一种基于用户正负偏好学习的兴趣点推荐方法
CN110851699A (zh) * 2019-09-16 2020-02-28 中国平安人寿保险股份有限公司 基于深度强化学习的信息流推荐方法、装置、设备及介质
CN110910218B (zh) * 2019-11-21 2022-08-26 南京邮电大学 一种基于深度学习的多行为迁移推荐方法
CN110930203A (zh) * 2020-02-17 2020-03-27 京东数字科技控股有限公司 信息推荐模型训练方法和装置、信息推荐方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛峰 ; 刘凯 ; 王东 ; 张浩博 ; .基于深度神经网络和加权隐反馈的个性化推荐.模式识别与人工智能.2020,(第04期),全文. *

Also Published As

Publication number Publication date
CN111523940A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111523940B (zh) 一种带负反馈的基于深度强化学习的推荐方法及系统
CN110245299B (zh) 一种基于动态交互注意力机制的序列推荐方法及其系统
US20220198289A1 (en) Recommendation model training method, selection probability prediction method, and apparatus
CN107515909B (zh) 一种视频推荐方法及系统
US20210248651A1 (en) Recommendation model training method, recommendation method, apparatus, and computer-readable medium
CN110046656B (zh) 基于深度学习的多模态场景识别方法
CN112232925A (zh) 一种融合知识图谱对商品进行个性化推荐的方法
CN107256494A (zh) 一种物品推荐方法及装置
Qu et al. Learning to selectively transfer: Reinforced transfer learning for deep text matching
CN109241366B (zh) 一种基于多任务深度学习的混合推荐系统及其方法
CN110851699A (zh) 基于深度强化学习的信息流推荐方法、装置、设备及介质
WO2023108324A1 (zh) 对比学习增强的双流模型推荐系统及算法
CN111859149A (zh) 资讯信息推荐方法、装置、电子设备及存储介质
Ahuja et al. Low-resource adaptation for personalized co-speech gesture generation
CN111563770A (zh) 一种基于特征差异化学习的点击率预估方法
CN112650933B (zh) 一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法
CN113190751B (zh) 一种融合关键词生成的推荐方法
CN111178902B (zh) 基于自动化特征工程的网络支付欺诈检测方法
CN112948707A (zh) 一种强化学习优化lfm的协同过滤推荐算法
CN110188791B (zh) 基于自动估计的视觉情感标签分布预测方法
CN113344648B (zh) 一种基于机器学习的广告推荐方法及系统
CN106600347A (zh) 一种基于多视角数据和循环网络构建序列预测模型的方法
Wulam et al. A Recommendation System Based on Fusing Boosting Model and DNN Model.
CN114781503A (zh) 一种基于深度特征融合的点击率预估方法
CN113688306A (zh) 一种基于强化学习的推荐策略生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant