CN112149824B - 利用博弈论更新推荐模型的方法及装置 - Google Patents

利用博弈论更新推荐模型的方法及装置 Download PDF

Info

Publication number
CN112149824B
CN112149824B CN202010968311.2A CN202010968311A CN112149824B CN 112149824 B CN112149824 B CN 112149824B CN 202010968311 A CN202010968311 A CN 202010968311A CN 112149824 B CN112149824 B CN 112149824B
Authority
CN
China
Prior art keywords
benefit
recommendation
action
strategy
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010968311.2A
Other languages
English (en)
Other versions
CN112149824A (zh
Inventor
李辉
宋乐
王维强
王宁涛
金宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010968311.2A priority Critical patent/CN112149824B/zh
Publication of CN112149824A publication Critical patent/CN112149824A/zh
Application granted granted Critical
Publication of CN112149824B publication Critical patent/CN112149824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种更新推荐模型的方法和装置,其中推荐模型包括通过强化学习实现的智能体。方法包括:获取针对目标用户的当前推荐状态,将其输入智能体,智能体根据推荐策略,从备选动作集中确定针对目标用户的推荐动作。其中,推荐策略通过策略参数进行表征。然后,确定在执行上述推荐动作的情况下,按照推荐策略进行推荐的期望收益,作为第一收益;确定在推荐策略下,执行所有备选动作的预期平均收益,作为第二收益;并且,基于第一收益与第二收益的差值,确定执行推荐动作的遗憾度表示。根据上述遗憾度表示,确定对策略参数的更新梯度;于是根据更新梯度,更新智能体中的推荐策略。

Description

利用博弈论更新推荐模型的方法及装置
技术领域
本说明书一个或多个实施例涉及机器学习领域,尤其涉及在强化学习中利用博弈论更新推荐模型的方法和装置。
背景技术
机器学习的迅猛发展使得各种机器学习的模型在各种各样的业务场景得到应用。相较于机器学习经典的有监督学习、无监督学习,近来发展的强化学习最大的特点和优势,是通过跟环境的不断交互、互相影响来进行策略调整,根据获得的奖励或惩罚不断的自我学习,更加适应环境。因此,强化学习模型尤其适合于涉及交互的业务场景,例如,向用户推送内容的推荐场景。
然而,在已有的强化学习模型中,往往会对环境有很强的假设要求。例如,假设环境中的所有状态和信息对于涉及的各方均是完全观察到的。这样的假设对现实场景的要求过于严苛,使得其适用性受到限制。
因此,希望能有改进的方案,可以针对通过强化学习实现的推荐模型进行更高效的更新,使其更好适用于真实场景。
发明内容
本说明书一个或多个实施例描述了一种利用博弈论更新推荐模型的方法和装置,在智能体策略更新过程中,利用多方博弈理论中的遗憾最小化原理,进行策略的更新,从而得到更加适用于非完全信息场景的推荐策略。
根据第一方面,提供了一种更新推荐模型的方法,所述推荐模型包括通过强化学习实现的智能体,所述方法包括:
获取针对目标用户的当前推荐状态;
将所述当前推荐状态输入智能体,所述智能体根据推荐策略,从备选动作集中确定针对所述目标用户的推荐动作;所述推荐策略通过策略参数进行表征;
确定在执行所述推荐动作的情况下,按照所述推荐策略进行推荐的期望收益,作为第一收益;以及,确定在所述推荐策略下,执行所述备选动作集中所有备选动作的预期平均收益,作为第二收益;并且,基于所述第一收益与第二收益的差值,确定执行所述推荐动作的遗憾度表示;
根据所述遗憾度表示,确定对策略参数的更新梯度;
根据所述更新梯度,更新所述推荐策略,从而更新所述智能体。
根据一种实施方式,上述当前推荐状态包括,目标用户的历史推荐特征,所述历史推荐特征包括以下中的至少一项:已推荐内容列表,已接受内容列表。
进一步的,在一个实施例中,当前推荐状态还包括,所述目标用户的用户属性特征和用户行为特征;所述用户行为特征包括,在所述当前推荐状态之前预定时段的操作行为记录。
在一个实施例中,上述推荐动作可以包括,推荐内容和推荐方式。
根据一种实施方式,所述智能体包括演员-评论家架构下的演员神经网络和评论家神经网络。在这样的情况下,可通过以下方式确定第一收益:将所述当前推荐状态和推荐动作输入所述评论家神经网络,通过所述评论家神经网络的输出拟合所述第一收益。
根据一个实施例,确定第二收益的步骤具体包括:对于所述备选动作集中的任一备选动作,确定在所述推荐策略下执行该备选动作的概率,以及确定在执行所述备选动作情况下的期望收益;将所述概率和期望收益的乘积,作为该备选动作对应的折合收益;对所述备选动作集中所有备选动作对应的折合收益求和,得到所述第二收益。
在一个实施例中,对第一收益与第二收益的差值进行relu函数整流,将整流结果作为所述遗憾度表示。
根据一种实施方式,第二收益为依赖于所述策略参数的收益函数,所述遗憾度表示为包含所述收益函数的遗憾函数;在这样的情况下,可以将所述遗憾函数对所述策略参数求梯度,将梯度负值作为所述更新梯度。
根据另一种实施方式,第二收益为根据所述策略参数的当前值确定的收益值,所述遗憾度表示为所述推荐动作对应的遗憾值;在这样的情况下,可以以所述遗憾值为权重,将所述策略函数对所述策略参数求梯度,基于所述权重和梯度,得到所述更新梯度。
根据第二方面,提供了一种更新业务预测模型的方法,所述业务预测模型包括通过强化学习实现的智能体,所述方法包括:
获取来自目标用户的业务请求,根据所述业务请求确定环境的状态特征;
将所述状态特征输入智能体,所述智能体根据业务策略,从备选动作集中确定针对所述目标用户的业务响应作为响应动作;所述业务策略通过策略参数进行表征;
确定在执行所述响应动作的情况下,按照所述业务策略进行业务响应的期望收益,作为第一收益;以及,确定在所述业务策略下,执行所述备选动作集中所有响应动作的预期平均收益,作为第二收益;并且,基于第一收益与第二收益的差值,确定执行所述响应动作的遗憾度表示;
根据所述遗憾度表示,确定对策略参数的更新梯度;
根据所述更新梯度,更新所述业务策略,从而更新所述智能体。
根据第三方面,提供了一种更新推荐模型的装置,所述推荐模型包括通过强化学习实现的智能体,所述装置包括:
推荐状态获取单元,配置为获取针对目标用户的当前推荐状态;
推荐动作确定单元,配置为将所述当前推荐状态输入智能体,所述智能体根据推荐策略,从备选动作集中确定针对所述目标用户的推荐动作;所述推荐策略通过策略参数进行表征;
遗憾度确定单元,配置为确定在执行所述推荐动作的情况下,按照所述推荐策略进行推荐的期望收益,作为第一收益;以及,确定在所述推荐策略下,执行所述备选动作集中所有备选动作的预期平均收益,作为第二收益;并且,基于所述第一收益与第二收益的差值,确定执行所述推荐动作的遗憾度表示;
梯度确定单元,配置为根据所述遗憾度表示,确定对策略参数的更新梯度;
更新单元,配置为根据所述更新梯度,更新所述推荐策略,从而更新所述智能体。
根据第四方面,提供了一种更新业务预测模型的装置,所述业务预测模型包括通过强化学习实现的智能体,所述装置包括:
状态特征确定单元,配置为获取来自目标用户的业务请求,根据所述业务请求确定环境的状态特征;
响应动作确定单元,配置为将所述状态特征输入智能体,所述智能体根据业务策略,从备选动作集中确定针对所述目标用户的业务响应作为响应动作;所述业务策略通过策略参数进行表征;
遗憾度确定单元,配置为确定在执行所述响应动作的情况下,按照所述业务策略进行业务响应的期望收益,作为第一收益;以及,确定在所述业务策略下,执行所述备选动作集中所有响应动作的预期平均收益,作为第二收益;并且,基于第一收益与第二收益的差值,确定执行所述响应动作的遗憾度表示;
梯度确定单元,配置为根据所述遗憾度表示,确定对策略参数的更新梯度;
更新单元,配置为根据所述更新梯度,更新所述业务策略,从而更新所述智能体。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
根据本说明书实施例提供的方法和装置,将推荐场景建模为非完全信息下的马尔科夫决策过程,借鉴多方博弈理论中遗憾最小化的思想,重新定义遗憾度,并基于遗憾度来进行推荐策略的更新,从而更好地解决了非完全信息下的推荐问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出通过强化学习实现的推荐系统的示意图;
图2示出根据一个实施例的更新推荐模型的方法流程图;
图3示出根据一个实施例的更新业务预测模型的方法流程图;
图4示出根据一个实施例的装置示意图;
图5示出根据一个实施例的装置示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
为了在交互式业务场景中更好地进行业务预测,希望通过强化学习的方式训练得到性能优异的业务预测模型。如本领域技术人员所知,强化学习是一种基于序列行为的反馈,进行的无标注的学习方法,通过不断“试错”的方式进行策略的学习。
图1示出通过强化学习实现的推荐系统的示意图。如图1所示,一般地,推荐系统可以视为强化学习中的智能体(下文有时称为推荐智能体),该智能体与用户进行交互,向其推荐内容项,并获得用户是否接受推荐内容项的反馈,通过这样的交互和反馈形成的样本,不断进行学习,优化其推荐策略。
具体而言,推荐智能体观察并获取推荐场景下的环境状态s(state),环境状态s例如包括,当前用户的用户属性信息,该用户过去被推荐过哪些内容项(即已推荐内容列表),接受了哪些内容项(已接受内容列表)等等。然后,推荐智能体根据一定策略π(即推荐策略),针对当前环境状态s,确定要采取的推荐行为或动作a(action),该动作a可以包括,当前要推荐的内容项,推荐方式等。这样的推荐动作作用于执行环境,会改变环境状态(例如用户的已推荐列表得到更新),同时产生一个反馈,该反馈又称为奖励或奖励分数r(reward)。例如,如果用户接受了当前推荐,即推荐成功,奖励分数设为0;如果用户没有接受当前推荐,即推荐失败,则奖励分数设为-1。于是,智能体根据获得的奖励分数来判断,之前的推荐行为是否正确,进而更新其推荐策略。
以上过程可以建模为马尔科夫决策过程(Markov Decision Process,MDP)。该MDP过程可以通过多元组(S,A,p,r,γ)来刻画,其中,S表示推荐智能体可观察到的状态空间,A表示推荐智能体可采用的动作空间,其中包含所有可能的推荐动作。假定第t轮推荐中,环境状态为st,采取的动作为at,这使得环境状态以迁移概率函数p,迁移到新的状态st+1,即st+1~p(.|st,at)。并且,该次迁移产生奖励分数rt=r(st,at),γ为折扣系数。
在MDP过程中,智能体通过反复不断地观察状态、确定行为、收到反馈,从而进行学习。在基于值的策略更新方案中,智能体学习的目标是理想的值函数或策略。其中,值函数是,通过执行策略π,预期达到的折扣累积奖励函数。
可以如下定义状态值函数:
vπ(s)=Eτ~π[r(τ)|s0=S] (1)
其中τ=(s0,a0,s1,...)表示执行策略π的轨迹。上述状态值函数表示,从状态s0出发,使用策略π所带来的累积奖励。
还可以类似的定义状态-动作值函数,即q函数:
qπ(s,a)=Eτ~π[r(τ)|S0=s,a0=a] (2)
该状态-动作值函数表示,从状态s0出发,执行动作a0后再使用策略π所带来的累积奖励。
在强化学习中,试图找到一种理想的策略π,能够最大化给定的性能评估函数J(π)。给定策略下的性能评估函数常常定义为,该策略下无限步数的折扣累积奖励,即:
Figure BDA0002683151280000071
其中,r(St,at,St+1)表示在第t步,在状态st下采用动作at,使得状态变为st+1得到的奖励,γ为折扣系数。
将智能体所采取的策略π中的参数表示为θ,寻找理想策略的过程即不断调整和更新参数θ的过程。结合公式(3)所定义的学习目标,在一种实施方式中,以最大化J(π)为目标,对策略参数θ求梯度,基于得到的策略梯度
Figure BDA0002683151280000072
更新策略参数,如此可使得,性能评估函数的函数值不断增大,策略更加优化。实践中,可以通过多种方式计算上述策略梯度,例如,通过利用神经网络模拟q函数的DQN,等等。
以上的学习方式,往往建立在智能体可以观察到环境中的所有状态和信息,即完全信息(perfect information)的假设前提下。然而,在推荐场景下,这样的假设前提有时并不完全成立。推荐智能体有时候无法获得关于用户的全部状态信息,并且,如果将用户对推荐内容做出反馈的逻辑也视为用户的策略的话,用户的策略对于推荐智能体来说也是无法获得的。
基于以上考虑,本案的发明人提出,在推荐场景中,借鉴多方博弈理论中的遗憾最小化的思想,来改进推荐策略的更新方式。下面对多方博弈中的遗憾最小化方法进行介绍。
在多方博弈中,假设存在N个博弈者,或者说,N个智能体,智能体i采用的策略表示为σi,所有智能体策略的集合表示为策略组σ=(σ1,σ2,…,σ|N|),σ-i表示σ中除了σi之外的策略(即,智能体i之外的其他智能体采用的策略)。用I表示信息集,其中包含博弈的规则以及各个智能体采取的历史行动序列h。其中,Ii表示智能体i可以获得的信息集,该信息集可以是非完全信息集(Imperfect information set)。
在多方博弈过程中,不同智能体在不同时刻会采取相应策略以及动作。策略σ下动作序列h发生的概率表示为πσ(h)。于是有:
Figure BDA0002683151280000081
其中,
Figure BDA0002683151280000082
表示智能体i使用策略σi使得行动序列h发生的概率。相应的,除了智能体i之外,其他智能体通过各自策略促使行动序列h发生的概率可表示为:
Figure BDA0002683151280000083
此外,定义多方博弈最终达到的终止序列集合Z,其中的任意成员z为终止序列。终止序列可以是达到纳什均衡的序列,或者对应于博弈规则定义的终局结束状态。基于此,可以定义收益函数ui(z),表示智能体i在到达终止序列z时所得到的收益。智能体i在给定策略σ下所能得到的期望收益可通过下式计算:
ui(σ)=∑z∈zui(z)πσ(z) (6)
也就是,针对终止序列z,分别确定智能体i到达该终止序列z时的收益,以及通过策略σ到达该终止序列z的概率,将二者相乘,并对集合Z中所有可能的终止序列z对应的乘积求和。
可以从收益的角度,定义动作或策略的价值,进而定义遗憾(regret)值。具体的,在遗憾值最小化算法中,根据第t轮智能体i采取策略σi的收益计算价值v1,以及根据对应于整体策略的期望收益计算价值v2,将价值v1和价值v2之差,作为智能体i采取策略σi的遗憾值。在t+1轮时,智能体i根据前t轮遗憾值的累加,确定下一轮的策略或动作。
实践中,可以采用虚拟遗憾最小化(Counterfactual Regret Minimization,CFR)方式,来模拟基于遗憾值的迭代优化过程。具体的,根据CFR方法,根据公式(7)计算智能体i在信息集Ii下采取策略σ的虚拟值(counterfactual value,CFV)
Figure BDA0002683151280000091
Figure BDA0002683151280000092
其中,σ的上标t表示是第t轮,
Figure BDA0002683151280000093
表示动作序列h是到达终止序列z之前的序列,或者说是z的前序序列。公式(7)中针对信息集Ii中所有动作序列h进行求和。
相应的,在信息集Ii下采取动作a的动作CFV值表示为
Figure BDA0002683151280000094
基于此,如以下公式(8)所示计算在t轮采取动作a的遗憾值
Figure BDA0002683151280000095
Figure BDA0002683151280000096
通过将之前轮次中的遗憾值进行累加,可以计算得到T次迭代后动作a的累积遗憾值
Figure BDA0002683151280000097
如公式(9)所示:
Figure BDA0002683151280000098
其中,初始轮次的累积遗憾值被定义为0,
Figure BDA0002683151280000099
于是,在接下来的t+1轮中,可以根据上述累积遗憾值,选择接下来的动作。具体的,可以根据以下公式(10)进行动作选择:
Figure BDA0002683151280000101
在公式(10)以及下文中,用上标+表示relu整流函数,即x+=max(0,x),相应的,
Figure BDA0002683151280000102
在遗憾值最小化算法中,通常遗憾值为负数的策略被认为不能用于提升下一轮的收益,因此,采取整流函数将累积遗憾值取为正数或0。下文中又将x+称为x的整流值。
因此,根据公式(10),如果当前信息集Ii下所有动作的累积遗憾值
Figure BDA0002683151280000103
的求和小于或等于0,则表明,此时没有动作a可以用来优化下一步的策略。因此,在t+1轮中,从动作空间A(Ii)中以均等概率选择下一步的动作。否则,根据公式(10)中的第二个式子,在t+1轮选择动作a的概率,正比于该动作a对应的累积遗憾值的整流值
Figure BDA0002683151280000104
第二个式子的分母通过对所有可能动作a下的累积遗憾值的整流值求和来进行归一化。也就是说,在接下来的动作选择中,倾向于选择遗憾值更大的动作,使得后续累积遗憾值降低,从而朝向累积遗憾最小化的方向,持续优化策略。
以上的遗憾最小化方法典型地针对非完全信息的多方博弈场景而提出。在本说明书的实施例中,发明人创新性提出,在单智能体的推荐场景中,借鉴该遗憾最小化的思想,进行推荐策略的优化。下面描述以上构思的具体实现步骤。
图2示出根据一个实施例的更新推荐模型的方法流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行,其中推荐模型包括通过强化学习实现的智能体。如图2所示,该方法包括:步骤21,获取针对目标用户的当前推荐状态;步骤22,将当前推荐状态输入智能体,所述智能体根据推荐策略,从备选动作集中确定针对所述目标用户的推荐动作;所述推荐策略通过策略参数进行表征;步骤23,确定在执行所述推荐动作的情况下,按照所述推荐策略进行推荐的期望收益,作为第一收益;以及,确定在所述推荐策略下,执行所述备选动作集中所有备选动作的预期平均收益,作为第二收益;并且,基于第一收益与第二收益的差值,确定执行所述推荐动作的遗憾度表示;步骤24,根据所述遗憾度表示,确定对策略参数的更新梯度;以及,步骤25,根据所述更新梯度,更新所述推荐策略,从而更新所述智能体。下面描述以上各个步骤的具体执行。
首先,在步骤21,获取针对目标用户的当前推荐状态,即执行环境的当前状态s。在一个实施例中,可以响应于目标用户的访问请求或推荐请求,获取当前推荐状态。更具体的,例如,在目标用户请求访问推荐系统所针对的服务平台时,比如在登陆某个支付平台或旅行服务平台时,推荐系统可以获取当前推荐状态。或者,当目标用户发出推荐请求时,例如,在旅行服务平台的页面中点击“周边游推荐”,推荐系统可以获取针对该目标用户的当前推荐状态。
当前推荐状态基于目标用户的特点而确定。在一个实施例中,当前推荐状态包括,该目标用户的历史推荐特征,具体包括,表示曾经向该目标用户推荐过哪些内容的已推荐内容列表,表示该目标用户接受了哪些推荐内容的已接受内容列表,其中,根据推荐内容的不同,接受推荐内容的行为可以是,点击该推荐内容,浏览该推荐内容超过预定时长,在推荐内容是权益信息(例如,红包,卡劵等)的情况下,领取其中的权益,在推荐内容是商品的情况下,购买该商品,等等。可选的,历史推荐特征还可以包括,表示目标用户明确拒绝过哪些内容的拒绝内容列表,表示目标用户感兴趣的推荐内容(例如加为收藏,设为稍后再看,等等)的兴趣内容列表,等等。
在一个实施例中,当前推荐状态还可以包括,目标用户的用户属性特征和用户行为特征。用户属性特征可以包括,用户的基本属性,例如年龄、性别、注册时长、教育程度、职业等等,还可以包括用户所属的人群标签之类的用户画像特征。用户行为特征可以包括,在当前推荐状态之前预定时段的操作行为记录,例如,在发出上述访问请求或推荐请求之前,目标用户进行了哪些操作,浏览了哪些内容,等等。
需要说明的是,在一些情况下,对于一些目标用户,推荐系统可能无法获得以上特征项中的全部信息,此时,当前推荐状态可以是不完全信息。
接着,在步骤22,将当前推荐状态s输入智能体,智能体根据推荐策略π,从备选动作集A中确定针对目标用户的推荐动作a;其中,推荐策略π通过策略参数θ进行表征。需要理解,备选动作集A定义所有可能的推荐动作构成的动作空间。一次推荐的推荐动作a可以包括,推荐内容和推荐方式。更具体的,推荐内容可以包括,从可选内容项中选出的一个或多个内容项,例如,从商品库中选出的一个或多个商品,从新闻文本库中选出的一条或多条新闻,等等。推荐方式可以包括,呈现或推送推荐内容的方式,例如,多个商品的布局方式,多条新闻的排列顺序,等等。
可以理解,以上的推荐动作作用于推荐执行环境,会改变环境状态,例如用户的已推荐列表会得到更新。并且,取决于目标用户针对该推荐动作的反馈,例如是接受推荐,拒绝推荐,部分接受,加入收藏等等,该推荐动作可以对应于即时奖励分数r。例如,如果用户接受了当前推荐,奖励分数设为0;如果用户没有接受当前推荐,则奖励分数设为-1。当然,用户对推荐动作的接受度越高,奖励分数越大。因此,对于推荐智能体来说,理想的推荐策略是,所确定的推荐动作产生更大的长期收益。
如前所述,不同于常规技术中直接基于例如公式(3)的目标评估函数进行策略更新,在本说明书的实施例中,借鉴多方博弈理论中的遗憾最小化思想,基于各种动作下的收益构建遗憾度表示,根据遗憾度表示来更新策略参数。
具体的,在步骤23,确定在执行上述推荐动作a的情况下,按照推荐策略π进行推荐的期望收益,作为第一收益v1;以及,确定在推荐策略π下,执行备选动作集A中所有备选动作的预期平均收益,作为第二收益v2;并且,基于第一收益与第二收益的差值,确定执行推荐动作a的遗憾度表示。下面进行更具体的描述。
如上所述,第一收益v1是针对当前推荐状态执行推荐动作a的情况下,继续执行推荐策略π预期产生的收益,是执行推荐动作a的价值的一种体现。在完全信息的情况下,第一收益v1的含义与公式(2)表示的q函数相等同,因此这里也将其表示为qπ(s,a)。而在不完全信息的情况下,第一收益v1的含义可类比于CFR算法下公式(8)中采取动作a的CFV值
Figure BDA0002683151280000131
可通过多种方式确定出第一收益v1。例如,在一种实施方式中,推荐智能体可以采用演员-评论家(actor-critic)架构,该架构可以包括actor演员神经网络和critic评论家神经网络,其中演员神经网络用于按照策略π针对状态s确定推荐动作,评论家神经网络用于对演员神经网络对当前状态s下输出的动作a,给出价值评估。在一种实施方式中,评论家网络用于模拟q函数,给出一定状态s下执行动作a的q值收益。在这样的情况下,可以将步骤21中的当前推荐状态和步骤22确定的推荐动作,输入评论家神经网络,得到其输出的评估值,作为第一收益v1。在另一种实施方式中,可以通过特定的函数模型,计算上述第一收益v1。以上的评论家神经网络,和/或函数模型,可以利用包含奖励分数的样本而训练得到,上述样本例如可以是<s,a,r,s′>的形式。
由此,也可以将第一收益v1表示为q(s,a;w),其中,推荐状态s和推荐动作a为函数输入,w为计算v1的函数中涉及的参数。例如,w可以是评论家神经网络中的网络参数,或者上述函数模型中的模型参数。
另一方面,第二收益v2表示,在推荐策略π下,执行备选动作集A中所有备选动作的预期平均收益,其含义和作用可类比于CFR算法下的公式(7),其中计算了给定信息集下采用策略σ对应的CFV值
Figure BDA0002683151280000132
公式(7)通过对信息集中所有动作序列h的收益进行求和而得到,相应的,第二收益v2可以基于对所有备选动作的收益进行求和而得到。
具体的,在一个实施例中,推荐策略π对应的第二收益v2可以如下计算:
v2=∑bπ(s,b)qπ(s,b) (11)
也就是,对于备选动作集A中的任一备选动作b,确定在推荐策略π下执行该备选动作b的概率π(s,b),以及确定在执行该备选动作b情况下的期望收益qπ(s,b);将上述概率和期望收益的乘积π(s,b)qπ(s,b),作为该备选动作b对应的折合收益;然后对备选动作集A中所有备选动作对应的折合收益求和,得到第二收益。因此,第二收益可以是以备选动作b的执行概率为权重,对该备选动作b的期望收益进行加权求和的结果,反映了执行各种可能的备选动作的预期平均收益。
基于以上确定的第一收益v1和第二收益v2,与CFR构思类似的,可以根据二者的差值,定义本次执行推荐动作a的“遗憾”情况,这里称为推荐动作a的遗憾度表示,用aπ(s,a)表示。
因此,在一个实施例,遗憾度表示定义为:
aπ(s,a)=qπ(s,a)-Σbπ(s,b)qπ(s,b) (12)
在另一实施例中,对第一收益v1与第二收益v2的差值进行relu函数整流,也就是,取原始差值和0中较大者作为整流结果,将整流结果作为遗憾度表示。
通过以上步骤23,类比于博弈理论中遗憾值的思想,定义了在推荐策略π下执行推荐动作a的遗憾度表示。接着,在步骤24,根据上述遗憾度表示,确定对策略参数的更新梯度。
可以理解,尽管也可以针对单个推荐步骤执行一次策略更新,但是更为典型和常用的,针对多步骤推荐动作执行一次策略参数的更新。
在一种实施方式中,根据遗憾最小化的思想,直观地将多步骤推荐动作的遗憾度表示的累积作为损失函数,以损失函数值最小化为目标,来优化策略参数θ。具体的,在一个实施例中,将损失函数定义为:
Figure BDA0002683151280000152
其中,k为执行步数,
Figure BDA0002683151280000153
为第k步的遗憾度表示aπ(s,a),其定义如公式(12)所示,上角标“+”表示relu整流。
于是,可以将上述损失函数对策略参数θ求导,得到策略参数θ的更新梯度。在一个具体例子中,策略参数的更新梯度可表示为:
Figure BDA0002683151280000151
在公式(14)中,w为q函数的参数,θ为推荐策略π的参数。由于要对θ求导,将π(s,b;θ)表示为带参数θ的策略函数,相应的,第二收益∑π(s,b;θ)q(s,b;w)则为依赖于策略参数θ的收益函数,整个遗憾度表示为包含收益函数的遗憾函数,即间接依赖于θ的函数形式。于是,对策略参数求梯度即包括,将上述遗憾函数对所述策略参数求导作为梯度。最终,将梯度负值作为更新梯度,即如公式(14)中最前面的负号所示。这意味着,梯度更新,从以目标评估函数最大化的梯度上升模式,转换为损失最小化的梯度下降模式。
通过公式(14),策略参数的更新目标为,使得更新后的新推荐策略具有更小的遗憾度,即该新策略对于所有备选动作的预期平均收益(即第二收益)更大。
在另一种实施方式中,借鉴CFR算法下公式(10)中选择新策略的思路,采用遗憾度匹配的方式,进行策略参数的更新。如前所述,根据公式(10),在选择接下来的策略或动作时,遗憾值更大的动作将会以更高的概率被选择。在这个思路下,在进行推荐策略的更新时,可以参照步骤23确定的遗憾度,对遗憾度更大的推荐策略的策略梯度给予更多的权重。
具体的,在一个实施例中,遗憾度匹配算法下,策略参数的更新梯度可以表示为:
Figure BDA0002683151280000161
与公式(14)不同的,在公式(15)中是直接对策略函数π(s,b;θ)求梯度,括号中的遗憾度表示
Figure BDA0002683151280000162
只是作用为权重值,而不参与梯度求导运算。
换而言之,对于第二收益∑π(s,b;θ)q(s,b;w),将策略参数θ的当前参数值θ’代入,得到第二收益的收益值。相应的,遗憾度表示也转化为推荐动作对应的遗憾值。确定策略参数的更新梯度时,则以遗憾值为权重,将策略函数π(s,b;θ)对策略参数θ求梯度,根据加权梯度累加,得到更新梯度。
通过公式(15),对于遗憾度更大的策略梯度给予更大的权重,如此使得,更新后的新推荐策略所选择的新推荐动作具有更大的第一收益。
可以理解,以上公式(14)和公式(15)均针对多步推荐进行一次策略更新。在单步更新的情况下,可以将公式(14)和(15)中最前面的求和符号去除,即可以得到单步更新的梯度确定方式。
于是,可以在步骤25,根据以上确定的更新梯度,更新推荐策略,从而更新推荐智能体。
回顾以上过程可以看到,在以上实施例的方案中,将推荐场景建模为非完全信息下的马尔科夫决策过程,借鉴多方博弈理论中遗憾最小化的思想,重新定义遗憾度,并基于遗憾度来进行推荐策略的更新,从而更好地解决了非完全信息下的推荐问题。
以上针对推荐场景的构思还可以扩展到相似的其他业务场景。
图3示出根据一个实施例的更新业务预测模型的方法流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行,其中业务预测模型包括通过强化学习实现的智能体。如图3所示,该方法包括以下步骤。
首先,在步骤31,获取来自目标用户的业务请求,根据所述业务请求确定环境的状态特征。
这里,业务请求可以包括,页面访问请求,支付请求,核身请求,等等。相应的,环境的状态特征s可以包括,与目标用户有关的用户特征,和与业务相关的业务特征。更具体的,用户特征可以包括,用户的历史业务记录,用户的基本属性特征,所属的人群标签之类的用户画像特征,用户行为特征,等等。根据具体业务的不同,业务特征可以包括不同的特征项,例如,支付金额,核身强度等级,等等。
接着,在步骤32,将上述状态特征输入智能体,所述智能体根据业务策略,从备选动作集中确定针对所述目标用户的业务响应作为响应动作;所述业务策略通过策略参数进行表征。
根据业务请求的不同,业务响应可以具有不同的形式。例如,在业务请求为页面访问请求时,业务响应可以包括,所请求页面的布局方式;在业务请求为支付请求的情况下,业务响应可以包括,选择的支付方式或支付渠道;在业务请求为核身请求的情况下,业务响应可以是,选择的核身方式。在其他业务请求的情况下,可以类似的确定业务响应。上述业务响应作用为针对环境的响应动作a,可以改变环境状态,并得到环境反馈。
接着,在步骤33,确定在执行上述响应动作a的情况下,按照所述业务策略进行业务响应的期望收益,作为第一收益;以及,确定在业务策略下,执行所述备选动作集中所有响应动作的预期平均收益,作为第二收益;并且,基于第一收益与第二收益的差值,确定执行该响应动作的遗憾度表示。
在步骤34,根据上述遗憾度表示,确定对策略参数的更新梯度;以及,在步骤35,根据更新梯度,更新业务策略,从而更新所述智能体。
以上步骤33-35的具体执行方式可参照对图2中步骤23-25的描述,在此不复赘述。
由此,通过以上方式,在非完全信息的单智能体业务预测场景下,利用多方博弈理论中遗憾最小化的思想,进行业务策略的更新。
根据另一方面的实施例,还提供一种更新推荐模型的装置,其中推荐模型包括通过强化学习实现的智能体。上述装置可以部署在任何具有计算、处理能力的设备或平台上。图4示出根据一个实施例的装置示意图。如图4所示,该装置400包括:
推荐状态获取单元41,配置为获取针对目标用户的当前推荐状态;
推荐动作确定单元42,配置为将所述当前推荐状态输入智能体,所述智能体根据推荐策略,从备选动作集中确定针对所述目标用户的推荐动作;所述推荐策略通过策略参数进行表征;
遗憾度确定单元43,配置为确定在执行所述推荐动作的情况下,按照所述推荐策略进行推荐的期望收益,作为第一收益;以及,确定在所述推荐策略下,执行所述备选动作集中所有备选动作的预期平均收益,作为第二收益;并且,基于所述第一收益与第二收益的差值,确定执行所述推荐动作的遗憾度表示;
梯度确定单元44,配置为根据所述遗憾度表示,确定对策略参数的更新梯度;
更新单元45,配置为根据所述更新梯度,更新所述推荐策略,从而更新所述智能体。
根据一种实施方式,上述当前推荐状态包括,目标用户的历史推荐特征,所述历史推荐特征包括以下中的至少一项:已推荐内容列表,已接受内容列表。
进一步的,在一个实施例中,当前推荐状态还包括,所述目标用户的用户属性特征和用户行为特征;所述用户行为特征包括,在所述当前推荐状态之前预定时段的操作行为记录。
在一个实施例中,上述推荐动作可以包括,推荐内容和推荐方式。
根据一种实施方式,所述智能体包括演员-评论家架构下的演员神经网络和评论家神经网络。在这样的情况下,所述遗憾度确定单元43具体配置为:将所述当前推荐状态和推荐动作输入所述评论家神经网络,通过所述评论家神经网络的输出拟合所述第一收益。
根据一个实施例,所述遗憾度确定单元43具体配置为:对于所述备选动作集中的任一备选动作,确定在所述推荐策略下执行该备选动作的概率,以及确定在执行所述备选动作情况下的期望收益;将所述概率和期望收益的乘积,作为该备选动作对应的折合收益;对所述备选动作集中所有备选动作对应的折合收益求和,得到所述第二收益。
在一个实施例中,所述遗憾度确定单元43具体配置为,对第一收益与第二收益的差值进行relu函数整流,将整流结果作为所述遗憾度表示。
根据一种实施方式,第二收益为依赖于所述策略参数的收益函数,所述遗憾度表示为包含所述收益函数的遗憾函数;在这样的情况下,所述梯度确定单元44具体配置为:将所述遗憾函数对所述策略参数求梯度,将梯度负值作为所述更新梯度。
根据另一种实施方式,第二收益为根据所述策略参数的当前值确定的收益值,所述遗憾度表示为所述推荐动作对应的遗憾值;在这样的情况下,所述梯度确定单元44具体配置为:以所述遗憾值为权重,将所述策略函数对所述策略参数求梯度,基于所述权重和梯度,得到所述更新梯度。
根据另一方面的实施例,还提供一种更新业务预测模型的装置,其中业务预测模型包括通过强化学习实现的智能体。上述装置可以部署在任何具有计算、处理能力的设备或平台上。图5示出根据一个实施例的装置示意图。如图5所示,该装置500包括:
状态特征确定单元51,配置为获取来自目标用户的业务请求,根据所述业务请求确定环境的状态特征;
响应动作确定单元52,配置为将所述状态特征输入智能体,所述智能体根据业务策略,从备选动作集中确定针对所述目标用户的业务响应作为响应动作;所述业务策略通过策略参数进行表征;
遗憾度确定单元53,配置为确定在执行所述响应动作的情况下,按照所述业务策略进行业务响应的期望收益,作为第一收益;以及,确定在所述业务策略下,执行所述备选动作集中所有响应动作的预期平均收益,作为第二收益;并且,基于第一收益与第二收益的差值,确定执行所述响应动作的遗憾度表示;
梯度确定单元54,配置为根据所述遗憾度表示,确定对策略参数的更新梯度;
更新单元55,配置为根据所述更新梯度,更新所述业务策略,从而更新所述智能体。
在各种实施例中,上述业务请求可以包括以下之一:页面访问请求,支付请求,核身请求。
通过以上的装置,可以针对推荐模型或业务预测模型,借鉴多方博弈理论中遗憾最小化的思想,进行策略的更新,从而更好地解决了非完全信息下的决策问题。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图3所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (22)

1.一种更新推荐模型的方法,所述推荐模型包括通过强化学习实现的智能体,所述方法包括:
获取针对目标用户的当前推荐状态;
将所述当前推荐状态输入智能体,所述智能体根据推荐策略,从备选动作集中确定针对所述目标用户的推荐动作;所述推荐策略通过策略参数进行表征;
确定在执行所述推荐动作的情况下,按照所述推荐策略进行推荐的期望收益,作为第一收益;以及,对于所述备选动作集中的任一备选动作,确定在所述推荐策略下执行该备选动作的概率,以及确定在执行所述备选动作情况下的期望收益,将所述概率和期望收益的乘积,作为该备选动作对应的折合收益,对所述备选动作集中所有备选动作对应的折合收益求和,作为第二收益;并且,基于所述第一收益与第二收益的差值,确定执行所述推荐动作的遗憾度表示;
根据所述遗憾度表示,确定对策略参数的更新梯度;
根据所述更新梯度,更新所述推荐策略,从而更新所述智能体。
2.根据权利要求1所述的方法,其中,所述当前推荐状态包括,所述目标用户的历史推荐特征,所述历史推荐特征包括以下中的至少一项:已推荐内容列表,已接受内容列表。
3.根据权利要求2所述的方法,其中,所述当前推荐状态还包括,所述目标用户的用户属性特征和用户行为特征;所述用户行为特征包括,在所述当前推荐状态之前预定时段的操作行为记录。
4.根据权利要求1所述的方法,其中,所述推荐动作包括,推荐内容和推荐方式。
5.根据权利要求1所述的方法,其中,所述智能体包括演员-评论家架构下的演员神经网络和评论家神经网络;
所述确定在执行所述推荐动作的情况下,按照所述推荐策略进行推荐的期望收益,作为第一收益,包括:
将所述当前推荐状态和推荐动作输入所述评论家神经网络,通过所述评论家神经网络的输出拟合所述第一收益。
6.根据权利要求1所述的方法,其中,基于第一收益与第二收益的差值,确定执行所述推荐动作的遗憾度表示,包括:
对所述差值进行relu函数整流,将整流结果作为所述遗憾度表示。
7.根据权利要求1所述的方法,其中,所述第二收益为依赖于所述策略参数的收益函数,所述遗憾度表示为包含所述收益函数的遗憾函数;
所述根据所述遗憾度表示,确定对策略参数的更新梯度,包括:
将所述遗憾函数对所述策略参数求梯度,将梯度负值作为所述更新梯度。
8.根据权利要求1所述的方法,其中,所述第二收益为根据所述策略参数的当前值确定的收益值,所述遗憾度表示为所述推荐动作对应的遗憾值;
所述根据所述遗憾度表示,确定对策略参数的更新梯度,包括:
以所述遗憾值为权重,将策略函数对所述策略参数求梯度,基于所述权重和梯度,得到所述更新梯度。
9.一种更新业务预测模型的方法,所述业务预测模型包括通过强化学习实现的智能体,所述方法包括:
获取来自目标用户的业务请求,根据所述业务请求确定环境的状态特征;
将所述状态特征输入智能体,所述智能体根据业务策略,从备选动作集中确定针对所述目标用户的业务响应作为响应动作;所述业务策略通过策略参数进行表征;
确定在执行所述响应动作的情况下,按照所述业务策略进行业务响应的期望收益,作为第一收益;以及,对于所述备选动作集中的任一备选动作,确定在所述业务策略下执行该备选动作的概率,以及确定在执行所述备选动作情况下的期望收益,将所述概率和期望收益的乘积,作为该备选动作对应的折合收益,对所述备选动作集中所有备选动作对应的折合收益求和,作为第二收益;并且,基于第一收益与第二收益的差值,确定执行所述响应动作的遗憾度表示;
根据所述遗憾度表示,确定对策略参数的更新梯度;
根据所述更新梯度,更新所述业务策略,从而更新所述智能体。
10.根据权利要求9所述的方法,其中,所述业务请求包括以下之一:页面访问请求,支付请求,核身请求。
11.一种更新推荐模型的装置,所述推荐模型包括通过强化学习实现的智能体,所述装置包括:
推荐状态获取单元,配置为获取针对目标用户的当前推荐状态;
推荐动作确定单元,配置为将所述当前推荐状态输入智能体,所述智能体根据推荐策略,从备选动作集中确定针对所述目标用户的推荐动作;所述推荐策略通过策略参数进行表征;
遗憾度确定单元,配置为确定在执行所述推荐动作的情况下,按照所述推荐策略进行推荐的期望收益,作为第一收益;以及,对于所述备选动作集中的任一备选动作,确定在所述推荐策略下执行该备选动作的概率,以及确定在执行所述备选动作情况下的期望收益,将所述概率和期望收益的乘积,作为该备选动作对应的折合收益,对所述备选动作集中所有备选动作对应的折合收益求和,作为第二收益;并且,基于所述第一收益与第二收益的差值,确定执行所述推荐动作的遗憾度表示;
梯度确定单元,配置为根据所述遗憾度表示,确定对策略参数的更新梯度;
更新单元,配置为根据所述更新梯度,更新所述推荐策略,从而更新所述智能体。
12.根据权利要求11所述的装置,其中,所述当前推荐状态包括,所述目标用户的历史推荐特征,所述历史推荐特征包括以下中的至少一项:已推荐内容列表,已接受内容列表。
13.根据权利要求12所述的装置,其中,所述当前推荐状态还包括,所述目标用户的用户属性特征和用户行为特征;所述用户行为特征包括,在所述当前推荐状态之前预定时段的操作行为记录。
14.根据权利要求11所述的装置,其中,所述推荐动作包括,推荐内容和推荐方式。
15.根据权利要求11所述的装置,其中,所述智能体包括演员-评论家架构下的演员神经网络和评论家神经网络;
所述遗憾度确定单元具体配置为:将所述当前推荐状态和推荐动作输入所述评论家神经网络,通过所述评论家神经网络的输出拟合所述第一收益。
16.根据权利要求11所述的装置,其中,所述遗憾度确定单元具体配置为:
对所述差值进行relu函数整流,将整流结果作为所述遗憾度表示。
17.根据权利要求11所述的装置,其中,所述第二收益为依赖于所述策略参数的收益函数,所述遗憾度表示为包含所述收益函数的遗憾函数;
所述梯度确定单元具体配置为:将所述遗憾函数对所述策略参数求梯度,将梯度负值作为所述更新梯度。
18.根据权利要求11所述的装置,其中,所述第二收益为根据所述策略参数的当前值确定的收益值,所述遗憾度表示为所述推荐动作对应的遗憾值;
所述梯度确定单元具体配置为:以所述遗憾值为权重,将策略函数对所述策略参数求梯度,基于所述权重和梯度,得到所述更新梯度。
19.一种更新业务预测模型的装置,所述业务预测模型包括通过强化学习实现的智能体,所述装置包括:
状态特征确定单元,配置为获取来自目标用户的业务请求,根据所述业务请求确定环境的状态特征;
响应动作确定单元,配置为将所述状态特征输入智能体,所述智能体根据业务策略,从备选动作集中确定针对所述目标用户的业务响应作为响应动作;所述业务策略通过策略参数进行表征;
遗憾度确定单元,配置为确定在执行所述响应动作的情况下,按照所述业务策略进行业务响应的期望收益,作为第一收益;以及,对于所述备选动作集中的任一备选动作,确定在所述业务策略下执行该备选动作的概率,以及确定在执行所述备选动作情况下的期望收益,将所述概率和期望收益的乘积,作为该备选动作对应的折合收益,对所述备选动作集中所有备选动作对应的折合收益求和,作为第二收益;并且,基于第一收益与第二收益的差值,确定执行所述响应动作的遗憾度表示;
梯度确定单元,配置为根据所述遗憾度表示,确定对策略参数的更新梯度;
更新单元,配置为根据所述更新梯度,更新所述业务策略,从而更新所述智能体。
20.根据权利要求19所述的装置,其中,所述业务请求包括以下之一:页面访问请求,支付请求,核身请求。
21.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10中任一项的所述的方法。
22.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项所述的方法。
CN202010968311.2A 2020-09-15 2020-09-15 利用博弈论更新推荐模型的方法及装置 Active CN112149824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010968311.2A CN112149824B (zh) 2020-09-15 2020-09-15 利用博弈论更新推荐模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010968311.2A CN112149824B (zh) 2020-09-15 2020-09-15 利用博弈论更新推荐模型的方法及装置

Publications (2)

Publication Number Publication Date
CN112149824A CN112149824A (zh) 2020-12-29
CN112149824B true CN112149824B (zh) 2022-07-22

Family

ID=73893789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010968311.2A Active CN112149824B (zh) 2020-09-15 2020-09-15 利用博弈论更新推荐模型的方法及装置

Country Status (1)

Country Link
CN (1) CN112149824B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688306A (zh) * 2021-06-29 2021-11-23 中国电信集团系统集成有限责任公司 一种基于强化学习的推荐策略生成方法及装置
CN113435935B (zh) * 2021-07-02 2022-06-28 支付宝(杭州)信息技术有限公司 权益推送的方法及装置
CN113626720B (zh) * 2021-10-12 2022-02-25 中国科学院自动化研究所 基于动作剪枝的推荐方法、装置、电子设备与存储介质
CN113626721B (zh) * 2021-10-12 2022-01-25 中国科学院自动化研究所 基于遗憾探索的推荐方法、装置、电子设备与存储介质
CN114048834B (zh) * 2021-11-05 2023-01-17 哈尔滨工业大学(深圳) 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置
CN114580642B (zh) * 2022-03-17 2023-04-07 中国科学院自动化研究所 构建博弈ai模型和数据处理的方法、装置、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296006A (zh) * 2016-08-10 2017-01-04 哈尔滨工业大学深圳研究生院 非完备信息博弈中风险与收益均衡的最少遗憾的评估方法
US11574148B2 (en) * 2018-11-05 2023-02-07 Royal Bank Of Canada System and method for deep reinforcement learning
CN109978660A (zh) * 2019-03-13 2019-07-05 南京航空航天大学 一种基于强化学习框架的推荐系统离线训练方法

Also Published As

Publication number Publication date
CN112149824A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112149824B (zh) 利用博弈论更新推荐模型的方法及装置
CN108648049B (zh) 一种基于用户行为区别建模的序列推荐方法
Zhao et al. Deep reinforcement learning for list-wise recommendations
US20230153857A1 (en) Recommendation model training method, recommendation method, apparatus, and computer-readable medium
KR102203253B1 (ko) 생성적 적대 신경망에 기반한 평점 증강 및 아이템 추천 방법 및 시스템
CN110413754B (zh) 对话(中)奖励评估和对话方法、介质、装置和计算设备
US10902298B2 (en) Pushing items to users based on a reinforcement learning model
CN111401937A (zh) 数据推送方法、装置及存储介质
CN112528110A (zh) 确定实体业务属性的方法及装置
CN112085293B (zh) 训练交互预测模型、预测交互对象的方法及装置
CN115270001B (zh) 基于云端协同学习的隐私保护推荐方法及系统
CN111682972B (zh) 更新业务预测模型的方法及装置
Chen et al. Generative inverse deep reinforcement learning for online recommendation
CN112639841B (zh) 用于在多方策略互动中进行策略搜索的采样方案
CN109063870B (zh) 基于q学习的组合服务策略优化方法及系统
CN110689110A (zh) 处理交互事件的方法及装置
Ahamed et al. A recommender system based on deep neural network and matrix factorization for collaborative filtering
CN115600009A (zh) 一种考虑用户未来偏好的基于深度强化学习的推荐方法
CN115599990A (zh) 一种知识感知结合深度强化学习的跨域推荐方法及系统
Theocharous et al. Reinforcement learning for strategic recommendations
CN110263136A (zh) 基于强化学习模型向用户推送对象的方法和装置
Jiang et al. Intertemporal pricing via nonparametric estimation: Integrating reference effects and consumer heterogeneity
CN117056595A (zh) 一种交互式的项目推荐方法、装置及计算机可读存储介质
US20230353487A1 (en) Method, computer device, and non-transitory computer-readable recording medium for providing optimal path using expert knowledge
Stahl Combining case-based and similarity-based product recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40043790

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant