CN111860649A - 基于多智能体强化学习的动作集合输出方法及系统 - Google Patents

基于多智能体强化学习的动作集合输出方法及系统 Download PDF

Info

Publication number
CN111860649A
CN111860649A CN202010705611.1A CN202010705611A CN111860649A CN 111860649 A CN111860649 A CN 111860649A CN 202010705611 A CN202010705611 A CN 202010705611A CN 111860649 A CN111860649 A CN 111860649A
Authority
CN
China
Prior art keywords
agent
reinforcement learning
action
layer
agents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010705611.1A
Other languages
English (en)
Inventor
赵佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010705611.1A priority Critical patent/CN111860649A/zh
Publication of CN111860649A publication Critical patent/CN111860649A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于多智能体强化学习的动作集合输出方法及系统,方法包括S1、构建树结构的模型架构;S2、将步骤S1中构建的树结构中的每个子节点均建模为智能体,并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统;S3、所有智能体与环境交互,进行强化学习训练以形成动作集合输出模型;S4、利用基于多智能体强化学习动作集合输出模型对待处理的动作空间中的各动作进行评分,生成目标动作集合进行推荐。本发明使用多智能体强化学习方法处理大规模动作空间的动作集合决策问题,可以获得良好的可扩展性、更精准更快的训练和推理速度;本发明使用MCTS算法增加上层智能体决策的信息量,可进行有效的搜索,得到更加准确的决策。

Description

基于多智能体强化学习的动作集合输出方法及系统
技术领域
本发明涉及多智能体强化学习技术,特别涉及一种基于多智能体强化学习的动作集合输出方法及系统、电子设备及存储介质。
背景技术
在强化学习中,问题通常被建模为智能体和环境进行交互的马尔科夫决策过程MDP<S,A,R,P,γ>,S是状态空间,A是动作空间,R是奖励函数,P:S×A→S是概率转移算子,γ是折扣因子,t是时间步。智能体的策略是π:S→A,智能体通过接受环境反馈的状态st,获得观测状态ot,通过观测状态ot做出行动at,施加到环境中,环境接收到智能体的动作at之后,会反馈给智能体下一时刻的状态st+1和奖励rt+1。智能体的目标是优化长期的累计收益
Figure BDA0002594565510000011
T是时间范围。目前大部分的强化学习推荐系统都是建模为马尔可夫决策过程。
在训练过程中,可以考虑利用Q-Learning(一种强化学习算法)和DQN(Deep Q-Learning,一种深度强化学习算法),Q-Learning和DQN是强化学习中流行的方法,可以被直接应用到多智能体强化学习中。Q-Learning的策略π的Q-function(Q函数)是Qπ(s,a)=E[R|st=s,at=a]。这个Q-function可以被递归的写为Qπ(s,a)=Es′[r(s,a)+γEa′~π[Qπ(s,a′)]](即可以通过该公式计算Q值)。DQN学习通过最小化损失获得最优策略的Q-functionQ*:
L(θ)=ES,a,r,s′[(Q*(s,a|θ)-y)2],
Figure BDA0002594565510000012
其中
Figure BDA0002594565510000013
是目标Q-function,定期的更新目标Q-function可以使得学习过程更加稳定。
另外,在强化学习训练过程中,还可以考虑策略梯度方法,策略梯度方法是强化学习中另一个流行的方法。ρπ代表策略的状态访问分布,策略梯度方法主要的想法是直接优化参数θ最大化目标收益
Figure BDA0002594565510000021
通过直接对其求导,使用前述定义的Q函数进行策略的参数更新:
Figure BDA0002594565510000022
ρπ是状态分布。策略梯度定理有很多实用的方法,只是在估计Qπ的时候有差异,最常见一种是REINFORCE算法,直接用采样得到的奖励
Figure BDA0002594565510000023
还有一种是actor-critic(演员-评论家)算法,使用Q-functionQπ(s,a)的近似作为评论家。
另外,策略梯度可以被扩展到连续动作空间,可以通过DPG算法和DDPG算法优化确定性策略μθ:S→A的参数,具体可通过确定性策略梯度理论:
Figure BDA0002594565510000024
另外,搜索、推荐、广告领域广泛存在召回和排序问题,从大规模候选集合中,过滤出可能有效的候选集合,这个有效候选集合可能有上千的规模,最终展示在用户面前的时候,需要排好顺序,属于大规模决策集问题。自然语言处理领域中,语言模型、文本生成、机器翻译等任务中,需要从大规模的候选词表中,输出一个集合的词,属于大规模决策集问题。机器人领域中,机器人需要能够控制每个关节的角速度、运转方向等,需要输出一个集合的决策,属于大规模决策集问题。一些电子游戏中,存在上千万的候选动作,并且每个时刻需要输出多个动作,移动、释放技能、使用物品等,属于大规模决策集问题,而现有技术中对此并没有提供高效的解决方案,导致难以准确高效的在大规模动作空间中输出动作集合。
发明内容
本发明要解决的技术问题是为了克服现有技术中难以准确高效的在大规模动作空间中输出动作集合的缺陷,提供一种基于多智能体强化学习的动作集合输出方法及系统、电子设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供了一种基于多智能体强化学习的动作集合输出方法,所述方法包括以下步骤:
S1、构建树结构的模型架构;
S2、将步骤S1中构建的树结构中的每个子节点均建模为一个智能体,并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统;
S3、所有的智能体与环境交互,进行强化学习训练以形成动作集合输出模型;
S4、利用步骤S3中基于多智能体强化学习的动作集合输出模型对待处理的动作空间中的各动作进行评分,并生成目标动作集合进行推荐。
较佳地,所述树结构为i层m叉树,其中i和m均为正整数;i层层级结构中的每个节点n都是智能体j,
Figure BDA0002594565510000031
其中di是第i层容纳的智能体数量,映射
Figure BDA0002594565510000032
把智能体映射到第j层的跟随智能体;所有智能体可能的状态空间是S,动作空间是
Figure BDA0002594565510000033
观测是
Figure BDA0002594565510000034
第j个智能体的策略是
Figure BDA0002594565510000035
智能体j根据观测做出所有可能行动的概率分布;其中,第k层的智能体的策略记为
Figure BDA0002594565510000036
在每个时间步中,从第1层的策略π1到第i层的策略πi依次进行序列决策,直到第i层智能体做完决策之后,多智能体系统把联合决策传递到环境中,根据状态转移算子
Figure BDA0002594565510000037
根据当前时间步的状态和动作,产生下一个时间步的状态,每个智能体j的奖励由状态和动作的函数rj:S×Aj→R得到,环境根据智能体的状态和行动给出一个实数值的反馈,并且每个智能体接收到跟状态相关的观测为oj:S→Oj,从状态空间映射到每个智能体的观测空间;初始状态通过一个分布ρ:S→[0,1]得到,每个智能体j的目标是最大化总体的期望收益
Figure BDA0002594565510000038
是折扣因子,t是时间步,T是时间范围。
较佳地,使用Qπ(s,a)=Es′[r(s,a)+γEa′~π[Qπ(s′,a′)]]计算Q值,智能体j的策略πj使用参数ρj进行参数化,每个时间步t参数的更新通过如下公式:
Figure BDA0002594565510000041
每个智能体的值函数用于评估推荐子节点可以带来的收益,使用参数θj近似Qj,每个时间步t通过回归最小化均方误差训练参数:
Figure BDA0002594565510000042
其中
Figure BDA0002594565510000043
是t+1时间步,与j同层次的智能体的Q值的平均值。
较佳地,第l层的跟随智能体集合是Cl,第l层智能体的决策方式是
Figure BDA0002594565510000044
从跟随智能体中选出能够使得决策目标最大的k个智能体,其中λ∈[0,1];对于每个智能体j,P(s,aj)=(1-∈)πj(aj|s)+∈ηj,其中η~Dir(c),∈∈[0,1]和c∈[0,1],Dir是狄里克莱分布;直到第i层的跟随智能体输出一个集合的决策。
本发明还提供了一种基于多智能体强化学习的动作集合输出系统,所述系统包括:
模型构建模块,用于构建树结构的模型架构;
智能体建模模块,用于将所述模型构建模块构建的树结构中的每个子节点均建模为一个智能体,并通过层级化扩展的马尔科夫博弈形成一个多智能体系统;
强化学习训练模块,用于对所有的智能体与环境交互,进行强化学习训练以形成动作集合输出模型;
决策模块,用于利用所述动作集合输出模型对待处理的动作空间中的各动作进行评分,并生成目标动作集合进行推荐。
较佳地,所述树结构为i层m叉树,其中i和m均为正整数;i层层级结构中的每个节点n都是智能体j,
Figure BDA0002594565510000045
其中di是第i层容纳的智能体数量,映射
Figure BDA0002594565510000046
把智能体映射到第k层的跟随智能体;所有智能体可能的状态空间是S,动作空间是
Figure BDA0002594565510000047
观测是
Figure BDA0002594565510000048
第j个智能体的策略是
Figure BDA0002594565510000049
智能体j根据观测做出所有可能行动的概率分布;其中,第k层的智能体的策略记为
Figure BDA0002594565510000051
在每个时间步中,从第1层的策略π1到第i层的策略πi依次进行序列决策,直到第i层智能体做完决策之后,多智能体系统把联合决策传递到环境中,根据状态转移算子
Figure BDA0002594565510000052
根据当前时间步的状态和动作,产生下一个时间步的状态,每个智能体j的奖励由状态和动作的函数rj:S×Aj→R得到,环境根据智能体的状态和行动给出一个实数值的反馈,并且每个智能体接收到跟状态相关的观测为oj:S→Oj,从状态空间映射到每个智能体的观测空间;初始状态通过一个分布ρ:S→[0,1]得到,每个智能体j的目标是最大化总体的期望收益
Figure BDA0002594565510000053
是折扣因子,t是时间步,T是时间范围。
较佳地,使用Qπ(s,a)=Es′[r(s,a)+γEa′~π[Qπ(s′,a′)]]计算Q值,智能体j的策略πj使用参数ρj进行参数化,每个时间步t参数的更新通过如下公式:
Figure BDA0002594565510000054
每个智能体的值函数用于评估推荐子节点可以带来的收益,使用参数θj近似Qj,每个时间步t通过回归最小化均方误差训练参数:
Figure BDA0002594565510000055
其中
Figure BDA0002594565510000056
是t+1时间步,与j同层次的智能体的Q值的平均值。
较佳地,第l层的跟随智能体集合是Cl,第l层智能体的决策方式是
Figure BDA0002594565510000057
从跟随智能体中选出能够使得决策目标最大的k个智能体,其中λ∈[0,1];对于每个智能体j,P(s,aj)=(1-∈)πj(aj|s)+∈ηj,其中η~Dir(c),∈∈[0,1]和c∈[0,1],Dir是狄里克莱分布;直到第i层的跟随智能体输出一个集合的决策。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现上述的基于多智能体强化学习的动作集合输出方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于多智能体强化学习的动作集合输出方法的步骤。
本发明的积极进步效果在于:本发明使用多智能体强化学习方法处理大规模动作空间的动作集合决策问题,可以获得良好的可扩展性、更加精准更快的训练和推理速度以及广泛的应用;并且本发明使用MCTS(蒙特卡洛树搜索)算法增加上层智能体决策的信息量,可以进行有效的搜索,得到更加准确的决策。
附图说明
图1为本发明实施例1的基于多智能体强化学习的动作集合输出方法的流程图。
图2为本发明实施例2的基于多智能体强化学习的动作集合输出系统的模块示意图。
图3为本发明实施例3的电子设备的结构框图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供了一种基于多智能体强化学习的动作集合输出方法,所述方法通过树形结构的多智能体的相互合作,从而可以处理大规模行动空间的动作集合输出问题,具体可以扩展到千万级别的动作空间中输出上千个动作组成的集合的问题。
如图1所示,所述基于多智能体强化学习的动作集合输出方法包括以下步骤:
步骤101、构建树结构的模型架构;
其中,在本实施例中,具体构建TDM(Tree-based Deep Model,基于树的深度模型)的模型架构,具体构建了4层12叉树,使用的是TPGR(树结构策略梯度推荐系统)中构建平衡聚类树的方法,聚类方法包括kmeans(k均值聚类算法)、PCA(主成份分析)算法;当然,在具体实施过程中也可以采用其他构建树结构的算法来执行本步骤。
具体地,可以利用基础数据集进行聚类来构建TDM的树结构,例如,基础数据集中包含多个用户ID、多个商品ID、每个用户对每个商品的评分(如果未评分则评分设置为0)以及用户给出评分的时间,然后构建矩阵,矩阵的每一行对应一个用户,每一列对应一个商品,矩阵中各行各列的值则为相应用户对相应商品的打分,然后基于构建的矩阵进行聚类来构建上述4层12叉树的树结构。
其中,树内节点的嵌入表示使用零向量初始化,叶子节点的嵌入表示也使用零向量初始化,维度都是24维。每层使用深度模型进行打分,根据每个时间步输入的历史上用户评分过的数据,使用注意力机制抽取历史评分数据的嵌入和候选节点嵌入之间的公共特征,构建出用户的向量表示,然后把用户的向量表示和节点的嵌入表示进行拼接,通过多层感知机输出0-1之间的数值。
其中,在所述树结构中,每层智能体的参数是共享的,不同层智能体的参数是不同的。奖励是每个商品的用户评分,树内节点中的智能体的奖励是子节点奖励的最大值,构建出兴趣最大堆,折扣因子乘上下一个时间步的同层次叶子节点智能体累计收益的均值,作为当前时间步叶子节点智能体的累计收益,折扣因子γ设置为0.6。
本实施例中的TPGR会使用到循环神经网络进行状态的编码,把推荐一个集合的商品转变成序列决策的过程,以此求解组合优化问题。虽然降低了建模的难度,同时保证解的质量,但是序列决策串行计算的时间消耗会比较大,从而可能导致模型难以在在线的场景使用。本申请通过TDM的模型架构以及多智能体强化学习方法能够充分的并行化计算,可以直接输出一个集合的商品,大幅减少训练和决策的耗时。
步骤102、将步骤101中构建的树结构中的每个子节点均建模为一个智能体;从而通过步骤102描述的层级化扩展的马尔科夫博弈形成一个多智能体系统;
在本实施例中,针对的是大规模决策集问题,即从大规模的行动空间中选出一个集合的决策执行的问题,其中,行动空间可以达到千万、上亿的规模,决策集合的规模也可以达到上千,决策可以是离散的、也可以是连续的,而每个决策通过一个智能体来实现,在所述树结构中,上层的智能体可以有多个跟随的下层智能体(具体到本实施例中每个上层的智能体有12个跟随的下层智能体),每个时间步决策的时候,上层的智能体先做决策,相应的跟随智能体后做决策;本实施例具体到商品方面的应用,即是从千万个商品中选出一个商品集合推荐给用户。
具体在本实施例中,i(i为树结构的总层数,在本实施例中具体取值可为4)层层级结构中的每个节点n都是智能体
Figure BDA0002594565510000081
其中di是第i层容纳的智能体数量,映射
Figure BDA0002594565510000082
把智能体映射到第k层的跟随智能体。所有智能体可能的状态空间是S,动作空间是
Figure BDA0002594565510000083
观测是
Figure BDA0002594565510000084
第j个智能体的策略是
Figure BDA0002594565510000085
智能体j根据观测做出所有可能行动的概率分布。为了方便阐述,把第k层的智能体的策略记为
Figure BDA0002594565510000086
在每个时间步中,从第1层的策略π1到第i层的策略πi进行序列决策,直到第i层智能体做完决策之后,多智能体系统才把联合决策传递到环境中,根据状态转移算子
Figure BDA0002594565510000087
根据当前时间步的状态和动作,产生下一个时间步的状态,每个智能体j的奖励由状态和动作的函数得到rj:S×Aj→R,环境根据智能体的状态和行动给出一个实数值的反馈,并且每个智能体接收到跟状态相关的观测oj:S→Oj,从状态空间映射到每个智能体的观测空间。初始状态通过一个分布得到ρ:S→[0,1](即从状态空间中采样出一个初始状态),每个智能体j的目标是最大化总体的期望收益
Figure BDA0002594565510000091
是折扣因子,t是时间步,T是时间范围。
步骤103、对所有的智能体进行强化学习训练;
具体在步骤103中,所有的智能体会与环境进行交互,进行强化学习训练以得到动作集合输出模型;
本实施例中强化学习推荐系统使用层级化扩展的马尔科夫博弈建模。
在本实施例构建的强化学习推荐系统中,用户是环境,每个用户都被视作一个独立的环境。树结构中的每个节点都是智能体,树内节点代表了兴趣点,第i层(即最后一层)的叶子节点代表了具体的商品,状态空间是所有商品,第t个时间步的st是用户给出反馈的商品,每个时间步第a层的智能体输出推荐子节点的概率,通过束搜索选择最有可能的候选进入第a+1层的决策,一直到第i层把多智能体系统的决策传递到环境中,通过用户给出的商品评分进行反馈,转移概率算子是从上一时间步用户给出反馈的商品和智能体联合策略执行的动作映射到下一时间步用户给出反馈的商品上,第i层第j个智能体的奖励是
Figure BDA0002594565510000092
第l层的第m个智能体nlm的奖励是
Figure BDA0002594565510000093
在本实施例中,通过使用多智能体强化学习的优化方式,基于兴趣最大堆的奖励设计,设置智能体的奖励是用户的评分,树内节点的奖励的值是子孙节点的奖励的最大值,所有的智能体被参数化为
Figure BDA0002594565510000095
策略
Figure BDA0002594565510000096
是所有智能体策略的集合,对于第j个智能体(智能体j的策略πj使用参数ρj进行参数化),每个时间步t权重的更新通过以下公式计算:
Figure BDA0002594565510000094
多智能体强化学习方法可以通过简单的复用参数的方式进行智能体之间的交流合作。
另外,在本实施例中,每个智能体的值函数用于评估推荐子节点可以带来的收益,使用参数θj近似Qj,每个时间步t通过回归最小化均方误差训练权重:
Figure BDA0002594565510000101
其中
Figure BDA0002594565510000102
是t+1时间步,与j同层次的智能体的Q值的平均值。
另外,本实施例使用UCT(上限置信区间算法)方法,在每个智能体输出的概率之上乘了正比例于1/(Nj+1)的数,Nj是第j个智能体已经推荐的商品的个数,再按照比例加上了Q-function的预测结果,每层选取值最高的k个智能体,获取其子节点,直到叶子节点输出决策,第l层的候选智能体集合是Cl,获取其中使得目标最高的k个智能体的候选集合
Figure BDA0002594565510000103
Figure BDA0002594565510000104
其中,λ是0-1之间的常数。从跟随智能体中选出能够使到决策目标最大的k个智能体,其中λ∈[0,1]。对于每个智能体j,P(s,aj)=(1-∈)πj(aj|s)+∈ηj,其中η~Dir(c),∈∈[0,1]和c∈[0,1],Dir是狄里克莱分布。直到第i层的跟随智能体输出一个集合的决策。
在本实施例的上述多智能体的模型构建及加强学习训练的过程中,在构建完模型结构之后,使用演员-评论家算法的技巧来优化每个智能体,学习率为0.001,Q-function跟策略共享抽取用户特征的注意力的参数。增加噪音的探索方法从狄里克莱分布中采样出一些概率值按比例加到智能体算出来的得分的概率值上,狄里克莱分布的参数c是0.7,权重∈是0.34。UCT方法的探索项,直接使用Q-function计算出来的值按比例加到探索项上,权重λ是0.75。熵正则项的权重是1。
另外,在本实施例的多智能体强化学习训练过程中,输入包括用户历史行为数据,用户历史行为数据包括但不限于用户对商品的历史评分数据;输出包括但不限于推荐跟随节点的打分、推荐商品的打分;目标包括但不限于用户平均评分提高、用户总体消费水平提高。
步骤104、利用步骤103中基于多智能体强化学习的动作集合输出模型对待处理的动作空间中的各动作进行评分,并决策出目标动作集合进行推荐;
其中,具体到商品推荐的过程中,所述动作空间即所有商品的集合,步骤104中会通过树结构的多智能体层层决策的方式对商品进行评分和排序,并获取若干个待推荐的商品形成目标商品集合推荐给用户。
在本实施例的具体实施过程中,每个智能体每个时间步获得环境(即用户)反馈(即用户对商品的评分)和状态,根据状态进行决策,上层的智能体使用公式计算出分数,按照分数高低,选取分数最高的一个集合的智能体,进行下一层其跟随智能体的决策,下一层跟随智能体也给出打分,选取分数最高的智能体集合,进入其跟随智能体的决策,直到最下一层的智能体决策(即可选取待推荐的商品)之后,整个智能体系统的决策输入到环境中,在下一个时间步,每个智能体获得当前时间步的观测和上一个时间步的奖励。
实施例2
本实施例提供了一种基于多智能体强化学习的动作集合输出系统,如图2所示,所述系统包括:模型构建模块21、智能体建模模块22、强化学习训练模块23以及决策模块24;
其中,本实施例的基于多智能体强化学习的动作集合输出系统与实施例1的基于多智能体强化学习的动作集合输出方法相互对应,所以模型构建模块21、智能体建模模块22、强化学习训练模块23以及决策模块24能够分别执行实施例1中的步骤101、步骤102、步骤103以及步骤104。
具体地,模型构建模块21,用于构建树结构的模型架构;
其中,在本实施例中,具体构建TDM(Tree-based Deep Model,基于树的深度模型)的模型架构,具体构建了4层12叉树,使用的是TPGR(树结构策略梯度推荐系统)中构建平衡聚类树的方法,聚类方法包括kmeans(k均值聚类算法)、PCA(主成份分析)算法;当然,在具体实施过程中也可以采用其他构建树结构的算法来进行树结构的构建。
具体地,可以利用基础数据集进行聚类来构建TDM的树结构,例如,基础数据集中包含多个用户ID、多个商品ID、每个用户对每个商品的评分(如果未评分则评分设置为0)以及用户给出评分的时间,然后构建矩阵,矩阵的每一行对应一个用户,每一列对应一个商品,矩阵中各行各列的值则为相应用户对相应商品的打分,然后基于构建的矩阵进行聚类来构建上述4层12叉树的树结构。
其中,树内节点的嵌入表示使用零向量初始化,叶子节点的嵌入表示也使用零向量初始化,维度都是24维。每层使用深度模型进行打分,根据每个时间步输入的历史上用户评分过的数据,使用注意力机制抽取历史评分数据的嵌入和候选节点嵌入之间的公共特征,构建出用户的向量表示,然后把用户的向量表示和节点的嵌入表示进行拼接,通过多层感知机输出0-1之间的数值。
其中,在所述树结构中,每层智能体的参数是共享的,不同层智能体的参数是不同的。奖励是每个商品的用户评分,树内节点中的智能体的奖励是子节点奖励的最大值,构建出兴趣最大堆,折扣因子乘上下一个时间步的同层次叶子节点智能体累计收益的均值,作为当前时间步叶子节点智能体的累计收益,折扣因子γ设置为0.6。
本实施例中的TPGR会使用到循环神经网络进行状态的编码,把推荐一个集合的商品转变成序列决策的过程,以此求解组合优化问题。虽然降低了建模的难度,同时保证解的质量,但是序列决策串行计算的时间消耗会比较大,从而可能导致模型难以在在线的场景使用。本申请通过TDM的模型架构以及多智能体强化学习方法能够充分的并行化计算,可以直接输出一个集合的商品,大幅减少训练和决策的耗时。
智能体建模模块22,用于将所述模型构建模块21构建的树结构中的每个子节点均建模为一个智能体,并通过层级化扩展的马尔科夫博弈形成一个多智能体系统;
在本实施例中,针对的是大规模决策集问题,即从大规模的行动空间中选出一个集合的决策执行的问题,其中,行动空间可以达到千万、上亿的规模,决策集合的规模也可以达到上千,决策可以是离散的、也可以是连续的,而每个决策通过一个智能体来实现,在所述树结构中,上层的智能体可以有多个跟随的下层智能体(具体到本实施例中每个上层的智能体有12个跟随的下层智能体),每个时间步决策的时候,上层的智能体先做决策,相应的跟随智能体后做决策;本实施例具体到商品方面的应用,即是从千万个商品中选出一个商品集合推荐给用户。
具体在本实施例中,i(i为树结构的总层数,在本实施例中具体取值可为4)层层级结构中的每个节点n都是智能体
Figure BDA0002594565510000131
其中di是第i层容纳的智能体数量,映射
Figure BDA0002594565510000132
把智能体映射到第k层的跟随智能体。所有智能体可能的状态空间是S,动作空间是
Figure BDA0002594565510000133
观测是
Figure BDA0002594565510000134
第j个智能体的策略是
Figure BDA0002594565510000135
智能体j根据观测做出所有可能行动的概率分布。为了方便阐述,把第k层的智能体的策略记为
Figure BDA0002594565510000136
在每个时间步中,从第1层的策略π1到第i层的策略πi进行序列决策,直到第i层智能体做完决策之后,多智能体系统才把联合决策传递到环境中,根据状态转移算子
Figure BDA0002594565510000137
根据当前时间步的状态和动作,产生下一个时间步的状态,每个智能体j的奖励由状态和动作的函数得到rj:S×Aj→R,环境根据智能体的状态和行动给出一个实数值的反馈,并且每个智能体接收到跟状态相关的观测oj:S→Oj,从状态空间映射到每个智能体的观测空间。初始状态通过一个分布得到ρ:S→[0,1](即从状态空间中采样出一个初始状态),每个智能体j的目标是最大化总体的期望收益
Figure BDA0002594565510000138
γ∈(0,1)是折扣因子,t是时间步,T是时间范围。
强化学习训练模块23,用于对所有的智能体进行强化学习训练以形成动作集合输出模型;
具体地,所有的智能体会与环境进行交互,进行强化学习训练以得到动作集合输出模型;
本实施例中强化学习推荐系统使用层级化扩展的马尔科夫博弈建模。
在本实施例构建的强化学习推荐系统中,用户是环境,每个用户都被视作一个独立的环境。树结构中的每个节点都是智能体,树内节点代表了兴趣点,第i层(即最后一层)的叶子节点代表了具体的商品,状态空间是所有商品,第t个时间步的st是用户给出反馈的商品,每个时间步第a层的智能体输出推荐子节点的概率,通过束搜索选择最有可能的候选进入第a+1层的决策,一直到第i层把多智能体系统的决策传递到环境中,通过用户给出的商品评分进行反馈,转移概率算子是从上一时间步用户给出反馈的商品和智能体联合策略执行的动作映射到下一时间步用户给出反馈的商品上,第i层第j个智能体的奖励是
Figure BDA0002594565510000141
第l层的第m个智能体nlm的奖励是
Figure BDA0002594565510000142
在本实施例中,通过使用多智能体强化学习的优化方式,基于兴趣最大堆的奖励设计,设置智能体的奖励是用户的评分,树内节点的奖励的值是子孙节点的奖励的最大值,所有的智能体被参数化为
Figure BDA0002594565510000143
策略
Figure BDA0002594565510000144
是所有智能体策略的集合,对于第j个智能体(智能体j的策略πj使用参数ρj进行参数化),每个时间步t权重的更新通过以下公式计算:
Figure BDA0002594565510000145
多智能体强化学习方法可以通过简单的复用参数的方式进行智能体之间的交流合作。
另外,在本实施例中,每个智能体的值函数用于评估推荐子节点可以带来的收益,使用参数θj近似Qj,每个时间步t通过回归最小化均方误差训练权重:
Figure BDA0002594565510000146
其中
Figure BDA0002594565510000147
是t+1时间步,与j同层次的智能体的Q值的平均值。
另外,本实施例使用UCT(上限置信区间算法)方法,在每个智能体输出的概率之上乘了正比例于1/(Nj+1)的数,Nj是第j个智能体已经推荐的商品的个数,再按照比例加上了Q-function的预测结果,每层选取值最高的k个智能体,获取其子节点,直到叶子节点输出决策,第l层的候选智能体集合是Cl,获取其中使得目标最高的k个智能体的候选集合
Figure BDA0002594565510000151
Figure BDA0002594565510000152
其中,λ是0-1之间的常数。从跟随智能体中选出能够使到决策目标最大的k个智能体,其中λ∈[0,1]。对于每个智能体j,P(s,aj)=(1-∈)πj(aj|s)+∈ηj,其中η~Dir(c),∈∈[0,1]和c∈[0,1],Dir是狄里克莱分布。直到第i层的跟随智能体输出一个集合的决策。
在本实施例的上述多智能体的模型构建及加强学习训练的过程中,在构建完模型结构之后,使用演员-评论家算法的技巧来优化每个智能体,学习率为0.001,Q-function跟策略共享抽取用户特征的注意力的参数。增加噪音的探索方法从狄里克莱分布中采样出一些概率值按比例加到智能体算出来的得分的概率值上,狄里克莱分布的参数c是0.7,权重∈是0.34。UCT方法的探索项,直接使用Q-function计算出来的值按比例加到探索项上,权重λ是0.75。熵正则项的权重是1。
另外,在本实施例的多智能体强化学习训练过程中,输入包括用户历史行为数据,用户历史行为数据包括但不限于用户对商品的历史评分数据;输出包括但不限于推荐跟随节点的打分、推荐商品的打分;目标包括但不限于用户平均评分提高、用户总体消费水平提高。
决策模块24,用于利用所述动作集合输出模型,对待处理的动作空间中的各动作进行评分,并决策出目标动作集合进行推荐。
其中,具体到商品推荐的过程中,所述动作空间即所有商品的集合,步骤104中会通过树结构的多智能体层层决策的方式对商品进行评分和排序,并获取若干个待推荐的商品形成目标商品集合推荐给用户。
在本实施例的具体实施过程中,每个智能体每个时间步获得环境(即用户)反馈(即用户对商品的评分)和状态,根据状态进行决策,上层的智能体使用公式计算出分数,按照分数高低,选取分数最高的一个集合的智能体,进行下一层其跟随智能体的决策,下一层跟随智能体也给出打分,选取分数最高的智能体集合,进入其跟随智能体的决策,直到最下一层的智能体决策(即可选取待推荐的商品)之后,整个智能体系统的决策输入到环境中,在下一个时间步,每个智能体获得当前时间步的观测和上一个时间步的奖励。
实施例3
本发明还提供一种电子设备,如图3所示,所述电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现前述实施例1中的基于多智能体强化学习的动作集合输出方法的步骤。
可以理解的是,图3所示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备2可以以通用计算设备的形式表现,例如:其可以为服务器设备。电子设备2的组件可以包括但不限于:上述至少一个处理器3、上述至少一个存储器4、连接不同系统组件(包括存储器4和处理器3)的总线5。
所述总线5可以包括数据总线、地址总线和控制总线。
所述存储器4可以包括易失性存储器,例如随机存取存储器(RAM)41和/或高速缓存存储器42,还可以进一步包括只读存储器(ROM)43。
所述存储器4还可以包括具有一组(至少一个)程序模块44的程序工具45(或实用工具),这样的程序模块44包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
所述处理器3通过运行存储在所述存储器4中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明前述实施例1中的基于多智能体强化学习的动作集合输出方法的步骤。
所述电子设备2也可以与一个或多个外部设备6(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口7进行。并且,模型生成的电子设备2还可以通过网络适配器8与一个或者多个网络(例如局域网LAN,广域网WAN和/或公共网络)通信。
如图3所示,网络适配器8可以通过总线5与模型生成的电子设备2的其它模块通信。本领域技术人员应当明白,尽管图中未示出,可以结合模型生成的电子设备2使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
需要说明的是,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现前述实施例1中的基于多智能体强化学习的动作集合输出方法的步骤。
其中,计算机可读存储介质可以采用的更具体方式可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现前述实施例1中的基于多智能体强化学习的动作集合输出方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

1.一种基于多智能体强化学习的动作集合输出方法,其特征在于,所述方法包括以下步骤:
S1、构建树结构的模型架构;
S2、将步骤S1中构建的树结构中的每个子节点均建模为一个智能体,并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统;
S3、所有的智能体与环境交互,进行强化学习训练以得到动作集合输出模型;
S4、利用步骤S3中基于多智能体强化学习的动作集合输出模型对动作空间中的各动作进行评分,并且决策出目标动作集合。
2.如权利要求1所述的基于多智能体强化学习的动作集合输出方法,其特征在于,所述树结构为i层m叉树,其中i和m均为正整数;i层层级结构中的每个节点n都是智能体j,
Figure FDA0002594565500000011
其中di是第i层容纳的智能体数量,映射
Figure FDA0002594565500000012
把智能体映射到第k层的跟随智能体;所有智能体可能的状态空间是S,动作空间是
Figure FDA0002594565500000013
观测是
Figure FDA0002594565500000014
第j个智能体的策略是
Figure FDA0002594565500000015
Oj×Aj→[0,1],智能体j根据观测做出所有可能行动的概率分布;其中,第k层的智能体的策略记为
Figure FDA0002594565500000016
在每个时间步中,从第1层的策略π1到第i层的策略πi依次进行序列决策,直到第i层智能体做完决策之后,多智能体系统把联合决策传递到环境中,根据状态转移算子T:
Figure FDA0002594565500000017
根据当前时间步的状态和动作,产生下一个时间步的状态,每个智能体j的奖励由状态和动作的函数rj:S×Aj→R得到,环境根据智能体的状态和行动给出一个实数值的反馈,并且每个智能体接收到跟状态相关的观测为oj:S→Oj,从状态空间映射到每个智能体的观测空间;初始状态通过一个分布ρ:S→[0,1]得到,每个智能体j的目标是最大化总体的期望收益
Figure FDA0002594565500000018
γ∈(0,1)是折扣因子,t是时间步,T是时间范围。
3.如权利要求2所述的基于多智能体强化学习的动作集合输出方法,其特征在于,使用Qπ(s,a)=Es′[r(s,a)+γEa′~π[Qπ(s′,a′)]]计算Q值,智能体j的策略πj使用参数ρj进行参数化,每个时间步t参数的更新通过如下公式:
Figure FDA0002594565500000021
每个智能体的值函数用于评估推荐子节点可以带来的收益,使用参数θj近似Qj,每个时间步t通过回归最小化均方误差训练参数:
Figure FDA0002594565500000022
其中
Figure FDA0002594565500000023
是t+1时间步,与j同层次的智能体的Q值的平均值。
4.如权利要求2或3所述的基于多智能体强化学习的动作集合输出方法,其特征在于,第l层的跟随智能体集合是Cl,第l层智能体的决策方式是
Figure FDA0002594565500000024
从跟随智能体中选出能够使得决策目标最大的k个智能体,其中λ∈[0,1];对于每个智能体j,P(s,aj)=(1-∈)πj(aj|s)+∈ηj,其中η~Dir(c),∈∈[0,1]和c∈[0,1],Dir是狄里克莱分布,Nj是第j个智能体已经被选中的次数;直到第i层的跟随智能体输出一个集合的决策。
5.一种基于多智能体强化学习的动作集合输出系统,其特征在于,所述系统包括:
模型构建模块,用于构建树结构的模型架构;
智能体建模模块,用于将所述模型构建模块构建的树结构中的每个子节点均建模为一个智能体,并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统;
强化学习训练模块,用于所有的智能体与环境交互,进行强化学习训练以形成动作集合输出模型;
决策模块,用于利用所述动作集合输出模型对待处理的动作空间中的各动作进行评分,并生成目标动作集合进行推荐。
6.如权利要求5所述的基于多智能体强化学习的动作集合输出系统,其特征在于,所述树结构为i层m叉树,其中i和m均为正整数;i层层级结构中的每个节点n都是智能体j,
Figure FDA0002594565500000025
其中di是第i层容纳的智能体数量,映射
Figure FDA0002594565500000031
把智能体映射到第k层的跟随智能体;所有智能体可能的状态空间是S,动作空间是
Figure FDA0002594565500000032
观测是
Figure FDA0002594565500000033
第j个智能体的策略是
Figure FDA00025945655000000312
智能体j根据观测做出所有可能行动的概率分布;其中,第k层的智能体的策略记为
Figure FDA0002594565500000034
在每个时间步中,从第1层的策略π1到第i层的策略πi依次进行序列决策,直到第i层智能体做完决策之后,多智能体系统把联合决策传递到环境中,根据状态转移算子T:
Figure FDA0002594565500000035
根据当前时间步的状态和动作,产生下一个时间步的状态,每个智能体j的奖励由状态和动作的函数rj:S×Aj→R到,环境根据智能体的状态和行动给出一个实数值的反馈,并且每个智能体接收到跟状态相关的观测为oj:S→Oj,从状态空间映射到每个智能体的观测空间;初始状态通过一个分布ρ:S→[0,1]得到,每个智能体j的目标是最大化总体的期望收益
Figure FDA0002594565500000036
Figure FDA0002594565500000037
γ∈(0,1)是折扣因子,t是时间步,T是时间范围。
7.如权利要求6所述的基于多智能体强化学习的动作集合输出系统,其特征在于,使用Qπ(s,a)=Es′[r(s,a)+γEa′~π[Qπ(s′,a′)]]计算Q值,智能体j的策略πj使用参数ρj进行参数化,每个时间步t参数的更新通过如下公式:
Figure FDA0002594565500000038
每个智能体的值函数用于评估推荐子节点可以带来的收益,使用参数θj近似Qj,每个时间步t通过回归最小化均方误差训练参数:
Figure FDA0002594565500000039
其中
Figure FDA00025945655000000310
是t+1时间步,与j同层次的智能体的Q值的平均值。
8.如权利要求6或7所述的基于多智能体强化学习的动作集合输出系统,其特征在于,第l层的跟随智能体集合是Cl,第l层智能体的决策方式是
Figure FDA00025945655000000311
从跟随智能体中选出能够使得决策目标最大的k个智能体,其中λ∈[0,1];对于每个智能体j,P(s,aj)=(1-∈)πj(aj|s)+∈ηj,其中η~Dir(c),∈∈[0,1]和c∈[0,1],Dir是狄里克莱分布;直到第i层的跟随智能体输出一个集合的决策。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1-4任一项所述的基于多智能体强化学习的动作集合输出方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4任一项所述的基于多智能体强化学习的动作集合输出方法的步骤。
CN202010705611.1A 2020-07-21 2020-07-21 基于多智能体强化学习的动作集合输出方法及系统 Pending CN111860649A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010705611.1A CN111860649A (zh) 2020-07-21 2020-07-21 基于多智能体强化学习的动作集合输出方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010705611.1A CN111860649A (zh) 2020-07-21 2020-07-21 基于多智能体强化学习的动作集合输出方法及系统

Publications (1)

Publication Number Publication Date
CN111860649A true CN111860649A (zh) 2020-10-30

Family

ID=73001451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010705611.1A Pending CN111860649A (zh) 2020-07-21 2020-07-21 基于多智能体强化学习的动作集合输出方法及系统

Country Status (1)

Country Link
CN (1) CN111860649A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528160A (zh) * 2020-12-25 2021-03-19 北京百度网讯科技有限公司 智能推荐、模型训练方法、装置、电子设备及存储介质
CN112597391A (zh) * 2020-12-25 2021-04-02 厦门大学 一种基于动态递归机制的分层强化学习的推荐系统
CN112612948A (zh) * 2020-12-14 2021-04-06 浙大城市学院 一种基于深度强化学习的推荐系统构建方法
CN112818356A (zh) * 2021-03-03 2021-05-18 杭州师范大学 一种基于强化学习的控制流完整性保护方法
CN112827174A (zh) * 2021-02-05 2021-05-25 清华大学 一种分布式多机器人目标搜索方法
CN112884129A (zh) * 2021-03-10 2021-06-01 中国人民解放军军事科学院国防科技创新研究院 一种基于示教数据的多步规则提取方法、设备及存储介质
CN112948707A (zh) * 2021-02-02 2021-06-11 辽宁工程技术大学 一种强化学习优化lfm的协同过滤推荐算法
CN113033306A (zh) * 2021-02-20 2021-06-25 同济大学 一种信号源搜索方法
CN113111192A (zh) * 2021-04-28 2021-07-13 清华大学 智能体主动构建环境场景图谱的方法、设备和探索方法
CN113110582A (zh) * 2021-04-22 2021-07-13 中国科学院重庆绿色智能技术研究院 无人机集群智能系统控制方法
CN113269297A (zh) * 2021-07-19 2021-08-17 东禾软件(江苏)有限责任公司 一种面向时间约束的多智能体的调度方法
CN113377655A (zh) * 2021-06-16 2021-09-10 南京大学 一种基于MAS-Q-Learing的任务分配方法
CN113919485A (zh) * 2021-10-19 2022-01-11 西安交通大学 基于动态层级通信网络的多智能体强化学习方法及系统
CN113992524A (zh) * 2021-09-28 2022-01-28 北京工业大学 网络切片优化处理方法及系统
CN114048834A (zh) * 2021-11-05 2022-02-15 哈尔滨工业大学(深圳) 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置
CN114100137A (zh) * 2021-11-30 2022-03-01 上海完美时空软件有限公司 一种游戏角色控制方法、装置及存储介质
CN115759298A (zh) * 2023-01-09 2023-03-07 白杨时代(北京)科技有限公司 一种决策动作确定方法、装置、设备及介质
CN116779150A (zh) * 2023-07-03 2023-09-19 浙江一山智慧医疗研究有限公司 基于多智能体互动的个性化医疗决策方法、装置及应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘强;姜峰;: "基于深度强化学习的群体对抗策略研究", 智能计算机与应用, no. 05, 1 May 2020 (2020-05-01) *
张健;潘耀宗;杨海涛;孙舒;赵洪利;: "基于蒙特卡洛Q值函数的多智能体决策方法", 控制与决策, no. 03, 31 March 2020 (2020-03-31) *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612948A (zh) * 2020-12-14 2021-04-06 浙大城市学院 一种基于深度强化学习的推荐系统构建方法
CN112612948B (zh) * 2020-12-14 2022-07-08 浙大城市学院 一种基于深度强化学习的推荐系统构建方法
CN112528160B (zh) * 2020-12-25 2024-02-20 北京百度网讯科技有限公司 智能推荐、模型训练方法、装置、电子设备及存储介质
CN112597391A (zh) * 2020-12-25 2021-04-02 厦门大学 一种基于动态递归机制的分层强化学习的推荐系统
CN112597391B (zh) * 2020-12-25 2022-08-12 厦门大学 一种基于动态递归机制的分层强化学习的推荐系统
CN112528160A (zh) * 2020-12-25 2021-03-19 北京百度网讯科技有限公司 智能推荐、模型训练方法、装置、电子设备及存储介质
CN112948707A (zh) * 2021-02-02 2021-06-11 辽宁工程技术大学 一种强化学习优化lfm的协同过滤推荐算法
CN112827174A (zh) * 2021-02-05 2021-05-25 清华大学 一种分布式多机器人目标搜索方法
CN112827174B (zh) * 2021-02-05 2024-05-07 清华大学 一种分布式多机器人目标搜索方法
CN113033306B (zh) * 2021-02-20 2023-04-18 同济大学 一种信号源搜索方法
CN113033306A (zh) * 2021-02-20 2021-06-25 同济大学 一种信号源搜索方法
CN112818356B (zh) * 2021-03-03 2023-11-24 杭州师范大学 一种基于强化学习的控制流完整性保护方法
CN112818356A (zh) * 2021-03-03 2021-05-18 杭州师范大学 一种基于强化学习的控制流完整性保护方法
CN112884129A (zh) * 2021-03-10 2021-06-01 中国人民解放军军事科学院国防科技创新研究院 一种基于示教数据的多步规则提取方法、设备及存储介质
CN113110582A (zh) * 2021-04-22 2021-07-13 中国科学院重庆绿色智能技术研究院 无人机集群智能系统控制方法
CN113110582B (zh) * 2021-04-22 2023-06-02 中国科学院重庆绿色智能技术研究院 无人机集群智能系统控制方法
CN113111192A (zh) * 2021-04-28 2021-07-13 清华大学 智能体主动构建环境场景图谱的方法、设备和探索方法
CN113111192B (zh) * 2021-04-28 2022-03-29 清华大学 智能体主动构建环境场景图谱的方法、设备和探索方法
CN113377655B (zh) * 2021-06-16 2023-06-20 南京大学 一种基于MAS-Q-Learing的任务分配方法
CN113377655A (zh) * 2021-06-16 2021-09-10 南京大学 一种基于MAS-Q-Learing的任务分配方法
CN113269297B (zh) * 2021-07-19 2021-11-05 东禾软件(江苏)有限责任公司 一种面向时间约束的多智能体的调度方法
CN113269297A (zh) * 2021-07-19 2021-08-17 东禾软件(江苏)有限责任公司 一种面向时间约束的多智能体的调度方法
CN113992524B (zh) * 2021-09-28 2024-04-09 北京工业大学 网络切片优化处理方法及系统
CN113992524A (zh) * 2021-09-28 2022-01-28 北京工业大学 网络切片优化处理方法及系统
CN113919485B (zh) * 2021-10-19 2024-03-15 西安交通大学 基于动态层级通信网络的多智能体强化学习方法及系统
CN113919485A (zh) * 2021-10-19 2022-01-11 西安交通大学 基于动态层级通信网络的多智能体强化学习方法及系统
CN114048834A (zh) * 2021-11-05 2022-02-15 哈尔滨工业大学(深圳) 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置
CN114048834B (zh) * 2021-11-05 2023-01-17 哈尔滨工业大学(深圳) 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置
CN114100137A (zh) * 2021-11-30 2022-03-01 上海完美时空软件有限公司 一种游戏角色控制方法、装置及存储介质
CN115759298A (zh) * 2023-01-09 2023-03-07 白杨时代(北京)科技有限公司 一种决策动作确定方法、装置、设备及介质
CN116779150B (zh) * 2023-07-03 2023-12-22 浙江一山智慧医疗研究有限公司 基于多智能体互动的个性化医疗决策方法、装置及应用
CN116779150A (zh) * 2023-07-03 2023-09-19 浙江一山智慧医疗研究有限公司 基于多智能体互动的个性化医疗决策方法、装置及应用

Similar Documents

Publication Publication Date Title
CN111860649A (zh) 基于多智能体强化学习的动作集合输出方法及系统
CN111460249B (zh) 一种基于学习者偏好建模的个性化学习资源推荐方法
Killian et al. Robust and efficient transfer learning with hidden parameter markov decision processes
Boussabaine The use of artificial neural networks in construction management: a review
Chen et al. Deep reinforcement learning in recommender systems: A survey and new perspectives
Shukla Neuro-genetic prediction of software development effort
Cuk et al. Feedforward multi-layer perceptron training by hybridized method between genetic algorithm and artificial bee colony
Wei et al. Deep reinforcement learning and parameter transfer based approach for the multi-objective agile earth observation satellite scheduling problem
WO2002088989A1 (en) Adaptive dynamic personal modeling system and method
Serban et al. The bottleneck simulator: A model-based deep reinforcement learning approach
CN112905801A (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
CN110543600A (zh) 基于神经网络的搜索排序方法、系统、设备和存储介质
Froelich et al. Predictive capabilities of adaptive and evolutionary fuzzy cognitive maps-a comparative study
Basak et al. Ceesa meets machine learning: A constant elasticity earth similarity approach to habitability and classification of exoplanets
Shrivastava et al. Deep learning model for temperature prediction: an empirical study
Blei et al. Variational inference: Foundations and modern methods
Huang et al. A coevolutionary estimation of distribution algorithm based on dynamic differential grouping for mixed-variable optimization problems
Ding et al. An approach for combining multimodal fusion and neural architecture search applied to knowledge tracing
CN110717116A (zh) 关系网络的链接预测方法及系统、设备、存储介质
Zhou et al. Online recommendation based on incremental-input self-organizing map
Villacorta et al. Sensitivity analysis in the scenario method: A multi-objective approach
Espinós Longa et al. Swarm Intelligence in Cooperative Environments: Introducing the N-Step Dynamic Tree Search Algorithm
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统
Chu et al. A data-driven meta-learning recommendation model for multi-mode resource constrained project scheduling problem
Ghosh et al. A collaborative beetle antennae search algorithm using memory based adaptive learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination