CN115130376A - 一种基于行列式多样性引导的群体强化学习训练方法 - Google Patents

一种基于行列式多样性引导的群体强化学习训练方法 Download PDF

Info

Publication number
CN115130376A
CN115130376A CN202210702974.9A CN202210702974A CN115130376A CN 115130376 A CN115130376 A CN 115130376A CN 202210702974 A CN202210702974 A CN 202210702974A CN 115130376 A CN115130376 A CN 115130376A
Authority
CN
China
Prior art keywords
determinant
matrix
similarity
random
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210702974.9A
Other languages
English (en)
Inventor
蒋竟成
杨鑫
魏小鹏
朴海音
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210702974.9A priority Critical patent/CN115130376A/zh
Publication of CN115130376A publication Critical patent/CN115130376A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Optimization (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Molecular Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于人工智能技术领域,提出了一种基于行列式多样性引导的群体强化学习训练方法,包括计算成对随机策略的确定性相似性估计核矩阵,适用于覆盖了离散和连续动作空间情况的基于随机策略梯度的算法,并且确定性相似性估计可到多步设置,该核矩阵构成的行列式从高维空间中衡量群体的多样性。基于行列式的强化学习群体训练,通过多臂老虎机算法选择温度系数,优化代替行列式目标来调节群体的多样性或相似性,提高群体性能。本发明所提出的基于梯度的行列式,可以通过自动微分更新策略网络权重。本发明所提出的代替行列式来自对原始矩阵进行平滑操作的正定矩阵,使得Cholesky分解存在,解决了原矩阵行列式与具有利用机制群体训练的冲突问题。

Description

一种基于行列式多样性引导的群体强化学习训练方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于行列式多样性引导的群体强化学习训练方法。
背景技术
强化学习的本质是对已知策略的利用和对未知环境的探索。利用是指智能体在与环境交互中改进策略,探索是指智能体动作是从随机条件分布中采样。在复杂的强化学习环境中,智能体需要具有逃离局部最优策略或过拟合的探索能力。
(1)基于群体的训练
Jaderberg等人提出的基于群体的训练(Population Based Training)继承了遗传算法的思想,提供了一种平衡探索和利用的方法,即异步训练一组不同策略行为的智能体,并通过利用群体中精英智能体的训练信息来加速训练。然而,大规模分布式群体训练的昂贵成本是智能体的数量受限的原因。另一方面,小规模的群体训练或不适当的利用频率会导致快速收敛到局部最优解。因此出现了许多方法来增加群体的多样性,但在机器学习领域,以统一原则的方式对多样性进行建模的工作是有限的。例如,文献TrajectoryDiversity for Zero-Shot Coordination和Diversity-Driven Exploration Strategyfor DeepReinforcement Learning所提出的群体多样性是从对与对之间的某种距离或散度的期望中优化的,当行为被映射到高维空间时,可能发生聚类现象。因为成对距离的范数可能会有很大的不同,导致群体可分为多个簇,而簇内智能体是相似的。
(2)行列式多样性
行列式点过程精确地描述费米子的排斥作用,使其自然地成为了衡量群体多样性的一个工具。在行列式点过程中,多样性来自于一个核矩阵的行列式。这个矩阵定义了成对元素之间的相似性度量,因此相似的元素不太可能同时发生。从几何角度来看,行列式衡量超平面空间中向量的有向体积,因此行列式是一个高阶的优化目标。Parker-Holder等人将成对确定性策略之间相似性的度量作为核矩阵的元素,则极大化行列式目标之后,相似的策略不太可能同时出现。但是在使用行列式刻画群体策略多样性之前,仍有一些待克服的障碍:①群体策略是随机策略时,多样性与概率度量之间联系是不清晰的。②计算行列式的复杂度较高,而半正定矩阵仍然可能无法满足快速求解行列式的要求。③智能体可能由于过度追求多样性或相似性从而出现策略性能下降。
发明内容
本发明聚焦于小规模种群体的强化学习,提出了一种基于行列式多样性引导的群体强化学习训练方法,可以高效地衡量智能体群体策略的多样性,并利用多样性在进一步改善智能体群体在具体任务中性能。为了解决背景技术中所提到的问题,本发明考虑了几种现有的概率测度作为核函数来刻画成对随机策略之间的相似性,并构造了行列式点过程的矩阵。本发明使用行列式正则化来改善群体策略的多样性或相似性。为了满足核矩阵Cholesky分解的限制性约束,将核矩阵正定化,以便在原始矩阵奇异时也可以进行优化。
本发明的技术方案:一种基于行列式多样性引导的群体强化学习训练方法,首先通过确定性相似估计计算成对随机策略之间的相似性,再将相似性所构成的矩阵正定化得到行列式,最后通过多臂老虎机选择温度系数提高随机策略性能。
具体包括步骤如下:
(1)计算成对随机策略之间的相似性
确定性相似估计用于衡量两个随机策略之间的相似性,并形成半正定矩阵K;半正定矩阵K中的元素表示所对应行列随机策略的相似性,数值由确定性近似核函数计算;
设定对称有界距离函数D表示任意两个随机分布的概率度量的距离函数,两个随机策略π和π’之间的确定性距离函数dD定义为:
Figure BDA0003705043710000031
其中,
Figure BDA0003705043710000032
表示状态集合,d表示微元符号,s表示状态;
两个随机策略π和π’之间的相似性通过状态集合
Figure BDA0003705043710000033
进行有限采样计算,通过确定性近似核函数来估计,基于单步状态的确定性近似核函数Ks f定义为:
Ks f(π,π′)=Es[f(D(π(·|s),π′(·|s)))]#(2)
其中,Es表示期望,f:R→[0,1]表示一个可微函数;
确定性相似估计允许从群体所有随机策略生成的轨迹中均匀地对访问状态进行采样;受基于轨迹的多样性启发,接下来考虑长期视野的目标。例如,智能体可以在一条轨迹中的少量状态中选择不同的操作,而不会影响最终结果。在这种情况下,平均所有状态的相似性可能过于敏感,无法使行为多样化。拓展后的T步确定性相似估计以轨迹样本衡量随机策略的相似性,可用于循环神经网络的训练,基于轨迹的确定性近似核函数Kτ f定义为:
Figure BDA0003705043710000034
其中,st表示随机策略在时间t得到的状态,τ表示采样轨迹;Eτ表示期望;
考虑具有离散动作集合的情况,对两个离散随机分布的概率度量P和Q之间的对称有界距离函数D和可微函数f对应为:①总变差距离(Total Variation Distance):
Figure BDA0003705043710000041
和fTV(d)=1-d;②海林格距离(Hellinger distance):
Figure BDA0003705043710000042
和fH(d)=1-d;③詹森-香农散度(Jensen-ShannonDivergence):
Figure BDA0003705043710000043
Figure BDA0003705043710000044
考虑具有连续动作集合的情况,使用欧几里德范数作为距离函数,设定概率度量μ和v为多变量不相关高斯分布,m表示多变量高斯分布的均值向量,∑表示协方差矩阵,即μ~N(m1,∑1)且v~N(m2,∑2),得到对称有界距离函数D和可微函数f:④瓦瑟斯坦距离(p-Wasserstein distance):
Figure BDA0003705043710000045
Figure BDA0003705043710000046
Figure BDA0003705043710000047
其中协方差矩阵∑1和∑2是对角矩阵,|·|F为矩阵Frobenius范数,exp为指数函数,σ为超参数;使用方差归一化来消除超参数σ2
根据随机策略动作集合的形式,确定性相似估计使用的对称有界距离函数D和可微函数f包括了随机策略形式所有情况;随机策略具有离散动作集合的情况下使用①、②或③;随机策略具有连续动作集合的情况下使用④;根据所使用强化学习算法,确定性近似核函数使用基于单步状态的Ks f或基于轨迹的Kτ f,计算形成半正定矩阵K;
(2)将相似性所构成的矩阵正定化得到行列式
引入一种基于行列式和其温度系数λ的增广损失;由于矩阵的元素是由确定性近似核函数计算的,因此可以通过自动微分直接计算行列式的梯度。注意到由于群体训练的剥削利用机制的存在,一个智能体的网络权重可能会被另一个智能体复制。因此,矩阵中的某两行(或列)是线性相关的,行列式为零,对行列式求梯度可能会遇到数值不稳定性(例如,最大似然估计)。在这种情况下,K将退化为半正定矩阵,这使得无法进行Cholesky分解(或者梯度为零)。为了满足Cholesky分解中的条件,使用代替矩阵
Figure BDA0003705043710000051
Figure BDA0003705043710000052
其中,β∈(0,1)表示平滑系数,I表示单位矩阵;
代替矩阵的行列式不会改变原始矩阵行列式的排斥性。如果矩阵中所有非对角元素都小于1,则满足Cholesky分解的条件。实际上,这意味着群体所有不同策略对都不是完全相似的。因此,可以通过Cholesky分解,从下三角矩阵的主对角线得到行列式。代替矩阵
Figure BDA0003705043710000053
是正定矩阵,因此通过Cholesky分解有
Figure BDA0003705043710000054
从下三角矩阵
Figure BDA0003705043710000055
的主对角线乘积的平方得到代替矩阵
Figure BDA0003705043710000056
的行列式;半正定矩阵K被
Figure BDA0003705043710000057
替换后,群体的联合损失函数被重写为:
Figure BDA0003705043710000058
其中,λ∈R,det表示矩阵的行列式,M表示群体规模,Θ表示群体网络权重,Jπ表示随机策略的奖励损失;公式(9)关于参数θi∈Θ中的目标梯度由下式给出:
Figure BDA0003705043710000059
其中,
Figure BDA00037050437100000510
表示函数关于参数θi的梯度,
Figure BDA00037050437100000511
表示函数关于参数Θ的梯度;
(3)基于多臂老虎机的选择温度系数
当温度系数λ为正时,最大化公式(6)增加群体的多样性;当温度系数λ为负时,最大化公式(6)增加群体的相似性;因此,温度系数λ被视为探索-利用权衡;通过学习优化λ,进而优化行列式目标进行训练群体策略的训练,即排斥学习或模仿学习,以最大化随机策略的平均累积回报:
Figure BDA00037050437100000512
Figure BDA0003705043710000061
其中,rt表示在时间t采取动作后得到的奖励,Λ表示温度系数λ的参数集合;
将公式(7)中的上层优化问题视为多臂老虎机问题进行求解;
多臂老虎机的每只手臂代表一个温度系数λ,这些手臂通过汤普森采样(Thompsonsampling)或置信区间上限算法(Upper Confidence Bound)来选择,以在有限的采样时间内最大化回报;服务端根据适应度对随机策略进行排序,并定期利用最佳随机策略的网络权重,所选手臂的回报是,在使用相应的温度系数进行优化后,群体的最高性能是否得到改善;此外,服务端在策略优化阶段计算行列式的梯度。
本发明是群体训练的实例,奖励估计梯度依然由局部学习者计算,不同的是中心服务端需要额外计算行列式的梯度,整体架构如图1所示。服务端根据适应度(例如,智能体最近几局的平均累积奖励)对智能体进行排序,并定期利用最佳智能体的网络权重。此外,服务端在策略优化阶段计算行列式的梯度。
所述服务端和每个学习者的工作流程划分为五个步骤:
S1学习者对网络权重进行评估,将评估结果发送给服务端;
S2服务端根据评估结果更新系数;
S3学习者异步采集轨迹后,将表演家网络的权重和轨迹样本发送给服务端,通过策略优化的损失函数局部计算相应的梯度;
S4服务端计算行列式梯度,并发送梯度和系数给学习者;
S5学习者接收乘以系数后的行列式梯度,将两部分的梯度相加,更新网络权重;
这五个步骤循环往复;最后,奖励高的手臂被选中次数更多。
确定性相似性估计允许从群体所有随机策略生成的轨迹中均匀地对访问状态进行采样,并显示出一些良好的性质:
1)这些状态是从混合平均策略的轨迹中抽样的。通过有限采样来估计相似性,而不是中棘手的积分,并且在策略(on-policy)的智能体有机会从前所未有的状态中学习。
2)不再计算嵌入之间的相似性。如果D是对称且有界的度量,可以通过函数f轻松地将值映射到[0,1]。然后,可以通过将链式法则
Figure BDA0003705043710000071
来更新关于参数θ的策略。
3)多步确定性相似估计计算连续T个时间步的相似性,并且与递归神经网络兼容。T代表多样性的敏感性,敏感性随着T的增加而增加。即使只有少数几个状态-动作对是不同的,其轨迹也将是不同的。
本发明的有益效果:本发明所提出的行列式是基于梯度的,因此可以通过自动微分更新策略网络权重。本发明所提出的代替行列式来自对原始矩阵进行平滑操作的正定矩阵,使得Cholesky分解存在,解决了原矩阵行列式与具有利用机制群体训练的冲突问题。
附图说明
图1是一种基于行列式多样性引导的群体强化学习训练方法的整体架构图。
具体实施方式
下面结合具体实施方式对本发明作进一步详细说明,但本发明并不局限于具体实施方式。
一种基于行列式多样性引导的群体强化学习训练方法,具体实施包括基于多臂老虎机的行列式优化、群体学习框架的实现以及测试。
(1)行列式引导的增广优化目标
在本发明中,由于矩阵的元素是由确定性近似估计核函数计算的,因此可以通过自动微分直接计算行列式的梯度。首先通过确定性近似估计核函数构成原始矩阵,再通过计算正定操作得到正定矩阵。接着通过Cholesky分解得到下三角矩阵,该下三角矩阵的对角线元素乘积的平方即行列式的值。
多臂老虎机算法用于更新温度系数,以汤普森采样为例。本发明需要记录使用多臂老虎机每个手臂所对应的系数优化成功与失败的次数。初始状态下,温度系数从温度系数参数空间中随机采样,设置评估奖励为负无穷。智能体每次训练之后进行评估,若本次评估群体最优智能体的平均累计奖励高于上一次评估的群体最优智能体平均累计奖励,则使用这只手臂的成功次数加一,否则这只手臂的失败次数加一。接着基于每只手臂的成功和失败次数,使用贝塔分布进行采样得到每只手臂成功的概率,选取最高概率的那只手臂所对应的温度系数,进行优化并循环往复。
(2)群体强化学习模块
本发明可以应用于基于随机策略的强化学习算法,无论动作空间是离散的还是连续的。以阶段性策略梯度(Phasic Policy Gradient)算法为例。与其他基于信赖域的算法相似,阶段性策略梯度限制了策略优化的学习步长,并且比传统的策略梯度方法具有更高的样本效率。阶段性策略梯度算法将价值优化和策略优化分开,因为相对于信赖域策略优化和近端策略优化算法,价值优化通常可以容忍更高级别的样本重用。由于行列式的计算需要服务端从局部学习者同步每个智能体策略的网络权重,这只发生在策略优化阶段。因为在策略优化阶段,较小程度的样本复用减少了通信开销。
(3)测试
以在OpenAI Gym的MujoCo环境中测试为例。群体学习者的数量为5,优化器为Adam,学习率为0.0003,策略与价值网络均由2层隐藏层单元数为64的多层感知机;激活函数使用Tanh函数,数据采集步长为2048,折扣因子为0.99,学习批大小为64,辅助学习批大小为256,泛化优势估计系数为0.95,裁剪系数为0.2,策略迭代次数为4,价值迭代次数为4,辅助阶段迭代次数为6,使用奖励和状态标准化,从204800步开始群体进行利用,此后群体进行利用的间隔为20480步,温度系数的参数空间为{-0.05,0.0,0.05},多臂老虎机算法使用汤普森采样,确定性相似估计的批大小为64,确定性相似估计的时间步为1,采用基于瓦瑟斯坦距离的核函数,平滑系数为0.99。
本发明运行1003520个时间步后,在Walker2d-v3、Hopper-v3、Ant-v3、HalfCheetah-v3、Swimmer-v3和Humanoid-v3的群体中位数智能体平均累积奖励比基线基于群体的训练分别高出5.15%、18.52%、-7.0%、6.12%、1.74%和8.92%。由于具有增广模块需要额外计算行列式梯度,训练时间多出9.79%。

Claims (2)

1.一种基于行列式多样性引导的群体强化学习训练方法,其特征在于,首先通过确定性相似估计计算成对随机策略之间的相似性,再将相似性所构成的矩阵正定化得到行列式,最后通过多臂老虎机选择温度系数提高随机策略性能;
具体包括步骤如下:
(1)计算成对随机策略之间的相似性
确定性相似估计用于衡量两个随机策略之间的相似性,并形成半正定矩阵K;半正定矩阵K中的元素表示所对应行列随机策略的相似性,数值由确定性近似核函数计算;
设定对称有界距离函数D表示任意两个随机分布的概率度量的距离函数,两个随机策略π和π’之间的确定性距离函数dD定义为:
Figure FDA0003705043700000011
其中,
Figure FDA0003705043700000012
表示状态集合,d表示微元符号,s表示状态;
两个随机策略π和π’之间的相似性通过状态集合
Figure FDA0003705043700000013
进行有限采样计算,通过确定性近似核函数来估计,基于单步状态的确定性近似核函数Ks f定义为:
Ks f(π,π′)=Es[f(D(π(·|s),π′(·|s)))]#(2)
其中,Es表示期望,f:R→[0,1]表示一个可微函数;
确定性相似估计允许从群体所有随机策略生成的轨迹中均匀地对访问状态进行采样;拓展后的T步确定性相似估计以轨迹样本衡量随机策略的相似性,可用于循环神经网络的训练,基于轨迹的确定性近似核函数Kτ f定义为:
Figure FDA0003705043700000014
其中,st表示随机策略在时间t得到的状态,τ表示采样轨迹;Eτ表示期望;
考虑具有离散动作集合的情况,对两个离散随机分布的概率度量P和Q之间的对称有界距离函数D和可微函数f对应为:①总变差距离:
Figure FDA0003705043700000021
Figure FDA0003705043700000022
和fTV(d)=1-d;②海林格距离:
Figure FDA0003705043700000023
和fH(d)=1-d;③詹森–香农散度:
Figure FDA0003705043700000024
Figure FDA0003705043700000025
考虑具有连续动作集合的情况,使用欧几里德范数作为距离函数,设定概率度量μ和v为多变量不相关高斯分布,m表示多变量高斯分布的均值向量,∑表示协方差矩阵,即μ~N(m1,∑1)且v~N(m2,∑2),得到对称有界距离函数D和可微函数f:④瓦瑟斯坦距离:
Figure FDA0003705043700000026
Figure FDA0003705043700000027
Figure FDA0003705043700000028
其中协方差矩阵∑1和∑2是对角矩阵,|·|F为矩阵Frobenius范数,exp为指数函数,σ为超参数;使用方差归一化来消除超参数σ2
根据随机策略动作集合的形式,确定性相似估计使用的对称有界距离函数D和可微函数f包括了随机策略形式所有情况;随机策略具有离散动作集合的情况下使用①、②或③;随机策略具有连续动作集合的情况下使用④;根据所使用强化学习算法,确定性近似核函数使用基于单步状态的Ks f或基于轨迹的Kτ f,计算形成半正定矩阵K;
(2)将相似性所构成的矩阵正定化得到行列式
引入一种基于行列式和其温度系数λ的增广损失;为了满足Cholesky分解中的条件,使用代替矩阵
Figure FDA0003705043700000029
Figure FDA00037050437000000210
其中,β∈(0,1)表示平滑系数,I表示单位矩阵;
代替矩阵
Figure FDA00037050437000000211
是正定矩阵,因此通过Cholesky分解有
Figure FDA00037050437000000212
从下三角矩阵
Figure FDA00037050437000000213
的主对角线乘积的平方得到代替矩阵
Figure FDA00037050437000000214
的行列式;半正定矩阵K被
Figure FDA00037050437000000215
替换后,群体的联合损失函数被重写为:
Figure FDA0003705043700000031
其中,λ∈R,det表示矩阵的行列式,M表示群体规模,Θ表示群体网络权重,Jπ表示随机策略的奖励损失;公式(9)关于参数θi∈Θ中的目标梯度由下式给出:
Figure FDA0003705043700000032
其中,
Figure FDA0003705043700000033
表示函数关于参数θi的梯度,
Figure FDA0003705043700000034
表示函数关于参数Θ的梯度;
(3)基于多臂老虎机的选择温度系数
当温度系数λ为正时,最大化公式(6)增加群体的多样性;当温度系数λ为负时,最大化公式(6)增加群体的相似性;因此,温度系数λ被视为探索-利用权衡;通过学习优化λ,进而优化行列式目标进行训练群体策略的训练,即排斥学习或模仿学习,以最大化随机策略的平均累积回报:
Figure FDA0003705043700000035
Figure FDA0003705043700000036
其中,rt表示在时间t采取动作后得到的奖励,Λ表示温度系数λ的参数集合;
将公式(7)中的上层优化问题视为多臂老虎机问题进行求解;
多臂老虎机的每只手臂代表一个温度系数λ,这些手臂通过汤普森采样或置信区间上限算法来选择,以在有限的采样时间内最大化回报;服务端根据适应度对随机策略进行排序,并定期利用最佳随机策略的网络权重,所选手臂的回报是,在使用相应的温度系数进行优化后,群体的最高性能是否得到改善;此外,服务端在策略优化阶段计算行列式的梯度。
2.根据权利要求1所述的基于行列式多样性引导的群体强化学习训练方法,其特征在于,所述服务端和每个学习者的工作流程划分为五个步骤:
S1学习者对网络权重进行评估,将评估结果发送给服务端;
S2服务端根据评估结果更新系数;
S3学习者异步采集轨迹后,将表演家网络的权重和轨迹样本发送给服务端,通过策略优化的损失函数局部计算相应的梯度;
S4服务端计算行列式梯度,并发送梯度和系数给学习者;
S5学习者接收乘以系数后的行列式梯度,将两部分的梯度相加,更新网络权重;
这五个步骤循环往复;最后,奖励高的手臂被选中次数更多。
CN202210702974.9A 2022-06-21 2022-06-21 一种基于行列式多样性引导的群体强化学习训练方法 Pending CN115130376A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210702974.9A CN115130376A (zh) 2022-06-21 2022-06-21 一种基于行列式多样性引导的群体强化学习训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210702974.9A CN115130376A (zh) 2022-06-21 2022-06-21 一种基于行列式多样性引导的群体强化学习训练方法

Publications (1)

Publication Number Publication Date
CN115130376A true CN115130376A (zh) 2022-09-30

Family

ID=83379067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210702974.9A Pending CN115130376A (zh) 2022-06-21 2022-06-21 一种基于行列式多样性引导的群体强化学习训练方法

Country Status (1)

Country Link
CN (1) CN115130376A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496208A (zh) * 2022-11-15 2022-12-20 清华大学 协同模式多样化导向的无监督多智能体强化学习方法
CN116303082A (zh) * 2023-04-04 2023-06-23 中南大学 一种操作系统内核模糊测试种子调度与评估方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496208A (zh) * 2022-11-15 2022-12-20 清华大学 协同模式多样化导向的无监督多智能体强化学习方法
CN116303082A (zh) * 2023-04-04 2023-06-23 中南大学 一种操作系统内核模糊测试种子调度与评估方法
CN116303082B (zh) * 2023-04-04 2023-12-19 中南大学 一种操作系统内核模糊测试种子调度与评估方法

Similar Documents

Publication Publication Date Title
CN110909926A (zh) 基于tcn-lstm的太阳能光伏发电预测方法
CN115130376A (zh) 一种基于行列式多样性引导的群体强化学习训练方法
CN109192298B (zh) 基于脑网络的深度脑疾病诊断算法
CN111542843A (zh) 利用协作生成器积极开发
US20090043715A1 (en) Method to Continuously Diagnose and Model Changes of Real-Valued Streaming Variables
CN113723007B (zh) 基于drsn和麻雀搜索优化的设备剩余寿命预测方法
CN109583635A (zh) 一种面向运行可靠性的短期负荷预测建模方法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN113111572B (zh) 航空发动机剩余寿命预测方法及系统
CN113222035B (zh) 基于强化学习和知识蒸馏的多类别不平衡故障分类方法
CN113780420B (zh) 基于gru-gcn的变压器油中溶解气体浓度预测方法
CN112116002A (zh) 一种检测模型的确定方法、验证方法和装置
CN113241122A (zh) 自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法
CN116759100B (zh) 基于联邦学习构建慢性心血管疾病大模型方法
CN115510042A (zh) 基于生成对抗网络的电力系统负荷数据填补方法及装置
CN115544890A (zh) 一种短期电力负荷预测方法及系统
CN116486150A (zh) 一种基于不确定性感知的图像分类模型回归误差消减方法
CN117036760A (zh) 一种基于图对比学习的多视图聚类模型实现方法
CN117112992A (zh) 一种聚酯酯化阶段的故障诊断方法
CN110993121A (zh) 一种基于双协同线性流形的药物关联预测方法
CN113539517B (zh) 时序干预效果的预测方法
CN115206538A (zh) 围术期患者样本数据集均衡方法及样本数据集获取系统
CN114881106A (zh) 一种基于mpa-svm的变压器故障诊断方法及装置
CN115206539A (zh) 一种基于围术期患者风险事件数据的多标签集成分类方法
CN114048837A (zh) 一种基于分布式类脑图的深度神经网络模型加固方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220930