CN115130376A - 一种基于行列式多样性引导的群体强化学习训练方法 - Google Patents
一种基于行列式多样性引导的群体强化学习训练方法 Download PDFInfo
- Publication number
- CN115130376A CN115130376A CN202210702974.9A CN202210702974A CN115130376A CN 115130376 A CN115130376 A CN 115130376A CN 202210702974 A CN202210702974 A CN 202210702974A CN 115130376 A CN115130376 A CN 115130376A
- Authority
- CN
- China
- Prior art keywords
- determinant
- matrix
- similarity
- random
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000002787 reinforcement Effects 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 62
- 230000009471 action Effects 0.000 claims abstract description 15
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 9
- 241000282376 Panthera tigris Species 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 50
- 238000005457 optimization Methods 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 230000004069 differentiation Effects 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 21
- 230000006399 behavior Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Optimization (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Molecular Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于人工智能技术领域,提出了一种基于行列式多样性引导的群体强化学习训练方法,包括计算成对随机策略的确定性相似性估计核矩阵,适用于覆盖了离散和连续动作空间情况的基于随机策略梯度的算法,并且确定性相似性估计可到多步设置,该核矩阵构成的行列式从高维空间中衡量群体的多样性。基于行列式的强化学习群体训练,通过多臂老虎机算法选择温度系数,优化代替行列式目标来调节群体的多样性或相似性,提高群体性能。本发明所提出的基于梯度的行列式,可以通过自动微分更新策略网络权重。本发明所提出的代替行列式来自对原始矩阵进行平滑操作的正定矩阵,使得Cholesky分解存在,解决了原矩阵行列式与具有利用机制群体训练的冲突问题。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于行列式多样性引导的群体强化学习训练方法。
背景技术
强化学习的本质是对已知策略的利用和对未知环境的探索。利用是指智能体在与环境交互中改进策略,探索是指智能体动作是从随机条件分布中采样。在复杂的强化学习环境中,智能体需要具有逃离局部最优策略或过拟合的探索能力。
(1)基于群体的训练
Jaderberg等人提出的基于群体的训练(Population Based Training)继承了遗传算法的思想,提供了一种平衡探索和利用的方法,即异步训练一组不同策略行为的智能体,并通过利用群体中精英智能体的训练信息来加速训练。然而,大规模分布式群体训练的昂贵成本是智能体的数量受限的原因。另一方面,小规模的群体训练或不适当的利用频率会导致快速收敛到局部最优解。因此出现了许多方法来增加群体的多样性,但在机器学习领域,以统一原则的方式对多样性进行建模的工作是有限的。例如,文献TrajectoryDiversity for Zero-Shot Coordination和Diversity-Driven Exploration Strategyfor DeepReinforcement Learning所提出的群体多样性是从对与对之间的某种距离或散度的期望中优化的,当行为被映射到高维空间时,可能发生聚类现象。因为成对距离的范数可能会有很大的不同,导致群体可分为多个簇,而簇内智能体是相似的。
(2)行列式多样性
行列式点过程精确地描述费米子的排斥作用,使其自然地成为了衡量群体多样性的一个工具。在行列式点过程中,多样性来自于一个核矩阵的行列式。这个矩阵定义了成对元素之间的相似性度量,因此相似的元素不太可能同时发生。从几何角度来看,行列式衡量超平面空间中向量的有向体积,因此行列式是一个高阶的优化目标。Parker-Holder等人将成对确定性策略之间相似性的度量作为核矩阵的元素,则极大化行列式目标之后,相似的策略不太可能同时出现。但是在使用行列式刻画群体策略多样性之前,仍有一些待克服的障碍:①群体策略是随机策略时,多样性与概率度量之间联系是不清晰的。②计算行列式的复杂度较高,而半正定矩阵仍然可能无法满足快速求解行列式的要求。③智能体可能由于过度追求多样性或相似性从而出现策略性能下降。
发明内容
本发明聚焦于小规模种群体的强化学习,提出了一种基于行列式多样性引导的群体强化学习训练方法,可以高效地衡量智能体群体策略的多样性,并利用多样性在进一步改善智能体群体在具体任务中性能。为了解决背景技术中所提到的问题,本发明考虑了几种现有的概率测度作为核函数来刻画成对随机策略之间的相似性,并构造了行列式点过程的矩阵。本发明使用行列式正则化来改善群体策略的多样性或相似性。为了满足核矩阵Cholesky分解的限制性约束,将核矩阵正定化,以便在原始矩阵奇异时也可以进行优化。
本发明的技术方案:一种基于行列式多样性引导的群体强化学习训练方法,首先通过确定性相似估计计算成对随机策略之间的相似性,再将相似性所构成的矩阵正定化得到行列式,最后通过多臂老虎机选择温度系数提高随机策略性能。
具体包括步骤如下:
(1)计算成对随机策略之间的相似性
确定性相似估计用于衡量两个随机策略之间的相似性,并形成半正定矩阵K;半正定矩阵K中的元素表示所对应行列随机策略的相似性,数值由确定性近似核函数计算;
设定对称有界距离函数D表示任意两个随机分布的概率度量的距离函数,两个随机策略π和π’之间的确定性距离函数dD定义为:
Ks f(π,π′)=Es[f(D(π(·|s),π′(·|s)))]#(2)
其中,Es表示期望,f:R→[0,1]表示一个可微函数;
确定性相似估计允许从群体所有随机策略生成的轨迹中均匀地对访问状态进行采样;受基于轨迹的多样性启发,接下来考虑长期视野的目标。例如,智能体可以在一条轨迹中的少量状态中选择不同的操作,而不会影响最终结果。在这种情况下,平均所有状态的相似性可能过于敏感,无法使行为多样化。拓展后的T步确定性相似估计以轨迹样本衡量随机策略的相似性,可用于循环神经网络的训练,基于轨迹的确定性近似核函数Kτ f定义为:
其中,st表示随机策略在时间t得到的状态,τ表示采样轨迹;Eτ表示期望;
考虑具有离散动作集合的情况,对两个离散随机分布的概率度量P和Q之间的对称有界距离函数D和可微函数f对应为:①总变差距离(Total Variation Distance):和fTV(d)=1-d;②海林格距离(Hellinger distance):和fH(d)=1-d;③詹森-香农散度(Jensen-ShannonDivergence):和
考虑具有连续动作集合的情况,使用欧几里德范数作为距离函数,设定概率度量μ和v为多变量不相关高斯分布,m表示多变量高斯分布的均值向量,∑表示协方差矩阵,即μ~N(m1,∑1)且v~N(m2,∑2),得到对称有界距离函数D和可微函数f:④瓦瑟斯坦距离(p-Wasserstein distance): 和其中协方差矩阵∑1和∑2是对角矩阵,|·|F为矩阵Frobenius范数,exp为指数函数,σ为超参数;使用方差归一化来消除超参数σ2;
根据随机策略动作集合的形式,确定性相似估计使用的对称有界距离函数D和可微函数f包括了随机策略形式所有情况;随机策略具有离散动作集合的情况下使用①、②或③;随机策略具有连续动作集合的情况下使用④;根据所使用强化学习算法,确定性近似核函数使用基于单步状态的Ks f或基于轨迹的Kτ f,计算形成半正定矩阵K;
(2)将相似性所构成的矩阵正定化得到行列式
引入一种基于行列式和其温度系数λ的增广损失;由于矩阵的元素是由确定性近似核函数计算的,因此可以通过自动微分直接计算行列式的梯度。注意到由于群体训练的剥削利用机制的存在,一个智能体的网络权重可能会被另一个智能体复制。因此,矩阵中的某两行(或列)是线性相关的,行列式为零,对行列式求梯度可能会遇到数值不稳定性(例如,最大似然估计)。在这种情况下,K将退化为半正定矩阵,这使得无法进行Cholesky分解(或者梯度为零)。为了满足Cholesky分解中的条件,使用代替矩阵
其中,β∈(0,1)表示平滑系数,I表示单位矩阵;
代替矩阵的行列式不会改变原始矩阵行列式的排斥性。如果矩阵中所有非对角元素都小于1,则满足Cholesky分解的条件。实际上,这意味着群体所有不同策略对都不是完全相似的。因此,可以通过Cholesky分解,从下三角矩阵的主对角线得到行列式。代替矩阵是正定矩阵,因此通过Cholesky分解有从下三角矩阵的主对角线乘积的平方得到代替矩阵的行列式;半正定矩阵K被替换后,群体的联合损失函数被重写为:
其中,λ∈R,det表示矩阵的行列式,M表示群体规模,Θ表示群体网络权重,Jπ表示随机策略的奖励损失;公式(9)关于参数θi∈Θ中的目标梯度由下式给出:
(3)基于多臂老虎机的选择温度系数
当温度系数λ为正时,最大化公式(6)增加群体的多样性;当温度系数λ为负时,最大化公式(6)增加群体的相似性;因此,温度系数λ被视为探索-利用权衡;通过学习优化λ,进而优化行列式目标进行训练群体策略的训练,即排斥学习或模仿学习,以最大化随机策略的平均累积回报:
其中,rt表示在时间t采取动作后得到的奖励,Λ表示温度系数λ的参数集合;
将公式(7)中的上层优化问题视为多臂老虎机问题进行求解;
多臂老虎机的每只手臂代表一个温度系数λ,这些手臂通过汤普森采样(Thompsonsampling)或置信区间上限算法(Upper Confidence Bound)来选择,以在有限的采样时间内最大化回报;服务端根据适应度对随机策略进行排序,并定期利用最佳随机策略的网络权重,所选手臂的回报是,在使用相应的温度系数进行优化后,群体的最高性能是否得到改善;此外,服务端在策略优化阶段计算行列式的梯度。
本发明是群体训练的实例,奖励估计梯度依然由局部学习者计算,不同的是中心服务端需要额外计算行列式的梯度,整体架构如图1所示。服务端根据适应度(例如,智能体最近几局的平均累积奖励)对智能体进行排序,并定期利用最佳智能体的网络权重。此外,服务端在策略优化阶段计算行列式的梯度。
所述服务端和每个学习者的工作流程划分为五个步骤:
S1学习者对网络权重进行评估,将评估结果发送给服务端;
S2服务端根据评估结果更新系数;
S3学习者异步采集轨迹后,将表演家网络的权重和轨迹样本发送给服务端,通过策略优化的损失函数局部计算相应的梯度;
S4服务端计算行列式梯度,并发送梯度和系数给学习者;
S5学习者接收乘以系数后的行列式梯度,将两部分的梯度相加,更新网络权重;
这五个步骤循环往复;最后,奖励高的手臂被选中次数更多。
确定性相似性估计允许从群体所有随机策略生成的轨迹中均匀地对访问状态进行采样,并显示出一些良好的性质:
1)这些状态是从混合平均策略的轨迹中抽样的。通过有限采样来估计相似性,而不是中棘手的积分,并且在策略(on-policy)的智能体有机会从前所未有的状态中学习。
3)多步确定性相似估计计算连续T个时间步的相似性,并且与递归神经网络兼容。T代表多样性的敏感性,敏感性随着T的增加而增加。即使只有少数几个状态-动作对是不同的,其轨迹也将是不同的。
本发明的有益效果:本发明所提出的行列式是基于梯度的,因此可以通过自动微分更新策略网络权重。本发明所提出的代替行列式来自对原始矩阵进行平滑操作的正定矩阵,使得Cholesky分解存在,解决了原矩阵行列式与具有利用机制群体训练的冲突问题。
附图说明
图1是一种基于行列式多样性引导的群体强化学习训练方法的整体架构图。
具体实施方式
下面结合具体实施方式对本发明作进一步详细说明,但本发明并不局限于具体实施方式。
一种基于行列式多样性引导的群体强化学习训练方法,具体实施包括基于多臂老虎机的行列式优化、群体学习框架的实现以及测试。
(1)行列式引导的增广优化目标
在本发明中,由于矩阵的元素是由确定性近似估计核函数计算的,因此可以通过自动微分直接计算行列式的梯度。首先通过确定性近似估计核函数构成原始矩阵,再通过计算正定操作得到正定矩阵。接着通过Cholesky分解得到下三角矩阵,该下三角矩阵的对角线元素乘积的平方即行列式的值。
多臂老虎机算法用于更新温度系数,以汤普森采样为例。本发明需要记录使用多臂老虎机每个手臂所对应的系数优化成功与失败的次数。初始状态下,温度系数从温度系数参数空间中随机采样,设置评估奖励为负无穷。智能体每次训练之后进行评估,若本次评估群体最优智能体的平均累计奖励高于上一次评估的群体最优智能体平均累计奖励,则使用这只手臂的成功次数加一,否则这只手臂的失败次数加一。接着基于每只手臂的成功和失败次数,使用贝塔分布进行采样得到每只手臂成功的概率,选取最高概率的那只手臂所对应的温度系数,进行优化并循环往复。
(2)群体强化学习模块
本发明可以应用于基于随机策略的强化学习算法,无论动作空间是离散的还是连续的。以阶段性策略梯度(Phasic Policy Gradient)算法为例。与其他基于信赖域的算法相似,阶段性策略梯度限制了策略优化的学习步长,并且比传统的策略梯度方法具有更高的样本效率。阶段性策略梯度算法将价值优化和策略优化分开,因为相对于信赖域策略优化和近端策略优化算法,价值优化通常可以容忍更高级别的样本重用。由于行列式的计算需要服务端从局部学习者同步每个智能体策略的网络权重,这只发生在策略优化阶段。因为在策略优化阶段,较小程度的样本复用减少了通信开销。
(3)测试
以在OpenAI Gym的MujoCo环境中测试为例。群体学习者的数量为5,优化器为Adam,学习率为0.0003,策略与价值网络均由2层隐藏层单元数为64的多层感知机;激活函数使用Tanh函数,数据采集步长为2048,折扣因子为0.99,学习批大小为64,辅助学习批大小为256,泛化优势估计系数为0.95,裁剪系数为0.2,策略迭代次数为4,价值迭代次数为4,辅助阶段迭代次数为6,使用奖励和状态标准化,从204800步开始群体进行利用,此后群体进行利用的间隔为20480步,温度系数的参数空间为{-0.05,0.0,0.05},多臂老虎机算法使用汤普森采样,确定性相似估计的批大小为64,确定性相似估计的时间步为1,采用基于瓦瑟斯坦距离的核函数,平滑系数为0.99。
本发明运行1003520个时间步后,在Walker2d-v3、Hopper-v3、Ant-v3、HalfCheetah-v3、Swimmer-v3和Humanoid-v3的群体中位数智能体平均累积奖励比基线基于群体的训练分别高出5.15%、18.52%、-7.0%、6.12%、1.74%和8.92%。由于具有增广模块需要额外计算行列式梯度,训练时间多出9.79%。
Claims (2)
1.一种基于行列式多样性引导的群体强化学习训练方法,其特征在于,首先通过确定性相似估计计算成对随机策略之间的相似性,再将相似性所构成的矩阵正定化得到行列式,最后通过多臂老虎机选择温度系数提高随机策略性能;
具体包括步骤如下:
(1)计算成对随机策略之间的相似性
确定性相似估计用于衡量两个随机策略之间的相似性,并形成半正定矩阵K;半正定矩阵K中的元素表示所对应行列随机策略的相似性,数值由确定性近似核函数计算;
设定对称有界距离函数D表示任意两个随机分布的概率度量的距离函数,两个随机策略π和π’之间的确定性距离函数dD定义为:
Ks f(π,π′)=Es[f(D(π(·|s),π′(·|s)))]#(2)
其中,Es表示期望,f:R→[0,1]表示一个可微函数;
确定性相似估计允许从群体所有随机策略生成的轨迹中均匀地对访问状态进行采样;拓展后的T步确定性相似估计以轨迹样本衡量随机策略的相似性,可用于循环神经网络的训练,基于轨迹的确定性近似核函数Kτ f定义为:
其中,st表示随机策略在时间t得到的状态,τ表示采样轨迹;Eτ表示期望;
考虑具有离散动作集合的情况,对两个离散随机分布的概率度量P和Q之间的对称有界距离函数D和可微函数f对应为:①总变差距离: 和fTV(d)=1-d;②海林格距离:和fH(d)=1-d;③詹森–香农散度:和
考虑具有连续动作集合的情况,使用欧几里德范数作为距离函数,设定概率度量μ和v为多变量不相关高斯分布,m表示多变量高斯分布的均值向量,∑表示协方差矩阵,即μ~N(m1,∑1)且v~N(m2,∑2),得到对称有界距离函数D和可微函数f:④瓦瑟斯坦距离:和 其中协方差矩阵∑1和∑2是对角矩阵,|·|F为矩阵Frobenius范数,exp为指数函数,σ为超参数;使用方差归一化来消除超参数σ2;
根据随机策略动作集合的形式,确定性相似估计使用的对称有界距离函数D和可微函数f包括了随机策略形式所有情况;随机策略具有离散动作集合的情况下使用①、②或③;随机策略具有连续动作集合的情况下使用④;根据所使用强化学习算法,确定性近似核函数使用基于单步状态的Ks f或基于轨迹的Kτ f,计算形成半正定矩阵K;
(2)将相似性所构成的矩阵正定化得到行列式
其中,β∈(0,1)表示平滑系数,I表示单位矩阵;
其中,λ∈R,det表示矩阵的行列式,M表示群体规模,Θ表示群体网络权重,Jπ表示随机策略的奖励损失;公式(9)关于参数θi∈Θ中的目标梯度由下式给出:
(3)基于多臂老虎机的选择温度系数
当温度系数λ为正时,最大化公式(6)增加群体的多样性;当温度系数λ为负时,最大化公式(6)增加群体的相似性;因此,温度系数λ被视为探索-利用权衡;通过学习优化λ,进而优化行列式目标进行训练群体策略的训练,即排斥学习或模仿学习,以最大化随机策略的平均累积回报:
其中,rt表示在时间t采取动作后得到的奖励,Λ表示温度系数λ的参数集合;
将公式(7)中的上层优化问题视为多臂老虎机问题进行求解;
多臂老虎机的每只手臂代表一个温度系数λ,这些手臂通过汤普森采样或置信区间上限算法来选择,以在有限的采样时间内最大化回报;服务端根据适应度对随机策略进行排序,并定期利用最佳随机策略的网络权重,所选手臂的回报是,在使用相应的温度系数进行优化后,群体的最高性能是否得到改善;此外,服务端在策略优化阶段计算行列式的梯度。
2.根据权利要求1所述的基于行列式多样性引导的群体强化学习训练方法,其特征在于,所述服务端和每个学习者的工作流程划分为五个步骤:
S1学习者对网络权重进行评估,将评估结果发送给服务端;
S2服务端根据评估结果更新系数;
S3学习者异步采集轨迹后,将表演家网络的权重和轨迹样本发送给服务端,通过策略优化的损失函数局部计算相应的梯度;
S4服务端计算行列式梯度,并发送梯度和系数给学习者;
S5学习者接收乘以系数后的行列式梯度,将两部分的梯度相加,更新网络权重;
这五个步骤循环往复;最后,奖励高的手臂被选中次数更多。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210702974.9A CN115130376A (zh) | 2022-06-21 | 2022-06-21 | 一种基于行列式多样性引导的群体强化学习训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210702974.9A CN115130376A (zh) | 2022-06-21 | 2022-06-21 | 一种基于行列式多样性引导的群体强化学习训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115130376A true CN115130376A (zh) | 2022-09-30 |
Family
ID=83379067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210702974.9A Pending CN115130376A (zh) | 2022-06-21 | 2022-06-21 | 一种基于行列式多样性引导的群体强化学习训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115130376A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115496208A (zh) * | 2022-11-15 | 2022-12-20 | 清华大学 | 协同模式多样化导向的无监督多智能体强化学习方法 |
CN116303082A (zh) * | 2023-04-04 | 2023-06-23 | 中南大学 | 一种操作系统内核模糊测试种子调度与评估方法 |
-
2022
- 2022-06-21 CN CN202210702974.9A patent/CN115130376A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115496208A (zh) * | 2022-11-15 | 2022-12-20 | 清华大学 | 协同模式多样化导向的无监督多智能体强化学习方法 |
CN116303082A (zh) * | 2023-04-04 | 2023-06-23 | 中南大学 | 一种操作系统内核模糊测试种子调度与评估方法 |
CN116303082B (zh) * | 2023-04-04 | 2023-12-19 | 中南大学 | 一种操作系统内核模糊测试种子调度与评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909926A (zh) | 基于tcn-lstm的太阳能光伏发电预测方法 | |
CN115130376A (zh) | 一种基于行列式多样性引导的群体强化学习训练方法 | |
CN109192298B (zh) | 基于脑网络的深度脑疾病诊断算法 | |
CN111542843A (zh) | 利用协作生成器积极开发 | |
US20090043715A1 (en) | Method to Continuously Diagnose and Model Changes of Real-Valued Streaming Variables | |
CN113723007B (zh) | 基于drsn和麻雀搜索优化的设备剩余寿命预测方法 | |
CN109583635A (zh) | 一种面向运行可靠性的短期负荷预测建模方法 | |
CN113190688A (zh) | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 | |
CN113111572B (zh) | 航空发动机剩余寿命预测方法及系统 | |
CN113222035B (zh) | 基于强化学习和知识蒸馏的多类别不平衡故障分类方法 | |
CN113780420B (zh) | 基于gru-gcn的变压器油中溶解气体浓度预测方法 | |
CN112116002A (zh) | 一种检测模型的确定方法、验证方法和装置 | |
CN113241122A (zh) | 自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法 | |
CN116759100B (zh) | 基于联邦学习构建慢性心血管疾病大模型方法 | |
CN115510042A (zh) | 基于生成对抗网络的电力系统负荷数据填补方法及装置 | |
CN115544890A (zh) | 一种短期电力负荷预测方法及系统 | |
CN116486150A (zh) | 一种基于不确定性感知的图像分类模型回归误差消减方法 | |
CN117036760A (zh) | 一种基于图对比学习的多视图聚类模型实现方法 | |
CN117112992A (zh) | 一种聚酯酯化阶段的故障诊断方法 | |
CN110993121A (zh) | 一种基于双协同线性流形的药物关联预测方法 | |
CN113539517B (zh) | 时序干预效果的预测方法 | |
CN115206538A (zh) | 围术期患者样本数据集均衡方法及样本数据集获取系统 | |
CN114881106A (zh) | 一种基于mpa-svm的变压器故障诊断方法及装置 | |
CN115206539A (zh) | 一种基于围术期患者风险事件数据的多标签集成分类方法 | |
CN114048837A (zh) | 一种基于分布式类脑图的深度神经网络模型加固方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220930 |