CN117010482A - 一种基于双经验池优先采样和DuelingDQN实现的策略方法 - Google Patents
一种基于双经验池优先采样和DuelingDQN实现的策略方法 Download PDFInfo
- Publication number
- CN117010482A CN117010482A CN202310825223.0A CN202310825223A CN117010482A CN 117010482 A CN117010482 A CN 117010482A CN 202310825223 A CN202310825223 A CN 202310825223A CN 117010482 A CN117010482 A CN 117010482A
- Authority
- CN
- China
- Prior art keywords
- value
- experience
- state
- formula
- priority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000009471 action Effects 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000000694 effects Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000002045 lasting effect Effects 0.000 claims abstract description 6
- 230000009977 dual effect Effects 0.000 claims abstract description 4
- 238000005516 engineering process Methods 0.000 claims abstract description 4
- 230000007613 environmental effect Effects 0.000 claims abstract description 4
- 238000010606 normalization Methods 0.000 claims abstract description 4
- 238000012216 screening Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 61
- 238000004364 calculation method Methods 0.000 claims description 31
- 239000003795 chemical substances by application Substances 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于双经验池优先采样和DuelingDQN实现的策略方法,步骤1:构建Dueling DQN网络对环境信息进行特征提取,智能体通过策略选择动作在环境中运行;步骤2:收集、选择画面数据;步骤3:对数据进行处理,包括数据筛选、数据规范化;步骤4:将处理过的数据根据评判标准分类存储到经验池中;步骤5:使用优先采样和均匀随机采样技术依概率进行数据采样,得到训练样本;步骤6:计算损失函数,反向传播梯度更新参数;步骤7:统计并分析训练好的智能体在环境中的运行效果。
Description
技术领域
本发明涉及深度学习技术领域,具体涉及基于双经验池优先采样和DuelingDQN实现的策略方法。
背景技术
深度强化学习在游戏、机器人控制、自动驾驶、金融、资源管理、自然语言处理和医疗等领域有着广泛的应用。深度强化学习实现的策略方法有助于提升智能体的自主决策能力、适应性和学习能力,实现高级策略和复杂行为,解决稀疏奖励问题,并支持多智能体协作。
申请公布号为CN116339333A的专利文献公开了一种基于深度强化学习DQN和AGV相结合的路径规划避障方法,申请公布号为CN116300944A的专利文献公开了一种基于改进Double DQN的自动驾驶决策方法及系统。上述的深度强化学习算法,在某些方面存在一些不完善之处:
1)采样效率低:DQN算法使用经验回放机制来进行训练,由于每次训练都需要从经验池中随机采样,导致采样效率较低;
2)对稀疏奖励问题的挑战:在许多情况下,智能体只有在达到目标或完成任务时才接收到正向奖励信号,而在其他时间步上接收到的奖励信号较少或为零;
3)值函数估计不准确的问题:在许多问题情景下,采取什么动作区别不大,动作的不同选择基本不会对动作值产生影响,而动作值主要取决于当前的状态。传统的DQN算法对所有状态-动作对都进行估计和更新,没有区分这种决策无关性,从而导致值函数估计不准。
因此申请人提出一种基于双经验池优先采样和DuelingDQN的策略生成方法,从经验池和网络入手,针对DQN存在的上述问题进行优化。
发明内容
本发明的目的是为了解决现有技术存在的采样效率较低、奖励稀疏和值函数估计不准确的技术问题,而提出的一种基于双经验池优先采样和DuelingDQN实现的策略方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于双经验池优先采样和DuelingDQN实现的策略方法,它包括以下步骤:
1)构建Dueling DQN网络对环境中的状态、动作和奖励等信息进行特征提取,智能体通过策略选择动作在环境中运行;
2)收集、选择运行环境截图画面数据;
3)对数据进行处理,包括数据筛选、数据规范化;
4)将处理过的数据根据评判标准分类存储到经验池中;
5)当经验池内经验样本数量达到设定值时,使用优先采样和均匀随机采样技术依概率进行数据采样,得到训练样本;
6)使用训练样本进行训练,计算损失函数,反向传播梯度更新参数;
7)统计并分析智能体在环境中的运行效果。
在步骤1)中,具体包括以下步骤:
1-1)构建多层卷积神经网络,使用多个卷积核对环境编码信息进行特征提取,CNN卷积网络的公式如公式(1)所示;
xt=δcnn(Wcnn⊙xt+bcnn) (1)
xt表示当前的环境状态特征,Wcnn表示过滤器的权重矩阵,bcnn表示偏置向量,σcnn是激活函数;
1-2)构建全连接网络,包括Advantage网络和Value网络,用于计算动作值和状态值,全连接层公式如公式(2)所示:
ai=fi(Wi×ai-1+bi) (2)
其中,ai表示第i层的激活输出结果,fi是第i层的激活函数,Wi是第i层的权重矩阵,ai-1是第i-1层的输出结果,bi是第i层的偏置向量;
1-3)在前向传播中进行整合计算,它将动作值函数分解为状态值函数V和优势函数A,状态值函数的计算公式如公式(3)所示:
其中,V(s)表示状态值函数,Wv是状态值函数的权重参数,是输入状态s的表示;
优势函数的计算公式如公式(4)所示;
其中,A(s,a)表示在状态s下采取动作a的优势函数,Wa是优势函数的权重参数,是输入状态和动作的表示;
Q值的计算公式如公式(5)所示;
Q(s,a)=V(s)+(A(s,a)-mean(A(s,a)) (5)
其中,Q(s,a)表示在状态s下采取动作a的Q值,mean(A(s,a))表示在状态s下所有动作的优势函数的均值。
在步骤3)中,具体包括以下步骤:
3-1)输入图像处理,将原本的彩色图像转换为指定大小的灰度图像,符合网络结构;
3-2)去除无用帧数,将连续的几帧进行堆叠作为状态。
在步骤4)中,具体包括以下步骤:
4-1)创建两个经验池:均匀随机采样经验池和优先经验池;
4-2)智能体通过网络决策得出的动作在环境中运行,并将当前状态、奖励、动作、下一状态、终止信息存入经验池中;
4-3)将不符合规范的数据进行丢弃,不计入经验池中;
4-4)对均匀随机采样经验池使用数组进行顺序存储;
4-5)优先经验池根据优先级采用Sumtree结构进行存储;Sumtree的结构如图2;
据图可知,Sumtree结构是一种二叉树结构,将每个经验样本的优先级当做二叉树的叶子节点,两个节点一直向上叠加,树根的值就是所有经验样本优先级的总和;
优先级则是根据TD-error的值进行计算,TD-error的计算公式如公式(6)所示;
δt=rt+1+γmaxaQw(st+1,at+1)-Qw(st,at) (6)
公式(1)中rt+1为到达下一状态获得的奖励,γ为权重超参数,maxaQw(st+1,at+1)为下一状态最大Q值动作对应的Q值,Qw(st,at)为当前状态当前动作对应的Q值;目标就是让TD-error近可能小,如果TD-error比较大,意味着当前的Q函数离目标的Q函数差距还很大,应该进行更新,因此用TD-error来衡量经验的价值;
每个经验样本的优先级计算公式如公式(7)所示;
其中为概率,其中∈是一个很小的值,防止TD-error为0的经验被抽取到的概率不会为0.k为经验池中样本数量,α为超参数;
4-6)根据价值评判,将较低价值的经验数据存储进均匀随机采样经验池,较高价值的经验数据存储进优先经验池。
在步骤5)中,具体包括以下步骤:
5-1)根据经验参数ε依概率从均匀随机经验池或优先经验池进行采样;
5-2)从均匀随机经验池随机地取出batch_size大小的样本数量;
5-3)从优先经验池中根据优先级取出batch_size大小的样本数量;
5-4)计算优先经验池中经验样本的重要性权值,计算公式如公式(8)所示;
这里的N是Buffer里的样本数,β为超参数,用来抵消优先经验回放对收敛结果的影响。
在步骤6)中,具体包括以下步骤:
6-1)计算损失函数,损失函数计算公式如公式(9)所示;
其中ω为重要性权重值,Q(s,a;θ)为当前状态s下采取动作a的Q值,由神经网络参数θ计算得到,r为在执行动作a后获得的奖励值,γ是折扣因子,用于衡量未来奖励的重要性,s'是执行动作a后的新状态,θ~是目标网络的参数,用于计算目标状态s'下的Q值,在训练过程中,通过最小化损失函数来更新神经网络的参数θ,使得Q值逐渐逼近最优的Q值函数;
6-2)通过梯度更新更新网络参数,梯度更新计算公式如公式(10)所示;
其中Q(s,a;θ)是当前状态s下采取动作a的Q值,由神经网络参数θ计算得到,r是在执行动作a后获得的奖励值,γ是折扣因子,用于衡量未来奖励的重要性,s'是执行动作a后的新状态,θ~是目标网络的参数,用于计算目标状态s'下的Q值,梯度更新计算公式使用了TD-error,将当前状态下采取动作a的Q值与下一个状态s'的最大Q值之差,乘以来计算梯度,表示了对参数θ的更新方向。
与现有技术相比,本发明具有如下技术效果:
本发明通过使用dueling architecture(分支网络)的结构,使智能体独立地学习状态的价值和动作的优势。通过将状态值和优势估计分开,Dueling DQN能够更准确地估计每个动作的优势,从而提高学习效率;使用优先经验回放可以使智能体有选择性地从经验池中采样,优先选择那些对当前策略有更大影响的经验。通过给予具有较高优先级的经验更多的学习机会,优先经验回放能够加强那些对当前策略改进更重要的经验的学习效果;将均匀随机经验池与优先经验池相结合能解决经验池中优先级较高的经验被重复采样,而其他经验则被较少采样的偏差问题。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明的流程图;
图2是本发明中SumTree结构图;
图3是本发明中Dueling DQN网络模型结构;
图4是本发明的逻辑流程图;
图5是本发明中示例游戏画面。
具体实施方式
一种基于双经验池优先采样和Dueling DQN实现的策略方法,它包括以下步骤:
1)构建Dueling DQN网络对环境中的状态、动作和奖励等信息进行特征提取,智能体通过策略选择动作在环境中运行;
2)收集、选择运行环境截图的画面数据;
3)对数据进行处理,包括数据筛选、数据规范化;
4)将处理过的数据根据评判标准分类存储到经验池中;
5)当经验池内经验样本数量达到设定值时,使用优先采样和均匀随机采样技术依概率进行数据采样,得到训练样本;
6)使用训练样本进行训练,计算损失函数,反向传播梯度更新参数;
7)统计并分析智能体在环境中的运行效果。
在步骤1)中,具体包括以下步骤:
1-1)构建多层卷积神经网络,使用多个卷积核对环境编码信息进行特征提取,CNN卷积网络的公式如公式(1)所示。
xt=δcnn(Wcnn⊙xt+bcnn) (1)
xt表示当前的环境状态特征,Wcnn表示过滤器的权重矩阵,bcnn表示偏置向量,σcnn是激活函数;
1-2)构建全连接网络,包括Advantage网络和Value网络,用于计算动作值和状态值,全连接层公式如公式(2)所示:
ai=fi(Wi×ai-1+bi) (2)
其中,ai表示第i层的激活输出结果,fi是第i层的激活函数,Wi是第i层的权重矩阵,ai-1是第i-1层的输出结果,bi是第i层的偏置向量;
1-3)在前向传播中进行整合计算,它将动作值函数分解为状态值函数V和优势函数A,状态值函数的计算公式如公式(3)所示:
其中,V(s)表示状态值函数,Wv是状态值函数的权重参数,是输入状态s的表示;
优势函数的计算公式如公式(4)所示。
其中,A(s,a)表示在状态s下采取动作a的优势函数,Wa是优势函数的权重参数,是输入状态和动作的表示;
Q值的计算公式如公式(5)所示。
Q(s,a)=V(s)+(A(s,a)-mean(A(s,a)) (5)
其中,Q(s,a)表示在状态s下采取动作a的Q值,mean(A(s,a))表示在状态s下所有动作的优势函数的均值。
在步骤3)中,具体包括以下步骤:
3-1)输入图像处理,将原本的彩色图像转换为84×84的灰度图像,符合网络结构;
3-2)去除无用帧数,将连续的几帧进行堆叠作为状态。
在步骤4)中,具体包括以下步骤:
4-1)创建两个经验池:均匀随机采样经验池和优先经验池;
4-2)智能体通过网络决策得出的动作在环境中运行,并将当前状态、奖励、动作、下一状态、终止信息存入经验池中;
4-3)将不符合规范的数据进行丢弃,不计入经验池中;
4-4)对均匀随机采样经验池使用数组进行顺序存储;
4-5)优先经验池根据优先级采用Sumtree结构进行存储;Sumtree的结构如图2;
据图可知,Sumtree结构是一种二叉树结构,将每个经验样本的优先级当做二叉树的叶子节点,两个节点一直向上叠加,树根的值就是所有经验样本优先级的总和;
优先级则是根据TD-error的值进行计算,TD-error的计算公式如公式(6)所示。
δt=rt+1+γmaxaQw(st+1,at+1)-Qw(st,at) (6)
公式(1)中rt+1为到达下一状态获得的奖励,γ为权重超参数,maxaQw(st+1,at+1)为下一状态最大Q值动作对应的Q值,Qw(st,at)为当前状态当前动作对应的Q值;目标就是让TD-error近可能小,如果TD-error比较大,意味着当前的Q函数离目标的Q函数差距还很大,应该进行更新,因此用TD-error来衡量经验的价值;
每个经验样本的优先级计算公式如公式(7)所示;
其中为概率,其中∈是一个很小的值,防止TD-error为0的经验被抽取到的概率不会为0.k为经验池中样本数量,α为超参数。
4-6)根据价值评判,将较低价值的经验数据存储进均匀随机采样经验池,较高价值的经验数据存储进优先经验池。
在步骤5)中,具体包括以下步骤:
5-1)根据经验参数ε依概率从均匀随机经验池或优先经验池进行采样;
5-2)从均匀随机经验池随机地取出batch_size大小的样本数量;
5-3)从优先经验池中根据优先级取出batch_size大小的样本数量;具体过程:
抽样时,就将根节点的总的优先值除以batch_size,划分为batch_size个区间,每个区间随机抽取1个数,从根节点处往下搜寻叶子节点。假设总的优先值是42的话,如果抽6个样本,这时的区间可能如下:
[0-7],[7-14],[14-21],[21-28],[28-35],[35-42]
然后在每个区间里随机选取1个数.比如在区间[21-28]里选到了24,就按照这个24从最顶上的42开始向下搜索.首先看到最顶上42下面有两个子节点,拿着手中的24对比左边的孩子节点29,如果左边的孩子节点比自己手中的值大,那就走左边这条路,接着再对比29下面的左边那个点13,这时,手中的24比13大,那就走右边的路,并且将手中的值根据13修改一下,变成24-13=11.接着拿着11和16左下角的12比,结果12比11大,就选12当作这次选到的优先值,并且也选择12对应的数据。
5-4)计算优先经验池中经验样本的重要性权值,计算公式如公式(8)所示。
这里的N是Buffer里的样本数,β为超参数,用来抵消优先经验回放对收敛结果的影响。
在步骤6)中,具体包括以下步骤:
6-1)计算损失函数,损失函数计算公式如公式(9)所示。
其中ω为重要性权重值,Q(s,a;θ)为当前状态s下采取动作a的Q值,由神经网络参数θ计算得到,r为在执行动作a后获得的奖励值,γ是折扣因子,用于衡量未来奖励的重要性,s'是执行动作a后的新状态,θ~是目标网络的参数,用于计算目标状态s'下的Q值,在训练过程中,通过最小化损失函数来更新神经网络的参数θ,使得Q值逐渐逼近最优的Q值函数;
6-2)通过梯度更新更新网络参数,梯度更新计算公式如公式(10)所示;
其中Q(s,a;θ)是当前状态s下采取动作a的Q值,由神经网络参数θ计算得到,r是在执行动作a后获得的奖励值,γ是折扣因子,用于衡量未来奖励的重要性,s'是执行动作a后的新状态,θ~是目标网络的参数,用于计算目标状态s'下的Q值,梯度更新计算公式使用了TD-error,将当前状态下采取动作a的Q值与下一个状态s'的最大Q值之差,乘以来计算梯度,表示了对参数θ的更新方向。
实施例:
本发明在gym官网中的Pong环境中进行了测试。环境的渲染截图如图5所示。你控制着右边的球拍,你与电脑控制的左边的球拍竞争。你们每个人都试图让球偏离自己的球门,进入对手的球门。
首先构建Agent的模型,包括Dueling DQN网络和两个经验池,分别是基于SumTree构建的优先经验采样经验池和顺序存储的均匀随机采样经验池。DuelingDQN网络模型构建如图3所示。
初始化游戏环境,获取动作空间和状态空间,初始化Agent,包括一些超参数,;经验池大小,本发明设置的10000;DQN网络、Target_DQN网络以及优化函数。将Agent模型放入环境中与环境进行交互,设置的游戏轮数为400轮,当一方分数达到21点时游戏结束,进入下一轮。
每一轮中,首先获取当前状态环境信息,将环境截图数据进行处理,将RGB图像转换为84×84的灰度图像数据,Agent模型根据灰度图像数据选择动作,将动作数据输入环境中,得到下一状态环境信息、奖励值、是否结束游戏等信息。奖励值在游戏结束前进行累加存储。将当前状态信息、动作值、奖励值、下一状态信息和是否结束作为一组经验存入经验池中。当经验池中的数据满足学习条件时,模型使用经验池中的数据进行学习。
Agent模型依照概率选择经验池进行数据提取。本发明的选取概率为0.6,60%的概率选取优先经验采样经验池。从经验池中选择batch_size=64个经验样本数量进行学习。使用DQN网络计算当前状态的Q值,使用Target_DQN网络和奖励值计算Target_Q值。使用Q值和Target_Q值计算Loss,反向计算更新网络参数。一轮结束后,将这一轮的累计奖励值进行存储,用来体现算法的学习效果。
Claims (6)
1.一种基于双经验池优先采样和DuelingDQN实现的策略方法,其特征在于,它包括以下步骤:
1)构建Dueling DQN网络对环境中的状态、动作和奖励等信息进行特征提取,智能体通过策略选择动作在环境中运行;
2)收集、选择运行环境截图画面数据;
3)对数据进行处理,包括数据筛选、数据规范化;
4)将处理过的数据根据评判标准分类存储到经验池中;
5)当经验池内经验样本数量达到设定值时,使用优先采样和均匀随机采样技术依概率进行数据采样,得到训练样本;
6)使用训练样本进行训练,计算损失函数,反向传播梯度更新参数;
7)统计并分析智能体在环境中的运行效果。
2.根据权利要求1所述的方法,其特征在于,在步骤1)中,具体包括以下步骤:
1-1)构建多层卷积神经网络,使用多个卷积核对环境编码信息进行特征提取,CNN卷积网络的公式如公式(1)所示;
xt=δcnn(Wcnn⊙xt+bcnn) (1)
xt表示当前的环境状态特征,Wcnn表示过滤器的权重矩阵,bcnn表示偏置向量,σcnn是激活函数;
1-2)构建全连接网络,包括Advantage网络和Value网络,用于计算动作值和状态值,全连接层公式如公式(2)所示:
ai=fi(Wi×ai-1+bi) (2)
其中,ai表示第i层的激活输出结果,fi是第i层的激活函数,Wi是第i层的权重矩阵,ai-1是第i-1层的输出结果,bi是第i层的偏置向量;
1-3)在前向传播中进行整合计算,它将动作值函数分解为状态值函数V和优势函数A,状态值函数的计算公式如公式(3)所示:
其中,V(s)表示状态值函数,Wv是状态值函数的权重参数,是输入状态s的表示;
优势函数的计算公式如公式(4)所示;
其中,A(s,a)表示在状态s下采取动作a的优势函数,Wa是优势函数的权重参数,是输入状态和动作的表示;
Q值的计算公式如公式(5)所示;
Q(s,a)=V(s)+(A(s,a)-mean(A(s,a)) (5)
其中,Q(s,a)表示在状态s下采取动作a的Q值,mean(A(s,a))表示在状态s下所有动作的优势函数的均值。
3.根据权利要求1所述的方法,其特征在于,在步骤3)中,具体包括以下步骤:
3-1)输入图像处理,将原本的彩色图像转换为指定大小的灰度图像,符合网络结构;
3-2)去除无用帧数,将连续的几帧进行堆叠作为状态。
4.根据权利要求1所述的方法,其特征在于,在步骤4)中,具体包括以下步骤:
4-1)创建两个经验池:均匀随机采样经验池和优先经验池;
4-2)智能体通过网络决策得出的动作在环境中运行,并将当前状态、奖励、动作、下一状态、终止信息存入经验池中;
4-3)将不符合规范的数据进行丢弃,不计入经验池中;
4-4)对均匀随机采样经验池使用数组进行顺序存储;
4-5)优先经验池根据优先级采用Sumtree结构进行存储;Sumtree的结构如图2;
据图可知,Sumtree结构是一种二叉树结构,将每个经验样本的优先级当做二叉树的叶子节点,两个节点一直向上叠加,树根的值就是所有经验样本优先级的总和;
优先级则是根据TD-error的值进行计算,TD-error的计算公式如公式(6)所示;
δt=rt+1+γmaxaQw(st+1,at+1)-Qw(st,at) (6)
公式(1)中rt+1为到达下一状态获得的奖励,γ为权重超参数,maxaQw(st+1,at+1)为下一状态最大Q值动作对应的Q值,Qw(st,at)为当前状态当前动作对应的Q值;目标就是让TD-error近可能小,如果TD-error比较大,意味着当前的Q函数离目标的Q函数差距还很大,应该进行更新,因此用TD-error来衡量经验的价值;
每个经验样本的优先级计算公式如公式(7)所示;
其中为概率,其中∈是一个很小的值,防止TD-error为0的经验被抽取到的概率不会为0.k为经验池中样本数量,α为超参数;
4-6)根据价值评判,将较低价值的经验数据存储进均匀随机采样经验池,较高价值的经验数据存储进优先经验池。
5.根据权利要求1所述的方法,其特征在于,在步骤5)中,具体包括以下步骤:
5-1)根据经验参数ε依概率从均匀随机经验池或优先经验池进行采样;
5-2)从均匀随机经验池随机地取出batch_size大小的样本数量;
5-3)从优先经验池中根据优先级取出batch_size大小的样本数量;
5-4)计算优先经验池中经验样本的重要性权值,计算公式如公式(8)所示;
这里的N是Buffer里的样本数,β为超参数,用来抵消优先经验回放对收敛结果的影响。
6.根据权利要求1所述的方法,其特征在于,在步骤6)中,具体包括以下步骤:
6-1)计算损失函数,损失函数计算公式如公式(9)所示;
其中ω为重要性权重值,Q(s,a;θ)为当前状态s下采取动作a的Q值,由神经网络参数θ计算得到,r为在执行动作a后获得的奖励值,γ是折扣因子,用于衡量未来奖励的重要性,s'是执行动作a后的新状态,θ~是目标网络的参数,用于计算目标状态s'下的Q值,在训练过程中,通过最小化损失函数来更新神经网络的参数θ,使得Q值逐渐逼近最优的Q值函数;
6-2)通过梯度更新更新网络参数,梯度更新计算公式如公式(10)所示;
其中Q(s,a;θ)是当前状态s下采取动作a的Q值,由神经网络参数θ计算得到,r是在执行动作a后获得的奖励值,γ是折扣因子,用于衡量未来奖励的重要性,s'是执行动作a后的新状态,θ~是目标网络的参数,用于计算目标状态s'下的Q值,梯度更新计算公式使用了TD-error,将当前状态下采取动作a的Q值与下一个状态s'的最大Q值之差,乘以来计算梯度,表示了对参数θ的更新方向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310825223.0A CN117010482A (zh) | 2023-07-06 | 2023-07-06 | 一种基于双经验池优先采样和DuelingDQN实现的策略方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310825223.0A CN117010482A (zh) | 2023-07-06 | 2023-07-06 | 一种基于双经验池优先采样和DuelingDQN实现的策略方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117010482A true CN117010482A (zh) | 2023-11-07 |
Family
ID=88564576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310825223.0A Pending CN117010482A (zh) | 2023-07-06 | 2023-07-06 | 一种基于双经验池优先采样和DuelingDQN实现的策略方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117010482A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474295A (zh) * | 2023-12-26 | 2024-01-30 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392971A (zh) * | 2021-06-11 | 2021-09-14 | 武汉大学 | 策略网络训练方法、装置、设备及可读存储介质 |
CN113795050A (zh) * | 2021-08-20 | 2021-12-14 | 广东工业大学 | 一种基于Sum tree采样的深度双Q网络动态功率控制方法 |
CN114613169A (zh) * | 2022-04-20 | 2022-06-10 | 南京信息工程大学 | 一种基于双经验池dqn的交通信号灯控制方法 |
CN114692310A (zh) * | 2022-04-14 | 2022-07-01 | 北京理工大学 | 一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法 |
CN115758981A (zh) * | 2022-11-29 | 2023-03-07 | 东南大学 | 一种基于强化学习和遗传算法的布图规划方法 |
CN116205273A (zh) * | 2021-11-30 | 2023-06-02 | 南京理工大学 | 优化经验存储与经验再利用的多智能体强化学习方法 |
CN116321237A (zh) * | 2023-04-11 | 2023-06-23 | 吉林大学 | 一种基于深度强化学习的无人机辅助车联网数据收集方法 |
-
2023
- 2023-07-06 CN CN202310825223.0A patent/CN117010482A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392971A (zh) * | 2021-06-11 | 2021-09-14 | 武汉大学 | 策略网络训练方法、装置、设备及可读存储介质 |
CN113795050A (zh) * | 2021-08-20 | 2021-12-14 | 广东工业大学 | 一种基于Sum tree采样的深度双Q网络动态功率控制方法 |
CN116205273A (zh) * | 2021-11-30 | 2023-06-02 | 南京理工大学 | 优化经验存储与经验再利用的多智能体强化学习方法 |
CN114692310A (zh) * | 2022-04-14 | 2022-07-01 | 北京理工大学 | 一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法 |
CN114613169A (zh) * | 2022-04-20 | 2022-06-10 | 南京信息工程大学 | 一种基于双经验池dqn的交通信号灯控制方法 |
CN115758981A (zh) * | 2022-11-29 | 2023-03-07 | 东南大学 | 一种基于强化学习和遗传算法的布图规划方法 |
CN116321237A (zh) * | 2023-04-11 | 2023-06-23 | 吉林大学 | 一种基于深度强化学习的无人机辅助车联网数据收集方法 |
Non-Patent Citations (3)
Title |
---|
刘尚新: "《深度学习实战》", 31 August 2021, pages: 337 * |
徐宗本等: "《数据智能研究前沿》", 31 December 2019, pages: 226 * |
汪荣贵等: "《机器学习简明教程》", 30 April 2020, pages: 270 - 272 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474295A (zh) * | 2023-12-26 | 2024-01-30 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
CN117474295B (zh) * | 2023-12-26 | 2024-04-26 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
CN110141867B (zh) | 一种游戏智能体训练方法及装置 | |
CN111260027B (zh) | 一种基于强化学习的智能体自动决策方法 | |
CN107342078B (zh) | 对话策略优化的冷启动系统和方法 | |
CN111282267B (zh) | 信息处理方法、装置、介质及电子设备 | |
CN112717415B (zh) | 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法 | |
CN116448117A (zh) | 一种融合深度神经网络和强化学习方法的路径规划方法 | |
CN117010482A (zh) | 一种基于双经验池优先采样和DuelingDQN实现的策略方法 | |
CN113947022B (zh) | 一种基于模型的近端策略优化方法 | |
CN111352419B (zh) | 基于时序差分更新经验回放缓存的路径规划方法及系统 | |
CN113952733A (zh) | 一种多智能体自适应采样策略生成方法 | |
CN113276852B (zh) | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 | |
CN108830376B (zh) | 针对时间敏感的环境的多价值网络深度强化学习方法 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
CN115409158A (zh) | 基于分层深度强化学习模型的机器人行为决策方法及设备 | |
CN114404975B (zh) | 决策模型的训练方法、装置、设备、存储介质及程序产品 | |
CN114371729B (zh) | 一种基于距离优先经验回放的无人机空战机动决策方法 | |
CN113689001B (zh) | 一种基于反事实遗憾最小化的虚拟自我对弈方法和装置 | |
CN118153660A (zh) | 一种具有多层熵结构的深度强化学习策略优化方法、系统 | |
CN115009291B (zh) | 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统 | |
CN115708951A (zh) | 一种用于麻将的智能决策方法、系统、存储介质及设备 | |
CN116596059A (zh) | 一种基于优先级经验共享的多智能体强化学习方法 | |
CN113240118B (zh) | 优势估计方法、装置、电子设备和存储介质 | |
CN113721655A (zh) | 一种控制周期自适应的强化学习无人机稳定飞行控制方法 | |
CN111001161A (zh) | 一种基于二阶反向传播优先级的游戏策略获得方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |