CN114444648A - 一种基于强化学习和粒子群算法的智能寻优方法 - Google Patents
一种基于强化学习和粒子群算法的智能寻优方法 Download PDFInfo
- Publication number
- CN114444648A CN114444648A CN202210362550.2A CN202210362550A CN114444648A CN 114444648 A CN114444648 A CN 114444648A CN 202210362550 A CN202210362550 A CN 202210362550A CN 114444648 A CN114444648 A CN 114444648A
- Authority
- CN
- China
- Prior art keywords
- particle
- optimization
- particle swarm
- reinforcement learning
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002245 particle Substances 0.000 title claims abstract description 107
- 238000005457 optimization Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002787 reinforcement Effects 0.000 title claims abstract description 31
- 230000006870 function Effects 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000009827 uniform distribution Methods 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于智能优化领域,特别涉及一种基于强化学习和粒子群算法的智能寻优方法。一种基于强化学习和粒子群算法的智能寻优方法,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;输入即状态,以粒子群算法的优化进度表征;输出即动作,以粒子群算法速度更新公式参数表征,速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;优化目标即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。本发明实现了粒子群算法迭代步长的自适应调整,避免了因为参数设置不当导致的算法不收敛及迭代次数多的问题,实现了全局最优与求解速度的动态平衡,提升了算法的快速性。
Description
技术领域
本发明属于智能优化领域,特别涉及一种基于强化学习和粒子群算法的智能寻优方法。
背景技术
现实世界的优化问题常具有搜索空间不连续(存在离散形变量)、优化目标非凸(即存在多个局部极值点)、问题求解空间高维复杂等特点,采用梯度优化的方式面临建模困难、易陷入局部极值等问题,目前常采用智能寻优方法求解,能够在有限时间内给出尽可能优化的方案,且易于实现并行处理以提升效率。
智能寻优方法通常采用贪婪的策略,在当前解的基础上进行一定的变化,若变化后的新解更好,则逐步淘汰旧的解,如此循环迭代直到算法收敛。此类方法可采用群体优化的方式,同时对一群解进行变化和淘汰,从而实现求解过程的并行化处理,提升求解效率,但是随着算法优化进度的变化,算法中固定设置的参数往往导致算法优化过程陷入局部最优、或者算法优化步长太小速度过低,导致优化效果不佳。因此,有必要研究一种使算法参数随着优化过程而自适应调整,而不是采用固定的数值,从而实现粒子群算法优化过程中全局最优与求解速度的动态平衡,提升寻优优化效果。
发明内容
针对上述技术问题,本发明提供一种基于强化学习和粒子群算法的智能体寻优方法,实现粒子群算法优化过程中全局最优与求解速度的动态平衡,提升了算法的快速性。
为了实现上述目的,本发明采用如下技术方案:
一种基于强化学习和粒子群算法的智能寻优方法,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;
所述输入、所述输出和所述优化目标的设计思路为:
所述输入,即状态,以粒子群算法的优化进度表征;
所述输出,即动作,以粒子群算法速度更新公式参数表征,所述速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;
所述优化目标,即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。
进一步地,所述状态的表达式为:
进一步地,所述动作的表达式为:
进一步地,所述回报的表达式为:
优选地,包括以下步骤:
S1:建立优化问题函数
S2:参数设置
S3:更新粒子速度
S31:利用强化学习算法计算速度更新公式参数
结合粒子群算法特点,分别设计强化学习算法的状态、动作、回报如下:
(1)状态:包含描述粒子群算法进度的信息,具体设计为:
(2)动作:包含粒子群算法速度更新公式参数,具体设计为:
(3)回报:以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报,具体设计为:
以状态为输入,通过正向计算和反向计算相结合,得到速度更新公式参数;
S32:根据强化学习算法的输出更新粒子速度
S4:更新粒子位置
S5:判断是否满足优化结束条件
进一步地,其特征在于,S32中,所述速度更新公式为:
进一步地,S4中,所述位置更新公式为:
进一步地,所述强化学习算法为深度确定性策略梯度算法。
本发明的有益效果:
本发明将粒子群算法参数设置等效为序列决策问题,在粒子群算法寻优过程中利用强化学习方法动态调整粒子群速度迭代公式的参数,实现了迭代步长的自适应调整,解决了粒子群算法中速度更新公式参数设定主观性强的问题,避免了因为参数设置不当导致的算法不收敛及迭代次数多的问题,实现粒子群算法优化过程中全局最优与求解速度的动态平衡,提升了算法的快速性。本方法具有良好的扩展性,除了粒子群算法外,还可应用到其他优化算法的参数自适应调整过程中。
附图说明
图1为本方法的流程图;
图2为强化学习算法输入输出示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步具体的说明。
一种基于强化学习和粒子群算法的智能寻优方法,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;
所述输入、所述输出和所述优化目标的设计思路为:
所述输入,即状态,以粒子群算法的优化进度表征;
所述状态的表达式为:
所述输出,即动作,以粒子群算法速度更新公式参数表征,所述速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;
所述动作的表达式为:
所述优化目标,即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。
所述回报的表达式为:
具体包括以下步骤:
S1:建立优化问题函数
S2:参数设置
设置调节因子初始值;
S3:更新粒子速度
S31:利用强化学习算法计算速度更新公式参数
结合粒子群算法特点,分别设计强化学习算法的状态、动作、回报如下:
(1)状态:包含描述粒子群算法进度的信息,具体设计为:
(2)动作:包含粒子群算法速度更新公式参数,具体设计为:
(3)回报:以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报,具体设计为:
以状态为输入,通过正向计算和反向计算相结合,得到速度更新公式参数;所述强化学习算法为深度确定性策略梯度算法。
S32:根据强化学习算法的输出更新粒子速度
S32中,所述速度更新公式为:
S4:更新粒子位置
S4中,所述位置更新公式为:
S5:判断是否满足优化结束条件
以上关于本发明的具体描述,仅用于说明本发明而非受限于本发明实施例所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术效果;只要满足使用需要,都在本发明的保护范围之内。
Claims (8)
1.一种基于强化学习和粒子群算法的智能寻优方法,其特征在于,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;
所述输入,即状态,以粒子群算法的优化进度表征;
所述输出,即动作,以粒子群算法速度更新公式参数表征,所述速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;
所述优化目标,即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。
5.根据权利要求1所述的方法,其特征在于,包括以下步骤:
S1:建立优化问题函数
S2:参数设置
设置调节因子初始值;
S3:更新粒子速度
S31:利用强化学习算法计算速度更新公式参数
结合粒子群算法特点,分别设计强化学习算法的状态、动作、回报如下:
(1)状态:包含描述粒子群算法进度的信息,具体设计为:
(2)动作:包含粒子群算法速度更新公式参数,具体设计为:
(3)回报:以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报,具体设计为:
以状态为输入,通过正向计算和反向计算相结合,得到速度更新公式参数;
S32:根据强化学习算法的输出更新粒子速度
S4:更新粒子位置
S5:判断是否满足优化结束条件
8.根据权利要求5所述的方法,其特征在于,所述强化学习算法为深度确定性策略梯度算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210362550.2A CN114444648A (zh) | 2022-04-08 | 2022-04-08 | 一种基于强化学习和粒子群算法的智能寻优方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210362550.2A CN114444648A (zh) | 2022-04-08 | 2022-04-08 | 一种基于强化学习和粒子群算法的智能寻优方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114444648A true CN114444648A (zh) | 2022-05-06 |
Family
ID=81359056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210362550.2A Pending CN114444648A (zh) | 2022-04-08 | 2022-04-08 | 一种基于强化学习和粒子群算法的智能寻优方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114444648A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017807A (zh) * | 2022-06-01 | 2022-09-06 | 中国人民解放军国防科技大学 | 一种基于粒子群算法与强化学习的x射线脉冲星信号处理方法 |
CN115761850A (zh) * | 2022-11-16 | 2023-03-07 | 智慧眼科技股份有限公司 | 人脸识别模型训练方法、人脸识别方法、装置及存储介质 |
CN116152316A (zh) * | 2023-04-17 | 2023-05-23 | 山东省工业技术研究院 | 一种基于自适应参数粒子群算法的图像配准方法 |
CN116757333A (zh) * | 2023-08-12 | 2023-09-15 | 中国人民解放军96901部队 | 一种基于居民满意度的分类垃圾箱优化配置方法 |
CN116956987A (zh) * | 2023-07-28 | 2023-10-27 | 哈尔滨工业大学 | 基于强化学习-粒子群混合优化的亚轨道高超声速运载器在线轨迹优化方法 |
CN117113795A (zh) * | 2023-10-23 | 2023-11-24 | 之江实验室 | 一种优化磁约束带电粒子成像系统参数的方法 |
CN117910908A (zh) * | 2024-03-20 | 2024-04-19 | 张家港保税区长江国际港务有限公司 | 一种基于最优化算法的油脂栈台与储罐高效分发方法 |
-
2022
- 2022-04-08 CN CN202210362550.2A patent/CN114444648A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017807A (zh) * | 2022-06-01 | 2022-09-06 | 中国人民解放军国防科技大学 | 一种基于粒子群算法与强化学习的x射线脉冲星信号处理方法 |
CN115761850A (zh) * | 2022-11-16 | 2023-03-07 | 智慧眼科技股份有限公司 | 人脸识别模型训练方法、人脸识别方法、装置及存储介质 |
CN115761850B (zh) * | 2022-11-16 | 2024-03-22 | 智慧眼科技股份有限公司 | 人脸识别模型训练方法、人脸识别方法、装置及存储介质 |
CN116152316A (zh) * | 2023-04-17 | 2023-05-23 | 山东省工业技术研究院 | 一种基于自适应参数粒子群算法的图像配准方法 |
CN116152316B (zh) * | 2023-04-17 | 2023-07-07 | 山东省工业技术研究院 | 一种基于自适应参数粒子群算法的图像配准方法 |
CN116956987A (zh) * | 2023-07-28 | 2023-10-27 | 哈尔滨工业大学 | 基于强化学习-粒子群混合优化的亚轨道高超声速运载器在线轨迹优化方法 |
CN116956987B (zh) * | 2023-07-28 | 2024-03-26 | 哈尔滨工业大学 | 基于强化学习-粒子群混合优化的亚轨道高超声速运载器在线轨迹优化方法 |
CN116757333A (zh) * | 2023-08-12 | 2023-09-15 | 中国人民解放军96901部队 | 一种基于居民满意度的分类垃圾箱优化配置方法 |
CN117113795A (zh) * | 2023-10-23 | 2023-11-24 | 之江实验室 | 一种优化磁约束带电粒子成像系统参数的方法 |
CN117113795B (zh) * | 2023-10-23 | 2024-01-26 | 之江实验室 | 一种优化磁约束带电粒子成像系统参数的方法 |
CN117910908A (zh) * | 2024-03-20 | 2024-04-19 | 张家港保税区长江国际港务有限公司 | 一种基于最优化算法的油脂栈台与储罐高效分发方法 |
CN117910908B (zh) * | 2024-03-20 | 2024-05-14 | 张家港保税区长江国际港务有限公司 | 一种基于最优化算法的油脂栈台与储罐高效分发方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114444648A (zh) | 一种基于强化学习和粒子群算法的智能寻优方法 | |
CN107844835B (zh) | 基于动态权重m-topsis多属性决策的多目标优化改进遗传算法 | |
CN108133258B (zh) | 一种混合全局优化方法 | |
Zhang et al. | Research on path planning of mobile robot based on improved ant colony algorithm | |
Bansal et al. | Inertia weight strategies in particle swarm optimization | |
CN112700060B (zh) | 站所终端负荷预测方法和预测装置 | |
CN107272403A (zh) | 一种基于改进粒子群算法的pid控制器参数整定算法 | |
Liu et al. | An adaptive online parameter control algorithm for particle swarm optimization based on reinforcement learning | |
CN103646278B (zh) | 基于自适应策略的粒子群算法在机器人路径规划中的应用 | |
CN113552797A (zh) | 一种基于改进粒子群优化的加热炉炉温控制方法和系统 | |
CN107203687B (zh) | 吸收塔脱硫过程多目标协同智能优化控制方法 | |
CN111523749B (zh) | 一种水电机组模型智能辨识方法 | |
KR101963686B1 (ko) | 타겟 시스템 제어 | |
CN110110380B (zh) | 一种压电执行器迟滞非线性建模方法及应用 | |
CN109254530A (zh) | 基于磨矿过程基础回路的无模型自适应控制方法 | |
CN108121206B (zh) | 基于高效改进型差分进化算法的复合自适应内模控制优化方法 | |
CN111222286A (zh) | 一种基于输电线路状态估计的参数优化方法 | |
CN108615097A (zh) | 一种风速预测方法、系统、设备及计算机可读存储介质 | |
CN112132469B (zh) | 一种基于多种群协作粒子群算法的水库群调度方法和系统 | |
Chen et al. | Particle swarm optimization based on genetic operators for sensor-weapon-target assignment | |
CN109839820A (zh) | 基于灰色随机差分进化算法的振动系统pid控制优化方法 | |
CN117369244A (zh) | 一种基于焊接机器人焊枪位置控制优化方法 | |
CN110399697B (zh) | 基于改进遗传学习粒子群算法的飞行器的控制分配方法 | |
CN116307440A (zh) | 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用 | |
Masrom et al. | Hybridization of particle swarm optimization with adaptive genetic algorithm operators |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220506 |