CN114444648A - 一种基于强化学习和粒子群算法的智能寻优方法 - Google Patents
一种基于强化学习和粒子群算法的智能寻优方法 Download PDFInfo
- Publication number
- CN114444648A CN114444648A CN202210362550.2A CN202210362550A CN114444648A CN 114444648 A CN114444648 A CN 114444648A CN 202210362550 A CN202210362550 A CN 202210362550A CN 114444648 A CN114444648 A CN 114444648A
- Authority
- CN
- China
- Prior art keywords
- particle
- optimization
- particle swarm
- reinforcement learning
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于智能优化领域,特别涉及一种基于强化学习和粒子群算法的智能寻优方法。一种基于强化学习和粒子群算法的智能寻优方法,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;输入即状态,以粒子群算法的优化进度表征;输出即动作,以粒子群算法速度更新公式参数表征,速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;优化目标即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。本发明实现了粒子群算法迭代步长的自适应调整,避免了因为参数设置不当导致的算法不收敛及迭代次数多的问题,实现了全局最优与求解速度的动态平衡,提升了算法的快速性。
Description
技术领域
本发明属于智能优化领域,特别涉及一种基于强化学习和粒子群算法的智能寻优方法。
背景技术
现实世界的优化问题常具有搜索空间不连续(存在离散形变量)、优化目标非凸(即存在多个局部极值点)、问题求解空间高维复杂等特点,采用梯度优化的方式面临建模困难、易陷入局部极值等问题,目前常采用智能寻优方法求解,能够在有限时间内给出尽可能优化的方案,且易于实现并行处理以提升效率。
智能寻优方法通常采用贪婪的策略,在当前解的基础上进行一定的变化,若变化后的新解更好,则逐步淘汰旧的解,如此循环迭代直到算法收敛。此类方法可采用群体优化的方式,同时对一群解进行变化和淘汰,从而实现求解过程的并行化处理,提升求解效率,但是随着算法优化进度的变化,算法中固定设置的参数往往导致算法优化过程陷入局部最优、或者算法优化步长太小速度过低,导致优化效果不佳。因此,有必要研究一种使算法参数随着优化过程而自适应调整,而不是采用固定的数值,从而实现粒子群算法优化过程中全局最优与求解速度的动态平衡,提升寻优优化效果。
发明内容
针对上述技术问题,本发明提供一种基于强化学习和粒子群算法的智能体寻优方法,实现粒子群算法优化过程中全局最优与求解速度的动态平衡,提升了算法的快速性。
为了实现上述目的,本发明采用如下技术方案:
一种基于强化学习和粒子群算法的智能寻优方法,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;
所述输入、所述输出和所述优化目标的设计思路为:
所述输入,即状态,以粒子群算法的优化进度表征;
所述输出,即动作,以粒子群算法速度更新公式参数表征,所述速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;
所述优化目标,即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。
进一步地,所述状态的表达式为:
进一步地,所述动作的表达式为:
进一步地,所述回报的表达式为:
优选地,包括以下步骤:
S1:建立优化问题函数
S2:参数设置
S3:更新粒子速度
S31:利用强化学习算法计算速度更新公式参数
结合粒子群算法特点,分别设计强化学习算法的状态、动作、回报如下:
(1)状态:包含描述粒子群算法进度的信息,具体设计为:
(2)动作:包含粒子群算法速度更新公式参数,具体设计为:
(3)回报:以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报,具体设计为:
以状态为输入,通过正向计算和反向计算相结合,得到速度更新公式参数;
S32:根据强化学习算法的输出更新粒子速度
S4:更新粒子位置
S5:判断是否满足优化结束条件
进一步地,其特征在于,S32中,所述速度更新公式为:
进一步地,S4中,所述位置更新公式为:
进一步地,所述强化学习算法为深度确定性策略梯度算法。
本发明的有益效果:
本发明将粒子群算法参数设置等效为序列决策问题,在粒子群算法寻优过程中利用强化学习方法动态调整粒子群速度迭代公式的参数,实现了迭代步长的自适应调整,解决了粒子群算法中速度更新公式参数设定主观性强的问题,避免了因为参数设置不当导致的算法不收敛及迭代次数多的问题,实现粒子群算法优化过程中全局最优与求解速度的动态平衡,提升了算法的快速性。本方法具有良好的扩展性,除了粒子群算法外,还可应用到其他优化算法的参数自适应调整过程中。
附图说明
图1为本方法的流程图;
图2为强化学习算法输入输出示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步具体的说明。
一种基于强化学习和粒子群算法的智能寻优方法,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;
所述输入、所述输出和所述优化目标的设计思路为:
所述输入,即状态,以粒子群算法的优化进度表征;
所述状态的表达式为:
所述输出,即动作,以粒子群算法速度更新公式参数表征,所述速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;
所述动作的表达式为:
所述优化目标,即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。
所述回报的表达式为:
具体包括以下步骤:
S1:建立优化问题函数
S2:参数设置
设置调节因子初始值;
S3:更新粒子速度
S31:利用强化学习算法计算速度更新公式参数
结合粒子群算法特点,分别设计强化学习算法的状态、动作、回报如下:
(1)状态:包含描述粒子群算法进度的信息,具体设计为:
(2)动作:包含粒子群算法速度更新公式参数,具体设计为:
(3)回报:以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报,具体设计为:
以状态为输入,通过正向计算和反向计算相结合,得到速度更新公式参数;所述强化学习算法为深度确定性策略梯度算法。
S32:根据强化学习算法的输出更新粒子速度
S32中,所述速度更新公式为:
S4:更新粒子位置
S4中,所述位置更新公式为:
S5:判断是否满足优化结束条件
以上关于本发明的具体描述,仅用于说明本发明而非受限于本发明实施例所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术效果;只要满足使用需要,都在本发明的保护范围之内。
Claims (8)
1.一种基于强化学习和粒子群算法的智能寻优方法,其特征在于,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;
所述输入,即状态,以粒子群算法的优化进度表征;
所述输出,即动作,以粒子群算法速度更新公式参数表征,所述速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;
所述优化目标,即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。
5.根据权利要求1所述的方法,其特征在于,包括以下步骤:
S1:建立优化问题函数
S2:参数设置
设置调节因子初始值;
S3:更新粒子速度
S31:利用强化学习算法计算速度更新公式参数
结合粒子群算法特点,分别设计强化学习算法的状态、动作、回报如下:
(1)状态:包含描述粒子群算法进度的信息,具体设计为:
(2)动作:包含粒子群算法速度更新公式参数,具体设计为:
(3)回报:以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报,具体设计为:
以状态为输入,通过正向计算和反向计算相结合,得到速度更新公式参数;
S32:根据强化学习算法的输出更新粒子速度
S4:更新粒子位置
S5:判断是否满足优化结束条件
8.根据权利要求5所述的方法,其特征在于,所述强化学习算法为深度确定性策略梯度算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210362550.2A CN114444648A (zh) | 2022-04-08 | 2022-04-08 | 一种基于强化学习和粒子群算法的智能寻优方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210362550.2A CN114444648A (zh) | 2022-04-08 | 2022-04-08 | 一种基于强化学习和粒子群算法的智能寻优方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114444648A true CN114444648A (zh) | 2022-05-06 |
Family
ID=81359056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210362550.2A Pending CN114444648A (zh) | 2022-04-08 | 2022-04-08 | 一种基于强化学习和粒子群算法的智能寻优方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114444648A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017807A (zh) * | 2022-06-01 | 2022-09-06 | 中国人民解放军国防科技大学 | 一种基于粒子群算法与强化学习的x射线脉冲星信号处理方法 |
CN115761850A (zh) * | 2022-11-16 | 2023-03-07 | 智慧眼科技股份有限公司 | 人脸识别模型训练方法、人脸识别方法、装置及存储介质 |
CN116152316A (zh) * | 2023-04-17 | 2023-05-23 | 山东省工业技术研究院 | 一种基于自适应参数粒子群算法的图像配准方法 |
CN116757333A (zh) * | 2023-08-12 | 2023-09-15 | 中国人民解放军96901部队 | 一种基于居民满意度的分类垃圾箱优化配置方法 |
CN116956987A (zh) * | 2023-07-28 | 2023-10-27 | 哈尔滨工业大学 | 基于强化学习-粒子群混合优化的亚轨道高超声速运载器在线轨迹优化方法 |
CN117113795A (zh) * | 2023-10-23 | 2023-11-24 | 之江实验室 | 一种优化磁约束带电粒子成像系统参数的方法 |
CN117910908A (zh) * | 2024-03-20 | 2024-04-19 | 张家港保税区长江国际港务有限公司 | 一种基于最优化算法的油脂栈台与储罐高效分发方法 |
CN118734700A (zh) * | 2024-06-28 | 2024-10-01 | 山东大学 | 基于自适应冠豪猪算法的动力电池参数辨识方法及系统 |
CN119089803A (zh) * | 2024-11-07 | 2024-12-06 | 际华三五一三实业有限公司 | 一种基于粒子群算法的施胶工艺参数优化方法 |
-
2022
- 2022-04-08 CN CN202210362550.2A patent/CN114444648A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017807A (zh) * | 2022-06-01 | 2022-09-06 | 中国人民解放军国防科技大学 | 一种基于粒子群算法与强化学习的x射线脉冲星信号处理方法 |
CN115761850B (zh) * | 2022-11-16 | 2024-03-22 | 智慧眼科技股份有限公司 | 人脸识别模型训练方法、人脸识别方法、装置及存储介质 |
CN115761850A (zh) * | 2022-11-16 | 2023-03-07 | 智慧眼科技股份有限公司 | 人脸识别模型训练方法、人脸识别方法、装置及存储介质 |
CN116152316A (zh) * | 2023-04-17 | 2023-05-23 | 山东省工业技术研究院 | 一种基于自适应参数粒子群算法的图像配准方法 |
CN116152316B (zh) * | 2023-04-17 | 2023-07-07 | 山东省工业技术研究院 | 一种基于自适应参数粒子群算法的图像配准方法 |
CN116956987A (zh) * | 2023-07-28 | 2023-10-27 | 哈尔滨工业大学 | 基于强化学习-粒子群混合优化的亚轨道高超声速运载器在线轨迹优化方法 |
CN116956987B (zh) * | 2023-07-28 | 2024-03-26 | 哈尔滨工业大学 | 基于强化学习-粒子群混合优化的亚轨道高超声速运载器在线轨迹优化方法 |
CN116757333A (zh) * | 2023-08-12 | 2023-09-15 | 中国人民解放军96901部队 | 一种基于居民满意度的分类垃圾箱优化配置方法 |
CN117113795B (zh) * | 2023-10-23 | 2024-01-26 | 之江实验室 | 一种优化磁约束带电粒子成像系统参数的方法 |
CN117113795A (zh) * | 2023-10-23 | 2023-11-24 | 之江实验室 | 一种优化磁约束带电粒子成像系统参数的方法 |
CN117910908A (zh) * | 2024-03-20 | 2024-04-19 | 张家港保税区长江国际港务有限公司 | 一种基于最优化算法的油脂栈台与储罐高效分发方法 |
CN117910908B (zh) * | 2024-03-20 | 2024-05-14 | 张家港保税区长江国际港务有限公司 | 一种基于最优化算法的油脂栈台与储罐高效分发方法 |
CN118734700A (zh) * | 2024-06-28 | 2024-10-01 | 山东大学 | 基于自适应冠豪猪算法的动力电池参数辨识方法及系统 |
CN118734700B (zh) * | 2024-06-28 | 2024-12-10 | 山东大学 | 基于自适应冠豪猪算法的动力电池参数辨识方法及系统 |
CN119089803A (zh) * | 2024-11-07 | 2024-12-06 | 际华三五一三实业有限公司 | 一种基于粒子群算法的施胶工艺参数优化方法 |
CN119089803B (zh) * | 2024-11-07 | 2025-04-25 | 际华三五一三实业有限公司 | 一种基于粒子群算法的施胶工艺参数优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114444648A (zh) | 一种基于强化学习和粒子群算法的智能寻优方法 | |
CN112700060B (zh) | 站所终端负荷预测方法和预测装置 | |
CN116627027B (zh) | 一种基于改进型pid最优鲁棒性控制方法 | |
Bansal et al. | Inertia weight strategies in particle swarm optimization | |
CN107316099A (zh) | 基于粒子群优化bp神经网络的弹药贮存可靠性预测方法 | |
Li et al. | A hybrid assembly sequence planning approach based on discrete particle swarm optimization and evolutionary direction operation | |
CN113919485A (zh) | 基于动态层级通信网络的多智能体强化学习方法及系统 | |
CN108416421B (zh) | 基于dde改进蝙蝠算法的动态火力分配方法 | |
CN110363343A (zh) | 一种混合自适应的水电站群智能优化调度方法及系统 | |
CN109325580A (zh) | 一种用于服务组合全局优化的自适应布谷鸟搜索方法 | |
CN118502230B (zh) | 一种基于改进红嘴蓝鹊算法的陶瓷智能发汗控制方法 | |
CN116149162A (zh) | 一种基于改进黏菌优化算法的pid参数优化方法 | |
CN118170003A (zh) | 一种基于改进角蜥蜴优化算法的pid参数优化方法 | |
CN118859686A (zh) | 一种前馈式自适应pid控制优化方法 | |
CN110399697B (zh) | 基于改进遗传学习粒子群算法的飞行器的控制分配方法 | |
CN113110061B (zh) | 基于改进粒子群算法优化的智能灌溉模糊控制方法及系统 | |
CN109839820A (zh) | 基于灰色随机差分进化算法的振动系统pid控制优化方法 | |
CN118672129A (zh) | 一种用于煤泥烘干机的温度控制方法 | |
CN106026200A (zh) | 风电场的电力系统无功优化方法 | |
CN113313322B (zh) | Moea/d挤压工艺参数多目标优化方法及装置 | |
CN109635913A (zh) | 基于自适应贪婪的q学习算法足球系统仿真方法 | |
CN113238486A (zh) | 一种自适应的多机水电站调速器参数调控方法 | |
CN106408082A (zh) | 一种基于区域分割的控制方法及系统 | |
CN110888323A (zh) | 一种用于切换系统智能优化的控制方法 | |
Gou et al. | Predictive control of turbofan engine model based on improved Elman neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220506 |