CN114444648A - 一种基于强化学习和粒子群算法的智能寻优方法 - Google Patents

一种基于强化学习和粒子群算法的智能寻优方法 Download PDF

Info

Publication number
CN114444648A
CN114444648A CN202210362550.2A CN202210362550A CN114444648A CN 114444648 A CN114444648 A CN 114444648A CN 202210362550 A CN202210362550 A CN 202210362550A CN 114444648 A CN114444648 A CN 114444648A
Authority
CN
China
Prior art keywords
particle
optimization
particle swarm
reinforcement learning
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210362550.2A
Other languages
English (en)
Inventor
高润芳
赵云飞
陈豪
高军强
许馨月
王少冲
韩培俊
梁辉
魏建光
冯国宝
何浩东
魏庆栋
梁燕
王蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
96901 Unit Of Chinese Pla
Original Assignee
96901 Unit Of Chinese Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 96901 Unit Of Chinese Pla filed Critical 96901 Unit Of Chinese Pla
Priority to CN202210362550.2A priority Critical patent/CN114444648A/zh
Publication of CN114444648A publication Critical patent/CN114444648A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于智能优化领域,特别涉及一种基于强化学习和粒子群算法的智能寻优方法。一种基于强化学习和粒子群算法的智能寻优方法,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;输入即状态,以粒子群算法的优化进度表征;输出即动作,以粒子群算法速度更新公式参数表征,速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;优化目标即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。本发明实现了粒子群算法迭代步长的自适应调整,避免了因为参数设置不当导致的算法不收敛及迭代次数多的问题,实现了全局最优与求解速度的动态平衡,提升了算法的快速性。

Description

一种基于强化学习和粒子群算法的智能寻优方法
技术领域
本发明属于智能优化领域,特别涉及一种基于强化学习和粒子群算法的智能寻优方法。
背景技术
现实世界的优化问题常具有搜索空间不连续(存在离散形变量)、优化目标非凸(即存在多个局部极值点)、问题求解空间高维复杂等特点,采用梯度优化的方式面临建模困难、易陷入局部极值等问题,目前常采用智能寻优方法求解,能够在有限时间内给出尽可能优化的方案,且易于实现并行处理以提升效率。
智能寻优方法通常采用贪婪的策略,在当前解的基础上进行一定的变化,若变化后的新解更好,则逐步淘汰旧的解,如此循环迭代直到算法收敛。此类方法可采用群体优化的方式,同时对一群解进行变化和淘汰,从而实现求解过程的并行化处理,提升求解效率,但是随着算法优化进度的变化,算法中固定设置的参数往往导致算法优化过程陷入局部最优、或者算法优化步长太小速度过低,导致优化效果不佳。因此,有必要研究一种使算法参数随着优化过程而自适应调整,而不是采用固定的数值,从而实现粒子群算法优化过程中全局最优与求解速度的动态平衡,提升寻优优化效果。
发明内容
针对上述技术问题,本发明提供一种基于强化学习和粒子群算法的智能体寻优方法,实现粒子群算法优化过程中全局最优与求解速度的动态平衡,提升了算法的快速性。
为了实现上述目的,本发明采用如下技术方案:
一种基于强化学习和粒子群算法的智能寻优方法,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;
所述输入、所述输出和所述优化目标的设计思路为:
所述输入,即状态,以粒子群算法的优化进度表征;
所述输出,即动作,以粒子群算法速度更新公式参数表征,所述速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;
所述优化目标,即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。
进一步地,所述状态的表达式为:
Figure 676553DEST_PATH_IMAGE001
其中,
Figure 926269DEST_PATH_IMAGE002
为当前迭代步数,
Figure 911543DEST_PATH_IMAGE003
为当前粒子最优适应度,
Figure 362247DEST_PATH_IMAGE004
为当前平均适应度,
Figure 105075DEST_PATH_IMAGE005
为当前全局适应度方差。
进一步地,所述动作的表达式为:
Figure 72727DEST_PATH_IMAGE006
其中,
Figure 850190DEST_PATH_IMAGE007
分别为局部极值权重、全局极值权重和惯性因子。
进一步地,所述回报的表达式为:
Figure 268533DEST_PATH_IMAGE008
其中,
Figure 29816DEST_PATH_IMAGE009
为粒子当前适应度即正回报,
Figure 559017DEST_PATH_IMAGE010
为经调节的负回报,
Figure 784462DEST_PATH_IMAGE011
为调节因子。
优选地,包括以下步骤:
S1:建立优化问题函数
设待优化变量个数为
Figure 373706DEST_PATH_IMAGE012
,建立粒子的位置向量
Figure 294389DEST_PATH_IMAGE013
,其中
Figure 627281DEST_PATH_IMAGE014
表示第
Figure 176074DEST_PATH_IMAGE015
个待优化变量,其定义域范围为
Figure 998537DEST_PATH_IMAGE016
,所述位置向量对应优化问题的解;
根据优化问题设计适应度函数
Figure 203253DEST_PATH_IMAGE017
,其函数值越大对应所述优化问题的解越好;
S2:参数设置
根据待优化变量和待优化变量速度的定义域范围,按照均匀分布随机生成
Figure 543099DEST_PATH_IMAGE018
个粒子的初始位置和初始速度,此时令迭代次数
Figure 884082DEST_PATH_IMAGE019
其中,所述待优化变量速度为待优化变量的调整算子,用
Figure 80708DEST_PATH_IMAGE020
表示
Figure 569458DEST_PATH_IMAGE021
的速度,其定义域为
Figure 181836DEST_PATH_IMAGE022
S3:更新粒子速度
S31:利用强化学习算法计算速度更新公式参数
结合粒子群算法特点,分别设计强化学习算法的状态、动作、回报如下:
(1)状态:包含描述粒子群算法进度的信息,具体设计为:
Figure 642904DEST_PATH_IMAGE023
(2)动作:包含粒子群算法速度更新公式参数,具体设计为:
Figure 744852DEST_PATH_IMAGE024
(3)回报:以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报,具体设计为:
Figure 252057DEST_PATH_IMAGE025
以状态为输入,通过正向计算和反向计算相结合,得到速度更新公式参数;
S32:根据强化学习算法的输出更新粒子速度
根据速度更新公式,遍历
Figure 402547DEST_PATH_IMAGE026
个粒子和每个粒子的
Figure 249280DEST_PATH_IMAGE027
个维度,得到每个粒子的
Figure 194234DEST_PATH_IMAGE027
个维度的速度值;
S4:更新粒子位置
根据位置更新公式,遍历
Figure 595259DEST_PATH_IMAGE028
个粒子和每个粒子的
Figure 205232DEST_PATH_IMAGE027
个维度,得到每个粒子的
Figure 375313DEST_PATH_IMAGE027
个维度的位置;
S5:判断是否满足优化结束条件
计算整个粒子群所经历的最好位置的适应度函数值
Figure 84643DEST_PATH_IMAGE029
,其中
Figure 645069DEST_PATH_IMAGE030
是全局极值,是满足
Figure 199678DEST_PATH_IMAGE031
时粒子的位置;若迭代次数达到上限或已经得到最优结果,则结束迭代,并将
Figure 489845DEST_PATH_IMAGE032
作为最优结果,否则返回S3进行下一轮迭代。
进一步地,其特征在于,S32中,所述速度更新公式为:
Figure 370076DEST_PATH_IMAGE034
其中,
Figure 11273DEST_PATH_IMAGE035
Figure 900732DEST_PATH_IMAGE036
为随机数,范围为
Figure 310985DEST_PATH_IMAGE037
,符合均匀分布;
Figure 96538DEST_PATH_IMAGE038
表示第
Figure 959452DEST_PATH_IMAGE039
个粒子在第
Figure 121443DEST_PATH_IMAGE040
次迭代时的
Figure 58306DEST_PATH_IMAGE041
Figure 342657DEST_PATH_IMAGE042
为第
Figure 364971DEST_PATH_IMAGE043
个粒子在第
Figure 330652DEST_PATH_IMAGE044
次迭代时的
Figure 449918DEST_PATH_IMAGE045
Figure 577274DEST_PATH_IMAGE046
为局部极值,是
Figure 149201DEST_PATH_IMAGE047
的第
Figure 449732DEST_PATH_IMAGE048
个待优化量,
Figure 423505DEST_PATH_IMAGE049
为第
Figure 49658DEST_PATH_IMAGE050
个粒子在满足
Figure 374460DEST_PATH_IMAGE051
时的位置;
Figure 416365DEST_PATH_IMAGE052
为全局极值
Figure 182327DEST_PATH_IMAGE053
的第
Figure 651486DEST_PATH_IMAGE054
个待优化量。
进一步地,S4中,所述位置更新公式为:
Figure 198005DEST_PATH_IMAGE056
其中,
Figure 840339DEST_PATH_IMAGE057
表示第
Figure 991965DEST_PATH_IMAGE058
次迭代时第
Figure 897605DEST_PATH_IMAGE059
个粒子的
Figure 931420DEST_PATH_IMAGE060
进一步地,所述强化学习算法为深度确定性策略梯度算法。
本发明的有益效果:
本发明将粒子群算法参数设置等效为序列决策问题,在粒子群算法寻优过程中利用强化学习方法动态调整粒子群速度迭代公式的参数,实现了迭代步长的自适应调整,解决了粒子群算法中速度更新公式参数设定主观性强的问题,避免了因为参数设置不当导致的算法不收敛及迭代次数多的问题,实现粒子群算法优化过程中全局最优与求解速度的动态平衡,提升了算法的快速性。本方法具有良好的扩展性,除了粒子群算法外,还可应用到其他优化算法的参数自适应调整过程中。
附图说明
图1为本方法的流程图;
图2为强化学习算法输入输出示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步具体的说明。
一种基于强化学习和粒子群算法的智能寻优方法,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;
所述输入、所述输出和所述优化目标的设计思路为:
所述输入,即状态,以粒子群算法的优化进度表征;
所述状态的表达式为:
Figure 846286DEST_PATH_IMAGE023
其中,
Figure 383578DEST_PATH_IMAGE061
为当前迭代步数,
Figure 460118DEST_PATH_IMAGE003
为当前粒子最优适应度,
Figure 777967DEST_PATH_IMAGE062
为当前平均适应度,
Figure 965366DEST_PATH_IMAGE005
为当前全局适应度方差。
所述输出,即动作,以粒子群算法速度更新公式参数表征,所述速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;
所述动作的表达式为:
Figure 622743DEST_PATH_IMAGE063
其中,
Figure 378226DEST_PATH_IMAGE064
分别为局部极值权重、全局极值权重和惯性因子。
所述优化目标,即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。
所述回报的表达式为:
Figure 121054DEST_PATH_IMAGE065
其中,
Figure 112144DEST_PATH_IMAGE066
为粒子当前适应度即正回报,
Figure 686345DEST_PATH_IMAGE067
为经调节的负回报,
Figure 104688DEST_PATH_IMAGE068
为调节因子。
具体包括以下步骤:
S1:建立优化问题函数
设待优化变量个数为
Figure 334812DEST_PATH_IMAGE069
,建立粒子的位置向量
Figure 864014DEST_PATH_IMAGE070
,其中
Figure 495983DEST_PATH_IMAGE071
表示第
Figure 22911DEST_PATH_IMAGE072
个待优化变量,其定义域范围为
Figure 333806DEST_PATH_IMAGE016
,所述位置向量对应优化问题的解;
根据优化问题设计适应度函数
Figure 401119DEST_PATH_IMAGE073
,其函数值越大对应所述优化问题的解越好;
S2:参数设置
根据待优化变量和待优化变量速度的定义域范围,按照均匀分布随机生成
Figure 153175DEST_PATH_IMAGE074
个粒子的初始位置和初始速度,此时令迭代次数
Figure 585424DEST_PATH_IMAGE075
其中,所述待优化变量速度为待优化变量的调整算子,用
Figure 524561DEST_PATH_IMAGE076
表示
Figure 661145DEST_PATH_IMAGE071
的速度,其定义域为
Figure 64444DEST_PATH_IMAGE022
设置调节因子初始值;
S3:更新粒子速度
S31:利用强化学习算法计算速度更新公式参数
结合粒子群算法特点,分别设计强化学习算法的状态、动作、回报如下:
(1)状态:包含描述粒子群算法进度的信息,具体设计为:
Figure 729912DEST_PATH_IMAGE023
(2)动作:包含粒子群算法速度更新公式参数,具体设计为:
Figure 828449DEST_PATH_IMAGE077
(3)回报:以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报,具体设计为:
Figure 503144DEST_PATH_IMAGE078
以状态为输入,通过正向计算和反向计算相结合,得到速度更新公式参数;所述强化学习算法为深度确定性策略梯度算法。
S32:根据强化学习算法的输出更新粒子速度
根据速度更新公式,遍历
Figure 557688DEST_PATH_IMAGE026
个粒子和每个粒子的
Figure 597319DEST_PATH_IMAGE079
个维度,得到每个粒子的
Figure 104524DEST_PATH_IMAGE080
个维度的速度值;
S32中,所述速度更新公式为:
Figure 989434DEST_PATH_IMAGE081
其中,
Figure 570588DEST_PATH_IMAGE035
Figure 374596DEST_PATH_IMAGE082
为随机数,范围为
Figure 447726DEST_PATH_IMAGE083
,符合均匀分布;
Figure 464223DEST_PATH_IMAGE084
表示第
Figure 634304DEST_PATH_IMAGE039
个粒子在第
Figure 609214DEST_PATH_IMAGE040
次迭代时的
Figure 28694DEST_PATH_IMAGE076
Figure 52145DEST_PATH_IMAGE042
为第
Figure 342312DEST_PATH_IMAGE043
个粒子在第
Figure 222543DEST_PATH_IMAGE085
次迭代时的
Figure 394898DEST_PATH_IMAGE071
Figure 753198DEST_PATH_IMAGE086
为局部极值,是
Figure 163451DEST_PATH_IMAGE047
的第
Figure 214584DEST_PATH_IMAGE087
个待优化量,
Figure 811918DEST_PATH_IMAGE088
为第
Figure 646013DEST_PATH_IMAGE050
个粒子在满足
Figure 379614DEST_PATH_IMAGE089
时的位置;
Figure 601648DEST_PATH_IMAGE052
为全局极值
Figure 748596DEST_PATH_IMAGE090
的第
Figure 714278DEST_PATH_IMAGE091
个待优化量。
S4:更新粒子位置
根据位置更新公式,遍历
Figure 833543DEST_PATH_IMAGE092
个粒子和每个粒子的
Figure 960899DEST_PATH_IMAGE093
个维度,得到每个粒子的
Figure 532826DEST_PATH_IMAGE079
个维度的位置;
S4中,所述位置更新公式为:
Figure 36620DEST_PATH_IMAGE094
其中,
Figure 948075DEST_PATH_IMAGE057
表示第
Figure 246332DEST_PATH_IMAGE058
次迭代时第
Figure 836714DEST_PATH_IMAGE059
个粒子的
Figure 144198DEST_PATH_IMAGE071
S5:判断是否满足优化结束条件
计算整个粒子群所经历的最好位置的适应度函数值
Figure 972477DEST_PATH_IMAGE095
,其中
Figure 707215DEST_PATH_IMAGE096
是全局极值,是满足
Figure 925838DEST_PATH_IMAGE097
时粒子的位置;若迭代次数达到上限或已经得到最优结果,则结束迭代,并将
Figure 37013DEST_PATH_IMAGE096
作为最优结果,否则返回S3进行下一轮迭代。
以上关于本发明的具体描述,仅用于说明本发明而非受限于本发明实施例所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术效果;只要满足使用需要,都在本发明的保护范围之内。

Claims (8)

1.一种基于强化学习和粒子群算法的智能寻优方法,其特征在于,利用强化学习优化粒子群算法参数,通过强化学习的输入、输出和优化目标设计,自适应调整粒子群算法参数;
所述输入,即状态,以粒子群算法的优化进度表征;
所述输出,即动作,以粒子群算法速度更新公式参数表征,所述速度更新公式参数包括局部极值权重、全局极值权重和惯性因子;
所述优化目标,即回报,以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报。
2.根据权利要求1所述的方法,其特征在于,所述状态的表达式为:
Figure 220989DEST_PATH_IMAGE001
其中,
Figure 872551DEST_PATH_IMAGE002
为当前迭代步数,
Figure 425908DEST_PATH_IMAGE003
为当前粒子最优适应度,
Figure 758801DEST_PATH_IMAGE004
为当前平均适应度,
Figure 510856DEST_PATH_IMAGE005
为当前全局适应度方差。
3.根据权利要求1所述的方法,其特征在于,所述动作的表达式为:
Figure 5422DEST_PATH_IMAGE006
其中,
Figure 210139DEST_PATH_IMAGE007
分别为局部极值权重、全局极值权重和惯性因子。
4.根据权利要求1所述的方法,其特征在于,所述回报的表达式为:
Figure 346722DEST_PATH_IMAGE008
其中,
Figure 953284DEST_PATH_IMAGE009
为粒子当前适应度即正回报,
Figure 681069DEST_PATH_IMAGE010
为经调节的负回报,
Figure 373081DEST_PATH_IMAGE011
为调节因子。
5.根据权利要求1所述的方法,其特征在于,包括以下步骤:
S1:建立优化问题函数
设待优化变量个数为
Figure 782197DEST_PATH_IMAGE012
,建立粒子的位置向量
Figure 243265DEST_PATH_IMAGE013
,其中
Figure 610793DEST_PATH_IMAGE014
表示第
Figure 586839DEST_PATH_IMAGE015
个待优化变量,其定义域范围为
Figure 799645DEST_PATH_IMAGE016
,所述位置向量对应优化问题的解;
根据优化问题设计适应度函数
Figure 584062DEST_PATH_IMAGE017
,其函数值越大对应所述优化问题的解越好;
S2:参数设置
根据待优化变量和待优化变量速度的定义域范围,按照均匀分布随机生成
Figure 653649DEST_PATH_IMAGE018
个粒子的初始位置和初始速度,此时令迭代次数
Figure 54674DEST_PATH_IMAGE019
其中,所述待优化变量速度为待优化变量的调整算子,用
Figure 71172DEST_PATH_IMAGE020
表示
Figure 772412DEST_PATH_IMAGE021
的速度,其定义域为
Figure 216163DEST_PATH_IMAGE022
设置调节因子初始值;
S3:更新粒子速度
S31:利用强化学习算法计算速度更新公式参数
结合粒子群算法特点,分别设计强化学习算法的状态、动作、回报如下:
(1)状态:包含描述粒子群算法进度的信息,具体设计为:
Figure 104484DEST_PATH_IMAGE001
(2)动作:包含粒子群算法速度更新公式参数,具体设计为:
Figure 721410DEST_PATH_IMAGE006
(3)回报:以当前粒子的适应度函数值作为正回报,当前迭代次数作为负回报,具体设计为:
Figure 745998DEST_PATH_IMAGE008
以状态为输入,通过正向计算和反向计算相结合,得到速度更新公式参数;
S32:根据强化学习算法的输出更新粒子速度
根据速度更新公式,遍历
Figure 626229DEST_PATH_IMAGE023
个粒子和每个粒子的
Figure 798585DEST_PATH_IMAGE024
个维度,得到每个粒子的
Figure 891306DEST_PATH_IMAGE024
个维度的速度值;
S4:更新粒子位置
根据位置更新公式,遍历
Figure 98296DEST_PATH_IMAGE025
个粒子和每个粒子的
Figure 883850DEST_PATH_IMAGE024
个维度,得到每个粒子的
Figure 746763DEST_PATH_IMAGE024
个维度的位置;
S5:判断是否满足优化结束条件
计算整个粒子群所经历的最好位置的适应度函数值
Figure 705492DEST_PATH_IMAGE026
,其中
Figure 439093DEST_PATH_IMAGE027
是全局极值,是满足
Figure 661127DEST_PATH_IMAGE028
时粒子的位置;若迭代次数达到上限或已经得到最优结果,则结束迭代,并将
Figure 808074DEST_PATH_IMAGE029
作为最优结果,否则返回S3进行下一轮迭代。
6.根据权利要求5所述的方法,其特征在于,S32中,所述速度更新公式为:
Figure 773756DEST_PATH_IMAGE031
其中,
Figure 893022DEST_PATH_IMAGE032
Figure 754799DEST_PATH_IMAGE033
为随机数,范围为
Figure 592305DEST_PATH_IMAGE034
,符合均匀分布;
Figure 892836DEST_PATH_IMAGE035
表示第
Figure 866608DEST_PATH_IMAGE036
个粒子在第
Figure 164866DEST_PATH_IMAGE037
次迭代时的
Figure 286405DEST_PATH_IMAGE020
Figure 328311DEST_PATH_IMAGE038
为第
Figure 156589DEST_PATH_IMAGE039
个粒子在第
Figure 891327DEST_PATH_IMAGE040
次迭代时的
Figure 437846DEST_PATH_IMAGE041
Figure 549022DEST_PATH_IMAGE042
为局部极值,是
Figure 497386DEST_PATH_IMAGE043
的第
Figure 199763DEST_PATH_IMAGE044
个待优化量,
Figure 233578DEST_PATH_IMAGE045
为第
Figure 617286DEST_PATH_IMAGE046
个粒子在满足
Figure 216895DEST_PATH_IMAGE047
时的位置;
Figure 293435DEST_PATH_IMAGE048
为全局极值
Figure 548967DEST_PATH_IMAGE049
的第
Figure 533103DEST_PATH_IMAGE044
个待优化量。
7.根据权利要求5所述的方法,其特征在于,S4中,所述位置更新公式为:
Figure 456060DEST_PATH_IMAGE050
其中,
Figure 437923DEST_PATH_IMAGE051
表示第
Figure 446330DEST_PATH_IMAGE052
次迭代时第
Figure 437420DEST_PATH_IMAGE053
个粒子的
Figure 11620DEST_PATH_IMAGE041
8.根据权利要求5所述的方法,其特征在于,所述强化学习算法为深度确定性策略梯度算法。
CN202210362550.2A 2022-04-08 2022-04-08 一种基于强化学习和粒子群算法的智能寻优方法 Pending CN114444648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210362550.2A CN114444648A (zh) 2022-04-08 2022-04-08 一种基于强化学习和粒子群算法的智能寻优方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210362550.2A CN114444648A (zh) 2022-04-08 2022-04-08 一种基于强化学习和粒子群算法的智能寻优方法

Publications (1)

Publication Number Publication Date
CN114444648A true CN114444648A (zh) 2022-05-06

Family

ID=81359056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210362550.2A Pending CN114444648A (zh) 2022-04-08 2022-04-08 一种基于强化学习和粒子群算法的智能寻优方法

Country Status (1)

Country Link
CN (1) CN114444648A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017807A (zh) * 2022-06-01 2022-09-06 中国人民解放军国防科技大学 一种基于粒子群算法与强化学习的x射线脉冲星信号处理方法
CN115761850A (zh) * 2022-11-16 2023-03-07 智慧眼科技股份有限公司 人脸识别模型训练方法、人脸识别方法、装置及存储介质
CN116152316A (zh) * 2023-04-17 2023-05-23 山东省工业技术研究院 一种基于自适应参数粒子群算法的图像配准方法
CN116757333A (zh) * 2023-08-12 2023-09-15 中国人民解放军96901部队 一种基于居民满意度的分类垃圾箱优化配置方法
CN116956987A (zh) * 2023-07-28 2023-10-27 哈尔滨工业大学 基于强化学习-粒子群混合优化的亚轨道高超声速运载器在线轨迹优化方法
CN117113795A (zh) * 2023-10-23 2023-11-24 之江实验室 一种优化磁约束带电粒子成像系统参数的方法
CN117910908A (zh) * 2024-03-20 2024-04-19 张家港保税区长江国际港务有限公司 一种基于最优化算法的油脂栈台与储罐高效分发方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017807A (zh) * 2022-06-01 2022-09-06 中国人民解放军国防科技大学 一种基于粒子群算法与强化学习的x射线脉冲星信号处理方法
CN115761850A (zh) * 2022-11-16 2023-03-07 智慧眼科技股份有限公司 人脸识别模型训练方法、人脸识别方法、装置及存储介质
CN115761850B (zh) * 2022-11-16 2024-03-22 智慧眼科技股份有限公司 人脸识别模型训练方法、人脸识别方法、装置及存储介质
CN116152316A (zh) * 2023-04-17 2023-05-23 山东省工业技术研究院 一种基于自适应参数粒子群算法的图像配准方法
CN116152316B (zh) * 2023-04-17 2023-07-07 山东省工业技术研究院 一种基于自适应参数粒子群算法的图像配准方法
CN116956987A (zh) * 2023-07-28 2023-10-27 哈尔滨工业大学 基于强化学习-粒子群混合优化的亚轨道高超声速运载器在线轨迹优化方法
CN116956987B (zh) * 2023-07-28 2024-03-26 哈尔滨工业大学 基于强化学习-粒子群混合优化的亚轨道高超声速运载器在线轨迹优化方法
CN116757333A (zh) * 2023-08-12 2023-09-15 中国人民解放军96901部队 一种基于居民满意度的分类垃圾箱优化配置方法
CN117113795A (zh) * 2023-10-23 2023-11-24 之江实验室 一种优化磁约束带电粒子成像系统参数的方法
CN117113795B (zh) * 2023-10-23 2024-01-26 之江实验室 一种优化磁约束带电粒子成像系统参数的方法
CN117910908A (zh) * 2024-03-20 2024-04-19 张家港保税区长江国际港务有限公司 一种基于最优化算法的油脂栈台与储罐高效分发方法
CN117910908B (zh) * 2024-03-20 2024-05-14 张家港保税区长江国际港务有限公司 一种基于最优化算法的油脂栈台与储罐高效分发方法

Similar Documents

Publication Publication Date Title
CN114444648A (zh) 一种基于强化学习和粒子群算法的智能寻优方法
CN107844835B (zh) 基于动态权重m-topsis多属性决策的多目标优化改进遗传算法
CN108133258B (zh) 一种混合全局优化方法
Zhang et al. Research on path planning of mobile robot based on improved ant colony algorithm
Bansal et al. Inertia weight strategies in particle swarm optimization
CN112700060B (zh) 站所终端负荷预测方法和预测装置
CN107272403A (zh) 一种基于改进粒子群算法的pid控制器参数整定算法
Liu et al. An adaptive online parameter control algorithm for particle swarm optimization based on reinforcement learning
CN103646278B (zh) 基于自适应策略的粒子群算法在机器人路径规划中的应用
CN113552797A (zh) 一种基于改进粒子群优化的加热炉炉温控制方法和系统
CN107203687B (zh) 吸收塔脱硫过程多目标协同智能优化控制方法
CN111523749B (zh) 一种水电机组模型智能辨识方法
KR101963686B1 (ko) 타겟 시스템 제어
CN110110380B (zh) 一种压电执行器迟滞非线性建模方法及应用
CN109254530A (zh) 基于磨矿过程基础回路的无模型自适应控制方法
CN108121206B (zh) 基于高效改进型差分进化算法的复合自适应内模控制优化方法
CN111222286A (zh) 一种基于输电线路状态估计的参数优化方法
CN108615097A (zh) 一种风速预测方法、系统、设备及计算机可读存储介质
CN112132469B (zh) 一种基于多种群协作粒子群算法的水库群调度方法和系统
Chen et al. Particle swarm optimization based on genetic operators for sensor-weapon-target assignment
CN109839820A (zh) 基于灰色随机差分进化算法的振动系统pid控制优化方法
CN117369244A (zh) 一种基于焊接机器人焊枪位置控制优化方法
CN110399697B (zh) 基于改进遗传学习粒子群算法的飞行器的控制分配方法
CN116307440A (zh) 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用
Masrom et al. Hybridization of particle swarm optimization with adaptive genetic algorithm operators

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220506