CN111553118B - 基于强化学习的多维连续型优化变量全局优化方法 - Google Patents
基于强化学习的多维连续型优化变量全局优化方法 Download PDFInfo
- Publication number
- CN111553118B CN111553118B CN202010340933.0A CN202010340933A CN111553118B CN 111553118 B CN111553118 B CN 111553118B CN 202010340933 A CN202010340933 A CN 202010340933A CN 111553118 B CN111553118 B CN 111553118B
- Authority
- CN
- China
- Prior art keywords
- optimization
- reinforcement learning
- variables
- algorithm
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 235
- 230000002787 reinforcement Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 89
- 230000000694 effects Effects 0.000 claims abstract description 30
- 238000005516 engineering process Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 33
- 238000011156 evaluation Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 13
- 238000013139 quantization Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 230000008878 coupling Effects 0.000 abstract description 2
- 238000010168 coupling process Methods 0.000 abstract description 2
- 238000005859 coupling reaction Methods 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 3
- 101000872083 Danio rerio Delta-like protein C Proteins 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005405 multipole Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/06—Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于强化学习的多维连续型优化变量全局优化方法,该方法包括:强化学习环境的建立;利用强化学习方法在指定优化变量集中选择指定个数的优化变量,然后再对其取值利用连续型优化变量优化算法进行优化的顺序优化策略;优化总体流程以及约束的引入方法。该方法针对多维连续型优化变量全局优化问题,实现了智能优化的目的,并且可以突破传统全局优化方法对优化变量个数的限制,使人工智能技术在优化方面的广泛应用成为了可能。可以应用于具有极大规模设计变量的工业设计、制造加工、控制优化、投资决策、系统工程等场合;并且得益于深度强化学习强大的智能组合优化能力,对于变量间存在复杂耦合关系的系统也有很好的全局优化效果。
Description
技术领域
本发明属于优化算法领域,特别涉及大规模连续取值型优化变量的全局优化方法。
背景技术
优化方法可以基本分为两大类:基于梯度的优化方法以及全局优化方法。基于梯度的方法对于单极值问题的优化效率很高,但工程实际等场合中大多需要处理复杂的多极值问题,而且基于梯度的方法容易陷入局部最优,不能较好地满足优化需求。传统全局优化方法主要包括遗传算法、粒子群算法等,这类方法具有较好的全局寻优能力,可以适用于复杂的多极值优化问题。然而传统全局优化算法对优化变量的个数有限制,无法处理具有大规模优化变量的优化问题,优化变量个数一般只能限制在20个左右。考虑到这些方法一般会与代理模型(如响应面、Kriging等)结合,而构建包含多个优化变量的高精度代理模型也是十分困难和耗时的。因此对于具有大规模设计变量的工业设计、制造加工、控制优化、投资决策、系统工程等场合,传统全局优化算法的实际应用价值较低。另外,传统全局优化算法收敛速度缓慢难以直接运用于具有复杂作用机制的环境中,比如耗时的高精度流体仿真等场合。此外,现有的主流方法需要一定程度的经验作为指导,比如智能算法中初始种群的选取、算法参数的设置等,无法实现全自动优化,降低了优化效率。
因此,发展一种具有广泛适用范围,有较强全局寻优能力、收敛速度快,且能处理大规模优化变量,并尽可能实现无人工参与的智能优化算法是必要、并具有广泛需求的。
发明内容
为了解决现有全局优化算法无法支持大规模优化变量,且收敛速度较慢的问题,本发明提出一种基于强化学习的多维连续型优化变量全局优化方法,该优化方法在实际优化过程中可以实现较高程度的智能优化,无需或只需要较少的人工干预,进一步提高了优化效率。
为了达到上述目的,本发明采用如下技术方案:
基于强化学习的多维连续型优化变量全局优化方法,包括以下步骤:
步骤1:定义优化问题,明确优化变量、目标函数以及约束条件;建立用于存储历史数据集的数据结构,历史数据集中的元素为某一优化步下已知全部优化变量取值和目标函数值,该集合中的元素按照优化历史顺序排列;
步骤2:建立基于连续型优化变量取值优化算法和优化效果量化评估算法的强化学习环境,基本方法为通过批处理命令的方法将当前优化步之前的历史数据以步骤1建立的数据结构形式,以及待确定最优取值的一部分优化变量输入到强化学习环境,固定当前待确定最优取值的优化变量之外的其它优化变量的取值,再通过贝叶斯优化算法或其它连续型优化变量取值优化算法确定当前待定优化变量的最优取值,该最优取值是在其它优化变量固定取最近一次优化后的取值,且考虑约束的情况下得到的,约束的考虑方法具体由所采取的连续型优化变量取值优化算法决定,只要保证优化后的取值满足优化问题的约束条件即可;再通过优化效果量化评估算法输出优化效果评估结果,优化效果量化评估算法应当根据具体优化问题综合考虑目标函数所有分量的取值,并给出标量型的量化评估结果。
步骤3:建立用于选择优化变量的强化学习算法,该算法的实现形式包括神经网络或其它传统强化学习算法用到的形式,强化学习算法的输入为当前所有优化变量的取值,输出为小于优化变量总数的指定个数的优化变量,用于在下一步对这些优化变量进行取值优化,强化学习算法可以采用的具体方法为传统强化学习所采用的基于值函数的方法(Value-based Method)、基于策略的方法(Policy-based Method)以及两者的结合(Actor-Critic Method);
步骤4:根据具体优化问题的目标函数和约束条件设置奖励函数,奖励函数的设置原则是当目标函数在优化期望方向获得提升时给予正向奖励,当约束违反时给予惩罚,具体奖励值与惩罚值应当依据具体问题对于优化与约束的期望情况确定,最终综合得到奖励函数值,用以表征优化效果以及对约束的满足程度,奖励函数的具体形式还应当根据所采用的强化学习算法所特有的要求确定,之后在步骤2所建立的强化学习环境中,通过强化学习训练方法不断更新步骤3所建立的强化学习算法中用到的参数,以利用强化学习优异的复杂环境智能寻优能力获取某一优化步应进一步参与小规模取值优化的优化变量,并在更新过程中提取针对指定优化问题的优化经验,并以强化学习算法参数的形式存储下来,强化学习训练方法可以使用基于经验回放的方法(Off-Policy Method)或在线更新等强化学习训练算法;对优化终止条件的设置应当权衡优化效果与优化所用时间,在允许的时间范围内尽可提高优化效果,例如对航空学中翼型进行升阻比优化时,如果对优化所用时间没有特殊要求,则应当设置为:在尽可能多次地进行强化学习与环境的交互过程后,升阻力均没有明显变化时停止优化过程,并选取优化效果以及对约束满足较好的结果作为最终结果;
步骤5:在实际使用强化学习算法进行优化时,利用步骤2所建立的强化学习环境,步骤3所建立的强化学习算法以及步骤4所获得的参数取值,通过强化学习算法不断挑选出一部分优化变量,送入取值优化器进行优化,并对当前优化结果进行量化评估,如此迭代下去直到优化结果满足所设定的优化终止条件。
本发明针对具体优化问题,首先建立以选取优化变量为目的的强化学习算法,该算法在每一优化步中从整个优化变量集内选取指定个数的优化变量用于取值优化,取值优化属于强化学习环境的一部分,它包括但不仅包括贝叶斯优化方法。强化学习环境根据强化学习算法选出的优化变量,进一步优化得到这些优化变量的最优取值,并根据目标函数和约束得到对于当前优化结果的量化评估结果。强化学习通过与该环境的交互,不断更新参数,保存优化经验。本发明充分利用了强化学习强大的智能全局组合优化能力,没有直接对所有优化变量进行优化,而是拆分为两步走的策略:先选出一部分优化变量,再固定其它优化变量的取值,对这些选出的优化变量做取值优化。并通过不断迭代,逐步提升优化效果。本发明保留了传统全局优化算法中对于小规模优化变量的全局优化能力,同时引入了智能型强化学习算法,突破了传统全局优化算法对优化变量个数的限制,并且做到了智能化的寻优过程,达到了可以保证全局寻优能力的条件下,提升收敛速度的效果。具体优化过程中,强化学习算法与小规模优化变量的传统全局优化算法结合,进行全局优化的时间可以忽略不计,对具有大规模设计变量的工业设计、制造加工、控制优化、投资决策、系统工程等场合具有很大的应用价值;并且得益于深度强化学习强大的智能组合优化能力,对于变量间存在复杂耦合关系的系统也有很好的全局优化效果。
本发明和现有技术相比较,具备如下优点:
1.将全局优化问题分为两步走,利用强化学习强大的组合优化能力从优化变量集中选取当前优化步所应进一步优化其取值的优化变量,突破了传统全局优化算法对于优化变量个数的限制;
2.将取值优化算法与优化效果量化评估算法相结合组成强化学习环境,强化学习针对具体采用的取值优化算法积累优化经验,并以参数的形式将优化经验保存下来;
3.强化学习算法中的参数经过训练后,优化能力可以复用,对于新的优化问题可以快速进行优化过程,并且极大程度地减小了人工参与,实现了自动优化的目标。
附图说明
图1本发明全局优化方法总流程图。
具体实施方式
下面采用实例对本发明做进一步说明,此处说明采用的取值优化算法即贝叶斯优化算法,以及软件、文件格式和平台用来提供对本发明的进一步理解,并不因此将本发明的保护范围限制在实例描述的范围之中。
如图1所示,本发明基于强化学习的多维连续型优化变量全局优化方法,包括以下步骤:
步骤1:定义优化问题,明确优化变量、目标函数以及约束条件;建立用于存储历史数据集的数据结构,历史数据集中的元素为某一优化步下已知全部优化变量取值和目标函数值,该集合中的元素按照优化历史顺序排列;
步骤2:建立基于连续型优化变量取值优化算法和优化效果量化评估算法的强化学习环境,基本方法为通过批处理命令的方法将当前优化步之前的历史数据以步骤1建立的数据结构形式,以及待确定最优取值的一部分优化变量输入到强化学习环境,固定当前待确定最优取值的优化变量之外的其它优化变量的取值,再通过包括但不仅包括贝叶斯优化算法在内的连续型优化变量取值优化算法确定当前待确定最优取值的优化变量的最优取值,该最优取值是在其它优化变量固定取最近一次优化后的取值,且考虑约束的情况下得到的,约束的考虑方法具体由所采取的连续型优化变量取值优化算法决定,只要保证优化后的取值满足优化问题的约束条件即可;再通过优化效果量化评估算法输出优化效果评估结果,优化效果量化评估算法应当根据具体优化问题综合考虑目标函数所有分量的取值,并给出标量型的量化评估结果;
步骤3:建立用于选择优化变量的强化学习算法,强化学习算法的输入为当前所有优化变量的取值,输出为小于优化变量总数的指定个数的优化变量,用于在下一步对这些优化变量进行取值优化,强化学习算法可以采用的具体方法为传统强化学习所采用的基于值函数的方法(Value-based Method)、基于策略的方法(Policy-based Method)以及两者的结合(Actor-Critic Method);
步骤4:根据具体优化问题的目标函数和约束条件设置奖励函数,奖励函数的设置原则是当目标函数在优化期望方向获得提升时给予正向奖励,当约束违反时给予惩罚,具体奖励值与惩罚值依据具体问题对于优化与约束的期望情况确定,最终综合得到奖励函数值,用以表征优化效果以及对约束的满足程度,奖励函数的具体形式根据所采用的强化学习算法的要求确定,例如:当对航空学中翼型进行升阻比优化时,期望在阻力基本不变的情况下,升力尽可能提高,且阻力变化的幅度期望控制在1%以内,则对于需要标量型奖励值的强化学习算法,其奖励函数可以设置为:
其中ΔCL和ΔCD分别为升力系数变化量和阻力系数变化量;之后在步骤2所建立的强化学习环境中,通过强化学习训练方法不断更新步骤3所建立的强化学习算法中用到的参数,以利用强化学习优异的复杂环境智能寻优能力获取某一优化步应进一步参与小规模取值优化的优化变量,并在更新过程中提取针对指定优化问题的优化经验,并以强化学习算法参数的形式存储下来,强化学习训练方法可以使用基于经验回放的方法(Off-PolicyMethod)或在线更新等强化学习训练算法;对优化终止条件的设置应当权衡优化效果与优化所用时间,在允许的时间范围内尽可提高优化效果,例如对航空学中翼型进行升阻比优化时,如果对优化所用时间没有特殊要求,则应当设置为:在尽可能多次地进行强化学习与环境的交互过程后,升阻力均没有明显变化时停止优化过程,并选取优化效果以及对约束满足较好的结果作为最终结果;
步骤5:在实际使用强化学习算法进行优化时,利用步骤2所建立的强化学习环境,步骤3所建立的强化学习算法以及步骤4所获得的参数取值,通过强化学习算法不断挑选出一部分优化变量,送入取值优化器进行优化,直到优化结果满足所设定的优化终止条件。
实施例:
整个优化过程按照如图1所示的全局优化算法总流程进行。首先选取航空学中飞机机翼翼型为对象,对其气动外形进行优化,优化目标为保持阻力系数不变的前提下提升其升力系数,采用自由型面变形技术(FFD)方法对其进行参数化。
然后建立基于贝叶斯优化算法以及优化效果评估算法的强化学习环境。针对贝叶斯优化算法,使用Python语言编写计算文件,该文件包括优化变量、翼型变形方法、气动计算,以及贝叶斯优化算法的调用和优化结果的输出;针对优化评估算法,使用Python语言根据具体优化问题的目标函数和约束条件编写合适的量化评估程序,做到权衡升力系数与阻力系数后量化输出一标量型的结果,用以表征优化效果以及对约束的满足程度:
其中ΔCL和ΔCD分别为升力系数变化量和阻力系数变化量。
然后基于谷歌Tensorflow平台使用Python语言建立“表演者-评价者”架构的深度强化学习神经网络,将上一步得到的优化效果量化评估结果作为奖励函数,对强化学习网络进行训练,直到训练收敛得到最优设计参数。
在新的优化任务中使用训练好的强化学习网络,并需要保证采用相同的取值优化算法。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,但并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的基于本发明的等效变换、等同替换和显而易见的改变等,均包含在本发明的保护范围之内。
Claims (3)
1.基于强化学习的航空学多维连续型优化变量全局优化方法,其特征在于:包括以下步骤:
步骤1:定义优化问题,明确优化变量、目标函数以及约束条件;建立用于存储历史数据集的数据结构,历史数据集中的元素为某一优化步下已知全部优化变量取值和目标函数值,该集合中的元素按照优化历史顺序排列;首先选取航空学中飞机机翼翼型为对象,对其气动外形进行优化,优化目标为保持阻力系数不变的前提下提升其升力系数,采用自由型面变形技术方法对其进行参数化;
步骤2:建立基于连续型优化变量取值优化算法和优化效果量化评估算法的强化学习环境,基本方法为通过批处理命令的方法将当前优化步之前的历史数据以步骤1建立的数据结构形式,以及待确定最优取值的一部分优化变量输入到强化学习环境,固定当前待确定最优取值的优化变量之外的其它优化变量的取值,再通过连续型优化变量取值优化算法确定当前待确定最优取值的优化变量的最优取值,该最优取值是在其它优化变量固定取最近一次优化后的取值,且考虑约束的情况下得到的,约束的考虑方法具体由所采取的连续型优化变量取值优化算法决定,只要保证优化后的取值满足优化问题的约束条件即可;再通过优化效果量化评估算法输出优化效果评估结果,优化效果量化评估算法应当根据具体优化问题综合考虑目标函数所有分量的取值,并给出标量型的量化评估结果;
步骤3:建立用于选择优化变量的强化学习算法,强化学习算法的输入为当前所有优化变量的取值,输出为小于优化变量总数的指定个数的优化变量,用于在下一步对这些优化变量进行取值优化;
步骤4:根据具体优化问题的目标函数和约束条件设置奖励函数,奖励函数的设置原则是当目标函数在优化期望方向获得提升时给予正向奖励,当约束违反时给予惩罚,具体奖励值与惩罚值依据具体问题对于优化与约束的期望情况确定,最终综合得到奖励函数值,用以表征优化效果以及对约束的满足程度,奖励函数的具体形式根据所采用的强化学习算法的要求确定,之后在步骤2所建立的强化学习环境中,通过强化学习训练方法不断更新步骤3所建立的强化学习算法中用到的参数,以利用强化学习优异的复杂环境智能寻优能力获取某一优化步应进一步参与小规模取值优化的优化变量,并在更新过程中提取针对指定优化问题的优化经验,并以强化学习算法参数的形式存储下来;对优化终止条件的设置考虑优化效果与优化所用时间,对航空学中翼型进行升阻比优化时,设置为:在多次地进行强化学习与环境的交互过程后,升阻力均没有明显变化时停止优化过程;
步骤5:在实际使用强化学习算法进行优化时,利用步骤2所建立的强化学习环境,步骤3所建立的强化学习算法以及步骤4所获得的参数取值,通过强化学习算法不断挑选出一部分优化变量,送入取值优化器进行优化,直到优化结果满足所设定的优化终止条件。
2.根据权利要求1所述的基于强化学习的航空学多维连续型优化变量全局优化方法,其特征在于:所述航空学连续型优化变量取值优化算法为贝叶斯优化算法。
3.根据权利要求1所述的基于强化学习的航空学多维连续型优化变量全局优化方法,其特征在于:所述强化学习算法采用的具体方法为基于值函数的方法Value-basedMethod、基于策略的方法Policy-based Method以及两者的结合方法Actor-CriticMethod。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010340933.0A CN111553118B (zh) | 2020-04-26 | 2020-04-26 | 基于强化学习的多维连续型优化变量全局优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010340933.0A CN111553118B (zh) | 2020-04-26 | 2020-04-26 | 基于强化学习的多维连续型优化变量全局优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111553118A CN111553118A (zh) | 2020-08-18 |
CN111553118B true CN111553118B (zh) | 2023-10-27 |
Family
ID=72007777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010340933.0A Active CN111553118B (zh) | 2020-04-26 | 2020-04-26 | 基于强化学习的多维连续型优化变量全局优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111553118B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084680B (zh) * | 2020-09-02 | 2023-12-26 | 沈阳工程学院 | 一种基于dqn算法的能源互联网优化策略方法 |
CN113221262B (zh) * | 2021-04-19 | 2022-06-07 | 长春工程学院 | 基于贝叶斯网络理论和仿生技术的翼形量水槽优化方法 |
US20230091004A1 (en) * | 2021-09-17 | 2023-03-23 | Cameron Goeffrey Watmough HAIGH | System and method for computer-assisted design of indcutor for voltaged-controlled oscillator |
CN114237172B (zh) * | 2021-11-30 | 2024-07-16 | 浙江大学衢州研究院 | 基于机器学习的自优化被控变量选择方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341279A (zh) * | 2016-11-18 | 2017-11-10 | 北京理工大学 | 一种针对高耗时约束的飞行器快速近似优化方法 |
CN109614631A (zh) * | 2018-10-18 | 2019-04-12 | 清华大学 | 基于强化学习和迁移学习的飞行器全自动气动优化方法 |
WO2020032947A1 (en) * | 2018-08-09 | 2020-02-13 | Siemens Aktiengesellschaft | Manufacturing process control using constrained reinforcement machine learning |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040059549A1 (en) * | 2002-09-19 | 2004-03-25 | Kropaczek David Joseph | Method and apparatus for evaluating a proposed solution to a constraint problem |
-
2020
- 2020-04-26 CN CN202010340933.0A patent/CN111553118B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341279A (zh) * | 2016-11-18 | 2017-11-10 | 北京理工大学 | 一种针对高耗时约束的飞行器快速近似优化方法 |
WO2020032947A1 (en) * | 2018-08-09 | 2020-02-13 | Siemens Aktiengesellschaft | Manufacturing process control using constrained reinforcement machine learning |
CN109614631A (zh) * | 2018-10-18 | 2019-04-12 | 清华大学 | 基于强化学习和迁移学习的飞行器全自动气动优化方法 |
Non-Patent Citations (2)
Title |
---|
基于改进深度强化学习的电力智慧供应链高维度决策模型研究;刘中明;周岩;刘博;安林林;赵云强;;电子测量技术(23);全文 * |
局部维度改进的教与学优化算法;何杰光;彭志平;崔得龙;李启锐;;浙江大学学报(工学版)(11);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111553118A (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553118B (zh) | 基于强化学习的多维连续型优化变量全局优化方法 | |
CN110110419B (zh) | 一种基于多目标学习的tbm掘进参数预测方法 | |
CN107272403A (zh) | 一种基于改进粒子群算法的pid控制器参数整定算法 | |
CN109614631B (zh) | 基于强化学习和迁移学习的飞行器全自动气动优化方法 | |
CN106022521B (zh) | 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法 | |
CN113255206B (zh) | 一种基于深度强化学习的水文预报模型参数率定方法 | |
CN109522602A (zh) | 一种基于代理模型的Modelica模型参数优化方法 | |
CN109254530A (zh) | 基于磨矿过程基础回路的无模型自适应控制方法 | |
CN114384931B (zh) | 一种基于策略梯度的无人机多目标最优控制方法和设备 | |
WO2024113585A1 (zh) | 一种面向离散制造系统的智能交互式决策方法 | |
WO2024114121A1 (zh) | 一种基于知识自演化的人工智能跨平台模型智能计算引擎构建方法 | |
CN110097929A (zh) | 一种高炉铁水硅含量在线预测方法 | |
CN109144099B (zh) | 基于卷积神经网络的无人机群行动方案快速评估方法 | |
CN116451737A (zh) | 一种基于强化学习的策略梯度改进粒子群的pg-w-pso方法 | |
CN116628854A (zh) | 一种翼型气动特性预测方法、系统、电子设备及存储介质 | |
CN116151581A (zh) | 一种柔性车间调度方法、系统及电子设备 | |
CN114564787A (zh) | 用于目标相关翼型设计的贝叶斯优化方法、装置及存储介质 | |
CN117808054A (zh) | 基于机器学习的复杂系统辨识与重构方法 | |
CN117893043A (zh) | 一种基于ddpg算法和深度学习模型的水电站负荷分配方法 | |
CN116702292A (zh) | 基于深度强化学习的扁平钢箱梁风嘴气动优化方法 | |
CN113126498A (zh) | 基于分布式强化学习的优化控制系统和控制方法 | |
CN115310209B (zh) | 基于vae的气动形状迁移优化方法及相关装置 | |
CN116720260A (zh) | 一种基于迁移学习的船型优化方法 | |
CN116880191A (zh) | 一种基于时序预测的过程工业生产系统的智能控制方法 | |
CN115618497A (zh) | 一种基于深度强化学习的翼型优化设计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |