CN115688563A - 一种基于多智能体进化强化学习的加工参数优化方法 - Google Patents

一种基于多智能体进化强化学习的加工参数优化方法 Download PDF

Info

Publication number
CN115688563A
CN115688563A CN202211218896.1A CN202211218896A CN115688563A CN 115688563 A CN115688563 A CN 115688563A CN 202211218896 A CN202211218896 A CN 202211218896A CN 115688563 A CN115688563 A CN 115688563A
Authority
CN
China
Prior art keywords
agent
reinforcement learning
processing
parameter optimization
machining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211218896.1A
Other languages
English (en)
Inventor
李斌
李伟业
贺松平
毛新勇
刘红奇
彭芳瑜
王照宇
邹奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202211218896.1A priority Critical patent/CN115688563A/zh
Publication of CN115688563A publication Critical patent/CN115688563A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Numerical Control (AREA)

Abstract

本发明属于切削参数加工优化相关技术领域,其公开了一种基于多智能体进化强化学习的加工参数优化方法,该方法包括以下步骤:(1)采集变参数切削工况下的加工振动数据并测量工件表面粗糙度,同时提取振动信号的时域特征和频域特征;(2)构建加工过程知识图谱,并基于集成图注意力网络建立加工质量估计模型;(3)将加工参数优化问题形式化的表示为马尔科夫决策过程,并确定状态、动作空间和奖励函数,进而构建多智能体强化学习模型;(4)确定适应度函数,并结合进化学习方法在与加工质量估计模型交互过程中训练所述多智能体强化学习模型,继而采用所述多智能体强化学习模型实现加工参数优化。本发明提高了预测性能。

Description

一种基于多智能体进化强化学习的加工参数优化方法
技术领域
本发明属于切削参数加工优化相关技术领域,更具体地,涉及一种基于多智能体进化强化学习的加工参数优化方法。
背景技术
合理选择加工参数对保证产品质量、降低加工成本、提高生产效率具有重要作用。在传统生产过程中,主要通过调整进给速度、切削速度和切削深度参数,进行大量的试切实验,探索实现高材料去除率和加工质量的加工参数。但这种传统的试割方法成本高、周期长、难以获得最优参数。
在加工参数优化中有两个主要的挑战:Ⅰ)切削参数与优化目标之间的相关分析和建模。Ⅱ)对传统优化方法的改进与创新。目前,在实际优化阶段,数值模拟的精度较差。因此,经常使用灰关联、响应面法和人工神经网络来分析加工参数、切削力、切削功率与表面粗糙度之间的关系。这些研究利用实验数据建立基于统计模型、经验模型或人工智能模型的“参数变量→目标函数”映射模型,往往忽略了加工振动对加工参数与加工质量相关性的主导作用。此外,加工参数优化大多采用传统的优化方法,如遗传算法、粒子群优化、模拟退火等,并假设环境具有平稳性。然而,一旦考虑到加工振动,加工参数的优化就成为一个高维优化问题,传统的优化方法在解决这类高维复杂优化问题时往往表现不佳。
因此,本领域目前亟需研究一种新的高效、稳定的加工参数优化方法,用以解决高精加工场景中的切削加工参数优化问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多智能体进化强化学习的加工参数优化方法,其利用知识图谱技术,融合加工参数、加工振动特征和加工表面粗糙度数据之间的映射信息和结构信息建立了更加准确的加工质量估计模型,进一步结合进化学习方法,在与加工质量估计模型交互过程中训练所建立的多智能体强化学习模型,继而探索有效稳定的加工参数优化策略,解决高精加工场景中的加工参数优化问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于多智能体进化强化学习的加工参数优化方法,该方法包括以下步骤:
(1)采集变参数切削工况下的加工振动数据并测量工件表面粗糙度,同时提取振动信号的时域特征和频域特征;
(2)构建加工过程知识图谱,并基于集成图注意力网络建立加工质量估计模型;其中,所述加工过程知识图谱包括加工参数、加工振动时间频域特征和表面粗糙度;
(3)将加工参数优化问题形式化的表示为马尔科夫决策过程,并确定状态、动作空间和奖励函数,进而构建多智能体强化学习模型;
(4)确定适应度函数,并结合进化学习方法在与加工质量估计模型交互过程中训练所述多智能体强化学习模型,继而采用所述多智能体强化学习模型实现加工参数优化。
进一步地,加工质量估计模型包括两个模块,对应的表达式为:
Figure BDA0003877080660000021
式中,
Figure BDA0003877080660000022
为模型第一模块,其功能包括缺失特征补全,θ1为第一模块的网络参数;
Figure BDA0003877080660000023
为模型的第二模块,利用补全后的特征和加工参数估计加工表面粗糙度值,θ2为第二模块的网络参数。
进一步地,将加工参数优化问题转化为马尔科夫决策问题时,对应的公式为:
Figure BDA0003877080660000031
式中,Γi表示第i个生产任务的优化目标,受(ω12)i影响,ω12分别为材料去除率MRR和表面粗糙度Ra的权重系数。
进一步地,MRR和Ra的计算公式分别为:
Figure BDA0003877080660000032
Figure BDA0003877080660000033
式中n,f分别表示主轴转速和进给速度,vc表示切削速度,ap表示背吃刀量,D为工件直径;
Figure BDA0003877080660000034
即加工质量估计模型的两个模块。
进一步地,状态S为:
s=[tff,n,f]
状态向量充分反应环境状态,由加工参数n,f和对应的加工特征tff两部分构成,其中tff由
Figure BDA0003877080660000036
模块计算得到;
动作a为:
a=[n,f]
其中n和f的上下选择极限范围;
约束gi为:
gi∈[xmin,xmax]
其中gi表示第i个约束,包括主轴转速和进给速度,xmin和xmax分别代表第i个约束的上下边界;
奖励函数为:
Figure BDA0003877080660000035
其中(n′,f′)为前一轮优化所得加工参数组合。
进一步地,所述多智能体强化学习模型包括仿真环境框架及多智能体框架,其中,仿真环境框架以所建立的基于集成图注意力网络的加工质量估计模型为基础,环境输入加工参数组合(n,f),首先通过
Figure BDA0003877080660000041
模块补全相应的加工特征tff;将(n,f)和tff向量拼接后作为
Figure BDA0003877080660000042
模块的输入,计算加工表面粗糙度Ra;环境输出中,将拼接后的加工参数和特征向量作为环境状态向量st,环境输出的加工表面粗糙度Ra用于智能体奖励计算。
进一步地,多智能体框架包括两个智能体Agentn和Agentf,分别根据环境状态s计算输出加工参数n和f,加工参数(n,f)传递到仿真环境框架中执行,仿真环境框架反馈新的粗糙度Ra和新的环境状态s。
进一步地,根据奖励函数分别计算
Figure BDA0003877080660000043
Figure BDA0003877080660000044
并反馈到智能体Agentn和Agentf,以用于调整智能体的加工参数优化策略。
进一步地,适应度函数为:
Figure BDA0003877080660000045
式中α12表示目标函数的权重系数,且α12=1;∑(*)代表各智能体的测试回报;多智能体进化时,首先初始化多智能体组合的种群、目标函数的权重和适应度;然后根据适应度值选择最佳个体,即智能体组合。
进一步地,智能体交叉:每一个智能体组合作为一个个体,都有一定的概率从其他个体那里获得一个智能体来取代父代中相应的智能体,形成一个新的智能体组合,即子代;
智能体变异:在变异过程中以最优个体的智能体为模板,部分更新子代智能体网络参数;
在生成子种群后,通过智能体测试更新适应度值,保存最优个体并筛选出新的种群;然后,基于多智能体框架对种群中的每个个体进行训练,并更新训练后个体的适应度值。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,本发明提供的基于多智能体进化强化学习的加工参数优化方法主要具有以下有益效果:
1.本发明基于有限实验数据建立基于集成图注意力神经网络的加工质量估计模型,首先设计变参数切削实验,采集加工振动数据并测量加工表面粗糙度,提取振动信号的时域和频域特征;然后,构建加工过程知识图谱,并提出集成注意力网络方法用于建立加工质量估计模型,该方法利用邻接矩阵充分利用近似加工参数之间的相关性,并引入集成方法以减小有限数据集上的预测方差,从而提高模型的预测性能。
2.本发明将加工参数优化问题转化为马尔科夫决策问题,定义了相应的状态、动作、约束和奖励函数,使得加工参数优化问题可以通过强化学习方法解决,利用基于集成图注意力神经网络的加工质量估计模型建立仿真加工环境,并提出了一种新的加工参数优化多智能体框架,通过与仿真环境的交互来优化加工参数。
3.本发明在多智能体训练阶段结合了进化学习思想,该方法能够解决多智能体奖励函数耦合问题,提高了收敛过程的稳定性,有效的提高了多智能体强化学习加工参数的优化效果。
附图说明
图1是本发明提供的一种基于多智能体进化强化学习的加工参数优化方法的流程图;
图2是本发明所构建的加工过程知识图谱结构图;
图3是本发明所构建的集成图注意力网络模型的结构示意图;
图4是本发明所提供的加工参数优化多智能体强化学习框架示意图;
图5是本发明提供的多智能体进化流程图;
图6是本发明实施例涉及的加工过程的振动信号,其中,(a)为原始振动信号,(b)为稳态切削阶段的振动信号,(c)为对稳定切削阶段的振动信号进行傅里叶变换得到频谱;
图7是本发明实施例涉及的案例1及案例2中不同模型的表面粗糙度预测结果示意图,其中,(a)为Auto-XGB模型在案例1中的预测结果,(b)为Auto-XGB模型在案例2中的预测结果,(c)为MLP模型在案例1中的预测结果,(d)为MLP模型在案例2中的预测结果,(e)为GAT模型在案例1中的预测结果,(f)为GAT模型在案例2中的预测结果,(g)为Bagging-GAT模型在案例1中的预测结果,(h)为Bagging-GAT模型在案例2中的预测结果,(i)为4种模型在两种案例中的粗糙度预测误差箱线图;
图8是本发明实施例涉及的Multi-TD3和MERAL-TD3强化学习加工参数优化模型训练过程中的适应度值曲线。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
请参阅图1及图2,本发明提供了一种基于多智能体进化强化学习的加工参数优化方法,所述优化方法主要包括以下步骤:
S1,采集变参数切削工况下的加工振动数据并测量工件表面粗糙度,同时提取振动信号的时域特征和频域特征。
其中,设计并实施变参数切削实验,同时采集加工振动数据,测量工件表面粗糙度,提取振动信号的时域特征及频域特征。
S2,构建加工过程知识图谱,并基于集成图注意力网络方法建立加工质量估计模型;其中,所述加工过程知识图谱包括加工参数、加工振动时间频域特征和表面粗糙度。
请参阅图3,加工过程知识图谱本体由以下三元组构建:
{parm,tff,ra}
其中,parm代表加工参数,tff表示加工振动信号的时域和频域特征,ra代表加工表面的粗糙度值,相应数据均由步骤S1提供。
基于集成图注意力网络的加工质量估计模型包括两个模块,对应的表达式为:
Figure BDA0003877080660000071
式中,
Figure BDA0003877080660000072
为模型第一模块,主要功能为缺失特征补全,θ1为第一模块的网络参数;
Figure BDA0003877080660000073
为模型的第二模块,利用补全后的特征和加工参数估计加工表面粗糙度值,θ2为第二模块的网络参数。
S3,将加工参数优化问题形式化的表示为马尔科夫决策过程,并确定状态、动作空间和奖励函数,进而构建多智能体强化学习模型。
请参阅图4及图5,将加工参数优化问题转化为马尔科夫决策问题时,对应的公式为:
Figure BDA0003877080660000074
式中,Γi表示第i个生产任务的优化目标,主要受(ω12)i影响,ω12分别为材料去除率MRR和表面粗糙度Ra的权重系数。MRR和Ra的计算公式如下所示:
Figure BDA0003877080660000075
Figure BDA0003877080660000076
式中n,f分别表示主轴转速和进给速度,vc表示切削速度,ap表示背吃刀量,D为工件直径;
Figure BDA0003877080660000081
即加工质量估计模型的两个模块。
在加工参数优化马尔科夫决策问题中还对状态、动作、约束和奖励进行了定义,状态S定义为:
s=[tff,n,f]
状态向量充分反应环境状态,由加工参数n,f和对应的加工特征tff两部分构成,其中tff由
Figure BDA0003877080660000082
模块计算得到。
动作a定义:
a=[n,f]
其中n和f的上下选择极限范围通常由手册确定。
约束gi定义:
gi∈[xmin,xmax]
其中gi表示第i个约束,主要包括主轴转速和进给速度,xmin和xmax分别代表第i个约束的上下边界,由机床和刀具手册提供。
奖励函数定义:
Figure BDA0003877080660000083
其中(n′,f′)为前一轮优化所得加工参数组合。
所述多智能体强化学习模型包括仿真环境框架及多智能体框架。其中,仿真环境框架,以所建立的基于集成图注意力网络的加工质量估计模型为基础,环境输入加工参数组合(n,f),首先通过
Figure BDA0003877080660000084
模块补全相应的加工特征tff;将(n,f)和tff向量拼接后作为
Figure BDA0003877080660000085
模块的输入,计算加工表面粗糙度Ra;环境输出中,将拼接后的加工参数和特征向量作为环境状态向量st,环境输出的加工表面粗糙度Ra用于智能体奖励计算。
多智能体框架包括两个智能体Agentn和Agentf,分别根据环境状态s计算输出加工参数n和f,加工参数(n,f)传递到仿真环境框架中执行,仿真环境框架反馈新的粗糙度Ra和新的环境状态s。根据对奖励函数的定义分别计算
Figure BDA0003877080660000091
Figure BDA0003877080660000092
并反馈到智能体Agentn和Agentf,以用于调整智能体的加工参数优化策略。
S4,确定适应度函数,并结合进化学习方法在与加工质量估计模型交互过程中训练所述多智能体强化学习模型,继而采用所述多智能体强化学习模型实现加工参数优化。
适应度函数为:
Figure BDA0003877080660000093
式中α12表示目标函数的权重系数,且α12=1;∑(*)代表各智能体的测试回报。
请参阅图5,多智能体进化时,首先初始化多智能体组合的种群、目标函数的权重和适应度;然后根据适应度值选择最佳个体,即智能体组合。智能体种群交叉和变异按以下规则进行;
智能体交叉:每一个智能体组合作为一个个体,都有一定的概率从其他个体那里获得一个智能体来取代父代中相应的智能体,形成一个新的智能体组合,即子代。
智能体变异:子代中每个智能体的变异概率都很低,在变异过程中以最优个体的智能体为模板,部分更新子代智能体网络参数。
在生成子种群后,通过智能体测试更新适应度值,保存最优个体并筛选出新的种群。然后,基于多智能体框架对种群中的每个个体进行训练,并更新训练后个体的适应度值。
下面以整流子产线车外圆机床切削加工过程为例,对本发明进行进一步的详细说明。
本发明实例具体实施步骤如下:
(1)变参数切削实验设计、实施与数据处理
实验在换向器生产线的车外圆机床上实施,利用Dewesoft以10kHz的采样频率采集刀架在切削过程中的振动加速度信号,用粗糙度仪测量加工表面的粗糙度值,实验数据存储在笔记本电脑中。
表1工件表面粗糙度测量值
Figure BDA0003877080660000101
在实验平台上,在不同主轴转速(3500、4000、4500、5000、5500rpm)和不同进给速度(6、7、8、9、10、11、12mm/s)下进行了一系列变参数切削实验,加工工件表面粗糙度测量结果如表1所示。加工过程的振动信号如图6中的(a)所示,其中虚线框中的信号截取后如图6中的(b)所示,为稳态切削阶段的振动信号,从中提取11维时域特征。对稳定切削阶段的振动信号进行傅里叶变换得到频谱,如图6中的(c)所示,从中提取14维频域特征。然后,将时域特征和频率特征拼接得到振动特征数据。
(2)建立加工质量估计模型并对比验证
为了研究振动信息对加工质量估计模型预测精度的影响,设计一组对比案例。在案例1中,不考虑加工振动信息,仅利用加工参数对加工表面粗糙度进行预测。在案例2中,首先建立加工振动特征的预测模型,得到伪特征空间;然后利用加工参数和伪振动特征作为输入,对加工表面粗糙度进行预测。
利用有限的实验数据,首先以加工参数为模型输入,以加工振动特征为标签,建立伪特征空间生成模型,用于生成未测加工参数的加工振动伪特征。
表2两种案例中4种模型的效果对比
Figure BDA0003877080660000111
在案例2中的加工质量估计模型是基于伪特征预测模型得到的伪振动特征空间建立的。在案例1中,除振动信号外,采用相同的实验数据建立了加工质量估计模型。如图7所示,案例1和案例2中不同模型的预测结果用虚线表示,实验结果用星号标出。直方图的高度代表模型预测结果与实验结果之间的绝对误差。为了进一步分析两种情况下各模型的预测误差,绝对误差箱线图如图7中的(i)所示,结果表明所提出的Bagging-GAT模型在案例2中的预测误差更小、更集中。此外,表2显示了两种案例下4种模型的性能对比,使用平均绝对误差(MAE)、最大误差(MME)、均方根误差(RMSE)三个不同的评价指标来比较模型的性能。所提出的Bagging-GAT方法在两种情况下对加工表面粗糙度的预测都具有最小的MAE和RMSE。在案例2中,Bagging-GAT模型在4个模型和2个情形中取得了最好的预测效果。结果表明,引入振动信息可以大大提高Bagging-GAT模型的粗糙度预测性能。此外,与AutoXGB和MLP模型相比,GAT和Bagging-GAT模型具有更好的预测性能,基于图的方法更好地利用了数据之间的结构关系,提高了建模精度。此外,Bagging方法可以很好地减少基于图的模型在小数据集上的方差。
(3)建立多智能体进化强化学习模型并对比验证
利用经过良好训练的振动特征生成模型和加工质量估计模型,建立了仿真加工环境。然后,在与环境进行交互学习之前,需要为多智能体进化强化学习模型设计一个合适的强化学习代理。双延迟深度确定性策略梯度算法(TD3)是最先进的深度强化学习方法之一,可在连续控制和优化任务中取得良好的性能。所需解决的加工参数优化任务是一个典型的具有连续动作空间和连续状态空间的连续优化任务。因此,以TD3作为多智能体进化强化学习模型的代理。
表3不同权重系数下两种模型优化结果的适应度值
Figure BDA0003877080660000121
为验证进化思想对多智能体强化学习的提升效果,对比多智能体强化学习模型和多智能体进化强化学习模型,分别简称Multi-TD3和MERAL-TD3,都以TD3作为代理。在相同配置的计算机上,Multi-TD3和MERAL-TD3与相同的模拟加工环境相互作用,训练过程中测试的适应度值曲线如图8所示。横坐标为训练时间,纵坐标为适应度值。三角形代表MERAL-TD3的测试点,圆点代表Multi-TD3的测试点。由于MERAL-TD3在一轮种群迭代后进行检验,因此检验间隔较长。此外,适应度函数的权重系数是可变的(0-1500s:α1=0.5,α2=0.5;1500-3000s:α1=0.8,α2=0.2;3000-4500s:α1=0.2,α2=0.8)。图中结果表明,MERAL-TD3经过三次迭代后可以达到最佳的优化效果,而Multi-TD3在训练开始时收敛不稳定。进化法选择最优个体进行测试,提高了训练过程的稳定性。表3给出了两种方法在不同权重系数下更详细的优化结果适应度值,MEARL-TD3比Multi-TD3获得了更高的适应度值。Multi-TD3存在一个缺陷,即当不同agent的奖励函数之间存在耦合关系时,难以获得整体最优效果。然而,所提出的MEARL-TD3方法通过全局适应度函数选择最佳个体,可以更好地处理奖励函数的耦合问题,跳出局部最优。
本发明以强化学习方法为核心,首先设计变参数切削实验,采集加工振动数据并测量加工表面粗糙度,提取振动信号的时域和频域特征;其次,构建加工过程知识图谱,并提出集成图注意力网络方法用于建立加工质量估计模型;然后,将加工参数优化问题形式化的表示为马尔科夫决策过程,定义状态、动作空间和奖励函数,建立多智能体强化学习模型;最后,结合进化学习方法,定义适应度函数,在与加工质量模型交互过程中,训练所构建的多智能体强化学习模型,探索加工参数优化策略。如此,本发明利用知识图谱技术,融合加工参数、加工振动特征和加工表面粗糙度数据之间的映射信息和结构信息建立更准确的加工质量估计模型,进一步结合进化学习方法,在与加工质量估计模型交互过程中训练所建立的多智能体强化学习模型,可以探索有效稳定的加工参数优化策略,解决加工参数优化问题。
综上,基于本发明提出的方法对整流子产线车外圆机床加工表面粗糙度建模,然后将加工参数优化问题形式化的表示为马尔科夫决策过程,定义相应的状态、动作、奖励和约束函数,基于Bagging-GAT方法建立粗糙度估计模型,作为仿真环境,搭建多智能体强化学习框架,并结合进化学习求解加工参数优化的马尔科夫决策问题。该方法基于有限实验数据建立基于集成图注意力神经网络的加工质量估计模型,利用邻接矩阵充分利用近似加工参数之间的相关性,并引入集成方法减小有限数据集上的预测方差,从而提高模型的预测性能,平均预测绝对误差仅0.077;结合了进化学习思想,该方法能够解决多智能体奖励函数耦合问题,提高收敛过程的稳定性,有效提高多智能体强化学习加工参数的优化效果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多智能体进化强化学习的加工参数优化方法,其特征在于,该方法包括以下步骤:
(1)采集变参数切削工况下的加工振动数据并测量工件表面粗糙度,同时提取振动信号的时域特征和频域特征;
(2)构建加工过程知识图谱,并基于集成图注意力网络建立加工质量估计模型;其中,所述加工过程知识图谱包括加工参数、加工振动时间频域特征和表面粗糙度;
(3)将加工参数优化问题形式化的表示为马尔科夫决策过程,并确定状态、动作空间和奖励函数,进而构建多智能体强化学习模型;
(4)确定适应度函数,并结合进化学习方法在与加工质量估计模型交互过程中训练所述多智能体强化学习模型,继而采用所述多智能体强化学习模型实现加工参数优化。
2.如权利要求1所述的基于多智能体进化强化学习的加工参数优化方法,其特征在于:加工质量估计模型包括两个模块,对应的表达式为:
Figure FDA0003877080650000011
式中,
Figure FDA0003877080650000012
为模型第一模块,其功能包括缺失特征补全,θ1为第一模块的网络参数;
Figure FDA0003877080650000013
为模型的第二模块,利用补全后的特征和加工参数估计加工表面粗糙度值,θ2为第二模块的网络参数。
3.如权利要求2所述的基于多智能体进化强化学习的加工参数优化方法,其特征在于:将加工参数优化问题转化为马尔科夫决策问题时,对应的公式为:
Figure FDA0003877080650000021
式中,Γi表示第i个生产任务的优化目标,受(ω12)i影响,ω12分别为材料去除率MRR和表面粗糙度Ra的权重系数。
4.如权利要求3所述的基于多智能体进化强化学习的加工参数优化方法,其特征在于:MRR和Ra的计算公式分别为:
Figure FDA0003877080650000022
Figure FDA0003877080650000023
式中n,f分别表示主轴转速和进给速度,vc表示切削速度,ap表示背吃刀量,D为工件直径;
Figure FDA0003877080650000024
即加工质量估计模型的两个模块。
5.如权利要求4所述的基于多智能体进化强化学习的加工参数优化方法,其特征在于:状态S为:
s=[tff,n,f]
状态向量充分反应环境状态,由加工参数n,f和对应的加工特征tff两部分构成,其中tff由
Figure FDA0003877080650000025
模块计算得到;
动作a为:
a=[n,f]
其中n和f的上下选择极限范围;
约束gi为:
gi∈[xmin,xmax]
其中gi表示第i个约束,包括主轴转速和进给速度,xmin和xmax分别代表第i个约束的上下边界;
奖励函数为:
Figure FDA0003877080650000031
其中(n′,f′)为前一轮优化所得加工参数组合。
6.如权利要求2所述的基于多智能体进化强化学习的加工参数优化方法,其特征在于:所述多智能体强化学习模型包括仿真环境框架及多智能体框架,其中,仿真环境框架以所建立的基于集成图注意力网络的加工质量估计模型为基础,环境输入加工参数组合(n,f),首先通过
Figure FDA0003877080650000032
模块补全相应的加工特征tff;将(n,f)和tff向量拼接后作为
Figure FDA0003877080650000033
模块的输入,计算加工表面粗糙度Ra;环境输出中,将拼接后的加工参数和特征向量作为环境状态向量st,环境输出的加工表面粗糙度Ra用于智能体奖励计算。
7.如权利要求6所述的基于多智能体进化强化学习的加工参数优化方法,其特征在于:多智能体框架包括两个智能体Agentn和Agentf,分别根据环境状态s计算输出加工参数n和f,加工参数(n,f)传递到仿真环境框架中执行,仿真环境框架反馈新的粗糙度Ra和新的环境状态s。
8.如权利要求7所述的基于多智能体进化强化学习的加工参数优化方法,其特征在于:根据奖励函数分别计算
Figure FDA0003877080650000034
Figure FDA0003877080650000035
并反馈到智能体Agentn和Agentf,以用于调整智能体的加工参数优化策略。
9.如权利要求1-8任一项所述的基于多智能体进化强化学习的加工参数优化方法,其特征在于:适应度函数为:
Figure FDA0003877080650000036
式中α12表示目标函数的权重系数,且α12=1;∑(*)代表各智能体的测试回报;多智能体进化时,首先初始化多智能体组合的种群、目标函数的权重和适应度;然后根据适应度值选择最佳个体,即智能体组合。
10.如权利要求9所述的基于多智能体进化强化学习的加工参数优化方法,其特征在于:智能体交叉:每一个智能体组合作为一个个体,都有一定的概率从其他个体那里获得一个智能体来取代父代中相应的智能体,形成一个新的智能体组合,即子代;
智能体变异:在变异过程中以最优个体的智能体为模板,部分更新子代智能体网络参数;
在生成子种群后,通过智能体测试更新适应度值,保存最优个体并筛选出新的种群;然后,基于多智能体框架对种群中的每个个体进行训练,并更新训练后个体的适应度值。
CN202211218896.1A 2022-10-07 2022-10-07 一种基于多智能体进化强化学习的加工参数优化方法 Pending CN115688563A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211218896.1A CN115688563A (zh) 2022-10-07 2022-10-07 一种基于多智能体进化强化学习的加工参数优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211218896.1A CN115688563A (zh) 2022-10-07 2022-10-07 一种基于多智能体进化强化学习的加工参数优化方法

Publications (1)

Publication Number Publication Date
CN115688563A true CN115688563A (zh) 2023-02-03

Family

ID=85065378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211218896.1A Pending CN115688563A (zh) 2022-10-07 2022-10-07 一种基于多智能体进化强化学习的加工参数优化方法

Country Status (1)

Country Link
CN (1) CN115688563A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116275124A (zh) * 2023-05-11 2023-06-23 四川大学 基于无模型自适应迭代学习的激光增材制造分区控制方法
CN117420809A (zh) * 2023-12-18 2024-01-19 台山市南特金属科技有限公司 基于人工智能的曲轴加工优化决策方法及系统
CN117519054A (zh) * 2023-12-11 2024-02-06 广州智业节能科技有限公司 一种高效冷站控制系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116275124A (zh) * 2023-05-11 2023-06-23 四川大学 基于无模型自适应迭代学习的激光增材制造分区控制方法
CN116275124B (zh) * 2023-05-11 2023-08-01 四川大学 基于无模型自适应迭代学习的激光增材制造分区控制方法
CN117519054A (zh) * 2023-12-11 2024-02-06 广州智业节能科技有限公司 一种高效冷站控制系统
CN117519054B (zh) * 2023-12-11 2024-06-11 广州智业节能科技有限公司 一种高效冷站控制系统
CN117420809A (zh) * 2023-12-18 2024-01-19 台山市南特金属科技有限公司 基于人工智能的曲轴加工优化决策方法及系统
CN117420809B (zh) * 2023-12-18 2024-03-01 台山市南特金属科技有限公司 基于人工智能的曲轴加工优化决策方法及系统

Similar Documents

Publication Publication Date Title
CN115688563A (zh) 一种基于多智能体进化强化学习的加工参数优化方法
Puik et al. Assessment of reconfiguration schemes for Reconfigurable Manufacturing Systems based on resources and lead time
CN112508442B (zh) 基于自动化和可解释机器学习的暂态稳定评估方法及系统
US7562054B2 (en) Method and apparatus for automated feature selection
CN110571792A (zh) 一种电网调控系统运行状态的分析评估方法及系统
CN115422814B (zh) 一种数字孪生驱动的复杂机电产品闭环优化设计方法
CN112990343B (zh) 一种基于人工智能算法的水环境质量评价方法
CN114297912A (zh) 基于深度学习的刀具磨损预测方法
CN111461286A (zh) 基于进化神经网络的Spark参数自动优化系统和方法
CN113139570A (zh) 一种基于最优混合估值的大坝安全监测数据补全方法
Guo et al. Automatic design for shop scheduling strategies based on hyper-heuristics: A systematic review
CN115237878A (zh) 基于增材制造的工艺数据库构建方法及介质
US10803218B1 (en) Processor-implemented systems using neural networks for simulating high quantile behaviors in physical systems
Zhang et al. Intelligent STEP-NC-compliant setup planning method
Jegorova et al. Adversarial generation of informative trajectories for dynamics system identification
CN110837857A (zh) 工业用电负荷预测方法、系统及其存储介质
Zhao et al. Evolutionary algorithms with blind fitness evaluation for solving optimization problems with only fuzzy fitness information
CN113887717A (zh) 一种基于深度学习预测神经网络训练时长的方法
Hou et al. Evolutionary many-objective satisfiability solver for configuring software product lines
CN117193988A (zh) 一种晶圆级架构ai加速芯片的任务调度方法及介质
Li et al. A remaining useful life prediction method considering the dimension optimization and the iterative speed
CN116566061A (zh) 一种并网逆变器系统稳定性在线监测方法及系统
CN115577290A (zh) 一种基于深度学习的配网故障分类及源定位方法
CN115859521A (zh) 基于神经网络的铣削加工误差重建方法及系统
Kavipriya et al. Adaptive weight deep convolutional neural network (AWDCNN) classifier for predicting student’s performance in job placement process

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination