CN114200889A

CN114200889A - 一种基于深度强化学习的铣削参数优化方法

Info

Publication number: CN114200889A
Application number: CN202111396317.8A
Authority: CN
Inventors: 李斌; 李伟业; 贺松平; 毛新勇; 刘红奇; 赵尊元
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-03-18
Anticipated expiration: 2041-11-23
Also published as: CN114200889B

Abstract

本发明属于数控加工相关技术领域，其公开了一种基于深度强化学习的铣削参数优化方法，基于BPNN回归方法建立机床功耗模型，实现机床功耗状态预测的连续性，并建立加工成本模型；然后，定义了相应的状态、动作、奖励函数和约束；最后，结合机床功耗模型和加工成本模型建立仿真环境，提出BP‑TD3深度强化学习方法，求解铣削加工参数优化。如此，本发明可以利用少量数据辅助建立机床功耗仿真BPNN功耗模型，在TD3模型与仿真环境交互训练中得到深度强化学习铣削参数优化模型，从而只需较少的实验数据，稳定的训练时间，就可以解决较大任务空间的铣削参数优化问题。

Description

一种基于深度强化学习的铣削参数优化方法

技术领域

本发明属于数控加工相关技术领域，更具体地，涉及一种基于深度强化学习的铣削参数优化方法。

背景技术

提高铣削过程加工系统能效对绿色制造具有重要意义。零件加工过程中的铣削参数对加工系统的材料去除率、加工时间、能源效率和经济性都有很大的影响。传统的铣削参数往往是根据操作人员经验和加工手册选择的，缺少对节能和经济性的重视，同时常常忽略主轴转速和进给速度变化所消耗的能量。

在机床加工过程的参数优化以降低能源消耗问题的研究中，首先需要建立准确的加工功耗预测模型。当前大多数研究基于经验模型，考虑更多的功耗因素，提高功耗预测模型的完整度也导致模型计算复杂，机床加工各部分功耗公式系数繁多，分析计算工作量增大；此外，建立加工功耗预测模型后，通常使用的优化方法主要是群体启发式算法和个体启发式算法两大类，针对较大任务空间进行优化时容易陷入局部最优解，且优化计算时间较长。

因此，本领域目前亟需研究一种加工功耗建模方法简单、优化效果好、速度快的铣削参数优化方法，用以解决较大任务空间的数控加工中心铣削加工参数优化问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度强化学习的铣削参数优化方法，旨在提出一种建模简单、优化效果好、速度快的铣削参数优化方法，以解决较大任务空间的数控加工中心铣削加工参数优化问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度强化学习的铣削参数优化方法，所述方法包括：S1：采用BPNN回归方法构建以铣削参数为输入并以铣削功率为输出的BPNN功耗模型；S2：根据BPNN功耗模型输出的铣削功率构建加工成本模型；S3：构建以迭代过程中铣削参数和加工成本为参数的状态函数、待优化铣削参数的动作参数范围、以上次迭代加工成本与本次迭代加工成本为参数的奖励函数，以及迭代过程中的约束条件；S4：构建仿真环境模型，所述仿真环境模型包括所述BPNN功耗模型、加工成本模型、奖励函数以及状态函数，所述BPNN功耗模型根据铣削参数输出铣削功率，加工成本模型根据铣削功率获取本次迭代加工成本并将其输入奖励函数得到奖励值，根据奖励值判断是否结束任务；S5：将所述仿真环境模型与TD3模型进行耦合得到BP-TD3模型，以使的所述TD3模型根据所述仿真环境模型的观测状态在所述动作参数范围内选择铣削参数；S6：以最小化加工成本为目标对所述BP-TD3模型进行训练，将待优化铣削参数输入训练好的BP-TD3模型即可获得优化后的铣削参数。

优选地，所述加工成本模型包括：

其中，cost为加工成本，SEC为能源成本，T_p为加工时间成本，λ₁和λ₂为平衡因子，P_cutting为机床的铣削功率，MRR为材料的去除率，ψ为时间成本因子，L_c为铣削长度，f_c为铣削进给速度，MRR＝a_p·a_e·f_c，a_p为铣削深度，a_e为铣削宽度。

优选地，步骤S3中所述状态函数s_t为：

s_t＝[a_p(t)，a_e(t)，n(t)，f_c(t)，Cost(t)，Done(t)]

其中，t为第t次优化迭代，a_p(t)为第t次优化迭代对应的铣削深度，a_e(t)为第t层次优化迭代对应的铣削宽度，n(t)为第t次优化迭代时的主轴转速，f_c(t)为第t次优化迭代时的进给速度，Cost(t)为第t次优化迭代时的加工成本，Done(t)第t次优化迭代时的布尔变量；

动作参数范围a_t为：

a_t＝[n(t)，f_c(t)]

其中，[n(t)，f_c(t)]表示二元向量；

奖励函数r_t为：

r_t＝Cost(t-1)-Cost(t)

约束条件

为：

其中，τⁱ(t)表示第i个优化任务的第t次优化迭代；x_min和x_max是铣削参数(a_p，a_e，n，f_c)的上下边界，P_r为机床额定功率，η为相应的效应因子，j＝1，2，3。

优选地，步骤S4中若奖励函数的奖励值小于0则结束该幕优化并赋值Done(t)＝1，反之则继续优化并赋值Done(t)＝0。

优选地，所述铣削参数和铣削功率通过对机床进行正交实验获得。

优选地，通过以下步骤获得所述铣削参数和铣削功率：S11：根据铣削参数范围设计正交实验表，按照正交实验表在机床上进行铣削实验，采集铣削过程中的机床主轴伺服电流和进给轴伺服电流；S12：将所述机床主轴伺服电流和进给轴伺服电流转化为铣削功率，进而建立铣削参数对应的铣削功率。

优选地，所述TD3模型包括1组Actor网络、2组Critic网络和经验寄存器，其中，所述Actor网络用于在动作参数范围内为所述仿真环境模型选择铣削参数，接收来自仿真环境的状态参数、奖励值以及铣削参数；所述经验寄存器用于存储所述状态参数、奖励值以及铣削参数，形成样本；所述2组Critic网络用于根据所述样本进行学习并训练获得最优铣削参数，并将所述最优铣削参数输入所述仿真环境模型进行计算。

优选地，所述状态参数包括本次迭代的状态参数以及更新的状态参数。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，本发明提供的一种基于深度强化学习的铣削参数优化方法：

1.本申请根据BPNN回归方法构建BPNN功耗模型，而后根据BPNN功耗模型的输出建立加工成本模型，所需数据量少，建模过程简单；并且将仿真环境模型与TD3模型耦合实现快速迭代过程寻优，效率高，精度高；

2.定义了相应的状态函数、动作参数范围、约束条件和奖励函数，使得铣削参数优化问题可以通过强化学习方法解决，与传统优化方法不同，提出了一种新的铣削参数优化方法。

3.本发明建立了BP-TD3铣削参数优化深度强化学习模型，以BPNN功耗模型为基础建立仿真环境，同时建立TD3强化学习智能体，经过交互训练，能够在较大空间铣削参数优化任务中节约大量优化计算时间。

附图说明

图1为本发明提供的一种基于深度强化学习的铣削参数优化方法的流程图；

图2为本发明所搭建的铣削参数优化BP-TD3模型结构；

图3为本发明实施实例涉及的BPNN功耗预测模型迭代过程中测试功率的均方根误差变化曲线；

图4为本发明实施实例涉及BP-TD3模型超参数设置及训练流程图；

图5为本发明实施实例涉及的BP-TD3模型训练后单一任务测试的优化路径，其中(a)为a_p＝0.41mm，a_e＝10.41mm时，模型输出的优化路径在仿真环境生成的Cost分布曲面中，(b)为a_p＝0.41mm，a_e＝10.41mm时，模型输出的优化路径在实际测量计算生成的Cost分布曲面中，(c)为a_p＝1.45mm，a_e＝10.86mm时，模型输出的优化路径在仿真环境生成的Cost分布曲面中，(d)为a_p＝1.45mm，a_e＝10.86mm时，模型输出的优化路径在实际测量计算生成的Cost分布曲面中，(e)为a_p＝0.4mm，a_e＝6mm时，模型输出的优化路径在仿真环境生成的Cost分布曲面中，(f)为a_p＝0.4mm，a_e＝6mm时，在进给f_c＝500mm/min时，最后三步参数的微调路径；

图6为本发明实施实例涉及的传统算法BP-PSO不同迭代次数下的种群分布，其中，(a)为迭代次数为1时的种群分布，(b)为迭代次数为3时的种群分布，(c)为迭代次数为5时的种群分布，(d)为迭代次数为10时的种群分布；

图7为本发明实施实例涉及的传统算法BP-SA参数优化路径。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

请参阅图1及图2，本发明提出了一种基于深度强化学习的铣削参数优化方法，所述方法包括如下步骤S1～S6。

S1：采用BPNN回归方法构建以铣削参数为输入并以铣削功率为输出的BPNN功耗模型。

BPNN功耗模型构建时所需要的铣削参数(a_p，a_e，n，f_c)和铣削功率P_cuttin可以采用如下方式获得：

S11：根据铣削参数范围设计正交实验表，按照正交实验表在机床上进行铣削实验，采集铣削过程中的机床主轴伺服电流和进给轴伺服电流；

S12：将所述机床主轴伺服电流和进给轴伺服电流转化为铣削功率，进而建立铣削参数对应的铣削功率。进而构建机床铣削功耗数据集，在铣削功耗数据集上训练搭建的BNPP功耗模型，实现机床功耗预测的连续性。

S2：根据BPNN功耗模型输出的铣削功率构建加工成本模型；

所述加工成本模型包括：

S3：构建以迭代过程中铣削参数和加工成本为参数的状态函数、待优化铣削参数的动作参数范围、以上次迭代加工成本与本次迭代加工成本为参数的奖励函数，以及迭代过程中的约束条件；

所述状态函数s_t为：

s_t＝[a_p(t)，a_e(t)，n(t)，f_c(t)，Cost(t)，Done(t)]

其中，t为第t次优化迭代，a_p(t)为第t次优化迭代对应的铣削深度，a_e(t)为第t层次优化迭代对应的铣削宽度，n(t)为第t次优化迭代时的主轴转速，f_c(t)为第t次优化迭代时的进给速度，Cost(t)为第t次优化迭代时的加工成本，Done(t)第t次优化迭代时的布尔变量，Done(t)＝0或1，当Done(t)＝1时结束当前优化任务，输出最终优化的加工参数组合，反之继续根据状态选择新的动作参数组合；

动作参数范围a_t为：

a_t＝[n(t)，f_c(t)]

其中，[n(t)，f_c(t)]表示二元向量，n(t)为机床主轴转速，本实施例中单位rpm，在所述实例中选取范围为1500rpm～3500rpm；f_c(t)为机床进给速度，本实施例中单位mm/min，在所述实例中选取范围为100mm/min～500mm/min；

奖励函数r_t为：

r_t＝Cost(t-1)-Cost(t)

奖励函数设定为上一次优化参数对应的成本与本次优化参数对应的加工成本之差，当强化学习优化模型朝着奖励值大的方向收敛时能够更快的得到加工成本最低的加工参数组合。

约束条件

为：

其中，τⁱ(t)表示第i个优化任务的第t次优化迭代；x_min和x_max是加工参数(a_p，a_e，n，f_c)的上下边界，可以由机床或刀具手册提供，P_r为机床额定功率，η为相应的效应因子，j为第j个加工约束函数，j＝1，2，3。

S4：构建仿真环境模型，所述仿真环境模型包括所述BPNN功耗模型、加工成本模型、奖励函数以及状态函数，所述BPNN功耗模型根据铣削参数输出铣削功率，加工成本模型根据铣削功率获取本次迭代加工成本并将输入奖励函数得到奖励值，状态函数根据奖励值判断是否结束任务。

将铣削参数(a_p，a_e，n，f_c)通过BPNN功耗模型预测相应的铣削功率P_cutting，然后根据加工成本模型计算出加工成本Cost，然后根据奖励函数计算出奖励值r_t，并判断一幕优化是否结束，若奖励函数的奖励值小于0则结束该幕优化并赋值Done(t)＝1，反之则继续优化并赋值Done(t)＝0。

S5：将所述仿真环境模型与TD3模型进行耦合得到BP-TD3模型，以使的所述TD3模型在所述动作参数范围内为所述仿真环境模型选择铣削参数；

所述TD3模型包括1组Actor网络、2组Critic网络和经验寄存器，其中，所述Actor网络用于在动作参数范围内为所述仿真环境模型选择铣削参数，接收来自仿真环境的状态参数、奖励值以及铣削参数；所述经验寄存器用于存储所述状态参数、奖励值以及铣削参数，形成样本；所述2组Critic网络用于根据所述样本进行学习并训练获得最优铣削参数，并将所述最优铣削参数输入所述仿真环境模型进行计算。最优铣削参数通过Critic网络对状态-动作二元组的评价Q获得，当评价Q接近环境真实状态-动作价值时对应的铣削参数即为最优铣削参数。

S6：以最小化加工成本为目标对所述BP-TD3模型进行训练，采用训练好的BP-TD3模型即可实现铣削参数的优化。

最小化加工成本的表达式为：

其中，Γⁱ为对应的第i个优化任务，A为所优化的主轴转速n和进给速度f_c的参数组合(n，f_c)，Cost为选择相应参数组合进行加工时机床的加工成本，(a_p，a_e)ⁱ为第i个优化任务对应的铣削深度、铣削宽度参数组合；因此优化任务就是在加工约束条件下，对不同的铣削任务(a_p，a_e)，选择最优的(n，f_c)参数，使得铣削加工成本最小。

下面以立式数控加工中心12mm直径立铣刀铣削加工过程为例，对本发明的方法进行说明。

本发明实例所有的实验测试在FUNUC五轴加工中心上进行，以验证所提出的方法，机床主要参数如表1所示。铣削实验中使用的工件材料为铝合金，尺寸为100mm*70mm*80mm。选择的刀具为直径12mm的硬质合金立铣刀，详细参数见表2。

表1机床关键参数

表2立铣刀主要参数

参数项	参数值
		螺旋角	60
铣削直径	12mm
		本体直径	12mm
刀具齿数	4
		铣削长度	45mm
刀具总长	100mm
		刀具材质	硬质合金

在铣削实验中，使用Honeywell公司CSNF161型号的霍尔传感器采集机床主轴和进给轴伺服电机三相电流信号，传感器详细参数见表3。传感器采集到的为电流信号，通过阻值为100Ω的电流-电压转化模块将电流信号转换为电压信号。然后通过Dewesoft公司的SIRIUS-HD ACC数据采集仪将电压模拟量信号转换为数字量信号，采集频率为10khz。

表3电流传感器参数

具体正交实验设计、实施和数据集构建步骤如下：

(1.1)根据加工参数因素水平表(表4)，选择L2⁵(5⁶)正交实验表，设计正交实验；

表4铣削实验因素水平表

(1.2)根据正交设计的实验参数组合，编写CNC代码，在实验平台上进行加工，并采集数据，处理计算后获得各组参数加工对应的功率P_cutting，建立铣削功耗数据集；

(1.3)然后根据Cost计算公式计算相应的加工损失，式中λ₁，λ₂，ψ取值为1，L_c为100mm。

(2)建立基于BPNN的功耗模型，并功耗数据集上训练

BPNN功耗预测模型参数设定如下：考虑到模型输入为(a_p，a_e，n，f_c)参数组合，输出为功率值P_cutting，设定输入层神经元个数为4，输出层为1。为了避免模型过拟合、欠拟合情况，根据训练测试最终确定模型隐含层神经元个数为8，学习率设定为0.05。如图3所示为设定好参数后，模型训练迭代不同轮数的测试功率的均方根误差。当模型迭代4500轮时，已经达到较好的预测效果，测试功率的均方根误差178W，误差率5.2％。

(3)BP-TD3模型建立与训练

通过所建立的BP功耗模型计算加工功率，根据加工成本模型计算加工能效、加工时间和加工成本，加工成本模型中参数取Ψ＝1，λ₁＝λ₂＝1。建立能够计算加工成本Cost，并返回奖励值r，更新状态值s的仿真环境。结合仿真环境和深度强化学习建立BP-TD3模型，在仿真环境中训练深度强化学习智能体，模型超参数设置和简化的训练流程如图4所示。初始经验池大小的设置比较关键，设置过大或过小都会导致训练初期智能体学习缓慢。

训练过程中，TD3模型与仿真环境不断交互产生新的数据，并从交互数据中学习参数优化经验。每交互10幕数据，对TD3智能体进行一次测试，测试选择等间距的534组(a_p，a_e)铣削任务进行(n，f_c)参数优化，记录测试的平均奖励和加工成本，奖励迅速收敛到4.689，加工成本收敛到1.409。对模型重复训练了50次，每次均迭代550幕数据，记录每次训练完成后的模型测试结果：平均训练时间每次61.8s，其中最差的一次训练后测试平均加工成本1.458，最好的一次1.409，50次训练的平均测试成本1.414，训练结果相对稳定。

(4)BP-TD3模型铣削参数优化测试与对比

模型训练完成后，为进一步研究深度强化学习智能体学习到的加工参数优化策略，对训练好的模型进行三组(a_p，a_e)铣削任务的(n，f_c)参数优化测试，并输出优化过程中的每一步参数，如图所示。图5为BP-TD3模型训练后单一任务测试的优化路径，其中，(a)和(c)为TD3智能体在仿真环境生成的Cost曲面中的优化路径，可以看出TD3模型先优化收益最高的进给参数，然后优化主轴转速，最后进行局部微调，仅需5步优化就可以得到TD3模型认为的最优加工参数；(b)和(d)为优化过程中的参数点在验证实验数据生成的Cost曲面中的位置，基本一致，仅在低进给的情况下，实际Cost与仿真环境生成Cost有一定偏差，主要原因可能是生成仿真环境的数据量较少，搭建仿真环境时对真实情况存在模拟偏差；(e)为TD3模型针对另一种参数优化任务的优化过程，优化策略相较于前两种存在一定区别，最后微调的是转速参数，如图(f)所示，在进给f_c＝500mm/min时，最后三步参数的微调过程。

为进一步证明所提出BP-TD3加工参数优化方法的优越性，本研究基于相同的仿真环境，结合经典的优化方法，建立了BP-SA、BP-GA、BP-PSO优化模型。作为经典的群体启发式优化算法，BP-PSO对加工参数的优化过程如图6所示，其中，(a)、(b)、(c)、(d)分别为迭代1、3、5、10轮后的粒子在仿真环境Cost曲面中的位置分布情况，可以看到迭代10轮后BP-PSO算法收敛到一个加工参数。BP-GA同为群体启发式算法，优化过程中，参数的分布和收敛情况与BP-PSO算法类似，但是收敛速度更慢。与群体启发式优化算法不同，BP-SA是一种由金属退火启发，基于蒙特卡洛思想设计的个体启发式算法。如图7所示为BP-SA算法迭代过程中的参数优化路径，其中黄色三角形为每一轮迭代得到的参数，经过18轮迭代，得到最终优化参数即图中五角星标识的位置。从单个(a_p，a_e)铣削任务参数优化过程来看，经典优化方法均需要多轮迭代才能输出最终参数优化结果，而本发明所提出的BP-TD3方法通过前期训练已经学到加工参数优化的经验，根据经验可以在3-5步内得到参数优化结果。

从优化计算时间和优化后加工成本来比较本发明所提出BP-TD3方法和经典优化方法。设计两组优化任务空间如下：

任务空间I：

{(ap＝0.3+0.1*N，ae＝4+0.1*M)|N∈(0，1，...，12)，M∈(0，1，...，80)}

任务空间II：

{(ap＝0.3+0.01*N，ae＝4+0.01*M)|N∈(0，1，...，121)，M∈(0，1，...，801)}

其中任务空间I优化任务参数a_p，a_e间隔0.1mm，任务数量为13*81，任务空间II优化任务间隔为0.01mm，任务数量为121*801。

如表5所示为本发明所提出加工参数优化算法与三种经典优化算法在两组任务空间中的性能比较，比较过程在配置相同的计算机上进行。显然，在优化计算时间上，所提出的基于深度强化学习的加工参数优化方法BP-TD3有显著的优势。主要原因在于，模型训练时间仅需75s，训练完成后，对于每种铣削优化任务仅需4-5步即可输出优化参数，优化计算速度很快。而经典优化算法针对每个优化任务都需要重新迭代计算，BP-SA算法优化过程中存在内、外循环迭代计算，仅外循环就需要几十步迭代计算才能得到优化参数，因此计算时间较长。BP-PSO和BP-GA算法虽然可以在十几轮迭代得到优化参数，但是每轮迭代需要计算种群中每个个体的适应度值，因此也需要大量计算时间。在任务量较大的任务空间2中，本发明所提出方法节约了大约95％的优化计算时间。从优化后的平均加工成本来看，BP-PSO算法能够得到更优的加工参数，使得平均加工成本最低。而本发明所提出的方法能够在节约大量优化计算时间的前提下，保证优化结果与BP-PSO基本一致，平均加工成本接近BP-PSO算法所得到的最低加工成本。

表5两组优化任务空间中算法的性能对比

本发明以深度强化学习方法为核心，首先设计正交实验，基于BPNN回归方法建立机床功耗模型，实现机床功耗状态预测的连续性，并建立加工成本模型；然后，将加工过程参数优化问题形式化的表示为马尔科夫决策过程，定义了相应的状态、动作、奖励函数和约束；最后，结合机床功耗模型和加工成本模型建立仿真环境，提出BP-TD3深度强化学习方法，求解铣削加工参数优化马尔科夫决策问题。如此，本发明可以利用正交试验的少量数据辅助建立机床功耗仿真BPNN功耗模型，在TD3与BP仿真环境交互训练中得到深度强化学习铣削参数优化模型，从而只需较少的实验数据，稳定的训练时间，就可以解决较大任务空间的铣削参数优化问题。

综上，基于本发明提出的方法对数控加工中心铣削功耗建模，定义了相应的状态、动作、奖励和约束函数，结合机床功耗模型和加工成本模型建立仿真环境，搭建BP-TD3深度强化学习模型求解铣削加工参数优化。该方法可以利用正交试验的少量数据辅助建立机床功耗仿真BPNN功耗模型，在TD3与BP仿真环境交互训练中得到深度强化学习铣削参数优化模型，从而只需较少的实验数据，稳定的训练时间，就可以解决较大任务空间的铣削参数优化问题，最终在较大任务空间优化问题中，比传统优化方法节约了95％的优化计算时间。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的铣削参数优化方法，其特征在于，所述方法包括：

S1：采用BPNN回归方法构建以铣削参数为输入并以铣削功率为输出的BPNN功耗模型；

S2：根据BPNN功耗模型输出的铣削功率构建加工成本模型；

S4：构建仿真环境模型，所述仿真环境模型包括所述BPNN功耗模型、加工成本模型、奖励函数以及状态函数，所述BPNN功耗模型根据铣削参数输出铣削功率，加工成本模型根据铣削功率获取本次迭代加工成本并将其输入奖励函数得到奖励值，根据奖励值判断是否结束任务；

S5：将所述仿真环境模型与TD3模型进行耦合得到BP-TD3模型，以使的所述TD3模型根据所述仿真环境模型的观测状态在所述动作参数范围内选择铣削参数；

S6：以最小化加工成本为目标对所述BP-TD3模型进行训练，将待优化铣削参数输入训练好的BP-TD3模型即可获得优化后的铣削参数。

2.根据权利要求1所述的方法，其特征在于，所述加工成本模型包括：

3.根据权利要求1所述的方法，其特征在于，步骤S3中所述状态函数s_t为：

s_t＝[a_p(t)，a_e(t)，n(t)，f_c(t)，Cost(t)，Done(t)]

动作参数范围a_t为：

a_t＝[n(t)，f_c(t)]

其中，[n(t)，f_c(t)]表示二元向量；

奖励函数r_t为：

r_t＝Cost(t-1)-Cost(t)

约束条件

为：

4.根据权利要求3所述的方法，其特征在于，步骤S4中若奖励函数的奖励值小于0则结束该幕优化并赋值Done(t)＝1，反之则继续优化并赋值Done(t)＝0。

5.根据权利要求1所述的方法，其特征在于，所述铣削参数和铣削功率通过对机床进行正交实验获得。

6.根据权利要求1或5所述的方法，其特征在于，通过以下步骤获得所述铣削参数和铣削功率：

S12：将所述机床主轴伺服电流和进给轴伺服电流转化为铣削功率，进而建立铣削参数对应的铣削功率。

7.根据权利要求1所述的方法，其特征在于，所述TD3模型包括1组Actor网络、2组Critic网络和经验寄存器，其中，所述Actor网络用于在动作参数范围内为所述仿真环境模型选择铣削参数，接收来自仿真环境的状态参数、奖励值以及铣削参数；所述经验寄存器用于存储所述状态参数、奖励值以及铣削参数，形成样本；所述2组Critic网络用于根据所述样本进行学习并训练获得最优铣削参数，并将所述最优铣削参数输入所述仿真环境模型进行计算。

8.根据权利要求7所述的方法，其特征在于，所述状态参数包括本次迭代的状态参数以及更新的状态参数。