CN113156900B - 一种基于元强化学习的加工变形控制方法 - Google Patents

一种基于元强化学习的加工变形控制方法 Download PDF

Info

Publication number
CN113156900B
CN113156900B CN202110337890.5A CN202110337890A CN113156900B CN 113156900 B CN113156900 B CN 113156900B CN 202110337890 A CN202110337890 A CN 202110337890A CN 113156900 B CN113156900 B CN 113156900B
Authority
CN
China
Prior art keywords
deformation
machining
model
processing
meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110337890.5A
Other languages
English (en)
Other versions
CN113156900A (zh
Inventor
李迎光
刘长青
黄冲
郝小忠
刘旭
许可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110337890.5A priority Critical patent/CN113156900B/zh
Publication of CN113156900A publication Critical patent/CN113156900A/zh
Application granted granted Critical
Publication of CN113156900B publication Critical patent/CN113156900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41875Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by quality surveillance of production
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32368Quality control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Numerical Control (AREA)

Abstract

一种基于元强化学习的加工变形控制方法,其特征是将不同分组的源数据中每个零件的加工变形控制工艺优化作为一个任务,为每个任务分别建立强化学习模型,将工件加工分为若干加工步骤,以工件的加工状态为状态,以下一个加工步骤的工艺选择作为动作,以下一加工状态和后续的加工状态作为设计奖励函数的依据;基于元学习方法,将每个强化学习模型作为基模型,通过源数据协同训练基模型和元模型;当面临新的加工任务时,通过新任务的少量样本数据微调元模型得到适应新任务的加工变形控制工艺优化的强化学习模型。本发明提高了变形控制的效果,可以实现加工工艺的在线优化,减少了对实际加工工艺数据的需求。

Description

一种基于元强化学习的加工变形控制方法
技术领域
本发明涉及数控加工领域,尤其是涉及一种零件数控加工变形控制方法,具体地说是一种基于元强化学习的加工变形控制方法。
背景技术
加工变形是造成零件加工质量问题的主要原因之一,所以加工变形控制也成为保证零件质量的重要方面。加工过程中的工艺优化是加工变形控制的有效途径,对零件最终的变形有重要作用,尽管加工完成后的变形可以通过校形处理,但校形工艺复杂,工作量大,容易引起工件开裂,控制的精度仍然难以达到高精度变形控制要求,通过加工过程中的工艺优化来减小加工完成后的变形可以有效减轻校形的负担。已有方法主要是基于残余应力预测或检测进行加工变形预测,进而在离线状态下根据已有的变形预测结果进行加工工艺优化从而实现加工变形控制。然而由于残余应力高精度预测和检测难度大,且加工过程中存在大量不确定性因素,事前确定的加工工艺难以满足变形控制需求。
针对以上问题,一种有效的手段是利用加工中监测得到的物理量来反映工件的变形状态。零件的数控加工通常分为若干步骤,每个步骤都有一定的加工工艺,在加工过程中完成每个步骤的加工工艺都会产生一定的变形。在加工过程中工件被夹具所约束,无法释放变形,当前工件的变形不包含前面步骤加工变形的累积量,即当前工件变形只是在上一工件状态及上一加工步骤工艺的作用下产生,因此当前工件变形状态只取决于上一步加工变形与动作,可以看出该过程具有马尔科夫性,通过强化学习方法优化每个步骤的加工工艺从而实现变形控制是一种有效手段,但是由于每个零件的残余应力状态不同,用同一零件的变形控制工艺数据训练得到的变形控制工艺优化强化学习模型在面对新的加工任务时难以保证模型的泛化能力,且强化学习等机器学习算法的学习需要大量的样本数据,这在制造环境下是难以实现的,如何用小样本数据提高模型的泛化能力是解决问题的关键。元学习在解决小样本数据学习的问题上具有良好的效果,结合元学习与强化学习算法的优势,可以实现在不同加工任务下零件加工工艺的优化从而达到零件变形的准确控制。
发明内容
本发明的目的是针对变形控制工艺优化的问题,提出了一种基于元强化学习的加工变形控制方法,为不同变形控制工艺数据建立了强化学习基模型,以工件加工过程中的监测数据作为标签,增加了样本数据的数量,而且可以通过加工仿真环境得到变形控制工艺仿真数据,进一步了增加样本数据,利用元学习的小样本学习方法,通过与工件加工环境交互迭代产生的数据训练基模型从而得到一个元模型,通过新加工任务的监测数据作为样本数据,通过该少量样本数据微调元模型使其适应新任务的加工,提高了模型的泛化能力及变形控制效果。
本发明的技术方案是:
一种基于元强化学习的加工变形控制方法,其特征在于:将至少包含一个零件的变形控制工艺数据作为源数据,将源数据进行分组,并将不同分组的源数据中每个零件的加工变形控制工艺优化作为一个任务,为每个任务分别建立强化学习模型优化加工工艺;基于元学习方法,将建立的强化学习模型作为基模型,通过源数据协同训练基模型和元模型;当面临新的加工任务时,通过新任务的少量样本数据微调元模型得到适应新任务的加工变形控制工艺优化的强化学习模型。
所述的强化学习模型中,将工件加工分为若干加工步骤,以工件的加工状态为状态,以下一个加工步骤的工艺选择作为动作,以下一加工状态和后续的加工状态作为设计奖励函数的依据。
述的加工状态为工件的几何状态、变形力监测量和变形值监测量中的一种或任意组合。
所述的工艺选择的动作为切深、切宽、转速、进给、是否释放变形、施加预应力和加工顺序。
所述的源数据为仿真数据,通过对残余应力分布采样构建不同的加工仿真环境,采用不同工艺策略作用于该环境,通过工艺策略与加工仿真环境交互得到不同变形控制工艺仿真数据。
所述的奖励函数设计是指:工件当前的变形状态和加工完成的变形状态通过释放变形或者预测变形得到,奖励函数通过公式(1)表达,为了能有效设置奖励函数从而避免奖励过于稀疏导致模型无法收敛,将分阶段进行设置奖励函数的制定;其中rewardi表示当执行第i个加工步骤的工艺时获得的奖励,i表示加工步骤的顺序编号,maxdefori表示执行第i个加工步骤的工艺时工件监测到的最大变形的绝对值,maxdefore表示执行最后加工步骤的工艺时工件监测到的最大变形的绝对值,Sm表示加工过程中的某个步骤的顺序编号,Se表示加工过程中的最后加工步骤的顺序编号,def1与def2分别表示加工过程中执行某个步骤的工艺产生变形的阈值,defe表示执行最后加工步骤的工艺产生变形的阈值;从公式(1)看出,在执行前Sm个步骤的工艺时,当maxdefori大于def1时,将会获得惩罚R1,R1为大于-1的负数,当maxdefori不大于def1时,将获得阶段性的奖励R2,R2为小于1的正数;在执行Sm与Se之间步骤的工艺时,当maxdefori大于def2时,将会获得惩罚R1,当maxdefori不大于def2时,将获得阶段性的奖励R2;当执行最后一个加工步骤Se的工艺时,将确定零件最终的变形,以零件最终的变形作为奖励的依据,当maxdefore不大于defe时,奖励将是defe与maxdefore的比值,是个大于1的奖励,变形越小奖励越大;当maxdefore大于defe时,奖励将是maxdefore与defe的比值的负数,是个小于-1的惩罚,变形越大惩罚越大。
Figure BDA0002998279410000031
所述的微调元模型是指:根据新任务的少量样本数据,通过少量的梯度下降来更新元模型的参数得到适应新任务的参数。
所述的强化学习模型通过DQN(Deep Q-Network)、DDPG(Deep DeterministicPolicy Gradient)、策略梯度强化学习算法来构建。
具体而言,本发明的基于元强化学习的加工变形控制方法,包括:将至少包含一个零件的变形控制工艺数据作为源数据,将源数据进行分组,并将源数据中每个零件的加工变形控制工艺优化作为一个任务
Figure BDA0002998279410000032
为每个任务分别建立强化学习模型
Figure BDA0002998279410000033
优化加工工艺;基于元学习方法,将建立的强化学习模型
Figure BDA0002998279410000034
作为基模型,通过源数据协同训练基模型
Figure BDA0002998279410000035
和元模型fθ;当面临新的加工任务
Figure BDA0002998279410000036
时,通过监测新任务
Figure BDA0002998279410000037
的加工过程得到少量样本数据<s,a,r,s′>,其中s为工件当前的加工状态,a为当前加工步骤的加工工艺选择,r为作用动作a后的奖励,s′为作用动作a后工件的加工状态,通过少量的样本数据微调元模型fθ得到适应新任务
Figure BDA0002998279410000038
的加工变形控制工艺优化的强化学习模型
Figure BDA0002998279410000039
进一步,所述的强化学习模型
Figure BDA00029982794100000310
将工件加工分为若干加工步骤
Figure BDA00029982794100000311
以工件的加工状态为状态s,以下一个加工步骤的工艺选择作为动作a,以下一加工状态和后续的加工状态作为设计奖励函数reward的依据。
进一步,所述的状态s可以是工件的几何状态、变形力监测量和变形值监测量中的一种及其组合。
进一步,所述的工艺选择的动作a可以为切深、切宽、转速、进给、是否释放变形、施加预应力、加工顺序等。
进一步,所述的源数据可以为仿真数据,通过对残余应力分布采样构建不同的加工仿真环境,采用不同工艺策略作用于该环境,通过工艺策略与加工仿真环境交互得到不同变形控制工艺仿真数据。
进一步,所述的奖励函数reward设计,其中工件当前的变形状态和加工完成的变形状态可通过释放变形或者预测变形得到,奖励函数reward可通过公式(1)表达,为了能有效设置奖励函数从而避免奖励过于稀疏导致模型无法收敛,将分阶段进行设置奖励函数的制定;其中rewardi表示当执行第i个加工步骤的工艺时获得的奖励,i表示加工步骤的顺序编号,maxdefori表示执行第i个加工步骤的工艺时工件监测到的最大变形的绝对值,maxdefore表示执行最后加工步骤的工艺时工件监测到的最大变形的绝对值,Sm表示加工过程中的某个步骤的顺序编号,Se表示加工过程中的最后加工步骤的顺序编号,def1与def2分别表示加工过程中执行某个步骤的工艺产生变形的阈值,defe表示执行最后加工步骤的工艺产生变形的阈值;从公式(1)可以看出,在执行前Sm个步骤的工艺时,当maxdefori大于def1时,将会获得惩罚R1,R1为大于-1的负数,当maxdefori不大于def1时,将获得阶段性的奖励R2,R2为小于1的正数;在执行Sm与Se之间步骤的工艺时,当maxdefori大于def2时,将会获得惩罚R1,当maxdefori不大于def2时,将获得阶段性的奖励R2;当执行最后一个加工步骤Se的工艺时,将确定零件最终的变形,以零件最终的变形作为奖励的依据,当maxdefore不大于defe时,奖励将是defe与madefore的比值,是个大于1的奖励,变形越小奖励越大;当maxdefore大于defe时,奖励将是maxdefore与defe的比值的负数,是个小于-1的惩罚,变形越大惩罚越大。
进一步,所述的微调元模型fθ为根据新任务
Figure BDA0002998279410000041
的少量样本数据,通过少量的梯度下降来更新元模型fθ的参数θ得到适应新任务
Figure BDA0002998279410000042
的参数θnew
进一步,所述的强化学习模型
Figure BDA0002998279410000043
可以通过DQN(Deep Q-Network)、DDPG(DeepDeterministic Policy Gradient)、策略梯度等强化学习算法来构建。
本发明的有益效果是:
1.本发明通过加工过程中的更容易精确得物理监测量反映工件的中间状态,从而得到样本数据,避免了奖励过于稀疏导致模型无法收敛,并通过少量样本数据微调元模型使其适应新任务的加工,提高了模型的泛化能力。
2.本发明使用元强化学习方法优化每个步骤加工工艺,提高了变形控制的效果。
3.本发明基于实时监测的物理量进行加工工艺优化,可以实现加工工艺的在线优化。
4.本发明通过仿真加工环境得到变形控制工艺数据,减少了对实际加工工艺数据的需求。
附图说明
图1为本发明基于元强化学习的变形控制方法示意图。
图2为本发明强化学习模型网络结构图,图中eval_net表示评估网络,target_net表示目标网络,def1,def2,def3,def4分别表示零件当前的四组变形值,ord表示当前加工槽的序号,Q1,Q2,...,Q19,Q20分别表示每个动作的Q值,Qeval和Qtarget分别表示eval_net网络与target_net网络中所有Q值中的最大值。
图3为本发明零件槽加工顺序与变形监测点示意图。
具体实施方式
以下结合附图和实例来对本发明做进一步说明,本发明不限于该实施例。
如图1-3所示。
一种基于元强化学习的精加工余量优化方法,包括以下步骤:
1、以航空结构件加工为例,零件在加工过程中,通过监测工件的变形力表征工件的变形状态。
2、本发明基于元强化学习的变形控制工艺优化方法,如图1所示。首先分析强化学习基模型的建立,根据零件毛坯材料初始残余应力测量结果,构建毛坯每层初始残余应力基准值
Figure BDA0002998279410000051
其中n表示毛坯沿厚度方向的层数。以铝合金残余应力测量误差为依据,在此
Figure BDA0002998279410000052
的基础上将残余应力的采样区间范围扩展为
Figure BDA0002998279410000053
设置基模型个数时要保证所有基模型加工环境的残余应力采样区间的并集能覆盖整体的采样区间
Figure BDA0002998279410000054
并且每个基模型的残余应力采样区间能有一定交集,这样能保证基模型之间有一定融合,丰富样本数据。因此本发明实施例建立了五个基模型,假设残余应力的测量误差服从正态分布,则基模型加工环境的初始残余应力采样分布为
Figure BDA0002998279410000055
其中
Figure BDA0002998279410000056
表示每个基模型毛坯每层初始残余应力的采样值;
Figure BDA0002998279410000057
表示每个基模型毛坯每层初始残余应力服从正态分布的均值;bm表示每个基模型的序号,可以为1,2,...,5;
Figure BDA0002998279410000058
表示每个基模型毛坯每层初始残余应力服从正态分布的标准差。根据初始残余应力的采样要求,每个基模型对应的采样区间分别为:
Figure BDA0002998279410000059
Figure BDA00029982794100000510
并且每个区间对应的基模型的均值分别为:
Figure BDA00029982794100000511
Figure BDA00029982794100000512
每个区间对应的基模型的标准差均为:
Figure BDA00029982794100000513
则每个基模型在对应采样区间的采样概率为95%,如此保证了每个区间之间有30%的融合度。为每个初始残余应力采样区间零件的精加工余量优化作为一个任务
Figure BDA00029982794100000514
并为每个任务分别强化学习基模型
Figure BDA00029982794100000515
每个强化学习基模型
Figure BDA00029982794100000516
的初始残余应力采样分别为以上所述的五个初始残余应力分布采样区间。根据所采样的初始残余应力建立加工仿真环境,在加工仿真环境,为零件赋予所采样的初始残余应力,通过与加工仿真的交互得到精加工余量优化源数据从而训练每个强化学习基模型
Figure BDA0002998279410000061
3、分析元模型fθ的建立,基于元学习的方法,元模型为fθ是与强化学习基模型
Figure BDA0002998279410000062
具有不同网络参数与超参数的DQN算法网络模型,如图2所,DQN网络模型是两个具有相同结构但参数不同的神经网络,分别为目标网络target_net和估计网络eval_net,两个网络均为全连接。使用两个神经网络是为了固定住一个神经网络target_net的参数,拥有eval_net很久之前的一组参数,而且这组参数被固定一段时间,再被eval_net的新参数所替换,而eval_net在训练过程中不断在被更新。eval_net中输入为当前状态s,输出一组Q值Qeval,作为预测的Q值,根据Qeval对应的动作继续改变加工环境,并获得一个奖励r。target_net中输入下一状态s′,输出一组Q值Qtarget,以Qtarge乘上折扣因子并加上到达状态s′所获得的奖励,将这个值作为现实的Q值,通过两个不同的Q值可以计算出一个损失,因此对于每个任务
Figure BDA0002998279410000063
和对应的基模型
Figure BDA0002998279410000064
的损失函数的定义如公式(2)所示:
Figure BDA0002998279410000065
其中ri(st,at)表示在任务
Figure BDA0002998279410000066
的DQN模型中在状态st作用动作at收获的奖励,γi表示该模型的折扣因子,表示对未来奖励的重视程度,为0到1之间的值,本实施例每个基模型
Figure BDA0002998279410000067
折扣因子为0.9,Qeval,i(st,at)表示在该模型eval_net网络中输入状态st得到动作at时对应的Q值,maxQtarget,i(st+1)表示在该模型target_net网络中输入下一状态st+1输出的最大Q值。
4、分析强化学习基模型
Figure BDA0002998279410000068
的训练更新,不同加工环境下的强化学习基模型参数θi通过梯度下降来更新,如公式(3)所示:
Figure BDA0002998279410000069
其中学习速率α为固定超参数,本实施例每个基模型
Figure BDA00029982794100000610
学习速率为0.001。
5、分析元模型fθ的训练更新,θ是通过优化每个强化学习基模型的
Figure BDA00029982794100000611
性能来进行训练,元模型参数的更新如公式(4)所示:
Figure BDA00029982794100000612
其中β为元学习率,本实施例元模型fθ的学习速率为0.01,元参数θ通过综合考虑基强化学习模型参数θ′i的损失而得到优化。
6、对于元模型fθ的微调,在加工仿真环境中得到精加工余量优化数据完成强化学习基模型
Figure BDA0002998279410000071
和元模型fθ的协同训练,当去适应一个新加工环境的新任务
Figure BDA0002998279410000072
时,通过监测新任务
Figure BDA0002998279410000073
加工过程中工件的状态得到少量样本数据<s,a,r,s′>,其中s为工件当前变形值与槽序号,a为当前槽选择的精加工余量,r为作用动作a的奖励,s′为作用动作a后工件的变形值与下一槽序号,奖励函数将根据具体零件来设置,本实施例的零件槽加工顺序与变形监测点如图3所示,因此本实施例的奖励函数如公式(4)。根据该少量样本数据微调元模型参数θ,使其微调更新到θnew,从而适应新任务
Figure BDA0002998279410000074
的加工环境,元模型参数θ微调方式如公式(5)所示:
Figure BDA0002998279410000075
Figure BDA0002998279410000076
7、精加工余量优化:当训练好的元模型fθ面临新的加工任务
Figure BDA0002998279410000077
时,在零件的第一个槽以精加工余量为传统的1mm进行铣削,通过监测得到此时工件的四组变形值def1,def2,def3,def4,并结合第一个槽的序号ord形成状态s,输入元模型fθ的eval_net,即输入如图2所示的神经网络,输出动作a即零件第二个槽的将加工余量,并对零件进行第二个槽的加工,通过监测得到此时工件的四组变形值def1,def2,def3,def4,并结合第二个槽的序号ord形成状态s′,根据此时四组变形值得到动作a的奖励r,并将状态s′输入元模型fθ的target_net,通过得到的样本数据<s,a,r,s′>微调元模型,并输出下一槽的精加工余量。通过同样的迭代完成零件每个槽精加工余量的决策,达到控制零件加工变形的目的。

Claims (6)

1.一种基于元强化学习的加工变形控制方法,其特征在于:将至少包含一个零件的变形控制工艺数据作为源数据,将源数据进行分组,并将不同分组的源数据中每个零件的加工变形控制工艺优化作为一个任务,为每个任务分别建立强化学习模型优化加工工艺;基于元学习方法,将建立的强化学习模型作为基模型,通过源数据协同训练基模型和元模型;当面临新的加工任务时,通过新任务的少量样本数据微调元模型得到适应新任务的加工变形控制工艺优化的强化学习模型;所述的强化学习模型中,将工件加工分为若干加工步骤,以工件的加工状态为状态,以下一个加工步骤的工艺选择作为动作,以下一加工状态和后续的加工状态作为设计奖励函数的依据;
所述的奖励函数设计是指:工件当前的变形状态和加工完成的变形状态通过释放变形或者预测变形得到,奖励函数通过公式(1)表达,为了能有效设置奖励函数从而避免奖励过于稀疏导致模型无法收敛,将分阶段进行设置奖励函数的制定;其中rewardi表示当执行第i个加工步骤的工艺时获得的奖励,i表示加工步骤的顺序编号,maxdefori表示执行第i个加工步骤的工艺时工件监测到的最大变形的绝对值,maxdefore表示执行最后加工步骤的工艺时工件监测到的最大变形的绝对值,Sm表示加工过程中的某个步骤的顺序编号,Se表示加工过程中的最后加工步骤的顺序编号,def1与def2分别表示加工过程中执行某个步骤的工艺产生变形的阈值,defe表示执行最后加工步骤的工艺产生变形的阈值;从公式(1)看出,在执行前Sm个步骤的工艺时,当maxdefori大于def1时,将会获得惩罚R1,R1为大于-1的负数,当maxdefori不大于def1时,将获得阶段性的奖励R2,R2为小于1的正数;在执行Sm与Se之间步骤的工艺时,当maxdefori大于def2时,将会获得惩罚R1,当maxdefori不大于def2时,将获得阶段性的奖励R2;当执行最后一个加工步骤Se的工艺时,将确定零件最终的变形,以零件最终的变形作为奖励的依据,当maxdefore不大于defe时,奖励将是defe与maxdefore的比值,是个大于1的奖励,变形越小奖励越大;当maxdefore大于defe时,奖励将是maxdefore与defe的比值的负数,是个小于-1的惩罚,变形越大惩罚越大
Figure FDA0003641236840000011
2.根据权利要求1所述的基于元强化学习的加工变形控制方法,其特征在于:所述的加工状态为工件的几何状态、变形力监测量和变形值监测量中的一种或任意组合。
3.根据权利要求1所述的基于元强化学习的加工变形控制方法,其特征在于:所述的工艺选择的动作为切深、切宽、转速、进给、是否释放变形、施加预应力和加工顺序。
4.根据权利要求1所述的基于元强化学习的加工变形控制方法,其特征在于:所述的源数据为仿真数据,通过对残余应力分布采样构建不同的加工仿真环境,采用不同工艺策略作用于该环境,通过工艺策略与加工仿真环境交互得到不同变形控制工艺仿真数据。
5.根据权利要求1所述的基于元强化学习的加工变形控制方法,其特征在于:所述的微调元模型是指:根据新任务的少量样本数据,通过少量的梯度下降来更新元模型的参数得到适应新任务的参数。
6.根据权利要求1所述的基于元强化学习的加工变形控制方法,其特征在于:所述的强化学习模型通过DQN(Deep Q-Network)、DDPG(Deep Deterministic Policy Gradient)、策略梯度强化学习算法来构建。
CN202110337890.5A 2021-03-30 2021-03-30 一种基于元强化学习的加工变形控制方法 Active CN113156900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110337890.5A CN113156900B (zh) 2021-03-30 2021-03-30 一种基于元强化学习的加工变形控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110337890.5A CN113156900B (zh) 2021-03-30 2021-03-30 一种基于元强化学习的加工变形控制方法

Publications (2)

Publication Number Publication Date
CN113156900A CN113156900A (zh) 2021-07-23
CN113156900B true CN113156900B (zh) 2022-06-28

Family

ID=76885256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110337890.5A Active CN113156900B (zh) 2021-03-30 2021-03-30 一种基于元强化学习的加工变形控制方法

Country Status (1)

Country Link
CN (1) CN113156900B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114228008B (zh) * 2021-12-20 2023-08-11 深圳市友联精诚塑胶制品有限公司 一种塑胶成型方法和系统
CN114638073B (zh) * 2022-05-11 2022-08-23 中建五局第三建设有限公司 一种钢筋加工方法、装置、电子设备及存储介质
DE102022112606B3 (de) 2022-05-19 2023-07-27 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Computerimplementiertes Verfahren zur Kalibrierung eines technischen Systems

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109176532A (zh) * 2018-11-09 2019-01-11 中国科学院自动化研究所 一种机械臂路径规划方法、系统及装置
CN110210654A (zh) * 2019-05-20 2019-09-06 南京星火技术有限公司 产品模型设计系统及方法
CN111160562A (zh) * 2019-11-18 2020-05-15 清华大学 基于元学习优化方法的连续学习方法及装置
WO2020154542A1 (en) * 2019-01-23 2020-07-30 Google Llc Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN111950690A (zh) * 2019-05-15 2020-11-17 天津科技大学 一种具有自适应能力的高效强化学习策略模型
CN112418013A (zh) * 2020-11-09 2021-02-26 贵州大学 一种小样本下基于元学习的复杂工况轴承故障诊断方法
CN112497216A (zh) * 2020-12-01 2021-03-16 南京航空航天大学 一种基于深度学习的工业机器人位姿精度补偿方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109176532A (zh) * 2018-11-09 2019-01-11 中国科学院自动化研究所 一种机械臂路径规划方法、系统及装置
WO2020154542A1 (en) * 2019-01-23 2020-07-30 Google Llc Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
CN111950690A (zh) * 2019-05-15 2020-11-17 天津科技大学 一种具有自适应能力的高效强化学习策略模型
CN110210654A (zh) * 2019-05-20 2019-09-06 南京星火技术有限公司 产品模型设计系统及方法
CN111160562A (zh) * 2019-11-18 2020-05-15 清华大学 基于元学习优化方法的连续学习方法及装置
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN112418013A (zh) * 2020-11-09 2021-02-26 贵州大学 一种小样本下基于元学习的复杂工况轴承故障诊断方法
CN112497216A (zh) * 2020-12-01 2021-03-16 南京航空航天大学 一种基于深度学习的工业机器人位姿精度补偿方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于自然进化策略的多工艺融合结构件加工变形控制方法;刘醒彦等;《航空制造技术》;20200601;第63卷(第11期);第83-87页,第93页 *

Also Published As

Publication number Publication date
CN113156900A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN113156900B (zh) 一种基于元强化学习的加工变形控制方法
CN107767022B (zh) 一种生产数据驱动的动态作业车间调度规则智能选择方法
CN111047085B (zh) 一种基于元学习的混合动力车辆工况预测方法
CN108694502B (zh) 一种基于XGBoost算法的机器人制造单元自适应调度方法
CN103745273B (zh) 一种半导体制造过程的多性能预测方法
CN106022521B (zh) 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法
CN109472057B (zh) 基于跨工步隐式参数记忆的产品加工质量预测装置及方法
CN110163429B (zh) 一种基于相似日优化筛选的短期负荷预测方法
CN111985672B (zh) 一种多Agent深度强化学习的单件作业车间调度方法
CN107451747B (zh) 基于自适应非支配遗传算法的车间调度系统及其工作方法
CN111127246A (zh) 一种输电线路工程造价的智能预测方法
CN111898867B (zh) 一种基于深度神经网络的飞机总装生产线产能预测方法
CN106682773B (zh) 一种基于模拟退火算法的人机焊接工时预测方法
CN114662793A (zh) 基于可解释分层模型的业务流程剩余时间预测方法与系统
CN110851911B (zh) 终端状态计算模型训练方法、控制序列搜索方法及装置
CN106067075B (zh) 一种建筑用能负荷预测模型建立、负荷预测方法及其装置
CN110837959A (zh) 一种基于焊接物量和作业方式衡定焊接派工工时的方法
CN116880191A (zh) 一种基于时序预测的过程工业生产系统的智能控制方法
CN116484675A (zh) 一种舰船发动机叶片的裂纹扩展寿命预测方法及系统
CN116151581A (zh) 一种柔性车间调度方法、系统及电子设备
CN114384931B (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN113743784A (zh) 一种基于深度强化学习的生产时序表智能生成方法
CN114529040A (zh) 一种机电产品装配误差在线预测方法
CN110543724A (zh) 面向总体设计的卫星结构性能预测方法
CN110910969A (zh) 一种基于迁移学习的锡铋合金性能预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant