CN107992939A - 基于深度增强学习的等切削力齿轮加工方法 - Google Patents

基于深度增强学习的等切削力齿轮加工方法 Download PDF

Info

Publication number
CN107992939A
CN107992939A CN201711275524.1A CN201711275524A CN107992939A CN 107992939 A CN107992939 A CN 107992939A CN 201711275524 A CN201711275524 A CN 201711275524A CN 107992939 A CN107992939 A CN 107992939A
Authority
CN
China
Prior art keywords
network
gear
cutting force
input state
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711275524.1A
Other languages
English (en)
Other versions
CN107992939B (zh
Inventor
柯丰恺
周唯倜
赵大兴
朱海峰
丁国龙
孙国栋
许万
吴震宇
赵迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN201711275524.1A priority Critical patent/CN107992939B/zh
Publication of CN107992939A publication Critical patent/CN107992939A/zh
Application granted granted Critical
Publication of CN107992939B publication Critical patent/CN107992939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23FMAKING GEARS OR TOOTHED RACKS
    • B23F5/00Making straight gear teeth involving moving a tool relatively to a workpiece with a rolling-off or an enveloping motion with respect to the gear teeth to be made
    • B23F5/12Making straight gear teeth involving moving a tool relatively to a workpiece with a rolling-off or an enveloping motion with respect to the gear teeth to be made by planing or slotting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于深度增强学习的等切削力齿轮加工方法,包括构建深度增强学习模型、构造输出干扰、构建仿真环境、建立奖励rt计算模型、积累经验池、训练深度增强学习神经网络及利用训练好的深度强化学习模型控制插齿机等切削力的切削齿轮。本发明基于深度增强学习的等切削力齿轮加工方法,通过加入深度增强学习网络,解决插齿机等切削力的自动插齿问题,充分利用了插齿机的功率,大大加快了插齿机的切削效率并同时保证了工件的加工质量与加工过程的平稳性。

Description

基于深度增强学习的等切削力齿轮加工方法
技术领域
本发明属于强化学习算法技术领域,具体涉及一种基于深度增强学习的等切削力齿轮加工方法。
背景技术
大型齿轮被广泛应用于冶金,风力发电设备,船舶传动装置等方面。插齿法作为一种展成式加工方法,形成齿形包络线的切线数量由圆周进给量的大小决定,并可以选择,具有齿形精度高的优点,是加工大型圆柱齿轮的一种重要工艺方法。而大型插齿机作为加工大型圆柱齿轮的母机,由于主轴部件的往复惯量太大,插齿机通过高速化提高加工效率的方法难以实现,充分利用插齿机的负荷能力变得更为关键。理想的插齿机切削齿轮的工艺状态是切削力基本恒定在由工艺系统决定的合理的目标值。这样就可以充分发挥插齿机的加工能力,提高加工效率并同时保证了工件的加工质量与加工过程的平稳性。
发明内容
本发明的目的就是针对上述技术的不足,提供一种基于深度增强学习的等切削力齿轮加工方法,充分利用插齿机的负荷能力,解决大型插齿机加工效率低下和加工质量较低的问题。
为实现上述目的,本发明所设计的基于深度增强学习的等切削力齿轮加工方法包括如下步骤:
步骤1)构建深度增强学习模型
1.1)神经网络初始化:神经网络分为Actor网络和Critic网络两个部分,Actor网络为行为网络、Critic网络为评价网络,每个部分又分别构建两个结构完全相同而参数不同的eval net和target net,eval net为估计网络、target net为目标网络,从而形成μ(s|θμ)网络、μ(s|θμ′)网络、Q(s,a|θQ)网络及Q(s,a|θQ′)网络共四个网络,即μ(s|θμ)网络为行为估计网络、μ(s|θμ′)网络为行为目标网络、Q(s,a|θQ)网络为评价估计网络、Q(s,a|θQ′)网络为评价目标网络;随机初始化μ(s|θμ)网络的参数θμ和随机初始化Q(s,a|θQ)网络的参数θQ,然后将μ(s|θμ)网络的参数θμ值赋予行为目标网络,即θμ′←θμ,将Q(s,a|θQ)网络的参数θQ值赋予评价目标网络,即θQ′←θQ
1.2)经验池初始化:设定经验池为m行、n列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中,m为样本容量大小、n为每个样本储存的信息数量,n=2×state_dim+action_dim+1,state_dim为状态的维度、action_dim为动作的维度;同时,在经验池中预留出用于存储奖励信息的空间,n=2×state_dim+action_dim+1这个公式中的1即为存储奖励信息的预留空间;
步骤2)构造输出干扰
根据当前输入状态st,通过网络得到动作at′,再设定一个均值为at′、方差为var2的随机正态分布从随机正态分布中随机得到一个实际输出动作at,随机正态分布对动作at′施加了干扰,用于探索环境,其中,代表t时刻评价估计网络的参数,t为当前输入状态的时刻;
步骤3)构建仿真环境
步骤4)建立奖励rt计算模型
步骤5)积累经验池
5.1)根据当前输入状态st,通过网络得到动作at′,再根据步骤2)建立的输出干扰得到实际输出动作at,并从环境中得到奖励rt和后续输入状态st+1,将当前输入状态st,实际输出动作at,奖励rt和后续输入状态st+1存储在经验池中,并将当前输入状态st、实际输出动作at、奖励rt、后续输入状态st+1统称为状态转移信息transition;
5.2)将后续输入状态st+1当做现在的当前输入状态st,重复步骤5.1),将计算得到的状态转移信息transition存储在经验池中;
5.3)重复步骤5.2)直至经验池的空间被存储满,经验池的空间被存储满后每执行一次步骤5.2)便跳转执行一次步骤6);
步骤6)训练深度增强学习神经网络
6.1)取样
从经验池中取出batch组样本供神经网络学习,batch代表自然数;
6.2)对评价网络参数进行更新
6.3)对行为估计网络参数进行更新
6.4)对目标网络参数进行更新
步骤7)利用步骤6)训练好的深度强化学习模型控制插齿机等切削力的切削齿轮
通过力学传感器得到当前输入状态st,深度增强学习网络根据当前输入状态st控制插齿机切削齿轮,并从环境中得到后续输入状态st+1。将后续输入状态st+1当做当前输入状态st,如此循环,直至深度增强学习模型控制插齿机将齿轮切削完成。
进一步地,所述步骤3)构建仿真环境的具体过程为:
通过matlab软件,建立切削面积和切削结果均与工件齿轮转角theta1、插齿刀转角theta2和插齿刀径向位移量x之间的关系(即建立切削面积与工件齿轮转角theta1、插齿刀转角theta2和插齿刀径向位移量x之间的关系,建立切削结果与工件齿轮转角theta1、插齿刀转角theta2和插齿刀径向位移量x之间的关系),其中切削面积插齿机切削力F=Am×P,式中z代表工件齿数,m代表工件模数,p代表单位切削力,fc代表插齿刀径向位移量。
进一步地,所述步骤4)建立奖励rt计算模型具体过程为:
根据当前状态St,通过步骤2)输出干扰得到实际输出动作值at,插齿机按照实际输出动作值at的参数运行后,通过步骤3)仿真环境中的工件齿数z、工件模数m、单位切削力p和插齿刀径向位移量x获取t时刻的插齿机切削力Ft,Ft为t时刻的插齿机切削力,规定的等切削力为F,误差允许范围σ,
奖励
进一步地,所述步骤6.2)对评价网络参数进行更新的具体过程为:
根据步骤6.1)中取出的batch组样本状态转移信息transition通过网络和网络分别得到每组状态转移信息对应的估计Q′值eval_Q′和目标Q′值target_Q′,进而得到时间差分错误TD_error′,TD_error′=target_Q′-eval_Q′;t′为步骤5.3)中经验池空间被存储满后执行步骤5.2)的输入状态时刻,也就是说步骤5.3)中经验池空间被存储满后每执行一次步骤5.2)时的输入状态时刻即为t′;
根据时间差分错误TD_error′构造出损失函数Loss,Loss=∑TD_error′/batch;
根据损失函数Loss使用梯度下降法对评价估计网络参数θQ进行更新。
进一步地,所述步骤6.3)对行为估计网络参数进行更新的具体过程为:
每batch组样本状态转移信息transition中的st通过网络和输出干扰得到对应的实际输出动作at,根据网络的估计Q′值eval_Q′对实际输出动作at求导数,得到估计Q′值对实际输出动作at的梯度 代表对实际输出动作at求导数;根据网络的实际输出动作at值对网络参数求导数,得到实际输出动作at值对网络参数的梯度其中代表着对行为估计网络的参数求导数;
估计Q值对实际输出动作at的梯度和实际输出动作at值对行为估计网络参数的梯度的乘积即为估计Q值对行为估计网络参数的梯度;
使用梯度上升法对行为估计网络参数进行更新。
进一步地,所述步骤6.4)对目标网络参数进行更新的具体过程为:
每间隔J回合,actor_eval的网络参数赋值给actor_target,每间隔K回合,critic_eval的网络参数赋值给critic_target,其中,J≠K。
本发明与现有技术相比,具有以下优点:本发明基于深度增强学习的等切削力齿轮加工方法,通过加入深度增强学习网络,解决插齿机等切削力的自动插齿问题,充分利用了插齿机的功率,大大加快了插齿机的切削效率并同时保证了工件的加工质量与加工过程的平稳性。
附图说明
图1是本发明基于深度增强学习的等切削力齿轮加工方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明。
如图1所示为基于深度增强学习的等切削力齿轮加工方法的流程示意图,包括如下步骤:
步骤1)构建深度增强学习模型
1.1)神经网络初始化:神经网络分为Actor网络和Critic网络两个部分,Actor网络为行为网络、Critic网络为评价网络,每个部分又分别构建两个结构完全相同而参数不同的eval net和target net,eval net为估计网络、target net为目标网络,从而形成μ(s|θμ)网络、μ(s|θμ′)网络、Q(s,a|θQ)网络及Q(s,a|θQ′)网络共四个网络,即μ(s|θμ)网络为行为估计网络、μ(s|θμ′)网络为行为目标网络、Q(s,a|θQ)网络为评价估计网络、Q(s,a|θQ′)网络为评价目标网络;随机初始化μ(s|θμ)网络的参数θμ和随机初始化Q(s,a|θQ)网络的参数θQ,然后将μ(s|θμ)网络的参数θμ值赋予行为目标网络,即θμ′←θμ,将Q(s,a|θQ)网络的参数θQ值赋予评价目标网络,即θQ′←θQ
1.2)经验池初始化:设定经验池为m行、n列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中,m为样本容量大小、n为每个样本储存的信息数量,n=2×state_dim+action_dim+1,state_dim为状态的维度、action_dim为动作的维度;同时,在经验池中预留出用于存储奖励信息的空间,n=2×state_dim+action_dim+1这个公式中的1即为存储奖励信息的预留空间;
步骤2)构造输出干扰
根据当前输入状态st,通过网络得到动作at′,再设定一个均值为at′、方差为var2的随机正态分布从随机正态分布中随机得到一个实际输出动作at,随机正态分布对动作at′施加了干扰,用于探索环境,其中,代表t时刻评价估计网络的参数,t为当前输入状态的时刻;
步骤3)构建仿真环境
通过matlab软件,建立切削面积和切削结果均与工件齿轮转角theta1、插齿刀转角theta2和插齿刀径向位移量x之间的关系(即建立切削面积与工件齿轮转角theta1、插齿刀转角theta2和插齿刀径向位移量x之间的关系,建立切削结果与工件齿轮转角theta1、插齿刀转角theta2和插齿刀径向位移量x之间的关系),其中切削面积插齿机切削力F=Am×P,式中z代表工件齿数,m代表工件模数,p代表单位切削力,fc代表插齿刀径向位移量;
步骤4)建立奖励rt计算模型
根据当前状态St,通过步骤2)输出干扰得到实际输出动作值at(即工件齿轮转角theta1,插齿刀转角theta2,和插齿刀径向进给量fC),插齿机按照实际输出动作值at的参数运行后,通过步骤3)仿真环境中的工件齿数z、工件模数m、单位切削力p和插齿刀径向位移量x获取t时刻的插齿机切削力Ft,Ft为t时刻的插齿机切削力,规定的等切削力为F,误差允许范围σ,
奖励
步骤5)积累经验池
5.1)根据当前输入状态st,通过网络得到动作at′,再根据步骤2)建立的输出干扰得到实际输出动作at,并从环境中得到奖励rt和后续输入状态st+1,将当前输入状态st,实际输出动作at,奖励rt和后续输入状态st+1存储在经验池中,并将当前输入状态st、实际输出动作at、奖励rt、后续输入状态st+1统称为状态转移信息transition;
5.2)将后续输入状态st+1当做现在的当前输入状态st,重复步骤5.1),将计算得到的状态转移信息transition存储在经验池中;
5.3)重复步骤5.2)直至经验池的空间被存储满,经验池的空间被存储满后每执行一次步骤5.2)便跳转执行一次步骤6);
步骤6)训练深度增强学习神经网络
6.1)取样
从经验池中取出batch组样本供神经网络学习,batch代表自然数;
6.2)对评价网络参数进行更新
根据步骤6.1)中取出的batch组样本状态转移信息transition通过网络和网络分别得到每组状态转移信息对应的估计Q′值eval_Q′和目标Q′值target_Q′,进而得到时间差分错误TD_error′,TD_error′=target_Q′-eval_Q′;t′为步骤5.3)中经验池空间被存储满后执行步骤5.2)的输入状态时刻,也就是说步骤5.3)中经验池空间被存储满后每执行一次步骤5.2)时的输入状态时刻即为t′;
根据时间差分错误TD_error′构造出损失函数Loss,Loss=∑TD_error′/batch;
根据损失函数Loss使用梯度下降法对评价估计网络参数θQ进行更新;
6.3)对行为估计网络参数进行更新
每batch组样本状态转移信息transition中的st通过网络和输出干扰得到对应的实际输出动作at,根据网络的估计Q′值eval_Q′对实际输出动作at求导数,得到估计Q′值对实际输出动作at的梯度 代表对实际输出动作at求导数;根据网络的实际输出动作at值对网络参数求导数,得到实际输出动作at值对网络参数的梯度其中代表着对行为估计网络的参数求导数;
估计Q值对实际输出动作at的梯度和实际输出动作at值对行为估计网络参数的梯度的乘积即为估计Q值对行为估计网络参数的梯度;
使用梯度上升法对行为估计网络参数进行更新;
6.4)对目标网络参数进行更新
每间隔J回合,actor_eval的网络参数赋值给actor_target,每间隔K回合,critic_eval的网络参数赋值给critic_target,其中,J≠K;
6.5)分为xm回合,每个回合重复步骤6.1)~6.4)xn次,每次重复6.1)~6.4)后,输出干扰的var值更新为var=max{0.1,var=var×gamma},其中xm、xn代表自然数,gamma为大于零小于1的有理数;
步骤7)利用步骤6)训练好的深度强化学习模型控制插齿机等切削力的切削齿轮
通过力学传感器得到当前输入状态st,深度增强学习网络根据当前输入状态st控制插齿机切削齿轮,并从环境中得到后续输入状态st+1。将后续输入状态st+1当做当前输入状态st,如此循环,直至深度增强学习模型控制插齿机将齿轮切削完成。
本发明基于深度增强学习的等切削力齿轮加工方法,通过加入深度增强学习网络,解决插齿机等切削力的自动插齿问题,充分利用了插齿机的功率,大大加快了插齿机的切削效率并同时保证了工件的加工质量与加工过程的平稳性。

Claims (6)

1.一种基于深度增强学习的等切削力齿轮加工方法,其特征在于:包括如下步骤:
步骤1)构建深度增强学习模型
1.1)神经网络初始化:神经网络分为Actor网络和Critic网络两个部分,Actor网络为行为网络、Critic网络为评价网络,每个部分又分别构建两个结构完全相同而参数不同的eval net和target net,eval net为估计网络、target net为目标网络,从而形成μ(s|θμ)网络、μ(s|θμ′)网络、Q(s,a|θQ)网络及Q(s,a|θQ′)网络共四个网络,即μ(s|θμ)网络为行为估计网络、μ(s|θμ′)网络为行为目标网络、Q(s,a|θQ)网络为评价估计网络、Q(s,a|θQ′)网络为评价目标网络;随机初始化μ(s|θμ)网络的参数θμ和随机初始化Q(s,a|θQ)网络的参数θQ,然后将μ(s|θμ)网络的参数θμ值赋予行为目标网络,即θμ′←θμ,将Q(s,a|θQ)网络的参数θQ值赋予评价目标网络,即θQ′←θQ
1.2)经验池初始化:设定经验池为m行、n列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中,m为样本容量大小、n为每个样本储存的信息数量,n=2×state_dim+action_dim+1,state_dim为状态的维度、action_dim为动作的维度;同时,在经验池中预留出用于存储奖励信息的空间,n=2×state_dim+action_dim+1这个公式中的1即为存储奖励信息的预留空间;
步骤2)构造输出干扰
根据当前输入状态st,通过网络得到动作at′,再设定一个均值为at′、方差为var2的随机正态分布从随机正态分布中随机得到一个实际输出动作at,随机正态分布对动作at′施加了干扰,用于探索环境,其中,代表t时刻评价估计网络的参数,t为当前输入状态的时刻;
步骤3)构建仿真环境
步骤4)建立奖励rt计算模型
步骤5)积累经验池
5.1)根据当前输入状态st,通过网络得到动作at′,再根据步骤2)建立的输出干扰得到实际输出动作at,并从环境中得到奖励rt和后续输入状态st+1,将当前输入状态st,实际输出动作at,奖励rt和后续输入状态st+1存储在经验池中,并将当前输入状态st、实际输出动作at、奖励rt、后续输入状态st+1统称为状态转移信息transition;
5.2)将后续输入状态st+1当做现在的当前输入状态st,重复步骤5.1),将计算得到的状态转移信息transition存储在经验池中;
5.3)重复步骤5.2)直至经验池的空间被存储满,经验池的空间被存储满后每执行一次步骤5.2)便跳转执行一次步骤6);
步骤6)训练深度增强学习神经网络
6.1)取样
从经验池中取出batch组样本供神经网络学习,batch代表自然数;
6.2)对评价网络参数进行更新
6.3)对行为估计网络参数进行更新
6.4)对目标网络参数进行更新
步骤7)利用步骤6)训练好的深度强化学习模型控制插齿机等切削力的切削齿轮
通过力学传感器得到当前输入状态st,深度增强学习网络根据当前输入状态st控制插齿机切削齿轮,并从环境中得到后续输入状态st+1。将后续输入状态st+1当做当前输入状态st,如此循环,直至深度增强学习模型控制插齿机将齿轮切削完成。
2.根据权利要求1所述基于深度增强学习的等切削力齿轮加工方法,其特征在于:所述步骤3)构建仿真环境的具体过程为:
通过matlab软件,建立切削面积和切削结果均与工件齿轮转角theta1、插齿刀转角theta2和插齿刀径向位移量x之间的关系(即建立切削面积与工件齿轮转角theta1、插齿刀转角theta2和插齿刀径向位移量x之间的关系,建立切削结果与工件齿轮转角theta1、插齿刀转角theta2和插齿刀径向位移量x之间的关系),其中切削面积插齿机切削力F=Am×P,式中z代表工件齿数,m代表工件模数,p代表单位切削力,fc代表插齿刀径向位移量。
3.根据权利要求1所述基于深度增强学习的等切削力齿轮加工方法,其特征在于:所述步骤4)建立奖励rt计算模型具体过程为:
根据当前状态St,通过步骤2)输出干扰得到实际输出动作值at,插齿机按照实际输出动作值at的参数运行后,通过步骤3)仿真环境中的工件齿数z、工件模数m、单位切削力p和插齿刀径向位移量x获取t时刻的插齿机切削力Ft,Ft为t时刻的插齿机切削力,规定的等切削力为F,误差允许范围σ,
奖励
4.根据权利要求1所述基于深度增强学习的等切削力齿轮加工方法,其特征在于:所述步骤6.2)对评价网络参数进行更新的具体过程为:
根据步骤6.1)中取出的batch组样本状态转移信息transition通过网络和网络分别得到每组状态转移信息对应的估计Q′值eval_Q′和目标Q′值target_Q′,进而得到时间差分错误TD_error′,TD_error′=target_Q′-eval_Q′;t′为步骤5.3)中经验池空间被存储满后执行步骤5.2)的输入状态时刻,也就是说步骤5.3)中经验池空间被存储满后每执行一次步骤5.2)时的输入状态时刻即为t′;
根据时间差分错误TD_error′构造出损失函数Loss,Loss=∑TD_error′/batch;
根据损失函数Loss使用梯度下降法对评价估计网络参数θQ进行更新。
5.根据权利要求1所述基于深度增强学习的等切削力齿轮加工方法,其特征在于:所述步骤6.3)对行为估计网络参数进行更新的具体过程为:
每batch组样本状态转移信息transition中的st通过网络和输出干扰得到对应的实际输出动作at,根据网络的估计Q′值eval_Q′对实际输出动作at求导数,得到估计Q′值对实际输出动作at的梯度 代表对实际输出动作at求导数;根据网络的实际输出动作at值对网络参数求导数,得到实际输出动作at值对网络参数的梯度其中代表着对行为估计网络的参数求导数;
估计Q值对实际输出动作at的梯度和实际输出动作at值对行为估计网络参数的梯度的乘积即为估计Q值对行为估计网络参数的梯度;
使用梯度上升法对行为估计网络参数进行更新。
6.根据权利要求1所述基于深度增强学习的等切削力齿轮加工方法,其特征在于:所述步骤6.4)对目标网络参数进行更新的具体过程为:
每间隔J回合,actor_eval的网络参数赋值给actor_target,每间隔K回合,critic_eval的网络参数赋值给critic_target,其中,J≠K。
CN201711275524.1A 2017-12-06 2017-12-06 基于深度增强学习的等切削力齿轮加工方法 Active CN107992939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711275524.1A CN107992939B (zh) 2017-12-06 2017-12-06 基于深度增强学习的等切削力齿轮加工方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711275524.1A CN107992939B (zh) 2017-12-06 2017-12-06 基于深度增强学习的等切削力齿轮加工方法

Publications (2)

Publication Number Publication Date
CN107992939A true CN107992939A (zh) 2018-05-04
CN107992939B CN107992939B (zh) 2021-11-12

Family

ID=62036422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711275524.1A Active CN107992939B (zh) 2017-12-06 2017-12-06 基于深度增强学习的等切削力齿轮加工方法

Country Status (1)

Country Link
CN (1) CN107992939B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108356364A (zh) * 2018-05-14 2018-08-03 宝鸡市新福泉机械科技发展有限责任公司 一种人字齿轮加工装置及其车削和铣削方法
CN108681631A (zh) * 2018-05-08 2018-10-19 武汉理工大学 圆柱齿轮插齿加工切削力预测的方法
CN111461325A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN111487863A (zh) * 2020-04-14 2020-08-04 东南大学 一种基于深度q神经网络的主动悬架强化学习控制方法
CN112180833A (zh) * 2020-09-07 2021-01-05 清华大学 数控机床及其自适应加工的控制方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101808244A (zh) * 2010-03-24 2010-08-18 北京邮电大学 一种视频传输控制方法及系统
CN102413378A (zh) * 2011-11-02 2012-04-11 杭州电子科技大学 一种基于自适应神经网络的视频传输丢包恢复方法
CN105930625A (zh) * 2016-06-13 2016-09-07 天津工业大学 Q学习结合神经网络的智能驾驶行为决策系统的设计方法
WO2017083504A1 (en) * 2015-11-12 2017-05-18 Semantic Machines, Inc. Interaction assistant
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107092254A (zh) * 2017-04-27 2017-08-25 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法
CN107147342A (zh) * 2017-05-31 2017-09-08 合肥申芯电子技术有限责任公司 一种感应电机参数辨识系统及方法
CN107423813A (zh) * 2017-07-31 2017-12-01 南京晓庄学院 一种基于深度学习技术的状态空间分解和子目标创建方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101808244A (zh) * 2010-03-24 2010-08-18 北京邮电大学 一种视频传输控制方法及系统
CN102413378A (zh) * 2011-11-02 2012-04-11 杭州电子科技大学 一种基于自适应神经网络的视频传输丢包恢复方法
WO2017083504A1 (en) * 2015-11-12 2017-05-18 Semantic Machines, Inc. Interaction assistant
CN105930625A (zh) * 2016-06-13 2016-09-07 天津工业大学 Q学习结合神经网络的智能驾驶行为决策系统的设计方法
CN107092254A (zh) * 2017-04-27 2017-08-25 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107147342A (zh) * 2017-05-31 2017-09-08 合肥申芯电子技术有限责任公司 一种感应电机参数辨识系统及方法
CN107423813A (zh) * 2017-07-31 2017-12-01 南京晓庄学院 一种基于深度学习技术的状态空间分解和子目标创建方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681631A (zh) * 2018-05-08 2018-10-19 武汉理工大学 圆柱齿轮插齿加工切削力预测的方法
CN108681631B (zh) * 2018-05-08 2020-05-05 武汉理工大学 圆柱齿轮插齿加工切削力预测的方法
CN108356364A (zh) * 2018-05-14 2018-08-03 宝鸡市新福泉机械科技发展有限责任公司 一种人字齿轮加工装置及其车削和铣削方法
CN108356364B (zh) * 2018-05-14 2019-05-24 宝鸡市新福泉机械科技发展有限责任公司 一种人字齿轮加工装置及其车削和铣削方法
CN111461325A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN111461325B (zh) * 2020-03-30 2023-06-20 华南理工大学 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN111487863A (zh) * 2020-04-14 2020-08-04 东南大学 一种基于深度q神经网络的主动悬架强化学习控制方法
CN111487863B (zh) * 2020-04-14 2022-06-17 东南大学 一种基于深度q神经网络的主动悬架强化学习控制方法
CN112180833A (zh) * 2020-09-07 2021-01-05 清华大学 数控机床及其自适应加工的控制方法和装置
CN112180833B (zh) * 2020-09-07 2021-09-07 清华大学 数控机床及其自适应加工的控制方法和装置

Also Published As

Publication number Publication date
CN107992939B (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN107992939A (zh) 基于深度增强学习的等切削力齿轮加工方法
CN108052004A (zh) 基于深度增强学习的工业机械臂自动控制方法
CN108038545A (zh) 基于Actor-Critic神经网络连续控制的快速学习算法
CN106557069B (zh) 机械学习装置和方法以及具有该机械学习装置的机床
Cazenave Nested monte-carlo search
CN113688977B (zh) 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
Teytaud et al. Creating an upper-confidence-tree program for Havannah
CN107451654A (zh) 卷积神经网络的加速运算方法、服务器及存储介质
CN106485324A (zh) 一种卷积神经网络优化方法
CN107463533A (zh) 一种基于pca与cnn的三维cad实体模型制造特征识别方法
CN107886164A (zh) 一种卷积神经网络训练、测试方法及训练、测试装置
CN110427593A (zh) 基于工业大数据的smt印刷参数优化方法
CN106022392A (zh) 一种深度神经网络样本自动取舍的训练方法
CN107563509A (zh) 一种基于特征返回的条件dcgan模型的动态调整算法
CN110414138B (zh) 伺服电机的型号确定方法及装置、机器设备
CN106373160A (zh) 一种基于深度强化学习的摄像机主动目标定位方法
CN108776944A (zh) 一种用于网络竞赛式学习的数据处理系统和方法
Holdaway et al. Risk-taking in adversarial games: What can 1 billion online chess games tell us?
CN107992944A (zh) 一种基于原始生成对抗网络模型的多尺度卷积方法
CN106446546B (zh) 基于卷积自动编解码算法的气象数据填补方法
CN108334977B (zh) 基于深度学习的水质预测方法及系统
JPWO2022254626A5 (zh)
US20220379224A1 (en) Chess self-learning method and device based on machine learning
US20140018167A1 (en) User manipulation of voronoi diagram game mechanics
CN107203916A (zh) 一种用户信用模型建立方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant