CN111857054B - 一种基于神经网络的数控系统运动轨迹控制方法 - Google Patents

一种基于神经网络的数控系统运动轨迹控制方法 Download PDF

Info

Publication number
CN111857054B
CN111857054B CN202010680809.9A CN202010680809A CN111857054B CN 111857054 B CN111857054 B CN 111857054B CN 202010680809 A CN202010680809 A CN 202010680809A CN 111857054 B CN111857054 B CN 111857054B
Authority
CN
China
Prior art keywords
tool
decision
motion track
decision model
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010680809.9A
Other languages
English (en)
Other versions
CN111857054A (zh
Inventor
李炳燃
方俊
肖建新
叶佩青
张辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010680809.9A priority Critical patent/CN111857054B/zh
Publication of CN111857054A publication Critical patent/CN111857054A/zh
Application granted granted Critical
Publication of CN111857054B publication Critical patent/CN111857054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/408Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by data handling or data format, e.g. reading, buffering or conversion of data
    • G05B19/4086Coordinate conversions; Other special calculations
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/35Nc in input of data, input till input file format
    • G05B2219/35356Data handling

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Numerical Control (AREA)

Abstract

本发明提出的一种基于神经网络的数控系统运动轨迹控制方法,首先构建神经网络作为决策模型,包括一个输入层、若干隐藏层和一个输出层,输入层输入当前时刻刀具轨迹的状态向量,该状态向量是根据被控机床传感器反馈的加工状态与刀具运动轨迹指令经过特征转换得到,输出层输出当前时刻的决策动作,将当前时刻决策动作经过特征转化,得到下一时刻的刀具位置并以此作为伺服指令;随后利用强化学习算法并结合奖惩策略训练决策模型;最后利用训练完毕的决策模型完成机床的刀具运动轨迹控制。本发明方法能够实时响应刀具运动轨迹的变化,支持加工参数的在线修改,提高了数控系统运动轨迹控制的适应性、加工精度和加工效率。

Description

一种基于神经网络的数控系统运动轨迹控制方法
技术领域
本发明属于数控加工轨迹规划技术领域,特别涉及一种基于神经网络的数控系统运动轨迹控制方法。
背景技术
数控系统是数控机床的核心控制装置,数控加工过程中的运动轨迹控制由数控系统完成。NC文件是描述数控机床加工过程中刀具运动轨迹的文件,通常使用G代码(ISO6983)格式对刀具运动轨迹进行描述。数控系统根据输入的NC文件,通过编译(译码)模块实现对NC文件的解析,并得到刀具的运动轨迹。
数控系统的刀具运动轨迹控制方法为:根据刀具的运动轨迹,通过轨迹规划算法、速度规划算法和插补算法实现数控系统的运动轨迹控制,参见图1。数控系统中的轨迹规划算法主要完成对运动轨迹的光顺处理,常用方法有局部光顺和全局光顺;速度规划算法主要完成对刀具运动轨迹的加减速控制,常用方法有梯形加减速和S型加减速等;插补算法主要完成对每段的刀具运动轨迹进行数据密化,常用方法有直线插补和圆弧插补等。数控系统插补算法产生的插补数据是机床各进给轴的位置指令,该指令由数控系统发送到机床的伺服进给系统,伺服进给系统执行位置指令,完成机床的运动轨迹控制。
数控系统的运动轨迹控制方法流程复杂,为保证轨迹规划算法、速度规划算法和插补算法的数据读取需求,算法间需建立数据缓冲区,参见图1。由于缓冲区的存在,导致数控系统对刀具运动轨迹的响应差,数控系统在加工过程中不支持刀具运动轨迹的在线修改,同样也不支持轨迹规划算法、速度规划算法和插补算法参数的在线修改。
智能制造环境下要求数控系统在加工过程中实时感知外部传感器反馈的加工状态,根据传感器反馈的加工状态,通过对刀具运动轨迹和控制算法参数的在线修改,实现对加工过程的优化。现有数控系统运动轨迹控制方法无法满足智能制造的需求。
发明内容
本发明的目的是为了克服已有技术的不足之处,提供一种基于神经网络的数控系统运动轨迹控制方法。本发明使用神经网络实现数控系统的运动轨迹控制,神经网络根据传感器反馈的加工状态,结合刀具运动轨迹指令,直接输出各进给轴的位置指令,进而实现依据当前加工状态的数控系统运动轨迹控制。本发明使用神经网络的数控系统运动轨迹控制方法具有对加工过程中加工状态反应速度快的优点。
为实现上述目的,本发明采用以下技术方案:
本发明提出的一种基于神经网络的数控系统运动轨迹控制方法,其特征在于,包括以下步骤:
1)构建神经网络作为决策模型
由依次连接的一个输入层、若干隐藏层和一个输出层构建神经网络;其中,
神经网络的输入即所述输入层的输入为t时刻刀具轨迹的状态向量st,该状态向量st是根据被控机床传感器反馈的加工状态与刀具运动轨迹指令经过特征转换得到的,其表达式如下:
st={κ1,t,…,κj,t,…,κn,t},j=1,…,n
式中,k1,t,…,κj,t,…,κn,t表示t时刻刀具运动轨迹位置上先后选取的第1~n个离散点的曲率向量,n可取任意正整数;
状态向量st按照以下步骤确定:
根据刀具运动轨迹的曲率特征,以t时刻的刀具位置pt为参考点,构建向后距离κback和向前距离κahead的状态特征区,通过线性插值的方式获取状态特征区内n个离散点的位置,求出各离散点的曲率向量;向后距离κback和向前距离κahead按照以下公式计算:
Figure GDA0003185971140000021
kback=0.7kahead
式中,vt表示t时刻刀具的运动速度,amax表示被控机床所设定的刀具最大加速度;
t时刻刀具运动轨迹位置上第j个离散点的曲率向量kj,t按照以下公式计算得到:
Figure GDA0003185971140000022
Figure GDA0003185971140000023
式中,pB为t时刻刀具运动轨迹位置上的第j个离散点的空间坐标;pA和pC分别为在第j个离散点的前后侧通过线性插值的方式得到与该第j个离散点均相差距离Δd的两个离散点的空间坐标;G为求解曲率向量κj,t的中间变量,‖·‖表示取模运算;
所述输出层包含2个输出节点,分别输出刀具运动轨迹与YZ平面的夹角αt和刀具运动轨迹与XY平面的夹角γt,作为决策动作at,其表达式为:
at=τ1·{θt}=τ1·{αtt}
式中,θt是t时刻刀具运动轨迹的空间方向角;αt表示刀具运动轨迹与YZ平面的夹角,γt表示刀具运动轨迹与XY平面的夹角;τ1是决策模型输出的决策动作at与刀具运动轨迹的空间方向角θt的反归一化系数;
将决策动作at经过特征转化,得到t+1时刻的刀具位置pt+1并以此作为伺服指令,计算公式如下:
Figure GDA0003185971140000031
ut=sin(αt)·sin(γt)
vt=sin(αt)·cos(γt)
wt=cos(αt)
式中,ut,vt,wt分别表示t时刻刀具运动轨迹的空间方向角θt在X,Y,Z轴方向的空间向量分量,lt为刀具的进给步长;
2)利用强化学习算法并结合奖惩策略训练决策模型
2.1)设定用于评价决策模型效果的奖惩,表达式如下:
Figure GDA0003185971140000032
其中,
Figure GDA0003185971140000033
Figure GDA0003185971140000034
分别表示t时刻刀具运动轨迹的空间方向角的一阶导数和二阶导数,εt
Figure GDA0003185971140000035
分别表示t时刻下的刀具位置相对于原始刀具运动轨迹的轮廓误差和轮廓误差的一阶导数,λ1~λ4分别是各参数的权因子系数;
2.2)利用强化学习算法并根据上述设定的奖惩对构建的决策模型进行训练,当得到的奖惩逐渐趋于平稳,且训练过程也趋近于收敛时,则认为决策模型已训练完毕,执行步骤3);否则返回步骤1),对状态向量st的离散点个数n、距离Δd、反归一化系数τ1和权因子系数λ1~λ4进行调整,重新对决策神经网络进行训练,直至奖惩逐渐趋于平稳,且训练过程也趋近于收敛时,则认为决策模型已训练完毕,执行步骤3);
3)利用训练完毕的决策模型完成机床的刀具运动轨迹控制
获取当前加工零件的刀具运动轨迹指令和被控机床的加工状态,得到输入决策模型的状态向量st;将该状态向量st输入到训练完毕的决策模型中,得到决策动作at,决策模型对决策动作at经过特征转换得到伺服指令输出给被控机床,从而实现对被控机床的运动轨迹控制,被控机床的当前时刻运动状态将作为下一时刻决策模型的输入。
本发明通过以上方案达到的有益效果为:
1、本发明采用强化学习来训练决策神经网络,可以在不依赖于标准数据的情况下完成模型的自主训练,从而实现自主优化。本发明的神经网络,在经过约30次训练后首次完成轨迹段的准确控制。通过在三轴加工机床上的试验验证,表明了本发明的方法在满足轮廓误差约束前提下能够实现高效平滑加工。与全局光顺算法相比,本发明更有效的对复杂刀具轨迹中的轮廓误差进行约束;与局部光顺算法相比,本发明能够获得更高的加工效率和更好的表面加工质量。
2、由于本发明中利用神经网络完成机床的运动轨迹控制,运算过程全部在实时状态下完成,模块间无需数据缓冲区。因此,本发明的方法能够实时响应刀具运动轨迹的变化,数控系统在加工过程中能够支持刀具运动轨迹的在线修改,同样也能够支持加工参数的在线修改,满足了智能制造环境下数控系统根据传感器反馈的加工状态实现对加工过程的优化需求。
3、本发明使用神经网络,通过训练的方法学习并得到数控系统运动轨迹控制中各特征间的关系,进而实现了数控系统的智能运动轨迹控制。使用机器学习得到的神经网络模型,能够根据传感器反馈的加工状态和加工零件的刀具运动轨迹指令提高数控系统运动轨迹控制的适应性,从而提高了数控加工的精度和加工效率。
附图说明
图1是现有数控系统的运动轨迹控制流程框图。
图2是本发明的一种基于神经网络的数控系统运动轨迹控制方法的流程框图。
图3本发明实施例中构建的神经网络的结构示意图。
图4本发明实施例中对神经网络的训练过程示意图。
图5是本发明实施例中使用DDPG算法对神经网络训练的结果图。
图6是神经网络用于机床运动轨迹控制方法流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为了更好地理解本发明,以下详细阐述本发明提出的一种基于神经网络的数控系统运动轨迹控制方法的应用实例。
参见图2,本发明实施例的一种基于神经网络的数控系统运动轨迹控制方法包括以下步骤:
1)构建神经网络作为决策模型
由依次连接的一个输入层、若干隐藏层和一个输出层构建神经网络;本实施例中,构建的神经网络的结构参见图3,含有两个隐藏层。其中,
神经网络的输入即输入层的输入为t时刻刀具轨迹的状态向量st,该状态向量st是根据被控机床传感器反馈的加工状态与刀具运动轨迹指令经过特征转换得到的,其表达式如下:
st={κ1,t,…,κj,t,…,κn,t},j=1,…,n
式中,κ1,t,…,κj,t,…,κn,t表示t时刻刀具运动轨迹位置上先后选取的第1~n个离散点的曲率向量,n可取任意正整数,本发明实施例中n为11。具体地,本实施例中状态向量st是通过以下方法确定:
根据刀具运动轨迹的曲率特征,以当前时刻的刀具位置pt为参考点,构建向后距离κback和向前距离κahead的状态特征区,通过线性插值的方式获取状态特征区内n个离散点的位置,然后求出各离散点的曲率向量。离散点的个数即为状态向量st内含有曲率向量的个数n,向后距离κback和向前距离kahead的选取可根据实际情况进行调整,一般按照下式确定:
Figure GDA0003185971140000051
κback=0.7κahead
式中,vt表示t时刻刀具的运动速度,amax表示被控机床所设定的刀具最大加速度。
t时刻刀具运动轨迹位置上第j个离散点的曲率向量kj,t按照以下公式计算得到:
Figure GDA0003185971140000052
Figure GDA0003185971140000053
式中,pB为t时刻刀具运动轨迹位置上的第j个离散点的空间坐标;pA和pC分别为在第j个离散点的前后侧通过线性插值的方式得到与该第j个离散点均相差距离Δd的两个离散点的空间坐标;设t时刻刀具运动轨迹位置上的第j个离散点的空间坐标为pB,在该离散点左右通过线性插值的方式得到相差距离Δd的两个坐标点pA和pC,Δd根据实际情况选取,为已知值;G为求解曲率向量κj,t的中间变量,‖·‖表示取模运算,·表示点乘运算,×表示叉乘运算。
本实施例中含有两个隐藏层,隐藏层的大小分别为16和8。为了使不同种类的特征值更好的融合,隐藏层中不同网络节点选用的激活函数也不相同,包括Sigmoid和tanH函数。
决策模型具有一个输出层,包含2个输出节点,分别输出刀具运动轨迹与YZ平面的夹角αt和刀具运动轨迹与XY平面的夹角γt,作为决策动作at,其表达式为:
at=τ1·{θt}=τ1·{αtt}
式中,θt是t时刻刀具运动轨迹的空间方向角,可以用{αtt}表示。αt表示刀具运动轨迹与YZ平面的夹角,γt表示刀具运动轨迹与XY平面的夹角。τ1是决策模型输出的决策动作at与刀具运动轨迹的空间方向角θt的反归一化系数。
将决策动作at经过特征转化,得到t+1时刻的刀具位置pt+1并以此作为伺服指令,计算公式如下:
Figure GDA0003185971140000061
ut=sin(αt)·sin(γt)
vt=sin(αt)·cos(γt)
wt=cos(αt)
式中,ut,vt,wt分别表示t时刻刀具运动轨迹的空间方向角θt在X,Y,Z轴方向的空间向量分量,lt为刀具的进给步长。通过得到的伺服指令pt+1控制被控机床运动。
2)利用强化学习算法训练决策模型
2.1)设定用于评价决策模型效果的奖惩
参见图4,强化学习的基本框架由智能体和环境构成,两者在交互过程中完成自主学习。其中智能体对应决策模型,环境对应被控机床。被控机床将感知的当前状态向量st输入给决策模型,决策模型根据该当前状态st输出动作at,并驱动被控机床更新刀具位置。同时,根据当前被控机床执行动作的好坏得到奖惩rt,该奖惩rt作为决策模型的评价训练指标,引导决策模型学习的方向,表达式如下:
Figure GDA0003185971140000062
其中,
Figure GDA0003185971140000063
Figure GDA0003185971140000064
分别表示t时刻刀具运动轨迹的空间方向角的一阶导数和二阶导数,εt
Figure GDA0003185971140000065
分别表示t时刻下的刀具位置相对于原始刀具运动轨迹的轮廓误差和轮廓误差的一阶导数,λ1~λ4分别是各参数的权因子系数。若对刀具运动轨迹精度要求较高,则将权因子系数λ3和λ4调大。若对刀具运动轨迹平滑性要求较高,则将权因子系数λ1和λ2调大。
2.2)利用强化学习算法并根据上述设定的奖惩对构建的决策模型进行训练,当得到的奖惩逐渐趋于平稳,且训练过程也趋近于收敛时,则认为决策模型已训练完毕,执行步骤3)。当训练过程收敛较慢或者得到的奖惩无法趋于平稳,则返回步骤1),对状态向量st的离散点个数n、距离Δd、反归一化系数τ1和权因子系数λ1~λ4进行调整,重新对决策神经网络进行训练,直至奖惩逐渐趋于平稳,且训练过程也趋近于收敛时,则认为决策模型已训练完毕,执行步骤3)。
本发明实施例中使用强化学习中的DDPG算法对步骤1)构建的决策模型进行训练。经过约30次训练,决策模型首次完成刀具运动轨迹的准确控制,在之后的训练过程中,奖惩值逐渐趋于平稳,训练过程也趋近于收敛;训练次数达到约100次以后,训练算法完全收敛,最佳平均奖惩值为1.26,参见图5。
3)利用训练完毕的决策模型完成机床的刀具运动轨迹控制
参见图6,获取当前加工零件的刀具运动轨迹指令和被控机床的加工状态,得到输入决策模型的状态向量st;将该状态向量st输入到训练完毕的决策模型中,得到决策动作at,决策模型对决策动作at经过特征转换得到伺服指令输出给被控机床,从而实现对被控机床的运动轨迹控制,此外,被控机床的当前时刻运动状态将作为下一时刻决策模型的输入。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (1)

1.一种基于神经网络的数控系统运动轨迹控制方法,其特征在于,包括以下步骤:
1)构建神经网络作为决策模型
由依次连接的一个输入层、若干隐藏层和一个输出层构建神经网络;其中,
神经网络的输入即所述输入层的输入为t时刻刀具轨迹的状态向量st,该状态向量st是根据被控机床传感器反馈的加工状态与刀具运动轨迹指令经过特征转换得到的,其表达式如下:
st={κ1,t,...,κj,t,...,κn,t},j=1,…,n
式中,κ1,t,...,κj,t,...,κn,t表示t时刻刀具运动轨迹位置上先后选取的第1~n个离散点的曲率向量,n可取任意正整数;
状态向量st按照以下步骤确定:
根据刀具运动轨迹的曲率特征,以t时刻的刀具位置pt为参考点,构建向后距离κback和向前距离κahead的状态特征区,通过线性插值的方式获取状态特征区内n个离散点的位置,求出各离散点的曲率向量;向后距离κback和向前距离κahead按照以下公式计算:
Figure FDA0003185971130000011
κback=0.7κahead
式中,vt表示t时刻刀具的运动速度,amax表示被控机床所设定的刀具最大加速度;
t时刻刀具运动轨迹位置上第j个离散点的曲率向量κj,t按照以下公式计算得到:
Figure FDA0003185971130000012
Figure FDA0003185971130000013
式中,pB为t时刻刀具运动轨迹位置上的第j个离散点的空间坐标;pA和pC分别为在第j个离散点的前后侧通过线性插值的方式得到与该第j个离散点均相差距离Δd的两个离散点的空间坐标;G为求解曲率向量κj,t的中间变量,||·||表示取模运算;
所述输出层包含2个输出节点,分别输出刀具运动轨迹与YZ平面的夹角αt和刀具运动轨迹与XY平面的夹角γt,作为决策动作at,其表达式为:
at=τ1·{θt}=τ1·{αt,γt}
式中,θt是t时刻刀具运动轨迹的空间方向角;αt表示刀具运动轨迹与YZ平面的夹角,γt表示刀具运动轨迹与XY平面的夹角;τ1是决策模型输出的决策动作at与刀具运动轨迹的空间方向角θt的反归一化系数;
将决策动作at经过特征转化,得到t+1时刻的刀具位置pt+1并以此作为伺服指令,计算公式如下:
Figure FDA0003185971130000021
ut=sin(αt)·sin(γt)
vt=sin(αt)·cos(γt)
wt=cos(αt)
式中,ut,vt,wt分别表示t时刻刀具运动轨迹的空间方向角θt在X,Y,Z轴方向的空间向量分量,lt为刀具的进给步长;
2)利用强化学习算法并结合奖惩策略训练决策模型
2.1)设定用于评价决策模型效果的奖惩,表达式如下:
Figure FDA0003185971130000022
其中,
Figure FDA0003185971130000023
Figure FDA0003185971130000024
分别表示t时刻刀具运动轨迹的空间方向角的一阶导数和二阶导数,εt
Figure FDA0003185971130000025
分别表示t时刻下的刀具位置相对于原始刀具运动轨迹的轮廓误差和轮廓误差的一阶导数,λ1~λ4分别是各参数的权因子系数;
2.2)利用强化学习算法并根据上述设定的奖惩对构建的决策模型进行训练,当得到的奖惩逐渐趋于平稳,且训练过程也趋近于收敛时,则认为决策模型已训练完毕,执行步骤3);否则返回步骤1),对状态向量st的离散点个数n、距离Δd、反归一化系数τ1和权因子系数λ1~λ4进行调整,重新对决策神经网络进行训练,直至奖惩逐渐趋于平稳,且训练过程也趋近于收敛时,则认为决策模型已训练完毕,执行步骤3);
3)利用训练完毕的决策模型完成机床的刀具运动轨迹控制
获取当前加工零件的刀具运动轨迹指令和被控机床的加工状态,得到输入决策模型的状态向量st;将该状态向量st输入到训练完毕的决策模型中,得到决策动作at,决策模型对决策动作at经过特征转换得到伺服指令输出给被控机床,从而实现对被控机床的运动轨迹控制,被控机床的当前时刻运动状态将作为下一时刻决策模型的输入。
CN202010680809.9A 2020-07-15 2020-07-15 一种基于神经网络的数控系统运动轨迹控制方法 Active CN111857054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010680809.9A CN111857054B (zh) 2020-07-15 2020-07-15 一种基于神经网络的数控系统运动轨迹控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010680809.9A CN111857054B (zh) 2020-07-15 2020-07-15 一种基于神经网络的数控系统运动轨迹控制方法

Publications (2)

Publication Number Publication Date
CN111857054A CN111857054A (zh) 2020-10-30
CN111857054B true CN111857054B (zh) 2021-10-08

Family

ID=72984559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010680809.9A Active CN111857054B (zh) 2020-07-15 2020-07-15 一种基于神经网络的数控系统运动轨迹控制方法

Country Status (1)

Country Link
CN (1) CN111857054B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115481356A (zh) * 2022-09-21 2022-12-16 中建材创新科技研究院有限公司 一种纸面石膏板高精度切断用切断长度调控方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
KR20190001371A (ko) * 2017-06-27 2019-01-04 현대위아 주식회사 Nc 데이터를 이용한 가공 공정 판별 시스템 및 그 방법
CN109491320A (zh) * 2018-10-31 2019-03-19 华中科技大学 一种基于强化学习的刀具路径生成与优化方法
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110244658A (zh) * 2019-06-04 2019-09-17 浙江工业大学 一种基于改进bp神经网络提高裁床插补位置精度的方法
CN110443412A (zh) * 2019-07-18 2019-11-12 华中科技大学 动态优化加工过程中物流调度及路径规划的强化学习方法
CN110488759A (zh) * 2019-08-09 2019-11-22 西安交通大学 一种基于Actor-Critic算法的数控机床进给控制补偿方法
CN110716562A (zh) * 2019-09-25 2020-01-21 南京航空航天大学 基于强化学习的无人驾驶汽车多车道行驶的决策方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
KR20190001371A (ko) * 2017-06-27 2019-01-04 현대위아 주식회사 Nc 데이터를 이용한 가공 공정 판별 시스템 및 그 방법
CN109491320A (zh) * 2018-10-31 2019-03-19 华中科技大学 一种基于强化学习的刀具路径生成与优化方法
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110244658A (zh) * 2019-06-04 2019-09-17 浙江工业大学 一种基于改进bp神经网络提高裁床插补位置精度的方法
CN110443412A (zh) * 2019-07-18 2019-11-12 华中科技大学 动态优化加工过程中物流调度及路径规划的强化学习方法
CN110488759A (zh) * 2019-08-09 2019-11-22 西安交通大学 一种基于Actor-Critic算法的数控机床进给控制补偿方法
CN110716562A (zh) * 2019-09-25 2020-01-21 南京航空航天大学 基于强化学习的无人驾驶汽车多车道行驶的决策方法

Also Published As

Publication number Publication date
CN111857054A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN110488611B (zh) 一种仿生机器鱼运动控制方法、控制器及仿生机器鱼
CN112757306B (zh) 一种机械臂逆解多解选择和时间最优轨迹规划算法
CN109240091B (zh) 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法
CN111506081B (zh) 一种机器人轨迹跟踪方法、系统及存储介质
CN114952868B (zh) 7自由度srs型机械臂控制方法及装置、弹琴机器人
CN111857054B (zh) 一种基于神经网络的数控系统运动轨迹控制方法
CN109822550B (zh) 一种复杂曲面机器人高效高精度示教方法
CN116533249A (zh) 基于深度强化学习的机械臂控制方法
CN112427843A (zh) 基于qmix强化学习算法的船舶多机械臂焊点协同焊接方法
CN117103282B (zh) 一种基于matd3算法的双臂机器人协同运动控制方法
Ruchanurucks et al. Humanoid robot motion generation with sequential physical constraints
CN115618716A (zh) 一种基于离散SAC算法的gazebo潜航器路径规划算法
CN114355897B (zh) 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法
CN117021118B (zh) 一种并联机器人数字孪生轨迹误差动态补偿方法
Evans et al. Learning the subsystem of local planning for autonomous racing
CN114779661B (zh) 基于多分类生成对抗模仿学习算法的化学合成机器人系统
CN113485323B (zh) 一种级联多移动机器人灵活编队方法
CN115542921A (zh) 多机器人的自主路径规划方法
CN110450160B (zh) 一种开放式免编程机器人的控制方法
Németh et al. Hierarchical control design of automated vehicles for multi-vehicle scenarios in roundabouts
Demir et al. Heuristic trajectory planning of robot manipulator
CN113532457A (zh) 机器人路径导航方法、系统、设备及存储介质
CN113867157B (zh) 一种控制补偿的最优轨迹规划方法、设备及存储设备
CN112965482B (zh) 一种多机器人运动避碰控制方法及系统
CN117539145B (zh) 一种基于深度强化学习的稳定平台伺服控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant