CN111857054B

CN111857054B - 一种基于神经网络的数控系统运动轨迹控制方法

Info

Publication number: CN111857054B
Application number: CN202010680809.9A
Authority: CN
Inventors: 李炳燃; 方俊; 肖建新; 叶佩青; 张辉
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2021-10-08
Anticipated expiration: 2040-07-15
Also published as: CN111857054A

Abstract

本发明提出的一种基于神经网络的数控系统运动轨迹控制方法，首先构建神经网络作为决策模型，包括一个输入层、若干隐藏层和一个输出层，输入层输入当前时刻刀具轨迹的状态向量，该状态向量是根据被控机床传感器反馈的加工状态与刀具运动轨迹指令经过特征转换得到，输出层输出当前时刻的决策动作，将当前时刻决策动作经过特征转化，得到下一时刻的刀具位置并以此作为伺服指令；随后利用强化学习算法并结合奖惩策略训练决策模型；最后利用训练完毕的决策模型完成机床的刀具运动轨迹控制。本发明方法能够实时响应刀具运动轨迹的变化，支持加工参数的在线修改，提高了数控系统运动轨迹控制的适应性、加工精度和加工效率。

Description

一种基于神经网络的数控系统运动轨迹控制方法

技术领域

本发明属于数控加工轨迹规划技术领域，特别涉及一种基于神经网络的数控系统运动轨迹控制方法。

背景技术

数控系统是数控机床的核心控制装置，数控加工过程中的运动轨迹控制由数控系统完成。NC文件是描述数控机床加工过程中刀具运动轨迹的文件，通常使用G代码(ISO6983)格式对刀具运动轨迹进行描述。数控系统根据输入的NC文件，通过编译(译码)模块实现对NC文件的解析，并得到刀具的运动轨迹。

数控系统的刀具运动轨迹控制方法为：根据刀具的运动轨迹，通过轨迹规划算法、速度规划算法和插补算法实现数控系统的运动轨迹控制，参见图1。数控系统中的轨迹规划算法主要完成对运动轨迹的光顺处理，常用方法有局部光顺和全局光顺；速度规划算法主要完成对刀具运动轨迹的加减速控制，常用方法有梯形加减速和S型加减速等；插补算法主要完成对每段的刀具运动轨迹进行数据密化，常用方法有直线插补和圆弧插补等。数控系统插补算法产生的插补数据是机床各进给轴的位置指令，该指令由数控系统发送到机床的伺服进给系统，伺服进给系统执行位置指令，完成机床的运动轨迹控制。

数控系统的运动轨迹控制方法流程复杂，为保证轨迹规划算法、速度规划算法和插补算法的数据读取需求，算法间需建立数据缓冲区，参见图1。由于缓冲区的存在，导致数控系统对刀具运动轨迹的响应差，数控系统在加工过程中不支持刀具运动轨迹的在线修改，同样也不支持轨迹规划算法、速度规划算法和插补算法参数的在线修改。

智能制造环境下要求数控系统在加工过程中实时感知外部传感器反馈的加工状态，根据传感器反馈的加工状态，通过对刀具运动轨迹和控制算法参数的在线修改，实现对加工过程的优化。现有数控系统运动轨迹控制方法无法满足智能制造的需求。

发明内容

本发明的目的是为了克服已有技术的不足之处，提供一种基于神经网络的数控系统运动轨迹控制方法。本发明使用神经网络实现数控系统的运动轨迹控制，神经网络根据传感器反馈的加工状态，结合刀具运动轨迹指令，直接输出各进给轴的位置指令，进而实现依据当前加工状态的数控系统运动轨迹控制。本发明使用神经网络的数控系统运动轨迹控制方法具有对加工过程中加工状态反应速度快的优点。

为实现上述目的，本发明采用以下技术方案：

本发明提出的一种基于神经网络的数控系统运动轨迹控制方法，其特征在于，包括以下步骤：

1)构建神经网络作为决策模型

由依次连接的一个输入层、若干隐藏层和一个输出层构建神经网络；其中，

神经网络的输入即所述输入层的输入为t时刻刀具轨迹的状态向量s_t，该状态向量s_t是根据被控机床传感器反馈的加工状态与刀具运动轨迹指令经过特征转换得到的，其表达式如下：

s_t＝{κ_1,t,…,κ_j,t,…,κ_n,t}，j＝1,…,n

式中，k_1,t,…,κ_j,t,…,κ_n,t表示t时刻刀具运动轨迹位置上先后选取的第1～n个离散点的曲率向量，n可取任意正整数；

状态向量s_t按照以下步骤确定：

根据刀具运动轨迹的曲率特征，以t时刻的刀具位置p_t为参考点，构建向后距离κ_back和向前距离κ_ahead的状态特征区，通过线性插值的方式获取状态特征区内n个离散点的位置，求出各离散点的曲率向量；向后距离κ_back和向前距离κ_ahead按照以下公式计算：

k_back＝0.7k_ahead

式中，v_t表示t时刻刀具的运动速度，a_max表示被控机床所设定的刀具最大加速度；

t时刻刀具运动轨迹位置上第j个离散点的曲率向量k_j,t按照以下公式计算得到：

式中，p_B为t时刻刀具运动轨迹位置上的第j个离散点的空间坐标；p_A和p_C分别为在第j个离散点的前后侧通过线性插值的方式得到与该第j个离散点均相差距离Δd的两个离散点的空间坐标；G为求解曲率向量κ_j,t的中间变量，‖·‖表示取模运算；

所述输出层包含2个输出节点，分别输出刀具运动轨迹与YZ平面的夹角α_t和刀具运动轨迹与XY平面的夹角γ_t，作为决策动作a_t，其表达式为：

a_t＝τ₁·{θ_t}＝τ₁·{α_t,γ_t}

式中，θ_t是t时刻刀具运动轨迹的空间方向角；α_t表示刀具运动轨迹与YZ平面的夹角，γ_t表示刀具运动轨迹与XY平面的夹角；τ₁是决策模型输出的决策动作a_t与刀具运动轨迹的空间方向角θ_t的反归一化系数；

将决策动作a_t经过特征转化，得到t+1时刻的刀具位置p_t+1并以此作为伺服指令，计算公式如下：

u_t＝sin(α_t)·sin(γ_t)

v_t＝sin(α_t)·cos(γ_t)

w_t＝cos(α_t)

式中，u_t,v_t,w_t分别表示t时刻刀具运动轨迹的空间方向角θ_t在X,Y,Z轴方向的空间向量分量，l_t为刀具的进给步长；

2)利用强化学习算法并结合奖惩策略训练决策模型

2.1)设定用于评价决策模型效果的奖惩，表达式如下：

其中，

和

分别表示t时刻刀具运动轨迹的空间方向角的一阶导数和二阶导数，ε_t和

分别表示t时刻下的刀具位置相对于原始刀具运动轨迹的轮廓误差和轮廓误差的一阶导数，λ₁～λ₄分别是各参数的权因子系数；

2.2)利用强化学习算法并根据上述设定的奖惩对构建的决策模型进行训练，当得到的奖惩逐渐趋于平稳，且训练过程也趋近于收敛时，则认为决策模型已训练完毕，执行步骤3)；否则返回步骤1)，对状态向量s_t的离散点个数n、距离Δd、反归一化系数τ₁和权因子系数λ₁～λ₄进行调整，重新对决策神经网络进行训练，直至奖惩逐渐趋于平稳，且训练过程也趋近于收敛时，则认为决策模型已训练完毕，执行步骤3)；

3)利用训练完毕的决策模型完成机床的刀具运动轨迹控制

获取当前加工零件的刀具运动轨迹指令和被控机床的加工状态，得到输入决策模型的状态向量s_t；将该状态向量s_t输入到训练完毕的决策模型中，得到决策动作a_t，决策模型对决策动作a_t经过特征转换得到伺服指令输出给被控机床，从而实现对被控机床的运动轨迹控制，被控机床的当前时刻运动状态将作为下一时刻决策模型的输入。

本发明通过以上方案达到的有益效果为：

1、本发明采用强化学习来训练决策神经网络，可以在不依赖于标准数据的情况下完成模型的自主训练，从而实现自主优化。本发明的神经网络，在经过约30次训练后首次完成轨迹段的准确控制。通过在三轴加工机床上的试验验证，表明了本发明的方法在满足轮廓误差约束前提下能够实现高效平滑加工。与全局光顺算法相比，本发明更有效的对复杂刀具轨迹中的轮廓误差进行约束；与局部光顺算法相比，本发明能够获得更高的加工效率和更好的表面加工质量。

2、由于本发明中利用神经网络完成机床的运动轨迹控制，运算过程全部在实时状态下完成，模块间无需数据缓冲区。因此，本发明的方法能够实时响应刀具运动轨迹的变化，数控系统在加工过程中能够支持刀具运动轨迹的在线修改，同样也能够支持加工参数的在线修改，满足了智能制造环境下数控系统根据传感器反馈的加工状态实现对加工过程的优化需求。

3、本发明使用神经网络，通过训练的方法学习并得到数控系统运动轨迹控制中各特征间的关系，进而实现了数控系统的智能运动轨迹控制。使用机器学习得到的神经网络模型，能够根据传感器反馈的加工状态和加工零件的刀具运动轨迹指令提高数控系统运动轨迹控制的适应性，从而提高了数控加工的精度和加工效率。

附图说明

图1是现有数控系统的运动轨迹控制流程框图。

图2是本发明的一种基于神经网络的数控系统运动轨迹控制方法的流程框图。

图3本发明实施例中构建的神经网络的结构示意图。

图4本发明实施例中对神经网络的训练过程示意图。

图5是本发明实施例中使用DDPG算法对神经网络训练的结果图。

图6是神经网络用于机床运动轨迹控制方法流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了更好地理解本发明，以下详细阐述本发明提出的一种基于神经网络的数控系统运动轨迹控制方法的应用实例。

参见图2，本发明实施例的一种基于神经网络的数控系统运动轨迹控制方法包括以下步骤：

1)构建神经网络作为决策模型

由依次连接的一个输入层、若干隐藏层和一个输出层构建神经网络；本实施例中，构建的神经网络的结构参见图3，含有两个隐藏层。其中，

神经网络的输入即输入层的输入为t时刻刀具轨迹的状态向量s_t，该状态向量s_t是根据被控机床传感器反馈的加工状态与刀具运动轨迹指令经过特征转换得到的，其表达式如下：

s_t＝{κ_1,t,…,κ_j,t,…,κ_n,t}，j＝1,…,n

式中，κ_1,t,…,κ_j,t,…,κ_n,t表示t时刻刀具运动轨迹位置上先后选取的第1～n个离散点的曲率向量，n可取任意正整数，本发明实施例中n为11。具体地，本实施例中状态向量s_t是通过以下方法确定：

根据刀具运动轨迹的曲率特征，以当前时刻的刀具位置p_t为参考点，构建向后距离κ_back和向前距离κ_ahead的状态特征区，通过线性插值的方式获取状态特征区内n个离散点的位置，然后求出各离散点的曲率向量。离散点的个数即为状态向量s_t内含有曲率向量的个数n，向后距离κ_back和向前距离k_ahead的选取可根据实际情况进行调整，一般按照下式确定：

κ_back＝0.7κ_ahead

式中，v_t表示t时刻刀具的运动速度，a_max表示被控机床所设定的刀具最大加速度。

式中，p_B为t时刻刀具运动轨迹位置上的第j个离散点的空间坐标；p_A和p_C分别为在第j个离散点的前后侧通过线性插值的方式得到与该第j个离散点均相差距离Δd的两个离散点的空间坐标；设t时刻刀具运动轨迹位置上的第j个离散点的空间坐标为p_B，在该离散点左右通过线性插值的方式得到相差距离Δd的两个坐标点p_A和p_C，Δd根据实际情况选取，为已知值；G为求解曲率向量κ_j,t的中间变量，‖·‖表示取模运算，·表示点乘运算，×表示叉乘运算。

本实施例中含有两个隐藏层，隐藏层的大小分别为16和8。为了使不同种类的特征值更好的融合，隐藏层中不同网络节点选用的激活函数也不相同，包括Sigmoid和tanH函数。

决策模型具有一个输出层，包含2个输出节点，分别输出刀具运动轨迹与YZ平面的夹角α_t和刀具运动轨迹与XY平面的夹角γ_t，作为决策动作a_t，其表达式为：

a_t＝τ₁·{θ_t}＝τ₁·{α_t,γ_t}

式中，θ_t是t时刻刀具运动轨迹的空间方向角，可以用{α_t,γ_t}表示。α_t表示刀具运动轨迹与YZ平面的夹角，γ_t表示刀具运动轨迹与XY平面的夹角。τ₁是决策模型输出的决策动作a_t与刀具运动轨迹的空间方向角θ_t的反归一化系数。

u_t＝sin(α_t)·sin(γ_t)

v_t＝sin(α_t)·cos(γ_t)

w_t＝cos(α_t)

式中，u_t,v_t,w_t分别表示t时刻刀具运动轨迹的空间方向角θ_t在X,Y,Z轴方向的空间向量分量，l_t为刀具的进给步长。通过得到的伺服指令p_t+1控制被控机床运动。

2)利用强化学习算法训练决策模型

2.1)设定用于评价决策模型效果的奖惩

参见图4，强化学习的基本框架由智能体和环境构成，两者在交互过程中完成自主学习。其中智能体对应决策模型，环境对应被控机床。被控机床将感知的当前状态向量s_t输入给决策模型，决策模型根据该当前状态s_t输出动作a_t，并驱动被控机床更新刀具位置。同时，根据当前被控机床执行动作的好坏得到奖惩r_t，该奖惩r_t作为决策模型的评价训练指标，引导决策模型学习的方向，表达式如下：

其中，

和

分别表示t时刻下的刀具位置相对于原始刀具运动轨迹的轮廓误差和轮廓误差的一阶导数，λ₁～λ₄分别是各参数的权因子系数。若对刀具运动轨迹精度要求较高，则将权因子系数λ₃和λ₄调大。若对刀具运动轨迹平滑性要求较高，则将权因子系数λ₁和λ₂调大。

2.2)利用强化学习算法并根据上述设定的奖惩对构建的决策模型进行训练，当得到的奖惩逐渐趋于平稳，且训练过程也趋近于收敛时，则认为决策模型已训练完毕，执行步骤3)。当训练过程收敛较慢或者得到的奖惩无法趋于平稳，则返回步骤1)，对状态向量s_t的离散点个数n、距离Δd、反归一化系数τ₁和权因子系数λ₁～λ₄进行调整，重新对决策神经网络进行训练，直至奖惩逐渐趋于平稳，且训练过程也趋近于收敛时，则认为决策模型已训练完毕，执行步骤3)。

本发明实施例中使用强化学习中的DDPG算法对步骤1)构建的决策模型进行训练。经过约30次训练，决策模型首次完成刀具运动轨迹的准确控制，在之后的训练过程中，奖惩值逐渐趋于平稳，训练过程也趋近于收敛；训练次数达到约100次以后，训练算法完全收敛，最佳平均奖惩值为1.26，参见图5。

3)利用训练完毕的决策模型完成机床的刀具运动轨迹控制

参见图6，获取当前加工零件的刀具运动轨迹指令和被控机床的加工状态，得到输入决策模型的状态向量s_t；将该状态向量s_t输入到训练完毕的决策模型中，得到决策动作a_t，决策模型对决策动作a_t经过特征转换得到伺服指令输出给被控机床，从而实现对被控机床的运动轨迹控制，此外，被控机床的当前时刻运动状态将作为下一时刻决策模型的输入。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。