CN113536696B

CN113536696B - Sto-tcn热误差预测模型建模方法及其迁移学习方法

Info

Publication number: CN113536696B
Application number: CN202110920488.XA
Authority: CN
Inventors: 马驰; 刘佳兰; 桂洪泉; 王时龙
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-04-07
Anticipated expiration: 2041-08-11
Also published as: CN113536696A

Abstract

本发明公开了一种STO‑TCN热误差预测模型建模方法，包括如下步骤：1)初始化燕鸥优化算法STO的参数；2)创建TCN神经网络；3)以热误差数据训练TCN神经网络，以平均绝对误差MAE视为适应度函数；4)判断平均绝对误差MAE是否小于设定阈值；5)判断迭代次数是否达到最大值，若是，则终止迭代，以平均绝对误差MAE最小时的燕鸥位置映射得到的批处理大小和滤波器数量作为TCN神经网络的最佳超参数；若否，则迭代次数加1，并将更新后的燕鸥位置映射为TCN神经网络的批处理大小和滤波器数量后，循环执行步骤3)；5)构建得到STO‑TCN热误差预测模型。本发明还公开了一种STO‑TCN热误差预测模型的迁移学习方法。

Description

STO-TCN热误差预测模型建模方法及其迁移学习方法

技术领域

本发明属于机械误差分析技术领域，具体的为一种STO-TCN热误差预测模型建模方法及其迁移学习方法。

背景技术

机床的结构变形会影响零件的加工精度。需要在需要一些苛刻的条件下在短时间内完成误差预测和补偿：例如，当转速从6000m/min提高到23000m/min时，要求机床主轴精度小于3μm。而且，在影响机床加工精度的所有误差项中，热误差是主要误差项。误差控制对于提高加工零件的几何精度至关重要。对于机床来说，影响机床热误差的热源有很多，包括电机、轴承、滚动导轨、滚珠丝杠和环境温度等，其中，主轴是对热误差有重大影响的关键部件。减少热误差的方法很多，主要分为以下三类：温度控制法、误差预防法和误差补偿法。温控方法把温升作为导致热误差的直接原因，该方法通过控制温升来减少热误差，实施成本高，技术实施难度大；同时，温度传递的滞后导致温度控制的滞后，所以它不是减少热误差的最佳选择。误差预防法通过在设计和制造阶段选择合理的机床材料和设计，降低机床对热流的误差敏感性，提高热稳定性。例如，采用对称结构设计，保证温度分布均匀，简化传动系统，减少摩擦部件，减少运动部件质量，降低摩擦热。然而，误差预防法的成本随着准确度的增加呈指数增长。因此，也不是常用的用于减少热误差的措施。

误差补偿方法选择温度敏感点，并建立热误差与温升之间的相关性，通过对温度敏感点的实时监控来执行热误差的预测和补偿，因此，热误差补偿方法是实际应用中最实用的措施，因其具有简单、高效、低成本的独特特点而被广泛使用。基于误差补偿方法提出了多种误差补偿模型，这些模型用于表征热误差的变化过程，主要分为数值模拟模型和经验模型两大类。数值模拟模型具有准确可靠的优点，然而，由于大量的网格划分和计算，导致机床建立数值模型构建和求解过程非常耗时。补偿策略是基于经验模型开发的，传统的经验模型包括多元线性回归(MLR)、主成分回归(PCR)、稳健岭回归(RRR)和自适应回归等，这些模型以温度为输入，且温度变量之间也存在共线性，导致预测性能下降。此外，有限的温度变量难以充分反映整机的热信息，导致预测精度较差。

热误差的产生机理在以往的研究中并不明确，导致鲁棒性和预测能力下降。基于误差机理提出了以热变形为输入的热误差模型，说明热误差是运行时间的函数，利用记忆能力强的长短期记忆网络(LSTMN)实现误差模型训练。结果表明，该模型具有良好的预测性能和鲁棒性。LSTMN是一种改进的循环神经网络(RNN)模型，它的突出贡献是解决了RNN的梯度消失和爆炸问题，在具有时间特征和记忆特征的问题上得到了广泛的应用。LSTMN在很多领域都有出色的表现，并且可以进一步改进，然而，改进并不总是有效的。

发明内容

有鉴于此，本发明的目的在于提供一种STO-TCN热误差预测模型建模方法及其迁移学习方法，能够有效提高热误差预测精度和效率。

为达到上述目的，本发明提供如下技术方案：

本发明首先提出了一种STO-TCN热误差预测模型建模方法，包括如下步骤：

1)初始化燕鸥优化算法STO的参数，随机生成燕鸥的初始位置；判断燕鸥的初始位置是否超出预设范围，若是，则将燕鸥的初始位置改为边界；若否，则保持燕鸥的初始位置不变；

2)创建TCN神经网络，将燕鸥的初始位置映射为TCN神经网络的批处理大小和滤波器数量；

3)以热误差数据训练TCN神经网络后、利用TCN神经网络预测热误差，以热误差数据的热误差实际值和由TCN神经网络预测得到的热误差预测值之间的平均绝对误差MAE视为适应度函数；

4)判断平均绝对误差MAE是否小于设定阈值；若是，则以当前燕鸥位置映射得到的批处理大小和滤波器数量作为TCN神经网络的最佳超参数；若否，则更新燕鸥优化算法STO的参数，并将更新参数后的燕鸥优化算法STO的搜索结果与之前的最优解进行比较，若更新参数后的搜索结果的适应度小于之前的最优解的适应度，则以更新参数后搜索到的位置P_st(z+1)替换之前最优解的位置P_best(z)；

5)判断迭代次数是否达到最大值，若是，则终止迭代，以平均绝对误差MAE最小时的燕鸥位置映射得到的批处理大小和滤波器数量作为TCN神经网络的最佳超参数；若否，则迭代次数加1，并将更新后的燕鸥位置映射为TCN神经网络的批处理大小和滤波器数量后，循环执行步骤3)；

6)以燕鸥优化算法STO得到的批处理大小和滤波器数量作为TCN神经网络的最佳超参数，构建得到STO-TCN热误差预测模型。

进一步，所述步骤3)中，将热误差数据以监督学习算法处理后，再作为TCN神经网络的训练集和测试集。

进一步，所述步骤4)中，燕鸥优化算法STO参数的更新方法如下：

C_st＝S_A*P_st(z)

M_st＝C_B*(P_best(z)-P_st(z))

C_B＝0.5*R_and

D_st＝C_st+M_st

其中，P_st(z)是燕鸥的当前位置；z是迭代时间；C_st是燕鸥在不相互碰撞的情况下的位置；C_B是一个随机变量；M_st是当前位置向最优位置移动的过程；P_best(z)是燕鸥的全局最优位置；R_and是一个介于0和1之间的随机数；D_st是当前位置向最优位置更新的轨迹；S_A为避免碰撞的控制参数，且：

其中，Iter_max是最大迭代次数。

进一步，更新燕鸥优化算法STO参数后搜索到的燕鸥位置为：

其中：

D^θ＝|r₆P_best(z)-P_st(z)|

r₄∈(0,360°)

其中，P_st(z+1)表示更新参数后搜索到的燕鸥位置；r₃,r₄,r₅和r₆表示在[0,1]范围内随机生成的四个参数；a表示常数；D^θ是当前位置与最佳位置之间的距离。

进一步，所述TCN神经网络包括至少两层TCN单元，相邻两层TCN单元之间采用残差块相连接。

进一步，所述残差块的表达式为：

z(i+1)＝σ(T(z(i))+z(i))

其中，z(i+1)和z(i)分别是第i个残差块的输出和输入；σ是relu激活函数；T(z(i))是第i个残差块中的非线性变换。

进一步，所述TCN单元采用因果卷积和扩张卷积，因果卷积的表达式为：

扩张卷积的表达式为：

其中，F(t)是输出；x_t-i是输入；f_i是滤波器；k是卷积核的大小；d是扩张因子。

本发明还提出了一种STO-TCN热误差预测模型的迁移学习方法，包括如下步骤：

1)根据1#工况下的热误差数据，采用如上所述STO-TCN热误差预测模型建模方法创建得到的STO-TCN热误差预测模型；

2)保持所述STO-TCN热误差预测模型的TCN神经网络的TCN层的参数不变，将2#工况下的热误差数据输入并训练所述STO-TCN热误差预测模型以更新TCN神经网络的全连接层的参数，得到STO-TCN热误差预测迁移学习模型。

本发明的有益效果在于：

本发明的STO-TCN热误差预测模型建模方法，采用燕鸥优化算法(STO)来优化TCN神经网络的批处理大小和过滤器数量等超参数，从而创建得到STO-TCN热误差预测模型；STO算法不需要目标函数的梯度信息，所以不受局部最优解的限制，因而可以找到全局最优解，并具有结构简单、鲁棒性强的特点；通过将时间卷积网络(TCN)、循环神经网络(RNN)、门控循环单元(GRU)和LSTMN进行了比较，结果表明，TCN比上述三种递归网络更有效，因为TCN比递归结构更简单，内存更长，精度更高。而且，TCN不需要及时传播，模型容易训练，更重要的是，TCN网络不会泄露未来的信息。TCN不仅具有LSTMN的记忆能力，还继承了卷积神经网络(CNN)特有的捕捉特征的能力，使得TCN更有能力捕获时序上的相关性。此外，由于TCN引入了空洞卷积，可以将卷积核的数量设置得很小，从而缩短了训练时间。总的来说，本发明创建得到的STO-TCN热误差预测模型具有以下四个特点：1)训练速度快；2)优秀的时序依赖捕获能力；3可以更精细地捕捉本地信息；4)可灵活调整感知视野。

本发明STO-TCN热误差预测模型的迁移学习方法，利用燕鸥优化算法(STO)优化TCN神经网络的超参数后，将历史热误差作为模型的输入；机床工况的变化是不可避免的，STO-TCN热误差预测模型对新工况缺乏很强的鲁棒性。训练好的STO-TCN热误差预测模型需要在新的工作条件下重新训练，但是数据采集和再训练过程非常耗时。考虑到数据和任务的相关性，可以通过共享已经训练完成的STO-TCN热误差预测模型的结构和参数来减少训练时间。因此，引入迁移学习以减少再训练时间并提高鲁棒性，简单来说，就是将已经训练完成的STO-TCN热误差预测模型的参数和结构转移到转移学习模型中，在保持TCN层的参数不变的条件下，仅根据新工况下的误差数据重新训练全连接层的参数，提高训练效率。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明STO-TCN热误差预测模型建模方法的流程图；

图2为燕鸥优化算法(STO)的非线性控制参数的曲线图；

图3为内核k＝2时的因果卷积示意图；

图4为无扩张和扩张因子d＝2时的卷积层的感受野示意图；(a)为无扩张；(b)为扩张因子d＝2；

图5为TCN单元的示意图；

图6为带残差块的深度TCN模型结构图；

图7为简化的一维主轴的结构示意图；

图8为TCN模型的迁移学习示意图；

图9为实验对象图；

图10为检测模块流程图；

图11为位移传感器的安装位置示意图；

图12为转速随时间变化的曲线图；(a)为1#工况；(b)为2#工况；

图13为LSTMN模型的结构图；

图14为热误差数据的自相关系数；

图15为不同时间步长的预测结果；(a)为LSTMN模型在不同时间步长条件下的预测结构曲线图；(b)为TCN模型在不同时间步长条件下的预测结构曲线图；

图16为四种模型的对比图；(a)为四种模型的拟合性能曲线图；(b)为三种模型的残差曲线图；

图17为主轴系统热伸长率预测性能曲线图；

图18为机加工试样的结构参数示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好的理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

如图1所示，为本发明STO-TCN热误差预测模型建模方法的流程图。本实施例的STO-TCN热误差预测模型建模方法，包括如下步骤：

1)初始化燕鸥优化算法(STO)的参数，随机生成燕鸥的初始位置；判断燕鸥的初始位置是否超出预设范围，若是，则将燕鸥的初始位置改为边界；若否，则保持燕鸥的初始位置不变。STO优化算法受自然界中燕鸥觅食行为的启发，具有很强的全局搜索能力和准确性。

2)创建TCN神经网络，将燕鸥的初始位置映射为TCN神经网络的批处理大小和滤波器数量。

3)以热误差数据训练TCN神经网络后、利用TCN神经网络预测热误差，以热误差数据的热误差实际值和由TCN神经网络预测得到的热误差预测值之间的平均绝对误差(MAE)视为适应度函数。具体的，本实施例将热误差数据以监督学习算法处理后，再作为TCN神经网络的训练集和测试集。

4)判断平均绝对误差(MAE)是否小于设定阈值；若是，则以当前燕鸥位置映射得到的批处理大小和滤波器数量作为TCN神经网络的最佳超参数；若否，则更新燕鸥优化算法(STO)的参数，并将更新参数后的燕鸥优化算法(STO)的搜索结果与之前的最优解进行比较，若更新参数后的搜索结果的适应度小于之前的最优解的适应度，则以更新参数后搜索到的位置P_st(z+1)替换之前最优解的位置P_best(z)。

具体的，燕鸥优化算法(STO)中，迁徙和攻击猎物是燕鸥的独特行为，在迁徙过程中，燕鸥向群中最强的黑燕鸥移动，然后，其他燕鸥开始更新它们的初始位置，需要避免燕鸥之间的碰撞。具体的，燕鸥优化算法(STO)参数的更新方法如下：

C_st＝S_A*P_st(z)

S_A＝C_f-(z*(C_f/Iter_max))

M_st＝C_B*(P_best(z)-P_st(z))

C_B＝0.5*R_and

D_st＝C_st+M_st

其中，P_st(z)是燕鸥的当前位置；z是迭代时间；C_st是燕鸥在不相互碰撞的情况下的位置；C_f为常数，设为2；S_A为避免碰撞的线性控制参数，从2线性递减到0；Iter_max是最大迭代次数；C_B是一个随机变量；M_st是当前位置向最优位置移动的过程；P_best(z)是燕鸥的全局最优位置；R_and是一个介于0和1之间的随机数；D_st是当前位置向最优位置更新的轨迹。

线性控制参数S_A不能表征实际收敛过程，因为实际收敛过程是非线性的，本实施例提出一个非线性控制参数，为：

非线性控制参数随迭代时间非线性递减，如图2所示。非线性控制参数在初始阶段衰减较慢，这对寻找全局解具有重要意义，后期非线性控制参数衰减较快，有利于提高STO的收敛速度。

燕鸥可以通过翅膀增加飞行高度，也可以调整速度和攻击角度。攻击猎物时，它们在空中的盘旋行为可以定义为：

x'＝R*sin(i)

y'＝R*cos(i)

z'＝R*i

R＝u*e^kv

P_st(z+1)＝D_st*(x'+y'+z')*P_best(z)

其中，x',y'和z'模拟燕鸥在三维空间中盘旋的位置；R是盘旋螺旋的半径；i是[0,2π]范围内的变量；u,k和v是定义螺旋形状的常数，本实施例设置为1；e是自然对数的底数。

为提高STO算法的收敛精度，本实施例引入正余弦搜索策略，利用正弦和余弦函数的振荡特性进行优化。即本实施例中，更新燕鸥优化算法(STO)参数后搜索到的燕鸥位置为：

其中：

D^θ＝|r₆P_best(z)-P_st(z)|

r₄∈(0,360°)

5)判断迭代次数是否达到最大值，若是，则终止迭代，以平均绝对误差(MAE)最小时的燕鸥位置映射得到的批处理大小和滤波器数量作为TCN神经网络的最佳超参数；若否，则迭代次数加1，并将更新后的燕鸥位置映射为TCN神经网络的批处理大小和滤波器数量后，循环执行步骤3)；

6)以燕鸥优化算法(STO)得到的批处理大小和滤波器数量作为TCN神经网络的最佳超参数，构建得到STO-TCN热误差预测模型。

具体的，TCN是一种特殊的一维CNN。TCN结合了时域建模能力和CNN提取特征的能力。TCN是因果和扩张卷积的结合，连接方式是残差块，这使得它在处理时间序列数据方面具有优势。

因果卷积可以保证当前时刻的输出依赖于当前时刻的输入和过去时刻的输入，从而避免未来的数据泄露。卷积核大小为k＝2的因果卷积网络如图3所示。对于一维数据，通过将传统卷积的输出移位几个时间步长可以很容易地实现因果卷积，并表示为：

其中，F(t)是输出；x_t-i是输入；f_i是滤波器；k是卷积核的大小。

由于热误差具有长期历史记忆，所以TCN应该具备处理时间序列问题的能力，TCN模型应该具备满足长期历史记忆需求的能力。因此，由于热误差的长期历史记忆，长时间间隔的数据也应包括在计算中，那么就需要将TCN结构设计成大深度和大量滤波器。为避免TCN结构复杂，减少大量计算，本实施例在TCN中引入扩张卷积，表示为：

其中，d是扩张因子。扩张卷积的工作原理是跳过给定步骤的大小，然后在大于其大小的区域上应用过滤器。使用扩张卷积时，扩张因子d通常随着TCN的深度呈指数增长，它保证了历史记录中每个输入的接收域，并获得一个大的接收域作为深度网络记录的有效历史。感受野代表可以捕获输入数据的时间范围。图4(a)显示了没有扩张的卷积层，图4(b)显示了d＝2的卷积层。可见，扩张卷积可以在不改变卷积核大小和网络深度的情况下增加感受野。

因果和扩张卷积结合得到一个TCN单元，如图5所示。卷积核的大小为2，输入层、隐藏层和输出层的扩张因子分别为1、2、4层。可以看出，TCN单元可以由卷积核大小、扩展因子和隐藏层数决定。因此，设计卷积核大小、扩展因子和隐藏层数以捕获所需的接收场。根据图5，TCN单元的输出表示为：

y(t)＝((x_t·w₁+x_t-1·w₂)·w₉+(x_t-2·w₃+x_t-3·w₄)·w₁₀)·w₁₃+((x_t-4·w₅+x_t-5·w₆)·w₁₁+(x_t-6·w₇+x_t-7·w₈)·w₁₂)·w₁₄

其中，x是输入；y是输出；w₁,w₂,...,w₁₃,w₁₄是权重。根据图5，可知TCN单元的输出与过去时刻的长期信息有关，所以TCN单元具有长期的记忆性能，并且不会泄漏数据。

为了提高深度TCN训练的稳定性，残差块作为深度TCN的基本单元，作为TCN两层之间的连接方法。带有残差块的深度TCN模型的结构如图6所示，两个TCN单元通过一个残差块连接，残差块的表达式为：

z(i+1)＝σ(T(z(i))+z(i))

本实施例在残差块中，使用两层扩张和因果卷积以及非线性映射来提高学习能力。对于每一层，使用relu激活函数和权重归一化来提高收敛速度。此外，神经元通过Dropout正则化随机失活，以缓解训练阶段过拟合的问题。

本实施例STO-TCN热误差预测模型的迁移学习方法，包括如下步骤：

训练好的STO-TCN热误差预测模型鲁棒性不强、再训练时间长的缺点。原因如下：一方面，机床工况的变化在实际加工过程中不可避免，是鲁棒性和泛化能力下降的主要原因，也就是说，经过良好训练的STO-TCN模型的鲁棒性和泛化能力对于新的工况并不强；另一方面，先前的研究表明，应该针对新的工作条件重新训练热误差预测模型，以提高鲁棒性和泛化能力。但是STO-TCN模型的再训练过程非常耗时。为了节省再训练时间并提高鲁棒性，本实施例引入了迁移学习。迁移学习可以将一个训练好的STO-TCN热误差预测模型共享和迁移到新工况的STO-TCN热误差预测迁移学习模型中，部分参数保持不变，这样就节省了训练时间。热误差具有明显的时间序列特征，所以可以使用具有长期记忆性能的STO-TCN热误差预测模型，当预测任务发生变化时，即使STO-TCN的参数没有显着变化，STO-TCN模型的时间序列和记忆特性仍然保留。因此，STO-TCN热误差预测迁移学习模型仍然可以有效预测热误差，如图7所示。1#工况下的热误差数据用于STO-TCN热误差预测模型的训练。然后使用经过良好训练的STO-TCN模型作为预训练模型来预测2#工况下的热误差。本实施例在迁移学习的过程中，锁定了两层TCN，限制了这两层的参数更新，以减少训练时间。只允许全连接层的参数更新。对于同一台机床的不同工况，其目标域之间的相似度较高，因此，无需对结构和参数进行大批量更新，即可获得良好的预测效果。即本实施例STO-TCN热误差预测模型的迁移学习方法可以减少训练时间，提高鲁棒性和泛化能力。热误差的实时控制对模型的预测时间要求较高，迁移学习可以减少STO-TCN模型在2#工况下的训练时间。此外，鲁棒性和泛化能力对于热误差的高精度预测至关重要。迁移学习可以提高训练良好的STO-TCN模型在2#工况下的鲁棒性和泛化能力。

下面以实例对本实施例的STO-TCN热误差预测模型建模方法及其迁移学习方法的具体实施方式进行详细说明。

1、误差机理建模

将机床主轴简化为一维细长轴，如图8所示，主轴右端固定，由恒定热流加热。

一维主轴的热微分方程为：

其中，

其中k为热导率，ρ为密度，c为比热容；t是运行时间；x是轴向位置；l为轴的总长度；T是温度。

热微分方程的初始条件如下：

T(x,0)＝T_t

其中，T_t是环境温度。为方便起见，坐标原点设置在自由端，因此边界条件为：

T(0,t)＝0

其中，h是一个正常数。温度T被离散化为：

T(x,t)＝X(x)T_ime(t)

其中，T_ime(t)是与运行时间相关的组件；X(x)是与轴向位置相关的分量，得到：

即：

其中，w是一个常数。

根据初始条件，则T_ime＝T_te^-wt；根据X的特征方程，得到解为

根据边界条件，可以得到A＝0；然后根据边界条件得到

为了避免琐碎的解决方案，然后

如果

则

该方程有无数个解，满足(k-1/2)π＜v_k＜kπ。那么可以得到

其中k＝1,2,...。因此，得到一个特殊的解为：

其中，B_k是常数。

所以自由端的热变形为：

其中，α为膨胀系数；C_k是一个常数。

在下面的推导过程中，Δt被设置为无穷小，在运行时间为0时，热误差为：

ΔE(t＝0)＝0

在Δt的运行时间时，热误差为：

在2Δt的运行时间时，热误差为：

在mΔt的运行时间时，热误差为：

C_k的求解复杂，不利于直接求解热误差。但上述等式表明热误差是运行时间的函数，对指导经验模型的选择具有重要意义。此外，mΔt运行时的热误差ΔE(t＝mΔt)取决于ΔE((m-1)Δt),…,ΔE(t＝2Δt),ΔE(t＝Δt)和ΔE(t＝0)的热误差。即，证明了热误差的长期记忆行为。因此应建立具有长期记忆存储能力的经验模型。TCN模型被认为是更好的选择，因为它兼有LSTMN的存储容量和CNN捕获数据特征的能力。

2、STO-TCN热误差预测迁移学习模型验证

2.1、实验装置

车铣加工中心VMT260为实验对象，如图9所示，X、Y、C轴额定功率为25kW。WZ15B90-30SE主轴额定功率为30kW。主轴额定转速为8000rpm。采用内置拉刀机构，规格为BT40。使用两个前轴承和两个后轴承，它们处于背对背配置。采用定位预紧力，初始安装预紧力为1400N。润滑方式为脂润滑。

在机床加工过程中，主轴的轴向和径向误差受温度场的影响。为采集主轴的温度和误差，设计了采集装置，如图10所示。主要由位移传感器、温度传感器、信号处理单元、温度变送器、温度信号处理单元、电压输入调理等组成终端。温度和位移传感器采集温度场和热变形数据。然后通过发射器和信号处理单元对数据进行调整，并将数据输入到数据采集和控制模块中。最后由采集系统记录并保存数据。

五个位移传感器用于测量热误差，如图11所示。夹具安装在工作台上。S1和S2用于测量热偏航角。S3和S4用于测量热俯仰角。S5用于测量热伸长率。然后位移传感器是Keyence EX-305V*1。测量范围为0～1mm。Keyence EX-416V*1的尺寸为

线性度为±0.3％ F.S.分辨率0.4μm。工作温度范围为-10℃至+60℃。11个温度传感器用于采集温度，这11个温度传感器的安装位置如下：T1(后轴承1#)、T2(前轴承2#)、T3(后轴承2#)、T4(后轴承)轴承2#)、T5(环境)、T6(伺服电机)、T7(前轴承座)、T8(后轴承座)、T9(主轴轴承)、T10(主轴法兰)和T11(主轴箱)。

在主轴系统上进行了热特性实验，测量机械主轴WZ15B90-30SE的热行为。两种不同工况下的速度分布如图12所示。每10分钟收集一次温度和热误差数据。热误差数据是在两种工况下获得的，并将用作所提出的STO-TCN模型的输入，以验证预测性能和鲁棒性。

2.2、STO-TCN模型的训练

2.2.1、比较模型

(1)LSTMN模型

LSTMN是RNN的衍生网络，可以捕捉时序数据与时间的关系。LSTMN单元的结构如图13所示。它由输入x_t、临时单元的记忆状态

单元状态C_t、隐藏层状态h_t、遗忘门f_t、记忆门i_t和输出门o_t组成.

LSTMN利用最后时刻的隐藏层状态h_t-1和当前输入x_t计算遗忘门f_t记忆门i_t，输出门o_t，进而控制输入信息是丢弃还是传输。计算过程如下：

遗忘门可以控制被遗忘的信息：

f_t＝σ(W_f[h_t-1,x_t]+b_f)

记忆门可以控制要记忆的信息：

i_t＝σ(W_i[h_t-1,x_t]+b_i)

计算当前时刻的细胞状态为：

输出门和隐藏层的当前状态计算为：

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t·tanh(C_t)

其中，W_f,W_i,and W_o为不同阈值的权重矩阵；b_f,b_i,b_o和b_C为不同阈值的偏置矩阵；σ和tanh是激活函数。

(2)MLR模型

MLR的思想是建立因变量和多个自变量之间的线性关系。多元线性回归模型建立后，需要分析自变量对因变量的影响显着性，因此，选择对因变量影响最大的自变量。MLR的模型如下：

y＝b₀+b₁x₁+b₂x₂+…+b_mx_m+ε

其中，y表示因变量；x＝(x₁,x₂,…,x_m)表示自变量；b₀,b₁,…,b_m表示待定回归参数；ε表示随机误差。

2.2.2、STO-TCN模型训练

本实施例以预测性能和鲁棒性的比较来验证所提出的STO-TCN模型。收敛时间与硬件和软件平台密切相关，详情如下：采用Windows 10操作系统，CPU为第11代Intel Corei5-1135G7@2.40GHz，RAM为16.0GB。该程序由Python编程语言开发，开发环境为PyCharmCommunity Edition 2020.2.5，管理使用Anaconda。为方便机器学习建模，使用TensorFlow机器学习库和神经网络API Keras进行编程。具体信息见表1。

表1.硬件和软件平台

超参数对STO-TCN模型的预测性能和收敛速度有很大影响。TCN的批处理大小和过滤器数量被认为是两个重要的超参数，本实施例通过STO算法优化批处理大小和滤波器数量，以提高预测性能和收敛速度，具体的，过滤器的数量限制在[1,12]的范围内，批大小限制在[64,384]的范围内。为了方便STO算法的搜索过程，STO的螺旋形状参数都设置为1，也就是说STO的螺旋形状是一个简单的螺旋。然后将种群数和最大迭代次数都设置为3。STO的参数列于表2中。

表2STO参数

本实施例建立了STO-TCN模型，导入时间库计算收敛时间。将误差数据作为STO-TCN误差模型的输入，然后特征维度值为1，输入为单变量，可以省略归一化过程。为节省训练时间，将epoch size设为200，使用标准LSTMN，激活函数为sigmoid。LSTMN的batch size和神经元个数由随机函数随机生成，两者的值为384。为了比较方便，TCN模型的batch size(批处理大小)设置为384，filter(滤波器)个数随机生成如4。在TCN模型中，使用了一个残差块，残差块的堆栈数为1。扩张卷积是一个扩展列表，扩张因子的值设置为1、2和4。由于提出的STO-TCN模型并不复杂，因此将dropout设置为0。为了更公平地比较LSTMN和TCN模型，上述两个模型的层数、优化器、激活和损失函数设置相同，三种网络模型的参数设置如表3所示。对于STO-TCN模型，批处理大小和滤波器数量是通过STO算法优化得到的，它们的值分别为128和8，那么TCN的核大小为3。在达到相同接收场的情况下，将卷积核的大小设置得较小，以减少所需参数的数量和计算量。卷积核的大小必须大于1以增加接收场。同时，卷积核的大小不能设置为偶数，因为填充不能对称应用，因此，卷积核的大小一般设置为3。对于MLR模型，采用模糊聚类来减少典型温度的数量，将温度分为三组。最后，选择了三个温度变量T₂、T₇和T₉。调用MATLAB中的回归工具箱来识别回归系数为b₀＝-9.7396、b₁＝6.0757、b₂＝1.7361和b₃＝-2.6653。因此，建立的MLR模型为：Z＝-9.7396+6.0757T₂+1.7361T₇-2.6653T₉。

表3三种神经网络模型参数设置

时间步长是LSTMN、TCN和STO-TCN模型的重要参数。时间步长也是一个超参数，它的设置方法也取决于人类的经验。时间步长是从热误差自相关系数的角度选择的。根据以下等式计算2#工况下的自相关系数A_k，如图14所示。可见热误差数据为典型的时间序列数据。使用具有长期记忆的模型来预测热误差是非常合理的。

其中，T是y₁,y₂,…y_T的时间序列数据中的观测次数；

是观测值的平均值。自相关系数随着运行时间的增加趋于稳定。这表明较长的时间步长数据可能对TCN模型的预测没有帮助。那么根据图14，自相关系数大于0.8的数据在本研究中被认为是正的。因此，LSTMN、TCN和STO-TCN模型的时间步长设置为1。

此外，将时间步长设置为1、10、20和30来演示上述分析结果，并在不同时间步长下得到预测结果，如图15所示。当时间步长设置为30时，预测精度是最低的，因为干扰预测的大量数据被输入到模型中。但是，从图15(a)和图15(b)可以发现，TCN模型的预测性能优于LSTMN模型。同时，如果时间步长过大，TCN模型和LSTMN模型的预测性能也会不同。由于热误差数据是一种时间序列数据，滞后时间过长的数据对当前时刻的数据预测没有帮助。如果输入时间步长过大，LSTMN模型容易受到无用信息的干扰。同时，输入时间步长过长意味着输入数据量大，LSTMN模型的网络结构复杂。因此，LSTMN模型在时间步长为30时存在过拟合现象，无法有效捕捉热误差与时间的关系。然而，尽管TCN模型也受到较大时间步长的影响，但TCN模型仍然可以捕捉到热误差数据与时间之间的关系。得出的结论是，TCN模型捕捉热误差数据时序特征的能力强于LSTMN模型。TCN模型具有循环结构网络的记忆能力和卷积网络的特征捕捉能力。大量的历史数据作为输入会增加模型的计算复杂度，计算时间也会增加。这不利于热误差的实时预测和补偿。因此需要根据热误差数据的自相关系数选择合理的时间步长。

利用1#工况下的误差数据建立MLR、LSTMN、TCN和STO-TCN模型。比较上述四种模型的拟合性能，如图16所示。从图16(a)可以看出，STO-TCN的拟合性能最好，提出的STO-TCN模型是有效的。从图16(b)可以看出，TCN和STO-TCN模型的收敛速度高于LSTMN模型。TCN模型具有残差块结构，独特的skip connection可以帮助缓解梯度消失的问题，加速收敛过程。此外，随着epoch大小的增加，TCN模型的损失稳定地小于LSTMN模型的损失。TCN模型具有CNN捕捉数据特征的能力，而LSTMN模型不具备数据特征捕捉能力。此外，STO-TCN模型的损失稳定地小于TCN模型的损失，表明STO算法可以有效地优化网络参数。可以看出，合理的批处理大小和合适的滤波器数量可以提高TCN模型的拟合性能。

计算预测性能和计算时间的指标，如表4所示。MLR模型的拟合性能不如LSTMN模型，因为MLR模型的输入是温度变量。温度变量之间的共线性很容易扭曲模型估计。此外，MLR模型无法有效反映热误差的非线性特征。以上两点都会影响MLR模型的拟合精度。LSTMN模型的优点是可以将热误差作为模型输入，避免温度变量之间的共线性。而且，它的记忆能力可以有效地实现热误差的长期记忆行为的表达。在参数相同的情况下，TCN的拟合性能优于LSTMN，因为TCN模型还具有记忆性能和捕获时序特征的优势。超参数对误差模型的性能影响很大。批处理大小和过滤器数量是两个重要的超参数，它们都通过STO算法进行了优化。可见，优化效果显着。STO-TCN模型拟合精度达到98.84％，MAE为0.3595，而TCN模型拟合精度为95.42％，MAE为1.3543。STO-TCN模型的拟合指数远优于上述四种模型。更重要的是，神经网络模型的训练是耗时的，耗时与参与计算的参数数量有关，如附录所示。STO-TCN、TCN、LSTMN和MLR模型的参数数量分别为3177、853、1774465和43。MLR、LSTMN、TCN和STO-TCN模型的耗时分别为3.76s、121.08s、112.74s和176.10s。参数的数量由结构和超参数决定。STO-TCN的批处理大小是TCN模型的三倍，TCN的过滤器数量是STO-TCN模型的两倍。结果表明，滤波器的个数是决定参数个数和训练时间的关键因素，而且LSTMN模型的训练参数远大于TCN模型的训练参数，但是，LSTMN的计算时间只比TCN模型长一点。说明TCN还有进一步提升的空间。此外，STO算法增加了STO-TCN模型的训练次数，导致STO-TCN模型耗时变长。

表4拟合性能评估

2.3、STO-TCN热误差预测迁移学习模型

2.3.1、STO-TCN模型的预测性能

本实施例建立了STO-TCN热误差预测迁移学习模型模型，并利用2#工况下的数据验证迁移学习的效果。得到MLR、LSTMN、TCN和STO-TCN模型的迁移学习模型的预测结果，如图17所示。可以看出，TCN和STO-TCN模型具有优异的泛化性能和鲁棒性。即使工况发生变化，TCN和STO-TCN机型在参数锁定的情况下仍具有较高的精度。LSTMN的迁移学习模型的预测性能比TCN和STO-TCN模型差。而且，MLR模型由于不具备时序记忆，预测性能较差，热误差的非线性关系不能被MLR模型反映。

如表5所示计算评价指标，结果表明，MLR、LSTMN、TCN和STO-TCN模型的迁移学习模型的预测能力分别为92.09％、92.94％、93.26％和97.53％。STO-TCN模型的RMSE远小于TCN模型，说明STO算法可以帮助找到更好的超参数。STO算法发现的超参数可以保证STO-TCN模型的性能优于随机生成超参数的TCN模型。TCN模型的RMSE小于LSTMN模型的RMSE，说明TCN模型捕捉时间序列数据与时间关系的能力更强，而TCN模型的能力比LSTMN模型更优秀。LSTMN模型的预测效果比MLR模型要优秀得多。TCN包括前馈和反馈计算。前馈计算用于提取输入数据的特征信息，反馈计算用于校正网络，然后输出数据尽可能接近实测数据。TCN模型集成了时域建模能力，同时具有CNN特有的参数少的特征提取能力。与LSTMN相比，TCN的主要优势在于TCN模型的训练和处理速度比LSTMN快很多，并且TCN模型对时间序列数据的预测精度与LSTMN相近甚至超过。TCN模型的快速处理速度归功于其源自图像处理的并行思维。基于RNN结构的网络，包括LSTMN，在处理时间序列数据时，只能一次(即一个时间步长)读取一定长度的数据，从而限制了这类网络的训练和处理速度。这种网络与大时间跨度相关联，当间隔超过时间步长，这种网络无法很好地维护许多数据特征信息的记忆。TCN模型基于CNN结构，由于卷积神经核的收敛功能，可以用较小的处理单元在高层合并大量的低级信息，这极大地提高了TCN模型在处理大容量多维数据时的预测精度和训练速度，尤其是对于长时间跨度的时间序列数据。对于TCN的网络结构，其运算单元和各层网络采用一维结构，进而支持一维数据输入。虽然TCN是一种卷积网络，但与CNN模型相比，TCN模型有两个显着的特征，即因果卷积和扩张卷积。上述两个卷积在解决序列问题时相比一些RNNs提高了TCN模型的预测精度和训练速度。在因果卷积中，时间t的输出包含先前的信息，因此TCN模型比LSTMN可以记住更长的过去信息。在扩张卷积中，感受野也被放大，使得TCN模型能够捕获更广泛的输入。最后，显着提高了TCN模型的预测精度和训练速度。MLR、LSTMN、TCN和STO-TCN模型的迁移学习模型的耗时分别为2.85s、33.65s、31.53s和31.92s。迁移学习模型的时间消耗远远少于训练好的模型。值得一提的是，STO-TCN模型的时间消耗显着减少，因为不需要搜索最优超参数。与经过良好训练的MLR、LSTMN、TCN和STO-TCN模型相比，迁移学习模型的时间消耗减少率分别为24.20％、72.21％、72.03％和81.87％。从而显着提高了误差补偿系统的实时性能。

表5预测性能评估

2.3.2、误差控制验证

车铣加工中心数控系统为西门子840D。安装位移传感器测量热误差，并将采集到的热误差送入数据采集系统。数据采集系统中的信号处理模块实现数据过滤。然后将STO-TCN误差模型嵌入DSP TMS320LC240x/LF240x的计算处理模块中，计算热偏移。I/O界面显示不同方向的热偏移，最终补偿值显示在CNC界面上。将补偿值发送到车铣加工中心的CNC控制器，将偏移值插入到加工指令中以实现热误差补偿。

根据ISO 10791-7加工标准试样，比较补偿效果，如图18所示。加工参数如下：主轴转速为5000r/min。X轴和Y轴的进给速度分别为5mm/min和8mm/min。C轴在加工过程中是静止的，试件固定在其上。切削深度为20μm。标准试样加工时无补偿，有螺距误差补偿，有补偿。然后测量孔距和平方距，如表6中所列，初始条件意味着机床开启十分钟；热工况是机床加热2小时的状态。然后进行螺距误差补偿和当前的误差补偿。结果表明，无补偿热状态下孔距误差在[16μm，19μm]范围内。此外，孔距的加工误差分别在[4μm，6μm]和[2μm，4μm]范围内，基于螺距误差补偿和当前误差补偿，加工误差比带螺距补偿降低43％以上，比不带补偿降低64％。对于螺距误差补偿和当前误差补偿，初态和热态补偿的加工误差几乎相同，方边的加工误差具有相同的趋势，这意味着热致误差是完全相同的。

表6带和不带热误差补偿的加工误差(mm)

3、结论

为了提高经验模型的鲁棒性和泛化能力，建立了STO-TCN的迁移学习模型。建立误差机理模型，推导出主轴偏微分方程，结果表明热误差的长时记忆行为具有显着性。30步内热误差的自相关系数也表明热误差是典型的时间序列数据，应考虑热误差的长期记忆行为。因此，使用TCN模型来预测热误差。此外，超参数是影响神经网络模型预测精度的因素。因此提出STO算法对超参数进行优化，进而建立STO-TCN模型。主要结论如下：

(1)将经验模型和机理模型相结合，实现热误差的准确预测。推导出的热偏微分方程表明热误差具有长期记忆行为。热误差的自相关系数也表明它是一个时间序列数据，在误差预测中应考虑长期记忆行为。因此，需要一个具有长期记忆和时序捕获能力的模型来预测热误差。然后提出了兼具LSTMN的记忆能力和CNN的特征捕捉能力的TCN模型来预测热误差。可见，热偏微分方程的理论推导和求解为经验模型提供了建模方向。对于LSTMN、TCN和STO-TCN模型，必须根据自相关系数选择合理的时间步长。

(2)MLR、LSTMN、TCN、STO-TCN的拟合能力分别为92.05％、94.84％、95.42％、98.84％。LSTMN、TCN和STO-TCN模型考虑了热误差的长期记忆行为，MLR模型忽略了热误差的长期记忆行为。MLR模型以临界温度为输入，没有考虑热误差的时序特性。聚类分析不能完全消除温度变量之间的共线性。所以MLR模型的拟合精度很容易受到温度变量共线性的影响。结果表明，MLR模型的预测性能不如LSTMN、TCN、STO-TCN等模型。LSTMN模型具有记忆能力。但是，它不具备CNN的时序特征捕捉能力。所以LSTMN的拟合精度比TCN差。提出的STO算法用于优化TCN模型的超参数。结果表明，STO算法可以找到一个优秀的批处理大小和过滤器的数量，以提高预测性能。所以TCN的拟合精度不如STO-TCN。STO-TCN、TCN、LSTMN、MLR的参数个数分别为3177、853、1774465、43。训练好的MLR、LSTMN、TCN和STO-TCN模型的时间消耗分别为3.76s、121.08s、112.74s和176.10s。结论是STO-TCN适合作为误差控制模型。

(3)应用迁移学习来提高训练良好的STO-TCN模型的鲁棒性和泛化能力。在迁移学习的过程中，锁定了两层TCN，限制了这两层的参数更新，以减少训练时间。只允许全连接层到输出层的参数更新。MLR、LSTMN、TCN和STO-TCN的迁移学习模型的预测能力分别为92.09％、92.94％、93.26％和97.53％。MLR、LSTMN、TCN和STO-TCN模型的耗时分别为2.85s、33.65s、31.53s和31.92s。可以看出，迁移学习模型的时间消耗远小于训练好的模型。与经过良好训练的MLR、LSTMN、TCN和STO-TCN模型相比，迁移学习模型的时间消耗减少率分别为24.20％、72.21％、72.03％和81.87％。从而显着提高了误差补偿系统的实时性能。

(4)实际加工实验表明，加工误差比带螺距补偿降低43％以上，比不带补偿降低64％。因此，使用STO-TCN的迁移学习模型进行补偿是有效的。证明了所提出的STO-TCN迁移学习模型的有效性，并验证了迁移学习可以显着提高模型鲁棒性的结论。此外，迁移学习模型的时间消耗减少率显着，表明迁移学习可以有效减少训练时间。此外，还证明了训练良好的STO-TCN模型在#1工作条件下的有效性，并且所提出的STO对超参数的优化是有效的。TCN能够有效反映热误差的长期记忆行为，STO-TCN的迁移学习模型适合作为误差控制模型。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。