CN113569356B

CN113569356B - 深度残差lstm网络及热误差预测模型的建模方法和迁移学习方法

Info

Publication number: CN113569356B
Application number: CN202110850022.7A
Authority: CN
Inventors: 马驰; 刘佳兰; 桂洪泉; 王时龙
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2023-12-12
Anticipated expiration: 2041-07-27
Also published as: CN113569356A

Abstract

本发明公开了一种深度残差LSTM网络，其特征在于：包括依次设置的：输入层；卷积层；池化层；重塑层；LSTM层；Dense层；输出层；所述LSTM层与密集层之间设有n个预激活残差块，且n≥1；所述预激活残差块包括依次设置的第一BN层、第一权重层、第一卷积层、第二BN层、第二权重层和第二卷积层；所述第一BN层和第二BN层用于解决网络无法收敛的问题；所述第一权重层和第二权重层用于提取特征；所述第一BN层与第一权重层之间以及第二BN层与第二权重层之间分别具有用于减少参数之间的相互依赖的激活函数。本发明还公开了一种热误差预测模型的建模方法及迁移学习方法。本发明能够避免网络深度增加导致的预测精度饱和问题，能够有效提高预测精度和鲁棒性。

Description

深度残差LSTM网络及热误差预测模型的建模方法和迁移学习方法

技术领域

本发明属于机械误差分析技术领域，具体的为一种深度残差LSTM网络及热误差预测模型的建模方法和迁移学习方法。

背景技术

精密机床作为实现复杂零件高精度加工的关键设备，在航空、航天、核电等领域得到广泛应用。但热误差会显着降低机床的加工精度。已经证明，热误差是总误差的主要部分。因此，减少或避免热误差对于保证加工零件的几何误差极为重要。不平衡的温度场是热误差的主要原因。内部和外部热源导致温度场不平衡。内部热源包括伺服电机、轴承、滚珠丝杠、滚动导轨等，但不限于这些热源。滚动功能部件，包括轴承、滚珠丝杠和滚动导轨以及伺服电机也会导致温度升高。工作条件对内部热源有直接影响，环境温度、阳光和人类也随着时间的推移而不同，因此动态热误差具有时变和非线性效应。

基于机理的误差模型能够反映产生热误差的根本原因，但是基于机理的误差模型不够灵活和准确，不足以显示机床的热行为，因为边界条件难以准确确定。基于数据的误差建模和控制方法具有当前机器学习和深度学习方法的优势，与基于机理的模型相比，基于数据的误差模型更加灵活，使用起来更加方便。以前的研究将临界温度视为基于数据的模型的输入，聚类方法用于选择临界温度，但不能完全消除温度之间的共线性，导致鲁棒性下降。而且，传统模型的预测精度不够高，因为误差模型没有自学习和自更新能力。此外，经验相关性和基于数据的误差模型不能准确反映误差机理。

发明内容

有鉴于此，本发明的目的在于提供一种深度残差LSTM网络及热误差预测模型的建模方法和迁移学习方法，能够避免网络深度增加导致的预测精度饱和问题，能够有效提高预测精度和鲁棒性。

为达到上述目的，本发明提供如下技术方案：

本发明首先提出了一种深度残差LSTM网络，其特征在于：包括依次设置的：

输入层；

卷积层：利用多个不同的卷积核得到多个特征向量来实现特征降维；

池化层：用于减少每一层训练所涉及的参数数量；

重塑层：重新排列某个维度的多维矩阵，并构造一个元素数相同但维度不同的新矩阵；

LSTM层：用于表征热误差的长期和非线性记忆行为；

Dense层；

输出层；

所述LSTM层与密集层之间设有n个预激活残差块，且n≥1；所述预激活残差块包括依次设置的第一BN层、第一权重层、第一卷积层、第二BN层、第二权重层和第二卷积层；所述第一BN层和第二BN层用于解决网络无法收敛的问题；所述第一权重层和第二权重层用于提取特征；所述第一BN层与第一权重层之间以及第二BN层与第二权重层之间分别具有用于减少参数之间的相互依赖的激活函数。

进一步，所述预激活残差块的残差结构可表示为：

其中，x₀表示输入；W_i表示与第i^th个残差单元相关的权重；x_m表示任意深度层m的特征。进一步，所述激活函数采用ReLU函数，并可表示为：

ReLU(x)＝max(0,x)。

本发明还提出了一种热误差预测模型的建模方法，包括如下步骤：

1)对原始热误差数据进行预处理；

2)随机生成斑鬣狗种群，判断斑鬣狗种群的初始位置是否超出预设范围；若是，则将斑鬣狗种群的初始位置更改为边界；若否，则保持斑鬣狗种群的位置；

3)建立如上所述的深度残差LSTM网络；

4)将斑鬣狗的位置映射为深度残差LSTM网络的batch size和epoch size；

5)将预处理后的热误差数据输入深度残差LSTM网络，以MAE(平均绝对误差)作为斑鬣狗优化算法的适应度，通过深度残差LSTM网络的训练和预测得到MAE的值；

6)判断MAE是否满足预设要求；若是，则执行步骤8)；若否，则以斑鬣狗优化算法更新斑鬣狗种群的位置，若更新后的适应度小于更新前的最优适应度，则以搜索到斑鬣狗位置X_t+1替换更新前的最优的斑鬣狗位置X^*；

7)判断迭代次数是否达到最大值，若是，则终止迭代，得到最佳解；若否，则令t＝t+1，循环步骤4)和步骤7)；

8)输出MAE，以优化得到的斑鬣狗位置映射的batch size和epoch size作为深度残差LSTM网络的超参数。

进一步，所述步骤1)中，采用ILMS过滤算法对原始热误差数据进行预处理，且ILMS过滤算法的滤波器估计得到的输出表示为：

其中，X(n)表示状态向量，且X(n)＝[x(n),x(n-1),…,x(n-M+1)]^T；W^T(n)表示权重向量W(n)的转置矩阵，且W(n)＝[w(n),w(n-1),…,w(n-M+1)]^T；x(n)和y(n)分别表示输入和输出；M表示最大迭代次数；w(n)表示权重系数；a为系数，且a≥1；

其中，权重系数的更新为：

w(n+1)＝w(n)+μ(n)e(n)x(n)

e(n)为估计误差，且：

e(n)＝d(n)-y(n)

其中，d(n)表示n时刻的期望响应；μ(n)为非线性可变步长；

其中，c表示控制函数形状的常数；β表示控制函数范围的常量。

进一步，所述步骤2)中，采用混沌伯努利映射生成斑鬣狗种群的初始位置，并使斑鬣狗在搜索空间中均匀分布，其中，混沌伯努利映射表示为：

其中，λ＝0.4；z₀＝0.152；

通过伯努利位移变换，得到：

z_k+1＝z_k mod1

其中，z_k表示第k个斑鬣狗；z_k+1表示表示第k+1个斑鬣狗；λ为0.5。

进一步，所述斑鬣狗优化算法包括包围过程、狩猎过程和攻击过程三种行为；其中，包围过程为：

D_h＝|B·P_p(x)-P(x)|

P(x+1)＝P_p(x)-E·D_h

其中，D_h表示斑鬣狗与其猎物之间的距离；x表示当前迭代次数，且x＝1,2,3,…,Max_iteration，Max_iteration表示最大迭代次数；P(x)表示斑鬣狗的位置；P_p(x)表示猎物的位置；B和E分别为swing因子和收敛因子，具体定义如下：

B＝2·rand₁

E＝2h·rand₂-h

其中，rand₁和rand₂均表示[0,1]之间的两个随机数；h表示控制因子。

进一步，所述步骤7)中，若迭代次数未达到最大值，则采用差分变异算子(DMO)对斑鬣狗种群进行一次变异操作，然后用贪心策略比较两个种群的质量，保留优势种群，表示为：

其中，表示采用贪心策略优化后的斑鬣狗种群；P_h(x+1)表示当前最优解集的平均值；F表示变异权重因子；/>和/>分别表示两个个体；a和b分别表示1和种群规模之间的两个随机整数。

进一步，所述控制因子采用非线性控制因子，且：

本发明还提出了一种热误差预测模型的迁移学习方法，包括如下步骤：

1)采集目标设备的热误差数据，并对目标设备的热误差数据进行预处理；

2)改变由如上所述热误差预测模型的建模方法所构建的热误差预测模型的Dense层的参数，将经预处理后的所述目标设备的热误差数据输入并训练所述热误差预测模型的权重和偏差，得到迁移学习误差模型。

本发明的有益效果在于：

本发明的深度残差LSTM网络，通过在LSTM层与密集层之间设置预激活残差块，能够在训练过程中保存部分原始输入信息，转移学习目标，避免网络深度增加导致预测精度饱和。对于普通的深度网络，不同层通过非线性映射叠加以拟合输出；在残差网络中，通过恒等映射直接连接深浅层，然后避免了每两个相邻层之间复杂的梯度推导计算，从而可以有效地将梯度从深网络转移到浅层网络，即本发明的深度残差LSTM网络能够避免网络深度增加导致的预测精度饱和问题，能够有效提高预测精度和鲁棒性。

本发明热误差预测模型的建模方法，热误差数据作为时间序列，具有不稳定、非线性和周期性不确定性的特点并受许多因素影响，首先对原始热误差数据进行预处理以剔除奇异值，然后利用斑鬣狗优化算法对深度残差LSTM网络的batch size和epoch size进行优化，得到以MAE为适应度的全局最优超参数，再结合深度残差LSTM网络够避免网络深度增加导致的预测精度饱和的问题，能够提高齿形磨床热误差的预测精度和鲁棒性。

本发明热误差预测模型的迁移学习方法，通过在热误差预测模型内采用具有预激活残差块的深度残差LSTM网络，仅微调Dense层的参数，利用数据量较小的目标设备的热误差数据对热误差预测模型进行训练，优化其权重和偏差后，即可得到迁移学习误差模型，实现目标设备的误差控制。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明深度残差LSTM网络实施例的结构示意图；

图2为残差块的结构示意图；(a)为原始残差块；(b)为预激活残差块；

图3为LMS自适应滤波器的原理图；

图4(a)调整函数与估计误差之间的曲线关系；图4(b)为可变步长与估计误差之间的曲线关系；

图5为控制因子比较曲线图；

图6为LSTM网络的单位结构图；

图7为预测精度与网络深度之间的关系曲线图；

图8(a)为普通网络层的结构图；图8(b)为残余网络层的结构示意图；

图9为螺杆轴的传热示意图；

图10为机床#1的热行为测量图；(a)为机床#1；(b)为位移传感器的安装示意图；

图11为测量得到的原始热误差数据图，图11(a)为温度数据；图11(b)为误差数据；

图12为经ILMS过滤算法预处理后的热误差数据图；(a)为传统LMS与ILMS的比较曲线图；(b)为误差数据波动范围的比较图；

图13(a)为不同残差块的预测曲线图；图13(b)为不同时间步长的预测曲线图；

图14(a)为不同模型的预测拟合曲线图；图14(b)为不同模型的预测误差曲线图；

图15为迁移学习的不同方法示意图；

图16为本发明热误差预测模型的迁移学习方法的原理框图；

图17机床#2的热行为，图(a)为热行为测量；(b)为温度曲线；(c)为热误差曲线；

图18为不同模型的预测性能；(a)为预测结果曲线；(b)为预测误差曲线；

图19为样品测试的示意图；

图20为试样加工误差的曲线图；(a)为没有误差控制；(b)为ILMS-DSHO-DRLSTMN迁移学习模型；(c)为ILMS-DRLSTMN迁移学习模型；(d)为ILMS-DSHO-LSTMN迁移学习模型；(e)为ILMS-BP迁移学习模型；(f)为ILMS-MLRA迁移学习模型；(g)为ILMS-LSSVM迁移学习模型。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好的理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本实施例热误差预测模型的建模方法，包括如下步骤：

1)对原始热误差数据进行预处理。

本实施例采用ILMS过滤算法对原始热误差数据进行预处理。LMS算法鲁棒性强，易于实现，如图3所示，广泛应用于系统识别和噪声消除，已成为常用的自适应滤波算法。高鲁棒性和收敛速度是热误差控制的基本要求，因为需要高实时性，热误差的动态噪声消除是一个典型的应用。收敛性和准确性之间的矛盾已经成为限制其在这些情况下应用的瓶颈之一，为了解决这个问题，设计了一个新的调整功能。

ILMS过滤算法的滤波器估计得到的输出表示为：

其中，权重系数的更新为：w(n+1)＝w(n)+μe(n)x(n)

e(n)为估计误差，且：e(n)＝d(n)-y(n)

其中，d(n)表示n时刻的期望响应；μ为步长，满足以下关系：

其中，γ_max表示相关矩阵R{E[W(n)-W₀]}的最大特征值，其中W₀表示维纳解；E[W(n)-W₀]表示维纳矩阵。

收敛速度和滤波精度共同构成了滤波算法性能的评价指标。优秀的滤波算法收敛速度快，滤波精度足够高。对于固定步长m(n)，步长较小时滤波精度高，收敛速度低；步长大时，滤波精度低，收敛速度高。因此，对于固定步长的LMS，很难在收敛速度和滤波精度方面达到最佳。上述不可调和的矛盾已经成为传统LMS广泛应用的重要瓶颈。针对这些缺点和局限性，针对传统LMS提出了一些改进方法，包括可变步长LMS和归一化LMS，可变步长LMS具有简单性和可行性的优点，具体的，步长由Sigmoid函数优化，并表示为

其中c表示控制函数形状的常数：β表示控制函数范围的常量；m₁(n)表示变步长公式1；m₂(n)表示变步长公式2。

Sigmoid函数的陡峭程度直接由参数c决定，与Sigmoid函数的增长率呈负相关；β表示Sigmoid函数中因变量的范围，决定了函数的高度。在初始阶段，滤波估计结果的估计误差e(n)是不可避免的。所以应该使用大的步长来有效地保证收敛速度足够高。随着更新计算，算法逐渐进入稳定状态，估计精度提高，估计误差e(n)开始减小并趋于稳定。相应地，应大幅减小步长，以确保滤波器能够保持较小的稳态误差并具有出色的鲁棒性。针对目前Sigmoid函数的不足，在Sigmoid函数的基础上设计了一个调整函数χ。

其中，a≥1。

当估计误差e(n)较小时，调整函数χ接近于1，调整函数基本不影响变步长函数的性质，如图4(a)所示。当估计误差e(n)较大时，调整函数χ急剧增大，可变阶跃函数变化明显，从而加快收敛速度，如图4(b)所示。调整函数χ可以调整收敛特性。然后提出改进的非线性可变步长μ(n)作为步长m₁(n)和调整函数χ的乘积。

以非线性可变步长μ(n)替换步长μ，权重系数的更新为：

w(n+1)＝w(n)+μ(n)e(n)x(n)

可以看出，非线性可变步长μ(n)是一个以估计误差e(n)为自变量的偶函数。可变步长在阈值两侧具有不同的函数属性。当估计误差e(n)小于阈值g时，函数基本保持原函数的性质。当误差大于阈值g时，滤波器的收敛速度呈指数增长，非线性类型。主要原因是对等式中的步长因子应用了扩展增加调整，加上调整函数χ，最终优化收敛速度。随着a的增加，收敛速度增加，达到最大收敛值，误差阈值也不断增加。在实际应用中，通常a≥5。

2)随机生成斑鬣狗种群，判断斑鬣狗种群的初始位置是否超出预设范围；若是，则将斑鬣狗种群的初始位置更改为边界；若否，则保持斑鬣狗种群的位置。

本实施例采用混沌初始化策略随机生成斑鬣狗种群。混沌理论由于具有较强的遍历性、敏感性和非重复性等优点，被广泛引入到群体智能算法中，以增强种群多样性，提高其优化性能。与随机搜索相比，它可以以较高的概率和速度搜索搜索空间。Logistic映射被广泛用于生成混沌序列，但其均匀性较差。与Logistic映射相比，伯努利映射结构简单，收敛速度快，遍历均匀性好。在本研究中，混沌初始化是在DSHOA(差分斑鬣狗优化算法)的初始迭代阶段进行的。选择伯努利映射生成的混沌序列来改进DSHOA。基于混沌伯努利映射，生成鬣狗种群的初始位置，并在搜索空间中均匀分布，增加种群多样性和优化精度。从而可以提高解决方案的效率和质量。使用伯努利映射，并表示为：

其中，λ＝0.4；z₀＝0.152；

通过伯努利位移变换，得到：z_k+1＝z_kmod1

3)建立深度残差LSTM网络。

本实施例的深度残差LSTM网络，包括依次设置的：

输入层；

池化层：用于减少每一层训练所涉及的参数数量；

LSTM层：用于表征热误差的长期和非线性记忆行为；

Dense层；

输出层；

具体的，LSTM层内设有LSTM网络，LSTM网络的单元结构如图6所示。整个记忆单元结构由输入门、遗忘门、记忆单元和输出门组成。每个门都有其独特的功能，四种门共同决定了一个LSTM网络单元的输出。LSTM网络的一个单元的原理如下：

i^t＝σ(W_ix^t+U_ih^t-1+b_i)

o^t＝σ(W_ox^t+U_oh^t-1+b_o)

f^t＝σ(W_fx^t+U_fh^t-1+b_f)

a^t＝tanh(W_cx^t+U_ch^t-1+b_c)

c^t＝f^t⊙c^t-1+i^t⊙a^t

h^t＝o^t⊙tanh(c^t)

其中，x^t表示当前流入细胞单元的新信息；h^t-1表示历史信息：W_i，W_o和W_f表示三个门的权重；b_i，b_o和b_f表示三个门的偏置；f^t，c^t-1，c^t，a^t，i^t和o^t分别表示分别为遗忘门、前一时刻状态、当前时刻状态、当前状态候选、输入门和输出门；⊙表示产品。

随着网络的深入，网络可能会出现过拟合、梯度消失或爆炸的情况，严重影响训练过程，导致性能不佳。根据独特的残差块设计提出了DRLSTMN误差预测模型。然后解决了训练瓶颈，包括梯度消失和网络退化。最后，提高了DRLSTMN误差模型的预测性能。在深度学习中，深度网络的预测能力普遍优于浅层网络。在实践中，如果要最大化预测模型的预测精度，网络深度的增加是不可避免的。如图7所示，开始时，随着预测模型网络的深度，精度不断提高。但是，当网络层数过大时，模型的准确率会显着下降，模型将变得非常难以训练和调优。出现这种现象的原因是网络模型采用链式法则逐层反馈传播梯度，随着网络深度的增加，网络梯度在反向过程中会逐渐减小甚至消失。而且，深度越深，梯度下降或消失越严重。导致之前网络层的权重无法有效转移到浅层网络，出现梯度分散或梯度爆炸。

残差块是DRLSTMN的核心，其主要思想是在训练过程中保存部分原始输入信息，转移学习目标，避免网络深度增加导致预测精度饱和。对于普通的深度网络，不同层通过非线性映射叠加以拟合输出H(x)，如图8(a)所示。在残差网络中，通过恒等映射直接连接深浅层，然后避免了每两个相邻层之间复杂的梯度推导计算，从而可以有效地将梯度从深网络转移到浅层网络。残差网络中的残差模块如图8(b)所示，其中x是输入，F(x)是残差函数。在深度网络的构建中加入shortcut connection(快捷连接)，输入x通过旁路分支直接连接到后续层。网络的重点转移到学习残差上，这可以保护信息的完整性。

假设当前网络层数为n，残差结构写为：x_n+1＝x_n+F(x_n,W_n)

其中W_n表示与第n^th个残差单元相关的权重；：x_n和x_n+1分别表示第n^th和(n+1)^th个残差块的输出特征。

通过递归推导，得到任意深度层m的特征表达式：

即任意深度层m的特征x_m都可以表示为浅层编号n的特征x_n加上之前所有残差函数输出F之和，说明任意深度m和n直接具有残差特征。与普通神经网络相比，它的特征x_m是由一系列向量的乘积组成。

其中W_i表示与第i^th个残差单元相关的权重；x₀表示输入。

可见，残差网络的求和计算远小于普通神经网络的求积计算。对于反向传播，假设损失函数为ε，根据反向传播的链式推导规则得到如下关系。

可以发现，导数可以分为两部分：

1)不通过权重层转移的组成部分

2)通过权重层传递的组成部分

前者保证输入可以直接转回到任意深度n，推导中也避免了梯度消失或爆炸，因为后者不能为-1。然后通过这种带有残差网络的巧妙结构设计，简化了学习目标和困难。更重要的是，叠加多层网络并没有降低整个学习模型的误差率，反而增加了误差率。然后打破对网络深度的约束，提高了误差预测模型的预测精度，而无需额外的计算。因此应用残差块来构建误差预测模型。有两种残差块，即原始残差块和预激活残差块，如图1所示。为了避免不同的数据维度和分布影响预测精度，增加了批量归一化(BN)层。残差块主要由两个权重层、两个批量归一化(BN)层、两个卷积层和ReLU函数组成。BN层解决了网络无法收敛的问题，提高了网络的泛化能力，加快了训练过程。权重层用于提取特征，ReLU用于减少参数之间的相互依赖，提高非线性建模能力。加法是求和运算。在原始残差块中，第一层对误差数据进行卷积运算，增加了计算复杂度。预激活残差块采用预激活连接方式。所以在本研究中使用了预先激活的残差块。残差块中的激活函数为ReLU，表示为

ReLU(x)＝max(0,x)

本实施例的深度残差LSTM网络(DRLSTMN)的结构由一层输入层、一层卷积层、一层池化层、一层重塑层、一层LSTM网络层、n个残差块、一层Dense层和一层输出层组成。卷积层主要是利用多个不同的卷积核得到多个特征向量来实现特征降维。池化层用于减少每一层训练所涉及的参数数量。从而加快训练速度，挖掘误差数据更深层次的有用信息。池化层的大小为5×1，移动步长为5。重塑层重新排列某个维度的多维矩阵，构造一个元素数相同但维度不同的新矩阵，即多维矩阵被重塑层转换为一维向量。LSTM网络层因其独特的长短期记忆功能而被使用。由于热误差的长期和非线性记忆行为是明显的。因此，LSTM网络的长期和短期记忆特征用于表征热误差的长期和非线性记忆行为。设计的DRLSTMN中有n个预激活残差块，那么DRLSTMN中总共有2n+1个卷积层。误差数据依次循环通过两个预先激活的残差块，最后输出预测误差。

4)将斑鬣狗的位置映射为深度残差LSTM网络的batch size和epoch size。

5)将预处理后的热误差数据输入深度残差LSTM网络，以MAE(平均绝对误差)作为斑鬣狗优化算法的适应度，通过深度残差LSTM网络的训练和预测得到MAE的值。

6)判断MAE是否满足预设要求；若是，则执行步骤8)；若否，则以斑鬣狗优化算法更新斑鬣狗种群的位置，若更新后的适应度小于更新前的最优适应度，则以搜索到斑鬣狗位置X_t+1替换更新前的最优的斑鬣狗位置X^*。

标准的SHOA(斑鬣狗优化算法)源自非洲斑鬣狗的狩猎和觅食机制。斑鬣狗优化算法包括包围过程、狩猎过程和攻击过程三种行为。

包围过程为：斑鬣狗首先会寻找猎物，根据其视觉确定猎物的位置。将此时距离猎物最近的斑鬣狗作为当前最优解，然后根据最优解更新其他斑鬣狗的位置，得到全局最优解。

D_h＝|B·P_p(x)-P(x)|

P(x+1)＝P_p(x)-E·D_h

D_h表示斑鬣狗与其猎物之间的距离；x表示当前迭代次数，x＝1,2,3,…,Max_iteration，Max_iteration表示最大迭代次数；P(x)表示斑鬣狗的位置：P_p(x)表示猎物的位置：B和E分别为swing因子和收敛因子，具体定义如下：

B＝2·rand₁

E＝2h·rand₂-h

h＝5-(5x/Max_iteration)

其中，rand₁和rand₂表示[0,1]之间的两个随机数；h表示原控制因子，并在迭代过程中从5线性递减到0。

狩猎过程如下：斑鬣狗根据信任等级成组狩猎。在种群中定义最佳搜索个体，其他斑鬣狗个体向最佳个体移动，形成新的群体。因此，行为被具体定义为：

D_h＝|B·P_h-P_k|

P_k＝P_h-E·D_h

C_h＝P_k+P_k+1+…+P_k+N

其中，P_h，P_k分别C_h表示最佳个体、其他个体和新组的位置；N表示斑鬣狗的数量，并定义为：

N＝cout_nos(P_h,P_h+1,P_h+2,…,(P_h+M))

其中，M表示[0.5,1]的随机向量；并nos表示所有可行的解决方案。

攻击过程(局部搜索)如下：在这个阶段，斑鬣狗会不断更新自己的位置，最终对猎物发起攻击。控制因子h将从5线性减小到零，收敛因子E将逐渐减小。当|E|＜1时，斑鬣狗会发起攻击。

P_h(x+1)＝C_h/N

其中，P_h(x+1)表示当前最优解集的平均值。

搜索过程(全局探索)如下：大多数斑鬣狗根据斑鬣狗在最佳搜索组C_h中的位置搜索猎物，当收敛因子|E|＜1时，斑鬣狗再次搜索并攻击猎物，从而执行全局搜索。

本实施例的斑鬣狗优化算法采用差分斑鬣狗优化算法(DSHOA)。具体的，做了以下几何几个方面的改进：

(1)混沌初始化策略：详见本实施例热误差预测模型的建模方法的步骤2)；

(2)差分变异算子(DMO)

差分变异算子(DMO)模拟种群变异产生新的种群，然后与原始种群进行比较，保留一个优势种群。这种改进策略丰富了种群多样性，扩大了搜索范围，避免了算法陷入局部极值。DMO的原理是先进行一次变异操作，然后用贪心策略比较两个种群的质量，保留优势种群。

其中，表示采用贪心策略优化后的斑鬣狗准群；P_h(x+1)表示当前最优解集的平均值；F表示变异权重因子，其值为0.5；/>和/>分别表示两个个体；a和b分别表示1和种群规模之间的两个随机整数。保留优势种群，进行下一次迭代。

(3)非线性控制因子

标准的SHOA的控制因子h采用线性递减策略。但迭代过程本质上是非线性的。即控制因子h的线性下降不能准确反映实际的优化搜索过程。因此，设计了一个新的非线性控制因子：

新的控制因子h随迭代次数x非线性减小，如图5所示。迭代次数x越大，控制因子衰减越严重。在迭代开始时，新的控制因子h缓慢减小，然后实现渐进搜索状态。在后期，新控制因子h的衰减增大，搜索速度加快，从而得到最优解。上述行为可以提高局部最优解的搜索精度。因此，这种非线性控制因子比]中所示更符合实际收敛过程，全局优化能力进一步增强。新的控制因子h的衰减比中显示的要显着得多，进而提高了收敛速度，有利于寻找全局最优解。

7)判断迭代次数是否达到最大值，若是，则终止迭代，得到最佳解；若否，则令t＝t+1，循环步骤4)和步骤7)。

本实施例热误差预测模型的建模方法，热误差数据作为时间序列，具有不稳定、非线性和周期性不确定性的特点并受许多因素影响，首先对原始热误差数据进行预处理以剔除奇异值，然后利用斑鬣狗优化算法对深度残差LSTM网络的batch size和epoch size进行优化，得到以MAE为适应度的全局最优超参数，再结合深度残差LSTM网络够避免网络深度增加导致的预测精度饱和的问题，能够提高齿形磨床热误差的预测精度和鲁棒性。

本实施例还提出了一种热误差预测模型的迁移学习方法，包括如下步骤：

本实施例热误差预测模型的迁移学习方法，通过在热误差预测模型内采用具有预激活残差块的深度残差LSTM网络，仅微调Dense层的参数，利用数据量较小的目标设备的热误差数据对热误差预测模型进行训练，优化其权重和偏差后，即可得到迁移学习误差模型，实现目标设备的误差控制。

下面以具体实例对本实施例热误差预测模型的建模方法以及热误差预测模型的迁移学习方法的具体实施方式进行详细说明。

1、误差机理

1.1、传热建模

为了简化温度响应的建模过程，轴承#1和电机被视为第一个等效的热源，因为总热负荷相当于Q_b1轴承#1热源负载的s um，以及从伺服电机到轴承#1的热源负载。其他两个热源是移动螺母Q_n和后轴承，Q_b2如图9所示。移动螺母被视为多段热源，螺杆轴的传热方程表示为：

T(0,t)＝T_b1(t)＝Temperature of left end＝Temperature of bearing#1

T(L,t)＝T_b2(t)＝Temperature of right end＝Temperature of bearing#2

T(x_i,t_j)＝T_n(x_i,t_j)＝Temperature of moving nut

其中，c表示特定的热容量；T(x,t)表示温度；h和k分别表示对流系数和导热性；ρ表示密度；d₀和T₀分别表示间距直径和参考温度，且T(0,t)和T(L,t)分别表示左右两端的温度。然后使用变量分解方法将原点处热源的温度响应T(x,t)写为时间和位置的函数：

T(x,t)＝T_t(t)·T_p(x)

其中，T_t(t)和T_p(x)表示两个组成部分。

时间依赖组成部分表示为T_t(t)：T_t(t)＝A(1-e^-t/B)

位置依赖组成部分表示为T_p(x)：T_p(x)＝Ce^-x/D

其中，A、B、C和D分别为要识别的系数。

则，温度响应T(x,t)表示为：

T(x,t)＝A(1-e^-t/B)Ce^-x/D

1.2、误差机理

热膨胀表示为：

零时刻的热膨胀是ΔL(0)为：ΔL(0)＝f(A,C,D,L)

Δt时刻的热膨胀是ΔL(Δt)为：ΔL(Δt)＝f(A,C,D,L)(1-e^-Δt/B)

其中，Δt表示无穷小的.时间间隔。

2Δt时刻的热膨胀是ΔL(2Δt)为：

nΔt时刻的热膨胀是ΔL(nΔt)为：

可见，nΔt时刻的热膨胀ΔL(nΔt)对于ΔL((n-1)Δt),ΔL((n-2)Δt),…,ΔL(2Δt),andΔL(Δt)的历史热误差具有极强的非线性记忆特性。

2、目标设备的迁移学习

2.1、误差模型训练

2.1.1、机床#1的热误差测量

精密机床#1被视为研究对象，如图10(a)所示。最高转速为8000r/min。伺服电机额定功率为11～15kW。工作台尺寸为500mm×500mm。工作台质量0～600kg。X轴、Y轴、Z轴的额定功率分别为7.5kW、7.5kW、9kW。内冷电机额定功率0.09kW，冷却泵电机额定功率0.09kW。然后使用十一个温度传感器和五个位移传感器来测量温度场和热误差。五个位移传感器的安装如图10(b)所示。

2.1.2、误差过滤

得到原始热行为数据，如图11所示，原始温度和误差数据中奇异值明显，对数据质量影响较大。奇异值不利于高精度和鲁棒的预测。此外，由于工业领域复杂，高频噪声很重要。高频噪声压倒了有用的热信息，这不利于热误差的高精度和鲁棒预测。所以ILMS被用来排除高频噪声和奇异值的影响。

热伸长率S1用于表示误差模型的训练过程。对于热误差的高精度和鲁棒预测，奇异点和高频噪声是不允许存在的。可变步长中的值为5，所提出的ILMS用于排除高频噪声和奇异值，如图12(a)所示。原始数据的波动幅度远大于滤波后数据的波动幅度，如图12(b)所示。传统的LMS去除了大部分奇异点和高频噪声，但仍然不能完全去除奇异点和噪声。所提出的ILMS可以捕获误差数据的主要特征，并且完全去除奇异点。更重要的是，ILMS获得的滤波误差数据的波动小于传统LMS获得的波动，这意味着ILMS在排除高频噪声和奇异点方面比传统LMS有效得多。然后验证了所提出的ILMS的有效性。

2.1.3、误差模型训练

基于Python的Keras深度学习包用于构建ILMS-DSHOA-DRLSTMN模型。由于模型参数过多，DRLSTMN的batch size和epoch size这两个最重要的超参数被提出的DSHOA优化，然后batch size和epoch size分别为20和16。此外，调整残差块的数量和时间步长。当残差块数为15，timesetp为5时，预测性能最好，如图13所示，因此残差块数设为15，timesetp设为5。

总共有2n+1个卷积层。每个卷积层有三个参数，包括卷积核大小、移动步长和卷积核个数。为了提取短期特征，第一个卷积层使用宽卷积核，可以自适应地学习特征进行误差预测并提高预测精度[44]。对于第一个卷积层(1#)，卷积核大小为64×1，移动步长为16，卷积核数为32。其余2n个卷积层的具体参数见表1。

表1.卷积层的参数设置

/>

LSTM网络层的设置如下：初始学习率为0.001。使用了Adam优化器，它动态调整学习率，使参数在更新时保持稳定。Adam优化器的效果非常突出，在实际应用中超越了其他优化器的效果。均方误差(MSE)是确定训练效果的误差损失评价函数。最后，获得ILMS-DSHOA-DRLSTMN的参数和设置，如表2中所列。

表2.ILMS-DSHOA-DRLSTMN的参数

ILMS-DRLSTMN的结构与ILMS-DSHOA-DRLSTMN的结构相同，ILMS-DRLSTMN的参数是随机产生的。从ILMS-DSHOA-DRLSTMN中去除残差块得到ILMS-DSHOA-LSTMN，然后ILMS-DSHOA-LSTMN的结构与ILMS-DSHOA-DRLSTMN的结构不同。ILMS-DSHOA-LSTMN的参数与ILMS-DSHOA-DRLSTMN的参数相同。包括ILMS-BP、ILMS-MLRA和ILMS-LSSVM在内的传统误差模型的输入是临界温度。模糊聚类用于选择临界温度，并选择T₅,T₆,T₇,T₉,and T₁₀作为临界温度。对于ILMS-BP网络，只有一层隐藏层，输入层、隐藏层、输出层的神经元数量分别为5、11和1。学习率为0.001。最大迭代次数为1000。传递函数为trainlm。MATLAB中的newff和train函数分别用于构建和训练模型。ILMS-MLRA 写为：

E＝-0.2309-0.7314T₅+7.0575T₆-1.6333T₇+0.2827T₉+0.2589T₁₀

ILMS-LSSVM模型的参数如下：径向基函数(RBF)是核函数。可调参数γ＝50、偏差b＝0.2390、σ²＝1。拟合结果如图14(a)所示。热伸长率变化明显。热伸长率的快速剧烈变化对误差模型的预测性能提出了很高的要求。然后比较预测性能，如图14(b)所示。ILMS-DSHOA-DRLSTMN、ILMS-DSHOA-LSTMN、ILMS-DRLSTMN、ILMS-BP、ILMS-MLRA和ILMS-LSSVM模型的残余波动范围在[-0.9667μm，1.0864μm]，[-1.9725μm,1.9858μm],[-0.9326μm,1.5212μm],[-1.3135μm,0.9222μm],[-2.9544μm,4.2247μm],和[-1.18031.91μm]可以看出，ILMS-DSHOA-DRLSTMN模型的残余波动小于其他模型。此外，ILMS-MLRA 的残余波动最大，因为ILMS-MLRA 模型无法建立非线性关系。ILMS-DSHOA-LSTMN和ILMS-DRLSTMN模型的拟合能力比ILMS-DSHOA-DRLSTMN差。然后验证了所提出的DRLSTMN和DSHOA的有效性。DRLSTMN的参数优化是必要的。

计算评价指标见表3。所提出的ILMS-DSHOA-DRLSTMN的计算时间为23.64s，由于ILMS、DRLSTMN和DSHOA之间的相互作用，计算时间比其他模型长。所提出的ILMS中的非线性计算是不可避免的。提出的DSHOA 是多目标优化模型，DRLSTMN是深度学习网络。与ILMS-DSHOA-LSTMN和ILMS-DRLSTMN模型相比，ILMS、DRLSTMN和DSHOA之间的交互导致ILMS-DSHOA-DRLSTMN的计算时间较长。ILMS-MLRA的计算时间为2.85s，是上述模型中最短的，因为ILMS-MLRA模型没有网络传播和非线性计算。ILMS-BP和ILMS-MLRA模型的计算时间分别为4.69s和4.27s。对于ILMS-BP模型，存在非线性计算和网络传播。对于ILMS-LSSVM，存在非线性计算。所以ILMS-BP和ILMS-LSSVM的计算时间比ILMS-MLRA长。ILMS-BP和ILMS-LSSVM不是深度学习模型，那么ILMS-BP和ILMS-LSSVM的计算时间比ILMS-DSHOA-DRLSTMN和ILMS-DRLSTMN的计算时间短。ILMS-DSHOA-DRLSTMN、ILMS-DRLSTMN、ILMS-DSHOA-LSTMN、ILMS-BP、ILMS-MLRA和ILMS-LSSVM模型的拟合能力分别为98.56％、98.29％、97.23％、98.34％、95.34％和98.29％，分别。可以看出ILMS-DSHOA-DRLSTMN的拟合能力最好，ILMS-DRLSTMN、ILMS-BP、ILMS-LSSVM的拟合能力与ILMS-DSHOA-DRLSTMN的拟合能力相当.ILMS-MLRA 的拟合能力在上述模型中是最差的，因为第2节中显示的非线性关系和记忆行为无法表征。ILMS-DRLSTMN和ILMS-DSHOA-DRLSTMN的拟合能力比ILMS-DSHOA-LSTMN更优秀，因为深度残差块可以挖掘误差数据中潜在的非线性关系，并且因为DSHOA 可以增加与ILMS-DSHOA-LSTMN的匹配度。误差和模型参数。所以ILMS-DSHOA-DRLSTMN误差模型的预测效果优于其他模型。

表3.评价指标

2.2、迁移学习模型

误差规律通常体现在误差模型的结构和参数上。而且，误差模型从误差信号中提取的特征是相似的和继承的。这些特征不仅针对单一工况下的机床数据集，而且可以应用于不同工况下不同机床的误差预测。这也保证了使用迁移学习方法学习隐藏在误差数据中的潜在规律的可行性和有效性。在证明了迁移学习用于误差预测的可行性之后，有一个重要的问题需要解决。即给定一个目标域，如何在相似的源域下转移？这涉及到迁移学习的三种基本方法，包括基于样本的迁移、基于特征的迁移和基于模型的迁移。基于样本的迁移学习通过调整重要样本的权重来匹配原始模型。基于特征的迁移学习将目标域数据和源域数据转换为相同的分布式特征空间。这两种方法通常使用传统的机器学习。模型，它们的传输效果是平均的。本实施例使用基于模型的迁移学习，并且可以与深度学习相结合。使用大量误差数据训练预训练模型，为机床#1构建ILMS-DSHOA-DRLSTMN，然后将ILMS-DSHOA-DRLSTMN模型应用于目标域数据，两个域共享相同的结构和参数。通过区分不同层次的相似性，可以将源领域的知识转移到目标领域。在实践中，根据原始数据集和目标数据集的规模和相似度进行不同的处理，如图15所示。

目标数据集体积小，与原始数据集相似度高。根据图15，只根据实际情况调整了Dense层。5.1节建立的误差预测模型的训练需要大量的实验数据。但是实验数据的采集比较耗时，往往采集一组实验数据需要长达一天的时间。一个实验完成后，不能立即在机床上进行下一个实验。需要等待机床冷却，冷却过程耗时。因此，一天只能得到一组实验数据。不同机床的热误差不同，不同机床的热误差规律是相同的。原因如下：不同机床的基本结构相似，不同机床的主要热源是轴承、丝杠螺母、滚动导轨和伺服电机。因此，根据上述预训练模型的微调密集层，采用迁移学习将为机床#1建立的误差模型迁移到机床#2的误差模型，然后迁移学习模型是可行的使用从机床#2获得的少量实验数据进行再训练。迁移学习模型的实现过程如图16所示。

可以看出，使用迁移学习进行误差预测和控制的主要优点如下：

1)迁移学习需要较少的误差数据进行训练

对于机床#1，单一工况下的误差预测实验得到了大量的误差数据，利用该数据训练ILMS-DSHOA-DRLSTMN误差模型，按照5.1节可以达到很好的预测效果。然后在对机床#1的网络模型改动很小的情况下得到机床#2的模型，模型再训练不再需要机床#2的大量误差数据。

2)带有迁移学习的误差预测模型的泛化能力变得更好

构建具有出色泛化能力的模型是机器学习中最困难和最重要的部分之一。迁移学习也提高了模型对新目标机器未经训练的误差数据的出色预测能力，因为预先训练的误差预测模型是有目的地训练的，因此模型可以提取误差数据的共同特征。当模型转移到新的目标机器和工作条件下时，由于模型只能从极其通用的知识库中增量学习，因此几乎不会发生过拟合，从而保证模型的泛化能力。

3)迁移学习更容易调整误差预测模型的参数

迁移学习可以在误差预测模型中重用训练过的特定复杂结构和优化权重，避免从头开始繁琐的训练过程。进行Dense层的调整以重新训练模型。而且训练参数大大减少，训练过程更加稳定。

获得机床#2的热行为，如图17所示。奇异值很明显，有效的热信息淹没在高频噪声中。然后使用所提出的ILMS来消除奇异值和高频噪声。本实施例的机床#2即为目标设备。

在5.1节中，ILMS-DSHOA-DRLSTMN误差模型是基于机床#1的误差数据建立的。本实施例只改变了Dense层的结构，Dense层以外的结构和参数是固定的。所以本实施例只改变了Dense层的参数，使用新机床#2的小体积误差数据作为训练集，训练权重w_out和偏差b_out，其他参数保持不变。然后得到机床#2的迁移学习误差模型，迁移学习误差模型参数与ILMS-DSHOA-DRLSTMN误差模型参数相同，如表2所示。然后使用迁移学习模型来预测热伸长率，计算预测误差和实测误差之间的残差，如图18所示。用于训练迁移学习模型的数据量远小于使用的数据量训练原始模型。更重要的是，残差在[-2.0875μm,1.7821μm],[-2.3716μm,1.4956μm],[-2.0444μm,2.2582μm],[-3.3831μm,3.0002μm],[-3.0002.03μm],[-2.3716μm,1.4956μm],2.3920μm]和[-2.6536μm,2.9299μm]分别用于ILMS-DSHOA-DRLSTMN、ILMS-DRLSTMN、ILMS-DSHOA-LSTMN、ILMS-BP、ILMS-MLRA和ILMS-LSSVM模型。与拟合性能相比，上述模型的残余波动幅度有所增加。而且ILMS-DSHOA-DRLSTMN模型的残差波动幅度最小，ILMS-LSSVM和ILMS-BP模型的残差波动幅度大于其他模型。ILMS-DSHOA-DRLSTMN模型的残差波动幅度小于ILMS-DRLSTMN和ILMS-DSHOA-LSTMN模型的残差波动幅度。

计算时间、RMSE、MSE、MAE、拟合能力η等评价指标对预测性能进行评价，如表4所示。ILMS-DSHO-DRLSTMN、ILMS-DRLSTMN、ILMS-DSHO-LSTMN、ILMS-BP、ILMS-MLRA和ILMS-DSHO-DRLSTMN的计算时间分别为5.57s、4.68s、4.86s、3.25s、1.97s和3.44s ILMS-LSSVM模型，分别。迁移学习模型的计算时间远小于原始模型的计算时间。ILMS-DSHO-DRLSTMN、ILMS-DRLSTMN、ILMS-DSHO-LSTMN、ILMS-BP、ILMS-MLRA和ILMS-LSSVM模型的预测能力分别为98.37％、97.95％、97.60％、94.51％、95.41％。和96.02％，分别。与拟合能力相比，上述模型的预测能力有所下降。ILMS-DSHO-DRLSTMN的预测能力是最好的。ILMS-DSHOA-DRLSTMN、ILMS-DRLSTMN和ILMS-DSHOA-LSTMN预测能力的下降几乎没有减少，因为热误差的非线性和记忆行为被表征。ILMS-BP和ILMS-LSSVM的预测能力下降是明显的。ILMS-MLRA 模型的预测能力几乎没有改变。ILMS-DSHO-DRLSTMN误差预测模型可以有效克服网络深度过大导致预测效果下降的情况。

表4.迁移学习模型的评价指标

2.3、模型验证

该模型可以通过实际加工进行验证，然后根据加工参数用每个控制模型加工210个零件，如图19所示。主要关注尺寸D1和D2的几何精度。加工参数如下：主轴系统转速为4000r/min。X、Y、Z轴进给速度分别为0.5m/min、0.6m/min、0.4m/min。切削深度为50μm。零件材料为ASTM1045碳钢。

在加工过程中，迁移学习模型被视为控制模型。然后比较加工零件的几何误差，如图20所示。在不控制热误差时，D1和D2的几何误差波动范围分别为[-16μm，17μm]和[-12μm，16μm]]。当用ILMS-DSHO-DRLSTMN的迁移学习模型控制热误差时，D1和D2的几何误差波动范围分别为[-4μm，4μm]和[-3μm，3μm]。当用ILMS-DRLSTMN的迁移学习模型控制热误差时，D1和D2的几何误差波动范围分别为[-6μm，6μm]和[-6μm，6μm]。当用ILMS-DSHO-LSTMN的迁移学习模型控制热误差时，D1和D2的几何误差波动范围分别为[-9μm，6μm]和[-9μm，10μm]。当用ILMS-BP的迁移学习模型控制热误差时，D1和D2的几何误差波动范围分别为[-13μm，13μm]和[-10μm，11μm]。当用ILMS-MLRA的迁移学习模型控制热误差时，D1和D2的几何误差波动范围分别为[-8μm，14μm]和[-11μm，11μm]。当用ILMS-LSSVM的迁移学习模型控制热误差时，D1和D2的几何误差波动范围分别为[-11μm，11μm]和[-10μm，10μm]。可以看出，以ILMS-DSHO-DRLSTMN为控制模型的D1和D2的几何误差波动幅度小于以其他模型为控制模型的几何误差。然后验证了基于ILMS-DSHO-DRLSTMN的迁移学习模型的有效性。以ILMS-DSHO-DRLSTMN的转移学习模型为控制模型的D1和D2的几何误差波动幅度小于以ILMS-DRLSTMN的转移学习模型为控制模型的几何误差，进而验证了提议的DSHO被证明。超参数，包括epochsize和批量大小，通过提出的DSHO进行优化，提高预测性能。以ILMS-DSHO-DRLSTMN的转移学习模型为控制模型的D1和D2的几何误差波动幅度小于以ILMS-DSHO-LSTMN的转移学习模型为控制模型的几何误差的波动范围，进而验证了有效性所提出的DRLSTMN的验证。DRLSTMN实现了误差数据的深度表达。以ILMS-DRLSTMN的转移学习模型为控制模型的D1和D2的几何误差波动范围小于以ILMS-DSHO-LSTMN的转移学习模型为控制模型的，因为提出的DRLSTMN要大得多。在预测精度方面优于LSTMN。ILMS-DSHO-DRLSTMN、ILMS-DRLSTMN和ILMS-DSHO-LSTMN的迁移学习模型作为控制模型的D1和D2的几何误差波动幅度小于ILMS的迁移学习模型-BP、ILMS-MLRA和ILMS-LSSVM作为控制模型，因为传统的误差模型没有很强的记忆性能。

然后计算D1和D2几何误差的最大值(MAX)、最小值(MIN)和绝对平均值(AM)，如表5中所列。ILMS-DSHO-DRLSTMN的迁移学习模型的D1和D2的几何误差的AM比其他模型作为控制模型的要小得多，进而说明ILMS-DSHO-DRLSTMN的迁移学习模型的有效性已完全验证。以ILMS-DRLSTMN和ILMS-DSHO-LSTMN的迁移学习模型为控制模型的D1和D2的几何误差AM大于以ILMS-DSHO-DRLSTMN为控制模型的几何误差的AM。然后验证了所提出的ILMS-DSHO-DRLSTMN的有效性。上述三种模型的控制效果优于传统模型，包括ILMS-LSSVM、ILMS-MLRA和ILMS-BP，因为上述三种模型都可以表征长期记忆行为，那么误差模型的记忆性能对于热误差的高度鲁棒性预测和控制极其重要。ILMS-LSSVM的迁移学习模型的控制效果优于ILMS-MLRA的迁移学习模型，ILMS-BP的迁移学习模型的控制效果最差。

表5.几何误差

3、结论

为了减少热误差，基于DRLSTMN实现了基于迁移学习的热误差预测和控制，进行传热和误差机理建模以证明热误差的长期记忆行为；然后提出ILMS方法来过滤高频噪声并排除原始误差数据中的奇异值。预先激活的残差块旨在实现误差数据的深度表示。提出了DSHO方法来优化DRLSTMN的batch size和epoch size。然后，提出ILMS-DSHO-DRLSTMN误差模型以提高其预测精度。最后，使用预训练的ILMS-DSHO-DRLSTMN误差模型的微调密集层提出迁移学习模型。主要结论如下：

(1)传热和误差机理建模有效地反映了热误差的记忆行为。ILMS可以有效地过滤高频噪声并排除原始误差数据中的奇异值。提出的DSHOA可有效优化DRLSTMN的超参数。引入混沌伯努利映射实现混沌初始化策略，利用DMO实现对当前种群的变异操作，提高优化精度。非线性控制因子旨在加快收敛速度。

(2)设计了一个预激活的残差块以提高原始残差块的综合性能，并结合LSTMN提出DRLSTMN。DRLSTMN的超参数，包括batch size和epoch size，由DSHOA优化。最后，提出了ILMS-DSHOA-DRLSTMN误差模型。ILMS-DSHO-DRLSTMN、ILMS-DRLSTMN、ILMS-DSHO-LSTMN、ILMS-BP、ILMS-MLRA和ILMS-LSSVM模型的拟合能力分别为98.56％、98.29％、97.23％、98.34％、95.49％和98.29％，分别。ILMS-DSHOA-DRLSTMN的拟合能力强于ILMS-DRLSTMN。ILMS-DSHOA-DRLSTMN的迁移学习模型的预测能力也强于ILMS-DRLSTMN的迁移学习模型。

(3)对于目标设备(2#机床)，迁移学习能够用小数据量训练误差模型。微调的方法用于迁移学习。只改变了Dense层的结构，Dense层以外的结构是固定的。ILMS-DSHO-DRLSTMN、ILMS-DRLSTMN、ILMS-DSHO-LSTMN、ILMS-BP、ILMS-MLRA和ILMS-LSSVM模型的迁移学习模型的预测能力分别为98.37％、97.95％、97.60％、94.51％、95.41％和96.02％。残留量范围为[-1.8165μm,1.2653μm],[-2.3716μm,1.6088μm],[-2.0444μm,2.2582μm],[-3.3831μm,3.1770μm,7,32.7μm],[-2.0444μm,2.2582μm]]和[-2.7469μm,3.6898μm]分别用于ILMS-DSHO-DRLSTMN、ILMS-DRLSTMN、ILMS-DSHO-LSTMN、ILMS-BP、ILMS-MLRA和ILMS-LSSVM模型。

(4)ILMS-DSHO-DRLSTMN的迁移学习模型可以实现对新型机床的误差控制。以ILMS-DSHO-DRLSTMN为控制模型的D1和D2几何误差的波动幅度小于以其他模型为控制模型的几何误差。当不控制热误差时，D1和D2几何误差的波动范围分别为[-16μm，17μm]和[-12μm，16μm]。当用ILMS-DSHO-DRLSTMN的迁移学习模型控制热误差时，D1和D2的几何误差波动范围分别为[-4μm，4μm]和[-3μm，3μm]。当用ILMS-DRLSTMN的迁移学习模型控制热误差时，D1和D2的几何误差波动范围分别为[-6μm，6μm]和[-6μm，6μm]。当用ILMS-DSHO-LSTMN的迁移学习模型控制热误差时，D1和D2的几何误差波动范围分别为[-9μm，6μm]和[-9μm，10μm]。当用ILMS-BP的迁移学习模型控制热误差时，D1和D2的几何误差波动范围分别为[-13μm，13μm]和[-10μm，11μm]。当用ILMS-MLRA的迁移学习模型控制热误差时，D1和D2的几何误差波动范围分别为[-8μm，14μm]和[-11μm，11μm]。当用ILMS-LSSVM的迁移学习模型控制热误差时，D1和D2的几何误差波动范围分别为[-11μm，11μm]和[-10μm，10μm]。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种热误差预测模型的建模方法，其特征在于：包括如下步骤：

1)对原始热误差数据进行预处理；

3)建立深度残差LSTM网络；

所述深度残差LSTM网络包括依次设置的：

输入层；

池化层：用于减少每一层训练所涉及的参数数量；

LSTM层：用于表征热误差的长期和非线性记忆行为；

Dense层；

输出层；

所述LSTM层与密集层之间设有n个预激活残差块，且n≥1；所述预激活残差块包括依次设置的第一BN层、第一权重层、第一卷积层、第二BN层、第二权重层和第二卷积层；所述第一BN层和第二BN层用于解决网络无法收敛的问题；所述第一权重层和第二权重层用于提取特征；所述第一BN层与第一权重层之间以及第二BN层与第二权重层之间分别具有用于减少参数之间的相互依赖的激活函数；

5)将预处理后的热误差数据输入深度残差LSTM网络，以MAE作为斑鬣狗优化算法的适应度，通过深度残差LSTM网络的训练和预测得到MAE的值；

2.根据权利要求1所述热误差预测模型的建模方法，其特征在于：所述预激活残差块的残差结构可表示为：

其中，x₀表示输入；W_i表示与第i^th个残差单元相关的权重；x_m表示任意深度层m的特征。

3.根据权利要求1所述热误差预测模型的建模方法，其特征在于：所述激活函数采用ReLU函数，并可表示为：

ReLU(x)＝max(0,x)。

4.根据权利要求1所述热误差预测模型的建模方法，其特征在于：所述步骤1)中，采用ILMS过滤算法对原始热误差数据进行预处理，且ILMS过滤算法的滤波器估计得到的输出表示为：

其中，权重系数的更新为：

w(n+1)＝w(n)+μ(n)e(n)x(n)

e(n)为估计误差，且：

e(n)＝d(n)-y(n)

其中，d(n)表示n时刻的期望响应；μ(n)为非线性可变步长；

5.根据权利要求1所述热误差预测模型的建模方法，其特征在于：所述步骤2)中，采用混沌伯努利映射生成斑鬣狗种群的初始位置，并使斑鬣狗在搜索空间中均匀分布，其中，混沌伯努利映射表示为：

其中，λ＝0.4；z₀＝0.152；

通过伯努利位移变换，得到：

z_k+1＝z_k mod1

z_k表示第k个斑鬣狗；z_k+1表示表示第k+1个斑鬣狗；λ为0.5。

6.根据权利要求1所述热误差预测模型的建模方法，其特征在于：所述斑鬣狗优化算法包括包围过程、狩猎过程和攻击过程三种行为；其中，包围过程为：

D_h＝|B·P_p(x)-P(x)|

P(x+1)＝P_p(x)-E·D_h

B＝2·rand₁

E＝2h·rand₂-h

7.根据权利要求6所述热误差预测模型的建模方法，其特征在于：所述步骤7)中，若迭代次数未达到最大值，则采用差分变异算子对斑鬣狗种群进行一次变异操作，然后用贪心策略比较两个种群的质量，保留优势种群，表示为：

8.根据权利要求6所述热误差预测模型的建模方法，其特征在于：所述控制因子采用非线性控制因子，且：

9.一种热误差预测模型的迁移学习方法，其特征在于：包括如下步骤：

2)改变由如权利要求1-8任一项所述热误差预测模型的建模方法所构建的热误差预测模型的Dense层的参数，将经预处理后的所述目标设备的热误差数据输入并训练所述热误差预测模型的权重和偏差，得到迁移学习误差模型。