CN116227550A

CN116227550A - 一种基于残差时间注意力时间卷积网络的软测量建模方法

Info

Publication number: CN116227550A
Application number: CN202310148799.8A
Authority: CN
Inventors: 吴宝凡; 郑小青; 孔亚广; 江爱朋; 郑松
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-06-06

Abstract

本发明公开了一种基于残差时间注意力时间卷积网络的软测量建模方法，属于软测量建模领域。本发明首先将时间注意力模块与时间卷积网络结合，将之前时间步长和当前时间步长之间的相互影响集成到当前时刻。然后，在时间注意力的基础上加入残差连接。最后，进行质量变量的预测。本发明能更好地提取数据之间的非线性以提高预测性能，更准确地提取出数据之间的相关特征。

Description

一种基于残差时间注意力时间卷积网络的软测量建模方法

技术领域

本发明涉及软测量建模领域，具体是涉及一种基于残差时间注意力时间卷积网络的软测量建模方法。

背景技术

在现代复杂工业过程中，经常会因为环境的恶劣、技术的限制、延迟严重等原因无法对关键质量变量进行实时监控和优化，但质量变量对工业过程的影响至关重要。而随着经济技术的快速发展，工业化进程也随之快速推进，化工、制药等过程工业对于生产模式的要求更加精细，在实际工业生产过程中一些重要的变量指标很难通过在线获得，无法及时帮助实现流程工业的实时监控，这对工业自动化的生产质量、生产产量都造成了极大的影响，软测量技术为复杂非线性流程工业提供解决思路。在软测量建模中，利用在工业过程中收集到的过程变量预测难以获取的质量变量，所建立的数学模型可以准确反映变量之间存在的映射关系。软传感器不仅有良好的预测性能，还可以提高工业过程的安全性，优越的性能使得软测量技术广泛应用于控制系统实现过程工业的监测、控制和优化。深度学习在软传感器建模中应用广泛，并取得很好的预测性能，然而，如何建立更加准确的模型，从而更好的提取数据之间的相关性，以提高模型的预测性能是目前软测量领域的研究热点。

循环神经网络一直认为是时序模型的代名词，在工业时序问题上表现出优越的性能，这是因为RNN和LSTM内部的长时间记忆功能决定了它可以很好的处理数据之间的强非线性和动态性，提取出更有效的隐藏特征，而CNN通常认为更适用于处理图像数据而不适合处理时序问题，但是，近期的一些研究表明，相对于循环神经网络，时间卷积网络在处理时序问题中表现出更好的性能。在软测量建模问题中，一些过程变量对于要预测的质量变量的影响有时要经过很多时间步长，虽然RNN和LSTM善于捕捉长期依赖关系，但是随着时间序列的增长，传递的有效信息依然会减弱，此外，RNN和LSTM对于当前时刻的预测必须等待前一时刻的计算结果，在处理大规模数据时需要花费更长的运行时间。而时序卷积网络(TCN)结构特点可以很好的解决以上问题。

时间卷积网络不是单个卷积层，而是通过堆叠temporal block，灵活使用残差连接来构建深度网络，temporal block为一系列堆叠层，每一个temporal block依次包含两个扩张的因果卷积层和校正的线性单元(ReLU)激活函数，同时为了提高训练的稳定性和更快的收敛速度，对每个卷积核进行了权值归一化。此外，在ReLU激活层之后加入dropout正则化操作以防止过拟合，最后加入残差连接将当前temporal block的输入添加到第二个dropout层的输出中以实现跨层传递信息，相加的结果作为下一个temporal block的输入，如果第一个卷积层的输入和第二个卷积层的输出通道数量不一致，则在残差连接中加入1×1的卷积。

TCN中的因果卷积、膨胀卷积和残差连接在处理过程变量的非线性和长时间动态依赖性上有更大的优势，可以根据任务特性灵活设置感受野的大小，并且TCN继承了传统卷积神经网络的基本权重共享特点，在一定程度上缓解RNN中存在的梯度消失和梯度爆炸的问题，同时TCN可以进行大规模并行运行，不用像RNN那样需要等待上一时刻的运算结果，运算速度也随之提高。但是现有的基于TCN的软测量建模方法，并没有考虑在输入时之前时间步长过程变量和当前时刻过程变量之间具有很强的相关性。

发明内容

本发明针对现有技术的不足，提出一种基于残差时间注意力时间卷积网络的软测量建模方法。本发明首先将时间注意力模块与时间卷积网络结合，将之前时间步长和当前时间步长之间的相互影响集成到当前时刻，但在此过程中可能会出现原始信息丢失的情况，所以为了最大程度保留原始信息，再在时间注意力的基础上加入残差连接，最后进行质量变量的预测。

本发明的具体步骤如下：

步骤S1：获取工业数据集，并进行预处理。

步骤S2：设计一种基于残差时间注意力时间卷积网络模型，并在训练集进行监督训练。

该网络结构包括三层堆叠层temporal block，每一层temporal block依次经过残差时间注意力模块、因果膨胀卷积模块、weight normalization层、ReLU层、dropout层、因果膨胀卷积模块、weight normalization层、ReLU层、dropout层进行处理；同时，考虑到残差块输入和输出可能会出现维度不一致的情况，所以在残差连接中加入1×1的卷积，最后利用线性变换得到预测输出。

步骤S3：在步骤S2的基础上，使用残差时间注意力时间卷积网络模型对测试集进行测试。

作为进一步改进的技术方案，步骤S1包括以下步骤：

步骤S11：搜集用于工业软测量建模的数据集D＝{X，Y}＝{(x_t，y_t)}，X为所搜集到的过程变量集合，Y为搜集到的质量变量集合，其中t∈1，2，...，T，T为搜集的样本数，x_t∈R^d表示t时刻收集的d维过程变量，y_t为t时刻的质量变量。

步骤S12：对搜集到的数据集D进行窗口化处理，窗口大小为k，此时经过处理的新的数据集为D′＝{X′，Y′}＝{(x_(t-k)：t，y_t)}，X′为对步骤S11中X经过窗口化后的新的过程变量集合，Y′为对步骤S11中Y经过窗口化后的新的质量变量集合，其中x_(t-k)：t＝[x_(t-k)，...，x_t]。

步骤S13：将步骤S12得到的新的数据集按照7∶3的比例划分为训练集和测试集。

作为进一步改进的技术方案，步骤S2包括以下步骤：

步骤S21：将步骤S1中得到得训练集过程变量作为残差时间注意力时间卷积网络的输入并输出对应质量变量的预测值。其中，对于t时刻的预测，此时网络的输入过程变量为x_(t-k)：t＝{x_(t-k)，...，x_t}，网络计算后对应输出的质量变量y_t的预测值

计算方式如下：

H₁＝temporal block⁽¹⁾{x_(t-k)：t}

H₂＝temporal block⁽²⁾(H₁)

H₃＝temporal block⁽³⁾(H₂)

作为进一步改进的技术方案，步骤S21进一步包括：

步骤S211：第一层temporal block⁽¹⁾的输入为步骤S1预处理后的数据x_(t-k)：t，首先经过残差时间注意力模块得到

其中残差注意力模块先经过时间注意力将当前时刻变量和该时刻之前的变量之间存在的潜在相关特征集成到当前时刻得到/>

但是在此过程中可能会出现原始信息部分丢失的情况，所以有必要在此加入一个残差连接将原始输入数据x_(t-k)：t加入后续操作，最大程度保留原始信息，由此得到/>

再依次进行因果膨胀卷积层、weight normalization层、ReLU层、dropout层、因果膨胀卷积层、weightnormalization层、ReLU层、dropout层，最后加入1×1的卷积残差连接将temporal block⁽¹⁾的输入添加到第二个dropout层的输出中，得到第一层temporal block的隐藏特征H₁，temporal block⁽¹⁾的具体计算过程如下：

首先经过残差时间注意力模块，用三个不同的线性变换f、g、h将输入过程变量x_(t-k)：t分别映射到向量keys(K)、query(Q)和values(V)：

K＝f(x_(t-k)：t)

Q＝g(x_(t-k)：t)

V＝h(x_(t-k)：t)

其次计算权值矩阵W：

其中W_i，j表示权值矩阵W的第i行第j列，i，j＝t-k，...，t，d_k是keys、query和values的维度。提取出W的下三角形部分得到W_s：

然后在W_s的第一个维度上做softmax处理，再和V做点乘得到

至此

为时间注意力模块得出的结果，之后为了最大程度保留原始信息加入残差连接：

残差时间注意力模块得到的结果为

最后/>

和一般时间卷积网络一样，作为temporal block⁽¹⁾第一个因果膨胀卷积层的输入，依次经过weightnormalization层、ReLU层、dropout层，再进入二个卷积层模块，依次经过weightnormalization层、ReLU层、dropout层，假设z为上述一系列堆叠层的实际计算输出，最后1×1卷积残差连接将temporal block⁽¹⁾的输入添加到第二个dropout层的输出中，1×1卷积只是为了防止temporal block⁽¹⁾输入和第二个dropout层输出的通道数量不一致，若是通道数量一致，那么就不需要再做1×1卷积，假设通道数一致，那么：

最终得到H₁为第一层temporal block的输出。

步骤S212：网络第二层temporal block的输入为第一层temporal block的输出H₁，之后和第一层一样经过残差时间注意力模块、因果膨胀卷积模块、weightnormalization层、ReLU层、dropout层和残差连接模块等一系列计算过程，得到第二层temporal block的输出H₂，temporal block⁽²⁾计算过程如下：

H₂＝z(H₁)+H₁

其中，w(H₁)为包含残差时间注意力模块的一系列堆叠层的实际计算输出。

步骤S213：网络第三层temporal block的输入为第二层temporal block的输出H₂，同样和第一层、第二层temporal block一样，经过相同的网络结构和计算过程得到H₃，temporal block⁽³⁾计算过程如下：

H₃＝z(H₂)+H₂

步骤S214：将第三层temporal block得到的结果H₃，通过一个线性变换得到网络预测质量变量，计算方式如下：

步骤S22：多次更改残差时间注意力时间卷积神经网络模型的超参数，包括卷积核大小f和卷积核个数k_n，并计算不同超参数情况下的目标函数loss，使得目标函数最小的参数为残差时间注意力时间卷积网络最优超参数。

作为进一步改进的技术方案，步骤S22包括以下步骤：

步骤S221：在网络结构temporalblock层数一定的情况下，为了保证感受野的范围可以完全覆盖输入信息，根据感受野满足的公式：

r＝1+2×(f-1)×2ⁿ-1

其中r为感受野大小，f为卷积核大小，n为网络temporal block的层数，根据具体任务所需感受野大小可以确定卷积核的大小。

步骤S222：卷积核大小确定后需要设置最合适的卷积核个数k_n，为了确定最佳卷积核个数首先随机设置网络的超参数，并计算不同参数情况下的目标函数loss，得到目标函数最小的超参数为残差时间注意力时间卷积网络最优超参数。

与现有技术相比，本发明的有益效果是：

时间卷积网络结构在处理长时间复杂数据上具有一定优势，本发明在时间卷积网络的基础上考虑了每个时刻的变量和之前时刻变量之间存在或多或少的相关性，本发明可以更准确的提取出数据之间的相关特征，相比于其他方法，在一定程度上提高了预测性能，本发明技术方案应用于脱丁烷塔软传感器可实现丁烷浓度精确预测。

附图说明

图1为膨胀因子d＝1、2、4，卷积核大小f＝3的膨胀因果卷积例子；

图2为膨胀因子d＝1、卷积核大小f＝3的残差连接例子；

图3为时间卷积网络软测量建模方法的网络结构图；

图4为时间注意力的结构图；

图5为本发明基于残差时间注意力时间卷积网络软测量建模方法的网络结构图；

图6为残差时间注意力结构图；

图7位四种模型的具体预测结果图。

具体实施方式

以下将结合附图对本发明提供的技术方案作进一步说明。

实施例1：

本发明提出了一种基于残差时间注意力时间卷积网络的软测量建模方法，并应用于脱丁烷塔软传感器可实现丁烷浓度精确预测，脱丁烷塔是从石脑油中去除丁烷(C4)的重要单元，然而，C4的浓度并不是直接在底部测量的，而是通过气相色谱仪在顶部获得的，而分析仪的位置导致C4浓度的测量存在一定的时间延迟，因此，软传感器设计可以实现对C4浓度的在线估计，对C4浓度进行实时监测，以便将C4降低到最小，实现利润最大化，因此采用软传感器对其进行预测。

时间卷积网络TCN中的因果卷积、膨胀卷积和残差连接在处理过程变量的非线性和长时间动态依赖性上有更大的优势，可以根据任务特性灵活设置感受野的大小，并且缓解了梯度消失和梯度爆炸的问题，同时TCN可以进行大规模并行运行，运算速度也随之提高。因果膨胀卷积和残差连接如图1和图2所示，图1为膨胀系数d＝1、2、4，卷积核大小f＝3的因果膨胀卷积，可以看出，当膨胀系数为1时，即为普通卷积，并且增大d和f都能增大感受野，而zero-padding可以保证输入和输出张量长度相同；图2为d＝1，f＝3的TCN残差块，当输入通道数量和输出通道数量不相等时，则可选用1×1卷积。

随着工业过程的复杂，数据之间的相关性越来越复杂，TCN可以根据具体任务灵活改变kernel size和接受域大小，将更久之前的变量也纳入考虑之中，更好的处理输入变量之间的非线性和动态性，因此TCN相比于循环神经网络更适用于工业软测量建模，如图3为具有三个temporal block的软测量时间卷积模型(TCN)。然而，虽然原来的TCN考虑了输入变量之间有很强的相关性，但其实每个时刻的变量和该时刻之前的变量之间都存在一定的相关性，因此，本发明提出一种残差时间注意力的时间卷积网络软测量建模方法，网络结构图如图5，首先在TCN中引入时间注意力，如图4将当前时刻的输入信息和该时刻之前的输入信息整合在一起作为每层temporal block新的输入，这样就可以把它们之间存在的潜在相关特征提取出来，但是在整合过程中，可能会出现原来信息部分丢失的情况，所以为了解决这个问题在引入注意力机制的基础上加入残差连接，如图6所示，最大程度保留原始信息。最后利用线性变换得到预测输出。

更具体的，本发明基于时间注意力时间卷积网络的工业软传感器建模方法，包括如下步骤：

步骤S1：搜集用于脱丁烷塔丁烷浓度软测量任务的数据集，并进行预处理；

步骤S1包括以下步骤：

步骤S11：搜集用于工业软测量建模的数据集D＝{X,Y}＝{(x_t,y_t)}，X为所搜集到的过程变量集合，Y为搜集到的质量变量集合，其中t∈1，2，...，T，T为搜集的样本数，共2393个，x_t表示t时刻收集的过程变量，其中过程变量有7个，y_t为t时刻的质量变量，注意，为了更好的学习变量之间的非线性动态关系，此时将t-1时刻的质量变量也作为t时刻的质量变量，那么t时刻的质量变量就有8个，即x₁(t)、x₂(t)、x₃(t)、x₄(t)、x₅(t)、x₆(t)、x₇(t)、y(t-1)。

步骤S12：对搜集到的数据集D进行窗口化处理，窗口大小为k＝39，此时经过处理的新的数据集为D′＝{X′，Y′}＝{(x_(t-k)：t，y_t)}，X′为对步骤S11中X经过窗口化后的新的过程变量集合，Y′为对步骤S11中Y经过窗口化后的新的质量变量集合，其中x_(t-k)：t＝[x_(t-k)，...，x_t]，此时的样本个数为2354。

步骤S13：将步骤S12得到的新的数据集按照7：3的比例划分为训练集和测试集，那么约有1648组训练集和706组测试集。

步骤S2：设计一种基于残差时间注意力时间卷积网络模型，并在训练集进行监督训练，残差时间注意力时间卷积网络模型如图5所示。

该网络结构包括三层temporal block，每一层temporal block依次经过残差时间注意力模块、因果膨胀卷积模块、weight normalization层、ReLU层、dropout层、因果膨胀卷积模块、weight normalization层、ReLU层、dropout层进行处理，其中，对每个卷积核进行了weight normalization权值归一化，是为了提高训练的稳定性和更快的收敛速度，这可以抵消梯度爆炸等问题；此外，在ReLU激活层之后加入dropout正则化操作以防止出现过拟合问题；同时，考虑到残差块输入和输出可能会出现维度不一致的情况，所以在残差连接中加入1×1的卷积，最后利用线性变换得到预测输出。

步骤S2包括以下步骤：

步骤S21：将步骤S1中得到得训练集过程变量作为残差时间注意力时间卷积网络的输入并输出对应质量变量的预测值。其中，对于t时刻的预测，此时网络的输入过程变量为x_(t-k)：t＝{x_(t-k)，...，x_t}，网络计算后对应输出的质量变量yt的预测值

计算方式如下：

H₁＝temporal block⁽¹⁾{x_(t-k)：t}

H₂＝temporal block⁽²⁾(H₁)

H₃＝temporal block⁽³⁾(H₂)

步骤S21进一步包括：

步骤S211：temporal block⁽¹⁾的输入为步骤S1预处理后的数据x_(t-k)：t，首先经过残差时间注意力模块得到

如图4所示，首先经过时间注意力模块，用三个不同的线性变换f、g、h将输入过程变量X_(t-k)：t分别映射到向量keys(K)、query(Q)和values(V)：

K＝f(x_(t-k)：t)

Q＝g(x_(t-k)：t)

V＝h(x_(t-k)：t)

然后计算权值矩阵W：

其中W_i，j表示权值矩阵W的第i行第j列，i，j＝t-k，...，t，d_k是keys、query和values的维度。同时，因为时序任务的特点，不能泄露未来信息，因此要对未来时间步长信息进行屏蔽，所以提取出W的下三角形部分得到W_s(图4中阴影部分)：

然后在W_s的第一个维度上做softmax处理，再和V做点乘得到

至此

为时间注意力模块得出的结果，之后为了最大程度保留原始信息加入残差连接，如图6所示：

残差时间注意力模块得到的结果为

最后/>

最终得到H₁为第一层temporal block的输出。

H₂＝z(H₁)+H₁

H₃＝z(H₂)+H₂

步骤S22：多次更改残差时间注意力时间卷积神经网络模型的超参数，包括卷积核大小f和卷积核个数k_n，并计算不同超参数情况下的目标函数loss，使得目标函数最小的参数为残差时间注意力时间卷积网络最优超参数，目标函数计算方式如下：

其中j∈Train表示对训练集中所有样本进行计算，m为训练集样本数，此时m＝1648。

步骤S22包括以下步骤：

步骤S221：在网络结构temporal block层数一定的情况下，为了保证感受野的范围可以完全覆盖输入信息，根据感受野满足的公式：

r＝1+2×(f-1)×(2ⁿ-1)

其中r为感受野大小，f为卷积核大小，n为网络temporal block的层数，根据具体任务所需感受野大小可以确定卷积核的大小，此时已知n＝3，输入长度为40，感受野必须大于等于输入长度，所以可以得到卷积核大小f＝4。

步骤S222：卷积核大小确定后需要设置最合适的卷积核个数k_n，为了确定最佳卷积核个数首先将网络的超参数learning rate、batch size、epoch分别设置为0.001、64和240，然后分别将卷积核个数设置为20、30和40，并计算不同参数情况下的目标函数loss，得到目标函数最小的参数为残差时间注意力时间卷积网络最优参数，实验验证，当卷积核个数为30时为最优参数。

步骤S3包括以下步骤：

步骤S31：将测试集输入残差时间注意力时间卷积网络模型，模型按照步骤S21所述方式输出测试质量变量预测值。

步骤S32：计算测试集根均方差(RMSE)衡量指标，计算方式如下：

其中T是测试集的样本数，y_t和

分别表示t时刻的标记值和预测值。

为了验证残差时间注意力时间卷积网络的有效性，建立了AR-TCN模型、LSTM模型和SAE模型预测丁烷浓度作为对比。为了结果的公正信，对比实验中的模型AR-TCN和所提出的RTA-TCN保持参数一致，其中the number of temporal block(b_n)都设置为3，并且kernel size(f)都设置为4，AR-TCN和RTA-TCN都采用Adam optimizer进行训练，learningrate为0.001，batch size设置为64，epoch为240；LSTM模型的窗口大小k设置为40，包含一个有60neurons的hidden layer；而SAE这种一维向量作为输入的网络模型，将前39个时间滞后样本堆叠在当前样本中，所以设置SAE的网络结构为[320，250，140，80，60，5]，实验结果如下表1所示：

表1

从表中可以看出，AR-TCN模型的预测性能相比于LSTM和SAE已经有明显的提高，而本文所提出的残差时间注意力时间卷积网络(RTA-TCN)软测量建模方法表现出的预测性能更好，RMSE最小为0.00652，R²最大为0.99870。

四种模型的具体预测结果如图7所示，LSTM表现出的预测结果最差，这可能是因为LSTM在捕获数据之间的非线性和动态性关系的能力较差；而SAE相比于LSTM模型性能好一点，SAE使用了无监督预训练，可能可以提取更有效的特征，但是SAE的输入是由多个滞后数据堆叠得到的一维向量，这可能会导致某些变量的自相关结构被破环，所以模型性能在四种模型中偏差；AR-TCN已经可以表现出良好的性能，AR-TCN模型可以将过程变量的非线性和动态性描述的更好，提取出更具有代表性的高级特征。从结果可以看出，在输入相同的情况下，时序卷积网络相对于卷积神经网络在时序任务上表现出更好的预测性能。图7中(c)表明，AR-TCN在前大半段数据上的性能非常优越，但是在最后一些数据上表现出的性能不是很好，而RTA-TCN模型在整个数据集上都表现出最好的性能，可以很好的跟踪测试集数据的真实值，这是因为相比于AR-TCN，RTA-TCN还考虑了之前时间变量和当前时间变量之间存在的潜在相关性，将之前时刻的变量对当前时刻变量的内部影响集成到当前时刻，在此基础上，还加入残差连接，以防止在集成过程中可能出现的原始信息丢失的情况，这样可以提取出更具有代表性的隐藏特征。

Claims

1.一种基于残差时间注意力时间卷积网络的软测量建模方法，其特征在于，包括如下具体步骤：

步骤S1：获取工业数据集，并进行预处理；

步骤S2：设计一种基于残差时间注意力时间卷积网络，并在训练集进行监督训练；

该网络包括三层堆叠块temporal block，每一层temporal block依次经过残差时间注意力模块、因果膨胀卷积模块、weight normalization权值归一化层、ReLU层、dropout层、因果膨胀卷积模块、weight normalization层、ReLU层、dropout层进行处理；

同时，在残差时间注意力模块的残差连接中加入1×1的卷积，最后利用线性变换得到预测输出；

2.根据权利要求1所述的一种基于残差时间注意力时间卷积网络的软测量建模方法，其特征在于，步骤S1包括以下具体步骤：

步骤S11：搜集用于工业软测量建模的数据集D＝{X,Y}＝{(x_t,y_t)}，X为所搜集到的过程变量集合，Y为搜集到的质量变量集合，其中t∈1,2,...,T，T为搜集的样本数，x_t∈R^d表示t时刻收集的d维过程变量，y_t为t时刻的质量变量；

步骤S12：对搜集到的数据集D进行窗口化处理，窗口大小为k，此时经过处理的新的数据集为D′＝{X′,Y′}＝{(x_(t-k):t，y_t)}，X′为对步骤S11中X经过窗口化后的新的过程变量集合，Y′为对步骤S11中Y经过窗口化后的新的质量变量集合，其中x_(t-k):t＝[x_(t-k)，...，x_t]；

步骤S13：将数据集D′按比例划分为训练集和测试集。

3.根据权利要求2所述的一种基于残差时间注意力时间卷积网络的软测量建模方法，其特征在于，步骤S2包括以下具体步骤：

步骤S21：将训练集中的过程变量作为残差时间注意力时间卷积网络的输入，并输出对应质量变量的预测值，其中，对于t时刻的预测，此时网络的输入过程变量为x_(t-k):t＝{x_(t-k)，...，x_t}，网络计算后对应输出的质量变量y_t的预测值

步骤S22：多次更改残差时间注意力时间卷积神经网络模型的超参数，包括卷积核大小f和卷积核个数k_n，并计算不同参数情况下的目标函数loss，使得目标函数最小的超参数为残差时间注意力时间卷积网络最优超参数。

4.根据权利要求3所述的一种基于残差时间注意力时间卷积网络的软测量建模方法，其特征在于，步骤S21具体包括：

步骤S211：对于第一层temporal block，第一层temporal block的输入为预处理后的数据x_(t-k):t，首先经过残差时间注意力模块得到

同时加入一个残差连接将原始输入数据x_(t-k):t加入后续操作，由此得到/>

再依次进行因果膨胀卷积层、weight normalization层、ReLU层、dropout层、因果膨胀卷积层、weight normalization层、ReLU层、dropout层，最后加入1×1的卷积残差连接将第一层temporal block的输入添加到第二个dropout层的输出中，得到第一层temporal block输出的隐藏特征H₁；/>

所述残差时间注意力模块具体计算过程如下：

首先经过残差时间注意力模块，用三个不同的线性变换f、g、h将输入过程变量x_(t-k):t分别映射到向量K、Q和V，然后计算权值矩阵W：

其中W_i,j表示权值矩阵W的第i行第j列，i，j＝t-k，...，t，d_k是向量K、Q和V的维度，同时，提取出W的下三角形部分得到W_s：

然后在W_s的第一个维度上做softmax处理，再和V做点乘得到

至此

残差时间注意力模块得到的结果为

步骤S212：第二层temporal block的输入为第一层temporal block的输出H₁，之后经过和第一层temporal block相同的计算过程，得到第二层temporal block的输出H₂；

步骤S213：第三层temporal block的输入为第二层temporal block的输出H₂，同样经过和第一层、第二层temporal block相同计算过程得到H₃，

其中，Linear为线性变换。

5.根据权利要求4所述的一种基于残差时间注意力时间卷积网络的软测量建模方法，其特征在于，在步骤S21中，每一个temporal block层最后1×1卷积残差连接将第一层temporal block的输入添加到第二个dropout层的输出中，但是当通道数量一致时，就不再做1×1卷积。

6.根据权利要求5所述的一种基于残差时间注意力时间卷积网络的软测量建模方法，其特征在于，在步骤S22中，确定卷积核大小f和卷积核个数k_n具体包括以下步骤：

步骤S221：在网络结构temporal block层数一定的情况下，根据感受野满足的公式：

r＝1+2×(f-1)×2ⁿ-1

其中，r为感受野大小，f为卷积核大小，n为网络temporal block的层数；

步骤S222：卷积核大小确定后设置卷积核个数k_n，首先将网络的超参数进行初始化设置，并计算不同参数情况下的目标函数loss，得到目标函数最小的超参数为残差时间注意力时间卷积网络最优超参数。