CN113468479B

CN113468479B - 一种基于数据驱动的冷连轧工业过程监测与异常检测方法

Info

Publication number: CN113468479B
Application number: CN202110668761.4A
Authority: CN
Inventors: 周晓敏; 王泺评; 陈想; 范秋溦; 刘帅
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2023-08-08
Anticipated expiration: 2041-06-16
Also published as: CN113468479A

Abstract

本发明公开了一种基于数据驱动的冷连轧工业过程监测与异常检测方法，包括：建立由历史数据构成的数据集，并对数据集中样本进行零均值处理；确定隐变量个数；确定核参数；建立KPLS过程监测模型，得到各统计量的阈值，将计算得到的统计量与对应的阈值进行比较，判断是否发生异常；建立KPLS异常诊断模型，确定异常变量。本发明能够对冷连轧工业生产过程中出现的故障进行监测，并进行故障的溯源和原因分析，以提早发现并及时处理问题，保障正常的生产过程及产品质量。

Description

一种基于数据驱动的冷连轧工业过程监测与异常检测方法

技术领域

本发明涉及冷轧带钢技术领域，特别涉及一种基于数据驱动的冷连轧工业过程监测与异常检测方法。

背景技术

冷连轧带钢生产已经实现了高度的自动化，虽然提高了产品的产量以及凸度的精度，但是随着用户要求的提高，更薄规格与更高强度的带钢出现了各种板形问题，严重影响企业的生产效益。

板形指的是轧后带钢内部残余应力沿带宽方向的分布情况，取一定长度的带钢自然地放到一个平面上，常常可以观察到带钢的翘曲。翘曲有各种形式，大多数是波浪形，薄的带钢经常产生皱纹或局部凹凸。翘曲有时可以遍布整个带宽，有时只限于局部。这种翘曲和带钢的变形不均与内应力分布不均密切相关。目前冷连轧线上的带钢最常见的板形缺陷主要有八种：左边浪、右边浪、中间浪、双边浪、左三分浪、右三分浪、四分浪和边中复合浪。

将带钢裁成若干纵条并铺平成若干纵条，取横向上不同点的轧后长度一般使用带钢长度方向上各个纵条的相对长度差来表示板形，相对长度差也称为板形指数ε，其中ε＝ΔL/L。由于ε是一个很小的数值，因此在实际生产中常用I单位来表示板形，I单位与板形指数的关系如式所示：

式中，ΔL是带钢长度方向上纵条长度与基准长度之间的差值；L是带钢基准长度，一般取各纵条长度的平均值。

在实际的应用中，很多复杂系统的内部机理是不为人们所了解，或者研究对象的时变性比较强，几乎不能用机理模型来进行描述。在这种情况下，完全根据机理来了解对象中各变量之间的关系就变得更加困难。针对这样的问题，数据挖掘、机器学习和模式识别等数据驱动方法用来分析和建模有很好的应用效果。同时，随着测量仪器和传感器不断发展，获取系统的输入输出数据变得越来越容易。基于此，利用测量仪器或传感器获取样本数据或测量数据来分析研究对象中变量之间的相互依赖关系，从而利用获取到的数据来建立对象的数学模型，即数据驱动的建模方法。该方法是将系统看作黑箱，不分析其内部机理，而只根据研究对象中的输入输出数据之间的相互关系直接建模，模型的在线校正能力强，并能适用于高度非线性和严重不确定的系统，从而为解决复杂系统的建模问题提供了有效途径。

但是，基于数据的非机理建模也会由于数据的噪声污染等问题导致建立的模型泛化能力差，与此同时大多数模型是“黑箱”结构的模型，不能反映系统的真实特性，进而影响对系统的研究。因此，将基于数据驱动的非机理建模与工艺知识和经验相结合，利用先验知识为基于数据驱动的模型节省训练样本，同时利用基于数据驱动的模型补偿原先模型无法解释的特性，这样做大大提高了模型的可解释性和应用范围。

发明内容

本发明的目的在于提供一种基于数据驱动的冷连轧工业过程监测与异常检测方法，对冷连轧工业生产过程中出现的故障进行监测，然后建立基于数据驱动的异常诊断模型，进行故障的溯源和原因分析，以提早发现并及时处理问题，避免干扰正常生产过程及产品质量。

为解决上述技术问题，本发明的实施例提供如下方案：

一种基于数据驱动的冷连轧工业过程监测与异常检测方法，包括以下步骤：

步骤一、建立由历史数据构成的数据集，并对所述数据集中的样本进行零均值处理；

步骤二、确定隐变量个数；

步骤三、确定核参数；

步骤四、建立KPLS过程监测模型，得到各统计量的阈值，将计算得到的统计量与对应的阈值进行比较，判断是否发生异常；

步骤五、建立KPLS异常诊断模型，确定异常变量。

优选地，所述步骤一具体包括：

选取若干故障率高于预设值的钢种的历史数据建立所述数据集，并对所述数据集中的样本进行零均值处理。

优选地，在所述步骤二中，采用交叉验证法确定隐变量个数，具体包括：

假定排除第i个样本之外的样本对第i个样本的拟合值为对每个样本重复上述拟合，则y_j的预测误差平方和为PRESS_hj，计算如下：

相应的y_j的预测误差平方和SS_hj计算如下：

设Y的预测误差平方和为PRESS_h，有

相应Y的误差平方和为SS_h，有

在实际计算中，当(PRESS_h/SS_h-1)≤0.95²时，增加该隐变量是有益的，反之则认为无明显的改善。

优选地，所述步骤三具体包括：

在核矩阵中核参数f_ker的选取满足Mercer定理，包括以下三种：

多项式核：

f_ker(x,y)＝<x,y>^d

Sigmoid核：

f_ker(x,y)＝tanh(β₀<x,y>+β₁)

高斯核：

式中参数d,β₀,β₁,c根据先验知识确定。

优选地，所述步骤四具体包括：

基于核偏最小二乘法将原始数据Φ分解为主元空间和残差空间，在主元空间和残差空间分别使用T²统计量和SPE统计量进行监控；

对新样本x_new映射为φ(x_new)并进行零均值处理后为则

式中，t_new∈R^γ为样本的得分，因此，KPLS主元空间的T²统计量为：

对应阈值为：

KPLS残差空间的SPE统计量为：

对应阈值为：

式中，参数g和h通过训练样本根据如下式计算：

式中，k_n∈R^N为核矩阵K的第n行的转置；k_n,j表示k_n的第j个元素；为零均值处理后的核矩阵/>的第n行的转置；t_n∈R^γ为得分矩阵T的第n行的转置；

根据计算得到的统计量与对应的阈值相比较来判断是否发生异常，判定逻辑如下：

优选地，KPLS算法步骤如下：

假设在生产过程中进行n次采样，得到过程变量矩阵X∈R^N×m和质量变量矩阵Y∈R^N ^×p，其中m为过程变量个数，p为质量变量个数，KPLS算法将过程变量X和Y投影到一个由少量潜变量(t₁,t₂,···,t_γ)构成的低维空间中，γ是KPLS潜变量个数，其模型为：

式中，γ为潜变量个数，T∈R^N×γ称为得分矩阵，P∈R^M×γ是的负载矩阵，Q∈R^l×γ是Y的负载矩阵，/>和Y_r分别是/>和Y的残差矩阵，KPLS模型的求解算法如下：

步骤1、令i＝1，Y₁＝Y，

步骤2、选取u_i为Y_i的第一列，

步骤3、t_i＝t_i/||t_i||；

步骤4、c_i＝Y_i ^Tt_i，u_i＝Y_ic_i；

步骤5、u_i＝u_i/||u_i||；

步骤6、重复步骤2至步骤5直到t_i收敛；

步骤7、平减和Y_i，/>

步骤8、收集参数T＝[T t_i]，U＝[U u_i]；

步骤9、令i＝i+1，重复步骤2至步骤8，直到i＞γ；

KPLS算法将过程变量矩阵X核化处理后变为在KPLS算法中，将/>和Y通过特征空间中隐变量的关系进行关联：

U＝TB B＝diag{b₁,b₂,...,b_γ}

KPLS算法中存在如下关系：

T^TT＝I_γ

令

则

另外，和Y之间的回归系数矩阵Ψ_Φ为：

对于每个在线测量样本x_new同样需要映射到特征空间F，即：

x_new∈R^m→φ(x_new)∈R^M

对φ(x_new)进行零均值处理：

则零均值处理后的在线核样本为：

式中，

k_new∈R^N为没有经过零均值处理之前的在线核样本，其元素k_new,j,j＝1,2,...,N为：

k_new,j＝<φ(x_new),φ(x_j)>＝f_ker(x_new,x_j)

则在线测量样本x_new的KPLS预测值为：

以上即为KPLS算法模型建立方法。

优选地，所述步骤五具体包括：

在核函数中，构造一个包含所有变量的归一化因子，分别用核函数对每个因子求偏导；令v为归一化因子，则有：

式中，v＝[v₁,v₂,···,v_m]^T为归一化因子，v_i＝1,i＝1,2,···,m；那么核函数对归一化因子v中第i个变量v_i的偏导数表示为：

式中，X_j,i表示第j个样本中的第i个变量，该偏导数的绝对值就表示第i个变量对核函数影响作用的大小；

在KPLS的监测模型中，T²统计量的计算公式如式所示，令

由和/>

对T²求偏导，得到贡献率大小为：

根据上式，对SPE求偏导，得到贡献率大小为：

在上中，

对求得的贡献率统计量进行标准化处理，即对每一个样本，要求满足和其中，前者用于检测异常偏离期望情况，后者检测噪声及干扰情况。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例提供的方法包括数据训练和过程监测与异常检测两部分，在数据训练部分，建立由历史数据构成的数据集，确定隐变量个数，确定核参数，建立KPLS模型，得到各统计量的阈值；在过程监测与异常检测部分，针对在线核样本，将计算得到的统计量与阈值进行比较，若超出阈值则发生异常，若未超过阈值则未发生异常，并在发生异常后进行异常诊断确定异常变量。这样，能够对冷连轧工业生产过程中出现的故障进行监测，并进行故障的溯源和原因分析，以提早发现并及时处理问题，保障正常的生产过程及产品质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于数据驱动的冷连轧工业过程监测与异常检测方法的流程图；

图2a-图2b是本发明实施例中训练集数据统计量监测图；

图3是本发明实施例中KPLS对左边浪的异常诊断统计T²的变量贡献结果图；

图4是本发明实施例中KPLS对左边浪的异常诊断统计SPE的变量贡献结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的实施例提供了一种基于数据驱动的冷连轧工业过程监测与异常检测方法，如图1所示，所述方法包括以下步骤：

步骤一、建立由历史数据构成的数据集，并对数据集中的样本进行零均值处理。

本步骤中，选取若干故障率高于预设值的钢种的历史数据建立数据集，并对数据集中的样本进行零均值处理。

步骤二、确定隐变量个数。

在偏最小二乘法建模中，由于隐变量对模型的预测精度起决定性作用，因此隐变量个数的选取至关重要。本步骤中，采用交叉验证法确定隐变量个数，具体包括：

相应的y_j的预测误差平方和SS_hj计算如下：

设Y的预测误差平方和为PRESS_h，有

相应Y的误差平方和为SS_h，有

步骤三、确定核参数。

KPLS模型中有一个非常重要的参数，即核参数f_ker。在核矩阵中f_ker的选取至关重要。核函数选取的必要条件是满足Mercer定理，主要包括以下几种：

多项式核：

f_ker(x,y)＝<x,y>^d

Sigmoid核：

f_ker(x,y)＝tanh(β₀<x,y>+β₁)

高斯核：

式中参数d,β₀,β₁,c根据先验知识确定。不同的核参数对异常检测结果有着非常大的影响。

步骤四、建立KPLS过程监测模型，得到各统计量的阈值，将计算得到的统计量与对应的阈值进行比较，判断是否发生异常。

本步骤具体包括：

对新样本x_new映射为φ(x_new)并进行零均值处理后为则

对应阈值为：

KPLS残差空间的SPE统计量为：

对应阈值为：

式中，参数g和h通过训练样本根据如下式计算：

其中，KPLS算法步骤如下：

步骤1、令i＝1，Y₁＝Y，

步骤2、选取u_i为Y_i的第一列，

步骤3、t_i＝t_i/||t_i||；

步骤4、c_i＝Y_i ^Tt_i，u_i＝Y_ic_i；

步骤5、u_i＝u_i/||u_i||；

步骤6、重复步骤2至步骤5直到t_i收敛；

步骤7、平减和Y_i，/>

步骤8、收集参数T＝[T t_i]，U＝[U u_i]；

步骤9、令i＝i+1，重复步骤2至步骤8，直到i＞γ；

U＝TB B＝diag{b₁,b₂,...,b_γ}

KPLS算法中存在如下关系：

T^TT＝I_γ

令

则

另外，和Y之间的回归系数矩阵Ψ_Φ为：

对于每个在线测量样本x_new同样需要映射到特征空间F，即：

x_new∈R^m→φ(x_new)∈R^M

对φ(x_new)进行零均值处理：

则零均值处理后的在线核样本为：

式中，

k_new,j＝<φ(x_new),φ(x_j)>＝f_ker(x_new,x_j)

则在线测量样本x_new的KPLS预测值为：

以上即为KPLS算法模型建立方法。

步骤五、建立KPLS异常诊断模型，确定异常变量。

本步骤具体包括：

在KPLS的监测模型中，T²统计量的计算公式如式所示，令

由和/>式

对T²求偏导，得到贡献率大小为：

根据上式，对SPE求偏导，得到贡献率大小为：

在上式中，

将本发明提供方法实施于某薄板冷连轧机工业过程监测与异常检测，具体流程如下。

步骤一：选取故障率较高的几个钢种建立数据集样本，并对样本进行零均值处理。

采用KPLS方法对实际生产数据进行过程监测，根据已有的机理知识和筛选出部分参数，得到如表1所示的23个参数，这些参数中包含了带钢宽度、长度、板形偏差以及机架前张应力、机架前后张应力差、单位轧制力、单位轧制力偏差、机架倾斜值、机架弯辊值、机架窜辊值、带钢速度、前滑因子等。

表1待建模变量表

步骤二：确定隐变量个数。

根据所提到的基于KPLS的过程监测流程，将上述数据中心化和标准化预处理后提取变量含义为“板形偏差”的作为质量变量Y，剩下的数据作为过程变量X，确定核矩阵参数c＝10，在进行核化处理得到核矩阵K，然后对核矩阵K进行零均值处理得到确定隐变量个数为10。

步骤三：确定核参数。

根据数据集及专家经验选择核参数为高斯核。

步骤四：建立KPLS过程监测模型。

设定板形偏差高于2.5IU为异常数据，选择置信度α＝0.05，计算T²统计量的阈值计算SPE统计量的阈值/>结果如表2所示。数据训练过程T²、SPE统计量以及各自阈值如图2a-图2b所示。

表2 KPLS统计量阈值表

对样本库中所有数据利用KPLS方法进行过程监测，监测结果如表3所示，统计了各类带钢过程监测中的异常检测率和误报率情况。其中样本的异常检测率平均为93.96％，误报率平均为3.12％。

表3 KPLS方法钢卷过程监测统计表

步骤五：建立KPLS异常诊断模型。

对于KPLS监测模型成功检测到的异常样本点，根据这些样本点进行模式分解后得到的系数将异常样本分类为标签：无明显浪、左边浪、右边浪、中浪、双边浪、左三分浪、右三分浪、四分浪和边中复合浪，以下以左边浪为例。

如图3、图4及表4所示，可以看到对左边浪影响较多的参数为：5机架单位轧制力、45机架间和5机架前后张应力差、4机架前DSOS张应力差、5机架DSOS单位轧制力差、1机架入口厚度、5机架后带钢速度，此外，5机架倾斜值以及5机架工作辊弯辊值亦有较小的影响，对于后面两者分析认为是由于带钢的板形发生了异常，两者的调控值对应发生变化来调节板形。

表4 KPLS对左边浪的异常统计结果

与现有技术相比，本发明提供的基于数据驱动的冷连轧工业过程监测与异常检测模型可以实现对现有生产过程中的异常进行准确定位以及对异常原因进行溯源，有效保证了正常的生产过程及产品质量。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据驱动的冷连轧工业过程监测与异常检测方法，其特征在于，包括以下步骤：

所述步骤一具体包括：

选取若干故障率高于预设值的钢种的历史数据建立所述数据集，并对所述数据集中的样本进行零均值处理；

步骤二、确定隐变量个数；

在所述步骤二中，采用交叉验证法确定隐变量个数，具体包括：

相应的y_j的预测误差平方和SS_hj计算如下：

设Y的预测误差平方和为PRESS_h，有

相应Y的误差平方和为SS_h，有

在实际计算中，当(PRESS_h/SS_h-1)≤0.95²时，增加该隐变量是有益的，反之则认为无明显的改善；

步骤三、确定核参数；

所述步骤三具体包括：

多项式核：

f_ker(x,y)＝<x,y>^d

Sigmoid核：

f_ker(x,y)＝tanh(β₀<x,y>+β₁)

高斯核：

式中参数d,β₀,β₁,c根据先验知识确定；

所述步骤四具体包括：

对新样本x_new映射为φ(x_new)并进行零均值处理后为则

对应阈值为：

KPLS残差空间的SPE统计量为：

对应阈值为：

式中，参数g和h通过训练样本根据如下式计算：

步骤五、建立KPLS异常诊断模型，确定异常变量；

所述步骤五具体包括：

在KPLS的监测模型中，T²统计量的计算公式如式所示，令/>

由和/>式

对T²求偏导，得到贡献率大小为：

根据上式，对SPE求偏导，得到贡献率大小为：

在上式中，

2.根据权利要求1所述的基于数据驱动的冷连轧工业过程监测与异常检测方法，其特征在于，KPLS算法步骤如下：

假设在生产过程中进行n次采样，得到过程变量矩阵X∈R^N×m和质量变量矩阵Y∈R^N×p，其中m为过程变量个数，p为质量变量个数，KPLS算法将过程变量X和Y投影到一个由少量潜变量(t₁,t₂,···,t_γ)构成的低维空间中，γ是KPLS潜变量个数，其模型为：

步骤1、令i＝1，Y₁＝Y，

步骤2、选取u_i为Y_i的第一列，

步骤3、t_i＝t_i/||t_i||；

步骤4、c_i＝Y_i ^Tt_i，u_i＝Y_ic_i；

步骤5、u_i＝u_i/||u_i||；

步骤6、重复步骤2至步骤5直到t_i收敛；

步骤7、平减和Y_i，/>

步骤8、收集参数T＝[T t_i]，U＝[U u_i]；

步骤9、令i＝i+1，重复步骤2至步骤8，直到i＞γ；

U＝TB B＝diag{b₁,b₂,...,b_γ}

KPLS算法中存在如下关系：

T^TT＝I_γ

令

则

另外，和Y之间的回归系数矩阵Ψ_Φ为：

对于每个在线测量样本x_new同样需要映射到特征空间F，即：

x_new∈R^m→φ(x_new)∈R^M

对φ(x_new)进行零均值处理：

则零均值处理后的在线核样本为：

式中，

k_new,j＝<φ(x_new),φ(x_j)>＝f_ker(x_new,x_j)

则在线测量样本x_new的KPLS预测值为：

以上即为KPLS算法模型建立方法。