CN110045691B

CN110045691B - 一种多源异构大数据的多任务处理故障监测方法

Info

Publication number: CN110045691B
Application number: CN201910189215.5A
Authority: CN
Inventors: 于忠源; 张颖伟; 付元建
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2021-03-16
Anticipated expiration: 2039-03-13
Also published as: CN110045691A

Abstract

本发明提出一种多源异构大数据的多任务处理故障监测方法，包括如下步骤：将采集来的不同来源的数据分别进行提取转化处理，得到总的转化处理后的数据；按照规定的时间间隔T，将总的转化处理后的数据进行数据窗口划分；将数据窗口划分后的数据按照采样时间先后顺序进行任务划分，得到任务划分后的数据；基于任务划分后的数据建立目标函数；求解多源异构大数据的多任务处理模型的目标函数，得到最优解，即为多任务的回归模型；基于多任务的回归模型，针对多源异构测试数据进行在线监测；本发明解决了工业大数据中数据来源广泛，类型构成多样，数据维度不统一难以协同建模的问题，监测结果表明本发明提高了故障检测的准确性。

Description

一种多源异构大数据的多任务处理故障监测方法

技术领域

本发明属于故障监测与诊断技术领域，具体涉及一种多源异构大数据的多任务处理故障监测方法。

背景技术

现代企业中生产设备日趋大型化、连续化、高速化和自动化，设备的结构与组成愈发复杂，生产规模逐渐变得非常庞大。精确的过程故障检测对提高生产质量和避免生产事故非常重要。因此，过去几年来，大量研究人员重视开发有效的过程监控技术。特别是，随着计算机和传感器技术在工业过程中的广泛应用，测量和存储了许多过程数据。测量数据包含大量的过程操作信息，针对与这些信息进行分析不同的故障监测方法，这样才能有效地检测到故障。而传统的监测方法，例如采用统计分析技术，主成分分析(PCA)，偏最小二乘法(PLS) 和独立分量分析(ICA)在内的古典多变量统计过程监测(MSPM)方法以及相应的改进方法在当下对于大数据背景下的工业故障检测其处理能力不足，分析能力不足的问题日益明显。因为大数据的海量、多维、多样、变化快等特性，使得小数据环境下基于内存处理的传统机器学习算法基本已不再适用于大数据下的应用问题。随着工业系统的发展，采集的数据也日益复杂，数据之多且维度之高已经成为了大数据统一建模并进行故障监测和诊断的一大障碍。所以如何对这样高维度的大数据进行特征提取来简化接下来的故障监测和诊断已成为当前所关注的问题。近几年随着计算机和自动化技术的蓬勃发展，工业数据的采集、处理和获取获得了前所未有的发展，为统一建立生产过程的物理化学变量和图像声音视频的大数据池提供了可能。

为此我们提出一种针对于大规模工业数据多来源异构数据的统计处理框架，可以有效的将监测图像图像的ASM能量、对比度、逆差距、熵、自相关等相关信息以及物理化学变量统一建模，发挥工业大数据的优势，通过采集的传统数据和多媒体流异构数据进行统一建模。

发明内容

本发明提出一种多源异构大数据的多任务处理故障监测方法，这是一种处理多源异构大数据的方法框架，主要针对于解决大数据工业背景下的数据来源广泛，类型构成多样，数据维度不统一难以协同建模的问题，在这样的背景下,我们提出了一种新方法将多源异构数据统一协同建模，将传统的传感器数据及物理化学变量，与视频数据结合，采用划分多数据窗口的方法，之后在数据窗口内以多任务的模型来尽可能多的处理数据。

一种多源异构大数据的多任务处理故障监测方法，具体步骤如下：

步骤1：将采集来的不同来源的数据分别进行提取转化处理，得到总的转化处理后的数据；

步骤1.1：对视频数据的提取转化处理，得到处理后的视频数据：

步骤1.1.1：根据故障监测对象不同，人工提取视频数据的关键帧图像，关键帧图像的总的采样时间为各个不同来源的数据采样时间的最小公倍数；

步骤1.1.2：对关键帧图像进行特征提取：将每一张关键帧图像的像素矩阵转化为灰度矩阵，作为多维向量，并对每一个多维向量提取图像特征，包括：ASM能量(AngularSecond Moment)、对比度、逆差距、熵和自相关；

所述ASM能量即每个矩阵元素的平方和；

步骤1.2：对传统物理化学变量及传感器数据的提取转化处理，得到处理后的传统物理化学变量及传感器数据：

按照视频数据关键帧的时段，采集传统物理化学变量及传感器数据，其总的采样时间为各个不同来源的数据采样时间的最小公倍数；

步骤1.3：将处理后的视频数据、处理后的传统物理化学变量及传感器数据，按照顺序组成同一数据矩阵，即总的转化处理后的数据，其中，同一数据矩阵的行为某一采样时刻对应的不同数据源的监测值，同一数据矩阵的列为采样时间，按照采样时间先后顺序排列；

所述不同来源的数据简称不同数据源，具体包括视频数据中提取的图像特征、传统物理化学变量及传感器数据；

步骤2：按照规定的时间间隔T，将总的转化处理后的数据进行数据窗口划分，得到数据窗口划分后的数据，其中，规定的时间间隔T小于总采样时间，以保证不同数据窗口内的数据结构一致，如果时间排在最后的数据无法保证构成完整的数据窗口，将其删掉，以保证数据窗口的整齐性；

步骤3：将数据窗口划分后的数据按照采样时间先后顺序进行任务划分，得到任务划分后的数据：只要数据窗口划分后的数据中某一时刻存在数据，无论该数据属于哪种数据源，那么以这个时刻为基础对应找到这时刻的其他数据源，将能够找到的这一时刻的不同数据源进行排列组合，即设某一时刻对应的数据源为a个，任意取b个数据源作为一个任务，则总的任务数为从a个数据源中任取b个作为任务的总任务数，记作

计算视频数据与传统变量或者其他相结合的数据源在时间对应上误差，取误差小于某一阈值的对应任务，去掉误差大于某一阈值的对应任务，得到任务划分后的数据；

所述任务划分后的数据，在每一数据窗口内任务数量相同，并保证每一数据窗口中对应的任务内部的数据源数量完全相同；

步骤4：基于任务划分后的数据建立目标函数：数据数据窗口由z表示，其中z＝1,...,Z， Z为数据数据窗口的总数；将每一数据数据窗口中的数据划分为m个任务；

N_i表示第i个任务的数据样本总数；s＝1,...,S，表示第i个任务中数据源数为S；

即表示的是第i个任务的第j个样本的第s个数据源的数据和其对应的标签值；每一数据窗口内所有任务的所有数据源的标签值应当是一致的，

S值应相等。

根据多源异构数据的特点，我们将逻辑回归方法改进以适用于多源数据的处理，使用多源逻辑回归来进行有效的分类，引入对数损失函数作为我们的损失函数。因为使用逻辑回归，我们可以直接对分类可能性进行建模，无需事先假设数据分布，无需事先知道样本数据的分布，这样就避免了假设分布不准确所带来的问题。同时不仅预测出类别，通过sigmoid函数的压缩，对样本点到局侧面的“距离”，即对数几率比值C(C∈R)，压缩到(0,1)还且给出具体的概率预测值。而且对数几率函数是任意阶可导的凸函数，有很好的数学性质，现有的许多数值优化算法都可直接用于求取最优解。

根据多源异构数据无法事先知道样本数据分布的特点，将对数损失函数改进为下面线性形式：

其中

S是第i个任务的第s源数据的参数向量，w_s表示第s源的权重，L(·)表示损失函数；

这种多任务逻辑回归形式不同于原有单一数据源的逻辑回归形式，其创新在于使用同一种目标函数来有效的处理不同数据源的数据。通过对参数向量b_s ⁱ调整可以保证每一任务的多个数据源的数据得到最有效的利用，这样保证了不同数据窗口的对应任务的参数向量b_s ⁱ一致，又可保证数据窗口内不同任务的参数向量有这显著差异性。同时采用数据源权重w_s使得不同来源数据的重要程度得以展现，可以有效地区分不同来源数据对目标函数的贡献程度。

由此基于任务划分后的数据建立多源逻辑回归模型，即建立多源异构大数据的多任务处理模型的目标函数，公式如下：

目标函数的第二项，是一个关于模型参数的2,1-范数正则化，这使得模型将一个具有需稀疏性的解决方案，也就是说，涉及特定源的所有模型都受限于为这个特定源选择一组共同的特征。

将B＝[b¹,...,b^m]表示为所有模型参数的集合，其中

表示第i个任务下所有源数据的参数向量组成的向量；由于之前假设共有S个数据源，并且第s个源的特征维度表示为p_s，为了表示方便，引入索引函数I(s,k)，这样B_I(s,k)就表示对应于第s个数据源中第k个特征的所有任务模型参数。

数据源权重w_s的值由约束项进行规范，给出w_s的迭代计算公式如下：

这个权重迭代计算公式表明，一个来源的权重与其观察值与对数尺度真值之间的差异成反比。负对数函数将0和1范围内的数字映射到0到无穷的范围，因此有助于扩大源权重的差异。结果更接近真相的来源将具有更高的权重。因此，迭代计算公式是一个合理的约束函数，它给出了有意义并且直观的权重更新公式。

步骤5：求解多源异构大数据的多任务处理模型的目标函数，得到最优解，即为多任务的回归模型；

对目标函数进行简化，公式为：

我们通过将其重新表示为等价的光滑凸优化问题来加速计算，然后通过Nesterov方法，用于平滑凸优化的最优一阶黑箱方法来求解。

引入一个附加变量

其中，t_c是B_I(s,k)的上界值，目标函数简化公式修改为：

其中，

并且

是闭合凸集；

因此我们在求解时可以将B通过欧几里德空间投影到D中以满足约束，同时避免2,1范数难以优化的问题，并提高求解速度。通过结合Nesterov’s方法，我们就给出每一步的迭代更新公式。我们的方法改进于Nesterov’s方法：

基于两个序列h_i和b_i，其中b_i是近似解序列，h_i是搜索点序列，搜索点h_i是b_i-1和b_i的仿射组合，α_i是结合系数。

h_i＝b_i+α_i(b_i-b_i-1).

近似解b_i+1通过h_i的梯度映射得到：

其中，γ_i是步长，并且γ_i由根据Armijo-Goldstein规则的线搜索确定，使得γ_i适合于h_i；

对于投影函数π^G与我们目标函数简化公式修改公式的投影一致的，其投影空间应当是近似解的上界。为表示方便与更易理解，搜索点h_i与近似解b_i+1的公式表示的是整体损失函数中的参数矩阵的一行向量的迭代优化方式，更类似于原始的Nesterov’s方法。

给出整体的投影函数如下：

上式表明给定点(v,U)在这些D上的欧几里德投影，v,t∈Rⁿ，U,W∈R^n×k，i＝1,...,n，并且v＝[v₁,...,v_n]^T，给出B和t最优化解

和

和

的第i行表示为

和

在每一步得到优化解之后通过目标函数简化公式修改进行权重更新。通过以上方法的不断迭代优化，当解收敛时，便得到了最优解B和源权重w_s；

步骤6：基于多任务的回归模型，针对多源异构测试数据进行在线监测：在进行故障检测时，首先根据步骤1～步骤3的处理时对建模数据任务的划分，判断当前测试数据属于哪项任务，进而使用以下对应任务的多任务的回归模型进行判断是否发生故障，若fⁱ>0，则无故障，继续判定下一条数据，若fⁱ≤0，则多任务回归模型判断有故障发生，对于每一任务其回归模型为：

其中，

是监测数据中被判定为第i个任务的第s源数据。

有益技术效果：

本发明提出了一种提出一种针对于大规模工业数据多来源异构数据的统计处理框架，是一种基于大数据的故障监测方法，主要分为两个部分，离线建模与在线监测。本发明主要解决工业大数据中数据来源广泛，类型构成多样，数据维度不统一难以协同建模的问题。利用此方法进行的过程监测结果表明，该方法不仅能大大降低误报警，还提高了故障检测的准确性。

附图说明

图1为本发明实施例的电熔镁炉工艺原理图；

图2为本发明实施例的一种多源异构大数据的多任务处理故障监测方法的流程图；

图3为本发明大规模工业数据多来源异构数据的统计处理方法示意图；

图中，1-变压器，2-短网，3-电极升降装置，4-电极，5-炉壳，6-车体，7-电弧，8-炉料。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明，电解镁炉的结构如附图1所示，其中包括：变压器1，短网2，电极升降装置3，电极4，炉壳5，车体6，电弧7，炉料8。电熔镁炉主要以熔融状态下电流通过物料所产生的物料电阻热为主要热源，同时伴有电弧热，它的热量集中，能有效的将物料加热到熔点2800℃以上，有利于熔炼电熔镁砂。

一种多源异构大数据的多任务处理故障监测方法，如图2所示，包括如下步骤：

步骤1.1.2：对关键帧图像进行特征提取：将每一张关键帧图像的像素矩阵转化为灰度矩阵，灰度矩阵作为多维向量，并对每一个多维向量提取图像特征，包括：ASM能量(angular second moment)、对比度、逆差距、熵和自相关；

所述ASM能量即每个矩阵元素的平方和；

将采集来的不同来源的数据分别进行提取转化处理,并进行标记。本发明以如附图1所示结构的电熔镁炉为例，在电熔镁炉运行过程中，分别采集传统的统计量数据包括电熔镁炉三个电极的电压值(Ua、Ub、Uc)、三个电极的电流值(Ia、Ib、Ic)以及频率F，其采样率为每秒两次。同时采集炉内外的图像数据，每秒提取10帧图像，用灰度共生矩阵，提取图像的ASM 能量、对比度、逆差距、熵、自相关等共20维信息；所述灰度共生矩阵是像素距离和角度的矩阵函数，它通过计算图像中一定距离和一定方向的两点灰度之间的相关性，来反映图像在方向、间隔、变化幅度及快慢上的综合信息。如表1所示：

表1.电熔镁炉数据中的标记数据(部分)

步骤2：按照规定的时间间隔T，将总的转化处理后的数据进行数据窗口划分，得到数据窗口划分后的数据，其中，规定的时间间隔T小于总采样时间，以保证不同数据窗口内的数据结构一致，如果时间排在最后的数据无法保证构成完整的数据窗口，将其删掉，以保证数据窗口的整齐性；例如每一数据窗口中划分了5个任务，而划分至最后的窗口任务数不足5 个，则将最后的窗口舍弃，保证以上所有数据窗口的数据结构的对齐。

将步骤1中已处理的数据进行数据窗口划分，保证不同数据窗口内的数据结构一致，我们划分以0.5秒为单位划分数据窗口，一个数据窗口里有5帧图像，1组传统变量采样信息。

步骤3：将数据窗口划分后的数据按照采样时间先后顺序进行任务划分，得到任务划分后的数据，如图3所示：只要数据窗口划分后的数据中某一时刻存在数据，无论该数据属于哪种数据源，那么以这个时刻为基础对应找到这时刻的其他数据源，将能够找到的这一时刻的不同数据源进行排列组合，即设某一时刻对应的数据源为a个，任意取b个数据源作为一个任务，则总的任务数为从a个数据源中任取b个作为任务的总任务数，记作m＝A_a ^b，计算视频数据与传统变量或者其他相结合的数据源在时间对应上误差，取误差小于某一阈值的对应任务，去掉误差大于某一阈值的对应任务，得到任务划分后的数据；如以0.5秒为单位划分数据窗口，一个数据窗口里有5帧图像，1组传统变量采样信息。则以划分间隔最小的视频图像间隔的1/2作为阈值，当传统变量与对应的图像间隔大于0.05秒时，则认为异构数据已经不同步应去掉。

对步骤2中已划分完数据窗口的数据按照时间顺序进行任务划分，为保证视频数据与传统变量或者其他相结合的数据在时间对应上误差尽可能的小，本实施例阈值为0.1秒，我们数据窗口内的最后一帧图片与传统变量对应。我们在每个频次中化分成两个任务，第一个任务中只包含图像视频信息，任务数为4；第二个任务同时含有视频图像信息和传统变量信息，任务数为1。

S值应相等。

根据多源异构数据的特点，我们使用多源逻辑回归来进行有效的分类，引入对数损失函数作为我们的损失函数。因为使用逻辑回归，我们可以直接对分类可能性进行建模，无需事先假设数据分布，无需事先知道样本数据的分布，这样就避免了假设分布不准确所带来的问题。同时不仅预测出类别，通过sigmoid函数的压缩，对样本点到局侧面的“距离”，即对数几率比值C(C∈R)，压缩到(0,1)还且给出具体的概率预测值。而且对数几率函数是任意阶可导的凸函数，有很好的数学性质，现有的许多数值优化算法都可直接用于求取最优解。

其中

将B＝[b¹,...,b^m]表示为所有模型参数的集合，其中

对目标函数进行简化，公式为：

引入一个附加变量

其中，t_c是B_I(s,k)的上界值，目标函数简化公式修改为：

其中，

并且

是闭合凸集；

h_i＝b_i+α_i(b_i-b_i-1).

近似解b_i+1通过h_i的梯度映射得到：

对于投影函数π_G与我们目标函数简化公式修改公式的投影一致的，其投影空间应当是近似解的上界。为表示方便与更易理解，搜索点h_i与近似解b_i+1的公式表示的是整体损失函数中的参数矩阵的一行向量的迭代优化方式，更类似于原始的Nesterov’s方法。

给出整体的投影函数如下：

和

和

的第i行表示为

和

通过步骤123的处理，在每一数据窗口内每一任务数量，任务内部的数据源数已经完全相同，由此建立模型并进行求解得到参数矩阵B和源权重w_s。

步骤6：基于多任务的回归模型，针对多源异构测试数据进行在线监测：在进行故障检测时，首先根据步骤1～步骤3的处理时对建模数据任务的划分，判断当前测试数据属于哪项任务，进而使用对应任务的回归模型进行判断是否发生故障，若fⁱ>0，则无故障，继续判定下一条数据，若fⁱ≤0，则多任务回归模型判断有故障发生，对于每一任务其回归模型为：

其中，

是监测数据中被判定为第i个任务的第s源数据。

通过对电熔镁炉冶炼过程进行故障检测与诊断；通过步骤5求得的最优解，我们便得到的多任务的回归模型。在进行故障检测时：首先判断监测数据属于哪项任务，进而使用对应任务的回归模型进行判断是否发生故障，如无故障则继续判定下一条数据。

通过上面的仿真实例，表明了本发明多源异构大数据的多任务的数据窗口处理模型的有效性，实现了对连续电熔镁炉冶炼过程的监测诊断。我们使用准确度、灵敏度、特异度三个指标量衡量我们的方法有效性，如表2所示：

表2样本统计指标定义

通过对不同训练规模的数据进行建模诊断，我们的到了如表3的结果，训练规模单位是秒，使用了多少秒的数据进行协同建模：

表3不同训练规模的故障诊断指标对比

通过上面的仿真实例，实现了对连续电熔镁炉冶炼过程的监测诊断。随着数据规模的增长，本方法的在识别准确率方面不断提高，其他两个指标变现良好，表明了本发明检测方法的有效性。

Claims

1.一种多源异构大数据的多任务处理故障监测方法，其特征在于，包括如下步骤：

步骤1.1：对视频数据的提取转化处理，得到处理后的视频数据；

步骤1.1.2：对关键帧图像进行特征提取：将每一张关键帧图像的像素矩阵转化为灰度矩阵，作为多维向量，并对每一个多维向量提取图像特征，包括：ASM能量、对比度、逆差距、熵和自相关；

步骤1.2：对传统物理化学变量及传感器数据的提取转化处理，得到处理后的传统物理化学变量及传感器数据：按照视频数据关键帧的时段，采集传统物理化学变量及传感器数据，其总的采样时间为各个不同来源的数据采样时间的最小公倍数；

步骤3：将数据窗口划分后的数据按照采样时间先后顺序进行任务划分，得到任务划分后的数据：只要数据窗口划分后的数据窗口中某一时刻存在数据，无论该数据窗口中的数据属于哪种数据源，那么以这个时刻为基础对应找到这时刻的其他数据源，将能够找到的这一时刻的不同数据源进行排列组合，即设某一时刻对应的数据源为a个，任意取b个数据源作为一个任务，则总的任务数为从a个数据源中任取b个作为任务的总任务数，记作

步骤4：基于任务划分后的数据建立目标函数：数据数据窗口由z表示，其中z＝1,...,Z，Z为数据数据窗口的总数；将每一数据数据窗口中的数据划分为m个任务；

i＝1,...,m，j＝1,...,N_i，N_i表示第i个任务的数据样本总数；s＝1,...,S，表示第i个任务中数据源数为S；

s＝1,...,S值应相等；

其中

i＝1,...,m，s＝1,...,S是第i个任务的第s源数据的参数向量，w_s表示第s源的权重，L(·)表示损失函数；

目标函数的第二项，是一个关于模型参数的2,1-范数正则化，这使得模型将一个具有需稀疏性的解决方案，也就是说，涉及特定源的所有模型都受限于为这个特定源选择一组共同的特征；

将B＝[b¹,...,b^m]表示为所有模型参数的集合，其中

表示第i个任务下所有源数据的参数向量组成的向量；由于之前假设共有S个数据源，并且第s个源的特征维度表示为p_s，为了表示方便，引入索引函数I(s,k)，这样B_I(s,k)就表示对应于第s个数据源中第k个特征的所有任务模型参数；

第s源的权重w_s的值由约束项进行规范，给出w_s的迭代计算公式如下：

步骤6：基于多任务的回归模型，针对多源异构测试数据进行在线监测：在进行故障检测时，首先根据步骤1～步骤3的处理时对建模数据任务的划分，判断当前测试数据属于哪项任务，进而使用以下对应任务的多任务的回归模型进行判断是否发生故障，若fⁱ＞0，则无故障，继续判定下一条数据，若fⁱ≤0，则多任务回归模型判断有故障发生，对于每一任务其回归模型为：