CN110222738B

CN110222738B - 面向混合采样工业大数据的基于多视图字典学习分类方法

Info

Publication number: CN110222738B
Application number: CN201910429746.7A
Authority: CN
Inventors: 于洪; 杨倩; 胡峰; 王国胤; 张晓霞
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2021-05-18
Anticipated expiration: 2039-05-22
Also published as: CN110222738A

Abstract

本发明请求保护一种面向混合采样工业大数据的基于多视图字典学习的分类方法，该方法巧妙借助多视图数据的分类思想，以混合采样工业数据与多视图数据的共性特点进行连接，同时，考虑到混合采样数据的样本数量不一致特点，设计了适应混合采样数据的分类方案。在训练阶段，通过字典学习方法，学习了每个采样频率数据每一类训练样本的字典。在分类测试阶段，首先利用训练的与对应采样频率数据相关的字典对测试样本进行编码，然后利用子字典和测试样本的编码向量来判断样本与哪个类簇的重构误差最小，则表示样本属于该类簇。本发明相较于现有技术，极大限度地利用原始数据，保证了原始数据的分布，提高了分类结果的精度。

Description

面向混合采样工业大数据的基于多视图字典学习分类方法

技术领域

本发明属于数据挖掘技术领域，尤其涉及一种面向混合采样工业大数据的基于多视图字典学习的分类方法。

背景技术

随着现代工业的迅速发展，现代企业中的生产设备日趋大型化、连续化和自动化，设备的结构或组成日益复杂，生产数据的采集、来源、形式也越来越多样化。在实际生产中获取工业生产铝的电解槽数据时，会由于采集成本代价而导致数据采集频率高低有别。例如含铁含量、硅含量、分子比、电解质水平等特征集合的数据需要专家进行实验采集，成本高，代价大，采样频率低；而电解槽工作电压、工作电流、针振等特征集合的数据可以通过传感器实时上传，成本低，代价小，采样频率高。而以不同采样频率采集的不同特征集合的数据都对电解槽的生产状况起决定作用，所以现在急需一种有效的分类方法对现代工业生产过程中采集的传感器数据和专家实验采集数据进行统一建模，从而实现过热度的有效评估进而判断电解槽状况。

现在已有的基于工业大数据的分类方法把采集的传感器数据和专家实验采集数据分开建模，进行独立训练，忽略了工业大数据之间的必然联系，失去了大数据的固有特性。传统的基于工业大数据的分类方法在得到以不同采样频率采集的特征集合数据时，先将以不同采样频率的数据处理成统一采样频率，即转换高频数据，使之与低频数据相匹配，然后将得到的同频采样数据进行拼接统一训练。这种方式不可避免的存在高频数据信息丢失的问题，同时，将不同采样数据直接拼接，也忽略了不同采样数据之间的关系。所以现在急需一种有效的分类方法能在不损失高频数据分布信息的前提下，极大限度的利用所有原始数据，考虑不同采样数据之间的关系，达到提升模型分类性能的目的。

本发明把这类描述同一对象，而不同特征集合以不同采样频率采集的数据称为混合采样数据。混合采样数据不仅具有不同采样频率数据之间特征集合不同的特点，还有样本数量不一致等特点，传统的分类方法不能直接使用。多视图数据(Multi-view Data)是指描述同一对象，而来自不同数据源、呈现不同表现形式或有不同特征集合的数据。受多视图数据特点的启发，本发明认为混合采样数据与多视图数据之间有一定的对应关系。混合采样数据的多个采样频率数据、不同采样频率下的不同特征集合就对应着多视图数据的多个视图数据、不同视图下的不同特征集合。因此，本发明欲借鉴处理多视图数据的思想或方法，来解决混合采样工业大数据中的分类问题，以克服工业大数据中因数据采集成本高代价大等因素导致的数据采集频率不一致问题。

字典学习(Dictionary Learning)方法最初是用于信号重构，近年来在人工智能、图像处理、信号处理等领域运用及其广泛。字典学习的目标任务是对给定数据样本进行训练，寻找最合适的字典矩阵D，以及对应的编码系数矩阵X，使得每个数据样本能更好地被字典矩阵重构，是一个交替优化迭代过程。后又有研究直接学习具有判别能力的字典矩阵和编码系数矩阵，如Fisher判别字典学习(Fisher discrimination dictionary learning,FDDL)。Fisher判别字典学习旨在学习一个结构化字典矩阵D，该字典由每个类簇的子字典D_i构成。多视图字典学习方法将字典学习方法运用到多视图学习任务，旨在迭代学习每个视图的字典用于样本分类。

多视图学习方法中的互补性原则指出：每个视图下包含的数据集都有其他视图集说没有的数据特征，多视图学习得出的结果具有互补性使得结果比单个视图集下得出的结果更为精确同时也具有鲁棒性。所以在本发明中，由于工业大数据中混合采样数据的采样设备差异以及观测方法的不同导致采集的数据相互独立，因而对生产状况评估的贡献各有不同，而又存在一定的互补性，如果能够利用多视图学习方法的互补特性，对各个采样频率的数据同时进行学习，得出的生产状况评估不仅在数据空间覆盖率上有极大的广度，而且在数据精度的提高上也会比传统的填充删除样本方法有更好地推进。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种能够有效处理工业大数据中因数据采集成本高代价大，而造成的不同特征集合的数据采样频率不一致的分类问题，能够提供一个扩展性更强的数据挖掘策略，提高算法的精度的方法。本发明的技术方案如下：

面向混合采样工业大数据的基于多视图字典学习分类方法，假设训练样本有H个不同采样频率数据A₁,...,A_k,...,A_H，则第k个采样频率数据可定义为A_k(k＝1,...,H)，且每个采样频率数据A_k有C个类簇。对于第k个采样频率数据，

表示第i类训练样本。值得注意的是，考虑到混合采样数据与多视图数据的不同之处，在于不同采样频率对应的数据集样本数量不一致，所以在测试阶段每个测试样本不一定涵盖所有采样频率对应数据，即z＝{z₁,z₂,...,z_h}，h≤H，表示一个包含h个以不同采样频率采集的测试样本，z_k表示第k个采样频率数据的测试样本，D＝{D₁,...,D_k,...,D_H}和X＝{X₁,...,X_k,...,X_H}分别表示重构对应样本的字典矩阵和编码系数矩阵，则

和

分别表示第k个采样频率数据第i个类簇的数据样本

在字典D_k和子字典

上的编码系数矩阵其包括以下步骤：

A、在训练阶段，通过迭代优化求解下面的目标函数，获得(1)对应第k个采样频率数据第i个类别的子字典

(2)原始数据的每个类簇样本

在子字典D_k上的编码系数矩阵

训练过程目标函数如下：

进一步的，所述训练阶段A对混合采样数据的训练过程，具体包括步骤：上述目标函数包含三项，第一项

为判别保真项，约束字典对类簇样本的重构能力，其应该遵循以下三个原则：第一，对于第k个采样频率数据，字典D_k应该具备重构样本

的能力，即最小化误差项

第二，与第i类样本相关的子字典

应该具备重构样本

的能力，即最小化误差项

第三，与第i类样本相关的其他类簇子字典

不应具备重构样本

的能力，所以应该最小化重构误差项

从而使第i类子字典

对样本

重构所占比重最大。判别保真项公式如下：

目标函数第二项为L₁范数约束编码系数矩阵X_k的列向量，使其稀疏化，λ₁是一个调节参数；第三项为判别系数项f(X_k)，以Fisher判别准则约束编码系数矩阵X_k使其更具判别信息，即约束编码系数矩阵X_k，使类内散度S_W(X_k)最小化，使类间散度S_B(X_k)最大化，λ₂是一个调节参数。判别系数项公式如下：

其中，tr(·)表示求矩阵的迹，S_W(X_k)和S_B(X_k)分别表示编码系数矩阵X_k的类内散度和类间散度，η表示一个调节参数。类内散度和类间散度计算公式如下：

其中，

和m_k分别表示第k个采样频率数据第i类编码系数矩阵

和X_k的均值向量，x_w表示

的列向量，

是样本

的样本数量。

进一步的，所述训练阶段A整个迭代优化算法，采用变量交替更新优化策略，当更新第k(k＝1,2,...H)个采样频率数据对应的变量时，其他采样频率数据的对应变量固定；对于第k个采样频率数据，X_k和D_k交替更新。

进一步的，所述训练阶段A整个迭代优化算法具体包括：

Step 1：初始化每个采样频率数据对应子字典

遍历带标签的混合采样数据A_k(k＝1,...,H)的每个采样频率数据对应的类簇数据，用主成分分析方法(PrincipalComponent Analysis，PCA)初始化每个采样频率数据对应子字典

即

Step 2：固定字典矩阵D_k,用迭代投影算法逐类更新编码系数矩阵

即

Step 3：固定编码系数矩阵X_k,用逐列更新算法更新字典矩阵

即

Step 4：对每个采样频率数据，循环迭代Step2至Step3，直到目标函数收敛或达到最大迭代次数，输出每个采样频率数据对应的字典D_k和对应的编码系数矩阵X_k。

进一步的，所述迭代优化算法中，所述Step2更新编码系数矩阵X_k过程具体包括步骤：目标函数简化为与

相关的函数：

通过迭代投影算法，在目标函数未收敛或迭代次数未达到时，按如下公式更新

其中，t表示迭代次数，

表示与

相关的函数，但不包含L1范数项，

为

在

处的导数，S_τ/δ(·)是一个软阈因子公式，计算如下：

S_τ/δ(X)＝sign(X)max(abs(X)-τ/δ,0)

δ表示迭代步长参数，τ为λ₁/2，sign(·)和abs(·)分别表示符号函数和求绝对值函数，max(a,b)表示求a和b中较大值。

进一步的，所述迭代优化算法中，所述Step3更新字典矩阵D_k过程具体包括步骤：目标函数可以简化为与

相关的函数：

通过逐列更新算法，即将上述关于

的函数转换成关于

的每个列向量d_j的函数，再求导对子字典

矩阵进行逐列更新。

B、在分类阶段，分类过程具体包括步骤：

步骤1，通过求解下面的优化函数，获得测试样本z＝{z₁,...,z_k,...,z_h}在与对应采样数据相关的字典D＝{D₁,...,D_k,...,D_h}上的编码向量v＝{v₁,...,v_k,...,v_h}，v_k表示第k个采样频率测试样本z_k在字典D_k上的编码向量，β是一个调节参数。分类阶段目标函数如下：

步骤2，利用测试样本z在对应字典D_k(k＝1,...,h)上的编码向量v_k(k＝1,...,h)和训练得到的类簇子字典

计算重构测试样本z的误差，如下：

其中，

表示与第k个采样频率第i个类簇样本相关的编码向量，

表示由训练阶段学习的第k个采样频率第i个类编码系数矩阵

的均值向量，w是一个调节参数。

步骤3，根据

判断测试样本在哪一类子字典上重构误差最小，则面向混合采样工业大数据的基于多视图字典学习的分类方法将测试样本z归到第i类。

本发明的优点及有益效果如下：

本发明提出一种面向混合采样工业大数据的基于多视图字典学习的分类方法，能够处理工业大数据中因数据采集成本高代价大等因素造成的不同特征集合的数据采样频率不一致的分类问题，该方法极大限度地利用原始数据，更加符合实际情况和很多现实应用场景，能够提供一个扩展性更强的数据挖掘策略，提高算法的精度。

本发明主要创新点包括：

1.基于多视图的混合采样数据分类方法，结合多视图思想，能够处理描述同一对象，以不同采样频率采集的数据集。

2.将Fisher判别字典学习方法运用到混合采样数据分类中，构造新的目标函数，提出了新的混合采样数据分类策略。

3.针对工业大数据中因数据采集成本高代价大等因素导致的数据采集频率不一致问题，利用本发明方法，充分利用原始数据，提升生产状况评估的精度。

附图说明

图1是本发明提供优选实施例面向混合采样工业大数据的基于多视图字典学习的分类方法流程框图；

图2面向混合采样工业大数据的基于多视图字典学习的分类方法的字典学习算法和样本分类算法流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

图1为本发明提出的一种面向混合采样工业大数据的基于多视图字典学习的分类方法的流程框图，其分为两个阶段：字典学习阶段和样本分类阶段。在字典学习阶段，通过考虑判别保真项和判别系数项两个原则，学习每个采样频率数据对应的每个类簇的子字典

和编码系数矩阵

在样本的分类阶段，首先利用学习到的对应采样频率数据字典D_k对测试样本z进行编码，再根据得到的编码向量v_k和类簇子字典

对测试样本进行重构，若第i类样本对应的子字典对测试样本的重构误差最小，则表示该样本数据第i类。

A.在字典学习阶段，学习每个采样频率数据对应的每个类簇的子字典

和编码系数矩阵

如图2左侧算法流程图所示，字典学习阶段整个迭代优化算法处理步骤如下：

Step 1：初始化。用PCA方法初始化字典

其中d_k和n_k分别表示第k个采样频率数据的特征维数和样本数，且有

C表示样本的类簇数。遍历带标签的混合采样数据A_k(k＝1,...,H)的每个采样频率数据对应的类簇数据，用PCA方法初始化每个采样频率数据对应子字典

即

Step 2：更新编码系数矩阵。固定字典矩阵D_k,用迭代投影算法逐类更新编码系数矩阵

即

Step 3：更新字典矩阵。固定编码系数矩阵X_k,用MFL算法逐列更新字典矩阵

即

迭代优化算法中所述Step2更新编码系数矩阵X_k过程具体包括步骤：目标函数可以简化为与

相关的函数：

通过迭代投影算法，在目标函数未收敛或迭代次数未达到时，由以下更新

其中，t表示迭代次数，

为

在

处的导数，S_τ/δ(·)是一个软阈值因子公式。

迭代优化算法中所述Step3更新字典矩阵D_k过程具体包括步骤：目标函数可以简化为与

相关的函数：

通过逐列更新算法，即将上述关于

的函数转换成关于

的每个列向量d_j的函数，再求导对子字典

矩阵进行逐列更新。

B.在样本分类阶段，如图2右侧算法流程图所示，处理步骤如下：

步骤1，通过求解下面公式对测试样本z进行编码，获得测试样本z＝{z₁,z₂,...,z_h}在与对应采样频率数据相关的字典D_k(k＝1,...,h)上的编码向量v_k(k＝1,...,h)。

步骤2，根据得到的编码向量

和字典

对测试样本z进行重构，计算重构测试样本z的误差，如下：

步骤3，由

判断测试样本属于哪一类。若第i类样本对应的子字典对测试样本的重构误差最小，则表示该样本属于第i类。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.面向混合采样工业大数据的基于多视图字典学习分类方法，其特征在于，设A＝{A₁,...,A_k,...,A_H}表示一个包含H个以不同采样频率采集的训练样本集，且每个采样频率数据A_k有C个类簇，则第k个采样频率数据样本为

其中

表示第i个类簇的数据样本，z＝{z₁,...,z_k,...,z_h}表示一个包含h个以不同采样频率采集的测试样本，z_k表示第k个采样频率数据的测试样本，D＝{D₁,...,D_k,...,D_H}和X＝{X₁,...,X_k,...,X_H}分别表示重构对应样本的字典矩阵和编码系数矩阵，则

和

分别表示第k个采样频率数据第i个类簇的数据样本

在字典D_k和子字典

上的编码系数矩阵，包括以下阶段步骤：

A、在训练阶段，通过迭代优化求解下面的目标函数，获得(1)对应第k个采样频率数据第i个类簇的子字典

(2)原始数据的每个类簇样本

在字典D_k上的编码系数矩阵

其中k＝1,...,H,i＝1,...,C，训练过程目标函数如下：

上述目标函数包含三项，第一项

的能力，即最小化误差项

第二，与第i类样本相关的子字典

应该具备重构样本

的能力，即最小化误差项

第三，与第i个类簇样本相关的其他类簇子字典

不应具备重构样本

的能力，所以应该最小化重构误差项

从而使第i个类簇子字典

对样本

重构所占比重最大，判别保真项公式如下：

目标函数第二项为L₁范数约束编码系数矩阵X_k的列向量，使其稀疏化，λ₁是一个调节参数；第三项为判别系数项f(X_k)，以Fisher判别准则约束编码系数矩阵X_k使其更具判别信息，即约束编码系数矩阵X_k，使类内散度S_W(X_k)最小化，使类间散度S_B(X_k)最大化，λ₂是一个调节参数；判别系数项公式如下：

其中，tr(·)表示求矩阵的迹，S_W(X_k)和S_B(X_k)分别表示编码系数矩阵X_k的类内散度和类间散度，η表示一个调节参数；类内散度和类间散度计算公式如下：

其中，

和m_k分别表示第k个采样频率数据第i类编码系数矩阵

和X_k的均值向量，x_w表示

的列向量，

是样本

的样本数量；

B、在分类阶段，分类过程具体包括步骤：

步骤1，通过求解下面的优化函数，获得测试样本z＝{z₁,...,z_k,...,z_h}在与对应采样数据相关的字典D'＝{D₁,...,D_k,...,D_h}上的编码向量v＝{v₁,...,v_k,...,v_h}，v_k表示第k个采样频率测试样本z_k在字典D_k上的编码向量，β是一个调节参数；分类阶段目标函数如下：