CN104750875B

CN104750875B - 一种机器错误数据分类方法及系统

Info

Publication number: CN104750875B
Application number: CN201510197408.7A
Authority: CN
Inventors: 张召; 江威明; 张莉; 李凡长
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-04-23
Filing date: 2015-04-23
Publication date: 2018-03-02
Anticipated expiration: 2035-04-23
Also published as: CN104750875A

Abstract

本申请涉及数据挖掘技术领域，特别是涉及一种机器错误数据分类方法及系统。该方法引入标签传播算法作为机器错误数据预处理步骤，利用少量的已标定机器数据的标签，快速估计出未标定数据的标签，组成分类训练集。基于分类训练集中的机器数据及标签，进行标签一致的字典学习，同时最小化重构错误、判别稀疏编码错误和分类错误，得到重构字典、稀疏编码和多类线性分类器，同时保持字典中各项与数据标签间的关系。进而，利用得到的稀疏编码来表征机器数据特征，输入到分类器进行预测，确定测试样本的类别，实现机器数据的错误分类。通过引入高效的半监督数据预处理，增加了已标定机器样本的数量，丰富了先验信息，有效提高了机器数据分类的精准度。

Description

一种机器错误数据分类方法及系统

技术领域

本申请涉及数据挖掘技术领域，特别是涉及一种机器错误数据分类方法及系统。

背景技术

随着计算机技术和智能化的不断发展，机器错误数据分类已经发展成为数据挖掘中非常重要的一个研究课题。其中，机器错误数据分类技术通过对机器错误进行数据描述、分析数据结构，进而获取数据特征，最后根据数据特征来对机器错误数据进行分类。

在现有技术中，通常利用字典学习算法，比如K-SVD和D-KSVD(Discriminative K-SVD)等，对训练集中的机器数据及机器数据的标定情况进行学习，得到重构字典、稀疏编码及分类器，并利用得到的稀疏编码表征机器数据的特征，进而实现对测试样本的分类。然而，由于真实世界中的机器错误数据通常只有少量是有标记的，而大多数是无标记的，当选取的训练集中样本数量较少时，易造成机器错误数据的特征无法精确表征，降低了机器错误数据分类的精准度。

发明内容

有鉴于此，本申请提供了一种机器错误数据分类方法及系统，以解决现有技术中当选取的训练集中样本数量较少时，易造成机器错误数据的特征无法精确表征，降低机器错误数据分类的精准度的问题。

为解决上述技术问题，本申请提供一种机器错误数据分类方法，包括：

获取原始训练集X，所述原始训练集X包括已标记机器数据X_L和未标记机器数据X_U；

利用所述已标记机器数据X_L的标签，用半监督的标签传播算法估计得到所述未标记机器数据X_U的标签，对所述已标记机器数据X_L及估计出标签的所述未标记机器数据X_U进行分类，得到分类训练集；

基于所述分类训练集中的机器数据及标签信息，进行标签一致的字典学习，同时最小化重构错误、判别稀疏编码错误和分类错误，计算得到重构字典D、稀疏编码S和多类线性分类器，同时保持所述可重构字典中各项与机器数据标签之间的内在关系，利用所述稀疏编码S来表征机器数据特征；

将所述机器数据特征输入所述多类线性分类器进行预测，确定测试样本的类别，实现机器数据的错误分类。

上述方法中，优选的，通过解决以下问题计算得到重构字典D、稀疏编码S和多类线性分类器：

其中，A为提取特征的投影矩阵，为分类器参数，为所述分类训练集的判别稀疏编码，是所述分类训练集的类别标签矩阵，为判别稀疏编码容错，α是该项的权衡参数，为分类错误，β是该项的权衡参数，K为所述重构字典D的维度，c为所有类别的数量。

上述方法中，优选的，将所述机器数据特征输入所述多类线性分类器进行预测，确定测试样本的类别，实现机器数据的错误分类，包括：

将所述机器数据特征输入所述多类线性分类器；

对计算得到的所述重构字典D、投影矩阵A及分类器参数W进行如下处理：

利用处理得到的重构字典训练新的测试样本x_new，得到所述测试样本x_new的稀疏编码s_new；

利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本x_new的类别。

本申请还提供了一种机器错误数据分类系统，包括：

原始训练集获取模块，用于获取原始训练集X，所述原始训练集X包括已标记机器数据X_L和未标记机器数据X_U；

训练预处理模块，用于利用所述已标记机器数据X_L的标签，用半监督的标签传播算法估计得到所述未标记机器数据X_U的标签，对所述已标记机器数据X_L及估计出标签的所述未标记机器数据X_U进行分类，得到分类训练集；

训练模块，用于基于所述分类训练集中的机器数据及标签信息，进行标签一致的字典学习，同时最小化重构错误、判别稀疏编码错误和分类错误，计算得到重构字典D、稀疏编码S和多类线性分类器，同时保持所述可重构字典中各项与机器数据标签之间的内在关系，利用所述稀疏编码S来表征机器数据特征；

测试模块，用于将所述机器数据特征输入所述多类线性分类器进行预测，确定测试样本的类别，实现机器数据的错误分类。

上述系统中，优选的，所述测试模块包括：

输入子单元，用于将所述机器数据特征输入所述多类线性分类器；

处理子单元，用于对计算得到的所述重构字典D、投影矩阵A及分类器参数W进行如下处理：

训练子单元，用于利用处理得到的重构字典训练新的测试样本x_new，得到所述测试样本x_new的稀疏编码s_new；

分类子单元，用于利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本x_new的类别。

以上本申请提供的技术方案中，公开了半监督学习的机器错误分类方法，通过引入半监督的标签传播算法作为机器错误数据预处理步骤，可以利用少量的已标记机器数据的标签，快速估计出未标记机器数据的标签，组成分类训练集。基于分类训练集中的机器数据及标签信息，进行标签一致的字典学习，同时最小化重构错误、判别稀疏编码错误和分类错误，计算得到一个判别的重构字典，机器数据的稀疏编码和可预测的多类线性分类器，同时可有效保持字典中各项与机器数据标签之间的内在关系。进而，利用得到的稀疏编码来表征机器数据特征，将得到的机器数据特征输入到多类线性分类器进行预测，确定测试样本的类别，实现机器数据的错误分类。通过引入高效的半监督数据预处理过程，增加了已标记机器数据样本的数量，丰富了监督的先验信息，因此有效提高了机器错误数据分类的精准度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请一种机器错误数据分类方法实施例1的流程图；

图2为本申请一种机器错误数据分类方法实施例3的流程图；

图3为本申请一种机器错误数据分类系统实施例1的结构框图示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的核心是提供一种机器错误数据分类方法及系统，以解决现有技术中当选取的训练集中样本数量较少时，易造成机器错误数据的特征无法精确表征，降低机器错误数据分类的精准度的问题。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

本申请在两个机器数据集的数据库进行了测试：Synthetic machine dataset和Rolling bearing fault dataset。Synthetic数据库共有960个样本，其中包含4个类别，每个类别有240个样本；Rolling bearing数据库包含4个机器数据集，本申请选取其中的2HP和3HP进行测试，2HP和3HP都包含800个样本，其中包含10个类别，每个类别80个样本。这些数据库从多方面收集，因而测试结果具有普遍说明性。

参考图1，示出了本申请一种机器错误数据分类方法实施例1的流程图，该方法具体可以包括如下步骤：

步骤S100、获取原始训练集X，所述原始训练集X包括已标记机器数据X_L和未标记机器数据X_U；其中，X＝[X_L，X_U]∈R^n×(l+u)，n是训练集样本的维度，l是已标记机器数据样本的数量，u是未标记机器数据样本数量，l+u＝N；

对于给定的一个原始训练集X向量集合X＝[X_L，X_U]∈R^n×(l+u)，包含有c(c>＝2)个类别标签的训练样本集X_L＝[x₁,x₂,...,x_l]∈R^n×l和无任何标签的训练样本集X_U＝[x_l+1,x_l+2,...,x_l+u]∈R^n×u，其中，任意向量x_i∈Rⁿ是一个及其数据样本。

步骤S101、利用所述已标记机器数据X_L的标签，用半监督的标签传播算法估计得到所述未标记机器数据X_U的标签，对所述已标记机器数据X_L及估计出标签的所述未标记机器数据X_U进行分类，得到分类训练集；

本申请中，半监督的标签传播算法中，假定Y＝[y₁,y₂,…,y_l+u]∈R^(c+1)×(l+u)是原始训练集的标记矩阵，F＝[f₁,f₂,…，f_l+u]∈R^(c+1)×(l+u)是预测的标记矩阵，f_j(0≤f_j≤1)为列向量，其中最大的元素f_i,j决定了训练样本x_j的标签，即x_j的标签为argmin_i≤cf_i,j。假定x_j为已被标记的样本，且属于第i类，那么列向量y_i中y_i，j的元素值为1，其余各项为0，假定x_j未被标记，那么y_i，c+1为1，其余各项为0。

步骤S102、基于所述分类训练集中的机器数据及标签信息，进行标签一致的字典学习，同时最小化重构错误、判别稀疏编码错误和分类错误，计算得到重构字典D、稀疏编码S和多类线性分类器，同时保持所述可重构字典中各项与机器数据标签之间的内在关系，利用所述稀疏编码S来表征机器数据特征；

步骤S103、将所述机器数据特征输入所述多类线性分类器进行预测，确定测试样本的类别，实现机器数据的错误分类。

本申请中，针对步骤S101，为估计未标记机器数据X_U的标签，标签传播算法先用K-最近邻搜索方法构建一个邻域图G＝(X,E)，用高斯分布构建边的集合E，E中元素W＝[w_i,j]是边的权值,当x_i与x_j相似度越高，权值w_i,j就越大。首先使W←(W+W^T)/2使W对称化，构建矩阵D使D_i,j＝∑_jW_i,j，P＝D^-1W为转移概率矩阵，所以，可通过解决如下问题估计所有数据标签：

其中，μ_i是x_i的调整参量，||·||₂是l₂-norm。

定义α_i＝1/(1+μ_i)，i＝1,2,…，N，标签传播算法最优解F*可通过解决以下问题获得：

F^*＝YUD(D-W+UD)^-1＝YU(I^N-P+U)^-1＝YI_β(I_α-PI_α+I_β)^-1＝YI_β(I^N-PI_α)^-1

其中，I是单位矩阵，I_α∈R^(l+u)×(l+u)且I_α＝I-I_β。

以上本申请提供的技术方案中，公开了半监督学习的机器错误分类方法，通过引入半监督的标签传播算法作为机器错误数据预处理步骤，可以利用少量的已标记机器数据的标签，快速估计出未标记机器数据的标签，组成分类训练集。通过引入高效的半监督数据预处理过程，增加了已标记机器数据样本的数量，丰富了监督的先验信息，因此有效提高了机器错误数据分类的精准度。

基于本申请上述实施例1公开的一种机器错误数据分类方法，为了便于本领域技术人员理解本申请技术方案，针对计算重构字典D、稀疏编码S和多类线性分类器的具体过程，本申请提供了一种机器错误数据分类方法实施例2：具体地，在步骤S103中，可以通过解决以下问题计算得到重构字典D、稀疏编码S和多类线性分类器：

其中，A为提取特征的投影矩阵，为分类器参数，为所述分类训练集的判别稀疏编码，是所述分类训练集的类别标签矩阵，为判别稀疏编码容错，α是该项的权衡参数，为分类错误，β是该项的权衡参数，K为所述重构字典D的维度，c为类别数量。

对于稀疏编码中，s_i可定义如下：

对于类别标签矩阵中非零项所在的行数是训练样本x_i的类别标签，符号^t表示转置。

当训练样本x_i和x_j属于不同类别时，这两个训练样本在Q中对应的项为0，反之，为cos(x_i,x_j).例如，包含3个类别的数据，x₁,x₂属于类别1，x₃,x₄属于类别2，x₅,x₆属于类别3，Q可定义为：

则为判别稀疏编码容错，α是该项的权衡参数。

当β＝0时，问题归结为：

计算时，该问题可转化为求如下问题的解：

假定原问题转化为：

该问题可以归结为K-SVD问题，可以有效的利用K-SVD算法找到最优解，即d_k和它相应的系数(S中第K行)在同一时刻更新，和E_k中舍弃0项之后的表示为和可通过以下方法得到d_k和

其中，可利用SVD分解得到d_k＝U(：，1)，

综合上述计算得到重构字典D、稀疏编码S和多类线性分类器的技术方案的分析，在实际应用中，可以通过以下方法得到：

输入：原始训练集矩阵X＝[X_L，X_U]∈R^n×(l+u)，控制参数α，β，稀疏约束T，字典维度K。

输出：Q，H，D，A，W

计算D⁽⁰⁾，A⁽⁰⁾，W⁽⁰⁾：

用LC-KSVD算法保持各样本类别与字典项目之间的相关性计算D⁽⁰⁾；

用OMP算法计算[X_L，X_U]的稀疏编码S⁽⁰⁾；

用LC-KSVD算法计算得到初始化的A⁽⁰⁾,W⁽⁰⁾；

初始化

用K-SVD算法通过解决如下问题更新D_new：

通过如下方法获得D，A，W：

基于以上本申请实施例提供的机器错误数据分类方法，参考图2，本发明提供了一种机器错误数据分类方法实施例3：具体地，通过以下步骤实现执行步骤S103、将所述机器数据特征输入所述多类线性分类器进行预测，确定测试样本的类别，实现机器数据的错误分类：

步骤S200、将所述机器数据特征输入所述多类线性分类器；

步骤S201、对计算得到的重构字典D、投影矩阵A及分类器参数W进行如下处理：

步骤S202、当输入新的测试样本x_new时，先利用处理得到的重构字典训练新的测试样本x_new，得到所述测试样本x_new的稀疏编码s_new；

步骤S203、利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本x_new的类别。

请参阅表1，为本申请方法和D-KSVD(Discriminative K-SVD)、LC-KSVD1、LC-KSVD2(Label Consistent K-SVD)方法的机器数据分类结果对比表，给出了各方法实验的平均和最高分类结果以及分类时间。本例中，参与比较的D-KSVD和LC-KSVD方法使用各自得到的稀疏编码用于机器数据的特征提取，且分类均采用各自优化得到的多类别线性分类器。

表1

与上述本申请一种机器错误数据分类方法实施例1相对应，本申请还提供了一种机器错误数据分类系统实施例1，参考图3，该系统300可以包括如下内容：

原始训练集获取模块301，用于获取原始训练集X，所述原始训练集X包括已标记机器数据X_L和未标记机器数据X_U；

训练预处理模块302，用于利用所述已标记机器数据X_L的标签，用半监督的标签传播算法估计得到所述未标记机器数据X_U的标签，对所述已标记机器数据X_L及估计出标签的所述未标记机器数据X_U进行分类，得到分类训练集；

训练模块303，用于基于所述分类训练集中的机器数据及标签信息，进行标签一致的字典学习，同时最小化重构错误、判别稀疏编码错误和分类错误，计算得到重构字典D、稀疏编码S和多类线性分类器，同时保持所述可重构字典中各项与机器数据标签之间的内在关系，利用所述稀疏编码S来表征机器数据特征；

测试模块304，用于将所述机器数据特征输入所述多类线性分类器进行预测，确定测试样本的类别，实现机器数据的错误分类。

本申请中，所述测试模块304可以包括：

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请所提供的一种机器错误数据分类方法及系统进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种机器错误数据分类方法，其特征在于，包括：

基于所述分类训练集中的机器数据及标签信息，进行标签一致的字典学习，同时最小化重构错误、判别稀疏编码错误和分类错误，通过解决以下问题计算得到重构字典D、稀疏编码S和多类线性分类器：

<mrow> <mo><</mo> <mi>D</mi> <mo>,</mo> <mi>A</mi> <mo>,</mo> <mi>W</mi> <mo>,</mo> <mi>S</mi> <mo>></mo> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>D</mi> <mo>,</mo> <mi>A</mi> <mo>,</mo> <mi>W</mi> <mo>,</mo> <mi>S</mi> </mrow> </munder> <mo>|</mo> <mo>|</mo> <mo>&lsqb;</mo> <msub> <mi>X</mi> <mi>L</mi> </msub> <mo>,</mo> <msub> <mi>X</mi> <mi>U</mi> </msub> <mo>&rsqb;</mo> <mo>-</mo> <mi>D</mi> <mi>S</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <mo>|</mo> <mi>Q</mi> <mo>-</mo> <mi>A</mi> <mi>S</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&beta;</mi> <mo>|</mo> <mo>|</mo> <mi>H</mi> <mo>-</mo> <mi>W</mi> <mi>S</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>;</mo> </mrow>

其中，A为提取特征的投影矩阵，为分类器参数，为所述分类训练集的判别稀疏编码，是所述分类训练集的类别标签矩阵，为判别稀疏编码容错，α是该项的权衡参数，为分类错误，β是该项的权衡参数，K为所述重构字典D的维度，c为所有类别的数量；同时保持所述重构字典D中各项与机器数据标签之间的内在关系，利用所述稀疏编码S来表征机器数据特征；

2.如权利要求1所述的方法，其特征在于，将所述机器数据特征输入所述多类线性分类器进行预测，确定测试样本的类别，实现机器数据的错误分类，包括：

将所述机器数据特征输入所述多类线性分类器；

3.一种机器错误数据分类系统，其特征在于，包括：

训练模块，用于基于所述分类训练集中的机器数据及标签信息，进行标签一致的字典学习，同时最小化重构错误、判别稀疏编码错误和分类错误，通过解决以下问题计算得到重构字典D、稀疏编码S和多类线性分类器：

其中，A为提取特征的投影矩阵，为分类器参数，为所述分类训练集的判别稀疏编码，是所述分类训练集的类别标签矩阵，为判别稀疏编码容错，α是该项的权衡参数，为分类错误，β是该项的权衡参数，K为所述重构字典D的维度，c为所有类别的数量；同时保持所述可重构字典中各项与机器数据标签之间的内在关系，利用所述稀疏编码S来表征机器数据特征；

4.如权利要求3所述的系统，其特征在于，所述测试模块包括：