CN104750875B - 一种机器错误数据分类方法及系统 - Google Patents
一种机器错误数据分类方法及系统 Download PDFInfo
- Publication number
- CN104750875B CN104750875B CN201510197408.7A CN201510197408A CN104750875B CN 104750875 B CN104750875 B CN 104750875B CN 201510197408 A CN201510197408 A CN 201510197408A CN 104750875 B CN104750875 B CN 104750875B
- Authority
- CN
- China
- Prior art keywords
- machine data
- classification
- data
- label
- machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000012360 testing method Methods 0.000 claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000005303 weighing Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims 2
- 238000007418 data mining Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 239000000523 sample Substances 0.000 description 27
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 208000035126 Facies Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000012468 concentrated sample Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据挖掘技术领域,特别是涉及一种机器错误数据分类方法及系统。该方法引入标签传播算法作为机器错误数据预处理步骤,利用少量的已标定机器数据的标签,快速估计出未标定数据的标签,组成分类训练集。基于分类训练集中的机器数据及标签,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,得到重构字典、稀疏编码和多类线性分类器,同时保持字典中各项与数据标签间的关系。进而,利用得到的稀疏编码来表征机器数据特征,输入到分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。通过引入高效的半监督数据预处理,增加了已标定机器样本的数量,丰富了先验信息,有效提高了机器数据分类的精准度。
Description
技术领域
本申请涉及数据挖掘技术领域,特别是涉及一种机器错误数据分类方法及系统。
背景技术
随着计算机技术和智能化的不断发展,机器错误数据分类已经发展成为数据挖掘中非常重要的一个研究课题。其中,机器错误数据分类技术通过对机器错误进行数据描述、分析数据结构,进而获取数据特征,最后根据数据特征来对机器错误数据进行分类。
在现有技术中,通常利用字典学习算法,比如K-SVD和D-KSVD(Discriminative K-SVD)等,对训练集中的机器数据及机器数据的标定情况进行学习,得到重构字典、稀疏编码及分类器,并利用得到的稀疏编码表征机器数据的特征,进而实现对测试样本的分类。然而,由于真实世界中的机器错误数据通常只有少量是有标记的,而大多数是无标记的,当选取的训练集中样本数量较少时,易造成机器错误数据的特征无法精确表征,降低了机器错误数据分类的精准度。
发明内容
有鉴于此,本申请提供了一种机器错误数据分类方法及系统,以解决现有技术中当选取的训练集中样本数量较少时,易造成机器错误数据的特征无法精确表征,降低机器错误数据分类的精准度的问题。
为解决上述技术问题,本申请提供一种机器错误数据分类方法,包括:
获取原始训练集X,所述原始训练集X包括已标记机器数据XL和未标记机器数据XU;
利用所述已标记机器数据XL的标签,用半监督的标签传播算法估计得到所述未标记机器数据XU的标签,对所述已标记机器数据XL及估计出标签的所述未标记机器数据XU进行分类,得到分类训练集;
基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到重构字典D、稀疏编码S和多类线性分类器,同时保持所述可重构字典中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;
将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
上述方法中,优选的,通过解决以下问题计算得到重构字典D、稀疏编码S和多类线性分类器:
其中,A为提取特征的投影矩阵,为分类器参数,为所述分类训练集的判别稀疏编码,是所述分类训练集的类别标签矩阵,为判别稀疏编码容错,α是该项的权衡参数,为分类错误,β是该项的权衡参数,K为所述重构字典D的维度,c为所有类别的数量。
上述方法中,优选的,将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类,包括:
将所述机器数据特征输入所述多类线性分类器;
对计算得到的所述重构字典D、投影矩阵A及分类器参数W进行如下处理:
利用处理得到的重构字典训练新的测试样本xnew,得到所述测试样本xnew的稀疏编码snew;
利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本xnew的类别。
本申请还提供了一种机器错误数据分类系统,包括:
原始训练集获取模块,用于获取原始训练集X,所述原始训练集X包括已标记机器数据XL和未标记机器数据XU;
训练预处理模块,用于利用所述已标记机器数据XL的标签,用半监督的标签传播算法估计得到所述未标记机器数据XU的标签,对所述已标记机器数据XL及估计出标签的所述未标记机器数据XU进行分类,得到分类训练集;
训练模块,用于基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到重构字典D、稀疏编码S和多类线性分类器,同时保持所述可重构字典中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;
测试模块,用于将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
上述系统中,优选的,所述测试模块包括:
输入子单元,用于将所述机器数据特征输入所述多类线性分类器;
处理子单元,用于对计算得到的所述重构字典D、投影矩阵A及分类器参数W进行如下处理:
训练子单元,用于利用处理得到的重构字典训练新的测试样本xnew,得到所述测试样本xnew的稀疏编码snew;
分类子单元,用于利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本xnew的类别。
以上本申请提供的技术方案中,公开了半监督学习的机器错误分类方法,通过引入半监督的标签传播算法作为机器错误数据预处理步骤,可以利用少量的已标记机器数据的标签,快速估计出未标记机器数据的标签,组成分类训练集。基于分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到一个判别的重构字典,机器数据的稀疏编码和可预测的多类线性分类器,同时可有效保持字典中各项与机器数据标签之间的内在关系。进而,利用得到的稀疏编码来表征机器数据特征,将得到的机器数据特征输入到多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。通过引入高效的半监督数据预处理过程,增加了已标记机器数据样本的数量,丰富了监督的先验信息,因此有效提高了机器错误数据分类的精准度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请一种机器错误数据分类方法实施例1的流程图;
图2为本申请一种机器错误数据分类方法实施例3的流程图;
图3为本申请一种机器错误数据分类系统实施例1的结构框图示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的核心是提供一种机器错误数据分类方法及系统,以解决现有技术中当选取的训练集中样本数量较少时,易造成机器错误数据的特征无法精确表征,降低机器错误数据分类的精准度的问题。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
本申请在两个机器数据集的数据库进行了测试:Synthetic machine dataset和Rolling bearing fault dataset。Synthetic数据库共有960个样本,其中包含4个类别,每个类别有240个样本;Rolling bearing数据库包含4个机器数据集,本申请选取其中的2HP和3HP进行测试,2HP和3HP都包含800个样本,其中包含10个类别,每个类别80个样本。这些数据库从多方面收集,因而测试结果具有普遍说明性。
参考图1,示出了本申请一种机器错误数据分类方法实施例1的流程图,该方法具体可以包括如下步骤:
步骤S100、获取原始训练集X,所述原始训练集X包括已标记机器数据XL和未标记机器数据XU;其中,X=[XL,XU]∈Rn×(l+u),n是训练集样本的维度,l是已标记机器数据样本的数量,u是未标记机器数据样本数量,l+u=N;
对于给定的一个原始训练集X向量集合X=[XL,XU]∈Rn×(l+u),包含有c(c>=2)个类别标签的训练样本集XL=[x1,x2,...,xl]∈Rn×l和无任何标签的训练样本集XU=[xl+1,xl+2,...,xl+u]∈Rn×u,其中,任意向量xi∈Rn是一个及其数据样本。
步骤S101、利用所述已标记机器数据XL的标签,用半监督的标签传播算法估计得到所述未标记机器数据XU的标签,对所述已标记机器数据XL及估计出标签的所述未标记机器数据XU进行分类,得到分类训练集;
本申请中,半监督的标签传播算法中,假定Y=[y1,y2,…,yl+u]∈R(c+1)×(l+u)是原始训练集的标记矩阵,F=[f1,f2,…,fl+u]∈R(c+1)×(l+u)是预测的标记矩阵,fj(0≤fj≤1)为列向量,其中最大的元素fi,j决定了训练样本xj的标签,即xj的标签为argmini≤cfi,j。假定xj为已被标记的样本,且属于第i类,那么列向量yi中yi,j的元素值为1,其余各项为0,假定xj未被标记,那么yi,c+1为1,其余各项为0。
步骤S102、基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到重构字典D、稀疏编码S和多类线性分类器,同时保持所述可重构字典中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;
步骤S103、将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
本申请中,针对步骤S101,为估计未标记机器数据XU的标签,标签传播算法先用K-最近邻搜索方法构建一个邻域图G=(X,E),用高斯分布构建边的集合E,E中元素W=[wi,j]是边的权值,当xi与xj相似度越高,权值wi,j就越大。首先使W←(W+WT)/2使W对称化,构建矩阵D使Di,j=∑jWi,j,P=D-1W为转移概率矩阵,所以,可通过解决如下问题估计所有数据标签:
其中,μi是xi的调整参量,||·||2是l2-norm。
定义αi=1/(1+μi),i=1,2,…,N,标签传播算法最优解F*可通过解决以下问题获得:
F*=YUD(D-W+UD)-1=YU(IN-P+U)-1=YIβ(Iα-PIα+Iβ)-1=YIβ(IN-PIα)-1
其中,I是单位矩阵,Iα∈R(l+u)×(l+u)且Iα=I-Iβ。
以上本申请提供的技术方案中,公开了半监督学习的机器错误分类方法,通过引入半监督的标签传播算法作为机器错误数据预处理步骤,可以利用少量的已标记机器数据的标签,快速估计出未标记机器数据的标签,组成分类训练集。通过引入高效的半监督数据预处理过程,增加了已标记机器数据样本的数量,丰富了监督的先验信息,因此有效提高了机器错误数据分类的精准度。
基于本申请上述实施例1公开的一种机器错误数据分类方法,为了便于本领域技术人员理解本申请技术方案,针对计算重构字典D、稀疏编码S和多类线性分类器的具体过程,本申请提供了一种机器错误数据分类方法实施例2:具体地,在步骤S103中,可以通过解决以下问题计算得到重构字典D、稀疏编码S和多类线性分类器:
其中,A为提取特征的投影矩阵,为分类器参数,为所述分类训练集的判别稀疏编码,是所述分类训练集的类别标签矩阵,为判别稀疏编码容错,α是该项的权衡参数,为分类错误,β是该项的权衡参数,K为所述重构字典D的维度,c为类别数量。
对于稀疏编码中,si可定义如下:
对于类别标签矩阵中非零项所在的行数是训练样本xi的类别标签,符号t表示转置。
当训练样本xi和xj属于不同类别时,这两个训练样本在Q中对应的项为0,反之,为cos(xi,xj).例如,包含3个类别的数据,x1,x2属于类别1,x3,x4属于类别2,x5,x6属于类别3,Q可定义为:
则为判别稀疏编码容错,α是该项的权衡参数。
当β=0时,问题归结为:
计算时,该问题可转化为求如下问题的解:
假定原问题转化为:
该问题可以归结为K-SVD问题,可以有效的利用K-SVD算法找到最优解,即dk和它相应的系数(S中第K行)在同一时刻更新, 和Ek中舍弃0项之后的表示为和可通过以下方法得到dk和
其中,可利用SVD分解得到dk=U(:,1),
综合上述计算得到重构字典D、稀疏编码S和多类线性分类器的技术方案的分析,在实际应用中,可以通过以下方法得到:
输入:原始训练集矩阵X=[XL,XU]∈Rn×(l+u),控制参数α,β,稀疏约束T,字典维度K。
输出:Q,H,D,A,W
计算D(0),A(0),W(0):
用LC-KSVD算法保持各样本类别与字典项目之间的相关性计算D(0);
用OMP算法计算[XL,XU]的稀疏编码S(0);
用LC-KSVD算法计算得到初始化的A(0),W(0);
初始化
用K-SVD算法通过解决如下问题更新Dnew:
通过如下方法获得D,A,W:
基于以上本申请实施例提供的机器错误数据分类方法,参考图2,本发明提供了一种机器错误数据分类方法实施例3:具体地,通过以下步骤实现执行步骤S103、将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类:
步骤S200、将所述机器数据特征输入所述多类线性分类器;
步骤S201、对计算得到的重构字典D、投影矩阵A及分类器参数W进行如下处理:
步骤S202、当输入新的测试样本xnew时,先利用处理得到的重构字典训练新的测试样本xnew,得到所述测试样本xnew的稀疏编码snew;
步骤S203、利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本xnew的类别。
请参阅表1,为本申请方法和D-KSVD(Discriminative K-SVD)、LC-KSVD1、LC-KSVD2(Label Consistent K-SVD)方法的机器数据分类结果对比表,给出了各方法实验的平均和最高分类结果以及分类时间。本例中,参与比较的D-KSVD和LC-KSVD方法使用各自得到的稀疏编码用于机器数据的特征提取,且分类均采用各自优化得到的多类别线性分类器。
表1
与上述本申请一种机器错误数据分类方法实施例1相对应,本申请还提供了一种机器错误数据分类系统实施例1,参考图3,该系统300可以包括如下内容:
原始训练集获取模块301,用于获取原始训练集X,所述原始训练集X包括已标记机器数据XL和未标记机器数据XU;
训练预处理模块302,用于利用所述已标记机器数据XL的标签,用半监督的标签传播算法估计得到所述未标记机器数据XU的标签,对所述已标记机器数据XL及估计出标签的所述未标记机器数据XU进行分类,得到分类训练集;
训练模块303,用于基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到重构字典D、稀疏编码S和多类线性分类器,同时保持所述可重构字典中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;
测试模块304,用于将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
本申请中,所述测试模块304可以包括:
输入子单元,用于将所述机器数据特征输入所述多类线性分类器;
处理子单元,用于对计算得到的所述重构字典D、投影矩阵A及分类器参数W进行如下处理:
训练子单元,用于利用处理得到的重构字典训练新的测试样本xnew,得到所述测试样本xnew的稀疏编码snew;
分类子单元,用于利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本xnew的类别。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种机器错误数据分类方法及系统进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (4)
1.一种机器错误数据分类方法,其特征在于,包括:
获取原始训练集X,所述原始训练集X包括已标记机器数据XL和未标记机器数据XU;
利用所述已标记机器数据XL的标签,用半监督的标签传播算法估计得到所述未标记机器数据XU的标签,对所述已标记机器数据XL及估计出标签的所述未标记机器数据XU进行分类,得到分类训练集;
基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,通过解决以下问题计算得到重构字典D、稀疏编码S和多类线性分类器:
<mrow>
<mo><</mo>
<mi>D</mi>
<mo>,</mo>
<mi>A</mi>
<mo>,</mo>
<mi>W</mi>
<mo>,</mo>
<mi>S</mi>
<mo>></mo>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mi>D</mi>
<mo>,</mo>
<mi>A</mi>
<mo>,</mo>
<mi>W</mi>
<mo>,</mo>
<mi>S</mi>
</mrow>
</munder>
<mo>|</mo>
<mo>|</mo>
<mo>&lsqb;</mo>
<msub>
<mi>X</mi>
<mi>L</mi>
</msub>
<mo>,</mo>
<msub>
<mi>X</mi>
<mi>U</mi>
</msub>
<mo>&rsqb;</mo>
<mo>-</mo>
<mi>D</mi>
<mi>S</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mi>&alpha;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>Q</mi>
<mo>-</mo>
<mi>A</mi>
<mi>S</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mi>&beta;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>H</mi>
<mo>-</mo>
<mi>W</mi>
<mi>S</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
<mo>;</mo>
</mrow>
其中,A为提取特征的投影矩阵,为分类器参数,为所述分类训练集的判别稀疏编码,是所述分类训练集的类别标签矩阵,为判别稀疏编码容错,α是该项的权衡参数,为分类错误,β是该项的权衡参数,K为所述重构字典D的维度,c为所有类别的数量;同时保持所述重构字典D中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;
将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
2.如权利要求1所述的方法,其特征在于,将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类,包括:
将所述机器数据特征输入所述多类线性分类器;
对计算得到的所述重构字典D、投影矩阵A及分类器参数W进行如下处理:
<mrow>
<mover>
<mi>D</mi>
<mo>^</mo>
</mover>
<mo>=</mo>
<mo>{</mo>
<mfrac>
<msub>
<mi>d</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>d</mi>
<mn>1</mn>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mn>...</mn>
<mfrac>
<msub>
<mi>d</mi>
<mi>K</mi>
</msub>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>d</mi>
<mi>K</mi>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mo>}</mo>
<mo>,</mo>
<mover>
<mi>A</mi>
<mo>^</mo>
</mover>
<mo>=</mo>
<mo>{</mo>
<mfrac>
<msub>
<mi>a</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>d</mi>
<mn>1</mn>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mn>...</mn>
<mfrac>
<msub>
<mi>a</mi>
<mi>K</mi>
</msub>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>d</mi>
<mi>K</mi>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mo>}</mo>
<mo>,</mo>
<mover>
<mi>W</mi>
<mo>^</mo>
</mover>
<mo>=</mo>
<mo>{</mo>
<mfrac>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>d</mi>
<mn>1</mn>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mn>...</mn>
<mfrac>
<msub>
<mi>w</mi>
<mi>K</mi>
</msub>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>d</mi>
<mi>K</mi>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mo>}</mo>
</mrow>
利用处理得到的重构字典训练新的测试样本xnew,得到所述测试样本xnew的稀疏编码snew;
利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本xnew的类别。
3.一种机器错误数据分类系统,其特征在于,包括:
原始训练集获取模块,用于获取原始训练集X,所述原始训练集X包括已标记机器数据XL和未标记机器数据XU;
训练预处理模块,用于利用所述已标记机器数据XL的标签,用半监督的标签传播算法估计得到所述未标记机器数据XU的标签,对所述已标记机器数据XL及估计出标签的所述未标记机器数据XU进行分类,得到分类训练集;
训练模块,用于基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,通过解决以下问题计算得到重构字典D、稀疏编码S和多类线性分类器:
<mrow>
<mo><</mo>
<mi>D</mi>
<mo>,</mo>
<mi>A</mi>
<mo>,</mo>
<mi>W</mi>
<mo>,</mo>
<mi>S</mi>
<mo>></mo>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mi>D</mi>
<mo>,</mo>
<mi>A</mi>
<mo>,</mo>
<mi>W</mi>
<mo>,</mo>
<mi>S</mi>
</mrow>
</munder>
<mo>|</mo>
<mo>|</mo>
<mo>&lsqb;</mo>
<msub>
<mi>X</mi>
<mi>L</mi>
</msub>
<mo>,</mo>
<msub>
<mi>X</mi>
<mi>U</mi>
</msub>
<mo>&rsqb;</mo>
<mo>-</mo>
<mi>D</mi>
<mi>S</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mi>&alpha;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>Q</mi>
<mo>-</mo>
<mi>A</mi>
<mi>S</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mi>&beta;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>H</mi>
<mo>-</mo>
<mi>W</mi>
<mi>S</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
<mo>;</mo>
</mrow>
其中,A为提取特征的投影矩阵,为分类器参数,为所述分类训练集的判别稀疏编码,是所述分类训练集的类别标签矩阵,为判别稀疏编码容错,α是该项的权衡参数,为分类错误,β是该项的权衡参数,K为所述重构字典D的维度,c为所有类别的数量;同时保持所述可重构字典中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;
测试模块,用于将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
4.如权利要求3所述的系统,其特征在于,所述测试模块包括:
输入子单元,用于将所述机器数据特征输入所述多类线性分类器;
处理子单元,用于对计算得到的所述重构字典D、投影矩阵A及分类器参数W进行如下处理:
<mrow>
<mover>
<mi>D</mi>
<mo>^</mo>
</mover>
<mo>=</mo>
<mo>{</mo>
<mfrac>
<msub>
<mi>d</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>d</mi>
<mn>1</mn>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mn>...</mn>
<mfrac>
<msub>
<mi>d</mi>
<mi>K</mi>
</msub>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>d</mi>
<mi>K</mi>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mo>}</mo>
<mo>,</mo>
<mover>
<mi>A</mi>
<mo>^</mo>
</mover>
<mo>=</mo>
<mo>{</mo>
<mfrac>
<msub>
<mi>a</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>d</mi>
<mn>1</mn>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mn>...</mn>
<mfrac>
<msub>
<mi>a</mi>
<mi>K</mi>
</msub>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>d</mi>
<mi>K</mi>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mo>}</mo>
<mo>,</mo>
<mover>
<mi>W</mi>
<mo>^</mo>
</mover>
<mo>=</mo>
<mo>{</mo>
<mfrac>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>d</mi>
<mn>1</mn>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mn>...</mn>
<mfrac>
<msub>
<mi>w</mi>
<mi>K</mi>
</msub>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>d</mi>
<mi>K</mi>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
</mrow>
</mfrac>
<mo>}</mo>
</mrow>
训练子单元,用于利用处理得到的重构字典训练新的测试样本xnew,得到所述测试样本xnew的稀疏编码snew;
分类子单元,用于利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本xnew的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510197408.7A CN104750875B (zh) | 2015-04-23 | 2015-04-23 | 一种机器错误数据分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510197408.7A CN104750875B (zh) | 2015-04-23 | 2015-04-23 | 一种机器错误数据分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104750875A CN104750875A (zh) | 2015-07-01 |
CN104750875B true CN104750875B (zh) | 2018-03-02 |
Family
ID=53590559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510197408.7A Active CN104750875B (zh) | 2015-04-23 | 2015-04-23 | 一种机器错误数据分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104750875B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105045924A (zh) * | 2015-08-26 | 2015-11-11 | 苏州大学张家港工业技术研究院 | 一种问题分类方法及系统 |
CN105930411A (zh) * | 2016-04-18 | 2016-09-07 | 苏州大学 | 一种分类器训练方法、分类器和情感分类系统 |
CN106446931A (zh) * | 2016-08-30 | 2017-02-22 | 苏州大学 | 基于支持向量数据描述的特征提取及分类方法及其系统 |
CN106650780B (zh) | 2016-10-18 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 数据处理方法及装置、分类器训练方法及系统 |
CN106529604B (zh) * | 2016-11-24 | 2019-09-27 | 苏州大学 | 一种自适应的图像标签鲁棒预测方法及系统 |
CN108629358B (zh) * | 2017-03-23 | 2020-12-25 | 北京嘀嘀无限科技发展有限公司 | 对象类别的预测方法及装置 |
CN108256089B (zh) * | 2018-01-24 | 2019-06-18 | 清华大学 | 物联网机器数据的变换方法及装置 |
CN111178302A (zh) * | 2019-12-31 | 2020-05-19 | 北大方正集团有限公司 | 特定着装人物的检测方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605990A (zh) * | 2013-10-23 | 2014-02-26 | 江苏大学 | 基于图聚类标签传播的集成多分类器融合分类方法和系统 |
CN104298997A (zh) * | 2014-09-28 | 2015-01-21 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN104408478A (zh) * | 2014-11-14 | 2015-03-11 | 西安电子科技大学 | 一种基于分层稀疏判别特征学习的高光谱图像分类方法 |
CN104463202A (zh) * | 2014-11-28 | 2015-03-25 | 苏州大学 | 一种多类图像半监督分类方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7039239B2 (en) * | 2002-02-07 | 2006-05-02 | Eastman Kodak Company | Method for image region classification using unsupervised and supervised learning |
-
2015
- 2015-04-23 CN CN201510197408.7A patent/CN104750875B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605990A (zh) * | 2013-10-23 | 2014-02-26 | 江苏大学 | 基于图聚类标签传播的集成多分类器融合分类方法和系统 |
CN104298997A (zh) * | 2014-09-28 | 2015-01-21 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN104408478A (zh) * | 2014-11-14 | 2015-03-11 | 西安电子科技大学 | 一种基于分层稀疏判别特征学习的高光谱图像分类方法 |
CN104463202A (zh) * | 2014-11-28 | 2015-03-25 | 苏州大学 | 一种多类图像半监督分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104750875A (zh) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104750875B (zh) | 一种机器错误数据分类方法及系统 | |
Yao et al. | Efficient methods for topic model inference on streaming document collections | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN108519971B (zh) | 一种基于平行语料库的跨语种新闻主题相似性对比方法 | |
CN113901797B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN111881671B (zh) | 一种属性词提取方法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN105069483B (zh) | 一种对分类数据集进行测试的方法 | |
CN116610803B (zh) | 基于大数据的产业链优企信息管理方法及系统 | |
CN109086265A (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN110674642B (zh) | 一种用于含噪稀疏文本的语义关系抽取方法 | |
CN112015904A (zh) | 确定文档语料库的潜在主题的方法、系统和计算机可读介质 | |
CN108877880A (zh) | 基于病历文本的病人相似性度量装置及方法 | |
CN111897954A (zh) | 一种用户评论方面挖掘系统、方法、及存储介质 | |
CN110889275A (zh) | 一种基于深度语义理解的信息抽取方法 | |
Hussain et al. | Design and analysis of news category predictor | |
CN111611796A (zh) | 下位词的上位词确定方法、装置、电子设备及存储介质 | |
Gruppi et al. | Fake it till you make it: Self-supervised semantic shifts for monolingual word embedding tasks | |
CN112732863B (zh) | 电子病历标准化切分方法 | |
US11829442B2 (en) | Methods and systems for efficient batch active learning of a deep neural network | |
Menon et al. | Document classification with hierarchically structured dictionaries | |
Fischer et al. | Beyond pairwise similarity: Quantifying and characterizing linguistic similarity between groups of languages by MDL | |
CN104778479B (zh) | 一种基于稀疏编码提取子的图像分类方法及系统 | |
CN111859947B (zh) | 一种文本处理装置、方法、电子设备及存储介质 | |
CN112579741A (zh) | 基于在线序列核极限学习机的高维多标签数据流分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |