CN107766895B - 一种诱导式非负投影半监督数据分类方法及系统 - Google Patents

一种诱导式非负投影半监督数据分类方法及系统 Download PDF

Info

Publication number
CN107766895B
CN107766895B CN201711140254.3A CN201711140254A CN107766895B CN 107766895 B CN107766895 B CN 107766895B CN 201711140254 A CN201711140254 A CN 201711140254A CN 107766895 B CN107766895 B CN 107766895B
Authority
CN
China
Prior art keywords
training
label
data
projection
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711140254.3A
Other languages
English (en)
Other versions
CN107766895A (zh
Inventor
张召
贾磊
李凡长
王邦军
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201711140254.3A priority Critical patent/CN107766895B/zh
Publication of CN107766895A publication Critical patent/CN107766895A/zh
Application granted granted Critical
Publication of CN107766895B publication Critical patent/CN107766895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • G06F18/21322Rendering the within-class scatter matrix non-singular
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • G06F18/21322Rendering the within-class scatter matrix non-singular
    • G06F18/21324Rendering the within-class scatter matrix non-singular involving projections, e.g. Fisherface techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明方法明确地将半监督数据表示和分类误差结合到现有的投影非负矩阵分解框架进行联合最小化学习,由此将权重系数构造和标签传播过程作用于投影非负矩阵分解,可有效避免原始数据中可能包含的噪音、破坏或异类对相似性度量和标签预测结果的负面影响。此外,上述联合最小化过程也可在投影非负矩阵分解过程中有效保持邻域信息和空间结构,得到更准确的数据表示结果。此外,还将权重构建和归纳学习整合到一个统一的模型中,可得到自适应的权重系数矩阵,进而避免传统算法中选取最优近邻难的问题。本发明方法为诱导式模型,可完成样本外数据的归纳与预测,无需引入额外的重构过程,可拓展性能好。

Description

一种诱导式非负投影半监督数据分类方法及系统
技术领域
本发明涉及一种诱导式非负投影半监督数据分类方法及系统,属于模式识别和数据挖掘技术领域。
背景技术
基于图的半监督学习已经是数据挖掘和模式识别领域中的重要课题。由于模型可以利用少量的有标记数据和大量未标记的数据来学习,这非常适合实际应用数据的特性。基于是否可以有效地扩展到样本外新数据,现有模型可以大致分为直推式学习和诱导式学习。
标签传播作为典型的分类模型,近年来在学术界引起了相当大的关注和兴趣。现有典型的直推式标签传播算法包括高斯场和谐波函数,局部和全局一致性学习,线性邻域传播等等。这些标签传播方法可以通过有效的直推式学习预测未标记样本的标签,但不能很好地拓展到对新样本数据。注意,线性邻域传播通过使用训练集中的邻居的软标签重建测试数据的标签来涉及新数据,但比较复杂和耗时,因需要首先通过最近邻搜索找到每个新测试数据的近邻。为了处理样本外的问题,近年提出了几个扩展方法,例如:拉普拉斯线性判别分析和嵌入式标签传播等。注意,这些诱导式方法通过提供投影分类器或直接嵌入新测试数据,与基于重构的直推式方法相比是非常有效的。虽然现有的诱导式标签传播方法通过嵌入有效地解决了样本外问题,但仍有明显的缺点,实际应用中大多的数据通常包含冗余或各种噪声,对分类性能有很大影响。
有鉴于此,开发一种诱导式非负投影半监督数据分类方法及系统,显然是有必要的。
发明内容
本发明的发明目的是提供一种诱导式非负投影半监督数据分类方法及系统,以减少原始输入数据中含有的混合信号的影响,获得判别性更强的类别标签,提高算法的适用范围和鲁棒性,增强分类性能。
为达到上述发明目的,本发明采用的技术方案是:一种诱导式非负投影半监督数据分类方法,包括如下步骤:
(1)、随机的将原始数据集划分为训练集和测试集,然后对所述训练集和测试集进行初始化,获得初始类别标签矩阵;
(2)、利用投影非负矩阵分解技术对原始数据进行重新表示,计算得到一个投影非负矩阵分解结果Q,基于新表示的数据建立联合统一的标签传播框架,进行自适应权重构造和标签传播,同时最小化数据重构项和标签重构项,通过迭代得到训练集的非负矩阵Q以及投影分类器P;(3)、利用学习得到非负矩阵Q以及投影分类器P,对测试集中的无标签样本数据进行投影,得到类别标签向量,根据标签向量中的最大值确定测试样本对应的标签类别,得到分类结果。
优选地,步骤(1)具体包括:
原始的样本数据集合划分为训练集和测试集,所述训练集中包含已标记的训练样本和尚未标记的训练样本,已标记和未标记的训练数据向量集合
Figure BDA0001471326970000021
(其中,n是训练数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c>2)个类别标签的训练样本集
Figure BDA0001471326970000022
和无任何标签的训练样本集
Figure BDA0001471326970000023
Figure BDA0001471326970000024
其中l+u=N,所述测试集中包含测试样本,全部未标记,初始化训练集的类别标签矩阵,Y=[y1,y2,…,yl+u],对于已标记样本xj,假定xj属于第i类,则yi,j=1,反之,yi,j=0.若xj未被标记,则yi,j=0。
优选地,步骤(2)中框架如下:
Figure BDA0001471326970000025
其中,
Figure BDA0001471326970000026
是重构误差项,
Figure BDA0001471326970000027
是流行平滑项,
Figure BDA0001471326970000028
为自适应编码项,同时最小化数据重构项和标签重构项,确保得到的权重对于标签传播是最优的。
实际迭代求解过程中,可将上述问题重写为:
Figure BDA0001471326970000029
其中,矩阵A为辅助变量,方便求解。
优选地,步骤(3)具体包括:利用前一步骤得到的非负矩阵Q和投影分类器P将待测样本嵌入计算得到每个测试样本的软标签向量,软标签向为
Figure BDA00014713269700000210
所得软标签向量的最大元素对应的位置即为待测样本的软标签,每个测试样本的硬标签可以被归结为argmaxi≤c(f)i,其中(f)i表示预测的软标签向量f第i个元素位置。
本发明还提供了一种诱导式非负投影半监督数据分类系统,包括:
训练预处理模块,随机的将原始数据集划分为训练集和测试集,然后对所述训练集和测试集进行初始化,获得初始类别标签矩阵;
训练模块,对预处理后的数据利用投影非负矩阵分解技术对原始数据进行重新表示,计算得到一个投影非负矩阵分解结果Q,基于新表示的数据建立联合统一的标签传播框架,进行自适应权重构造和标签传播,同时最小化数据重构项和标签重构项,通过迭代训练得到训练集的非负矩阵Q以及投影分类器P;
测试模块,利用学习得到非负矩阵Q以及投影分类器P,对测试集中的无标签样本数据进行投影,得到类别标签向量,根据标签向量中的最大值确定测试样本对应的标签类别,得到分类结果。
优选地,所述训练预处理模块包括:
训练预处理单元,用于:原始的样本数据集合划分为训练集和测试集,所述训练集中包含已标记的训练样本和尚未标记的训练样本,已标记和未标记的训练数据向量集合
Figure BDA0001471326970000031
(其中,n是训练数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c>2)个类别标签的训练样本集
Figure BDA0001471326970000032
和无任何标签的训练样本集
Figure BDA0001471326970000033
其中l+u=N,所述测试集中包含测试样本,全部未标记,初始化训练集的类别标签矩阵,Y=[y1,y2,…,yl+u],对于已标记样本xj,假定xj属于第i类,则yi,j=1,反之,yi,j=0.若xj未被标记,则yi,j=0。
优选地,所述训练模块包括:
训练单元,用于:对预处理后的数据利用投影非负矩阵分解技术对原始数据进行重新表示,计算得到一个投影非负矩阵分解结果Q,基于新表示的数据建立联合统一的标签传播框架,进行自适应权重构造和标签传播,同时最小化数据重构项和标签重构项,通过迭代训练得到训练集的非负矩阵Q以及投影分类器P。
优选地,所述测试模块包括:
预测单元,用于:利用学习得到非负矩阵Q以及投影分类器P,对测试集中的无标签样本数据进行投影,得到类别标签向量,根据标签向量中的最大值确定测试样本对应的标签类别,得到分类结果。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
本发明方法明确地将半监督数据表示和分类误差结合到现有的投影非负矩阵分解框架进行联合最小化学习,由此将权重系数构造和标签传播过程作用于投影非负矩阵分解,可有效避免原始数据中可能包含的噪音、破坏或异类对相似性度量和标签预测结果的负面影响。此外,上述联合最小化过程也可在投影非负矩阵分解过程中有效保持邻域信息和空间结构,得到更准确的数据表示结果。此外,还将权重构建和归纳学习整合到一个统一的模型中,可得到自适应的权重系数矩阵,进而避免传统算法中选取最优近邻难的问题。本发明方法为诱导式模型,可完成样本外数据的归纳与预测,无需引入额外的重构过程,可拓展性能好。
附图说明
图1为本发明实施例公开的诱导式非负投影半监督数据分类方法流程图。
图2为本发明实施例公开的诱导式非负投影半监督数据分类系统结构图。
图3为本发明实施例公开的诱导式非负投影半监督数据分类方法及系统标签预测示意图。
其中:201、训练预处理模块;202、训练模块;203、测试模块。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:
本发明在6个真实数据集进行测试,包括MIT face,AR male and female face,YaleB face,ORL face以及Yale face。基于计算高效性考虑,所有真实图像的尺寸被压缩为32x32;在实验中,每张图片对应一个1024维的向量。在实验中,从各个数据集中随机挑选每类的任意几个作为有标签样本,再从每类随机挑选任意几个作为无标签样本。这些数据集从多方面收集,因而测试结果具有普遍说明性。
参见图1所示,一种诱导式非负投影半监督数据分类方法,包括如下步骤:
(1)、随机的将原始数据集划分为训练集和测试集,然后对所述训练集和测试集进行初始化,获得初始类别标签矩阵;
步骤(1)具体包括:
原始的样本数据集合划分为训练集和测试集,所述训练集中包含已标记的训练样本和尚未标记的训练样本,已标记和未标记的训练数据向量集合
Figure BDA0001471326970000041
(其中,n是训练数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c>2)个类别标签的训练样本集
Figure BDA0001471326970000042
和无任何标签的训练样本集
Figure BDA0001471326970000043
Figure BDA0001471326970000044
其中l+u=N,所述测试集中包含测试样本,全部未标记,初始化训练集的类别标签矩阵,Y=[y1,y2,…,yl+u],对于已标记样本xj,假定xj属于第i类,则yi,j=1,反之,yi,j=0.若xj未被标记,则yi,j=0。
(2)、利用投影非负矩阵分解技术对原始数据进行重新表示,计算得到一个投影非负矩阵分解结果Q,基于新表示的数据建立联合统一的标签传播框架,进行自适应权重构造和标签传播,同时最小化数据重构项和标签重构项,通过迭代得到训练集的非负矩阵Q以及投影分类器P;
步骤(2)中框架如下:
Figure BDA0001471326970000051
其中,
Figure BDA0001471326970000052
是重构误差项,
Figure BDA0001471326970000053
是流行平滑项,
Figure BDA0001471326970000054
为自适应编码项,同时最小化数据重构项和标签重构项,确保得到的权重对于标签传播是最优的。
实际迭代求解过程中,可将上述问题重写为:
Figure BDA0001471326970000055
其中,矩阵A为辅助变量,方便求解。
进一步可将整体框架划分为三个子问题,分别求解各变量。
固定其他变量,求解Q。可将上述问题转化为:
Figure BDA0001471326970000056
由于问题是非凸的,不能直接得到全局最小化结果。利用拉格朗日乘子τi,k进行辅助求解,并且建立拉格朗日方程,具体如下:
Figure BDA0001471326970000057
其中,
Figure BDA0001471326970000058
Ws=(I-S)(I-S)T,Tr(·)表示矩阵的迹。B=PTAXXTATP-PTAXXTQQTP-PTQQTXXTATP+PTQQTXXTQQTP,基于KKT的条件定义τi, kQi,k,可得如下公式:
(2QQTXXTQ+2XXTQQTQ-4XXTQ)ikQik+α(-2XXTATPPTQ-2PPTAXXTQ+2PPTQQTXXTQ
+2XXTQQTPPTQ)ikQik+β(2QQTXWsQ+2WsXTQQTQ)Qik=0
最终由上式可得到Q的更新迭代表达式:
Figure BDA0001471326970000059
其中,Δ=α(PPTQQTXXTQ+XXTQQTPPTQ)+2βQQTXWsXTQ+2βXWsXTQQTQ。
(2)固定其他变量,求解P。当非负矩阵Q已知后,可固定Q和其他变量对投影分类器进行求解,具体问题可转换为:
Figure BDA0001471326970000061
上式目标函数可进一步化简为:
Figure BDA0001471326970000062
通过对上述目标函数进行求P偏导数,并且等式右边取值为0,可得到P的迭代更新公式:
Figure BDA0001471326970000063
其中,
Figure BDA0001471326970000064
(3)固定其他变量,求解辅助变量A。当非负矩阵Q和P求得之后,可对辅助变量A进行求解,具体问题可转换为:
Figure BDA0001471326970000065
对上式进行求A的偏导数可得:
Figure BDA0001471326970000066
对上式右边取值为0可得A的迭代更新公式:
Figure BDA0001471326970000067
(4)固定其他变量,求解权重矩阵S。当非负矩阵Q、A和P求得之后,可对权重矩阵A进行求解,具体问题可转换为:
Figure BDA0001471326970000068
通过对上式求S偏导,并且等式取值为0,最终可得S的迭代更新公式:
Figure BDA00014713269700000611
通过上述四个迭代步骤可更新Qt+1、Pt+1、At+1与St+1,最终迭代结束输入最优的Q和P。
具体算法如下:
一种诱导式的自适应非负投影半监督学习分类算法
输入:原始数据集
Figure BDA0001471326970000069
初始标签集
Figure BDA00014713269700000610
控制参数α,β;
初始化:F=Y;初始化稀疏权重矩阵S值为局部线性嵌入重构权;
当未收敛时:
1).固定A、P和S,更新非负矩阵Qt+1:
Figure BDA0001471326970000071
2).固定Q、P和S,更新投影分类器Pt+1:
Figure BDA0001471326970000072
3).固定Q、P和S,更新辅助矩阵At+1:
Figure BDA0001471326970000073
4).固定Q、P和A,更新权重矩阵St+1
Figure BDA0001471326970000074
检查是否收敛:
若sqrt(sum(tmp(:).2))<tol||iter>=maxIter则停止;
计算软标签向量
Figure BDA0001471326970000075
否则t=t+1
输出:软标签矩阵(F*←Ft+1)。
(3)、利用学习得到非负矩阵Q以及投影分类器P,对测试集中的无标签样本数据进行投影,得到类别标签向量,根据标签向量中的最大值确定测试样本对应的标签类别,得到分类结果。
步骤(3)具体包括:利用前一步骤得到的非负矩阵Q和投影分类器P将待测样本嵌入计算得到每个测试样本的软标签向量,软标签向为
Figure BDA0001471326970000076
所得软标签向量的最大元素对应的位置即为待测样本的软标签,每个测试样本的硬标签可以被归结为argmaxi≤c(f)i,其中(f)i表示预测的软标签向量f第i个元素位置。
参见图2所示,本发明还提供了一种诱导式非负投影半监督数据分类系统,包括:
训练预处理模块,随机的将原始数据集划分为训练集和测试集,然后对所述训练集和测试集进行初始化,获得初始类别标签矩阵;
所述训练预处理模块包括:
训练预处理单元,用于:原始的样本数据集合划分为训练集和测试集,所述训练集中包含已标记的训练样本和尚未标记的训练样本,已标记和未标记的训练数据向量集合
Figure BDA0001471326970000081
(其中,n是训练数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c>2)个类别标签的训练样本集
Figure BDA0001471326970000082
和无任何标签的训练样本集
Figure BDA0001471326970000083
其中l+u=N,所述测试集中包含测试样本,全部未标记,初始化训练集的类别标签矩阵,Y=[y1,y2,…,yl+u],对于已标记样本xj,假定xj属于第i类,则yi,j=1,反之,yi,j=0.若xj未被标记,则yi,j=0。
训练模块,对预处理后的数据利用投影非负矩阵分解技术对原始数据进行重新表示,计算得到一个投影非负矩阵分解结果Q,基于新表示的数据建立联合统一的标签传播框架,进行自适应权重构造和标签传播,同时最小化数据重构项和标签重构项,通过迭代训练得到训练集的非负矩阵Q以及投影分类器P;
所述训练模块包括:
训练单元,用于:对预处理后的数据利用投影非负矩阵分解技术对原始数据进行重新表示,计算得到一个投影非负矩阵分解结果Q,基于新表示的数据建立联合统一的标签传播框架,进行自适应权重构造和标签传播,同时最小化数据重构项和标签重构项,通过迭代训练得到训练集的非负矩阵Q以及投影分类器P。
测试模块,利用学习得到非负矩阵Q以及投影分类器P,对测试集中的无标签样本数据进行投影,得到类别标签向量,根据标签向量中的最大值确定测试样本对应的标签类别,得到分类结果。
所述测试模块包括:
预测单元,用于:利用学习得到非负矩阵Q以及投影分类器P,对测试集中的无标签样本数据进行投影,得到类别标签向量,根据标签向量中的最大值确定测试样本对应的标签类别,得到分类结果。
参见图3,为本实施例的标签预测示意图。同时请参阅表1,为本发明方法和GFHF、LLGC、LNP、FME、Lap-LDA以及ELP方法在AR-male,AR-female,YaleB,Yale,MIT和ORL人脸数据集测试识别结果对比表,给出各方法实验的平均识别率(Mean)与标准偏差(STD)。本次实验在每类样本随机挑选任意几个样本作为训练集,为增加实验公平性,参与比较方法的实验参数也都取自论文中最优值。
表1.本发明和GFHF、LLGC、LNP、FME、Lap-LDA以及ELP方法识别结果
Figure BDA0001471326970000084
Figure BDA0001471326970000091
通过实验结果我们看出本发明提出的图像分类效果明显优于传统的标签传播算法,具有更高的适用性和鲁棒性。

Claims (8)

1.一种诱导式非负投影半监督数据分类方法,其特征在于,包括如下步骤:
(1)、随机的将原始数据集划分为训练集和测试集,然后对所述训练集和测试集进行初始化,获得初始类别标签矩阵;所述原始数据集为人脸图像数据集;
(2)、利用投影非负矩阵分解技术对原始数据进行重新表示,计算得到一个投影非负矩阵分解结果Q,基于新表示的数据建立联合统一的标签传播框架,进行自适应权重构造和标签传播,同时最小化数据重构项和标签重构项,通过迭代得到训练集的非负矩阵Q以及投影分类器P;
(3)、利用学习得到非负矩阵Q以及投影分类器P,对测试集中的无标签样本数据进行投影,得到类别标签向量,根据标签向量中的最大值确定测试样本对应的标签类别,得到分类结果。
2.根据权利要求1所述的诱导式非负投影半监督数据分类方法,其特征在于,步骤(1)具体包括:
原始的样本数据集合划分为训练集和测试集,所述训练集中包含已标记的训练样本和尚未标记的训练样本,已标记和未标记的训练数据向量集合X=[XL,XU]∈n×(l+u)(其中,n是训练数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c>2)个类别标签的训练样本集XL=[x1,x2,...,xl]∈n×l和无任何标签的训练样本集XU=[xl+1,xl+2,...,xl+u]∈n×u,其中l+u=N,所述测试集中包含测试样本,全部未标记,初始化训练集的类别标签矩阵,Y=[y1,y2,…,yl+u],对于已标记样本xj,假定xj属于第i类,则yi,j=1,反之,yi,j=0.若xj未被标记,则yi,j=0。
3.根据权利要求1所述的诱导式非负投影半监督数据分类方法,其特征在于,步骤(2)中框架如下:
Figure FDA0002983161910000011
其中,
Figure FDA0002983161910000012
是重构误差项,
Figure FDA0002983161910000013
是流行平滑项,
Figure FDA0002983161910000014
为自适应编码项,同时最小化数据重构项和标签重构项,确保得到的权重对于标签传播是最优的。
4.根据权利要求1所述的诱导式非负投影半监督数据分类方法,其特征在于,步骤(3)具体包括:利用前一步骤得到的非负矩阵Q和投影分类器P将待测样本嵌入计算得到每个测试样本的软标签向量,软标签向为f=PTQQTx∈c×1,所得软标签向量的最大元素对应的位置即为待测样本的软标签,每个测试样本的硬标签可以被归结为argmaxi≤c(f)i,其中(f)i表示预测的软标签向量f第i个元素位置。
5.一种诱导式非负投影半监督数据分类系统,其特征在于,包括:
训练预处理模块,随机的将原始数据集划分为训练集和测试集,然后对所述训练集和测试集进行初始化,获得初始类别标签矩阵;
训练模块,对预处理后的数据利用投影非负矩阵分解技术对原始数据进行重新表示,计算得到一个投影非负矩阵分解结果Q,基于新表示的数据建立联合统一的标签传播框架,进行自适应权重构造和标签传播,同时最小化数据重构项和标签重构项,通过迭代训练得到训练集的非负矩阵Q以及投影分类器P;
测试模块,利用学习得到非负矩阵Q以及投影分类器P,对测试集中的无标签样本数据进行投影,得到类别标签向量,根据标签向量中的最大值确定测试样本对应的标签类别,得到分类结果。
6.根据权利要求5所述的诱导式非负投影半监督数据分类方法,其特征在于,所述训练预处理模块包括:
训练预处理单元,用于:原始的样本数据集合划分为训练集和测试集,所述训练集中包含已标记的训练样本和尚未标记的训练样本,已标记和未标记的训练数据向量集合X=[XL,XU]∈n×(l+u)(其中,n是训练数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c>2)个类别标签的训练样本集XL=[x1,x2,...,xl]∈n×l和无任何标签的训练样本集XU=[xl+1,xl+2,...,xl+u]∈n×u,其中l+u=N,所述测试集中包含测试样本,全部未标记,初始化训练集的类别标签矩阵,Y=[y1,y2,…,yl+u],对于已标记样本xj,假定xj属于第i类,则yi,j=1,反之,yi,j=0.若xj未被标记,则yi,j=0。
7.根据权利要求5所述的诱导式非负投影半监督数据分类方法,其特征在于,所述训练模块包括:
训练单元,用于:对预处理后的数据利用投影非负矩阵分解技术对原始数据进行重新表示,计算得到一个投影非负矩阵分解结果Q,基于新表示的数据建立联合统一的标签传播框架,进行自适应权重构造和标签传播,同时最小化数据重构项和标签重构项,通过迭代训练得到训练集的非负矩阵Q以及投影分类器P。
8.根据权利要求5所述的诱导式非负投影半监督数据分类方法,其特征在于,所述测试模块包括:
预测单元,用于:利用学习得到非负矩阵Q以及投影分类器P,对测试集中的无标签样本数据进行投影,得到类别标签向量,根据标签向量中的最大值确定测试样本对应的标签类别,得到分类结果。
CN201711140254.3A 2017-11-16 2017-11-16 一种诱导式非负投影半监督数据分类方法及系统 Active CN107766895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711140254.3A CN107766895B (zh) 2017-11-16 2017-11-16 一种诱导式非负投影半监督数据分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711140254.3A CN107766895B (zh) 2017-11-16 2017-11-16 一种诱导式非负投影半监督数据分类方法及系统

Publications (2)

Publication Number Publication Date
CN107766895A CN107766895A (zh) 2018-03-06
CN107766895B true CN107766895B (zh) 2021-07-09

Family

ID=61279658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711140254.3A Active CN107766895B (zh) 2017-11-16 2017-11-16 一种诱导式非负投影半监督数据分类方法及系统

Country Status (1)

Country Link
CN (1) CN107766895B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596272A (zh) * 2018-05-09 2018-09-28 重庆三峡学院 一种基于图的半监督分类机器学习新方法
CN109194504A (zh) * 2018-08-10 2019-01-11 北京大学深圳研究生院 面向动态网络的时序链路预测方法及计算机可读存储介质
CN109472370B (zh) * 2018-09-30 2021-09-10 深圳市元征科技股份有限公司 一种维修厂分类方法及装置
CN109656897A (zh) * 2018-12-04 2019-04-19 郑州云海信息技术有限公司 基于redis的对象存储网关系统及数据调用方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295360A (zh) * 2008-05-07 2008-10-29 清华大学 一种基于带权图的半监督图像分类方法
CN104463202A (zh) * 2014-11-28 2015-03-25 苏州大学 一种多类图像半监督分类方法及系统
CN105354595A (zh) * 2015-10-30 2016-02-24 苏州大学 一种鲁棒视觉图像分类方法及系统
CN105608471A (zh) * 2015-12-28 2016-05-25 苏州大学 一种鲁棒直推式标签估计及数据分类方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295360A (zh) * 2008-05-07 2008-10-29 清华大学 一种基于带权图的半监督图像分类方法
CN104463202A (zh) * 2014-11-28 2015-03-25 苏州大学 一种多类图像半监督分类方法及系统
CN105354595A (zh) * 2015-10-30 2016-02-24 苏州大学 一种鲁棒视觉图像分类方法及系统
CN105608471A (zh) * 2015-12-28 2016-05-25 苏州大学 一种鲁棒直推式标签估计及数据分类方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Adaptive Neighborhood Propagation by Joint L2,1-norm Regularized Sparse Coding for Representation and Classification";Lei Jia,;《2016 IEEE 16th International Conference on Data Mining》;20170202;第I-IV节、图1-3 *

Also Published As

Publication number Publication date
CN107766895A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN110457982B (zh) 一种基于特征迁移学习的作物病害图像识别方法
CN107766895B (zh) 一种诱导式非负投影半监督数据分类方法及系统
Huang et al. Analysis and synthesis of 3D shape families via deep‐learned generative models of surfaces
CN110516095B (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN102314614B (zh) 一种基于类共享多核学习的图像语义分类方法
CN108564107A (zh) 基于原子拉普拉斯图正则化的半监督字典学习的样本类别归类方法
CN109492750B (zh) 基于卷积神经网络和因素空间的零样本图像分类方法
CN105787513A (zh) 多示例多标记框架下基于域适应迁移学习设计方法和系统
CN105608471A (zh) 一种鲁棒直推式标签估计及数据分类方法和系统
CN110033007A (zh) 基于深度姿态预估和多特征融合的行人衣着属性识别方法
CN110889015A (zh) 面向图数据的独立解耦卷积神经网络表征算法
CN110414616B (zh) 一种利用空间关系的遥感图像字典学习分类方法
CN109643384A (zh) 用于零样本学习的方法和装置
CN108171261A (zh) 鲁棒的自适应半监督图像分类方法、装置、设备及介质
CN113610144A (zh) 一种基于多分支局部注意力网络的车辆分类方法
CN107330448A (zh) 一种基于标记协方差和多标记分类的联合学习方法
CN110837865A (zh) 一种基于表示学习和迁移学习的领域适配方法
CN117611932B (zh) 基于双重伪标签细化和样本重加权的图像分类方法及系统
CN116910571B (zh) 一种基于原型对比学习的开集域适应方法及系统
CN117152459A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN107944468A (zh) 基于隐空间编码的零样本学习分类方法
CN114925762A (zh) 一种基于子空间学习和跨域自适应极限学习机的气体传感器漂移补偿方法
CN110111365A (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN111695570B (zh) 一种基于变分原型推理的小样本下语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant