CN109933619A

CN109933619A - 一种半监督分类预测方法

Info

Publication number: CN109933619A
Application number: CN201910188479.9A
Authority: CN
Inventors: 杨燕; 汪衡
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-06-25
Anticipated expiration: 2039-03-13
Also published as: CN109933619B

Abstract

本发明公开了一种基于半监督算法和消除类别区域冗余的方法。属于数据挖掘领域。该方法针对分类预测任务，减少类别局部区域的冗余来优化目标，减少过拟合的风险，从而得到对整体判别能力较强的模型。该方法的实施思路分为两个过程：首先从每个类别出发，找到每个类别的中心，然后选择中心的周围的局部区域；其次，考虑到局部区域的冗余性，利用随机采样的方法减少数据的冗余度。本发明可用于疾病诊断、文本分类、人脸识别、语音识别等诸多分类的样本冗余问题，能显著提升分类准确率。

Description

一种半监督分类预测方法

技术领域

本发明属于数据挖掘技术领域。

背景技术

随着信息技术的快速发展，基于大数据的科学研究和生产实践已经普遍化。然而，随着数据量的增加，传统的监督学习需要大量有标记的样本，大量数据的标注会造成人力资源的浪费。因此，人们提出了半监督的方法。

基于半监督的学习同时从有标签数据和无标签数据中同时获得背后有价值的信息，同时解决大量数据标注的问题。其中，半监督的集成方法作为目前主流的方法，在疾病诊断、文本分类、人脸识别、语音识别、网页分类等研究领域得到了广泛的应用。然而，在某些情况下，多数分类器的预测结果可能是错误的，此时，从少数分类器的角度看，它收到的是有“有标记噪音”的样本，从而对整个模型将会产生较大的误差，因此在分类任务中并不是能够达到最好的性能。

因此，专门针对分类预测任务，综合考虑数据的分布和类别之间的相关性，提出一种半监督分类预测方法，获得更加均匀的数据分布，提高后续分类预测任务的准确率。

通过对现有的专利及相关技术的检索发现，现有的关于半监督的方法主要有：

(1)李寿山，张栋等.一种tri-training半监督学习方法及装置，CN104794500A[p].2015.

提出一种利用训练数据分别训练三个基分类器，分别利用三个分类器获取与之相对应的第二待标注的类别标签；当三个分类器的至少两个个基分类器确定的第二待标注样本的类别标签相同时，则确定第二待标注样本的类别标签为第二待标注标签最终标注的类别标签；将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器,有效的降低了对第二待标注样本的误标注率,提高了标注集的质量,进而获得了更好的半监督学习的效果。

(2)杜兰，王燕等.基于半监督协同训练的SAR目标鉴别方法，CN107977667A[p].2018.

提出一种基于半监督协同训练的SAR图像目标鉴别方法,其实现过程是：1)将恒虚警率CFAR检测切片作为训练样本,从中取少量的样本进行标记；2)提取训练样本的两个林肯特征组；3)用标记过样本的两个林肯特征组训练两个分类器；4)利用3)得到的分类器对无标记样本进行鉴别；5)两个分类器挑选各自置信度较高的少数样本加入到对方的有标记训练样本中；6)利用新的有标记样本重复4)#5)得到最终的分类器；7)用分类器对测试样本进行分类,得到分类结果。

(3)沈琦，牛立坤.基于改进的SVM-KNN算法的半监督托攻击检测方法，CN108154178A[p].2018.

提出一种基于改进的SVM-KNN算法的半监督托攻击检测方法,包括：将已标记训练集训练出初始SVM分类器；利用初始SVM分类器对未标记数据集进行分类；将正常数据并入训练集中,以改进的KNN相似度公式作为KNN算法的距离公式,对其余的数据进行二次分类；更新训练集,并重新训练新的SVM分类器；判断分类结果是否达到最佳检测性能,若判定是,则输出最终分类器,否则循环对未标记数据集进行分类；利用最终分类器对数据进行托攻击检测。

(4)房鼎益，郑欣等.一种多视角数据的半监督特征选择方法，CN106228027A[p].2016.

提出一种多视角数据的半监督特征选择方法,该方法首先从不同的视角采集数据的特征构成数据样本,继而构建数据样本的特征选择矩阵、拉普拉斯矩阵、对角矩阵,使用特征选择矩阵定义目标函数,对特征选择矩阵更新并使目标函数收敛；最后的在收敛的时候，利用特征选择矩阵构成的分类器对样本进行分类。

通过以上的方法可以看出，集成的方法在一定条件下为最后的结果带来提升；但是，传统的半监督方法并不能够保证给模型达到最好的结果，甚至还有可能带来过拟合的风险。这是因为在模型的迭代过程中，不断地增加高置信度的数据会让整个模型带有趋向性。为解决该类问题，本发明提出了减少训练数据的冗余，从而避免模型的过拟合。同时通过这个方法，能够挖掘更多的信息，给模型带来一定的性能提升。

发明内容

本发明的目的是提供一种半监督分类预测方法，它能有效地提高分类预测准确率。

本发明所采用的技术方案为：

一种半监督分类预测方法，能够针对分类任务增强模型的性能，通过关注类别的冗余度，在局部区域对数据进行离散化。该方案的实施步骤如下：

步骤一、构建有标签数据和无标签数据：

(1)利用爬虫技术从互联网中获取数据，或者利用已有的数据集；这些数据集中每个样本将包括具体的属性特征；

(2)在整个数据集中，每个样本的类别将由标签唯一表示；其中，有标签表示的样本称为有标签数据，无标签表示的样本称为无标签数据；

步骤二、对无标签数据进行伪标签标记：

(1)利用数据集中的有标签数据，训练一个基模型分类器；

(2)利用基模型分类器对无标签数据进行预测，并给出每个样本在类别上的概率值；设置一个高置信度阈值δ，与所有样本的所属类别概率值比较，将大于置信度δ的伪标签数据加入到原来的训练集A＝[L₁,L₂,...,L_c]∈R^c，小于置信度δ保留为无标签数据B＝[U₁,U₂,...,U_c]∈R^c；其中L_k为类别为k的数据集，k＝1,2,3...；R表示实体，c为数据的所有类别数目；

步骤三、寻找带有冗余的数据区域，具体实现步骤如下：

(1)获得有标签的数据集A＝[L₁,L₂,...,L_c]∈R^c，将类别为k有标签数据记为L_k，并记样本集L_k＝[l₁,l₂,...,l_n]∈R^p×n，其中样本属性值集为X＝[x₁,x₂,...,x_n]∈R^(p-1)×n,样本标签值为Y＝[y₁,y₂,...,y_n]∈R^1×n；设样本集X的均值将作为样本集L_k的数据中心；其中，n为视图X，Y的样本个数，p分别为样本X的属性个数，x_i和y_i分别表示X，Y的第i个样本；

(2)对所有的类别求数据中心M＝[m₁,m₂,...,m_c]∈R^p×c；分别围绕每个中心产生一个有限空间，将有限空间里的样本记为q_k，记有限空间集为Q＝[q₁,q₂,...,q_c]∈R^c；

(3)在充分考虑每个类别的样本的分布情况下，获得一个距离阈值τ，将量化有限空间中所有样本到中心的距离，利用阈值及中心M对有标签数据进行划分。在同样量化的目标下，将数据样本到中心M的距离小于τ的量化空间集作为以及将数据样本到中心M的距离大于τ的量化空间集作为

(4)同时，τ控制每个中心的样本密度针对所有量化空间集Q^τ，利用密度阈值ρ_τ对数据集Q^τ划分为为需要优化的冗余区域，为均匀空间集；

步骤四、优化空间集并重新训练基模型；

(1)在步骤三中获得冗余区域其中c1＝n-c2，c2为有限空间集数量；

(2)在充分考虑每个冗余区域的中心密度，利用随机采样的方法对有限量化空间里的数据进行离散化；设置采样率η将保证数据的平稳性，记采样后的量化空间为其中

(3)将步骤三中所获得的Q^o，合并成新的有标签数据集，然后重复步骤二，直到无标签数据集为空，或者到达所设定的迭代次数。

在方案实际的操作中，阈值τ和ρ_τ的组合方式可根据具体问题、数据集分布等情况择优选择。

与现有技术相比，本发明的优点和效果：

本发明主要针对分类预测任务，基于半监督算法和类别内的冗余性两方面来增强分类任务的准确性。与已有的方法相比，该方法从数据分布考虑，通过平衡数据的信息度来提高整体的性能；同时能够减少数据类别间的不平衡度，从而能够减少过拟合的风险。

附图说明

图1为本发明的方案实施流程图。

具体实施方式

以下结合图1实施对本发明作进一步详细描述。

一种半监督分类预测方法，能够针对分类任务增强模型的性能，通过关注类别的冗余度，在局部区域对数据进行离散化。在类别相关性的优化基础上同时将视图组合特征的判别准则项考虑进来。如图1该方案的实施步骤如下：

步骤一、构建有标签数据和无标签数据：

步骤二、对无标签数据进行伪标签标记：

(1)利用数据集中的有标签数据，训练一个基模型分类器；

步骤三、寻找带有冗余的数据区域，具体实现步骤如下：

步骤四、优化空间集并重新训练基模型；

对本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。

Claims

1.一种半监督分类预测方法，包括以下步骤：

步骤一、构建有标签数据和无标签数据：

步骤二、对无标签数据进行伪标签标记：

(1)利用数据集中的有标签数据，训练一个基模型分类器；

步骤三、寻找带有冗余的数据区域，具体实现步骤如下：

步骤四、优化空间集并重新训练基模型；