CN109933619A - 一种半监督分类预测方法 - Google Patents
一种半监督分类预测方法 Download PDFInfo
- Publication number
- CN109933619A CN109933619A CN201910188479.9A CN201910188479A CN109933619A CN 109933619 A CN109933619 A CN 109933619A CN 201910188479 A CN201910188479 A CN 201910188479A CN 109933619 A CN109933619 A CN 109933619A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- label
- classification
- center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于半监督算法和消除类别区域冗余的方法。属于数据挖掘领域。该方法针对分类预测任务,减少类别局部区域的冗余来优化目标,减少过拟合的风险,从而得到对整体判别能力较强的模型。该方法的实施思路分为两个过程:首先从每个类别出发,找到每个类别的中心,然后选择中心的周围的局部区域;其次,考虑到局部区域的冗余性,利用随机采样的方法减少数据的冗余度。本发明可用于疾病诊断、文本分类、人脸识别、语音识别等诸多分类的样本冗余问题,能显著提升分类准确率。
Description
技术领域
本发明属于数据挖掘技术领域。
背景技术
随着信息技术的快速发展,基于大数据的科学研究和生产实践已经普遍化。然而,随着数据量的增加,传统的监督学习需要大量有标记的样本,大量数据的标注会造成人力资源的浪费。因此,人们提出了半监督的方法。
基于半监督的学习同时从有标签数据和无标签数据中同时获得背后有价值的信息,同时解决大量数据标注的问题。其中,半监督的集成方法作为目前主流的方法,在疾病诊断、文本分类、人脸识别、语音识别、网页分类等研究领域得到了广泛的应用。然而,在某些情况下,多数分类器的预测结果可能是错误的,此时,从少数分类器的角度看,它收到的是有“有标记噪音”的样本,从而对整个模型将会产生较大的误差,因此在分类任务中并不是能够达到最好的性能。
因此,专门针对分类预测任务,综合考虑数据的分布和类别之间的相关性,提出一种半监督分类预测方法,获得更加均匀的数据分布,提高后续分类预测任务的准确率。
通过对现有的专利及相关技术的检索发现,现有的关于半监督的方法主要有:
(1)李寿山,张栋等.一种tri-training半监督学习方法及装置,CN104794500A[p].2015.
提出一种利用训练数据分别训练三个基分类器,分别利用三个分类器获取与之相对应的第二待标注的类别标签;当三个分类器的至少两个个基分类器确定的第二待标注样本的类别标签相同时,则确定第二待标注样本的类别标签为第二待标注标签最终标注的类别标签;将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器,有效的降低了对第二待标注样本的误标注率,提高了标注集的质量,进而获得了更好的半监督学习的效果。
(2)杜兰,王燕等.基于半监督协同训练的SAR目标鉴别方法,CN107977667A[p].2018.
提出一种基于半监督协同训练的SAR图像目标鉴别方法,其实现过程是:1)将恒虚警率CFAR检测切片作为训练样本,从中取少量的样本进行标记;2)提取训练样本的两个林肯特征组;3)用标记过样本的两个林肯特征组训练两个分类器;4)利用3)得到的分类器对无标记样本进行鉴别;5)两个分类器挑选各自置信度较高的少数样本加入到对方的有标记训练样本中;6)利用新的有标记样本重复4)#5)得到最终的分类器;7)用分类器对测试样本进行分类,得到分类结果。
(3)沈琦,牛立坤.基于改进的SVM-KNN算法的半监督托攻击检测方法,CN108154178A[p].2018.
提出一种基于改进的SVM-KNN算法的半监督托攻击检测方法,包括:将已标记训练集训练出初始SVM分类器;利用初始SVM分类器对未标记数据集进行分类;将正常数据并入训练集中,以改进的KNN相似度公式作为KNN算法的距离公式,对其余的数据进行二次分类;更新训练集,并重新训练新的SVM分类器;判断分类结果是否达到最佳检测性能,若判定是,则输出最终分类器,否则循环对未标记数据集进行分类;利用最终分类器对数据进行托攻击检测。
(4)房鼎益,郑欣等.一种多视角数据的半监督特征选择方法,CN106228027A[p].2016.
提出一种多视角数据的半监督特征选择方法,该方法首先从不同的视角采集数据的特征构成数据样本,继而构建数据样本的特征选择矩阵、拉普拉斯矩阵、对角矩阵,使用特征选择矩阵定义目标函数,对特征选择矩阵更新并使目标函数收敛;最后的在收敛的时候,利用特征选择矩阵构成的分类器对样本进行分类。
通过以上的方法可以看出,集成的方法在一定条件下为最后的结果带来提升;但是,传统的半监督方法并不能够保证给模型达到最好的结果,甚至还有可能带来过拟合的风险。这是因为在模型的迭代过程中,不断地增加高置信度的数据会让整个模型带有趋向性。为解决该类问题,本发明提出了减少训练数据的冗余,从而避免模型的过拟合。同时通过这个方法,能够挖掘更多的信息,给模型带来一定的性能提升。
发明内容
本发明的目的是提供一种半监督分类预测方法,它能有效地提高分类预测准确率。
本发明所采用的技术方案为:
一种半监督分类预测方法,能够针对分类任务增强模型的性能,通过关注类别的冗余度,在局部区域对数据进行离散化。该方案的实施步骤如下:
步骤一、构建有标签数据和无标签数据:
(1)利用爬虫技术从互联网中获取数据,或者利用已有的数据集;这些数据集中每个样本将包括具体的属性特征;
(2)在整个数据集中,每个样本的类别将由标签唯一表示;其中,有标签表示的样本称为有标签数据,无标签表示的样本称为无标签数据;
步骤二、对无标签数据进行伪标签标记:
(1)利用数据集中的有标签数据,训练一个基模型分类器;
(2)利用基模型分类器对无标签数据进行预测,并给出每个样本在类别上的概率值;设置一个高置信度阈值δ,与所有样本的所属类别概率值比较,将大于置信度δ的伪标签数据加入到原来的训练集A=[L1,L2,...,Lc]∈Rc,小于置信度δ保留为无标签数据B=[U1,U2,...,Uc]∈Rc;其中Lk为类别为k的数据集,k=1,2,3...;R表示实体,c为数据的所有类别数目;
步骤三、寻找带有冗余的数据区域,具体实现步骤如下:
(1)获得有标签的数据集A=[L1,L2,...,Lc]∈Rc,将类别为k有标签数据记为Lk,并记样本集Lk=[l1,l2,...,ln]∈Rp×n,其中样本属性值集为X=[x1,x2,...,xn]∈R(p-1)×n,样本标签值为Y=[y1,y2,...,yn]∈R1×n;设样本集X的均值将作为样本集Lk的数据中心;其中,n为视图X,Y的样本个数,p分别为样本X的属性个数,xi和yi分别表示X,Y的第i个样本;
(2)对所有的类别求数据中心M=[m1,m2,...,mc]∈Rp×c;分别围绕每个中心产生一个有限空间,将有限空间里的样本记为qk,记有限空间集为Q=[q1,q2,...,qc]∈Rc;
(3)在充分考虑每个类别的样本的分布情况下,获得一个距离阈值τ,将量化有限空间中所有样本到中心的距离,利用阈值及中心M对有标签数据进行划分。在同样量化的目标下,将数据样本到中心M的距离小于τ的量化空间集作为以及将数据样本到中心M的距离大于τ的量化空间集作为
(4)同时,τ控制每个中心的样本密度针对所有量化空间集Qτ,利用密度阈值ρτ对数据集Qτ划分为 为需要优化的冗余区域,为均匀空间集;
步骤四、优化空间集并重新训练基模型;
(1)在步骤三中获得冗余区域其中c1=n-c2,c2为有限空间集数量;
(2)在充分考虑每个冗余区域的中心密度,利用随机采样的方法对有限量化空间里的数据进行离散化;设置采样率η将保证数据的平稳性,记采样后的量化空间为其中
(3)将步骤三中所获得的Qo,合并成新的有标签数据集,然后重复步骤二,直到无标签数据集为空,或者到达所设定的迭代次数。
在方案实际的操作中,阈值τ和ρτ的组合方式可根据具体问题、数据集分布等情况择优选择。
与现有技术相比,本发明的优点和效果:
本发明主要针对分类预测任务,基于半监督算法和类别内的冗余性两方面来增强分类任务的准确性。与已有的方法相比,该方法从数据分布考虑,通过平衡数据的信息度来提高整体的性能;同时能够减少数据类别间的不平衡度,从而能够减少过拟合的风险。
附图说明
图1为本发明的方案实施流程图。
具体实施方式
以下结合图1实施对本发明作进一步详细描述。
一种半监督分类预测方法,能够针对分类任务增强模型的性能,通过关注类别的冗余度,在局部区域对数据进行离散化。在类别相关性的优化基础上同时将视图组合特征的判别准则项考虑进来。如图1该方案的实施步骤如下:
步骤一、构建有标签数据和无标签数据:
(1)利用爬虫技术从互联网中获取数据,或者利用已有的数据集;这些数据集中每个样本将包括具体的属性特征;
(2)在整个数据集中,每个样本的类别将由标签唯一表示;其中,有标签表示的样本称为有标签数据,无标签表示的样本称为无标签数据;
步骤二、对无标签数据进行伪标签标记:
(1)利用数据集中的有标签数据,训练一个基模型分类器;
(2)利用基模型分类器对无标签数据进行预测,并给出每个样本在类别上的概率值;设置一个高置信度阈值δ,与所有样本的所属类别概率值比较,将大于置信度δ的伪标签数据加入到原来的训练集A=[L1,L2,...,Lc]∈Rc,小于置信度δ保留为无标签数据B=[U1,U2,...,Uc]∈Rc;其中Lk为类别为k的数据集,k=1,2,3...;R表示实体,c为数据的所有类别数目;
步骤三、寻找带有冗余的数据区域,具体实现步骤如下:
(1)获得有标签的数据集A=[L1,L2,...,Lc]∈Rc,将类别为k有标签数据记为Lk,并记样本集Lk=[l1,l2,...,ln]∈Rp×n,其中样本属性值集为X=[x1,x2,...,xn]∈R(p-1)×n,样本标签值为Y=[y1,y2,...,yn]∈R1×n;设样本集X的均值将作为样本集Lk的数据中心;其中,n为视图X,Y的样本个数,p分别为样本X的属性个数,xi和yi分别表示X,Y的第i个样本;
(2)对所有的类别求数据中心M=[m1,m2,...,mc]∈Rp×c;分别围绕每个中心产生一个有限空间,将有限空间里的样本记为qk,记有限空间集为Q=[q1,q2,...,qc]∈Rc;
(3)在充分考虑每个类别的样本的分布情况下,获得一个距离阈值τ,将量化有限空间中所有样本到中心的距离,利用阈值及中心M对有标签数据进行划分。在同样量化的目标下,将数据样本到中心M的距离小于τ的量化空间集作为以及将数据样本到中心M的距离大于τ的量化空间集作为
(4)同时,τ控制每个中心的样本密度针对所有量化空间集Qτ,利用密度阈值ρτ对数据集Qτ划分为 为需要优化的冗余区域,为均匀空间集;
步骤四、优化空间集并重新训练基模型;
(1)在步骤三中获得冗余区域其中c1=n-c2,c2为有限空间集数量;
(2)在充分考虑每个冗余区域的中心密度,利用随机采样的方法对有限量化空间里的数据进行离散化;设置采样率η将保证数据的平稳性,记采样后的量化空间为其中
(3)将步骤三中所获得的Qo,合并成新的有标签数据集,然后重复步骤二,直到无标签数据集为空,或者到达所设定的迭代次数。
对本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。
Claims (1)
1.一种半监督分类预测方法,包括以下步骤:
步骤一、构建有标签数据和无标签数据:
(1)利用爬虫技术从互联网中获取数据,或者利用已有的数据集;这些数据集中每个样本将包括具体的属性特征;
(2)在整个数据集中,每个样本的类别将由标签唯一表示;其中,有标签表示的样本称为有标签数据,无标签表示的样本称为无标签数据;
步骤二、对无标签数据进行伪标签标记:
(1)利用数据集中的有标签数据,训练一个基模型分类器;
(2)利用基模型分类器对无标签数据进行预测,并给出每个样本在类别上的概率值;设置一个高置信度阈值δ,与所有样本的所属类别概率值比较,将大于置信度δ的伪标签数据加入到原来的训练集A=[L1,L2,...,Lc]∈Rc,小于置信度δ保留为无标签数据B=[U1,U2,...,Uc]∈Rc;其中Lk为类别为k的数据集,k=1,2,3...;R表示实体,c为数据的所有类别数目;
步骤三、寻找带有冗余的数据区域,具体实现步骤如下:
(1)获得有标签的数据集A=[L1,L2,...,Lc]∈Rc,将类别为k有标签数据记为Lk,并记样本集Lk=[l1,l2,...,ln]∈Rp×n,其中样本属性值集为X=[x1,x2,...,xn]∈R(p-1)×n,样本标签值为Y=[y1,y2,...,yn]∈R1×n;设样本集X的均值将作为样本集Lk的数据中心;其中,n为视图X,Y的样本个数,p分别为样本X的属性个数,xi和yi分别表示X,Y的第i个样本;
(2)对所有的类别求数据中心M=[m1,m2,...,mc]∈Rp×c;分别围绕每个中心产生一个有限空间,将有限空间里的样本记为qk,记有限空间集为Q=[q1,q2,...,qc]∈Rc;
(3)在充分考虑每个类别的样本的分布情况下,获得一个距离阈值τ,将量化有限空间中所有样本到中心的距离,利用阈值及中心M对有标签数据进行划分。在同样量化的目标下,将数据样本到中心M的距离小于τ的量化空间集作为以及将数据样本到中心M的距离大于τ的量化空间集作为
(4)同时,τ控制每个中心的样本密度针对所有量化空间集Qτ,利用密度阈值ρτ对数据集Qτ划分为 为需要优化的冗余区域,为均匀空间集;
步骤四、优化空间集并重新训练基模型;
(1)在步骤三中获得冗余区域其中c1=n-c2,c2为有限空间集数量;
(2)在充分考虑每个冗余区域的中心密度,利用随机采样的方法对有限量化空间里的数据进行离散化;设置采样率η将保证数据的平稳性,记采样后的量化空间为其中
(3)将步骤三中所获得的Qo,合并成新的有标签数据集,然后重复步骤二,直到无标签数据集为空,或者到达所设定的迭代次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910188479.9A CN109933619B (zh) | 2019-03-13 | 2019-03-13 | 一种半监督分类预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910188479.9A CN109933619B (zh) | 2019-03-13 | 2019-03-13 | 一种半监督分类预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109933619A true CN109933619A (zh) | 2019-06-25 |
CN109933619B CN109933619B (zh) | 2022-02-08 |
Family
ID=66987035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910188479.9A Active CN109933619B (zh) | 2019-03-13 | 2019-03-13 | 一种半监督分类预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933619B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930068A (zh) * | 2019-12-10 | 2020-03-27 | 安徽新知数媒信息科技有限公司 | 传统读物可视化体验指数预测方法 |
CN111737479A (zh) * | 2020-08-28 | 2020-10-02 | 深圳追一科技有限公司 | 数据获取方法、装置、电子设备及存储介质 |
CN112215487A (zh) * | 2020-10-10 | 2021-01-12 | 吉林大学 | 一种基于神经网络模型的车辆行驶风险预测方法 |
CN112418258A (zh) * | 2019-08-22 | 2021-02-26 | 北京京东振世信息技术有限公司 | 一种特征离散化方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1571652A2 (en) * | 2004-03-02 | 2005-09-07 | AT&T Corp. | Combining active and semi-supervised learning for spoken language understanding |
US20100161652A1 (en) * | 2008-12-24 | 2010-06-24 | Yahoo! Inc. | Rapid iterative development of classifiers |
CN101853304A (zh) * | 2010-06-08 | 2010-10-06 | 河海大学 | 基于特征选择和半监督学习的遥感图像检索方法 |
CN102411610A (zh) * | 2011-10-12 | 2012-04-11 | 浙江大学 | 一种用于高维数据聚类的半监督降维方法 |
CN104156438A (zh) * | 2014-08-12 | 2014-11-19 | 德州学院 | 一种基于置信度和聚类的未标记样本选择的方法 |
CN104598813A (zh) * | 2014-12-09 | 2015-05-06 | 西安电子科技大学 | 一种基于集成学习和半监督svm的计算机入侵检测方法 |
CN106096063A (zh) * | 2016-07-19 | 2016-11-09 | 中国科学院计算技术研究所 | 一种用于大数据的并行半定义分类方法与系统 |
CN106649789A (zh) * | 2016-12-28 | 2017-05-10 | 浙江大学 | 一种基于集成半监督费舍尔判别的工业过程故障分类方法 |
CN108364015A (zh) * | 2018-01-10 | 2018-08-03 | 杭州电子科技大学 | 一种具有安全机制的半监督超限学习机分类方法 |
CN108388929A (zh) * | 2018-03-27 | 2018-08-10 | 四川大学 | 基于代价敏感和半监督分类的客户分类方法及装置 |
-
2019
- 2019-03-13 CN CN201910188479.9A patent/CN109933619B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1571652A2 (en) * | 2004-03-02 | 2005-09-07 | AT&T Corp. | Combining active and semi-supervised learning for spoken language understanding |
US20100161652A1 (en) * | 2008-12-24 | 2010-06-24 | Yahoo! Inc. | Rapid iterative development of classifiers |
CN101853304A (zh) * | 2010-06-08 | 2010-10-06 | 河海大学 | 基于特征选择和半监督学习的遥感图像检索方法 |
CN102411610A (zh) * | 2011-10-12 | 2012-04-11 | 浙江大学 | 一种用于高维数据聚类的半监督降维方法 |
CN104156438A (zh) * | 2014-08-12 | 2014-11-19 | 德州学院 | 一种基于置信度和聚类的未标记样本选择的方法 |
CN104598813A (zh) * | 2014-12-09 | 2015-05-06 | 西安电子科技大学 | 一种基于集成学习和半监督svm的计算机入侵检测方法 |
CN106096063A (zh) * | 2016-07-19 | 2016-11-09 | 中国科学院计算技术研究所 | 一种用于大数据的并行半定义分类方法与系统 |
CN106649789A (zh) * | 2016-12-28 | 2017-05-10 | 浙江大学 | 一种基于集成半监督费舍尔判别的工业过程故障分类方法 |
CN108364015A (zh) * | 2018-01-10 | 2018-08-03 | 杭州电子科技大学 | 一种具有安全机制的半监督超限学习机分类方法 |
CN108388929A (zh) * | 2018-03-27 | 2018-08-10 | 四川大学 | 基于代价敏感和半监督分类的客户分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
徐禹洪等: "基于优化样本分布抽样集成学习的半监督文本分类方法研究", 《中文信息学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418258A (zh) * | 2019-08-22 | 2021-02-26 | 北京京东振世信息技术有限公司 | 一种特征离散化方法和装置 |
CN110930068A (zh) * | 2019-12-10 | 2020-03-27 | 安徽新知数媒信息科技有限公司 | 传统读物可视化体验指数预测方法 |
CN111737479A (zh) * | 2020-08-28 | 2020-10-02 | 深圳追一科技有限公司 | 数据获取方法、装置、电子设备及存储介质 |
CN111737479B (zh) * | 2020-08-28 | 2020-11-17 | 深圳追一科技有限公司 | 数据获取方法、装置、电子设备及存储介质 |
CN112215487A (zh) * | 2020-10-10 | 2021-01-12 | 吉林大学 | 一种基于神经网络模型的车辆行驶风险预测方法 |
CN112215487B (zh) * | 2020-10-10 | 2023-05-23 | 吉林大学 | 一种基于神经网络模型的车辆行驶风险预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109933619B (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN112418117B (zh) | 一种基于无人机图像的小目标检测方法 | |
Saha et al. | Brain image segmentation using semi-supervised clustering | |
CN109933619A (zh) | 一种半监督分类预测方法 | |
CN110738247B (zh) | 一种基于选择性稀疏采样的细粒度图像分类方法 | |
TW201737118A (zh) | 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN108875816A (zh) | 融合置信度准则和多样性准则的主动学习样本选择策略 | |
CN103425996B (zh) | 一种并行分布式的大规模图像识别方法 | |
CN110309868A (zh) | 结合无监督学习的高光谱图像分类方法 | |
CN105389583A (zh) | 图像分类器的生成方法、图像分类方法和装置 | |
CN113408605A (zh) | 基于小样本学习的高光谱图像半监督分类方法 | |
CN107292349A (zh) | 基于百科知识语义增强的零样本分类方法、装置 | |
CN103745233B (zh) | 基于空间信息迁移的高光谱图像分类方法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN107220663B (zh) | 一种基于语义场景分类的图像自动标注方法 | |
CN110084314A (zh) | 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法 | |
CN108877947A (zh) | 基于迭代均值聚类的深度样本学习方法 | |
CN109086794B (zh) | 一种基于t-lda主题模型的驾驶行为模式识方法 | |
CN103631753A (zh) | 递减子空间集成学习算法 | |
Luo et al. | Deep unsupervised hashing by global and local consistency | |
Jiang et al. | Dynamic proposal sampling for weakly supervised object detection | |
Ghanmi et al. | Table detection in handwritten chemistry documents using conditional random fields | |
CN111144453A (zh) | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 | |
CN105760471A (zh) | 基于组合凸线性感知器的两类文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |