CN106991444A - 基于峰值密度聚类的主动学习方法 - Google Patents

基于峰值密度聚类的主动学习方法 Download PDF

Info

Publication number
CN106991444A
CN106991444A CN201710207476.6A CN201710207476A CN106991444A CN 106991444 A CN106991444 A CN 106991444A CN 201710207476 A CN201710207476 A CN 201710207476A CN 106991444 A CN106991444 A CN 106991444A
Authority
CN
China
Prior art keywords
cluster
active learning
learning method
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710207476.6A
Other languages
English (en)
Inventor
汪敏
闵帆
肖斌
李志伟
李潇
张樱弋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN201710207476.6A priority Critical patent/CN106991444A/zh
Publication of CN106991444A publication Critical patent/CN106991444A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及主动学习领域,尤其是基于峰值密度聚类的主动学习方法,其方法步骤为:(1)开始时,将所有未能标记数据进行聚类;(2)根据聚类的信息,构建一个选择器,从大量未标记样本中,选择最有价值的样本进行标记;(3)根据已经标记的样本和已有的聚类结构,对未能标记的样本进行预测和分类;(4)判断是否未分类实例,若是,则重新进行聚类,若否,则结束。本发明将ALEC方法与最主流的分类算法KNN,C4.5决策树算法,普通贝叶斯方法NaiveBayes方法在以下12个数据集上进行了仔细的比较,可以以很少的标记数量获得很高的准确度,可以大大减少人工标记实例的个数,从而大大减少成本,提高经济效益,同时具有很强的实用性。

Description

基于峰值密度聚类的主动学习方法
技术领域
本发明涉及主动学习领域,尤其是基于峰值密度聚类的主动学习方法。
背景技术
主动学习在某些情况下,没有类标签的数据相当丰富而有类标签的数据相当稀少,并且人工对数据进行标记的成本又相当高昂。在这种情况下,我们可以让学习算法主动地提出要对哪些数据进行标注,之后我们要将这些数据送到专家那里让他们进行标注,再将这些数据加入到训练样本集中对算法进行训练,这一过程叫做主动学习。
主动学习这个过程最重要的是两点:一、由学习算法主动提出对未标记的样本的标记需求;二、选择策略。
聚类算法:类,就是指相似元素的集合。聚类是把一些对象按照具体特征组织到若干个类别里。
如图1展示了一个一般的主动学习实现的框架,主要可以分为以下两个部分:
第一部分是初始化阶段,通常是随机从样本中选择一部分实例构成初始训练集。然后送入分类器,对样本进行分类。
第二部分是循环查询阶段,选择器根据一定的查询策略从未标记的样本中选择最有信息的样本进行标记;被选择的实例会加入训练集中,重新训练分类器,过程一直迭代,直到终止条件满足。
现有技术主要缺点是初始阶段,需要从大量样本中随机进行选择,构建初始训练集,如果随机选择的初始样本不好,很有可能导致后续算法无法达到预定的效果。需要构建一个复杂的分类器,有些方法是每次选择一个样本,重新加入分类器,对样本进行分类,这样可能极大的降低算法的效率。
因此,对于上述问题有必要提出基于峰值密度聚类的主动学习方法。
发明内容
针对上述现有技术中存在的不足,本发明的目的在于提供一种大大减少人工标记实例的个数,大大减少成本,提高经济效益的基于峰值密度聚类的主动学习方法。
首先提出基于固定标记个数的主动学习问题:
输入:决策系统S=(U,C,d),用户指定的标记个数。
输出:该决策系统中所有实例的标签。
优化目标:预测准确度最高。
基于峰值密度聚类的主动学习方法,其方法步骤为:(1)开始时,将所有未能标记数据进行聚类;(2)根据聚类的信息,构建一个选择器,从大量未标记样本中,选择最有价值的样本进行标记;(3)根据已经标记的样本和已有的聚类结构,对未能标记的样本进行预测和分类;(4)判断是否未分类实例,若是,则重新进行聚类,若否,则结束。
优选地,所述聚类可以采用kmeans或density peak主流聚类方法进行。
优选地,所述聚类首先进行定义本地密度α,其中:
αi=∑jχ(dij-dc)
然后计算最小距离β,β是点i与如何密度比它大的点之间的最小距离,其中:
最后构建聚类关系树结构ms=[m(x1),L,m(xn)],该树仅构建一次,存储,用于后续的聚类分析。
优选地,所述聚类首先设置选择参数γ,其中:
γ=α×β
然后排序,根据聚类后形成的簇,分簇对γ进行排序,形成排序表。
优选地,所述分类实施分为两种情况分类,其中一种情况实施步骤为:(1)标记的实例的数量未达到指定的最大数量;(2)根据聚类后形成的簇,分簇对γ进行排序的选择器选择最有价值的实例;(3)预测实例,并继续重新聚类未标记的实例;(4)将检查每个聚类中的标记数据,如果聚类中的所有标签都是相同的,确定该簇是纯的;(5)对于一个纯粹的聚类,直接预测所有未标记数据与任何其他数据相同,如果聚类是不纯净的,将执行重新聚类,迭代地,直到标记的数据达到设定的最大值。
优选地,所述分类实施的另一种情况实施方法:如果标记的数据的数量已达到最大极限,但仍然有不纯净的簇和未标记的数据,将使用投票策略来确定未标记实例的标签。
由于采用上述技术方案,本发明将ALEC方法与最主流的分类算法KNN,C4.5决策树算法,普通贝叶斯方法NaiveBayes方法在以下12数据集上进行了仔细的比较,可以以很少的标记数量获得很高的准确度,可以大大减少人工标记实例的个数,从而大大减少成本,提高经济效益,同时具有很强的实用性。
附图说明
图1是现有主动学习方法示意图;
图2是本发明的方法示意图;
图3是本发明的具有20个实例的聚类树结构构建示意图;
图4是本发明实施例的聚类后排序表;
图5是本发明DLA数据集对比实验图;
图6是本发明DCCC数据集对比实验图;
图7是本发明Poker数据集对比实验图;
图8是本发明Penbased数据集对比实验图;
图9是本发明Segment数据集对比实验图;
图10是本发明Glass数据集对比实验图;
图11是本发明Seeds数据集对比实验图;
图12是本发明Iris数据集对比实验图;
图13是本发明Aggregation数据集对比实验图;
图14是本发明R15数据集对比实验图;
图15是本发明Flame数据集对比实验图;
图16是本发明Spiral数据集对比实验图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
如图2并结合图3至图16所示,基于峰值密度聚类的主动学习方法,其方法步骤为:(1)开始时,将所有未能标记数据进行聚类;(2)根据聚类的信息,构建一个选择器,从大量未标记样本中,选择最有价值的样本进行标记;(3)根据已经标记的样本和已有的聚类结构,对未能标记的样本进行预测和分类;(4)判断是否未分类实例,若是,则重新进行聚类,若否,则结束。
进一步的,所述聚类可以采用kmeans或density peak主流聚类方法进行。
进一步的,所述聚类首先进行定义本地密度α,其中:
αi=∑jχ(dij-dc)
然后计算最小距离β,β是点i与如何密度比它大的点之间的最小距离,其中:
最后构建聚类关系树结构ms=[m(x1),L,m(xn)],该树仅构建一次,存储,用于后续的聚类分析。
进一步的,所述聚类首先设置选择参数γ,其中:
γ=α×β
然后排序,根据聚类后形成的簇,分簇对γ进行排序,形成排序表,如图4所示,红色部分为每一簇所选择的实例。
进一步的,所述分类实施分为两种情况分类,其中一种情况实施步骤为:(1)标记的实例的数量未达到指定的最大数量;(2)根据聚类后形成的簇,分簇对γ进行排序的选择器选择最有价值的实例;(3)预测实例,并继续重新聚类未标记的实例;(4)将检查每个聚类中的标记数据,如果聚类中的所有标签都是相同的,确定该簇是纯的;(5)对于一个纯粹的聚类,直接预测所有未标记数据与任何其他数据相同,如果聚类是不纯净的,将执行重新聚类,迭代地,直到标记的数据达到设定的最大值。
所述分类实施的另一种情况实施方法:如果标记的数据的数量已达到最大极限,但仍然有不纯净的簇和未标记的数据,将使用投票策略来确定未标记实例的标签。
图3为聚类树,从图可以看出,第一次,整个树被聚成块1和块2,图4为块信息表,表示每块根据优先级的大小降序排列,依次选择最有价值的实例进行标注;
图5至图16是在12个数据集上的对比实验图,横轴为用户指定的标记个数,纵轴为输出的分类精度。
本发明将ALEC方法与最主流的分类算法KNN,C4.5决策树算法,普通贝叶斯方法NaiveBayes方法在图5至图16中12个数据集上进行了仔细的比较,可以以很少的标记数量获得很高的准确度,可以大大减少人工标记实例的个数,从而大大减少成本,提高经济效益,同时具有很强的实用性。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.基于峰值密度聚类的主动学习方法,其特征在于:其方法步骤为:
(1)开始时,将所有未能标记数据进行聚类;
(2)根据聚类的信息,构建一个选择器,从大量未标记样本中,选择最有价值的样本进行标记;
(3)根据已经标记的样本和已有的聚类结构,对未能标记的样本进行预测和分类;
(4)判断是否未分类实例,若是,则重新进行聚类,若否,则结束。
2.根据权利要求1所述的基于峰值密度聚类的主动学习方法,其特征在于:所述聚类可以采用kmeans或density peak主流聚类方法进行。
3.根据权利要求1所述的基于峰值密度聚类的主动学习方法,其特征在于:所述聚类首先进行定义本地密度α,其中:
αi=∑jχ(dij-dc)
然后计算最小距离β,β是点i与如何密度比它大的点之间的最小距离,其中:
β i = m i n j : α j > α i ( d i j )
最后构建聚类关系树结构ms=[m(x1),L,m(xn)],该树仅构建一次,存储,用于后续的聚类分析。
4.根据权利要求1所述的基于峰值密度聚类的主动学习方法,其特征在于:所述聚类首先设置选择参数γ,其中:
γ=α×β
然后排序,根据聚类后形成的簇,分簇对γ进行排序,形成排序表。
5.根据权利要求1所述的基于峰值密度聚类的主动学习方法,其特征在于:所述分类实施分为两种情况分类,其中一种情况实施步骤为:(1)标记的实例的数量未达到指定的最大数量;(2)根据聚类后形成的簇,分簇对γ进行排序的选择器选择最有价值的实例;(3)预测实例,并继续重新聚类未标记的实例;(4)将检查每个聚类中的标记数据,如果聚类中的所有标签都是相同的,确定该簇是纯的;(5)对于一个纯粹的聚类,直接预测所有未标记数据与任何其他数据相同,如果聚类是不纯净的,将执行重新聚类,迭代地,直到标记的数据达到设定的最大值。
6.根据权利要求1所述的基于峰值密度聚类的主动学习方法,其特征在于:所述分类实施的另一种情况实施方法:如果标记的数据的数量已达到最大极限,但仍然有不纯净的簇和未标记的数据,将使用投票策略来确定未标记实例的标签。
CN201710207476.6A 2017-03-31 2017-03-31 基于峰值密度聚类的主动学习方法 Pending CN106991444A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710207476.6A CN106991444A (zh) 2017-03-31 2017-03-31 基于峰值密度聚类的主动学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710207476.6A CN106991444A (zh) 2017-03-31 2017-03-31 基于峰值密度聚类的主动学习方法

Publications (1)

Publication Number Publication Date
CN106991444A true CN106991444A (zh) 2017-07-28

Family

ID=59414633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710207476.6A Pending CN106991444A (zh) 2017-03-31 2017-03-31 基于峰值密度聚类的主动学习方法

Country Status (1)

Country Link
CN (1) CN106991444A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740757A (zh) * 2019-01-25 2019-05-10 电子科技大学 一种基于序贯蒙特卡罗方法的贝叶斯优化方法
CN109916627A (zh) * 2019-03-27 2019-06-21 西南石油大学 基于主动学习的轴承故障检测与诊断
CN110019703A (zh) * 2017-09-21 2019-07-16 阿里巴巴集团控股有限公司 数据标记方法及装置、智能问答方法及系统
CN110580510A (zh) * 2019-09-12 2019-12-17 深圳力维智联技术有限公司 一种聚类结果评价方法和系统
CN110659685A (zh) * 2019-09-23 2020-01-07 西南石油大学 基于统计误差主动学习的井位优选方法
CN111428587A (zh) * 2020-03-10 2020-07-17 同济大学 人群计数及密度估计方法、装置、存储介质及终端
CN111814851A (zh) * 2020-06-24 2020-10-23 重庆邮电大学 一种基于单类支持向量机的煤矿瓦斯数据标记方法
CN111898630A (zh) * 2020-06-06 2020-11-06 东南大学 一种面向含噪标记样本的特征方法
CN112418293A (zh) * 2020-11-18 2021-02-26 武汉大学 一种基于信息度和代表度的主动学习抽样方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019703A (zh) * 2017-09-21 2019-07-16 阿里巴巴集团控股有限公司 数据标记方法及装置、智能问答方法及系统
CN110019703B (zh) * 2017-09-21 2022-09-30 阿里巴巴集团控股有限公司 数据标记方法及装置、智能问答方法及系统
CN109740757A (zh) * 2019-01-25 2019-05-10 电子科技大学 一种基于序贯蒙特卡罗方法的贝叶斯优化方法
CN109916627A (zh) * 2019-03-27 2019-06-21 西南石油大学 基于主动学习的轴承故障检测与诊断
CN110580510A (zh) * 2019-09-12 2019-12-17 深圳力维智联技术有限公司 一种聚类结果评价方法和系统
CN110580510B (zh) * 2019-09-12 2023-07-25 深圳力维智联技术有限公司 一种聚类结果评价方法和系统
CN110659685A (zh) * 2019-09-23 2020-01-07 西南石油大学 基于统计误差主动学习的井位优选方法
CN110659685B (zh) * 2019-09-23 2022-03-08 西南石油大学 基于统计误差主动学习的井位优选方法
CN111428587B (zh) * 2020-03-10 2022-07-29 同济大学 人群计数及密度估计方法、装置、存储介质及终端
CN111428587A (zh) * 2020-03-10 2020-07-17 同济大学 人群计数及密度估计方法、装置、存储介质及终端
CN111898630A (zh) * 2020-06-06 2020-11-06 东南大学 一种面向含噪标记样本的特征方法
CN111814851A (zh) * 2020-06-24 2020-10-23 重庆邮电大学 一种基于单类支持向量机的煤矿瓦斯数据标记方法
CN111814851B (zh) * 2020-06-24 2021-07-06 重庆邮电大学 一种基于单类支持向量机的煤矿瓦斯数据标记方法
CN112418293A (zh) * 2020-11-18 2021-02-26 武汉大学 一种基于信息度和代表度的主动学习抽样方法

Similar Documents

Publication Publication Date Title
CN106991444A (zh) 基于峰值密度聚类的主动学习方法
CN103116762B (zh) 一种基于自调制字典学习的图像分类方法
CN106126972A (zh) 一种用于蛋白质功能预测的层级多标签分类方法
CN111581385B (zh) 一种不平衡数据采样的中文文本类别识别系统及方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN102314614A (zh) 一种基于类共享多核学习的图像语义分类方法
CN105320967A (zh) 基于标签相关性的多标签AdaBoost集成方法
CN108460421A (zh) 不平衡数据的分类方法
CN108573274A (zh) 一种基于数据稳定性的选择性聚类集成方法
WO2022134586A1 (zh) 基于元学习的目标分类方法、装置、设备和存储介质
CN112668630A (zh) 一种基于模型剪枝的轻量化图像分类方法、系统及设备
CN110188196A (zh) 一种基于随机森林的文本增量降维方法
CN106569954A (zh) 一种基于kl散度的多源软件缺陷预测方法
CN113408802B (zh) 能耗预测网络的训练、能耗预测方法、装置和计算机设备
CN106126973B (zh) 基于r-svm和tpr规则的基因功能预测方法
CN113541834B (zh) 一种异常信号半监督分类方法、系统、数据处理终端
CN106611189A (zh) 标准化多维代价敏感决策树的集成分类器构建方法
US7272583B2 (en) Using supervised classifiers with unsupervised data
Nguyen et al. Rough set approach to sunspot classification problem
Zhang et al. A modified random forest based on kappa measure and binary artificial bee colony algorithm
CN101515329B (zh) 基于多种特征的图像匹配方法
CN106611188A (zh) 一种标准化的多维尺度代价敏感决策树构建方法
CN110516722A (zh) 一种基于主动学习的需求与代码之间可追踪性的自动生成方法
CN109977030A (zh) 一种深度随机森林程序的测试方法及设备
CN115936389A (zh) 一种基于大数据技术的评审专家与评审材料的匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170728