CN103793510B - 一种基于主动学习的分类器构建方法 - Google Patents

一种基于主动学习的分类器构建方法 Download PDF

Info

Publication number
CN103793510B
CN103793510B CN201410042498.8A CN201410042498A CN103793510B CN 103793510 B CN103793510 B CN 103793510B CN 201410042498 A CN201410042498 A CN 201410042498A CN 103793510 B CN103793510 B CN 103793510B
Authority
CN
China
Prior art keywords
sample
grader
mark
values
bvsb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410042498.8A
Other languages
English (en)
Other versions
CN103793510A (zh
Inventor
吴健
张宇
徐在俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Feiyu Mutual Entertainment Information Technology Co.,Ltd.
Original Assignee
SUZHOU RONGXI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU RONGXI INFORMATION TECHNOLOGY Co Ltd filed Critical SUZHOU RONGXI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410042498.8A priority Critical patent/CN103793510B/zh
Publication of CN103793510A publication Critical patent/CN103793510A/zh
Application granted granted Critical
Publication of CN103793510B publication Critical patent/CN103793510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主动学习的分类器构建方法,充分考虑未标注样本的当前价值和预期价值,挑选高价值的样本。首先利用样本的最优和次优类别信息计算样本的当前价值,根据样本的当前价值的高低选出一部分价值高的样本组成候选样本集,然后计算候选样本集中样本的预期价值,结合样本的当前价值,得到样本的总价值,最后根据样本的总价值,挑选高价值的未标注样本进行标注,添加到训练样本集中,更新分类器。根据不同数据集上的实验结果表明,本发明的方法能够在选择相同数量样本的条件下,得到较高分类正确率的分类器。

Description

一种基于主动学习的分类器构建方法
技术领域
本发明涉及一种采用计算机进行数据分类的方法,具体涉及基于主动学习方法从大量样本中选择生成训练样本集,并构建经过训练的数据分类器的方法。
背景技术
数据的自动分类是计算机自动处理中的一项重要技术,广泛应用于数据挖掘、医学诊断、交通管理、人体特征识别等领域。计算机处理中的数据分类方法,通常包括构建分类器模型并采用训练样本集对分类器模型进行训练,获得经过训练的数据分类器。
数据分类方法中训练分类器模型是关键的难点,主要是原因是由于分类器模型需要用户标注大量的数据训练样本,而标注大量的数据样本需要花费大量的人力和时间。且在实际的应用中,有大量的图像标注工作比较困难,需要专家进行标注。
为了解决标注大量样本困难的问题,主动学习算法已经在机器学习和模式识别领域收到广大研究学者的广泛关注和深入研究。在主动学习算法中,不是被动地接受训练样本,而是利用一定的准则主动选择有价值的样本去训练学习器。因此,主动学习算法主要通过选择少量高价值的训练样本来提高学习器的分类性能,减少人工标注的工作量,提高效率。
主动学习算法主要包括学习和采样两部分。学习即是利用得到的训练样本学习得到相应的学习器。采样策略就是从大量的未标注样本中挑选出少量的有价值的样本,降低分类算法的标记代价,利用少量的训练样本得到高性能的学习器。所以,采样策略是主动学习算法的关键部分。
现有技术中,提出了基于样本最优次优类别(Best vs Second Best,BvSB)的主动学习算法,该算法仅考虑对样本的不确定性影响较大的部分类别,较好地改进了信息熵的不足。但是,BvSB算法仅考虑对于当前分类器不确定的样本,实际使用中,当样本添加到训练样本集后,添加的样本的不确定性对于更新之后的分类器会产生影响,导致训练结果不能达到预期目标。因此,采用BvSB算法构建的分类器存在一定的缺陷。
发明内容
本发明的发明目的是提供一种基于主动学习生成训练样本集并构建数据分类器的方法,以解决现有技术中训练样本集生成中存在的缺陷,获得高价值的样本,提高数据分类器的分类性能。
为达到上述发明目的,本发明采用的技术方案是:一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤:
(1) 从未标注样本集中随机选择20~50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H(0)
(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值,BvSB值的计算方法是:
其中,x是未标注样本集U中的样本, 是样本属于最优类别的后验概率,是样本属于次优类别的后验概率,t是步骤(2)至(6)的循环次数;
(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集,其中,h为步骤(5)中选择的样本个数的2~5倍;
(4)计算候选样本集中每个未标注样本的总价值,方法是:
[4-1] 取候选样本集中的一个未标注样本,用该样本分别结合其最优类别和次优类别标签更新分类器H(t),得到临时分类器,其中是最优类别标签,是次优类别标签;
[4-2] 利用得到的两个临时分类器计算该未标注样本的两个BvSB值,在这两个BvSB值中较大的BvSB值作为该未标注样本的期望价值,表达为
[4-3] 基于分类器H(t)得到该未标注样本的BvSB值,表达为,利用以下公式计算该未标注样本的总价值;
重复步骤[4-1]至[4-3],获得候选样本集中所有未标注样本的总价值;
(5)在候选样本集中选择2~10个Opt值最小的未标注样本进行人工标注,添加到训练样本集中,获得当前训练样本集;
(6) 利用当前训练样本集对分类器H(t)进行训练更新;
(7) 重复步骤(2)至(6),直至满足分类器训练的停止条件。
上述技术方案中,总样本数(即初始的未标注样本数)根据待分类的数据而定,通常为数千至数十万。初始分类器的构建为现有技术,可以采用现有的任一种分类器构建方法构建,例如,贝叶斯分类器、BP神经网络分类器、支持向量机,等等。
优选的技术方案,步骤(3)中,h为步骤(5)中选择的样本个数的2~3倍。候选样本集过大,会导致速度变慢,因此,上述选择能有效加快训练速度。
优选的技术方案,步骤(5)中,在候选样本集中选择2~5个Opt值最小的未标注样本进行人工标注。从而在保证分类器训练速度的同时,有效减少样本冗余。
上述技术方案中,步骤(7)中,分类器训练的停止条件是,分类正确率≥95%,或者训练样本集中的样本数≥总样本数×70%。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1.本发明在计算未标注样本的价值时,综合考虑样本的当前价值和预期价值,充分考虑了未标注样本对新分类器的价值。
2.与基于熵的主动算法相比,本发明利用样本的最优和次优类别信息计算样本的价值,减少样本的其他类别信息对样本价值的影响。
3.与BvSB主动算法相比,本发明考虑样本的预期价值,结合当前价值和预期价值,得到未标注样本的总价值,能够优化样本价值的计算方法。
4.与BvSB+EER主动算法相比,本发明有较低的时间复杂度。
5.实验结果表明,本发明的方法能够在选择较少样本的情况下获得较高分类性能的分类器。
附图说明
图1是本发明实施例中基于最大分类优化主动学习算法框架图。
图2是实施例中各种方法在人工数据集上实验结果比较图;
图3是实施例中各种方法在UCI标准数据集上Letter数据集的实验结果比较图;
图4是实施例中各种方法在UCI标准数据集上Pen-Digits数据集的实验结果比较图;
图5是实施例中各种方法在高维数据集上的实验结果比较图。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:参见图1所示,一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤:
(1) 从未标注样本集中随机选择20~50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H(0)
(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值,BvSB值的计算方法是:
其中,x是未标注样本集U中的样本, 是样本属于最优类别的后验概率,是样本属于次优类别的后验概率,t是步骤(2)至(6)的循环次数;
(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集,其中,h为步骤(5)中选择的样本个数的2~5倍;
(4)计算候选样本集中每个未标注样本的总价值,方法是:
[4-1] 取候选样本集中的一个未标注样本,用该样本分别结合其最优类别和次优类别标签更新分类器H(t),得到临时分类器,其中是最优类别标签,是次优类别标签;
[4-2] 利用得到的两个临时分类器计算该未标注样本的两个BvSB值,在这两个BvSB值中较大的BvSB值作为该未标注样本的期望价值,表达为
[4-3] 基于分类器H(t)得到该未标注样本的BvSB值,表达为,利用以下公式计算该未标注样本的总价值;
重复步骤[4-1]至[4-3],获得候选样本集中所有未标注样本的总价值;
(5)在候选样本集中选择2~10个Opt值最小的未标注样本进行人工标注,添加到训练样本集中,获得当前训练样本集;
(6) 利用当前训练样本集对分类器H(t)进行训练更新;
(7) 重复步骤(2)至(6),直至满足分类器训练的停止条件。
采用上述方法对具体数据进行分类实验,如下:
首先随机选择26个样本训练初始分类器,然后根据样本价值的计算方法计算各个样本的总价值。未标注样本集大小是9974,数据的维数是16,数据的类别是26,候选样本集的大小设定是,每轮选择的样本数是5。
上文中,候选样本集的大小,和每轮选择的样本数可以根据情况设定,但是每轮选择的样本数应该小于等于候选样本集大小的一半。根据数据样本的维数和数量大小,本领域技术人员可以适当调整候选样本集和所选样本数大小。为方便说明步骤,这里仅说明19轮结束后,第20轮的选择步骤。
[1]利用当前分类器,计算未标注样本集中所有样本的BvSB值,由于样本数量较多,这里只给出BvSB值最小的10个样本的值。
这10个样本的最优次优类别标签如下:
[2]分别利用样本的最优次优类别临时更新分类器,得到的BvSB值:
[3]该10个样本的预期BvSB值和对应的类别标签分别是:
[4]该10个样本的总价值(表中值越小,价值越大)是:
[5]根据样本的总价值大小,所选的样本是:
[6]利用上面选出的5个样本继续更新分类器,直至达到设定的阈值。
为了说明本发明的效果,将本实施例的方法与其它三种方法进行了比较,其它三种方法分别是:Entropy方法,BvSB方法,BvSB+EER方法,图中,本实施例的方法用MCO表示。
参见附图所示,附图2是在人工数据集上实验结果图,附图3、4是分别在UCI标注数据集上Letter和Pen-Digits数据集的实验结果图,附图5是高维数据集上的实验结果图。由图可以看出,本发明的方法准确率高,只有在样本数较少的情况下,BvSB+EER的方法准确率略高,但是,从下表1可以看出,本发明与BvSB+EER主动算法相比,有较低的时间复杂度。
因此,本发明的方法能够在选择较少样本的情况下获得较高分类性能的分类器。
表1

Claims (4)

1.一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤:
(1) 从未标注样本集中随机选择20~50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H(0)
(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值,BvSB值的计算方法是:
其中,x是未标注样本集U中的样本, 是样本属于最优类别的后验概率,是样本属于次优类别的后验概率,t是步骤(2)至(6)的循环次数;
(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集,其中,h为步骤(5)中选择的样本个数的2~5倍;
(4)计算候选样本集中每个未标注样本的总价值,方法是:
[4-1] 取候选样本集中的一个未标注样本,用该样本分别结合其最优类别和次优类别标签更新分类器H(t),得到临时分类器,其中是最优类别标签,是次优类别标签;
[4-2] 利用得到的两个临时分类器计算该未标注样本的两个BvSB值,在这两个BvSB值中较大的BvSB值作为该未标注样本的期望价值,表达为
[4-3] 基于分类器H(t)得到该未标注样本的BvSB值,表达为,利用以下公式计算该未标注样本的总价值;
重复步骤[4-1]至[4-3],获得候选样本集中所有未标注样本的总价值;
(5)在候选样本集中选择2~10个Opt值最小的未标注样本进行人工标注,添加到训练样本集中,获得当前训练样本集;
(6) 利用当前训练样本集对分类器H(t)进行训练更新;
(7) 重复步骤(2)至(6),直至满足分类器训练的停止条件。
2.根据权利要求1所述的基于主动学习的分类器构建方法,其特征在于:步骤(3)中,h为步骤(5)中选择的样本个数的2~3倍。
3.根据权利要求1所述的基于主动学习的分类器构建方法,其特征在于:步骤(5)中,在候选样本集中选择2~5个Opt值最小的未标注样本进行人工标注。
4.根据权利要求1所述的基于主动学习的分类器构建方法,其特征在于:步骤(7)中,分类器训练的停止条件是,分类正确率≥95%,或者训练样本集中的样本数≥总样本数×70%。
CN201410042498.8A 2014-01-29 2014-01-29 一种基于主动学习的分类器构建方法 Active CN103793510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410042498.8A CN103793510B (zh) 2014-01-29 2014-01-29 一种基于主动学习的分类器构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410042498.8A CN103793510B (zh) 2014-01-29 2014-01-29 一种基于主动学习的分类器构建方法

Publications (2)

Publication Number Publication Date
CN103793510A CN103793510A (zh) 2014-05-14
CN103793510B true CN103793510B (zh) 2017-10-03

Family

ID=50669176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410042498.8A Active CN103793510B (zh) 2014-01-29 2014-01-29 一种基于主动学习的分类器构建方法

Country Status (1)

Country Link
CN (1) CN103793510B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035996B (zh) * 2014-06-11 2017-06-16 华东师范大学 基于Deep Learning的领域概念抽取方法
CN104767692B (zh) * 2015-04-15 2018-05-29 中国电力科学研究院 一种网络流量分类方法
CN104992184B (zh) * 2015-07-02 2018-03-09 东南大学 一种基于半监督极限学习机的多类图像分类方法
CN106202234B (zh) * 2016-06-29 2020-01-07 徐州工程学院 基于样本对分类器可纠正的交互式信息检索方法
CN106126751A (zh) * 2016-08-18 2016-11-16 苏州大学 一种具有时间适应性的分类方法及装置
CN107392125A (zh) * 2017-07-11 2017-11-24 中国科学院上海高等研究院 智能模型的训练方法/系统、计算机可读存储介质及终端
CN107545274B (zh) * 2017-07-18 2018-05-25 北京建筑大学 半监督标签比例学习方法
CN109934243A (zh) * 2017-12-19 2019-06-25 中国科学院深圳先进技术研究院 Ecg数据分类方法、装置、电子设备及系统
CN108563786B (zh) * 2018-04-26 2019-12-20 腾讯科技(深圳)有限公司 文本分类和展示方法、装置、计算机设备及存储介质
CN108777635A (zh) * 2018-05-24 2018-11-09 梧州井儿铺贸易有限公司 一种企业设备管理系统
CN111096735A (zh) * 2018-10-26 2020-05-05 深圳市理邦精密仪器股份有限公司 可迭代更新的心电图分析系统
CN111096736A (zh) * 2018-10-26 2020-05-05 深圳市理邦精密仪器股份有限公司 基于主动学习的心电图分类方法、装置和系统
CN110335250A (zh) * 2019-05-31 2019-10-15 上海联影智能医疗科技有限公司 网络训练方法、装置、检测方法、计算机设备和存储介质
CN112348043B (zh) * 2019-08-09 2024-04-02 杭州海康机器人股份有限公司 机器学习中的特征筛选方法和装置
CN112784818B (zh) * 2021-03-03 2023-03-14 电子科技大学 基于分组式主动学习在光学遥感图像上的识别方法
CN116226678B (zh) * 2023-05-10 2023-07-21 腾讯科技(深圳)有限公司 模型处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102270192A (zh) * 2011-07-27 2011-12-07 浙江工业大学 一种基于svm主动学习的多标签分类控制方法
CN103198052A (zh) * 2013-04-09 2013-07-10 山东师范大学 一种基于支持向量机的主动学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009211648A (ja) * 2008-03-06 2009-09-17 Kddi Corp サポートベクトルの削減方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102270192A (zh) * 2011-07-27 2011-12-07 浙江工业大学 一种基于svm主动学习的多标签分类控制方法
CN103198052A (zh) * 2013-04-09 2013-07-10 山东师范大学 一种基于支持向量机的主动学习方法

Also Published As

Publication number Publication date
CN103793510A (zh) 2014-05-14

Similar Documents

Publication Publication Date Title
CN103793510B (zh) 一种基于主动学习的分类器构建方法
CN104166706B (zh) 基于代价敏感主动学习的多标签分类器构建方法
CN110472467A (zh) 基于YOLO v3的针对交通枢纽关键物体的检测方法
CN107316049A (zh) 一种基于半监督自训练的迁移学习分类方法
CN108564129A (zh) 一种基于生成对抗网络的轨迹数据分类方法
CN105426930B (zh) 一种基于卷积神经网络的变电站属性分割方法
CN103793926B (zh) 基于样本重选择的目标跟踪方法
CN103984959A (zh) 一种基于数据与任务驱动的图像分类方法
CN107705652A (zh) 一种课程教学系统
GB2602415A (en) Labeling images using a neural network
CN108288015A (zh) 基于时间尺度不变性的视频中人体动作识别方法及系统
CN110693486A (zh) 一种心电图的异常标注方法及装置
CN103164426A (zh) 一种命名实体识别的方法及装置
CN110490236A (zh) 基于神经网络的自动图像标注方法、系统、装置和介质
CN108416382A (zh) 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN104536953A (zh) 一种文本情绪极性的识别方法及装置
CN113362299B (zh) 一种基于改进YOLOv4的X光安检图像检测方法
CN106251172A (zh) 一种基于熵值法的用户价值评分计算方法及系统
CN110322418A (zh) 一种超分辨率图像生成对抗网络的训练方法及装置
CN104252628A (zh) 人脸图像标注方法和系统
CN102646198B (zh) 具有层次结构的混合线性svm分类器的模式识别方法
CN104408461A (zh) 一种基于滑动窗口局部匹配窗口的动作识别方法
CN110263739A (zh) 基于ocr技术的图片表格识别方法
Zhang et al. Semi-detr: Semi-supervised object detection with detection transformers
KR102406416B1 (ko) 학습 실력 평가 방법, 학습 실력 평가 장치 및 학습 실력 평가 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210928

Address after: 215000 Creative Industrial Park, No. 328, Xinghu street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: Suzhou Feiyu Mutual Entertainment Information Technology Co.,Ltd.

Address before: 215123 unit b302, building 16, creative industrial park, No. 328, Xinghu street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee before: SUZHOU RONGXI INFORMATION TECHNOLOGY Co.,Ltd.