CN103793510A - 一种基于主动学习的分类器构建方法 - Google Patents
一种基于主动学习的分类器构建方法 Download PDFInfo
- Publication number
- CN103793510A CN103793510A CN201410042498.8A CN201410042498A CN103793510A CN 103793510 A CN103793510 A CN 103793510A CN 201410042498 A CN201410042498 A CN 201410042498A CN 103793510 A CN103793510 A CN 103793510A
- Authority
- CN
- China
- Prior art keywords
- sample
- mark
- samples
- value
- sorter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主动学习的分类器构建方法,充分考虑未标注样本的当前价值和预期价值,挑选高价值的样本。首先利用样本的最优和次优类别信息计算样本的当前价值,根据样本的当前价值的高低选出一部分价值高的样本组成候选样本集,然后计算候选样本集中样本的预期价值,结合样本的当前价值,得到样本的总价值,最后根据样本的总价值,挑选高价值的未标注样本进行标注,添加到训练样本集中,更新分类器。根据不同数据集上的实验结果表明,本发明的方法能够在选择相同数量样本的条件下,得到较高分类正确率的分类器。
Description
技术领域
本发明涉及一种采用计算机进行数据分类的方法,具体涉及基于主动学习方法从大量样本中选择生成训练样本集,并构建经过训练的数据分类器的方法。
背景技术
数据的自动分类是计算机自动处理中的一项重要技术,广泛应用于数据挖掘、医学诊断、交通管理、人体特征识别等领域。计算机处理中的数据分类方法,通常包括构建分类器模型并采用训练样本集对分类器模型进行训练,获得经过训练的数据分类器。
数据分类方法中训练分类器模型是关键的难点,主要是原因是由于分类器模型需要用户标注大量的数据训练样本,而标注大量的数据样本需要花费大量的人力和时间。且在实际的应用中,有大量的图像标注工作比较困难,需要专家进行标注。
为了解决标注大量样本困难的问题,主动学习算法已经在机器学习和模式识别领域收到广大研究学者的广泛关注和深入研究。在主动学习算法中,不是被动地接受训练样本,而是利用一定的准则主动选择有价值的样本去训练学习器。因此,主动学习算法主要通过选择少量高价值的训练样本来提高学习器的分类性能,减少人工标注的工作量,提高效率。
主动学习算法主要包括学习和采样两部分。学习即是利用得到的训练样本学习得到相应的学习器。采样策略就是从大量的未标注样本中挑选出少量的有价值的样本,降低分类算法的标记代价,利用少量的训练样本得到高性能的学习器。所以,采样策略是主动学习算法的关键部分。
现有技术中,提出了基于样本最优次优类别(Best vs Second Best,BvSB)的主动学习算法,该算法仅考虑对样本的不确定性影响较大的部分类别,较好地改进了信息熵的不足。但是,BvSB算法仅考虑对于当前分类器不确定的样本,实际使用中,当样本添加到训练样本集后,添加的样本的不确定性对于更新之后的分类器会产生影响,导致训练结果不能达到预期目标。因此,采用BvSB算法构建的分类器存在一定的缺陷。
发明内容
本发明的发明目的是提供一种基于主动学习生成训练样本集并构建数据分类器的方法,以解决现有技术中训练样本集生成中存在的缺陷,获得高价值的样本,提高数据分类器的分类性能。
为达到上述发明目的,本发明采用的技术方案是:一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤:
(1) 从未标注样本集中随机选择20~50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H(0);
(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值,BvSB值的计算方法是:
(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集,其中,h为步骤(5)中选择的样本个数的2~5倍;
(4)计算候选样本集中每个未标注样本的总价值,方法是:
[4-2] 利用得到的两个临时分类器计算该未标注样本的两个BvSB值,在这两个BvSB值中较大的BvSB值作为该未标注样本的期望价值,表达为;
重复步骤[4-1]至[4-3],获得候选样本集中所有未标注样本的总价值;
(5)在候选样本集中选择2~10个Opt值最小的未标注样本进行人工标注,添加到训练样本集中,获得当前训练样本集;
(6) 利用当前训练样本集对分类器H(t)进行训练更新;
(7) 重复步骤(2)至(6),直至满足分类器训练的停止条件。
上述技术方案中,总样本数(即初始的未标注样本数)根据待分类的数据而定,通常为数千至数十万。初始分类器的构建为现有技术,可以采用现有的任一种分类器构建方法构建,例如,贝叶斯分类器、BP神经网络分类器、支持向量机,等等。
优选的技术方案,步骤(3)中,h为步骤(5)中选择的样本个数的2~3倍。候选样本集过大,会导致速度变慢,因此,上述选择能有效加快训练速度。
优选的技术方案,步骤(5)中,在候选样本集中选择2~5个Opt值最小的未标注样本进行人工标注。从而在保证分类器训练速度的同时,有效减少样本冗余。
上述技术方案中,步骤(7)中,分类器训练的停止条件是,分类正确率≥95%,或者训练样本集中的样本数≥总样本数×70%。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1.本发明在计算未标注样本的价值时,综合考虑样本的当前价值和预期价值,充分考虑了未标注样本对新分类器的价值。
2.与基于熵的主动算法相比,本发明利用样本的最优和次优类别信息计算样本的价值,减少样本的其他类别信息对样本价值的影响。
3.与BvSB主动算法相比,本发明考虑样本的预期价值,结合当前价值和预期价值,得到未标注样本的总价值,能够优化样本价值的计算方法。
4.与BvSB+EER主动算法相比,本发明有较低的时间复杂度。
5.实验结果表明,本发明的方法能够在选择较少样本的情况下获得较高分类性能的分类器。
附图说明
图1是本发明实施例中基于最大分类优化主动学习算法框架图。
图2是实施例中各种方法在人工数据集上实验结果比较图;
图3是实施例中各种方法在UCI标准数据集上Letter数据集的实验结果比较图;
图4是实施例中各种方法在UCI标准数据集上Pen-Digits数据集的实验结果比较图;
图5是实施例中各种方法在高维数据集上的实验结果比较图。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:参见图1所示,一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤:
(1) 从未标注样本集中随机选择20~50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H(0);
(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值,BvSB值的计算方法是:
,
(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集,其中,h为步骤(5)中选择的样本个数的2~5倍;
(4)计算候选样本集中每个未标注样本的总价值,方法是:
;
重复步骤[4-1]至[4-3],获得候选样本集中所有未标注样本的总价值;
(5)在候选样本集中选择2~10个Opt值最小的未标注样本进行人工标注,添加到训练样本集中,获得当前训练样本集;
(6) 利用当前训练样本集对分类器H(t)进行训练更新;
(7) 重复步骤(2)至(6),直至满足分类器训练的停止条件。
采用上述方法对具体数据进行分类实验,如下:
上文中,候选样本集的大小,和每轮选择的样本数可以根据情况设定,但是每轮选择的样本数应该小于等于候选样本集大小的一半。根据数据样本的维数和数量大小,本领域技术人员可以适当调整候选样本集和所选样本数大小。为方便说明步骤,这里仅说明19轮结束后,第20轮的选择步骤。
[1]利用当前分类器,计算未标注样本集中所有样本的BvSB值,由于样本数量较多,这里只给出BvSB值最小的10个样本的值。
这10个样本的最优次优类别标签如下:
[2]分别利用样本的最优次优类别临时更新分类器,得到的BvSB值:
[3]该10个样本的预期BvSB值和对应的类别标签分别是:
[4]该10个样本的总价值(表中值越小,价值越大)是:
[5]根据样本的总价值大小,所选的样本是:
[6]利用上面选出的5个样本继续更新分类器,直至达到设定的阈值。
为了说明本发明的效果,将本实施例的方法与其它三种方法进行了比较,其它三种方法分别是:Entropy方法,BvSB方法,BvSB+EER方法,图中,本实施例的方法用MCO表示。
参见附图所示,附图2是在人工数据集上实验结果图,附图3、4是分别在UCI标注数据集上Letter和Pen-Digits数据集的实验结果图,附图5是高维数据集上的实验结果图。由图可以看出,本发明的方法准确率高,只有在样本数较少的情况下,BvSB+EER的方法准确率略高,但是,从下表1可以看出,本发明与BvSB+EER主动算法相比,有较低的时间复杂度。
因此,本发明的方法能够在选择较少样本的情况下获得较高分类性能的分类器。
表1
。
Claims (4)
1.一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤:
(1) 从未标注样本集中随机选择20~50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H(0);
(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值,BvSB值的计算方法是:
(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集,其中,h为步骤(5)中选择的样本个数的2~5倍;
(4)计算候选样本集中每个未标注样本的总价值,方法是:
;
重复步骤[4-1]至[4-3],获得候选样本集中所有未标注样本的总价值;
(5)在候选样本集中选择2~10个Opt值最小的未标注样本进行人工标注,添加到训练样本集中,获得当前训练样本集;
(6) 利用当前训练样本集对分类器H(t)进行训练更新;
(7) 重复步骤(2)至(6),直至满足分类器训练的停止条件。
2.根据权利要求1所述的基于主动学习的分类器构建方法,其特征在于:步骤(3)中,h为步骤(5)中选择的样本个数的2~3倍。
3.根据权利要求1所述的基于主动学习的分类器构建方法,其特征在于:步骤(5)中,在候选样本集中选择2~5个Opt值最小的未标注样本进行人工标注。
4.根据权利要求1所述的基于主动学习的分类器构建方法,其特征在于:步骤(7)中,分类器训练的停止条件是,分类正确率≥95%,或者训练样本集中的样本数≥总样本数×70%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410042498.8A CN103793510B (zh) | 2014-01-29 | 2014-01-29 | 一种基于主动学习的分类器构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410042498.8A CN103793510B (zh) | 2014-01-29 | 2014-01-29 | 一种基于主动学习的分类器构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103793510A true CN103793510A (zh) | 2014-05-14 |
CN103793510B CN103793510B (zh) | 2017-10-03 |
Family
ID=50669176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410042498.8A Active CN103793510B (zh) | 2014-01-29 | 2014-01-29 | 一种基于主动学习的分类器构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103793510B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035996A (zh) * | 2014-06-11 | 2014-09-10 | 华东师范大学 | 基于Deep Learning的领域概念抽取方法 |
CN104767692A (zh) * | 2015-04-15 | 2015-07-08 | 中国电力科学研究院 | 一种网络流量分类方法 |
CN104992184A (zh) * | 2015-07-02 | 2015-10-21 | 东南大学 | 一种基于半监督极限学习机的多类图像分类方法 |
CN106126751A (zh) * | 2016-08-18 | 2016-11-16 | 苏州大学 | 一种具有时间适应性的分类方法及装置 |
CN106202234A (zh) * | 2016-06-29 | 2016-12-07 | 徐州工程学院 | 基于样本对分类器可纠正的交互式信息检索方法 |
CN107392125A (zh) * | 2017-07-11 | 2017-11-24 | 中国科学院上海高等研究院 | 智能模型的训练方法/系统、计算机可读存储介质及终端 |
CN107545274A (zh) * | 2017-07-18 | 2018-01-05 | 北京建筑大学 | 半监督标签比例学习方法 |
CN108563786A (zh) * | 2018-04-26 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 文本分类和展示方法、装置、计算机设备及存储介质 |
CN108777635A (zh) * | 2018-05-24 | 2018-11-09 | 梧州井儿铺贸易有限公司 | 一种企业设备管理系统 |
CN109934243A (zh) * | 2017-12-19 | 2019-06-25 | 中国科学院深圳先进技术研究院 | Ecg数据分类方法、装置、电子设备及系统 |
CN110335250A (zh) * | 2019-05-31 | 2019-10-15 | 上海联影智能医疗科技有限公司 | 网络训练方法、装置、检测方法、计算机设备和存储介质 |
CN111096736A (zh) * | 2018-10-26 | 2020-05-05 | 深圳市理邦精密仪器股份有限公司 | 基于主动学习的心电图分类方法、装置和系统 |
CN111096735A (zh) * | 2018-10-26 | 2020-05-05 | 深圳市理邦精密仪器股份有限公司 | 可迭代更新的心电图分析系统 |
CN112348043A (zh) * | 2019-08-09 | 2021-02-09 | 杭州海康机器人技术有限公司 | 机器学习中的特征筛选方法和装置 |
CN112784818A (zh) * | 2021-03-03 | 2021-05-11 | 电子科技大学 | 基于分组式主动学习在光学遥感图像上的识别方法 |
CN116226678A (zh) * | 2023-05-10 | 2023-06-06 | 腾讯科技(深圳)有限公司 | 模型处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090228411A1 (en) * | 2008-03-06 | 2009-09-10 | Kddi Corporation | Reducing method for support vector |
CN101853400A (zh) * | 2010-05-20 | 2010-10-06 | 武汉大学 | 基于主动学习和半监督学习的多类图像分类方法 |
CN102270192A (zh) * | 2011-07-27 | 2011-12-07 | 浙江工业大学 | 一种基于svm主动学习的多标签分类控制方法 |
CN103198052A (zh) * | 2013-04-09 | 2013-07-10 | 山东师范大学 | 一种基于支持向量机的主动学习方法 |
-
2014
- 2014-01-29 CN CN201410042498.8A patent/CN103793510B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090228411A1 (en) * | 2008-03-06 | 2009-09-10 | Kddi Corporation | Reducing method for support vector |
CN101853400A (zh) * | 2010-05-20 | 2010-10-06 | 武汉大学 | 基于主动学习和半监督学习的多类图像分类方法 |
CN102270192A (zh) * | 2011-07-27 | 2011-12-07 | 浙江工业大学 | 一种基于svm主动学习的多标签分类控制方法 |
CN103198052A (zh) * | 2013-04-09 | 2013-07-10 | 山东师范大学 | 一种基于支持向量机的主动学习方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035996B (zh) * | 2014-06-11 | 2017-06-16 | 华东师范大学 | 基于Deep Learning的领域概念抽取方法 |
CN104035996A (zh) * | 2014-06-11 | 2014-09-10 | 华东师范大学 | 基于Deep Learning的领域概念抽取方法 |
CN104767692A (zh) * | 2015-04-15 | 2015-07-08 | 中国电力科学研究院 | 一种网络流量分类方法 |
CN104767692B (zh) * | 2015-04-15 | 2018-05-29 | 中国电力科学研究院 | 一种网络流量分类方法 |
CN104992184A (zh) * | 2015-07-02 | 2015-10-21 | 东南大学 | 一种基于半监督极限学习机的多类图像分类方法 |
CN104992184B (zh) * | 2015-07-02 | 2018-03-09 | 东南大学 | 一种基于半监督极限学习机的多类图像分类方法 |
CN106202234A (zh) * | 2016-06-29 | 2016-12-07 | 徐州工程学院 | 基于样本对分类器可纠正的交互式信息检索方法 |
CN106202234B (zh) * | 2016-06-29 | 2020-01-07 | 徐州工程学院 | 基于样本对分类器可纠正的交互式信息检索方法 |
CN106126751A (zh) * | 2016-08-18 | 2016-11-16 | 苏州大学 | 一种具有时间适应性的分类方法及装置 |
CN107392125A (zh) * | 2017-07-11 | 2017-11-24 | 中国科学院上海高等研究院 | 智能模型的训练方法/系统、计算机可读存储介质及终端 |
CN107545274A (zh) * | 2017-07-18 | 2018-01-05 | 北京建筑大学 | 半监督标签比例学习方法 |
CN109934243A (zh) * | 2017-12-19 | 2019-06-25 | 中国科学院深圳先进技术研究院 | Ecg数据分类方法、装置、电子设备及系统 |
CN108563786A (zh) * | 2018-04-26 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 文本分类和展示方法、装置、计算机设备及存储介质 |
CN108777635A (zh) * | 2018-05-24 | 2018-11-09 | 梧州井儿铺贸易有限公司 | 一种企业设备管理系统 |
CN111096736A (zh) * | 2018-10-26 | 2020-05-05 | 深圳市理邦精密仪器股份有限公司 | 基于主动学习的心电图分类方法、装置和系统 |
CN111096735A (zh) * | 2018-10-26 | 2020-05-05 | 深圳市理邦精密仪器股份有限公司 | 可迭代更新的心电图分析系统 |
CN110335250A (zh) * | 2019-05-31 | 2019-10-15 | 上海联影智能医疗科技有限公司 | 网络训练方法、装置、检测方法、计算机设备和存储介质 |
CN112348043A (zh) * | 2019-08-09 | 2021-02-09 | 杭州海康机器人技术有限公司 | 机器学习中的特征筛选方法和装置 |
CN112348043B (zh) * | 2019-08-09 | 2024-04-02 | 杭州海康机器人股份有限公司 | 机器学习中的特征筛选方法和装置 |
CN112784818A (zh) * | 2021-03-03 | 2021-05-11 | 电子科技大学 | 基于分组式主动学习在光学遥感图像上的识别方法 |
CN112784818B (zh) * | 2021-03-03 | 2023-03-14 | 电子科技大学 | 基于分组式主动学习在光学遥感图像上的识别方法 |
CN116226678A (zh) * | 2023-05-10 | 2023-06-06 | 腾讯科技(深圳)有限公司 | 模型处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103793510B (zh) | 2017-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103793510A (zh) | 一种基于主动学习的分类器构建方法 | |
CN104166706B (zh) | 基于代价敏感主动学习的多标签分类器构建方法 | |
CN110472467A (zh) | 基于YOLO v3的针对交通枢纽关键物体的检测方法 | |
CN104992184B (zh) | 一种基于半监督极限学习机的多类图像分类方法 | |
CN104239858B (zh) | 一种人脸特征验证的方法和装置 | |
CN104915351B (zh) | 图片排序方法及终端 | |
CN108804512A (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
Spikol et al. | Estimation of success in collaborative learning based on multimodal learning analytics features | |
CN104536953B (zh) | 一种文本情绪极性的识别方法及装置 | |
CN109919048A (zh) | 一种基于级联MobileNet-V2实现人脸关键点检测的方法 | |
CN110472494A (zh) | 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质 | |
CN104615996B (zh) | 一种多视角二维人脸特征点自动定位方法 | |
CN105868773A (zh) | 一种基于层次随机森林的多标签分类方法 | |
CN106529477A (zh) | 基于显著轨迹和时空演化信息的视频人体行为识别方法 | |
CN104318575B (zh) | 一种基于综合学习差分演化算法的多阈值图像分割方法 | |
CN108416382A (zh) | 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法 | |
CN113362299B (zh) | 一种基于改进YOLOv4的X光安检图像检测方法 | |
CN106407482B (zh) | 一种基于多特征融合的网络学术报告分类方法 | |
Muneesawang et al. | A machine intelligence approach to virtual ballet training | |
CN111126347B (zh) | 人眼状态识别方法、装置、终端及可读存储介质 | |
CN107784321A (zh) | 数字绘本快速识别方法、系统及计算机可读存储介质 | |
CN104408461A (zh) | 一种基于滑动窗口局部匹配窗口的动作识别方法 | |
CN110245550A (zh) | 一种基于总体余弦分布的人脸噪音数据集cnn训练方法 | |
CN109409432A (zh) | 一种图像处理方法、装置和存储介质 | |
CN104680193A (zh) | 基于快速相似性网络融合算法的在线目标分类方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210928 Address after: 215000 Creative Industrial Park, No. 328, Xinghu street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Patentee after: Suzhou Feiyu Mutual Entertainment Information Technology Co.,Ltd. Address before: 215123 unit b302, building 16, creative industrial park, No. 328, Xinghu street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Patentee before: SUZHOU RONGXI INFORMATION TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |