CN104166706B - 基于代价敏感主动学习的多标签分类器构建方法 - Google Patents
基于代价敏感主动学习的多标签分类器构建方法 Download PDFInfo
- Publication number
- CN104166706B CN104166706B CN201410389077.2A CN201410389077A CN104166706B CN 104166706 B CN104166706 B CN 104166706B CN 201410389077 A CN201410389077 A CN 201410389077A CN 104166706 B CN104166706 B CN 104166706B
- Authority
- CN
- China
- Prior art keywords
- sample
- label
- cost
- grader
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于代价敏感主动学习的多标签分类器构建方法,直接使用每个样本的特定标签的信息,在标记集上训练初始分类器,然后利用当前分类器在未标记集上进行学习,挑选出一定量误分类代价最大的未标注样本的样本‑标签对,标注所选的样本‑标签对的真实标签值,并将它们加入标记集中,更新训练样本集和分类器。本发明仅需要较少的迭代次数就能达到目标误分类代价,学习的效率大大提高;将采样粒度缩小到样本‑标签对,大大减小了标记样本的代价,尤其在标签数目很大的多标签分类中效果更明显。
Description
技术领域
本发明涉及一种多标签分类器的构建方法,具体涉及一种代价敏感的多标签分类方法。
背景技术
随着信息技术的发展,多标签数据越来越普及,与多标签分类技术相关的应用正在持续增长,例如:图像和视频的语义标注,功能基因组学和音乐流派分类等。
当提到多标签分类,人们主要关注的是获取最高的精度。然而,有时候在进行预测时,最高的精度并不意味着是最好的结果。例如:一个医疗诊断系统根据病人的病理特征对病人进行诊断,将一个未患癌症的病人诊断为患癌症的代价与将一个癌症患者诊断为未患癌症的代价是不一样的,前一种情况只需花钱复诊即可,而后者可能会贻误患者的治疗时机,危及病人的生命。因此,在这样的场合下,做出预测的时候就需要考虑代价。
在考虑如何训练一个误分类代价不同的分类模型的机器学习中,代价敏感学习是一种有效的方法。代价敏感学习的目标是最小化总误分类代价。与此同时,由于昂贵的标记工作量,主动学习是一种切实可行的方法。
现有技术中,代价敏感的多标签分类方法通常是基于样本实现的,与单标签主动学习类似,每次将未标记集中总误分类代价最大的若干样本加入训练集,从而达到代价敏感的目的。与在单标签学习中每个被选出的样本获取一个标签不同,在多标签主动学习中,将获得被选出的样本的所有标签。定义一个已标记的多标签样本集:,其中,m为样本的个数,它们的标签集为:,l为标签的个数,未标记样本集:,n为未标记的样本的个数。图2 展示了基于样本的采样策略,即采样以样本为基本单位,并为所选择的样本标注其所有的标签类别。在主动学习中,查询选择的目标是选择最具有信息量的样本进行标记来削减版本空间。可以设计一个贪心策略用来选择能最大程度降低总误分类代价的样本。话句话说,如果一个样本被认为具有最高的误分类代价,那就需要从数据库中获得它的标签。
传统的基于样本的代价敏感多标签分类的主动学习方法大致如下。首先,在已标记的多标签样本集上训练初始分类器作为当前分类器,然后利用当前分类器在未标记样本集上进行学习,挑选出若干误分类代价最大的未标记样本,查询所选样本的所有标签,将所选样本加入训练样本集,更新训练样本集和分类器。具体按下列步骤进行处理:
[1]利用当前的已标记的多标签集样本集L训练初始分类器模型;
[2]利用公式计算每个未标记样本的期望误分类代价;即同时考虑样本的所有标签值;
[3]利用公式选择出期望误分类代价最大的h个未标记样本,对选择出的h个未标记样本进行人工标注,添加到训练集样本中,更新分类器;
[4] 测试分类器的分类性能,若分类器的误分类代价达到预定的阈值,或者所选的未标记样本数到达设定的数量,则停止更新分类器;否则转至[2]继续选择误分类代价最大的样本进行标注,更新分类器。
上述方法能够在拥有少量已标记样本的情况下,通过不断迭代和更新分类器,最终实现代价敏感的多标签分类。然而,由于每个未标记的样本可能涉及到多个标签,上述方法导致了标记样本的代价较大,同时,发明人发现,由于一个样本的不同标签对分类器性能的影响程度存在差异,因此采用上述方法进行样本添加实际上常常难以有效提高分类器性能,导致迭代次数增加,降低了学习的效率。
因此,有必要对于基于样本的代价敏感多标签分类的主动学习方法进行改进。
发明内容
本发明的发明目的是提供一种基于代价敏感主动学习的多标签分类器构建方法,以降低多标签样本产生的标记代价,同时保证分类器产生尽可能小的误分类代价。
为达到上述发明目的,本发明采用的技术方案是:一种基于代价敏感主动学习的多标签分类器构建方法,包括下列内容:
(1)构建初始分类器模型
获取已标记的样本集L,样本集L中的每个样本具有l个标签;采用计算机构建初始分类器,分类器的输入为样本的属性值,输出为样本的预测标签值;在所述样本集L上训练初始分类器,获得初始分类器模型,作为当前分类器;
(2)获取未标记样本集U,样本集U中的一个未标记样本为;
(3)采用当前分类器对于未标记样本集U中的每个样本进行分类,获得对应于样本的每一个标签的预测标签值,其中,对应第j个标签的预测标签值为;
(4)采用公式计算样本-标签对的期望误分类代价,式中,为样本对应第j个标签构成的样本-标签对,为样本的第j个标签的假定真实标签值,和为当前分类器提供的后验概率,为样本的第j个标签由假定真实标签值被误分类为的误分类代价;
(5) 利用公式选择h个最高期望误分类代价的样本-标签对构成集合H,其中,表示期望误分类代价最高的样本标签对,1<h<n,n为未标记的样本-标签对的个数;
(6) 标注所选择的每个样本-标签对的真实标签值,将标注后的集合H加入已标记的样本集L,在新的样本集L上重新训练分类器,获得更新后的当前分类器;
(7) 测试更新后的当前分类器的分类性能,若分类器的误分类代价达到预定的阈值,或者所选的未标记样本数到达设定的数量,当前分类器即为最终的基于代价敏感主动学习的多标签分类器;否则转至步骤(3),对当前分类器进行继续学习。
上述技术方案中,所述初始分类器是指现有技术中用于对多标签样本进行分类的分类器,例如,可以采用BRkNN,MLkNN等分类器作为初始分类器。分类器的输入为样本的属性值,即样本的特征信息,输出为样本的预测标签值,通过对分类器中的已标记的样本集的选择,可以提高分类器的性能。在步骤(7)中,误分类代价的阈值根据分类的对象和每个标签的误分类代价预先设定,本领域技术人员能够根据常规的分类知识和经验进行设定,阈值设定的不同仅影响分类器的最高精度,不影响分类器的实现。
本发明的技术方案与基于样本的多标签查询选择不同,直接使用每个样本的特定标签的信息。上述技术方案是基于发明人的这样一个认知,如果当前分类器对当前未标注样本的某个样本-标签对的误分类代价越大,则认为该样本-标签对的价值越大。因此选择具有最高预期误分类代价的样本-标签对,并由专家人工标注它的标签。实验表明采用本发明的技术方案,在达到相同的目标误分类代价条件,需要较少的迭代次数。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1.仅需要较少的迭代次数就能达到目标误分类代价,学习的效率大大提高。
2.将采样粒度缩小到样本-标签对,大大减小了标记样本的代价。尤其在标签数目很大的多标签分类中效果更明显。
3.使用本发明所产生的误分类代价往往低于目标误分类代价。
4.在不同的代价比例的情况下,本发明仍然具有很好的健壮性。
附图说明
图1是本发明实施例中代价敏感主动学习的应用框架;
图2是现有技术中基于样本的采样策略的示意图;
图3是实施例中基于样本-标签的采样策略的示意图;
图4至图9是误分类代价C01=1、C10=2时,基于样本的代价敏感多标签分类主动学习方法和基于样本的随机采样主动学习方法在六个数据集上运行的对比结果;
图10至图15是代价比例C01=1、C10=2时,基于样本-标签对的代价敏感多标签分类主动学习方法和基于样本-标签对的随机采样主动学习方法在六个数据集上运行的对比结果;
图16至图21是在代价比例为C01=1、C10=5时,基于样本-标签对的代价敏感多标签分类主动学习方法和基于样本-标签对的随机采样主动学习方法在六个数据集上运行的对比结果。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:一种基于代价敏感主动学习的多标签分类器构建方法,包括下列内容:
本实施例采用Diagnosis数据集,共有3个标签:Cold、LungCancer和Cough,258个样本,本实施例使用其中的30个样本,每个样本3个标签,即90个样本-标签对作为已标记样本集L,剩下的158个样本作为未标记集U,70个样本作为测试集。每次选择的样本-标签对数目为3个。
其中根据先验知识设定每个标签的误分类代价,如下表所示:
Cold | LungCancer | Cough | |
C11 | 0 | 0 | 0 |
C10 | 5 | 50 | 7 |
C01 | 1 | 1 | 1 |
C00 | 0 | 0 | 0 |
本实施例中,使用BRkNN作为基础分类器,在已标记集L上,训练得到初始分类器模型,作为当前分类器。
(1)利用当前分类器模型,对未标记集中的每一个样本进行预测分类,得到每个样本每个标签的预测概率。
(2)利用公式,计算每个样本-标签对的期望误分类代价。
例如,对其中两个样本x 1和x 2,当前分类器预测其在三个标签上的概率分别为:
Cold | LungCancer | Cough | |
P(1|x1) | 0.7 | 0.03 | 0.6 |
P(0|x1) | 0.3 | 0.97 | 0.4 |
P(1|x2) | 0.6 | 0.1 | 0.8 |
P(0|x2) | 0.4 | 0.9 | 0.2 |
每个样本-标签对的期望误分类代价分别为:
E x1-Cold=0.7×0.3×5+0.7×0.7×0+0.3×0.7×1+0.3×0.3×0=2.52
E x1-LungCancer=0.03×0.97×50+0.03×0.03×0+0.97×0.03×1+0.97×0.97×0=2.9682
E x1-Cough=0.6×0.4×7+0.6×0.6×0+0.4×0.6×1+0.4×0.4×0=3.84
E x2-Cold=0.6×0.4×5+0.6×0.6×0+0.4×0.6×1+0.4×0.4×0=2.88
E x2-LungCancer=0.1×0.9×50+0.1×0.1×0+0.9×0.1×1+0.9×0.9×0=9.18
E x2-Cough=0.8×0.2×7+0.8×0.8×0+0.2×0.8×1+0.2×0.2×0=2.56
(3)对这些样本-标签对的期望误分类代价进行排序,选择期望误分类代价最大的3个样本-标签对,即将样本-标签对x 2-LungCancer、x 1-Cough和x 1-LungCancer,构成样本-标签对集合H。
(4)对挑选出的样本-标签对集合H进行人工标注,并将H加入已标记集L中,重新训练分类器,从而得到性能较高的代价敏感多标签分类器。
(5)当分类器性能达到预定值或迭代次数达到预定值时,结束学习过程。
实施例二:参见图1和图3所示,一种基于代价敏感主动学习的多标签分类器构建方法,包括下列内容:
本实施例采用flags数据集,共有7个标签(labels),194个样本,其中135个样本用作建立pool,59个样本用于测试。随机选择210个样本-标签对训练初始分类器,每次迭代选择35个labels。
本实施例中,采用BRkNN作为初始分类器算法,构建初始分类器;利用样本pool训练初始分类器,得到当前分类器;
采用当前分类器对于测试样本进行分类,获得预测标签值,计算样本-标签对的期望误分类代价,选择35个最高风险的样本-标签对进行标记,加入训练集,重新训练分类器,获得更新后的当前分类器;
以第20次迭代为例,说明如下:
(1)pool的样本-标签对的期望误分类代价情况:
样本 | 标签 | 误分类代价 | 样本 | 标签 | 误分类代价 |
0 | 0 | 0.013503099784261605 | 1 | 0 | 0.013503099784261605 |
2 | 0 | 0.013503099784261605 | 0 | 1 | 0.27053836802942993 |
1 | 1 | 0.27053836802942993 | 0 | 2 | 0.002293576639002862 |
1 | 2 | 0.013708774306321947 | 2 | 2 | 0.27055072182099915 |
3 | 2 | 0.013708774306321947 | 4 | 2 | 0.002293576639002862 |
0 | 3 | 0.002293576639002862 | 1 | 3 | 0.013708774306321947 |
2 | 3 | 0.27055072182099915 | 3 | 3 | 0.27055072182099915 |
4 | 3 | 0.002293576639002862 | 0 | 4 | 0.012379429809834915 |
1 | 4 | 0.013605159790578077 | 2 | 4 | 0.013605159790578077 |
3 | 4 | 0.013605159790578077 | 0 | 5 | 0.0022590348617121986 |
1 | 5 | 0.0022590348617121986 | 2 | 5 | 0.0022590348617121986 |
0 | 6 | 0.003416852049526153 | 1 | 6 | 0.2708206295692921 |
2 | 6 | 0.2708206295692921 | 3 | 6 | 0.003416852049526153 |
4 | 6 | 0.003416852049526153 | 5 | 6 | 0.003416852049526153 |
6 | 6 | 0.003416852049526153 | 7 | 6 | 0.003416852049526153 |
8 | 6 | 0.003416852049526153 | 9 | 6 | 0.003416852049526153 |
10 | 6 | 0.003416852049526153 | 11 | 6 | 0.003416852049526153 |
12 | 6 | 0.003416852049526153 | 13 | 6 | 0.003416852049526153 |
14 | 6 | 0.2708206295692921 | 15 | 6 | 0.003416852049526153 |
16 | 6 | 0.003416852049526153 | 17 | 6 | 0.003416852049526153 |
18 | 6 | 0.003416852049526153 | 19 | 6 | 0.2708206295692921 |
20 | 6 | 0.003416852049526153 | 21 | 6 | 0.2708206295692921 |
22 | 6 | 0.003416852049526153 | 23 | 6 | 0.003416852049526153 |
24 | 6 | 0.003416852049526153 | 25 | 6 | 0.2708206295692921 |
26 | 6 | 0.003416852049526153 | 27 | 6 | 0.003416852049526153 |
28 | 6 | 0.003416852049526153 | 29 | 6 | 0.003416852049526153 |
30 | 6 | 0.003416852049526153 | 31 | 6 | 0.003416852049526153 |
32 | 6 | 0.2708206295692921 | 33 | 6 | 0.2708206295692921 |
34 | 6 | 0.2708206295692921 | 35 | 6 | 0.003416852049526153 |
36 | 6 | 0.2708206295692921 | 37 | 6 | 0.003416852049526153 |
38 | 6 | 0.003416852049526153 | 39 | 6 | 0.2708206295692921 |
40 | 6 | 0.003416852049526153 | 41 | 6 | 0.003416852049526153 |
42 | 6 | 0.003416852049526153 | 43 | 6 | 0.003416852049526153 |
44 | 6 | 0.003416852049526153 | 45 | 6 | 0.2708206295692921 |
46 | 6 | 0.003416852049526153 | 47 | 6 | 0.003416852049526153 |
(2)选择的样本-标签对如下:
样本 | 标签 | 误分类代价 | 样本 | 标签 | 误分类代价 |
1 | 6 | 0.2708206295692921 | 2 | 6 | 0.2708206295692921 |
14 | 6 | 0.2708206295692921 | 19 | 6 | 0.2708206295692921 |
21 | 6 | 0.2708206295692921 | 25 | 6 | 0.2708206295692921 |
32 | 6 | 0.2708206295692921 | 33 | 6 | 0.2708206295692921 |
34 | 6 | 0.2708206295692921 | 36 | 6 | 0.2708206295692921 |
39 | 6 | 0.2708206295692921 | 45 | 6 | 0.2708206295692921 |
2 | 2 | 0.27055072182099915 | 2 | 3 | 0.27055072182099915 |
3 | 3 | 0.27055072182099915 | 0 | 1 | 0.27053836802942993 |
1 | 1 | 0.27053836802942993 | 1 | 2 | 0.013708774306321947 |
3 | 2 | 0.013708774306321947 | 1 | 3 | 0.013708774306321947 |
1 | 4 | 0.013605159790578077 | 2 | 4 | 0.013605159790578077 |
3 | 4 | 0.013605159790578077 | 0 | 0 | 0.013503099784261605 |
1 | 0 | 0.013503099784261605 | 2 | 0 | 0.013503099784261605 |
0 | 4 | 0.012379429809834915 | 0 | 6 | 0.003416852049526153 |
3 | 6 | 0.003416852049526153 | 4 | 6 | 0.003416852049526153 |
5 | 6 | 0.003416852049526153 | 6 | 6 | 0.003416852049526153 |
7 | 6 | 0.003416852049526153 | 8 | 6 | 0.003416852049526153 |
9 | 6 | 0.003416852049526153 |
(3)将以上选择的样本-标签对分别加入到训练集中,重新训练分类器,从而得到性能较高的代价敏感多标签分类器。
(4)当分类器性能达到预定值或迭代次数达到预定值时,结束学习过程。
实施例三:
在下表所示的六个数据集birds、enron、genbase、medical、CAL500和bibtex上,对本发明的方法进行对比验证。
对比的方法分别为:
LCam:本发明的基于标签的代价敏感主动学习方法;
ECam:基于样本的代价敏感主动学习方法;
ERnd:基于样本的随机选择主动学习方法;
LRnd:基于标签的随机选择主动学习方法。
表1数据集属性
名称 | 领域 | 样本数 | 标签数 |
birds | 音频 | 322 | 19 |
enron | 文本 | 1702 | 53 |
genbase | 生物 | 662 | 27 |
medical | 文本 | 978 | 45 |
CAL500 | 音乐 | 502 | 174 |
bibtex | 文本 | 7395 | 159 |
表2是在代价比例为C01=1、C10=2时基于样本和基于样本-标签对的代价敏感多标签主动学习方法达到目标时所需的迭代次数。
表2
数据集 | birds | enron | genbase | medical | CAL500 | bibtex |
ECam | 16 | 102 | 35 | / | 37 | 154 |
LCam | 9 | 13 | 78 | 33 | 3 | 44 |
图4至图9是误分类代价C01=1、C10=2时,基于样本的代价敏感多标签分类主动学习方法和基于样本的随机采样主动学习方法在六个数据集上运行的对比结果。
水平轴代表迭代次数。在每次迭代中,ECam和ERnd都为五个选择的样本获得完备的标签。纵轴代表平均误分类代价。绿色的实线表示ERnd的实验结果,蓝色线表示ECam的实验结果,红色的虚线代表目标误分类代价。图4显示了在六个数据集中的四个数据集上,ECam的表现比ERnd好得多,在一确定数目的迭代之后,能达到目标误分类代价。同时发现,ECam在另外两个数据集上的表现并不比ERnd好。
图10至图15是代价比例C01=1、C10=2时,基于样本-标签对的代价敏感多标签分类主动学习方法和基于样本-标签对的随机采样主动学习方法在六个数据集上运行的对比结果;
图16至图21是在代价比例为C01=1、C10=5时,基于样本-标签对的代价敏感多标签分类主动学习方法和基于样本-标签对的随机采样主动学习方法在六个数据集上运行的对比结果。
水平轴代表迭代次数。在每次迭代中,当这些样本标签对被选择出以后,LCam和LRnd都要从数据库中获得5×l个标签。纵轴代表平均误分类代价。绿色实线是LRnd的实验结果,蓝线是LCam的实验结果,红色虚线代表目标误分类代价。通过图5和图6,可以看出我们提出的方法LCam可以快速地达到目标,且明显优于LRnd。
Claims (1)
1. 一种基于代价敏感主动学习的多标签分类器构建方法,包括下列内容:
(1)构建初始分类器模型
获取已标记的样本集L,样本集L中的每个样本具有l个标签;采用计算机构建初始分类器,分类器的输入为样本的属性值,输出为样本的预测标签值;在所述样本集L上训练初始分类器,获得初始分类器模型,作为当前分类器;
(2)获取未标记样本集U,样本集U中的一个未标记样本为;
(3)采用当前分类器对于未标记样本集U中的每个样本进行分类,获得对应于样本的每一个标签的预测标签值,其中,对应第j个标签的预测标签值为;
(4)采用公式计算样本-标签对的期望误分类代价,式中,为样本对应第j个标签构成的样本-标签对,为样本的第j个标签的假定真实标签值,和为当前分类器提供的后验概率,为样本的第j个标签由假定真实标签值被误分类为的误分类代价;
(5) 利用公式选择h个最高期望误分类代价的样本-标签对构成集合H,其中,表示期望误分类代价最高的样本标签对,1<h<n,n为未标记的样本-标签对的个数;
(6) 标注所选择的每个样本-标签对的真实标签值,将标注后的集合H加入已标记的样本集L,在新的样本集L上重新训练分类器,获得更新后的当前分类器;
(7) 测试更新后的当前分类器的分类性能,若分类器的误分类代价达到预定的阈值,或者所选的未标记样本数到达设定的数量,当前分类器即为最终的基于代价敏感主动学习的多标签分类器;否则转至步骤(3),对当前分类器进行继续学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410389077.2A CN104166706B (zh) | 2014-08-08 | 2014-08-08 | 基于代价敏感主动学习的多标签分类器构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410389077.2A CN104166706B (zh) | 2014-08-08 | 2014-08-08 | 基于代价敏感主动学习的多标签分类器构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104166706A CN104166706A (zh) | 2014-11-26 |
CN104166706B true CN104166706B (zh) | 2017-11-03 |
Family
ID=51910519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410389077.2A Active CN104166706B (zh) | 2014-08-08 | 2014-08-08 | 基于代价敏感主动学习的多标签分类器构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104166706B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021931A (zh) * | 2017-11-20 | 2018-05-11 | 阿里巴巴集团控股有限公司 | 一种数据样本标签处理方法及装置 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657745B (zh) * | 2015-01-29 | 2017-12-15 | 中国科学院信息工程研究所 | 一种已标注样本的维护方法及双向学习交互式分类方法 |
CN104794339A (zh) * | 2015-04-17 | 2015-07-22 | 南京大学 | 基于多标签模型的帕金森病证型的辅助预测方法 |
GB201517462D0 (en) * | 2015-10-02 | 2015-11-18 | Tractable Ltd | Semi-automatic labelling of datasets |
CN105844287B (zh) * | 2016-03-15 | 2019-06-07 | 民政部国家减灾中心 | 一种遥感影像分类的域自适应方法及系统 |
CN106096635B (zh) * | 2016-06-06 | 2019-11-15 | 重庆大学 | 基于阈值操作的代价敏感神经网络的警告分类方法 |
CN106339420A (zh) * | 2016-08-15 | 2017-01-18 | 北京集奥聚合科技有限公司 | 一种基于消费能力的垂直领域属性挖掘方法 |
CN107704878B (zh) * | 2017-10-09 | 2021-06-22 | 南京大学 | 一种基于深度学习的高光谱数据库半自动化建立方法 |
CN109446393B (zh) * | 2018-09-12 | 2020-06-30 | 北京邮电大学 | 一种网络社区话题分类方法及装置 |
CN109241288A (zh) * | 2018-10-12 | 2019-01-18 | 平安科技(深圳)有限公司 | 文本分类模型的更新训练方法、装置及设备 |
CN109492026B (zh) * | 2018-11-02 | 2021-11-09 | 国家计算机网络与信息安全管理中心 | 一种基于改进的主动学习技术的电信欺诈分类检测方法 |
CN109656808B (zh) * | 2018-11-07 | 2022-03-11 | 江苏工程职业技术学院 | 一种基于混合式主动学习策略的软件缺陷预测方法 |
CN109492695B (zh) * | 2018-11-08 | 2021-07-23 | 北京字节跳动网络技术有限公司 | 数据建模的样本处理方法、装置、电子设备及可读介质 |
CN109886335B (zh) * | 2019-02-21 | 2021-11-26 | 厦门美图之家科技有限公司 | 分类模型训练方法及装置 |
CN109934203B (zh) * | 2019-03-25 | 2023-09-29 | 南京大学 | 一种基于信息熵选择的代价敏感增量式人脸识别方法 |
CN110110080A (zh) * | 2019-03-29 | 2019-08-09 | 平安科技(深圳)有限公司 | 文本分类模型训练方法、装置、计算机设备及存储介质 |
CN110222710B (zh) * | 2019-04-30 | 2022-03-08 | 北京深演智能科技股份有限公司 | 数据处理方法、装置及存储介质 |
CN111079147A (zh) * | 2019-12-17 | 2020-04-28 | 厦门服云信息科技有限公司 | 一种基于主动学习的病毒检测方法、终端设备及存储介质 |
CN112766393B (zh) * | 2021-01-26 | 2021-10-15 | 华东师范大学 | 一种基于主动学习多视图多标签分类器的构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102270192A (zh) * | 2011-07-27 | 2011-12-07 | 浙江工业大学 | 一种基于svm主动学习的多标签分类控制方法 |
CN103927394A (zh) * | 2014-05-04 | 2014-07-16 | 苏州大学 | 一种基于svm的多标签主动学习分类方法及系统 |
-
2014
- 2014-08-08 CN CN201410389077.2A patent/CN104166706B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102270192A (zh) * | 2011-07-27 | 2011-12-07 | 浙江工业大学 | 一种基于svm主动学习的多标签分类控制方法 |
CN103927394A (zh) * | 2014-05-04 | 2014-07-16 | 苏州大学 | 一种基于svm的多标签主动学习分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
"A NOVEL ACTIVE COST-SENSITIVE LEARNING METHOD FOR INTRUSION DETECTION";JUN LONG. etc;《Proceedings of the Seventh International Conference on Machine Learning and Cybernetics》;20080715;第1101-1102页,第5节 * |
"Two-Dimensional Multilabel Active Learning with an Efficient Online Adaptation Model for Image Classification";Guo-Jun Qi. etc;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20091031;第31卷(第10期);第1882-1884页,第2节 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021931A (zh) * | 2017-11-20 | 2018-05-11 | 阿里巴巴集团控股有限公司 | 一种数据样本标签处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104166706A (zh) | 2014-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104166706B (zh) | 基于代价敏感主动学习的多标签分类器构建方法 | |
CN107004159B (zh) | 主动机器学习 | |
CN107403198B (zh) | 一种基于级联分类器的官网识别方法 | |
CN108416384A (zh) | 一种图像标签标注方法、系统、设备及可读存储介质 | |
Chiang et al. | A ranking-based KNN approach for multi-label classification | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN108399431A (zh) | 分类模型训练方法以及分类方法 | |
CN105095675B (zh) | 一种开关柜故障特征选择方法及装置 | |
CN103258210B (zh) | 一种基于字典学习的高清图像分类方法 | |
CN105718532A (zh) | 一种基于多深度网络结构的跨媒体排序方法 | |
CN110377727B (zh) | 一种基于多任务学习的多标签文本分类方法和装置 | |
CN110347791B (zh) | 一种基于多标签分类卷积神经网络的题目推荐方法 | |
CN101980211A (zh) | 一种机器学习模型及其建立方法 | |
CN109918642A (zh) | 基于委员会查询的主动学习框架的情感分析方法及系统 | |
CN104252616B (zh) | 人脸标注方法、装置及设备 | |
Yeung et al. | Learning to learn from noisy web videos | |
CN103839078A (zh) | 一种基于主动学习的高光谱图像分类方法 | |
CN103309857B (zh) | 一种分类语料确定方法和设备 | |
CN105701225A (zh) | 一种基于统一关联超图规约的跨媒体检索方法 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN110796260B (zh) | 一种基于类扩张学习的神经网络模型优化方法 | |
CN110019827A (zh) | 一种语料库生成方法、装置、设备和计算机存储介质 | |
CN110929169A (zh) | 基于改进Canopy聚类协同过滤算法的职位推荐方法 | |
CN107301426A (zh) | 一种鞋底花纹图像的多标签聚类方法 | |
CN106844743B (zh) | 维吾尔语文本的情感分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |