CN113344185A - 一种基于主动学习和神经网络的样本分类方法 - Google Patents
一种基于主动学习和神经网络的样本分类方法 Download PDFInfo
- Publication number
- CN113344185A CN113344185A CN202110628469.XA CN202110628469A CN113344185A CN 113344185 A CN113344185 A CN 113344185A CN 202110628469 A CN202110628469 A CN 202110628469A CN 113344185 A CN113344185 A CN 113344185A
- Authority
- CN
- China
- Prior art keywords
- sample
- neural network
- samples
- sample set
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主动学习和神经网络的样本分类方法,属于智能科学与技术中的机器学习领域。该方法以神经网络模型对样本点的不确定性为基准,分别计算三种传统不确定性指标Least confident、Margin和Entropy,用三种指标对样本进行投票,得票数最高的样本就是最终筛选出的样本点,这些样本点就是模型最不确定的样本,进而最有助于神经网络模型的训练。本发明可以有效减少需要标记样本点的数量,降低标记的代价并提高模型的分类精度。
Description
技术领域
本发明属于智能科学与技术中的机器学习技术领域。具体涉及一种基于神经网络,引入主动学习并利用三种不确定性指标对样本进行投票,人工标注得票数高的样本,构建高质量的训练样本集,进一步提高神经网络分类精度的方法。
背景技术
传统的神经网络模型的学习以监督学习为主,这种学习方法需要大量的标注样本指导模型进行训练,从而不断提升模型在目标领域中的性能,最终取得一定的泛化能力并投入实际应用场景中。然而训练样本的标注一般是由相关领域的专家来完成的,获取高质量的标签需要花费大量的金钱和时间代价。
主动学习技术是一种缓解标注样本不足的方法。其首先通过合适的策略主动筛选最有价值的样本。然后,专家对这些样本进行标注,并将其加入到训练数据集中。最后,模型在更新后的数据集上训练。随着训练集的规模不断扩大,模型通过迭代式的训练方式不断提升性能,直到模型分类精度满足预设的条件为止。
主动学习算法中,不确定性采样策略仅利用模型对未标注样本集的预测结果进行样本的筛选,是最简洁有效的筛选策略。根据不同的不确定性指标,不确定性采样策略又分为三种:1)Leastconfident:筛选出模型最不确定的一批样本,即模型最终预测结果中概率值最小的样本。这种策略筛选出的样本的特点是,其最有可能取的标签的概率值在所有未标签样本中反而是最小的。2)Margin:分别计算每个样本最可能标签及第二可能标签概率之间的差值,筛选出差值最小的一批样本。这种筛选策略认为,若模型对某个样本所属类别最为确定,那样本属于此类别的概率应该远大于样本属于其他类别的概率。3)Entropy:分别计算每个样本的熵值,筛选出熵值最高的一批样本。这种策略的依据是信息论中的香农熵,样本的香农熵越大说明样本所含的信息量越大,进而最有利于提高模型的分类精度。
以上三种不确定筛选策略各代表了模型对样本所属标签不确定性的一部分,并不能够完整的衡量模型对样本的不确定性,在实际应用中模型分类精度相对较低。
发明内容
本发明的目的在于提供一种综合三种不确定指标的基于主动学习和神经网络的样本分类方法,更好的衡量模型对未标记样本的不确定性,进而稳定并提高模型的分类效果。
为实现上述目的,本发明的技术方案是:一种基于主动学习和神经网络的样本分类方法,包括以下步骤:
步骤1,从未经标记的训练样本中随机选取三部分样本进行标记,分别形成训练样本集、验证样本集和测试样本集;
步骤2,利用训练样本集训练神经网络,得到经过训练的神经网络模型;
步骤3,利用训练过的模型对未标记样本进行预测;
步骤4,根据预测结果分别计算每个样本的三种不确定性指标,用这三种指标对未标记样本进行投票,根据投票结果筛选出得票数最多的一批样本交给专家标注;
步骤5,将得票数最多的这批样本及其标签加入到已有训练样本集中,得到新的训练样本集,并利用新的训练样本集训练神经网络模型,得到新的模型;
步骤6,利用测试样本集对步骤5得到的新的模型进行测试,若测试结果满足用户要求则结束样本筛选,若所述测试结果不满足用户要求则回到步骤3,重复步骤3~5,直到模型分类精度达到要求为止。
本发明具有如下有益效果:
在样本分类领域,神经网络应用较为广泛,但是神经网络的训练往往需要大量的标签样本进行训练,才能取得较好的分类结果。然而训练样本的标注一般是由相关领域的专家来完成的,获取高质量的标签需要花费大量的金钱和时间代价。针对此问题,将主动学习引入神经网络中进行研究时很有意义的。
本方法在选择训练样本时采用了一种新颖的主动学习方法,相对于传统监督学习算法而言,所需的标签样本数量大大减少,降低了标记样本所需的时间和金钱代价,并且有效提高了神经网络模型的分类效果。
根据本发明提出的主动学习方法,利用传统的不确定性衡量指标对未标记样本进行投票,选出得票数最高的一批样本交给专家标注,这些样本往往对于模型训练最有价值。通过这种方法可以更好的衡量模型对未标签样本的不确定性,有效减少标记样本的数量,降低标记成本并提高模型的分类精度。
附图说明
图1是常见的三层前馈神经网络模型。
图2是本发明具体实施方式的基于不确定性投票的主动学习样本筛选方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。
现以三层前馈神经网络模型为例,说明根据本发明的主动学习样本筛选方法。然而,本领域的技术人员应理解,本发明不限于此神经网络,而是可以应用于其他输出采用Softmax的多分类神经网络。
图1所示的三层前馈神经网络模型是一种用于样本多分类任务的模型,以样本x为例,输入层是第0层,代表样本x的特征向量,中间两层为隐藏层,输出层节点的个数n代表样本x可能取的标签个数,w(i)代表第i-1层与第i层之间连接权重矩阵,输出层经过softmax函数激活之后,得到样本x属于各标签的概率p(yc|x,W),yc代表标签,W代表所有的连接权重。
对于上述神经网络的训练采用误差逆传播算法(error BackPropagation,简称BP)进行训练。
当神经网络模型训练完成后,用训练好的模型对未标签样本进行预测,得到样本关于其所属标签的概率分布,以样本x为例,关于x所属标签的概率分布为
{p(y1|x,W),…p(yc|x,W),…p(yn|x,W)}
用y′1代表模型认为的样本x的标签,则y′1=argmaxyp(yc|x,W)。
图2所示为本发明基于主动学习和神经网络的样本分类方法流程图,其具体步骤为
(1)从未经标记的训练样本中随机选取三部分样本进行标记,分别形成训练样本集、验证样本集和测试样本集。
在具体实施中,上述训练样本集占总样本量的0.05%,验证样本集和测试样本集各占总样本量的10%。
(2)利用训练样本集训练神经网络,得到经过训练的神经网络模型。
(3)利用经过训练的神经网络模型,对未标记样本进行预测,得到所有未标记样本的预测结果,利用未标记样本的预测结果,分别计算每个样本的Leastconfident、Margin和Entropy三种不确定性指标值,分别根据三种指标值对未标记样本不确定性进行排序并筛选出三组模型最不确定的未标记样本。
在具体实施中,根据Least confident策略筛选样本,具体方法为:将样本按照p(y′1|x,W)值从小到大进行排序,取一定数量值最小的样本作为筛选结果并记筛选出的样本集合为A。
在具体实施中,根据Margin策略筛选样本,Margin计算公式为
Margin=p(y′1|x,W)-p(y′2|x,W)
上式中,y′1和y′2为模型认为的x最有可能取得标签值和第二可能取的标签值。根据Margin值将样本从大到小进行排序,取一定数量Margin值最大的样本作为筛选结果并记筛选出的样本集为B。
在具体实施中,根据Entropy策略筛选样本,Entropy计算公式为
根据Entropy值将样本从大到小进行排序,取一定数量Entropy值最大的样本作为筛选结果并记筛选出的样本集为C。
(4)计算A,B,C三组样本的交集,分别统计出得三票、两票、一票的样本集。记得三票的样本集为D,则有D=A∩B∩C;记得两票的样本集为E,则有EAB=(A-D)∩(B-D),EAC=(A-D)∩(C-D),EBC=(B-D)∩(C-D);记得一票的样本集为F,则有FA=A-(D∪EAB∪EAC),FB=B-(D∪EAB∪EBC),FC=C-(D∪EAC∪EBC),根据得票数优先从得票数多的集合中随机筛选一定数量的样本交给专家标注。
(5)将筛选出的样本及其标签与初始训练样本集结合形成最终训练样本集。
(6)利用最终训练样本集重新对模型进行训练,得到更新后的神经网络模型。
(7)利用测试样本集对步骤(6)得到的新模型进行测试,若测试结果满足用户要求则结束训练过程,若测试结果不满足用户要求则重复步骤(3)~(6),直到最终测试结果满足用户要求便停止迭代。
以上这些实例应理解为仅用于解释本发明而不用于限制本发明的保护范围。依据本发明所做的各种改动或修改这类等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (5)
1.一种基于主动学习和神经网络的样本分类方法,其特征在于,包括以下步骤:
步骤1,从未经标记的训练样本中随机选取三部分样本进行标记,分别形成训练样本集、验证样本集和测试样本集;
步骤2,利用训练样本集训练神经网络,得到经过训练的模型;
步骤3,利用训练过的模型对未标记样本进行预测;
步骤4,根据预测结果分别计算每个样本的三种不确定性指标,用这三种指标对未标记样本进行投票,根据投票结果筛选出得票数最多的一批样本交给专家标注;
步骤5,将得票数最多的这批样本及其标签加入到已有训练样本集中,得到新的训练样本集,并利用新的训练样本集训练神经网络模型,得到新的模型;
步骤6,利用测试样本集对步骤5得到的新的模型进行测试,若测试结果满足用户要求则结束样本筛选,若所述测试结果不满足用户要求则回到步骤3,重复步骤3~5,直到模型分类精度达到要求为止。
2.根据权利要求1所述一种基于主动学习和神经网络的样本分类方法,其特征在于:所述步骤S1中训练样本集占总样本量的0.05%,验证样本集和测试样本集各占总样本量的10%。
3.根据权利要求1所述一种基于主动学习和神经网络的样本分类方法,其特征在于:所述神经网络的输出层使用Softmax函数,其余结构不限。
5.根据权利要求1所述一种基于主动学习和神经网络的样本分类方法,其特征在于:所述步骤4中利用三种指标分别筛选出三组数据集,投票形式采用三组数据集取交集的方式,分别统计出得三票,两票,一票的样本集,优先从得票数高的样本集中随机筛选样本进行标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628469.XA CN113344185A (zh) | 2021-06-07 | 2021-06-07 | 一种基于主动学习和神经网络的样本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628469.XA CN113344185A (zh) | 2021-06-07 | 2021-06-07 | 一种基于主动学习和神经网络的样本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113344185A true CN113344185A (zh) | 2021-09-03 |
Family
ID=77474252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110628469.XA Withdrawn CN113344185A (zh) | 2021-06-07 | 2021-06-07 | 一种基于主动学习和神经网络的样本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113344185A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328936A (zh) * | 2022-03-01 | 2022-04-12 | 支付宝(杭州)信息技术有限公司 | 建立分类模型的方法和装置 |
-
2021
- 2021-06-07 CN CN202110628469.XA patent/CN113344185A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328936A (zh) * | 2022-03-01 | 2022-04-12 | 支付宝(杭州)信息技术有限公司 | 建立分类模型的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Peng et al. | Accelerating minibatch stochastic gradient descent using typicality sampling | |
CN108984745A (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN108875816A (zh) | 融合置信度准则和多样性准则的主动学习样本选择策略 | |
CN111861013B (zh) | 一种电力负荷预测方法及装置 | |
CN113887643B (zh) | 一种基于伪标签自训练和源域再训练的新对话意图识别方法 | |
CN112784031B (zh) | 一种基于小样本学习的客服对话文本的分类方法和系统 | |
CN104933428A (zh) | 一种基于张量描述的人脸识别方法及装置 | |
CN110349597A (zh) | 一种语音检测方法及装置 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN112417132B (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN112232561A (zh) | 基于约束并行lstm分位数回归的电力负荷概率预测方法 | |
CN109816010A (zh) | 一种用于航班延误预测的基于选择性集成的cart增量学习分类方法 | |
CN112330052A (zh) | 一种配变负荷预测方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN111144462B (zh) | 一种雷达信号的未知个体识别方法及装置 | |
CN110717281B (zh) | 基于犹豫云语言术语集和群决策的仿真模型可信度评估方法 | |
CN115510322A (zh) | 一种基于深度学习的多目标优化推荐方法 | |
CN113344185A (zh) | 一种基于主动学习和神经网络的样本分类方法 | |
CN106448660A (zh) | 一种引入大数据分析的自然语言模糊边界确定方法 | |
CN117314666A (zh) | 一种财务风险识别方法、装置、设备及存储介质 | |
CN116386646A (zh) | 一种基于不确定度的集成自监督说话人识别方法 | |
CN115828100A (zh) | 基于深度神经网络的手机辐射源频谱图类别增量学习方法 | |
CN114266394A (zh) | 面向科技服务平台的企业画像与科技服务个性化需求预测方法 | |
CN113139464A (zh) | 一种电网故障检测方法 | |
CN113920536B (zh) | 一种基于在线层次聚类的无监督行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210903 |
|
WW01 | Invention patent application withdrawn after publication |