CN113344185A

CN113344185A - 一种基于主动学习和神经网络的样本分类方法

Info

Publication number: CN113344185A
Application number: CN202110628469.XA
Authority: CN
Inventors: 周友行; 孟高磊; 赵文杰; 易倩; 沈旺
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-09-03

Abstract

本发明公开了一种基于主动学习和神经网络的样本分类方法，属于智能科学与技术中的机器学习领域。该方法以神经网络模型对样本点的不确定性为基准，分别计算三种传统不确定性指标Least confident、Margin和Entropy，用三种指标对样本进行投票，得票数最高的样本就是最终筛选出的样本点，这些样本点就是模型最不确定的样本，进而最有助于神经网络模型的训练。本发明可以有效减少需要标记样本点的数量，降低标记的代价并提高模型的分类精度。

Description

一种基于主动学习和神经网络的样本分类方法

技术领域

本发明属于智能科学与技术中的机器学习技术领域。具体涉及一种基于神经网络，引入主动学习并利用三种不确定性指标对样本进行投票，人工标注得票数高的样本，构建高质量的训练样本集，进一步提高神经网络分类精度的方法。

背景技术

传统的神经网络模型的学习以监督学习为主，这种学习方法需要大量的标注样本指导模型进行训练，从而不断提升模型在目标领域中的性能，最终取得一定的泛化能力并投入实际应用场景中。然而训练样本的标注一般是由相关领域的专家来完成的，获取高质量的标签需要花费大量的金钱和时间代价。

主动学习技术是一种缓解标注样本不足的方法。其首先通过合适的策略主动筛选最有价值的样本。然后，专家对这些样本进行标注，并将其加入到训练数据集中。最后，模型在更新后的数据集上训练。随着训练集的规模不断扩大，模型通过迭代式的训练方式不断提升性能，直到模型分类精度满足预设的条件为止。

主动学习算法中，不确定性采样策略仅利用模型对未标注样本集的预测结果进行样本的筛选，是最简洁有效的筛选策略。根据不同的不确定性指标，不确定性采样策略又分为三种：1)Leastconfident：筛选出模型最不确定的一批样本，即模型最终预测结果中概率值最小的样本。这种策略筛选出的样本的特点是，其最有可能取的标签的概率值在所有未标签样本中反而是最小的。2)Margin：分别计算每个样本最可能标签及第二可能标签概率之间的差值，筛选出差值最小的一批样本。这种筛选策略认为，若模型对某个样本所属类别最为确定，那样本属于此类别的概率应该远大于样本属于其他类别的概率。3)Entropy：分别计算每个样本的熵值，筛选出熵值最高的一批样本。这种策略的依据是信息论中的香农熵，样本的香农熵越大说明样本所含的信息量越大，进而最有利于提高模型的分类精度。

以上三种不确定筛选策略各代表了模型对样本所属标签不确定性的一部分，并不能够完整的衡量模型对样本的不确定性，在实际应用中模型分类精度相对较低。

发明内容

本发明的目的在于提供一种综合三种不确定指标的基于主动学习和神经网络的样本分类方法，更好的衡量模型对未标记样本的不确定性，进而稳定并提高模型的分类效果。

为实现上述目的，本发明的技术方案是：一种基于主动学习和神经网络的样本分类方法，包括以下步骤：

步骤1，从未经标记的训练样本中随机选取三部分样本进行标记，分别形成训练样本集、验证样本集和测试样本集；

步骤2，利用训练样本集训练神经网络，得到经过训练的神经网络模型；

步骤3，利用训练过的模型对未标记样本进行预测；

步骤4，根据预测结果分别计算每个样本的三种不确定性指标，用这三种指标对未标记样本进行投票，根据投票结果筛选出得票数最多的一批样本交给专家标注；

步骤5，将得票数最多的这批样本及其标签加入到已有训练样本集中，得到新的训练样本集，并利用新的训练样本集训练神经网络模型，得到新的模型；

步骤6，利用测试样本集对步骤5得到的新的模型进行测试，若测试结果满足用户要求则结束样本筛选，若所述测试结果不满足用户要求则回到步骤3，重复步骤3～5，直到模型分类精度达到要求为止。

本发明具有如下有益效果：

在样本分类领域，神经网络应用较为广泛，但是神经网络的训练往往需要大量的标签样本进行训练，才能取得较好的分类结果。然而训练样本的标注一般是由相关领域的专家来完成的，获取高质量的标签需要花费大量的金钱和时间代价。针对此问题，将主动学习引入神经网络中进行研究时很有意义的。

本方法在选择训练样本时采用了一种新颖的主动学习方法，相对于传统监督学习算法而言，所需的标签样本数量大大减少，降低了标记样本所需的时间和金钱代价，并且有效提高了神经网络模型的分类效果。

根据本发明提出的主动学习方法，利用传统的不确定性衡量指标对未标记样本进行投票，选出得票数最高的一批样本交给专家标注，这些样本往往对于模型训练最有价值。通过这种方法可以更好的衡量模型对未标签样本的不确定性，有效减少标记样本的数量，降低标记成本并提高模型的分类精度。

附图说明

图1是常见的三层前馈神经网络模型。

图2是本发明具体实施方式的基于不确定性投票的主动学习样本筛选方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。

现以三层前馈神经网络模型为例，说明根据本发明的主动学习样本筛选方法。然而，本领域的技术人员应理解，本发明不限于此神经网络，而是可以应用于其他输出采用Softmax的多分类神经网络。

图1所示的三层前馈神经网络模型是一种用于样本多分类任务的模型，以样本x为例，输入层是第0层，代表样本x的特征向量，中间两层为隐藏层，输出层节点的个数n代表样本x可能取的标签个数，w⁽ⁱ⁾代表第i-1层与第i层之间连接权重矩阵，输出层经过softmax函数激活之后，得到样本x属于各标签的概率p(y^c|x,W)，y^c代表标签，W代表所有的连接权重。

对于上述神经网络的训练采用误差逆传播算法(error BackPropagation，简称BP)进行训练。

当神经网络模型训练完成后，用训练好的模型对未标签样本进行预测，得到样本关于其所属标签的概率分布，以样本x为例，关于x所属标签的概率分布为

{p(y¹|x,W),…p(y^c|x,W),…p(yⁿ|x,W)}

用y′₁代表模型认为的样本x的标签，则y′₁＝argmax_yp(y^c|x,W)。

图2所示为本发明基于主动学习和神经网络的样本分类方法流程图，其具体步骤为

(1)从未经标记的训练样本中随机选取三部分样本进行标记，分别形成训练样本集、验证样本集和测试样本集。

在具体实施中，上述训练样本集占总样本量的0.05％，验证样本集和测试样本集各占总样本量的10％。

(2)利用训练样本集训练神经网络，得到经过训练的神经网络模型。

(3)利用经过训练的神经网络模型，对未标记样本进行预测，得到所有未标记样本的预测结果，利用未标记样本的预测结果，分别计算每个样本的Leastconfident、Margin和Entropy三种不确定性指标值，分别根据三种指标值对未标记样本不确定性进行排序并筛选出三组模型最不确定的未标记样本。

在具体实施中，根据Least confident策略筛选样本，具体方法为：将样本按照p(y′₁|x,W)值从小到大进行排序，取一定数量值最小的样本作为筛选结果并记筛选出的样本集合为A。

在具体实施中，根据Margin策略筛选样本，Margin计算公式为

Margin＝p(y′₁|x,W)-p(y′₂|x,W)

上式中，y′₁和y′₂为模型认为的x最有可能取得标签值和第二可能取的标签值。根据Margin值将样本从大到小进行排序，取一定数量Margin值最大的样本作为筛选结果并记筛选出的样本集为B。

在具体实施中，根据Entropy策略筛选样本，Entropy计算公式为

根据Entropy值将样本从大到小进行排序，取一定数量Entropy值最大的样本作为筛选结果并记筛选出的样本集为C。

(4)计算A，B，C三组样本的交集，分别统计出得三票、两票、一票的样本集。记得三票的样本集为D，则有D＝A∩B∩C；记得两票的样本集为E，则有E_AB＝(A-D)∩(B-D)，E_AC＝(A-D)∩(C-D)，E_BC＝(B-D)∩(C-D)；记得一票的样本集为F，则有F_A＝A-(D∪E_AB∪E_AC)，F_B＝B-(D∪E_AB∪E_BC)，F_C＝C-(D∪E_AC∪E_BC)，根据得票数优先从得票数多的集合中随机筛选一定数量的样本交给专家标注。

(5)将筛选出的样本及其标签与初始训练样本集结合形成最终训练样本集。

(6)利用最终训练样本集重新对模型进行训练，得到更新后的神经网络模型。

(7)利用测试样本集对步骤(6)得到的新模型进行测试，若测试结果满足用户要求则结束训练过程，若测试结果不满足用户要求则重复步骤(3)～(6)，直到最终测试结果满足用户要求便停止迭代。

以上这些实例应理解为仅用于解释本发明而不用于限制本发明的保护范围。依据本发明所做的各种改动或修改这类等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于主动学习和神经网络的样本分类方法，其特征在于，包括以下步骤：

步骤2，利用训练样本集训练神经网络，得到经过训练的模型；

步骤3，利用训练过的模型对未标记样本进行预测；

2.根据权利要求1所述一种基于主动学习和神经网络的样本分类方法，其特征在于：所述步骤S1中训练样本集占总样本量的0.05％，验证样本集和测试样本集各占总样本量的10％。

3.根据权利要求1所述一种基于主动学习和神经网络的样本分类方法，其特征在于：所述神经网络的输出层使用Softmax函数，其余结构不限。

4.根据权利要求1所述一种基于主动学习和神经网络的样本分类方法，其特征在于：所述步骤4中三种不确定性指标分别为Least confident、Margin和Entropy，记样本点及其标签为(x,y)，记由三种指标筛选出来的样本分别为

和

则对应的样本筛选表达式为：

式中，y′₁＝argmax_yp(y|x,W)，是模型输出结果中概率值最大的标签，y′₂是概率值第二大的标签。

5.根据权利要求1所述一种基于主动学习和神经网络的样本分类方法，其特征在于：所述步骤4中利用三种指标分别筛选出三组数据集，投票形式采用三组数据集取交集的方式，分别统计出得三票，两票，一票的样本集，优先从得票数高的样本集中随机筛选样本进行标注。