CN108875816A

CN108875816A - 融合置信度准则和多样性准则的主动学习样本选择策略

Info

Publication number: CN108875816A
Application number: CN201810567407.0A
Authority: CN
Inventors: 王晓军; 潘龙飞
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2018-11-23

Abstract

本发明涉及融合置信度准则和多样性准则的主动学习样本选择策略，包括以下步骤：基于已有的标记数据集D_L训练模型M_t；使用M_t对当前未标记数据集D_U进行预测，得到预测向量集P_t；根据P_t计算每个样本的信息熵，选择熵值最大的前K个样本；根据M_t提取K个未标记样本的特征表示，得到特征向量集F_t；对F_t进行密度峰值聚类，分别从密度峰值聚类产生的簇中心、簇的边缘点和离群点选取相应比例数量的样本，交由专家标记，加入已标记数据集D_L，同时从未标记数据集D_U中删除相应样本；利用当前已标记数据集D_L对M_t进行更新得到M_t+1；重复上述步骤，直到所有样本标记结束或达到指定迭代次数完成整个算法流程。

Description

融合置信度准则和多样性准则的主动学习样本选择策略

技术领域

本发明涉及一种主动学习样本的选择策略，尤其是一种融合置信度准则和多样性准则的主动学习样本选择策略，属于计算机应用的技术领域。

背景技术

近年来，统计学习技术已得到了广泛的应用。使用一些传统的监督学习方法做分类的时候，往往是训练数据规模越大，分类的效果越好。但是在现实生活的很多场景中，标记样本的获取是比较困难的，这需要领域内的专家来进行人工标注，所需要花费的时间成本和经济成本很大。而且，如果训练样本的规模过于庞大，训练的时间花费也会比较多。那么有没有办法，能够使用较少的训练样本来获得性能较好的分类器呢？主动学习(ActiveLearning)为我们提供了这种可能。主动学习算法实现了动态的实例选择和标记，能够根据部分已知的标记样本，主动地从未标记样本集中挑选样本交由专家进行标注。这些由主动学习算法筛选出的样本往往是对训练贡献最大的一些样本，因此，使用主动学习技术进行样本标记训练可以更快速有效的提升模型的性能。

当前的主动学习策略主要基于置信度和多样性两大准则来设计。置信度衡量了当前模型对于样本的不确定性，该准则的思想是：模型越是不能确定的样本，说明当前模型并没有学习到或者没有学习好该种样本的数据模式，那么就越需要将其标注之后交给模型进行训练。多样性准则衡量了样本数据模式的丰富程度，该准则的思想是：模型学习的数据模式应该尽量的丰富，如果每次选择类型比较单一的样本进行训练，那么势必会因为数据不平衡或者数据模式的单一性造成模型对未出现的数据模式识别性能较差。

发明内容

本发明的目的在于：针对现有技术存在的缺陷，提出一种融合置信度和多样性的主动学习样本选择策略，解决基于置信度准则的主动学习方法过度依赖模型的性能，没有考虑样本多样性的问题。

为了达到以上目的，本发明提供了融合置信度准则和多样性准则的主动学习样本选择策略，包括如下步骤：

步骤1，基于已有的标记数据集D_L训练初始模型M_t；

步骤2，使用M_t对当前未标记数据集D_U进行预测，得到预测向量集P_t；

步骤3，根据P_t计算每个样本的信息熵，取熵值最大的前K个样本作为主动学习备选样本，如果未标记样本数量未达到K，则跳过该步骤；

步骤4，根据M_t提取K个未标记样本的特征表示，得到特征向量集F_t；由步骤3得到当前模型M_t对于所有未标记样本最不确定的K个未标记样本，再对这K个样本进行模型的深层特征提取，得到特征映射向量集F_t，其中F_t和输入的K个标记样本呈一一对应关系；

步骤5，对F₀进行密度峰值聚类，将K个样本划分为C簇，其中C＜K；

步骤6，依据步骤5的聚类结果，分别从密度峰值聚类产生的簇中心、簇的边缘点和离群点选取相应比例数量的样本，交由专家标记，加入已标记数据集D_L，同时从未标记数据集D_U中删除相应样本；

步骤7，利用当前已标记数据集D_L对M_t进行更新得到M_t+1，如果所有样本标记结束或达到指定迭代次数，则完成整个算法流程；否则转至步骤1重复上述步骤，直到所有样本标记结束或达到指定迭代次数。

进一步的，所述步骤1中的初始训练集D_L的数据是经过预处理的特征数据；

M_t为能够输出概率值的分类模型，包括但不限于深度神经网络、卷积神经网络、逻辑回归模型，模型的选择视具体任务而定。

进一步的，所述步骤2中，对于D_U中大量的未标记样本，利用已有的分类模型M_t对其进行预测；

对于每个样本x，经过分类模型的预测，产生预测概率向量p(x)，对未标记样本集D_u中的每个样本进行预测并产生所述概率向量p(x)，并得到当前轮次预测概率向量集P_t＝{p(x)|x∈D_u}，P_t中每个预测向量与D_u中的样本呈一一对应关系。

进一步的，所述步骤3中，对于步骤2中所述单个样本x的预测向量p(x)，那么信息熵H(x)的计算方式为：

H(x)＝-∑_0≤j＜Np(y＝j|x)logp(y＝j|x) (1)

其中，N为类别数量。对每个样本的预测输出概率向量p(x)计算熵值，然后按照熵值大小降序排序，取熵值最大的前K个样本作为构成候选集，并提取候选集中各样本的特征表示作为步骤5的输入。

进一步的，所述步骤5中，距离计算使用欧几里得距离，

假设表示第i个样本第p个维度，则样本x_i和样本x_j之间的欧式距离为：

进一步的，所述步骤6中，根据步骤5中产生的C个簇中心所对应的在D_U中的编号，从D_U依次删除，并把这C个簇中心和标记好的标签组成键值对存入带标签样本集D_L，令D_AL表示当前专家新标记的样本集合，过程可描述为：

D_L＝D_L+D_AL (3)

D_U＝D_U-D_AL (4)。

进一步的，所述步骤7中，由前述步骤已得到更新过后的已标记样本集D_L，此时需要对上一步的模型M_t进行微调更新；该步骤基于已经训练好的M_t的基础上进行参数更新，使得新生成的模型M_t+1对标记数据集进行再学习，让模型具有辨识新样本数据模式的能力。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明设计了一种融合了置信度和多样性准则的主动学习策略，汲取了置信度和多样性两大主动学习准则的思想，解决基于置信度准则的主动学习方法过度依赖模型的性能，没有考虑样本多样性的问题。同时解决了基于多样性准则的方法完全脱离当前模型的束缚，导致选取的样本可能并不是当前模型最不确定的样本，使得模型的性能提升不够明显。此外，融合的方案也解决了单纯使用聚类等基于多样性准则的选择策略计算复杂度过高的问题。

其中，步骤3中对样本预测结果熵值的计算基于置信度准则，选取模型最不能确定的前K个样本，模型对这些样本的数据模式最“陌生”，需要对其进行学习。步骤5中采用的密度峰值聚类的方式基于多样性准则，希望能够在模型比较“陌生”的K个样本中选取尽可能多样的数据模式，这里的C通常小于K，即“优中选优”的思想。而K通常远小于总体未标记样本，这也节约了聚类时的计算资源。该策略吸纳了基于置信度策略具有稳定性的优点，使得模型在连续学习的过程中对自身比较“陌生”的样本持续不断的改善性能。同时，该策略也具有多样性准则的优点，每次迭代获得了更多样的数据模式，从而避免了每次主动学习选择的数据模式过于单一的风险。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明的流程框图。

图2是本发明中密度峰值聚类(Density Peaks Clustering)的流程框图。

具体实施方式

下面对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

本实施例提供了一种融合置信度和多样性准则的主动学习样本选择策略，并应用到连续学习框架当中。以下结合音频识别领域的实例对本发明进行陈述，其流程如图1所示，包括以下步骤：

步骤1、基于已有的标记数据训练模型M_t。

首先，该策略基于模型的输出来计算，我们需要在使用该策略选择样本之前利用已有带标签的训练集D_L构建模型M_t。其中，初始训练集D_L的数据是经过预处理的特征数据。例如在音频领域，模型的输入数据通常是经过信号预处理后的特征，比如对原始音频作短时傅里叶变换(SIFT)，或者梅尔倒谱系数(MFCC)等。M_t是一个能够输出概率值的分类模型，比如深度神经网络(DNN)，卷积神经网络(CNN)，逻辑回归模型(LR)等，模型的选择视具体任务而定。

本实例使用深度卷积神经网络模型(CNN)，使用MFCC变换对音频数据集进行预处理。其中初始标记数据集D_L的大小为1000，未标记数据集D_U的大小为10000，固定测试数据集的大小为2500。

步骤2、根据M_t对当前未标记数据集D_U进行预测，得到预测向量集P_t。

经过步骤1，得到分类模型M_t。对于D_U中大量的未标记样本，利用已有的分类模型M_t对其进行预测。

对于每个样本x，经过分类模型的预测，产生预测概率向量p(x)，如对于一个二分类任务而言，p(x)＝[p(y＝0|x),p(y＝1|x)]表示模型判断x属于0类的概率为p(y＝0|x)，属于1类的概率为p(y＝1|x)。对未标记样本集D_u中的每个样本进行预测并产生上述概率向量p(x)，可以得到当前轮次预测概率向量集P_t＝{p(x)|x∈D_u}，P_t中每个预测向量与D_u中的样本呈一一对应关系。

步骤3、根据P_t计算每个样本的信息熵，选择熵值最大的前K个样本，如果未标记样本数量未达到K，则跳过该步骤。

对于步骤2中所述单个样本x的预测向量p(x)，那么信息熵H(x)的计算方式为：

其中，N为类别数量。对每个样本的预测输出概率向量p(x)计算熵值，然后按照熵值大小降序排序，取熵值最大的前K个样本作为主动学习备选样本。

本实例K设置为1000。

步骤4、根据M_t提取K个未标记样本的特征表示，得到特征向量集F_t。

特征表示指的是样本经过模型M_t进行前向传播计算得到的深层特征映射(feature map，即深度模型隐藏层的激活输出)，如CNN输出层前一层的激活输出(logits)。

经过步骤3得到当前模型M_t对于所有未标记样本最不确定的K个未标记样本，再对这K个样本进行模型的深层特征提取，得到特征映射向量集F_t。这里的F_t和输入的K个标记样本呈一一对应关系。

步骤5、对F_t进行密度峰值聚类(Density Peaks Clustering)，类簇的个数为C(C＜K)。

密度峰值聚类是一种基于密度的聚类算法，算法于2014年被发表于Science。密度峰值聚类算法详细步骤如图2所示。

本实例中，距离计算使用欧几里得距离，也可以使用其他类型的度量方法，如余弦距离等，根据具体的任务来设定。假设表示第i个样本第p个维度，则样本x_i和样本x_j之间的欧式距离为：

取簇中心个数C＝200，可以根据具体情况适当更改，但需保证C＜K。其他聚类参数均采用密度峰值聚类算法的默认设置，详情见论文(Rodriguez A,Laio A.Clustering byfast search and find of density peaks[J].Science,2014,344(6191):1492-1496.)。

步骤6、依据(5)的聚类结果，分别从密度峰值聚类产生的簇中心、簇的边缘点和离群点选取相应比例数量的样本，交由专家标记，加入已标记数据集D_L，同时从未标记数据集D_U中删除相应样本；

根据步骤5中产生的C个簇中心所对应的在D_U中的编号，从D_U依次删除，并把这C个簇中心和标记好的标签组成键值对存入带标签样本集D_L。令D_AL表示当前专家新标记的样本集合，过程可描述为：

D_L＝D_L+D_AL (3)

D_U＝D_U-D_AL (4)

本实例中，簇中心、簇的边缘点、离群点的比例设置为5:3:2。

步骤7、利用当前已标记数据集D_L对M_t进行更新得到M_t+1

此时，已经得到更新过后的已标记样本集D_L，如图1中总体流程所示，此时需要对上一步的模型M_t进行微调(fine-tuning)更新。该步骤基于已经训练好的M_t的基础上进行参数更新，使得新生成的模型M_t+1对标记数据集进行再学习，让模型具有辨识新样本数据模式的能力。

步骤8、重复上述步骤，直到所有样本标记结束或达到指定迭代次数。

综上，本发明融合了置信度和多样性准则，结合了基于置信度策略的稳定性的优点，使得模型在连续学习的过程中对自身比较“陌生”的样本持续不断的改善性能，同时也吸收了多样性准则的优点，每次迭代获得了更多样的数据模式，从而避免了主动学习选择的数据模式过于单一的风险。

以上结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.融合置信度准则和多样性准则的主动学习样本选择策略，其特征在于：包括如下步骤：

步骤1，基于已有的标记数据集D_L训练初始模型M_t；

步骤5，对F₀进行密度峰值聚类，将K个样本划分为C簇，其中C<K；

2.根据权利要求1所述的融合置信度准则和多样性准则的主动学习样本选择策略，其特征在于：所述步骤1中的初始训练集D_L的数据是经过预处理的特征数据；

3.根据权利要求1所述的融合置信度准则和多样性准则的主动学习样本选择策略，其特征在于：所述步骤2中，对于D_U中大量的未标记样本，利用已有的分类模型M_t对其进行预测；

4.根据权利要求2所述的融合置信度准则和多样性准则的主动学习样本选择策略，其特征在于：所述步骤3中，对于步骤2中所述单个样本x的预测向量p(x)，那么信息熵H(x)的计算方式为：

H(x)＝-∑_0≤j<Np(y＝j|x)log p(y＝j|x) (1)

5.根据权利要求1所述的融合置信度准则和多样性准则的主动学习样本选择策略，其特征在于：所述步骤5中，距离计算使用欧几里得距离，

6.根据权利要求5所述的融合置信度准则和多样性准则的主动学习样本选择策略，其特征在于：所述步骤5中，距离计算根据具体的任务来设定，选用余弦距离等其他度量方法。

7.根据权利要求5所述的融合置信度准则和多样性准则的主动学习样本选择策略，其特征在于：所述步骤6中，根据步骤5中产生的C个簇中心所对应的在D_U中的编号，从D_U依次删除，并把这C个簇中心和标记好的标签组成键值对存入带标签样本集D_L，令D_AL表示当前专家新标记的样本集合，过程可描述为：

D_L＝D_L+D_AL (3)

D_U＝D_U-D_AL (4)。

8.根据权利要求5所述的融合置信度准则和多样性准则的主动学习样本选择策略，其特征在于：所述步骤7中，由前述步骤已得到更新过后的已标记样本集D_L，此时需要对上一步的模型M_t进行微调更新；该步骤基于已经训练好的M_t的基础上进行参数更新，使得新生成的模型M_t+1对标记数据集进行再学习，让模型具有辨识新样本数据模式的能力。