CN106779086A

CN106779086A - 一种基于主动学习和模型剪枝的集成学习方法及装置

Info

Publication number: CN106779086A
Application number: CN201611060500.XA
Authority: CN
Inventors: 刘宏志; 姜正申; 易晖; 赵鹏; 吴中海; 张兴
Original assignee: Beijing Hua Rui Rui Network Technology Co Ltd; Peking University
Current assignee: Beijing Hua Rui Rui Network Technology Co Ltd; Peking University
Priority date: 2016-11-28
Filing date: 2016-11-28
Publication date: 2017-05-31

Abstract

本发明公开了一种综合了主动学习技术和模型剪枝技术的集成学习方法及装置。所述集成学习方法包括：通过度量未标注样本对集成模型的适用程度，自动的从未标记样本集合中选择关键样本，交给人工标注，并用以重新训练集成模型，从而提高集成模型的准确度；通过度量某个模型集合对一组已标注数据的适用程度，对已有的模型集合做筛选，得到一个更优的子集；将最终保留的模型集合集成起来，形成最终的集成模型。本发明还公开了一种综合了主动学习技术和模型剪枝技术的集成学习装置。本发明不仅可以利用未标注数据，还降低了人工标注成本，同时降低了集成模型的复杂度，提高了集成模型的性能。

Description

一种基于主动学习和模型剪枝的集成学习方法及装置

技术领域

本发明属于机器学习中的集成学习领域，尤其涉及机器学习中的主动学习和集成学习中的模型剪枝方法及装置。

背景技术

主动学习：

机器学习方法正在取得越来越广泛的应用，并深刻的影响着人们的日常生活。

目前，机器学习中普遍存在的一个问题是标准答案获取成本高。尽管随着大数据时代的到来，数据量变得越来越庞大，然而这些数据大多是原始的、粗糙的、没有经过人工标记的，例如网络上大量的图片数据，并没有被标记上图片的主题、包含人的数量等信息，而这些信息对于机器学习而言是十分宝贵的。不使用标准答案的机器学习方法称为“无监督学习”，相应的，使用标准答案的方法称为“有监督学习”。通常，有监督学习比无监督学习的效果要好很多。

主动学习技术就是为了应对这种情况而提出来的。这种技术利用一些标准对输入的未标记样本进行判断，如果判断此样本包含的信息量比较大，可以有效的训练机器学习模型，那么就将此样本交给人类来进行标注，然后使用标注后的样本训练机器学习模型。这样，随着一个一个的样本被标注和加入训练集合，机器学习模型可以很快的达到较为理想的水平。有研究表明，达到同样的学习效果，主动学习可以比传统方法少用90％的样本数量。

然而，当前的主动学习技术对样本有效性的判断还存在一定的问题，很多情况下，选择出来用以训练机器学习模型的样本，并不是候选样本中最好的，从而限制了训练后的机器学习模型的效果。

集成学习：

在众多的机器学习方法中，集成学习是最为成功的一类方法，其中随机森林、梯度提升(gradient boosting)等方法是集成学习的典型代表。集成学习的基本想法是组合众多基本的机器学习模型的结果，以达到提升学习效果的目的。

集成学习方法主要包含三个部分：模型的生成，模型的剪枝，模型的集成。

模型的生成需要完成基分类器的训练任务。对于输入的训练数据集，训练出若干个不同的机器学习模型，且这些模型可以各自对输入样本进行预测。

模型的剪枝需要完成冗余模型的删减任务。由于模型生成时十分容易造成冗余和相关，因此对这些模型进行删减十分重要。已有研究表明，使用合适的剪枝方法可以提高集成学习的学习效果。

模型的集成需要对删减后的模型进行集成。目前集成方法比较多，常用的有投票法、加权平均法等。

无论在理论还是实践方面，集成学习都已经被证明可以达到比单个机器学习模型更好的水平，并且学习效果随着集成的模型数目的增多而变得更好。然而，在实际应用中，集成太多的模型会导致速度变慢，性能降低，并且对硬件要求也更高。因此，模型的剪枝是一个相当重要的环节。

简单的根据模型的准确率进行选择已被证明是效果不佳的，因为会留下许多相似的或相关的模型。当前的模型剪枝方法，大多着眼于模型的多样性，即尽量留下互相之间不相似的模型。但是，过于强调多样性也会导致集成后的效果一般。

发明内容

基于上述关于主动学习技术和集成学习技术的情况，提出了一种适用于集成学习情况下的主动学习方法。

一种适用于集成学习情况下的主动学习方法，包括：

接收一组未标记的样本集合，以及一组使用少量有标记数据训练好的机器学习模型；

将未标记样本集合内的样本逐个输入模型集合，得到每个模型对该样本的预测值；

对每个样本，根据得到的一组预测值，计算其平均预测值然后根据如下公式计算其多样性或者称为适用程度：

此公式来源于集成学习中的泛化误差分解理论，在二分类问题中，如果使用逻辑回归损失(logistic loss)来度量分类效果的好坏，那么此公式度量的就是一组机器学习模型的“歧义度”(Ambiguity)，因此也被广泛接受为多样性的度量。

从所有未标记样本中，选出适用程度最高的若干个(记为N个)样本，请求人工标注；

标注完成后，将此N个样本加入已标注的样本集合，并重新训练模型集合；

此过程不断重复，直到学习效果无法继续提高为止。

基于上述关于模型剪枝技术的情况，提供了一种模型剪枝方法。

一种模型剪枝方法，包括：

接收一组已标记的样本集合作为验证集，以及一组训练好的机器学习模型；

从这组模型中，选择效果最好的模型作为第一个被选出来的模型，组成留用集合，其他模型组成候选集合；

从候选集合中，每轮选出一个模型，加入留用集合，选择的标准是：将该候选模型与留用集合组合得到测试模型集合，对验证集中的每个样本，设其标准答案为y，这组模型的预测值的平均为使用下式计算当前测试模型集合对该样本的适用程度：

此公式同样来源于集成学习中的泛化误差分解理论，在样本标记为1和-1的二分类问题中，如果使用逻辑回归损失来度量分类效果的好坏，那么此公式分子部分度量的就是一组机器学习模型的平均准确度，分母部分度量的是一组模型的相似性，二者之比最大时，就是多样性最大同时平均误差最低的情况，因此可以作为模型集合对样本的适用程度。对验证集中所有样本的适用程度求和，就得到综合适用程度。将综合适用程度最大的模型选择出来，加入留用集合；

重复上述过程，直到留用集合在验证集上的误差不能再继续降低为止。

综合主动学习技术和模型剪枝技术，提供了一种集成学习方法。

一种集成学习方法，包括：

接收一组未标记的样本集合，一组数量较少的已标记的样本集合；

使用已标记样本集合训练一组机器学习模型；

利用前面所述主动学习方法，不断地自动从未标记样本集合中选择关键样本，交给人工标注，从而提高已训练的机器学习模型的准确度；

利用前面所述模型剪枝方法，对得到的模型集合做进一步的筛选；

将筛选后的模型集合集成起来，作为最终的机器学习模型。

综合主动学习技术和模型剪枝技术，提供了一种集成学习装置。

一种集成学习装置，包括：

样本集输入模块，用于接收输入的未标记样本集合，以及包含较少样本的已标记样本集合；

基本机器学习模型的训练模块，用于利用已标记样本集合来训练基本的机器学习模型集合；

基本机器学习模型的主动学习模块，用于利用前面所述主动学习方法，不断地自动从未标记样本集合中选择关键样本，交给人工标注，从而提高已训练的机器学习模型的准确度；

模型集合的剪枝模块，用于利用前面所述模型剪枝方法，对得到的模型集合做进一步的筛选；

模型的集成模块，用来将筛选后的模型集合集成起来，对新输入的样本作出预测，并输出预测值。

实施本发明实施例，将具有如下有益效果：

该主动学习方法使用了一种新的度量样本适用程度的标准，可以有效的筛选出最适合当前模型集合的样本，减少了需要人工标注的样本数量，节约了人工标注的成本。

该模型剪枝方法可以在不降低甚至提高集成模型的效果的情况下，显著减少最终模型集合所包含的模型数量，从而提高了集成模型的性能。

该基于主动学习和模型剪枝的集成方法和装置仅需要人工标注少量未标记样本，与传统集成方法相比，所需要的人工标注成本显著降低，且性能比简单集成方法更高。

附图说明

下面结合附图和实施例对本发明进一步说明。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中一种主动学习方法的流程图；

图2为一个实施例中一种模型剪枝方法的流程图；

图3为一个实施例中一种基于主动学习和模型剪枝的集成学习方法的流程图；

图4为一个实施例中一种基于主动学习和模型剪枝的集成学习装置的示意图；

图5为本发明所述综合主动学习技术和模型剪枝技术的集成学习方法的流程图。

具体实施方式

以下结合附图对本发明的原理和性质进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种主动学习方法，如图1所示，详细过程如下：

1)如图步骤S101，接收一组未标记的样本集合，以及一组已使用少量有标记数据训练好的机器学习模型；

2)如图步骤S102，对未标记样本集合内的每个样本，逐个输入模型集合中的每个模型，得到每个模型对该样本的预测值，这样每个样本可以得到一组预测值；

3)如图步骤S103，对每个样本，将上一步得到的一组预测值进行平均，得到然后根据如下公式计算其多样性或者称为适用程度：

4)如图步骤S104，从所有未标记样本中，选出适用程度最高的N个样本，请求人工标注；

5)如图步骤S105，标注完成后，将这N个样本加入已标注的样本集合，并重新训练模型集合；

6)如图步骤S106，判断重新训练后的模型集合的学习效果是否在继续提高，如果还在提高，那么重复步骤S102、S103、S104、S105，否则进入下一步；

7)如图步骤S107，输出训练后的模型集合。

本发明提供一种模型剪枝方法，如图2所示，详细过程如下：

1)如图步骤S201，接收一组已标记的样本集合作为验证集，以及一组训练好的机器学习模型；

2)如图步骤S202，从这组模型中，选择效果最好的模型作为第一个被选出来的模型，组成留用集合，其他模型组成候选集合；

3)如图步骤S203，从候选集合中，每轮筛选出一个模型，加入留用集合，选择的标准是：将每个候选模型依次与留用集合组合得到相应的测试模型集合，对验证集中的每个样本，设其标准答案为y，这组模型的预测值的平均为使用下式计算当前测试模型集合对该样本的适用程度：

然后对验证集中所有样本的适用程度求和，得到每个候选模型对应的测试模型集合的综合适用程度。将综合适用程度最大的测试模型集合所对应的候选模型选择出来，加入留用集合；

4)如图步骤S204，判断留用集合的学习效果是否在继续提高，如果还在提高，那么重复步骤S203，否则进入下一步；

5)如图步骤S205，输出最终保留的留用集合。

综合主动学习技术和模型剪枝技术，本发明提供了一种集成学习方法，如图3所示，详细过程如下：

1)如图步骤S301，接收一组未标记的样本集合，一组数量较少的已标记的样本集合；

2)如图步骤S302，使用已标记样本集合训练一组机器学习模型，这里具体使用哪些机器学习模型不受限制。由于已标记样本集合包含样本数量较少，故在此训练出来的模型效果和集成后的效果都会比较一般，通过后面几步，将使集成模型的效果得到提升；

3)如图步骤S303，利用前面所述主动学习方法，自动从未标记样本集合中选择关键样本，交给人工标注，并重新训练模型，从而提高已训练的机器学习模型集合的准确度；

4)如图步骤S304，利用前面所述模型剪枝方法，对得到的模型集合做进一步的筛选；

5)如图步骤S305，将筛选后的模型集合集成起来，作为最终的机器学习模型。这里集成方法不受限制，可以使用包括投票法、加权平均法等各种集成方法。

此外，本发明提供一种集成学习装置，如图4所示，包括五个模块：样本集输入模块101、基本机器学习模型的训练模块102、基本机器学习模型的主动学习模块103、模型集合的剪枝模块104和模型的集成模块105，其中：

样本集输入模块101，用于接收输入的未标记样本集合，以及包含较少样本的已标记样本集合；

基本机器学习模型的训练模块102，用于利用已标记样本集合来训练基本的机器学习模型集合；

基本机器学习模型的主动学习模块103，用于利用前面所述主动学习方法，不断地自动从未标记样本集合中选择关键样本，交给人工标注，从而提高已训练的机器学习模型的准确度；

模型集合的剪枝模块104，用于利用前面所述模型剪枝方法，对得到的模型集合做进一步的筛选；

模型的集成模块105，用来将筛选后的模型集合集成起来，对新输入的样本作出预测，并输出预测值。

在本实施例中，基本机器学习模型的主动学习模块103还用于度量每个未标记样本对模型集合的适用程度，并交给人工标注。

在本实施例中，模型集合的剪枝模块104还用于度量一组模型集合对一组已标记样本集合的适用程度，并指导模型剪枝。

采用了上述综合了主动学习技术和模型剪枝技术的集成学习方法及装置之后，不仅可以以很少的人工标注成本得到理想的学习效果，还能够降低最终集成模型的复杂度，从而提高集成学习性能。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种综合主动学习技术和模型剪枝技术的集成学习方法，其特征在于，所述方法包括：

利用一组未标记的样本集合和一组已标记的样本集合作为输入；

利用已标记样本集合训练基本的机器学习模型集合；

利用主动学习方法提高已训练的机器学习模型集合的准确度；

利用模型剪枝方法，对模型集合进行筛选；

集成筛选后的模型集合，作为最终的机器学习模型。

2.根据权利要求1所述的方法，其特征在于，所述主动学习方法，包括：

利用一组未标记样本，得到模型集合中每个模型对每个样本的预测值；

对每个未标记样本，利用模型集合预测出的一组预测值的平均值计算该样本对模型集合的适用程度；

使用人工标注所有未标记样本中适用程度最高的N个样本，其中N为预先指定的值；

利用标注后的这N个样本重新训练模型集合；

不断重复，直到学习效果无法继续提高为止。

3.根据权利要求2所述的方法，其特征在于，所述计算每个样本对模型集合的适用程度，包括：

对某个样本，记各模型预测值的平均值为依下式计算样本对模型集合的适用程度：

a = - l o g (e^{\overset{&OverBar;}{f} / 2} + e^{- \overset{&OverBar;}{f} / 2})

4.根据权利要求1所述的方法，其特征在于，所述模型剪枝方法，包括：

使用一组已标记的样本集合以及一组训练好的机器学习模型作为输入；

初始化模型集合，只包含单独使用效果最好的模型；

依次加入对当前已选模型集合适用程度最高的模型；

不断重复，直到学习效果无法继续提高为止。

5.根据权利要求4所述的方法，其特征在于，所述适用程度的计算方法，包括：

设某样本标准答案为y，其预测值的平均为依下式计算模型集合对该样本的适用程度：

\frac{y \overset{&OverBar;}{f}}{l o g (e^{\overset{&OverBar;}{f} / 2} + e^{- \overset{&OverBar;}{f} / 2})}

对样本集合中所有样本的适用程度求和，即得到模型集合对样本集合的适用程度。

6.根据权利要求1所述的方法，其特征在于，所述模型集合的集成方法，包括：

可使用包括投票法、加权平均法、元学习法等诸多方法进行集成。

7.一种综合主动学习技术和模型剪枝技术的集成学习装置，其特征在于，包括：

样本集输入模块，用于接收输入的未标记和已标记样本集合；

训练模块，用于利用已标记样本集合来训练基本的机器学习模型集合；

主动学习模块，用于利用主动学习方法提高已训练的模型集合的准确度；

剪枝模块，用于利用模型剪枝方法，对得到的模型集合进行筛选；

集成模块，用于集成筛选后的模型集合，对新输入的样本作出预测，并输出预测值。

8.根据权利要求6所述的综合主动学习技术和模型剪枝技术的集成学习装置，其特征在于，所述主动学习模块包括在所述主动学习方法中，利用一组未标记样本得到模型集合中每个模型对每个样本的预测值，然后利用预测值的平均值计算样本对模型集合的适用程度，并使用人工标注所有未标记样本中适用程度最高的样本，不断重复，直到学习效果无法继续提高为止。

9.根据权利要求6所述的综合主动学习技术和模型剪枝技术的集成学习装置，其特征在于，所述主动学习模块包括利用下式计算样本对模型集合的适用程度：其中为预测值的平均值。

10.根据权利要求6所述的综合主动学习技术和模型剪枝技术的集成学习装置，其特征在于，所述剪枝模块包括在所述模型剪枝方法中，使用一组已标记的样本集合以及一组训练好的机器学习模型作为输入，然后从某个模型出发，依次加入对当前已选模型集合适用程度最高的模型，不断重复，直到学习效果无法继续提高为止。

11.根据权利要求6所述的综合主动学习技术和模型剪枝技术的集成学习装置，其特征在于，所述剪枝模块包括利用下式计算模型集合对样本的适用程度：其中为预测值的平均值。

12.根据权利要求6所述的综合主动学习技术和模型剪枝技术的集成学习装置，其特征在于，所述集成模块包括在所述集成方法中，可使用包括投票法、加权平均法、元学习法等诸多方法进行集成。