CN109299162A

CN109299162A - 一种用于正类和无标记数据分类的主动学习方法

Info

Publication number: CN109299162A
Application number: CN201811322266.2A
Authority: CN
Inventors: 黄圣君; 蔡佳佳
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-02-01

Abstract

本发明公开了一种用于正类和无标记数据分类的主动学习方法，将主动学习应用于正类无标记数据分类问题，在无偏风险估计PU分类算法的基础之上，通过挑选能够使估计风险值减小最多的样本来进行查询，尽可能地增加潜在收益较大的正类样本，花费较少的标注代价，有效地提升PU分类算法的性能。

Description

一种用于正类和无标记数据分类的主动学习方法

技术领域

本发明属于机器学习技术领域，具体涉及一种用于正类和无标记数据分类的主动学习方法。

背景技术

在现实应用中往往能很容易地收集到大量的无标记数据，但是对这些数据进行标注却极其耗费人力、物力和财力。例如在进行医学影像诊断时，可以从医院的数据库中获取到大量的医学影像数据，但是对这些图像进行标注不仅需要专业医学从业者的参与，而且耗时耗力。半监督学习旨在充分利用未标记数据来提升学习性能，以减少数据标注代价。PULearning是半监督学习的一种特殊情形。PU Learning假定我们面对的数据中，只有少量的正类样本被标记出来，构成集合P(Positive)，剩下所有的未标记数据构成集合U(Unlabeled)。在没有负类样本的情形下，常规的基于二分类的半监督学习算法无法胜任，因此需要设计特殊的算法来处理这样的数据。由此而衍生出了PU Learning这样一种学习框架，仅利用已有的正类和无标记数据来训练二分类学习器。

PU Learning在现实应用中经常见到，例如在分子生物学中，要将某些具有特定功能的蛋白质标注出来。只有当某些特定的行为被观察到时，才对蛋白质进行标注，但是这并不意味着那些未标记的蛋白质没有此功能。再比如在商品推荐时，购买过或是浏览过某商品的顾客被标注为正类，但是未标记的顾客同样存在购买此商品的可能。目前比较流行的PU分类算法通过最小化无偏估计风险来训练分类器，但是这种PU学习框架如果要获得到比较好的分类结果，需要有相当数量的正类样本。倘若正类样本有限，PU学习算法的性能会大打折扣。但在PU学习问题中，数据的标注代价往往是相当大的，正类样本获取较为困难。

发明内容

发明目的：针对上述现有技术，提出一种用于正类和无标记数据分类的主动学习方法，以尽可能少的标注代价，增加对训练分类器最有用的正类样本，提升PU分类器的性能。

技术方案：一种用于正类和无标记数据分类的主动学习方法，包括以下步骤：

步骤1：利用已有的正类数据集合P和无标记数据集合U，通过最小化无偏估计风险，训练初始PU分类模型，并指定初始样本选择池S＝U；

步骤2：在样本选择池S中选择能够使期望误差减少最多的样本进行标注；

步骤3：根据步骤2的标注结果更新正类数据集合P和样本选择池S；

步骤4：重新训练PU分类模型；

步骤5：若满足训练终止条件，保留当前分类模型，训练停止；否则返回步骤2。

进一步的，所述步骤1中，训练初始PU分类模型包括如下步骤：

假设分类模型为为原始特征空间到希尔伯特空间的映射，w为模型参数；上标T表示转置；假设已有n_P个正类样本和n_U个无标记样本，用正类和无标记样本来估计负类误差

其中，π为正类先验；l为平方损失函数，z表示函数变量；x_i表示样本，λ为正则化项参数；

将分类模型并进行向量化，得到：

假设选定的核函数为k，则有将所有的样本两两代入核函数k中，得到核矩阵K；Φ_P和Φ_U为核矩阵K的子矩阵，分别表示正类和无标记数据在核矩阵K中所对应的行；A为全1的列向量；

求解上式的最小值得到模型参数w：

其中，I为单位矩阵。

进一步的，所述步骤2包括如下步骤：

步骤201：初始化中间变量t＝0，r^t＝1×10⁵，τ＝1×10^-5，设定查询样本数量b；其中t表示循环轮数，r^t表示在t轮得到的模型的估计分类误差，τ为收敛判断值；

步骤202：设要求的样本选择权重向量为q，固定当前的模型参数w，求解以下公式得到q的值：

q^TA＝b

其中，q_i表示向量q的第i个分量；

步骤203：将q中的元素从大到小排序，取前b个元素所对应的样本，记为集合Q^t，并赋予样本伪标记为+1；

步骤204：更新伪正类集合

步骤205：利用集合和U，更新模型参数w：

步骤206：计算当前模型的估计经验风险r^t+1：

其中，l₀₁(z)为0-1损失函数：

步骤207：如果|r^t-r^t+1|≤τ，返回Q＝Q^t为选中的查询样本，结束循环；否则，t＝t+1，返回步骤202。

进一步的，所述步骤3包括如下步骤：

由专家或用户对选中的查询样本集合Q进行标注，如果标注结果为1，则将样本放入正类数据集合P，从样本选择池S中将选到的查询样本移除。

进一步的，所述步骤5中训练终止条件为达到最大循环次数或分类模型在测试数据集上的预测结果满足精度要求。

有益效果：本发明提供的基于正类和无标记数据的主动选择方法，结合机器学习中的PU学习和主动学习技术，提出了一种有效的样本选择机制，能够在不增加用户标注代价的同时，优先选择那些对训练PU分类器最有帮助的样本来进行标注。具体地，在PU学习中，取决定性因素的是那些正类样本，因为要利用这些正类样本来估计未知的负类分类误差。因此，如果查询样本中有尽可能多的正类，且能够降低估计经验风险，那么理论上来说会提高分类器的泛化性能。本发明在选择查询样本时，通过最小化估计经验风险，迭代的求解每个样本的选择权重，对模型最优时选择权重最大的样本进行标注，以此来增加对模型性能提升最有用的样本。

附图说明

图1为本发明流程图；

图2为训练PU分类模型的示意图；

图3为选择查询样本的流程图。

具体实施方式

下面结合附图对本发明做更进一步的解释。

如图1所示为本发明的流程图。假设训练数据由两部分组成，一部分是已经标注过的正类数据，假设共有n_P个正类样本，用P表示；另一部分是未经标注的无标记数据，假设共有n_U个无标记样本，记为集合U；每次样本选择池S中选取查询样本，S是U的子集，且初始样本选择池S＝U。

首先，利用已有的正类数据集合P和无标记数据集合U，通过最小化无偏估计风险，训练初始PU分类模型，训练算法的具体过程详见图2。

然后，判断是否达到停止条件。停止条件是人为设定的，如在测试集上是否达到所需的精度或是设一个最大循环次数。如果达到停止条件，就将当前的分类器作为最优分类器；否则，就从样本选择池S中选取一批查询样本，交给专家或用户进行标注，从集合S中将选到的查询样本移除，即S＝S\Q。查询样本的选择方法详见图3。

接着，将专家或用户标注为正类的样本，即标注结果为1的样本放入正类数据集合P。再依据新的集合P和集合U训练新的分类模型，从而进入新一轮的循环。

如图2所示，通过最小化训练数据上的正则化估计期望误差得到模型的参数。具体来说，在传统的二分类情况下，假设已有n_P个正类样本和n_N个负类样本。假设分类模型为为原始特征空间到希尔伯特空间的映射，w为模型参数；上标T表示转置。通过最小化正则化估计期望误差R(f)来求解模型参数w：

其中，假定正类先验π是已知的，l为平方损失函数，x_i表示样本，λ为正则化项参数。

在PU分类问题中，假设已有n_P个正类样本和n_U个无标记样本。由于标记数据中不存在负类样本，这里用正类和未标记数据来估计负类误差

本发明中使用的l为平方损失函数z表示函数变量。那么l(f(x))-l(-f(x))＝-f(x)，则上式化简为：

将代入上式，并进行向量化，得到：

假设选定的核函数为k，则有那么对于所有的样本两两代入核函数k中，就可以得到一个核矩阵K。上式中，Φ_P和Φ_U为核矩阵K的子矩阵，分别表示正类和无标记数据在核矩阵K中所对应的行；A为全1的列向量。

求解上式的最小值得到模型参数w：

其中，I为单位矩阵。

如图3所示，查询样本的选择方法包括如下步骤：

步骤201：初始化中间变量t＝0，r^t＝1×10⁵，τ＝1×10^-5，设定查询样本数量b；其中t表示循环轮数，r^t在t轮得到的模型的估计分类误差，τ为收敛判断值；

步骤202：固定当前的模型参数w，求解当前模型下样本的选择权重向量q的值：

q^TA＝b

步骤203：对q中的元素从大到小排序，取前b个元素所对应的样本，记为集合Q^t，并赋予其伪标记为+1；

步骤204：更新伪正类集合

步骤205：利用集合和U，按照以下公式最小化估计经验风险，更新模型参数w：

步骤206：计算当前模型的估计经验风险r^t+1：

其中，l₀₁(z)为0-1损失函数，

步骤207：如果|r^t-r^t+1|≤τ，估计经验风险已经收敛到最小值，可以认为此时的模型是最优模型。也就是说，通过将Q^t加入训练集合使得模型最优。此时，返回Q＝Q^t为选中的查询样本，结束循环；否则，t＝t+1，返回步骤202。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于正类和无标记数据分类的主动学习方法，其特征在于，包括以下步骤：

步骤4：重新训练PU分类模型；

2.根据权利要求1所述的用于正类和无标记数据分类的主动学习方法，其特征在于，所述步骤1中，训练初始PU分类模型包括如下步骤：

将分类模型代入并进行向量化，得到：

求解上式的最小值得到模型参数w：

其中，I为单位矩阵。

3.根据权利要求2所述的用于正类和无标记数据分类的主动学习方法，其特征在于，所述步骤2包括如下步骤：

q^TA＝b

其中，q_i表示向量q的第i个分量；

步骤204：更新伪正类集合

步骤205：利用集合和U，更新模型参数w：

步骤206：计算当前模型的估计经验风险r^t+1：

其中，l₀₁(z)为0-1损失函数：

4.根据权利要求2所述的用于正类和无标记数据分类的主动学习方法，其特征在于，所述步骤3包括如下步骤：

5.根据权利要求1-4任一所述的用于正类和无标记数据分类的主动学习方法，其特征在于，所述步骤5中训练终止条件为达到最大循环次数或分类模型在测试数据集上的预测结果满足精度要求。