CN111488994A

CN111488994A - 正样本学习模型评估方法及装置

Info

Publication number: CN111488994A
Application number: CN202010143387.1A
Authority: CN
Inventors: 李丹; 蒋藜薇; 王启圣
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2020-08-04

Abstract

本发明实施例提供一种正样本学习模型评估方法及装置，所述方法包括：利用待评估模型对PU测试集进行打分，获取打分结果；其中，所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率；所述PU测试集包含有观察到正样本和收集到的无标签样本；根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值。本发明实施例在难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件下，能够对正样本学习模型进行评估，解决正样本学习下模型评估的困难。

Description

正样本学习模型评估方法及装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种正样本学习模型评估方法及装置。

背景技术

随着各行业对数据分析需求的持续增加，通过机器学习高效地获取知识，已逐渐成为当今机器学习技术发展的主要推动力，其中正样本学习是一种只使用正样本和无标签样本来训练二分类器的学习方法，它被广泛应用在很多领域：如信用卡欺诈，网络运维和购物推荐等。在机器学习任务中，模型评估起着非常重要的作用，因为它可以表征模型训练的效果且可以在许多候选模型中挑选一个最佳的模型。在正样本学习场景下，一份完全标注的正负样本数据集通常是难以获得的，这造成常用的模型评估指标(如模型评估指标AUC)都难以应用在正样本学习场景中。

现有的正样本学习研究中的模型评估方式，要么使用一份全标注的数据集，要么需要获得无标签样本中类别比例的先验知识，这在正样本学习场景中是很难获得的。

因此，如何提出一种方法，在难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件下，能够对正样本学习模型进行评估，成为亟待解决的问题。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种正样本学习模型评估方法及装置。

第一方面，本发明实施例提供一种正样本学习模型评估方法，包括：

利用待评估模型对PU测试集进行打分，获取打分结果；其中，所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率；所述PU测试集包含有观察到正样本和收集到的无标签样本；

根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值。

优选地，还包括：利用所述PU测试集的AUL值对所述待评估模型进行评估。

优选地，所述根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值，具体包括：

根据待评估模型对PU测试集的打分结果，以及，判断阈值，确定所述PU测试集中观察到正样本被预测为正的第一样本数量；

以所述判断阈值为自变量，建立所述第一样本数量与所述判断阈值之间的第一函数关系；

根据所述第一函数关系和所述PU测试集的召回率模型，确定召回率与判断阈值的第二函数关系；其中，所述PU测试集的召回率模型为：召回率＝第一样本数量/观察到正样本的数量；

根据所述第二函数关系，将召回率在判断阈值位于区间[0,1]上的积分，作为所述PU测试集的AUL值。

优选地，所述根据待评估模型对PU测试集的打分结果，以及，判断阈值，确定所述PU测试集中观察到正样本被预测为正的第一样本数量，具体包括：

根据待评估模型对PU测试集的打分结果，以及，判断阈值，将打分结果大于或等于判断阈值的样本预测为正，将打分结果小于判断阈值的样本预测为负；

确定所述PU测试集中观察到正样本被预测为正的第一样本数量。

第二方面，本发明实施例提供一种正样本学习模型评估装置，包括：

打分单元，用于利用待评估模型对PU测试集进行打分，获取打分结果；其中，所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率；所述PU测试集包含有观察到正样本和收集到的无标签样本；

计算单元，用于根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值。

优选地，还包括：

评估单元，用于利用所述PU测试集的AUL值对所述待评估模型进行评估。

优选地，所述计算单元，用于根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值，具体包括：

优选地，所述计算单元，用于根据待评估模型对PU测试集的打分结果，以及，判断阈值，确定所述PU测试集中观察到正样本被预测为正的第一样本数量，具体包括：

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述第一方面正样本学习模型评估方法的各个步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述第一方面正样本学习模型评估方法的各个步骤。

本发明实施例提供的正样本学习模型评估方法及装置，通过利用待评估模型对PU测试集进行打分，获取所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率，并根据所述条件概率，确定待评估模型的评估指标AUL值，从而实现在难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件下，能够对正样本学习模型进行评估，解决正样本学习下模型评估的困难。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中正样本学习模型评估方法的流程示意图；

图2为本发明实施例中待测模型评估指标AUL估计值计算示意图；

图3为本发明实施例中正样本学习模型评估装置的结构示意图；

图4为本发明实施例中电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例中正样本学习模型评估方法的流程示意图，如图1所示，本发明实施例提供的一种正样本学习模型评估方法，包括：

步骤110、利用待评估模型对PU测试集进行打分，获取打分结果；其中，所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率；所述PU测试集包含有观察到正样本和收集到的无标签样本；

步骤120、根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值。

具体地，对于正样本学习，难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件，只能获得PU测试集，其中所述PU测试集中包含有观察到正样本和收集到的无标签样本，其中无标签样本中可能包含未被观察到的正样本和负样本。在此条件下，待评估的正样本模型会对所述PU测试集进行打分，获取打分结果，其中所述打分结果为测试集中每个样本被待评估正样本模型判断成正样本的条件概率，然后根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值，其中AUL为正样本模型的评估指标。

本发明实施例提供的正样本学习模型评估方法，通过利用待评估模型对PU测试集进行打分，获取所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率，并根据所述条件概率，确定待评估模型的评估指标AUL值，从而实现在难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件下，能够对正样本学习模型进行评估，解决正样本学习下模型评估的困难。

基于上述实施例的内容，作为一种可选实施例，所述正样本学习模型评估方法还包括：

利用所述PU测试集的AUL值对所述待评估模型进行评估。

具体地，AUL是模型评估指标，是提升度曲线(Lift Curve)与坐标轴围成的面积，而提升度曲线是ROC(Receiver Operating Characteristic curve)曲线的一种变体。AUL值作为一个数值可以直观的评价模型的好坏，AUL值越大，代表待评估模型的性能越好。

本发明实施例提供的正样本学习模型评估方法，通过利用PU测试集的AUL值对正样本学习模型进行评估，能够更直观的评价正样本学习模型的性能。

基于上述实施例的内容，作为一种可选实施例，所述根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值，具体包括：

具体地，根据PU测试集中每个样本对应的打分结果由高到低对样本进行排序，接下来，依次将每个样本对应的打分结果作为一个判断阈值q，将判断阈值q分别与PU测试集中每个样本对应的打分结果进行比较，从中确定所述PU测试集中观察到正样本被预测为正的第一样本数量；PU测试集包含观察到正样本和收集到的未标签样本，其中，观察到正样本中有一部分会被预测为正，另一部分会被预测为负；而收集到的未标签样本中包含有未标签的正样本和未标签的负样本，这些样本同样会有一部分会被预测为正，另一部分会被预测为负。而第一样本数量需要获取的是观察到正样本被预测为正的样本数量，另外，随着判断阈值q的设置不同，所述PU测试集中观察到正样本被预测为正的第一样本数量也会不同，也就是所述第一样本数量与所述判断阈值q之间存在第一函数关系。

同时，由于PU测试集中包含有观察到正样本和收集到的无标签样本，所以定义PU测试集的召回率模型为：召回率＝第一样本数量/观察到正样本的数量，可以表示为recall(q)；其中，所述第一样本数量指PU测试集观察到的正样本中被待评估模型预测为正的样本数量，所述观察到正样本的数量指PU测试集中观察到的正样本数量，也就是PU测试集上的召回率只考虑被观察到正样本的情况。由于随着判断阈值q的设置不同，第一样本数量会不同，因此所述召回率也会随着判断阈值q的设置不同而发生变化。

根据所述第一函数关系和所述PU测试集的召回率模型，确定召回率与判断阈值的第二函数关系，所述第二函数关系曲线为以判断阈值q为横坐标，以所述PU测试集的召回率模型recall(q)为纵坐标，画得的各点的连线即为提升度曲线，也就是第二函数关系曲线。

图2为本发明实施例中待测模型评估指标AUL估计值计算示意图，如图2所示，根据所述第一函数关系，将召回率recall(q)在判断阈值位于区间[0,1]上的积分，作为所述PU测试集的AUL值，所述AUL值即为所述提升度曲线与坐标轴围成的面积。

本发明实施例提供的正样本学习模型评估方法，通过根据待评估模型对PU测试集的打分结果，确定PU测试集的AUL值，不需要获取完全标注的测试集或者或者较多无标签样本的先验知识，而只需要获取PU测试集，能够实现对正样本学习模型进行评估。

基于上述实施例的内容，作为一种可选实施例，所述根据待评估模型对PU测试集的打分结果，以及，判断阈值，确定所述PU测试集中观察到正样本被预测为正的第一样本数量，具体包括：

具体地，根据PU测试集中每个样本对应的打分结果由高到低对样本进行排序，接下来，依次将每个样本对应的打分结果作为一个判断阈值q，将判断阈值q分别与PU测试集中每个样本对应的打分结果进行比较，若样本对应的打分结果大于或等于判断阈值q，则待评估模型对它的预测是正，若样本对应的打分结果小于判断阈值q，则待评估模型对它的预测是负。根据模型的预测结果，确定所述PU测试集中观察到正样本被待评估模型预测为正的样本数量，即为第一样本数量。

另外，根据表1所示的AUL值与AUC值模型评估对比表，在公开数据集上，将本发明实施例提出的正样本学习模型评估方法对不同的模型进行评估，其评估结果与常用的模型评估指标AUC(Area Under Curve)在完全标注的测试集(即PN数据集)上给出的结果，在评价任意两个模型的相对好坏的结论是一致的。

表1

本发明实施例提供的正样本学习模型评估方法，通过根据待评估模型对PU测试集的打分结果，以及，判断阈值，确定所述PU测试集中观察到正样本被预测为正的第一样本数量，不需要获取完全标注的测试集或者较多无标签样本的先验知识，而只需要考虑观察到正样本情况，能够实现对正样本学习模型进行评估。

图3为本发明实施例中正样本学习模型评估装置的结构示意图，如图3所示，本发明实施例提供的一种正样本学习模型评估装置，包括：

打分单元310，用于利用待评估模型对PU测试集进行打分，获取打分结果；其中，所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率；所述PU测试集包含有观察到正样本和收集到的无标签样本；

计算单元320，用于根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值。

具体地，对于正样本学习，难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件，只能获得PU测试集，其中所述PU测试集中包含有观察到正样本和收集到的无标签样本，其中无标签样本中可能包含未被观察到的正样本和负样本。在此条件下，打分单元310中待评估的正样本模型会对所述PU测试集进行打分，获取打分结果，其中所述打分结果为测试集中每个样本被待评估正样本模型判断成正样本的条件概率，然后计算单元320根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值，其中AUL为正样本模型的评估指标。

本发明实施例提供的正样本学习模型评估装置用于执行上述正样本学习模型评估方法,其具体的实施方式与方法实施方式一致,此处不再赘述。

本发明实施例提供的正样本学习模型评估装置，通过打分单元对待评估模型对PU测试集进行打分，获取所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率，并根据所述条件概率，计算单元确定待评估模型的评估指标AUL值，从而实现在难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件下，能够对正样本学习模型进行评估，解决正样本学习下模型评估的困难。

基于上述实施例的内容，作为一种可选实施例，所述正样本学习模型评估装置还包括：

具体地，AUL是模型评估指标，是提升度曲线(Lift Curve)与坐标轴围成的面积，而提升度曲线是ROC(Receiver Operating Characteristic curve)曲线的一种变体。AUL值作为一个数值可以直观的评价模型的好坏，AUL值越大，代表待评估模型的性能越好，因此，评估单元根据AUL值可以对待评估模型进行评估。

本发明实施例提供的正样本学习模型评估装置，通过设置评估单元，用于利用PU测试集的AUL值对正样本学习模型进行评估，能够更直观的评价正样本学习模型的性能。

基于上述实施例的内容，作为一种可选实施例，所述计算单元320，用于根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值，具体包括：

计算单元320根据所述第一函数关系，将召回率在判断阈值位于区间[0,1]上的积分，作为所述PU测试集的AUL值，所述AUL值即为所述提升度曲线与坐标轴围成的面积。

本发明实施例提供的正样本学习模型评估装置，通过根据待评估模型对PU测试集的打分结果，确定PU测试集的AUL值，不需要获取完全标注的测试集或者或者较多无标签样本的先验知识，而只需要获取PU测试集，能够实现对正样本学习模型进行评估。

基于上述实施例的内容，作为一种可选实施例，所述计算单元320，用于根据待评估模型对PU测试集的打分结果，以及，判断阈值，确定所述PU测试集中观察到正样本被预测为正的第一样本数量，具体包括：

具体地，根据PU测试集中每个样本对应的打分结果由高到低对样本进行排序，接下来，依次将每个样本对应的打分结果作为一个判断阈值q，将判断阈值q分别与PU测试集中每个样本对应的打分结果进行比较，若样本对应的打分结果大于或等于判断阈值q，则待评估模型对它的预测是正，若样本对应的打分结果小于判断阈值q，则待评估模型对它的预测是负。计算单元320根据模型的预测结果，确定所述PU测试集中观察到正样本被待评估模型预测为正的样本数量，即为第一样本数量。

本发明实施例提供的正样本学习模型评估装置，通过根据待评估模型对PU测试集的打分结果，以及，判断阈值，确定所述PU测试集中观察到正样本被预测为正的第一样本数量，不需要获取完全标注的测试集或者较多无标签样本的先验知识，而只需要考虑观察到正样本情况，能够实现对正样本学习模型进行评估。

图4为本发明实施例中电子设备的实体结构示意图，如图4所示，所述电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行如上所述正样本学习模型评估方法的各个步骤。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的正样本学习模型评估方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种正样本学习模型评估方法，其特征在于，包括：

2.根据权利要求1所述的正样本学习模型评估方法，其特征在于，还包括：

利用所述PU测试集的AUL值对所述待评估模型进行评估。

3.根据权利要求1所述的正样本学习模型评估方法，其特征在于，所述根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值，具体包括：

4.根据权利要求3所述的正样本学习模型评估方法，其特征在于，所述根据待评估模型对PU测试集的打分结果，以及，判断阈值，确定所述PU测试集中观察到正样本被预测为正的第一样本数量，具体包括：

5.一种正样本学习模型评估装置，其特征在于，包括：

6.根据权利要求5所述的正样本学习模型评估装置，其特征在于，还包括：

7.根据权利要求5所述的正样本学习模型评估装置，其特征在于，所述计算单元，用于根据待评估模型对PU测试集的打分结果，确定所述PU测试集的AUL值，具体包括：

8.根据权利要求7所述的正样本学习模型评估装置，其特征在于，所述计算单元，用于根据待评估模型对PU测试集的打分结果，以及，判断阈值，确定所述PU测试集中观察到正样本被预测为正的第一样本数量，具体包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述正样本学习模型评估方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述正样本学习模型评估方法的步骤。