CN111488994A - 正样本学习模型评估方法及装置 - Google Patents
正样本学习模型评估方法及装置 Download PDFInfo
- Publication number
- CN111488994A CN111488994A CN202010143387.1A CN202010143387A CN111488994A CN 111488994 A CN111488994 A CN 111488994A CN 202010143387 A CN202010143387 A CN 202010143387A CN 111488994 A CN111488994 A CN 111488994A
- Authority
- CN
- China
- Prior art keywords
- test set
- positive
- samples
- model
- evaluated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 75
- 238000012360 testing method Methods 0.000 claims abstract description 174
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明实施例提供一种正样本学习模型评估方法及装置,所述方法包括:利用待评估模型对PU测试集进行打分,获取打分结果;其中,所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率;所述PU测试集包含有观察到正样本和收集到的无标签样本;根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值。本发明实施例在难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件下,能够对正样本学习模型进行评估,解决正样本学习下模型评估的困难。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种正样本学习模型评估方法及装置。
背景技术
随着各行业对数据分析需求的持续增加,通过机器学习高效地获取知识,已逐渐成为当今机器学习技术发展的主要推动力,其中正样本学习是一种只使用正样本和无标签样本来训练二分类器的学习方法,它被广泛应用在很多领域:如信用卡欺诈,网络运维和购物推荐等。在机器学习任务中,模型评估起着非常重要的作用,因为它可以表征模型训练的效果且可以在许多候选模型中挑选一个最佳的模型。在正样本学习场景下,一份完全标注的正负样本数据集通常是难以获得的,这造成常用的模型评估指标(如模型评估指标AUC)都难以应用在正样本学习场景中。
现有的正样本学习研究中的模型评估方式,要么使用一份全标注的数据集,要么需要获得无标签样本中类别比例的先验知识,这在正样本学习场景中是很难获得的。
因此,如何提出一种方法,在难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件下,能够对正样本学习模型进行评估,成为亟待解决的问题。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种正样本学习模型评估方法及装置。
第一方面,本发明实施例提供一种正样本学习模型评估方法,包括:
利用待评估模型对PU测试集进行打分,获取打分结果;其中,所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率;所述PU测试集包含有观察到正样本和收集到的无标签样本;
根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值。
优选地,还包括:利用所述PU测试集的AUL值对所述待评估模型进行评估。
优选地,所述根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量;
以所述判断阈值为自变量,建立所述第一样本数量与所述判断阈值之间的第一函数关系;
根据所述第一函数关系和所述PU测试集的召回率模型,确定召回率与判断阈值的第二函数关系;其中,所述PU测试集的召回率模型为:召回率=第一样本数量/观察到正样本的数量;
根据所述第二函数关系,将召回率在判断阈值位于区间[0,1]上的积分,作为所述PU测试集的AUL值。
优选地,所述根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,将打分结果大于或等于判断阈值的样本预测为正,将打分结果小于判断阈值的样本预测为负;
确定所述PU测试集中观察到正样本被预测为正的第一样本数量。
第二方面,本发明实施例提供一种正样本学习模型评估装置,包括:
打分单元,用于利用待评估模型对PU测试集进行打分,获取打分结果;其中,所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率;所述PU测试集包含有观察到正样本和收集到的无标签样本;
计算单元,用于根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值。
优选地,还包括:
评估单元,用于利用所述PU测试集的AUL值对所述待评估模型进行评估。
优选地,所述计算单元,用于根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量;
以所述判断阈值为自变量,建立所述第一样本数量与所述判断阈值之间的第一函数关系;
根据所述第一函数关系和所述PU测试集的召回率模型,确定召回率与判断阈值的第二函数关系;其中,所述PU测试集的召回率模型为:召回率=第一样本数量/观察到正样本的数量;
根据所述第二函数关系,将召回率在判断阈值位于区间[0,1]上的积分,作为所述PU测试集的AUL值。
优选地,所述计算单元,用于根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,将打分结果大于或等于判断阈值的样本预测为正,将打分结果小于判断阈值的样本预测为负;
确定所述PU测试集中观察到正样本被预测为正的第一样本数量。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述第一方面正样本学习模型评估方法的各个步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述第一方面正样本学习模型评估方法的各个步骤。
本发明实施例提供的正样本学习模型评估方法及装置,通过利用待评估模型对PU测试集进行打分,获取所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率,并根据所述条件概率,确定待评估模型的评估指标AUL值,从而实现在难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件下,能够对正样本学习模型进行评估,解决正样本学习下模型评估的困难。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中正样本学习模型评估方法的流程示意图;
图2为本发明实施例中待测模型评估指标AUL估计值计算示意图;
图3为本发明实施例中正样本学习模型评估装置的结构示意图;
图4为本发明实施例中电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例中正样本学习模型评估方法的流程示意图,如图1所示,本发明实施例提供的一种正样本学习模型评估方法,包括:
步骤110、利用待评估模型对PU测试集进行打分,获取打分结果;其中,所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率;所述PU测试集包含有观察到正样本和收集到的无标签样本;
步骤120、根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值。
具体地,对于正样本学习,难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件,只能获得PU测试集,其中所述PU测试集中包含有观察到正样本和收集到的无标签样本,其中无标签样本中可能包含未被观察到的正样本和负样本。在此条件下,待评估的正样本模型会对所述PU测试集进行打分,获取打分结果,其中所述打分结果为测试集中每个样本被待评估正样本模型判断成正样本的条件概率,然后根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值,其中AUL为正样本模型的评估指标。
本发明实施例提供的正样本学习模型评估方法,通过利用待评估模型对PU测试集进行打分,获取所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率,并根据所述条件概率,确定待评估模型的评估指标AUL值,从而实现在难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件下,能够对正样本学习模型进行评估,解决正样本学习下模型评估的困难。
基于上述实施例的内容,作为一种可选实施例,所述正样本学习模型评估方法还包括:
利用所述PU测试集的AUL值对所述待评估模型进行评估。
具体地,AUL是模型评估指标,是提升度曲线(Lift Curve)与坐标轴围成的面积,而提升度曲线是ROC(Receiver Operating Characteristic curve)曲线的一种变体。AUL值作为一个数值可以直观的评价模型的好坏,AUL值越大,代表待评估模型的性能越好。
本发明实施例提供的正样本学习模型评估方法,通过利用PU测试集的AUL值对正样本学习模型进行评估,能够更直观的评价正样本学习模型的性能。
基于上述实施例的内容,作为一种可选实施例,所述根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量;
以所述判断阈值为自变量,建立所述第一样本数量与所述判断阈值之间的第一函数关系;
根据所述第一函数关系和所述PU测试集的召回率模型,确定召回率与判断阈值的第二函数关系;其中,所述PU测试集的召回率模型为:召回率=第一样本数量/观察到正样本的数量;
根据所述第二函数关系,将召回率在判断阈值位于区间[0,1]上的积分,作为所述PU测试集的AUL值。
具体地,根据PU测试集中每个样本对应的打分结果由高到低对样本进行排序,接下来,依次将每个样本对应的打分结果作为一个判断阈值q,将判断阈值q分别与PU测试集中每个样本对应的打分结果进行比较,从中确定所述PU测试集中观察到正样本被预测为正的第一样本数量;PU测试集包含观察到正样本和收集到的未标签样本,其中,观察到正样本中有一部分会被预测为正,另一部分会被预测为负;而收集到的未标签样本中包含有未标签的正样本和未标签的负样本,这些样本同样会有一部分会被预测为正,另一部分会被预测为负。而第一样本数量需要获取的是观察到正样本被预测为正的样本数量,另外,随着判断阈值q的设置不同,所述PU测试集中观察到正样本被预测为正的第一样本数量也会不同,也就是所述第一样本数量与所述判断阈值q之间存在第一函数关系。
同时,由于PU测试集中包含有观察到正样本和收集到的无标签样本,所以定义PU测试集的召回率模型为:召回率=第一样本数量/观察到正样本的数量,可以表示为recall(q);其中,所述第一样本数量指PU测试集观察到的正样本中被待评估模型预测为正的样本数量,所述观察到正样本的数量指PU测试集中观察到的正样本数量,也就是PU测试集上的召回率只考虑被观察到正样本的情况。由于随着判断阈值q的设置不同,第一样本数量会不同,因此所述召回率也会随着判断阈值q的设置不同而发生变化。
根据所述第一函数关系和所述PU测试集的召回率模型,确定召回率与判断阈值的第二函数关系,所述第二函数关系曲线为以判断阈值q为横坐标,以所述PU测试集的召回率模型recall(q)为纵坐标,画得的各点的连线即为提升度曲线,也就是第二函数关系曲线。
图2为本发明实施例中待测模型评估指标AUL估计值计算示意图,如图2所示,根据所述第一函数关系,将召回率recall(q)在判断阈值位于区间[0,1]上的积分,作为所述PU测试集的AUL值,所述AUL值即为所述提升度曲线与坐标轴围成的面积。
本发明实施例提供的正样本学习模型评估方法,通过根据待评估模型对PU测试集的打分结果,确定PU测试集的AUL值,不需要获取完全标注的测试集或者或者较多无标签样本的先验知识,而只需要获取PU测试集,能够实现对正样本学习模型进行评估。
基于上述实施例的内容,作为一种可选实施例,所述根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,将打分结果大于或等于判断阈值的样本预测为正,将打分结果小于判断阈值的样本预测为负;
确定所述PU测试集中观察到正样本被预测为正的第一样本数量。
具体地,根据PU测试集中每个样本对应的打分结果由高到低对样本进行排序,接下来,依次将每个样本对应的打分结果作为一个判断阈值q,将判断阈值q分别与PU测试集中每个样本对应的打分结果进行比较,若样本对应的打分结果大于或等于判断阈值q,则待评估模型对它的预测是正,若样本对应的打分结果小于判断阈值q,则待评估模型对它的预测是负。根据模型的预测结果,确定所述PU测试集中观察到正样本被待评估模型预测为正的样本数量,即为第一样本数量。
另外,根据表1所示的AUL值与AUC值模型评估对比表,在公开数据集上,将本发明实施例提出的正样本学习模型评估方法对不同的模型进行评估,其评估结果与常用的模型评估指标AUC(Area Under Curve)在完全标注的测试集(即PN数据集)上给出的结果,在评价任意两个模型的相对好坏的结论是一致的。
表1
本发明实施例提供的正样本学习模型评估方法,通过根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量,不需要获取完全标注的测试集或者较多无标签样本的先验知识,而只需要考虑观察到正样本情况,能够实现对正样本学习模型进行评估。
图3为本发明实施例中正样本学习模型评估装置的结构示意图,如图3所示,本发明实施例提供的一种正样本学习模型评估装置,包括:
打分单元310,用于利用待评估模型对PU测试集进行打分,获取打分结果;其中,所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率;所述PU测试集包含有观察到正样本和收集到的无标签样本;
计算单元320,用于根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值。
具体地,对于正样本学习,难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件,只能获得PU测试集,其中所述PU测试集中包含有观察到正样本和收集到的无标签样本,其中无标签样本中可能包含未被观察到的正样本和负样本。在此条件下,打分单元310中待评估的正样本模型会对所述PU测试集进行打分,获取打分结果,其中所述打分结果为测试集中每个样本被待评估正样本模型判断成正样本的条件概率,然后计算单元320根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值,其中AUL为正样本模型的评估指标。
本发明实施例提供的正样本学习模型评估装置用于执行上述正样本学习模型评估方法,其具体的实施方式与方法实施方式一致,此处不再赘述。
本发明实施例提供的正样本学习模型评估装置,通过打分单元对待评估模型对PU测试集进行打分,获取所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率,并根据所述条件概率,计算单元确定待评估模型的评估指标AUL值,从而实现在难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件下,能够对正样本学习模型进行评估,解决正样本学习下模型评估的困难。
基于上述实施例的内容,作为一种可选实施例,所述正样本学习模型评估装置还包括:
评估单元,用于利用所述PU测试集的AUL值对所述待评估模型进行评估。
具体地,AUL是模型评估指标,是提升度曲线(Lift Curve)与坐标轴围成的面积,而提升度曲线是ROC(Receiver Operating Characteristic curve)曲线的一种变体。AUL值作为一个数值可以直观的评价模型的好坏,AUL值越大,代表待评估模型的性能越好,因此,评估单元根据AUL值可以对待评估模型进行评估。
本发明实施例提供的正样本学习模型评估装置用于执行上述正样本学习模型评估方法,其具体的实施方式与方法实施方式一致,此处不再赘述。
本发明实施例提供的正样本学习模型评估装置,通过设置评估单元,用于利用PU测试集的AUL值对正样本学习模型进行评估,能够更直观的评价正样本学习模型的性能。
基于上述实施例的内容,作为一种可选实施例,所述计算单元320,用于根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量;
以所述判断阈值为自变量,建立所述第一样本数量与所述判断阈值之间的第一函数关系;
根据所述第一函数关系和所述PU测试集的召回率模型,确定召回率与判断阈值的第二函数关系;其中,所述PU测试集的召回率模型为:召回率=第一样本数量/观察到正样本的数量;
根据所述第二函数关系,将召回率在判断阈值位于区间[0,1]上的积分,作为所述PU测试集的AUL值。
具体地,根据PU测试集中每个样本对应的打分结果由高到低对样本进行排序,接下来,依次将每个样本对应的打分结果作为一个判断阈值q,将判断阈值q分别与PU测试集中每个样本对应的打分结果进行比较,从中确定所述PU测试集中观察到正样本被预测为正的第一样本数量;PU测试集包含观察到正样本和收集到的未标签样本,其中,观察到正样本中有一部分会被预测为正,另一部分会被预测为负;而收集到的未标签样本中包含有未标签的正样本和未标签的负样本,这些样本同样会有一部分会被预测为正,另一部分会被预测为负。而第一样本数量需要获取的是观察到正样本被预测为正的样本数量,另外,随着判断阈值q的设置不同,所述PU测试集中观察到正样本被预测为正的第一样本数量也会不同,也就是所述第一样本数量与所述判断阈值q之间存在第一函数关系。
同时,由于PU测试集中包含有观察到正样本和收集到的无标签样本,所以定义PU测试集的召回率模型为:召回率=第一样本数量/观察到正样本的数量,可以表示为recall(q);其中,所述第一样本数量指PU测试集观察到的正样本中被待评估模型预测为正的样本数量,所述观察到正样本的数量指PU测试集中观察到的正样本数量,也就是PU测试集上的召回率只考虑被观察到正样本的情况。由于随着判断阈值q的设置不同,第一样本数量会不同,因此所述召回率也会随着判断阈值q的设置不同而发生变化。
根据所述第一函数关系和所述PU测试集的召回率模型,确定召回率与判断阈值的第二函数关系,所述第二函数关系曲线为以判断阈值q为横坐标,以所述PU测试集的召回率模型recall(q)为纵坐标,画得的各点的连线即为提升度曲线,也就是第二函数关系曲线。
计算单元320根据所述第一函数关系,将召回率在判断阈值位于区间[0,1]上的积分,作为所述PU测试集的AUL值,所述AUL值即为所述提升度曲线与坐标轴围成的面积。
本发明实施例提供的正样本学习模型评估装置用于执行上述正样本学习模型评估方法,其具体的实施方式与方法实施方式一致,此处不再赘述。
本发明实施例提供的正样本学习模型评估装置,通过根据待评估模型对PU测试集的打分结果,确定PU测试集的AUL值,不需要获取完全标注的测试集或者或者较多无标签样本的先验知识,而只需要获取PU测试集,能够实现对正样本学习模型进行评估。
基于上述实施例的内容,作为一种可选实施例,所述计算单元320,用于根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,将打分结果大于或等于判断阈值的样本预测为正,将打分结果小于判断阈值的样本预测为负;
确定所述PU测试集中观察到正样本被预测为正的第一样本数量。
具体地,根据PU测试集中每个样本对应的打分结果由高到低对样本进行排序,接下来,依次将每个样本对应的打分结果作为一个判断阈值q,将判断阈值q分别与PU测试集中每个样本对应的打分结果进行比较,若样本对应的打分结果大于或等于判断阈值q,则待评估模型对它的预测是正,若样本对应的打分结果小于判断阈值q,则待评估模型对它的预测是负。计算单元320根据模型的预测结果,确定所述PU测试集中观察到正样本被待评估模型预测为正的样本数量,即为第一样本数量。
本发明实施例提供的正样本学习模型评估装置用于执行上述正样本学习模型评估方法,其具体的实施方式与方法实施方式一致,此处不再赘述。
本发明实施例提供的正样本学习模型评估装置,通过根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量,不需要获取完全标注的测试集或者较多无标签样本的先验知识,而只需要考虑观察到正样本情况,能够实现对正样本学习模型进行评估。
图4为本发明实施例中电子设备的实体结构示意图,如图4所示,所述电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行如上所述正样本学习模型评估方法的各个步骤。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的正样本学习模型评估方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种正样本学习模型评估方法,其特征在于,包括:
利用待评估模型对PU测试集进行打分,获取打分结果;其中,所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率;所述PU测试集包含有观察到正样本和收集到的无标签样本;
根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值。
2.根据权利要求1所述的正样本学习模型评估方法,其特征在于,还包括:
利用所述PU测试集的AUL值对所述待评估模型进行评估。
3.根据权利要求1所述的正样本学习模型评估方法,其特征在于,所述根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量;
以所述判断阈值为自变量,建立所述第一样本数量与所述判断阈值之间的第一函数关系;
根据所述第一函数关系和所述PU测试集的召回率模型,确定召回率与判断阈值的第二函数关系;其中,所述PU测试集的召回率模型为:召回率=第一样本数量/观察到正样本的数量;
根据所述第二函数关系,将召回率在判断阈值位于区间[0,1]上的积分,作为所述PU测试集的AUL值。
4.根据权利要求3所述的正样本学习模型评估方法,其特征在于,所述根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,将打分结果大于或等于判断阈值的样本预测为正,将打分结果小于判断阈值的样本预测为负;
确定所述PU测试集中观察到正样本被预测为正的第一样本数量。
5.一种正样本学习模型评估装置,其特征在于,包括:
打分单元,用于利用待评估模型对PU测试集进行打分,获取打分结果;其中,所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率;所述PU测试集包含有观察到正样本和收集到的无标签样本;
计算单元,用于根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值。
6.根据权利要求5所述的正样本学习模型评估装置,其特征在于,还包括:
评估单元,用于利用所述PU测试集的AUL值对所述待评估模型进行评估。
7.根据权利要求5所述的正样本学习模型评估装置,其特征在于,所述计算单元,用于根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量;
以所述判断阈值为自变量,建立所述第一样本数量与所述判断阈值之间的第一函数关系;
根据所述第一函数关系和所述PU测试集的召回率模型,确定召回率与判断阈值的第二函数关系;其中,所述PU测试集的召回率模型为:召回率=第一样本数量/观察到正样本的数量;
根据所述第二函数关系,将召回率在判断阈值位于区间[0,1]上的积分,作为所述PU测试集的AUL值。
8.根据权利要求7所述的正样本学习模型评估装置,其特征在于,所述计算单元,用于根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,将打分结果大于或等于判断阈值的样本预测为正,将打分结果小于判断阈值的样本预测为负;
确定所述PU测试集中观察到正样本被预测为正的第一样本数量。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述正样本学习模型评估方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述正样本学习模型评估方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010143387.1A CN111488994A (zh) | 2020-03-04 | 2020-03-04 | 正样本学习模型评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010143387.1A CN111488994A (zh) | 2020-03-04 | 2020-03-04 | 正样本学习模型评估方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111488994A true CN111488994A (zh) | 2020-08-04 |
Family
ID=71791309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010143387.1A Pending CN111488994A (zh) | 2020-03-04 | 2020-03-04 | 正样本学习模型评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488994A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801962A (zh) * | 2021-01-19 | 2021-05-14 | 上海大学 | 基于正样本学习的半监督工业制品瑕疵检测方法及系统 |
CN113052509A (zh) * | 2021-04-30 | 2021-06-29 | 中国工商银行股份有限公司 | 模型评估方法、模型评估装置、电子设备和存储介质 |
CN113220557A (zh) * | 2021-06-01 | 2021-08-06 | 上海明略人工智能(集团)有限公司 | 冷启动推荐模型评估方法、系统、计算机设备及存储介质 |
CN114519520A (zh) * | 2022-02-17 | 2022-05-20 | 深圳集智数字科技有限公司 | 模型评估方法、装置及存储介质 |
CN115205257A (zh) * | 2022-07-14 | 2022-10-18 | 武昌首义学院 | 一种基于正样本学习的人造板表面缺陷检测方法及系统 |
-
2020
- 2020-03-04 CN CN202010143387.1A patent/CN111488994A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801962A (zh) * | 2021-01-19 | 2021-05-14 | 上海大学 | 基于正样本学习的半监督工业制品瑕疵检测方法及系统 |
CN113052509A (zh) * | 2021-04-30 | 2021-06-29 | 中国工商银行股份有限公司 | 模型评估方法、模型评估装置、电子设备和存储介质 |
CN113220557A (zh) * | 2021-06-01 | 2021-08-06 | 上海明略人工智能(集团)有限公司 | 冷启动推荐模型评估方法、系统、计算机设备及存储介质 |
CN113220557B (zh) * | 2021-06-01 | 2024-01-26 | 上海明略人工智能(集团)有限公司 | 冷启动推荐模型评估方法、系统、计算机设备及存储介质 |
CN114519520A (zh) * | 2022-02-17 | 2022-05-20 | 深圳集智数字科技有限公司 | 模型评估方法、装置及存储介质 |
CN115205257A (zh) * | 2022-07-14 | 2022-10-18 | 武昌首义学院 | 一种基于正样本学习的人造板表面缺陷检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488994A (zh) | 正样本学习模型评估方法及装置 | |
CN110111113B (zh) | 一种异常交易节点的检测方法及装置 | |
KR20180041174A (ko) | 위험 평가 방법 및 시스템 | |
CN107292334A (zh) | 图像识别方法及装置 | |
CN112200392B (zh) | 业务预测方法及装置 | |
CN109063433B (zh) | 虚假用户的识别方法、装置及可读存储介质 | |
CN111275338A (zh) | 一种企业欺诈行为的判定方法、装置、设备及存储介质 | |
CN110728306B (zh) | 反向代理评价模型中目标参数选取方法及相关装置 | |
CN109308564A (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN111860568A (zh) | 数据样本的均衡分布方法、装置及存储介质 | |
CN113543117A (zh) | 携号转网用户的预测方法、装置及计算设备 | |
CN117993478A (zh) | 基于双向知识蒸馏和联邦学习的模型训练方法及装置 | |
CN107729877B (zh) | 一种基于级联分类器的人脸检测方法及装置 | |
CN118210670A (zh) | 日志异常检测方法、装置、电子设备及存储介质 | |
CN110196797B (zh) | 适于信用评分卡系统的自动优化方法和系统 | |
CN104572820B (zh) | 模型的生成方法及装置、重要度获取方法及装置 | |
CN107357703B (zh) | 一种终端应用耗电检测方法及服务器 | |
CN113791897B (zh) | 一种农信系统的服务器基线检测报告的展现方法及系统 | |
CN111291259B (zh) | 一种数据筛选方法、装置、电子设备和存储介质 | |
CN107203561A (zh) | 一种数据处理方法和设备 | |
CN112632364A (zh) | 新闻传播速度测评方法和系统 | |
CN103150349A (zh) | 一种样本属性的分析方法、装置和设备 | |
CN113742216B (zh) | 一种检测机器学习引擎的效率的方法、装置和存储介质 | |
CN113987309B (zh) | 个人隐私数据识别方法、装置、计算机设备及存储介质 | |
CN113538130B (zh) | 异常检测方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200804 |
|
RJ01 | Rejection of invention patent application after publication |