CN109784352A

CN109784352A - 一种评估分类模型的方法和装置

Info

Publication number: CN109784352A
Application number: CN201711121290.5A
Authority: CN
Inventors: 王晨阳; 陈福豪; 寿如阳; 林睿
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2019-05-21

Abstract

本发明公开了一种评估分类模型的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取多个分类模型对输入数据集分类得到的多个第一类别数据集，每个第一类别数据集对应一分类模型；根据预选的参考数据集确定各第一类别数据集中的假正例数据集；根据各第一类别数据集和所述各第一类别数据集中的假正例数据集评估所述多个分类模型。该实施方式能够彻底摆脱对人工标注的依赖，操作流程可以完全自动化运行，降低评估成本，加快评估速度，扩展评估范围，提高评估可靠性，提升模型开发效率。

Description

一种评估分类模型的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种评估分类模型的方法和装置。

背景技术

分类在工业中有广泛的应用，在分类模型的开发过程中，评估模型效果是至关重要的一环，直接决定了一个模型最终是否可以上线。目前，业界主要采用在测试集上计算混淆矩阵的方法来评估模型效果。使用分类模型对该测试集中的样本进行预测后，每个样本都会有两个标注，一个是模型的预测标注，另一个是样本的真值标注，由此构建混淆矩阵，混淆矩阵中的每一行表示一种模型预测结果，每一列表示一种真值结果，而混淆矩阵中每个单元的内容就是符合相应条件的样本个数。利用混淆矩阵就可以计算出识别精度、敏感度、特异性等指标来客观评估一个分类模型的识别效果。

这种评估方法必须有大量优质的人工标注样本。以一个成熟的电商企业为例，每天会产生上亿笔交易订单，要获得同等规模的人工标注样本集，成本极大。同时，线上环境变化多端，若测试样本集与上线日期相隔久远，那么模型在该测试集上的表现就不足以作为指导其未来上线后实际运行效果的标准。即使在模型离线训练完成后，重新从线上拉取最新的数据作为测试集，仍需要人工标注，人力和时间开销都很大，无法做到即时评估、快速上线，降低了系统的迭代速度，并且难以观察在一个较长的时间范围内模型效果随时间的变化情况。此外，人工标注可靠性不足，无法反映出模型的真实分类效果。传统的模型评估方法以准确率为核心，完全依赖人工标注，成本高且可靠性低，严重制约着机器学习模型从实验走向实际生产。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

人工标注成本高、耗时长，无法对模型效果做出即时评估，降低了模型迭代速度；

人工标注依赖于人的主观经验，标注的样本可靠性不足，无法真实反映模型效果。

发明内容

有鉴于此，本发明实施例提供一种评估分类模型的方法和装置，能够彻底摆脱对人工标注的依赖，操作流程可以完全自动化运行，降低评估成本，加快评估速度，扩展评估范围，提高评估可靠性，提升模型开发效率。

为实现上述目的，根据本发明实施例的一个方面，提供了一种评估分类模型的方法。

一种评估分类模型的方法，包括：获取多个分类模型对输入数据集分类得到的多个第一类别数据集，每个第一类别数据集对应一分类模型；根据预选的参考数据集确定各第一类别数据集中的假正例数据集；根据各第一类别数据集和所述各第一类别数据集中的假正例数据集评估所述多个分类模型。

可选地，所述参考数据集包括预设数量的第二类别数据集，根据预选的参考数据集确定各第一类别数据集中的假正例数据集的步骤，包括：根据所述预设数量的第二类别数据集与所述各第一类别数据集的交集确定所述各第一类别数据集中的假正例数据集。

可选地，根据各第一类别数据集和所述各第一类别数据集中的假正例数据集评估所述多个分类模型的步骤，包括：根据每个第一类别数据集和所述第一类别数据集中的假正例数据集计算所述第一类别数据集对应的分类模型的误分类率；根据各分类模型的误分类率评估所述各分类模型。

可选地，每个第一类别数据集对应的分类模型的各个误分类率分别对应一第二类别数据集，根据各分类模型的误分类率评估所述各分类模型的步骤，包括：每次从所述多个分类模型中选取两个分类模型，比对所述两个分类模型的对应相同第二类别数据集的各误分类率；统计所述两个分类模型的各次比较的结果中，每个分类模型的各误分类率作为较大值出现的次数和作为较小值出现的次数，将所述两个分类模型中，各误分类率作为较大值出现的次数小于作为较小值出现的次数的一个分类模型评估为高精度模型，直到评估出所述多个分类模型中任意两个分类模型中的高精度模型，从而完成对所有分类模型的评估。

可选地，所述参考数据集至少满足如下条件：在所述参考数据集与所述输入数据集之间的公共数据集中，所述第二类别数据集的数据数量在所述公共数据集中的占比大于预设阈值；所述公共数据集中的数据分布特征与所述输入数据集中的数据分布特征相同。

根据本发明实施例的另一方面，提供了一种评估分类模型的装置。

一种评估分类模型的装置，包括：获取模块，用于获取多个分类模型对输入数据集分类得到的多个第一类别数据集，每个第一类别数据集对应一分类模型；确定模块，用于根据预选的参考数据集确定各第一类别数据集中的假正例数据集；评估模块，用于根据各第一类别数据集和所述各第一类别数据集中的假正例数据集评估所述多个分类模型。

可选地，所述参考数据集包括预设数量的第二类别数据集，所述确定模块还用于：根据所述预设数量的第二类别数据集与所述各第一类别数据集的交集确定所述各第一类别数据集中的假正例数据集。

可选地，所述评估模块还用于：根据每个第一类别数据集和所述第一类别数据集中的假正例数据集计算所述第一类别数据集对应的分类模型的误分类率；根据各分类模型的误分类率评估所述各分类模型。

可选地，每个第一类别数据集对应的分类模型的各个误分类率分别对应一第二类别数据集，所述评估模块包括模型评估单元，用于：每次从所述多个分类模型中选取两个分类模型，比对所述两个分类模型的对应相同第二类别数据集的各误分类率；统计所述两个分类模型的各次比较的结果中，每个分类模型的各误分类率作为较大值出现的次数和作为较小值出现的次数，将所述两个分类模型中，各误分类率作为较大值出现的次数小于作为较小值出现的次数的一个分类模型评估为高精度模型，直到评估出所述多个分类模型中任意两个分类模型中的高精度模型，从而完成对所有分类模型的评估。

根据本发明实施例的又一方面，提供了一种服务器。

一种服务器，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现评估分类模型的方法。

根据本发明实施例的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现评估分类模型的方法。

上述发明中的一个实施例具有如下优点或有益效果：获取多个分类模型对输入数据集分类得到的多个第一类别数据集，每个第一类别数据集对应一分类模型；根据预选的参考数据集确定各第一类别数据集中的假正例数据集；根据各第一类别数据集和各第一类别数据集中的假正例数据集评估多个分类模型。能够彻底摆脱对人工标注的依赖，操作流程可以完全自动化运行，降低评估成本，加快评估速度，扩展评估范围，提高评估可靠性，提升模型开发效率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的评估分类模型的原理示意图；

图2是根据本发明实施例的评估分类模型的方法的主要步骤示意图；

图3是根据本发明实施例的反刷单应用场景下评估分类模型的优选流程示意图；

图4是根据本发明实施例的评估分类模型的装置的主要模块示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在工业环境中，开发机器学习模型通常都处于这样一种工作模式，即：已经存在一个可用的模型，而期望得到一个更好的模型。因此本发明实施例从比较两个分类模型的角度评估多个分类模型，提出一种间接的评估模型的方法，可以不对单个模型的分类精度做定量计算，而是对两个模型的分类精度做定性比较，通过对两个模型的分类精度做定性比较来评估分类模型。利用分类模型对数据按照类别分类的过程也是对数据的类别进行识别的过程，因此本发明实施例中的“分类”也可以称为“识别”。

当使用分类模型对一个数据集合进行分类(或称识别)时，通常目的在于从数据集合中分类(识别)得到某个目标类别的数据，将数据集合中该目标类别的数据作为正例，不同于该目标类别的其他类别的数据作为负例。对一个被分类(识别)的数据集合，由分类模型进行分类的结果包括正例集合和负例集合，其中正例集合由分类模型识别出的正例组成，负例集合由分类模型识别出的负例组成，正例和负例是一个相对的概念，其取决于该分类模型分类的目的是识别出哪一类别的数据，例如，以电商领域的反刷单应用场景为例，主要是利用分类模型识别出一个订单集合中的刷单订单，那么，利用分类模型将该订单集合分类得到的正例集合即为刷单订单的集合，相应的正例为刷单订单(即存在刷单行为的订单)，而分类得到的负例集合为正常订单的集合，相应的负例为正常订单(即不存在刷单行为的订单)。通过分类模型得到的正例集合中包括真正例(即该数据被分类模型识别为正例，且实际也为正例)和假正例(即该数据被分类模型识别为正例，但实际却为负例)。

现有技术的评估方法以准确率为核心，计算识别精度必须确定出分类模型识别出的正例集合中真正例的数量，而这往往依赖于精确的人工标注，因此，现有的评估方法完全依赖人工标注，成本高且可靠性低。图1是根据本发明实施例的评估分类模型的原理示意图。根据本发明实施例，可将被分类(识别)的数据集合设为V，确定若干实际是负例的样本以构成集合N，且该集合N与被分类(识别)的数据集合V应存在交集，如图1所示，以该集合N与被分类(识别)的数据集合V的交集等于集合N，即数据集合V包括集合N为例，并且分类模型的数量例如为两个，该两个分类模型设为分类模型1和分类模型2，根据图1，当集合N设置足够大(即大于预设值，预设值可以根据需要设定)时，集合N将分别与分类模型1、分类模型2识别出的数据集合V中的正例集合P1、P2存在交集I1、I2(其中，P1为通过分类模型1识别出的正例集合，P2为通过分类模型2识别出的正例集合)，该交集I1、I2分别反映了该分类模型1、分类模型2识别出的正例集合P1、P2中的假正例的规模，即该分类模型1和分类模型2的误分类(或称误识别)的规模，根据上述构思可比对两个分类模型的好坏，从而评估各分类模型，具体的比对方法将在下文详细介绍。

图2是根据本发明实施例的评估分类模型的方法的主要步骤示意图。

如图2所示，本发明实施例的评估分类模型的方法主要包括如下的步骤S201至步骤S203。

步骤S201：获取多个分类模型对输入数据集分类得到的多个第一类别数据集。

其中，每个第一类别数据集对应一分类模型。

本发明实施例的第一类别数据集可以是分类模型识别出的正例的集合，各正例对应的数据类型为第一类别。

步骤S202：根据预选的参考数据集确定各第一类别数据集中的假正例数据集。

参考数据集可包括预设数量的第二类别数据集。

第二类别数据集可以是负例的集合，各负例对应的数据类别为不同于第一类别的第二类别。

参考数据集至少满足如下条件：在参考数据集与输入数据集之间的公共数据集中，第二类别数据集的数据数量在公共数据集中的占比大于预设阈值，且公共数据集中的数据分布特征与输入数据集中的数据分布特征相同。其中，可从输入数据集中选取参考数据集(即参考数据集与输入数据集之间的公共数据集与参考数据集相同)。

根据预选的参考数据集确定各第一类别数据集中的假正例数据集的步骤，具体可包括：根据预设数量的第二类别数据集与各第一类别数据集的交集确定各第一类别数据集中的假正例数据集。

步骤S203：根据各第一类别数据集和各第一类别数据集中的假正例数据集评估多个分类模型。

根据各第一类别数据集和各第一类别数据集中的假正例数据集评估所述多个分类模型的步骤，具体可包括：根据每个第一类别数据集和第一类别数据集中的假正例数据集计算第一类别数据集对应的分类模型的误分类率；根据各分类模型的误分类率评估多个分类模型。

其中，每个第一类别数据集对应的分类模型的各个误分类率分别对应一第二类别数据集。

根据各分类模型的误分类率评估多个分类模型的步骤，具体可包括：每次从多个分类模型中选取两个分类模型，比对该两个分类模型的对应相同第二类别数据集的各误分类率，统计该两个分类模型的各次比较的结果中每个分类模型的各误分类率作为较大值出现的次数和作为较小值出现的次数，将该两个分类模型中各误分类率作为较大值出现的次数小于作为较小值出现的次数的一个分类模型评估为该两个分类模型中的高精度模型，直到评估出多个分类模型中任意两个分类模型中的高精度模型，从而完成对所有分类模型的评估。

下面以电商领域风控系统的反刷单应用场景为例，详细介绍本发明实施例的评估分类模型的方法。其中，输入数据集为预先确定的总订单集合U，将该总订单集合分类得到的正例集合即为刷单订单的集合，相应的正例为刷单订单(即存在刷单行为的订单)，而分类得到的负例集合为正常订单的集合，相应的负例为正常订单(即不存在刷单行为的订单)。

图3是根据本发明实施例的反刷单应用场景下评估分类模型的优选流程示意图。

如图3所示，本发明实施例的反刷单应用场景下评估分类模型的优选流程包括如下的步骤S301至步骤S308。

步骤S301：生成总订单集合。

首先确定总订单范围，以生成总订单集合。其中按照预设的数据分布特征生成总订单集合，预设的数据分布特征包括总订单集合中数据所具有的数据的各个维度的特征以及这些数据的各个维度的特征在总订单集合中的分布特征，例如，数据的各个维度的特征可以是订单的时间范围、订单类型、订单状态等特征，这些数据的各个维度的特征在总订单集合中的分布特征都为均匀分布。

步骤S302：从总订单集合中筛选出若干个黄金集。

黄金集为预选的参考数据集。

黄金集的筛选决定了评估结果的可靠性，黄金集的筛选标准至少包括条件a和条件b：

条件a：黄金集中应只包含负例而不包含正例；

条件b：黄金集中的数据分布特征与总订单集合中的数据分布特征相同。

对于条件a，黄金集中只包含负例而不包含正例通常是理想情况，在实际操作中，如果确保黄金集中的负例数量占绝对优势时即可认为满足条件a，例如根据经验值确定黄金集中负例的比例达到一阈值(阈值例如90％或根据经验值设定的其他数值)时，即表示黄金集中的负例数量占绝对优势，则视为满足条件a。

对于条件b，为了保证不同的模型识别正例集合与黄金集的交集之间具有可比性，黄金集中的数据分布特征与总订单集合中的数据分布特征应相同，例如，本发明实施例的总订单集合中的订单数据包括订单的时间范围、订单类型、订单状态等特征，且这些特征均匀分布，则黄金集中的订单数据也应包括订单的时间范围、订单类型、订单状态等特征，且这些特征均匀分布。例如，总订单集合中的订单数据中，订单的下单时间包括一天中的任意时刻，订单类型包括小家电订单、电子产品订单等各种类型，订单状态包括已出库订单、已取消订单、支付不出库订单等各种状态，且上述特征在总订单集合中均匀分布，则筛选的黄金集中的订单数据中，也应该满足：订单的下单时间包括一天中的任意时刻，订单类型包括小家电订单、电子产品订单等各种类型，订单状态包括已出库订单、已取消订单、支付不出库订单等各种状态，且上述特征在总订单集合中均匀分布。

在实际应用场景中，黄金集的筛选通常依赖于一些只会产生负例而不会产生正例的特殊业务模式，例如在反刷单应用场景中，商家在刷单时通常不会给自己差评，那么，差评订单就通常不会是刷单订单，从而所有差评订单就可以构成一个黄金集。本发明实施例提出的黄金集的筛选标准，实现了通过非人工验证的方式直接获得负例集合。

步骤S303：使用多个分类模型中未执行分类操作的一个分类模型对总订单集合进行分类，得到该分类模型的模型识别正例集合。

分类模型对总订单集合进行分类得到该分类模型的模型识别正例集合和模型识别负例集合。

模型识别正例集合即通过该分类模型对总订单集合进行分类得到的正例集合。模型识别负例集合即通过该分类模型对总订单集合进行分类得到的负例集合。对于本反刷单应用场景，模型识别正例集合即刷单订单的集合，模型识别负例集合即正常订单的集合，相应的正例为刷单订单(即存在刷单行为的订单)，相应的负例为正常订单(即不存在刷单行为的订单)。

步骤S304：计算该模型识别正例集合与各个黄金集的交集，以得到该分类模型的多个假正例数据集。

每个假正例数据集是模型识别正例集合与一个黄金集取的交集，因此，该分类模型的每个假正例数据集对应一个黄金集。每个假正例数据集为该模型识别正例集合中的一个假正例集合(假正例即该数据被分类模型判定为正例，但实际却应被识别为负例)。

步骤S305：分别根据该模型识别正例集合和该多个假正例数据集计算对应各黄金集的误分类率。

误分类率(以Droplift表示)的计算公式如下：

其中，i为1至M1之间的自然数，j为1至M2之间的自然数，M1为分类模型的数量，M2为黄金集的数量，Droplift_ij表示第i个分类模型的对应第j个黄金集的误分类率，H_ij表示第i个分类模型的对应第j个黄金集的假正例数据集，size(H_ij)表示第i个分类模型的对应第j个黄金集的假正例数据集中的元素个数，P_i表示第i个分类模型的模型识别正例集合，size(P_i-H_ij)表示P_i与H_ij的差集中的元素个数，每个元素为一个订单数据。

步骤S306：判断多个分类模型中是否存在未执行分类操作的分类模型，若是，返回执行步骤S303，若否，执行步骤S307。

步骤S307：从多个分类模型中选取未评估的两个分类模型，比对该两个分类模型的对应相同第二类别数据集的各误分类率，根据比对结果评估该两个分类模型。

具体地，比对该两个分类模型的对应相同黄金集的各误分类率，统计该两个分类模型的各次比较的结果中，每个分类模型的各误分类率作为较大值出现的次数和作为较小值出现的次数，将该两个分类模型中各误分类率作为较大值出现的次数小于作为较小值出现的次数的一个分类模型评估为该两个分类模型中的高精度模型。

由于所使用的黄金集不能包括全体负例，因此该误识别率(Droplift)并不是模型的真实误分类率，然而其具有相对意义，可以用于分类模型间的定性比较，在比较两个分类模型时，当只筛选一个黄金集时，对应一个Droplift值，则Droplift值越小，该分类模型的识别精度越高，当筛选多个黄金集时，例如筛选出20个黄金集，每个黄金集对应一个Droplift值，比对该两个分类模型的20个Droplift值，假设分类模型1有15个Droplift值小于分类模型2的Droplift值、有5个Droplift值大于分类模型2的Droplift值，即分类模型1在该20次比较中Droplift值作为较大值出现的次数为5次、作为较小值出现的次数为15次，则分类模型1优于分类模型2。

步骤S308：判断是否完成所有分类模型的评估，若是，则流程结束，若否，则返回执行步骤S307。

本发明实施例以错误率为核心，将刷单这一定义模糊的问题转换非刷单这一可以清晰定义的问题，从而彻底摆脱了对人工标注的依赖，降低了模型评估的成本，加快了模型评估的速度，扩展了模型评估的范围，提高了模型评估的可靠性。此外，本发明提出的操作流程可以完全自动化运行，有助于实现从模型评估到上线再到上线后监控的闭环，显著提升模型开发效率。

需要说明的是，本发明实施例可以评估两个分类模型或两个以上分类模型，且本发明适用于二分类模型的评估，也可以用于其他分类模型的评估。对于二分类模型，通过分类模型对数据集合分类得到的模型识别正例集合为第一类别数据集，得到的模型识别负例集合为第二类别数据集。对于非二分类模型，可以将该模型要识别的一个类别的数据集作为第一类别数据集，而将识别出的除该第一类别数据集之外的所有其他类别数据集作为第二类别数据集，筛选参考数据集(即黄金集)时可以选取该其他类别数据集作为黄金集，再通过本发明实施例的上述方法评估各分类模型。

图4是根据本发明实施例的评估分类模型的装置的主要模块示意图。

本发明实施例的评估分类模型的装置400包括：获取模块401、确定模块402、评估模块403。

获取模块401，用于获取多个分类模型对输入数据集分类得到的多个第一类别数据集，每个第一类别数据集对应一分类模型。

确定模块402，用于根据预选的参考数据集确定各第一类别数据集中的假正例数据集。

参考数据集包括预设数量的第二类别数据集。

参考数据集至少满足如下条件：

在所述参考数据集与输入数据集之间的公共数据集中，第二类别数据集的数据数量在公共数据集中的占比大于预设阈值；

公共数据集中的数据分布特征与输入数据集中的数据分布特征相同。

确定模块402具体根据预设数量的第二类别数据集与各第一类别数据集的交集确定各第一类别数据集中的假正例数据集。

评估模块403，用于根据各第一类别数据集和各第一类别数据集中的假正例数据集评估多个分类模型。

评估模块403具体根据每个第一类别数据集和第一类别数据集中的假正例数据集计算第一类别数据集对应的分类模型的误分类率，根据各分类模型的误分类率评估多个分类模型。

每个第一类别数据集对应的分类模型的各个误分类率分别对应一第二类别数据集。

评估模块403包括模型评估单元，用于：每次从多个分类模型中选取两个分类模型，比对两个分类模型的对应相同第二类别数据集的各误分类率，统计两个分类模型的各次比较的结果中每个分类模型的各误分类率作为较大值出现的次数和作为较小值出现的次数，将两个分类模型中各误分类率作为较大值出现的次数小于作为较小值出现的次数的一个分类模型评估为两个分类模型中的高精度模型，直到评估出多个分类模型中任意两个分类模型中的高精度模型，从而完成对所有分类模型的评估。

另外，在本发明实施例中评估分类模型的装置的具体实施内容，在上面所述评估分类模型的方法中已经详细说明了，故在此重复内容不再说明。

图5示出了可以应用本发明实施例的评估分类模型的方法或评估分类模型的装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如产品信息)反馈给终端设备。

需要说明的是，本发明实施例所提供的本发明实施例的评估分类模型的方法一般由服务器505执行，相应地，评估分类模型的装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。图6示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块401、确定模块402、评估模块403。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块401还可以被描述为“用于获取多个分类模型对输入数据集分类得到的多个第一类别数据集的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取多个分类模型对输入数据集分类得到的多个第一类别数据集，每个第一类别数据集对应一分类模型；根据预选的参考数据集确定各第一类别数据集中的假正例数据集；根据各第一类别数据集和所述各第一类别数据集中的假正例数据集评估所述多个分类模型。

根据本发明实施例的技术方案，获取多个分类模型对输入数据集分类得到的多个第一类别数据集，每个第一类别数据集对应一分类模型；根据预选的参考数据集确定各第一类别数据集中的假正例数据集；根据各第一类别数据集和各第一类别数据集中的假正例数据集评估多个分类模型。能够彻底摆脱对人工标注的依赖，操作流程可以完全自动化运行，降低评估成本，加快评估速度，扩展评估范围，提高评估可靠性，提升模型开发效率。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种评估分类模型的方法，其特征在于，包括：

获取多个分类模型对输入数据集分类得到的多个第一类别数据集，每个第一类别数据集对应一分类模型；

根据预选的参考数据集确定各第一类别数据集中的假正例数据集；

根据各第一类别数据集和所述各第一类别数据集中的假正例数据集评估所述多个分类模型。

2.根据权利要求1所述的方法，其特征在于，所述参考数据集包括预设数量的第二类别数据集，

根据预选的参考数据集确定各第一类别数据集中的假正例数据集的步骤，包括：

根据所述预设数量的第二类别数据集与所述各第一类别数据集的交集确定所述各第一类别数据集中的假正例数据集。

3.根据权利要求2所述的方法，其特征在于，根据各第一类别数据集和所述各第一类别数据集中的假正例数据集评估所述多个分类模型的步骤，包括：

根据每个第一类别数据集和所述第一类别数据集中的假正例数据集计算所述第一类别数据集对应的分类模型的误分类率；

根据各分类模型的误分类率评估所述各分类模型。

4.根据权利要求3所述的方法，其特征在于，每个第一类别数据集对应的分类模型的各个误分类率分别对应一第二类别数据集，

根据各分类模型的误分类率评估所述各分类模型的步骤，包括：

每次从所述多个分类模型中选取两个分类模型，比对所述两个分类模型的对应相同第二类别数据集的各误分类率；

统计所述两个分类模型的各次比较的结果中，每个分类模型的各误分类率作为较大值出现的次数和作为较小值出现的次数，将所述两个分类模型中，各误分类率作为较大值出现的次数小于作为较小值出现的次数的一个分类模型评估为高精度模型，直到评估出所述多个分类模型中任意两个分类模型中的高精度模型，从而完成对所有分类模型的评估。

5.根据权利要求2所述的方法，其特征在于，所述参考数据集至少满足如下条件：

在所述参考数据集与所述输入数据集之间的公共数据集中，所述第二类别数据集的数据数量在所述公共数据集中的占比大于预设阈值；

所述公共数据集中的数据分布特征与所述输入数据集中的数据分布特征相同。

6.一种评估分类模型的装置，其特征在于，包括：

获取模块，用于获取多个分类模型对输入数据集分类得到的多个第一类别数据集，每个第一类别数据集对应一分类模型；

确定模块，用于根据预选的参考数据集确定各第一类别数据集中的假正例数据集；

评估模块，用于根据各第一类别数据集和所述各第一类别数据集中的假正例数据集评估所述多个分类模型。

7.根据权利要求6所述的装置，其特征在于，所述参考数据集包括预设数量的第二类别数据集，

所述确定模块还用于：

8.根据权利要求7所述的装置，其特征在于，所述评估模块还用于：

根据各分类模型的误分类率评估所述各分类模型。

9.根据权利要求8所述的装置，其特征在于，每个第一类别数据集对应的分类模型的各个误分类率分别对应一第二类别数据集，

所述评估模块包括模型评估单元，用于：

10.根据权利要求7所述的装置，其特征在于，所述参考数据集至少满足如下条件：

11.一种服务器，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。