CN111754056B

CN111754056B - 模型评估方法以及相关装置

Info

Publication number: CN111754056B
Application number: CN201910233922.XA
Authority: CN
Inventors: 李志�; 苏珊娜; 朱惠嘉; 高民东
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2021-03-30
Anticipated expiration: 2039-03-26
Also published as: CN111754056A

Abstract

本发明公开了一种模型评估方法以及相关装置。评估方法包括：获取到多个样本数据输入待评估模型后输出的预测结果值；根据样本数据的预测结果值对标签值按照设定排序规则进行排序，并将排序后的样本数据分成多个分段；利用样本数据的标签值确定样本数据中标签值为第一值的样本数据的总量，每个分段中标签值为第一值的样本数据的实际数量以及平均数量；基于实际数量以及平均数量确定所有分段中的最大提升指数；根据相邻两个分段的标签值为第一值的样本数据的实际数量确定所有分段的排序不单调率；通过最大提升指数与排序不单调率的比值确定待评估模型的排序能力。本发明能够量化模型的排序能力，避免人为判断产生偏差。

Description

模型评估方法以及相关装置

技术领域

本发明涉及模型评估技术领域，特别涉及一种模型评估方法以及相关装置。

背景技术

随着大数据时代的发展，模型的使用频率越来越高，也涉及到各行各业。对于模型本身而言，会根据需求赋予其不同的功能，比如分类功能、图像修复功能等。在很多模型中，计算排序能力是模型的一项很基础的因素。但是现在并不存在很成熟的对模型计算排序能力评估的方法。

例如，在现有的金融模型评估领域，在对金融模型的排序能力进行评估时，通常是通过人为观察的方式对金融模型的样本排序进行观察，进而比较金融模型的排序能力。

然而，由于人为观察的主观性可能会导致对金融模型的排序能力的比较结果出现偏差，导致对金融模型的排序能力评估不准确。

发明内容

本发明提供一种模型评估方法、评估装置、智能系统以及存储装置，能够有效解决现有技术中对金融模型的排序能力评估不准确的问题。

为解决上述技术问题，本发明采用的第一个技术方案是：提供一种模型评估方法，其中，评估方法包括：

获取到多个样本数据输入待评估模型后输出的预测结果值，其中，样本数据标注有标签值，标签值包括第一值和第二值，且每一样本数据对应一预测结果值和一标签值；

根据样本数据的预测结果值对标签值按照设定排序规则进行排序，并将排序后的样本数据分成多个分段；每个分段中的样本数据的数量差小于预设值；

利用样本数据的标签值确定样本数据中标签值为第一值的样本数据的总量，每个分段中标签值为第一值的样本数据的实际数量以及平均数量；

基于实际数量以及平均数量确定所有分段中的最大提升指数；

根据相邻两个分段的标签值为第一值的样本数据的实际数量确定所有分段的排序不单调率；

通过最大提升指数与排序不单调率的比值确定待评估模型的排序能力。

为解决上述技术问题，本发明采用的第二个技术方案是：提供一种模型评估装置，其中评估装置包括：

数据获取模块、排序分段模块、数据处理模块、提升指数计算模块、不单调率计算模块以及排序能力评估模块，

数据获取模块用于获取到多个样本数据输入待评估模型后输出的预测结果值，其中，样本数据标注有标签值，标签值包括第一值和第二值，且每一样本数据对应一预测结果值和一标签值；

排序分段模块用于根据样本数据的预测结果值对标签值按照设定排序规则进行排序，并将排序后的样本数据分成多个分段；每个分段中的样本数据的数量差小于预设值；

数据处理模块用于利用样本数据的标签值确定样本数据中标签值为第一值的样本数据的总量，每个分段中标签值为第一值的样本数据的实际数量以及平均数量；

提升指数计算模块用于基于实际数量以及平均数量确定所有分段中的最大提升指数；

不单调率计算模块用于根据相邻两个分段的标签值为第一值的样本数据的实际数量确定所有分段的排序不单调率；

排序能力评估模块用于通过最大提升指数与排序不单调率的比值确定待评估模型的排序能力。

为解决上述技术问题，本发明采用的第三个技术方案是：提供一种智能系统，其中，智能系统包括相互耦接的人机交互控制电路、处理器及能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如前文所述的评估方法的步骤。

为解决上述技术问题，本发明采用的第四个技术方案是：提供一种存储装置，其中，存储装置上存储有程序数据，程序数据被处理器执行时实现如前文所述的评估方法。

区别于现有技术，本发明提出一种模型评估方法，通过获取到多个样本数据输入待评估模型后输出的预测结果值，根据预测结果值对样本数据的标签值进行排序，并对待评估模型的排序能力进行量化计算得到最大提升指数与排序不单调率，并进一步根据最大提升指数与排序不单调率的比值确定所述待评估模型的排序能力，从而简单客观的得出待评估模型的排序能力，不需要经过人为判断，因此可以避免人为判断产生的偏差，进而可以提高对待评估模型排序能力评估的准确性和评估的高效性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本发明模型评估方法一实施方式的流程示意图；

图2是本发明模型评估装置一实施方式的结构示意图；

图3是本发明智能系统一实施方式的结构示意图；

图4是本发明存储装置一实施方式的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本发明保护的范围。

如图1所示，图1是本发明模型评估方法一实施方式的流程示意图。包括如下步骤：

步骤S110：获取到多个样本数据输入待评估模型后输出的预测结果值。

其中，样本数据标注有标签值，标签值包括第一值和第二值，且每一样本数据对应一预测结果值和一标签值。

具体地，首先将多个样本数据输入到待评估模型中，通过该待评估模型对上述多个样本数据进行预测，以获得每一样本数据的预测结果值。对应地，获取到上述预测结果值。

其中，上述标签值可通过数字、文字、字母符号等或其组合的方式进行标注，在此不作限定。在本实施方式中，标签值通过数字进行标注。其中，第一值可以为非零整数，如1、2、3等等，第二值可以为0。为了方便统计计算，在一个优选的实施方式中，标签值的第一值为1，标签值的第二值为0。

具体的，以样本数据对应为金融模型领域的客户为例，其中样本数据的标签值是对客户的优质或者非优质进行标注，或者通俗为好客户或坏客户的类型进行标注。一般可通过客户进行金融行为例如借贷的频率、还款的期限来确定客户为优质类型或者非优质类型。

在一个具体的实施方式中，以样本数据的标签值表示客户的好或者坏，标签值为第二值时即标签值为0时表示该客户为好客户。标签值为第一值即标签值为1时，表示该客户为坏客户。在获取到客户样本数据后，将多个样本数据输入到待评估模型中，通过待评估模型对客户样本数据进行预测评估，从而可以得到每个客户的预测结果值，一般情况下，预测结果值越大，该客户为坏客户的概率就越大。

在一个可选的实施方式中，可以将样本数据的预测结果值与标签值同时显示出来。如表1所示。

表1

需要说明的是，本实施方式的待评估模型为训练完成的模型。在一个具体的实施方式中，可以采用Logistics Regression(逻辑回归)、XGBoost(机器学习)和决策树等算法中的至少一种算法对初始模型进行训练，并将训练完成的模型确定为待评估模型。

步骤S120：根据样本数据的预测结果值对标签值按照设定排序规则进行排序，并将排序后的样本数据分成多个分段；每个分段中的样本数据的数量差小于预设值。

在得到样本数据的预测结果值后，根据样本数据的预测结果值对标签值按照设定排序规则进行排序，并将排序后的样本数据分成多个分段。

例如，对样本数据的标签值按照样本数据的预测结果值的大小进行排序；或，对样本数据的预测结果值按照设定的排序规则进行排序，且所述标签值相应样本数据的预测结果值的排序对应同步变动排序。

在一个可选的实施方式中，通过预测结果值的数值大小按照预设规则对标签值进行排序，例如按照预测结果值升序或降序的方式对输出数据进行排序处理。具体地，可通过希尔排序的方法对该标签值进行排序，在其他实施方式中也可以通过其他排序方法，如冒泡排序等方式进行排序，在此不作限定。由于标签值是对样本数据的标注，因此，对标签值进行排序，可以理解为对样本数据进行了同步排序。进一步地，将排序后的样本数据分成多个分段，在一个具体的实施方式中，按照标签值的数量进行分段，其中，每个分段中的标签值的数量差小于预设值，即将每个分段中的标签值的数量设置为相等或者大致相等。

在其他的实施方式中，对样本数据的预测结果值还可以按照其他的预设的排序规则进行排序，且标签值相应样本数据的预测结果值的排序对应同步变动排序，在此不作限定。

同样的以数据样本对应为金融模型领域的客户为例，当完成对客户样本的标签值排序以后，将客户样本分成N段，每一个分段中的客户样本数量相等或者大致相等。

步骤S130：利用样本数据的标签值确定样本数据中标签值为第一值的样本数据的总量，每个分段中标签值为第一值的样本数据的实际数量以及平均数量。

在对样本数据进行分段后，利用样本数据的标签值确定样本数据中标签值为第一值的样本数据的总量，每个分段中标签值为第一值的样本数据的实际数量以及平均数量。

在一个具体的实施方式中，样本数据的标签值为第一值为非零整数，如1、2、3等等，为了方便计算，在一个优选的实施方式中，标签值的第一值为1，标签值的第二值为0。因此，对此样本数据中的所有标签值进行求和运算，则可以得到标签值为第一值的样本的的总数量。同样的，对每一个分段中的标签值进行求和运算，其求和结果即为该分段中标签值为第一值的样本的实际数量。

每个分段中标签值为第一值的样本数据的平均数量可以表示为此样本数据中的标签值为第一值的样本的的总数量与数据分段的段数N的比值。

具体的，同样的以样本数据对应为金融模型领域的客户，且标签值的第一值表示坏客户为例，其中坏客户的标签值为1，非坏客户的标签值为0。

首先，对所有客户样本中标签值进行求和，得到客户样本中标签值为1的总量X，即得到客户样本中的坏客户的总数X。

进一步地，通过客户样本中的坏客户的总数X除以分段总量N，得到每个分段中标签值为1的样本数据的平均数量。

每个分段中标签值为第一值的样本数据的实际数量可以通过对每一分段中的坏客户进行统计而获得，计作X_i，其中i是正整数i＝1,2,3,···，N。

步骤S140：基于实际数量以及平均数量确定所有分段中的最大提升指数。

本步骤中确定所有分段中的最大提升指数包括：计算每个分段中标签值为第一值的样本数据的实际数量与平均数量的比值，确定每个分段的提升指数；从所有分段的提升指数中确定出最大提升指数。

具体地，通过计算上述每个分段中的标签值为第一值的实际数量与平均数量的比值，确定每个分段的提升指数Lift。即标签值为第一值的样本越多，对应的提升指数Lift就越高。其中，以样本数据对应为金融模型领域的客户，且标签值的第一值表示坏客户为例，第i个分段的提升指数Lift_i＝X_i/(X/N)。

当完成每个分段的提升指数Lift_i的计算后，从所有分段的提升指数中确定出最大提升指数Lift_max。具体地，可以通过统计每个分段的提升指数Lift_i，并依次比较每个分段的提升指数Lift_i，从而确定最大提升指数Lift_max。

在另一个实施方式中，在计算出每个分段中标签值为第一值的样本数据的实际数量与平均数量的比值，确定每个分段的提升指数及所有分段中的最大提升指数之后，还可以基于每个分段的提升指数以及所述平均指数绘制提升指数分布图，从而可以更加直观的体现标签值为第一值的样本数据的分布情况，在此不作限定。

步骤S150：根据相邻两个分段的标签值为第一值的样本数据的实际数量确定所有分段的排序不单调率。

单调性(monotonicity)也叫函数的增减性，可以定性描述在一个指定区间内，函数值变化与自变量变化的关系。当函数f(x)的自变量在其定义区间内增大(或减小)时，函数值也随着增大(或减小)，则称该函数为在该区间上具有单调性(单调增加或单调减少)。在本实施方式中，排序不单调率是用以表示相邻两个分段中标签值为第一值的样本数据的实际数量的差值与标签值的设定排序顺序之间的不单调程度。

在本实施方式中，首先按照相同规则依次计算相邻两个分段中标签值为第一值的样本数据的实际数量的差值；判断差值的属性是否与设定排序规则相一致；如果不相一致，不单调样本数据加1；获取到不单调样本数据的总量，并根据不单调样本数据与样本数据的分组数量的比值确定排序不单调率。

例如将样本数据等分成了6段，每段的样本数据为5个，第一分段X₁中标签值为第一值的样本有0个，第二分段X₂中标签值为第一值的样本数据为1个，第三分段X₃中标签值为第一值的样本数据为3个，第四分段X₄中标签值为第一值的样本数据为2个，第五分段X₅中标签值为第一值的样本数据为1个，第六分段X₅中标签值为第一值的样本数据为4个。样本数据的标签值是按照预测结果值的升序进行排序的。不单调样本数据的初始值为0。

其中，第二分段X₂与第一分段X₁的标签值为第一值的样本数据的差值为1，大于0，与标签值的设定排序顺序一致，不单调样本数据保持为0。第三分段X₃与第二分段X₂的标签值为第一值的样本数据的差值为2，大于0，与标签值的设定排序顺序一致，不单调样本数据依然保持为0。第四分段X₄与第三分段X₃的标签值为第一值的样本数据的差值为-1，小于0，与标签值的设定排序顺序不一致，不单调样本数据加1，变更为1。第五分段X₅与第四分段X₄的标签值为第一值的样本数据的差值为-1，小于0，与标签值的设定排序顺序不一致，不单调样本数据加1，变更为2。第六分段X₆与第五分段X₅的标签值为第一值的样本数据的差值为3，大于0，与标签值的设定排序顺序一致，不单调样本数据不加1，依然保持为2。因此，6分组样本数据的不单调样本数据的总量为2。样本数据的排序不单调率为不单调样本数据总量2与样本数据的分组数量6的比值，即1/3。

在其他实施方式中，根据提升指数的求取方式可知，分组内标签值为第一值的样本数据越多，对应的提升指数Lift_i就越高，即提升指数与标签值为第一值的样本数据成正相关，因此，在得到每个分段的提升指数后，也可以通过相邻两个分段的提升指数的差值来计算排序不单调率。

步骤S160：通过最大提升指数与排序不单调率的比值确定待评估模型的排序能力。

本步骤中，通过步骤S140获得的最大提升指数与步骤S150求得的排序不单调率确定待评估模型的排序能力。

在一个具体实施方式中，待评估模型排序能力可以量化表示为Lift_Score＝Lift_max/S。其中，Lift_max为最大提升指数，S为排序不单调率。

待评估模型排序能力Lift_Score可以基于如下表2所示的代码获得。

表2排序量化算法伪代码表

当获得待评估模型排序能力Lift_Score后，则可以进行一步根据获得的Lift_Score对待评估模型排序能力进行评价。

其中，对待评估模型排序能力进行评价的流程包括：

判断Lift_Score值是否小于第一预设值；当Lift_Score值小于第一预设值则确定待评估模型的排序能力为第一等级；

当Lift_Score值大于第一预设值时，则进一步判断待评估模型排序能力Lift_Score是否大于所述第一预设值，且小于第二预设值；如果Lift_Score值大于第一预设值，且小于第二预设值，则确定待评估模型的排序能力为第二等级；

当Lift_Score值大于第二预设值时，则确定待评估模型的排序能力为第三等级；

其中，第一预设值小于第二预设值；第三等级的排序能力高于第二等级的排序能力，第二等级的排序能力高于第一等级的排序能力。

例如，第一预设值可以设置为5，第二预设值可以设置为17.5。排序能力为第一等级、第二等级以及第三等级则依次为较差、良以及优秀。

即，当Lift_Score小于5时，可以表明待评估模型的排序能力较差；当Lift_Score大于5且小于17.5时，可以表明待评估模型的排序能力为良好；当Lift_Score大于17.5时，可以表明待评估模型的排序能力为优秀。

区别于现有技术，本发明中通过获取到多个样本数据输入待评估模型后输出的预测结果值，根据预测结果值对样本数据的标签值进行排序，并对待评估模型的排序能力进行量化计算得到最大提升指数与排序不单调率，并进一步根据最大提升指数与所述排序不单调率的比值确定所述待评估模型的排序能力，从而简单客观的得出待评估模型的排序能力，不需要经过人为判断，因此可以避免人为判断产生的偏差，进而可以提高对待评估模型排序能力评估的准确性和评估的高效性。

进一步的，本发明还提供了一种模型评估装置，请参阅图2，图2是本发明模型评估装置一实施方式的结构示意图。评估装置200包括数据获取模块210、排序分段模块220、数据处理模块230、提升指数计算模块240、不单调率计算模块250以及排序能力评估模块260。

其中，数据获取模块210用于获取到多个样本数据输入待评估模型后输出的预测结果值。

具体地，首先将多个样本数据输入到待评估模型中，通过该待评估模型对上述多个样本数据进行预测，以获得每一样本数据的预测结果值。对应地，数据获取模块210获取到上述预测结果值。

具体的，以样本数据对应为金融模型领域的客户为例，以样本数据的标签值表示客户的好或者坏，标签值为第二值时即标签值为0时表示该客户为好客户。标签值为第一值即标签值为1时，表示该客户为坏客户。在获取到客户样本数据后，将多个样本数据输入到待评估模型中，通过待评估模型对客户样本数据进行预测评估，从而可以得到每个客户的预测结果值，一般情况下，预测结果值越大，该客户为坏客户的概率就越大。

排序分段模块220用于根据数据获取模块210输出的样本数据的预测结果值对标签值按照设定排序规则进行排序，并将排序后的样本数据分成多个分段；每个分段中的样本数据的数量差小于预设值。

例如，排序分段模块220对样本数据的标签值按照样本数据的预测结果值的大小进行排序；或，对样本数据的预测结果值按照设定的排序规则进行排序，且所述标签值相应样本数据的预测结果值的排序对应同步变动排序。

排序分段模块220在数据获取模块210得到样本数据的预测结果值后，根据样本数据的预测结果值对标签值按照设定排序规则进行排序，并将排序后的样本数据分成多个分段。

在一个可选的实施方式中，排序分段模块220通过预测结果值的数值大小按照设定规则对标签值进行排序，例如按照预测结果值升序或降序的方式对输出数据进行排序处理。具体地，可通过希尔排序的方法对该标签值进行排序，在其他实施方式中也可以通过其他排序方法，如冒泡排序等方式进行排序，在此不作限定。由于标签值是对样本数据的标注，因此，对标签值进行排序，可以理解为对样本数据进行了同步排序。进一步地，将排序后的样本数据分成多个分段，在一个具体的实施方式中，按照标签值的数量进行分段，其中，每个分段中的标签值的数量差小于预设值，即将每个分段中的标签值的数量设置为相等或者大致相等。

数据处理模块230用于对排序分段模块220排序分段处理后样本数据进行数据处理；利用样本数据的标签值确定样本数据中标签值为第一值的样本数据的总量，每个分段中标签值为第一值的样本数据的实际数量以及平均数量。

每个分段中标签值为第一值的样本数据的平均数量可以表示为此样本数据中的标签值为第一值的样本的的总数量除以对数据分段的段数N。

数据处理模块230首先对所有客户样本中标签值进行求和，得到客户样本中标签值为1的总量X，即得到客户样本中的坏客户的总数X。

进一步地，数据处理模块230通过客户样本中的坏客户的总数X除以分段总量N，得到每个分段中标签值为1的样本数据的平均数量。

提升指数计算模块240用于基于数据处理模块230获得的实际数量以及平均数量确定所有分段中的最大提升指数。

提升指数计算模块240具体用于计算每个分段中标签值为第一值的样本数据的实际数量与平均数量的比值，确定每个分段的提升指数；从所有分段的提升指数中确定出最大提升指数。

具体地，通过计算上述每个分段中的标签值为第一值的实际数量与平均数量的比值，确定每个分段的提升指数Lift_i；即标签值为第一值的样本越多，对应的提升指数Lift_i就越高。具体地，以样本数据对应为金融模型领域的客户，且标签值的第一值表示坏客户为例，每个分段的提升指数Lift_i＝X_i/(X/N)。

在另一个实施方式中，在计算出每个分段中标签值为第一值的样本数据的实际数量与平均数量的比值，确定每个分段的提升指数及所有分段中的最大提升指数之后，还可以基于每个分段的提升指数以及所述平均指数绘制提升指数分布图，从而可以更加直观的体现样标签值为第一值的样本数据的分布情况，在此不作限定。

不单调率计算模块250用于根据相邻两个分段的标签值为第一值的样本数据的实际数量确定所有分段的排序不单调率。

在本实施方式中，不单调率计算模块250首先按照相同规则依次计算相邻两个分段中标签值为第一值的样本数据的实际数量的差值；判断差值的属性是否与设定排序规则相一致；如果不相一致，不单调样本数据加1；获取到不单调样本数据的总量，并根据不单调样本数据与样本数据的分组数量的比值确定排序不单调率。

排序能力评估模块260用于通过最大提升指数与排序不单调率的比值确定待评估模型的排序能力。

具体地，排序能力评估模块260判断Lift_Score值是否小于第一预设值；当Lift_Score值小于第一预设值则确定待评估模型的排序能力为第一等级；

即，当Lift_Score小于5时，可以表明待评估模型的排序能力较差；当当Lift_Score大于5且小于17.5时，可以表明待评估模型的排序能力为良好；当Lift_Score大于17.5时，可以表明待评估模型的排序能力为优秀。

区别于现有技术，本发明中中通过获取到多个样本数据输入待评估模型后输出的预测结果值，根据预测结果值对样本数据的标签值进行排序，并对待评估模型的排序能力进行量化计算得到最大提升指数与排序不单调率，并进一步根据最大提升指数与所述排序不单调率的比值确定所述待评估模型的排序能力，从而简单客观的得出待评估模型的排序能力，不需要经过人为判断，因此可以避免人为判断产生的偏差，进而可以提高对待评估模型排序能力评估的准确性和评估的高效性。

请参阅图3，图3是本发明智能系统一实施方式的结构示意图。其中，该智能系统为智能客服系统或其他智能终端、网络终端、PC机等。本实施方式的智能系统30包括人机交互控制电路302、与该人机交互控制电路耦接的处理器301。该处理器301上可运行计算机程序。处理器301在执行计算机程序时能够实现图1及其相关文字描述的任一实施方式的评估方法。

请参阅图4，图4是本发明存储装置一实施方式的结构示意图。本发明还提供一种存储装置的实施方式的结构示意图。本实施方式中，该存储装置40存储有处理器可运行的计算机指令41，该计算机指令41用于执行图1及其相关文字描述的任一实施方式的模型评估方法。

该存储装置40具体可以为U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory，)、磁碟或者光盘等可以存储计算机指令41的介质，或者也可以为存储有该计算机指令的服务器，该服务器可将存储的计算机指令41发送给其他设备运行，或者也可以自运行该存储的计算机指令。

在本发明所提供的几个实施方式中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种模型评估方法，其特征在于，所述评估方法包括：

获取到多个样本数据输入待评估模型后输出的预测结果值，其中，所述样本数据标注有标签值，所述标签值包括第一值和第二值，且每一样本数据对应一预测结果值和一标签值；

根据样本数据的预测结果值对所述标签值按照设定排序规则进行排序，并将排序后的样本数据分成多个分段；每个分段中的样本数据的数量差小于预设值；

利用所述样本数据的标签值确定所述样本数据中标签值为所述第一值的样本数据的总量，每个分段中标签值为所述第一值的样本数据的实际数量以及平均数量；

基于所述实际数量以及平均数量确定所有分段中的最大提升指数；

根据相邻两个分段的所述标签值为所述第一值的样本数据的实际数量确定所述所有分段的排序不单调率；

通过所述最大提升指数与所述排序不单调率的比值确定所述待评估模型的排序能力；

其中，所述基于所述实际数量以及平均数量确定所有分段中的最大提升指数的步骤包括：

计算所述每个分段中所述标签值为第一值的样本数据的实际数量与所述平均数量的比值，确定所述每个分段的提升指数；

从所有分段的所述提升指数中确定出所述最大提升指数。

2.根据权利要求1所述的模型评估方法，其特征在于，所述根据样本数据的预测结果值对所述标签值按照设定排序规则进行排序的步骤包括：

对所述标签值按照所述样本数据的预测结果值的大小进行排序；或，

对所述样本数据的预测结果值按照设定的排序规则进行排序，且所述标签值相应所述样本数据的预测结果值的排序对应同步变动排序。

3.根据权利要求2所述的评估方法，其特征在于，所述对所述标签值按照所述样本数据的预测结果值的大小进行排序的步骤包括：

对所述标签值按照所述样本数据的预测结果值大小进行升序或降序排序；

所述并将排序后的样本数据分成多个分段的步骤包括：

对排序后的标签值进行等数量分段。

4.根据权利要求1所述的评估方法，其特征在于，所述第一值为非零整数，所述第二值为0；

所述利用所述样本数据的标签值确定所述样本数据中标签值为第一值的样本数据的总量，每个分段中标签值为第一值的样本数据的实际数量以及平均数量的步骤包括：

对所述每个分段的样本数据的标签值进行求和，根据求和结果确定每个分段中所述标签值为所述第一值的样本数据的实际数量以及各个分段中所述标签值为所述第一值的样本数据的总量；

根据所述总量与所有样本数据分段数量的比值确定每个分段中所述标签值为所述第一值的样本数据的平均数量。

5.根据权利要求1所述的评估方法，其特征在于，所述基于所述实际数量以及平均数量确定所有分段中的最大提升指数之后还包括：

基于所述每个分段的提升指数以及平均指数绘制提升指数分布图。

6.根据权利要求1或4所述的评估方法，其特征在于，所述根据相邻两个分段中所述标签值为所述第一值的样本数据的实际数量确定所述所有分段的排序不单调率的步骤包括：

按照相同规则依次计算相邻两个分段中标签值为所述第一值的样本数据的实际数量的差值；

判断所述差值的属性是否与所述设定排序规则相一致；

如果不相一致，不单调样本数据加1；

获取到所述不单调样本数据的总量，并根据所述不单调样本数据与所述样本数据的分组数量的比值确定所述排序不单调率。

7.根据权利要求1所述的评估方法，其特征在于，所述通过所述最大提升指数与所述排序不单调率的比值确定所述待评估模型的排序能力的步骤包括：

判断所述最大提升指数与所述排序不单调率的比值是否小于第一预设值；或/和判断所述最大提升指数与所述排序不单调率的比值是否大于所述第一预设值，且小于第二预设值；或/和判断所述最大提升指数与所述排序不单调率的比值是否大于所述第二预设值；

如果所述比值小于所述第一预设值，确定所述待评估模型的排序能力为第一等级；如果所述比值大于所述第一预设值，且小于所述第二预设值，确定所述待评估模型的排序能力为第二等级；如果所述比值大于所述第二预设值，所述待评估模型的排序能力为第三等级；

其中，所述第一预设值小于所述第二预设值；所述第三等级的排序能力高于所述第二等级的排序能力，所述第二等级的排序能力高于所述第一等级的排序能力。

8.一种模型评估装置，其特征在于，所述评估装置包括：

所述数据获取模块用于获取到多个样本数据输入待评估模型后输出的预测结果值，其中，所述样本数据标注有标签值，所述标签值包括第一值和第二值，且每一样本数据对应一预测结果值和一标签值；

所述排序分段模块用于根据样本数据的预测结果值对所述标签值按照设定排序规则进行排序，并将排序后的样本数据分成多个分段；每个分段中的样本数据的数量差小于预设值；

所述数据处理模块用于利用所述样本数据的标签值确定所述样本数据中标签值为所述第一值的样本数据的总量，每个分段中标签值为所述第一值的样本数据的实际数量以及平均数量；

所述提升指数计算模块用于基于所述实际数量以及平均数量确定所有分段中的最大提升指数；其中，所述提升指数计算模块根据所述每个分段中所述标签值为第一值的样本数据的实际数量与所述平均数量的比值，确定所述每个分段的提升指数；且从所有分段的所述提升指数中确定出所述最大提升指数；

所述不单调率计算模块用于根据相邻两个分段的所述标签值为所述第一值的样本数据的实际数量确定所述所有分段的排序不单调率；

所述排序能力评估模块用于通过所述最大提升指数与所述排序不单调率的比值确定所述待评估模型的排序能力。

9.一种智能系统，其特征在于，所述智能系统包括相互耦接的人机交互控制电路、处理器及能够在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1～7任一项所述的评估方法的步骤。

10.一种存储装置，其特征在于，所述存储装置上存储有程序数据，所述程序数据被处理器执行时实现如权利要求1～7任一项所述的评估方法。