CN114418018A

CN114418018A - 模型性能评估方法、装置、设备与存储介质

Info

Publication number: CN114418018A
Application number: CN202210080989.6A
Authority: CN
Inventors: 林禹君
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-04-29

Abstract

本发明公开了一种模型性能评估方法、装置、设备与存储介质，属于计算机信息处理技术领域。本发明通过获取实验组新模型的第一拒绝率和对照组与实验组的实际样本数比值，根据所述第一拒绝率和所述实际样本数比值，计算得到对照组的还原权重，获取对照组的坏样本数，根据所述还原权重和所述坏样本数，计算得到真实总样本中的坏样本数，根据所述真实坏样本数进行模型性能评估。通过对实验组已经拒绝的客户可以根据对照组的还原权重还原后作为实验组的客户表现，就可以实现对实验组拒绝样本的好坏推断，也还原了真实的坏样本比例，实现对新模型性能的准确评估。

Description

模型性能评估方法、装置、设备与存储介质

技术领域

本发明涉及计算机信息处理技术领域，尤其涉及模型性能评估方法、装置、设备与存储介质。

背景技术

在日常的风控工作中，随着业务的发展，我们需要不断对策略和模型进行迭代优化。通常新开发的模型对业务效果往往有更大的提升，但是新开发的模型效果是通过离线数据分析得来的。因此在不进行生产测试的情况下，贸然用新的策略模型替换原有策略模型是很不明智的。这时候我们需要测试对比新旧策略模型的效果，选择较优的策略模型使用，这种情况下常被采用的技术是冠军/挑战者试验，也就是常常听到的A/B Test。

现有技术在进行A/B测试时，为了对新模型性能做评估，往往会选择用对照组的样本进行评估。但是仅用对照组进行评估，难以得到新模型较为全面准确的评估结果。

发明内容

本发明的主要目的在于提供一种模型性能评估方法、装置、设备与存储介质，旨在解决现有技术中对模型性能评估不够准确的问题。

为实现上述目的，本发明提供一种模型性能评估方法，所述模型性能评估方法包括以下步骤：

获取实验组新模型的第一拒绝率；

获取对照组与所述实验组的实际样本数比值；

根据所述第一拒绝率和所述实际样本数比值，计算对照组的还原权重；

获取对照组的坏样本数；

根据所述还原权重和所述坏样本数，计算得到真实坏样本数；

根据所述真实坏样本数进行模型性能评估。

可选地，所述根据所述第一拒绝率和所述实际样本数比值，计算对照组的还原权重的步骤包括：

根据所述第一拒绝率和所述实际样本数比值，计算得到原始样本数比值；

根据所述原始样本数比值得到对照组的还原权重。

可选地，所述获取实验组新模型的第一拒绝率的步骤之前，所述方法还包括：

划分实验组和对照组，所述实验组使用新模型上线测试，所述对照组直接上线测试。

可选地，所述获取对照组与所述实验组的实际样本数比值的步骤包括：

获取预期对照组样本数；

获取总样本数和样本通过率；

根据所述预期对照组样本数、所述总样本数和所述样本通过率，计算实际样本数比值。

可选地，所述获取样本通过率的步骤包括：

统计历史日申请业务人数、历史样本通过率和历史核准率，计算得到历史日借款用户数；

根据所述历史日借款用户数和所述历史日申请业务人数，计算得到样本通过率。

可选地，所述获取实验组新模型对客户的第一拒绝率的步骤包括：

获取预设第二拒绝率；

计算所述新模型应用所述第二拒绝率后的提升度；

判断所述提升度是否超过提升度阈值；

若是，则选择所述第二拒绝率作为第一拒绝率。

可选地，所述根据所述真实坏样本数进行模型性能评估的步骤包括：

根据所述真实坏样本数，计算KS统计量；

根据所述KS统计量，评估新模型的好坏样本区分程度；

基于所述好坏样本区分程度得到模型的性能评估结果。此外，为实现上述目的，本发明还提供一种模型性能评估装置，所述装置包括：第一获取模块，用于获取实验组新模型的第一拒绝率；

第二获取模块，用于获取对照组与所述实验组的实际样本数比值；

第一计算模块，用于根据所述第一拒绝率和所述实际样本数比值，计算对照组的还原权重；

第三获取模块，用于获取对照组的坏样本数；

第二计算模块，用于根据所述还原权重和所述对照组的坏样本数，计算得到真实坏样本数；

评估模块，用于根据所述真实坏样本数进行模型性能评估。

可选地，所述第一计算模块还用于：

根据所述原始样本数比值得到对照组的还原权重。

可选地，所述第一获取模块还用于：

可选地，所述第二获取模块还用于：

获取预期对照组样本数；

获取总样本数和样本通过率；

可选地，所述第二获取模块还用于：

可选地，所述第一获取模块还用于：

获取预设第二拒绝率；

计算所述新模型应用所述第二拒绝率后的提升度；

判断所述提升度是否超过提升度阈值；

若是，则选择所述第二拒绝率作为第一拒绝率。

可选地，所述评估模块还用于：

根据所述真实坏样本数，计算KS统计量；

根据所述KS统计量，评估新模型的好坏样本区分程度；

基于所述好坏样本区分程度得到模型的性能评估结果。

此外，为实现上述目的，本发明还提供一种模型性能评估设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型性能评估程序，所述模型性能评估程序配置为实现如上所述的模型性能评估方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有模型性能评估程序，所述模型性能评估程序被处理器执行时实现如上所述的模型性能评估方法的步骤。

本发明实施例提出的公开了一种模型性能评估方法、装置、设备与存储介质，通过获取实验组新模型的第一拒绝率和对照组与实验组的实际样本数比值，根据所述第一拒绝率和所述实际样本数比值，计算得到对照组的还原权重，获取对照组的坏样本数，根据所述还原权重和所述坏样本数，计算得到真实总样本中的坏样本数，根据所述真实坏样本数进行模型性能评估。通过对实验组已经拒绝的客户可以根据对照组的还原权重还原后作为实验组的客户表现，就可以实现对实验组拒绝样本的好坏推断，也还原了真实的坏样本比例，实现对新模型性能的准确评估。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的模型性能评估设备的结构示意图；

图2为本发明模型性能评估方法一实施例的流程示意图；

图3为本发明模型性能评估方法一实施例的样本分布示意图；

图4为本发明模型性能评估方法第二实施例中步骤S20的细化流程示意图；

图5为为本发明模型性能评估方法第三实施例的流程示意图；

图6为本发明模型性能评估方法一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的模型性能评估设备结构示意图。

如图1所示，该模型性能评估设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对模型性能评估设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及模型性能评估程序。

在图1所示的模型性能评估设备中，网络接口1004主要用于与其他设备进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明资产水平预测设备中的处理器1001、存储器1005可以设置在模型性能评估设备中，所述模型性能评估设备通过处理器1001调用存储器1005中存储的模型性能评估程序，并执行本发明实施例提供的模型性能评估方法。

本发明实施例提供了一种模型性能评估方法，参照图2，图2为本发明一种模型性能评估方法第一实施例的流程示意图。

本实施例中，所述模型性能评估方法包括：

步骤S10，获取实验组新模型的第一拒绝率；

步骤S20，获取对照组与所述实验组的实际样本数比值；

步骤S30，根据所述第一拒绝率和所述实际样本数比值，计算对照组的还原权重；

步骤S40，获取对照组的坏样本数；

步骤S50，根据所述还原权重和所述对照组的坏样本数，计算得到真实坏样本数；

步骤S60，根据所述真实坏样本数进行模型性能评估。

本实施例模型性能评估方法用于A/B测试时，对新模型性能进行评估。通常在进行模型或策略迭代的时候，会对新版的模型或策略与旧版的进行A/B测试，然后对比两部分客户(实验组与对照组)的差异(如坏样本率)，也可以通过显著性检验进行有效性验证，从而选出较好的策略版本作为正式版本上线应用。

我们在进行统计分析时，用局部样本代替了总体样本，未考虑到局部样本本身是否有足够的代表性，进而对总体的分析出现偏差，从而得出错误的结论。风控建模使用的样本是有贷后表现的通过人群，而模型上线用需要应用在所有人群上。由于通过人群与拒绝人群本身是由风控策略决定的分布完全不同的两部分人群，因此，使用通过人群建模得到的模型在拒绝人群上的表现完全无法保障，进而导致模型上线之后的实际表现远不如预期。因此，需要对其性能进行评估。在A/B测试期间，由于实验组已经应用新的模型进行实际拒绝了，实验组的样本分布有偏，因此只能参考对照组的结果进行新模型性能评估。但由于新的模型理论上性能应该优于旧版模型，因此在做A/B测试分组时实验组的数量会显著大于对照组，导致对照组的数量较少，这样不仅无法利用到全部样本进行评估，浪费了实验组的样本，并且因为对照组样本量较少，无法准确的对模型进行评估。因此，为了准确的评估新模型的性能，需要还原真实的全样本分布。

以下针对各个步骤进行详细说明：

步骤S10，获取新模型的第一拒绝率；

在一实施例中，获取新模型的第一拒绝率。其中，新模型为研发人员新研发出来待测试的模型或者策略，该模型用于业务风险管控。新模型设置有拒绝率，会根据模型的判断条件对办理业务客户进行拒绝，拒绝的人数占总人数之比就是拒绝率。拒绝模型判断比较可能出现坏的贷后表现的人群，对这部分人群进行拒绝，以降低办理业务人群中的坏样本数。

进一步地，在一实施例中，所述获取实验组新模型的第一拒绝率的步骤之前，所述方法还包括：

步骤S11，划分实验组和对照组，所述实验组使用新模型上线测试，所述对照组直接上线测试。

在一实施例中，划分实验组和对照组。可以理解的，在进行模型性能评估的时候，需要进行A/B测试，在A/B测试中，实验组会使用新模型进行拒绝，对照组则不使用新模型进行拒绝。具体地，将来办理业务的人员随机划分到实验组或对照组，对划分到实验组的客户使用新模型进行评估，得到是否拒绝的判断结果，若不拒绝，则为通过客户，累积通过的客户样本作为实验组数据。对划分到对照组的客户，不拒绝，直接根据正常业务流程进行业务办理，累积对照组的样本数据，直到样本数达到预期要求。

步骤S20，获取对照组与所述实验组的实际样本数比值；

在一实施例中，获取对照组与所述实验组的实际样本数比值。其中，实际样本数比值为测试后，对照组与所述实验组的样本数样本数量之比。实际样本数比值为业务人员根据经验预设的，例如设置为1:9、1:19。因为在上新的模型或策略的时候都是拿历史数据去回溯过的，在历史数据上应用新模型回测的效果肯定是更好的，但是在实际生产的过程中，不确定模型是否能有更好的效果，因此我们需要做一个对照组来做一个效果的对比。可以理解的，上新模型或策略的目的就是为了降低坏样本数，因此，在样本的数量上会向实验组倾斜，更多地应用新模型去实际拒绝。本实施中需要获取对照组和实验组的实际样本数比值，以确认对照组和实验组的样本数到底相差多少。

在一实施例中，根据第一拒绝率、对照组与实验组的实际样本数比值，计算对照组的还原权重。具体的，根据第一拒绝率可以推算出实验组拒绝掉的用户数量，将拒绝的用户数量还原，得到没有应用新模型进行拒绝的实验组原始人数。再根据实际拒绝后实验组和对照组的实际样本数比值，得到对照组的还原权重。

进一步地，在一实施例中，所述根据所述第一拒绝率和所述实际样本数比值，计算对照组的还原权重的步骤包括：

步骤S31，根据所述第一拒绝率和所述实际样本数比值，计算得到原始样本数比值；

步骤S32，根据所述原始样本数比值得到对照组的还原权重：

在一实施例中，根据实验组原始人数和实际样本数比值，推算出对照组和原始实验组的原始样本数比值，然后基于原始样本数比值得到对照组的还原权重。具体地，假设原始实验组人数为x，拒绝率为a，则根据当前实验组人数b可以计算得到原始实验组人数，公式如下：

然后根据原始实验组人数、实际对照组人数，得到原始样本数比值。

假设全部通过且借款客户中，有9000人是实验组，运用新的模型进行了部分拒绝。而剩下1000人是对照组，未运用新模型进行拒绝。实验组中的新模型对客户第一拒绝率为10％，因为对照组跟实验组的客户是随机分配的，因此对照组中命中新模型拒绝规则的人也差不多是10％，则根据对照组与实验组的实际样本数比值为1：9，而实验组比对照组多拒绝了10％的客户，因此原始的对照组与实验组的样本数之比应该为1000：10000即1：10。那么对照组是一份，则实验组有十份的坏样本。这部分对照组中命中新模型拒绝规则的样本还原权重为11倍。

步骤S40，获取对照组的坏样本数；

在一实施例中，获取对照组的坏样本数。A/B测试是已经在线上实际用的时候得到的数据，使用过后就可以得到这些通过客户的表现，以此得到客户是好样本还是坏样本。具体的，通过审批策略，已经把对照组的一部分和实验组的一部分通过了，经过一段时间后，根据他们的还款表现，能得到好坏样本的标签，从而获取对照组的坏样本数。例如：设置阈值，将逾期率超过阈值的用户划分为坏样本，小于阈值的划分为好样本，分别统计好坏样本的总数。

在一实施例中，基于还原权重和对照组坏样本数，计算得到真实坏样本数。其中，真实坏样本数为总样本中坏样本的数量，也即推断出实验组没有用新模型进行拒绝时，所有样本中坏样本的数量。具体地，将对照组的坏样本数乘以还原权重，即得到真实坏样本数。

步骤S60，根据所述真实坏样本数进行模型性能评估。

在一实施例中，根据真实坏样本数进行模型性能评估。可以理解的，在风控业务中，模型性能是否提升主要是看应用新模型策略后，能不能减少坏样本的数量。因此，根据步骤S10～S40还原得到的真实坏样本数之后，对应的也可以得到真实好样本数，使用预设的模型性能评估方法对新模型进行性能评估，例如：混淆矩阵、ROC(Receiver OperatingCharacteristic，受试者工作特征)、AUC：ROC曲线下的面积等。

参照图3，图3为本发明模型性能评估方法一实施例的样本分布示意图，对本发明一实施例模型性能评估方法进行解释：

如图3所示，全部通过且借款客户中，有9000人是实验组，运用新的模型进行了部分拒绝。而剩下1000人是对照组，未运用新模型进行拒绝。直观上对照组坏样本率为3％，实验组坏样本率为1.1％，可以看出新模型的性能是比较好的，拒绝了很多的坏客户，从而实验组有一个较低的坏样本率。但是如何通过传统的性能评估方法(如KS、AUC)量化的评估新模型的实际性能呢，仅利用对照组的样本对新模型性能进行评估数量太少。因此需要利用对照组样本，通过还原权重的方式，加上实验组样本还原真实的样本分布。

假设实验组中的新模型对客户拒绝率为10％，因为对照组跟实验组的客户是随机分配的，因此对照组中命中新模型拒绝规则的人也差不多是10％，假设对照组中命中新模型拒绝规则的人中有20个坏样本，80个好样本，则根据对照组与实验组的样本数为1：9，而实验组比对照组多拒绝了10％的客户，因此原始的对照组与实验组的样本数之比应该为1000：10000即1：10，这部分对照组中命中新模型拒绝规则的样本还原权重为11倍。

即如果没有应用新模型拒绝规则，则实验组中应该新增200个坏样本，800个好样本。

对于未命中新模型拒绝规则的样本，只需要保持原有的权重，即权重为1。通过这种方式，我们可以得到模拟的总通过样本中应该有330个坏样本，10670个好样本。通过对对照组中命中新模型拒绝规则的样本进行权重还原，就可以实现对实验组拒绝样本的好坏推断，也还原了真实的坏样本比例，可以准确地评估新模型的性能。

本实施例通过获取新模型的第一拒绝率，并获取对照组的第一样本数与实验组的第二样本数，计算得到实际样本数比值，基于第一拒绝率还原实验组未使用模型进行拒绝时的人数，再根据对照组和实验组的实际样本数比值，得到对照组和未进行拒绝原始实验组的原始样本数比值，计算得到对照组相对中实验人数的还原权重，获取对照组的坏样本数，根据所述还原权重，计算得到真实坏样本数，然后用真实坏样本数进行模型性能评估。通过权重还原相当于实验组回到了没有用新模型做拒绝的状态，然后用没有拒绝的样本去做模型性能评估，能够还原实验组真实坏样本率，提高了模型性能评估的准确性。

参照图4，图4为本发明模型性能评估方法第一实施例中步骤S20的细化流程示意图，进一步地，基于本发明模型性能评估方法第一实施例，提出本发明模型性能评估方法第二实施例。

模型性能评估方法第二实施例与资模型性能评估方法第一实施例的区别在于，所述获取对照组与所述实验组的实际样本数比值的步骤包括：

步骤S21，获取预期对照组样本数；

步骤S22，获取总样本数和样本通过率；

步骤S23，根据所述预期对照组样本数、所述总样本数和所述样本通过率，计算实际样本数比值。

本实施例通过预期的对照组样本数、总样本数和样本通过率，得到实际样本数比值。以下将对各个步骤进行说明：

步骤S21，获取预期对照组样本数；

在一实施例中，对照组和实验组的客户是随机选取的，并且对照组和实验组的样本数是按照预设的比例进行划分，例如预计总共收集10000个样本，通常会留个5％的人数，10％的人数放到对照组，选取实际样本数比值为10％，则得到预期对照组样本数1000人，预期实验组样本数9000人。可以理解的，对照组的人数比较多的话，坏样本率比较高，对整体的坏样本率(逾期率)的影响比较大。对照组留的样本太少，不好评估。因为如果坏样本率比较低的话，并且样本数又少，可能采集了500个样本也不会出现坏样本，这样就需要更长的时间的累积对照组的样本，才能达到评估的要求。因此，首先获取预期对照组样本数，具体地，预期对照组样本数是根据业务需要设置的。

步骤S22，获取总样本数和样本通过率；

在一实施例中，获取总样本数和样本通过率。其中，样本通过率为办理业务的人中，最后成功通过准许办理业务的人占总办理业务人数之比。总样本数为进行新模型测试总共需要的样本数，包括实验组和对照组。总样本数是根据业务需要设置的，样本通过率是根据历史数据设置的。

在一实施例中，基于预期对照组样本数、总样本数、样本通过率，推算出实际样本数比值。根据总样本数和样本的通过率，以及最终对照组可以得到多少样本以供分析，倒推出来。例如总样本数为1000，通过率为50％，预期对照组样本数为50，则通过后样本数为500，对照组与实验组的样本数比为50：450，计算得到实际样本数比值为1:9。

进一步地，在一实施例中，所述获取样本通过率的步骤包括：

步骤S221，统计历史日申请业务人数、历史样本通过率和历史核准率，计算得到历史日借款用户数；

步骤S222，根据所述历史日借款用户数和所述历史日业务人数，计算得到样本通过率。

在一实施例中，统计历史日申请业务人数、历史样本通过率和历史核准率，计算历史日借款用户数。样本通过率，通过过去数据模拟得到的。根据每天的申请客户数，乘以(1-拒绝率)，乘以核准率，得到每日有借款客户的大概数量，将每日有借款客户除以每日申请客户数得到通过率，将此通过率作为样本通过率。其中，核准率通俗点讲是在一定的规则约束下，允许个体进入我们样本的比例，比例高，说明规则拦截力度小，比例小，说明拦截力度大。

本实施例通过统计历史日申请业务人数、历史样本通过率和历史核准率，计算得到历史日借款用户数，再根据所述历史日借款用户数和所述历史日申请业务人数，计算得到样本通过率，再获取预期对照组样本数和总样本数，根据预期对照组样本数、总样本数和样本通过率，计算实际样本数比值，实现了对对照组和实验组样本量的合理划分，以达到更优的模型评估效果，提高评估准确率。

参照图5，图5为本发明模型性能评估方法第三实施例的流程示意图，进一步地，基于本发明模型性能评估方法第一、二实施例，提出本发明模型性能评估方法第三实施例。

模型性能评估方法第三实施例与模型性能评估方法第一、二实施例的区别在于，所述获取实验组新模型对客户的第一拒绝率的步骤包括：

步骤S12，获取预设第二拒绝率；

步骤S13，计算所述新模型应用所述第二拒绝率后的提升度；

步骤S14，判断所述提升度是否超过提升度阈值；

步骤S15，若是，则选择所述第二拒绝率作为第一拒绝率。

本实施例通过测试第二拒绝率带来的提升度，当选择的第二拒绝率超过提升度阈值时，选择第二拒绝率作为第一拒绝率。

以下将对各个步骤进行详细说明：

步骤S12，获取预设第二拒绝率；

在一实施例中，获取预设第二拒绝率。第二拒绝率为业务人员根据实际需求设置的，不同的模型或策略的拒绝率不一样。拒绝率即模型拒绝人数占总业务人数之比。

步骤S13，计算所述新模型应用所述第二拒绝率后的提升度；

在一实施例中，新模型应用预设的第二拒绝率后，计算得到新模型的提升度。在模型评估中，我们常用到增益/提升(Gain/Lift)图来评估模型效果，其中的Lift是“运用该模型”和“未运用该模型”所得结果的比值。以信用评分卡模型的评分结果为例，我们通常会将打分后的样本按分数从低到高排序，取10或20等分(有同分数对应多条观测的情况，所以各组观测数未必完全相等)，并对组内观测数与坏样本数进行统计。用评分卡模型捕捉到的坏客户的占比，可由该组坏样本数除以总的坏样本数计算得出；

而不使用此评分卡，以随机选择的方法覆盖到的坏客户占比，等价于该组观测数占总观测数的比例。对两者取累计值，取其比值，则得到提升度Lift，即该评分卡抓取坏客户的能力是随机选择的多少倍。

例如：贷款客户的违约率为2％，你用数据挖掘方法建立了一个预测贷款客户将来违约可能性的模型，用这个模型将客户进行评分后，违约可能性最高的10％的客户中，实际违约客户占了50％，说明你所建立的模型对于这一部分客户识别的提升率是5(50％是10％的5倍)，你只要做好这10％的客户的贷后管理，就能够避免50％违约客户的损失。

步骤S14，判断所述提升度是否超过提升度阈值；

在一实施例中，判断提升度是否超过提升度阈值。可以理解的，因为提升度是用来评估模型好坏的重要指标，而拒绝率是影响模型好坏的重要参数，因此通过应用第二拒绝率后模型的提升度来确定是否应用第二拒绝率。其中，提升度阈值是根据实际情况确定的，比如要求提升度要达到三倍以上，那么根据提升度去做拒绝阈值切分。

步骤S15，若是，则选择所述第二拒绝率作为第一拒绝率。

在一实施例中，若新模型选择第二拒绝率应用后，计算出来的提升度达到提升度阈值，则将第二拒绝率作为新模型实际应用的第一拒绝率。因此，主要根据业务对通过率的要求，以及新拒绝策略的提升度，权衡提升度和拒绝率，得到新模型实际应用的第一拒绝率。对应的，如果提升度低于提升度阈值的话，则重新选择第二拒绝率进行测试。

进一步地，在一实施例中，所述根据所述真实坏样本数进行模型性能评估的步骤包括：

步骤S61，根据所述真实坏样本数，计算KS统计量；

步骤S62，根据所述KS统计量，评估新模型的好坏样本区分程度；

步骤S63，基于所述好坏样本区分程度得到模型的性能评估结果。

在一实施例中，在获取到真实坏样本数后，根据真实坏样本数进行模型性能评估。可以理解的，在得到真实坏样本数后可以对应的得到真实好样本数，然后用真实好样本数和真实坏样本数进行KS统计量计算。其中，KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估，指标衡量的是好坏样本累积分布之间的差值，好坏样本累计差异越大，KS指标越大，那么模型的风险区分能力越强。计算KS统计量步骤如下：1.对变量进行分箱，可以选择等频、等距，或者自定义距离。2.计算每个分箱区间的好账户数(goods)和坏账户数(bads)。3.计算每个分箱区间的累计好账户数占总好账户数比率(cum_good_rate)和累计坏账户数占总坏账户数比率(cum_bad_rate)。4.计算每个分箱区间累计坏账户占比与累计好账户占比差的绝对值，得到KS曲线。也就是：ks＝|cum_goodrate-cum_badrate|。5.在这些绝对值中取最大值，得到此变量最终的KS值。

KS值的取值范围是[0，1]，一般习惯乘以100％。通常来说，KS越大，表明正负样本区分程度越好。基于新模型好坏样本的区分程度得到模型的性能评估结果，具体地，可以设置阈值进行判断。

需要说明的是，KS统计量来评估性能只是评估方法中的一种，也可以采用其他的评估指标进行性能评估。

此外，在本实施例中，根据所述第一拒绝率和所述实际样本数比值，计算对照组的还原权重的方法为：

根据所述第一拒绝率和所述实际样本数比值，得到初始权重，根据业务人员的经验，设置经验值，将初始权重加上经验值得到还原权重，例如拒绝率为10％，对照组和实验组的实际样本数比为1:9，计算得到初始权重为11，根据业务经验，对初始权重进行修正，对照组中坏样本占比可能会因为政策原因，或者在某一段时间出现偏高或者偏低的问题，因为对照组和实验组上线测试时间通常不会太久，因为坏样本占比可能会出现异常的偏高或偏低的问题，因而业务人员评估对照组的坏样本占比后，设置经验值，调整初始权重以得到还原权重。具体地，经验值可以是+0.1、+0.01、-0.2、-0.05等等，经验值不会太大，然后用初始权重加上经验值得到还原权重。因为本实施例要解决的问题就是对照组样本数太少，从而使用对照组进行评估不够准确的问题，因此，本实施例为了还原真实的实验组坏样本数，用经验值调整初始权重得到还原权重，从而得到真实坏样本数。

本实施例通过获取预设第二拒绝率，并计算新模型应用所述第二拒绝率后的提升度，进一步判断所述提升度是否超过提升度阈值，若是，则选择所述第二拒绝率作为第一拒绝率，通过提升度计算，并设置提升度阈值，保障了新模型的性能。并且在得到真实坏样本数后，计算KS统计量，根据KS统计量，评估新模型的好坏样本区分程度，再根据好坏样本区分程度得到模型的性能评估结果。实现了根据还原权重还原未拒绝整体样本的真实坏样本数，并根据真实坏样本数使用KS统计量进行新模型性能评估，提高了模型性能评估的效果。

本发明还提供一种模型性能评估装置。如图6所示，图6为本发明模型性能评估方法一实施例的功能模块示意图。

本发明模型性能评估装置包括：

第一获取模块，用于获取实验组新模型的第一拒绝率；

第三获取模块，用于获取对照组的坏样本数；

第二计算模块，用于根据所述还原权重和所述坏样本数，计算得到真实坏样本数；

评估模块，用于根据所述真实坏样本数进行模型性能评估。

可选地，所述第一计算模块还用于：

根据所述原始样本数比值得到对照组的还原权重。

可选地，所述第一获取模块还用于：

可选地，所述第二获取模块还用于：

获取预期对照组样本数；

获取总样本数和样本通过率；

可选地，所述第二获取模块还用于：

统计历史日业务人数、历史样本通过率和历史核准率，计算得到历史日借款用户数；

根据所述历史日借款用户数和所述历史日业务人数，计算得到样本通过率。

可选地，所述第一获取模块还用于：

获取预设第二拒绝率；

计算所述新模型应用所述第二拒绝率后的提升度；

判断所述提升度是否超过提升度阈值；

若是，则选择所述第二拒绝率作为第一拒绝率。

可选地，所述评估模块还用于：

根据所述真实坏样本数，计算KS统计量；

根据所述KS统计量，评估新模型的好坏样本区分程度；

基于所述好坏样本区分程度得到模型的性能评估结果。

本发明还提供一种存储介质。

本发明存储介质上存储有模型性能评估程序，所述模型性能评估程序被处理器执行时实现如上所述的模型性能评估方法的步骤。

其中，在所述处理器上运行的模型性能评估程序被执行时所实现的方法可参照本发明模型性能评估方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种模型性能评估方法，其特征在于，所述模型性能评估方法包括以下步骤：

获取实验组新模型的第一拒绝率；

获取对照组与所述实验组的实际样本数比值；

获取对照组的坏样本数；

根据所述还原权重和所述对照组的坏样本数，计算得到真实坏样本数；

根据所述真实坏样本数进行模型性能评估。

2.如权利要求1所述的模型性能评估方法，其特征在于，所述根据所述第一拒绝率和所述实际样本数比值，计算对照组的还原权重的步骤包括：

根据所述原始样本数比值得到对照组的还原权重。

3.如权利要求1所述的模型性能评估方法，其特征在于，所述获取实验组新模型的第一拒绝率的步骤之前，所述方法还包括：

4.如权利要求1所述的模型性能评估方法，其特征在于，所述获取对照组与所述实验组的实际样本数比值的步骤包括：

获取预期对照组样本数；

获取总样本数和样本通过率；

5.如权利要求4所述的模型性能评估方法，其特征在于，所述获取样本通过率的步骤包括：

6.如权利要求1所述的模型性能评估方法，其特征在于，所述获取实验组新模型对客户的第一拒绝率的步骤包括：

获取预设第二拒绝率；

计算所述新模型应用所述第二拒绝率后的提升度；

判断所述提升度是否超过提升度阈值；

若是，则选择所述第二拒绝率作为第一拒绝率。

7.如权利要求1所述的模型性能评估方法，其特征在于，所述根据所述真实坏样本数进行模型性能评估的步骤包括：

根据所述真实坏样本数，计算KS统计量；

根据所述KS统计量，评估新模型的好坏样本区分程度；

基于所述好坏样本区分程度得到模型的性能评估结果。

8.一种模型性能评估装置，其特征在于，所述装置包括：

第一获取模块，用于获取实验组新模型的第一拒绝率；

第三获取模块，用于获取对照组的坏样本数；

评估模块，用于根据所述真实坏样本数进行模型性能评估。

9.一种模型性能评估设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型性能评估程序，所述模型性能评估程序配置为实现如权利要求1至7中任一项所述的模型性能评估方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有模型性能评估程序，所述模型性能评估程序被处理器执行时实现如权利要求1至7任一项所述的模型性能评估方法的步骤。