CN110310038A

CN110310038A - 模型或策略的评估方法、装置、设备及可读存储介质

Info

Publication number: CN110310038A
Application number: CN201910583997.0A
Authority: CN
Inventors: 王磊; 袭琳琳; 桑晓临
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-08

Abstract

本发明公开了一种模型或策略的评估方法、装置、设备及可读存储介质，该方法包括以下步骤：当侦测到对模型或策略的评估请求时，调用预设区分能力标准和预设有效性标准；根据所述预设区分能力标准，对所述模型或策略进行区分能力评估，生成区分能力评估结果；根据所述预设有效性标准，对所述模型或策略进行有效性评估，生成有效性评估结果，完成对所述模型或策略的评估。本发明中模型和策略均可通过预设区分能力标准和预设有效性标准进行评估，确保依据相同的评估标准生成评估结果，两者之间评估结果的对比参考价值较高，便于对模型和策略的统一监控管理。

Description

模型或策略的评估方法、装置、设备及可读存储介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种模型或策略的评估方法、装置、设备及可读存储介质。

背景技术

随着金融科技(Fintech)，尤其是互联网科技金融的不断发展，金融领域中对模型或策略的使用随处可见，如申请模型，监控策略等；各模型因设置的差异性，使得在应用过程中的应用效果千差万别，为了确保具有较好的应用效果，在将模型和监控策略投入使用之前需要进行评估。

现有针对模型和策略的评估方案相对独立，两者使用不同的评估标准，一方面需要针对模型和策略设定不同的评估标准，增加了设定工作量；另一方面因不同的评估标准，导致模型和策略之间评估结果所具有的对比参考价值较弱；如此一来，不便于对模型和策略的统一监控管理。

发明内容

本发明的主要目的在于提供一种模型或策略的评估方法、装置、设备及可读存储介质，旨在解决现有技术中对模型和策略的评估标准不同，不便于对模型和策略的统一监控管理的技术问题。

为实现上述目的，本发明提供一种模型或策略的评估方法，所述模型或策略的评估方法包括以下步骤：

当侦测到对模型或策略的评估请求时，调用预设区分能力标准和预设有效性标准；

根据所述预设区分能力标准，对所述模型或策略进行区分能力评估，生成区分能力评估结果；

根据所述预设有效性标准，对所述模型或策略进行有效性评估，生成有效性评估结果，完成对所述模型或策略的评估。

可选地，所述根据所述预设区分能力标准，对所述模型或策略进行区分能力评估，生成区分能力评估结果的步骤包括：

根据所述预设区分能力标准，对所述模型或策略在预设多时段内区分的第一样本和第二样本进行KS距离计算，生成各维度评分信息；

对各所述维度评分信息进行整合，生成区分能力评分值；

根据所述区分能力评分值，评估所述模型或策略的区分能力，生成区分能力评估结果。

可选地，所述预设多时段包括第一时段和第二时段，所述对所述模型或策略在预设多时段内区分的第一样本和第二样本进行KS距离计算，生成各维度评分信息的步骤包括：

对所述模型或策略在第一时段内区分的第一样本和第二样本进行KS距离计算，生成与所述第一时段内各第一子时段对应的第一KS距离；

对所述模型或策略在第二时段内区分的第一样本和第二样本进行KS距离计算，生成与所述第二时段内各第二子时段对应的第二KS距离；

根据各所述第一KS距离和各所述第二KS距离，生成各维度评分信息，其中各所述维度评分信息包括各所述第一KS距离中的第一最大值，各所述第二KS距离中的第二最大值，所述第二最大值的最大均值关系，各所述第一KS距离和各所述第二KS距离中分别达到预设达标值的第一数量占比和第二数量占比，各所述第一KS距离和各所述第二KS距离中分别首次达到预设达标值的第一分位数和第二分位数。

可选地，所述根据所述预设有效性标准，对所述模型或策略进行有效性评估，生成有效性评估结果的步骤包括：

获取在所述模型或策略剔除后生成的第三样本，以及获取在所述模型或策略添加后生成的第四样本；

将所述第三样本和所述第四样本传输到所述预设有效性标准中进行所述预设多时段内的Lift提升倍数计算，生成各维度倍数信息；

对各维度倍数信息进行整合，生成提升倍数评分值；

根据所述提升倍数评分值，评估所述模型或策略的有效性，生成有效性评估结果。

可选地，所述将所述第三样本和所述第四样本传输到所述预设有效性标准中进行所述预设多时段内的Lift提升倍数计算，生成各维度倍数信息的步骤包括：

分别从所述第三样本和所述第四样本中抓取与所述第一时段对应的第三子样本和第四子样本，并对所述第三子样本和所述第四子样本进行Lift提升倍数计算，生成与所述第一时段内各第一子时段对应的第一Lift提升倍数；

分别从所述第三样本和所述第四样本中抓取与所述第二时段对应的第三次子样本和第四次子样本，并对所述第三次子样本和所述第四次子样本进行Lift提升倍数计算，生成与所述第二时段内各第二子时段对应的第二Lift提升倍数；

根据各所述第一Lift提升倍数和各所述第二Lift提升倍数，生成各维度倍数信息，其中各所述维度倍数信息包括所述第一Lift提升倍数中的倍数最大值，所述第二Lift提升倍数在预设样本比上的样本均值关系，各所述第一Lift提升倍数中在第一预设信息上的第一排名，各所述第一Lift提升倍数中在第二预设信息上的第二排名，各所述第一Lift提升倍数中在第三预设信息中的第三排名，各所述第二Lift提升倍数中在所述第一预设信息上的第四排名，各所述第二Lift提升倍数中在所述第二预设信息上的第五排名，各所述第二Lift提升倍数中在所述第三预设信息中的第六排名。

可选地，所述根据所述提升倍数评分值，评估所述模型或策略的有效性，生成有效性评估结果的步骤包括：

对预设的评分值与有效等级之间的对应关系进行调用，并将所述提升倍数评分值与所述对应关系对比，确定与所述提升倍数评分值对应的目标有效等级；

将所述目标有效等级生成为有效性评估结果。

可选地，所述生成有效性评估结果的步骤之后包括：

将与所述区分能力评估结果对应的特性参数，以及与所述有效性评估结果对应的特性参数生成为雷达图，并将所述雷达图输出。

进一步地，为实现上述目的，本发明还提供一种模型或策略的评估装置，所述模型或策略的评估装置包括：

调用模块，用于当侦测到对模型或策略的评估请求时，调用预设区分能力标准和预设有效性标准；

第一评估模块，用于根据所述预设区分能力标准，对所述模型或策略进行区分能力评估，生成区分能力评估结果；

第二评估模块，用于根据所述预设有效性标准，对所述模型或策略进行有效性评估，生成有效性评估结果，完成对所述模型或策略的评估。

进一步地，为实现上述目的，本发明还提供一种模型或策略的评估设备，所述模型或策略的评估设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的模型或策略的评估程序，所述模型或策略的评估程序被所述处理器执行时实现如上述所述的模型或策略的评估方法的步骤。

进一步地，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有模型或策略的评估程序，所述模型或策略的评估程序被处理器执行时实现如上所述的模型或策略的评估方法的步骤。

本发明针对模型和策略设定预设区分能力标准和预设有效性标准，预设区分能力标准用于评估模型或策略对样本的区分能力，预设有效性标准用于评估模型或策略对样本筛选的有效性；在侦测到对模型或策略的评估请求时，对该预设区分能力标准和预设有效性标准进行调用，并根据预设区分能力标准评估模型或策略的区分能力，生成区分能力评估结果；同时依据预设有效性标准评估模型或策略的有效性，生成有效性评估结果。通过区分能力评估结果和有效性评估结果来分别表征模型或策略的区分能力好坏以及有效性的高低。因模型和策略均可通过预设区分能力标准和预设有效性标准进行评估，避免了采用不同的评估标准对两者进行不同的评估，确保依据相同的评估标准生成评估结果，两者之间评估结果的对比参考价值较高，便于对模型和策略的统一监控管理。

附图说明

图1为本发明模型或策略的评估设备实施例方案涉及的设备硬件运行环境的结构示意图；

图2为本发明模型或策略的评估方法第一实施例的流程示意图；

图3为本发明模型或策略的评估方法不同时段内KS距离分布示意图；

图4为本发明模型或策略的评估方法不同时段内Lift提升走势示意图；

图5为本发明模型或策略的评估装置较佳实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种模型或策略的评估设备，参照图1，图1为本发明模型或策略的评估设备实施例方案涉及的设备硬件运行环境的结构示意图。

如图1所示，该模型或策略的评估设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图1中示出的模型或策略的评估设备的硬件结构并不构成对模型或策略的评估设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及模型或策略的评估程序。其中，操作系统是管理和控制模型或策略的评估设备与软件资源的程序，支持网络通信模块、用户接口模块、模型或策略的评估程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的模型或策略的评估设备硬件结构中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；处理器1001可以调用存储器1005中存储的模型或策略的评估程序，并执行以下操作：

进一步地，所述根据所述预设区分能力标准，对所述模型或策略进行区分能力评估，生成区分能力评估结果的步骤包括：

对各所述维度评分信息进行整合，生成区分能力评分值；

进一步地，所述预设多时段包括第一时段和第二时段，所述对所述模型或策略在预设多时段内区分的第一样本和第二样本进行KS距离计算，生成各维度评分信息的步骤包括：

进一步地，所述根据所述预设有效性标准，对所述模型或策略进行有效性评估，生成有效性评估结果的步骤包括：

对各维度倍数信息进行整合，生成提升倍数评分值；

进一步地，所述将所述第三样本和所述第四样本传输到所述预设有效性标准中进行所述预设多时段内的Lift提升倍数计算，生成各维度倍数信息的步骤包括：

进一步地，所述根据所述提升倍数评分值，评估所述模型或策略的有效性，生成有效性评估结果的步骤包括：

将所述目标有效等级生成为有效性评估结果。

进一步地，所述生成有效性评估结果的步骤之后，处理器1001还用于调用存储器1005中存储的模型或策略的评估程序，并执行以下操作：

本发明模型或策略的评估设备的具体实施方式与下述模型或策略的评估方法各实施例基本相同，在此不再赘述。

本发明还提供一种模型或策略的评估方法。

参照图2，图2为本发明模型或策略的评估方法第一实施例的流程示意图。

本发明实施例提供了模型或策略的评估方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。具体地，本实施例中的模型或策略的评估方法包括：

步骤S10，当侦测到对模型或策略的评估请求时，调用预设区分能力标准和预设有效性标准。

本实施例中的模型或策略的评估方法可应用于服务器，通过服务器对设定的模型或策略进行评估，且评估主要针对模型或策略对样本的区分能力和对样本筛选的有效性进行。预先设定有预设区分能力标准和预设有效性标准，其中预设区分能力标准为基于区分能力KS(Kolmogorov-Smirnov，洛伦兹曲线)建立的评估标准，用于对模型或策略的区分能力进行评估；预设有效性标准为基于Lift分析建立的评估标准，用于对模型或策略的有效性进行评估。其中区分能力KS表示在有好样本(数字1表示)和坏样本(数字0表示)的情况下对模型或者策略进行分布差异化评估，且使用分布中最大的KS距离进行评估；Lift分析则是在模型或者策略应用的时候，通过评估被筛选的样本群中坏样本浓度比全体坏样本浓度的提升倍数，来判断模型或策略的有效性。服务器在侦测到对模型或策略的评估请求，表征具有对模型或策略的评估需求时，对预设区分能力标准和预设有效性标准进行调用，以通过两者对模型或策略的区分能力和有效性进行评估。

步骤S20，根据所述预设区分能力标准，对所述模型或策略进行区分能力评估，生成区分能力评估结果。

进一步地，不同模型和策略在设定时针对好样本和坏样本设置有不同的区分标准；如针对用于贷款监控的模型或策略，其依据逾期率设置区分标准；当客户的逾期率大于或等于50％时，将该客户确定为坏样本，而当客户的逾期率小于50％时，将该客户确定为好样本。模型或策略在使用的过程中，依据其中所设定的区分标准对实际的样本数据进行区分，生成好样本和坏样本。预设区分能力标准通过对该区分的好样本和坏样本准确度的评判，来评估模型或策略区分能力的强弱。

步骤S30，根据所述预设有效性标准，对所述模型或策略进行有效性评估，生成有效性评估结果，完成对所述模型或策略的评估。

更进一步地，不同模型或策略所设定的抓取样本数据中坏样本数量的占比需求不同，该不同的占比需求对应不同的筛选机制；如设定2％的占比需求，即100个样本数据中需要抓取其中最差的2个作为坏样本，则依据该2％的占比需求设定对应的从样本数据中筛选坏样本数据的筛选机制。模型或策略在使用过程中，依据该占比需求和筛选机制对实际的样本数据进行筛选，筛选出样本数据中的坏样本。预设有效性标准通过对该筛选的坏样本数量多少的评判，来评估模型或策略筛选有效性的高低。

进一步地，在生成区分能力评估结果和有效性评估结果之后，则完成了对模型或策略评估，通过模型或策略之间区分能力评估结果和有效性评估结果的差异性，来确定模型或策略的性能高低。因模型或策略均采用该同一评估机制，确保了模型或策略的性能高低由相同的依据确定，使得模型或策略之间性能对比的准确性。如对于模型A和策略B，两者均采用本实施例中的评估机制进行评估，生成与A对应的区分能力评估结果A1以及有效性评估结果A2，与B对应的区分能力评估结果B1以及有效性评估结果B2；通过A1和A2之间以及B1和B2之间对比所生成的对比结果，即可体现模型A与策略B之间性能的高低。因A1和A2均依据预设区分能力标准生成，B1和B2均依据预设有效性标准生成，同一评估机制确保了对比结果的准确性，进而使得所反映的模型和策略之间的性能高低更为准确。

进一步地，提出本发明模型或策略的评估方法第二实施例。

所述模型或策略的评估方法第二实施例与所述模型或策略的评估方法第一实施例的区别在于，所述根据所述预设区分能力标准，对所述模型或策略进行区分能力评估，生成区分能力评估结果的步骤包括：

步骤S21，根据所述预设区分能力标准，对所述模型或策略在预设多时段内区分的第一样本和第二样本进行KS距离计算，生成各维度评分信息；

可理解地，实际的样本数据依据时间的不同而具有动态变化的特性，为了更为准确的评估模型或策略的区分能力好坏，设定有针对多个不同时段进行分时段评估的机制。具体地，对模型或策略在预设多时段内所区分的第一样本和第二样本依据预设区分能力标准进行KS距离计算；其中预设多时段为预先根据需求设定的各时段，如近三个月，近四个季度内等；第一样本和第二样本为模型或策略依据其自身设定的区分标准，对预设多时段内的实际样本数据进行划分，所生成的好样本和坏样本；即模型或策略对近三月内或近四个季度内所产生的实际样本数据进行划分，所得到的好样本和坏样本。通过预设区分能力标准计算第一样本数据和第二样本数据之间的KS距离，进而由KS距离来生成表征模型或策略区分能力强弱的各个维度评分信息。

其中，预设多时段包括第一时段和第二时段，所述对所述模型或策略在预设多时段内区分的第一样本和第二样本进行KS距离计算，生成各维度评分信息的步骤包括：

步骤S211，对所述模型或策略在第一时段内区分的第一样本和第二样本进行KS距离计算，生成与所述第一时段内各第一子时段对应的第一KS距离；

步骤S212，对所述模型或策略在第二时段内区分的第一样本和第二样本进行KS距离计算，生成与所述第二时段内各第二子时段对应的第二KS距离；

步骤S213，根据各所述第一KS距离和各所述第二KS距离，生成各维度评分信息，其中各所述维度评分信息包括各所述第一KS距离中的第一最大值，各所述第二KS距离中的第二最大值，所述第二最大值的最大均值关系，各所述第一KS距离和各所述第二KS距离中分别达到预设达标值的第一数量占比和第二数量占比，各所述第一KS距离和各所述第二KS距离中分别首次达到预设达标值的第一分位数和第二分位数。

进一步地，本实施例中的预设多时段包括第一时段和第二时段，其中第一时段为近三个月的时段，第二时段为近四个季度的时段；在计算KS距离时，先计算模型或策略在第一时段内区分的第一样本和第二样本之间的KS距离，再计算模型或策略在第二时段内区分的第一样本和第二样本之间的KS距离。作为第一时段的近三个月由近第一月、近第二月和近第三月的三个月份组成，将模型或策略在该各个月份内所区分的第一样本和第二样本进行KS距离计算，得到各个时段内对应的KS距离值，将该各个距离值作为与第一时段中各第一子时段对应的第一KS距离。其中第一时段中的各第一子时段其实质为第一时段中的近第一月时段、近第二月时段和近第三月时段，与各第一子时段对应的第一KS距离则为近第一月时段内的各KS距离、近第二月时段内的各KS距离和近第三月时段内的各KS距离。将经计算得到的各第一子时段内的第一KS距离生成为近3个月KS距离分布曲线进行展示，以便于对比查看模型或策略在不同时段内的区分能力；具体请参照图3中左上角的曲线图，其中横坐标表示客群样本占比，纵坐标表示KS距离值，三条不同的曲线分别对应第一时段内近第一月、近第二月和近第三月在各个客群样本占比上的第一KS距离；由图可知，不同客群样本占比所对应的第一KS距离均不相同，且距离越大表征区分能力越好。

进一步地，作为第二时段的近四个季度由近第一季度、近第二季度、近第三季度和近第四季度的四个季度组成，将模型或策略在该各个季度内所区分的第一样本和第二样本进行KS距离计算，得到各个时段内对应的KS距离值，将该各个距离值作为与第二时段中各第二子时段对应的第二KS距离。其中第二时段中的各第二子时段其实质为第二时段中的近第一季度时段、近第二季度时段、近第三季度时段和近第四季度时段，与各第二子时段对应的第二KS距离则为近第一季度时段内的各KS距离、近第二季度时段内的各KS距离、近第三季度时段内的各KS距离和近第四季度时段内的各KS距离。将经计算得到的各第二子时段内的第二KS距离生成为近4个季度KS距离分布曲线进行展示，以便于对比查看模型或策略在不同时段内的区分能力；具体请参照图3中左下角的曲线图；其中横坐标表示客群样本占比，纵坐标表示KS距离，四条不同的曲线分别对应第二时段内近第一季度、近第二季度、近第三季度和近第四季度在各个客群样本占比上的第二KS距离；同样由图3可知，不同客群占比所对应的第二KS距离均不相同，且距离越大表征区分能力越好。

更进一步地，在生成各第一KS距离和各第二KS距离之后，依据各第一KS距离和各第二KS距离生成各个维度评分信息；其中各个维度评分信息至少包括各第一KS距离中的第一最大值，各第二KS距离中的第二最大值，第二最大值的最大均值关系，各第一KS距离和各第二KS距离中分别达到预设达标值的第一数量占比和第二数量占比，各第一KS距离和各第二KS距离中分别首次达到预设达标值的第一分位数和第二分位数。第一最大值限定为近第一月内各第一KS距离中的最大值，第二最大值为近第一季度内各第二KS距离中的最大值；同时将近四个季度中每个月的KS最大距离生成KS最大距离月趋势图，如图3中右上角所示，将各个月的KS最大距离做均值处理，生成最大距离平均值，此后将第二最大值和该最大距离平均值对比，得到两者之间的关系，将该关系作为第二最大值的最大均值关系。此外，还预先依据需求设定有预设达标值，将近第一月内各第一KS距离中大于该预设达标值的第一KS距离对应的客群样本占比进行统计，得到第一数量占比；同时将近第一季度内各第二KS距离中大于预设达标值的第二KS距离所对应的客群样本占比进行统计，得到第二数量占比。进一步地，将近第一月内的各第一KS距离中首次达到预设达标值的第一KS距离对应的横坐标值作为第一分位数，而将近第一季度内的各第二KS距离中首次达到预设达标值的第二KS距离对应的横坐标值作为第二分位数；用第一分位数和第二分位数表征近第一月和近第一季度中首次达到预设达标值的客群样本占比。

步骤S22，对各所述维度评分信息进行整合，生成区分能力评分值；

步骤S23，根据所述区分能力评分值，评估所述模型或策略的区分能力，生成区分能力评估结果。

更进一步地，在得到各个维度评分信息后，依据预先设定的处理逻辑对其进行整合，生成区分能力评分值。如对于图3中，其近1月KS最大距离为24.7％，即第一最大值为24.7％，表征近第一月内的最大区分能力表现良好；近3个月KS最大距离为30.0％，即第二最大值为30.0％，表征近第一季度内的最大区分能力表现优秀；近3个月KS最大距离处于平均水平以下，即第二最大值的最大均值关系为第二最大值小于最大距离平均值，且呈下降趋势，表现急需关注；近1月KS分布达标(预设达标值为15％)所覆盖的客群样本占比为54％，即第一数量占比为54％，相对处于较低值，需要持续关注；近1月的首次达标的分位数为6％，即第一分位数为6％，晚于平均水平，表征前期区分能力较弱；近1季度KS分布达标(预期达标值为15％)所覆盖的人群占比为72％，即第二数量占比为72％，相对处于较低值，需要持续关注；近一季度首次达标的分位数为4％，即第二分为数为4％，处于平均水平，表现正常。上述的表现良好、表现优秀、表现急需关注、需要持续关注、前期区分能力较弱、需要持续关注、表现正常即为各维度评分信息对应的各项评分结果，各项评分结果以文字的方式显示在图3中的右下角，以便于查看。

此后，将该各项评分结果生成为区分能力评分值，即图3中局部区分能力评估所对应的3.3分。预先设定有评分值范围与区分能力之间的对应关系，对该对应关系进行调用，并将生成的区分能力评分值和对应关系中的各项评分值范围对比，确定区分能力评分值所在的目标评分值范围，该目标评分值范围所对应的区分能力即为对模型或策略进行评估所生成的区分能力评估结果。如设定3到4之间的评分值范围对应的区分能力为良好，则因区分能力评分值3.3在该区分能力范围内，从而将模型或策略的区分能力评估结果评估为良好。

进一步地，提出本发明模型或策略的评估方法第三实施例。

所述模型或策略的评估方法第三实施例与所述模型或策略的评估方法第二实施例的区别在于，所述根据所述预设有效性标准，对所述模型或策略进行有效性评估，生成有效性评估结果的步骤包括：

步骤S31，获取在所述模型或策略剔除后生成的第三样本，以及获取在所述模型或策略添加后生成的第四样本；

步骤S32，将所述第三样本和所述第四样本传输到所述预设有效性标准中进行所述预设多时段内的Lift提升倍数计算，生成各维度倍数信息；

同样地，因实际的样本数据依据时间的不同而具有动态变化的特性，为了更为准确的评估模型或策略有效性的高低，设定有针对多个不同时段进行分时段评估的机制。具体地，在不使用模型或策略的基础上对实际生成的样本数据中的坏数据进行筛选，将该筛选的结果作为将模型或策略剔除后所生成的第三样本进行获取；此后将模型或策略设定为筛选机制，在使用模型或策略的基础上对实际生成的样本数据中的坏数据进行筛选，并将筛选的结果作为在模型或策略添加后生成的第四样本进行获取。

进一步地，将预设多时段内所获取的第三样本以及第四样本传输到预设有效性标准中，由预设有效性标准计算两者之间的Lift提升倍数。同样的，本实施例中的预设多时段和第二实施例中的预设多时段相同，为预先根据需求所设定的各时段，如近三个月，近四个季度内等；依据预设多时段的不同，获取各预设多时段内所生成的第三样本和第四样本；即获取基于删除模型或策略在近三月内生成的第三样本，以及基于添加模型或策略在近三月内生成的第四样本；同时获取基于删除模型或策略在近四个季度内生成的第三样本，以及基于添加模型或策略在近四个季度内生成的第四样本。通过预设有效性标准计算各时段内第三样本和第四样本之间的Lift提升倍数，由Lift提升倍数表征相对于不使用模型或策略，使用模型或策略筛选坏样本的提升量大小，进而生成表征模型或策略筛选有效性高低的各个维度倍数信息。

同样地，预设多时段包括第一时段和第二时段，所述将所述第三样本和所述第四样本传输到所述预设有效性标准中进行所述预设多时段内的Lift提升倍数计算，生成各维度倍数信息的步骤包括：

步骤S321，分别从所述第三样本和所述第四样本中抓取与所述第一时段对应的第三子样本和第四子样本，并对所述第三子样本和所述第四子样本进行Lift提升倍数计算，生成与所述第一时段内各第一子时段对应的第一Lift提升倍数；

步骤S322，分别从所述第三样本和所述第四样本中抓取与所述第二时段对应的第三次子样本和第四次子样本，并对所述第三次子样本和所述第四次子样本进行Lift提升倍数计算，生成与所述第二时段内各第二子时段对应的第二Lift提升倍数；

步骤S323，根据各所述第一Lift提升倍数和各所述第二Lift提升倍数，生成各维度倍数信息，其中各所述维度倍数信息包括所述第一Lift提升倍数中的倍数最大值，所述第二Lift提升倍数在预设样本比上的样本均值关系，各所述第一Lift提升倍数中在第一预设信息上的第一排名，各所述第一Lift提升倍数中在第二预设信息上的第二排名，各所述第一Lift提升倍数中在第三预设信息中的第三排名，各所述第二Lift提升倍数中在所述第一预设信息上的第四排名，各所述第二Lift提升倍数中在所述第二预设信息上的第五排名，各所述第二Lift提升倍数中在所述第三预设信息中的第六排名。

进一步地，本实施例预设多时段中的第一时段为近三个月的时段，第二时段为近四个季度的时段；第三样本和第四样本中为包含超过四个季度时段内的数据，如最近两年的样本或一年半的样本等。在计算模型或策略的Lift提升倍数时，先计算第一时段内筛选的第三样本和第四样本之间的Lift提升倍数，再计算第二时段内筛选的第三样本和第四样本之间的Lift提升倍数。具体地，作为第一时段的近三个月由近第一月、近第二月和近第三月的三个月份组成，从第三样本和第四样本中分别抓取在第一时段内各个月份所筛选的第三子样本和第四子样本，即筛选出第三样本和第四样本中在近三个月内分别生成的第三子样本和第四子样本；此后，对各月份内的各第三子样本和第四子样本进行Lift提升倍数计算，得到各个时段内对应的Lift提升倍数值，将该各个倍数值作为与第一时段中各第一子时段对应的第一Lift提升倍数。其中第一时段中的各第一子时段其实质为第一时段中的近第一月时段、近第二月时段和近第三月时段，与各第一子时段对应的第一Lift提升倍数则为近第一月时段内的各Lift提升倍数、近第二月时段内的各Lift提升倍数和近第三月时段内的各Lift提升倍数。将经计算得到的各第一子时段内的第一Lift提升倍数生成为近3个月Lift提升走势图进行展示，以便于对比查看模型或策略在不同时段内的筛选能力；具体请参照图4中左上角的走势图；其中横坐标表示客群样本占比，纵坐标表示Lift提升倍数，三条不同的曲线分别对应第一时段内近第一月、近第二月和近第三月在各个客群样本占比上的第一Lift提升倍数；由图可知，不同客群样本占比所对应的第一Lift提升倍数均不相同，且提升倍数越大表征筛选有效性越好。

进一步地，作为第二时段的近四个季度由近第一季度、近第二季度、近第三季度和近第四季度的四个季度组成，从第三样本和第四样本中分别抓取在第二时段内各个季度所筛选的第三次子样本和第四次子样本，即筛选出第三样本和第四样本中在近四个季度内分别生成的第三次子样本和第四次子样本；此后，对各季度内的各第三子样本和第四子样本进行Lift提升倍数计算，得到各个时段内对应的Lift提升倍数值，将该各个倍数值作为与第二时段中各第二子时段对应的第二Lift提升倍数。其中第二时段中的各第二子时段其实质为第二时段中的近第一季度时段、近第二季度时段、近第三季度时段和近第四季度时段，与各第二子时段对应的第二Lift提升倍数则为近第一季度时段内的各Lift提升倍数、近第二季度时段内的各Lift提升倍数、近第三季度时段内的各Lift提升倍数和近第四季度时段内的各Lift提升倍数。将经计算得到的各第二子时段内的第二Lift提升倍数生成为近4个季度Lift提升走势图进行展示，以便于对比查看模型或策略在不同时期内的筛选能力；具体请参照图4中左下角的曲线图；其中横坐标表示客群样本占比，纵坐标表示Lift提升倍数，四条不同的曲线分别对应第二时段内近第一季度、近第二季度、近第三季度和近第四季度在各个客群样本占比上的第二Lift提升倍数；同样由图4可知，不同客群占比所对应的第二Lift提升倍数均不相同，且提升倍数越大表征筛选有效性越好。

更进一步地，在生成各第一Lift提升倍数和各第二Lift提升倍数之后，依据各第一Lift提升倍数和各第二Lift提升倍数生成各个维度倍数信息；其中各个维度倍数信息至少包括各第一Lift提升倍数中的倍数最大值，第二Lift提升倍数在预设样本比上的样本均值关系，各第一Lift提升倍数和各第二Lift提升倍数分别在第一预设信息上的第一排名和第四排列，各第一Lift提升倍数和各第二Lift提升倍数分别在第二预设信息上的第二排名和第五排名，各第一Lift提升倍数和各第二Lift提升倍数分别在第三预设信息中的第三排名和第六排名。倍数最大值限定为近第一月内各第一Lift提升倍数中的最大值；同时将近四个季度中每个月Lift提升倍数分别超过2.5、超过3和超过4(即Lift超过2.5、Lift超过3、Lift超过4)的客群样本占比生成为性能影响面月趋势图，如图4中右上角所示，将Lift提升倍数超过3的各客群样本占比生成提升平均值，将该Lift提升倍数超过3的数值作为预设样本比，此后将近3月的第二Lift提升倍数中超过预设样本比的第二Lift提升倍数对应的客群样本占比进行统计，生成统计数值，并将统计数值和提升平均值对比，得到两者之间的关系，将该关系作为第二Lift提升倍数在预设样本比上的样本均值关系。

此外，还预先设定有第一预设信息、第二预设信息和第三预设信息，该第一预设信息、第二预设信息和第三预设信息分别依据实际需求进行设定，如将第一预设信息设定为2％客群、第二预设信息设定为10％客群，第三预设信息设定为前30％客群样本占比的提升平均值。第一时段中各第一子时段的第一Lift提升倍数在第一预设信息上对应有不同的数值，不同数值之间具有不同的大小关系，在各数值之间进行比较，确定各第一Lift提升倍数在第一预设信息上的排名顺序，并将近第一月的排名位数作为第一排名。如作为各第一子时段的近第一月、近第二月和近第三月在第一预设信息上数值的排名顺序为近第三月、近第二月和近第一月，即近第三月的第一Lift提升倍数在第一预设信息上的数值最大，而近第一月的最小，则将该近第一月的排位位数作为第一排名，第一排名为第三。同样地第二时段中各第二子时段的第二Lift提升倍数在第一预设信息上具有不同的数值，对各个数值之间进行比较，确定各自的排名顺序，并将近第一季度的排名位数作为第四排名。此外分别对第一时段中各第一子时段的第一Lift提升倍数，以及第二时段中各第二子时段的第二Lift提升倍数在第二预设信息上的不同数值进行排序，将近第一月的排名位数和近第一季度的排名位数分别作为第二排名和第五排名。还分别对第一时段中各第一子时段的第一Lift提升倍数，以及第二时段中各第二子时段的第二Lift提升倍数在第三预设信息上的不同数值进行排序，将近第一月的排名位数和近第一季度的排名位数分别作为第三排名和第六排名。

步骤S33，对各维度倍数信息进行整合，生成提升倍数评分值；

步骤S34，根据所述提升倍数评分值，评估所述模型或策略的有效性，生成有效性评估结果。

更进一步地，在得到各个维度倍数信息后，依据预先设定的处理逻辑对其进行整合，生成提升倍数评分值。如对于图4中，其近1月最大Lift提升倍数(2％)为6.12，即倍数最大值为6.12，表征近第一月内的筛选能力处于优秀水平；近3月Lift3.0样本比处于平均水平，即第二Lift提升倍数在预设样本比上的样本均值关系为统计数值小于提升平均值，呈下降趋势，表征近第一季度的筛选能力表现一般，需要关注；近1月应用筛选2％客群时，提升倍数为6.12，在3个月内排名第1，即第一排名为第一位；近1月应用筛选10％客群时，提升倍数为2.87，在3个月内排名第3，即第二排名为第三位；近1月前30％Lift平均提升倍数为2.65，在3个月内排名第3，即近1月前30％客群样本占比的提升平均值为2.65，第三排名为第三位；近1季度应用筛选2％客群时，提升倍数为5.07，在4季度内排名第3，即第四排名为第三位；近1季度应用筛选10％客群时，提升倍数为3.52，在4季度内排名第3，即第五排名为第三位；近1季度前30％Lift平均提升倍数为3.00，在4季度内排名第3，即近1季度前30％客群样本占比的提升平均值为3.00，第六排名为第三位。上述的处于优秀水平、表现一般、第一排名为第一位、第二排名为第三位、第三排名为第三位、第四排名为第三位、第五排名为第三位、第六排名为第三位即为各维度倍数信息对应的各项维度结果，将该各项维度结果生成为提升倍数评分值，即图中Lift应用提升能力评估所对应的3.8分。

进一步地，不同的提升倍数评分值对应不同的评估结果，在生成提升倍数评分值之后，依据该提升倍数评分值即可对模型或策略的有效性进行评估，进而生成有效性评估结果。具体地，根据提升倍数评分值，评估模型或策略的有效性，生成有效性评估结果的步骤包括：

步骤S341，对预设的评分值与有效等级之间的对应关系进行调用，并将所述提升倍数评分值与所述对应关系对比，确定与所述提升倍数评分值对应的目标有效等级；

步骤S342，将所述目标有效等级生成为有效性评估结果。

更进一步地，预先设定有评分值与有效等级之间的对应关系，且对应关系中的有效评估值以数值范围的形式存在；如设定位于4～5数值之间的评分值所对应的有效等级为优秀。对该对应关系进行调用，并将生成的提升倍数评分值和对应关系中的各项评分值对比，确定提升倍数评分值所在评分值的数值范围，该所在评分值所对应的有效等级即为对模型或策略进行评估所生成的有效性评估结果。如设定3到4之间的评分值对应的评估结果为良好，则因提升倍数评分值3.8在该评分值的数值范围内，从而将模型或策略的有效性评估结果评估为良好。

进一步地，提出本发明模型或策略的评估方法第四实施例。

所述模型或策略的评估方法第四实施例与所述模型或策略的评估方法第三实施例的区别在于，所述生成有效性评估结果的步骤之后包括：

步骤S40，将与所述区分能力评估结果对应的特性参数，以及与所述有效性评估结果对应的特性参数生成为雷达图，并将所述雷达图输出。

本实施在生成模型或策略的有效性评估结果之后，将与区分能力评估结果对应的特性参数，以及与有效性评估结果对应的特性参数生成为雷达图；此后将雷达图输出展示。其中特性参数为区分能力评分值和提示倍数评分值，将两者通过雷达图进行展示，表征模型或策略的区分能力和有效性的变化，便于直观的查看模型或策略的性能情况。

本发明还提供一种模型或策略的评估装置。

参照图5，图5为本发明模型或策略的评估装置第一实施例的功能模块示意图。所述模型或策略的评估装置包括：

调用模块10，用于当侦测到对模型或策略的评估请求时，调用预设区分能力标准和预设有效性标准；

第一评估模块20，用于根据所述预设区分能力标准，对所述模型或策略进行区分能力评估，生成区分能力评估结果；

第二评估模块30，用于根据所述预设有效性标准，对所述模型或策略进行有效性评估，生成有效性评估结果，完成对所述模型或策略的评估。

进一步地，所述第一评估模块20包括：

生成单元，用于根据所述预设区分能力标准，对所述模型或策略在预设多时段内区分的第一样本和第二样本进行KS距离计算，生成各维度评分信息；

第一整合单元，用于对各所述维度评分信息进行整合，生成区分能力评分值；

进一步地，所述预设多时段包括第一时段和第二时段，所述生成单元还用于：

进一步地，第二评估模块30包括：

获取单元，用于获取在所述模型或策略剔除后生成的第三样本，以及获取在所述模型或策略添加后生成的第四样本；

计算单元，用于将所述第三样本和所述第四样本传输到所述预设有效性标准中进行所述预设多时段内的Lift提升倍数计算，生成各维度倍数信息；

第二整合单元，用于对各维度倍数信息进行整合，生成提升倍数评分值；

评估单元，用于根据所述提升倍数评分值，评估所述模型或策略的有效性，生成有效性评估结果。

进一步地，所述计算单元还用于：

进一步地，所述评估单元还用于：

将所述目标有效等级生成为有效性评估结果。

进一步地，所述模型或策略的评估还包括：。

输出模块，用于将与所述区分能力评估结果对应的特性参数，以及与所述有效性评估结果对应的特性参数生成为雷达图，并将所述雷达图输出。

本发明模型或策略的评估装置具体实施方式与上述模型或策略的评估方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种可读存储介质。

可读存储介质上存储有模型或策略的评估程序，模型或策略的评估程序被处理器执行时实现如上所述的模型或策略的评估方法的步骤。

本发明可读存储介质具体实施方式与上述模型或策略的评估方法各实施例基本相同，在此不再赘述。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种模型或策略的评估方法，其特征在于，所述模型或策略的评估方法包括以下步骤：

2.如权利要求1所述的模型或策略的评估方法，其特征在于，所述根据所述预设区分能力标准，对所述模型或策略进行区分能力评估，生成区分能力评估结果的步骤包括：

对各所述维度评分信息进行整合，生成区分能力评分值；

3.如权利要求2所述的模型或策略的评估方法，其特征在于，所述预设多时段包括第一时段和第二时段，所述对所述模型或策略在预设多时段内区分的第一样本和第二样本进行KS距离计算，生成各维度评分信息的步骤包括：

4.如权利要求3所述的模型或策略的评估方法，其特征在于，所述根据所述预设有效性标准，对所述模型或策略进行有效性评估，生成有效性评估结果的步骤包括：

对各维度倍数信息进行整合，生成提升倍数评分值；

5.如权利要求4所述的模型或策略的评估方法，其特征在于，所述将所述第三样本和所述第四样本传输到所述预设有效性标准中进行所述预设多时段内的Lift提升倍数计算，生成各维度倍数信息的步骤包括：

6.如权利要求4所述的模型或策略的评估方法，其特征在于，所述根据所述提升倍数评分值，评估所述模型或策略的有效性，生成有效性评估结果的步骤包括：

将所述目标有效等级生成为有效性评估结果。

7.如权利要求1-6任一项所述的模型或策略的评估方法，其特征在于，所述生成有效性评估结果的步骤之后包括：

8.一种模型或策略的评估装置，其特征在于，所述模型或策略的评估装置包括：

9.一种模型或策略的评估设备，其特征在于，所述模型或策略的评估设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的模型或策略的评估程序，所述模型或策略的评估程序被所述处理器执行时实现如权利要求1-7中任一项所述的模型或策略的评估方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有模型或策略的评估程序，所述模型或策略的评估程序被处理器执行时实现如权利要求1-7中任一项所述的模型或策略的评估方法的步骤。