CN115564578B

CN115564578B - 欺诈识别模型生成方法

Info

Publication number: CN115564578B
Application number: CN202110743307.0A
Authority: CN
Inventors: 殷翔
Original assignee: Bairong Yunchuang Technology Co ltd
Current assignee: Bairong Yunchuang Technology Co ltd
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2023-07-25
Anticipated expiration: 2041-07-01
Also published as: CN115564578A

Abstract

本申请公开一种欺诈识别模型生成方法，包括：获取包含多个风控样本数据的样本集，每个风控样本数据包括对应多个初始变量的多个变量值和各自的欺诈识别标签；对所述样本集的多个风控样本数据进行分箱，根据分箱结果在所述多个初始变量中选定多个分箱变量及其阈值，其中至少一些所述分箱变量具有多个阈值并作为多阈值变量，其余分箱变量具有单个阈值并作为第一单阈值变量；处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量；将所述第一单阈值变量和第二单阈值变量映射成初始规则；对所述初始规则进行处理以生成包含多项最终规则的最终规则集。

Description

欺诈识别模型生成方法

技术领域

本申请涉及计算机技术领域、尤其涉及由计算机实施的金融科技(Fintech)技术，具体地涉及一种欺诈识别模型生成方法和装置以及欺诈识别方法。本申请还涉及相关的电子设备和存储介质。

背景技术

随着计算机技术的发展，其被应用于越来越多的领域，例如金融领域。金融业愈发向融合多种计算机技术的金融科技(Fintech)发展。

另外，金融活动的各个方面都需要风险控制，包括但不限于融资、贷款、信用卡等。随着向金融科技的发展，行业存在着对通过计算机技术实施的风控评估方法和模型的需求。尤其是，行业对由大数据驱动、基于机器学习的风控模型存在广泛的需求，以克服传统的依赖人工经验进行数据挖掘，信用评价体系不客观等问题。

识别欺诈客户及其行为是金融风控的重要环节。当前，行业内通常会基于经验来设定特定的反欺诈规则，以便筛选和评估客户数据来标识别诈客户。由此，反欺诈规则在大数据风控中有着重要作用。目前反欺诈规则的挖掘主要依赖人工经验，尤其是在大数据风控场景下，数据量大，变量维度高，人工经验难以处理，效率较低。目前行业内有其他自动化挖掘的尝试，但并没有形成较为完整、固定和规范的流程。

因此，希望提出一种高度自动化的且基于客观数据的风控评估模型、尤其是欺诈识别模型。还希望提出一种基于上述模型实现的风控评估方法、尤其是欺诈识别方法，其能够降低、乃至摒除当前风控评估、如欺诈识别中的人为主观因素。

上述描述仅作为了解本领域相关技术的背景，并非承认其属于现有技术。

发明内容

因此，本发明实施例意图提供一种风控模型生成方法、尤其是欺诈识别模型生成方法，其生成的风控评估模型、尤其是欺诈识别模型能具有高度自动化且依据客观因素生成规则，而避免了主观因素的大量介入。

根据第一方面，提供一种欺诈识别模型生成方法，在本发明的一些实施例中，也可以称为反欺诈识别模型训练方法，所述方法包括：

获取包含多个风控样本数据的样本集，每个风控样本数据包括对应多个初始变量的多个变量值和各自的欺诈识别标签；

对所述样本集的多个风控样本数据进行分箱，根据分箱结果在所述多个初始变量中选定多个分箱变量及其阈值，其中至少一些所述分箱变量具有多个阈值并作为多阈值变量，其余分箱变量具有单个阈值并作为第一单阈值变量；

处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量；

将所述第一单阈值变量和第二单阈值变量映射成初始规则；

对所述初始规则进行处理以生成包含多项最终规则的最终规则集。

在第一方面中，提出了高效自动化的风控模型生成方法、尤其是欺诈识别模型生成方法，其能够以高度自动化充分挖掘大数据特征。

根据第一方面的第一种可能的实现方式，所述处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量，包括：

确定所述多阈值变量与所述标签的正负相关性；

若所述多阈值变量与所述标签具有第一正负相关性，则分别生成以各自的阈值为下限至正无穷的所述多个第二单阈值变量；

若所述多阈值变量与所述标签具有第二正负相关性，则分别生成以各自的阈值为上限至负无穷的所述多个第二单阈值变量，

其中，所述第一和第二正负相关性之一为正相关，另一个为负相关。

作为解释而非对本发明的限制，当利用大数据生成或训练二分类模型时，对于高维数据的挖掘存在这两难的问题，一方面希望尽可能挖掘高维数据的能力，以便提高模型的能力，另一方面高维数据在模型生成或训练(高维数据挖掘)阶段以及应用阶段均可能导致模型耗费大量的计算。在第一方面的第一种可能的实现方式中，相比于发明人已知的技术，特别是以极高的效率挖掘大数据中的高维特征的同时，反而提高了模型运算效率。

此外，高维数据经挖掘后可能解释性颇差，降低了用户使用的易用度，更使得用户无法依据模型对评估结果提供良好的解释性，而这种解释性往往是业务场景下所必须的。而在第一方面的第一种可能的实现方式不仅实现了对高维数据的有效挖掘，而且仍保有高维数据的较高的可解释性。

根据第一种可能的实现方式的进一步实施例，利用多个风控样本数据计算所述多阈值变量与所述欺诈识别标签之间的相关性系数和单调性；

若所述相关性系数大于正的第一相关性阈值且为单调的，则确定所述多阈值变量与所述标签正相关；

若所述相关性系数小于负的第二相关性阈值且为单调的，则确定所述多阈值变量与所述标签负相关；

若为其他，则确定所述多阈值变量与所述标签零(0)相关。

根据第一种可能的实现方式的进一步实施例，所述处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量，包括：

筛掉被确定为与所述标签零(0)相关的多阈值变量，不用于生成所述第二单阈值变量。

在此第一种可能的实现方式的进一步实施例中，提升了高维数据挖掘的有效性。

根据第一方面的第二种可能的实现方式，所述对所述样本集的多个风控样本数据进行分箱，包括：

对所述样本集的所述多个风控样本数据进行决策树分箱。

根据第二种可能的实现方式的进一步实施例，所述决策树分箱为二分类式CART决策树分箱。

根据第二种可能的实现方式的进一步实施例，所述对所述样本集的所述多个风控样本数据进行决策树分箱，包括：

针对根节点：

计算对应所述根节点的样本集中所述多个风控样本数据的各个变量的各个变量值相对于所述样本集的基尼指数；

选择最小基尼指数所对应的变量及变量值作为所述根节点的判断阈值，从而根据所述根节点的判断阈值划分所述样本集为左右两个子样本集并建立分别对应所述两个子样本集的左右两个子节点；

针对子节点：

判断所述子节点对应的子样本集是否达到退出递归条件，若未达到则继续进行决策树分箱，若达到则当前节点停止递归并作为分箱叶节点；

计算对应所述子节点的子样本集中的多个风控样本数据的各个变量的各个变量值相对于所述子样本集的基尼指数；

选择最小基尼指数所对应的变量及变量值作为所述子节点的判断阈值，从而根据所述子节点的判断阈值来进一步划分所述子样本集为左右两个子样本集并建立分别对应所述两个子样本集的左右两个子节点；

针对所有子节点递归执行上述针对子节点的步骤，直至所有节点达到退出条件，以生成所述CART决策树分箱。

在第二种可能的实现方式中，能够实现数据的有效分箱。

在所述第一种可能的实现方式与第二种可能的实现方式相结合的情况下，尤其在于二分类的CART决策树分箱相结合的情况下，能够在两者叠加的效果基础上实现进一步的非常有利的效果。作为解释而非限制地，高维数据挖掘还存在如此的现实问题，即高维数据变量的不当衍生不仅可能造成模型生成和应用时计算剧增，甚至还可能降低模型的有效性。在此，通过所述结合能够仅衍生最具有效性的数据变量以及合理的变量阈值。

根据第一方面的第三种可能的实现方式，所述对所述初始规则进行处理以生成包含多项最终规则的最终规则集，包括：

利用多个风控样本数据分别执行所述初始规则，获得对应各初始规则的欺诈识别效果参数；

选择欺诈识别效果参数大于等于第一效果阈值的初始规则放入第一规则集；

选择欺诈识别效果参数小于第一效果阈值且大于等于第二效果阈值的初始规则放入第二规则集；

筛掉欺诈识别效果小于第二效果阈值的初始规则；

其中，所述第一效果阈值大于所述第二效果阈值。

根据第三种可能的实现方式的进一步实施例，所述对所述初始规则进行处理以生成包含多项最终规则的最终规则集，还包括：

将所述第二规则集中的初始规则进行交叉以获得包含多项交叉规则的交叉的第三规则集。

合并所述第一规则集和所述第三规则集以获得所述最终规则集。

根据第三种可能的实现方式的进一步实施例，所述合并所述第一规则集和所述第三规则集以获得所述最终规则集，包括：

按照坏客户率对第一规则集和第三规则集中的规则降序排列；

依次验证降序排列的规则是否符合有效性要求，并将符合有效性要求的规则加入所述最终规则集，其中有效性要求为被验证的规则在被加入最终规则集的情况下使得最终规则集当前命中的坏客户样本数量大于坏客户阈值。

根据第三种可能的实现方式的进一步实施例，所述选择欺诈识别效果参数小于第一效果阈值且大于等于第二效果阈值的初始规则放入第二规则集，包括：

计算所述第二规则集中的初始规则之间以及与第一规则集中的初始规则之间的相关性系数；

若所述相关性系数大于规则相关性阈值，则从所述第二规则集删掉相应的初始规则。

根据第三种可能的实现方式的进一步实施例，计算待放入第二规则集的初始规则与所述第二规则集中已有的初始规则之间以及与第一规则集中的初始规则之间的相关性；

若所述相关性大于规则相关性阈值，则不放入所述初始规则。

根据第三种可能的实现方式的进一步实施例，所述将所述第二规则集中的初始规则进行交叉以获得包含多项交叉规则的交叉的第三规则集，包括：

利用多个风控样本数据分别执行所述第三规则集中的多项交叉规则，获得对应各交叉规则的欺诈识别效果参数；

从所述第三规则集删掉小于第三效果阈值的多项交叉规则。

在第三种可能的实现方式及其进一步的实施例中，作为解释而非限制地，可以借助于“杂交”的思想，将两个特性不同的品种，其后代可能集中两个品种的优势；尤其是借助于这样的“杂交”思想，对于足够“优质”的品种(如欺诈识别效果好，例如坏客户率(Badrate)高)，使其不参与杂交而直接使用，以避免劣化该优质品种；而对于“劣质”品质，避免让其参与杂交，以免劣化杂交效果；而促成“良好、但又不够好”的品种进行杂交以便获得优质品种后代。

进一步地，在所述第一种可能的实现方式与第三种可能的实现方式相结合的情况下，能够在两者叠加的效果基础上实现进一步的非常有利的效果。例如，能够使得某些坏客户率很高的多阈值变量所衍生的优质单阈值变量直接使用，而使得该变量(通过其衍生的良好的单阈值变量)又能够参与“杂交”，大幅提高了模型的有效性和稳定性。

根据第二方面，提供一种欺诈识别方法，其包括：

获取一个或多个用户的风控数据，所述风控数据包括对应多个变量的变量值；

将所述一个或多个用户的风控数据输入欺诈识别模型，以获取对应所述风控数据的欺诈识别标签，用于识别所述一个或多个用户是否存在欺诈；

其中，所述欺诈识别模型由根据本发明任一实施例所述的欺诈识别模型生成方法生成。

根据第三方面，提供一种欺诈识别模型生成装置，其包括：

获取模块，配置成获取包含多个风控样本数据的样本集，每个风控样本数据包括对应多个初始变量的多个变量值和各自的欺诈识别标签；

分箱模块，配置成对所述样本集的多个风控样本数据进行分箱，根据分箱结果在所述多个初始变量中选定多个分箱变量及其阈值，其中至少一些所述分箱变量具有多个阈值并作为多阈值变量，其余分箱变量具有单个阈值并作为第一单阈值变量；

第一处理模块，配置成处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量；

规则映射模块，配置成将所述第一单阈值变量和第二单阈值变量映射成初始规则；

第二处理模块，配置成对所述初始规则进行处理以生成包含多项最终规则的最终规则集。

根据第四方面，提供一种电子设备，其包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行根据本发明任一实施例所述的方法。

根据第五方面，提供一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行根据本发明任一实施例所述的方法。

作为解释而非限制地，本发明实施例的一些可能的实现方式还可以具有以下的部分或全部技术效果：

从模型生成的角度看，提升了高维数据的处理能力，以及在此基础上的反欺诈规则挖掘和衍生的能力；与此同时保障了规则开发过程中的自动化和客观性。

从模型应用的角度看，尽可能地减少或消除了数据预处理或清洗的需求；模型识别效率和有效性都很好；而且模型规则的解释性高，能充分满足用户业务层面的需求。

本发明实施例的其他可选特征和技术效果一部分在下文描述，一部分可通过阅读本文而明白。

附图说明

以下，结合附图来详细说明本发明的实施例，所示出的元件不受附图所显示的比例限制，附图中相同或相似的附图标记表示相同或类似的元件，其中：

图1示出了根据本发明实施例的方法的示例性流程图；

图2示出了根据本发明实施例的方法的示例性流程图；

图3示出了根据本发明实施例的方法的示例性流程图；

图4A和图4B示出了根据本发明实施例的方法的示例性流程图；

图5示出了根据本发明实施例的方法的示例性流程图；

图6示出了根据本发明实施例的方法的示例性流程图；

图7A和图7B示出了根据本发明实施例的方法的示例性流程图；

图8示出了根据本发明实施例的方法的示例性流程图；

图9示出了根据本发明实施例的方法的示例性流程图；

图10示出了根据本发明实施例的方法的分箱示意图；

图11A和图11B示出了根据本发明实施例的方法所示的基于标签的正负相关性来构建多个关联的单阈值变量的示意图；

图12示出了根据本发明实施例的装置的结构示意图；

图13示出了能实施根据本发明实施例的方法的电子设备的示例性结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合具体实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在本发明实施例中，“模型”具有本发明技术领域中的常规含义，例如模型可以是机器学习模型。

在本发明实施例中，“分箱(法)”具有本发明技术领域的常规含义，尤其是大数据处理领域的常规含义。

本发明实施例提供一种欺诈识别模型生成方法和装置、相关的模型的欺诈识别方法和系统、以及存储介质和电子设备。所述方法、系统、装置/模型可以借助于一个或多个计算机实施。在一些实施例中，所述系统、装置/模型可以由软件、硬件或软硬件结合实现。在一些实施例中，该电子设备或计算机可以由本文所记载的计算机或其他可实现相应功能的电子设备实现。

如图1所示，在一个示例性实施例中，提供一种欺诈识别模型生成方法。

如图1所示的本发明实施例的欺诈识别模型生成方法，可包括下述步骤S101至S105：

S101：获取包含多个风控样本数据的样本集，每个风控样本数据包括对应多个初始变量的多个变量值和各自的欺诈识别标签。

在本文的一些实施例中，所述风控样本数据可以包括多种类型，例如可以基于不同的风控场景获取；也可以来自于不同的来源。

在本文的一些实施例中，所述变量也可以称为特征，变量值也可以称为特征值。在本发明一些实施例中，所述变量可以包括各种类型。在本发明的一些实施例中，所述变量可以包括离散变量；在一个具体实施例中，全部变量均为离散变量。

在本文其他部分描述的实施例中，当所述模型生成方法应用于其他的二分类评估或识别场景时，可以使用相关的(样本)数据，而获得新的主题。

S102：对所述样本集的多个风控样本数据进行分箱，根据分箱结果在所述多个初始变量中选定多个分箱变量及其阈值，其中至少一些所述分箱变量具有多个阈值并作为多阈值变量，其余分箱变量具有单个阈值并作为第一单阈值变量。

根据本发明的一个实施例，所述分箱可以是基于决策树的分箱。

例如，所述对所述样本集的多个风控样本数据进行分箱，可包括：

A1：对所述样本集的所述多个风控样本数据进行决策树分箱。

根据本发明的进一步的具体实施例，所述决策树分箱为CART(Classificationand Regression Tree)决策树分箱。

进一步地，在如图4A和图4B所示的实施例中，所述对所述样本集的所述多个风控样本数据进行决策树分箱，可以分别包括针对根节点和子节点的分箱处理。

如图4A所示的实施例中，针对根节点，可包括下述步骤：

S401：计算对应所述根节点的样本集中所述多个风控样本数据的各个变量的各个变量值相对于所述样本集的基尼指数；

S402：选择最小基尼指数所对应的变量及变量值作为所述根节点的判断阈值，从而根据所述根节点的判断阈值划分所述样本集为左右两个子样本集并建立分别对应所述两个子样本集的左右两个子节点；

如图4B所示的实施例中，针对子节点，可包括下述步骤：

S411：判断所述子节点对应的子样本集是否达到退出递归条件；

若未达到，则继续进行决策树分箱；

若达到，则当前节点停止递归并作为分箱叶节点(S412)；

在本发明的一些实施例中，所述退出递归条件可以包括多个因素，例如但不限于最大箱数、箱内样本量大于最小叶节点数、箱内样本量占比大于最小叶节点样本量占比。

在本文的一些实施例中，所述最大箱数是指针对同一变量的分箱数，在某种意义上，在所述决策树分箱的方案中，所述最大箱数等同于单一变量的最大可选择的阈值数量。

S413：计算对应所述子节点的子样本集中的多个风控样本数据的各个变量的各个变量值相对于所述子样本集的基尼指数；

S414：选择最小基尼指数所对应的变量及变量值作为所述子节点的判断阈值，从而根据所述子节点的判断阈值来进一步划分所述子样本集为左右两个子样本集并建立分别对应所述两个子样本集的左右两个子节点；

S415：针对所有子节点递归执行上述针对子节点的步骤，直至所有节点达到退出条件，以生成所述CART决策树分箱。

在进一步的实施例中，所述根据分箱结果在所述多个初始变量中选定多个分箱变量及其阈值，包括：

对于决策树分箱、如CART决策树分箱结果，选择最优分箱，并选择最优分箱中的节点中对应的变量和变量值。

在一些实施例中，所述最优分箱可以基于不同的方式确定。在一些实施例中，所述最优分箱基于决策树最长路径决定。

在此结合图4A和图4B以及图10，描述了基于CART决策树实现的分箱实例。

CART分类树算法是基尼指数进行划分(Gini Index)，其中基尼指数代表了模型的不纯度，基尼系数越小，不纯度越低，特征越好。

在本发明实施例所述的二分类CART决策树分箱中，假设K个类别，当前样本集D(如针对根节点的所述样本集)中第k个类样本的概率为pk(k＝1,2,…|y|，则样本集D的纯度用基尼值表示如下：

由此，假定所有候选变量的离散变量值av有V个可能的取值{a1,a2,…av}变量A的某个变量值a相对于样本集D的基尼指数表示如下：

由此，在实施CART决策树划分时，在候选的变量的变量值集合A中，可选择使得划分后基尼指数最小的变量值(属性值)作为最优划分属性：

此时，可参考图10所示的实例，对于根节点1001，例如可根据上述方式计算而得第i个变量Ai的变量值ai2(阈值)在划分子样本时使得其相对于样本集D的基尼指数最小，由此以该变量值作为该节点的阈值。

在此，可以在根节点1001处划分出左右两个子样本集D1和D2。

在此，例如针对左子节点1011，又可根据上述方式确定第i个变量Aj的变量值aj1相对于D1的基尼指数最小，由此以该变量值作为该节点的阈值。

在此，例如针对右子节点1021，例如可根据上述方式确定其达到退出递归条件，则可以此节点作为叶节点，其子样本集D2则构成分箱1。

为了简化描述，在图10所示的实例中，每个右子节点1021、1022、1023、1024均示出为叶节点并且相应的右子样本集分别构成分箱1-4，但可以想到，各个具体实施例可以与之不同，而是根据具体递归条件判断。例如，在决策树中可以包括左右子节点均为树干节点、一侧为树干节点且另一侧为叶节点、或左右子节点均为叶节点。

继续参考图4A、图4B结合图10，可以针对图10的实例继续进行递归操作，从而例如分别在子节点1012、1013处确定Ai的变量值ai0、ai1相对于各自子样本集D1的基尼指数最小，并在最深的左子节点1025处达到退出递归条件(例如针对变量Ai已经达到最大分箱数，在此为3，但该左子节点基尼指数最小值对应的变量值仍为Ai的变量值)，而作为叶节点。

在本文的一些实施例中，例如可以选择最长的决策树路径对应的分箱作为最优分箱以确定变量及其变量值，如Ai,ai2；Aj,aj1；Ai,ai0；Ai,ai1。

在本文的一些实施例中，可以根据最长路径的节点对应的变量的正负方向来选定最优分箱。

在本文的另一些实施例中，可以采用其他的二分类的决策树分箱方法。

在一些实施例中，所述分箱可以基于Python语言实现，也可以想到基于其他语言实现。

S103：处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量。

在如图2所示的实施例中，所述处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量，可包括：

S201：确定所述多阈值变量与所述标签的正负相关性；

在一些实施例中，可以用多种方式确定正负相关性。

例如，在如图3所示的实施例中，所述确定所述多阈值变量与所述欺诈识别标签的正负相关性，可包括：

S301：利用多个风控样本数据计算所述多阈值变量与所述欺诈识别标签之间的相关性系数和单调性；

S302：若所述相关性系数大于正的第一相关性阈值且为单调的，则确定所述多阈值变量与所述标签正相关；

S303：若所述相关性系数小于负的第二相关性阈值且为单调的，则确定所述多阈值变量与所述标签负相关；

S304：若为其他，则确定所述多阈值变量与所述标签零(0)相关。

在根据本发明的一个实施例中，可以选择各种统计学意义上的相关性确定手段来确定经选定的变量与标签的正负相关性，例如但不限于基于皮尔森(Pearson)相关性系数、斯皮尔曼(Spearman)相关性系数、肯德尔(Kendall)相关性系数或者其他的相关性确定手段。

在根据本发明的一个优选实施例中，可以基于皮尔森相关性系数来确定经选定的变量与标签的正负相关性。

在本发明的实施例中，所述的其他情形，例如包括：相关性是单调的单相关性系数小于第一相关性阈值且大于第二相关性阈值；或者相关性是非单调的。

S202：若所述多阈值变量与所述标签具有第一正负相关性，则分别生成以各自的阈值为下限至正无穷的所述多个第二单阈值变量；

S203：若所述多阈值变量与所述标签具有第二正负相关性，则分别生成以各自的阈值为上限至负无穷的所述多个第二单阈值变量。

在一个实施例中，所述第一正负相关性为正相关，第二正负相关性为负相关。

结合参考图2和图10A和图10B，示出了多阈值变量与标签的相关性，以及如何生成第二单阈值变量的示意性实例。

如图10A所示，所述变量Ai例如相对于标签具有正相关性；由此，可以针对所述变量Ai及其被选定的多个阈值ai0、ai1、ai2(例如根据前述的分箱结果)生成多个第二单阈值变量，在此为3个。各单阈值变量可以具有相应的半闭合区间[ai0,inf)、[ai1,inf)、[ai2,inf)。

如图10B所示，所述变量Aj例如相对于标签具有正相关性；由此，可以针对所述变量Aj及其被选定的多个阈值aj0、aj1、aj2(例如根据前述的分箱结果)生成多个第二单阈值变量，在此为3个。各单阈值变量可以具有相应的半闭合区间(-inf,aj0]、(-inf,aj1]、(-inf,aj2]。

尽管本文未详细描述，前述第一单阈值变量也可以根据决策树路径而具有各自的半闭合区间。

根据进一步的实施例，所述处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量，还可包括：

B1：筛掉被确定为与所述标签零(0)相关的多阈值变量，不用于生成所述第二单阈值变量。

S104：将所述第一单阈值变量和第二单阈值变量映射成初始规则。

在本发明的实施例中，可以将所述单阈值变量映射为0/1初始规则。例如，可以将所述阈值限定的区间映射为1，其余为0。

在本发明的一些实施例中，可以选择性地映射所述第一和第二单阈值变量，例如时基于识别效果参数。更具体地，所述识别效果参数可以包括提升度和/或坏客户率(Badrate)。在一些实施例中，可以选择满足最小提升度和最低坏客户率的变量进行映射。

S105：对所述初始规则进行处理以生成包含多项最终规则的最终规则集。

在如图5所示的实施例中，所述步骤S105可包括步骤S501值S504：

S501：利用多个风控样本数据分别执行所述初始规则，获得对应各初始规则的欺诈识别效果参数。

在本文所述的实施例中，所述识别效果参数可以包括提升度和/或坏客户率(Badrate)。

S502：选择欺诈识别效果参数大于等于第一效果阈值的初始规则放入第一规则集。

S503：选择欺诈识别效果参数小于第一效果阈值且大于等于第二效果阈值的初始规则放入第二规则集。

S504：筛掉欺诈识别效果小于第二效果阈值的初始规则。

其中，所述第一效果阈值大于所述第二效果阈值。

在一些实施例中，在生成第二规则集时还可引入相关性判断。

如在图7A所示的实施例中，所述选择欺诈识别效果参数小于第一效果阈值且大于等于第二效果阈值的初始规则放入第二规则集，可包括：

S701：计算所述第二规则集中的初始规则之间以及与第一规则集中的初始规则之间的相关性系数；

S702：若所述相关性系数大于规则相关性阈值，则从所述第二规则集删掉相应的初始规则。

图7A所示的实施例教导了从第二规则集中删除相关性高的规则；作为图7所示实施例的替代，还可以想到在将规则放入第二规则集时进行相关性判断，如果其相关性不符合要求，则不加入此规则至第二规则集。

作为可选的替代，如图7B所示，所述选择欺诈识别效果参数小于第一效果阈值且大于等于第二效果阈值的初始规则放入第二规则集，可包括：

S701’：计算待放入第二规则集的初始规则与所述第二规则集中已有的初始规则之间以及与第一规则集中的初始规则之间的相关性；

S702’：若所述相关性大于规则相关性阈值，则不放入所述初始规则。

可选地，所述步骤S105还可包括：

S505：将所述第二规则集中的初始规则进行交叉以获得包含多项交叉规则的交叉的第三规则集。

在一些实施例中，在生成第三规则集时还可引入欺诈识别效果判断。

如在图8所示的实施例中，所述将所述第二规则集中的初始规则进行交叉以获得包含多项交叉规则的交叉的第三规则集，可包括：

S801：利用多个风控样本数据分别执行所述第三规则集中的多项交叉规则，获得对应各交叉规则的欺诈识别效果参数；

S802：从所述第三规则集删掉小于第三效果阈值的多项交叉规则。

类似地，在本发明一些实施例中，所述识别效果参数可以包括提升度和/或坏客户率(Badrate)。

可选地，所述步骤S105还可包括：

S506：合并所述第一规则集和所述第三规则集以获得所述最终规则集。

在一些实施例中，在合并第一和第三规则集以生成最终规则集时还可进行有效性判断。

如在图6所示的实施例中，所述合并所述第一规则集和所述第三规则集以获得所述最终规则集，可包括：

S601：按照坏客户率对第一规则集和第三规则集中的规则降序排列；

S602：依次验证降序排列的规则是否符合有效性要求，并将符合有效性要求的规则加入所述最终规则集；

其中，有效性要求为被验证的规则在被加入最终规则集的情况下使得最终规则集当前命中的坏客户样本数量大于坏客户阈值。

在本发明的一些实施例中，可以相应地提供欺诈识别方法，其可以借助于根据本发明实施例所获得的欺诈识别模型实施。

如图9所示的实施例中，所述的欺诈识别方法可包括：

S901：获取一个或多个用户的风控数据，所述风控数据包括对应多个变量的变量值；

S902：将所述一个或多个用户的风控数据输入欺诈识别模型，以获取对应所述风控数据的欺诈识别标签，用于识别所述一个或多个用户是否存在欺诈；

在一些实施例中，所述模型生成方法可以结合任一实施例的模型生成方法的特征，反之亦然，在此不赘述。

在一些实施例中，模型生成方法/装置或者说训练系统可以部分或全部地由各种机器学习平台/框架提供或实现。类似地，在一些实施例中，生成方法或者说训练方法可以部分或全部地由各种机器学习平台实现。

在一些实施例中，所述机器学习平台/框架包括但不限于PyTorch、TensorFlow、Caffe、Keras、Amazon Machine Learning、Azure Machine Learning Studio等。

在本发明实施例中，如图12所示，示出一种欺诈识别模型生成装置1200，其可包括获取模块1210、分箱模块1220、第一处理模块1230、规则映射模块1240、第二处理模块1250。所述获取模块1210可配置成获取包含多个风控样本数据的样本集，每个风控样本数据包括对应多个初始变量的多个变量值和各自的欺诈识别标签。所述分箱模块1220可配置成对所述样本集的多个风控样本数据进行分箱，根据分箱结果在所述多个初始变量中选定多个分箱变量及其阈值，其中至少一些所述分箱变量具有多个阈值并作为多阈值变量，其余分箱变量具有单个阈值并作为第一单阈值变量。所述第一处理模块1230可配置成处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量。所述规则映射模块1240可配置成将所述第一单阈值变量和第二单阈值变量映射成初始规则。所述第二处理模块1250可配置成对所述初始规则进行处理以生成包含多项最终规则的最终规则集。

在一些实施例中，所述装置可以结合任一实施例的方法特征，反之亦然，在此不赘述。

在本发明实施例中，提供一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一本发明实施例的模型生成方法。

图13示出了一种可以实施本发明实施例的方法或实现本发明实施例的电子设备1300的示意图，在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中，可以利用单个或多个电子设备实施。在一些实施例中，可以利用云端或分布式的电子设备实施。

如图13所示，电子设备1300包括中央处理器(CPU)1301，其可以根据存储在只读存储器(ROM)1302中的程序和/或数据或者从存储部分1308加载到随机访问存储器(RAM)1303中的程序和/或数据而执行各种适当的操作和处理。CPU 1301可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，CPU 1301可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等等。在RAM 1303中，还存储有电子设备1300操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

上述处理器与存储器共同用于执行存储在存储器中的程序，所述程序被计算机执行时能够实现上述各实施例描述的模型生成方法、识别方法的步骤或功能。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。图13中仅示意性示出部分组件，并不意味着计算机系统1300只包括图13所示组件。

上述实施例阐明的系统、装置、模块或单元，可以由计算机或其关联部件实现。计算机例如可以为移动终端、智能电话、个人计算机、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网系统、智能家居、工业计算机、服务器或者其组合。

在优选的实施例中，所述训练系统和方法可以至少部分或全部在云端的机器学习平台或者部分或全部地在自搭建的机器学习系统、如GPU阵列中实施或实现。

在优选的实施例中，所述生成装置和方法可以在服务器、例如云端或分布式服务器中实施或实现。在优选实施例中，还可以借助服务器，基于生成结果向中断推送或发送数据或内容。

在本发明实施例中，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行任一本发明实施例的方法。

在本发明的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

在根据上文所述和/或根据附图所示的实施例中，提出了欺诈识别模型生成方法以及欺诈识别方法以及相关的电子设备和存储介质。

但是，在本公开的教导下，本发明实施例还可以应用于更广泛的场景，尤其是应用于各种实现“二分类”评估或识别的应用场景，例如但不限于，其他的风控场景或其他的金融场景，如借贷评估；以及金融业以外的场景，例如商业拓展成功度评估、垃圾邮件评估、商品或广告有效推荐度或用户偏好度评估。由此，在本发明的一些实施例中，还提出了一种分类模型生成方法及装置和分类评估方法以及相关的电子设备和存储介质，尤其是提出一种风控模型生成方法及装置和风险评估方法以及相关的电子设备和存储介质，其可以包括与欺诈识别(反欺诈)相关实施例中描述的相应特征。

例如，所述评估或识别模型生成方法可包括：

获取包含多个样本数据的样本集，每个样本数据包括对应多个初始变量的多个变量值和各自的标签。

对所述样本集的多个样本数据进行分箱，根据分箱结果在所述多个初始变量中选定多个分箱变量及其阈值，其中至少一些所述分箱变量具有多个阈值并作为多阈值变量，其余分箱变量具有单个阈值并作为第一单阈值变量；

将所述第一单阈值变量和第二单阈值变量映射成初始规则；

在本发明的实施例的方法、程序、系统、装置等，可以在单个或多个连网的计算机中执行或实现，也可以在分布式计算环境中实践。在本说明书实施例中，在这些分布式计算环境中，可以由通过通信网络而被连接的远程处理设备来执行任务。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本领域技术人员可想到，上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现，可以用软件、硬件和软/硬件结合的方式实现。

除非明确指出，根据本发明实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本文中，针对本发明的多个实施例进行了描述，但为简明起见，各实施例的描述并不是详尽的，各个实施例之间相同或相似的特征或部分可能会被省略。在本文中，“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中，而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

已参考上述实施例具体示出并描述了本发明的示例性系统及方法，其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。

Claims

1.一种欺诈识别模型生成方法，其特征在于，包括：

根据所确定的所述多阈值变量与所述标签的正负相关性处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量；

将所述第一单阈值变量和第二单阈值变量映射成初始规则；

2.根据权利要求1所述的欺诈识别模型生成方法，其特征在于，所述根据所确定的所述多阈值变量与所述标签的正负相关性处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量，包括：

3.根据权利要求2所述的欺诈识别模型生成方法，其特征在于，所述确定所述多阈值变量与所述欺诈识别标签的正负相关性，包括：

利用多个风控样本数据计算所述多阈值变量与所述欺诈识别标签之间的相关性系数和单调性；

若为其他，则确定所述多阈值变量与所述标签零(0)相关。

4.根据权利要求3所述的欺诈识别模型生成方法，其特征在于，所述处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量，包括：

5.根据权利要求1至4中任一项所述的欺诈识别模型生成方法，其特征在于，所述对所述样本集的多个风控样本数据进行分箱，包括：

对所述样本集的所述多个风控样本数据进行决策树分箱。

6.根据权利要求5所述的欺诈识别模型生成方法，其特征在于，所述决策树分箱为二分类式CART决策树分箱。

7.根据权利要求6所述的欺诈识别模型生成方法，其特征在于，所述对所述样本集的所述多个风控样本数据进行决策树分箱，包括：

针对根节点：

针对子节点：

8.根据权利要求1至7中任一项所述的欺诈识别模型生成方法，其特征在于，所述对所述初始规则进行处理以生成包含多项最终规则的最终规则集，包括：

筛掉欺诈识别效果小于第二效果阈值的初始规则；

其中，所述第一效果阈值大于所述第二效果阈值。

9.根据权利要求8所述的欺诈识别模型生成方法，其特征在于，所述对所述初始规则进行处理以生成包含多项最终规则的最终规则集，还包括：

10.根据权利要求9所述的欺诈识别模型生成方法，其特征在于，所述对所述初始规则进行处理以生成包含多项最终规则的最终规则集，还包括：

11.根据权利要求10所述的欺诈识别模型生成方法，其特征在于，所述合并所述第一规则集和所述第三规则集以获得所述最终规则集，包括：

12.根据权利要求8至11中任一项所述的欺诈识别模型生成方法，其特征在于，所述选择欺诈识别效果参数小于第一效果阈值且大于等于第二效果阈值的初始规则放入第二规则集，包括：

13.根据权利要求8至11中任一项所述的欺诈识别模型生成方法，其特征在于，所述选择欺诈识别效果参数小于第一效果阈值且大于等于第二效果阈值的初始规则放入第二规则集，包括：

计算待放入第二规则集的初始规则与所述第二规则集中已有的初始规则之间以及与第一规则集中的初始规则之间的相关性；

14.根据权利要求9至11中任一项所述的欺诈识别模型生成方法，其特征在于，所述将所述第二规则集中的初始规则进行交叉以获得包含多项交叉规则的交叉的第三规则集，包括：

从所述第三规则集删掉小于第三效果阈值的多项交叉规则。

15.一种欺诈识别方法，其特征在于，包括：

其中，所述欺诈识别模型由根据权利要求1至14中任一项所述的欺诈识别模型生成方法生成。

16.一种欺诈识别模型生成装置，其特征在于，包括：

第一处理模块，配置成根据所确定的所述多阈值变量与所述标签的正负相关性处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量；

17.一种电子设备，其特征在于，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行根据权利要求1至15中任一项所述的方法。

18.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行根据权利要求1至15中任一项所述的方法。